Endliche Automaten Grundlagen: Alphabet, Zeichenreihe, Sprache Karin Haenelt 1
Alphabet, Zeichenreihe und Sprache Alphabet unzerlegbare Einzelzeichen Verwendung: als Eingabe- und Ausgabezeichen eines endlichen Automaten Zeichenreihe Reihe aus Alphabetzeichen Verwendung: als Eingabe- und Ausgabesequenz eines Automaten Sprache Menge von Zeichenreihen aus Eingabezeichen interessante Mengen: Menge der von einem Automaten akzeptierten Zeichenreihen Menge der von einem Automaten nicht akzeptierten Zeichenreihen Menge der Zeichenreihen einer Menschensprache 2
Alphabet Alphabet Symbol endliche Menge von Symbolen unzerlegbares Grundzeichen unzerlegbar bezüglich der Art der Betrachtung, um die es gerade geht Beispiele - Σ = {0,1} das binäre Alphabet - Σ = { Ä, A, B,... Z. ä, a, b,..., z} das Alphabet der deutschen Sprache - Σ = { adje, dete, nomn} ein Alphabet der morphosyntaktischen Kategorien 3
Zeichenreihe auch: Zeichenkette oder Wort Zeichenreihe endliche Folge von Symbolen eines bestimmten Alphabets (Zeichenreihe über Σ ) - Formale Schreibweise: mit runden Klammern und Kommata zwischen den einzelnen Zeichen. (n-tupel Schreibweise einer Folge) - Übliche Schreibweise: Zeichenreihe als Zeichenkette ohne Klammern und Kommata Beispiele - Σ = {0,1} ( 1,1,0,0,1 ) bzw. 11001 - Σ = { Ä, A, B,... Z. ä, a, b,..., z} ( B, e, i, s, p, i, e, l) bzw. Beispiel - Σ = { adje, dete, nomn} ( dete, adje, nomn) 4
Sprache Sprache eine Menge von Zeichenreihen aus Σ es gilt -, die leere Sprache ist eine Sprache - {ε }, die Menge, die nur die leere Zeichenreihe enthält, ist eine Sprache - Σ, die Universalsprache, die aus der Menge aller Zeichenreihen über einem Alphabet besteht, ist eine Sprache Beispiele - Σ = {0,1} dann ist z.b. die Menge der Binärzahlen, deren Wert eine Primzahl ist, eine Teilmenge aus Σ 5
Deutsche Sprache Σ Sei unser Alphabet, das aus allen Wörtern eines deutschen Wörterbuches besteht. Jedes einzelne Wort stellt also ein Symbol unseres Beispielalphabets dar. Die Menge Σ besteht dann aus allen endlichen Sequenzen von Worten (einschließlich der leeren Sequenz). Eine interessante Teilmenge L von Σ besteht aus den Wortsequenzen, die Sätze der deutschen Sprache sind. Wir können diese Menge L auch die deutsche Sprache nennen. Eine linguistische Aufgabe ist es, regelhaft zu beschreiben, welche Teilmengen aus L zur deutschen Sprache gehören und welche nicht. (Beispiel nach Lawson, 2005: 6) 6
Literatur Hopcroft, John E. und Jeffrey D. Ullman (1988). Einführung in die Automatentheorie, formale Sprachen und Komplexitätstheorie. Bonn u. a.: Addison-Wesley, 1988 (engl. Original Introduction to automata theory, languages and computation). Hopcroft, John E., Rajeev Motwani und Jeffrey D. Ullman (2002). Einführung in die Automatentheorie, Formale Sprachen und Komplexität. Pearson Studium engl. Original: Introduction to Automata Theory, Languages and Computation. Kunze, Jürgen (2001). Computerlinguistik. Voraussetzungen, Grundlagen, Werkzeuge. Vorlesungsskript. Humboldt Universität zu Berlin. http://www2.rz.huberlin.de/compling/lehrstuhl/skripte/computerlinguistik_1/index.html Lawson, Mark V. (2005). Finite automata. In: Hritsu-Varsakelis, D. und W.S.Levine (Hg).: Handbook of networked and embedded Control Systems. Lawson, Mark V. (2004). Finite Automata. Boca Raton, London, New York, Washington D.C.: Chapman&Hall/CRC. Roche, Emmanuel & Schabes, Yves (1997). Introduction. In: Roche, Emmanuel & Schabes, Yves (Eds.): Finite-State Language Processing.Cambridge, Mass.: MIT Press. 7