Erkennung fremdsprachiger Ausdrücke im Text

Größe: px
Ab Seite anzeigen:

Download "Erkennung fremdsprachiger Ausdrücke im Text"

Transkript

1 Erkennung fremdsprachiger Ausdrücke im Text Jekaterina Siilivask Betreuer: Dr. Helmut Schmid Centrum für Informations- und Sprachbearbeiting Ludwig- Maximilians- Universität München Jekaterina Siilivask (LMU München) Erkennung fremdsprachiger Ausdrücke im Text / 22

2 Inhalt 1 Einführung 2 Theoretische Basis N-Gramm Modelle Conditional Random Fields Kombiniertes Modell 3 Daten 4 Praktische Umsetzung 5 Ergebnisse 6 Zusammenfassung Jekaterina Siilivask (LMU München) Erkennung fremdsprachiger Ausdrücke im Text / 22

3 Einführung Inhalt 1 Einführung 2 Theoretische Basis N-Gramm Modelle Conditional Random Fields Kombiniertes Modell 3 Daten 4 Praktische Umsetzung 5 Ergebnisse 6 Zusammenfassung Jekaterina Siilivask (LMU München) Erkennung fremdsprachiger Ausdrücke im Text / 22

4 Einführung Definition vom Problem und Motivation Multilinguale Texte CL Anwendungen sind auf monolinguale Daten orientiert Mögliche Fehler Jekaterina Siilivask (LMU München) Erkennung fremdsprachiger Ausdrücke im Text / 22

5 Einführung Definition vom Problem und Motivation Multilinguale Texte CL Anwendungen sind auf monolinguale Daten orientiert Mögliche Fehler Jekaterina Siilivask (LMU München) Erkennung fremdsprachiger Ausdrücke im Text / 22

6 Einführung Definition vom Problem und Motivation Multilinguale Texte CL Anwendungen sind auf monolinguale Daten orientiert Mögliche Fehler Jekaterina Siilivask (LMU München) Erkennung fremdsprachiger Ausdrücke im Text / 22

7 Einführung Aufgabestellung Erkennung von englischen Wörtern und Ausdrücken im deutschen Text und umgekehrt Sprachidentifizierung auf der Wortebene Umsetzung und Vergleich von unterschiedlichen Ansätzen Langfristig: Vorlage für einen Übersetzungsassistenten Jekaterina Siilivask (LMU München) Erkennung fremdsprachiger Ausdrücke im Text / 22

8 Einführung Aufgabestellung Erkennung von englischen Wörtern und Ausdrücken im deutschen Text und umgekehrt Sprachidentifizierung auf der Wortebene Umsetzung und Vergleich von unterschiedlichen Ansätzen Langfristig: Vorlage für einen Übersetzungsassistenten Jekaterina Siilivask (LMU München) Erkennung fremdsprachiger Ausdrücke im Text / 22

9 Einführung Aufgabestellung Erkennung von englischen Wörtern und Ausdrücken im deutschen Text und umgekehrt Sprachidentifizierung auf der Wortebene Umsetzung und Vergleich von unterschiedlichen Ansätzen Langfristig: Vorlage für einen Übersetzungsassistenten Jekaterina Siilivask (LMU München) Erkennung fremdsprachiger Ausdrücke im Text / 22

10 Einführung Aufgabestellung Erkennung von englischen Wörtern und Ausdrücken im deutschen Text und umgekehrt Sprachidentifizierung auf der Wortebene Umsetzung und Vergleich von unterschiedlichen Ansätzen Langfristig: Vorlage für einen Übersetzungsassistenten Jekaterina Siilivask (LMU München) Erkennung fremdsprachiger Ausdrücke im Text / 22

11 Theoretische Basis Inhalt 1 Einführung 2 Theoretische Basis N-Gramm Modelle Conditional Random Fields Kombiniertes Modell 3 Daten 4 Praktische Umsetzung 5 Ergebnisse 6 Zusammenfassung Jekaterina Siilivask (LMU München) Erkennung fremdsprachiger Ausdrücke im Text / 22

12 Theoretische Basis N-Gramm Modelle N-Gramm Modelle Markowmodelle über Vorwärts- und Rückwärtsbuchstabenfolgen p(t L) = n i=1 p L (a i a i k,...,a i 1 ) n i=1 p L (a i k a i,...,a i k+1 ) Berechnung von Wahrscheinlichkeiten von 1- bis 5-Grammen Interpolierte Kneser-Ney Glättung mit Discounting p(a n a 1...a n 1 ) = f(a 1...a n ) δ n f(a n...a n 1 ) + α(a 1...a n 1 ) p(a n a 2...a n 1 ) Jekaterina Siilivask (LMU München) Erkennung fremdsprachiger Ausdrücke im Text / 22

13 Theoretische Basis N-Gramm Modelle N-Gramm Modelle Markowmodelle über Vorwärts- und Rückwärtsbuchstabenfolgen p(t L) = n i=1 p L (a i a i k,...,a i 1 ) n i=1 p L (a i k a i,...,a i k+1 ) Berechnung von Wahrscheinlichkeiten von 1- bis 5-Grammen Interpolierte Kneser-Ney Glättung mit Discounting p(a n a 1...a n 1 ) = f(a 1...a n ) δ n f(a n...a n 1 ) + α(a 1...a n 1 ) p(a n a 2...a n 1 ) Jekaterina Siilivask (LMU München) Erkennung fremdsprachiger Ausdrücke im Text / 22

14 Theoretische Basis N-Gramm Modelle N-Gramm Modelle Markowmodelle über Vorwärts- und Rückwärtsbuchstabenfolgen p(t L) = n i=1 p L (a i a i k,...,a i 1 ) n i=1 p L (a i k a i,...,a i k+1 ) Berechnung von Wahrscheinlichkeiten von 1- bis 5-Grammen Interpolierte Kneser-Ney Glättung mit Discounting p(a n a 1...a n 1 ) = f(a 1...a n ) δ n f(a n...a n 1 ) + α(a 1...a n 1 ) p(a n a 2...a n 1 ) Jekaterina Siilivask (LMU München) Erkennung fremdsprachiger Ausdrücke im Text / 22

15 Theoretische Basis N-Gramm Modelle N-Gramm Modelle Markowmodelle über Vorwärts- und Rückwärtsbuchstabenfolgen p(t L) = n i=1 p L (a i a i k,...,a i 1 ) n i=1 p L (a i k a i,...,a i k+1 ) Berechnung von Wahrscheinlichkeiten von 1- bis 5-Grammen Interpolierte Kneser-Ney Glättung mit Discounting p(a n a 1...a n 1 ) = f(a 1...a n ) δ n f(a n...a n 1 ) + α(a 1...a n 1 ) p(a n a 2...a n 1 ) Jekaterina Siilivask (LMU München) Erkennung fremdsprachiger Ausdrücke im Text / 22

16 Theoretische Basis N-Gramm Modelle N-Gramm Modelle Markowmodelle über Vorwärts- und Rückwärtsbuchstabenfolgen p(t L) = n i=1 p L (a i a i k,...,a i 1 ) n i=1 p L (a i k a i,...,a i k+1 ) Berechnung von Wahrscheinlichkeiten von 1- bis 5-Grammen Interpolierte Kneser-Ney Glättung mit Discounting p(a n a 1...a n 1 ) = f(a 1...a n ) δ n f(a n...a n 1 ) + α(a 1...a n 1 ) p(a n a 2...a n 1 ) Jekaterina Siilivask (LMU München) Erkennung fremdsprachiger Ausdrücke im Text / 22

17 Theoretische Basis N-Gramm Modelle N-Gramm Modelle Training Erkennung Vorwärts- und Rückwärtsmodelle für Deutsch und Englisch Berechnung: relative Wahrscheinlichkeiten, Discounts, Backoff-Faktoren exi Exi sugg adl tio E-4 Zerlegung von einzelnen Tokens in N-Gramme Logarithmierte Wahrscheinlichkeiten der Zugehörigkeit zu jedem Modell Kombinieren von Vorwärts- und Rückwärtswahrscheinlichkeiten Sprache des Wortes - Sprache mit höchster Wahrscheinlichkeit Jekaterina Siilivask (LMU München) Erkennung fremdsprachiger Ausdrücke im Text / 22

18 Theoretische Basis N-Gramm Modelle N-Gramm Modelle Training Erkennung Vorwärts- und Rückwärtsmodelle für Deutsch und Englisch Berechnung: relative Wahrscheinlichkeiten, Discounts, Backoff-Faktoren exi Exi sugg adl tio E-4 Zerlegung von einzelnen Tokens in N-Gramme Logarithmierte Wahrscheinlichkeiten der Zugehörigkeit zu jedem Modell Kombinieren von Vorwärts- und Rückwärtswahrscheinlichkeiten Sprache des Wortes - Sprache mit höchster Wahrscheinlichkeit Jekaterina Siilivask (LMU München) Erkennung fremdsprachiger Ausdrücke im Text / 22

19 Theoretische Basis N-Gramm Modelle N-Gramm Modelle Training Erkennung Vorwärts- und Rückwärtsmodelle für Deutsch und Englisch Berechnung: relative Wahrscheinlichkeiten, Discounts, Backoff-Faktoren exi Exi sugg adl tio E-4 Zerlegung von einzelnen Tokens in N-Gramme Logarithmierte Wahrscheinlichkeiten der Zugehörigkeit zu jedem Modell Kombinieren von Vorwärts- und Rückwärtswahrscheinlichkeiten Sprache des Wortes - Sprache mit höchster Wahrscheinlichkeit Jekaterina Siilivask (LMU München) Erkennung fremdsprachiger Ausdrücke im Text / 22

20 Theoretische Basis N-Gramm Modelle N-Gramm Modelle Training Erkennung Vorwärts- und Rückwärtsmodelle für Deutsch und Englisch Berechnung: relative Wahrscheinlichkeiten, Discounts, Backoff-Faktoren exi Exi sugg adl tio E-4 Zerlegung von einzelnen Tokens in N-Gramme Logarithmierte Wahrscheinlichkeiten der Zugehörigkeit zu jedem Modell Kombinieren von Vorwärts- und Rückwärtswahrscheinlichkeiten Sprache des Wortes - Sprache mit höchster Wahrscheinlichkeit Jekaterina Siilivask (LMU München) Erkennung fremdsprachiger Ausdrücke im Text / 22

21 Theoretische Basis N-Gramm Modelle N-Gramm Modelle Training Erkennung Vorwärts- und Rückwärtsmodelle für Deutsch und Englisch Berechnung: relative Wahrscheinlichkeiten, Discounts, Backoff-Faktoren exi Exi sugg adl tio E-4 Zerlegung von einzelnen Tokens in N-Gramme Logarithmierte Wahrscheinlichkeiten der Zugehörigkeit zu jedem Modell Kombinieren von Vorwärts- und Rückwärtswahrscheinlichkeiten Sprache des Wortes - Sprache mit höchster Wahrscheinlichkeit Jekaterina Siilivask (LMU München) Erkennung fremdsprachiger Ausdrücke im Text / 22

22 Theoretische Basis N-Gramm Modelle N-Gramm Modelle Training Erkennung Vorwärts- und Rückwärtsmodelle für Deutsch und Englisch Berechnung: relative Wahrscheinlichkeiten, Discounts, Backoff-Faktoren exi Exi sugg adl tio E-4 Zerlegung von einzelnen Tokens in N-Gramme Logarithmierte Wahrscheinlichkeiten der Zugehörigkeit zu jedem Modell Kombinieren von Vorwärts- und Rückwärtswahrscheinlichkeiten Sprache des Wortes - Sprache mit höchster Wahrscheinlichkeit Jekaterina Siilivask (LMU München) Erkennung fremdsprachiger Ausdrücke im Text / 22

23 Theoretische Basis N-Gramm Modelle N-Gramm Modelle Training Erkennung Vorwärts- und Rückwärtsmodelle für Deutsch und Englisch Berechnung: relative Wahrscheinlichkeiten, Discounts, Backoff-Faktoren exi Exi sugg adl tio E-4 Zerlegung von einzelnen Tokens in N-Gramme Logarithmierte Wahrscheinlichkeiten der Zugehörigkeit zu jedem Modell Kombinieren von Vorwärts- und Rückwärtswahrscheinlichkeiten Sprache des Wortes - Sprache mit höchster Wahrscheinlichkeit Jekaterina Siilivask (LMU München) Erkennung fremdsprachiger Ausdrücke im Text / 22

24 Theoretische Basis N-Gramm Modelle N-Gramm Modelle Training Erkennung Vorwärts- und Rückwärtsmodelle für Deutsch und Englisch Berechnung: relative Wahrscheinlichkeiten, Discounts, Backoff-Faktoren exi Exi sugg adl tio E-4 Zerlegung von einzelnen Tokens in N-Gramme Logarithmierte Wahrscheinlichkeiten der Zugehörigkeit zu jedem Modell Kombinieren von Vorwärts- und Rückwärtswahrscheinlichkeiten Sprache des Wortes - Sprache mit höchster Wahrscheinlichkeit Jekaterina Siilivask (LMU München) Erkennung fremdsprachiger Ausdrücke im Text / 22

25 Theoretische Basis Conditional Random Fields Conditional Random Fields Merkmale von einzelnen Wörtern Merkmalvektoren Freiwillig verlässt hardly anybody das Haus. Y UMLAUT IS_CAP EI DOUBLE_CONS Training: Schätzung von Gewichten der Merkmalen Jekaterina Siilivask (LMU München) Erkennung fremdsprachiger Ausdrücke im Text / 22

26 Theoretische Basis Conditional Random Fields Conditional Random Fields Merkmale von einzelnen Wörtern Merkmalvektoren Freiwillig verlässt hardly anybody das Haus. Y UMLAUT IS_CAP EI DOUBLE_CONS Training: Schätzung von Gewichten der Merkmalen Jekaterina Siilivask (LMU München) Erkennung fremdsprachiger Ausdrücke im Text / 22

27 Theoretische Basis Conditional Random Fields Conditional Random Fields Merkmale von einzelnen Wörtern Merkmalvektoren Freiwillig verlässt hardly anybody das Haus. Y UMLAUT IS_CAP EI DOUBLE_CONS Training: Schätzung von Gewichten der Merkmalen Jekaterina Siilivask (LMU München) Erkennung fremdsprachiger Ausdrücke im Text / 22

28 Theoretische Basis Conditional Random Fields Conditional Random Fields Merkmale von einzelnen Wörtern Merkmalvektoren Freiwillig verlässt hardly anybody das Haus. Y UMLAUT IS_CAP EI DOUBLE_CONS Training: Schätzung von Gewichten der Merkmalen Jekaterina Siilivask (LMU München) Erkennung fremdsprachiger Ausdrücke im Text / 22

29 Theoretische Basis Conditional Random Fields CRF Merkmale Handgeschriebene Regeln Linguistische Merkmale Sprachspezifische Kombinationen von Buchstaben, Buchstabenklassen Frequenz von Wörtern im Trainingskorpus Training: alle Merkmale berücksichtigt Erkennung: unterschiedliche Sets von Merkmalen abhängig von der Hauptsprache des Textes Jekaterina Siilivask (LMU München) Erkennung fremdsprachiger Ausdrücke im Text / 22

30 Theoretische Basis Conditional Random Fields CRF Merkmale Handgeschriebene Regeln Linguistische Merkmale Sprachspezifische Kombinationen von Buchstaben, Buchstabenklassen Frequenz von Wörtern im Trainingskorpus Training: alle Merkmale berücksichtigt Erkennung: unterschiedliche Sets von Merkmalen abhängig von der Hauptsprache des Textes Jekaterina Siilivask (LMU München) Erkennung fremdsprachiger Ausdrücke im Text / 22

31 Theoretische Basis Conditional Random Fields CRF Merkmale Handgeschriebene Regeln Linguistische Merkmale Sprachspezifische Kombinationen von Buchstaben, Buchstabenklassen Frequenz von Wörtern im Trainingskorpus Training: alle Merkmale berücksichtigt Erkennung: unterschiedliche Sets von Merkmalen abhängig von der Hauptsprache des Textes Jekaterina Siilivask (LMU München) Erkennung fremdsprachiger Ausdrücke im Text / 22

32 Theoretische Basis Conditional Random Fields CRF Merkmale Handgeschriebene Regeln Linguistische Merkmale Sprachspezifische Kombinationen von Buchstaben, Buchstabenklassen Frequenz von Wörtern im Trainingskorpus Training: alle Merkmale berücksichtigt Erkennung: unterschiedliche Sets von Merkmalen abhängig von der Hauptsprache des Textes Jekaterina Siilivask (LMU München) Erkennung fremdsprachiger Ausdrücke im Text / 22

33 Theoretische Basis Conditional Random Fields CRF Merkmale Handgeschriebene Regeln Linguistische Merkmale Sprachspezifische Kombinationen von Buchstaben, Buchstabenklassen Frequenz von Wörtern im Trainingskorpus Training: alle Merkmale berücksichtigt Erkennung: unterschiedliche Sets von Merkmalen abhängig von der Hauptsprache des Textes Jekaterina Siilivask (LMU München) Erkennung fremdsprachiger Ausdrücke im Text / 22

34 Theoretische Basis Conditional Random Fields CRF Merkmale Handgeschriebene Regeln Linguistische Merkmale Sprachspezifische Kombinationen von Buchstaben, Buchstabenklassen Frequenz von Wörtern im Trainingskorpus Training: alle Merkmale berücksichtigt Erkennung: unterschiedliche Sets von Merkmalen abhängig von der Hauptsprache des Textes Jekaterina Siilivask (LMU München) Erkennung fremdsprachiger Ausdrücke im Text / 22

35 Theoretische Basis Kombiniertes Modell Kombiniertes Modell Kombinieren von den N-Gramm und CRF Ansätzen Stacking Ergebnis der N-Gramm basierten Erkennung - Merkmal für das CRF Modell Jekaterina Siilivask (LMU München) Erkennung fremdsprachiger Ausdrücke im Text / 22

36 Theoretische Basis Kombiniertes Modell Kombiniertes Modell Kombinieren von den N-Gramm und CRF Ansätzen Stacking Ergebnis der N-Gramm basierten Erkennung - Merkmal für das CRF Modell Jekaterina Siilivask (LMU München) Erkennung fremdsprachiger Ausdrücke im Text / 22

37 Theoretische Basis Kombiniertes Modell Kombiniertes Modell Kombinieren von den N-Gramm und CRF Ansätzen Stacking Ergebnis der N-Gramm basierten Erkennung - Merkmal für das CRF Modell Jekaterina Siilivask (LMU München) Erkennung fremdsprachiger Ausdrücke im Text / 22

38 Daten Inhalt 1 Einführung 2 Theoretische Basis N-Gramm Modelle Conditional Random Fields Kombiniertes Modell 3 Daten 4 Praktische Umsetzung 5 Ergebnisse 6 Zusammenfassung Jekaterina Siilivask (LMU München) Erkennung fremdsprachiger Ausdrücke im Text / 22

39 Daten Daten Monolinguale Trainingsdaten aus Europarl Jeweils 2 Sets von Entwicklungs- und Testdaten Gemischte Texte mit 500 fremdsprachigen Einheiten in jedem Goldstandard mit bereits annotierten fremdsprachigen Einheiten the book given as a source is a <f>richtige</f> reference Jekaterina Siilivask (LMU München) Erkennung fremdsprachiger Ausdrücke im Text / 22

40 Daten Daten Monolinguale Trainingsdaten aus Europarl Jeweils 2 Sets von Entwicklungs- und Testdaten Gemischte Texte mit 500 fremdsprachigen Einheiten in jedem Goldstandard mit bereits annotierten fremdsprachigen Einheiten the book given as a source is a <f>richtige</f> reference Jekaterina Siilivask (LMU München) Erkennung fremdsprachiger Ausdrücke im Text / 22

41 Daten Daten Monolinguale Trainingsdaten aus Europarl Jeweils 2 Sets von Entwicklungs- und Testdaten Gemischte Texte mit 500 fremdsprachigen Einheiten in jedem Goldstandard mit bereits annotierten fremdsprachigen Einheiten the book given as a source is a <f>richtige</f> reference Jekaterina Siilivask (LMU München) Erkennung fremdsprachiger Ausdrücke im Text / 22

42 Daten Daten Monolinguale Trainingsdaten aus Europarl Jeweils 2 Sets von Entwicklungs- und Testdaten Gemischte Texte mit 500 fremdsprachigen Einheiten in jedem Goldstandard mit bereits annotierten fremdsprachigen Einheiten the book given as a source is a <f>richtige</f> reference Jekaterina Siilivask (LMU München) Erkennung fremdsprachiger Ausdrücke im Text / 22

43 Praktische Umsetzung Inhalt 1 Einführung 2 Theoretische Basis N-Gramm Modelle Conditional Random Fields Kombiniertes Modell 3 Daten 4 Praktische Umsetzung 5 Ergebnisse 6 Zusammenfassung Jekaterina Siilivask (LMU München) Erkennung fremdsprachiger Ausdrücke im Text / 22

44 Praktische Umsetzung Praktische Umsetzung Anwendung: Programmiersprache Java Externe Bibliotheken: Apache OpenNLP: N-Gramm Zerlegung, Tokenisierung LingPipe: CRF Vobereitungsarbeiten: Programmiersprache Perl Reguläre Ausdrücke Jekaterina Siilivask (LMU München) Erkennung fremdsprachiger Ausdrücke im Text / 22

45 Praktische Umsetzung Praktische Umsetzung Anwendung: Programmiersprache Java Externe Bibliotheken: Apache OpenNLP: N-Gramm Zerlegung, Tokenisierung LingPipe: CRF Vobereitungsarbeiten: Programmiersprache Perl Reguläre Ausdrücke Jekaterina Siilivask (LMU München) Erkennung fremdsprachiger Ausdrücke im Text / 22

46 Praktische Umsetzung Praktische Umsetzung Anwendung: Programmiersprache Java Externe Bibliotheken: Apache OpenNLP: N-Gramm Zerlegung, Tokenisierung LingPipe: CRF Vobereitungsarbeiten: Programmiersprache Perl Reguläre Ausdrücke Jekaterina Siilivask (LMU München) Erkennung fremdsprachiger Ausdrücke im Text / 22

47 Praktische Umsetzung Praktische Umsetzung Anwendung: Programmiersprache Java Externe Bibliotheken: Apache OpenNLP: N-Gramm Zerlegung, Tokenisierung LingPipe: CRF Vobereitungsarbeiten: Programmiersprache Perl Reguläre Ausdrücke Jekaterina Siilivask (LMU München) Erkennung fremdsprachiger Ausdrücke im Text / 22

48 Praktische Umsetzung Praktische Umsetzung Anwendung: Programmiersprache Java Externe Bibliotheken: Apache OpenNLP: N-Gramm Zerlegung, Tokenisierung LingPipe: CRF Vobereitungsarbeiten: Programmiersprache Perl Reguläre Ausdrücke Jekaterina Siilivask (LMU München) Erkennung fremdsprachiger Ausdrücke im Text / 22

49 Praktische Umsetzung Praktische Umsetzung Anwendung: Programmiersprache Java Externe Bibliotheken: Apache OpenNLP: N-Gramm Zerlegung, Tokenisierung LingPipe: CRF Vobereitungsarbeiten: Programmiersprache Perl Reguläre Ausdrücke Jekaterina Siilivask (LMU München) Erkennung fremdsprachiger Ausdrücke im Text / 22

50 Praktische Umsetzung Praktische Umsetzung Anwendung: Programmiersprache Java Externe Bibliotheken: Apache OpenNLP: N-Gramm Zerlegung, Tokenisierung LingPipe: CRF Vobereitungsarbeiten: Programmiersprache Perl Reguläre Ausdrücke Jekaterina Siilivask (LMU München) Erkennung fremdsprachiger Ausdrücke im Text / 22

51 Praktische Umsetzung Praktische Umsetzung Anwendung: Programmiersprache Java Externe Bibliotheken: Apache OpenNLP: N-Gramm Zerlegung, Tokenisierung LingPipe: CRF Vobereitungsarbeiten: Programmiersprache Perl Reguläre Ausdrücke Jekaterina Siilivask (LMU München) Erkennung fremdsprachiger Ausdrücke im Text / 22

52 Praktische Umsetzung Praktische Umsetzung Training Erkennung Evaluation Jekaterina Siilivask (LMU München) Erkennung fremdsprachiger Ausdrücke im Text / 22

53 Praktische Umsetzung Jekaterina Siilivask (LMU München) Erkennung fremdsprachiger Ausdrücke im Text / 22

54 Ergebnisse Inhalt 1 Einführung 2 Theoretische Basis N-Gramm Modelle Conditional Random Fields Kombiniertes Modell 3 Daten 4 Praktische Umsetzung 5 Ergebnisse 6 Zusammenfassung Jekaterina Siilivask (LMU München) Erkennung fremdsprachiger Ausdrücke im Text / 22

55 Ergebnisse Evaluation Auswertung mittels Precision, Recall und F-Measure gegen Goldstandard Entwicklungsdaten Testdaten: bessere Ergebnisse Beste F-Measure beim kombinierten Modell Precision höher als Recall Erkennung von deutschen Ausdrücken im englischen Text genauer als umgekehrt Ausgabe von false negatives und false positives in die LOG-Datei :06:30 TRACE EvaluationUtil - False negative: in :06:30 TRACE EvaluationUtil - False positive: textilen :06:30 TRACE EvaluationUtil - False negative: design Jekaterina Siilivask (LMU München) Erkennung fremdsprachiger Ausdrücke im Text / 22

56 Ergebnisse Evaluation Auswertung mittels Precision, Recall und F-Measure gegen Goldstandard Entwicklungsdaten Testdaten: bessere Ergebnisse Beste F-Measure beim kombinierten Modell Precision höher als Recall Erkennung von deutschen Ausdrücken im englischen Text genauer als umgekehrt Ausgabe von false negatives und false positives in die LOG-Datei :06:30 TRACE EvaluationUtil - False negative: in :06:30 TRACE EvaluationUtil - False positive: textilen :06:30 TRACE EvaluationUtil - False negative: design Jekaterina Siilivask (LMU München) Erkennung fremdsprachiger Ausdrücke im Text / 22

57 Ergebnisse Evaluation Auswertung mittels Precision, Recall und F-Measure gegen Goldstandard Entwicklungsdaten Testdaten: bessere Ergebnisse Beste F-Measure beim kombinierten Modell Precision höher als Recall Erkennung von deutschen Ausdrücken im englischen Text genauer als umgekehrt Ausgabe von false negatives und false positives in die LOG-Datei :06:30 TRACE EvaluationUtil - False negative: in :06:30 TRACE EvaluationUtil - False positive: textilen :06:30 TRACE EvaluationUtil - False negative: design Jekaterina Siilivask (LMU München) Erkennung fremdsprachiger Ausdrücke im Text / 22

58 Ergebnisse Evaluation Auswertung mittels Precision, Recall und F-Measure gegen Goldstandard Entwicklungsdaten Testdaten: bessere Ergebnisse Beste F-Measure beim kombinierten Modell Precision höher als Recall Erkennung von deutschen Ausdrücken im englischen Text genauer als umgekehrt Ausgabe von false negatives und false positives in die LOG-Datei :06:30 TRACE EvaluationUtil - False negative: in :06:30 TRACE EvaluationUtil - False positive: textilen :06:30 TRACE EvaluationUtil - False negative: design Jekaterina Siilivask (LMU München) Erkennung fremdsprachiger Ausdrücke im Text / 22

59 Ergebnisse Evaluation Auswertung mittels Precision, Recall und F-Measure gegen Goldstandard Entwicklungsdaten Testdaten: bessere Ergebnisse Beste F-Measure beim kombinierten Modell Precision höher als Recall Erkennung von deutschen Ausdrücken im englischen Text genauer als umgekehrt Ausgabe von false negatives und false positives in die LOG-Datei :06:30 TRACE EvaluationUtil - False negative: in :06:30 TRACE EvaluationUtil - False positive: textilen :06:30 TRACE EvaluationUtil - False negative: design Jekaterina Siilivask (LMU München) Erkennung fremdsprachiger Ausdrücke im Text / 22

60 Ergebnisse Evaluation Auswertung mittels Precision, Recall und F-Measure gegen Goldstandard Entwicklungsdaten Testdaten: bessere Ergebnisse Beste F-Measure beim kombinierten Modell Precision höher als Recall Erkennung von deutschen Ausdrücken im englischen Text genauer als umgekehrt Ausgabe von false negatives und false positives in die LOG-Datei :06:30 TRACE EvaluationUtil - False negative: in :06:30 TRACE EvaluationUtil - False positive: textilen :06:30 TRACE EvaluationUtil - False negative: design Jekaterina Siilivask (LMU München) Erkennung fremdsprachiger Ausdrücke im Text / 22

61 Ergebnisse Evaluation Auswertung mittels Precision, Recall und F-Measure gegen Goldstandard Entwicklungsdaten Testdaten: bessere Ergebnisse Beste F-Measure beim kombinierten Modell Precision höher als Recall Erkennung von deutschen Ausdrücken im englischen Text genauer als umgekehrt Ausgabe von false negatives und false positives in die LOG-Datei :06:30 TRACE EvaluationUtil - False negative: in :06:30 TRACE EvaluationUtil - False positive: textilen :06:30 TRACE EvaluationUtil - False negative: design Jekaterina Siilivask (LMU München) Erkennung fremdsprachiger Ausdrücke im Text / 22

62 Zusammenfassung Inhalt 1 Einführung 2 Theoretische Basis N-Gramm Modelle Conditional Random Fields Kombiniertes Modell 3 Daten 4 Praktische Umsetzung 5 Ergebnisse 6 Zusammenfassung Jekaterina Siilivask (LMU München) Erkennung fremdsprachiger Ausdrücke im Text / 22

63 Zusammenfassung Zusammenfassung und Zukünftige Arbeit Strategien zur Erkennung von fremdsprachigen Ausdrücken im Text Entwickeltes System erkennt deutsche Einheiten im englischen Text englische Einheiten im deutschen Text Über 90% Genauigkeit im Durchschnitt Fehlerquellen: gemeinsame Wörter Named Entities kurze Wörter Lösen von Problemen Erweiterungen des Systems Einführung von weiteren Sprachen Verbesserungen der Benutzerschnittstelle Dynamisches Erkennen der Sprache des Wortes während der Eingabe Jekaterina Siilivask (LMU München) Erkennung fremdsprachiger Ausdrücke im Text / 22

64 Zusammenfassung Zusammenfassung und Zukünftige Arbeit Strategien zur Erkennung von fremdsprachigen Ausdrücken im Text Entwickeltes System erkennt deutsche Einheiten im englischen Text englische Einheiten im deutschen Text Über 90% Genauigkeit im Durchschnitt Fehlerquellen: gemeinsame Wörter Named Entities kurze Wörter Lösen von Problemen Erweiterungen des Systems Einführung von weiteren Sprachen Verbesserungen der Benutzerschnittstelle Dynamisches Erkennen der Sprache des Wortes während der Eingabe Jekaterina Siilivask (LMU München) Erkennung fremdsprachiger Ausdrücke im Text / 22

65 Zusammenfassung Zusammenfassung und Zukünftige Arbeit Strategien zur Erkennung von fremdsprachigen Ausdrücken im Text Entwickeltes System erkennt deutsche Einheiten im englischen Text englische Einheiten im deutschen Text Über 90% Genauigkeit im Durchschnitt Fehlerquellen: gemeinsame Wörter Named Entities kurze Wörter Lösen von Problemen Erweiterungen des Systems Einführung von weiteren Sprachen Verbesserungen der Benutzerschnittstelle Dynamisches Erkennen der Sprache des Wortes während der Eingabe Jekaterina Siilivask (LMU München) Erkennung fremdsprachiger Ausdrücke im Text / 22

66 Zusammenfassung Zusammenfassung und Zukünftige Arbeit Strategien zur Erkennung von fremdsprachigen Ausdrücken im Text Entwickeltes System erkennt deutsche Einheiten im englischen Text englische Einheiten im deutschen Text Über 90% Genauigkeit im Durchschnitt Fehlerquellen: gemeinsame Wörter Named Entities kurze Wörter Lösen von Problemen Erweiterungen des Systems Einführung von weiteren Sprachen Verbesserungen der Benutzerschnittstelle Dynamisches Erkennen der Sprache des Wortes während der Eingabe Jekaterina Siilivask (LMU München) Erkennung fremdsprachiger Ausdrücke im Text / 22

67 Zusammenfassung Zusammenfassung und Zukünftige Arbeit Strategien zur Erkennung von fremdsprachigen Ausdrücken im Text Entwickeltes System erkennt deutsche Einheiten im englischen Text englische Einheiten im deutschen Text Über 90% Genauigkeit im Durchschnitt Fehlerquellen: gemeinsame Wörter Named Entities kurze Wörter Lösen von Problemen Erweiterungen des Systems Einführung von weiteren Sprachen Verbesserungen der Benutzerschnittstelle Dynamisches Erkennen der Sprache des Wortes während der Eingabe Jekaterina Siilivask (LMU München) Erkennung fremdsprachiger Ausdrücke im Text / 22

68 Zusammenfassung Zusammenfassung und Zukünftige Arbeit Strategien zur Erkennung von fremdsprachigen Ausdrücken im Text Entwickeltes System erkennt deutsche Einheiten im englischen Text englische Einheiten im deutschen Text Über 90% Genauigkeit im Durchschnitt Fehlerquellen: gemeinsame Wörter Named Entities kurze Wörter Lösen von Problemen Erweiterungen des Systems Einführung von weiteren Sprachen Verbesserungen der Benutzerschnittstelle Dynamisches Erkennen der Sprache des Wortes während der Eingabe Jekaterina Siilivask (LMU München) Erkennung fremdsprachiger Ausdrücke im Text / 22

69 Zusammenfassung Zusammenfassung und Zukünftige Arbeit Strategien zur Erkennung von fremdsprachigen Ausdrücken im Text Entwickeltes System erkennt deutsche Einheiten im englischen Text englische Einheiten im deutschen Text Über 90% Genauigkeit im Durchschnitt Fehlerquellen: gemeinsame Wörter Named Entities kurze Wörter Lösen von Problemen Erweiterungen des Systems Einführung von weiteren Sprachen Verbesserungen der Benutzerschnittstelle Dynamisches Erkennen der Sprache des Wortes während der Eingabe Jekaterina Siilivask (LMU München) Erkennung fremdsprachiger Ausdrücke im Text / 22

70 Zusammenfassung Zusammenfassung und Zukünftige Arbeit Strategien zur Erkennung von fremdsprachigen Ausdrücken im Text Entwickeltes System erkennt deutsche Einheiten im englischen Text englische Einheiten im deutschen Text Über 90% Genauigkeit im Durchschnitt Fehlerquellen: gemeinsame Wörter Named Entities kurze Wörter Lösen von Problemen Erweiterungen des Systems Einführung von weiteren Sprachen Verbesserungen der Benutzerschnittstelle Dynamisches Erkennen der Sprache des Wortes während der Eingabe Jekaterina Siilivask (LMU München) Erkennung fremdsprachiger Ausdrücke im Text / 22

71 Zusammenfassung Zusammenfassung und Zukünftige Arbeit Strategien zur Erkennung von fremdsprachigen Ausdrücken im Text Entwickeltes System erkennt deutsche Einheiten im englischen Text englische Einheiten im deutschen Text Über 90% Genauigkeit im Durchschnitt Fehlerquellen: gemeinsame Wörter Named Entities kurze Wörter Lösen von Problemen Erweiterungen des Systems Einführung von weiteren Sprachen Verbesserungen der Benutzerschnittstelle Dynamisches Erkennen der Sprache des Wortes während der Eingabe Jekaterina Siilivask (LMU München) Erkennung fremdsprachiger Ausdrücke im Text / 22

72 Zusammenfassung Zusammenfassung und Zukünftige Arbeit Strategien zur Erkennung von fremdsprachigen Ausdrücken im Text Entwickeltes System erkennt deutsche Einheiten im englischen Text englische Einheiten im deutschen Text Über 90% Genauigkeit im Durchschnitt Fehlerquellen: gemeinsame Wörter Named Entities kurze Wörter Lösen von Problemen Erweiterungen des Systems Einführung von weiteren Sprachen Verbesserungen der Benutzerschnittstelle Dynamisches Erkennen der Sprache des Wortes während der Eingabe Jekaterina Siilivask (LMU München) Erkennung fremdsprachiger Ausdrücke im Text / 22

73 Zusammenfassung Zusammenfassung und Zukünftige Arbeit Strategien zur Erkennung von fremdsprachigen Ausdrücken im Text Entwickeltes System erkennt deutsche Einheiten im englischen Text englische Einheiten im deutschen Text Über 90% Genauigkeit im Durchschnitt Fehlerquellen: gemeinsame Wörter Named Entities kurze Wörter Lösen von Problemen Erweiterungen des Systems Einführung von weiteren Sprachen Verbesserungen der Benutzerschnittstelle Dynamisches Erkennen der Sprache des Wortes während der Eingabe Jekaterina Siilivask (LMU München) Erkennung fremdsprachiger Ausdrücke im Text / 22

74 Zusammenfassung Zusammenfassung und Zukünftige Arbeit Strategien zur Erkennung von fremdsprachigen Ausdrücken im Text Entwickeltes System erkennt deutsche Einheiten im englischen Text englische Einheiten im deutschen Text Über 90% Genauigkeit im Durchschnitt Fehlerquellen: gemeinsame Wörter Named Entities kurze Wörter Lösen von Problemen Erweiterungen des Systems Einführung von weiteren Sprachen Verbesserungen der Benutzerschnittstelle Dynamisches Erkennen der Sprache des Wortes während der Eingabe Jekaterina Siilivask (LMU München) Erkennung fremdsprachiger Ausdrücke im Text / 22

75 Zusammenfassung Zusammenfassung und Zukünftige Arbeit Strategien zur Erkennung von fremdsprachigen Ausdrücken im Text Entwickeltes System erkennt deutsche Einheiten im englischen Text englische Einheiten im deutschen Text Über 90% Genauigkeit im Durchschnitt Fehlerquellen: gemeinsame Wörter Named Entities kurze Wörter Lösen von Problemen Erweiterungen des Systems Einführung von weiteren Sprachen Verbesserungen der Benutzerschnittstelle Dynamisches Erkennen der Sprache des Wortes während der Eingabe Jekaterina Siilivask (LMU München) Erkennung fremdsprachiger Ausdrücke im Text / 22

76 Zusammenfassung Zusammenfassung und Zukünftige Arbeit Strategien zur Erkennung von fremdsprachigen Ausdrücken im Text Entwickeltes System erkennt deutsche Einheiten im englischen Text englische Einheiten im deutschen Text Über 90% Genauigkeit im Durchschnitt Fehlerquellen: gemeinsame Wörter Named Entities kurze Wörter Lösen von Problemen Erweiterungen des Systems Einführung von weiteren Sprachen Verbesserungen der Benutzerschnittstelle Dynamisches Erkennen der Sprache des Wortes während der Eingabe Jekaterina Siilivask (LMU München) Erkennung fremdsprachiger Ausdrücke im Text / 22

77 Zusammenfassung Danke für die Aufmerksamkeit! Jekaterina Siilivask (LMU München) Erkennung fremdsprachiger Ausdrücke im Text / 22

78 Literaturverzeichnis C. Manning and H. Schütze. Foundations of statistical natural language processing. MIT Press, Cambridge, MA, Yoav Goldberg and Michael Elhadad. Identification of transliterated foreign words in hebrew script. In Alexander F. Gelbukh, editor, CICLing, volume 4919 of Lecture Notes in Computer Science, pages Springer, Stanley F. Chen and Joshua Goodman. An empirical study of smoothing techniques for language modeling. Technical Report TR-10-98, Harvard University, John D. Lafferty, Andrew McCallum, and Fernando C. N. Pereira. Conditional random fields: Probabilistic models for segmenting and labeling sequence data. In Proceedings of the Eighteenth International Conference on Machine Learning, ICML 01, pages , San Francisco, CA, USA, Morgan Kaufmann Publishers Inc. Jekaterina Siilivask (LMU München) Erkennung fremdsprachiger Ausdrücke im Text / 22

79 Literaturverzeichnis Charles Sutton and Andrew Mccallum. Introduction to Conditional Random Fields for Relational Learning. MIT Press, G. Brown. The Grammar of English Grammars. Samuel S. & William Wood, Rat für Deutsche Rechtschreibung. Deutsche Rechtschreibung: Regeln und Wörterverzeichnis ; amtliche Regelung. Narr, Lior Rokach. Ensemble methods for classifiers. In Oded Maimon and Lior Rokach, editors, Data Mining and Knowledge Discovery Handbook, pages Springer US, Jekaterina Siilivask (LMU München) Erkennung fremdsprachiger Ausdrücke im Text / 22

Maschinelle Sprachverarbeitung

Maschinelle Sprachverarbeitung Maschinelle Sprachverarbeitung Übung Aufgabe 5: Gen-Erkennung mit Maschinellen Lernen Mario Sänger Problemstellung Erkennung von Genen in Texten NEU: Beachtung von Multi-Token-Entitäten (B-/I-protein)

Mehr

SEMINAR KLASSIFIKATION & CLUSTERING STATISTISCHE GRUNDLAGEN. Stefan Langer WINTERSEMESTER 2014/15.

SEMINAR KLASSIFIKATION & CLUSTERING STATISTISCHE GRUNDLAGEN. Stefan Langer WINTERSEMESTER 2014/15. SEMINAR KLASSIFIKATION & CLUSTERING WINTERSEMESTER 2014/15 STATISTISCHE GRUNDLAGEN Stefan Langer stefan.langer@cis.uni-muenchen.de Frequenz & Häufigkeit: Übersicht Absolute Häufigkeit Relative Häufigkeit

Mehr

Einführung Beispiele Fazit Links. OpenNLP. Nico Beierle, Irina Glushanok

Einführung Beispiele Fazit Links. OpenNLP. Nico Beierle, Irina Glushanok OpenNLP Nico Beierle, Irina Glushanok 15.11.2012 1 / 21 Inhaltsverzeichnis 1 Einführung Allgemeines Möglichkeiten Installation 2 Beispiele Tools auf Kommandozeile Tokenizer Name Finder Training My Model

Mehr

Corpus based Identification of Text Segments. Thomas Ebert Betreuer: MSc. Martin Schmitt

Corpus based Identification of Text Segments. Thomas Ebert Betreuer: MSc. Martin Schmitt Corpus based Identification of Text Segments Thomas Ebert Betreuer: MSc. Martin Schmitt Übersicht 1. Motivation 2. Ziel der Arbeit 3. Vorgehen 4. Probleme 5. Evaluierung 6. Erkenntnisse und offene Fragen

Mehr

Named Entity Recognition (NER)

Named Entity Recognition (NER) Named Entity Recognition (NER) Katharina Stein 01/12/2017 Named Entity Recognition 1 Inhalt Named Entity Recognition Was ist Named Entity Recognition? Bedeutung für Natural Language Processing Herausforderungen

Mehr

Maschinelle Sprachverarbeitung

Maschinelle Sprachverarbeitung Maschinelle Sprachverarbeitung Übung Aufgabe 4: Regelbasiertes Named Entity Recognition Mario Sänger Informationsextraktionsworkflow Mario Sänger: Maschinelle Sprachverarbeitung - Übung, Wintersemester

Mehr

Einführung in die Computerlinguistik

Einführung in die Computerlinguistik Einführung in die Computerlinguistik Statistische Grundlagen Laura Kallmeyer Heinrich-Heine-Universität Düsseldorf Summer 2016 1 / 21 Diskrete Wahrscheinlichkeitsräume (1) Carstensen et al. (2010), Abschnitt

Mehr

Fachprojekt Data Mining Datenanalyse und Sprache

Fachprojekt Data Mining Datenanalyse und Sprache Fachprojekt Data Mining Datenanalyse und Sprache Prof. Dr. Katharina Morik Informatik LS8 Eine Fülle von Daten liegt in Form natürlicher Sprache vor und eine Vielzahl von Methoden und Werkzeugen gibt es,

Mehr

Sharon Goldwater & David McClosky. Sarah Hartmann Advanced Topics in Statistical Machine Translation

Sharon Goldwater & David McClosky. Sarah Hartmann Advanced Topics in Statistical Machine Translation Sharon Goldwater & David McClosky Sarah Hartmann 13.01.2015 Advanced Topics in Statistical Machine Translation Einführung Modelle Experimente Diskussion 2 Einführung Das Problem Der Lösungsvorschlag Modelle

Mehr

Automatische Erkennung von Figuren in deutschsprachigen Romanen

Automatische Erkennung von Figuren in deutschsprachigen Romanen Automatische Erkennung von Figuren in deutschsprachigen Romanen Fotis Jannidis, Isabella Reger, Lukas Weimer Universität Würzburg: Lehrstuhl für Computerphilologie Markus Krug, Martin Toepfer, Frank Puppe

Mehr

Projektgruppe. Text Labeling mit Sequenzmodellen

Projektgruppe. Text Labeling mit Sequenzmodellen Projektgruppe Enes Yigitbas Text Labeling mit Sequenzmodellen 4. Juni 2010 Motivation Möglichkeit der effizienten Verarbeitung von riesigen Datenmengen In vielen Bereichen erwünschte automatisierte Aufgabe:

Mehr

Language Identification XXL

Language Identification XXL Ruprecht-Karls Universität Heidelberg Seminar für Computerlinguistik Software Projekt WS 2009/10 Language Identification XXL Referenten: Galina Sigwarth, Maria Semenchuk, George Kakish, Ulzhan Kadirbayeva

Mehr

Diskriminatives syntaktisches Reranking für SMT

Diskriminatives syntaktisches Reranking für SMT Diskriminatives syntaktisches Reranking für SMT Fortgeschrittene Themen der statistischen maschinellen Übersetzung Janina Nikolic 2 Agenda Problem: Ranking des SMT Systems Lösung: Reranking-Modell Nutzung

Mehr

Text Mining for Second Screen

Text Mining for Second Screen Text Mining for Second Screen Anwendungen 2 Ivan Demin ivan.demin@haw-hamburg.de 5. Juni 2014 Agenda 1 Motivation 2 Learning to link with wikipedia 3 Generating Queries from User-Selected Text 4 Feeding

Mehr

Inhalt. 4.1 Motivation. 4.2 Evaluation. 4.3 Logistische Regression. 4.4 k-nächste Nachbarn. 4.5 Naïve Bayes. 4.6 Entscheidungsbäume

Inhalt. 4.1 Motivation. 4.2 Evaluation. 4.3 Logistische Regression. 4.4 k-nächste Nachbarn. 4.5 Naïve Bayes. 4.6 Entscheidungsbäume 4. Klassifikation Inhalt 4.1 Motivation 4.2 Evaluation 4.3 Logistische Regression 4.4 k-nächste Nachbarn 4.5 Naïve Bayes 4.6 Entscheidungsbäume 4.7 Support Vector Machines 4.8 Neuronale Netze 4.9 Ensemble-Methoden

Mehr

Einführung in die Computerlinguistik Statistische Grundlagen

Einführung in die Computerlinguistik Statistische Grundlagen Diskrete Wahrscheinlichkeitsräume (1) Einführung in die Computerlinguistik Statistische Grundlagen Laura Heinrich-Heine-Universität Düsseldorf Wintersemester 2011/2012 In vielen Bereichen der CL kommt

Mehr

Erkennung und Visualisierung attribuierter Phrasen in Poetiken

Erkennung und Visualisierung attribuierter Phrasen in Poetiken Erkennung und Visualisierung attribuierter Phrasen in Poetiken Andreas Müller (1) Markus John (2) Steffen Koch (2) Thomas Ertl (2) Jonas Kuhn (1) (1), Universität Stuttgart (2) Institut für Visualisierung

Mehr

Motivation. Klassifikationsverfahren sagen ein abhängiges nominales Merkmal anhand einem oder mehrerer unabhängiger metrischer Merkmale voraus

Motivation. Klassifikationsverfahren sagen ein abhängiges nominales Merkmal anhand einem oder mehrerer unabhängiger metrischer Merkmale voraus 3. Klassifikation Motivation Klassifikationsverfahren sagen ein abhängiges nominales Merkmal anhand einem oder mehrerer unabhängiger metrischer Merkmale voraus Beispiel: Bestimme die Herkunft eines Autos

Mehr

Abusive Language Detection in Online User Content

Abusive Language Detection in Online User Content Abusive Language Detection in Online User Content Basierend auf Chikashi Nobata, Joel R. Tetreault, Achint Thomas, Yashar Mehdad, and Yi Chang (2016) Proseminar: Natural Language Processing and the Web

Mehr

Parallele Rechenmodelle

Parallele Rechenmodelle Organisatorisches und Themenvorstellung, 21. Oktober 2016 Henning Meyerhenke, Moritz von Looz, Roland Glantz 1 Meyerhenke, Looz, Glantz: Institute for Theoretical Computer www.kit.edu Science Termine Bis

Mehr

1/19. Kern-Methoden zur Extraktion von Informationen. Sebastian Marius Kirsch Back Close

1/19. Kern-Methoden zur Extraktion von Informationen. Sebastian Marius Kirsch Back Close 1/19 Kern-Methoden zur Extraktion von Informationen Sebastian Marius Kirsch skirsch@moebius.inka.de 2/19 Gliederung 1. Verfahren zur Extraktion von Informationen 2. Extraktion von Beziehungen 3. Maschinelles

Mehr

Einleitung Kappa F-Score Fazit. Softwarepraktikum. Evaluation. Franz Matthies

Einleitung Kappa F-Score Fazit. Softwarepraktikum. Evaluation. Franz Matthies Evaluation Lehrstuhl für Computerlinguistik Institut für Germanistische Sprachwissenschaft Friedrich-Schiller-Universität Jena www.julielab.de Sommersemester 2016 Sitzung 2 Überblick 1 Motivation Definition

Mehr

, Data Mining, 2 VO Sommersemester 2008

, Data Mining, 2 VO Sommersemester 2008 Evaluation 188.646, Data Mining, 2 VO Sommersemester 2008 Dieter Merkl e-commerce Arbeitsgruppe Institut für Softwaretechnik und Interaktive Systeme Technische Universität Wien www.ec.tuwien.ac.at/~dieter/

Mehr

Klassifikation von Textabschnitten

Klassifikation von Textabschnitten Klassifikation von Textabschnitten Am Beispiel von Stellenanzeigen (JASC - Job Ads Section Classifier) Gliederung 1. Einführung: Zu welchem Zweck machen wir das? 2. Klassifikation ein kurzer Überblick

Mehr

Einführung in die Computerlinguistik

Einführung in die Computerlinguistik Mehrdeutigkeit der Wortart Einführung in die Computerlinguistik Statistische Modellierung und Evaluation WS 2008/2009 Manfred Pinkal Sie haben in Moskau liebe genossen Sie haben in Moskau liebe Genossen

Mehr

Entwicklung einer Anwendung zur Erkennung von Täuschungsversuchen

Entwicklung einer Anwendung zur Erkennung von Täuschungsversuchen Entwicklung einer Anwendung zur Erkennung von Täuschungsversuchen Theoretische Ausarbeitung Miriam Friedrich Matr.-Nr.: 3062857 1. Prüfer: Prof. Dr. rer. nat. Alexander Voß 2. Prüfer: Bastian Küppers,

Mehr

Named Entity Recognition auf Basis von Wortlisten

Named Entity Recognition auf Basis von Wortlisten Named Entity Recognition auf Basis von Wortlisten EDM SS 2017 Lukas Abegg & Tom Schilling Named Entity Recognition auf Basis von Wortlisten Lukas Abegg - Humboldt Universität zu Berlin Tom Schilling -

Mehr

Learning Phrase Representations using RNN Encoder Decoder for Statistical Machine Translation. Yupeng Guo

Learning Phrase Representations using RNN Encoder Decoder for Statistical Machine Translation. Yupeng Guo Learning Phrase Representations using RNN Encoder Decoder for Statistical Machine Translation Yupeng Guo 1 Agenda Introduction RNN Encoder-Decoder - Recurrent Neural Networks - RNN Encoder Decoder - Hidden

Mehr

Vortrag im Rahmen der Vorlesung Data Warehouse Dozentin: Prof. Dr. Frey-Luxemburger WS 2011/2012. Referent: Florian Kalisch (GR09)

Vortrag im Rahmen der Vorlesung Data Warehouse Dozentin: Prof. Dr. Frey-Luxemburger WS 2011/2012. Referent: Florian Kalisch (GR09) Vortrag im Rahmen der Vorlesung Data Warehouse Dozentin: Prof. Dr. Frey-Luxemburger WS 2011/2012 Referent: Florian Kalisch (GR09) Rückblick Aktueller Status Einführung in Text-Mining Der Text-Mining Prozess

Mehr

Markov Logik. Matthias Balwierz Seminar: Maschinelles Lernen WS 2009/2010 Prof. Fürnkranz

Markov Logik. Matthias Balwierz Seminar: Maschinelles Lernen WS 2009/2010 Prof. Fürnkranz Markov Logik Matthias Balwierz Seminar: Maschinelles Lernen WS 2009/2010 Prof. Fürnkranz Überblick Markov Netze Prädikatenlogik erster Stufe Markov Logik Inferenz Lernen Anwendungen Software 18.11.2009

Mehr

Werkzeugunterstützte Projektprognose

Werkzeugunterstützte Projektprognose Werkzeugunterstützte Projektprognose Elena Emelyanova elena.emelyanova@rwthaachen.de 26.06.2015 Motivation? 2 Motivation 3 Motivation Daten von externem Kooperationspartner: # Projekte Projektdauer (in

Mehr

Dialogsysteme. Vortrag zum Thema n-gramm-modelle 2. Teil: Lösungsansätze für Ausfall-N-Gramme. 12. Januar 2006, Susanne O'Shaughnessy

Dialogsysteme. Vortrag zum Thema n-gramm-modelle 2. Teil: Lösungsansätze für Ausfall-N-Gramme. 12. Januar 2006, Susanne O'Shaughnessy Dialogsysteme Vortrag zum Thema n-gramm-modelle 2. Teil: Lösungsansätze für Ausfall-N-Gramme 12. Januar 2006, Susanne O'Shaughnessy Smoothing - Glättung Problem bei Standard- n-gramm-modellen: - kein Trainingskorpus

Mehr

Space Usage Rules. Neele Halbur, Helge Spieker InformatiCup 2015 19. März 2015

Space Usage Rules. Neele Halbur, Helge Spieker InformatiCup 2015 19. März 2015 Space Usage Rules? InformatiCup 2015 1 Agenda 1. Vorstellung des Teams 2. Entwicklungsprozess und Umsetzung 3. Verbesserung der Strategien 4. Auswertung der Strategien 5. Ausblick 6. Fazit 2 Vorstellung

Mehr

Information Retrieval and Semantic Technologies

Information Retrieval and Semantic Technologies Information Retrieval and Semantic Technologies Gerhard Wohlgenannt 6. April 2013 Inhaltsverzeichnis 1 Informationen zur Lehrveranstaltung 2 1.1 Inhalt................................... 2 2 Unterlagen

Mehr

Volkswagen Data Lab Connected Car Fahrererkennung mit MATLAB

Volkswagen Data Lab Connected Car Fahrererkennung mit MATLAB Volkswagen Data Lab Connected Car Fahrererkennung mit MATLAB K-SI/LD1 Julia Fumbarev München, 27.06.2017 Mega-Trend: Fahrzeugvernetzung Herausforderungen für die OEMs: 4Synchronisierung unterschiedlicher

Mehr

8. Mai Humboldt-Universität zu Berlin. LingPipe. Mark Kibanov und Maik Lange. Index. Allgemeine Infos. Features

8. Mai Humboldt-Universität zu Berlin. LingPipe. Mark Kibanov und Maik Lange. Index. Allgemeine Infos. Features Humboldt-Universität zu Berlin 8. Mai 2008 1 2 logistic regression 3 Benutzer 4 Fazit 5 Quellen Was ist? is a suite of Java libraries for the linguistic analysis of human. Was ist? is a suite of Java libraries

Mehr

Lernen unterschiedlich starker Bewertungsfunktionen aus Schach-Spielprotokollen

Lernen unterschiedlich starker Bewertungsfunktionen aus Schach-Spielprotokollen Lernen unterschiedlich starker Bewertungsfunktionen aus Schach-Spielprotokollen Philip Paulsen Diplomarbeit Übersicht Spielstärke im Schach MiniMax-Algorithmus Details zur Bewertungsfunktion Erzeugen der

Mehr

Vergleich von SVM und Regel- und Entscheidungsbaum-Lernern

Vergleich von SVM und Regel- und Entscheidungsbaum-Lernern Vergleich von SVM und Regel- und Entscheidungsbaum-Lernern Chahine Abid Bachelor Arbeit Betreuer: Prof. Johannes Fürnkranz Frederik Janssen 28. November 2013 Fachbereich Informatik Fachgebiet Knowledge

Mehr

Text-Mining: Klassifikation I - Naive Bayes vs. Rocchio

Text-Mining: Klassifikation I - Naive Bayes vs. Rocchio Text-Mining: Klassifikation I - Naive Bayes vs. Rocchio Claes Neuefeind Fabian Steeg 17. Juni 2010 Klassifikation im Text-Mining Klassifikation Textkategorisierung Naive Bayes Beispielrechnung Rocchio

Mehr

Complex Event Processing

Complex Event Processing [10] Armin Steudte HAW Hamburg Masterstudiengang Informatik - WS 2011/2012 Agenda Motivation Grundlagen Event Processing Networks Ausblick Quellen 2 Agenda Motivation Grundlagen Event Processing Networks

Mehr

Text-Mining: Einführung

Text-Mining: Einführung Text-Mining: Einführung Claes Neuefeind Fabian Steeg 22. April 2010 Organisatorisches Was ist Text-Mining? Definitionen Anwendungsbeispiele Textuelle Daten Aufgaben u. Teilbereiche Literatur Kontakt Sprechstunde:

Mehr

HOW TO AVOID BURNING DUCKS

HOW TO AVOID BURNING DUCKS HOW TO AVOID BURNING DUCKS EIN KOMBINIERTER ANSATZ ZUR VERARBEITUNG VON KOMPOSITA IM DEUTSCHEN nach Fritzinger & Fraser STEFANIE VIETEN, ADVANCED STATISTICAL MACHINE TRANSLATION WS 2014/15 13.01.2015 GLIEDERUNG

Mehr

Evaluierung von Information Retrieval Systemen Teil 1: Standardverfahren. Karin Haenelt

Evaluierung von Information Retrieval Systemen Teil 1: Standardverfahren. Karin Haenelt Evaluierung von Information Retrieval Systemen Teil 1: Standardverfahren Karin Haenelt 27.11.2009 Evaluierungsveranstaltungen TREC Text Retrieval Evaluation Conference jährlich seit 1992 Sponsoren: Defence

Mehr

Softwareprojektpraktikum Maschinelle Übersetzung

Softwareprojektpraktikum Maschinelle Übersetzung Softwareprojektpraktikum Maschinelle Übersetzung Jan-Thorsten Peter, Andreas Guta, Jan Rosendahl max.bleu@i6.informatik.rwth-aachen.de 5. Mai 2017 Human Language Technology and Pattern Recognition Lehrstuhl

Mehr

GEO-INFORMATIONSSYSTEME

GEO-INFORMATIONSSYSTEME LUDWIG- MAXIMILIANS- UNIVERSITY MUNICH DEPARTMENT INSTITUTE FOR INFORMATICS DATABASE GEO-INFORMATIONSSYSTEME Skript zur Vorlesung Geo-Informationssysteme Wintersemester 2015/16 Ludwig-Maximilians-Universität

Mehr

Natürlichsprachliche Systeme I Materialien zur Vorlesung

Natürlichsprachliche Systeme I Materialien zur Vorlesung Natürlichsprachliche Systeme I Materialien zur Vorlesung D. Rösner Institut für Wissens- und Sprachverarbeitung Fakultät für Informatik Otto-von-Guericke Universität Magdeburg WS 2010/11, 19. Oktober 2010,

Mehr

Nutzung maschinellen Lernens zur Extraktion von Paragraphen aus PDF-Dokumenten

Nutzung maschinellen Lernens zur Extraktion von Paragraphen aus PDF-Dokumenten Nutzung maschinellen Lernens zur Extraktion von Paragraphen aus PDF-Dokumenten Albert-Ludwigs-Universität zu Freiburg 13.09.2016 Maximilian Dippel max.dippel@tf.uni-freiburg.de Überblick I Einführung Problemstellung

Mehr

Automatische Rekonstruktion und Spezifizierung von Attributnamen in Webtabellen

Automatische Rekonstruktion und Spezifizierung von Attributnamen in Webtabellen Automatische Rekonstruktion und Spezifizierung von Attributnamen in Webtabellen Mark Reinke Bachelorarbeit TU Dresden 17. Februar 2014 Webtabellen Warum sind Webtabellen von Bedeutung? Sie können relationale

Mehr

Der VITERBI-Algorithmus

Der VITERBI-Algorithmus Der VITERBI-Algorithmus Hauptseminar Parsing Sommersemester 2002 Lehrstuhl für Computerlinguistik Universität Heidelberg Thorsten Beinhorn http://janus.cl.uni-heidelberg.de/~beinhorn 2 Inhalt Ziel des

Mehr

Wortdekodierung. Vorlesungsunterlagen Speech Communication 2, SS Franz Pernkopf/Erhard Rank

Wortdekodierung. Vorlesungsunterlagen Speech Communication 2, SS Franz Pernkopf/Erhard Rank Wortdekodierung Vorlesungsunterlagen Speech Communication 2, SS 2004 Franz Pernkopf/Erhard Rank Institute of Signal Processing and Speech Communication University of Technology Graz Inffeldgasse 16c, 8010

Mehr

Robust Named Entity Recognition (NER) in Idiosyncratic Domains. Eine automatische Identifikation und Klassifikation von Eigennamen

Robust Named Entity Recognition (NER) in Idiosyncratic Domains. Eine automatische Identifikation und Klassifikation von Eigennamen Robust Named Entity Recognition (NER) in Idiosyncratic Domains Eine automatische Identifikation und Klassifikation von Eigennamen Gliederung 1 Einführung 2 Ein neues Neuronales Netzwerk 3 Datexis 4 Evaluation

Mehr

Part-of-Speech Tagging. Stephanie Schuldes

Part-of-Speech Tagging. Stephanie Schuldes Part-of-Speech Tagging Stephanie Schuldes 05.06.2003 PS Erschließen von großen Textmengen Geißler/Holler SoSe 2003 Motivation Ziel: vollständiges Parsing und Verstehen natürlicher Sprache Herantasten durch

Mehr

Kompositionalität. Christian Ebert & Fritz Hamm. Kompositionalität. 1. Dezember 2011

Kompositionalität. Christian Ebert & Fritz Hamm. Kompositionalität. 1. Dezember 2011 1. Dezember 2011 sprinzip The meaning of a complex expression is determined by the meaning of its parts and the mode of composition. Die Bedeutung eines komplexen Ausdrucks ist durch die Bedeutung seiner

Mehr

Selbst organisiertes Lernen an Gymnasien: Ergebnisse einer Evaluationsstudie im Kanton Bern (Schweiz)

Selbst organisiertes Lernen an Gymnasien: Ergebnisse einer Evaluationsstudie im Kanton Bern (Schweiz) Selbst organisiertes Lernen an Gymnasien: Ergebnisse einer Evaluationsstudie im Kanton Bern (Schweiz) Prof. Dr. Walter Herzog, Universität Bern 12. Mai 2016 Inhalt 1. Bildungssystem der Schweiz 2. Das

Mehr

Mathematische Verfahren zur Unterstützung der Rettungsdienstplanung

Mathematische Verfahren zur Unterstützung der Rettungsdienstplanung Mathematische Verfahren zur Unterstützung der Rettungsdienstplanung Melanie Reuter-Oppermann, Peter Hottum KARLSRUHE SERVICE RESEARCH INSTITUTE (KSRI) KIT The Research University in the Helmholtz Association

Mehr

Named Entity Recognition, Extraction, und Linking in deutschen Rechtstexten

Named Entity Recognition, Extraction, und Linking in deutschen Rechtstexten Named Entity Recognition, Extraction, und Linking in deutschen Rechtstexten Ingo Glaser, 21.09.2018, EDV-Gerichtstag Chair of Software Engineering for Business Information Systems (sebis) Faculty of Informatics

Mehr

Inhalt. 6.1 Motivation. 6.2 Klassifikation. 6.3 Clusteranalyse. 6.4 Asszoziationsanalyse. Datenbanken & Informationssysteme / Kapitel 6: Data Mining

Inhalt. 6.1 Motivation. 6.2 Klassifikation. 6.3 Clusteranalyse. 6.4 Asszoziationsanalyse. Datenbanken & Informationssysteme / Kapitel 6: Data Mining 6. Data Mining Inhalt 6.1 Motivation 6.2 Klassifikation 6.3 Clusteranalyse 6.4 Asszoziationsanalyse 2 6.1 Motivation Data Mining and Knowledge Discovery zielt darauf ab, verwertbare Erkenntnisse (actionable

Mehr

BLATT 1. Dieser Test soll mir helfen, Ihre Vorkenntnisse richtig einzuschätzen und die Seminarinhalte entsprechend anzupassen.

BLATT 1. Dieser Test soll mir helfen, Ihre Vorkenntnisse richtig einzuschätzen und die Seminarinhalte entsprechend anzupassen. Eingangtest (anonym) BLATT 1 Dieser Test soll mir helfen, Ihre Vorkenntnisse richtig einzuschätzen und die Seminarinhalte entsprechend anzupassen. 1) Was ist ein Zeichensatz (character set) und was eine

Mehr

Whisky-Empfehlungen. Whisky-Empfehlungen - Joachim Schole

Whisky-Empfehlungen. Whisky-Empfehlungen - Joachim Schole Whisky-Empfehlungen 1 Agenda Motivation Einführung in die Domäne Whisky Einführung Empfehlungssysteme Einführung KDD, Data Mining, Clustering Aktueller Stand & Aufgaben 2 Motivation Problem Whisky-Empfehlung

Mehr

Natural language processing

Natural language processing Natural language processing Guangyu Ge Betreuer: Tobias 29.01.2018 GLIEDERUNG 1. Einführung 2. Anwendungsbereiche 3. Verfahren bei NLP 4. Zusammenfassung ZIELE VON KÜNSTLICHER INTELLIGENZ Quelle: https://cdn-images-1.medium.com/max/800/0*y707xutx3zmvjkxx.png

Mehr

cueml - eine kulinarische Textedition

cueml - eine kulinarische Textedition cueml - eine kulinarische Textedition Torsten Knauf, Norbert Luttenberger, Jesper Zedlitz Arbeitsgruppe Kommunikationssysteme () Institut für Informatik Christian-Albrechts-Universität Kiel Markup Forum,

Mehr

Boole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen

Boole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen Rückblick Boole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen Vektorraummodell stellt Anfrage und Dokumente als Vektoren in gemeinsamen Vektorraum dar

Mehr

Moderne IR / Language Models / Page Ranking

Moderne IR / Language Models / Page Ranking Moderne IR / Language Models / Page Ranking Paul Raab 10.11.2011 Paul Raab () Moderne IR / Language Models / Page Ranking 10.11.2011 1 / 14 Überblick Statistische Methoden auf Sprachmodelle angewandt sind

Mehr

Polynomiale Regression lässt sich mittels einer Transformation der Merkmale auf multiple lineare Regression zurückführen

Polynomiale Regression lässt sich mittels einer Transformation der Merkmale auf multiple lineare Regression zurückführen Rückblick Polynomiale Regression lässt sich mittels einer Transformation der Merkmale auf multiple lineare Regression zurückführen Ridge Regression vermeidet Überanpassung, indem einfachere Modelle mit

Mehr

Centrum für Informations- und Sprachverarbeitung. Dr. M. Hadersbeck, Digitale Editionen, BAdW München

Centrum für Informations- und Sprachverarbeitung. Dr. M. Hadersbeck, Digitale Editionen, BAdW München # 1 Digitale Editionen und Auszeichnungssprachen Computerlinguistische FinderApps mit Facsimile-Reader Wittgenstein s Nachlass: WiTTFind Goethe s Faust: GoetheFind Hadersbeck M. et. al. Centrum für Informations-

Mehr

Sentiment Analysis (SA) Robert Bärhold & Mario Sänger Text Analytics WS 2012/13 Prof. Leser

Sentiment Analysis (SA) Robert Bärhold & Mario Sänger Text Analytics WS 2012/13 Prof. Leser Sentiment Analysis (SA) Robert Bärhold & Mario Sänger Text Analytics WS 2012/13 Prof. Leser Gliederung Einleitung Problemstellungen Ansätze & Herangehensweisen Anwendungsbeispiele Zusammenfassung 2 Gliederung

Mehr

Patrick Scharpfenecker May 23, Proseminar Algorithmen Organisatorisches & Themen

Patrick Scharpfenecker May 23, Proseminar Algorithmen Organisatorisches & Themen Patrick Scharpfenecker May 23, 2015 Proseminar Algorithmen Organisatorisches & Themen Page 2 Proseminar Algorithmen Organisatorisches & Themen Scharpfenecker May 23, 2015 Allgemeines Was ist ein Seminar?

Mehr

Data Mining Künstliche Neuronale Netze vs. Entscheidungsbäume

Data Mining Künstliche Neuronale Netze vs. Entscheidungsbäume Data Mining Künstliche Neuronale Netze vs. Entscheidungsbäume Grundseminar HAW Master Informatik 18.04.2017 Inhaltsübersicht Data Mining & Begriffswelt des Data Mining Klassifikation & Klassifikatoren

Mehr

Elementare Wahrscheinlichkeitslehre

Elementare Wahrscheinlichkeitslehre Elementare Wahrscheinlichkeitslehre Vorlesung Computerlinguistische Techniken Alexander Koller 13. November 2015 CL-Techniken: Ziele Ziel 1: Wie kann man die Struktur sprachlicher Ausdrücke berechnen?

Mehr

xii Inhaltsverzeichnis Generalisierung Typisierte Merkmalsstrukturen Literaturhinweis

xii Inhaltsverzeichnis Generalisierung Typisierte Merkmalsstrukturen Literaturhinweis Inhaltsverzeichnis 1 Computerlinguistik Was ist das? 1 1.1 Aspekte der Computerlinguistik.................. 1 1.1.1 Computerlinguistik: Die Wissenschaft........... 2 1.1.2 Computerlinguistik und ihre Nachbardisziplinen.....

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Sprachtechnologie. Tobias Scheffer Paul Prasse Michael Großhans

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Sprachtechnologie. Tobias Scheffer Paul Prasse Michael Großhans Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Sprachtechnologie Tobias Scheffer Paul Prasse Michael Großhans Organisation Vorlesung/Übung, praktische Informatik. 4 SWS. 6 Leistungspunkte

Mehr

Identifizierung von Adressangaben in Texten ohne Verwendung von Wörterbüchern

Identifizierung von Adressangaben in Texten ohne Verwendung von Wörterbüchern Expose zur Diplomarbeit Identifizierung von Adressangaben in Texten ohne Verwendung von Wörterbüchern Nora Popp Juli 2009 Betreuer: Professor Ulf Leser HU Berlin, Institut für Informatik Ziel In dieser

Mehr

Textextraktion aus nichttextuellen Datenquellen

Textextraktion aus nichttextuellen Datenquellen Textextraktion aus nichttextuellen Datenquellen 1/17 Motivation Im WWW sind viele nichttextuelle Datenquellen verfügbar PostScript (PS und PDF) Wordprozessor (z.b. DOC, RTF) Bilder (z.b. GIF, JPG) Potentiell

Mehr

Repetitorium der Computerlinguistik

Repetitorium der Computerlinguistik Repetitorium der Computerlinguistik Marina Sedinkina Ludwig Maximilian University of Munich Center for Information and Language Processing 9.April 2018 Marina Sedinkina (LMU) Repetitorium der Computerlinguistik

Mehr

Bio-Inspired Credit Risk Analysis

Bio-Inspired Credit Risk Analysis Bio-Inspired Credit Risk Analysis Computational Intelligence with Support Vector Machines Bearbeitet von Lean Yu, Shouyang Wang, Kin Keung Lai, Ligang Zhou 1. Auflage 2008. Buch. XVI, 244 S. Hardcover

Mehr

Automatische Textzusammenfasung

Automatische Textzusammenfasung Automatische Textzusammenfasung Katja Diederichs Francisco Mondaca Simon Ritter PS Computerlinguistische Grundlagen I - Jürgen Hermes - WS 09/10 Uni Köln Gliederung 1) Einleitung & Überblick 2) Ansätze

Mehr

Constraint-based Tutors. Educational Data Mining (Seminar) Robert Bärhold

Constraint-based Tutors. Educational Data Mining (Seminar) Robert Bärhold Constraint-based Tutors Educational Data Mining (Seminar) Robert Bärhold 10.06.2014 Gliederung Intelligent Tutoring Systems (ITS) Constraint-based Tutors Erläuterung Anwendung: J-Latte Data Mining Studentenmodell

Mehr

Bachelorverteidigung Marco Franke

Bachelorverteidigung Marco Franke Bachelorverteidigung Java EE Webservice basiert auf RESTlet, JaxB und JPA/Hibernate zur Bilderkennung mit Hilfe der SURF-Merkmalsextraktion Verantwortlicher Professor: Prof. Dr. rer. nat. Klaus Hering

Mehr

Viterbi. Hidden Markov Models und POS Tagging mit dem Viterbi-Algorithmus. von Arndt Faulhaber und Benjamin Schlebes

Viterbi. Hidden Markov Models und POS Tagging mit dem Viterbi-Algorithmus. von Arndt Faulhaber und Benjamin Schlebes Viterbi Hidden Markov Models und POS Tagging mit dem Viterbi-Algorithmus von Arndt Faulhaber und Benjamin Schlebes Seminar: Endliche Automaten für die Sprachverarbeitung SS 2005 PD Dr. K. Haenelt 1/28

Mehr

Tagging von Online-Blogs

Tagging von Online-Blogs Tagging von Online-Blogs Gertrud Faaß (vertreten durch Josef Ruppenhofer) STTS tagset and tagging: special corpora 24. September 2012 Faaß MODEBLOGS 1 Korpuslinguistische studentische Projekte am IwiSt

Mehr

Elementare Begriffe der Wahrscheinlichkeitstheorie für die Sprachverarbeitung

Elementare Begriffe der Wahrscheinlichkeitstheorie für die Sprachverarbeitung Elementare Begriffe der Wahrscheinlichkeitstheorie für die Sprachverarbeitung Kursfolien Karin Haenelt 1 Übersicht Wahrscheinlichkeitsfunktion P Wahrscheinlichkeit und bedingte Wahrscheinlichkeit Bayes-Formeln

Mehr

Interdisziplinäre fachdidaktische Übung: Formale Sprache Definitionen, Funktionen

Interdisziplinäre fachdidaktische Übung: Formale Sprache Definitionen, Funktionen Interdisziplinäre fachdidaktische Übung: Formale Sprache Definitionen, en SS 2013: Grossmann, Jenko 1 Definitionen Folgenden Begriffe werden oft synonym verwendet: Formale Sprache Programmiersprache Computersprache

Mehr

Ein Vergleich von Methoden für Multi-klassen Support Vector Maschinen

Ein Vergleich von Methoden für Multi-klassen Support Vector Maschinen Ein Vergleich von Methoden für Multi-klassen Support Vector Maschinen Einführung Auf binären Klassifikatoren beruhende Methoden One-Against-All One-Against-One DAGSVM Methoden die alle Daten zugleich betrachten

Mehr

Anwendungen der KI / SoSe 2018

Anwendungen der KI / SoSe 2018 Anwendungen der KI / SoSe 2018 Organisatorisches Prof. Dr. Adrian Ulges Angewandte Informatik / Medieninformatik / Wirtschaftsinformatik / ITS Fachbereich DSCM Hochschule RheinMain KursWebsite: www.ulges.de

Mehr

Industrial Data Intelligence Datenbasierte Produktionsoptimierung. Hannover, HMI Peter Seeberg

Industrial Data Intelligence Datenbasierte Produktionsoptimierung. Hannover, HMI Peter Seeberg Industrial Data Intelligence Datenbasierte Produktionsoptimierung Hannover, 26.04.2017 HMI Peter Seeberg Algorithmus Daten Entscheidung Peter Seeberg / Softing, 2016 Copyright 2016 Softing Industrial.

Mehr

Linux I II III Res WN/TT NLTK XML XLE I II Weka E. Freitag. 9 XLE Transfer. 10 Weka. Ressourcen-Vorkurs

Linux I II III Res WN/TT NLTK XML XLE I II Weka E. Freitag. 9 XLE Transfer. 10 Weka. Ressourcen-Vorkurs Linux I II III Res WN/TT NLTK XML XLE I II Weka E Freitag 9 XLE Transfer 10 Weka Linux I II III Res WN/TT NLTK XML XLE I II Weka E XLE Transfer I Auf ella gibt es nicht nur XLE (den Parser) sondern auch

Mehr

Mathematische Grundlagen der Computerlinguistik III: Statistische Methoden Probeklausur

Mathematische Grundlagen der Computerlinguistik III: Statistische Methoden Probeklausur Mathematische Grundlagen der Computerlinguistik III: Statistische Methoden Probeklausur Crocker/Demberg/Staudte Sommersemester 2014 17.07.2014 1. Sie haben 90 Minuten Zeit zur Bearbeitung der Aufgaben.

Mehr

DOKUMENTENKLASSIFIKATION MIT MACHINE LEARNING

DOKUMENTENKLASSIFIKATION MIT MACHINE LEARNING DOKUMENTENKLASSIFIKATION MIT MACHINE LEARNING Andreas Nadolski Softwareentwickler andreas.nadolski@enpit.de Twitter: @enpit Blogs: enpit.de/blog medium.com/enpit-developer-blog 05.10.2018, DOAG Big Data

Mehr

Automatische Erkennung von Figuren in deutschsprachigen Romanen

Automatische Erkennung von Figuren in deutschsprachigen Romanen Automatische Erkennung von Figuren in deutschsprachigen Romanen Jannidis, Fotis fotis.jannidis@uni-wuerzburg.de, Universität Würzburg Krug, Markus markus.krug@uni-wuerzburg.de, Universität Würzburg Reger,

Mehr

Praktikum Maschinelle Übersetzung Lexikon and Word Alignment

Praktikum Maschinelle Übersetzung Lexikon and Word Alignment Praktikum Maschinelle Übersetzung Lexikon and Word Alignment Um die Aufgaben auszuführen, können Sie ihre Daten in folgendem Verzeichnis speichern: /project/smtstud/ss10/systems/username/ Wir werden zunächst

Mehr

Evidenzpropagation in Bayes-Netzen und Markov-Netzen

Evidenzpropagation in Bayes-Netzen und Markov-Netzen Einleitung in Bayes-Netzen und Markov-Netzen Thomas Thüm 20. Juni 2006 1/26 Thomas Thüm in Bayes-Netzen und Markov-Netzen Übersicht Einleitung Motivation Einordnung der Begriffe 1 Einleitung Motivation

Mehr

Machinelles Lernen. «Eine kleine Einführung» BSI Business Systems Integration AG

Machinelles Lernen. «Eine kleine Einführung» BSI Business Systems Integration AG Machinelles Lernen «Eine kleine Einführung» @ZimMatthias Matthias Zimmermann BSI Business Systems Integration AG «Welcher Unterschied besteht zum Deep Blue Schachcomputer vor 20 Jahren?» AlphaGo Hardware

Mehr

SUCHMASCHINEN XAPIAN. Michael Strzempek FH Wiesbaden, 5. Juni 2008

SUCHMASCHINEN XAPIAN. Michael Strzempek FH Wiesbaden, 5. Juni 2008 SUCHMASCHINEN XAPIAN Michael Strzempek FH Wiesbaden, 5. Juni 2008 INHALT 1. Motivation 2. Prinzip / Vokabular 3. Xapian 4. Omega 5. Datenbank Indizierung 6. Levenshtein Distanz 7. Boolesche Suche 8. Probabilistische

Mehr

Yale Humboldt Consumer Law Lectures

Yale Humboldt Consumer Law Lectures Monday, June 6, 2016, 2 7 p.m. Humboldt University Berlin, Senatssaal Yale Humboldt Consumer Law Lectures Prof. Richard Brooks Professor of Law, Columbia Law School Prof. Henry B. Hansmann Professor of

Mehr

Extract of the Annotations used for Econ 5080 at the University of Utah, with study questions, akmk.pdf.

Extract of the Annotations used for Econ 5080 at the University of Utah, with study questions, akmk.pdf. 1 The zip archives available at http://www.econ.utah.edu/ ~ ehrbar/l2co.zip or http: //marx.econ.utah.edu/das-kapital/ec5080.zip compiled August 26, 2010 have the following content. (they differ in their

Mehr

Präzisierung zur Absolvierung von Studienschwerpunkten

Präzisierung zur Absolvierung von Studienschwerpunkten K 066/926 CURRICULUM ZUM MASTERSTUDIUM WIRTSCHAFTSINFORMATIK Präzisierung zur Absolvierung von Studienschwerpunkten o. Univ.-Prof. DI Dr. Michael Schrefl Institutsvorstand, Institut für Wirtschaftsinformatik

Mehr

Sprachsynthese und Spracherkennung

Sprachsynthese und Spracherkennung 90 Sprachsynthese und Spracherkennung von John N. Holmes Mit 51 Bildern und 69 Übungen mit Lösungshinweisen R. Oldenbourg Verlag München Wien 1991 INHALT Vorwort 11 1 Lautsprachliche Kommunikation 15 1.1

Mehr

Statistische Verfahren in der Computerlinguistik

Statistische Verfahren in der Computerlinguistik Statistische Verfahren in der Computerlinguistik Zweiter Teil Einführung in die Computerlinguistik Sommersemester 2009 Übersicht Statistische vs. symbolische Verfahren in der CL Statistik beschreibende

Mehr

Inhaltsverzeichnis. Bibliografische Informationen digitalisiert durch

Inhaltsverzeichnis. Bibliografische Informationen  digitalisiert durch Inhaltsverzeichnis 1 Computerlinguistik - Was ist das? 1 1.1 Aspekte der Computerlinguistik 1 1.1.1 Computer linguistik: Die Wissenschaft 2 1.1.2 Computerlinguistik und ihre Nachbardisziplinen 3 1.1.3

Mehr