Einführung in die Computerlinguistik Überblick

Größe: px
Ab Seite anzeigen:

Download "Einführung in die Computerlinguistik Überblick"

Transkript

1 Einführung in die Computerlinguistik Überblick Hinrich Schütze & Robert Zangenfeind Centrum für Informations- und Sprachverarbeitung, LMU München Schütze & Zangenfeind: Überblick 1 / 19

2 Was ist Computerlinguistik? Schütze & Zangenfeind: Überblick 2 / 19

3 Was ist Computerlinguistik? Definition Computational linguistics is the scientific study of models and methods for automatic processing of natural language. Computational linguistics is an interdisciplinary field that shares a large part of its subject matter with computer science and linguistics. However, computational linguists also work on theories, models and methods that are not part of core linguistics or core computer science. Schütze & Zangenfeind: Überblick 2 / 19

4 Was ist Computerlinguistik? Definition Computational linguistics is the scientific study of models and methods for automatic processing of natural language. Computational linguistics is an interdisciplinary field that shares a large part of its subject matter with computer science and linguistics. However, computational linguists also work on theories, models and methods that are not part of core linguistics or core computer science. Closely related, but different: natural language processing, speech recognition Schütze & Zangenfeind: Überblick 2 / 19

5 Anwendungen der Computerlinguistik Rechtschreibkorrektur Grammatiküberprüfung Häufigkeitsanalysen von Vorkommen von Wörtern und linguistischen Phänomenen Lexikographie (Thesauri, Wörterbücher) Informationserschließung (Internet-Recherche) Kommunikation mit Maschine z.b. bei der Bank (vollautomatische) maschinelle Übersetzung Schütze & Zangenfeind: Überblick 3 / 19

6 Beispiele für industrielle Anwendungen Schütze & Zangenfeind: Überblick 4 / 19

7 Beispiele für industrielle Anwendungen Internetsuchmaschinen: sehr große Menge an Information, aber hochgradig unstrukturiert direkter Zugang zu relevanten Daten ist schwierig. Schütze & Zangenfeind: Überblick 4 / 19

8 Beispiele für industrielle Anwendungen Internetsuchmaschinen: sehr große Menge an Information, aber hochgradig unstrukturiert direkter Zugang zu relevanten Daten ist schwierig. Dialoganwendungen: Zugang zu komplexen Systemen, z.b. Bestellung eines Bahn- oder Flugtickets, Interaktion mit Bank, auch mit natürlichsprachlichen Anwendungen Schütze & Zangenfeind: Überblick 4 / 19

9 Beispiele für industrielle Anwendungen Internetsuchmaschinen: sehr große Menge an Information, aber hochgradig unstrukturiert direkter Zugang zu relevanten Daten ist schwierig. Dialoganwendungen: Zugang zu komplexen Systemen, z.b. Bestellung eines Bahn- oder Flugtickets, Interaktion mit Bank, auch mit natürlichsprachlichen Anwendungen Übersetzungssysteme: fremdsprachige Web-Seiten, Gebrauchsanweisungen, Wetterberichte etc. Schütze & Zangenfeind: Überblick 4 / 19

10 Beispiele für industrielle Anwendungen Internetsuchmaschinen: sehr große Menge an Information, aber hochgradig unstrukturiert direkter Zugang zu relevanten Daten ist schwierig. Dialoganwendungen: Zugang zu komplexen Systemen, z.b. Bestellung eines Bahn- oder Flugtickets, Interaktion mit Bank, auch mit natürlichsprachlichen Anwendungen Übersetzungssysteme: fremdsprachige Web-Seiten, Gebrauchsanweisungen, Wetterberichte etc. automatische Silbentrennung, Rechtschreibprüfung und -korrektur Schütze & Zangenfeind: Überblick 4 / 19

11 Beispiele für industrielle Anwendungen Internetsuchmaschinen: sehr große Menge an Information, aber hochgradig unstrukturiert direkter Zugang zu relevanten Daten ist schwierig. Dialoganwendungen: Zugang zu komplexen Systemen, z.b. Bestellung eines Bahn- oder Flugtickets, Interaktion mit Bank, auch mit natürlichsprachlichen Anwendungen Übersetzungssysteme: fremdsprachige Web-Seiten, Gebrauchsanweisungen, Wetterberichte etc. automatische Silbentrennung, Rechtschreibprüfung und -korrektur automatische Spracherkennung Schütze & Zangenfeind: Überblick 4 / 19

12 Beispiele für industrielle Anwendungen Internetsuchmaschinen: sehr große Menge an Information, aber hochgradig unstrukturiert direkter Zugang zu relevanten Daten ist schwierig. Dialoganwendungen: Zugang zu komplexen Systemen, z.b. Bestellung eines Bahn- oder Flugtickets, Interaktion mit Bank, auch mit natürlichsprachlichen Anwendungen Übersetzungssysteme: fremdsprachige Web-Seiten, Gebrauchsanweisungen, Wetterberichte etc. automatische Silbentrennung, Rechtschreibprüfung und -korrektur automatische Spracherkennung Informationsextraktion, z.b. relevante Qualifikationen aus Bewerbungsbriefen und Lebensläufen maschinell extrahieren Schütze & Zangenfeind: Überblick 4 / 19

13 Berufsfelder für Computerlinguisten Schütze & Zangenfeind: Überblick 5 / 19

14 Berufsfelder für Computerlinguisten Verarbeitung gesprochener Sprache für die Interaktion mit Computern Schütze & Zangenfeind: Überblick 5 / 19

15 Berufsfelder für Computerlinguisten Verarbeitung gesprochener Sprache für die Interaktion mit Computern Verarbeitung von Texten (suchen, bearbeiten und verwalten) Schütze & Zangenfeind: Überblick 5 / 19

16 Berufsfelder für Computerlinguisten Verarbeitung gesprochener Sprache für die Interaktion mit Computern Verarbeitung von Texten (suchen, bearbeiten und verwalten) Einsatz sprachtechnologischer Software und Ressourcen (in Verlagen, Übersetzungsbüros, Verwaltungen etc.): Maschinelle Übersetzung, elektronische Wörterbücher, Spracherkennung, Sprachgenerierung, lexikonbasierte Optimierung von Optical-Character-Recognition-Verfahren (OCR) Schütze & Zangenfeind: Überblick 5 / 19

17 Berufsfelder für Computerlinguisten Verarbeitung gesprochener Sprache für die Interaktion mit Computern Verarbeitung von Texten (suchen, bearbeiten und verwalten) Einsatz sprachtechnologischer Software und Ressourcen (in Verlagen, Übersetzungsbüros, Verwaltungen etc.): Maschinelle Übersetzung, elektronische Wörterbücher, Spracherkennung, Sprachgenerierung, lexikonbasierte Optimierung von Optical-Character-Recognition-Verfahren (OCR) akademischer Bereich Schütze & Zangenfeind: Überblick 5 / 19

18 Berufsfelder für Computerlinguisten Verarbeitung gesprochener Sprache für die Interaktion mit Computern Verarbeitung von Texten (suchen, bearbeiten und verwalten) Einsatz sprachtechnologischer Software und Ressourcen (in Verlagen, Übersetzungsbüros, Verwaltungen etc.): Maschinelle Übersetzung, elektronische Wörterbücher, Spracherkennung, Sprachgenerierung, lexikonbasierte Optimierung von Optical-Character-Recognition-Verfahren (OCR) akademischer Bereich Bedarf an Experten steigt tendentiell Schütze & Zangenfeind: Überblick 5 / 19

19 Typische Forschungsgegenstände Schütze & Zangenfeind: Überblick 6 / 19

20 Typische Forschungsgegenstände Entwicklung von Methoden (Theorie) Schütze & Zangenfeind: Überblick 6 / 19

21 Typische Forschungsgegenstände Entwicklung von Methoden (Theorie) Entwicklung realistischer Anwendungen (Praxis) Schütze & Zangenfeind: Überblick 6 / 19

22 Typische Forschungsgegenstände Entwicklung von Methoden (Theorie) Entwicklung realistischer Anwendungen (Praxis) Aufbau und Verwaltung großer wiederverwendbarer Korpora (Daten) Schütze & Zangenfeind: Überblick 6 / 19

23 Typische Forschungsgegenstände Entwicklung von Methoden (Theorie) Entwicklung realistischer Anwendungen (Praxis) Aufbau und Verwaltung großer wiederverwendbarer Korpora (Daten) Konzeption effektiver Evaluationsmechanismen (Experimente) Schütze & Zangenfeind: Überblick 6 / 19

24 Nachbardisziplinen (1) Schütze & Zangenfeind: Überblick 7 / 19

25 Nachbardisziplinen (1) Linguistik Schütze & Zangenfeind: Überblick 7 / 19

26 Nachbardisziplinen (1) Linguistik Die Wissenschaft, die sich mit menschlicher Sprache beschäftigt Schütze & Zangenfeind: Überblick 7 / 19

27 Nachbardisziplinen (1) Linguistik Die Wissenschaft, die sich mit menschlicher Sprache beschäftigt Grundinventar linguistischer Termini Schütze & Zangenfeind: Überblick 7 / 19

28 Nachbardisziplinen (1) Linguistik Die Wissenschaft, die sich mit menschlicher Sprache beschäftigt Grundinventar linguistischer Termini Teilgebiete: Phonetik/Phonologie, Morphologie, Syntax, Semantik, Pragmatik; Korpuslinguistik Schütze & Zangenfeind: Überblick 7 / 19

29 Nachbardisziplinen (1) Linguistik Die Wissenschaft, die sich mit menschlicher Sprache beschäftigt Grundinventar linguistischer Termini Teilgebiete: Phonetik/Phonologie, Morphologie, Syntax, Semantik, Pragmatik; Korpuslinguistik Informatik (Algorithmen, Datenstrukturen, Software Engineering) Schütze & Zangenfeind: Überblick 7 / 19

30 Nachbardisziplinen (1) Linguistik Die Wissenschaft, die sich mit menschlicher Sprache beschäftigt Grundinventar linguistischer Termini Teilgebiete: Phonetik/Phonologie, Morphologie, Syntax, Semantik, Pragmatik; Korpuslinguistik Informatik (Algorithmen, Datenstrukturen, Software Engineering) Philosophie (Verbindung von Sprache, Denken und Handeln; Relation zu außersprachlichen Gegebenheiten) Schütze & Zangenfeind: Überblick 7 / 19

31 Nachbardisziplinen (1) Linguistik Die Wissenschaft, die sich mit menschlicher Sprache beschäftigt Grundinventar linguistischer Termini Teilgebiete: Phonetik/Phonologie, Morphologie, Syntax, Semantik, Pragmatik; Korpuslinguistik Informatik (Algorithmen, Datenstrukturen, Software Engineering) Philosophie (Verbindung von Sprache, Denken und Handeln; Relation zu außersprachlichen Gegebenheiten) Künstliche Intelligenz (knowledge representation, reasoning, learning) Schütze & Zangenfeind: Überblick 7 / 19

32 Nachbardisziplinen (2) Schütze & Zangenfeind: Überblick 8 / 19

33 Nachbardisziplinen (2) Kognitionswissenschaft (Sprachbeherrschung ist spezieller Teilbereich der kognitiven Fähigkeiten des Menschen) Schütze & Zangenfeind: Überblick 8 / 19

34 Nachbardisziplinen (2) Kognitionswissenschaft (Sprachbeherrschung ist spezieller Teilbereich der kognitiven Fähigkeiten des Menschen) Mathematik Schütze & Zangenfeind: Überblick 8 / 19

35 Nachbardisziplinen (2) Kognitionswissenschaft (Sprachbeherrschung ist spezieller Teilbereich der kognitiven Fähigkeiten des Menschen) Mathematik Insbesondere: Logik, Wahrscheinlichkeitstheorie, Statistik, Graphentheorie Schütze & Zangenfeind: Überblick 8 / 19

36 Nachbardisziplinen (2) Kognitionswissenschaft (Sprachbeherrschung ist spezieller Teilbereich der kognitiven Fähigkeiten des Menschen) Mathematik Insbesondere: Logik, Wahrscheinlichkeitstheorie, Statistik, Graphentheorie Sprache ist oft nicht logisch: Schütze & Zangenfeind: Überblick 8 / 19

37 Nachbardisziplinen (2) Kognitionswissenschaft (Sprachbeherrschung ist spezieller Teilbereich der kognitiven Fähigkeiten des Menschen) Mathematik Insbesondere: Logik, Wahrscheinlichkeitstheorie, Statistik, Graphentheorie Sprache ist oft nicht logisch: Schütze & Zangenfeind: Überblick 8 / 19

38 Nachbardisziplinen (2) Kognitionswissenschaft (Sprachbeherrschung ist spezieller Teilbereich der kognitiven Fähigkeiten des Menschen) Mathematik Insbesondere: Logik, Wahrscheinlichkeitstheorie, Statistik, Graphentheorie Sprache ist oft nicht logisch: (1) Ein großer Berg vs. Eine große Ameise Schütze & Zangenfeind: Überblick 8 / 19

39 Nachbardisziplinen (2) Kognitionswissenschaft (Sprachbeherrschung ist spezieller Teilbereich der kognitiven Fähigkeiten des Menschen) Mathematik Insbesondere: Logik, Wahrscheinlichkeitstheorie, Statistik, Graphentheorie Sprache ist oft nicht logisch: (1) Ein großer Berg vs. Eine große Ameise Vagheit des Adjektivs (kein Problem für Menschen) Logik modifizieren in CL Schütze & Zangenfeind: Überblick 8 / 19

40 Nachbardisziplinen (2) Kognitionswissenschaft (Sprachbeherrschung ist spezieller Teilbereich der kognitiven Fähigkeiten des Menschen) Mathematik Insbesondere: Logik, Wahrscheinlichkeitstheorie, Statistik, Graphentheorie Sprache ist oft nicht logisch: (1) Ein großer Berg vs. Eine große Ameise Vagheit des Adjektivs (kein Problem für Menschen) Logik modifizieren in CL (2) Vögel fliegen. / Pinguine sind Vögel. / Pinguine fliegen. Schütze & Zangenfeind: Überblick 8 / 19

41 Nachbardisziplinen (2) Kognitionswissenschaft (Sprachbeherrschung ist spezieller Teilbereich der kognitiven Fähigkeiten des Menschen) Mathematik Insbesondere: Logik, Wahrscheinlichkeitstheorie, Statistik, Graphentheorie Sprache ist oft nicht logisch: (1) Ein großer Berg vs. Eine große Ameise Vagheit des Adjektivs (kein Problem für Menschen) Logik modifizieren in CL (2) Vögel fliegen. / Pinguine sind Vögel. / Pinguine fliegen. scheinbar widersprüchliche Aussagen (Mensch hat wenig Probleme damit) Schütze & Zangenfeind: Überblick 8 / 19

42 Teilgebiete der Linguistik Phonetik und Phonologie Morphologie Syntax Semantik Pragmatik Schütze & Zangenfeind: Überblick 9 / 19

43 Teilgebiete der Linguistik Phonetik und Phonologie Morphologie Syntax Semantik Pragmatik Jedes dieser Teilgebiete hat auch eine Entsprechung in der Computerlinguistik. Schütze & Zangenfeind: Überblick 9 / 19

44 Phonetik und Phonologie Schütze & Zangenfeind: Überblick 10 / 19

45 Phonetik und Phonologie artikulatorische Merkmale Schütze & Zangenfeind: Überblick 10 / 19

46 Phonetik und Phonologie artikulatorische Merkmale Lautstruktur natürlicher Sprachen Schütze & Zangenfeind: Überblick 10 / 19

47 Phonetik und Phonologie artikulatorische Merkmale Lautstruktur natürlicher Sprachen Spracherkennung: Erkennung und Produktion gesprochener Sprache Schütze & Zangenfeind: Überblick 10 / 19

48 Phonetik und Phonologie artikulatorische Merkmale Lautstruktur natürlicher Sprachen Spracherkennung: Erkennung und Produktion gesprochener Sprache modellieren, welche Segmente ein Wort enthält und wie sich deren Struktur auf die Aussprache auswirkt Schütze & Zangenfeind: Überblick 10 / 19

49 Phonetik und Phonologie artikulatorische Merkmale Lautstruktur natürlicher Sprachen Spracherkennung: Erkennung und Produktion gesprochener Sprache modellieren, welche Segmente ein Wort enthält und wie sich deren Struktur auf die Aussprache auswirkt z.b. wenn ein im Prinzip stimmhafter Konsonant am Wortende stimmlos wird ( Auslautverhärtung ): Schütze & Zangenfeind: Überblick 10 / 19

50 Phonetik und Phonologie artikulatorische Merkmale Lautstruktur natürlicher Sprachen Spracherkennung: Erkennung und Produktion gesprochener Sprache modellieren, welche Segmente ein Wort enthält und wie sich deren Struktur auf die Aussprache auswirkt z.b. wenn ein im Prinzip stimmhafter Konsonant am Wortende stimmlos wird ( Auslautverhärtung ): (3) Dieb /Diep/ vs. Diebe /Diebe/ Schütze & Zangenfeind: Überblick 10 / 19

51 Morphologie Schütze & Zangenfeind: Überblick 11 / 19

52 Morphologie Bildung und Struktur von Wörtern Schütze & Zangenfeind: Überblick 11 / 19

53 Morphologie Bildung und Struktur von Wörtern lexikalische Wurzel von einzelnen Wörtern Schütze & Zangenfeind: Überblick 11 / 19

54 Morphologie Bildung und Struktur von Wörtern lexikalische Wurzel von einzelnen Wörtern Prozesse, verantwortlich für unterschiedliche Erscheinungsformen an der Oberfläche Schütze & Zangenfeind: Überblick 11 / 19

55 Morphologie Bildung und Struktur von Wörtern lexikalische Wurzel von einzelnen Wörtern Prozesse, verantwortlich für unterschiedliche Erscheinungsformen an der Oberfläche Veränderung der Verwendung und Bedeutung des Wortes durch Oberflächenmodifikationen Schütze & Zangenfeind: Überblick 11 / 19

56 Morphologie Bildung und Struktur von Wörtern lexikalische Wurzel von einzelnen Wörtern Prozesse, verantwortlich für unterschiedliche Erscheinungsformen an der Oberfläche Veränderung der Verwendung und Bedeutung des Wortes durch Oberflächenmodifikationen z.b. Suffix -e als Pluralmarkierung: Schütze & Zangenfeind: Überblick 11 / 19

57 Morphologie Bildung und Struktur von Wörtern lexikalische Wurzel von einzelnen Wörtern Prozesse, verantwortlich für unterschiedliche Erscheinungsformen an der Oberfläche Veränderung der Verwendung und Bedeutung des Wortes durch Oberflächenmodifikationen z.b. Suffix -e als Pluralmarkierung: (4) Dieb-e Dieb-pl Mehr als ein Dieb Schütze & Zangenfeind: Überblick 11 / 19

58 Syntax Schütze & Zangenfeind: Überblick 12 / 19

59 Syntax Strukturbildung von Sätzen Schütze & Zangenfeind: Überblick 12 / 19

60 Syntax Strukturbildung von Sätzen traditionell am stärksten vertretene Teildisziplin der Computerlinguistik Schütze & Zangenfeind: Überblick 12 / 19

61 Syntax Strukturbildung von Sätzen traditionell am stärksten vertretene Teildisziplin der Computerlinguistik Erkennung von Grammatikalität und darauf folgende Bedeutungserschließung Schütze & Zangenfeind: Überblick 12 / 19

62 Syntax Strukturbildung von Sätzen traditionell am stärksten vertretene Teildisziplin der Computerlinguistik Erkennung von Grammatikalität und darauf folgende Bedeutungserschließung z.b. (5) Der gewitzte Dieb stahl das Geld. Schütze & Zangenfeind: Überblick 12 / 19

63 Syntax Strukturbildung von Sätzen traditionell am stärksten vertretene Teildisziplin der Computerlinguistik Erkennung von Grammatikalität und darauf folgende Bedeutungserschließung z.b. (5) Der gewitzte Dieb stahl das Geld. vs. Schütze & Zangenfeind: Überblick 12 / 19

64 Syntax Strukturbildung von Sätzen traditionell am stärksten vertretene Teildisziplin der Computerlinguistik Erkennung von Grammatikalität und darauf folgende Bedeutungserschließung z.b. (5) Der gewitzte Dieb stahl das Geld. vs. *Der Dieb gewitzte stahl das Geld. Schütze & Zangenfeind: Überblick 12 / 19

65 Semantik Schütze & Zangenfeind: Überblick 13 / 19

66 Semantik Bedeutung sprachlicher Einheiten (Wort, Satz etc.) Schütze & Zangenfeind: Überblick 13 / 19

67 Semantik Bedeutung sprachlicher Einheiten (Wort, Satz etc.) z.b. (6) Die Polizei beschlagnahmte das Diebesgut. Schütze & Zangenfeind: Überblick 13 / 19

68 Semantik Bedeutung sprachlicher Einheiten (Wort, Satz etc.) z.b. (6) Die Polizei beschlagnahmte das Diebesgut. vs. Schütze & Zangenfeind: Überblick 13 / 19

69 Semantik Bedeutung sprachlicher Einheiten (Wort, Satz etc.) z.b. (6) Die Polizei beschlagnahmte das Diebesgut. vs. Das Diebesgut beschlagnahmte die Polizei. Schütze & Zangenfeind: Überblick 13 / 19

70 Semantik Bedeutung sprachlicher Einheiten (Wort, Satz etc.) z.b. (6) Die Polizei beschlagnahmte das Diebesgut. vs. Das Diebesgut beschlagnahmte die Polizei. gleiche Bedeutung Schütze & Zangenfeind: Überblick 13 / 19

71 Pragmatik Schütze & Zangenfeind: Überblick 14 / 19

72 Pragmatik Zweck einer Äußerung in der Welt, z.b. Schütze & Zangenfeind: Überblick 14 / 19

73 Pragmatik Zweck einer Äußerung in der Welt, z.b. Wissen Sie, wie spät es ist? Schütze & Zangenfeind: Überblick 14 / 19

74 Pragmatik Zweck einer Äußerung in der Welt, z.b. Wissen Sie, wie spät es ist? Bestimmung des Bezugs von Wörtern: Antezedens eines Pronomens, z.b.: Schütze & Zangenfeind: Überblick 14 / 19

75 Pragmatik Zweck einer Äußerung in der Welt, z.b. Wissen Sie, wie spät es ist? Bestimmung des Bezugs von Wörtern: Antezedens eines Pronomens, z.b.: Die Katze schnurrt. Sie hat Hunger. Schütze & Zangenfeind: Überblick 14 / 19

76 Pragmatik Zweck einer Äußerung in der Welt, z.b. Wissen Sie, wie spät es ist? Bestimmung des Bezugs von Wörtern: Antezedens eines Pronomens, z.b.: Die Katze schnurrt. Sie hat Hunger. implizite Annahmen (Präsuppositionen), z.b.: Schütze & Zangenfeind: Überblick 14 / 19

77 Pragmatik Zweck einer Äußerung in der Welt, z.b. Wissen Sie, wie spät es ist? Bestimmung des Bezugs von Wörtern: Antezedens eines Pronomens, z.b.: Die Katze schnurrt. Sie hat Hunger. implizite Annahmen (Präsuppositionen), z.b.: der Präsident von Frankreich wurde nicht in Paris geboren Schütze & Zangenfeind: Überblick 14 / 19

78 Pragmatik Zweck einer Äußerung in der Welt, z.b. Wissen Sie, wie spät es ist? Bestimmung des Bezugs von Wörtern: Antezedens eines Pronomens, z.b.: Die Katze schnurrt. Sie hat Hunger. implizite Annahmen (Präsuppositionen), z.b.: der Präsident von Frankreich wurde nicht in Paris geboren der Präsident von Norwegen wurde nicht in Oslo geboren Schütze & Zangenfeind: Überblick 14 / 19

79 Korpuslinguistik Schütze & Zangenfeind: Überblick 15 / 19

80 Korpuslinguistik seit Anfang 1980er Schütze & Zangenfeind: Überblick 15 / 19

81 Korpuslinguistik seit Anfang 1980er Fortschritte bei Erkennung gesprochener Sprache Schütze & Zangenfeind: Überblick 15 / 19

82 Korpuslinguistik seit Anfang 1980er Fortschritte bei Erkennung gesprochener Sprache Wortartendisambiguierung (Tagging) Schütze & Zangenfeind: Überblick 15 / 19

83 Korpuslinguistik seit Anfang 1980er Fortschritte bei Erkennung gesprochener Sprache Wortartendisambiguierung (Tagging) syntaktische Analyse (Parsing) Schütze & Zangenfeind: Überblick 15 / 19

84 Korpuslinguistik seit Anfang 1980er Fortschritte bei Erkennung gesprochener Sprache Wortartendisambiguierung (Tagging) syntaktische Analyse (Parsing) semantische Lesartendisambiguierung (z.b. Bank 1 vs. Bank 2) Schütze & Zangenfeind: Überblick 15 / 19

85 Korpuslinguistik seit Anfang 1980er Fortschritte bei Erkennung gesprochener Sprache Wortartendisambiguierung (Tagging) syntaktische Analyse (Parsing) semantische Lesartendisambiguierung (z.b. Bank 1 vs. Bank 2) maschinelle Übersetzung Schütze & Zangenfeind: Überblick 15 / 19

86 Text corpus Schütze & Zangenfeind: Überblick 16 / 19

87 Text corpus Definition A corpus (plural corpora) or text corpus is a large and structured set of texts, nowadays usually electronically stored and processed. Schütze & Zangenfeind: Überblick 16 / 19

88 Text corpus Definition A corpus (plural corpora) or text corpus is a large and structured set of texts, nowadays usually electronically stored and processed. Corpora are used to do statistical analysis and hypothesis testing, checking occurrences or validating linguistic rules within a specific language territory. Schütze & Zangenfeind: Überblick 16 / 19

89 Text corpus Definition A corpus (plural corpora) or text corpus is a large and structured set of texts, nowadays usually electronically stored and processed. Corpora are used to do statistical analysis and hypothesis testing, checking occurrences or validating linguistic rules within a specific language territory. A corpus may contain texts in a single language (monolingual corpus) or text data in multiple languages (multilingual corpus). Schütze & Zangenfeind: Überblick 16 / 19

90 Text corpus Definition A corpus (plural corpora) or text corpus is a large and structured set of texts, nowadays usually electronically stored and processed. Corpora are used to do statistical analysis and hypothesis testing, checking occurrences or validating linguistic rules within a specific language territory. A corpus may contain texts in a single language (monolingual corpus) or text data in multiple languages (multilingual corpus). (from Wikipedia) Schütze & Zangenfeind: Überblick 16 / 19

91 Kleine Geschichte der Computerlinguistik (1) Schütze & Zangenfeind: Überblick 17 / 19

92 Kleine Geschichte der Computerlinguistik (1) frühe Entwicklung der Computertechnologie (1930er-, 40er-Jahre): numerische Problemstellungen ( Berechnungen, z.b. ballistische Kurven), auch symbolische Verarbeitungsaufgaben (Dechiffrierung verschlüsselter Nachrichtentexte maschinelle Übersetzung (MÜ) als Spezialfall einer Dekodierungsaufgabe) Schütze & Zangenfeind: Überblick 17 / 19

93 Kleine Geschichte der Computerlinguistik (1) frühe Entwicklung der Computertechnologie (1930er-, 40er-Jahre): numerische Problemstellungen ( Berechnungen, z.b. ballistische Kurven), auch symbolische Verarbeitungsaufgaben (Dechiffrierung verschlüsselter Nachrichtentexte maschinelle Übersetzung (MÜ) als Spezialfall einer Dekodierungsaufgabe) frühe Ansätze der MÜ haben gemeinsame Wurzel: stochastische Informationstheorie (Betrachtung des fremdsprachlichen Textes als Ergebnis der Übertragung einer Nachricht über gestörten Kanal Aufgabe: Rekonstruktion des ursprünglichen Nachrichtentextes) Schütze & Zangenfeind: Überblick 17 / 19

94 Kleine Geschichte der Computerlinguistik (1) frühe Entwicklung der Computertechnologie (1930er-, 40er-Jahre): numerische Problemstellungen ( Berechnungen, z.b. ballistische Kurven), auch symbolische Verarbeitungsaufgaben (Dechiffrierung verschlüsselter Nachrichtentexte maschinelle Übersetzung (MÜ) als Spezialfall einer Dekodierungsaufgabe) frühe Ansätze der MÜ haben gemeinsame Wurzel: stochastische Informationstheorie (Betrachtung des fremdsprachlichen Textes als Ergebnis der Übertragung einer Nachricht über gestörten Kanal Aufgabe: Rekonstruktion des ursprünglichen Nachrichtentextes) Statistische Verfahren wurden dann für Jahrzehnte aufgegeben. Schütze & Zangenfeind: Überblick 17 / 19

95 Kleine Geschichte der Computerlinguistik (2) Schütze & Zangenfeind: Überblick 18 / 19

96 Kleine Geschichte der Computerlinguistik (2) Aufgabe von statistischen Verfahren weil Schütze & Zangenfeind: Überblick 18 / 19

97 Kleine Geschichte der Computerlinguistik (2) Aufgabe von statistischen Verfahren weil Chomsky die Unzulänglichkeit der statistischen Verfahren der 50er und 60er für Sprachmodellierung nachweist. Schütze & Zangenfeind: Überblick 18 / 19

98 Kleine Geschichte der Computerlinguistik (2) Aufgabe von statistischen Verfahren weil Chomsky die Unzulänglichkeit der statistischen Verfahren der 50er und 60er für Sprachmodellierung nachweist. die Leistungsfähigkeit der damaligen Hardware nicht ausreichte (Beschränkungen bevorzugen symbolische Ansätze) Schütze & Zangenfeind: Überblick 18 / 19

99 Literatur und Links Schütze & Zangenfeind: Überblick 19 / 19

100 Literatur und Links Jurafsky & Martin: Speech and Language Processing. Pearson Prentice Hall Schütze & Zangenfeind: Überblick 19 / 19

101 Literatur und Links Jurafsky & Martin: Speech and Language Processing. Pearson Prentice Hall Manning & Schütze: Foundations of Statistical Natural Language Processing. MIT Press Schütze & Zangenfeind: Überblick 19 / 19

102 Literatur und Links Jurafsky & Martin: Speech and Language Processing. Pearson Prentice Hall Manning & Schütze: Foundations of Statistical Natural Language Processing. MIT Press Carstensen et al.: Computerlinguistik und Sprachtechnologie. Eine Einführung. Heidelberg 2010 (3. Auflage) Schütze & Zangenfeind: Überblick 19 / 19

103 Literatur und Links Jurafsky & Martin: Speech and Language Processing. Pearson Prentice Hall Manning & Schütze: Foundations of Statistical Natural Language Processing. MIT Press Carstensen et al.: Computerlinguistik und Sprachtechnologie. Eine Einführung. Heidelberg 2010 (3. Auflage) elektronische Version beim EasyProxy der Universitätsbibliothek: Schütze & Zangenfeind: Überblick 19 / 19

Einführung in die Computerlinguistik Überblick

Einführung in die Computerlinguistik Überblick Einführung in die Computerlinguistik Überblick Hinrich Schütze & Robert Zangenfeind Centrum für Informations- und Sprachverarbeitung, LMU München 2015-10-12 1 / 19 Was ist Computerlinguistik? Definition

Mehr

Einführung Computerlinguistik. Überblick

Einführung Computerlinguistik. Überblick Einführung Computerlinguistik Überblick Hinrich Schütze & Robert Zangenfeind Centrum für Informations- und Sprachverarbeitung, LMU München 2013-10-14 Schütze & Zangenfeind: Überblick 1 / 30 Take-away Schütze

Mehr

Computerlinguistik und Sprachtechnologie

Computerlinguistik und Sprachtechnologie Computerlinguistik und Sprachtechnologie Eine Einführung Herausgegeben von: Kai-Uwe Carstensen, Christian Ebert, Cornelia Endriss, Susanne Jekat, Ralf Klabunde und Hagen Langer Spektrum Akademischer Verlag

Mehr

NLP - Analyse des Wissensrohstoffs Text

NLP - Analyse des Wissensrohstoffs Text NLP - Analyse des Wissensrohstoffs Text Vorlesung Beginn: 8. April 2008 Dienstag 10.15 h - 11.45 h, in Raum 1607 oder 0443 Übungen Dr. Andreas Hotho Dominik Benz Beate Krause Sommersemester 2008 Beginn:

Mehr

8 Fakultät für Philologie

8 Fakultät für Philologie 8 Fakultät für Philologie 8.1 Linguistik 8.1.1 Linguistik, PO 2004 Fach Linguistik (101) Abschluss 2-Fach Bachelor (81) PO-Version 2004 Folgendes ist zurzeit in HISPOS eingerichtet: Modul-Typen: o Nachgewiesene

Mehr

Anlage 1: Modularisierung des Bachelor-Studiengangs Theoretische und Angewandte Computerlinguistik

Anlage 1: Modularisierung des Bachelor-Studiengangs Theoretische und Angewandte Computerlinguistik Anlage : Modularisierung des Bachelor-Studiengangs Theoretische und Angewandte Legende: PM = Pflichtmodul; WPM = Wahlpflichtmodul; WM = Wahlmodul VL = Vorlesung; PS = Proseminar; HS = Hauptseminar; Ü =

Mehr

Einführung in die Phonetik und Phonologie. Allgemeiner Überblick

Einführung in die Phonetik und Phonologie. Allgemeiner Überblick Einführung in die Phonetik und Phonologie Allgemeiner Überblick Phonetik und Phonologie Die beiden Bezeichnungen Phonetik und Phonologie sind aus dem griechischen Wort ϕωνþ (phōnē) abgeleitet, welches

Mehr

Modulhandbuch. für das Bachelor Nebenfach Computerlinguistik gültig ab Wintersemester (Version: )

Modulhandbuch. für das Bachelor Nebenfach Computerlinguistik gültig ab Wintersemester (Version: ) Modulhandbuch für das Bachelor Nebenfach Computerlinguistik gültig ab Wintersemester 2013 (Version: 2013-06-26) 1 Modulübersicht V=Vorlesung, Ü=Übung, S=Seminar, P=Praktikum Semester Modulnr. Titel der

Mehr

Einführung in die Computerlinguistik D IALOGSYSTEME WS 2009/2010. Bojan Georgievski Prashanna Thangeswaran David Höfig

Einführung in die Computerlinguistik D IALOGSYSTEME WS 2009/2010. Bojan Georgievski Prashanna Thangeswaran David Höfig Einführung in die Computerlinguistik D IALOGSYSTEME WS 2009/2010 Bojan Georgievski Prashanna Thangeswaran David Höfig Einführung Was sind Dialogsysteme? Beispiele von Dialogsystemen Wo werden Dialogsysteme

Mehr

Einführung in die Methoden der Künstlichen Intelligenz

Einführung in die Methoden der Künstlichen Intelligenz Einführung in die Methoden der Künstlichen Intelligenz --- Vorlesung vom 17.4.2007 --- Sommersemester 2007 Prof. Dr. Ingo J. Timm, Andreas D. Lattner Professur für Wirtschaftsinformatik und Simulation

Mehr

Background for Hybrid Processing

Background for Hybrid Processing Background for Hybrid Processing Hans Uszkoreit Foundations of LST WS 04/05 Scope Classical Areas of Computational Linguistics: computational morphology, computational syntax computational semantics computational

Mehr

Mit Computerlinguistik und Sprachtechnologie in die Zukunft: Die Technik

Mit Computerlinguistik und Sprachtechnologie in die Zukunft: Die Technik 1 Mit Computerlinguistik und Sprachtechnologie in die Zukunft: Die Technik Ein Fragebogen zur Einschätzung der Aktualität von Methoden und zum Zeithorizont von Entwicklungen. Karin Haenelt, 25.06.2002

Mehr

Einführung in die Computerlinguistik Statistische Grundlagen

Einführung in die Computerlinguistik Statistische Grundlagen Statistik 1 Sommer 2015 Einführung in die Computerlinguistik Statistische Grundlagen Laura Heinrich-Heine-Universität Düsseldorf Sommersemester 2015 Statistik 2 Sommer 2015 Überblick 1. Diskrete Wahrscheinlichkeitsräume

Mehr

NLP Eigenschaften von Text

NLP Eigenschaften von Text NLP Eigenschaften von Text Dr. Andreas Hotho Dominik Benz Beate Krause Sommersemester 2008 Folie: 1 Übersicht Einführung Eigenschaften von Text Words I: Satzgrenzenerkennung, Tokenization, Kollokationen

Mehr

Korpora. Referenten Duyen Tao-Pham Nedyalko Georgiev

Korpora. Referenten Duyen Tao-Pham Nedyalko Georgiev Korpora Referenten Duyen Tao-Pham Nedyalko Georgiev Hauptseminar: Angewandte Linguistische Datenverarbeitung (WS 11/12) Dozent: Prof. Dr. Jürgen Rolshoven Sprachliche Informationsverarbeitung Universität

Mehr

Elementare Begriffe der Wahrscheinlichkeitstheorie für die Sprachverarbeitung

Elementare Begriffe der Wahrscheinlichkeitstheorie für die Sprachverarbeitung Elementare Begriffe der Wahrscheinlichkeitstheorie für die Sprachverarbeitung Kursfolien Karin Haenelt 1 Übersicht Wahrscheinlichkeitsfunktion P Wahrscheinlichkeit und bedingte Wahrscheinlichkeit Bayes-Formeln

Mehr

Terminus Sprache, Phonologie und Grammatik

Terminus Sprache, Phonologie und Grammatik Terminus Sprache, Phonologie und Grammatik Terminus Sprache Beinhaltet 4 verschiedene Bedeutungen Langage: menschliche Fähigkeit Langue: eine bestimmte Sprache, Untersuchungsgebiet der Linguistik Parole:

Mehr

Complex Event Processing

Complex Event Processing [10] Armin Steudte HAW Hamburg Masterstudiengang Informatik - WS 2011/2012 Agenda Motivation Grundlagen Event Processing Networks Ausblick Quellen 2 Agenda Motivation Grundlagen Event Processing Networks

Mehr

Part-of-Speech Tagging. Stephanie Schuldes

Part-of-Speech Tagging. Stephanie Schuldes Part-of-Speech Tagging Stephanie Schuldes 05.06.2003 PS Erschließen von großen Textmengen Geißler/Holler SoSe 2003 Motivation Ziel: vollständiges Parsing und Verstehen natürlicher Sprache Herantasten durch

Mehr

Statistische Verfahren in der Computerlinguistik

Statistische Verfahren in der Computerlinguistik Statistische Verfahren in der Computerlinguistik Zweiter Teil Einführung in die Computerlinguistik Sommersemester 2009 Übersicht Statistische vs. symbolische Verfahren in der CL Statistik beschreibende

Mehr

VO 340088 Sprachtechnologien. Informations- und Wissensmanagement. Bartholomäus Wloka. Zentrum für Translationswissenschaft

VO 340088 Sprachtechnologien. Informations- und Wissensmanagement. Bartholomäus Wloka. Zentrum für Translationswissenschaft , Informations- und Wissensmanagement Zentrum für Translationswissenschaft Grundlagen und Definitionen Maschinelle Sprachverarbeitung Breites Spektrum an Methoden der Computerverarbeitung von Sprache.

Mehr

Prüfungsordnung der Universität Heidelberg für den Bachelor-Studiengang Besonderer Teil Theoretische und Angewandte Computerlinguistik

Prüfungsordnung der Universität Heidelberg für den Bachelor-Studiengang Besonderer Teil Theoretische und Angewandte Computerlinguistik Universität Heidelberg Seite 4 8.0.009 Prüfungsordnung der Universität Heidelberg für den Bachelor-Studiengang Besonderer Teil Theoretische und Angewandte vom 8. Januar 009 Aufgrund von 4 des Landeshochschulgesetzes,

Mehr

Einführung in die Signalverarbeitung

Einführung in die Signalverarbeitung Einführung in die Signalverarbeitung Phonetik und Sprachverarbeitung, 2. Fachsemester, Block Sprachtechnologie I Florian Schiel Institut für Phonetik und Sprachverarbeitung, LMU München Signalverarbeitung

Mehr

Anhang III: Modulhandbuch

Anhang III: Modulhandbuch Anhang III: Modulhandbuch Das Modulhandbuch wird gemäß 1 Abs. (1) der Satzung der Technischen Universität Darmstadt zur Regelung der Bekanntmachung von Satzungen der Technischen Universität Darmstadt vom

Mehr

Friedrich-Alexander-Universität Professur für Computerlinguistik. Nguyen Ai Huong

Friedrich-Alexander-Universität Professur für Computerlinguistik. Nguyen Ai Huong Part-of-Speech Tagging Friedrich-Alexander-Universität Professur für Computerlinguistik Nguyen Ai Huong 15.12.2011 Part-of-speech tagging Bestimmung von Wortform (part of speech) für jedes Wort in einem

Mehr

Stefan Engelberg (IDS Mannheim), Workshop Corpora in Lexical Research, Bucharest, Nov. 2008 [Folie 1] DWDS-Kernkorpus / DWDS corpus analysis

Stefan Engelberg (IDS Mannheim), Workshop Corpora in Lexical Research, Bucharest, Nov. 2008 [Folie 1] DWDS-Kernkorpus / DWDS corpus analysis Content 1. Empirical linguistics 2. Text corpora and corpus linguistics 3. Concordances 4. Application I: The German progressive 5. Part-of-speech tagging 6. Fequency analysis 7. Application II: Compounds

Mehr

Einführung in die Signalverarbeitung

Einführung in die Signalverarbeitung Einführung in die Signalverarbeitung Phonetik und Sprachverarbeitung, 2. Fachsemester, Block Sprachtechnologie I Florian Schiel Institut für Phonetik und Sprachverarbeitung, LMU München Signalverarbeitung

Mehr

Einführung Computerlinguistik. Was ist ein Wort?

Einführung Computerlinguistik. Was ist ein Wort? Einführung Computerlinguistik Was ist ein Wort? Hinrich Schütze & Robert Zangenfeind Centrum für Informations- und Sprachverarbeitung, LMU München 2013-10-18 Schütze & Zangenfeind: Was ist ein Wort? 1

Mehr

Terminologie-Extraktion: Beispiel

Terminologie-Extraktion: Beispiel Terminologie-Extraktion: Beispiel The major risks of long-term cardiotoxicity relate to treatment prior to the BMT, in particular, anthracyclines, ablative-dose Cytoxan (ie, dose > 150 mg/ kg), chest [radiation

Mehr

1 Computerlinguistik Was ist das?

1 Computerlinguistik Was ist das? 1 Computerlinguistik Was ist das? Kapitelherausgeber: Kai-Uwe Carstensen, Susanne Jekat und Ralf Klabunde Die Computerlinguistik ist das Fachgebiet, das sich mit der maschinellen Verarbeitung natürlicher

Mehr

Lexikologie der deutschen Gegenwartssprache. Herbstsemester 2011/2012 Assist. Daumantas Katinas

Lexikologie der deutschen Gegenwartssprache. Herbstsemester 2011/2012 Assist. Daumantas Katinas Lexikologie der deutschen Gegenwartssprache Herbstsemester 2011/2012 Assist. Daumantas Katinas 7.9.2011 Überblick 15 Lehrveranstaltungen Teilnahmepflicht an 10 Veranstaltungen 1 schriftliche Kontrollarbeit

Mehr

1 Computerlinguistik Was ist das?

1 Computerlinguistik Was ist das? 1 Computerlinguistik Was ist das? Kapitelherausgeber: Kai-Uwe Carstensen, Susanne Jekat und Ralf Klabunde Die Computerlinguistik ist das Fachgebiet, das sich mit der maschinellen Verarbeitung natürlicher

Mehr

Systemtheorie 1. Einführung Systemtheorie 1 Formale Systeme 1 # WS 2006/2007 Armin Biere JKU Linz Revision: 1.4

Systemtheorie 1. Einführung Systemtheorie 1 Formale Systeme 1 # WS 2006/2007 Armin Biere JKU Linz Revision: 1.4 Einführung intro 1 Grobklassifizierung r Methoden in der Informatik intro 2 Systemtheorie 1 Systeme 1 #342234 http://fmv.jku.at/fs1 WS 2006/2007 Johannes Kepler Universität Linz, Österreich Univ. Prof.

Mehr

Text-Mining: Einführung

Text-Mining: Einführung Text-Mining: Einführung Claes Neuefeind Fabian Steeg 22. April 2010 Organisatorisches Was ist Text-Mining? Definitionen Anwendungsbeispiele Textuelle Daten Aufgaben u. Teilbereiche Literatur Kontakt Sprechstunde:

Mehr

Natürlichsprachliche Mensch-Computer Interaktion mit VoiceXML

Natürlichsprachliche Mensch-Computer Interaktion mit VoiceXML Natürlichsprachliche Mensch-Computer Interaktion mit VoiceXML 1-1 Natürlichsprachliche Mensch-Computer Interaktion mit VoiceXML Prof. Dr.-Ing. Václav Matoušek Lehrstuhl für Informatik und Rechentechnik

Mehr

Seminar Künstliche Intelligenz Wintersemester 2014/15

Seminar Künstliche Intelligenz Wintersemester 2014/15 Seminar Künstliche Intelligenz Wintersemester 2014/15 Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 15.10.2014 2 / 14 Überblick Teilgebiete der KI Problemlösen,

Mehr

18.05.11. letzte Änderung. Prüfungsordnung der Universität Heidelberg für den Bachelor-Studiengang Besonderer Teil Computerlinguistik

18.05.11. letzte Änderung. Prüfungsordnung der Universität Heidelberg für den Bachelor-Studiengang Besonderer Teil Computerlinguistik A 07-0- 8.05. 05 - Prüfungsordnung der Universität Heidelberg für den Bachelor-Studiengang Besonderer Teil Computerlinguistik vom 4. Juni 00 Geltung des Allgemeinen Teils Die Prüfungsordnung der Universität

Mehr

Einführung in die Computerlinguistik Einführung

Einführung in die Computerlinguistik Einführung Die Disziplin Anwendungen Sprache & Ambiguität Hausaufgaben Einführung in die Computerlinguistik Einführung Dozentin: Wiebke Petersen Wiebke Petersen Einführung CL (1. Sitzung) 1 Die Disziplin Anwendungen

Mehr

Einführung in die Syntax und Morphologie. Vorlesung mit Übung WS 2010/2011, Computerlinguistik

Einführung in die Syntax und Morphologie. Vorlesung mit Übung WS 2010/2011, Computerlinguistik Einführung in die Syntax und Morphologie Vorlesung mit Übung WS 2010/2011, Computerlinguistik 02 Bedeutung von Sprache 1. Die menschliche Kommunikationsfähigkeit schlechthin (Satz A). 2. Eine bestimmte

Mehr

EXTRAKTION UND KLASSIFIKATION VON BEWERTETEN PRODUKTFEATURES AUF WEBSEITEN

EXTRAKTION UND KLASSIFIKATION VON BEWERTETEN PRODUKTFEATURES AUF WEBSEITEN EXTRAKTION UND KLASSIFIKATION VON BEWERTETEN PRODUKTFEATURES AUF WEBSEITEN T-SYSTEMS MULTIMEDIA SOLUTIONS GMBH, 16. FEBRUAR 2012 1. Schlüsselworte Semantic Web, Opinion Mining, Sentiment Analysis, Stimmungsanalyse,

Mehr

Einführung in die portugiesische Sprachwissenschaft

Einführung in die portugiesische Sprachwissenschaft Annette Endruschat Jürgen Schmidt-Radefeldt Einführung in die portugiesische Sprachwissenschaft Gunter Narr Verlag Tübingen Inhalt Vorwort 9 Abkürzungen und Abbildungsverzeichnis 12 1 Weltsprache Portugiesisch

Mehr

Lösungsvorschlag für das Übungsblatt 1. Aufgabe 1.

Lösungsvorschlag für das Übungsblatt 1. Aufgabe 1. Lösungsvorschlag für das Übungsblatt 1. Aufgabe 1. Zusammengefasst aus Ihren Beiträgen Wie bewerten sie das System ingesamt? Das Watson System verdeutlicht den Fortschritt der Künstlichen Intelligenz Forschung/Computerlinguistik/Informatik

Mehr

Modulhandbuch. Module des beantragten Master-Studiengangs Sprach- und Texttechnologie (Nebenfach) im Fachbereich II an der Universität Trier SWS:

Modulhandbuch. Module des beantragten Master-Studiengangs Sprach- und Texttechnologie (Nebenfach) im Fachbereich II an der Universität Trier SWS: Modulhandbuch Module des beantragten Master-Studiengangs Sprach- und Texttechnologie (Nebenfach) im Fachbereich II an der Universität Trier Modul: Sprach- und Textverarbeitung STTMN1 Leistungspunkte pro

Mehr

Prüfungsordnung der Albert-Ludwigs-Universität für den Studiengang Bachelor of Arts (B.A.)

Prüfungsordnung der Albert-Ludwigs-Universität für den Studiengang Bachelor of Arts (B.A.) Vom 25. November 2011 (Amtliche Bekanntmachungen Jg. 42, Nr. 104, S. 723 968) in der Fassung vom 21. Dezember 2015 (Amtliche Bekanntmachungen Jg. 46, Nr. 79, S. 489 573) Prüfungsordnung der Albert-Ludwigs-Universität

Mehr

Lehrveranstaltungsverzeichnis für den Studienplan 521 Bachelorstudium Informatik (03W) 15W

Lehrveranstaltungsverzeichnis für den Studienplan 521 Bachelorstudium Informatik (03W) 15W erstellt am 18.12.2015 um 02.31 Seite 1 von 10 Bachelorstudium Informatik Version: 03W SKZ: 521 Fach: Angewandte Informatik PF Stunden: 16.0 ECTS: 25.0 620.000 Einführung in die Informatik Bollin A. 12:00-14:00

Mehr

INFORMATIONSEXTRAKTION

INFORMATIONSEXTRAKTION INFORMATIONSEXTRAKTION Referentin: Syriane Kemayou Yamga Universität Heidelberg, Computerlinguistik, Hauptseminar: Information Retrieval PD. Dr. Karin Haenelt 16.01.2006 Informationsextraktion (IE) 1.

Mehr

Volltextsuche und Text Mining

Volltextsuche und Text Mining 1 Volltextsuche und Text Mining Datum: 22.12.2009 Seminar: Einführung in die Computerlinguistik Referenten: Cornelia Baldauf, Valentin Heinz, Adriana Kosior 2 Agenda 1. Einführung a) Volltextsuche b) Text

Mehr

Sprachtechnologie in der Wissenschaft: Digital-Turn in evidenzbasierter Bildungsforschung und -information

Sprachtechnologie in der Wissenschaft: Digital-Turn in evidenzbasierter Bildungsforschung und -information Sprachtechnologie in der Wissenschaft: Digital-Turn in evidenzbasierter Bildungsforschung und -information Iryna Gurevych Sprachtechnologie-Feuerwerk: Aktuelle Anwendungsbeispiele und Zukunftsvisionen

Mehr

Maturandentag 2005 Computerlinguistik

Maturandentag 2005 Computerlinguistik Maturandentag 2005 Computerlinguistik http://www.ifi.unizh.ch/cl/ 13./14. September 2005 Maturandentag 2005 Computerlinguistik 13./14. September 2005 http://www.ifi.unizh.ch/cl/ 1 / 11 Computerlinguistik

Mehr

WS 2009/10. Diskrete Strukturen

WS 2009/10. Diskrete Strukturen WS 2009/10 Diskrete Strukturen Prof. Dr. J. Esparza Lehrstuhl für Grundlagen der Softwarezuverlässigkeit und theoretische Informatik Fakultät für Informatik Technische Universität München http://www7.in.tum.de/um/courses/ds/ws0910

Mehr

Kontextualisierung von Sprachressourcen und -technologie in der geisteswissenschaftlichen Forschung

Kontextualisierung von Sprachressourcen und -technologie in der geisteswissenschaftlichen Forschung Kontextualisierung von Sprachressourcen und -technologie in der geisteswissenschaftlichen Forschung Christoph Draxler (München) Hannah Kermes & Elke Teich (Saarbrücken) Aufbau einer technischen Infrastruktur:

Mehr

Computerlinguistik. Einführung und Überblick. Introduction to Computational Linguistics, Anette Frank, WS 2008/09

Computerlinguistik. Einführung und Überblick. Introduction to Computational Linguistics, Anette Frank, WS 2008/09 Computerlinguistik Einführung und Überblick Was ist Computerlinguistik? Computerlinguistik beschäftigt sich mit der maschinellen Verarbeitung natürlicher Sprache. Sie beschäftigt sich mit den strukturellen

Mehr

Linguistic Inference with Model Generation

Linguistic Inference with Model Generation Hauptseminar: Linguistic Inference and Textual Entailment Leitung: Prof. Dr. Manfred Pinkal Sommersemester 2007 Linguistic Inference with Model Generation 1 Aufbau 1. Einleitung 2. Systemaufbau 3. Linguistische

Mehr

Diskrete Strukturen Kapitel 1: Einleitung

Diskrete Strukturen Kapitel 1: Einleitung WS 2015/16 Diskrete Strukturen Kapitel 1: Einleitung Hans-Joachim Bungartz Lehrstuhl für wissenschaftliches Rechnen Fakultät für Informatik Technische Universität München http://www5.in.tum.de/wiki/index.php/diskrete_strukturen_-_winter_15

Mehr

Grundlagenbereich Kognitionswissenschaften

Grundlagenbereich Kognitionswissenschaften Grundlagenbereich Kognitionswissenschaften Master Psychologie in Göttingen Fachstudium Evaluation Angewandte Diagnostik Multivariate Statistik Berufspraktikum Professionalisierungsbereich Grundlagenbereiche

Mehr

War bis 2004 Bakk. rer.soc.oec. Bakkalaureus/Bakkalaurea rerum socialium oeconomicarumque Bakk. der Sozial- und Wirtschaftswissenschaften

War bis 2004 Bakk. rer.soc.oec. Bakkalaureus/Bakkalaurea rerum socialium oeconomicarumque Bakk. der Sozial- und Wirtschaftswissenschaften War bis 2004 Bakk. rer.soc.oec. Bakkalaureus/Bakkalaurea rerum socialium oeconomicarumque Bakk. der Sozial- und Wirtschaftswissenschaften ab 2007 - Heute BSc Bachelor of Science WAS IST INFORMATIK? WAS

Mehr

Spracherkennung. Gliederung:

Spracherkennung. Gliederung: Spracherkennung Gliederung: - Einführung - Geschichte - Spracherkennung - Einteilungen - Aufbau und Funktion - Hidden Markov Modelle (HMM) - HMM bei der Spracherkennung - Probleme - Einsatzgebiete und

Mehr

Administration und Motivation Mathe III

Administration und Motivation Mathe III Administration und Motivation Mathe III Dr. Maria Staudte Universität des Saarlandes 16. Juni 2014 Maria Staudte (UdS) Motivation Mathe III 16. Juni 2014 1 / 20 Wichtige Informationen Finden Sie hier:

Mehr

Klausurtermine Informatik Herbst 2016 Stand: Änderungen sind rot markiert Wochentag Prüfungstermin: Prüfungsbezeichnung: Raum/Räume:

Klausurtermine Informatik Herbst 2016 Stand: Änderungen sind rot markiert Wochentag Prüfungstermin: Prüfungsbezeichnung: Raum/Räume: Klausurtermine Informatik Herbst 2016 Stand: 20.07.2016 Änderungen sind rot markiert Wochentag Prüfungstermin: Prüfungsbezeichnung: Raum/Räume: Semester Montag 18.07.2016 11.00-14.00 Digitalschaltungen

Mehr

Information Retrieval

Information Retrieval Information Retrieval Norbert Fuhr 12. April 2010 Einführung 1 IR in Beispielen 2 Was ist IR? 3 Dimensionen des IR 4 Daten Information Wissen 5 Rahmenarchitektur für IR-Systeme IR in Beispielen IR-Aufgaben

Mehr

Einführung. Rechnerarchitekturen Entwicklung und Ausführung von Programmen Betriebssysteme

Einführung. Rechnerarchitekturen Entwicklung und Ausführung von Programmen Betriebssysteme Teil I Einführung Überblick 1 2 Geschichte der Informatik 3 Technische Grundlagen der Informatik Rechnerarchitekturen Entwicklung und Ausführung von Programmen Betriebssysteme 4 Daten, Informationen, Kodierung

Mehr

Einführung in die Computerlinguistik Morphologie (1): morphembasierte Morphologie mit Transduktoren

Einführung in die Computerlinguistik Morphologie (1): morphembasierte Morphologie mit Transduktoren Einführung in die Computerlinguistik Morphologie (1): morphembasierte Morphologie mit Transduktoren Dozentin: Wiebke Petersen 14.6.2010 Wiebke Petersen Einführung CL SoSe 2010 1 Morphologische Grundbegrie

Mehr

Geschichte der Maschinellen Übersetzung. Einleitung Entwicklungsgeschichte der MÜ

Geschichte der Maschinellen Übersetzung. Einleitung Entwicklungsgeschichte der MÜ Geschichte der Maschinellen Übersetzung Einleitung Entwicklungsgeschichte der MÜ Einleitung MÜ als Modellierung des Übersetzungsprozesse MÜ als Mechanisierung menschlicher TätigkeitT Hochqualitative vollautomatische

Mehr

Answer Set Programming

Answer Set Programming Answer Set Programming mit Answer Set Prolog (A-Prolog) Wangler Thomas Logikprogrammierung Institut für Computerlinguistik Universität Heidelberg Inhaltsverzeichnis Inhaltsverzeichnis Inhaltsverzeichnis

Mehr

MITTEILUNGSBLATT. Studienjahr 2005/2006 Ausgegeben am 06.09.2006 42. Stück Sämtliche Funktionsbezeichnungen sind geschlechtsneutral zu verstehen.

MITTEILUNGSBLATT. Studienjahr 2005/2006 Ausgegeben am 06.09.2006 42. Stück Sämtliche Funktionsbezeichnungen sind geschlechtsneutral zu verstehen. MITTEILUNGSBLATT Studienjahr 2005/2006 Ausgegeben am 06.09.2006 42. Stück Sämtliche Funktionsbezeichnungen sind geschlechtsneutral zu verstehen. R I C H T L I N I E N, V E R O R D N U N G E N 265. Äquivalenzverordnung

Mehr

Linguistik für Kognitionswissenschaften

Linguistik für Kognitionswissenschaften Linguistik für Kognitionswissenschaften Computerlinguistik: Maschinelle Übersetzung Computerlinguistik Fehlübersetzung von engl. computational linguistics - computationelle Linguistik beinhaltet im weiteren

Mehr

INFORMATIONSGEWINNUNG AUS KURZEN TEXTEN

INFORMATIONSGEWINNUNG AUS KURZEN TEXTEN INFORMATIONSGEWINNUNG AUS KURZEN TEXTEN T-SYSTEMS MULTIMEDIA SOLUTIONS GMBH, 14. OKTOBER 2011 1. Schlüsselworte Semantik, Informationsextraktion, Automatisierte Syntaxanalyse, Validierung, Chunking, Tagging,

Mehr

Studienverlaufspläne M.Sc. Computational Science. 19. Juli 2011

Studienverlaufspläne M.Sc. Computational Science. 19. Juli 2011 Studienverlaufspläne M.Sc. Computational Science 19. Juli 2011 1 Vertiefungsfach Wissenschaftliches Rechnen Specialization Scientific Computing Zusatzpraktikum Modellierung und Simulation I P2 4 Modellierung

Mehr

Erkennung fremdsprachiger Ausdrücke im Text

Erkennung fremdsprachiger Ausdrücke im Text Erkennung fremdsprachiger Ausdrücke im Text Jekaterina Siilivask Betreuer: Dr. Helmut Schmid Centrum für Informations- und Sprachbearbeiting Ludwig- Maximilians- Universität München 19.05.2014 Jekaterina

Mehr

Sicherheit / Sicherung - unterschiedliche Begriffsbestimmung, gemeinsame Fachaspekte

Sicherheit / Sicherung - unterschiedliche Begriffsbestimmung, gemeinsame Fachaspekte Sicherheit / Sicherung - unterschiedliche Begriffsbestimmung, gemeinsame Fachaspekte F. Seidel, BfS Salzgitter (Juli 2002) 1) Begriffsbestimmung (Vergleich unter Nutzung nationaler und internationaler

Mehr

Parsing mit NLTK. Parsing mit NLTK. Parsing mit NLTK. Parsing mit NLTK. Beispiel: eine kleine kontextfreie Grammatik (cf. [BKL09], Ch. 8.

Parsing mit NLTK. Parsing mit NLTK. Parsing mit NLTK. Parsing mit NLTK. Beispiel: eine kleine kontextfreie Grammatik (cf. [BKL09], Ch. 8. Gliederung Natürlichsprachliche Systeme I D. Rösner Institut für Wissens- und Sprachverarbeitung Fakultät für Informatik Otto-von-Guericke Universität Magdeburg 1 WS 2011/12, 26. Oktober 2011, c 2010-2012

Mehr

Einführung in die Linguistik, Teil 4

Einführung in die Linguistik, Teil 4 Einführung in die Linguistik, Teil 4 Menschliche Sprachverarbeitung im Rahmen der Kognitionswissenschaft Markus Bader, Frans Plank, Henning Reetz, Björn Wiemer Einführung in die Linguistik, Teil 4 p. 1/19

Mehr

Customer-specific software for autonomous driving and driver assistance (ADAS)

Customer-specific software for autonomous driving and driver assistance (ADAS) This press release is approved for publication. Press Release Chemnitz, February 6 th, 2014 Customer-specific software for autonomous driving and driver assistance (ADAS) With the new product line Baselabs

Mehr

Informationsextraktion Materialien zur Vorlesung

Informationsextraktion Materialien zur Vorlesung Informationsextraktion Materialien zur Vorlesung Beispiel: reguläre Ausdrücke für Firmennamen D. Rösner Institut für Wissens- und Sprachverarbeitung Fakultät für Informatik Otto-von-Guericke Universität

Mehr

Extraktion und Visualisierung von multidimensionalen Textinformationen zur Integration von Big Data in unternehmensspezifischen Wissenslandkarten

Extraktion und Visualisierung von multidimensionalen Textinformationen zur Integration von Big Data in unternehmensspezifischen Wissenslandkarten Extraktion und Visualisierung von multidimensionalen Textinformationen zur Integration von Big Data in unternehmensspezifischen Wissenslandkarten FOM Hochschulzentrum Dortmund, Fachbereich Wirtschaftsinformatik

Mehr

Vektormodelle. Universität zu Köln HS: Systeme der maschinellen Sprachverarbeitung Prof. Dr. J. Rolshoven Referentin: Alena Geduldig

Vektormodelle. Universität zu Köln HS: Systeme der maschinellen Sprachverarbeitung Prof. Dr. J. Rolshoven Referentin: Alena Geduldig Vektormodelle Universität zu Köln HS: Systeme der maschinellen Sprachverarbeitung Prof. Dr. J. Rolshoven Referentin: Alena Geduldig Gliederung Vektormodelle Vector-Space-Model Suffix Tree Document Model

Mehr

Mit der Entwicklung des Internets sind endliche Automaten noch weiter in den Fokus gerückt. Dafür sind mehrere Gründe ausschlaggebend:

Mit der Entwicklung des Internets sind endliche Automaten noch weiter in den Fokus gerückt. Dafür sind mehrere Gründe ausschlaggebend: Einleitung Endliche Automaten sind das Ergebnis der Entwicklung mathematischer Modelle für verschiedene mathematische, technische und naturwissenschaftliche Anwendungsbereiche. Als Pionierarbeiten gelten

Mehr

Wissenschaftliches Arbeiten

Wissenschaftliches Arbeiten Wissenschaftliches Arbeiten Andreas Schoknecht Jan Recker, Scientific Research in Information Systems A Beginner's Guide, Springer, 2013 INSTITUT FÜR ANGEWANDTE INFORMATIK UND FORMALE BESCHREIBUNGSVERFAHREN

Mehr

Mitglied der Leibniz-Gemeinschaft

Mitglied der Leibniz-Gemeinschaft Methods of research into dictionary use: online questionnaires Annette Klosa (Institut für Deutsche Sprache, Mannheim) 5. Arbeitstreffen Netzwerk Internetlexikografie, Leiden, 25./26. März 2013 Content

Mehr

Einführung in die Künstliche Intelligenz

Einführung in die Künstliche Intelligenz Einführung in die Künstliche Intelligenz Vorlesung mit Übung WS 2002/2003 Prof. F. v. Henke Organisatorisches Vorlesung: Mo 12 14 Mi 14 16 Sprechstunde: nach der Vorlesung, oder nach Vereinbarung vhenke@ki.informatik.uni-ulm.de

Mehr

Fachbereich Linguistik Wahlfachmodule

Fachbereich Linguistik Wahlfachmodule Fachbereich Linguistik Wahlfachmodule Als Bündel von freien Wahlfächern werden vom Institut für allen Studierenden folgende Module angeboten: Modul 1: Linguistik Modul 2: Historische (Diachronie) Modul

Mehr

Einführung in die germanistische Linguistik

Einführung in die germanistische Linguistik Einführung in die germanistische Linguistik PhDr. Tamara Bučková, PhD. Karlsuniversität in Prag tamara.buckova@volny.cz Problemkreis I Allgemeine Linguistik Thema 4 Ansätze zur Klassifizierung linguistischer

Mehr

Programmierkurs Python II

Programmierkurs Python II Programmierkurs Python II Michaela Regneri & tefan Thater FR 4.7 Allgemeine Linguistik (Computerlinguistik) Universität des aarlandes ommersemester 2010 (Charniak, 1997) the dog biscuits N V N V the dog

Mehr

Wissensbasierte Sprachverarbeitung Inhalt der Vorlesung 0. Einleitung

Wissensbasierte Sprachverarbeitung Inhalt der Vorlesung 0. Einleitung Wissensbasierte Sprachverarbeitung Inhalt der Vorlesung 0. Einleitung i) Worum geht es? ii) Aufgaben und Anwendungen iii) Mehrdeutigkeit - Das Kernproblem iv) linguistische Grundlagen I. Der synthetische

Mehr

Artikulatorische distinktive Merkmale der Konsonanten im Deutschen

Artikulatorische distinktive Merkmale der Konsonanten im Deutschen Referentinnen Ania Lamkiewicz Eva Mujdricza Computerlinguistik 1. FS Computerlinguistik 1. FS Romanistik 2. FS DaF Sprachwissenschaft 1. FS e-mail: al_smile@web.de e-mail: mujdricza@web.de Artikulatorische

Mehr

Morphologie (5) Wortarten (2) Part-of-Speech Tagging Stemming

Morphologie (5) Wortarten (2) Part-of-Speech Tagging Stemming Morphologie (5) Wortarten (2) Part-of-Speech Tagging Stemming Robert Zangenfeind Centrum für Informations- und Sprachverarbeitung, LMU München 24.11.2014, 9 c.t. Zangenfeind: Morphologie 1 / 18 Wdh.: Klassifizierung

Mehr

Opinion Mining in der Marktforschung

Opinion Mining in der Marktforschung Opinion Mining in der Marktforschung von andreas.boehnke@stud.uni-bamberg.de S. 1 Überblick I. Motivation Opinion Mining II. Grundlagen des Text Mining III. Grundlagen des Opinion Mining IV. Opinion Mining

Mehr

Einführung in die Computerlinguistik

Einführung in die Computerlinguistik Vorläufiges Programm Einführung in die Computerlinguistik WS 2011/12 Manfred Pinkal 25.10.11 Einführung 8.11.11 Morphologie und Automaten 15.11.11 Morphologie und Automaten 22.11.11 Syntax 29.11.11 Parsing

Mehr

Informationsextraktion. Karin Haenelt 1.12.2012

Informationsextraktion. Karin Haenelt 1.12.2012 Informationsextraktion Karin Haenelt 1.12.2012 Informationsextraktion Ziel Identifikation bestimmter Information (Daten) in einem unstrukturierten oder teilstrukturierten textuellen Dokument Transformation

Mehr

2 Sprachliche Einheiten

2 Sprachliche Einheiten 2 Sprachliche Einheiten Inhalt Semiotische Begriffe Wörter Wortbestandteile Wortzusammensetzungen Wortgruppen Text und Dialog Wort- und Satzbedeutung 2.1 Semiotische Begriffe Semiotische Begriffe Semiotik

Mehr

Grundlagen der Analyse von Sprachdatenbanken. Jonathan Harrington

Grundlagen der Analyse von Sprachdatenbanken. Jonathan Harrington Grundlagen der nalyse von Sprachdatenbanken Jonathan Harrington Die Laborsprache Fast alle ntersuchungen in der Experimentalphonetik im 20 Jahrhundert befassen sich mit der Laborsprache. Warum? Competence/performance

Mehr

KONVENS 92. Günther Görz (Hrsg.) 1. Konferenz Verarbeitung natürlicher Sprache' Nürnberg, 7.-9. Oktober 1992

KONVENS 92. Günther Görz (Hrsg.) 1. Konferenz Verarbeitung natürlicher Sprache' Nürnberg, 7.-9. Oktober 1992 Günther Görz (Hrsg.) KONVENS 92 1. Konferenz Verarbeitung natürlicher Sprache' Nürnberg, 7.-9. Oktober 1992 * Technisch Hochschule Darmstadt I.FACHBEREICH ihformatik eisllothek Invs«tar-Nr.: Sachgebiete:

Mehr

INFORMATIONSEXTRAKTION IN SUCHMASCHINEN

INFORMATIONSEXTRAKTION IN SUCHMASCHINEN INFORMATIONSEXTRAKTION IN SUCHMASCHINEN S E M I N A R S U C H M A S C H I N E N S O M M E R S E M ESTER 2014 S T E FA N L A N G E R, C I S, U N I V E R S I TÄT M Ü N C H E N Schematische Architektur einer

Mehr

1. Jurafsky und Martin

1. Jurafsky und Martin Vertiefung 1. Jurafsky und Martin Book Description (from amazon.com) This book offers a unified vision of speech and language processing, presenting state-of-the-art algorithms and techniques for both

Mehr

Semantic Web Technologies I

Semantic Web Technologies I Semantic Web Technologies I Lehrveranstaltung im WS11/12 Dr. Elena Simperl PD Dr. Sebastian Rudolph M. Sc. Anees ul Mehdi Ontology Engineering Dr. Elena Simperl XML und URIs Einführung in RDF RDF Schema

Mehr

Die Struktur wissenschaftlicher

Die Struktur wissenschaftlicher Die Struktur wissenschaftlicher Revolutionen Sarah Conen, Sarah Hartmann, Nils Schmidt Informationswissenschaft und Sprachtechnologie im Diskurs Wintersemester 2014/15 Gliederung 1. Die Struktur wissenschaftlicher

Mehr

Einführung in die Computerlinguistik Morphologie (morphembasiert mit Transduktoren)

Einführung in die Computerlinguistik Morphologie (morphembasiert mit Transduktoren) Einführung in die Computerlinguistik Morphologie (morphembasiert mit Transduktoren) Dozentin: Wiebke Petersen 7. Foliensatz Wiebke Petersen Einführung CL 1 Morphologische Grundbegrie Wort / Lexem: abstrakte

Mehr

SARA 1. Project Meeting

SARA 1. Project Meeting SARA 1. Project Meeting Energy Concepts, BMS and Monitoring Integration of Simulation Assisted Control Systems for Innovative Energy Devices Prof. Dr. Ursula Eicker Dr. Jürgen Schumacher Dirk Pietruschka,

Mehr

Reguläre Ausdrücke. Karin Haenelt

Reguläre Ausdrücke. Karin Haenelt Reguläre Ausdrücke Karin Haenelt 25.04.2010 1 Inhalt Einführung Definitionen Kleene-Theorem Schreibweisen regulärer Ausdrücke Eigenschaften regulärer Sprachen 2 Was sind reguläre Ausdrücke? Reguläre Ausdrücke

Mehr

Einführung Computerlinguistik. Konstituentensyntax II

Einführung Computerlinguistik. Konstituentensyntax II Einführung Computerlinguistik Konstituentensyntax II Hinrich Schütze & Robert Zangenfeind Centrum für Informations- und Sprachverarbeitung, LMU München 2013-11-18 Schütze & Zangenfeind: Konstituentensyntax

Mehr