Sprachtechnologie. Fraunhofer-Institut für Angewandte Informationstechnik FIT. Katja Niemann Maren Scheffel

Größe: px
Ab Seite anzeigen:

Download "Sprachtechnologie. Fraunhofer-Institut für Angewandte Informationstechnik FIT. Katja Niemann Maren Scheffel"

Transkript

1 Sprachtechnologie Fraunhofer-Institut für Angewandte Informationstechnik FIT Katja Niemann Maren Scheffel

2 Inhalt Was ist Sprachtechnologie? Computerlinguistische Anwendungen Praktische Beispiele MACE Schlüsselaktionen

3 Sprachtechnologie Automatische Bearbeitung geschriebener oder gesprochener Sprache Viele Bezeichnungen Computerlinguistik Language Engineering Natural Language Processing Viele Disziplinen Linguistik Informatik Logik Nachrichtentechnik

4 Sprachtechnologie - Anwendungsgebiete Textbearbeitung Automatische Worttrennung Automatische Schreibfehlerkorrektur Automatische Grammatikkorrektur OCR (Optical Character Recognition) Textanalyse Informationsextraktion Informationsretrieval

5

6 Informationsretrieval vs. Informationsextraktion Informationsretrieval filtert für die Suchanfrage relevante Dokumente aus eine Dokumentenmenge Nutzer muss relevante Information innerhalb des Dokumentes selbst finden Informationsextraktion sucht und findet gezielt Information in relevanten Dokumenten

7 Sprachtechnologie - Anwendungsgebiete Textanalyse und -produktion Automatische Zusammenfassung Maschinelle Übersetzung Spracherkennung Sprecheridentifikation/-verifikation Diktiersysteme Sprachsteuerung von Programmen

8 Sprachtechnologie - Anwendungsgebiete Sprachproduktion Vorlesesysteme Dialogsysteme Beratungssysteme Auskunftssysteme Augmentierte und virtuelle Realitäten

9 Data Mining vs. Text Mining Data Mining automatisches Finden neuer Muster in Datenbeständen Anwendung meist bei strukturierten Daten Text Mining automatisches Finden neuer Muster in Texten Anwendung daher auf unstrukturierten Daten Texte müssen strukturiert, d.h. vorverarbeitet werden

10 Satzgrenzenerkennung Trennen des Textes hinter satzgebenden Zeichen, um einzelne Sätze zu erhalten Satzzeichen (.?!) sind doppeldeutig Die Frage Wo kommst du her? wird häufig gestellt. Satzzeichen, z.b. der Punkt, stehen nicht nur am Ende des Satzes. Mische alle trockenen Backzutaten: Mehl, Zucker, usw. Das Büro von Prof. Dr. Peter M. Beispiel ist im 18. Stock.

11 Tokenisierung Segmentieren eines Textes in einzelne Token Token = von Leerzeichen oder Interpunktion begrenzte Folge von Buchstaben oder Ziffern Problem: Mehrwortlexeme --> New York Im Sommer bin ich in New York. Im Im Sommer Sommer bin bin ich ich in New York in New York

12 Reduktion auf Grundform Stemming regelbasiertes Abschneiden von Affixen (ohne Wörterbuch) gelesen --> les Leser --> les Lemmatisierung Grundform aus dem Lexikon gelesen --> lesen Leser --> Leser

13 Part-of-Speech-Tagging Annotation jedes Wortes eines Textes mit seiner Wortart --> Die (ART) Frau (N) liest (V) ein (ART) Buch (N). Nomen, Verb, Artikel, Adjektiv, Präposition, Pronomen, Adverb, Konjunktion, Interjektion Oft differenziertere Angaben zu Fall, Geschlecht, Zeit --> Die (ART-best-nom-sg-fem) Frau (N-nom-sg-fem) liest (V-3P-sg-präs-akt) ein (ART-unbest-akk-sg-neu) Buch (N-akk-sg-neu).

14 Linguistische Analysemethoden Parsing Zerlegen eines Satzes in seine Bestandteile mit Hilfe von Regeln Ein Mann sieht ein Kind *Mann ein sieht Kind. S --> NP VP NP --> DET N VP --> V NP* DET --> ein N --> Mann, Kind V --> sieht NP Probleme durch Mehrfachlesarten S VP NP DET N V DET N ein Mann sieht ein Kind

15 Named Entity Recognition Personen, Organisationen, Orte, Zeitangaben, Listenbasierte Verfahren Gazetteer, Wortdatenbanken Regelbasierte Verfahren Manuelles Erstellen von Lexikon + Regeln Unüberwachtes Lernen von Assoziationsregeln Mr. Smith, John Smith, John T. Smith XYZ GmbH, Abc AG Statistische Verfahren Hidden Markov Modelle Maximale Entropie

16 Schlüsselworterkennung Schlüsselwörter repräsentieren den Inhalt eines Dokuments Manuelle Annotation durch Experten Automatische Extraktion textbasiert vs. korpusbasiert Repeated String Patterns n-gramme Nominalphrasen POS-Tags Chi-Quadrat (signifikante Unabhängikeit von Attributen) Log Likelihood

17 GATE (General Architecture for Text Engineering) Entwicklungsumgebung mit GUI + Klassenbibliothek Trennung von Daten, Algorithmen und Visualisierung. Language Resources: Lexika Korpora Ontologien Processing Resources: Stemmer POS Tagger Parser Visual Resources: für die Darstellung der Ergebnisse im GUI benötigt

18

19 Neue Lernpfade durch Real World Objects Renzo Piano Centre Pompidou Lloyd s Building Richard Rogers Millennium Dome

20

21 RWOs: Geographical Search

22 Erstellung von RWOs: DBpedia RDF Repräsentation der Informationen aus wikipedia Try: WHERE {?s dbpedia2:blackboard?blackboard.} Verschiedene Klassifikationsschemata, z.b. Wikipedia Ontologie Yago (Yet Another Great Ontology) SKOS (SKOS Simple Knowledge Organization System) Vorteile: Multilinguale Informationen mit Sprachtag Geographische Koordinaten für Gebäude Relationen zwischen Architekten und Gebäuden

23 Verbinde MOs und RWOs: Schritt 1 ANNIE information extraction system aus GATE: Der Tokenizer teilt den Text in einzelne Tokens Der Sentence Splitter teilt den Text in einzelne Sätze Der Part-of-Speech Tagger produziert ein POS-Tag für jedes Token Der ANNIE Gazetteer nutzt 100 vordefinierte Listen mit Namen und Keywords, die helfen, named entities zu erkennen (z.b. Mr., GmbH) Der Semantic Tagger erkennt Entitäten, z.b. Jahreszahlen, Personennamen Zusätzlicher Gazetteer um Gebäudenamen zu erkennen

24 Verbinde MOs und RWOs: Schritt 2 Gefundene Entitäten werden mit Titeln von RWOs verglichen Alle Tokens der gefundenen Namen (ohne Stoppwörter) müssen in der richtigen Reihenfolge im Titel enthalten sein z.b. Centre Pompidou passt zu Centre George Pompidou Abkürzungen in Personennamen werden überprüft z.b. D. Miller passt zu David Miller Ambiguitäten: Betrachtung weiterer gefundener Entitäten z.b. Millenium Tower London, Toronto Ein RWO enthält alle gefundenen Entitäten Nur ein RWO enthält mind. eine weitere gefundene Entität

25 Evaluierung Versuchsaufbau: Die 100 meist genutzten MOs wurden von 3 Experten getaggt: Gebäude, zu denen eine Verbindung bestehen soll Personen, zu denen eine Verbindung bestehen soll 67 MOs haben dabei mind. eine Verbindung zu einem RWO erhalten Evaluiert wird Precision und Recall für: Relationen zu Architekten Relationen zu Gebäuden

26 Evaluierung: Bewertungskriterien Recall: Wie viel Prozent der relevanten Relationen wurden gefunden? Precision: Wie viele der gefundenen Relationen sind relevant? false negatives true positives false positives relevante Relationen (manuell erzeugt) gefundene Relationen (automatisch erzeugt)

27 Evaluierung: Bewertungskriterien Bei steigendem Recall sinkt die Precision und umgekehrt f-measure: Harmonisches Mittel aus Precision und Recall Relationen in MACE: Precision wichtiger als Recall Einleitung Vorverarbeitung SW-Bildung SW-Bewertung SW-Evaluierung Beispiel

28 Relations - Projects / Buildings Results: Architekten: Precision: 90,6 %, Recall: 72,5% Gebäude: Precision: 92,2%, Recall: 61,9% Probleme: HUHKA / Het Museum van Hedendaagse Kunst Schlikker'sche Villa / Villa Schlikker Stichworte statt Sätze

29 Analyse von CAM mit CL-Methoden

30 Analyse von CAM mit CL-Methoden Actor Activity Program Item TS User A opens Word document B xxx User A edits Word document B xxx User A edits Word document B xxx User A saves Word document B xxx User A opens Word document C xxx User A edits Word document C xxx User A edits Word document B xxx User A closes Word document C xxx User A edits Word document B xxx User A saves Word document B xxx User A closes Word document B xxx User A opens Firefox document D xxx CAPLE und CAM Computerlinguistische Methoden Psychologische Methoden

31 Analyse von CAM mit CL-Methoden Übertragen von Sprachanalysemechanismen auf CAM Von Textanalyse zu Aktionsanalyse Zum finden von Strukturen, Regeln, Mustern in Aktionen Danach Abstraktion auf Aktivitäten höherer Ordnung Sprache ist regelbasiert Grammatik einer Sprache (Regeln + Lexikon) macht Bewertung der Richtigkeit eines Satzes für die gegebene Sprache möglich CAPLE und CAM Computerlinguistische Methoden Psychologische Methoden

32 Analyse von CAM mit CL-Methoden Ziel: partielle Grammatik für Aktionen Linguistische Konzepte müssen auf Teile der CAM- Instanzen übertragen werden Wort und Aktion kann man analog sehen Satz und Session nicht so einfach Satz ist feststehende Kategorie, Anfang und Ende klar Session ist ein Zeitkonzept, Anfang und Ende variabel Session kann auch analog zu Text gesehen werden CAPLE und CAM Computerlinguistische Methoden Psychologische Methoden

33 Von Schlüsselwörtern zu Schlüsselaktionen Schlüsselwörter als Repräsentant eines Textes Schlüsselaktionen als Repräsentant einer Session Erster Ansatz: Finden von sich wiederholenden Zeichenfolgen mit n-grammen Vereinigung von n-grammen, wenn Häufigkeit des neuen Schlüsselwortes über dem Schwellwert liegt Wenn kurze Schlüsselwortfolgen in längeren enthalten sind, fallen die kürzeren raus CAPLE und CAM Computerlinguistische Methoden Psychologische Methoden

34 Von Schlüsselwörtern zu Schlüsselaktionen 0A 1 B 2 C 3 D 4 E 5 F 6 G 7 D 8 C 9 A 10 B 11 C 12 A 13 E 14 F 15 G 16 B 17 E 18 F 19 G 20 F 21 Monogramme: A [0,1] [9,10] [12,13] B [1,2] [10,11] [16,17] C [2,3] [8,9] [11,12] D [3,4] [7,8] E [4,5] [13,14] [17,18] F [5,6] [14,15] [18,19] [20,21] G [6,7] [15,16] [19,20] Schwellwert = 2 CAPLE und CAM Computerlinguistische Methoden Psychologische Methoden

35 Von Schlüsselwörtern zu Schlüsselaktionen Bigramme: AB [0,2] [9,11] AE [12,14] BC [1,3] [10,12] BE [16,18] CD [2,4] CA [8,10] [11,13] DE [3,5] DC [7,9] EF [4,6] [13,15] [17,19] FG [5,7] [14,16] [18,20] GD [6,8] GB [15,17] GF [19,21] Trigramme ABC [0,3] [9,12] BCA [10,13] CAB [8,11] EFG [4,7] [13,16] [17,20] Schlüsselaktionen D CA ABC EFG

36 Von Schlüsselwörtern zu Schlüsselaktionen Aufgabe: 0A 1 B 2 C 3 A 4 B 5 D 6 B 7 C 8 A 9 B 10 A 11 A 12 C 13 D 14 Schwellwert = 2 Monogramme: A [0,1] [3,4] [8,9] [10,11] [11,12] B [1,2] [4,5] [6,7] [9,10] C [2,3] [7,8] [12,13] D [5,6] [13,14]

37 Von Schlüsselwörtern zu Schlüsselaktionen Bigramme: AA [10,12] AB [0,2] [3,5] [8,10] AC [11,13] BC [1,3] [6,8] BD [4,6] BA [9,11] CA [2,4] [7,9] CD [12,14] DB [5,7] Trigramme: ABC [0,3] BCA [1,4] [6,9] CAB [2,5] [7,10] Quadrogramme: BCAB [1,5] [6,10] Schlüsselaktionen: D BCAB

38 Von Schlüsselwörtern zu Schlüsselaktionen

39 Keyword Extraction aus s Probleme s sind meistens kurz Schlüsselwörter werden häufig nur einmal genutzt Verbesserungsmöglichkeiten: Betreff gibt Aussage über Thema der Threads Einleitung Vorverarbeitung SW-Bildung SW-Bewertung SW-Evaluierung Beispiel

40 Keyword Extraction aus s Kombination aus TFxIDF und first occurence Archiv / Teile des Archives dienen als Referenzkorpus Bei eingehender Antwort auf eine werden die Schlüsselwortkandidaten dieser neu gewichtet Schlüsselwort in Antwort enthalten Schlüsselwort in Zitat enthalten Mail A Mail B Antwort auf Mail A Mail A Neubewertung Strand, baden, Sonne, Vortrag, Meeting Vortrag, Meeting, Abgabetermin Dienstreise, Abrechnung Vortrag, Meeting Strand baden, Sonne Einleitung Vorverarbeitung SW-Bildung SW-Bewertung SW-Evaluierung Beispiel

41 Themen eines Intervalls / einer Beziehung Ermittlung der Vorkommenshäufigkeit von Schlüsselwörtern in einem Intervall / einer Beziehung Zusätzliche Gewichtung der Schlüsselwörter durch die Betrachtung der Nutzung der s (gelesen, gedruckt, weitergeleitet, beantwortet) Einleitung Vorverarbeitung SW-Bildung SW-Bewertung SW-Evaluierung Beispiel

42 Kontakt Katja Niemann Maren Scheffel Fraunhofer-Institut für Angewandte Informationstechnik FIT Schloss Birlinghoven Sankt Augustin

Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK

Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 08.05.2014 Gliederung 1 Vorverarbeitung

Mehr

INFORMATIONSEXTRAKTION IN SUCHMASCHINEN

INFORMATIONSEXTRAKTION IN SUCHMASCHINEN INFORMATIONSEXTRAKTION IN SUCHMASCHINEN S E M I N A R S U C H M A S C H I N E N S O M M E R S E M ESTER 2014 S T E FA N L A N G E R, C I S, U N I V E R S I TÄT M Ü N C H E N Schematische Architektur einer

Mehr

GATE General Architecture for Text Engineering. Alexander Hein & Erik Dießler (VL Text Analytics - 08.05.2008)

GATE General Architecture for Text Engineering. Alexander Hein & Erik Dießler (VL Text Analytics - 08.05.2008) GATE General Architecture for Text Engineering Alexander Hein & Erik Dießler (VL Text Analytics - 08.05.2008) Überblick GATE Die Idee Die Architektur Was noch - JAPE / DIFF / GUK ANNIE Einige Beispiele

Mehr

Inaugural-Dissertation. Philosophie

Inaugural-Dissertation. Philosophie Ontology On Demand Vollautomatische Ontologieerstellung aus deutschen Texten mithilfe moderner Textmining-Prozesse Inaugural-Dissertation zur Erlangung des Grades eines Doktors der Philosophie in der Fakultät

Mehr

NLP Eigenschaften von Text

NLP Eigenschaften von Text NLP Eigenschaften von Text Dr. Andreas Hotho Dominik Benz Beate Krause Sommersemester 2008 Folie: 1 Übersicht Einführung Eigenschaften von Text Words I: Satzgrenzenerkennung, Tokenization, Kollokationen

Mehr

INFORMATIONSGEWINNUNG AUS KURZEN TEXTEN

INFORMATIONSGEWINNUNG AUS KURZEN TEXTEN INFORMATIONSGEWINNUNG AUS KURZEN TEXTEN T-SYSTEMS MULTIMEDIA SOLUTIONS GMBH, 14. OKTOBER 2011 1. Schlüsselworte Semantik, Informationsextraktion, Automatisierte Syntaxanalyse, Validierung, Chunking, Tagging,

Mehr

Wissensbasierte Sprachverarbeitung Inhalt der Vorlesung 0. Einleitung

Wissensbasierte Sprachverarbeitung Inhalt der Vorlesung 0. Einleitung Wissensbasierte Sprachverarbeitung Inhalt der Vorlesung 0. Einleitung i) Worum geht es? ii) Aufgaben und Anwendungen iii) Mehrdeutigkeit - Das Kernproblem iv) linguistische Grundlagen I. Der synthetische

Mehr

Multilinguales Information Retrieval, AG Datenbanken und Informationssysteme. Multilinguales Information Retrieval

Multilinguales Information Retrieval, AG Datenbanken und Informationssysteme. Multilinguales Information Retrieval Multilinguales Information Retrieval 1 Definition IR in einer anderen Sprache als Englisch IR auf einer einsprachigen Dokumentensammlung, die in mehreren Sprachen befragt werden kann. Information Retrieval

Mehr

General Architecture for Text Engineering - GATE

General Architecture for Text Engineering - GATE General Architecture for Text Engineering - GATE basierend auf dem GATE-Benutzerhandbuch sowie dem Tutorial des CLab-Teams der Universität Zürich 3. Juni 2011 1 1 Lernziele Grundkenntnisse in GATE Development

Mehr

Computerlinguistik und Sprachtechnologie

Computerlinguistik und Sprachtechnologie Computerlinguistik und Sprachtechnologie Eine Einführung Herausgegeben von: Kai-Uwe Carstensen, Christian Ebert, Cornelia Endriss, Susanne Jekat, Ralf Klabunde und Hagen Langer Spektrum Akademischer Verlag

Mehr

NLP - Analyse des Wissensrohstoffs Text

NLP - Analyse des Wissensrohstoffs Text NLP - Analyse des Wissensrohstoffs Text Vorlesung Beginn: 8. April 2008 Dienstag 10.15 h - 11.45 h, in Raum 1607 oder 0443 Übungen Dr. Andreas Hotho Dominik Benz Beate Krause Sommersemester 2008 Beginn:

Mehr

Friedrich-Alexander-Universität Professur für Computerlinguistik. Nguyen Ai Huong

Friedrich-Alexander-Universität Professur für Computerlinguistik. Nguyen Ai Huong Part-of-Speech Tagging Friedrich-Alexander-Universität Professur für Computerlinguistik Nguyen Ai Huong 15.12.2011 Part-of-speech tagging Bestimmung von Wortform (part of speech) für jedes Wort in einem

Mehr

Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK

Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 16.05.2013 Gliederung 1 Vorverarbeitung

Mehr

Wiederholung: Korpuslinguistik. Einführung in die Korpuslinguistik. Vorverarbeitung: Themen. Vorverarbeitung. Vorverarbeitung.

Wiederholung: Korpuslinguistik. Einführung in die Korpuslinguistik. Vorverarbeitung: Themen. Vorverarbeitung. Vorverarbeitung. Wiederholung: Korpuslinguistik Einführung in die Korpuslinguistik Anke Lüdeling anke.luedeling@rz.hu-berlin.de Sommersemester 2007 beschäftigt sich damit, welche linguistischen Fragen anhand (großer) Textmengen

Mehr

Swantje Westpfahl & Thomas Schmidt POS für(s) FOLK

Swantje Westpfahl & Thomas Schmidt POS für(s) FOLK Swantje Westpfahl & Thomas Schmidt POS für(s) FOLK Problemanalyse des POS- Taggings für spontansprachliche Daten anhand des Forschungsund Lehrkorpus Gesprochenes Deutsch 2 FOLK Forschungs- und Lehrkorpus

Mehr

Titel. Hamdiye Arslan Éva Mújdricza-Maydt

Titel. Hamdiye Arslan Éva Mújdricza-Maydt Titel Logo: http://gate.ac.uk/gatewiki/cow/doc/gslidy/gate-logo-colour.png Hamdiye Arslan Éva Mújdricza-Maydt Referat zum HS Endliche Automaten PD Dr. Karin Haenelt Seminar für Computerlinguistik Ruprecht-Karls-Universität

Mehr

Morphologie (5) Wortarten (2) Part-of-Speech Tagging Stemming

Morphologie (5) Wortarten (2) Part-of-Speech Tagging Stemming Morphologie (5) Wortarten (2) Part-of-Speech Tagging Stemming Robert Zangenfeind Centrum für Informations- und Sprachverarbeitung, LMU München 24.11.2014, 9 c.t. Zangenfeind: Morphologie 1 / 18 Wdh.: Klassifizierung

Mehr

Korpusvorverarbeitung. Hauptseminar: Einführung in die Korpuslinguistik. Kodierung/Annotationsmaximen. Vorverarbeitung: erste Schritte.

Korpusvorverarbeitung. Hauptseminar: Einführung in die Korpuslinguistik. Kodierung/Annotationsmaximen. Vorverarbeitung: erste Schritte. Hauptseminar: Einführung in die Korpuslinguistik Anke Lüdeling anke.luedeling@rz.hu-berlin.de Wintersemester 2002/2003 Korpusvorverarbeitung Beispiel: DIE ZEIT aufbereitet für journalistische Zwecke, mitgeliefertes

Mehr

Endgültige Gruppeneinteilung Kohorte Innere-BP Sommersemester 2016 (Stand: )

Endgültige Gruppeneinteilung Kohorte Innere-BP Sommersemester 2016 (Stand: ) A A1a 2197120 on on A A1a 2311330 on on on on on on on A A1a 2316420 on on A A1a 2332345 on on on on on on on A A1a 2371324 on on on on on on on A A1a 2382962 on on A A1a 2384710 on on on on on on on A

Mehr

HEALTH Institut für Biomedizin und Gesundheitswissenschaften

HEALTH Institut für Biomedizin und Gesundheitswissenschaften HEALTH Institut für Biomedizin und Gesundheitswissenschaften Konzept zur Verbesserung eines klinischen Information Retrieval Systems unter Verwendung von Apache UIMA und medizinischen Ontologien Georg

Mehr

Einführung in die Computerlinguistik

Einführung in die Computerlinguistik Einführung in die Computerlinguistik Statistische Modellierung I WS 2010/2011 Manfred Pinkal Wortartinformation Wortartinformation ist eine wichtige Voraussetzung für die syntaktische Analyse. Woher kommt

Mehr

Wissen aus unstrukturierten natürlichsprachlichen

Wissen aus unstrukturierten natürlichsprachlichen ZKI Tagung AK Supercomputing, 19.-20. Okt. 2015 Wissen aus unstrukturierten natürlichsprachlichen Daten Sprachtechnologie und Textanalytik in the large Udo Hahn Jena University Language & Information Engineering

Mehr

Einführung in die Computerlinguistik

Einführung in die Computerlinguistik Einführung in die Computerlinguistik Statistische Modellierung Fragebogenaktion Bachelor-StudentInnen http://www.coli.uni-saarland.de/bsc/page.php?id=fragebogen WS 2013/2014 Andrea Horbach mit Folien von

Mehr

Vertriebssteuerung & Kundenmanagement bei Finanzinstituten. 1. Dezember 2010, Frankfurt am Main

Vertriebssteuerung & Kundenmanagement bei Finanzinstituten. 1. Dezember 2010, Frankfurt am Main Vertriebssteuerung & Kundenmanagement bei Finanzinstituten 1. Dezember 2010, Frankfurt am Main Erweitern Sie Ihre Analyse auch um unstrukturierte Daten: mehr Einblicke, bessere Entscheidungen! Unsere Agenda

Mehr

Tokenisierung und Lemmatisierung in Suchmaschinen

Tokenisierung und Lemmatisierung in Suchmaschinen Tokenisierung und Lemmatisierung in Suchmaschinen Hauptseminar Suchmaschinen Computerlinguistik Sommersemester 2010 Stefan Langer stefan.langer@cis.uni-muenchen.de Übung: Tokenisierung (5 min) Was ist

Mehr

Text Mining und Textzusammenfassung. Jürgen Kirkovits Doris Rongitsch Daniela Wagenhofer

Text Mining und Textzusammenfassung. Jürgen Kirkovits Doris Rongitsch Daniela Wagenhofer Text Mining und Textzusammenfassung Jürgen Kirkovits Doris Rongitsch Daniela Wagenhofer Übersicht 1. Definition 2. Prozessablauf 3. Textzusammenfassung 4. Praxisbeispiel Definition Text Mining is the art

Mehr

Überblick. VL: Einführung in die Korpuslinguistik. Annotation. Tokenbasierte Annotation

Überblick. VL: Einführung in die Korpuslinguistik. Annotation. Tokenbasierte Annotation Überblick VL: Einführung in die Korpuslinguistik Anke Lüdeling anke.luedeling@rz.hu-berlin.de Sommersemester 2004 kurze Wiederholung syntaktische phonetische/phonologische Tokenbasierte pos-tagging & Lemmatisierung

Mehr

Informationsextraktion

Informationsextraktion Informationsextraktion Bestimmte Anwendungen bei der semantischen Verarbeitung erfordern keine tiefe linguistische Analyse mit exakter Disambiguierung (= eine einzige und korrekte Lesart). Hierzu gehört

Mehr

Informationsextraktion. Karin Haenelt 1.12.2012

Informationsextraktion. Karin Haenelt 1.12.2012 Informationsextraktion Karin Haenelt 1.12.2012 Informationsextraktion Ziel Identifikation bestimmter Information (Daten) in einem unstrukturierten oder teilstrukturierten textuellen Dokument Transformation

Mehr

XDOC Extraktion, Repräsentation und Auswertung von Informationen

XDOC Extraktion, Repräsentation und Auswertung von Informationen XDOC Extraktion, Repräsentation und Auswertung von Informationen Manuela Kunze Otto-von-Guericke Universität Magdeburg Fakultät für Informatik Institut für Wissens- und Sprachverarbeitung Gliederung Ausgangspunkt

Mehr

"What's in the news? - or: why Angela Merkel is not significant

What's in the news? - or: why Angela Merkel is not significant "What's in the news? - or: why Angela Merkel is not significant Andrej Rosenheinrich, Dr. Bernd Eickmann Forschung und Entwicklung, Unister GmbH, Leipzig UNISTER Seite 1 Unister Holding UNISTER Seite 2

Mehr

Terminologie-Extraktion: Beispiel

Terminologie-Extraktion: Beispiel Terminologie-Extraktion: Beispiel The major risks of long-term cardiotoxicity relate to treatment prior to the BMT, in particular, anthracyclines, ablative-dose Cytoxan (ie, dose > 150 mg/ kg), chest [radiation

Mehr

Relationen zwischen Nomen und ihren Assoziationen. Michael Roth

Relationen zwischen Nomen und ihren Assoziationen. Michael Roth Relationen zwischen Nomen und ihren Assoziationen Michael Roth 2 Assoziationen sind psychologisch interessant. Wie erfolgt der Zugriff auf sie? Welche Bedeutung haben sie? erfüllen einen linguistischen

Mehr

Bachelorarbeit im Fach Computerlinguistik Centrum für Informations- und Sprachverarbeitung LMU München Betreuerin: Dr.

Bachelorarbeit im Fach Computerlinguistik Centrum für Informations- und Sprachverarbeitung LMU München Betreuerin: Dr. München, 05.05.2014 Arnold Schlegel Bachelorarbeit im Fach Computerlinguistik Centrum für Informations- und Sprachverarbeitung LMU München Betreuerin: Dr. Desislava Zhekova 1 Inhaltsüberblick Hintergrund

Mehr

Softwaretechnologie für die Ressourcenlinguistik

Softwaretechnologie für die Ressourcenlinguistik Tools und Frameworks FSU Jena Gliederung 1 Pipelines Formate 2 3 Übersicht Details Fazit Pipelines Formate Komponenten bilden eine Pipeline Text Sentence Splitter Tokenizer POS-Tagger Output Texte werden

Mehr

Exploring the knowledge in Semi Structured Data Sets with Rich Queries

Exploring the knowledge in Semi Structured Data Sets with Rich Queries Exploring the knowledge in Semi Structured Data Sets with Rich Queries Jürgen Umbrich Sebastian Blohm Institut AIFB, Universität Karlsruhe (TH) Forschungsuniversität gegründet 1825 www.kit.ed Overview

Mehr

Jubiläumsabo März / April 2012 Jubiläumsausgabe #1-12 Deutschland Euro 12,00 ISSN: 1864-8398 www.dokmagazin.de

Jubiläumsabo März / April 2012 Jubiläumsausgabe #1-12 Deutschland Euro 12,00 ISSN: 1864-8398 www.dokmagazin.de Nur jetzt! Jubiläumsabo März / April 2012 Jubiläumsausgabe #1-12 Deutschland Euro 12,00 ISSN: 1864-8398 www.dokmagazin.de Enterprise Search Strategien für Erfolg Dokumentenmanagement mit SharePoint: Neue

Mehr

KAPITEL I EINLEITUNG

KAPITEL I EINLEITUNG KAPITEL I EINLEITUNG A. Der Hintergrund Die Wortklasse oder part of speech hat verschiedene Merkmale. Nach dem traditionellen System werden die deutschen Wortklassen in zehn Klassen unterteilt (Gross,

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. NLP-Pipeline. Tobias Scheffer Thomas Vanck

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. NLP-Pipeline. Tobias Scheffer Thomas Vanck Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen NLP-Pipeline Tobias Scheffer Thomas Vanck NLP-Pipeline Folge von Verarbeitungsschritten für Informationsextraktion, Übersetzung,

Mehr

Einführung in die Computerlinguistik Überblick

Einführung in die Computerlinguistik Überblick Einführung in die Computerlinguistik Überblick Hinrich Schütze & Robert Zangenfeind Centrum für Informations- und Sprachverarbeitung, LMU München 2015-10-12 1 / 19 Was ist Computerlinguistik? Definition

Mehr

PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion WS2001/2002 Klaus Unterstein 20.10.2001 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion 1 Verlauf Begriffsklärung Ontologiebasierte

Mehr

Stefan Engelberg (IDS Mannheim), Workshop Corpora in Lexical Research, Bucharest, Nov. 2008 [Folie 1] DWDS-Kernkorpus / DWDS corpus analysis

Stefan Engelberg (IDS Mannheim), Workshop Corpora in Lexical Research, Bucharest, Nov. 2008 [Folie 1] DWDS-Kernkorpus / DWDS corpus analysis Content 1. Empirical linguistics 2. Text corpora and corpus linguistics 3. Concordances 4. Application I: The German progressive 5. Part-of-speech tagging 6. Fequency analysis 7. Application II: Compounds

Mehr

EXTRAKTION UND KLASSIFIKATION VON BEWERTETEN PRODUKTFEATURES AUF WEBSEITEN

EXTRAKTION UND KLASSIFIKATION VON BEWERTETEN PRODUKTFEATURES AUF WEBSEITEN EXTRAKTION UND KLASSIFIKATION VON BEWERTETEN PRODUKTFEATURES AUF WEBSEITEN T-SYSTEMS MULTIMEDIA SOLUTIONS GMBH, 16. FEBRUAR 2012 1. Schlüsselworte Semantic Web, Opinion Mining, Sentiment Analysis, Stimmungsanalyse,

Mehr

Die Nationalbibliografie als Linked Data Technische Aspekte des Linked Data Service der DNB

Die Nationalbibliografie als Linked Data Technische Aspekte des Linked Data Service der DNB Lars Svensson, Jürgen Kett, Deutsche Nationalbibliothek, Frankfurt a.m. Die Nationalbibliografie als Linked Data Technische Aspekte des Linked Data Service der DNB 1 Svensson, Kett: Die Nationalbibliografie

Mehr

W3C was ist das und wie kann ich da mitmachen?

W3C was ist das und wie kann ich da mitmachen? W3C was ist das und wie kann ich da mitmachen? Felix Sasaki FH Potsdam / W3C Deutsch-österr. Büro felix.sasaki@fh-potsdam.de Folien: http://www.w3c.de/events/2009/blit-sasaki20091121.pdf W3C was ist das?

Mehr

Korpuslinguistik Annis 3 -Korpussuchtool Suchen in tief annotierten Korpora

Korpuslinguistik Annis 3 -Korpussuchtool Suchen in tief annotierten Korpora Korpuslinguistik Annis 3 -Korpussuchtool Suchen in tief annotierten Korpora Anke Lüdeling, Marc Reznicek, Amir Zeldes, Hagen Hirschmann... und anderen Mitarbeitern der HU-Korpuslinguistik Ziele Wie/Was

Mehr

Einführung. Arbeitsgruppe. Proseminar Corporate Semantic Web. Prof. Dr. Adrian Paschke

Einführung. Arbeitsgruppe. Proseminar Corporate Semantic Web. Prof. Dr. Adrian Paschke Arbeitsgruppe Proseminar Corporate Semantic Web Einführung Prof. Dr. Adrian Paschke Arbeitsgruppe Corporate Semantic Web (AG-CSW) Institut für Informatik, Freie Universität Berlin paschke@inf.fu-berlin.de

Mehr

INFORMATIONSEXTRAKTION

INFORMATIONSEXTRAKTION INFORMATIONSEXTRAKTION Referentin: Syriane Kemayou Yamga Universität Heidelberg, Computerlinguistik, Hauptseminar: Information Retrieval PD. Dr. Karin Haenelt 16.01.2006 Informationsextraktion (IE) 1.

Mehr

Informationsextraktion aus radiologischen Befundberichten

Informationsextraktion aus radiologischen Befundberichten Informationsextraktion aus radiologischen Befundberichten Philipp Daumke, Soeren Holste, Sarah Ambroz, Michael Poprat, Kai Simon, Dirk Marwede, Elmar Kotter Partner» Anbieter von Textanalyse-Software für

Mehr

Part-of-Speech- Tagging

Part-of-Speech- Tagging Part-of-Speech- Tagging In: Einführung in die Computerlinguistik Institut für Computerlinguistik Heinrich-Heine-Universität Düsseldorf WS 2004/05 Dozentin: Wiebke Petersen Tagging Was ist das? Tag (engl.):

Mehr

Deutsch Grammatik Sekundarstufe 1 Die 5 Wortarten

Deutsch Grammatik Sekundarstufe 1 Die 5 Wortarten Deutsch Grammatik Sekundarstufe 1 Die 5 Wortarten Theorie und Klassenübungen (mit Lösungen) Geeignet für 8. bis 10. Schuljahr MSV- Unterricht ILF- Unterricht Als Skript verwendbar Mit Kommentaren und Erklärungen

Mehr

Einführung Beispiele Fazit Links. OpenNLP. Nico Beierle, Irina Glushanok

Einführung Beispiele Fazit Links. OpenNLP. Nico Beierle, Irina Glushanok OpenNLP Nico Beierle, Irina Glushanok 15.11.2012 1 / 21 Inhaltsverzeichnis 1 Einführung Allgemeines Möglichkeiten Installation 2 Beispiele Tools auf Kommandozeile Tokenizer Name Finder Training My Model

Mehr

Erkennung von Teilsatzgrenzen

Erkennung von Teilsatzgrenzen Erkennung von Teilsatzgrenzen Maryia Fedzechkina Universität zu Köln Institut für Linguistik Sprachliche Informationsverarbeitung SoSe 2007 Hauptseminar Maschinelle Sprachverarbeitung Agenda Definitionen

Mehr

Semantische Suche und Visualisierung von biomedizinischen Relationsdaten

Semantische Suche und Visualisierung von biomedizinischen Relationsdaten Semantische Suche und Visualisierung von biomedizinischen Relationsdaten Johannes Hellrich Jena University Language & Information Engineering Lab Friedrich-Schiller-Universität Jena Tagung der Computerlinguistik-Studierenden,

Mehr

Lexikalische Substitutionen. Seminar: Sprachproduktion Dozentin: Prof. Dr. Helen Leuninger WS 09/10 Referenten: Anna Schmidt und Tim Krones

Lexikalische Substitutionen. Seminar: Sprachproduktion Dozentin: Prof. Dr. Helen Leuninger WS 09/10 Referenten: Anna Schmidt und Tim Krones Lexikalische Substitutionen Seminar: Sprachproduktion Dozentin: Prof. Dr. Helen Leuninger WS 09/10 Referenten: Anna Schmidt und Tim Krones Gliederung 1 Substitutionen: Arten und Eigenschaften 2 Entstehung

Mehr

Besuch der Gesellschaft für Wissensmanagement, Theseus Innovationszentrum, 04.05.2011. DFKI Fakten. Aljoscha Burchardt

Besuch der Gesellschaft für Wissensmanagement, Theseus Innovationszentrum, 04.05.2011. DFKI Fakten. Aljoscha Burchardt Besuch der Gesellschaft für Wissensmanagement, Theseus Innovationszentrum, 04.05.20 DFKI Fakten Aljoscha Burchardt Deutsches Forschungszentrum für Künstliche Intelligenz, DFKI GmbH Alt-Moabit 9c 0559 Berlin,

Mehr

Volltextsuche und Text Mining

Volltextsuche und Text Mining 1 Volltextsuche und Text Mining Datum: 22.12.2009 Seminar: Einführung in die Computerlinguistik Referenten: Cornelia Baldauf, Valentin Heinz, Adriana Kosior 2 Agenda 1. Einführung a) Volltextsuche b) Text

Mehr

Part-of-Speech Tagging. Stephanie Schuldes

Part-of-Speech Tagging. Stephanie Schuldes Part-of-Speech Tagging Stephanie Schuldes 05.06.2003 PS Erschließen von großen Textmengen Geißler/Holler SoSe 2003 Motivation Ziel: vollständiges Parsing und Verstehen natürlicher Sprache Herantasten durch

Mehr

Anhang III: Modulhandbuch

Anhang III: Modulhandbuch Anhang III: Modulhandbuch Das Modulhandbuch wird gemäß 1 Abs. (1) der Satzung der Technischen Universität Darmstadt zur Regelung der Bekanntmachung von Satzungen der Technischen Universität Darmstadt vom

Mehr

WMS Block: Management von Wissen in Dokumentenform PART: Text Mining. Myra Spiliopoulou

WMS Block: Management von Wissen in Dokumentenform PART: Text Mining. Myra Spiliopoulou WMS Block: Management von Wissen in nform PART: Text Mining Myra Spiliopoulou WIE ERFASSEN UND VERWALTEN WIR EXPLIZITES WISSEN? 1. Wie strukturieren wir Wissen in nform? 2. Wie verwalten wir nsammlungen?

Mehr

Part of Speech Tagging. Linguistische Sicht. Carolin Deck

Part of Speech Tagging. Linguistische Sicht. Carolin Deck Part of Speech Tagging Linguistische Sicht Carolin Deck Gliederung 1. Begriffsklärung 2. Vorstellung zwei wichtiger Tagsets (STTS & PTTS) 3. Bedeutung des POS-Tagging für die Sprachwissenschaft 4. Tagzuweisung

Mehr

Markus Matzker, Martin Huth 1 OPENCALAIS. VL Text Analytics Prof. Dr. Leser 07.02.2013

Markus Matzker, Martin Huth 1 OPENCALAIS. VL Text Analytics Prof. Dr. Leser 07.02.2013 1 OPENCALAIS VL Text Analytics Prof. Dr. Leser Gliederung 2 Was ist OpenCalais Funktionsweise Linked Data Anwendung Nutzungsrechte Was hat Reuters davon? Beispiel Quelle: http://www.opencalais.com/logos

Mehr

Grammatik Prüfung möglich, ob eine Zeichenfolge zur Sprache gehört oder nicht

Grammatik Prüfung möglich, ob eine Zeichenfolge zur Sprache gehört oder nicht Zusammenhang: Formale Sprache Grammatik Formale Sprache kann durch Grammatik beschrieben werden. Zur Sprache L = L(G) gehören nur diejenigen Kombinationen der Zeichen des Eingabealphabets, die durch die

Mehr

Semantik in Suchmaschinen Beispiele. Karin Haenelt 7.12.2014

Semantik in Suchmaschinen Beispiele. Karin Haenelt 7.12.2014 Semantik in Suchmaschinen Beispiele Karin Haenelt 7.12.2014 Inhalt Google Knowledge Graph Freebase schema.org 2 Google Knowledge Graph Zuordnung von Suchtermen zu Weltentitäten Darstellung von Zusammenhängen

Mehr

Dialogsysteme. Vortrag zum Thema n-gramm-modelle 2. Teil: Lösungsansätze für Ausfall-N-Gramme. 12. Januar 2006, Susanne O'Shaughnessy

Dialogsysteme. Vortrag zum Thema n-gramm-modelle 2. Teil: Lösungsansätze für Ausfall-N-Gramme. 12. Januar 2006, Susanne O'Shaughnessy Dialogsysteme Vortrag zum Thema n-gramm-modelle 2. Teil: Lösungsansätze für Ausfall-N-Gramme 12. Januar 2006, Susanne O'Shaughnessy Smoothing - Glättung Problem bei Standard- n-gramm-modellen: - kein Trainingskorpus

Mehr

Text-Mining und Metadaten-Anreicherung Eine Einführung. Die Automatisierung in der semantischen Anreicherung von Text-Dokumenten

Text-Mining und Metadaten-Anreicherung Eine Einführung. Die Automatisierung in der semantischen Anreicherung von Text-Dokumenten Text-Mining und Metadaten-Anreicherung Eine Einführung Die Automatisierung in der semantischen Anreicherung von Text-Dokumenten 26.05.2015 Inhalt Zeit ist Geld. Das gilt auch für die Recherche....3 Kann

Mehr

Semantic Web Technologies I

Semantic Web Technologies I Semantic Web Technologies I Lehrveranstaltung im WS11/12 Dr. Elena Simperl PD Dr. Sebastian Rudolph M. Sc. Anees ul Mehdi Ontology Engineering Dr. Elena Simperl XML und URIs Einführung in RDF RDF Schema

Mehr

Smart Content Creation and Annotation (SCCA)

Smart Content Creation and Annotation (SCCA) Smart Content Creation and Annotation (SCCA) Statusmeeting, 7. Oktober 2014 Agenda 1) Einleitung 2) Text Mining bei Neofonie 3) Text Mining für Unternehmen 4) Aufbau von Fachlexika 5) Big-Data-Technologien

Mehr

Statistische Verfahren in der Computerlinguistik

Statistische Verfahren in der Computerlinguistik Statistische Verfahren in der Computerlinguistik Zweiter Teil Einführung in die Computerlinguistik Sommersemester 2009 Übersicht Statistische vs. symbolische Verfahren in der CL Statistik beschreibende

Mehr

Sprache und Barrierefreiheit Autorenunterstützung mit Sprachtechnologie Aufbau einer Sprachprüfung für Regeln aus Leichte Sprache Anwendung an einem

Sprache und Barrierefreiheit Autorenunterstützung mit Sprachtechnologie Aufbau einer Sprachprüfung für Regeln aus Leichte Sprache Anwendung an einem Sprache und Barrierefreiheit Autorenunterstützung mit Sprachtechnologie Aufbau einer Sprachprüfung für Regeln aus Leichte Sprache Anwendung an einem Beispiel Ziel: Gut verständliche Sprache Was bedeutet

Mehr

Ontologie-Extraktion aus Texten

Ontologie-Extraktion aus Texten Ontologie-Extraktion aus Texten PTI911 - Wissensmanagement erstellt und vorgetragen von: Christian Kretzschmar Agenda Einführung Was ist Ontologie? Ziele & Anwendungsgebiete Ontologie-Extraktion Konzepte

Mehr

Semantic Web. Anwendungsbereiche & Entwicklungen. http://www.know-center.at. Dr. Michael Granitzer

Semantic Web. Anwendungsbereiche & Entwicklungen. http://www.know-center.at. Dr. Michael Granitzer Semantic Web Anwendungsbereiche & Entwicklungen Dr. Michael Granitzer - gefördert durch das Kompetenzzentrenprogramm Agenda Die Vision und warum das Semantic Web Sinn macht Grundlagen: Wissensrepräsentation

Mehr

Programmierkurs Python II

Programmierkurs Python II Programmierkurs Python II Michaela Regneri & tefan Thater FR 4.7 Allgemeine Linguistik (Computerlinguistik) Universität des aarlandes ommersemester 2010 (Charniak, 1997) the dog biscuits N V N V the dog

Mehr

Spezielle Themen der KI. NLP Natural Language Processing Parsing

Spezielle Themen der KI. NLP Natural Language Processing Parsing Spezielle Themen der KI NLP Natural Language Processing Parsing Parsing Strategien top-down: Ausgehend von S Hypothesenbildung und Verifikation anhand der Grammatikregeln Ersetzung nicht-terminaler Symbole

Mehr

Automatische Lexikonakquisition aus Textkorpora. Vortrag von Peter Adolphs Forschungskolloquium Korpuslinguistik 14. Juni 2006

Automatische Lexikonakquisition aus Textkorpora. Vortrag von Peter Adolphs Forschungskolloquium Korpuslinguistik 14. Juni 2006 Automatische Lexikonakquisition aus Textkorpora Vortrag von Peter Adolphs Forschungskolloquium Korpuslinguistik 14. Juni 2006 Inhalt Vorüberlegungen zu meiner Diplomarbeit Thema: (semi-)automatische Akquisition

Mehr

Ziele und Herausforderungen

Ziele und Herausforderungen Ziele und Herausforderungen Text soll automatisch aus einer Quellsprache in eine Zielsprache übertragen werden Dabei soll die Funktion des Textes erhalten bleiben Es werden sowohl computerlinguistische

Mehr

Semantic Web Technologies I! Lehrveranstaltung im WS10/11! Dr. Andreas Harth! Dr. Sebastian Rudolph!

Semantic Web Technologies I! Lehrveranstaltung im WS10/11! Dr. Andreas Harth! Dr. Sebastian Rudolph! Semantic Web Technologies I! Lehrveranstaltung im WS10/11! Dr. Andreas Harth! Dr. Sebastian Rudolph! www.semantic-web-grundlagen.de Ontology Engineering! Dr. Sebastian Rudolph! Semantic Web Architecture

Mehr

Opinion Mining in der Marktforschung

Opinion Mining in der Marktforschung Opinion Mining in der Marktforschung von andreas.boehnke@stud.uni-bamberg.de S. 1 Überblick I. Motivation Opinion Mining II. Grundlagen des Text Mining III. Grundlagen des Opinion Mining IV. Opinion Mining

Mehr

Modul 2: Textsegmentierung: Automatische Wort- und Satzsegmentierung

Modul 2: Textsegmentierung: Automatische Wort- und Satzsegmentierung Institut für Computerlinguistik Sprachtechnologie in den Digital Humanities Modul 2: Textsegmentierung: Automatische Wort- und Satzsegmentierung Simon Clematide Themen Wortsegmentierung Tokenisierung =

Mehr

Planungsraster der KGS Schneverdingen Schulinterner Jahresarbeitsplan

Planungsraster der KGS Schneverdingen Schulinterner Jahresarbeitsplan Schuljahr: 2007/2008 Zeitansatz: 10 + 1 WS Thema: Fabeln Kompetenzbereich: - Lesen mit Texten und Medien umgehen - Schreiben Die Schülerinnen und Schüler sollen literarische Texte verstehen und nutzen

Mehr

Erkennung fremdsprachiger Ausdrücke im Text

Erkennung fremdsprachiger Ausdrücke im Text Erkennung fremdsprachiger Ausdrücke im Text Jekaterina Siilivask Betreuer: Dr. Helmut Schmid Centrum für Informations- und Sprachbearbeiting Ludwig- Maximilians- Universität München 19.05.2014 Jekaterina

Mehr

Language Identification XXL

Language Identification XXL Ruprecht-Karls Universität Heidelberg Seminar für Computerlinguistik Software Projekt WS 2009/10 Language Identification XXL Referenten: Galina Sigwarth, Maria Semenchuk, George Kakish, Ulzhan Kadirbayeva

Mehr

Korpora. Referenten Duyen Tao-Pham Nedyalko Georgiev

Korpora. Referenten Duyen Tao-Pham Nedyalko Georgiev Korpora Referenten Duyen Tao-Pham Nedyalko Georgiev Hauptseminar: Angewandte Linguistische Datenverarbeitung (WS 11/12) Dozent: Prof. Dr. Jürgen Rolshoven Sprachliche Informationsverarbeitung Universität

Mehr

Vorlesung Maschinelles Lernen

Vorlesung Maschinelles Lernen Vorlesung Maschinelles Lernen Strukturelle Modelle SVMstruct Katharina Morik LS 8 Künstliche Intelligenz Fakultät für Informatik 16.12.2008 1 von 35 Gliederung LS 8 Künstliche Intelligenz Fakultät für

Mehr

Textanalyse mit UIMA und Hadoop.!! Hans-Peter Zorn data2day, Karlsruhe, 27.11.2014

Textanalyse mit UIMA und Hadoop.!! Hans-Peter Zorn data2day, Karlsruhe, 27.11.2014 Textanalyse mit UIMA und Hadoop Hans-Peter Zorn data2day, Karlsruhe, 27.11.2014 Über mich seit 2014: Big Data Scientist @ Inovex 2011-2013: TU Darmstadt, UKP Lab Etablierung der Hadoop-Infrastruktur Unterstützung

Mehr

Spracherkennung. Gliederung:

Spracherkennung. Gliederung: Spracherkennung Gliederung: - Einführung - Geschichte - Spracherkennung - Einteilungen - Aufbau und Funktion - Hidden Markov Modelle (HMM) - HMM bei der Spracherkennung - Probleme - Einsatzgebiete und

Mehr

Extraktion und Visualisierung von multidimensionalen Textinformationen zur Integration von Big Data in unternehmensspezifischen Wissenslandkarten

Extraktion und Visualisierung von multidimensionalen Textinformationen zur Integration von Big Data in unternehmensspezifischen Wissenslandkarten Extraktion und Visualisierung von multidimensionalen Textinformationen zur Integration von Big Data in unternehmensspezifischen Wissenslandkarten FOM Hochschulzentrum Dortmund, Fachbereich Wirtschaftsinformatik

Mehr

Einstieg in die Informatik mit Java

Einstieg in die Informatik mit Java 1 / 17 Einstieg in die Informatik mit Java String Tokenizer Gerd Bohlender Institut für Angewandte und Numerische Mathematik Gliederung 2 / 17 1 Überblick Tokenizer 2 StringTokenizer 3 Verwendung von String.split

Mehr

Annotation des Wittgenstein-Korpus mit Wortart-Information

Annotation des Wittgenstein-Korpus mit Wortart-Information Annotation des Wittgenstein-Korpus mit Wortart-Information Institut für Informations- und Sprachverarbeitung Ludwig-Maximilian-Universität München schmid@cis.uni-muenchen.de Überblick Was ist Wortart-Tagging?

Mehr

Eclipse und EclipseLink

Eclipse und EclipseLink Eclipse und EclipseLink Johannes Michler Johannes.Michler@promatis.de PROMATIS, Ettlingen Zugriff auf Oracle Datenbanken aus Eclipse RCP Anwendungen via EclipseLink 18.09.2009 1 Gliederung Eclipse als

Mehr

Universität Karlsruhe (TH)

Universität Karlsruhe (TH) Universität Karlsruhe (TH) Lehrstuhl für Programmierparadigmen prachtechnologie und Compiler W 2008/2009 http://pp.info.uni-karlsruhe.de/ Dozent: Prof. Dr.-Ing. G. nelting snelting@ipd.info.uni-karlsruhe.de

Mehr

Spezielle Themen der KI. NLP Natural Language Processing. Sprachverstehen

Spezielle Themen der KI. NLP Natural Language Processing. Sprachverstehen Spezielle Themen der KI NLP Natural Language Processing Sprachverstehen NLP - Verarbeitungsstufen des Sprachverstehen 2 Phonologie und Phonetik Phonologie Lautlehre oder Sprachgebilde-Lautlehre untersucht

Mehr

Standortbestimmung Kernziele 4. Klasse

Standortbestimmung Kernziele 4. Klasse Standortbestimmung Kernziele 4. Klasse Kernziele erreicht teilweise erreicht nicht erreicht Bemerkungen Deutsch Lesen - Lesefertigkeit liest einen vorbereiteten Satz sinnschrittgemäss vor beachtet beim

Mehr

DARIAH-DKPro-Wrapper Nils Reimers

DARIAH-DKPro-Wrapper Nils Reimers DARIAH-DKPro-Wrapper Nils Reimers 1 Maschinelle Textverarbeitung In einer Pipeline werden unterschiedliche Komponenten zusammengeschaltet Word- / Satztrennung Stopp- Wörter Lemmatisierung Named- Entities

Mehr

Lösungsvorschlag für das Übungsblatt 1. Aufgabe 1.

Lösungsvorschlag für das Übungsblatt 1. Aufgabe 1. Lösungsvorschlag für das Übungsblatt 1. Aufgabe 1. Zusammengefasst aus Ihren Beiträgen Wie bewerten sie das System ingesamt? Das Watson System verdeutlicht den Fortschritt der Künstlichen Intelligenz Forschung/Computerlinguistik/Informatik

Mehr

Big Data Textanalyse. Der Weg von unstrukturierten Daten zu quantifizierbaren Informationen

Big Data Textanalyse. Der Weg von unstrukturierten Daten zu quantifizierbaren Informationen Der Weg von unstrukturierten Daten zu quantifizierbaren Informationen Christopher Thomsen Senior Consultant & Competence Center Big Data Lead OPITZ CONSULTING Deutschland GmbH Hamburg, 22.09.2015 OPITZ

Mehr

Text Mining. Joachim Schole. Fakultät Technik und Informatik Hochschule für angewandte Wissenschaften Hamburg. Grundseminar, WS 2014

Text Mining. Joachim Schole. Fakultät Technik und Informatik Hochschule für angewandte Wissenschaften Hamburg. Grundseminar, WS 2014 Text Mining Joachim Schole Fakultät Technik und Informatik Hochschule für angewandte Wissenschaften Hamburg Grundseminar, WS 2014 Joachim Schole (HAW Hamburg) Text Mining Grundseminar, WS 2014 1 / 26 Agenda

Mehr

Konferenzbericht EKAW 2012

Konferenzbericht EKAW 2012 Konferenzbericht EKAW 2012 Johannes Hellrich 9.-12. Oktober 2012 Johannes Hellrich EKAW 1 / 20 IESD Parallel Faceted Browsing - Idee Faceted Browsing ist weit verbreitet, aber limitiert - der Nutzer sieht

Mehr

Part-Of-Speech-Tagging mit Viterbi Algorithmus

Part-Of-Speech-Tagging mit Viterbi Algorithmus Part-Of-Speech-Tagging mit Viterbi Algorithmus HS Endliche Automaten Inna Nickel, Julia Konstantinova 19.07.2010 1 / 21 Gliederung 1 Motivation 2 Theoretische Grundlagen Hidden Markov Model Viterbi Algorithmus

Mehr