Sprachtechnologie. Fraunhofer-Institut für Angewandte Informationstechnik FIT. Katja Niemann Maren Scheffel
|
|
- Edwina Gehrig
- vor 6 Jahren
- Abrufe
Transkript
1 Sprachtechnologie Fraunhofer-Institut für Angewandte Informationstechnik FIT Katja Niemann Maren Scheffel
2 Inhalt Was ist Sprachtechnologie? Computerlinguistische Anwendungen Praktische Beispiele MACE Schlüsselaktionen
3 Sprachtechnologie Automatische Bearbeitung geschriebener oder gesprochener Sprache Viele Bezeichnungen Computerlinguistik Language Engineering Natural Language Processing Viele Disziplinen Linguistik Informatik Logik Nachrichtentechnik
4 Sprachtechnologie - Anwendungsgebiete Textbearbeitung Automatische Worttrennung Automatische Schreibfehlerkorrektur Automatische Grammatikkorrektur OCR (Optical Character Recognition) Textanalyse Informationsextraktion Informationsretrieval
5
6 Informationsretrieval vs. Informationsextraktion Informationsretrieval filtert für die Suchanfrage relevante Dokumente aus eine Dokumentenmenge Nutzer muss relevante Information innerhalb des Dokumentes selbst finden Informationsextraktion sucht und findet gezielt Information in relevanten Dokumenten
7 Sprachtechnologie - Anwendungsgebiete Textanalyse und -produktion Automatische Zusammenfassung Maschinelle Übersetzung Spracherkennung Sprecheridentifikation/-verifikation Diktiersysteme Sprachsteuerung von Programmen
8 Sprachtechnologie - Anwendungsgebiete Sprachproduktion Vorlesesysteme Dialogsysteme Beratungssysteme Auskunftssysteme Augmentierte und virtuelle Realitäten
9 Data Mining vs. Text Mining Data Mining automatisches Finden neuer Muster in Datenbeständen Anwendung meist bei strukturierten Daten Text Mining automatisches Finden neuer Muster in Texten Anwendung daher auf unstrukturierten Daten Texte müssen strukturiert, d.h. vorverarbeitet werden
10 Satzgrenzenerkennung Trennen des Textes hinter satzgebenden Zeichen, um einzelne Sätze zu erhalten Satzzeichen (.?!) sind doppeldeutig Die Frage Wo kommst du her? wird häufig gestellt. Satzzeichen, z.b. der Punkt, stehen nicht nur am Ende des Satzes. Mische alle trockenen Backzutaten: Mehl, Zucker, usw. Das Büro von Prof. Dr. Peter M. Beispiel ist im 18. Stock.
11 Tokenisierung Segmentieren eines Textes in einzelne Token Token = von Leerzeichen oder Interpunktion begrenzte Folge von Buchstaben oder Ziffern Problem: Mehrwortlexeme --> New York Im Sommer bin ich in New York. Im Im Sommer Sommer bin bin ich ich in New York in New York
12 Reduktion auf Grundform Stemming regelbasiertes Abschneiden von Affixen (ohne Wörterbuch) gelesen --> les Leser --> les Lemmatisierung Grundform aus dem Lexikon gelesen --> lesen Leser --> Leser
13 Part-of-Speech-Tagging Annotation jedes Wortes eines Textes mit seiner Wortart --> Die (ART) Frau (N) liest (V) ein (ART) Buch (N). Nomen, Verb, Artikel, Adjektiv, Präposition, Pronomen, Adverb, Konjunktion, Interjektion Oft differenziertere Angaben zu Fall, Geschlecht, Zeit --> Die (ART-best-nom-sg-fem) Frau (N-nom-sg-fem) liest (V-3P-sg-präs-akt) ein (ART-unbest-akk-sg-neu) Buch (N-akk-sg-neu).
14 Linguistische Analysemethoden Parsing Zerlegen eines Satzes in seine Bestandteile mit Hilfe von Regeln Ein Mann sieht ein Kind *Mann ein sieht Kind. S --> NP VP NP --> DET N VP --> V NP* DET --> ein N --> Mann, Kind V --> sieht NP Probleme durch Mehrfachlesarten S VP NP DET N V DET N ein Mann sieht ein Kind
15 Named Entity Recognition Personen, Organisationen, Orte, Zeitangaben, Listenbasierte Verfahren Gazetteer, Wortdatenbanken Regelbasierte Verfahren Manuelles Erstellen von Lexikon + Regeln Unüberwachtes Lernen von Assoziationsregeln Mr. Smith, John Smith, John T. Smith XYZ GmbH, Abc AG Statistische Verfahren Hidden Markov Modelle Maximale Entropie
16 Schlüsselworterkennung Schlüsselwörter repräsentieren den Inhalt eines Dokuments Manuelle Annotation durch Experten Automatische Extraktion textbasiert vs. korpusbasiert Repeated String Patterns n-gramme Nominalphrasen POS-Tags Chi-Quadrat (signifikante Unabhängikeit von Attributen) Log Likelihood
17 GATE (General Architecture for Text Engineering) Entwicklungsumgebung mit GUI + Klassenbibliothek Trennung von Daten, Algorithmen und Visualisierung. Language Resources: Lexika Korpora Ontologien Processing Resources: Stemmer POS Tagger Parser Visual Resources: für die Darstellung der Ergebnisse im GUI benötigt
18
19 Neue Lernpfade durch Real World Objects Renzo Piano Centre Pompidou Lloyd s Building Richard Rogers Millennium Dome
20
21 RWOs: Geographical Search
22 Erstellung von RWOs: DBpedia RDF Repräsentation der Informationen aus wikipedia Try: WHERE {?s dbpedia2:blackboard?blackboard.} Verschiedene Klassifikationsschemata, z.b. Wikipedia Ontologie Yago (Yet Another Great Ontology) SKOS (SKOS Simple Knowledge Organization System) Vorteile: Multilinguale Informationen mit Sprachtag Geographische Koordinaten für Gebäude Relationen zwischen Architekten und Gebäuden
23 Verbinde MOs und RWOs: Schritt 1 ANNIE information extraction system aus GATE: Der Tokenizer teilt den Text in einzelne Tokens Der Sentence Splitter teilt den Text in einzelne Sätze Der Part-of-Speech Tagger produziert ein POS-Tag für jedes Token Der ANNIE Gazetteer nutzt 100 vordefinierte Listen mit Namen und Keywords, die helfen, named entities zu erkennen (z.b. Mr., GmbH) Der Semantic Tagger erkennt Entitäten, z.b. Jahreszahlen, Personennamen Zusätzlicher Gazetteer um Gebäudenamen zu erkennen
24 Verbinde MOs und RWOs: Schritt 2 Gefundene Entitäten werden mit Titeln von RWOs verglichen Alle Tokens der gefundenen Namen (ohne Stoppwörter) müssen in der richtigen Reihenfolge im Titel enthalten sein z.b. Centre Pompidou passt zu Centre George Pompidou Abkürzungen in Personennamen werden überprüft z.b. D. Miller passt zu David Miller Ambiguitäten: Betrachtung weiterer gefundener Entitäten z.b. Millenium Tower London, Toronto Ein RWO enthält alle gefundenen Entitäten Nur ein RWO enthält mind. eine weitere gefundene Entität
25 Evaluierung Versuchsaufbau: Die 100 meist genutzten MOs wurden von 3 Experten getaggt: Gebäude, zu denen eine Verbindung bestehen soll Personen, zu denen eine Verbindung bestehen soll 67 MOs haben dabei mind. eine Verbindung zu einem RWO erhalten Evaluiert wird Precision und Recall für: Relationen zu Architekten Relationen zu Gebäuden
26 Evaluierung: Bewertungskriterien Recall: Wie viel Prozent der relevanten Relationen wurden gefunden? Precision: Wie viele der gefundenen Relationen sind relevant? false negatives true positives false positives relevante Relationen (manuell erzeugt) gefundene Relationen (automatisch erzeugt)
27 Evaluierung: Bewertungskriterien Bei steigendem Recall sinkt die Precision und umgekehrt f-measure: Harmonisches Mittel aus Precision und Recall Relationen in MACE: Precision wichtiger als Recall Einleitung Vorverarbeitung SW-Bildung SW-Bewertung SW-Evaluierung Beispiel
28 Relations - Projects / Buildings Results: Architekten: Precision: 90,6 %, Recall: 72,5% Gebäude: Precision: 92,2%, Recall: 61,9% Probleme: HUHKA / Het Museum van Hedendaagse Kunst Schlikker'sche Villa / Villa Schlikker Stichworte statt Sätze
29 Analyse von CAM mit CL-Methoden
30 Analyse von CAM mit CL-Methoden Actor Activity Program Item TS User A opens Word document B xxx User A edits Word document B xxx User A edits Word document B xxx User A saves Word document B xxx User A opens Word document C xxx User A edits Word document C xxx User A edits Word document B xxx User A closes Word document C xxx User A edits Word document B xxx User A saves Word document B xxx User A closes Word document B xxx User A opens Firefox document D xxx CAPLE und CAM Computerlinguistische Methoden Psychologische Methoden
31 Analyse von CAM mit CL-Methoden Übertragen von Sprachanalysemechanismen auf CAM Von Textanalyse zu Aktionsanalyse Zum finden von Strukturen, Regeln, Mustern in Aktionen Danach Abstraktion auf Aktivitäten höherer Ordnung Sprache ist regelbasiert Grammatik einer Sprache (Regeln + Lexikon) macht Bewertung der Richtigkeit eines Satzes für die gegebene Sprache möglich CAPLE und CAM Computerlinguistische Methoden Psychologische Methoden
32 Analyse von CAM mit CL-Methoden Ziel: partielle Grammatik für Aktionen Linguistische Konzepte müssen auf Teile der CAM- Instanzen übertragen werden Wort und Aktion kann man analog sehen Satz und Session nicht so einfach Satz ist feststehende Kategorie, Anfang und Ende klar Session ist ein Zeitkonzept, Anfang und Ende variabel Session kann auch analog zu Text gesehen werden CAPLE und CAM Computerlinguistische Methoden Psychologische Methoden
33 Von Schlüsselwörtern zu Schlüsselaktionen Schlüsselwörter als Repräsentant eines Textes Schlüsselaktionen als Repräsentant einer Session Erster Ansatz: Finden von sich wiederholenden Zeichenfolgen mit n-grammen Vereinigung von n-grammen, wenn Häufigkeit des neuen Schlüsselwortes über dem Schwellwert liegt Wenn kurze Schlüsselwortfolgen in längeren enthalten sind, fallen die kürzeren raus CAPLE und CAM Computerlinguistische Methoden Psychologische Methoden
34 Von Schlüsselwörtern zu Schlüsselaktionen 0A 1 B 2 C 3 D 4 E 5 F 6 G 7 D 8 C 9 A 10 B 11 C 12 A 13 E 14 F 15 G 16 B 17 E 18 F 19 G 20 F 21 Monogramme: A [0,1] [9,10] [12,13] B [1,2] [10,11] [16,17] C [2,3] [8,9] [11,12] D [3,4] [7,8] E [4,5] [13,14] [17,18] F [5,6] [14,15] [18,19] [20,21] G [6,7] [15,16] [19,20] Schwellwert = 2 CAPLE und CAM Computerlinguistische Methoden Psychologische Methoden
35 Von Schlüsselwörtern zu Schlüsselaktionen Bigramme: AB [0,2] [9,11] AE [12,14] BC [1,3] [10,12] BE [16,18] CD [2,4] CA [8,10] [11,13] DE [3,5] DC [7,9] EF [4,6] [13,15] [17,19] FG [5,7] [14,16] [18,20] GD [6,8] GB [15,17] GF [19,21] Trigramme ABC [0,3] [9,12] BCA [10,13] CAB [8,11] EFG [4,7] [13,16] [17,20] Schlüsselaktionen D CA ABC EFG
36 Von Schlüsselwörtern zu Schlüsselaktionen Aufgabe: 0A 1 B 2 C 3 A 4 B 5 D 6 B 7 C 8 A 9 B 10 A 11 A 12 C 13 D 14 Schwellwert = 2 Monogramme: A [0,1] [3,4] [8,9] [10,11] [11,12] B [1,2] [4,5] [6,7] [9,10] C [2,3] [7,8] [12,13] D [5,6] [13,14]
37 Von Schlüsselwörtern zu Schlüsselaktionen Bigramme: AA [10,12] AB [0,2] [3,5] [8,10] AC [11,13] BC [1,3] [6,8] BD [4,6] BA [9,11] CA [2,4] [7,9] CD [12,14] DB [5,7] Trigramme: ABC [0,3] BCA [1,4] [6,9] CAB [2,5] [7,10] Quadrogramme: BCAB [1,5] [6,10] Schlüsselaktionen: D BCAB
38 Von Schlüsselwörtern zu Schlüsselaktionen
39 Keyword Extraction aus s Probleme s sind meistens kurz Schlüsselwörter werden häufig nur einmal genutzt Verbesserungsmöglichkeiten: Betreff gibt Aussage über Thema der Threads Einleitung Vorverarbeitung SW-Bildung SW-Bewertung SW-Evaluierung Beispiel
40 Keyword Extraction aus s Kombination aus TFxIDF und first occurence Archiv / Teile des Archives dienen als Referenzkorpus Bei eingehender Antwort auf eine werden die Schlüsselwortkandidaten dieser neu gewichtet Schlüsselwort in Antwort enthalten Schlüsselwort in Zitat enthalten Mail A Mail B Antwort auf Mail A Mail A Neubewertung Strand, baden, Sonne, Vortrag, Meeting Vortrag, Meeting, Abgabetermin Dienstreise, Abrechnung Vortrag, Meeting Strand baden, Sonne Einleitung Vorverarbeitung SW-Bildung SW-Bewertung SW-Evaluierung Beispiel
41 Themen eines Intervalls / einer Beziehung Ermittlung der Vorkommenshäufigkeit von Schlüsselwörtern in einem Intervall / einer Beziehung Zusätzliche Gewichtung der Schlüsselwörter durch die Betrachtung der Nutzung der s (gelesen, gedruckt, weitergeleitet, beantwortet) Einleitung Vorverarbeitung SW-Bildung SW-Bewertung SW-Evaluierung Beispiel
42 Kontakt Katja Niemann Maren Scheffel Fraunhofer-Institut für Angewandte Informationstechnik FIT Schloss Birlinghoven Sankt Augustin
Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK
Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 08.05.2014 Gliederung 1 Vorverarbeitung
MehrINFORMATIONSEXTRAKTION IN SUCHMASCHINEN
INFORMATIONSEXTRAKTION IN SUCHMASCHINEN S E M I N A R S U C H M A S C H I N E N S O M M E R S E M ESTER 2014 S T E FA N L A N G E R, C I S, U N I V E R S I TÄT M Ü N C H E N Schematische Architektur einer
MehrGATE General Architecture for Text Engineering. Alexander Hein & Erik Dießler (VL Text Analytics - 08.05.2008)
GATE General Architecture for Text Engineering Alexander Hein & Erik Dießler (VL Text Analytics - 08.05.2008) Überblick GATE Die Idee Die Architektur Was noch - JAPE / DIFF / GUK ANNIE Einige Beispiele
MehrInaugural-Dissertation. Philosophie
Ontology On Demand Vollautomatische Ontologieerstellung aus deutschen Texten mithilfe moderner Textmining-Prozesse Inaugural-Dissertation zur Erlangung des Grades eines Doktors der Philosophie in der Fakultät
MehrNLP Eigenschaften von Text
NLP Eigenschaften von Text Dr. Andreas Hotho Dominik Benz Beate Krause Sommersemester 2008 Folie: 1 Übersicht Einführung Eigenschaften von Text Words I: Satzgrenzenerkennung, Tokenization, Kollokationen
MehrINFORMATIONSGEWINNUNG AUS KURZEN TEXTEN
INFORMATIONSGEWINNUNG AUS KURZEN TEXTEN T-SYSTEMS MULTIMEDIA SOLUTIONS GMBH, 14. OKTOBER 2011 1. Schlüsselworte Semantik, Informationsextraktion, Automatisierte Syntaxanalyse, Validierung, Chunking, Tagging,
MehrWissensbasierte Sprachverarbeitung Inhalt der Vorlesung 0. Einleitung
Wissensbasierte Sprachverarbeitung Inhalt der Vorlesung 0. Einleitung i) Worum geht es? ii) Aufgaben und Anwendungen iii) Mehrdeutigkeit - Das Kernproblem iv) linguistische Grundlagen I. Der synthetische
MehrMultilinguales Information Retrieval, AG Datenbanken und Informationssysteme. Multilinguales Information Retrieval
Multilinguales Information Retrieval 1 Definition IR in einer anderen Sprache als Englisch IR auf einer einsprachigen Dokumentensammlung, die in mehreren Sprachen befragt werden kann. Information Retrieval
MehrGeneral Architecture for Text Engineering - GATE
General Architecture for Text Engineering - GATE basierend auf dem GATE-Benutzerhandbuch sowie dem Tutorial des CLab-Teams der Universität Zürich 3. Juni 2011 1 1 Lernziele Grundkenntnisse in GATE Development
MehrComputerlinguistik und Sprachtechnologie
Computerlinguistik und Sprachtechnologie Eine Einführung Herausgegeben von: Kai-Uwe Carstensen, Christian Ebert, Cornelia Endriss, Susanne Jekat, Ralf Klabunde und Hagen Langer Spektrum Akademischer Verlag
MehrNLP - Analyse des Wissensrohstoffs Text
NLP - Analyse des Wissensrohstoffs Text Vorlesung Beginn: 8. April 2008 Dienstag 10.15 h - 11.45 h, in Raum 1607 oder 0443 Übungen Dr. Andreas Hotho Dominik Benz Beate Krause Sommersemester 2008 Beginn:
MehrFriedrich-Alexander-Universität Professur für Computerlinguistik. Nguyen Ai Huong
Part-of-Speech Tagging Friedrich-Alexander-Universität Professur für Computerlinguistik Nguyen Ai Huong 15.12.2011 Part-of-speech tagging Bestimmung von Wortform (part of speech) für jedes Wort in einem
MehrSeminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK
Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 16.05.2013 Gliederung 1 Vorverarbeitung
MehrWiederholung: Korpuslinguistik. Einführung in die Korpuslinguistik. Vorverarbeitung: Themen. Vorverarbeitung. Vorverarbeitung.
Wiederholung: Korpuslinguistik Einführung in die Korpuslinguistik Anke Lüdeling anke.luedeling@rz.hu-berlin.de Sommersemester 2007 beschäftigt sich damit, welche linguistischen Fragen anhand (großer) Textmengen
MehrSwantje Westpfahl & Thomas Schmidt POS für(s) FOLK
Swantje Westpfahl & Thomas Schmidt POS für(s) FOLK Problemanalyse des POS- Taggings für spontansprachliche Daten anhand des Forschungsund Lehrkorpus Gesprochenes Deutsch 2 FOLK Forschungs- und Lehrkorpus
MehrTitel. Hamdiye Arslan Éva Mújdricza-Maydt
Titel Logo: http://gate.ac.uk/gatewiki/cow/doc/gslidy/gate-logo-colour.png Hamdiye Arslan Éva Mújdricza-Maydt Referat zum HS Endliche Automaten PD Dr. Karin Haenelt Seminar für Computerlinguistik Ruprecht-Karls-Universität
MehrMorphologie (5) Wortarten (2) Part-of-Speech Tagging Stemming
Morphologie (5) Wortarten (2) Part-of-Speech Tagging Stemming Robert Zangenfeind Centrum für Informations- und Sprachverarbeitung, LMU München 24.11.2014, 9 c.t. Zangenfeind: Morphologie 1 / 18 Wdh.: Klassifizierung
MehrKorpusvorverarbeitung. Hauptseminar: Einführung in die Korpuslinguistik. Kodierung/Annotationsmaximen. Vorverarbeitung: erste Schritte.
Hauptseminar: Einführung in die Korpuslinguistik Anke Lüdeling anke.luedeling@rz.hu-berlin.de Wintersemester 2002/2003 Korpusvorverarbeitung Beispiel: DIE ZEIT aufbereitet für journalistische Zwecke, mitgeliefertes
MehrEndgültige Gruppeneinteilung Kohorte Innere-BP Sommersemester 2016 (Stand: )
A A1a 2197120 on on A A1a 2311330 on on on on on on on A A1a 2316420 on on A A1a 2332345 on on on on on on on A A1a 2371324 on on on on on on on A A1a 2382962 on on A A1a 2384710 on on on on on on on A
MehrHEALTH Institut für Biomedizin und Gesundheitswissenschaften
HEALTH Institut für Biomedizin und Gesundheitswissenschaften Konzept zur Verbesserung eines klinischen Information Retrieval Systems unter Verwendung von Apache UIMA und medizinischen Ontologien Georg
MehrEinführung in die Computerlinguistik
Einführung in die Computerlinguistik Statistische Modellierung I WS 2010/2011 Manfred Pinkal Wortartinformation Wortartinformation ist eine wichtige Voraussetzung für die syntaktische Analyse. Woher kommt
MehrWissen aus unstrukturierten natürlichsprachlichen
ZKI Tagung AK Supercomputing, 19.-20. Okt. 2015 Wissen aus unstrukturierten natürlichsprachlichen Daten Sprachtechnologie und Textanalytik in the large Udo Hahn Jena University Language & Information Engineering
MehrEinführung in die Computerlinguistik
Einführung in die Computerlinguistik Statistische Modellierung Fragebogenaktion Bachelor-StudentInnen http://www.coli.uni-saarland.de/bsc/page.php?id=fragebogen WS 2013/2014 Andrea Horbach mit Folien von
MehrVertriebssteuerung & Kundenmanagement bei Finanzinstituten. 1. Dezember 2010, Frankfurt am Main
Vertriebssteuerung & Kundenmanagement bei Finanzinstituten 1. Dezember 2010, Frankfurt am Main Erweitern Sie Ihre Analyse auch um unstrukturierte Daten: mehr Einblicke, bessere Entscheidungen! Unsere Agenda
MehrTokenisierung und Lemmatisierung in Suchmaschinen
Tokenisierung und Lemmatisierung in Suchmaschinen Hauptseminar Suchmaschinen Computerlinguistik Sommersemester 2010 Stefan Langer stefan.langer@cis.uni-muenchen.de Übung: Tokenisierung (5 min) Was ist
MehrText Mining und Textzusammenfassung. Jürgen Kirkovits Doris Rongitsch Daniela Wagenhofer
Text Mining und Textzusammenfassung Jürgen Kirkovits Doris Rongitsch Daniela Wagenhofer Übersicht 1. Definition 2. Prozessablauf 3. Textzusammenfassung 4. Praxisbeispiel Definition Text Mining is the art
MehrÜberblick. VL: Einführung in die Korpuslinguistik. Annotation. Tokenbasierte Annotation
Überblick VL: Einführung in die Korpuslinguistik Anke Lüdeling anke.luedeling@rz.hu-berlin.de Sommersemester 2004 kurze Wiederholung syntaktische phonetische/phonologische Tokenbasierte pos-tagging & Lemmatisierung
MehrInformationsextraktion
Informationsextraktion Bestimmte Anwendungen bei der semantischen Verarbeitung erfordern keine tiefe linguistische Analyse mit exakter Disambiguierung (= eine einzige und korrekte Lesart). Hierzu gehört
MehrInformationsextraktion. Karin Haenelt 1.12.2012
Informationsextraktion Karin Haenelt 1.12.2012 Informationsextraktion Ziel Identifikation bestimmter Information (Daten) in einem unstrukturierten oder teilstrukturierten textuellen Dokument Transformation
MehrXDOC Extraktion, Repräsentation und Auswertung von Informationen
XDOC Extraktion, Repräsentation und Auswertung von Informationen Manuela Kunze Otto-von-Guericke Universität Magdeburg Fakultät für Informatik Institut für Wissens- und Sprachverarbeitung Gliederung Ausgangspunkt
Mehr"What's in the news? - or: why Angela Merkel is not significant
"What's in the news? - or: why Angela Merkel is not significant Andrej Rosenheinrich, Dr. Bernd Eickmann Forschung und Entwicklung, Unister GmbH, Leipzig UNISTER Seite 1 Unister Holding UNISTER Seite 2
MehrTerminologie-Extraktion: Beispiel
Terminologie-Extraktion: Beispiel The major risks of long-term cardiotoxicity relate to treatment prior to the BMT, in particular, anthracyclines, ablative-dose Cytoxan (ie, dose > 150 mg/ kg), chest [radiation
MehrRelationen zwischen Nomen und ihren Assoziationen. Michael Roth
Relationen zwischen Nomen und ihren Assoziationen Michael Roth 2 Assoziationen sind psychologisch interessant. Wie erfolgt der Zugriff auf sie? Welche Bedeutung haben sie? erfüllen einen linguistischen
MehrBachelorarbeit im Fach Computerlinguistik Centrum für Informations- und Sprachverarbeitung LMU München Betreuerin: Dr.
München, 05.05.2014 Arnold Schlegel Bachelorarbeit im Fach Computerlinguistik Centrum für Informations- und Sprachverarbeitung LMU München Betreuerin: Dr. Desislava Zhekova 1 Inhaltsüberblick Hintergrund
MehrSoftwaretechnologie für die Ressourcenlinguistik
Tools und Frameworks FSU Jena Gliederung 1 Pipelines Formate 2 3 Übersicht Details Fazit Pipelines Formate Komponenten bilden eine Pipeline Text Sentence Splitter Tokenizer POS-Tagger Output Texte werden
MehrExploring the knowledge in Semi Structured Data Sets with Rich Queries
Exploring the knowledge in Semi Structured Data Sets with Rich Queries Jürgen Umbrich Sebastian Blohm Institut AIFB, Universität Karlsruhe (TH) Forschungsuniversität gegründet 1825 www.kit.ed Overview
MehrJubiläumsabo März / April 2012 Jubiläumsausgabe #1-12 Deutschland Euro 12,00 ISSN: 1864-8398 www.dokmagazin.de
Nur jetzt! Jubiläumsabo März / April 2012 Jubiläumsausgabe #1-12 Deutschland Euro 12,00 ISSN: 1864-8398 www.dokmagazin.de Enterprise Search Strategien für Erfolg Dokumentenmanagement mit SharePoint: Neue
MehrKAPITEL I EINLEITUNG
KAPITEL I EINLEITUNG A. Der Hintergrund Die Wortklasse oder part of speech hat verschiedene Merkmale. Nach dem traditionellen System werden die deutschen Wortklassen in zehn Klassen unterteilt (Gross,
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. NLP-Pipeline. Tobias Scheffer Thomas Vanck
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen NLP-Pipeline Tobias Scheffer Thomas Vanck NLP-Pipeline Folge von Verarbeitungsschritten für Informationsextraktion, Übersetzung,
MehrEinführung in die Computerlinguistik Überblick
Einführung in die Computerlinguistik Überblick Hinrich Schütze & Robert Zangenfeind Centrum für Informations- und Sprachverarbeitung, LMU München 2015-10-12 1 / 19 Was ist Computerlinguistik? Definition
MehrPG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion
PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion WS2001/2002 Klaus Unterstein 20.10.2001 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion 1 Verlauf Begriffsklärung Ontologiebasierte
MehrStefan Engelberg (IDS Mannheim), Workshop Corpora in Lexical Research, Bucharest, Nov. 2008 [Folie 1] DWDS-Kernkorpus / DWDS corpus analysis
Content 1. Empirical linguistics 2. Text corpora and corpus linguistics 3. Concordances 4. Application I: The German progressive 5. Part-of-speech tagging 6. Fequency analysis 7. Application II: Compounds
MehrEXTRAKTION UND KLASSIFIKATION VON BEWERTETEN PRODUKTFEATURES AUF WEBSEITEN
EXTRAKTION UND KLASSIFIKATION VON BEWERTETEN PRODUKTFEATURES AUF WEBSEITEN T-SYSTEMS MULTIMEDIA SOLUTIONS GMBH, 16. FEBRUAR 2012 1. Schlüsselworte Semantic Web, Opinion Mining, Sentiment Analysis, Stimmungsanalyse,
MehrDie Nationalbibliografie als Linked Data Technische Aspekte des Linked Data Service der DNB
Lars Svensson, Jürgen Kett, Deutsche Nationalbibliothek, Frankfurt a.m. Die Nationalbibliografie als Linked Data Technische Aspekte des Linked Data Service der DNB 1 Svensson, Kett: Die Nationalbibliografie
MehrW3C was ist das und wie kann ich da mitmachen?
W3C was ist das und wie kann ich da mitmachen? Felix Sasaki FH Potsdam / W3C Deutsch-österr. Büro felix.sasaki@fh-potsdam.de Folien: http://www.w3c.de/events/2009/blit-sasaki20091121.pdf W3C was ist das?
MehrKorpuslinguistik Annis 3 -Korpussuchtool Suchen in tief annotierten Korpora
Korpuslinguistik Annis 3 -Korpussuchtool Suchen in tief annotierten Korpora Anke Lüdeling, Marc Reznicek, Amir Zeldes, Hagen Hirschmann... und anderen Mitarbeitern der HU-Korpuslinguistik Ziele Wie/Was
MehrEinführung. Arbeitsgruppe. Proseminar Corporate Semantic Web. Prof. Dr. Adrian Paschke
Arbeitsgruppe Proseminar Corporate Semantic Web Einführung Prof. Dr. Adrian Paschke Arbeitsgruppe Corporate Semantic Web (AG-CSW) Institut für Informatik, Freie Universität Berlin paschke@inf.fu-berlin.de
MehrINFORMATIONSEXTRAKTION
INFORMATIONSEXTRAKTION Referentin: Syriane Kemayou Yamga Universität Heidelberg, Computerlinguistik, Hauptseminar: Information Retrieval PD. Dr. Karin Haenelt 16.01.2006 Informationsextraktion (IE) 1.
MehrInformationsextraktion aus radiologischen Befundberichten
Informationsextraktion aus radiologischen Befundberichten Philipp Daumke, Soeren Holste, Sarah Ambroz, Michael Poprat, Kai Simon, Dirk Marwede, Elmar Kotter Partner» Anbieter von Textanalyse-Software für
MehrPart-of-Speech- Tagging
Part-of-Speech- Tagging In: Einführung in die Computerlinguistik Institut für Computerlinguistik Heinrich-Heine-Universität Düsseldorf WS 2004/05 Dozentin: Wiebke Petersen Tagging Was ist das? Tag (engl.):
MehrDeutsch Grammatik Sekundarstufe 1 Die 5 Wortarten
Deutsch Grammatik Sekundarstufe 1 Die 5 Wortarten Theorie und Klassenübungen (mit Lösungen) Geeignet für 8. bis 10. Schuljahr MSV- Unterricht ILF- Unterricht Als Skript verwendbar Mit Kommentaren und Erklärungen
MehrEinführung Beispiele Fazit Links. OpenNLP. Nico Beierle, Irina Glushanok
OpenNLP Nico Beierle, Irina Glushanok 15.11.2012 1 / 21 Inhaltsverzeichnis 1 Einführung Allgemeines Möglichkeiten Installation 2 Beispiele Tools auf Kommandozeile Tokenizer Name Finder Training My Model
MehrErkennung von Teilsatzgrenzen
Erkennung von Teilsatzgrenzen Maryia Fedzechkina Universität zu Köln Institut für Linguistik Sprachliche Informationsverarbeitung SoSe 2007 Hauptseminar Maschinelle Sprachverarbeitung Agenda Definitionen
MehrSemantische Suche und Visualisierung von biomedizinischen Relationsdaten
Semantische Suche und Visualisierung von biomedizinischen Relationsdaten Johannes Hellrich Jena University Language & Information Engineering Lab Friedrich-Schiller-Universität Jena Tagung der Computerlinguistik-Studierenden,
MehrLexikalische Substitutionen. Seminar: Sprachproduktion Dozentin: Prof. Dr. Helen Leuninger WS 09/10 Referenten: Anna Schmidt und Tim Krones
Lexikalische Substitutionen Seminar: Sprachproduktion Dozentin: Prof. Dr. Helen Leuninger WS 09/10 Referenten: Anna Schmidt und Tim Krones Gliederung 1 Substitutionen: Arten und Eigenschaften 2 Entstehung
MehrBesuch der Gesellschaft für Wissensmanagement, Theseus Innovationszentrum, 04.05.2011. DFKI Fakten. Aljoscha Burchardt
Besuch der Gesellschaft für Wissensmanagement, Theseus Innovationszentrum, 04.05.20 DFKI Fakten Aljoscha Burchardt Deutsches Forschungszentrum für Künstliche Intelligenz, DFKI GmbH Alt-Moabit 9c 0559 Berlin,
MehrVolltextsuche und Text Mining
1 Volltextsuche und Text Mining Datum: 22.12.2009 Seminar: Einführung in die Computerlinguistik Referenten: Cornelia Baldauf, Valentin Heinz, Adriana Kosior 2 Agenda 1. Einführung a) Volltextsuche b) Text
MehrPart-of-Speech Tagging. Stephanie Schuldes
Part-of-Speech Tagging Stephanie Schuldes 05.06.2003 PS Erschließen von großen Textmengen Geißler/Holler SoSe 2003 Motivation Ziel: vollständiges Parsing und Verstehen natürlicher Sprache Herantasten durch
MehrAnhang III: Modulhandbuch
Anhang III: Modulhandbuch Das Modulhandbuch wird gemäß 1 Abs. (1) der Satzung der Technischen Universität Darmstadt zur Regelung der Bekanntmachung von Satzungen der Technischen Universität Darmstadt vom
MehrWMS Block: Management von Wissen in Dokumentenform PART: Text Mining. Myra Spiliopoulou
WMS Block: Management von Wissen in nform PART: Text Mining Myra Spiliopoulou WIE ERFASSEN UND VERWALTEN WIR EXPLIZITES WISSEN? 1. Wie strukturieren wir Wissen in nform? 2. Wie verwalten wir nsammlungen?
MehrPart of Speech Tagging. Linguistische Sicht. Carolin Deck
Part of Speech Tagging Linguistische Sicht Carolin Deck Gliederung 1. Begriffsklärung 2. Vorstellung zwei wichtiger Tagsets (STTS & PTTS) 3. Bedeutung des POS-Tagging für die Sprachwissenschaft 4. Tagzuweisung
MehrMarkus Matzker, Martin Huth 1 OPENCALAIS. VL Text Analytics Prof. Dr. Leser 07.02.2013
1 OPENCALAIS VL Text Analytics Prof. Dr. Leser Gliederung 2 Was ist OpenCalais Funktionsweise Linked Data Anwendung Nutzungsrechte Was hat Reuters davon? Beispiel Quelle: http://www.opencalais.com/logos
MehrGrammatik Prüfung möglich, ob eine Zeichenfolge zur Sprache gehört oder nicht
Zusammenhang: Formale Sprache Grammatik Formale Sprache kann durch Grammatik beschrieben werden. Zur Sprache L = L(G) gehören nur diejenigen Kombinationen der Zeichen des Eingabealphabets, die durch die
MehrSemantik in Suchmaschinen Beispiele. Karin Haenelt 7.12.2014
Semantik in Suchmaschinen Beispiele Karin Haenelt 7.12.2014 Inhalt Google Knowledge Graph Freebase schema.org 2 Google Knowledge Graph Zuordnung von Suchtermen zu Weltentitäten Darstellung von Zusammenhängen
MehrDialogsysteme. Vortrag zum Thema n-gramm-modelle 2. Teil: Lösungsansätze für Ausfall-N-Gramme. 12. Januar 2006, Susanne O'Shaughnessy
Dialogsysteme Vortrag zum Thema n-gramm-modelle 2. Teil: Lösungsansätze für Ausfall-N-Gramme 12. Januar 2006, Susanne O'Shaughnessy Smoothing - Glättung Problem bei Standard- n-gramm-modellen: - kein Trainingskorpus
MehrText-Mining und Metadaten-Anreicherung Eine Einführung. Die Automatisierung in der semantischen Anreicherung von Text-Dokumenten
Text-Mining und Metadaten-Anreicherung Eine Einführung Die Automatisierung in der semantischen Anreicherung von Text-Dokumenten 26.05.2015 Inhalt Zeit ist Geld. Das gilt auch für die Recherche....3 Kann
MehrSemantic Web Technologies I
Semantic Web Technologies I Lehrveranstaltung im WS11/12 Dr. Elena Simperl PD Dr. Sebastian Rudolph M. Sc. Anees ul Mehdi Ontology Engineering Dr. Elena Simperl XML und URIs Einführung in RDF RDF Schema
MehrSmart Content Creation and Annotation (SCCA)
Smart Content Creation and Annotation (SCCA) Statusmeeting, 7. Oktober 2014 Agenda 1) Einleitung 2) Text Mining bei Neofonie 3) Text Mining für Unternehmen 4) Aufbau von Fachlexika 5) Big-Data-Technologien
MehrStatistische Verfahren in der Computerlinguistik
Statistische Verfahren in der Computerlinguistik Zweiter Teil Einführung in die Computerlinguistik Sommersemester 2009 Übersicht Statistische vs. symbolische Verfahren in der CL Statistik beschreibende
MehrSprache und Barrierefreiheit Autorenunterstützung mit Sprachtechnologie Aufbau einer Sprachprüfung für Regeln aus Leichte Sprache Anwendung an einem
Sprache und Barrierefreiheit Autorenunterstützung mit Sprachtechnologie Aufbau einer Sprachprüfung für Regeln aus Leichte Sprache Anwendung an einem Beispiel Ziel: Gut verständliche Sprache Was bedeutet
MehrOntologie-Extraktion aus Texten
Ontologie-Extraktion aus Texten PTI911 - Wissensmanagement erstellt und vorgetragen von: Christian Kretzschmar Agenda Einführung Was ist Ontologie? Ziele & Anwendungsgebiete Ontologie-Extraktion Konzepte
MehrSemantic Web. Anwendungsbereiche & Entwicklungen. http://www.know-center.at. Dr. Michael Granitzer
Semantic Web Anwendungsbereiche & Entwicklungen Dr. Michael Granitzer - gefördert durch das Kompetenzzentrenprogramm Agenda Die Vision und warum das Semantic Web Sinn macht Grundlagen: Wissensrepräsentation
MehrProgrammierkurs Python II
Programmierkurs Python II Michaela Regneri & tefan Thater FR 4.7 Allgemeine Linguistik (Computerlinguistik) Universität des aarlandes ommersemester 2010 (Charniak, 1997) the dog biscuits N V N V the dog
MehrSpezielle Themen der KI. NLP Natural Language Processing Parsing
Spezielle Themen der KI NLP Natural Language Processing Parsing Parsing Strategien top-down: Ausgehend von S Hypothesenbildung und Verifikation anhand der Grammatikregeln Ersetzung nicht-terminaler Symbole
MehrAutomatische Lexikonakquisition aus Textkorpora. Vortrag von Peter Adolphs Forschungskolloquium Korpuslinguistik 14. Juni 2006
Automatische Lexikonakquisition aus Textkorpora Vortrag von Peter Adolphs Forschungskolloquium Korpuslinguistik 14. Juni 2006 Inhalt Vorüberlegungen zu meiner Diplomarbeit Thema: (semi-)automatische Akquisition
MehrZiele und Herausforderungen
Ziele und Herausforderungen Text soll automatisch aus einer Quellsprache in eine Zielsprache übertragen werden Dabei soll die Funktion des Textes erhalten bleiben Es werden sowohl computerlinguistische
MehrSemantic Web Technologies I! Lehrveranstaltung im WS10/11! Dr. Andreas Harth! Dr. Sebastian Rudolph!
Semantic Web Technologies I! Lehrveranstaltung im WS10/11! Dr. Andreas Harth! Dr. Sebastian Rudolph! www.semantic-web-grundlagen.de Ontology Engineering! Dr. Sebastian Rudolph! Semantic Web Architecture
MehrOpinion Mining in der Marktforschung
Opinion Mining in der Marktforschung von andreas.boehnke@stud.uni-bamberg.de S. 1 Überblick I. Motivation Opinion Mining II. Grundlagen des Text Mining III. Grundlagen des Opinion Mining IV. Opinion Mining
MehrModul 2: Textsegmentierung: Automatische Wort- und Satzsegmentierung
Institut für Computerlinguistik Sprachtechnologie in den Digital Humanities Modul 2: Textsegmentierung: Automatische Wort- und Satzsegmentierung Simon Clematide Themen Wortsegmentierung Tokenisierung =
MehrPlanungsraster der KGS Schneverdingen Schulinterner Jahresarbeitsplan
Schuljahr: 2007/2008 Zeitansatz: 10 + 1 WS Thema: Fabeln Kompetenzbereich: - Lesen mit Texten und Medien umgehen - Schreiben Die Schülerinnen und Schüler sollen literarische Texte verstehen und nutzen
MehrErkennung fremdsprachiger Ausdrücke im Text
Erkennung fremdsprachiger Ausdrücke im Text Jekaterina Siilivask Betreuer: Dr. Helmut Schmid Centrum für Informations- und Sprachbearbeiting Ludwig- Maximilians- Universität München 19.05.2014 Jekaterina
MehrLanguage Identification XXL
Ruprecht-Karls Universität Heidelberg Seminar für Computerlinguistik Software Projekt WS 2009/10 Language Identification XXL Referenten: Galina Sigwarth, Maria Semenchuk, George Kakish, Ulzhan Kadirbayeva
MehrKorpora. Referenten Duyen Tao-Pham Nedyalko Georgiev
Korpora Referenten Duyen Tao-Pham Nedyalko Georgiev Hauptseminar: Angewandte Linguistische Datenverarbeitung (WS 11/12) Dozent: Prof. Dr. Jürgen Rolshoven Sprachliche Informationsverarbeitung Universität
MehrVorlesung Maschinelles Lernen
Vorlesung Maschinelles Lernen Strukturelle Modelle SVMstruct Katharina Morik LS 8 Künstliche Intelligenz Fakultät für Informatik 16.12.2008 1 von 35 Gliederung LS 8 Künstliche Intelligenz Fakultät für
MehrTextanalyse mit UIMA und Hadoop.!! Hans-Peter Zorn data2day, Karlsruhe, 27.11.2014
Textanalyse mit UIMA und Hadoop Hans-Peter Zorn data2day, Karlsruhe, 27.11.2014 Über mich seit 2014: Big Data Scientist @ Inovex 2011-2013: TU Darmstadt, UKP Lab Etablierung der Hadoop-Infrastruktur Unterstützung
MehrSpracherkennung. Gliederung:
Spracherkennung Gliederung: - Einführung - Geschichte - Spracherkennung - Einteilungen - Aufbau und Funktion - Hidden Markov Modelle (HMM) - HMM bei der Spracherkennung - Probleme - Einsatzgebiete und
MehrExtraktion und Visualisierung von multidimensionalen Textinformationen zur Integration von Big Data in unternehmensspezifischen Wissenslandkarten
Extraktion und Visualisierung von multidimensionalen Textinformationen zur Integration von Big Data in unternehmensspezifischen Wissenslandkarten FOM Hochschulzentrum Dortmund, Fachbereich Wirtschaftsinformatik
MehrEinstieg in die Informatik mit Java
1 / 17 Einstieg in die Informatik mit Java String Tokenizer Gerd Bohlender Institut für Angewandte und Numerische Mathematik Gliederung 2 / 17 1 Überblick Tokenizer 2 StringTokenizer 3 Verwendung von String.split
MehrAnnotation des Wittgenstein-Korpus mit Wortart-Information
Annotation des Wittgenstein-Korpus mit Wortart-Information Institut für Informations- und Sprachverarbeitung Ludwig-Maximilian-Universität München schmid@cis.uni-muenchen.de Überblick Was ist Wortart-Tagging?
MehrEclipse und EclipseLink
Eclipse und EclipseLink Johannes Michler Johannes.Michler@promatis.de PROMATIS, Ettlingen Zugriff auf Oracle Datenbanken aus Eclipse RCP Anwendungen via EclipseLink 18.09.2009 1 Gliederung Eclipse als
MehrUniversität Karlsruhe (TH)
Universität Karlsruhe (TH) Lehrstuhl für Programmierparadigmen prachtechnologie und Compiler W 2008/2009 http://pp.info.uni-karlsruhe.de/ Dozent: Prof. Dr.-Ing. G. nelting snelting@ipd.info.uni-karlsruhe.de
MehrSpezielle Themen der KI. NLP Natural Language Processing. Sprachverstehen
Spezielle Themen der KI NLP Natural Language Processing Sprachverstehen NLP - Verarbeitungsstufen des Sprachverstehen 2 Phonologie und Phonetik Phonologie Lautlehre oder Sprachgebilde-Lautlehre untersucht
MehrStandortbestimmung Kernziele 4. Klasse
Standortbestimmung Kernziele 4. Klasse Kernziele erreicht teilweise erreicht nicht erreicht Bemerkungen Deutsch Lesen - Lesefertigkeit liest einen vorbereiteten Satz sinnschrittgemäss vor beachtet beim
MehrDARIAH-DKPro-Wrapper Nils Reimers
DARIAH-DKPro-Wrapper Nils Reimers 1 Maschinelle Textverarbeitung In einer Pipeline werden unterschiedliche Komponenten zusammengeschaltet Word- / Satztrennung Stopp- Wörter Lemmatisierung Named- Entities
MehrLösungsvorschlag für das Übungsblatt 1. Aufgabe 1.
Lösungsvorschlag für das Übungsblatt 1. Aufgabe 1. Zusammengefasst aus Ihren Beiträgen Wie bewerten sie das System ingesamt? Das Watson System verdeutlicht den Fortschritt der Künstlichen Intelligenz Forschung/Computerlinguistik/Informatik
MehrBig Data Textanalyse. Der Weg von unstrukturierten Daten zu quantifizierbaren Informationen
Der Weg von unstrukturierten Daten zu quantifizierbaren Informationen Christopher Thomsen Senior Consultant & Competence Center Big Data Lead OPITZ CONSULTING Deutschland GmbH Hamburg, 22.09.2015 OPITZ
MehrText Mining. Joachim Schole. Fakultät Technik und Informatik Hochschule für angewandte Wissenschaften Hamburg. Grundseminar, WS 2014
Text Mining Joachim Schole Fakultät Technik und Informatik Hochschule für angewandte Wissenschaften Hamburg Grundseminar, WS 2014 Joachim Schole (HAW Hamburg) Text Mining Grundseminar, WS 2014 1 / 26 Agenda
MehrKonferenzbericht EKAW 2012
Konferenzbericht EKAW 2012 Johannes Hellrich 9.-12. Oktober 2012 Johannes Hellrich EKAW 1 / 20 IESD Parallel Faceted Browsing - Idee Faceted Browsing ist weit verbreitet, aber limitiert - der Nutzer sieht
MehrPart-Of-Speech-Tagging mit Viterbi Algorithmus
Part-Of-Speech-Tagging mit Viterbi Algorithmus HS Endliche Automaten Inna Nickel, Julia Konstantinova 19.07.2010 1 / 21 Gliederung 1 Motivation 2 Theoretische Grundlagen Hidden Markov Model Viterbi Algorithmus
Mehr