INFORMATIONSGEWINNUNG AUS KURZEN TEXTEN
|
|
- Martina Böhmer
- vor 7 Jahren
- Abrufe
Transkript
1 INFORMATIONSGEWINNUNG AUS KURZEN TEXTEN T-SYSTEMS MULTIMEDIA SOLUTIONS GMBH, 14. OKTOBER Schlüsselworte Semantik, Informationsextraktion, Automatisierte Syntaxanalyse, Validierung, Chunking, Tagging, Token, Relationen, Natural Language Processing, kleine Text- Korpora, Ontologie, RDF 2. Kontext der Arbeit Das Gebiet umfasst die semantische Textanalyse von der Vorverarbeitung der Texte. Diese schließt die Annotation von Sätzen (Haupt- und Nebensätze), Wörtern und Wortarten mit ein. Des Weiteren wird eine semantische Analyse vollzogen und Named Entities, zeitliche und räumliche Ausdrücke sowie Relationen zwischen diesen erkannt und mit Hilfe einer innovativen linguistischen Methode validiert. 3. Motivation zu diesem Thema Durch die immer stärker werdende Verbreitung von Textmaterial wie Büchern, Publikationen oder Artikeln im Internet entstehen Probleme, diese gewaltige Menge an Informationen nach ihrer Relevanz und ihrer Irrelevanz korrekt zu extrahieren, um sich den Informationsgehalt effizient zu Nutze machen zu können. Eine Möglichkeit solche Informationen korrekt extrahieren zu können, bilden statistische Verfahren. Diese benötigen jedoch eine hohe Anzahl an zu analysierenden Wörtern (mehrere Wörter), um möglichst fehlerfreie Ergebnisse während der Extraktion erzielen zu können. Dieser Aspekt ist im Fall von kurzen Texten wie Nachrichtenartikeln oder E- Mails allerdings nicht mehr möglich. Sollen die relevanten Informationen beispielsweise einer in eine 120 Zeichen beschränkte SMS verpackt werden, stoßen diese Verfahren an ihre Grenzen und die Korrektheit kann nicht mehr sichergestellt werden. Demnach ist es notwendig ein Konzept zu entwickeln, das in der Lage ist, korrekte Informationen aus kurzen Texten extrahieren zu können. SEITE I
2 4. Forschungsdesign Aufbauend auf den dargestellten Problemen, soll im Rahmen dieser Arbeit eine prototypische Natural Language Processing (kurz: NLP) basierte PIM - Anwendung für kurze, ausschließlich deutsche Texte entwickelt werden. Das erfordert zunächst Grundkenntnisse auf dem Gebiet NLP zu erlangen, Grundbegriffe zu definieren und Grundschritte des NLP herauszufiltern. Anschließend müssen die auftretenden Probleme bezüglich der Extraktion von Informationen aus kurzen Texten analysiert werden. Teil der Arbeit ist es weiterhin nach existierenden Lösungen bzw. Lösungsansätzen zu suchen. Auf der einen Seite sollen Methoden gefunden werden, die zur Gewinnung von Informationen aus Texten beitragen, auf der anderen Seite jedoch ebenfalls Verfahren, die für die Validierung der Ergebnisse sorgen müssen. Danach gilt es diesen Methoden und Verfahren einzelne Schritte des NLP zuzuordnen, wodurch unzureichend abgedeckte Gebiete ermittelt und neue Herausforderungen identifiziert werden sollen. Der primäre Fokus liegt abschließend auf der Konzeption, die aus unstrukturierten Daten semantisch möglichst korrekte Informationen generieren muss. Diese soll durch die gewonnenen Erkenntnisse im Bereich Informationsextraktion aus kurzen Texten konzipiert werden. Unter einer semantischen Information ist ein Triple aus Subjekt, Prädikat und Objekt zu verstehen (Bsp.: Michael Ballack, spielt, Ball). Das Prädikat bildet demzufolge eine Relation zwischen dem Subjekt und Objekt. Für die Darstellung von Relationen zwischen gewonnenen Informationen ist es nötig, Ontologien zu nutzen. Diese sollen jedoch lediglich als Hilfsmittel dienen und nicht zum Hauptbestandteil der Konzeption der Arbeit gehören. Um das Konzept schließlich evaluieren zu können, muss die prototypische PIM-Anwendung abschließend implementiert werden. 5. Erkenntnisse Es konnte gezeigt werden, wie die Extraktion semantischer Informationen funktioniert und inwieweit Korrektheit und Vollständigkeit bei diesem Prozess eingehalten werden. Gerade bei einem Artikel mit wenigen Wörtern im Vergleich zu weitaus längeren Artikeln, bestätigen sich die Ergebnisse der Evaluierung mit den im Konzept getroffenen theoretisierten Annahmen im Praxistest weitestgehend. Der Prototyp weist noch Schwächen auf, die jedoch behebbar erscheinen. Die Annahmen, die im Konzept ge- SEITE II
3 troffen wurden, erweisen sich als stichhaltig, um korrekte semantische Informationen aus kurzen und wenigen Texten extrahieren zu können. Für den großen Korpus werden sich ähnliche Ergebnisse nachweisen lassen, da sich an den Gegebenheiten von mehreren Artikeln keine Veränderungen während der Extraktion ergeben, genauso wenig wie bei der Analyse von zwei einzelnen Sätzen. Der einzige Aspekt, der sich negativ auf die Menge mehrerer Texte auswirkt, ist die Laufzeit. Je mehr Artikel bzw. Texte zu analysieren sind, desto stärker wirkt sich das auf die Laufzeit aus. Die Named Entity Analyse sowie die Validierung nehmen viel Zeit in Anspruch, weil kontinuierlich mehr Fakten analysiert werden müssen. Da sich die Aufgabe allerdings auf die Analyse weniger, kurzer Texte beläuft, ist die Laufzeit dahingehend zu vernachlässigen. Durch die Implementierung des Prototypen ist es dennoch möglich, Analysen nacheinander auszuführen, die Zeit der Analyse zu staffeln und sich dann den erweiterten Graphen anzeigen zu lassen. 6. Weiteres Forschungspotenzial Die Extraktion semantischer Informationen aus kurzen Texten mit Hilfe von Subjekt Prädikat Objekt (kurz: SPO) Strukturen ist ein interessantes aber ebenfalls schwieriges Thema, zumindest dies automatisiert zu bewältigen. Probleme entstehen, wenn Sätze bzw. Nebensätze selbst stark verschachtelt sind. Das führt zu Fehlinterpretationen der Satzstruktur, nicht unbedingt bei der Extraktion der SPO Struktur, sondern bei der Zusammengehörigkeit von Informationen, etwa wenn Objekte einem anderen Subjekt zugeordnet werden müssten. Dort genauere Algorithmen anzuwenden, wird extrem schwer zu realisieren sein, da der Kontext jedes Teilabschnittes im Satz analysiert und dem richtigen nächsten Abschnitt zugeordnet werden muss. Allein mit der Stellung und Anzahl von Kommata wird das Problem nicht zu lösen sein. Ein weiteres schwerwiegendes Problem tritt bei der Differenzierung von Subjekt und Objekt auf, wenn diese nicht durch Präpositionen wie nach, bis oder in auftreten. Genau dann, wenn die Kenntnis der Wortarten über den Wörtern nicht mehr ausreicht und Wissen über Tempus, Kasus, Numerus und Genus der gebeugten Wörter benötigt wird. Dadurch ergeben sich viele verschiedene Modifikations- und Erweiterungsmöglichkeiten für das System der Extraktion semantischer Informationen aus kurzen Texten. Um die Erkennung von Named Entities schneller zu gewährleisten, können die bereits erkannten und extern gespeicherten dafür verwendet werden, um entsprechende Elemente bei SEITE III
4 nachfolgenden Extraktionen sofort überspringen zu können. Das hat einen lernenden Effekt und kann ebenfalls für die SPO - Analyse verwendet werden. Dort ist es ebenfalls vorstellbar, die bereits implementierten Regeln zu modularisieren und dadurch jeder Regel eine eigene Instanz zuzuordnen. Mit Hilfe solcher Module können dadurch beispielsweise neuronale Netze erzeugt und diese durch Lernphasen erweitert werden, etwa wenn während der Textanalyse eine neue Form der Wortstellung für die Erkennung von Subjekt oder Objekt gefunden wurde. Neue Regeln könnten dadurch erzeugt oder bereits bestehende modifiziert bzw. erweitert werden. Das Problem der Analyse von Haupt- und Nebensätzen ist schwer zu lösen. Die Stellung und Anzahl an Kommata kann unter Umständen zum Erfolg führen. Das setzt allerdings eine konkrete Satzstruktur voraus, das heißt, Nebensätze bzw. geteilte Nebensätze müssen sich innerhalb des Hauptsatzes befinden, um anhand der Anzahl an Kommata zu erkennen, an welcher Stelle die gesplitteten Nebensätze zusammengehören. Ist das nicht der Fall, kann nicht mehr ohne weiteres gewährleistet werden, dass der zweite Abschnitt eines Hauptsatzes nicht auch der eines Nebensatzes sein kann. Mit Hilfe des Kontextes kann auch auf die korrekte Zusammenstellung der Satzteile geschlossen werden. Der Kontext bezieht sich dann beispielsweise auf den Tempus des Abschnittes, etwa wenn ein Nebensatz das Präteritum behandelt, der Hauptsatz jedoch das Präsens. Ein weiteres kompliziert zu lösendes Problem, ist das der Differenzierung von Subjekt und Objekt ohne Hilfestellung durch Präpositionen. Um dann korrekt Subjekt und Objekt extrahieren zu können, sind Kenntnisse über Tempus, Genus, Numerus und Kasus notwendig. Diese Informationen jedoch syntaktisch beispielsweise anhand von Suffixen zu erhalten, ist nicht möglich (Bsp.: der Spieler [Singular], die Spieler [Plural]). Vorstellbar ist dafür die zusätzliche Analyse der Wortstämme (Bsp.: der Rang, die Ränge). Um die Wortstämme allerdings zu erhalten, müssen genaue linguistische Kenntnisse über Morpheme der Wörter vorhanden sein, denn auch diese müssen dementsprechend extrahiert bzw. entfernt werden. Ein solcher Morphemextraktor existiert bereits und wurde während eines Praktikums bei der T-Systems Multimedia Solutions GmbH entwickelt. Neben diesen Analysemethoden müssen ebenfalls Wörterbücher verwendet werden, die besondere Substantive enthalten, die keiner Veränderung des Wortes bei einer Pluralisierung unterliegen. Ebenfalls lexikalisch müssen Informationen über Genus gespeichert sein. Mit Hilfe dieser Informationen kann die SPO - Analyse dahingehend verbessert werden, annähernd 100% korrekte Subjekte und Objekte SEITE IV
5 zu extrahieren. Für die Erkennung von Pronomen und ihrer semantischen Ergänzungen (Bsp.: Michael Ballack spielt den Ball. Er schießt. Er = Michael Ballack) wird im aktuellen Entwicklungsstand das vorangegangene Subjekt als das aktuelle bei nachfolgenden Pronomen wie er oder der interpretiert. Für die annähernd vollständige Betrachtung dieses Aspektes, dass ebenfalls Objekte für die Interpretation zur Verfügung stehen, kann das leicht mit einer Fuzzy - Logik beschrieben werden. Ein weiterer Erweiterungs- bzw. Modifikationsaspekt ist der einer Überlegung, ob Relationen mit einem Validierungsfaktor kleiner gleich 33 Prozent für relevant befunden werden können oder nicht. Im Prinzip sind höchstwahrscheinliche Relationen zwischen Named Entities am interessantesten. Diese Überlegung gilt es zu prüfen und in zukünftigen Arbeiten zu verifizieren. Abschließend kann das System um weitere Sprachen wie Englisch, Spanisch u.a. erweitert werden. Das erfordert allerdings weitreichende Kenntnisse in der Grammatik der neuen Sprachen. 7. Die fünf wichtigsten Literaturquellen der Arbeit [Rei05] Marie-Laure Reinbergerr. Automatic extraction of spatial relations. Techn. Ber. University of Antwerp - CNTS, 2005 [SH05] From temporal expressions to temporal information: Semantic tagging of news messages. Bd. ACL 01 - Proceedings of workshop on temporal and spatial information processing [Wäc10] Thomas Wächter. Semi-Automated Ontology Generation. Diss [Sul01] Dan Sullivan. Document Warehousing and Text Mining. Techniques for Improving Business Operations, Marketings and Sales. John Wiley & Sons, 2001 [BGP95] Roberto Basili, Fabrizio Grisoli und Maria Teresa Pazienza. HIRMA: Hypertextual Information Retrieval System Managed by ARIOSTO. Techn. Ber SEITE V
Ivana Daskalovska. Willkommen zur Übung Einführung in die Computerlinguistik. Morphologie. Sarah Bosch,
Ivana Daskalovska Willkommen zur Übung Einführung in die Computerlinguistik Morphologie Wiederholung Aufgabe 1 Was ist Morphologie, Morphem? 3 Aufgabe 1 Was ist Morphologie, Morphem? Teildisziplin der
MehrMorphologische Merkmale. Merkmale Merkmale in der Linguistik Merkmale in der Morpholgie Morphologische Typologie Morphologische Modelle
Morphologische Merkmale Merkmale Merkmale in der Linguistik Merkmale in der Morpholgie Morphologische Typologie Morphologische Modelle Merkmale Das Wort 'Merkmal' ' bedeutet im Prinzip soviel wie 'Eigenschaft'
MehrWort. nicht flektierbar. flektierbar. nach Person, Numerus, Modus, Tempus, Genus verbi flektiert. nach Genus, Kasus, Numerus flektiert
Wort flektierbar nicht flektierbar nach Person, Numerus, Modus, Tempus, Genus verbi flektiert genufest nach Genus, Kasus, Numerus flektiert genusveränderlich komparierbar nicht komparierbar Verb Substantiv
MehrDas Flexionssystem des Deutschen: Allgemeines
Die Nominalflexion des Deutschen WS 2005/06 Das Flexionssystem des Deutschen 1 Das Flexionssystem des Deutschen: Allgemeines Das Deutsche als flektierende Sprache Nach der an morphologischen Kriterien
MehrAutomatisiertes Annotieren in CATMA
Automatisiertes Annotieren in CATMA Thomas Bögel 1, Evelyn Gius 2, Marco Petris 2, Jannik Strötgen 3 1 Universität Heidelberg 2 Universität Hamburg 3 Max-Planck-Institut für Informatik jannik.stroetgen@mpi-inf.mpg.de
MehrFunktionale-Grammatik
Lexikalisch-Funktionale Funktionale-Grammatik Formaler Aufbau der F-Strukturen Funktionale Beschreibungen Funktionale Annotationen Von der K-Struktur zur F-Struktur Architektur der LFG Grammatik Erweiterte
MehrDas Informationsextraktions- System ANNIE. Anna Mazhayskaya Anna Vinenko
Das Informationsextraktions- System ANNIE Anna Mazhayskaya Anna Vinenko 09.07.2007 Informationsextraktion Informationsextraktion versucht, spezifische Informationen aus textuellen Dokumenten zu extrahieren
MehrInterdisziplinäre fachdidaktische Übung: Sprache und Modelle. SS 2015: Grossmann, Jenko
Interdisziplinäre fachdidaktische Übung: Sprache und Modelle SS 2015: Grossmann, Jenko Einleitung Was ist ein Modell? Sprachlich orientierte Modelle Beispiele Wie entstehen Modelle? Zusammenhang Modell
MehrAlgorithmen und Formale Sprachen
Algorithmen und Formale Sprachen Algorithmen und formale Sprachen Formale Sprachen und Algorithmen Formale Sprachen und formale Algorithmen (formale (Sprachen und Algorithmen)) ((formale Sprachen) und
MehrInhalt.
Inhalt EINLEITUNG II TEIL A - THEORETISCHE ASPEKTE 13 GRAMMATIK 13 Allgemeines 13 Die sprachlichen Ebenen 15 MORPHOLOGIE 17 Grundbegriffe der Morphologie 17 Gliederung der Morpheme 18 Basis- (Grund-) oder
MehrAutomatische Rekonstruktion und Spezifizierung von Attributnamen in Webtabellen
Automatische Rekonstruktion und Spezifizierung von Attributnamen in Webtabellen Mark Reinke Bachelorarbeit TU Dresden 17. Februar 2014 Webtabellen Warum sind Webtabellen von Bedeutung? Sie können relationale
MehrVertiefung der Grundlagen der Computerlinguistik. Semesterüberblick und Einführung zur Dependenz. Robert Zangenfeind
Vertiefung der Grundlagen der Computerlinguistik Semesterüberblick und Einführung zur Dependenz Robert Zangenfeind Centrum für Informations- und Sprachverarbeitung, LMU München 17.10.2017 Zangenfeind:
MehrKAPITEL I EINLEITUNG
KAPITEL I EINLEITUNG A. Der Hintergrund Die Wortklasse oder part of speech hat verschiedene Merkmale. Nach dem traditionellen System werden die deutschen Wortklassen in zehn Klassen unterteilt (Gross,
Mehretutor Benutzerhandbuch Relationale Algebra Benutzerhandbuch Georg Nitsche
etutor Benutzerhandbuch Benutzerhandbuch Relationale Algebra Georg Nitsche Version 1.0 Stand März 2006 Versionsverlauf: Version Autor Datum Änderungen 1.0 gn 6.3.2006 Fertigstellung der ersten Version
MehrINFORMATIONSEXTRAKTION IN SUCHMASCHINEN
INFORMATIONSEXTRAKTION IN SUCHMASCHINEN S E M I N A R S U C H M A S C H I N E N S O M M E R S E M ESTER 2014 S T E FA N L A N G E R, C I S, U N I V E R S I TÄT M Ü N C H E N Schematische Architektur einer
MehrLösungsvorschlag für das Übungsblatt 4. Aufgabe 1.
Lösungsvorschlag für das Übungsblatt 4. Aufgabe 1. Im CISLEX sind für das deutsche Kernlexikon 206.000 Lemmata, 1.300.000 en und 2.350.000 Lesarten kodiert. Wichtiger ist aber die Herangehensweise, um
MehrUnterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus: Schulgrammatik Deutsch. Das komplette Material finden Sie hier:
Unterrichtsmaterialien in digitaler und in gedruckter Form Auszug aus: Schulgrammatik Deutsch Das komplette Material finden Sie hier: School-Scout.de Gerhard Schwengler Schulgrammatik Deutsch ab Klasse
MehrGrammatikformalismen SS 2007 Ausgewählte Musterlösungen Schreiben Sie eine LFG-Grammatik, die Sätze der folgenden Form erkennt:
Grammatikformalismen SS 2007 Ausgewählte usterlösungen 1 LFG Übungsblatt LFG 1 1. Schreiben Sie eine LFG-Grammatik, die Sätze der folgenden Form erkennt: (1) Der Lehrer schläft. (2) Sie schenkt dem Lehrer
MehrEinführung in die Linguistik
Karl-Dieter Bünting Einführung in die Linguistik io. Auflage Athenäum Verlag 1983 Inhaltsverzeichnis V o r w o r t z u r e r s t e n u n d z u r s i e b t e n A u f l a g e... 1 1 Grundbegriffe 13 Allgemeine
MehrLemmatisierung und Stemming in Suchmaschinen
Lemmatisierung und Stemming in Suchmaschinen Hauptseminar Suchmaschinen Computerlinguistik Sommersemester 2016 Stefan Langer stefan.langer@cis.uni-muenchen.de Trefferquote (Recall) und Genauigkeit (Precision)
MehrLemmatisierung und Stemming in Suchmaschinen
Lemmatisierung und Stemming in Suchmaschinen Hauptseminar Suchmaschinen Computerlinguistik Sommersemester 2014 Stefan Langer stefan.langer@cis.uni-muenchen.de Trefferquote (Recall) und Genauigkeit (Precision)
MehrEinführung in die Computerlinguistik. Morphologie II
Einführung in die Computerlinguistik Morphologie II Hinrich Schütze & Robert Zangenfeind Centrum für Informations- und Sprachverarbeitung, LMU München 30.11.2015 Schütze & Zangenfeind: Morphologie II 1
Mehr3. Schulkonzept. Empfohlener Stundenumfang
Standards für inhaltsbezogene Kompetenzen 1. Sprachkompetenz 1.1. Wortschatz 1.2. Satzlehre Kerncurriculum mit Operator (3/4) Grundwortschatz: ca. 150 Wörter übersetzen - Wortbildungslehre: Wortbausteine
MehrWortarten Merkblatt. Veränderbare Wortarten Unveränderbare Wortarten
Wortarten Merkblatt Veränderbare Wortarten Deklinierbar (4 Fälle) Konjugierbar (Zeiten) Unveränderbare Wortarten Nomen Konjunktionen (und, weil,...) Artikel Verben Adverbien (heute, dort,...) Adjektive
MehrWortarten Merkblatt. Veränderbare Wortarten Unveränderbare Wortarten
Wortarten Merkblatt Veränderbare Wortarten Deklinierbar (4 Fälle) Konjugierbar (Zeiten) Unveränderbare Wortarten Nomen Konjunktionen (und, weil,...) Artikel Verben Adverbien (heute, dort,...) Adjektive
Mehr1 Das Lernen der norwegischen Sprache Begrifflichkeit... 11
Inhalt Seite Vorwort 3 Einleitung 10. 1 Das Lernen der norwegischen Sprache... 10 2 Begrifflichkeit... 11 1 Wortarten... 11 2 Veränderbarkeit von Wörtern.... 12 Substantive 13. 3 Grundsätzliches... 13
MehrSemantic Web. Ekaterina Timofeeva & Johannes Knopp Vorlesung Information Retrieval Dr. Karin Haenelt Universität Heidelberg WS2006/07
Semantic Web Ekaterina Timofeeva & Johannes Knopp 29.01.2007 Vorlesung Information Retrieval Dr. Karin Haenelt Universität Heidelberg WS2006/07 Semantic Web - Übersicht Was ist Semantic Web? Idee Wie funktioniert
MehrLangenscheidt Deutsch-Flip Grammatik
Langenscheidt Flip Grammatik Langenscheidt Deutsch-Flip Grammatik 1. Auflage 2008. Broschüren im Ordner. ca. 64 S. Spiralbindung ISBN 978 3 468 34969 0 Format (B x L): 10,5 x 15,1 cm Gewicht: 64 g schnell
MehrSemantik und Pragmatik
Semantik und Pragmatik SS 2005 Universität Bielefeld Teil 4, 6. Mai 2005 Gerhard Jäger Semantik und Pragmatik p.1/35 Prädikatenlogik: atomare Formeln Syntax JO, BERTIE, ETHEL, THE-CAKE... sind Individuenkonstanten
MehrAnwendungen der KI / SoSe 2018
Anwendungen der KI / SoSe 2018 Organisatorisches Prof. Dr. Adrian Ulges Angewandte Informatik / Medieninformatik / Wirtschaftsinformatik / ITS Fachbereich DSCM Hochschule RheinMain KursWebsite: www.ulges.de
Mehr6. Klasse. Grammatik. Deutsch. Grammatik. in 15 Minuten
Grammatik 6. Klasse Deutsch Grammatik in 15 Minuten Klasse So übst du mit diesem Buch Im Inhaltsverzeichnis findest du alle für deine Klassenstufe wichtigen Themengebiete. Du hast zwei Möglichkeiten: 1.
MehrSprachtechnologie. Fraunhofer-Institut für Angewandte Informationstechnik FIT. Katja Niemann Maren Scheffel
Sprachtechnologie Fraunhofer-Institut für Angewandte Informationstechnik FIT Katja Niemann Maren Scheffel Inhalt Was ist Sprachtechnologie? Computerlinguistische Anwendungen Praktische Beispiele MACE Schlüsselaktionen
MehrStichwortverzeichnis. Anhang. Bedingungssatz siehe Konditionalsatz Befehlsform
Anhang 130 A Adjektiv 68 73, 112 Bildung aus anderen Wörtern 69 mit Genitiv 63 Übersicht Deklination 108 109 Adverb 74 77, 112 Steigerung 76 Stellung 77 Typen (lokal, temporal, kausal, modal) 75 adverbiale
Mehr3.1.2 Der Beitrag von Wortarten für die Sprachbeschreibung Bisherige Forschungsarbeiten und ihre Anwendung auf das Kreolische...
Inhaltsverzeichnis 1. Mauritius und das Kreolische auf Mauritius... 13 1.1 Landeskundlicher Teil ein Vorwort... 13 1.2 Zu Geographie, Bevölkerungsgruppen und Sprachen auf Mauritius... 14 1.3 Definition:
MehrHPSG. Referat zu dem Thema Kongruenz im Englischen Von Anja Nerstheimer
HPSG Referat zu dem Thema Kongruenz im Englischen Von Anja Nerstheimer Gliederung Einleitung Kongruenz Allgemein Zwei Theorien der Kongruenz Probleme bei ableitungsbasierenden Kongruenztheorien Wie syntaktisch
MehrSatzglieder: Subjekt, Prädikat und Objekt. Satzglieder: Prädikat, Subjekt und Objekt
https://www.woxikon.de/referate/deutsch/satzglieder-subjekt-praedikat-und-objekt Satzglieder: Subjekt, Prädikat und Objekt Fach Deutsch Klasse 9 Autor Anja333 Veröffentlicht am 02.09.2018 Zusammenfassung
MehrInformationsextraktion. Christoph Wiewiorski Patrick Hommers
Informationsextraktion Christoph Wiewiorski Patrick Hommers 1 Informationsextraktion(IE) - Einführung Ziel: Domänenspezifische Informationen aus freiem Text gezielt aufspüren und strukturieren Gleichzeitig
MehrFinite-State-Morphologie in XLE. Grammatikentwicklung, SS 2010
Finite-State-Morphologie in XLE Grammatikentwicklung, SS 2010 1 / 20 Worum es heute geht: Nutzen von Finite-State-Morphologien... und wie man sie in XLE einbaut 2 / 20 Lexikon in XLE Bis jetzt: so genanntes
MehrMultilinguales Information Retrieval, AG Datenbanken und Informationssysteme. Multilinguales Information Retrieval
Multilinguales Information Retrieval 1 Definition IR in einer anderen Sprache als Englisch IR auf einer einsprachigen Dokumentensammlung, die in mehreren Sprachen befragt werden kann. Information Retrieval
MehrErkennung und Visualisierung attribuierter Phrasen in Poetiken
Erkennung und Visualisierung attribuierter Phrasen in Poetiken Andreas Müller (1) Markus John (2) Steffen Koch (2) Thomas Ertl (2) Jonas Kuhn (1) (1), Universität Stuttgart (2) Institut für Visualisierung
MehrTutorium Prolog für Linguisten 12
Tutorium Prolog für Linguisten 12 Sebastian Golly 29. Januar 2013 Sebastian Golly Tutorium Prolog für Linguisten 12 1 / 13 Plan für heute Fürs Langzeitgedächtnis Zusammenfassung des letzten Seminars Übungsblatt
MehrSemantic Role Labeling im modernen Text-Analyse-Prozess
Semantic Role Labeling im modernen Text-Analyse-Prozess Bastian Haarmann info@bastianhaarmann.de http://www.bastianhaarmann.de Agenda I Text-Analyse-Prozesse 1. Motivation 2. Informationsextraktion 3.
MehrDie Grammatik. sowie ausführlichem Register. Auflage
Die Grammatik Unentbehrlich für richtiges Deutsch Umfassende Darstellung des Aufbaus der deutschen Sprache vom Laut über das Wort und den Satz bis hin zum Text und zu den Merkmalen der gesprochenen Sprache
MehrNLP Eigenschaften von Text
NLP Eigenschaften von Text Dr. Andreas Hotho Dominik Benz Beate Krause Sommersemester 2008 Folie: 1 Übersicht Einführung Eigenschaften von Text Words I: Satzgrenzenerkennung, Tokenization, Kollokationen
MehrEinführung in die Computerlinguistik. Morphologie III
Einführung in die Computerlinguistik Morphologie III Hinrich Schütze & Robert Zangenfeind Centrum für Informations- und Sprachverarbeitung, LMU München 7.12.2015 Schütze & Zangenfeind: Morphologie III
MehrEXTRAKTION UND KLASSIFIKATION VON BEWERTETEN PRODUKTFEATURES AUF WEBSEITEN
EXTRAKTION UND KLASSIFIKATION VON BEWERTETEN PRODUKTFEATURES AUF WEBSEITEN T-SYSTEMS MULTIMEDIA SOLUTIONS GMBH, 16. FEBRUAR 2012 1. Schlüsselworte Semantic Web, Opinion Mining, Sentiment Analysis, Stimmungsanalyse,
MehrINFORMATIONSEXTRAKTION Computerlinguistik Referenten: Alice Holka, Sandra Pyka
INFORMATIONSEXTRAKTION 1 22.12.09 Computerlinguistik Referenten: Alice Holka, Sandra Pyka INFORMATIONSEXTRAKTION(IE) 1. Einleitung 2. Ziel der IE 3. Funktionalität eines IE-Systems 4. Beispiel 5. Übung
Mehratttributive Adjektive das die attributiven Adjektive attributive adjectives das blaue Haus --- ist nicht relevant--
Substantiv Die Substantive Das Pronomen, Nomen noun Lehrerin, der Spiegel, Dorf, Freiheit Groß geschrieben, Genus, Kasus, und dekliniert oder flektiertgroß geschrieben, Genus, Kasus, und dekliniert oder
MehrSeminar Ib Wort, Name, Begriff, Terminus Sommersemester Morphologie. Walther v.hahn. v.hahn Universität Hamburg
Seminar Ib Wort, Name, Begriff, Terminus Sommersemester 2006 Morphologie Walther v.hahn v.hahn Universität Hamburg 2005 1 Morphologie: Definition Definitionen: Morphologie ist die Lehre von den Klassen
MehrLexikalisch-semantische Ressourcen für die automatische Analyse von Erziehungswissenschaftlicher Fachliteratur
Workshop UKP Lab DIPF Knowledge Discovery 02. August 2012 Dr. Judith Eckle-Kohler Lexikalisch-semantische Ressourcen für die automatische Analyse von Erziehungswissenschaftlicher Fachliteratur In Teilen
MehrHauptseminar Information Retrieval. S. Friedrich und M. Häsner
Hauptseminar Information Retrieval S. Friedrich und M. Häsner 11. Januar 2010 1. Einleitung 2. QA-Modell 3. Modifikationen 4. Eigene Implementierung 5. Aktuell: Benutzer sucht Informationen und erhält
Mehr6. Klasse. Grammatik. Deutsch. Grammatik. in 15 Minuten
Grammatik 6. Klasse Deutsch Grammatik in 15 Minuten Klasse So übst du mit diesem Buch Im Inhaltsverzeichnis findest du alle für deine Klassenstufe wichtigen Themengebiete. Du hast zwei Möglichkeiten: 1.
MehrSyntaktische Kategorien: Phrasenkategorien
Syntaktische Kategorien: Phrasenkategorien FLM0410 - Introdução à Linguística Alemã I Profa. Dra. Ma. Helena Voorsluys Battaglia Eugenio Braga 8974165 Márcio Ap. de Deus 7000382 Wörter Phrasen Satz Satz
MehrSyntax. Ending Khoerudin Deutschabteilung FPBS UPI
Syntax Ending Khoerudin Deutschabteilung FPBS UPI Traditionale Syntaxanalyse Was ist ein Satz? Syntax: ein System von Regeln, nach denen aus einem Grundinventar kleinerer Einheiten (Wörter und Wortgruppen)
MehrMidas Metadata yield by Data Analysis
Midas Metadata yield by Data Analysis Glossar powered by Was ist Text Mining? Unter Text Mining versteht sich im Allgemeinen die Extraktion von strukturierten Informationen aus unstrukturierten oder semistrukturierten
MehrAutomatisiertes Auffinden von Präfix- und Suffix-Inklusionsabhängigkeiten in relationalen Datenbankmanagementsystemen
Automatisiertes Auffinden von Präfix- und Suffix-Inklusionsabhängigkeiten in relationalen Datenbankmanagementsystemen Exposé für eine Diplomarbeit Jan Hegewald Betreut von Jana Bauckmann 7. März 2007 1
MehrGrundkurs Linguistik - Morphologie
Grundkurs Linguistik - Jens Fleischhauer fleischhauer@phil.uni-duesseldorf.de Heinrich-Heine Universität Düsseldorf; Abteilung für Allgemeine Sprachwissenschaft 10.11.2016; WS 2016/2017 1 / 21 Jens Fleischhauer
MehrRelativsätze, Teil I
Relativsätze, Teil I Christian Gambel Sehr oft, wenn wir sprechen oder schreiben, möchten wir eine Person oder ein Objekt näher beschreiben. Dafür gibt es verschiedene Möglichkeiten wie zum Beispiel Adjektive
MehrSemi-automatische Ontologieerstellung mittels TextToOnto
Semi-automatische Ontologieerstellung mittels TextToOnto Mark Hall SE Computational Linguistics 14. Juni 2004 Zusammenfassung Das Erstellen von Ontologien ist ein komplexer und langwieriger Prozess. Um
MehrProseminar Linguistische Annotation
Proseminar Linguistische Annotation Ines Rehbein und Josef Ruppenhofer SS 2010 Ines Rehbein und Josef Ruppenhofer (SS10) Linguistische Annotation April 2010 1 / 22 Seminarplan I. Linguistische Annotation
MehrSupervised Learning Algorithmus für Stellenanzeigenklassifikation und Jobdeskriptoren Gewinnung
Informatik Pawel Broda Supervised Learning Algorithmus für Stellenanzeigenklassifikation und Jobdeskriptoren Gewinnung Diplomarbeit Ludwig Maximilian Universität zu München Centrum für Informations- und
MehrInformation und Produktion. Rolland Brunec Seminar Wissen
Information und Produktion Rolland Brunec Seminar Wissen Einführung Informationssystem Einfluss des Internets auf Organisation Wissens-Ko-Produktion Informationssystem (IS) Soziotechnisches System Dient
MehrKap.1: Was ist Wissen? 1.1 Begriff des Wissens (1)
Kap.1: Was ist Wissen? 1.1 Begriff des Wissens (1) Zusammenfassung: Diskutiert wurde: A) Wissensbegriff in verschiedenen Wissenschaften B) Daten Information Wissen Ebenen: (E1) Übermittlung physikalischer
MehrÜbungsblätter. Schulgrammatik extra. Deutsch. 5. bis 10. Klasse. Kopiervorlagen zum Üben und Wiederholen von Grammatik
Übungsblätter Schulgrammatik extra Deutsch 5. bis 0. Kopiervorlagen zum Üben und Wiederholen von Grammatik Inhalt Die Wortarten Das Substantiv (Nomen) Das Substantiv (Nomen) und der Artikel... Das Substantiv
MehrKapitel 9. Zusammenfassung & Ausblick
Kapitel 9 Kapitel 9 Zusammenfassung & Ausblick In diesem Kapitel wird der Prozess der Erstellung einer Zielontologie aus einer Textkollektion zusammengefasst und herausgestellt, wie sich eine Ontologie,
MehrInformation Retrieval and Semantic Technologies
Information Retrieval and Semantic Technologies Gerhard Wohlgenannt 6. April 2013 Inhaltsverzeichnis 1 Informationen zur Lehrveranstaltung 2 1.1 Inhalt................................... 2 2 Unterlagen
MehrRe exivpronomen. Arbeitsblätter zum Ausdrucken von sofatutor.com
Arbeitsblätter zum Ausdrucken von sofatutor.com Re exivpronomen 2 Gib an, ob es sich um Re exivpronomen oder Personalpronomen handelt. 3 Bestimme das Re exivpronomen und das Subjekt. 4 Bestimme den Kasus.
MehrEntity Search. Michel Manthey Arne Binder 2013
Entity Search Michel Manthey Arne Binder 2013 Gliederung Idee Herausforderungen Allgemeine Herangehensweise Möglichkeiten und angewandte Verfahren Ausblick Quellen Idee Bisher: Suche nach Dokumenten, die
MehrFlexion. Grundkurs Germanistische Linguistik (Plenum) Judith Berman Derivationsmorphem vs. Flexionsmorphem
Grundkurs Germanistische Linguistik (Plenum) Judith Berman 23.11.04 vs. Wortbildung (1)a. [saft - ig] b. [[An - geb] - er] Derivationsmorphem vs. smorphem (4)a. Angeber - saftiger b. saftig - Safts c.
MehrFriedrich-Alexander-Universität Professur für Computerlinguistik. Nguyen Ai Huong
Part-of-Speech Tagging Friedrich-Alexander-Universität Professur für Computerlinguistik Nguyen Ai Huong 15.12.2011 Part-of-speech tagging Bestimmung von Wortform (part of speech) für jedes Wort in einem
MehrObjektorientierte Programmierung II
Objektorientierte Programmierung II OOP I Erlaubt Entwicklers, im Problemraum zu denken und zu arbeiten. Das Problem wird in eine Menge von Objekten zerlegt. Objekte wirken aufeinander, um das Problem
MehrNamed Entity Recognition (NER)
Named Entity Recognition (NER) Katharina Stein 01/12/2017 Named Entity Recognition 1 Inhalt Named Entity Recognition Was ist Named Entity Recognition? Bedeutung für Natural Language Processing Herausforderungen
MehrNeue Erkenntnisse aus unstrukturierten Daten gewinnen
Neue Erkenntnisse aus unstrukturierten Daten gewinnen Univ.-Prof. Dr. Josef Küng Institut für anwendungsorientierte Wissensverarbeitung (FAW) Johannes Kepler Universität Linz In Zusammenarbeit mit Mag.
MehrFach: Deutsch - Sprachwissen
Fach: Deutsch - Sprachwissen Niveaustufe Standards SuS können.. Themen / Inhaltsbereiche Bezüge zum SP zu den BC / ÜT fächerverbindende Bezüge Lern- Leistungsaufgaben D (Klassen 5/6) grammat. Kategorien
Mehreine (sehr) kurze Einführung in formale Ontologien
kurzer historischer Überblick eine (sehr) kurze Einführung in Denis Brumann 5. April 2008 eine (sehr) kurze Einführung in kurzer historischer Überblick Ontologien in
MehrRe exivpronomen. Arbeitsblätter zum Ausdrucken von sofatutor.com
Arbeitsblätter zum Ausdrucken von sofatutor.com Re exivpronomen 2 Gib an, ob es sich um Re exivpronomen oder Personalpronomen handelt. 3 Bestimme das Re exivpronomen und das Subjekt. 4 Bestimme den Kasus.
MehrProtokoll vom
Ruhr-Universität Bochum 03.07.2003 Seminar: Sprachwandel Protokollantin: Mareike Nendel Dozent: Daniel Händel SS 2003 Protokoll vom 03.07.2003 Das Seminar begann am 3.7.2003 mit einer Übersicht über die
MehrModell und Implementierung einer temporalen Anfragesprache
Modell und Implementierung einer temporalen Anfragesprache Seminar Information Retrieval WS 2010/11 Agenda Motivation Hintergrund Modell der temporalen Anfragesprache Implementierung der temporalen Anfragesprache
MehrSeminar Sicherheit und Softwareengineering WS 2013 / Isabell Kullack FEHLERANALYSE VON REQUIREMENTS DOCUMENTS
Isabell Kullack FEHLERANALYSE VON REQUIREMENTS DOCUMENTS Requirements Documents Was sind Requirements Documents? Anforderungsdokumente in industriellen Software-Projekten Häufig in natürlicher Sprache
MehrQuestion Answering mit Support Vector Machines
Question Answering mit Support Vector Machines Sabrina Stehwien 30.01.2012 HS Information Retrieval Dozentin: Karin Haenelt Überblick 1. Question Answering Systeme 2. Das SAIQA-II QA-System 3. Support
MehrDeutsch [Lösungen in eckigen Klammern werden als richtig gewertet, werden aber nicht erwartet.] Zeit: 30 Minuten
Kantonsschule Ausserschwyz Quelle: Theresianum Ingenbohl, 2012 Fachmittelschule Aufnahmeprüfung 2012 Deutsch [Lösungen in eckigen Klammern werden als richtig gewertet, werden aber nicht erwartet.] Zeit:
MehrGrammatikbingo Anleitung
Grammatikbingo Anleitung 1. Die Schüler legen auf einem Blatt oder in ihrem Heft eine Tabelle mit 16 Feldern (4x4) an. Die Tabelle sollte ca. die Hälfte des Blattes einnehmen. 2. Der Lehrer liest die Aufgaben
MehrInformationsextraktion mit endlichen Automaten
Informationsextraktion mit endlichen Automaten HS: Information Retrieval Dozentin: Dr. Karin Haenelt Ruprecht-Karls-Universität Heidelberg Seminar für Computerlinguistik Referentinnen: Galina Sigwarth,
MehrArtikelwörter. Jason Rothe
Artikelwörter Jason Rothe Was ist das für 1 geiler Vortrag? Gliederung 1. Einleitung 2. Lehrbuchauszug 3. These 4. Stellung der Artikelwörter 5. Artikel vs. Artikelwort 6. Zuschreibung des Genus 7. Morphosyntaktische
Mehr.««JüetlCa.Jjyad Übungsbuch der deutschen Grammatik
Dreyer Schmitt.««JüetlCa.Jjyad Übungsbuch der deutschen Grammatik Neubearbeitung Verlag für Deutsch Inhaltsverzeichnis Teil I < 1 Deklination des Substantivs I 9 Artikel im Singular 9 I Artikel im Plural
MehrComputerlinguistische Grundlagen. Jürgen Hermes Sommersemester 17 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln
Computerlinguistische Grundlagen Jürgen Hermes Sommersemester 17 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Computerlinguistik: Schnittstellen Computerlinguistik aus
MehrSchulcurriculum Gymnasium Korntal-Münchingen
Klasse: 5+6 Seite 1 Minimalanforderungskatalog; Themen des Schuljahres gegliedert nach Arbeitsbereichen Die Verteilung der Unterrichtsinhalte auf Kl. 5 und 6 ist abhängig von dem zugrunde liegenden Lehrwerk.
MehrDer semantische Discovery Service YEWNO - ein Pilotprojekt an der Bayerischen Staatsbibliothek. Dr. Berthold Gillitzer Bayerische Staatsbibliothek
1 Der semantische Discovery Service YEWNO - ein Pilotprojekt an der Bayerischen Staatsbibliothek Dr. Berthold Gillitzer Bayerische Staatsbibliothek Bibliotheken und die digitale Welt sind wir schon angekommen?
MehrForm und Darstellung von Informationen
Form und Darstellung von Informationen 1. Computermetaphern 2. Beschreibungssprachen für Texte 3. Grammatiken zur Beschreibung syntaktischer Strukturen 4. Beispiel einer Textbeschreibungssprache: HTML
MehrLandschule an der Eider. Schulinternes Fachcurriculum Deutsch - Primarbereich Kompetenzbereich 4: Sprache und Sprachgebrauch untersuchen
1 Landschule an der Eider Schulinternes Fachcurriculum Deutsch - Primarbereich Kompetenzbereich 4: Sprache und Sprachgebrauch untersuchen 1. Die Schülerinnen und Schüler verfügen über erste Einsichten
MehrProjektpraktikum: Bildauswertung und fusion Wintersemester 2012 / 2013
Projektpraktikum: Bildauswertung und fusion Wintersemester 2012 / 2013 ies.anthropomatik.kit.edu Kalibrierung - subpixelgenaue Fokusmessung Zusammenfassung: Zur automatisierten Kalibrierung eines neuartigen
MehrInhalte Methoden Kompetenzen. Einführung in die Benutzung des Lehrbuchs und der Begleitgrammatik (gilt für alle Bereiche des Lehrplans)
Lehrplan Klasse 6 Latein Latein Klassen (5) / 6 Inhalte Methoden Kompetenzen Zeitliche und inhaltliche Abfolge entsprechend dem jeweiligen Lehrbuch Bereich 1: Wortschatz ca. 700 Wörter Wortbildungslehre
MehrEin XML Dokument zeichnet sich im Wesentlichen durch seine baumartige Struktur aus:
RDF in wissenschaftlichen Bibliotheken 5HWULHYDODXI5') Momentan existiert noch keine standardisierte Anfragesprache für RDF Dokumente. Auf Grund der existierenden XML Repräsentation von RDF liegt es jedoch
MehrNamed Entity Recognition, Extraction, und Linking in deutschen Rechtstexten
Named Entity Recognition, Extraction, und Linking in deutschen Rechtstexten Ingo Glaser, 21.09.2018, EDV-Gerichtstag Chair of Software Engineering for Business Information Systems (sebis) Faculty of Informatics
MehrENTWICKLUNGSTENDENZEN IN DER DEUTSCHEN GEGENWARTSSPRACHE
ENTWICKLUNGSTENDENZEN IN DER DEUTSCHEN GEGENWARTSSPRACHE LEXIK SYNTAX SPRACHGEBRAUCH 04s Prof. Dr. Wächter JanaMarie Reichert 16.06.2010 LEXIK Anglizismen Neologismen Modewörter/ Plastikwörter ANGLIZISMEN
MehrTeil 111. Chart-Parsing
Teil 111 Chart-Parsing 102 Die im ersten Teil des Buches behandelten einfachen Parsingalgorithmen sind, anders als die meisten vor allem im Compilerbau verwendeten Algorithmen (z.b. die LLoder LR-Parsingalgorithmen),
MehrMorphologie. Dazu gehört auch: Wortarten und ihre Einteilung. Morphologie ist die Lehre vom Strukturaufbau der Wörter.
Wörter und ihre Teile: Morphologie Flexion Morphologie von Goethe geprägter Begriff für Form und Struktur lebender Organismen im 19. Jh. in die Sprachwissenschaft übernommen Morphologie ist die Lehre vom
Mehr