Stemming. OS Einblicke in die Computerlinguistik Felix Hain HTWK Leipzig
|
|
- Kora Waltz
- vor 6 Jahren
- Abrufe
Transkript
1 Stemming OS Einblicke in die Computerlinguistik Felix Hain HTWK Leipzig
2 Gliederung Motivation Der Begriff Stemming Potentielle Probleme Stemming-Algorithmen Ansätze Porter-Stemmer-Algorithmus Substitute-and-Strip-Algorithmus Evaluation von Stemmern
3 Motivation Aufgabe: Finden von Informationen in großen Mengen natürlichen Textes zum Beispiel: Volltextsuche automatischer Textvergleich Information Retrieval / Wissensextraktion
4 Motivation Wörter treten in verschiedenen Formen auf Konjugation ich lerne, du lernst, er/sie/es lernt Deklination das schöne Haus, dem schönen Haus Wortart sauber, säubern, Sauberkeit Zahl Buch, Bücher
5 Motivation Problem: einfache Stichwortsuche erkennt i.d.r. keine Verwandtschaft zwischen Wörtern Lösungsansatz: Reduktion des Vokabulars auf grundlegende Wortformen Stemming
6 Der Begriff Stemming Stammformreduktion, Normalformenreduktion Bezeichnung für die Abbildung von Wörtern auf sogenannte Stämme (engl.: Stems )
7 Der Begriff Stemming nicht unbedingt Wortstämme im linguistischen Sinne gemeint Abbildung von Wörtern aufeinander mittels Stemming nennt man Conflation ( Zusammenführung, Verschmelzung )
8 Potentielle Probleme unregelmäßige Wortformen nehmen, nahm, genommen Infixe essen, gegessen vortragen, vorgetragen
9 Potentielle Probleme speziell im Deutschen: Umlaute Haus, Häuser Komposita Kunstmuseum Fußballstadion
10 Potentielle Probleme Understemming Wort wird zu schwach reduziert eigentlich verwandte Wörter werden auf unterschiedliche Stämme zurückgeführt Overstemming Wort wird zu stark reduziert eigentlich nicht verwandte Wörter werden auf gleichen Stamm zurückgeführt
11 Stemming-Algorithmen Unterteilung in verschiedene Typen: Table Lookup Successor Variety Affix Removal N-Gram
12 Table Lookup Stemming Konsultation einer Tabelle, die jedem Wort ihren Stamm zuordnet Problem: Tabelle woher? müsste erst erstellt werden wäre sehr groß kann niemals wirklich vollständig sein
13 Successor Variety Nachfolgervielfalt gegeben: Textkorpus Successor Variety S ist eine Funktion :: String N sei Z eine Zeichenkette der Länge n sei M die Menge aller Zeichenketten der Länge n+1 im Korpus, die mit Z beginnen dann ist S(Z) = M
14 Successor Variety sei Z die Zeichenkette der ersten i Zeichen eines Wortes W dann ist S i (W) = S(Z)
15 Successor Variety Stemming verschiedene Methoden zur Segmentierung eines Wortes: Cutoff Method Peak and Plateau Method Complete Word Method Entropy Method
16 Cutoff Method Festlegung eines Cutoff-Wertes c für i = 1 n: wenn S i (W) c, dann Schnitt (Beginn eines neuen Segmentes) Problem: Ermittlung eines guten c wenn zu klein: zu viele Segmente wenn zu groß: zu wenige Segmente
17 Peak and Plateau Method Berechnung aller S i (W) für ein gegebenes W Bestimmung der Stellen der lokalen Maxima, also alle i, für die gilt: S i (W) > S i-1 (W) S i (W) > S i+1 (W) für jedes solche i: Schnitt nach dem i. Zeichen des Wortes
18 Complete Word Method Schnitt nach jedem Teilwort, welches auch als eigenständiges Wort im Korpus vorkommt
19 Entropy Method sei D αi die Anzahl der Vorkommen einer Zeichenkette α im Textkorpus sei D αij die Anzahl der Vorkommen der Zeichenkette gefolgt von einem Buchstaben j D dann ist αij D die Wahrscheinlichkeit, dass αi dieser Buchstabe auf die Zeichenkette folgt Entropie H αi = D αij j=1 D αi log D αij 2 D αi
20 Auswahl eines Segmentes ermittelte Segmente werden verwendet, um daraus den Stem festzulegen im Englischen z.b.: 1. Segment, falls dieses in 12 Wörtern im Korpus enthalten ist, 2. Segment sonst im Deutschen schwierig Bsp.: aufräumen unaufgeräumt
21 Affix Removal Stemming gegeben: Set von Regeln (sprachabhängig) zur Entfernung von Affixen evtl. Vorbedingungen evtl. zusätzliche Transformation bei den meisten Stemmern wird jeweils diejenige Regel zuerst ausgewählt, die die meisten Zeichen entfernt
22 N-Gram Stemming N-Gramm = Folge von n Zeichen Bigramm (2), Trigramm (3),... Ermittlung der Anzahl verschiedener N- Gramme in einem Wort bei gegebenem n Berechnung eines Ähnlichkeitswertes zwischen Wörtern, z.b. Koeffizient von Dice
23 N-Gram Stemming Koeffizient von Dice: sei A die Anzahl einzigartiger N-Gramme eines Wortes sei B die Anzahl einzigartiger N-Gramme eines anderen Wortes sei C die Anzahl gemeinsamer einzigartiger N-Gramme der beiden Wörter dann ist Dice's Koeffizient S = 2C A+B
24 Porter-Stemmer-Algorithmus Martin Porter, 1980 bekannter, weit verbreiteter Stemming- Algorithmus hat Varianten für zahlreiche verschiedene Sprachen Affix-Removal-Algorithmus
25 Porter-Stemmer-Algorithmus jedes Wort besteht (nur) aus Buchstaben Zahlen, Satzzeichen und Sonderzeichen werden nicht berücksichtigt Buchstaben werden in Vokale und Konsonanten unterteilt
26 Porter-Stemmer-Algorithmus für die deutsche Sprache gilt: V = {a, e, i, o, u, y, ä, ö, ü} C = \ V ß ss
27 Porter-Stemmer-Algorithmus Definition der Wortregionen R1 und R2: R1 = Teil des Wortes nach dem ersten Konsonanten, welcher einem Vokal folgt (, welcher nicht der erste Buchstabe des Wortes ist) W = (C V) + VCR 1 R2 = Teil von R1 nach dem ersten Konsonanten, welcher einem Vokal folgt R 1 = (C V)*VCR 2
28 Porter-Stemmer-Algorithmus weitere Definitionen: gültiges s-ende E S = {b, d, f, g, h, k, l, m, n, r, t} gültiges st-ende E ST = {b, d, f, g, h, k, l, m, n, t}
29 Porter-Stemmer-Algorithmus Schritt 1: 3 Prüfungen, in dieser Reihenfolge: a) endet R1 auf em, ern oder er? b) endet R1 auf e, en oder es? c) endet R1 auf s, welches auf ein E S folgt? falls eine der Prüfungen wahr aus: Endung entfernen, restliche Prüfungen überspringen anschließend: im Fall b) Endung niss nis
30 Porter-Stemmer-Algorithmus Schritt 2: 2 Prüfungen, in dieser Reihenfolge: a) endet R1 auf en, er oder est? b) endet R1 auf st, welches auf ein E ST folgt? fällt eine der Prüfungen wahr aus: Endung entfernen, restliche Prüfung überspringen
31 Porter-Stemmer-Algorithmus Schritt 3: 4 Prüfungen, in dieser Reihenfolge: a) endet R2 auf end oder ung? b) endet R2 auf ig, ik oder isch, welches nicht auf ein e folgt? c) endet R2 auf lich, oder heit? d) endet R2 auf keit? fällt eine der Prüfungen wahr aus: Endung entfernen, restliche Prüfungen überspringen
32 Porter-Stemmer-Algorithmus a) endet R2 auf end oder ung? b) endet R2 auf ig, ik oder isch, welches nicht auf ein e folgt? c) endet R2 auf lich, oder heit? d) endet R2 auf keit? anschließend: im Fall a) Endung ig aus R2 entfernen, wenn sie nicht auf ein e folgt im Fall c) Endung er oder en aus R1 entf. im Fall d) Endung lich oder ig aus R2 entf.
33 Porter-Stemmer-Algorithmus schließlich: ä a ö o ü u
34 Substitute-and-Strip-Algorithmus Jörg Caumanns Ziel: einfacher und schneller Algorithmus zum Stemming deutscher Texte teilweiser Verzicht auf Korrektheit zugunsten von Simplizität
35 Substitute-and-Strip-Algorithmus 2 Schritte: Substitution bestimmter Zeichen bzw. Zeichenketten Zweck: Behandlung von Umlauten sowie aus mehreren Buchstaben bestehenden Lauten Entfernung von Affixen Zweck: Entf. v. Deklinationsendungen etc.
36 Substitute-and-Strip-Algorithmus Substitution: ä a, ö o, ü u, ß ss Zeichendopplungen: Ersetzung des zweiten Zeichens durch * sch $, ch, ei %, ie &
37 Substitute-and-Strip-Algorithmus Affixentfernung: rekursive Entfernung von e, s, n, t, em, er, nd am Wortende danach: Entfernung von ge am Wortende und -anfang
38 Substitute-and-Strip-Algorithmus Affixentfernung: Vorbedingung für die Entfernung von... (allem): noch mindestens 4 Zeichen im Wort em, er: noch mindestens 5 Zeichen im Wort nd: noch mindestens 6 Zeichen im Wort t: Kleinbuchstabe am Wortbeginn
39 Substitute-and-Strip-Algorithmus Verbesserungsvorschläge: z x (Matrix, Matrizen) eigene Regeln für häufige unregelmäßige Verben
40 Evaluation von Stemmern Kriterien: Verhältnis gefundener relevanter Dokumente zur Gesamtzahl rel. Dokumente (Recall) Verhältnis gefundener relevanter Dokumente zur Gesamtzahl gef. Dokumente (Precision) Geschwindigkeit Komplexität Textkompression
41 Quellen Information Retrieval: Data Structures & Algorithms (William B. Frakes, Ricardo Baeza-Yates) Computerlinguistik und Sprachtechnologie (Kai-Uwe Carstensen, Christian Ebert, Cornelia Ebert, Susanne J. Jekat, Ralf Klabunde, Hagen Langer) A Fast and Simple Stemming Algorithm for German Words (Jörg Caumanns)
Stemmingverfahren. Éva Mújdricza Ganna Syrota. Ruprecht-Karls-Universität Heidelberg WS07/08
Ruprecht-Karls-Universität Heidelberg WS07/08 Stemmingverfahren Éva Mújdricza Ganna Syrota Information Retrieval, HS, WS07/08 Dozentin: PD Dr. Karin Haenelt 04.02.2008 Übersicht I: Stemmingverfahren Grundlagen
MehrSeminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK
Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 08.05.2014 Gliederung 1 Vorverarbeitung
MehrSeminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK
Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 16.05.2013 Gliederung 1 Vorverarbeitung
MehrKapitel IR:IV. IV. Indexkonstruktion. Stammformreduktion n-gramme Termanreicherung Wortklassenbestimmung
Kapitel IR:IV IV. Indexkonstruktion Stammformreduktion n-gramme Termanreicherung Wortklassenbestimmung IR:IV-1 Index Construction STEIN 2005-2010 Bemerkungen: Die im folgenden vorgstellten Techniken und
MehrSeminar Ib Wort, Name, Begriff, Terminus Sommersemester Morphologie. Walther v.hahn. v.hahn Universität Hamburg
Seminar Ib Wort, Name, Begriff, Terminus Sommersemester 2006 Morphologie Walther v.hahn v.hahn Universität Hamburg 2005 1 Morphologie: Definition Definitionen: Morphologie ist die Lehre von den Klassen
MehrUÜ bersicht Lektionen Lesen und Schreiben ABC
UÜ bersicht Lektionen Lesen und Schreiben ABC Lektion AA1.1 Titel: Guten Morgen, Lena. Wie geht es dir? Handlungsfeld/Thema: Soziale Kontakte / Begrüßung und Verabschiedung a, d, e, g, i, m, n, s, ß, t,
MehrStenografie. Inhaltsverzeichnis aller Lernhefte Lernheft 1: Lernheft 5: Lernheft 6: Lernheft 2: Lernheft 3: Lernheft 7: Lernheft 4: Lernheft 8:
Stenografie Inhaltsverzeichnis aller Lernhefte Lernheft 1: Grundsätzliches zu Arbeitsmaterialien und Übungstechniken 1. 1 Einleitung 1. 2 Grundsätzliches zu Arbeitsmaterialien und Übungstechniken 1. 3
MehrPart-of-Speech- Tagging
Part-of-Speech- Tagging In: Einführung in die Computerlinguistik Institut für Computerlinguistik Heinrich-Heine-Universität Düsseldorf WS 2004/05 Dozentin: Wiebke Petersen Tagging Was ist das? Tag (engl.):
MehrVorlesung Information Retrieval Wintersemester 04/05
Vorlesung Information Retrieval Wintersemester 04/05 16. November 2004 Institut für Informatik III Universität Bonn Tel. 02 28 / 73-45 31 Fax 02 28 / 73-43 82 jw@informatik.uni-bonn.de 1 Themenübersicht
MehrSCHREIBHEFT: DRUCKSCHRIFT
SCHREIBHEFT: DRUCKSCHRIFT Auf den folgenden Seiten finden Sie das Alphabet in der Druckschrift. Dieses Heft ist als Übungsheft für Erstklässler gedacht, aber auch für ältere Schüler, die, aus welchem Grund
MehrFiltern von Stoppwörtern mit endlichen Automaten
Filtern von Stoppwörtern mit endlichen Automaten Im Rahmen des Hauptseminars: Endliche Automaten für die Sprachverarbeitung -SS 2005- PD Dr. Karin Haenelt Ruprecht-Karls-Universität Heidelberg Seminar
MehrNach einem Fragezeichen schreibe ich groß Ja
Regel Nr. 0 Konzentration Höre, lies und schreibe genau. Lasse keine Buchstaben oder Wörter aus. Schreibe aber auch keine Buchstaben zu viel. Schreibe das Wort noch einmal auf. Regel Nr. 1 Nomen (Namenwörter)
MehrDie Betonung der Wörter
Die Betonung der Wörter I. Anmerkungen zur Notation Der Vokal der betonten Silbe wird markiert. EH]HLFKQHWHLQHQkurzen Vokal, einen langen Vokal. Bei Diphtongen (au, äu, eu, ei) spielt die Unterscheidung
MehrAlgorithmus zur komprimierten Übertragung von Textdaten an mobile Endgeräte
Fachhochschule Wedel Seminararbeit Algorithmus zur komprimierten Übertragung von Textdaten an mobile Endgeräte Sven Reinck 7. Januar 2007 Inhaltsverzeichnis Inhaltsverzeichnis Motivation 2 Wörterbuch 2.
MehrBox. Rechtschreibung 3/4 Üben und Fördern. Begleitheft mit CD. Lernstandskontrollen mit Lösungen auf CD. Karten-Übersichten mit Lernschwerpunkten
Box Begleitheft mit CD Rechtschreibung 3/4 Üben und Fördern Lernstandskontrollen mit Lösungen auf CD Karten-Übersichten mit Lernschwerpunkten Lernbegleiter Beobachtungsbogen Inhalt des Begleitheftes zur
MehrSuchmaschinen verstehen Einsatz einer didaktischen Suchmaschine im Unterricht
Suchmaschinen verstehen Einsatz einer didaktischen Suchmaschine im Unterricht Informationen im Internet zu finden ist ein Kinderspiel! Wer sich für die Entwicklung des Ozonlochs interessiert, gibt auf
MehrInhaltsverzeichnis. Wörter mit z oder tz richtig schreiben Wörter mit k oder ck richtig schreiben Übungen Überprüfe dich selbst
Inhaltsverzeichnis 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 Buchstaben unterscheiden, nach Gruppen gliedern Wörter
MehrEarley Parsing. Parsing - WS 2012 / 2013 Lisa Orszullok & Anika Stallmann
Earley Parsing Parsing - WS 2012 / 2013 Lisa Orszullok & Anika Stallmann 12.12.2012 Agenda Basics Komponenten Earley Parsing - Recognizer Earley Parsing - Parser Vor- und Nachteile Parsing WS 2012/2013
MehrMorphemunterstütztes Grundwortschatz- Segmentierungstraining (MORPHEUS)
Morphemunterstütztes Grundwortschatz- Segmentierungstraining (MORPHEUS) von R. Kargl & C. Purgstaller MORPHEUS Rechtschreibtraining 4. bis 8. Klassenstufe Einsatz im Förder- und Regelunterricht, Förderung
Mehr8. Statistik Beispiel Noten. Informationsbestände analysieren Statistik
Informationsbestände analysieren Statistik 8. Statistik Nebst der Darstellung von Datenreihen bildet die Statistik eine weitere Domäne für die Auswertung von Datenbestände. Sie ist ein Fachgebiet der Mathematik
MehrThemen des Rechtschreibunterrichts geordnet nach Jahrgängen (SchiLf Ludgerusschule ) 1. Wichtige Fähigkeiten und Kenntnisse im Rechtschreiben
FACHBEREICH: DEUTSCH RECHTSCHREIBUNTERRICHT BESCHLUSS WEITERE HINWEISE: Kollegium der Ludgerusschule 24.02.2015 KONZEPTE UND VEREINBARUNGEN Themen des Rechtschreibunterrichts geordnet nach Jahrgängen (SchiLf
MehrInhalt. Rechtschreibung. Test und Förderplan
Inhalt Rechtschreibung Test und Förderplan Groß- und Kleinschreibung Material 1 Satzanfänge großschreiben Material 2 Eigennamen großschreiben Material 3 Nomen großschreiben: Artikelprobe Material 4 Nomen
MehrTokenisierung und Lemmatisierung in Suchmaschinen
Tokenisierung und Lemmatisierung in Suchmaschinen Hauptseminar Suchmaschinen Computerlinguistik Sommersemester 2010 Stefan Langer stefan.langer@cis.uni-muenchen.de Übung: Tokenisierung (5 min) Was ist
MehrVolltextsuche und Text Mining
1 Volltextsuche und Text Mining Datum: 22.12.2009 Seminar: Einführung in die Computerlinguistik Referenten: Cornelia Baldauf, Valentin Heinz, Adriana Kosior 2 Agenda 1. Einführung a) Volltextsuche b) Text
MehrTextdokument-Suche auf dem Rechner Implementierungsprojekt
Textdokument-Suche auf dem Rechner Implementierungsprojekt Referent: Oliver Petra Seminar: Information Retrieval Institut für Computerlinguistik Ruprecht-Karls-Universität Heidelberg 19.01.2015 Überblick
MehrSUCHMASCHINEN XAPIAN. Michael Strzempek FH Wiesbaden, 5. Juni 2008
SUCHMASCHINEN XAPIAN Michael Strzempek FH Wiesbaden, 5. Juni 2008 INHALT 1. Motivation 2. Prinzip / Vokabular 3. Xapian 4. Omega 5. Datenbank Indizierung 6. Levenshtein Distanz 7. Boolesche Suche 8. Probabilistische
MehrWMS Block: Management von Wissen in Dokumentenform PART: Text Mining. Myra Spiliopoulou
WMS Block: Management von Wissen in nform PART: Text Mining Myra Spiliopoulou WIE ERFASSEN UND VERWALTEN WIR EXPLIZITES WISSEN? 1. Wie strukturieren wir Wissen in nform? 2. Wie verwalten wir nsammlungen?
MehrLerninhalte ALFONS Lernwelt Deutsch 4. Klasse Seite 1
Lerninhalte ALFONS Lernwelt Deutsch 4. Klasse Seite 1 1. Übungen zum Wortschatz 1. Abschreiben: Wörter mit ck und tz 2. Aufschreiben aus dem Gedächtnis: Wörter mit ck und tz 3. Abschreiben: Wörter mit
MehrLerninhalte ALFONS Lernwelt Deutsch 5. Klasse
Lerninhalte ALFONS Lernwelt Deutsch 5. Klasse 1. Lesen und Raten 1. Rückwärts lesen, vorwärts schreiben 2. Rückwärts hören, vorwärts schreiben 3. Fremdwortgalgen 4. Höre auf den Satz 5. Schau auf den Satz
MehrAutomatische Morphemanalyse
Automatische Morphemanalyse Johannes Stiehler Wozu? noch immer viele europäische Sprachen ohne befriedigende Morphologie ermöglicht es, verschiedene Sprachstadien morphologisch zu vergleichen ohne Wochen
MehrFriedrich-Alexander-Universität Professur für Computerlinguistik. Nguyen Ai Huong
Part-of-Speech Tagging Friedrich-Alexander-Universität Professur für Computerlinguistik Nguyen Ai Huong 15.12.2011 Part-of-speech tagging Bestimmung von Wortform (part of speech) für jedes Wort in einem
MehrWORTBILDUNG - MORPHOLOGIE
WORTBILDUNG - MORPHOLOGIE Bs: Eindringlichkeit Eindringlichkeit Eindringlich keit + Eindringlich / keit Traurig / keit Haltbar / keit Regsam / keit SUBSTANTIVE Übel / keit SUBSTANTIV bei Abtrennung von
Mehr1 Definition. 2 Besondere Typen. 2.1 Vektoren und transponieren A = 2.2 Quadratische Matrix. 2.3 Diagonalmatrix. 2.
Definition Die rechteckige Anordnung von m n Elementen a ij in m Zeilen und n Spalten heißt m n- Matrix. Gewöhnlich handelt es sich bei den Elementen a ij der Matrix um reelle Zahlen. Man nennt das Paar
MehrBox. Rechtschreibung 2 Üben und Fördern. Begleitheft mit CD. Lernstandskontrollen mit Lösungen auf CD. Karten-Übersichten mit Lernschwerpunkten
Box Begleitheft mit CD Rechtschreibung 2 Üben und Förn Lernstandskontrollen mit Lösungen auf CD Karten-Übersichten mit Lernschwerpunkten Lernbegleiter Beobachtungsbogen Inhalt des Begleitheftes zur Rechtschreibung
MehrUnterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus: Wochenplan Deutsch 6. Das komplette Material finden Sie hier: School-Scout.
Unterrichtsmaterialien in digitaler und in gedruckter Form Auszug aus: Wochenplan Deutsch 6 Das komplette Material finden Sie hier: School-Scout.de 6. Schuljahr Christiane Vatter-Wittl & Autorenteam Kohl-Verlag
MehrWas ist die Ortsergänzung? Wie fragt man nach der Ortsergänzung? Was ist das Subjekt? Wie fragt man nach dem Subjekt?
Was ist das Subjekt? Wie fragt man nach dem Subjekt? Was ist die Ortsergänzung? Wie fragt man nach der Ortsergänzung? Was ist das Dativobjekt? Wie fragt man nach dem Dativobjekt? Was ist die Zeitergänzung?
MehrLeseprobe. Wolfgang Ertel. Angewandte Kryptographie. ISBN (Buch): 978-3-446-42756-3. ISBN (E-Book): 978-3-446-43196-6
Leseprobe Wolfgang Ertel Angewandte Kryptographie ISBN (Buch): 978-3-446-42756-3 ISBN (E-Book): 978-3-446-43196-6 Weitere Informationen oder Bestellungen unter http://www.hanser-fachbuch.de/978-3-446-42756-3
MehrSCHLAUDINO. Schwerpunkt: Vokale, Silben
Unsere Sprache besteht aus einzelnen Bausteinen, nennen wir Silben. Jede Silbe besteht aus einer unterschiedlichen Menge von Buchstaben; aus klingenden Lauten, den Selbstlauten: a, e, i, o, u, au, eu,
MehrAlgorithmen mit konstantem Platzbedarf: Die Klasse REG
Algorithmen mit konstantem Platzbedarf: Die Klasse REG Sommerakademie Rot an der Rot AG 1 Wieviel Platz brauchen Algorithmen wirklich? Daniel Alm Institut für Numerische Simulation Universität Bonn August
MehrDatenkompression. 1 Allgemeines. 2 Verlustlose Kompression. Holger Rauhut
Datenkompression Holger Rauhut 1. September 2010 Skript für die Schülerwoche 2010, 8.-11.9.2010 Hausdorff Center for Mathematics, Bonn 1 Allgemeines Datenkompression hat zum Ziel, Daten in digitaler Form,
MehrI am learning English and German
Ich lerne Englisch und Niederländisch Ik leer Engels en Duits I am learning English and German Thema der Unterrichtsstunde: Begrüßung und Vorstellung Übung 1: -Anfertigen von Namensschildern mit deutschen,
MehrRechtschreibregeln und -übungen in Klasse 5
Während der Einheit: Nimm dein Regelheft und notiere dir alle Regeln (Tipps und Strategien) hebe wichtige Stellen farblich hervor. Zeige das Regelheft am Ende vor. Erinnerung: Richtig schreiben: Vokale
MehrProgrammierkurs Python II
Programmierkurs Python II Michaela Regneri & tefan Thater FR 4.7 Allgemeine Linguistik (Computerlinguistik) Universität des aarlandes ommersemester 2010 (Charniak, 1997) the dog biscuits N V N V the dog
MehrReguläre Ausdrücke. Felix Döring, Felix Wittwer 14. November Python-Kurs
Reguläre Ausdrücke Felix Döring, Felix Wittwer 14. November 2016 Python-Kurs Gliederung 1. Grundlagen 2. Matching Regeln Sonderzeichen Zusammengesetzte Regex Spezielle Sequenzen 3. Methoden 4. reqular
MehrLerninhalte ALFONS Lernwelt Deutsch 5. Klasse
Seite 1 Turmzimmer 1: Lesen und Raten 1. Rückwärts lesen, vorwärts schreiben 7. Ohrentraining 2. Rückwärts hören, vorwärts schreiben 8. Europäerinnen und Europäer 3. Fremdwortgalgen 9. Europäische Leckereien
MehrSuchmaschinen. Anwendung RN Semester 7. Christian Koczur
Suchmaschinen Anwendung RN Semester 7 Christian Koczur Inhaltsverzeichnis 1. Historischer Hintergrund 2. Information Retrieval 3. Architektur einer Suchmaschine 4. Ranking von Webseiten 5. Quellenangabe
MehrPraktikum Maschinelle Übersetzung Language Model
Praktikum Maschinelle Übersetzung Language Model Um die Aufgaben auszuführen, können Sie ihre Daten in folgendem Verzeichnis speichern: /project/smtstud/ss10/systems/username/ Wir werden verschiedene Sprachmodelle
MehrVorlesung Information Retrieval Wintersemester 04/05
Vorlesung Information Retrieval Wintersemester 04/05 14. Oktober 2004 Institut für Informatik III Universität Bonn Tel. 02 28 / 73-45 31 Fax 02 28 / 73-43 82 jw@informatik.uni-bonn.de 1 Themenübersicht
MehrBayes sche Klassifikatoren. Uwe Reichel IPS, LMU München 16. Juli 2008
Bayes sche Klassifikatoren Uwe Reichel IPS, LMU München reichelu@phonetik.uni-muenchen.de 16. Juli 2008 Inhalt Einleitung Grundlagen der Wahrscheinlichkeitsrechnung Noisy-Channel-Modell Bayes sche Klassifikation
MehrTipps zum Formatieren einer vorwissenschaftlichen Arbeit in Microsoft Word Leo Brauner
Tipps zum Formatieren einer vorwissenschaftlichen Arbeit in Microsoft Word 2010 Leo Brauner Inhaltsverzeichnis 1. Formatvorlagen... 3 1.1 Wozu Formatvorlagen?... 3 1.2 Wo finde ich Formatvorlagen?... 3
MehrWortfamilie zahl- Wortfamilie wahl- Wortfamilie fahr-
Wozu sind eigentlich Wortfamilien hilfreich? Bestimmt bist du auch manchmal unsicher, wie ein Wort richtig geschrieben wird. Wenn du nun zum Beispiel nicht mehr genau weißt, ob man Spielzeug mit ie oder
MehrSeminar Textmining SS 2015 Grundlagen des Maschinellen Lernens
Seminar Textmining SS 2015 Grundlagen des Maschinellen Lernens Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 17.04.2015 Entscheidungsprobleme beim Textmining
MehrSchriftsysteme. Schriftsysteme. Seminar: Suchmaschinen Dozent: Stefan Langer CIS, Universität München Wintersemester 2010
Seminar: Suchmaschinen Dozent: Stefan Langer CIS, Universität München Wintersemester 2010 Übung (5 min) Welche kennen Sie? Finden Sie jeweils ein Beispiel für jeden der unten angegebenen Typen Alphabete
MehrMap Reduce on Hadoop Seminar SS09. Similarity Join. Tim Felgentreff, Andrina Mascher
Map Reduce on Hadoop Seminar SS09 Similarity Join Tim Felgentreff, Andrina Mascher Gliederung 2!! Aufgabe!! Demo!! Algorithmus!! Performance!! Veränderte Aufgabenstellung:!! Vergleich mit 1 Seite!! Ausblick!!
Mehrp Texte der Hörszenen: S.138
11 RadioD. berblick Information Compu recherchiert die Bedeutung des Namens Eulalia. Der spanische Kollege aus der Radioredaktion kennt eine Santa Eulalia, eine Heilige und Märtyrerin. Hörstrategie Die
MehrLerninhalte ALFONS Lernwelt Deutsch 1. Klasse Seite 1
Lerninhalte ALFONS Lernwelt Deutsch 1. Klasse Seite 1 1. Wie klingen die Buchstaben? 1 1. Finde das a! 2. Finde das b! 3. Finde das c! 4. Finde das d! 5. Finde das e! 6. Finde das f! 7. Finde das g! 8.
MehrGliederung. Algorithmen und Datenstrukturen II. Problem: Längste gemeinsame Teilsequenz. Problem: Längste gemeinsame Teilsequenz
Gliederung Algorithmen und Datenstrukturen II Algorithmen zur Textverarbeitung II D. Rösner Institut für Wissens- und Sprachverarbeitung Fakultät für Informatik Otto-von-Guericke Universität Magdeburg
MehrHirschkampschule. Leistungsbewertung Deutsch. mind. in 2 LZK mind. in 2 LZK mind. in 2 LZK. mind. in 2 LZK mind. in 2 LZK. mind.
Jahrgangsstufe 1 Phonologische Bewusstheit Reimwörter erkennen / Silbensegmentierung / Auditive Analysen/ Auditive Analysen/ Lautlokalisation / Reimpaare verbinden Silben klatschen, Silbenbögen malen Anlaute,
MehrLektion 9: Konjugation von Verben im Präsens (conjugation of verbs in present tense)
Lektion 9: Konjugation von Verben im Präsens (conjugation of verbs in present tense) Verben werden durch das Anhängen bestimmter Endungen konjugiert. Entscheidend sind hierbei die Person und der Numerus
MehrDie Trunkierung bzw. Maskierung ist ein sehr effektives Werkzeug, mit dessen Hilfe Sie die Anzahl der Treffer erheblich erweitern können.
Die Trunkierung bzw. Maskierung ist ein sehr effektives Werkzeug, mit dessen Hilfe Sie die Anzahl der Treffer erheblich erweitern können. Klassischerweise wird die Trunkierung eingesetzt, um verschiedene,
MehrBachelorarbeit im Fach Computerlinguistik Centrum für Informations- und Sprachverarbeitung LMU München Betreuerin: Dr.
München, 05.05.2014 Arnold Schlegel Bachelorarbeit im Fach Computerlinguistik Centrum für Informations- und Sprachverarbeitung LMU München Betreuerin: Dr. Desislava Zhekova 1 Inhaltsüberblick Hintergrund
MehrNomen/Substantive mit nachgestellten Wortbausteinen
Nomen/Substantive mit nachgestellten Wortbausteinen Aus Verben und Adjektiven kannst du Nomen/Substantive bilden, wenn du Wortbausteine anhängst. Ich nehme ein Verb: heizen - Heizung. Ich nehme Adjektive:
MehrDas RSA-Verfahren. Armin Litzel. Proseminar Kryptographische Protokolle SS 2009
Das RSA-Verfahren Armin Litzel Proseminar Kryptographische Protokolle SS 2009 1 Einleitung RSA steht für die drei Namen Ronald L. Rivest, Adi Shamir und Leonard Adleman und bezeichnet ein von diesen Personen
Mehr1. Groß- und Kleinschreibung 1.1 Satzanfänge Am Satzanfang schreibt man groß, auch in der wörtlichen Rede.
Regelsammlung zur Rechtschreibung 1. Groß- und Kleinschreibung 1.1 Satzanfänge Am Satzanfang schreibt man groß, auch in der wörtlichen Rede. 1.2 Nomenendungen Alle Nomen werden großgeschrieben. Typische
MehrDualzahlen
Dualzahlen Ein Schüler soll sich eine Zahl zwischen und 6 denken. Nun soll der Schüler seinen Zahl in folgenden Tabellen suchen und die Nummer der Tabelle nennen in welcher sich seine Zahl befindet. 7
MehrInhaltsverzeichnis. Jeder ist anders. Ein Kopf aus Stein. Zusammen leben. Hier wohnen wir
Inhaltsverzeichnis Jeder ist anders 8 15 Ich stelle mich vor: der Steckbrief Ich stelle mich vor: mein Schattenkopf Der Personalausweis Eine Geschichte über Namen Jetzt heiße ich Simon (Cordula Tollmien)
MehrUnterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus: Grammatik. Das komplette Material finden Sie hier: School-Scout.
Unterrichtsmaterialien in digitaler und in gedruckter Form Auszug aus: Grammatik Das komplette Material finden Sie hier: School-Scout.de kurz & bündig Band 6 Hartwig Lödige Grammatik INHALT Inhalt Zur
Mehr1 Das Lernen der norwegischen Sprache Begrifflichkeit... 11
Inhalt Seite Vorwort 3 Einleitung 10. 1 Das Lernen der norwegischen Sprache... 10 2 Begrifflichkeit... 11 1 Wortarten... 11 2 Veränderbarkeit von Wörtern.... 12 Substantive 13. 3 Grundsätzliches... 13
MehrWortbildung und Wortbildungswandel
Germanistik Kira Wieler Wortbildung und Wortbildungswandel Studienarbeit Inhaltsverzeichnis 1 Einleitung... 2 2 Wortbildung... 2 2.1 Morphologische Grundbegriffe... 2 2.2 Arten der Wortbildung... 3 2.3
MehrFehlerklassen von Porters Deutsch-Stemmer und Lösungsvorschläge für die Behandlung von Komposita
Fehlerklassen von Porters Deutsch-Stemmer und Lösungsvorschläge für die Behandlung von Komposita Esther Neumann & Martin Natano Universität Wien, Institut für Germanistik, Universitätsring 1, A-1010 Wien
MehrWortbildung S
Fördermaterialien zum Rechtschreibtest 6 Hier finden Sie Übungsempfehlungen zu Materialien aus dem Lehrwerksverbund: zum Schülerbuch, zu den Handreichungen für den Unterricht, zum Arbeitsheft mit und ohne
MehrEmpfehlenswerte Referenzen
Wenn Google etwas nicht finden kann, fragen sie Jack Bauer. ("Fakten über Jack Bauer") Inhalt Empfehlenswerte Referenzen...1 0 Wozu reguläre Ausdrücke?...1 1 Die Elemente regulärer Ausdrücke...2 2 Ein
MehrGrundlagen der Informatik I Informationsdarstellung
Grundlagen der Informatik I Informationsdarstellung Einführung in die Informatik, Gumm, H.-P./Sommer, M. Themen der heutigen Veranstaltung. ASCIi Code 2. Zeichenketten 3. Logische Operationen 4. Zahlendarstellung
Mehrtf/idf computation Florian Thomas, Christian Reß Map/Reduce Algorithms on Hadoop 6. Juli 2009
tf/idf computation Florian Thomas, Christian Reß Map/Reduce Algorithms on Hadoop 6. Juli 2009 1 tf/idf computation Was ist tf/idf? Verschiedene Implementierungen Map/Reduce-Aufbau Implementierungsbesonderheiten
MehrMusterseiten. Inhalt 16/17 18/19 20/21 22/23
Inhalt 1 Übung seite Einführung Kapitel 1 Lauttreues Schreiben 1 Lautieren und Laute zu Wörtern zusammensetzen 1 2 Lautieren und Laute zu Wörtern zusammensetzen 2 3 Selbstlaute hören und schreiben 1 4
MehrWieviel Computerlinguistik braucht der Word-Anwender?
Wieviel Computerlinguistik braucht der Word-Anwender? Tobias Thelen Institut für Semantische Informationsverarbeitung Universität Osnabrück E-Mail: tthelen@uos.de www.schrifterwerb.de Tobias Thelen tthelen@uos.de
MehrDie Wahl der Suchbegriffe
Die Wahl der Suchbegriffe Der erste wichtige Schritt für eine effektive Literaturrecherche ist die Wahl der Suchbegriffe. Auf der Suche nach Literatur kommt es häufig vor, dass man keine oder nur sehr
MehrA1 WLAN Box Thomson Gateway 585 für Mac OS X 10.6 & 10.7
Installationsanleitung Einfach A1. A1 WLAN Box Thomson Gateway 585 für Mac OS X 10.6 & 10.7 Einfach schneller zum Ziel. Zu Ihrer A1 WLAN Box haben Sie eine A1 Installations-CD erhalten, mit der Sie alle
MehrGrundlagen Anwendungen Quellen. Steganographie. Ingo Blechschmidt, Michael Hartmann LUGA. 4. Oktober 2006
Grundlagen Anwendungen Quellen Ingo Blechschmidt, Michael Hartmann LUGA 4. Oktober 2006 Grundlagen Anwendungen Quellen Inhalt 1 Grundlagen Definition der Beispiele für Historische Anwendungen der Abgrenzung
MehrHaskell, Typen, und Typberechnung. Grundlagen der Programmierung 3 A. Einige andere Programmiersprachen. Typisierung in Haskell
Haskell, Typen, und Typberechnung Grundlagen der Programmierung 3 A Typen, Typberechnung und Typcheck Prof. Dr. Manfred Schmidt-Schauß Ziele: Haskells Typisierung Typisierungs-Regeln Typ-Berechnung Milners
MehrNachsilben bei Adjektiven und Nomen
Nachsilben bei Adjektiven und Nomen Die verschiedenen Wortarten des Deutschen besitzen häufig für sie typische Nachsilben. Die Nachsilben können dir also helfen, die Wortart zu erkennen. Durch Austauschen
Mehr8 Wir über uns. 8 Wir lernen uns kennen 10 In unserer neuen Schule 12 In unserer neuen Klasse. 14 Streiten, und dann?
sverzeichnis Inhalt Kontaktspiele Fragen entwickeln, Interview Gemeinschaftsaufgaben, Gesprächsregeln 8 Wir über uns 8 Wir lernen uns kennen 10 In unserer neuen Schule 12 In unserer neuen Klasse Rollenspiele
MehrLineare Gleichungssysteme mit zwei Variablen
Lineare Gleichungssysteme mit zwei Variablen Anna Heynkes 4.11.2005, Aachen Enthält eine Gleichung mehr als eine Variable, dann gibt es unendlich viele mögliche Lösungen und jede Lösung besteht aus so
MehrText Mining Gliederung. Text Mining. OS Datamining SS 10. Thomas Boy. 25. Mai 2010 1 / 37
Gliederung Text Mining OS Datamining SS 10 Thomas Boy 25. Mai 2010 1 / 37 Gliederung 1 Gliederung 2 Einleitung Motivation Konkretisierung 3 Allgemeines Definiton Text Mining Ablaufschema 4 Anwendungen
MehrDigitale Bibliotheken. Informationssuche, Zugriff und Verbreitung
Digitale Bibliotheken Informationssuche, Zugriff und Verbreitung Gliederung Einführung Informationssuche Problemstellung Boolesche Suche Vektorraumsuche Stemming Multilinguale Suche Fuzzy Suche Semantische
MehrComputernetzwerke. Von den Grundlagen zur Funktion und Anwendung. von Rüdiger Schreiner. 2., überarbeitete Auflage. Hanser München 2007
Computernetzwerke Von den Grundlagen zur Funktion und Anwendung von Rüdiger Schreiner 2, überarbeitete Auflage Hanser München 2007 Verlag CH Beck im Internet: wwwbeckde ISBN 978 3 446 41030 5 Zu Inhaltsverzeichnis
MehrEinführung in PERL 2 Reguläre Ausdrücke
Einführung in PERL 2 Reguläre Ausdrücke BASIEREND AUF FOLIEN VON DR. H. ZINSMEISTER und dem Buch `Einführung in Perl (Lama Buch) von RL Schwartz&T Phoenix sowie hwp://de.sel[tml.org/perl/sprache/regexpr.htm
MehrÜben mit Lexi Deutsch 1/2
Üben mit Lexi Deutsch 1/2 Sprache entdecken Erarbeitet von Hans Peters und Iris Will DUDEN PAETEC Schulbuchverlag Berlin, Frankfurt a. M. Genau hören Wörter auf einzelne Laute abhören Länge der Selbstlaute
MehrAbgabe: (vor der Vorlesung) Aufgabe 2.1 (P) O-Notation Beweisen Sie die folgenden Aussagen für positive Funktionen f und g:
TECHNISCHE UNIVERSITÄT MÜNCHEN FAKULTÄT FÜR INFORMATIK Lehrstuhl für Sprachen und Beschreibungsstrukturen SS 2009 Grundlagen: Algorithmen und Datenstrukturen Übungsblatt 2 Prof. Dr. Helmut Seidl, S. Pott,
MehrRouting Algorithmen. Begriffe, Definitionen
Begriffe, Definitionen Routing (aus der Informatik) Wegewahl oder Verkehrslenkung bezeichnet in der Telekommunikation das Festlegen von Wegen für Nachrichtenströme bei der Nachrichtenübermittlung über
MehrBeim Wortklang auf die Endung d achten, eventuell mit Hunde erklären, da ist es deutlicher. Wort abbauen Hund Hun Hu H Wort aufbauen H Hu Hun Hund
Hund Beim Wortklang auf die Endung d achten, eventuell mit Hunde erklären, da ist es deutlicher. Wort abbauen Hund Hun Hu H Wort aufbauen H Hu Hun Hund Das Wort Hund ist ein Namenwort (Nomen) Namenwörter
MehrKorpuslinguistik Grundlagen Korpusrecherchemethoden
Methoden der Korpusanalyse Erstellung von Konkordanzen Erzeugung von Wortlisten mit Frequenzangaben Ermittlung von hochfrequenten Wortgruppen (Clusteranalyse) Berechnung von Kookkurrenzen Ermittlung von
MehrÜbungskomplex Felder (1) Eindimensionale Felder Mehrdimensionale Felder
Übungskomplex Felder (1) Eindimensionale Felder Mehrdimensionale Felder Hinweise zur Übung Benötigter Vorlesungsstoff Ab diesem Übungskomplex wird die Kenntnis und praktische Beherrschung der Konzepte
MehrRegistrieren im Forum
Einloggen ins Forum Registrieren im Forum Um in den Foren mitschreiben zu können müssen Sie sich registrieren: klicken Sie auf Registrieren. Danach geben Sie Ihre Daten ein: file:///d /curs-online/stahlmann1mb/faq/forumein.htm
MehrZur systematischen Zerlegung der Funktionen in die Teilfunktionen wird die Dekomposition gleichzeitig in 2 Richtungen umgesetzt:
Ziel Prinzip Identifikation der Teil- und Unterfunktionen eines Produktes mittels systematischer Zerlegung in realisierbare Einheiten von Funktionsblöcken. Die Zerlegung erfolgt auf der Basis physikalischer,
Mehr4. Vektorräume und Gleichungssysteme
technische universität dortmund Dortmund, im Dezember 2011 Fakultät für Mathematik Prof Dr H M Möller Lineare Algebra für Lehramt Gymnasien und Berufskolleg Zusammenfassung der Abschnitte 41 und 42 4 Vektorräume
MehrInhalte und Formen der Leistungsfeststellung (1)
Name: Datum: Infoblatt Inhalte und Formen der Leistungsfeststellung (1) 1. Rechtschreibstrategien Ein Wort in einzelne Silben zerlegen Bei Nomen den Plural des Wortes bilden Bei Adjektiven die Steigerungsform
MehrKurzbeschreibung der einzelnen Zarb-Funktionen
Kurzbeschreibung der Zarb-Funktionen Kurzbeschreibung der einzelnen Zarb-Funktionen Buchstaben Buchstabengruppen Wortanfang Wortende Wortaufbau Cloze-Text Lücken Lückentext mit Lösungen Lücken Satzzeichen
Mehr16. All Pairs Shortest Path (ASPS)
. All Pairs Shortest Path (ASPS) All Pairs Shortest Path (APSP): Eingabe: Gewichteter Graph G=(V,E) Ausgabe: Für jedes Paar von Knoten u,v V die Distanz von u nach v sowie einen kürzesten Weg a b c d e
MehrKonjunktivformen I + II
www.klausschenck.de / Deutsch / Grammatik / Konjunktivformen / S. 1 von 5 Konjunktivformen I + II 1. an den Infinitivstamm werden die folgenden Konjunktiv- Endungen gehängt Singular Plural 1. Person -
Mehr