2. Textvorverarbeitung. nicht alle Wörter in einem Dokument sind gleich wichtig, um die Semantik eines Dokuments
|
|
- Clara Kurzmann
- vor 6 Jahren
- Abrufe
Transkript
1 Textvorverarbeitung 2. Textvorverarbeitung nicht alle Wörter in einem Dokument sind gleich wichtig, um die Semantik eines Dokuments auszudrücken deswegen lohnt es sich oft, eine Vorverarbeitung durchzuführen bevor man die Indexterme bestimmt Thema wird hier nur angerissen, d.h. Problemfälle werden erläutert (sieht oft leichter aus, als es in Wirklichkeit ist) Einführung in Information Retrieval 22
2 Vor-/Nachteile Vorverarbeitung hat Vor- und Nachteile Vorteile allgemein bessere Retrieval Performance kleineres Datenaufkommen beim Indexieren Nachteile es gibt problematische Spezialfälle führt manchmal zu undurchsichtigem Verhalten aus der Sicht des Benutzers Einführung in Information Retrieval 23
3 Was kann man alles tun? Lexikalische Analyse mit dem Ziel Ziffern, Bindestriche, Satzzeichen und Groß-/Kleinschreibung zu behandeln Eliminierung von sogenannten Stoppwörtern (stop words), also Wörtern, die sehr häufig vorkommen und praktisch keine Aussagekraft haben (z.b.: der, die, das, ein, usw.) Stammwortreduktion (stemming) hat das Ziel, syntaktische Variationen eines Wortes auf eine gemeinsame Form zu bringen (z.b.: binden, verbinden, Verbindung, verbindend, usw.) (automatische) Auswahl von Indextermen Einführung in Information Retrieval 24
4 Lexikalische Analyse 2.1. Lexikalische Analyse Aufgabe der Lex. Analyse ist Konvertierung eines Eingabestroms von Zeichen in einen Strom aus Wörtern, d.h. das Erkennen von Wörtern in einem Text auf den ersten Blick sieht es so aus, als ob es ausreicht, lediglich Leerzeichen zu beachten Einführung in Information Retrieval 25
5 Behandlung von Ziffern ohne Kontext sind Ziffern relativ wertlos Beispiel: ich möchte Statistiken zu Autounfällen zwischen 1980 und 1989 als Antwort bekommt man eventuell nur Statistiken für die Jahre 1980 und 1989 oder Unfalljahre mit 1980 bzw Unfallopfern oder Jahre mit 1980 bzw Unfällen Einführung in Information Retrieval 26
6 Ziffern normalerweise verzichtet man auf Ziffern als Indexterme obwohl es viele Ziffern gibt, die durchaus als Suchterm geeignet sind (z.b. Personalnummern, Kreditkartennummern, Postleitzahlen, usw.) Probleme gibt es auch bei gemischten Ausdrücken (z.b. 150v.Chr., Vitamin B6 und B12) Einführung in Information Retrieval 27
7 Bindestriche normalerweise werden Wörter mit Bindestrichen in Einzelwörter aufgebrochen (da solche Wörter oft inkonsistent geschrieben werden, d.h. mal mit und mal ohne Bindestrich) bei manchen Wörtern sind Bindestriche aber integraler Bestandteil des Worts (z.b. Kann- Vorschrift, Karl-Heinz) Einführung in Information Retrieval 28
8 Satzzeichen auch hier gilt wieder: normalerweise werden alle Satzzeichen entfernt, auch bei Satzzeichen in Wörtern (z.b. bei 150v.Chr.) problematisch in Spezialfällen (z.b. bei Programmcode, man möchte Variablen p.id und pid unterscheiden können) Einführung in Information Retrieval 29
9 Groß-/Kleinschreibung Text wird normalerweise komplett in die eine oder andere Form konvertiert eventuell problematisch im Englischen, da Eigennamen nicht mehr so gut ausfindig gemacht werden können Einführung in Information Retrieval 30
10 Eliminierung von Stoppwörtern 2.2. Eliminierung von Stoppwörtern Stoppwörter sind Wörter, die zu häufig vorkommen, um einen großen Unterschied beim Retrieval zu machen Artikel, Präpositionen und Konjunktionen sind heiße Kandidaten für Stoppwörter diese Liste kann aber durchaus noch länger sein (z.b.: nächste Folien beinhalten 425 Stoppwörter für den Brown Corpus, eine englischsprachige Literatursammlung mit verschiedenen Wörtern) Einführung in Information Retrieval 31
11 Stoppwörter für Brown Corpus Einführung in Information Retrieval 32
12 Stoppwörter für Brown Corpus (2) Einführung in Information Retrieval 33
13 Listenerstellung manuelle Pflege sehr aufwendig Vorschlag von Crouch: eliminiere alle Begriffe, die in mehr als 10% (zu allgemein) und weniger als 1% (zu spezifisch) der Dokumente vorkommen untere Grenze kann problematisch werden (je nach Dokumentgröße) Wörter die nur in einem Dokument vorkommen können gefahrlos eliminiert werden Einführung in Information Retrieval 34
14 Vor-/Nachteile Vorteil: reduziert den benötigten Speicherplatz für Indexstrukturen; invertierte Dateien z.b. sind bis zu 40% kleiner nach Eliminierung von Stoppwörtern (Stoppwörter bilden ja die längsten Listen) Nachteil: kann die Präzision bei einem Indexzugriff verringern (z.b. bei der Suchphrase to be or not to be ) Einführung in Information Retrieval 35
15 Stammwortreduktion 2.3. Stammwortreduktion oft verwendet Benutzer ein Wort in einer Anfrage, das nur in einer Variante in den Dokumenten vorkommt (z.b. Plural, Vergangenheitsform, usw.) deswegen reduziert man die Wörter durch Wegnahme und Umwandlung von Teilen auf ihren Stamm Einführung in Information Retrieval 36
16 Vor-/Nachteile verschiedene Varianten von Wörtern werden auf ein gemeinsames Konzept zurückgeführt, um so die Retrieval Performance zu erhöhen es ist aber nicht erwiesen, daß dies wirklich der Fall ist (Studien von Frakes et.al. kommen zu unterschiedlichen Ergebnissen) die Anzahl verschiedener Indexwörter wird reduziert (verkleinert den Index) Einführung in Information Retrieval 37
17 Verschiedene Vorgehensweisen prinzipiell gibt es vier verschiedene Vorgehensweisen bei der Stammwortreduktion table lookup successor variety n-grams Prä-/Suffix (Affix) Entfernung Einführung in Information Retrieval 38
18 Table Lookup in der Anwendung einfache, aber speicherintensive und mit viel Vorarbeit verbundene Vorgehensweise für jede möglich Wortvariante wird der entsprechende Stamm in einer Tabelle abgelegt erkennt auch unregelmäßige Fälle (z.b. bin/ist/war/sind, Monaco/Monegassen) muß eventuell mühsam per Hand für jede Sprache aufgebaut werden Einführung in Information Retrieval 39
19 Successor Variety verwendet Verfahren aus der Linguistik, um Morpheme eines Worts festzustellen Morpheme sind die kleinsten Einheiten in einer Sprache, die Bedeutung tragen anhand dieser Morpheme wird ein Wort auf die Stammform(en) reduziert Einführung in Information Retrieval 40
20 Finden von Morphemgrenzen man berechnet die successor varieties (Nachfolgervielfalten) eines Wortes gegeben eine Wortmenge aller vorkommenden Worte in einer Dokumentensammlung; dann ist die Nachfolgervielfalt eines Strings die Anzahl von verschiedenen Buchstaben die diesem String folgen können, um ein Wort zu bilden, daß in der Wortmenge vorkommt Einführung in Information Retrieval 41
21 Beispiel angenommen alle Wörter in einer Dokumentmenge sind: able, ape, beatable, fixable, read, readable, reading, reads, red, rope, ripe was sind die Nachfolgervielfalten von readable? r 3 e,i,o read,..., ripe, rope re 2 a,d read,..., red rea 1 d read,... read 3 a,i,s readable, reading, reads reada 1 b readable readab 1 l readable readabl 1 e readable readable 1 readable Einführung in Information Retrieval 42
22 Wie benutzt man diese Informationen? wenn diese Berechnungen auf einer hinreichend großen Dokumentmenge ausgeführt wird (mindestens 2000 verschiedene Wörter laut Hafer und Weiss), dann wird die Nachfolgervielfalt mit länger werdendem String zunächst abnehmen an einer Morphemgrenze wird sie dann aber sprunghaft ansteigen dieses Verhalten wird ausgenutzt, um ein Wort aufzutrennen Einführung in Information Retrieval 43
23 Methoden zur Trennung Cutoff-Methode man legt einen Grenzwert für die Nachfolgervielfalt fest wird dieser Grenzwert überschritten, schneidet man ab Problem: wird Grenzwert zu klein gewählt, schneidet man falsch ab, ist er zu groß, übersieht man korrekte Schnitte Einführung in Information Retrieval 44
24 Methoden zur Trennung (2) peak and plateau method man schneidet ab nach einem Zeichen, dessen Nachfolgervielfalt größer als die des Vorgängers und des Nachfolgers ist bei dem Beispiel also nach read Einführung in Information Retrieval 45
25 Methoden zur Trennung (3) complete word method es wird immer abgeschnitten, wenn momentanes Segment als komplettes Wort in Dokumentsammlung auftaucht im Beispiel also nach read und dann nach able problematisch bei Vorsilben und Endungen die nie einzeln auftreten Einführung in Information Retrieval 46
26 Methoden zur Trennung (4) Entropie Methode berechnet den Informationsgehalt des nächsten Zeichens bei einem gegebenen Teilstring nach Shannon sei D αi die Anzahl der Wörter in der Dokumentsammlung die mit der Anfangssequenz α anfangen, wobei α die Länge i hat sei D αij die Anzahl der Wörter in denen α von j gefolgt wird die Wahrscheinlichkeit, daß ein Element aus D αi den Nachfolger j hat, beträgt D αij D αi Einführung in Information Retrieval 47
27 Informationstheorie nach Shannon Exkurs: Informationstheorie mit Hilfe von Information und Ungewissheit kann man Prozesse beschreiben, die aus einer Menge von Elementen eines aussuchen Beispiel: wir haben einen Automat, der 4 Symbole ausgeben kann: A,B,C,D während wir auf nächstes Zeichen warten, sind wir unsicher, was das nächste Zeichen sein wird sobald das Zeichen erscheint, verkleinert sich unsere Ungewissheit, wir haben Information gewonnen Einführung in Information Retrieval 48
28 Information und Ungewissheit der Informationsgehalt wird in Bits gemessen in unserem Beispiel haben wir 4 Symbole, d.h. durch das Erscheinen eines Symbols gewinnen wir log 2 (4) = 2 Bits Information (unter der Voraussetzung, das jedes Symbol gleich häufig auftritt) sei M die Anzahl der Symbole, dann ist Informationsgehalt log 2 (M) = log 2 (M 1 ) = log 2 ( 1 M ) = log 2 (P ) Einführung in Information Retrieval 49
29 Ungleich verteilte Symbole nehmen wir an, daß das i-te Zeichen die Auftrittswahrscheinlichkeit P i besitzt ( M i=1 P i = 1) dann ist die Information, die wir aus dem Auftreten des i-ten Zeichens gewinnen: u i = log 2 (P i ) je überraschter wir vom Auftreten eines Zeichens sind, desto mehr Information gewinnen wir daraus Einführung in Information Retrieval 50
30 Durchschnittliche Information was ist die durchschnittliche Information für eine Zeichenkette der Länge N? nehmen wir an, daß das i-te Zeichen N i mal auftritt (N = M i=1 N i ) der durchschnittliche Informationsgehalt ist also M i=1 N i u i N = M i=1 N i N u i Einführung in Information Retrieval 51
31 Beliebig lange Zeichenkette wenn wir nun eine beliebig lange Zeichenkette annehmen, strebt N i N gegen P i also haben wir H = M i=1 P i log 2 (P i ) Bits pro Symbol (Ende des Exkurses) Einführung in Information Retrieval 52
32 Entropie Methode bei der Entropie Methode messen wir den Informationsgehalt für jeden Teilstring α der Länge i: H αi = 26 j=1 D αij D αi log 2( D αij D αi ) bei der Nachfolgervielfalt wird nur beachtet mit welchen Zeichen es überhaupt weitergehen kann, bei der Entropie Methode fließt mit ein, wie häufig bestimmte Fortsetzungen auftreten H αi tritt jetzt an die Stelle der Nachfolgervielfalt Einführung in Information Retrieval 53
33 Qualität der Methoden keine der vorgestellten Methoden liefert allein immer das Optimum Kombination mehrerer dieser Methoden liefert allerdings sehr gutes Ergebnis Einführung in Information Retrieval 54
34 Welcher Teil ist Wortstamm? nach der Zerlegung muß aber noch bestimmt werden, welche der Teile Wortstämme sind dafür gibt es im Englischen einfache Faustregel: wenn das erste Segment in mehr als 12 Wörtern auftaucht, ist es höchstwahrscheinlich eine Vorsilbe in diesem Fall wird das zweite Segment als Stamm gewählt andernfalls das erste Segment Einführung in Information Retrieval 55
35 N-Grams zerlegt Wörter in 2-grams/3-grams und versucht daraus Ähnlichkkeiten zwischen Wörtern herzuleiten ist also mehr eine Technik zum Clustern als für Stemming gut geeignet, um Sprachen zu erkennen, aber weniger gut geeignet, um Bedeutung zu erkennen (Cavnar) Einführung in Information Retrieval 56
36 Beispiel Betrachtung der gemeinsamen eindeutigen n-grams statistics st ta at ti is st ti ic cs eindeutig: at cs ic is st ta ti statistical st ta at ti is st ti ic ca al eindeutig: al at ca ic is st ta ti statistics hat neun 2-grams, wovon sieben eindeutig sind statistical hat zehn 2-grams, wovon acht eindeutig sind beide Wörter haben sechs davon gemeinsam Einführung in Information Retrieval 57
37 Ähnlichkeitsmaß nachdem man n-grams durchgezählt hat, berechnet man die Ähnlichkeit mit Hilfe des Dice Koeffizienten: S = 2C A + B A ist Anzahl der eindeutigen n-grams im ersten Wort, B die Anzahl der eindeutigen n-grams im zweiten Wort, C die gemeinsamen eindeutigen n-grams Einführung in Information Retrieval 58
38 Präfix-/Suffix Entfernung versucht Wort durch Entfernen von Präfixen und Suffixen auf Grundform zu reduzieren einfaches Beispiel zur Umwandlung von Plural in Singular (für Englisch) wenn Wort in ies aber nicht in eies oder aies endet, dann ersetze ies durch y wenn Wort in es aber nicht in aes, ees oder oes endet, dann ersetze es durch e wenn Wort in s aber nicht in us oder ss endet, dann ersetze s durch es wird immer nur die erste passende Regel angewendet Einführung in Information Retrieval 59
39 Porter Algorithmus einer der bekanntesten Algorithmen (für englische Sprache) ist der Porter Algorithmus bei diesem Algorithmus wird nacheinander eine Reihe von Regeln auf ein Wort angewendet und dabei wird dieses Wort umgewandelt Einführung in Information Retrieval 60
40 Porter Algorithmus z.b. gibt es unter anderem folgende Regel, um Suffixe zu entfernen s konvertiert Plural in Singular es wird dabei immer zuerst nach der längsten passenden Sequenz gesucht: sses ss s bei Anwendung auf stresses bekommt man stress und nicht stresse (vollständiger Algorithmus auf Webseite) Einführung in Information Retrieval 61
41 Abhängigkeit von Sprache Englisch: gut mit Regeln abdeckbar (schwach flektiert) Italienisch: stärker flektiert, aber noch mit Regeln handhabbar Deutsch: stark flektiert, kaum mit Regeln abzudecken, fast nur noch mit Wörterbuch zu schaffen. Einführung in Information Retrieval 62
42 Auswahl von Indextermen 2.4. Auswahl von Indextermen bei Volltextrepräsentation werden einfach alle Wörter im Text als Indexwörter benutzt die Alternative ist eine Untermenge davon auszuwählen zwei Varianten: manuell (z.b. bei Literaturverzeichnissen wird diese Aufgabe oft von menschlichen Spezialisten übernommen) automatische Indextermgenerierung Einführung in Information Retrieval 63
43 Manuelle Indextermgenerierung zwei Varianten: vorgegebenes Vokabular Freitextindizierung Abwägung zwischen Exaktheit und Eindeutigkeit Einführung in Information Retrieval 64
44 Automatische Indextermgenerierung verschiedene Kriterien Häufigkeit von Begriffen Gewichtung von Begriffen Einführung in Information Retrieval 65
45 Häufigkeit von Begriffen sehr häufige Begriffe: wahrscheinlich Stoppwörter sehr seltene Begriffe: nicht charakteristisch für Dokument man sucht Begriffe mittlerer Häufigkeit das allein ist noch kein besonders gutes Kriterium Einführung in Information Retrieval 66
46 Gewichtung von Begriffen man sucht Begriffe, die in wenigen Dokumenten häufig, insgesamt aber eher selten vorkommen man vermeidet Begriffe, die in vielen Dokumenten mit relativ gleicher Häufigkeit auftauchen Einführung in Information Retrieval 67
47 Gewichtung von Begriffen man bestimmt eine Vorauswahl an Indextermen (z.b. nach Häufigkeit: Eliminierung der Stoppwörter, etc.) Vorauswahl wird in der Regel zu groß sein, d.h. es müssen noch Terme gestrichen werden man will Begriffe behalten, die gut zwischen Dokumenten unterscheiden Einführung in Information Retrieval 68
48 Gewichtung von Begriffen berechne paarweise Ähnlichkeiten zwischen allen Dokumenten sim(d i, D j ), i j (z.b. mit Dice) durchschnittliche Ähnlichkeit: sim = n(n 1) 2 n 1 i=1 n j=i+1 sim(d i, D j ) durchschnittliche Ähnlichkeit ohne Term k: sim k = n(n 1) 2 n 1 i=1 n j=i+1 sim k (D i, D j ) Diskriminanz für Term k: sim k sim Einführung in Information Retrieval 69
49 Gewichtung von Begriffen positive Diskriminanz: Dokumente werden ähnlicher bei Weglassen des Terms Term unterscheidet zwischen Dokumenten guter Indexterm negative Diskriminanz: Dokumente werden unähnlicher bei Weglassen des Terms Term unterscheidet nicht zwischen Dokumenten schlechter Indexterm Einführung in Information Retrieval 70
50 Weitere Punkte weitere lexikalische Analyse auf Indextermen (Stammwortreduktion) Indexterme, die aus mehreren Einzelwörtern bestehen (gemeinsames Auftreten häufiger als Einzelauftreten) tauchen zwei Wörter immer in geringem Abstand zueinander auf? mit Parser herausfinden, der grammatikalische Satzstruktur ermittelt Einführung in Information Retrieval 71
51 Weitere Punkte ein weiterer Ansatz ist die Identifkation von Hauptwortgruppen (wird im Inquery-System verwendet) man geht davon aus, daß Hauptwörter in einem Satz die meiste Bedeutung tragen, alle anderen Wortklassen spielen nur untergeordnete Rolle Einführung in Information Retrieval 72
52 Weitere Punkte man analysiert Sätze und eliminiert systematisch alle anderen Wörter da es im Englischen kaum zusammengesetzte Wörter gibt, faßt man benachbarte Wörter zu einer Indexierungskomponente zusammen (z.b. computer science) Einführung in Information Retrieval 73
Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK
Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 08.05.2014 Gliederung 1 Vorverarbeitung
Mehr2. Woche Eindeutige Entschlüsselbarleit, Sätze von Kraft und McMillan, Huffmancodierung
2 Woche Eindeutige Entschlüsselbarleit, Sätze von Kraft und McMillan, Huffmancodierung 2 Woche: Eindeutige Entschlüsselbarleit, Sätze von Kraft und McMillan, Huffmancodierung 24/ 44 Zwei Beispiele a 0
MehrKapitel 1. Exakte Suche nach einem Wort. R. Stiebe: Textalgorithmen, WS 2003/04 11
Kapitel 1 Exakte Suche nach einem Wort R. Stiebe: Textalgorithmen, WS 2003/04 11 Überblick Aufgabenstellung Gegeben: Text T Σ, Suchwort Σ mit T = n, = m, Σ = σ Gesucht: alle Vorkommen von in T Es gibt
MehrInformation Retrieval,
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Information Retrieval, Vektorraummodell Tobias Scheffer Uwe Dick Peter Haider Paul Prasse Information Retrieval Konstruktion von
MehrEinführung in die medizinische Bildverarbeitung WS 12/13
Einführung in die medizinische Bildverarbeitung WS 12/13 Stephan Gimbel Kurze Wiederholung Landmarkenbasierte anhand anatomischer Punkte interaktiv algorithmisch z.b. zur Navigation im OP Markierung von
MehrInverted Files for Text Search Engines
Inverted Files for Text Search Engines Justin Zobel, Alistair Moffat PG 520 Intelligence Service Emel Günal 1 Inhalt Einführung Index - Inverted Files - Indexkonstruktion - Indexverwaltung Optimierung
MehrVorlesung Information Retrieval Wintersemester 04/05
Vorlesung Information Retrieval Wintersemester 04/05 20. Januar 2005 Institut für Informatik III Universität Bonn Tel. 02 28 / 73-45 31 Fax 02 28 / 73-43 82 jw@informatik.uni-bonn.de 0 Themenübersicht
MehrTextdokument-Suche auf dem Rechner Implementierungsprojekt
Textdokument-Suche auf dem Rechner Implementierungsprojekt Referent: Oliver Petra Seminar: Information Retrieval Institut für Computerlinguistik Ruprecht-Karls-Universität Heidelberg 19.01.2015 Überblick
MehrKapitel IR:IV. IV. Indexkonstruktion. Stammformreduktion n-gramme Termanreicherung Wortklassenbestimmung
Kapitel IR:IV IV. Indexkonstruktion Stammformreduktion n-gramme Termanreicherung Wortklassenbestimmung IR:IV-1 Index Construction STEIN 2005-2010 Bemerkungen: Die im folgenden vorgstellten Techniken und
MehrVorlesung Information Retrieval Wintersemester 04/05
Vorlesung Information Retrieval Wintersemester 04/05 16. November 2004 Institut für Informatik III Universität Bonn Tel. 02 28 / 73-45 31 Fax 02 28 / 73-43 82 jw@informatik.uni-bonn.de 1 Themenübersicht
Mehr1. Warum ist es nicht zweckmäßig, die Automatische Schlagwortvergabe für alle Kategorien eines Datensatzes durchzuführen?
Winfried Gödert / Klaus Lepsky Laborpraktikum Automatisches Indexieren Wiederholungsfragen Die Wiederholungsfragen dienen der Vertiefung der im Laborpraktikum behandelten Materie. Sie ergänzen die Übungsaufgaben,
Mehroptivo broadmail Professionelles E-Mail-Marketing Klick-Profilierung: Einfach und effektiv Zielgruppen erstellen
optivo broadmail Professionelles E-Mail-Marketing Klick-Profilierung: Einfach und effektiv Zielgruppen erstellen Inhalt 1. 2.. 4. 5. Mit Klick-Profilierung Tracking-Links taggen und verwalten.................................................................................
MehrLexikalische Programmanalyse der Scanner
Der Scanner führt die lexikalische Analyse des Programms durch Er sammelt (scanned) Zeichen für Zeichen und baut logisch zusammengehörige Zeichenketten (Tokens) aus diesen Zeichen Zur formalen Beschreibung
MehrGierige Algorithmen Interval Scheduling
Gierige Algorithmen Interval Scheduling IntervalScheduling(s,f). n length[s] 2. A {} 3. j 4. for i 2 to n do 5. if s[i] f[j] then 6. A A {i} 7. j i 8. return A Gierige Algorithmen Interval Scheduling Beweisidee:
Mehr6. Komprimierung. (Text)komprimierung ist ein Wechsel der Repräsentation von Daten, so daß sie weniger
Komprimierung 6. Komprimierung (Text)komprimierung ist ein Wechsel der Repräsentation von Daten, so daß sie weniger Platz brauchen Motivation: beschleunigt Plattenzugriffe oder Datenübertragungen Voraussetzung:
Mehr1 Boolesches Retrieval (2)
2. Übung zur Vorlesung Internet-Suchmaschinen im Sommersemester 2009 mit Lösungsvorschlägen Prof. Dr. Gerd Stumme, M.Sc. Wi-Inf. Beate Krause 06. Mai 2009 1 Boolesches Retrieval (2) Eine Erweiterung des
MehrProbabilistische Primzahltests
23.01.2006 Motivation und Überblick Grundsätzliches Vorgehen Motivation und Überblick Als Primzahltest bezeichnet man ein mathematisches Verfahren, mit dem ermittelt wird, ob eine gegebene Zahl eine Primzahl
MehrT = {t 1,..., t n } sei die Menge der Terme. D = {d 1,..., d m } sei die Menge der Dokumente.
Vektorraummodell T = {t 1,..., t n } sei die Menge der Terme. D = {d 1,..., d m } sei die Menge der Dokumente. Dokumente und Anfragen werden als Vektoren in einem Vektorraum aufgefaßt. Der Vektorraum wird
MehrOptimieren unter Nebenbedingungen
Optimieren unter Nebenbedingungen Hier sucht man die lokalen Extrema einer Funktion f(x 1,, x n ) unter der Nebenbedingung dass g(x 1,, x n ) = 0 gilt Die Funktion f heißt Zielfunktion Beispiel: Gesucht
Mehr2.2.4 Logische Äquivalenz
2.2.4 Logische Äquivalenz (I) Penélope raucht nicht und sie trinkt nicht. (II) Es ist nicht der Fall, dass Penélope raucht oder trinkt. Offenbar behaupten beide Aussagen denselben Sachverhalt, sie unterscheiden
MehrWS 2009/10. Diskrete Strukturen
WS 2009/10 Diskrete Strukturen Prof. Dr. J. Esparza Lehrstuhl für Grundlagen der Softwarezuverlässigkeit und theoretische Informatik Fakultät für Informatik Technische Universität München http://www7.in.tum.de/um/courses/ds/ws0910
MehrReferat zum Thema Huffman-Codes
Referat zum Thema Huffman-Codes Darko Ostricki Yüksel Kahraman 05.02.2004 1 Huffman-Codes Huffman-Codes ( David A. Huffman, 1951) sind Präfix-Codes und das beste - optimale - Verfahren für die Codierung
MehrNLP im Information Retrieval
NLP im Information Retrieval Tokenisierung Stoppwortlisten Stemming, Morphologische Analyse, Kompositazerlegung Flaches Parsing: Phrasen, Mehrwortlexeme N-Gramme Lesartendisambiguierung Thesauri, Semantische
MehrSQL. SQL SELECT Anweisung SQL-SELECT SQL-SELECT
SQL SQL SELECT Anweisung Mit der SQL SELECT-Anweisung werden Datenwerte aus einer oder mehreren Tabellen einer Datenbank ausgewählt. Das Ergebnis der Auswahl ist erneut eine Tabelle, die sich dynamisch
MehrInformationstheorie als quantitative Methode in der Dialektometrie
Informationstheorie als quantitative Methode in der Dialektometrie 1 Informationstheorie als quantitative Methode in der Dialektometrie Informationstheorie als quantitative Methode in der Dialektometrie
MehrEinführung in die Informatik: Programmierung und Software-Entwicklung, WS 12/13. Kapitel 3. Grunddatentypen, Ausdrücke und Variable
1 Kapitel 3 Grunddatentypen, Ausdrücke und Variable 2 Eine Datenstruktur besteht aus Grunddatentypen in Java einer Menge von Daten (Werten) charakteristischen Operationen Datenstrukturen werden mit einem
MehrAutomatische Vergabe von RVK-Notationen
Automatische Vergabe von RVK-Notationen Magnus Pfeffer magnus.pfeffer@bib.uni-mannheim.de 23.06.2007 Vortrag HU Berlin Überblick Anlass des Projekts Grundlagen fallbasiertes Schließen Umsetzung und Implementierung
MehrEntropie. Um der Begriff der Entropie zu erläutern brauchen wir erst mal einige Definitionen, z.b.
Entropie Grundlegend für das Verständnis des Begriffes der Komprimierung ist der Begriff der Entropie. In der Physik ist die Entropie ein Maß für die Unordnung eines Systems. In der Informationstheorie
MehrAufbau eines Flexionslexikons für die Katalogbereinigung
Exposé der Studienarbeit: Aufbau eines Flexionslexikons für die Katalogbereinigung Eingereicht von: Johannes Kozakiewicz Institut für Informatik Humboldt-Universität zu Berlin Matr.Nr.: 186778 kozakiewicz@gmx.de
MehrSeminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK
Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 16.05.2013 Gliederung 1 Vorverarbeitung
MehrAlgorithmus zur komprimierten Übertragung von Textdaten an mobile Endgeräte
Fachhochschule Wedel Seminararbeit Algorithmus zur komprimierten Übertragung von Textdaten an mobile Endgeräte Sven Reinck 7. Januar 2007 Inhaltsverzeichnis Inhaltsverzeichnis Motivation 2 Wörterbuch 2.
MehrÜber Polynome mit Arithmetik modulo m
Über Polynome mit Arithmetik modulo m Um den Fingerprinting-Satz über die Fingerabdrücke verschiedener Texte aus dem 37. Algorithmus der Woche ( http://www-i1.informatik.rwth-aachen.de/~algorithmus/algo37.php
MehrBeurteilende Statistik
Beurteilende Statistik Wahrscheinlichkeitsrechnung und Beurteilende Statistik was ist der Unterschied zwischen den beiden Bereichen? In der Wahrscheinlichkeitstheorie werden aus gegebenen Wahrscheinlichkeiten
MehrKommentiertes Beispiel für das Gaußsche Eliminationsverfahren
Kommentiertes Beispiel für das Gaußsche Eliminationsverfahren oder: Wie rechnet eigentlich der TI 84, wenn lineare Gleichungssysteme gelöst werden? Hier wird an einem Beispiel das Gaußsche Verfahren zum
MehrStrings. Stringsuche, Boyer-Moore, Textkompression, Huffman Codes.
Strings Stringsuche, Boyer-Moore, Textkompression, Huffman Codes. Suche Substring Häufiges Problem Relevante Beispiele: Suche ein Schlagwort in einem Buch Alphabet: A-Za-z0-9 Suche Virussignatur auf der
MehrFriedrich-Alexander-Universität Professur für Computerlinguistik. Nguyen Ai Huong
Part-of-Speech Tagging Friedrich-Alexander-Universität Professur für Computerlinguistik Nguyen Ai Huong 15.12.2011 Part-of-speech tagging Bestimmung von Wortform (part of speech) für jedes Wort in einem
MehrKapitel. Platzhalter. Was sind Platzhalter?
Kapitel 3 Was sind? sind ganz wichtige Elemente bei der Programmierung. Alle Programme, die du schon kennst (wie beispielsweise die Textverarbeitung WORD oder ein Programm zum Verschicken von E-Mails),
MehrDatenkompression. 1 Allgemeines. 2 Verlustlose Kompression. Holger Rauhut
Datenkompression Holger Rauhut 1. September 2010 Skript für die Schülerwoche 2010, 8.-11.9.2010 Hausdorff Center for Mathematics, Bonn 1 Allgemeines Datenkompression hat zum Ziel, Daten in digitaler Form,
MehrEine verlustbehaftete Komprimierung ist es, wenn wir einige Kleidungsstücke zu
Komprimierungen In Netzwerken müssen viele Daten transportiert werden. Dies geht natürlich schneller, wenn die Datenmengen klein sind. Um dies erreichen zu können werden die Daten komprimiert. Das heisst,
MehrHypothesen: Fehler 1. und 2. Art, Power eines statistischen Tests
ue biostatistik: hypothesen, fehler 1. und. art, power 1/8 h. lettner / physik Hypothesen: Fehler 1. und. Art, Power eines statistischen Tests Die äußerst wichtige Tabelle über die Zusammenhänge zwischen
MehrAlgorithmische Bioinformatik 1
Algorithmische Bioinformatik 1 Dr. Hanjo Täubig Lehrstuhl für Effiziente Algorithmen (Prof. Dr. Ernst W. Mayr) Institut für Informatik Technische Universität München Sommersemester 2009 Übersicht Paarweises
Mehr16. EINIGE LÖSUNGSMETHODEN
134 Dieses Skript ist ein Auszug mit Lücken aus Einführung in die mathematische Behandlung der Naturwissenschaften I von Hans Heiner Storrer, Birkhäuser Skripten. Als StudentIn sollten Sie das Buch auch
Mehr6 Ein- und Ausgabe. Bisher war unsere (Bildschirm-) Ausgabe leichtflüchtig (
6 Ein- und Ausgabe Bisher war unsere (Bildschirm-) Ausgabe leichtflüchtig ( Drucken war hoffnungslos übertrieben); heute lernen wir, wie wir die Ergebnisse unserer Programme abspeichern können, um sie
MehrNichtlineare Optimierung ohne Nebenbedingungen
Kapitel 2 Nichtlineare Optimierung ohne Nebenbedingungen In diesem Abschnitt sollen im wesentlichen Verfahren zur Bestimmung des Minimums von nichtglatten Funktionen in einer Variablen im Detail vorgestellt
Mehr15 Wahrscheinlichkeitsrechnung und Statistik
5 Wahrscheinlichkeitsrechnung und Statistik Alles, was lediglich wahrscheinlich ist, ist wahrscheinlich falsch. ( Descartes ) Trau keiner Statistik, die du nicht selbst gefälscht hast. ( Churchill zugeschrieben
MehrMusterlösung: 11. Dezember 2014, 10:43. Informationstheorie und Entropiekodierung
Audiotechnik II Digitale Audiotechnik: 8. Übung Prof. Dr. Stefan Weinzierl 11.12.2014 Musterlösung: 11. Dezember 2014, 10:43 Informationstheorie und Entropiekodierung Bei der Entropiekodierung werden die
MehrPart-of-Speech- Tagging
Part-of-Speech- Tagging In: Einführung in die Computerlinguistik Institut für Computerlinguistik Heinrich-Heine-Universität Düsseldorf WS 2004/05 Dozentin: Wiebke Petersen Tagging Was ist das? Tag (engl.):
MehrDatenstrukturen & Algorithmen Lösungen zu Blatt 5 FS 14
Eidgenössische Technische Hochschule Zürich Ecole polytechnique fédérale de Zurich Politecnico federale di Zurigo Federal Institute of Technology at Zurich Institut für Theoretische Informatik 26. März
MehrÜbersicht Shell-Scripten
!!!! Wichtig: Bei Shell-Scripten enden die Zeilen nicht mit einem Strichpunkt!!!! Erste Zeile eines Shell-Scripts: #! /bin/bash Variablen in Shell-Scripts: Variablennamen müssen mit einem Buchstaben beginnen,
MehrDatenstrukturen & Algorithmen
Datenstrukturen & Algorithmen Matthias Zwicker Universität Bern Frühling 2010 Übersicht Dynamische Programmierung Einführung Ablaufkoordination von Montagebändern Längste gemeinsame Teilsequenz Optimale
Mehr1. Vorlesung,
1. Vorlesung, 16.10.2006 Einführung und Motivation, Beispiel Information versus Daten Grundlegende Konzepte Aufgaben des Anwenders Logische Sicht auf Dokumente Dokumentvorverarbeitung Dokumentsuche mit
Mehr8 Euklidische Vektorräume und Fourierreihen
Mathematik für Ingenieure II, SS 9 Dienstag 7.7 $Id: fourier.te,v 1.6 9/7/7 13:: hk Ep $ $Id: diff.te,v 1. 9/7/7 16:13:53 hk Ep $ 8 Euklidische Vektorräume und Fourierreihen 8.4 Anwendungen auf Differentialgleichungen
MehrIndexieren und Suchen
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Indexieren und Suchen Tobias Scheffer Index-Datenstrukturen, Suchalgorithmen Invertierte Indizes Suffix-Bäume und -Arrays Signaturdateien
MehrSC18IM700-Tester v1.0. 1. Einleitung
SC18IM700-Tester v1.0 1. Einleitung Der SC18IM700-Tester ist ein mittels Visual Studio.NET und in der Programmiersprache C# entwickeltes Programm. Es lehnt sich an der Funktion eines einfachen Terminal-
MehrWahl eines sicheren Passworts
Zur Verfügung gestellt von Mcert Deutsche Gesellschaft für IT Sicherheit Weitere Informationen unter www.mcert.de Wahl eines sicheren Passworts Version 1.0 Letzte Änderung: 21. Juli 2005 Impressum Mcert
MehrDynamisches Huffman-Verfahren
Dynamisches Huffman-Verfahren - Adaptive Huffman Coding - von Michael Brückner 1. Einleitung 2. Der Huffman-Algorithmus 3. Übergang zu einem dynamischen Verfahren 4. Der FGK-Algorithmus 5. Überblick über
Mehr3. Hilfen zur Diagnose
3.3 Lernstandskontrollen im Diagnoseheft Lösungen kann keine zusammengesetzten Nomen zu Bildern bilden (Aufgabe 1) Da das zusammengesetzte Nomen aus zwei Bildern besteht, sind beim Bilden des Nomens keine
MehrKapitel 4. Programmierkurs. Datentypen. Arten von Datentypen. Wiederholung Kapitel 4. Birgit Engels, Anna Schulze WS 07/08
Kapitel 4 Programmierkurs Birgit Engels, Anna Schulze Wiederholung Kapitel 4 ZAIK Universität zu Köln WS 07/08 1 / 23 2 Datentypen Arten von Datentypen Bei der Deklaration einer Variablen(=Behälter für
MehrPflichtteilaufgaben zu Gegenseitige Lage, Abstand, Baden-Württemberg
Pflichtteilaufgaben zu Gegenseitige Lage, Abstand, Baden-Württemberg Hilfsmittel: keine allgemeinbildende Gymnasien Alexander Schwarz wwwmathe-aufgabencom September 6 Abituraufgaben (Haupttermin) Aufgabe
MehrVorlesung Dokumentation und Datenbanken Klausur
Dr. Stefan Brass 2. Juli 2002 Institut für Informatik Universität Giessen Vorlesung Dokumentation und Datenbanken Klausur Name: Geburtsdatum: Geburtsort: (Diese Daten werden zur Ausstellung des Leistungsnachweises
MehrII. Grundlagen der Programmierung
II. Grundlagen der Programmierung II.1. Zahlenssteme und elementare Logik 1.1. Zahlenssteme 1.1.1. Ganze Zahlen Ganze Zahlen werden im Dezimalsstem als Folge von Ziffern 0, 1,..., 9 dargestellt, z.b. 123
MehrProduktentwicklung damit sollten Sie rechnen
Produktentwicklung damit sollten Sie rechnen 0. Zusammenfassung Wer Produktentwicklung betreiben will, muss in erster Linie sehr viel lesen: Dokumente aus unterschiedlichsten Quellen und in vielen Formaten.
MehrGrundlagen der Kombinatorik
Statistik 1 für SoziologInnen Grundlagen der Kombinatorik Univ.Prof. Dr. Marcus Hudec Zufallsauswahl aus Grundgesamtheiten In der statistischen Praxis kommt dem Ziehen von Stichproben größte Bedeutung
MehrProblem: Finde für Alphabet mit n Zeichen einen Binärcode, der die Gesamtlänge eines Textes (über diesem Alphabet) minimiert.
Anwendungen von Bäumen 4.3.2 Huffman Code Problem: Finde für Alphabet mit n Zeichen einen Binärcode, der die Gesamtlänge eines Textes (über diesem Alphabet) minimiert. => nutzbar für Kompression Code fester
MehrKapitel 3: Etwas Informationstheorie
Stefan Lucks 3: Informationstheorie 28 orlesung Kryptographie (SS06) Kapitel 3: Etwas Informationstheorie Komplexitätstheoretische Sicherheit: Der schnellste Algorithmus, K zu knacken erfordert mindestens
MehrMultilinguales Information Retrieval, AG Datenbanken und Informationssysteme. Multilinguales Information Retrieval
Multilinguales Information Retrieval 1 Definition IR in einer anderen Sprache als Englisch IR auf einer einsprachigen Dokumentensammlung, die in mehreren Sprachen befragt werden kann. Information Retrieval
MehrEinführung in die Informatik I (autip)
Einführung in die Informatik I (autip) Dr. Stefan Lewandowski Fakultät 5: Informatik, Elektrotechnik und Informationstechnik Abteilung Formale Konzepte Universität Stuttgart 24. Oktober 2007 Was Sie bis
Mehr$Id: folgen.tex,v /05/31 12:40:06 hk Exp $ an 1 2 n 1 ist gerade, 3a n 1 + 1, a n 1 ist ungerade.
$Id: folgen.tex,v. 202/05/3 2:40:06 hk Exp $ 6 Folgen Am Ende der letzten Sitzung hatten wir Folgen in einer Menge X als Abbildungen a : N X definiert, die dann typischerweise in der Form (a n ) n N, also
MehrPraktikum Maschinelle Übersetzung Lexikon and Word Alignment
Praktikum Maschinelle Übersetzung Lexikon and Word Alignment Um die Aufgaben auszuführen, können Sie ihre Daten in folgendem Verzeichnis speichern: /project/smtstud/ss10/systems/username/ Wir werden zunächst
MehrEntwurf von Algorithmen - Kontrollstrukturen
Entwurf von Algorithmen - Kontrollstrukturen Eine wichtige Phase in der Entwicklung von Computerprogrammen ist der Entwurf von Algorithmen. Dieser Arbeitsschritt vor dem Schreiben des Programmes in einer
MehrEffiziente Algorithmen
Effiziente Algorithmen Aufgabe 5 Gruppe E Martin Schliefnig, 0160919 Christoph Holper, 9927191 Ulrike Ritzinger, 0125779 1. Problemstellung Gegeben ist eine Datei, die eine Million reelle Zahlen enthält.
Mehr1 Aussagenlogischer Kalkül
1 Aussagenlogischer Kalkül Ein Kalkül in der Aussagenlogik soll die Wahrheit oder Algemeingültigkeit von Aussageformen allein auf syntaktischer Ebene zeigen. Die Wahrheit soll durch Umformung von Formeln
Mehr6 Reelle und komplexe Zahlenfolgen
Mathematik für Physiker I, WS 200/20 Freitag 0.2 $Id: folgen.tex,v. 200/2/06 :2:5 hk Exp $ $Id: reihen.tex,v. 200/2/0 4:4:40 hk Exp hk $ 6 Reelle und komplexe Zahlenfolgen 6. Cauchyfolgen Wir kommen nun
MehrRun Length Coding und Variable Length Coding
Fachbereich Medieninformatik Hochschule Harz Run Length Coding und Variable Length Coding Referat Matthias Zittlau 11034 Abgabe: 15.01.2007 Inhaltsverzeichnis 1. RLC...1 2.1 Einführung...1 2.2 Prinzip...1
Mehr3 Matrizenrechnung. 3. November
3. November 008 4 3 Matrizenrechnung 3.1 Transponierter Vektor: Die Notation x R n bezieht sich per Definition 1 immer auf einen stehenden Vektor, x 1 x x =.. x n Der transponierte Vektor x T ist das zugehörige
MehrStrings. Daten aus Dateien einlesen und in Dateien speichern.
Strings. Daten aus Dateien einlesen und in Dateien speichern. Strings Ein String ist eine Zeichenkette, welche von MATLAB nicht als Programmcode interpretiert wird. Der Ausdruck 'a' ist ein String bestehend
MehrIdeen und Konzepte der Informatik. Programme und Algorithmen Kurt Mehlhorn
Ideen und Konzepte der Informatik Programme und Algorithmen Kurt Mehlhorn November 2016 Algorithmen und Programme Algorithmus = Schritt-für-Schritt Vorschrift zur Lösung eines Problems. Formuliert man
MehrPutzi4Win 1/ 9. Dokumentation
Dokumentation Putzi4Win Manager Plugin-Manager Der Pluginmanager verwaltet die Plugins von Putzi4Win. Mit diesem Programm haben Sie eine Übersicht über die installierten Plugins die auf dem Webswerver
Mehr2 - Konvergenz und Limes
Kapitel 2 - Folgen Reihen Seite 1 2 - Konvergenz Limes Definition 2.1 (Folgenkonvergenz) Eine Folge komplexer Zahlen heißt konvergent gegen, wenn es zu jeder positiven Zahl ein gibt, so dass gilt: Die
MehrWMS Block: Management von Wissen in Dokumentenform PART: Text Mining. Myra Spiliopoulou
WMS Block: Management von Wissen in nform PART: Text Mining Myra Spiliopoulou WIE ERFASSEN UND VERWALTEN WIR EXPLIZITES WISSEN? 1. Wie strukturieren wir Wissen in nform? 2. Wie verwalten wir nsammlungen?
MehrMathematik: Mag. Schmid Wolfgang Arbeitsblatt 5 1. Semester ARBEITSBLATT 5 RECHNEN MIT BRÜCHEN. 1. Arten von Brüchen und Definition
ARBEITSBLATT 5 RECHNEN MIT BRÜCHEN 1. Arten von Brüchen und Definition Beispiel: 3 5 Zähler Bruchstrich Nenner Definition: Jeder Bruch hat folgendes Aussehen: Zähler. Der Nenner gibt an, Nenner in wie
MehrR C 1s =0, C T 1
Aufgaben zum Themengebiet Aufladen und Entladen eines Kondensators Theorie und nummerierte Formeln auf den Seiten 5 bis 8 Ein Kondensator mit der Kapazität = 00μF wurde mit der Spannung U = 60V aufgeladen
Mehr$Id: integral.tex,v /05/05 14:57:29 hk Exp hk $ ln(1 + t) 2 = ln 2 ln 3 + ln 2 = ln
$Id: integral.tex,v.5 2009/05/05 4:57:29 hk Exp hk $ 2 Integralrechnung 2.3 Die Integrationsregeln Wir wollen noch eine letzte kleine Anmerkung zur Substitutionsregel machen. Der letzte Schritt bei der
MehrEntschlüsselung eines Kryptogramms
Entschlüsselung eines Kryptogramms Udo Hebisch hebisch@math.tu-freiberg.de Institut für Diskrete Mathematik und Algebra, TU Bergakademie Freiberg Mai 2014 Zum folgenden Geheimtext ist der Klartext zu
MehrInformatik II, SS 2014
Informatik II SS 2014 (Algorithmen & Datenstrukturen) Vorlesung 7 (21.5.2014) Binäre Suche, Hashtabellen I Algorithmen und Komplexität Abstrakte Datentypen : Dictionary Dictionary: (auch: Maps, assoziative
MehrThüringer CAS-Projekt
Thema Integralrechnung Sek I Sek II Class-Pad TI-Nspire CAS. Schlagworte: Einführung Integralrechnung, Bestimmtes Integral Lehrermaterial: Das bestimmte Integral Inhalt Beschreibung der stofflichen Fülle
Mehr1 Zahlentheorie. 1.1 Kongruenzen
3 Zahlentheorie. Kongruenzen Der letzte Abschnitt zeigte, daß es sinnvoll ist, mit großen Zahlen möglichst einfach rechnen zu können. Oft kommt es nicht darauf, an eine Zahl im Detail zu kennen, sondern
MehrKapitel 10. Programmierkurs. Grundlagen von Exceptions Behandlung von Exceptions
Kapitel 10 Programmierkurs Birgit Engels Anna Schulze Zentrum für Angewandte Informatik Köln Exceptions Behandlung von Exceptions Der finally-block catch or throw WS 07/08 1/ 23 2/ 23 Grundlagen von Exceptions
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Tobias Scheffer Thomas Vanck
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse Tobias Scheffer Thomas Vanck Überblick Problemstellung/Motivation Deterministischer Ansatz: K-Means Probabilistischer
MehrPraktikum zur Vorlesung Einführung in die Programmierung WS 14/15 Blatt 3
Michael Jugovac Dominik Kopczynski Jan Quadflieg Till Schäfer Stephan Windmüller Dortmund, den 30. Oktober 2014 Praktikum zur Vorlesung Einführung in die Programmierung WS 14/15 Blatt 3 Es können 12 (+5
MehrBetragsgleichungen und die Methode der Fallunterscheidungen
mathe online Skripten http://www.mathe-online.at/skripten/ Betragsgleichungen und die Methode der Fallunterscheidungen Franz Embacher Fakultät für Mathematik der Universität Wien E-mail: franz.embacher@univie.ac.at
MehrUntersuchen Sie, inwiefern sich die folgenden Funktionen für die Verwendung als Hashfunktion eignen. Begründen Sie Ihre Antwort.
Prof. aa Dr. Ir. Joost-Pieter Katoen Christian Dehnert, Friedrich Gretz, Benjamin Kaminski, Thomas Ströder Tutoraufgabe 1 (Güte von Hashfunktionen): Untersuchen Sie, inwiefern sich die folgenden Funktionen
MehrArithmetisches Codieren
Arithmetisches Codieren 1. Motivation: Als Alternative zum arithmetischen Codieren bot sich damals als effizientester Algorithmus das Huffmann-Coding an. Dieses jedoch hatte einen entscheidenden Nachteil:
MehrEine kurze Methode, Summen unendlicher Reihen durch Differentialformeln zu untersuchen
Eine kurze Methode, Summen unendlicher Reihen durch Differentialformeln zu untersuchen Leonhard Euler Auch wenn ich diesen Gegenstand schon des Öfteren betrachtet habe, sind die meisten Dinge, die sich
MehrDatenstrukturen und Algorithmen. Christian Sohler FG Algorithmen & Komplexität
Datenstrukturen und Algorithmen Christian Sohler FG Algorithmen & Komplexität 1 Clustering: Partitioniere Objektmenge in Gruppen(Cluster), so dass sich Objekte in einer Gruppe ähnlich sind und Objekte
MehrLemmatisierung und Stemming in Suchmaschinen
Lemmatisierung und Stemming in Suchmaschinen Hauptseminar Suchmaschinen Computerlinguistik Sommersemester 2016 Stefan Langer stefan.langer@cis.uni-muenchen.de Trefferquote (Recall) und Genauigkeit (Precision)
MehrEinführung in die Informatik 2
Einführung in die Informatik 2 Suchen in Texten Sven Kosub AG Algorithmik/Theorie komplexer Systeme Universität Konstanz E 202 Sven.Kosub@uni-konstanz.de Sprechstunde: Freitag, 12:30-14:00 Uhr, o.n.v.
MehrLineare Gleichungssysteme
Poelchau-Oberschule Berlin A. Mentzendorff September 2007 Lineare Gleichungssysteme Inhaltsverzeichnis 1 Grundlagen 2 2 Das Lösungsverfahren von Gauß 4 3 Kurzschreibweise und Zeilensummenkontrolle 6 4
MehrIndexvokabular {Korsika, Sardinien, Strand, Ferienwohnung, Gebirge} Verknüpfung von Enthaltenseinsbedingungen mittels Boole'scher Junktoren.
Boole'sches Modell Boole'sches Modell: Beispiel basiert auf Mengentheorie und Boole'scher Algebra sehr einfaches Modell mit klarer Semantik Dokumente als Mengen von Indextermen Termgewichte sind binär:
MehrBerechnung von W für die Elementarereignisse einer Zufallsgröße
R. Albers, M. Yanik Skript zur Vorlesung Stochastik (lementarmathematik) 5. Zufallsvariablen Bei Zufallsvariablen geht es darum, ein xperiment durchzuführen und dem entstandenen rgebnis eine Zahl zuzuordnen.
Mehr