2. Textvorverarbeitung. nicht alle Wörter in einem Dokument sind gleich wichtig, um die Semantik eines Dokuments

Größe: px
Ab Seite anzeigen:

Download "2. Textvorverarbeitung. nicht alle Wörter in einem Dokument sind gleich wichtig, um die Semantik eines Dokuments"

Transkript

1 Textvorverarbeitung 2. Textvorverarbeitung nicht alle Wörter in einem Dokument sind gleich wichtig, um die Semantik eines Dokuments auszudrücken deswegen lohnt es sich oft, eine Vorverarbeitung durchzuführen bevor man die Indexterme bestimmt Thema wird hier nur angerissen, d.h. Problemfälle werden erläutert (sieht oft leichter aus, als es in Wirklichkeit ist) Einführung in Information Retrieval 22

2 Vor-/Nachteile Vorverarbeitung hat Vor- und Nachteile Vorteile allgemein bessere Retrieval Performance kleineres Datenaufkommen beim Indexieren Nachteile es gibt problematische Spezialfälle führt manchmal zu undurchsichtigem Verhalten aus der Sicht des Benutzers Einführung in Information Retrieval 23

3 Was kann man alles tun? Lexikalische Analyse mit dem Ziel Ziffern, Bindestriche, Satzzeichen und Groß-/Kleinschreibung zu behandeln Eliminierung von sogenannten Stoppwörtern (stop words), also Wörtern, die sehr häufig vorkommen und praktisch keine Aussagekraft haben (z.b.: der, die, das, ein, usw.) Stammwortreduktion (stemming) hat das Ziel, syntaktische Variationen eines Wortes auf eine gemeinsame Form zu bringen (z.b.: binden, verbinden, Verbindung, verbindend, usw.) (automatische) Auswahl von Indextermen Einführung in Information Retrieval 24

4 Lexikalische Analyse 2.1. Lexikalische Analyse Aufgabe der Lex. Analyse ist Konvertierung eines Eingabestroms von Zeichen in einen Strom aus Wörtern, d.h. das Erkennen von Wörtern in einem Text auf den ersten Blick sieht es so aus, als ob es ausreicht, lediglich Leerzeichen zu beachten Einführung in Information Retrieval 25

5 Behandlung von Ziffern ohne Kontext sind Ziffern relativ wertlos Beispiel: ich möchte Statistiken zu Autounfällen zwischen 1980 und 1989 als Antwort bekommt man eventuell nur Statistiken für die Jahre 1980 und 1989 oder Unfalljahre mit 1980 bzw Unfallopfern oder Jahre mit 1980 bzw Unfällen Einführung in Information Retrieval 26

6 Ziffern normalerweise verzichtet man auf Ziffern als Indexterme obwohl es viele Ziffern gibt, die durchaus als Suchterm geeignet sind (z.b. Personalnummern, Kreditkartennummern, Postleitzahlen, usw.) Probleme gibt es auch bei gemischten Ausdrücken (z.b. 150v.Chr., Vitamin B6 und B12) Einführung in Information Retrieval 27

7 Bindestriche normalerweise werden Wörter mit Bindestrichen in Einzelwörter aufgebrochen (da solche Wörter oft inkonsistent geschrieben werden, d.h. mal mit und mal ohne Bindestrich) bei manchen Wörtern sind Bindestriche aber integraler Bestandteil des Worts (z.b. Kann- Vorschrift, Karl-Heinz) Einführung in Information Retrieval 28

8 Satzzeichen auch hier gilt wieder: normalerweise werden alle Satzzeichen entfernt, auch bei Satzzeichen in Wörtern (z.b. bei 150v.Chr.) problematisch in Spezialfällen (z.b. bei Programmcode, man möchte Variablen p.id und pid unterscheiden können) Einführung in Information Retrieval 29

9 Groß-/Kleinschreibung Text wird normalerweise komplett in die eine oder andere Form konvertiert eventuell problematisch im Englischen, da Eigennamen nicht mehr so gut ausfindig gemacht werden können Einführung in Information Retrieval 30

10 Eliminierung von Stoppwörtern 2.2. Eliminierung von Stoppwörtern Stoppwörter sind Wörter, die zu häufig vorkommen, um einen großen Unterschied beim Retrieval zu machen Artikel, Präpositionen und Konjunktionen sind heiße Kandidaten für Stoppwörter diese Liste kann aber durchaus noch länger sein (z.b.: nächste Folien beinhalten 425 Stoppwörter für den Brown Corpus, eine englischsprachige Literatursammlung mit verschiedenen Wörtern) Einführung in Information Retrieval 31

11 Stoppwörter für Brown Corpus Einführung in Information Retrieval 32

12 Stoppwörter für Brown Corpus (2) Einführung in Information Retrieval 33

13 Listenerstellung manuelle Pflege sehr aufwendig Vorschlag von Crouch: eliminiere alle Begriffe, die in mehr als 10% (zu allgemein) und weniger als 1% (zu spezifisch) der Dokumente vorkommen untere Grenze kann problematisch werden (je nach Dokumentgröße) Wörter die nur in einem Dokument vorkommen können gefahrlos eliminiert werden Einführung in Information Retrieval 34

14 Vor-/Nachteile Vorteil: reduziert den benötigten Speicherplatz für Indexstrukturen; invertierte Dateien z.b. sind bis zu 40% kleiner nach Eliminierung von Stoppwörtern (Stoppwörter bilden ja die längsten Listen) Nachteil: kann die Präzision bei einem Indexzugriff verringern (z.b. bei der Suchphrase to be or not to be ) Einführung in Information Retrieval 35

15 Stammwortreduktion 2.3. Stammwortreduktion oft verwendet Benutzer ein Wort in einer Anfrage, das nur in einer Variante in den Dokumenten vorkommt (z.b. Plural, Vergangenheitsform, usw.) deswegen reduziert man die Wörter durch Wegnahme und Umwandlung von Teilen auf ihren Stamm Einführung in Information Retrieval 36

16 Vor-/Nachteile verschiedene Varianten von Wörtern werden auf ein gemeinsames Konzept zurückgeführt, um so die Retrieval Performance zu erhöhen es ist aber nicht erwiesen, daß dies wirklich der Fall ist (Studien von Frakes et.al. kommen zu unterschiedlichen Ergebnissen) die Anzahl verschiedener Indexwörter wird reduziert (verkleinert den Index) Einführung in Information Retrieval 37

17 Verschiedene Vorgehensweisen prinzipiell gibt es vier verschiedene Vorgehensweisen bei der Stammwortreduktion table lookup successor variety n-grams Prä-/Suffix (Affix) Entfernung Einführung in Information Retrieval 38

18 Table Lookup in der Anwendung einfache, aber speicherintensive und mit viel Vorarbeit verbundene Vorgehensweise für jede möglich Wortvariante wird der entsprechende Stamm in einer Tabelle abgelegt erkennt auch unregelmäßige Fälle (z.b. bin/ist/war/sind, Monaco/Monegassen) muß eventuell mühsam per Hand für jede Sprache aufgebaut werden Einführung in Information Retrieval 39

19 Successor Variety verwendet Verfahren aus der Linguistik, um Morpheme eines Worts festzustellen Morpheme sind die kleinsten Einheiten in einer Sprache, die Bedeutung tragen anhand dieser Morpheme wird ein Wort auf die Stammform(en) reduziert Einführung in Information Retrieval 40

20 Finden von Morphemgrenzen man berechnet die successor varieties (Nachfolgervielfalten) eines Wortes gegeben eine Wortmenge aller vorkommenden Worte in einer Dokumentensammlung; dann ist die Nachfolgervielfalt eines Strings die Anzahl von verschiedenen Buchstaben die diesem String folgen können, um ein Wort zu bilden, daß in der Wortmenge vorkommt Einführung in Information Retrieval 41

21 Beispiel angenommen alle Wörter in einer Dokumentmenge sind: able, ape, beatable, fixable, read, readable, reading, reads, red, rope, ripe was sind die Nachfolgervielfalten von readable? r 3 e,i,o read,..., ripe, rope re 2 a,d read,..., red rea 1 d read,... read 3 a,i,s readable, reading, reads reada 1 b readable readab 1 l readable readabl 1 e readable readable 1 readable Einführung in Information Retrieval 42

22 Wie benutzt man diese Informationen? wenn diese Berechnungen auf einer hinreichend großen Dokumentmenge ausgeführt wird (mindestens 2000 verschiedene Wörter laut Hafer und Weiss), dann wird die Nachfolgervielfalt mit länger werdendem String zunächst abnehmen an einer Morphemgrenze wird sie dann aber sprunghaft ansteigen dieses Verhalten wird ausgenutzt, um ein Wort aufzutrennen Einführung in Information Retrieval 43

23 Methoden zur Trennung Cutoff-Methode man legt einen Grenzwert für die Nachfolgervielfalt fest wird dieser Grenzwert überschritten, schneidet man ab Problem: wird Grenzwert zu klein gewählt, schneidet man falsch ab, ist er zu groß, übersieht man korrekte Schnitte Einführung in Information Retrieval 44

24 Methoden zur Trennung (2) peak and plateau method man schneidet ab nach einem Zeichen, dessen Nachfolgervielfalt größer als die des Vorgängers und des Nachfolgers ist bei dem Beispiel also nach read Einführung in Information Retrieval 45

25 Methoden zur Trennung (3) complete word method es wird immer abgeschnitten, wenn momentanes Segment als komplettes Wort in Dokumentsammlung auftaucht im Beispiel also nach read und dann nach able problematisch bei Vorsilben und Endungen die nie einzeln auftreten Einführung in Information Retrieval 46

26 Methoden zur Trennung (4) Entropie Methode berechnet den Informationsgehalt des nächsten Zeichens bei einem gegebenen Teilstring nach Shannon sei D αi die Anzahl der Wörter in der Dokumentsammlung die mit der Anfangssequenz α anfangen, wobei α die Länge i hat sei D αij die Anzahl der Wörter in denen α von j gefolgt wird die Wahrscheinlichkeit, daß ein Element aus D αi den Nachfolger j hat, beträgt D αij D αi Einführung in Information Retrieval 47

27 Informationstheorie nach Shannon Exkurs: Informationstheorie mit Hilfe von Information und Ungewissheit kann man Prozesse beschreiben, die aus einer Menge von Elementen eines aussuchen Beispiel: wir haben einen Automat, der 4 Symbole ausgeben kann: A,B,C,D während wir auf nächstes Zeichen warten, sind wir unsicher, was das nächste Zeichen sein wird sobald das Zeichen erscheint, verkleinert sich unsere Ungewissheit, wir haben Information gewonnen Einführung in Information Retrieval 48

28 Information und Ungewissheit der Informationsgehalt wird in Bits gemessen in unserem Beispiel haben wir 4 Symbole, d.h. durch das Erscheinen eines Symbols gewinnen wir log 2 (4) = 2 Bits Information (unter der Voraussetzung, das jedes Symbol gleich häufig auftritt) sei M die Anzahl der Symbole, dann ist Informationsgehalt log 2 (M) = log 2 (M 1 ) = log 2 ( 1 M ) = log 2 (P ) Einführung in Information Retrieval 49

29 Ungleich verteilte Symbole nehmen wir an, daß das i-te Zeichen die Auftrittswahrscheinlichkeit P i besitzt ( M i=1 P i = 1) dann ist die Information, die wir aus dem Auftreten des i-ten Zeichens gewinnen: u i = log 2 (P i ) je überraschter wir vom Auftreten eines Zeichens sind, desto mehr Information gewinnen wir daraus Einführung in Information Retrieval 50

30 Durchschnittliche Information was ist die durchschnittliche Information für eine Zeichenkette der Länge N? nehmen wir an, daß das i-te Zeichen N i mal auftritt (N = M i=1 N i ) der durchschnittliche Informationsgehalt ist also M i=1 N i u i N = M i=1 N i N u i Einführung in Information Retrieval 51

31 Beliebig lange Zeichenkette wenn wir nun eine beliebig lange Zeichenkette annehmen, strebt N i N gegen P i also haben wir H = M i=1 P i log 2 (P i ) Bits pro Symbol (Ende des Exkurses) Einführung in Information Retrieval 52

32 Entropie Methode bei der Entropie Methode messen wir den Informationsgehalt für jeden Teilstring α der Länge i: H αi = 26 j=1 D αij D αi log 2( D αij D αi ) bei der Nachfolgervielfalt wird nur beachtet mit welchen Zeichen es überhaupt weitergehen kann, bei der Entropie Methode fließt mit ein, wie häufig bestimmte Fortsetzungen auftreten H αi tritt jetzt an die Stelle der Nachfolgervielfalt Einführung in Information Retrieval 53

33 Qualität der Methoden keine der vorgestellten Methoden liefert allein immer das Optimum Kombination mehrerer dieser Methoden liefert allerdings sehr gutes Ergebnis Einführung in Information Retrieval 54

34 Welcher Teil ist Wortstamm? nach der Zerlegung muß aber noch bestimmt werden, welche der Teile Wortstämme sind dafür gibt es im Englischen einfache Faustregel: wenn das erste Segment in mehr als 12 Wörtern auftaucht, ist es höchstwahrscheinlich eine Vorsilbe in diesem Fall wird das zweite Segment als Stamm gewählt andernfalls das erste Segment Einführung in Information Retrieval 55

35 N-Grams zerlegt Wörter in 2-grams/3-grams und versucht daraus Ähnlichkkeiten zwischen Wörtern herzuleiten ist also mehr eine Technik zum Clustern als für Stemming gut geeignet, um Sprachen zu erkennen, aber weniger gut geeignet, um Bedeutung zu erkennen (Cavnar) Einführung in Information Retrieval 56

36 Beispiel Betrachtung der gemeinsamen eindeutigen n-grams statistics st ta at ti is st ti ic cs eindeutig: at cs ic is st ta ti statistical st ta at ti is st ti ic ca al eindeutig: al at ca ic is st ta ti statistics hat neun 2-grams, wovon sieben eindeutig sind statistical hat zehn 2-grams, wovon acht eindeutig sind beide Wörter haben sechs davon gemeinsam Einführung in Information Retrieval 57

37 Ähnlichkeitsmaß nachdem man n-grams durchgezählt hat, berechnet man die Ähnlichkeit mit Hilfe des Dice Koeffizienten: S = 2C A + B A ist Anzahl der eindeutigen n-grams im ersten Wort, B die Anzahl der eindeutigen n-grams im zweiten Wort, C die gemeinsamen eindeutigen n-grams Einführung in Information Retrieval 58

38 Präfix-/Suffix Entfernung versucht Wort durch Entfernen von Präfixen und Suffixen auf Grundform zu reduzieren einfaches Beispiel zur Umwandlung von Plural in Singular (für Englisch) wenn Wort in ies aber nicht in eies oder aies endet, dann ersetze ies durch y wenn Wort in es aber nicht in aes, ees oder oes endet, dann ersetze es durch e wenn Wort in s aber nicht in us oder ss endet, dann ersetze s durch es wird immer nur die erste passende Regel angewendet Einführung in Information Retrieval 59

39 Porter Algorithmus einer der bekanntesten Algorithmen (für englische Sprache) ist der Porter Algorithmus bei diesem Algorithmus wird nacheinander eine Reihe von Regeln auf ein Wort angewendet und dabei wird dieses Wort umgewandelt Einführung in Information Retrieval 60

40 Porter Algorithmus z.b. gibt es unter anderem folgende Regel, um Suffixe zu entfernen s konvertiert Plural in Singular es wird dabei immer zuerst nach der längsten passenden Sequenz gesucht: sses ss s bei Anwendung auf stresses bekommt man stress und nicht stresse (vollständiger Algorithmus auf Webseite) Einführung in Information Retrieval 61

41 Abhängigkeit von Sprache Englisch: gut mit Regeln abdeckbar (schwach flektiert) Italienisch: stärker flektiert, aber noch mit Regeln handhabbar Deutsch: stark flektiert, kaum mit Regeln abzudecken, fast nur noch mit Wörterbuch zu schaffen. Einführung in Information Retrieval 62

42 Auswahl von Indextermen 2.4. Auswahl von Indextermen bei Volltextrepräsentation werden einfach alle Wörter im Text als Indexwörter benutzt die Alternative ist eine Untermenge davon auszuwählen zwei Varianten: manuell (z.b. bei Literaturverzeichnissen wird diese Aufgabe oft von menschlichen Spezialisten übernommen) automatische Indextermgenerierung Einführung in Information Retrieval 63

43 Manuelle Indextermgenerierung zwei Varianten: vorgegebenes Vokabular Freitextindizierung Abwägung zwischen Exaktheit und Eindeutigkeit Einführung in Information Retrieval 64

44 Automatische Indextermgenerierung verschiedene Kriterien Häufigkeit von Begriffen Gewichtung von Begriffen Einführung in Information Retrieval 65

45 Häufigkeit von Begriffen sehr häufige Begriffe: wahrscheinlich Stoppwörter sehr seltene Begriffe: nicht charakteristisch für Dokument man sucht Begriffe mittlerer Häufigkeit das allein ist noch kein besonders gutes Kriterium Einführung in Information Retrieval 66

46 Gewichtung von Begriffen man sucht Begriffe, die in wenigen Dokumenten häufig, insgesamt aber eher selten vorkommen man vermeidet Begriffe, die in vielen Dokumenten mit relativ gleicher Häufigkeit auftauchen Einführung in Information Retrieval 67

47 Gewichtung von Begriffen man bestimmt eine Vorauswahl an Indextermen (z.b. nach Häufigkeit: Eliminierung der Stoppwörter, etc.) Vorauswahl wird in der Regel zu groß sein, d.h. es müssen noch Terme gestrichen werden man will Begriffe behalten, die gut zwischen Dokumenten unterscheiden Einführung in Information Retrieval 68

48 Gewichtung von Begriffen berechne paarweise Ähnlichkeiten zwischen allen Dokumenten sim(d i, D j ), i j (z.b. mit Dice) durchschnittliche Ähnlichkeit: sim = n(n 1) 2 n 1 i=1 n j=i+1 sim(d i, D j ) durchschnittliche Ähnlichkeit ohne Term k: sim k = n(n 1) 2 n 1 i=1 n j=i+1 sim k (D i, D j ) Diskriminanz für Term k: sim k sim Einführung in Information Retrieval 69

49 Gewichtung von Begriffen positive Diskriminanz: Dokumente werden ähnlicher bei Weglassen des Terms Term unterscheidet zwischen Dokumenten guter Indexterm negative Diskriminanz: Dokumente werden unähnlicher bei Weglassen des Terms Term unterscheidet nicht zwischen Dokumenten schlechter Indexterm Einführung in Information Retrieval 70

50 Weitere Punkte weitere lexikalische Analyse auf Indextermen (Stammwortreduktion) Indexterme, die aus mehreren Einzelwörtern bestehen (gemeinsames Auftreten häufiger als Einzelauftreten) tauchen zwei Wörter immer in geringem Abstand zueinander auf? mit Parser herausfinden, der grammatikalische Satzstruktur ermittelt Einführung in Information Retrieval 71

51 Weitere Punkte ein weiterer Ansatz ist die Identifkation von Hauptwortgruppen (wird im Inquery-System verwendet) man geht davon aus, daß Hauptwörter in einem Satz die meiste Bedeutung tragen, alle anderen Wortklassen spielen nur untergeordnete Rolle Einführung in Information Retrieval 72

52 Weitere Punkte man analysiert Sätze und eliminiert systematisch alle anderen Wörter da es im Englischen kaum zusammengesetzte Wörter gibt, faßt man benachbarte Wörter zu einer Indexierungskomponente zusammen (z.b. computer science) Einführung in Information Retrieval 73

Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK

Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 08.05.2014 Gliederung 1 Vorverarbeitung

Mehr

2. Woche Eindeutige Entschlüsselbarleit, Sätze von Kraft und McMillan, Huffmancodierung

2. Woche Eindeutige Entschlüsselbarleit, Sätze von Kraft und McMillan, Huffmancodierung 2 Woche Eindeutige Entschlüsselbarleit, Sätze von Kraft und McMillan, Huffmancodierung 2 Woche: Eindeutige Entschlüsselbarleit, Sätze von Kraft und McMillan, Huffmancodierung 24/ 44 Zwei Beispiele a 0

Mehr

Kapitel 1. Exakte Suche nach einem Wort. R. Stiebe: Textalgorithmen, WS 2003/04 11

Kapitel 1. Exakte Suche nach einem Wort. R. Stiebe: Textalgorithmen, WS 2003/04 11 Kapitel 1 Exakte Suche nach einem Wort R. Stiebe: Textalgorithmen, WS 2003/04 11 Überblick Aufgabenstellung Gegeben: Text T Σ, Suchwort Σ mit T = n, = m, Σ = σ Gesucht: alle Vorkommen von in T Es gibt

Mehr

Information Retrieval,

Information Retrieval, Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Information Retrieval, Vektorraummodell Tobias Scheffer Uwe Dick Peter Haider Paul Prasse Information Retrieval Konstruktion von

Mehr

Einführung in die medizinische Bildverarbeitung WS 12/13

Einführung in die medizinische Bildverarbeitung WS 12/13 Einführung in die medizinische Bildverarbeitung WS 12/13 Stephan Gimbel Kurze Wiederholung Landmarkenbasierte anhand anatomischer Punkte interaktiv algorithmisch z.b. zur Navigation im OP Markierung von

Mehr

Inverted Files for Text Search Engines

Inverted Files for Text Search Engines Inverted Files for Text Search Engines Justin Zobel, Alistair Moffat PG 520 Intelligence Service Emel Günal 1 Inhalt Einführung Index - Inverted Files - Indexkonstruktion - Indexverwaltung Optimierung

Mehr

Vorlesung Information Retrieval Wintersemester 04/05

Vorlesung Information Retrieval Wintersemester 04/05 Vorlesung Information Retrieval Wintersemester 04/05 20. Januar 2005 Institut für Informatik III Universität Bonn Tel. 02 28 / 73-45 31 Fax 02 28 / 73-43 82 jw@informatik.uni-bonn.de 0 Themenübersicht

Mehr

Textdokument-Suche auf dem Rechner Implementierungsprojekt

Textdokument-Suche auf dem Rechner Implementierungsprojekt Textdokument-Suche auf dem Rechner Implementierungsprojekt Referent: Oliver Petra Seminar: Information Retrieval Institut für Computerlinguistik Ruprecht-Karls-Universität Heidelberg 19.01.2015 Überblick

Mehr

Kapitel IR:IV. IV. Indexkonstruktion. Stammformreduktion n-gramme Termanreicherung Wortklassenbestimmung

Kapitel IR:IV. IV. Indexkonstruktion. Stammformreduktion n-gramme Termanreicherung Wortklassenbestimmung Kapitel IR:IV IV. Indexkonstruktion Stammformreduktion n-gramme Termanreicherung Wortklassenbestimmung IR:IV-1 Index Construction STEIN 2005-2010 Bemerkungen: Die im folgenden vorgstellten Techniken und

Mehr

Vorlesung Information Retrieval Wintersemester 04/05

Vorlesung Information Retrieval Wintersemester 04/05 Vorlesung Information Retrieval Wintersemester 04/05 16. November 2004 Institut für Informatik III Universität Bonn Tel. 02 28 / 73-45 31 Fax 02 28 / 73-43 82 jw@informatik.uni-bonn.de 1 Themenübersicht

Mehr

1. Warum ist es nicht zweckmäßig, die Automatische Schlagwortvergabe für alle Kategorien eines Datensatzes durchzuführen?

1. Warum ist es nicht zweckmäßig, die Automatische Schlagwortvergabe für alle Kategorien eines Datensatzes durchzuführen? Winfried Gödert / Klaus Lepsky Laborpraktikum Automatisches Indexieren Wiederholungsfragen Die Wiederholungsfragen dienen der Vertiefung der im Laborpraktikum behandelten Materie. Sie ergänzen die Übungsaufgaben,

Mehr

optivo broadmail Professionelles E-Mail-Marketing Klick-Profilierung: Einfach und effektiv Zielgruppen erstellen

optivo broadmail Professionelles E-Mail-Marketing Klick-Profilierung: Einfach und effektiv Zielgruppen erstellen optivo broadmail Professionelles E-Mail-Marketing Klick-Profilierung: Einfach und effektiv Zielgruppen erstellen Inhalt 1. 2.. 4. 5. Mit Klick-Profilierung Tracking-Links taggen und verwalten.................................................................................

Mehr

Lexikalische Programmanalyse der Scanner

Lexikalische Programmanalyse der Scanner Der Scanner führt die lexikalische Analyse des Programms durch Er sammelt (scanned) Zeichen für Zeichen und baut logisch zusammengehörige Zeichenketten (Tokens) aus diesen Zeichen Zur formalen Beschreibung

Mehr

Gierige Algorithmen Interval Scheduling

Gierige Algorithmen Interval Scheduling Gierige Algorithmen Interval Scheduling IntervalScheduling(s,f). n length[s] 2. A {} 3. j 4. for i 2 to n do 5. if s[i] f[j] then 6. A A {i} 7. j i 8. return A Gierige Algorithmen Interval Scheduling Beweisidee:

Mehr

6. Komprimierung. (Text)komprimierung ist ein Wechsel der Repräsentation von Daten, so daß sie weniger

6. Komprimierung. (Text)komprimierung ist ein Wechsel der Repräsentation von Daten, so daß sie weniger Komprimierung 6. Komprimierung (Text)komprimierung ist ein Wechsel der Repräsentation von Daten, so daß sie weniger Platz brauchen Motivation: beschleunigt Plattenzugriffe oder Datenübertragungen Voraussetzung:

Mehr

1 Boolesches Retrieval (2)

1 Boolesches Retrieval (2) 2. Übung zur Vorlesung Internet-Suchmaschinen im Sommersemester 2009 mit Lösungsvorschlägen Prof. Dr. Gerd Stumme, M.Sc. Wi-Inf. Beate Krause 06. Mai 2009 1 Boolesches Retrieval (2) Eine Erweiterung des

Mehr

Probabilistische Primzahltests

Probabilistische Primzahltests 23.01.2006 Motivation und Überblick Grundsätzliches Vorgehen Motivation und Überblick Als Primzahltest bezeichnet man ein mathematisches Verfahren, mit dem ermittelt wird, ob eine gegebene Zahl eine Primzahl

Mehr

T = {t 1,..., t n } sei die Menge der Terme. D = {d 1,..., d m } sei die Menge der Dokumente.

T = {t 1,..., t n } sei die Menge der Terme. D = {d 1,..., d m } sei die Menge der Dokumente. Vektorraummodell T = {t 1,..., t n } sei die Menge der Terme. D = {d 1,..., d m } sei die Menge der Dokumente. Dokumente und Anfragen werden als Vektoren in einem Vektorraum aufgefaßt. Der Vektorraum wird

Mehr

Optimieren unter Nebenbedingungen

Optimieren unter Nebenbedingungen Optimieren unter Nebenbedingungen Hier sucht man die lokalen Extrema einer Funktion f(x 1,, x n ) unter der Nebenbedingung dass g(x 1,, x n ) = 0 gilt Die Funktion f heißt Zielfunktion Beispiel: Gesucht

Mehr

2.2.4 Logische Äquivalenz

2.2.4 Logische Äquivalenz 2.2.4 Logische Äquivalenz (I) Penélope raucht nicht und sie trinkt nicht. (II) Es ist nicht der Fall, dass Penélope raucht oder trinkt. Offenbar behaupten beide Aussagen denselben Sachverhalt, sie unterscheiden

Mehr

WS 2009/10. Diskrete Strukturen

WS 2009/10. Diskrete Strukturen WS 2009/10 Diskrete Strukturen Prof. Dr. J. Esparza Lehrstuhl für Grundlagen der Softwarezuverlässigkeit und theoretische Informatik Fakultät für Informatik Technische Universität München http://www7.in.tum.de/um/courses/ds/ws0910

Mehr

Referat zum Thema Huffman-Codes

Referat zum Thema Huffman-Codes Referat zum Thema Huffman-Codes Darko Ostricki Yüksel Kahraman 05.02.2004 1 Huffman-Codes Huffman-Codes ( David A. Huffman, 1951) sind Präfix-Codes und das beste - optimale - Verfahren für die Codierung

Mehr

NLP im Information Retrieval

NLP im Information Retrieval NLP im Information Retrieval Tokenisierung Stoppwortlisten Stemming, Morphologische Analyse, Kompositazerlegung Flaches Parsing: Phrasen, Mehrwortlexeme N-Gramme Lesartendisambiguierung Thesauri, Semantische

Mehr

SQL. SQL SELECT Anweisung SQL-SELECT SQL-SELECT

SQL. SQL SELECT Anweisung SQL-SELECT SQL-SELECT SQL SQL SELECT Anweisung Mit der SQL SELECT-Anweisung werden Datenwerte aus einer oder mehreren Tabellen einer Datenbank ausgewählt. Das Ergebnis der Auswahl ist erneut eine Tabelle, die sich dynamisch

Mehr

Informationstheorie als quantitative Methode in der Dialektometrie

Informationstheorie als quantitative Methode in der Dialektometrie Informationstheorie als quantitative Methode in der Dialektometrie 1 Informationstheorie als quantitative Methode in der Dialektometrie Informationstheorie als quantitative Methode in der Dialektometrie

Mehr

Einführung in die Informatik: Programmierung und Software-Entwicklung, WS 12/13. Kapitel 3. Grunddatentypen, Ausdrücke und Variable

Einführung in die Informatik: Programmierung und Software-Entwicklung, WS 12/13. Kapitel 3. Grunddatentypen, Ausdrücke und Variable 1 Kapitel 3 Grunddatentypen, Ausdrücke und Variable 2 Eine Datenstruktur besteht aus Grunddatentypen in Java einer Menge von Daten (Werten) charakteristischen Operationen Datenstrukturen werden mit einem

Mehr

Automatische Vergabe von RVK-Notationen

Automatische Vergabe von RVK-Notationen Automatische Vergabe von RVK-Notationen Magnus Pfeffer magnus.pfeffer@bib.uni-mannheim.de 23.06.2007 Vortrag HU Berlin Überblick Anlass des Projekts Grundlagen fallbasiertes Schließen Umsetzung und Implementierung

Mehr

Entropie. Um der Begriff der Entropie zu erläutern brauchen wir erst mal einige Definitionen, z.b.

Entropie. Um der Begriff der Entropie zu erläutern brauchen wir erst mal einige Definitionen, z.b. Entropie Grundlegend für das Verständnis des Begriffes der Komprimierung ist der Begriff der Entropie. In der Physik ist die Entropie ein Maß für die Unordnung eines Systems. In der Informationstheorie

Mehr

Aufbau eines Flexionslexikons für die Katalogbereinigung

Aufbau eines Flexionslexikons für die Katalogbereinigung Exposé der Studienarbeit: Aufbau eines Flexionslexikons für die Katalogbereinigung Eingereicht von: Johannes Kozakiewicz Institut für Informatik Humboldt-Universität zu Berlin Matr.Nr.: 186778 kozakiewicz@gmx.de

Mehr

Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK

Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 16.05.2013 Gliederung 1 Vorverarbeitung

Mehr

Algorithmus zur komprimierten Übertragung von Textdaten an mobile Endgeräte

Algorithmus zur komprimierten Übertragung von Textdaten an mobile Endgeräte Fachhochschule Wedel Seminararbeit Algorithmus zur komprimierten Übertragung von Textdaten an mobile Endgeräte Sven Reinck 7. Januar 2007 Inhaltsverzeichnis Inhaltsverzeichnis Motivation 2 Wörterbuch 2.

Mehr

Über Polynome mit Arithmetik modulo m

Über Polynome mit Arithmetik modulo m Über Polynome mit Arithmetik modulo m Um den Fingerprinting-Satz über die Fingerabdrücke verschiedener Texte aus dem 37. Algorithmus der Woche ( http://www-i1.informatik.rwth-aachen.de/~algorithmus/algo37.php

Mehr

Beurteilende Statistik

Beurteilende Statistik Beurteilende Statistik Wahrscheinlichkeitsrechnung und Beurteilende Statistik was ist der Unterschied zwischen den beiden Bereichen? In der Wahrscheinlichkeitstheorie werden aus gegebenen Wahrscheinlichkeiten

Mehr

Kommentiertes Beispiel für das Gaußsche Eliminationsverfahren

Kommentiertes Beispiel für das Gaußsche Eliminationsverfahren Kommentiertes Beispiel für das Gaußsche Eliminationsverfahren oder: Wie rechnet eigentlich der TI 84, wenn lineare Gleichungssysteme gelöst werden? Hier wird an einem Beispiel das Gaußsche Verfahren zum

Mehr

Strings. Stringsuche, Boyer-Moore, Textkompression, Huffman Codes.

Strings. Stringsuche, Boyer-Moore, Textkompression, Huffman Codes. Strings Stringsuche, Boyer-Moore, Textkompression, Huffman Codes. Suche Substring Häufiges Problem Relevante Beispiele: Suche ein Schlagwort in einem Buch Alphabet: A-Za-z0-9 Suche Virussignatur auf der

Mehr

Friedrich-Alexander-Universität Professur für Computerlinguistik. Nguyen Ai Huong

Friedrich-Alexander-Universität Professur für Computerlinguistik. Nguyen Ai Huong Part-of-Speech Tagging Friedrich-Alexander-Universität Professur für Computerlinguistik Nguyen Ai Huong 15.12.2011 Part-of-speech tagging Bestimmung von Wortform (part of speech) für jedes Wort in einem

Mehr

Kapitel. Platzhalter. Was sind Platzhalter?

Kapitel. Platzhalter. Was sind Platzhalter? Kapitel 3 Was sind? sind ganz wichtige Elemente bei der Programmierung. Alle Programme, die du schon kennst (wie beispielsweise die Textverarbeitung WORD oder ein Programm zum Verschicken von E-Mails),

Mehr

Datenkompression. 1 Allgemeines. 2 Verlustlose Kompression. Holger Rauhut

Datenkompression. 1 Allgemeines. 2 Verlustlose Kompression. Holger Rauhut Datenkompression Holger Rauhut 1. September 2010 Skript für die Schülerwoche 2010, 8.-11.9.2010 Hausdorff Center for Mathematics, Bonn 1 Allgemeines Datenkompression hat zum Ziel, Daten in digitaler Form,

Mehr

Eine verlustbehaftete Komprimierung ist es, wenn wir einige Kleidungsstücke zu

Eine verlustbehaftete Komprimierung ist es, wenn wir einige Kleidungsstücke zu Komprimierungen In Netzwerken müssen viele Daten transportiert werden. Dies geht natürlich schneller, wenn die Datenmengen klein sind. Um dies erreichen zu können werden die Daten komprimiert. Das heisst,

Mehr

Hypothesen: Fehler 1. und 2. Art, Power eines statistischen Tests

Hypothesen: Fehler 1. und 2. Art, Power eines statistischen Tests ue biostatistik: hypothesen, fehler 1. und. art, power 1/8 h. lettner / physik Hypothesen: Fehler 1. und. Art, Power eines statistischen Tests Die äußerst wichtige Tabelle über die Zusammenhänge zwischen

Mehr

Algorithmische Bioinformatik 1

Algorithmische Bioinformatik 1 Algorithmische Bioinformatik 1 Dr. Hanjo Täubig Lehrstuhl für Effiziente Algorithmen (Prof. Dr. Ernst W. Mayr) Institut für Informatik Technische Universität München Sommersemester 2009 Übersicht Paarweises

Mehr

16. EINIGE LÖSUNGSMETHODEN

16. EINIGE LÖSUNGSMETHODEN 134 Dieses Skript ist ein Auszug mit Lücken aus Einführung in die mathematische Behandlung der Naturwissenschaften I von Hans Heiner Storrer, Birkhäuser Skripten. Als StudentIn sollten Sie das Buch auch

Mehr

6 Ein- und Ausgabe. Bisher war unsere (Bildschirm-) Ausgabe leichtflüchtig (

6 Ein- und Ausgabe. Bisher war unsere (Bildschirm-) Ausgabe leichtflüchtig ( 6 Ein- und Ausgabe Bisher war unsere (Bildschirm-) Ausgabe leichtflüchtig ( Drucken war hoffnungslos übertrieben); heute lernen wir, wie wir die Ergebnisse unserer Programme abspeichern können, um sie

Mehr

Nichtlineare Optimierung ohne Nebenbedingungen

Nichtlineare Optimierung ohne Nebenbedingungen Kapitel 2 Nichtlineare Optimierung ohne Nebenbedingungen In diesem Abschnitt sollen im wesentlichen Verfahren zur Bestimmung des Minimums von nichtglatten Funktionen in einer Variablen im Detail vorgestellt

Mehr

15 Wahrscheinlichkeitsrechnung und Statistik

15 Wahrscheinlichkeitsrechnung und Statistik 5 Wahrscheinlichkeitsrechnung und Statistik Alles, was lediglich wahrscheinlich ist, ist wahrscheinlich falsch. ( Descartes ) Trau keiner Statistik, die du nicht selbst gefälscht hast. ( Churchill zugeschrieben

Mehr

Musterlösung: 11. Dezember 2014, 10:43. Informationstheorie und Entropiekodierung

Musterlösung: 11. Dezember 2014, 10:43. Informationstheorie und Entropiekodierung Audiotechnik II Digitale Audiotechnik: 8. Übung Prof. Dr. Stefan Weinzierl 11.12.2014 Musterlösung: 11. Dezember 2014, 10:43 Informationstheorie und Entropiekodierung Bei der Entropiekodierung werden die

Mehr

Part-of-Speech- Tagging

Part-of-Speech- Tagging Part-of-Speech- Tagging In: Einführung in die Computerlinguistik Institut für Computerlinguistik Heinrich-Heine-Universität Düsseldorf WS 2004/05 Dozentin: Wiebke Petersen Tagging Was ist das? Tag (engl.):

Mehr

Datenstrukturen & Algorithmen Lösungen zu Blatt 5 FS 14

Datenstrukturen & Algorithmen Lösungen zu Blatt 5 FS 14 Eidgenössische Technische Hochschule Zürich Ecole polytechnique fédérale de Zurich Politecnico federale di Zurigo Federal Institute of Technology at Zurich Institut für Theoretische Informatik 26. März

Mehr

Übersicht Shell-Scripten

Übersicht Shell-Scripten !!!! Wichtig: Bei Shell-Scripten enden die Zeilen nicht mit einem Strichpunkt!!!! Erste Zeile eines Shell-Scripts: #! /bin/bash Variablen in Shell-Scripts: Variablennamen müssen mit einem Buchstaben beginnen,

Mehr

Datenstrukturen & Algorithmen

Datenstrukturen & Algorithmen Datenstrukturen & Algorithmen Matthias Zwicker Universität Bern Frühling 2010 Übersicht Dynamische Programmierung Einführung Ablaufkoordination von Montagebändern Längste gemeinsame Teilsequenz Optimale

Mehr

1. Vorlesung,

1. Vorlesung, 1. Vorlesung, 16.10.2006 Einführung und Motivation, Beispiel Information versus Daten Grundlegende Konzepte Aufgaben des Anwenders Logische Sicht auf Dokumente Dokumentvorverarbeitung Dokumentsuche mit

Mehr

8 Euklidische Vektorräume und Fourierreihen

8 Euklidische Vektorräume und Fourierreihen Mathematik für Ingenieure II, SS 9 Dienstag 7.7 $Id: fourier.te,v 1.6 9/7/7 13:: hk Ep $ $Id: diff.te,v 1. 9/7/7 16:13:53 hk Ep $ 8 Euklidische Vektorräume und Fourierreihen 8.4 Anwendungen auf Differentialgleichungen

Mehr

Indexieren und Suchen

Indexieren und Suchen Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Indexieren und Suchen Tobias Scheffer Index-Datenstrukturen, Suchalgorithmen Invertierte Indizes Suffix-Bäume und -Arrays Signaturdateien

Mehr

SC18IM700-Tester v1.0. 1. Einleitung

SC18IM700-Tester v1.0. 1. Einleitung SC18IM700-Tester v1.0 1. Einleitung Der SC18IM700-Tester ist ein mittels Visual Studio.NET und in der Programmiersprache C# entwickeltes Programm. Es lehnt sich an der Funktion eines einfachen Terminal-

Mehr

Wahl eines sicheren Passworts

Wahl eines sicheren Passworts Zur Verfügung gestellt von Mcert Deutsche Gesellschaft für IT Sicherheit Weitere Informationen unter www.mcert.de Wahl eines sicheren Passworts Version 1.0 Letzte Änderung: 21. Juli 2005 Impressum Mcert

Mehr

Dynamisches Huffman-Verfahren

Dynamisches Huffman-Verfahren Dynamisches Huffman-Verfahren - Adaptive Huffman Coding - von Michael Brückner 1. Einleitung 2. Der Huffman-Algorithmus 3. Übergang zu einem dynamischen Verfahren 4. Der FGK-Algorithmus 5. Überblick über

Mehr

3. Hilfen zur Diagnose

3. Hilfen zur Diagnose 3.3 Lernstandskontrollen im Diagnoseheft Lösungen kann keine zusammengesetzten Nomen zu Bildern bilden (Aufgabe 1) Da das zusammengesetzte Nomen aus zwei Bildern besteht, sind beim Bilden des Nomens keine

Mehr

Kapitel 4. Programmierkurs. Datentypen. Arten von Datentypen. Wiederholung Kapitel 4. Birgit Engels, Anna Schulze WS 07/08

Kapitel 4. Programmierkurs. Datentypen. Arten von Datentypen. Wiederholung Kapitel 4. Birgit Engels, Anna Schulze WS 07/08 Kapitel 4 Programmierkurs Birgit Engels, Anna Schulze Wiederholung Kapitel 4 ZAIK Universität zu Köln WS 07/08 1 / 23 2 Datentypen Arten von Datentypen Bei der Deklaration einer Variablen(=Behälter für

Mehr

Pflichtteilaufgaben zu Gegenseitige Lage, Abstand, Baden-Württemberg

Pflichtteilaufgaben zu Gegenseitige Lage, Abstand, Baden-Württemberg Pflichtteilaufgaben zu Gegenseitige Lage, Abstand, Baden-Württemberg Hilfsmittel: keine allgemeinbildende Gymnasien Alexander Schwarz wwwmathe-aufgabencom September 6 Abituraufgaben (Haupttermin) Aufgabe

Mehr

Vorlesung Dokumentation und Datenbanken Klausur

Vorlesung Dokumentation und Datenbanken Klausur Dr. Stefan Brass 2. Juli 2002 Institut für Informatik Universität Giessen Vorlesung Dokumentation und Datenbanken Klausur Name: Geburtsdatum: Geburtsort: (Diese Daten werden zur Ausstellung des Leistungsnachweises

Mehr

II. Grundlagen der Programmierung

II. Grundlagen der Programmierung II. Grundlagen der Programmierung II.1. Zahlenssteme und elementare Logik 1.1. Zahlenssteme 1.1.1. Ganze Zahlen Ganze Zahlen werden im Dezimalsstem als Folge von Ziffern 0, 1,..., 9 dargestellt, z.b. 123

Mehr

Produktentwicklung damit sollten Sie rechnen

Produktentwicklung damit sollten Sie rechnen Produktentwicklung damit sollten Sie rechnen 0. Zusammenfassung Wer Produktentwicklung betreiben will, muss in erster Linie sehr viel lesen: Dokumente aus unterschiedlichsten Quellen und in vielen Formaten.

Mehr

Grundlagen der Kombinatorik

Grundlagen der Kombinatorik Statistik 1 für SoziologInnen Grundlagen der Kombinatorik Univ.Prof. Dr. Marcus Hudec Zufallsauswahl aus Grundgesamtheiten In der statistischen Praxis kommt dem Ziehen von Stichproben größte Bedeutung

Mehr

Problem: Finde für Alphabet mit n Zeichen einen Binärcode, der die Gesamtlänge eines Textes (über diesem Alphabet) minimiert.

Problem: Finde für Alphabet mit n Zeichen einen Binärcode, der die Gesamtlänge eines Textes (über diesem Alphabet) minimiert. Anwendungen von Bäumen 4.3.2 Huffman Code Problem: Finde für Alphabet mit n Zeichen einen Binärcode, der die Gesamtlänge eines Textes (über diesem Alphabet) minimiert. => nutzbar für Kompression Code fester

Mehr

Kapitel 3: Etwas Informationstheorie

Kapitel 3: Etwas Informationstheorie Stefan Lucks 3: Informationstheorie 28 orlesung Kryptographie (SS06) Kapitel 3: Etwas Informationstheorie Komplexitätstheoretische Sicherheit: Der schnellste Algorithmus, K zu knacken erfordert mindestens

Mehr

Multilinguales Information Retrieval, AG Datenbanken und Informationssysteme. Multilinguales Information Retrieval

Multilinguales Information Retrieval, AG Datenbanken und Informationssysteme. Multilinguales Information Retrieval Multilinguales Information Retrieval 1 Definition IR in einer anderen Sprache als Englisch IR auf einer einsprachigen Dokumentensammlung, die in mehreren Sprachen befragt werden kann. Information Retrieval

Mehr

Einführung in die Informatik I (autip)

Einführung in die Informatik I (autip) Einführung in die Informatik I (autip) Dr. Stefan Lewandowski Fakultät 5: Informatik, Elektrotechnik und Informationstechnik Abteilung Formale Konzepte Universität Stuttgart 24. Oktober 2007 Was Sie bis

Mehr

$Id: folgen.tex,v /05/31 12:40:06 hk Exp $ an 1 2 n 1 ist gerade, 3a n 1 + 1, a n 1 ist ungerade.

$Id: folgen.tex,v /05/31 12:40:06 hk Exp $ an 1 2 n 1 ist gerade, 3a n 1 + 1, a n 1 ist ungerade. $Id: folgen.tex,v. 202/05/3 2:40:06 hk Exp $ 6 Folgen Am Ende der letzten Sitzung hatten wir Folgen in einer Menge X als Abbildungen a : N X definiert, die dann typischerweise in der Form (a n ) n N, also

Mehr

Praktikum Maschinelle Übersetzung Lexikon and Word Alignment

Praktikum Maschinelle Übersetzung Lexikon and Word Alignment Praktikum Maschinelle Übersetzung Lexikon and Word Alignment Um die Aufgaben auszuführen, können Sie ihre Daten in folgendem Verzeichnis speichern: /project/smtstud/ss10/systems/username/ Wir werden zunächst

Mehr

Entwurf von Algorithmen - Kontrollstrukturen

Entwurf von Algorithmen - Kontrollstrukturen Entwurf von Algorithmen - Kontrollstrukturen Eine wichtige Phase in der Entwicklung von Computerprogrammen ist der Entwurf von Algorithmen. Dieser Arbeitsschritt vor dem Schreiben des Programmes in einer

Mehr

Effiziente Algorithmen

Effiziente Algorithmen Effiziente Algorithmen Aufgabe 5 Gruppe E Martin Schliefnig, 0160919 Christoph Holper, 9927191 Ulrike Ritzinger, 0125779 1. Problemstellung Gegeben ist eine Datei, die eine Million reelle Zahlen enthält.

Mehr

1 Aussagenlogischer Kalkül

1 Aussagenlogischer Kalkül 1 Aussagenlogischer Kalkül Ein Kalkül in der Aussagenlogik soll die Wahrheit oder Algemeingültigkeit von Aussageformen allein auf syntaktischer Ebene zeigen. Die Wahrheit soll durch Umformung von Formeln

Mehr

6 Reelle und komplexe Zahlenfolgen

6 Reelle und komplexe Zahlenfolgen Mathematik für Physiker I, WS 200/20 Freitag 0.2 $Id: folgen.tex,v. 200/2/06 :2:5 hk Exp $ $Id: reihen.tex,v. 200/2/0 4:4:40 hk Exp hk $ 6 Reelle und komplexe Zahlenfolgen 6. Cauchyfolgen Wir kommen nun

Mehr

Run Length Coding und Variable Length Coding

Run Length Coding und Variable Length Coding Fachbereich Medieninformatik Hochschule Harz Run Length Coding und Variable Length Coding Referat Matthias Zittlau 11034 Abgabe: 15.01.2007 Inhaltsverzeichnis 1. RLC...1 2.1 Einführung...1 2.2 Prinzip...1

Mehr

3 Matrizenrechnung. 3. November

3 Matrizenrechnung. 3. November 3. November 008 4 3 Matrizenrechnung 3.1 Transponierter Vektor: Die Notation x R n bezieht sich per Definition 1 immer auf einen stehenden Vektor, x 1 x x =.. x n Der transponierte Vektor x T ist das zugehörige

Mehr

Strings. Daten aus Dateien einlesen und in Dateien speichern.

Strings. Daten aus Dateien einlesen und in Dateien speichern. Strings. Daten aus Dateien einlesen und in Dateien speichern. Strings Ein String ist eine Zeichenkette, welche von MATLAB nicht als Programmcode interpretiert wird. Der Ausdruck 'a' ist ein String bestehend

Mehr

Ideen und Konzepte der Informatik. Programme und Algorithmen Kurt Mehlhorn

Ideen und Konzepte der Informatik. Programme und Algorithmen Kurt Mehlhorn Ideen und Konzepte der Informatik Programme und Algorithmen Kurt Mehlhorn November 2016 Algorithmen und Programme Algorithmus = Schritt-für-Schritt Vorschrift zur Lösung eines Problems. Formuliert man

Mehr

Putzi4Win 1/ 9. Dokumentation

Putzi4Win 1/ 9. Dokumentation Dokumentation Putzi4Win Manager Plugin-Manager Der Pluginmanager verwaltet die Plugins von Putzi4Win. Mit diesem Programm haben Sie eine Übersicht über die installierten Plugins die auf dem Webswerver

Mehr

2 - Konvergenz und Limes

2 - Konvergenz und Limes Kapitel 2 - Folgen Reihen Seite 1 2 - Konvergenz Limes Definition 2.1 (Folgenkonvergenz) Eine Folge komplexer Zahlen heißt konvergent gegen, wenn es zu jeder positiven Zahl ein gibt, so dass gilt: Die

Mehr

WMS Block: Management von Wissen in Dokumentenform PART: Text Mining. Myra Spiliopoulou

WMS Block: Management von Wissen in Dokumentenform PART: Text Mining. Myra Spiliopoulou WMS Block: Management von Wissen in nform PART: Text Mining Myra Spiliopoulou WIE ERFASSEN UND VERWALTEN WIR EXPLIZITES WISSEN? 1. Wie strukturieren wir Wissen in nform? 2. Wie verwalten wir nsammlungen?

Mehr

Mathematik: Mag. Schmid Wolfgang Arbeitsblatt 5 1. Semester ARBEITSBLATT 5 RECHNEN MIT BRÜCHEN. 1. Arten von Brüchen und Definition

Mathematik: Mag. Schmid Wolfgang Arbeitsblatt 5 1. Semester ARBEITSBLATT 5 RECHNEN MIT BRÜCHEN. 1. Arten von Brüchen und Definition ARBEITSBLATT 5 RECHNEN MIT BRÜCHEN 1. Arten von Brüchen und Definition Beispiel: 3 5 Zähler Bruchstrich Nenner Definition: Jeder Bruch hat folgendes Aussehen: Zähler. Der Nenner gibt an, Nenner in wie

Mehr

R C 1s =0, C T 1

R C 1s =0, C T 1 Aufgaben zum Themengebiet Aufladen und Entladen eines Kondensators Theorie und nummerierte Formeln auf den Seiten 5 bis 8 Ein Kondensator mit der Kapazität = 00μF wurde mit der Spannung U = 60V aufgeladen

Mehr

$Id: integral.tex,v /05/05 14:57:29 hk Exp hk $ ln(1 + t) 2 = ln 2 ln 3 + ln 2 = ln

$Id: integral.tex,v /05/05 14:57:29 hk Exp hk $ ln(1 + t) 2 = ln 2 ln 3 + ln 2 = ln $Id: integral.tex,v.5 2009/05/05 4:57:29 hk Exp hk $ 2 Integralrechnung 2.3 Die Integrationsregeln Wir wollen noch eine letzte kleine Anmerkung zur Substitutionsregel machen. Der letzte Schritt bei der

Mehr

Entschlüsselung eines Kryptogramms

Entschlüsselung eines Kryptogramms Entschlüsselung eines Kryptogramms Udo Hebisch hebisch@math.tu-freiberg.de Institut für Diskrete Mathematik und Algebra, TU Bergakademie Freiberg Mai 2014 Zum folgenden Geheimtext ist der Klartext zu

Mehr

Informatik II, SS 2014

Informatik II, SS 2014 Informatik II SS 2014 (Algorithmen & Datenstrukturen) Vorlesung 7 (21.5.2014) Binäre Suche, Hashtabellen I Algorithmen und Komplexität Abstrakte Datentypen : Dictionary Dictionary: (auch: Maps, assoziative

Mehr

Thüringer CAS-Projekt

Thüringer CAS-Projekt Thema Integralrechnung Sek I Sek II Class-Pad TI-Nspire CAS. Schlagworte: Einführung Integralrechnung, Bestimmtes Integral Lehrermaterial: Das bestimmte Integral Inhalt Beschreibung der stofflichen Fülle

Mehr

1 Zahlentheorie. 1.1 Kongruenzen

1 Zahlentheorie. 1.1 Kongruenzen 3 Zahlentheorie. Kongruenzen Der letzte Abschnitt zeigte, daß es sinnvoll ist, mit großen Zahlen möglichst einfach rechnen zu können. Oft kommt es nicht darauf, an eine Zahl im Detail zu kennen, sondern

Mehr

Kapitel 10. Programmierkurs. Grundlagen von Exceptions Behandlung von Exceptions

Kapitel 10. Programmierkurs. Grundlagen von Exceptions Behandlung von Exceptions Kapitel 10 Programmierkurs Birgit Engels Anna Schulze Zentrum für Angewandte Informatik Köln Exceptions Behandlung von Exceptions Der finally-block catch or throw WS 07/08 1/ 23 2/ 23 Grundlagen von Exceptions

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Tobias Scheffer Thomas Vanck

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Tobias Scheffer Thomas Vanck Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse Tobias Scheffer Thomas Vanck Überblick Problemstellung/Motivation Deterministischer Ansatz: K-Means Probabilistischer

Mehr

Praktikum zur Vorlesung Einführung in die Programmierung WS 14/15 Blatt 3

Praktikum zur Vorlesung Einführung in die Programmierung WS 14/15 Blatt 3 Michael Jugovac Dominik Kopczynski Jan Quadflieg Till Schäfer Stephan Windmüller Dortmund, den 30. Oktober 2014 Praktikum zur Vorlesung Einführung in die Programmierung WS 14/15 Blatt 3 Es können 12 (+5

Mehr

Betragsgleichungen und die Methode der Fallunterscheidungen

Betragsgleichungen und die Methode der Fallunterscheidungen mathe online Skripten http://www.mathe-online.at/skripten/ Betragsgleichungen und die Methode der Fallunterscheidungen Franz Embacher Fakultät für Mathematik der Universität Wien E-mail: franz.embacher@univie.ac.at

Mehr

Untersuchen Sie, inwiefern sich die folgenden Funktionen für die Verwendung als Hashfunktion eignen. Begründen Sie Ihre Antwort.

Untersuchen Sie, inwiefern sich die folgenden Funktionen für die Verwendung als Hashfunktion eignen. Begründen Sie Ihre Antwort. Prof. aa Dr. Ir. Joost-Pieter Katoen Christian Dehnert, Friedrich Gretz, Benjamin Kaminski, Thomas Ströder Tutoraufgabe 1 (Güte von Hashfunktionen): Untersuchen Sie, inwiefern sich die folgenden Funktionen

Mehr

Arithmetisches Codieren

Arithmetisches Codieren Arithmetisches Codieren 1. Motivation: Als Alternative zum arithmetischen Codieren bot sich damals als effizientester Algorithmus das Huffmann-Coding an. Dieses jedoch hatte einen entscheidenden Nachteil:

Mehr

Eine kurze Methode, Summen unendlicher Reihen durch Differentialformeln zu untersuchen

Eine kurze Methode, Summen unendlicher Reihen durch Differentialformeln zu untersuchen Eine kurze Methode, Summen unendlicher Reihen durch Differentialformeln zu untersuchen Leonhard Euler Auch wenn ich diesen Gegenstand schon des Öfteren betrachtet habe, sind die meisten Dinge, die sich

Mehr

Datenstrukturen und Algorithmen. Christian Sohler FG Algorithmen & Komplexität

Datenstrukturen und Algorithmen. Christian Sohler FG Algorithmen & Komplexität Datenstrukturen und Algorithmen Christian Sohler FG Algorithmen & Komplexität 1 Clustering: Partitioniere Objektmenge in Gruppen(Cluster), so dass sich Objekte in einer Gruppe ähnlich sind und Objekte

Mehr

Lemmatisierung und Stemming in Suchmaschinen

Lemmatisierung und Stemming in Suchmaschinen Lemmatisierung und Stemming in Suchmaschinen Hauptseminar Suchmaschinen Computerlinguistik Sommersemester 2016 Stefan Langer stefan.langer@cis.uni-muenchen.de Trefferquote (Recall) und Genauigkeit (Precision)

Mehr

Einführung in die Informatik 2

Einführung in die Informatik 2 Einführung in die Informatik 2 Suchen in Texten Sven Kosub AG Algorithmik/Theorie komplexer Systeme Universität Konstanz E 202 Sven.Kosub@uni-konstanz.de Sprechstunde: Freitag, 12:30-14:00 Uhr, o.n.v.

Mehr

Lineare Gleichungssysteme

Lineare Gleichungssysteme Poelchau-Oberschule Berlin A. Mentzendorff September 2007 Lineare Gleichungssysteme Inhaltsverzeichnis 1 Grundlagen 2 2 Das Lösungsverfahren von Gauß 4 3 Kurzschreibweise und Zeilensummenkontrolle 6 4

Mehr

Indexvokabular {Korsika, Sardinien, Strand, Ferienwohnung, Gebirge} Verknüpfung von Enthaltenseinsbedingungen mittels Boole'scher Junktoren.

Indexvokabular {Korsika, Sardinien, Strand, Ferienwohnung, Gebirge} Verknüpfung von Enthaltenseinsbedingungen mittels Boole'scher Junktoren. Boole'sches Modell Boole'sches Modell: Beispiel basiert auf Mengentheorie und Boole'scher Algebra sehr einfaches Modell mit klarer Semantik Dokumente als Mengen von Indextermen Termgewichte sind binär:

Mehr

Berechnung von W für die Elementarereignisse einer Zufallsgröße

Berechnung von W für die Elementarereignisse einer Zufallsgröße R. Albers, M. Yanik Skript zur Vorlesung Stochastik (lementarmathematik) 5. Zufallsvariablen Bei Zufallsvariablen geht es darum, ein xperiment durchzuführen und dem entstandenen rgebnis eine Zahl zuzuordnen.

Mehr