Maschinelle Sprachverarbeitung: Tokenisierung
|
|
- Kora Bergmann
- vor 6 Jahren
- Abrufe
Transkript
1 Maschinelle Sprachverarbeitung: Tokenisierung BASIEREND AUF FOLIEN VON DR. H. ZINSMEISTER Gertrud Faaβ Universität StuPgart, InsRtut für maschinelle Sprachverarbeitung Azenbergstr. 12, StuPgart stupgart.de 1
2 Einleitung Einleitung Einfache Textzerlegung Herausforderungen an die Tokenisierung Tokenisierungsalgorithmus Zusammenfassung Referenzen 2
3 Einleitung Token Bausteine von Texten Wörter im `klassischen Sinn (Grapheme, orthographische Wörter). Abkürzungen (HdM, Dr., BLZ, Zahlzeichen: 42, 7., 2 n, 0711, Satzzeichen:.,;:!? SonsRges: DINa4, (i), }, 3
4 Begriffe Tokenisierung (auch: SegmenRerung) Vorgang, bei dem die `rohe Sequenz von Zeichen eines Textes in Sätze und diese wiederum in Wörter bzw. Token geteilt wird 4
5 MoRvaRon: Anwendungen Korrekturprogramme Finden und Korrigieren von Fehlern im Text Wortabgleich InformaRonsextrakRon Füllen von Templates Kopieren von relevanten Wörtern TextklassifikaRon Zuordnung von Texten zu definierten Klassen Klassenzugehörigkeit aufgrund des WorRnventars 5
6 Einfache Textzerlegung Text (das Beispielkorpus): Dieser Arzt ist nep. Für den Rechner: Gewünschte Zerlegung: Dieser Arzt ist nett. 6
7 Tokenisierung: Herausforderungen Zerlegung in Token erster Ansatz: Interpretation von Leerstellen als Übergange z w i s c h e n To k e n u n d A b t r e n n u n g d e r Satzzeichen von den Token. Text (das Beispielkorpus 2): Dr. House ist eine Serie über den Arzt Dr. Gregory House. Gewünschte Zerlegung: Dr. House ist eine Serie über den Arzt Dr. Gregory House. Erreichte Zerlegung: Dr. House ist eine Serie über den Arzt Dr. Gregory House. 7
8 Herausforderungen an Tokenisierung Schreibweise von Zahlen (Ab)Kürzungen Großschreibung Satzgrenzen Bindestriche Leerstellen KliRka 8
9 Herausforderungen an Tokenisierung Schreibweise von Zahlen Struktur relarv eindeurg aber je nach Sprache unterschiedlich festgelegt Sprachspezifische Regelung (nach wikipedia.de) Englisch: 123, Französisch: ,78 Deutsch ,78 (Geldbeträge: 3.456,78) 9
10 Herausforderungen an Tokenisierung Kürzungen (1 von 2) Tilgung am Wortanfang oder ende Professor Prof SebasRan Bas) Abkürzungen Folge von Lauten, die normalerweise den Anfangsbuchstaben von Kompositateilen oder Silbenanfängen entsprechen Arbeitsbeschaffungsmassnahmen ABM 10
11 Herausforderungen an Tokenisierung Kürzungen (2 von 2) Akronyme Bildung eines neuen phonetischen Worts Deutsche Industrienorm DIN (Meibauer et al. 2007:33) Kürzungen sind keine geschlossene Wortklasse, d.h. eine Auflistung (im Lexikon) ist nicht möglich! 11
12 Herausforderungen an Tokenisierung Großschreibung (1 von 2) Im Englischen sind großgeschriebene Wörter normalerweise Eigennamen, man findet sie aber auch Als erstes Wort im Satz Als Teil eines Titels Nach einem Strichpunkt oder öffnendem Anführungsstrich 12
13 Herausforderungen an Tokenisierung Großschreibung (2 von 2) Großgeschriebene Wörter können ambig sein ConRnental (europäisch/europäer) vs. conrnental (konrnental) Fällt Ihnen ein Beispiel für das Deutsche ein? 13
14 Herausforderungen an Tokenisierung Satzgrenzen Normalerweise durch Satzpunkt, Ausrufezeichen oder Fragezeichen markiert Andere FunkRonen des Punkts Dezimalpunkt im Englischen Tausenderpunkt im Deutschen (Geldbeträge) Teil einer Abkürzung Ende einer Abkürzung Anna went home from U. S. A. K. Rowling never went there. 14
15 Herausforderungen an Tokenisierung Bindestriche (1 von 2) Mögliche Strings x y 1. Re gierung 2. De facto Regierung 3. Hin und Rückflug Disambiguierungsaufgaben des Tokenisierers: String xy: WorPrennung: Fall 1 soll wieder zusammengefügt werden (Regierung) 15
16 Herausforderungen an Tokenisierung Bindestriche (2 von 2) Disambiguierungsaufgaben des Tokenisierers: String x y: Bindestrichkomposita, Fall 2 soll mit Bindestrich verbleiben (de facto Regierung) String x y: trunkiertes Wort (abgeschnipen, verkürzt lt. LEO) soll getrennt bleiben, Bindestrich bleibt erhalten: Hin und Rückflug... 16
17 Herausforderungen an Tokenisierung Leerstellen Bisherige Annahme: Token enthalten keine Leerstellen Mehrwortausdruecke? De facto, ad hoc, ne pas Daimler Chrysler AG 1. Feb Wena <o na le> tšhelete> na? 17
18 Herausforderungen an Tokenisierung KliRka Verbinden sich mit einem anderen Wort zu einem Token, meist ohne trennende Leerstelle Englisch: Isn t we ll Deutsch: SRmmt s Franzoesisch, Spanisch, etc.. Sepedi: ke bona wena Ich sehe Dich ke a mpona Ich sehe mich 18
19 Tokenisierungsalgorithmus Tokenisierungsalgorithmus Was ist ein Wort? (GrefenstePe und Taipanen 1994) Enyernen von Leerzeichen (Tabulatoren, Umbrüchen) Markierung von Trennungsstrichen Trennen von AlternaRven (und/oder, 1998/99) Erkennen und Markieren von Satzzeichen (Punkt, Komma,...) Zusammenführen von WorPeilen (erst malig, 2 000) 19
20 Tokenisierungsalgorithmus Disambiguierungsmethoden HeurisRken und InformaRonsquellen WörterbuchinformaRon Abkürzungslisten (manuell/automarsch) SatzposiRon, usw. 20
21 Tokenisierungsalgorithmus HeurisRsche Ansätze BesRmmte HeurisRken über die Zugehörigkeit von einem Token zu einer Menge von Klassen Definiere die HeurisRken als Regel und ordne sie nach ihrer Zuverlässigkeit KlassifikaRonsansätze (überwacht/unüberwacht) Entscheidungsbäume, Neuronale Netze, Maximum Entropy, etc. 21
22 Zusammenfassung WichRgste Problemkategorien Disambiguierung von Satzgrenzen Normalisierung von großgeschriebenen Wörtern Erkennen von Abkürzungen (u.ä.) 22
23 Bonbon: Diskussion: Und wenn es keine Leerzeichen gibt? Dzongkha <s> དབང འ&ས ( ང དཔ ན NNP ཨམ འ.ག ཉ མ NN ག CG གཟ མ དཔ ན NN 3རཔ NN པ5 ཚ8 དབང བ9 ས NNP : ས VBAUX བ;ར VBAt བའ CG <= ཟ> NNP PUN PUN ཉ ནམ NN དང པ OD PUN </s> 23
24 Referenzen Jurafsky and MarRn (2008). Speech and Language Processing. 2 nd EdiRon. Upper Saddle River: PrenRce Hall, Kapitel 2.1,2.2 Sabine Schulte im Walde (2006): TokenisaRon and Morpho SyntacRc AnnotaRon. Slides of the course IntroducRon to Corpus Resources, AnnotaRon and Access (zusammen mit Heike Zinsmeister), 18 th European Summer School in Logic, Language and informaron, Malaga, Spain Gregory GrefenstePe und Pasi Tapanainen (1994): What is a word, what is a sentence? Problems of tokenizaron. In Proceedings of the 3 rd Conference on ComputaRonal Lexicography and Text Research, S Budapest, Hungary Meibauer et al. (2007): Einführung in die germanisrsche LinguisRk. Metzler. Andrei Mikheev (2002): Periods, Capitalized Words,etc. ComputaRonal LinguisRcs, 28(3): Andrei Mikheev (2003): Text segmentaron. In: Anke Lüdeling and Merja Kytö, editors: Corpus LinguisRcs. An InternaRonal Handbook. Mouton de Gruyter, Berlin, im Erscheinen 24
Maschinelle Sprachverarbeitung Tokenisierung
Maschinelle Sprachverarbeitung Tokenisierung Dr. Heike Zinsmeister FB Sprachwissenschaft Universität Konstanz 29. Oktober 2008 Gliederung 1 Einleitung 2 Einfache Textzerlegung 3 Herausforderungen an die
MehrEinführung in PERL 2 Reguläre Ausdrücke
Einführung in PERL 2 Reguläre Ausdrücke BASIEREND AUF FOLIEN VON DR. H. ZINSMEISTER und dem Buch `Einführung in Perl (Lama Buch) von RL Schwartz&T Phoenix sowie hwp://de.sel[tml.org/perl/sprache/regexpr.htm
MehrSprachsynthese: Textnormalisierung
Sprachsynthese: (Änderungen von F. Schiel 2016) Institut für Phonetik und Sprachverarbeitung Ludwig-Maximilians-Universität München reichelu schiel@phonetik.uni-muenchen.de 24. Oktober 2016 Inhalt = Vorverarbeitung
MehrOM SWASTI - CHOG SUM TSA SUM TSHE LHA RAB JAM DANG / KHYE PAR ORGYEN PE JUNG YAB YUM GYI /
ཞབས བར ན གས ལ འད བས ད ང ས ང ས ན ཚ ག འཆ མ ད ལ ས ཞ ས བ བ བཞ གས ས Ein Langlebensgebet, genannt die Rishi-Worte des Bestrebens in den fünf unsterblichen Versen - Gebet für das lange Leben des Erw. Lopon Ogyan
MehrMaschinelle Sprachverarbeitung: KollokaKonen (Teil 2: Modelle von Wortsequenzen)
basierend auf H Schmid snlp 4 KollokaKonen Maschinelle Sprachverarbeitung: KollokaKonen (Teil 2: Modelle von Wortsequenzen) Basierend auf Kap 3 McEnery & Wilson (2001) & H Schmid snlp Vorlesungsskript
MehrPart-of-Speech- Tagging
Part-of-Speech- Tagging In: Einführung in die Computerlinguistik Institut für Computerlinguistik Heinrich-Heine-Universität Düsseldorf WS 2004/05 Dozentin: Wiebke Petersen Tagging Was ist das? Tag (engl.):
MehrMaschinelle Sprachverarbeitung: Modelle zu Wortsequenzen Teil 1
Maschinelle Sprachverarbeitung: Modelle zu Wortsequenzen Teil 1 Basierend auf Kapitel 4 P.M. Nugues (2006) Gertrud Faaβ Universität StuVgart, InsXtut für maschinelle Sprachverarbeitung Azenbergstr. 12,
Mehrཐ ན མ འ ལ གས བཤད ས མ ཅ པའ ས ང པ ལ ན པའ དབང པ བཞ གས ས GA NGA DA NA BA MA A / RA LA SA NAM JE JUG CHU / DA DANG SA NYI YANG JUG TE /
Thönmi Sambhotas 30 Verse - ཐ ན མ འ ལ གས བཤད ས མ ཅ པའ ས ང པ ལ ན པའ དབང པ བཞ གས ས Die Kurzfassung der 30 Verse von Thonmi (Sambhota), die Erklärung der Essenz, genannt Der Mächtigste der Lebensbäume, ist
Mehrཉ ན ཐ. Tibetisch-Deutsches Tagebuch zur täglichen Übung
ཉ ན ཐ Tibetisch-Deutsches Tagebuch zur täglichen Übung Einleitung Zur täglichen Übung habe ich dieses Tagebuch entworfen. Die Idee dahinter ist, dass man durch das regelmäßige ausfüllen so viel Übung bekommt
MehrDas Schatzhaus des Segens Eine Praxis auf Buddha Shakyamuni
Das Schatzhaus des Segens - ཐ བ ཆ ག བ ན ར བས གཏ ར མཛ ད བཞ གས ས Das Schatzhaus des Segens Eine Praxis auf Buddha Shakyamuni von Mipham Rinpoche ན མ ག ར ཤ ཀ མ ན ཡ NAMO GURU SHAKYAMUNIYE! ད ཡང མད ཏ ང འཛ ན
MehrWunschgebet ན མ རཏ ཏ ཡ ཡ NAMO RATNA TRA YA YA // KHA KHYAB GYAL WA SE CHE THAM CHE KYI / KU DANG YE SHE GYAM TSO I NGO WO NYI /
Wunschgebet verfasst von S.H. Dudjom Rinpoche ན མ རཏ ཏ ཡ ཡ NAMO RATNA TRA YA YA // མཁའ ཁ བ ར ལ བ ས ས བཅས ཐམས ཅད ཀ ས དང ཡ ཤ ས ར མཚ འ ང བ ཉ ད KHA KHYAB GYAL WA SE CHE THAM CHE KYI / KU DANG YE SHE GYAM TSO
MehrDer Erwerb und die Verarbeitung der Laute bilingualer Sprecher
Der Erwerb und die Verarbeitung der Laute bilingualer Sprecher Referat von Angelika Giglberger am 22.05.2007 Hauptseminar Spracherwerb SS 2007 Prof. Dr. Jonathan Harrington Der Erwerb und die Verarbeitung
MehrMASCHINELLE SPRACHVERARBEITUNG Gertrud Faaß Basierend auf Folien von Dr. H Zinsmeister. Einführung in PERL
Einführung in PERL BASIEREND AUF FOLIEN VON DR. H. ZINSMEISTER und dem Buch `Einführung in Perl (Lama Buch) von RL Schwartz&T Phoenix Gertrud Faaβ Universität StuVgart, InsXtut für maschinelle Sprachverarbeitung
MehrEinführung in die Computerlinguistik Tokenizer und Textstatistik mit Perl
Einführung in die Computerlinguistik Tokenizer und mit Perl Dozentin: Wiebke Petersen 7.6.2010 Wiebke Petersen Einführung CL (SoSe 2010) 1 Tokenisierung Segmentierung von Flieÿtext in Wörter. Segmentierung
MehrModul 2: Textsegmentierung: Automatische Wort- und Satzsegmentierung
Institut für Computerlinguistik Sprachtechnologie in den Digital Humanities Modul 2: Textsegmentierung: Automatische Wort- und Satzsegmentierung Simon Clematide Themen Wortsegmentierung Tokenisierung =
MehrSeminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK
Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 08.05.2014 Gliederung 1 Vorverarbeitung
MehrNatürlichsprachliche Systeme I Materialien zur Vorlesung
Natürlichsprachliche Systeme I Materialien zur Vorlesung D. Rösner Institut für Wissens- und Sprachverarbeitung Fakultät für Informatik Otto-von-Guericke Universität Magdeburg WS 2010/11, 19. Oktober 2010,
MehrGenannt Die Saat des dreifachen Glaubens
Hagiographisches Gebet an Dudjom Rinpoche, genannt: ས ལ པའ གཏ ར ཆ ན འཇ གས བ ལ ཡ ཤ ས ར ར འག འད ལ ག ང པ ར ལ ག ར མ ཐར གས ལ འད བས དད གས མ ས བ ན ཅ ས བ བ བཞ གས ས Ein hagiographisches Gebet an den großen Schatzfinder
Mehrགས ལ འད བས བར ཆད ལམ ས ལ ན ཨ ཨ ཧ བཛ ག ར པད ས ད ཧ OM AH HUM BADZRA GURU PEMA SIDDHI HUM //
Barche Lamsel - Das Bittgebet an Guru Rinpoche zum གས ལ འད བས བར ཆད ལམ ས ལ ན Barche Lamsel - Das Bittgebet an Guru Rinpoche zum ཨ ཨ ཧ བཛ ག ར པད ས ད ཧ OM AH HUM BADZRA GURU PEMA SIDDHI HUM // ཆ ས ས ས ང
MehrÜbersicht. Einführung in Perl Datenstrukturen I. Datentypen Übersicht (1) Kernbegriffe. Kernbegriffe. Einführung der Datentypen.
Übersicht Kernbegriffe Einführung der Datentypen Skalare im Detail Vergleichsoperatoren Standardeingabe chomp-operator while-schleife Perl, 24.10.03 Datentypen I 1 Datentypen Übersicht (1) Datentyp Erklärung
Mehrས འག ར བས ན པ ར ས པའ ས ན ལམ ཆ ས ར ལ དག ས པའ ཞལ ལ ང ཞ ས བ བ ན. Die mündliche Übertragung, welche die Dharma-Könige erfreut -
Die mündliche Übertragung, welche die Dharma-Könige erfreut - Ein Wunschgebet zum Erhalt der Nyingma-Tradition ས འག ར བས ན པ ར ས པའ ས ན ལམ ཆ ས ར ལ དག ས པའ ཞལ ལ ང ཞ ས བ བ ན Die mündliche Übertragung, welche
MehrRechtschreibdidaktik WS 2006
Rechtschreibdidaktik WS 2006 Duden-Regelwerk z. B. 112 Stoffprogression Jg. 3-10 Methoden Aufgaben 23.09.2012 Dr.J. Schulze-Bergmann 1 Rechtschreibdidaktik WS 2006 Die Einführung in den das Buchstabeninventar,
MehrTokenisierer Überblick
1 1. Überblick (engl. Tokenizers) sind Programme, die Texte für die Weiterverarbeitung durch anderer Programme (z.b. Tagger, Stemmer, Lemmatisierer oder Parser) in Teilketten, sog. Token zerlegen. Was
MehrBekenntnisgebete & Tsog RANG NANG YESHE KYI KHOR LO KHA KHYAB TU SAL WAR GYUR // རང ས ང ཡ ཤ ས ཀ འཁ ར ལ མཁའ ཁ བ ཏ སད པ ག ར
Bekenntnisgebete & Tsog Das unausdrückbare absolute Bekenntnis Bekenntnisgebete & Tsog Bekenntnisgebete & Tsog རང ས ང ཡ ཤ ས ཀ འཁ ར ལ མཁའ ཁ བ ཏ སད པ ག ར RANG NANG YESHE KYI KHOR LO KHA KHYAB TU SAL WAR
Mehrdenn sonst kann man gleich mit der Schreibmaschine schreiben
denn sonst kann man gleich mit der Schreibmaschine schreiben Seitenlayout 3 1,5 DIN A4 Hochformat einseitig bedruckt Seitenränder in cm: siehe rechts Seitenzahl: Abstand der Kopfzeile von oben:
MehrEinführung. Stefanie Dipper Stefan Evert Heike Zinsmeister
Einführung Stefanie Dipper Stefan Evert Heike Zinsmeister München, 28.1.2011 Korpus eine Sammlung gesprochener oder geschriebener Äußerungen typischerweise digitalisiert und maschinenlesbar Ebenen eines
MehrSeit Einführung der neuen Rechtschreibregeln am 1. August 1998 ist die Verwendung von ss und ß eindeutig geregelt:
Typische Rechtschreibprobleme von Ingenieuren Seite 1 1 Einleitung Die folgenden Seiten zeigen typische Fehler auf, die in Schriftdokumenten von Ingenieuren und Ingenieurstudenten zu finden sind. Die Aufzählung
MehrTagging mit Hidden Markov Models und Viterbi-Algorithmus
Tagging mit Hidden Markov Models und Viterbi-Algorithmus Annelen Brunner, Stephanie Schuldes, Nicola Kaiser, Olga Mordvinova HS Parsing SoSe 2003 PD Dr. Karin Haenelt Inhalt Ziel des Seminarprojekts Theorie:
MehrErkennung fremdsprachiger Ausdrücke im Text
Erkennung fremdsprachiger Ausdrücke im Text Jekaterina Siilivask Betreuer: Dr. Helmut Schmid Centrum für Informations- und Sprachbearbeiting Ludwig- Maximilians- Universität München 19.05.2014 Jekaterina
MehrZerlegung von Webuser-Kommentaren
Zerlegung von Webuser-Kommentaren Simon Rüppel Lehrstuhl für heoretische Informationstechnik 20.02.2013 1. Motivation Ziel: Part of Speech (POS) - agging für Social Media exte -> Jedem Wort (oken) eine
MehrMaschinelle Sprachverarbeitung
Maschinelle Sprachverarbeitung BASIEREND AUF FOLIEN VON DR. H. ZINSMEISTER Gertrud Faaβ Universität StuNgart, InsPtut für maschinelle Sprachverarbeitung Azenbergstr. 12, 70174 StuNgart 0711 685 81385 faaszgd@ims.uni
MehrEinführung in das Maschinelle Lernen I
Einführung in das Maschinelle Lernen I Vorlesung Computerlinguistische Techniken Alexander Koller 26. Januar 2015 Maschinelles Lernen Maschinelles Lernen (Machine Learning): äußerst aktiver und für CL
MehrPart of Speech Tagging. Linguistische Sicht. Carolin Deck
Part of Speech Tagging Linguistische Sicht Carolin Deck Gliederung 1. Begriffsklärung 2. Vorstellung zwei wichtiger Tagsets (STTS & PTTS) 3. Bedeutung des POS-Tagging für die Sprachwissenschaft 4. Tagzuweisung
MehrVorlesung Konsumentenverhalten 2016_1
Vorlesung Konsumentenverhalten 2016_1 Universität des Saarlandes Centrum für Evaluation (CEval) Vorlesung Konsumentenverhalten Folienskript: Download unter www.tu-chemnitz.de/wirtschaft/bwl2/lehre/downloads.php/skripte
MehrSprachlehr- & Sprachlernsysteme
Sprachlehr- & Sprachlernsysteme Tutorielle & Toolartige Systeme Einführung in die Computerlinguistik WS 04/05 Dozentin: Wiebke Petersen Referentin: Maria Ruhnke Tutorielle Systeme lernen durch Instruktion,
MehrSwantje Westpfahl & Thomas Schmidt POS für(s) FOLK
Swantje Westpfahl & Thomas Schmidt POS für(s) FOLK Problemanalyse des POS- Taggings für spontansprachliche Daten anhand des Forschungsund Lehrkorpus Gesprochenes Deutsch 2 FOLK Forschungs- und Lehrkorpus
MehrÜberblick. GK C: Einführung in die Korpuslinguistik. Fragen. Sprachwandel/Sprachvariation. Fragen. NB: Register
GK C: Einführung in die Korpuslinguistik Anke Lüdeling anke.luedeling@rz.hu-berlin.de Sommersemester 2003 Überblick Registervariation multidimensionale Analyse Register quantitative Analyse Dimensionen:
MehrReference Style Guide Für den Rechenschaftsbericht des Rektors
Hochschule Ravensburg-Weingarten Reference Style Guide Für den Rechenschaftsbericht des Rektors Professor Dr. Michael Pfeffer, Prorektor für Forschung und Internationale Beziehungen Hochschule Ravensburg-Weingarten
MehrSchriftsysteme. Schriftsysteme. Seminar: Sprachenidentifizierung Dozent: Stefan Langer CIS, Universität München Wintersemester 2009
Seminar: Sprachenidentifizierung Dozent: Stefan Langer CIS, Universität München Wintersemester 2009 Typen von n Alphabete Lateinische Schrift Griechische Schrift Kyrillische Schrift Konsonantenschriften
MehrSeminarprojekt und Europarl / Markup / Segmentierung. Korpuslinguistik Dr. Heike Zinsmeister WS 2009/10
Seminarprojekt und Europarl / Markup / Segmentierung Korpuslinguistik Dr. Heike Zinsmeister WS 2009/10 Leitfaden Heterogenes Sitzungs-Programm Seminarprojekt Europarl-Korpus Exkurs: Statistische Maschinelle
MehrInteraktive Wörterbücher. Kurt Eberle Lingenio GmbH Hebelstr. 14 D-69115 Heidelberg k.eberle@lingenio.de 11.Juli 2007
Interaktive Wörterbücher Lingenio GmbH Hebelstr. 14 D-69115 Heidelberg k.eberle@lingenio.de 11.Juli 2007 Es geht...... nicht um das Habilitationsthema nicht um (computer-)linguistische Theorie um ein praktisches
MehrInformatikgrundlagen (WS 2016/2017)
Informatikgrundlagen (WS 2016/2017) Klaus Berberich (klaus.berberich@htwsaar.de) Wolfgang Braun (wolfgang.braun@htwsaar.de) 0. Organisatorisches Dozenten Klaus Berberich (klaus.berberich@htwsaar.de) Sprechstunde
MehrUnterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus: Rechtschreibstrategien Klasse, Band II
Unterrichtsmaterialien in digitaler und in gedruckter Form Auszug aus: Rechtschreibstrategien - 7.-10. Klasse, Band II Das komplette Material finden Sie hier: School-Scout.de Gerd Stuckert Rechtschreibstrategien
MehrInformatikgrundlagen (WS 2015/2016)
Informatikgrundlagen (WS 2015/2016) Klaus Berberich (klaus.berberich@htwsaar.de) Wolfgang Braun (wolfgang.braun@htwsaar.de) 0. Organisatorisches Dozenten Klaus Berberich (klaus.berberich@htwsaar.de) Sprechstunde
MehrWhen you use any of these prepositions, you need to put the noun or pronoun following them into the accusative case. For example:
Accusative Prepositions Up to now, we ve been using the accusative case only for direct objects. There is another part of speech that requires the accusative case in German: the accusative prepositions.
MehrDie Regeln der deutschen Rechtschreibung
Die Regeln der deutschen Rechtschreibung Vollständig und verständlich dargeboten von Klaus Heller OLMS- WEIDMANN 1 Grundsätzliches 11 1.1 Schreibung und Lautung 11 1.2 Schreibung und Bedeutung 12 2 Die
MehrGliederung. Informationsextraktion Materialien zur Vorlesung. Entwicklung eines regex für Firmennamen. Entwicklung eines regex für Firmennamen
Gliederung Informationsextraktion Materialien zur Vorlesung Beispiel: reguläre Ausdrücke für Firmennamen 1 D. Rösner Institut für Wissens- und Sprachverarbeitung Fakultät für Informatik Otto-von-Guericke
MehrFormatierungsregeln Deutschland / Frankreich
Formatierungsregeln Deutschland / Frankreich Sprachen unterscheiden sich nicht nur in ihren Worten, sondern auch in ihren typographischen Regeln. Daran, ob jemand diese unterschiedlichen Regeln beherrscht,
MehrKorrekturprogramme. Von Emine Senol & Gihan S. El Hosami
Korrekturprogramme Von Emine Senol & Gihan S. El Hosami Einleitung Millionen von Texten werden mit dem Computern täglich erfasst Fehler schleichen sich ein Korrekturprogramme helfen diese zu finden zu
MehrUnterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus: Rechtschreibstrategien Klasse, Band II
Unterrichtsmaterialien in digitaler und in gedruckter Form Auszug aus: Rechtschreibstrategien - 5.-6. Klasse, Band II Das komplette Material finden Sie hier: School-Scout.de Gerd Stuckert Rechtschreibstrategien
MehrFriedrich-Alexander-Universität Professur für Computerlinguistik. Nguyen Ai Huong
Part-of-Speech Tagging Friedrich-Alexander-Universität Professur für Computerlinguistik Nguyen Ai Huong 15.12.2011 Part-of-speech tagging Bestimmung von Wortform (part of speech) für jedes Wort in einem
MehrÜbung zur Vorlesung Einführung in die Computerlinguistik und Sprachtechnologie
Übung zur Vorlesung Einführung in die Computerlinguistik und Sprachtechnologie Wintersemester 2009/10, Prof. Dr. Udo Hahn, Erik Fäßler Übungsblatt 6 vom 10.12.2009 Abgabe bis 15.12.2009, 23:59 Uhr; per
MehrWiederholung: Listen, Referenzen
Wiederholung: Listen, Referenzen Symbolische Programmiersprache Benjamin Roth and Annemarie Friedrich Wintersemester 2016/2017 Centrum für Informations- und Sprachverarbeitung LMU München 1 Wiederholung
Mehrweil auch die Form der Seminararbeit in die Note eingeht
weil auch die Form der Seminararbeit in die Note eingeht Word-Bedienung Formatierungs-Vorschriften allgemeine Hinweise zum Tippen von wissenschaftlichen Texten Word 2010: Registerband mit Registerkarten
MehrWord-Kurs. Word-Kurs weil auch die Form der Seminararbeit in die Note eingeht. Seitenlayout. Word 2010: Registerband mit Registerkarten
weil auch die Form der Seminararbeit in die Note eingeht Word-Bedienung Formatierungs-Vorschriften allgemeine Hinweise zum Tippen von wissenschaftlichen Texten Word 2010: Registerband mit Registerkarten
MehrTnT - Statistischer Part-of- Speech Tagger
TnT - Statistischer Part-of- Speech Tagger 2. Teil der Präsentation des TnT Taggers von Thorsten Brants Präsentation von Berenike Loos Gliederung 1. Installation und Beschreibung des Programms 2. Erläuterungen
MehrLogik und modelltheoretische Semantik. Was ist Bedeutung?
Logik und modelltheoretische Semantik Was ist Bedeutung? Robert Zangenfeind Centrum für Informations- und Sprachverarbeitung, LMU München 30.5.2017 Zangenfeind: Was ist Bedeutung? 1 / 19 Zunächst: der
MehrKompetenzatlas der TU Ilmenau
Kompetenzatlas der TU Ilmenau Anleitung zum Anlegen der Fachgebietskompetenz und der Ausgabe in der Präsenz des Fachgebiets Ansprechpartner: markus.schubert@tu-ilmenau.de 1. Erstellen einer Fachgebietskompetenz
MehrData Mining Künstliche Neuronale Netze vs. Entscheidungsbäume
Data Mining Künstliche Neuronale Netze vs. Entscheidungsbäume Grundseminar HAW Master Informatik 18.04.2017 Inhaltsübersicht Data Mining & Begriffswelt des Data Mining Klassifikation & Klassifikatoren
MehrVorlesung Konsumentenverhalten 2015_1 Dr. Hansjörg Gaus
Vorlesung Konsumentenverhalten 2015_1 Dr. Hansjörg Gaus Universität des Saarlandes Centrum für Evaluation (CEval) Vorlesung Konsumentenverhalten Folienskript: Download unter www.tu-chemnitz.de/wirtschaft/bwl2/lehre/downloads.php/skripte
MehrINTERNET-AUFTRITT BBASE
Mediasuite Räffelstrasse 28 CH-8045 Zürich Tel. 044 380 03 32 info@mediasuite.ch www.mediasuite.ch MANUAL: INTERNET-AUFTRITT BBASE Internetseite: Backend / Admin: www.bbase.ch http://www.bbase.ch/typo3/
MehrThemen des Rechtschreibunterrichts geordnet nach Jahrgängen (SchiLf Ludgerusschule ) 1. Wichtige Fähigkeiten und Kenntnisse im Rechtschreiben
FACHBEREICH: DEUTSCH RECHTSCHREIBUNTERRICHT BESCHLUSS WEITERE HINWEISE: Kollegium der Ludgerusschule 24.02.2015 KONZEPTE UND VEREINBARUNGEN Themen des Rechtschreibunterrichts geordnet nach Jahrgängen (SchiLf
MehrDie deutsche Sprache
Die deutsche Sprache Inhalt Vorwort 5 Inhalt IZur Ein führ uns II Die neuen Schreibweisen III Die Wortschreibung III. 1 So funktioniert unsere Schrift: Buchstabe, Wort und Satz_ III. 1.1 Artikulationswechsel
MehrDELA Wörterbücher ===========================================================
DELA Wörterbücher =========================================================== Der Umgang mit externen Ressourcen in Unitex Was man beim Erstellen eigener Lexika beachten sollte? Ein Vortrag von Michaela
MehrBlockseminar Einführung in die Korpuslinguistik Seminarleitung: Yvonne Krämer, M.A. Das Korpus. und seine Aufbereitung
Blockseminar Einführung in die Korpuslinguistik Seminarleitung: Yvonne Krämer, M.A. Das Korpus und seine Aufbereitung Bestandteile eines Korpus sind i.d.r.: Primärdaten Metadaten Annotationen Annotationen
MehrArbeiten mit FrameMaker Übersicht
Arbeiten mit FrameMaker Übersicht Diese kapitel gibt einige hinweise, wie mit FrameMaker gearbeitet werden soll: Arbeitsweise Files Text und grafik Layout Arbeitsweise Arbeitsweise Es hat sich bewährt,
MehrBearbeitungshinweise. Vorbereitung. Umfang des Beitrages
Bearbeitungshinweise Vorbereitung Umfang des Beitrages Ein Fachbeitrag sollte hinsichtlich seines Umfanges eine Gesamtlänge von 6 bis 10 Druckseiten haben. Dies entspricht 15 bis 25 Manuskriptseiten (DinA4,
MehrDer Brieftext 1. - 2 - Am Fußende kann man am rechten Rand durch drei Punkte darauf hinweisen, dass noch Seiten folgen...
Der Brieftext 1 1. Die Textformatierung 1.1 Schrift und Schriftgröße Im fortlaufenden Text sollte man auf ungewöhnliche Schriftarten (wie Schreibschrift und Schriftstile (Gravur, Kapitälchen o.ä.) verzichten.
MehrTagging von Online-Blogs
Tagging von Online-Blogs Gertrud Faaß (vertreten durch Josef Ruppenhofer) STTS tagset and tagging: special corpora 24. September 2012 Faaß MODEBLOGS 1 Korpuslinguistische studentische Projekte am IwiSt
MehrSQL-Sprachvielfalt. Peter Willadt (Ludwig-Erhard-Schule) SQL-Befehle / 47
SQL-Sprachvielfalt DML Data Manipulation Language: Daten einfügen, ändern und löschen DQL Data Query Language: Daten abfragen DDL Data Definition Language: Tabellen und andere Strukturelemente erzeugen,
Mehr[Arbeiten mit dem Nvu Composer]
Eine neue Seite erstellen Beim Start des Composers steht automatisch eine neue Composer-Seite zur Verfügung, die direkt verwendet werden kann. Über Datei > Neu > Composer-Seite kann jederzeit eine neue
MehrErstellen und Verwalten von Karteikarten für imcards am iphone / ipod touch
IMCARDSPC Erstellen und Verwalten von Karteikarten für imcards am iphone / ipod touch You 2 Software E-Mail: info@you2.de Homepage: http://www.you2.de You 2 Software 2010 imcardspc Handbuch 1-9 Haupt-Fenster
MehrBruchrechnen / 2 ARBEITSBLÄTTER. Gernot Mühlbacher / 3. Für meine Enkel Moritz, Matthis, Greta und Zoe: 2014 Gernot Mühlbacher 1
Für meine Enkel Moritz, Matthis, Greta und Zoe: Gernot Mühlbacher ARBEITSBLÄTTER Bruchrechnen x 1 / 2? 1 / 3 Ohne schriftliche Einwilligung des Autors sind Kopien jeglicher Art bzw. das Einstellen in ein
MehrAutomatisiertes Annotieren in CATMA
Automatisiertes Annotieren in CATMA Thomas Bögel 1, Evelyn Gius 2, Marco Petris 2, Jannik Strötgen 3 1 Universität Heidelberg 2 Universität Hamburg 3 Max-Planck-Institut für Informatik jannik.stroetgen@mpi-inf.mpg.de
MehrGREP. Reguläre Ausdrücke. GREP Hardcore. Syntax. Ersetzen Suchen. Look Around. 20. April 2012 Pubkon 2013
GREP Syntax Reguläre Ausdrücke Look Around Ersetzen Suchen GREP Hardcore 20. April 2012 Pubkon 2013 Kontakt: Folien: gregor.fellenz@publishingx.de http://www.publishingx.de/dokumente Lizenz: c b n Quelle:
Mehr1. Schulaufgabe aus dem Englischen. I. Dictation. 1. Find the correct word to form questions (Setze das richtige Wort ein um Fragen zu bilden.
1. Schulaufgabe aus dem Englischen Stoff: English G 2000 Unit 1 Name:... Klasse: I. Dictation Credits 20 II. Grammar 1. Find the correct word to form questions (Setze das richtige Wort ein um Fragen zu
Mehr6. Komprimierung. (Text)komprimierung ist ein Wechsel der Repräsentation von Daten, so daß sie weniger
Komprimierung 6. Komprimierung (Text)komprimierung ist ein Wechsel der Repräsentation von Daten, so daß sie weniger Platz brauchen Motivation: beschleunigt Plattenzugriffe oder Datenübertragungen Voraussetzung:
MehrLAUDATIO - Eine Infrastruktur zur linguistischen Analyse historischer Korpora
LAUDATIO - Eine Infrastruktur zur linguistischen Analyse historischer Korpora Carolin Odebrecht, Humboldt-Universität zu Berlin Florian Zipser, Humboldt-Universität zu Berlin, INRIA Historische Textkorpora
Mehr2.4 Bilder importieren
2.4 Bilder importieren Wenn Sie im Datei-Explorer eine Datei umbenennen, dann kann Photoshop Elements sie anschließend nicht mehr finden, also benennen Sie Ihre Dateien direkt in Photoshop Elements um,
MehrSeminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK
Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 16.05.2013 Gliederung 1 Vorverarbeitung
MehrINFORMATIONSEXTRAKTION
INFORMATIONSEXTRAKTION Referentin: Syriane Kemayou Yamga Universität Heidelberg, Computerlinguistik, Hauptseminar: Information Retrieval PD. Dr. Karin Haenelt 16.01.2006 Informationsextraktion (IE) 1.
MehrInformationsextraktion Materialien zur Vorlesung
Informationsextraktion Materialien zur Vorlesung Beispiel: reguläre Ausdrücke für Firmennamen D. Rösner Institut für Wissens- und Sprachverarbeitung Fakultät für Informatik Otto-von-Guericke Universität
MehrFunktionale Programmierung Übung 01. Dozent: mein Dozent Tutor: mein Tutor Studenten: person1 und person2 tt. mm. jjjj
Funktionale Programmierung Übung 01 Dozent: mein Dozent Tutor: mein Tutor Studenten: person1 und person tt. mm. jjjj 1 Inhaltsverzeichnis 1 Text schreiben 3 Tabulatoren 3.1 Tabulatoren zur Textstrukturierung....................
MehrBuchstabenanzahl bis max. 11; max. viersilbige Wörter; Satzlänge: max. 16 Wörter; (Aufgabenkontext: Textlänge: max. 14 Sätze)
Schreiben Alpha-Level 5 ( 63) Kann-Beschreibungen Deckblatt 2.4.09 Kann zusammengesetzte Wörter richtig getrennt bzw. zusammen schreiben 2.5.05 Kann Wörterbücher verwenden 2.5.06 Kann das" und dass" unterscheiden
MehrInformatik I. 21. Das WWW befragen Albert-Ludwigs-Universität Freiburg. Informatik I. Bernhard Nebel. Motivation. Webseiten und HTML
21. WWW befragen Albert-Ludwigs-Universität Freiburg 10.01.2014 1 / 13 2 / 13 Oft braucht ein Programm Informationen, die es im WWW einfach zu finden gibt. 3 / 13 Oft braucht ein Programm Informationen,
MehrVoraussetzungen. Anmeldung. Hilfe & Support
Voraussetzungen Für die Nutzung des Redaktionssystems benötigen Sie lediglich eine Internetverbindung sowie einen aktuellen Browser. Wir empfehlen Ihnen dafür Mozilla Firefox ab Version 2 bzw. Microsoft
MehrDateien verwalten (Bilder, Dokumente, Medien)
17 Dateien verwalten (Bilder, Dokumente, Medien) Bilder und Dokumente können Sie im Funktionsmenü unter Dateiliste verwalten. Alle Bilder und Dokumente, die Sie in Ihren Baukasten hochgeladen haben, werden
MehrRC SCHREIBEN ALPHA-LEVEL K1/E. groß oder klein. wie ein Nomen gebraucht
RC SCHREIBEN ALPHA-LEVEL 2 2.2.02 K1/E wie ein Arbeitsalltag Post verschicken Im beruflichen Alltag verschicken wir Briefe Pakete mit der Post. Ich bin Frau Amelie Müller wohne in der Rodesheimer Straße
MehrÖsterreichisches Jahrbuch für Kurdische Studien. Hinweise zur Formatvorlage / Stylesheet
Österreichisches Jahrbuch für Kurdische Studien Hinweise zur Formatvorlage / Stylesheet Beiträge im Österreichischen Jahrbuch für Kurdische Studien dürfen noch nicht veröffentlicht sein und erscheinen
MehrEs gibt immer einen Schlüssel und einen zugehörigen Wert,
JSON JavaScript Object Notation Im Unternehmenskontext spielt der Austausch von Daten zwischen unterschiedlichen Systemen eine große Rolle. Dabei müssen oft Technologie und Zuständigkeitsgrenzen überwunden
MehrBenutzerhandbuch E-Mail Archivierung
Benutzerhandbuch E-Mail Archivierung Kurzbeschrieb Das vorliegende Dokument beschreibt den Umgang mit der E-Mail Archivierung bei. Änderungskontrolle Version Datum Überarbeitungsgrund Ersteller 1.0 27.01.2014
MehrFormale Richtlinien zur Anfertigung von Bachelorarbeiten
Formale Richtlinien zur Anfertigung von Bachelorarbeiten Wirtschaftsuniversität Wien Department für Finance, Accounting and Statistics Fachbereich: Finance Stand: Nov 2010 Inhaltsverzeichnis 1 Arbeiten
MehrWortdekodierung. Vorlesungsunterlagen Speech Communication 2, SS Franz Pernkopf/Erhard Rank
Wortdekodierung Vorlesungsunterlagen Speech Communication 2, SS 2004 Franz Pernkopf/Erhard Rank Institute of Signal Processing and Speech Communication University of Technology Graz Inffeldgasse 16c, 8010
MehrEinführung in die Signalverarbeitung Übung I
Einführung in die Signalverarbeitung Phonetik und Sprachverarbeitung, 2. Fachsemester, Block Sprachtechnologie I Florian Schiel Institut für Phonetik und Sprachverarbeitung, LMU München Signalverarbeitung
MehrMethoden-Validierung in der Analytik Version 2.1
Die Software Methoden-Validierung in der Analytik MVA dient der Auswertung von Validierungsdaten. Der Umfang orientiert sich im Wesentlichen an den Richtlinien der ICH (International Conference on the
MehrThomas Lindauer Claudia Schmellentin Studienbuch Rechtschreibdidaktik
Thomas Lindauer Claudia Schmellentin Studienbuch Rechtschreibdidaktik Die wichtigen Regeln im Unterricht orell füssli Verlag AG / PH P H Vorwort 9 TeilA Regelorientierter Rechtschreibunterricht 11 1 Nachsprech-,
Mehrགཞ= ཡ,ངས དག པ དབང ཆ)ན གས)ར I= ས གཞ=
ༀâ བó བྷª མ= ཨâåQ í Das Darbringen des 37-teilige Mandalas 29 OM BEN DZA BHU MI AA HUNG die 5 Weisheiten,! Vajra,!!!! Grund,!!! seine Natur ist Sunyata, Jñanas!!!! unzerstörbar! Fundament!! Leerheit Die
Mehr