Bachelorarbeit im Fach Computerlinguistik Centrum für Informations- und Sprachverarbeitung LMU München Betreuerin: Dr.
|
|
- Kasimir Brinkerhoff
- vor 7 Jahren
- Abrufe
Transkript
1 München, Arnold Schlegel Bachelorarbeit im Fach Computerlinguistik Centrum für Informations- und Sprachverarbeitung LMU München Betreuerin: Dr. Desislava Zhekova 1
2 Inhaltsüberblick Hintergrund zu dieser Arbeit Nachteile manueller Klassifikation Automatische Klassifikation Verwendete Hilfsmittel Vorverarbeitung der Daten Verwendete Methoden Optimierungen und Probleme 2
3 Hintergrund zu dieser Arbeit Doktorarbeit von Dr. Daphné Kerremans Untersuchung von Faktoren die das Leben von (englischen) Neologismen beeinflussen Neologismus: einfache Definition: neues Wort Gründe für Neologismen: Neu eingeführte Objekte und Konzepte in die Gesellschaft Autoren um damit Aufmerksamkeit des Lesers zu bekommen 3
4 Hintergrund zu dieser Arbeit Beispielfaktoren die das Leben von Neologismen beeinflussen: Neues Lexem sollte einheitlich mit dem Englischen Muster sein (phonologisch, morphologisch, semantisch, orthographisch) Einreihung der Neologismen in Dokumente (Zeitung, große Internet Portale) mit vielen Lesern fördern die Verbreitung Als Quelle für die Untersuchungen wird das Internet verwendet: NeoCrawler: entdeckt neue Formulierungen und lädt die Daten mit diesen Formulierungen runter 4
5 Hintergrund zu dieser Arbeit Riesiges Korpus, das manuell in verschiedenen Klassen klassifiziert wurde 5
6 Nachteile manueller Klassifikation Die Klassifikation dieses Korpus folgt strikten Vorgaben für jede Klasse Jedes Dokument wird einzeln betrachtet Sehr hoher Zeitaufwand bei großen Datenmengen Zeit ist Geld Arbeit wird auf Dauer einseitig Konzentration lässt nach Erhöhte Fehleranfälligkeit Nachbearbeiter wird benötigt Erhöhung des Zeitaufwands und der Kosten 6
7 Nachteile manueller Klassifikation Für bestimmte Themengebiete (z.b. Biologie, Chemie, Medizin) werden Spezialisten benötigt Wenn keine Vorgaben zur Klassifikation vorhanden sind, dann kann es Unstimmigkeiten bzgl. der Kategorisierung eines Dokuments geben Heute: Informationszeitalter Massen an neuen Information (z.b. im Web) zu organisieren Keine Chance für manuelle Klassifikation 7
8 Beispiel für Klassifikationsvorgabe PORTAL Große Sammlung und Informationen, oft via Links zu anderen Seiten Viele unterschiedliche Verfasser, meistens Semi-Profis und Profis/Experten Viele Themen gleichzeitig aber auch einem generellen Thema gewidmet, wie z.b. Gesundheit Kommerziell => viel Werbung, Betreiber oft Unternehmen Inhalt = Text, Foto, Video, Links, oft auch Chatrooms, Meist Formal geschrieben MICROBLOGGING (Beispiel Twitter) Netzwerk von Personen, die einander nicht unbedingt persönlich kennen Basis = Informationsaustausch Hauptsächlich Text, aber auch Links, Videos, Fotos möglich Posts begrenzt auf 140 Zeichen 8
9 Automatische Klassifikation Automatische Klassifikation löst die Probleme der Manuellen Klassifikation Systeme wie Suchmaschinen müssen schnell funktionieren, damit der Benutzer seine Informationen bequem, aktuell und ungehindert erhält Notwendigkeit der automatischen Klassifikation 9
10 Automatische Klassifikation Anwendungsbiete: Automatische Indexierung Dokumentklassifikation und organisation Textfilter Wortbedeutungsdesambiguierer Typische Methoden zur Dokumentklassifikation: Naive Bayes Klassifikator Decision Trees Maximum Entropy Klassifikator 10
11 Ziel dieser Arbeit Erstellung eines automatischen Dokumentklassifizierer Verwendung der bereits klassifizierten Daten aus Kerremans Arbeit zu Neologismen als Trainings und Testkorpus Soll sämtliche Webdokumente in die gegebenen Kategorien unterteilen Soll zukünftige Arbeit in diesem Bereich ersparen 11
12 Verwendete Hilfsmittel Programmiersprache Python Natural Language ToolKit (NLTK) Sammlung von Webdokumenten als Trainings und Testkorpus Mehr als HTML Dateien Besteht aus 10 verschiedenen Kategorien (Academic, Personal Blog, Professional Blog, Discussion Forum, News, Portal, Social Network, Microblogging, Filesharing, Self-Reference) 12
13 Vorverarbeitung der Daten Aufteilung des Korpus in Trainings- und Testkorpus (3:1) HTML Dokumente werden wie folgt verarbeitet: Entfernen der HTML Tags und des Javascript und CSS Codes Tokenisieren mit Hilfe des WordPunctTokenizer aus NLTK Entfernen von Punktuationszeichen Entfernen der Englischen Stoppwörter Alle Wörter kleingeschrieben Entfernen der Wörter die weniger als 2 Buchstaben enthalten 13
14 Verwendete Methoden Verschiedene Feature Modelle Naive Bayes Classifier und eventuell Maximum Entropie Classifier 14
15 Verwende Feature Modelle Bag of Words Model: Erstellung eines Wörterbuchs aus den Wörtern die in den Trainingsdatenvorkommen(ohne Duplikate) Vergleich jedes Wortes aus einzelnen Dokumenten mit jedem Eintrag aus dem Wörterbuch. Falls ein Wort aus Wörterbuch in diesem Dokument enthalten ist, erhält es den Wert True, falls nicht dann False. Auch numerisch möglich. Anstatt True und False wird die absolute Häufigkeit des Wortes, das in diesem Dokument vorkommt gespeichert 15
16 Beispiel für BoW Model 16
17 Verwendete Feature Modelle Weitere mögliche Features Anzahl an Sätze pro Dokument Durchschnittliche Wörter pro Satz Anzahl an Links pro Dokument Betrachtung des Titles jedes Dokuments Eventuell noch Bigramm Modell 17
18 Naive Bayes Classifier Ist einfach, optimal und prinzipiell einfach anzuwenden Einer der praktischten Methoden des Maschinellen Lernens d^ = arg max p d p(wi d) d i=1 n 18
19 Naive Bayes Classifier 19
20 Beispielanwendung NB Classifier Apriori Wahrscheinlichkeiten: P(Banana) = 0.5 (500/1000) P(Orange) = 0.3 P(Other Fruit) = 0.2 p(long) = 0.5 P(Sweet) = 0.65 P(Yellow) = 0.8 Likelihood Wahrscheinlichkeiten: P(Long/Banana) = 0.8 P(Long/Orange) = 0 P(Yellow/Other Fruit) = 50/200 = 0.25 P(Not Yellow/Other Fruit) =
21 Beispielanwendung NB Classifier 0,252 > 0,01875 Frucht die lang, süß und gelb ist, wird hier als Banane klassifiziert 21
22 Probleme und Optimierungen Probleme: NLTK nicht sonderlich schnell, Programm dauert sehr lange um trainiert zu werden. Besonders Feature Extraction dauert lange. Noch keine Evaulierung Optimierungen: Stemmen würde das Wörterbuch eventuell präzisieren Lange Wörter entfernen Kopf der HTML Dokumente als Features verwenden Häufigsten Wörter verwenden Neben Bigramme eventuell auch Trigramme 22
23 Das Wars!!!! Vielen Dank für die Aufmerksamkeit 23
Bachelorarbeit Erkennung von Fließtext in PDF-Dokumenten
Bachelorarbeit Erkennung von Fließtext in PDF-Dokumenten 16.08.2016 David Spisla Albert Ludwigs Universität Freiburg Technische Fakultät Institut für Informatik Gliederung Motivation Schwierigkeiten bei
MehrEinführung in die Computerlinguistik
Einführung in die Computerlinguistik Statistische Verfahren in der lexikalischen Semantik Evaluation Annotation eines Goldstandard : Testkorpus mit der relevanten Zielinformation (z.b. Wortart) Automatische
MehrTeilen Sie Ihre Videos, fördern Sie Ihr Geschäft und verbinden Sie sich mit anderen auf der Fusion Wall!
Teilen Sie Ihre Videos, fördern Sie Ihr Geschäft und verbinden Sie sich mit anderen auf der Fusion Wall! Talk Fusions soziale Video-Netzwerkseite bietet eine ganz neue Art den Einfluss von Online-Videos
MehrKlassifikation von Textabschnitten
Klassifikation von Textabschnitten Am Beispiel von Stellenanzeigen (JASC - Job Ads Section Classifier) Gliederung 1. Einführung: Zu welchem Zweck machen wir das? 2. Klassifikation ein kurzer Überblick
MehrA Topical/Local Classifier for Word Sense Idendification (TLC) Anne Schwartz
A Topical/Local Classifier for Word Sense Idendification (TLC) Anne Schwartz anne@coli.uni-sb.de A Topical/Local Classifier for Word Sense Idendification (TLC) entwickelt von: - Martin Chodorow (Dep. of
MehrElementare Begriffe der Wahrscheinlichkeitstheorie für die Sprachverarbeitung
Elementare Begriffe der Wahrscheinlichkeitstheorie für die Sprachverarbeitung Kursfolien Karin Haenelt 1 Übersicht Wahrscheinlichkeitsfunktion P Wahrscheinlichkeit und bedingte Wahrscheinlichkeit Bayes-Formeln
MehrNeue Erkenntnisse aus unstrukturierten Daten gewinnen
Neue Erkenntnisse aus unstrukturierten Daten gewinnen Univ.-Prof. Dr. Josef Küng Institut für anwendungsorientierte Wissensverarbeitung (FAW) Johannes Kepler Universität Linz In Zusammenarbeit mit Mag.
MehrSeminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK
Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 08.05.2014 Gliederung 1 Vorverarbeitung
MehrMathematische Grundlagen III
Mathematische Grundlagen III Maschinelles Lernen III: Clustering Vera Demberg Universität des Saarlandes 7. Juli 202 Vera Demberg (UdS) Mathe III 7. Juli 202 / 35 Clustering vs. Klassifikation In den letzten
MehrNaive Bayes. 5. Dezember 2014. Naive Bayes 5. Dezember 2014 1 / 18
Naive Bayes 5. Dezember 2014 Naive Bayes 5. Dezember 2014 1 / 18 Inhaltsverzeichnis 1 Thomas Bayes 2 Anwendungsgebiete 3 Der Satz von Bayes 4 Ausführliche Form 5 Beispiel 6 Naive Bayes Einführung 7 Naive
MehrFans. Facebook. Felsen. Online-Marketing und Social Media in der Tourismusregion Sächsischen Schweiz. Tino Richter
Fans. Facebook. Felsen. Online-Marketing und Social Media in der Tourismusregion Sächsischen Schweiz Tino Richter Tourismustag Rügen, 15.11.2013 Die Charts sind Teil einer Präsentation, die nur mit dem
MehrDecision-Tree-Klassifikator
D3kjd3Di38lk323nnm Decision-Tree-Klassifikator Decision Trees haben einige Vorteile gegenüber den beiden schon beschriebenen Klassifikationsmethoden. Man benötigt in der Regel keine so aufwendige Vorverarbeitung
MehrDefinitionen/Vorarbeit zum Thema Java
Definitionen/Vorarbeit zum Thema Java Programmiersprachen: System von Wörtern und Symbolen, die zur Formulierung von Programmen für die elektronische Datenverarbeitung verwendet werden. Arten: z.b. Javascript
MehrHOLIDAY-FERIENWOHNUNGEN.COM Anleitung zur Aktivierung von Java Script und Informationen über Cookies
HOLIDAY-FERIENWOHNUNGEN.COM Anleitung zur Aktivierung von Java Script und Informationen über Cookies Für die Eintragung Ihrer Daten in unsere Datenbank sind aus technischen Gründen einige wenige Voraussetzungen
MehrEinführung in das Maschinelle Lernen I
Einführung in das Maschinelle Lernen I Vorlesung Computerlinguistische Techniken Alexander Koller 26. Januar 2015 Maschinelles Lernen Maschinelles Lernen (Machine Learning): äußerst aktiver und für CL
MehrAnalyse von News-Artikeln
Projekt Big Data Abschlusspräsentation Analyse von News-Artikeln Sentimentanalyse mit Word2vec Raffael Diestel, Maike Schubert Inhalt Einleitung Ziele Realisierung Vorläufige Ergebnisse TODO Einleitung
MehrSupervised Learning Algorithmus für Stellenanzeigenklassifikation und Jobdeskriptoren Gewinnung
Informatik Pawel Broda Supervised Learning Algorithmus für Stellenanzeigenklassifikation und Jobdeskriptoren Gewinnung Diplomarbeit Ludwig Maximilian Universität zu München Centrum für Informations- und
MehrWeb 2.0. Forum Web 2.0. Web 2.0-Simulation
Web 2.0 Robert Meyer Studienrat am Ubbo-Emmius-Gymnasium Leer Forum Web 2.0 Begriffsdefinition Beispiele Tipps zum Umgang Fazit Ausblick Web 3.0? Diskussions- und Fragerunde Web 2.0-Simulation 1 Begriff
MehrEinführung in die Computerlinguistik
Einführung in die Computerlinguistik Statistische Verfahren in der lexikalischen Semantik WS 2/22 Manfred Pinkal Beispiel: Adjektive im Wahrig-Korpus Frequenzen in einem kleinen Teilkorpus: n groß - -
MehrFabian Sippel. Geschäftsführer: klartxt gmbh seit 1996 leineakademie seit 2011
Fabian Sippel Geschäftsführer: klartxt gmbh seit 1996 leineakademie seit 2011 Werdegang: Werbekaufmann Norddeutsche Akademie FH Hannover (Dipl.-Red.) Uni Duisburg Essen (M.A.) Dozent: Uni Hildesheim FH
MehrT E C H N I S C H E D O K U M E N T A T I O N Update auf Intrexx 8
T E C H N I S C H E D O K U M E N T A T I O N Update auf Intrexx 8 INTREXX 8.0 1. Vorwort Herzlich Willkommen zum Update Ihrer Intrexx Version auf die Version 8.0! Neben der Umsetzung sehr vieler Feature-Requests,
MehrMaschinelle Sprachverarbeitung Übung
Maschinelle Sprachverarbeitung Übung Aufgabe 3: SPAM-Klassifikation Mario Sänger Aufgabe Rund 50% des weltweiten Email-Verkehrs ist Spam* Spam- und Phishing-Mails stellen eines der größten Sicherheitsrisiken
MehrProjekt-INF Folie 1
Folie 1 Projekt-INF Entwicklung eines Testbed für den empirischen Vergleich verschiedener Methoden des maschinellen Lernens im Bezug auf die Erlernung von Produktentwicklungswissen Folie 2 Inhalt Ziel
MehrTextmining Klassifikation von Texten Teil 1: Naive Bayes
Textmining Klassifikation von Texten Teil 1: Naive Bayes Dept. Informatik 8 (Künstliche Intelligenz) Friedrich-Alexander-Universität Erlangen-Nürnberg (Informatik 8) Klassifikation von Texten 1: Naive
MehrEinführung in die Computerlinguistik
Mehrdeutigkeit der Wortart Einführung in die Computerlinguistik Statistische Modellierung und Evaluation WS 2008/2009 Manfred Pinkal Sie haben in Moskau liebe genossen Sie haben in Moskau liebe Genossen
MehrFrank Busse. Maschinelle Klassifikation in der Deutschen Nationalbibliothek
1 Frank Busse Maschinelle Klassifikation in der Deutschen Nationalbibliothek 2 34 Maschinelle Klassifikation in der DNB 9. November 2018 Übersicht Allgemeines Maschinelle Klassifikation Workflow Kennzeichnung
MehrStudienprojekt TaxoSearch Spezifikation
Studienprojekt TaxoSearch Spezifikation Semantisch gestützte Suche im Internet Lehrstuhl für Computerlinguistik Ruprecht-Karls-Universität Heidelberg WS 2002-2003 vorgestellt von Thorsten Beinhorn, Vesna
MehrDokument Klassifikation. Thomas Uhrig: Data-Mining SS10
Agenda: 1: Klassifizierung allgemein 2: der naive Bayes-Klassifizierer 3: Beispiel 4: Probleme 5: Fazit 6: Quellen 1: Klassifizierung allgemein: 1: Klassifizierung allgemein: - Einordnung von Objekten
MehrAbusive Language Detection in Online User Content
Abusive Language Detection in Online User Content Basierend auf Chikashi Nobata, Joel R. Tetreault, Achint Thomas, Yashar Mehdad, and Yi Chang (2016) Proseminar: Natural Language Processing and the Web
MehrEinführung in die Computerlinguistik
Einführung in die Computerlinguistik Statistische Modellierung I WS 2010/2011 Manfred Pinkal Wortartinformation Wortartinformation ist eine wichtige Voraussetzung für die syntaktische Analyse. Woher kommt
MehrTnT - Statistischer Part-of- Speech Tagger
TnT - Statistischer Part-of- Speech Tagger 2. Teil der Präsentation des TnT Taggers von Thorsten Brants Präsentation von Berenike Loos Gliederung 1. Installation und Beschreibung des Programms 2. Erläuterungen
MehrThumbs up? Sentiment Classification using Machine Learning Techniques
Thumbs up? Sentiment Classification using Machine Learning Techniques Eine Präsentation von Aikaterini Azoidou. Das ist meine Präsentation für das Proseminar: Selected Topics of Sentiment Analysis WS17/18
MehrDEIN ANGEBOT BEI HOCHZEITSKISTE
MEDIAKIT 2019 DEIN ANGEBOT BEI HOCHZEITSKISTE Du liebst Hochzeiten und wolltest schon immer in der Hochzeitsbranche Fuß fassen? Oder hast Du vielleicht ein tolles Produkt, dass Du auf den Hochzeitsmarkt
MehrTyp ID Titel Beschreibung Angelegt VÖ TR DL PR Eigenschaften Abschnitt # 1: Warum eine Website, warum Wordpress?
Course #449388 Typ ID Titel Beschreibung Angelegt VÖ TR DL PR Eigenschaften Abschnitt # 1: Warum eine Website, warum Wordpress? #1 #2 #3 2598240 2598250 2598252 Brauchen Sie das denn? Sinn und Unsinn einer
MehrSEMINAR KLASSIFIKATION & CLUSTERING EINFÜHRUNG. Stefan Langer CIS Universität München Wintersemester 2016/17
SEMINAR KLASSIFIKATION & CLUSTERING EINFÜHRUNG Stefan Langer CIS Universität München Wintersemester 2016/17 stefan.langer@cis.uni-muenchen.de Anmeldung Bereits erfolgt über LSF Falls alternative Email
MehrÜber Möglichkeiten und Risiken im Netz der Netze und ein Einblick in die Arbeitswelt bei Google
Faszination Internet Über Möglichkeiten und Risiken im Netz der Netze und ein Einblick in die Arbeitswelt bei Google Technikwoche, 22.-26.9.2008 Kantonsschule Luzern und Kollegium St. Fidelis in Stans
MehrTraining Social Media Pass
Training Social Media Pass Name: Vorname: Datum: (Hinweis: Bei allen Fragen gibt es jeweils nur eine richtige Antwort. Sie haben für die 20 Fragen der Prüfung zum Social Media Pass insgesamt 30 Minuten
MehrNutzen von Sozialen Medien für ein Unternehmen
Nutzen von Sozialen Medien für ein Unternehmen Kantonsschule Romanshorn Larissa Rechsteiner (3Ms) Hannah Winterfeldt (3Ms) Koni Reutimann (3Mt) Samuel Abächerli (3Mb) - Peter Lehmann (Betreuer) Technikwoche
MehrBayes sche Klassifikatoren. Uwe Reichel IPS, LMU München 16. Juli 2008
Bayes sche Klassifikatoren Uwe Reichel IPS, LMU München reichelu@phonetik.uni-muenchen.de 16. Juli 2008 Inhalt Einleitung Grundlagen der Wahrscheinlichkeitsrechnung Noisy-Channel-Modell Bayes sche Klassifikation
MehrBECHTLE digital Webseiten
BECHTLE digital BECHTLE digital Webseiten Ob Webseiten oder Landingpages mit Webshops und Formularen, basierend auf den neusten Webstandards und mit den neuesten Webtechnologien setzen wir alle Ihre Projekte
MehrInstallation und Benutzung. LangCorr ApS Erritsoegaardsvej 11 DK 7000 Fredericia Denmark
Installation und Benutzung Herzlich Willkommen zu Language Corrector! Language Corrector herunterladen: Auf unserer Seite www.langcorr.com finden Sie unten, Mitte links, den Link zu LanguageCorrector.
MehrSocial Media 2016 Chancen und Herausforderungen. Heute ist die Utopie vom Vormittag die Wirklichkeit vom Nachmittag.
Social Media 2016 Chancen und Herausforderungen Heute ist die Utopie vom Vormittag die Wirklichkeit vom Nachmittag. (Truman Capote) FH-Prof. Dr. Mario Jooss 08.11.2016 Wer braucht noch die Post? Wenn man
MehrFormulare mit HTML. Beispiele. Beispiele & Nutzen. Web. Fach: Klasse: BW2. Datum: (Freitag) Agenda zu HTML und PHP
1 2 Fach: Klasse: Datum: Web BW2 01.03.2019 (Freitag) Agenda zu HTML und PHP Formulare mit HTML Beispiele & Nutzen PHP - Definition XAMPP - PHP-Quelltext ausführen mit XAMPP 3 4 Formulare mit HTML Beispiele
MehrSchubert Foo, Douglas Hendry: for Desktop Searching
Schubert Foo, Douglas Hendry: Evaluation of Visual Aid Suite for Desktop Searching Sergey Tarassenko Einführung Weltweite Verbreitung von Elektronischen Information Schnelle Entwicklung von Suchmaschinen.
MehrInhaltsverzeichnis Einführung und Vorbereitung Zum warm werden... Semantisches Web für Praktiker: Microformats
Inhaltsverzeichnis 1 Einführung und Vorbereitung 9 1.1 Web 2.0 9 1.1.1 Das Mitmach-Web 10 1.1.2 Web 2.0-Begriffe: Tags, Folksonomy und mehr 15 1.1.3 Eine neue Sprache für das Web 2.0 AJAX 18 1.1.4 Kritik
MehrSocial Media im Bewerbungsprozess
Infoveranstaltung «Jobsuche online» Social Media im Bewerbungsprozess Anna Vollenweider 6. November 2018 BIZ Bern Inhalt Social Media? Was ist das? Professionelle Business-Netzwerke Social Recruiting
Mehrewoca³ Live: Erstellen eines Beitrags
ewoca³ Live: Erstellen eines Beitrags 1. Internetseite http://ibb-d.de/ewoca-live/login öffnen. 2. Mit Username und Passwort einloggen. 3. In der Seitenspalte links auf Posts / Add New klicken: 4. In der
MehrTagging mit Hidden Markov Models und Viterbi-Algorithmus
Tagging mit Hidden Markov Models und Viterbi-Algorithmus Annelen Brunner, Stephanie Schuldes, Nicola Kaiser, Olga Mordvinova HS Parsing SoSe 2003 PD Dr. Karin Haenelt Inhalt Ziel des Seminarprojekts Theorie:
MehrInformationssuche in Sozialen Medien. Adam Horvath Universität Pecs Institut für Wirtschaftsmethodologie
Informationssuche in Sozialen Medien Adam Horvath Universität Pecs Institut für Wirtschaftsmethodologie Übersicht über sozielle Medien Bezug auf Person, Gemeinde, Unternehmen, Events, usw. Verschiede Formate
MehrMaschinelles Lernen II
Maschinelles Lernen II! Vorlesung Computerlinguistische Techniken Alexander Koller! 30. Januar 2015 Heute Überwachtes Lernen: Maximum-Entropy-Modelle Unüberwachtes Lernen: Clustering Maximum Entropy: Motivation
MehrMETHODEN ZUR TEILAUTOMATISCHEN ERSTELLUNG VON TRANSFERWÖRTERSÜCHERN *
LDV-Forum Bd. 5, Nr. 2/3, Jg. 1987/88, S. 17-25 17 METHODEN ZUR TEILAUTOMATISCHEN ERSTELLUNG VON TRANSFERWÖRTERSÜCHERN * FACH BEITRÄGE Ulrich Heid Universität Stuttgart, Institut für Maschinelle Sprachverarbeitung,
MehrKLAUSUR ZUM BACHELORMODUL PROBEKLAUSUR ÜBUNG COMPUTERLINGUISTISCHE ANWENDUNGEN PROBEKLAUSUR, DR. BENJAMIN ROTH KLAUSUR AM
KLAUSUR ZUM BACHELORMODUL PROBEKLAUSUR ÜBUNG COMPUTERLINGUISTISCHE ANWENDUNGEN PROBEKLAUSUR, DR. BENJAMIN ROTH KLAUSUR AM VOR NACH MATRIKELNUMMER: STUDIENGANG: B.Sc. Computerlinguistik, B.Sc. Informatik,
MehrSemestralklausur zur Vorlesung. Web Mining. Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2006 Termin:
Semestralklausur zur Vorlesung Web Mining Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2006 Termin: 26. 7. 2006 Name: Vorname: Matrikelnummer: Fachrichtung: Punkte: (1).... (2)....
MehrFormulare. Definition. Definition & Beispiele P-IT. Fach: Klasse: TD1. Datum: (Freitag) Agenda zu HTML und PHP
1 2 Fach: Klasse: Datum: P-IT TD1 08.02.2019 (Freitag) Agenda zu HTML und PHP Formulare - Definition & Beispiele PHP - Definition XAMPP - PHP-Quelltext ausführen mit XAMPP 3 4 Formulare Definition & Beispiele
MehrProjektgruppe. Text Labeling mit Sequenzmodellen
Projektgruppe Enes Yigitbas Text Labeling mit Sequenzmodellen 4. Juni 2010 Motivation Möglichkeit der effizienten Verarbeitung von riesigen Datenmengen In vielen Bereichen erwünschte automatisierte Aufgabe:
MehrMärz Leitfaden zur Einbindung von Inhalten der Berufsberatung auf Schulwebseiten
März 2018 Leitfaden zur Einbindung von Inhalten der Berufsberatung auf Schulwebseiten Impressum Bundesagentur für Arbeit Zentrale Geschäftsbereich Arbeitsmarkt Produktentwicklung Berufsberatung Regensburger
MehrÜbersicht Weblogs mit Aufwandsbewertung
Übersicht Weblogs mit Aufwandsbewertung Worum geht es? Der Begriff Weblog wurde zum ersten Mal 1997 auf den Webseiten von Jorn Barger verwendet. Seither stieg die Anzahl der erfassten Seiten kontinuierlich.
MehrApp Entwicklung mit Hilfe von Phonegap. Web Advanced II - SS 2012 Jennifer Beckmann
App Entwicklung mit Hilfe von Phonegap Web Advanced II - SS 2012 Jennifer Beckmann http://www.focus.de/digital/internet/netzoekonomie-blog/smartphone-googles-android-laeuft-konkurrenz-in-deutschland-davon_aid_723544.html
MehrFertiges Video. Videos komprimieren. Videos hochladen. Texte verfassen. Fotos hochladen. Videos einbetten. Facebook verwalten.
WEB 2.0 MANUAL Fertiges Video Video ist fertig Videos komprimieren Video komprimieren Videos hochladen Texte verfassen Video für Web Text für Web schreiben Fotos raussuchen Fotos hochladen Hochladen Hochladen
MehrElektronische Korpora in der Lehre Anwendungsbeispiele aus der theoretischen 2 und / 27der. und der Computerlinguistik
Elektronische Korpora in der Lehre Anwendungsbeispiele aus der theoretischen und der Linguistics Department Ruhr-University Bochum 18.1.2011 DSPIN-Workshop Sprachressourcen in der Lehre Erfahrungen, Einsatzszenarien,
MehrFibel: 7 kostenlose-traffic-quellen Andrea Pfeiffer Online-Marketing-Master
Die 7 wichtigsten Traffic Quellen für deine Website Traffic ist ein muss für jede Webseite, denn ohne Webseite keine Besucher und ohne Besucher kein Umsatz. Denn wenn niemand deine Website besucht, werden
MehrRegionales Online-Marketing
Regionales Online-Marketing Lokale Zielgruppen online erreichen. Kennenlernen Wer sind Sie? Was tun Sie? Wie nutzen Sie das Internet für Ihr Unternehmen? Bringt Ihnen das Internet neue Kunden? Wer ist
MehrKategorisierungsverfahren. Rocchio k-nearest neighbour (knn) Naive Bayes Support Vector Machines n-gramm-sprachmodelle
Kategorisierung deduktiver Schluss, Schema: Alle A sind X p ist ein A p ist X logisch gültig abduktiver Schluss: p ist X Alle A sind X p ist ein A logisch nicht gültig (kann ein Fehlschluss sein) z.b.
MehrCentrum für Informations- und Sprachverarbeitung. Dr. M. Hadersbeck, Digitale Editionen, BAdW München
# 1 Digitale Editionen und Auszeichnungssprachen Computerlinguistische FinderApps mit Facsimile-Reader Wittgenstein s Nachlass: WiTTFind Goethe s Faust: GoetheFind Hadersbeck M. et. al. Centrum für Informations-
MehrThunderbird-Plugin zur Erkennung anhangverdächtiger s
Masterarbeit Vortrag 27.11.2008 Thunderbird-Plugin zur Erkennung anhangverdächtiger E-Mails Marco Ghiglieri Prof. Dr. Johannes Fürnkranz 18.12.08 Knowledge Engineering Masterarbeit Marco Ghiglieri 1 Agenda
MehrWas ist ein Korpus. Zitat aus: Carstensen et al. Computerlinguistik und Sprachtechnologie: Eine Einführung. Kap. 4.2, Textkorpora
Was ist ein Korpus Korpora sind Sammlungen linguistisch aufbereitete(r) Texte in geschriebener oder gesprochener Sprache, die elektronisch gespeichert vorliegen. Zitat aus: Carstensen et al. Computerlinguistik
MehrWorkshop. Oskar Truffer, studer + raimann ag
Workshop Oskar Truffer, studer + raimann ag Roadmap Vorstellungsrunde Theoretischer Teil Das ILIAS Open Source Projekt ILIAS an der PHBern Laufende Projekte Praktischer Teil Aufbau des eigenen ILIAS Planung
MehrKLAUSUR ZUM BACHELORMODUL PROBEKLAUSUR COMPUTERLINGUISTISCHE ANWENDUNGEN PROBEKLAUSUR, DR. BENJAMIN ROTH KLAUSUR AM
KLAUSUR ZUM BACHELORMODUL PROBEKLAUSUR COMPUTERLINGUISTISCHE ANWENDUNGEN PROBEKLAUSUR, DR. BENJAMIN ROTH KLAUSUR AM VOR NACH MATRIKELNUMMER: STUDIENGANG: B.Sc. Computerlinguistik, B.Sc. Informatik, Magister
MehrWebseiten-Bericht für skillers.tech
Webseiten-Bericht für skillers.tech Generiert am 28 März 2019 16:56 PM Der Wert ist 57/100 SEO Inhalte Seitentitel Skillers - Quality IT Recruiting services Länge : 41 Perfekt, denn Ihr Seitentitel enthält
Mehrdacore Datenbanksysteme AG Neue Konzepte zur Optimierung der Auslastungsplanung und Big Data im Informationsmanagement
dacore Datenbanksysteme AG Neue Konzepte zur Optimierung der Auslastungsplanung und Big Data im Informationsmanagement dacore Datenbanksysteme AG Neue Konzepte zur Optimierung der Auslastungsplanung Die
MehrMaschinelles Lernen: Symbolische Ansätze
Maschinelles Lernen: Symbolische Ansätze Wintersemester 2014/2015 Musterlösung für das 3. Übungsblatt Aufgabe 1: Version Space, Generalisierung und Spezialisierung Gegeben sei folgende Hierarchie von Begriffen:
MehrMaschinelle Sprachverarbeitung
Maschinelle Sprachverarbeitung Übung Aufgabe 5: Gen-Erkennung mit Maschinellen Lernen Mario Sänger Problemstellung Erkennung von Genen in Texten NEU: Beachtung von Multi-Token-Entitäten (B-/I-protein)
MehrWeb Mining Übung. www.ke.tu-darmstadt.de/lehre/ss13/web-mining/uebungen. Aufgaben. Umfang
www.ke.tu-darmstadt.de/lehre/ss13/web-mining/uebungen zusätzliche Informationen, Registrierung, Upload, Übungsblätter Aufgaben aus dem Bereich Data-, Text- und Web-Mining Crawling, Textanalyse, Textklassifizierung,
MehrSuchmaschinen-Marketing digitallifestyle.eu
Suchmaschinen-Marketing digitallifestyle.eu Kundenservice, Hilfe & Support Bei Rückfragen stehen wir Ihnen jederzeit gerne zur Verfügung. Kundenservice: www.starenterprise.com/de/kundenservice/ support@starenterprise.com
MehrInhaltsverzeichnis. Frage 1 Frage 2. Frage 3 Frage 4 Frage 5 Frage 6 Frage 7 Frage 8 Frage 9 Frage 10 Frage 11. Frage 12
Frage 1 Frage 2 Frage 3 Frage 4 Frage 5 Frage 6 Frage 7 Frage 8 Frage 9 Frage 10 Frage 11 Frage 12 Intro... 13 Vorwort: Einfach mal machen... 14 Was ist der Twittwoch?... 16 Danksagung... 17 In welche
Mehr1/19. Kern-Methoden zur Extraktion von Informationen. Sebastian Marius Kirsch Back Close
1/19 Kern-Methoden zur Extraktion von Informationen Sebastian Marius Kirsch skirsch@moebius.inka.de 2/19 Gliederung 1. Verfahren zur Extraktion von Informationen 2. Extraktion von Beziehungen 3. Maschinelles
Mehrebook Einfaches elearning mi Internet
(C) 2008 Sprachen-lernen-web.com (Dani Schenker) Dieses Dokument darf gegen einen permamenten Link (http://sprachen-lernen-web.com) auf anderen Websites verbreitet werden. Selbstverständlich darf das Dokument
MehrMaschinelles Lernen I Einführung. Uwe Reichel IPS, LMU München 22. April 2008
Maschinelles Lernen I Einführung Uwe Reichel IPS, LMU München reichelu@phonetik.uni-muenchen.de 22. April 2008 Inhalt Einführung Lernen Maschinelle Lernverfahren im Überblick Phonetische Anwendungsbeispiele
Mehrmeditum 2.0 Anleitung: Artikel online stellen
Technische Universität München Arcisstraße 21 80333 München meditum 2.0 Anleitung: Artikel online stellen Sie können auf meditum 2.0 wie gewohnt Artikel einstellen. Artikel finden nicht nur Platz auf der
MehrSeminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK
Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 16.05.2013 Gliederung 1 Vorverarbeitung
MehrBei den folgenden 14 Fragen ist immer nur eine Antwort richtig. Bitte den jeweiligen Buchstaben ankreuzen.
Gesamtbeispiel 36 e zu erreichen 75 %, sprich 27 e erforderlich Bei den folgenden 4 Fragen ist immer nur eine Antwort richtig. Bitte den jeweiligen Buchstaben ankreuzen.. Was versteht man unter Cloud Computing?
MehrPHP eine Einführung. Dipl.-Inf. Frank Hofmann. 18. November Potsdam
PHP eine Einführung Dipl.-Inf. Frank Hofmann Potsdam 18. November 2007 Dipl.-Inf. Frank Hofmann (Potsdam) PHP eine Einführung 18. November 2007 1 / 14 Allgemeines zum Kurs Zielsetzung des Kurses Erlernen
MehrNatural language processing
Natural language processing Guangyu Ge Betreuer: Tobias 29.01.2018 GLIEDERUNG 1. Einführung 2. Anwendungsbereiche 3. Verfahren bei NLP 4. Zusammenfassung ZIELE VON KÜNSTLICHER INTELLIGENZ Quelle: https://cdn-images-1.medium.com/max/800/0*y707xutx3zmvjkxx.png
MehrORTSBASIERTE DIENSTE:
ORTSBASIERTE DIENSTE: ICH FINDE DICH = Gelbe Seiten des Internets Was ist das?» Google My Business, Bing Business, Yahoo Local.» Basis-Informationen: Adresse, Fotos, Kontaktdaten.» Wenig Zeitaufwand, (meist)
MehrReranking. Parse Reranking. Helmut Schmid. Institut für maschinelle Sprachverarbeitung Universität Stuttgart
Institut für maschinelle Sprachverarbeitung Universität Stuttgart schmid@ims.uni-stuttgart.de Die Folien basieren teilweise auf Folien von Mark Johnson. Koordinationen Problem: PCFGs können nicht alle
MehrPETRUS Szenario 1 Automatische Sachgruppenvergabe
PETRUS Szenario 1 Automatische Sachgruppenvergabe Elisabeth Mödden 1 Automatische Sachgruppenvergabe 1. DDC-Sachgruppen 2. Automatische Sachgruppenvergabe 3. Tests und Ergebnisse 4. Geschäftsprozesse und
MehrText-Mining: Klassifikation I - Naive Bayes vs. Rocchio
Text-Mining: Klassifikation I - Naive Bayes vs. Rocchio Claes Neuefeind Fabian Steeg 17. Juni 2010 Klassifikation im Text-Mining Klassifikation Textkategorisierung Naive Bayes Beispielrechnung Rocchio
MehrKai Wähner MaibornWolff et al GmbH
Kategorisierung von Web-Frameworks im Java-Umfeld Gobelingewebe Kai Wähner MaibornWolff et al GmbH Unüberschaubare Auswahl im Alltag 16.09.2010 Seite 2 Unüberschaubare Auswahl bei Web-Frameworks 16.09.2010
MehrWebseiten-Bericht für google.com
Webseiten-Bericht für google.com Generiert am 14 Januar 2019 10:26 AM Der Wert ist 37/100 SEO Inhalte Seitentitel Google Länge : 6 Ideal, aber Ihre Seitentitel sollte zwischen 10 und 70 Zeichen (Leerzeichen
MehrMathematische Grundlagen III
Mathematische Grundlagen III Maschinelles Lernen II: Klassifikation mit Entscheidungsbäumen Vera Demberg Universität des Saarlandes 12. Juli 2012 Vera Demberg (UdS) Mathe III 12. Juli 2012 1 / 38 Einleitung
MehrFertiges Video. Videos komprimieren. Videos hochladen. Texte verfassen. Fotos hochladen. Videos einbetten. Facebook verwalten.
WEB 2.0 MANUAL Fertiges Video Video ist fertig Videos komprimieren Video komprimieren Videos hochladen Texte verfassen Video für Web Text für Web schreiben Fotos raussuchen Fotos hochladen Hochladen Hochladen
MehrWas ist Statistik? Wozu dienen statistische Methoden?
25. APRIL 2002: BLATT 1 Übersicht Was ist Statistik? Wozu dienen statistische Methoden? Was ist maschinelle Sprachverarbeitung? Welche Rolle spielen statistische Methoden in verschiedenen Teilbereichen
MehrNeuer Eintrag. Ort, Institution, Titel der Reihe, Art von Bericht, Nummer des Berichts
Zotero Manual 1 Einpflegen von Literatur in Zotero: Bitte vor jedem neuen Eintrag prüfen, ob dieser nicht schon vorhanden ist. Es kam in der Vergangenheit öfter vor, dass Quellen mehrmals eingepflegt wurden.
MehrData Mining und Maschinelles Lernen Wintersemester 2015/2016 Lösungsvorschlag für das 3. Übungsblatt
Data Mining und Maschinelles Lernen Wintersemester 2015/2016 Lösungsvorschlag für das 3. Übungsblatt 18. November 2015 1 Aufgabe 1: Version Space, Generalisierung und Spezialisierung (1) Gegeben sei folgende
MehrWebentwicklung mit Vaadin 7. Theoretische und praktische Einführung in Vaadin 7. Christian Dresen, Michael Gerdes, Sergej Schumilo
Webentwicklung mit Vaadin 7 Theoretische und praktische Einführung in Vaadin 7 Christian Dresen, Michael Gerdes, Sergej Schumilo Agenda Allgemeines Architektur Client-Side Server-Side Vaadin UI Components
MehrWer bin ich? Stefanie Gerhofer Studium WiWI JKU Linz Geschäftsführeirn: Offisy GmbH Grafield GmbH
Social Media Wer bin ich? Stefanie Gerhofer Studium WiWI JKU Linz Geschäftsführeirn: Offisy GmbH Grafield GmbH Welchen Hashtag soll ich für meinen Post verwenden? Ich bewerbe mich für die Stelle als Social
MehrID3 und Apriori im Vergleich
ID3 und Apriori im Vergleich Lassen sich bei der Klassifikation mittels Apriori bessere Ergebnisse als durch ID3 erzielen? Sebastian Boldt, Christian Schulz, Marc Thielbeer KURZFASSUNG Das folgende Dokument
MehrEinführung in das Natural Language Toolkit
Einführung in das Natural Language Toolkit Markus Ackermann Abteilung für Automatische Sprachverarbeitung (Universität Leipzig) 11. Mai 2011 Kurzeinführung nützliche
Mehr