Informationsintegration Das Verborgene Web (Hidden Web)

Größe: px
Ab Seite anzeigen:

Download "Informationsintegration Das Verborgene Web (Hidden Web)"

Transkript

1 Informationsintegration Das Verborgene Web (Hidden Web) Felix Naumann 2 Workshop "Datenreinigung" für Studenten und Doktoranden Prof. Felix Naumann FUZZY! Informatik AG 8. Oktober Oktober 2007 Neu: Mo - Mi (Mo. Mi. direkt vor dem Wintersemester) Innerhalb eines Unternehmens werden Kundendaten häufig in unterschiedlichen Systemen gehalten. Die Gründe dafür können in der Struktur des Unternehmens (getrennte Sparten), in unterschiedlichen Vertriebskanälen oder in einer Unternehmensfusion liegen. Um eine einheitliche Sicht auf den Kunden zu bekommen, müssen die Daten aus diesen Systemen zusammengeführt werden. Ein wichtiges Ziel ist dabei die automatische Erkennung von Dubletten, d.h. die Tatsache, dass ein Kunde in mehreren Systemen vorkommt, also in mehreren Beziehungen zum Unternehmen steht. Sie sollen erkennen, welche Arten von Problemen beim Zusammenführen von Datenbeständen auftreten, welche Probleme sich mit einfachen Mitteln (SQL, Skripte, Text-Editor, etc.) lösen lassen und welche nicht. In praktischer Teamarbeit implementieren Sie Algorithmen zur Dublettenerkennung für große Datenmengen (1 Mio. Kundendatensätze). d Das Team mit den meisten richtig gefundenen Dubletten gewinnt! Die in den beiden ersten Tagen gewonnenen Erkenntnisse und Lösungen sollen am Abschlusstag präsentiert werden. Weitere Informationen und Programm: Anmeldung Formlose Anmeldung per bis zum 25. September an office-naumann@hpi.uni-potsdam.de. Es können maximal 20 Teilnehmer (Bachelor- und Master-Studenten und Doktoranden) mitmachen. Felix Naumann VL Datenbanksysteme II SS 07 1

2 Masterveranstaltungen 3 VL Data Warehouses Architektur zur Integration von Unternehmensdatenbeständen Mehrdimensionale Modellierung Star Schema OLAP Anfragen Optimierung SE Schema Matching Korrespondenzen zwischen Schemata und Ontologien finden Automatisiert Label-basiert: Analyse der Schemata Instanz-basiert: Analyse der zugehörigen Daten Felix Naumann VL Datenbanksysteme II SS 07 Überblick 4 Motivation [Be01,To01] Suche über das Web Begriffe und Definitionen Auffinden von Hidden Web Informationsquellen Potenzielle Hidden Web Quellen Finden [BC04] Themen extrahieren [IGS01] Klassifikation nach Themen [IGS01] Anfragen an relevante Quellen des Hidden Web Anfragen geeignet verteilen [IGS01] Anfragesprache lernen [BC04] (Ergebnisse integrieren) 2

3 Das Web 5 Inv visible Web (unsic chtbares Netz z) Shallow web Surface web Deep web (tiefes Netz) Quelle: [To01] Surface Web vs. Hidden Web 6 Keywords SUBMIT CLEAR Surface Web Link-Struktur Kann gecrawled werden Dokumente durch Suchmaschinen indiziert Anfragen auf viele Websites gleichzeitig Hidden Web Keine Link-Struktur Dokumente verborgen in DBMS Dokumente nicht durch Internet- Suchmaschinen indiziert Dokumente eventl. durch Intranet-Suchmaschinen indiziert Anfragen auf jede Sammlung einzeln 3

4 Hidden Web: Beispiel 7 Suche in PubMed nach diabetes 178,975 Treffer Google Suche: diabetes site: nur 119 matches Weitere Beispiele: Database Query Matches Google PubMed diabetes 178, U.S. Patents wireless network 16,741 0 Library of Congress visa regulations >10,000 0 Gegenbeispiel Amazon: Hilft explizit bei Verlinkung Suche über das Web 8 Kataloge Suchmaschinen Metacrawler Antwort Services Unsichtbares/Tiefes/Verborgenes Web 4

5 Kataloge 9 Indizes speichern URL, Titel, Kategorien, und Zusammenfassung Wartung durch Experten freiwillig, bezahlt, Selbst-Registrierung Das Web (Stand 2001): >5,000,000,000 Dateien Yahoo: ~2,000,000 Sites 1/2500 des bekannten Webs Quelle: [To01] Suchmaschinen 10 Indizes speichern URL, Titel, Meta-Tags, Links, und vollständigen Inhalt Wartung durch Agenten (Crawler) Das Web (Stand 2001): >5,000,000,000 Dateien Google: 2,469,940, Seiten FAST: 2,112,188,990 Seiten HotBot (Inktomi): 500,000,000 Seiten Diplomarbeit Quelle: [To01] 5

6 Methoden zur Analyse und Visualisierung der Überdeckunsgrade von Suchmaschinen Deumlich 11 Methoden zur Analyse und Visualisierung der Überdeckunsgrade von Suchmaschinen Deumlich 12 6

7 Meta-Suchmaschinen 13 Haben keinen eigenen Katalog oder Index Nutzer geben Suchbegriff ein, der simultan an andere Suchmaschinen weitergeleitet wird. Ergebnisse werden integriert und als eine Liste zurückgegeben. Vorteile: Eine einzige Anfrage Geschwindigkeit (parallel statt sequentiell) Nachteile: Time-outs und unvollständige Suche Anfragesyntax oft reduziert auf kleinsten gemeinsamen Nenner Quelle: [To01] Antwort Services 14 Datenbank mit gespeicherten häufigen Fragen Katalog von Ask Jeeves enthält 7,000,000 Fragen Natürlich-sprachliche Suche Suche in eigener DB und in fremden Katalogen/Indices Kennt Spezial-Datenquellen des Hidden Web Gewichtung anerkannter Quellen (z.b. Almanache) Quelle: [To01] 7

8 Invisible/Hidden/Deep Web 15 Quelle: [To01] Surface vs. Hidden Web [Be01] 16 Der Inhalt des Surface Web ist persistent auf statischen Seiten, die mittels crawling von Suchmaschinen entdeckt werden kann. Inhalt des Hidden Web wird dynamisch präsentiert in Antwort auf eine konkrete Anfrage. der größte Anteil Inhalts des Hidden Web wird unterhalb der Oberfläche bleiben und kann nur im Kontext einer bestimmten Anfrage entdeckt werden. trawling crawling Quelle: [To01] 8

9 Das Verborgene Web 17 Der Teil des Webs, der nicht durch Suchmaschinen indiziert wird Oft gespeichert in Datenbanken Dynamisch generierte Web Seiten durch Anwendungen im Server jsp, cgi, Sites und Seiten mit Passwort-geschütztem Inhalt Inhalt von Dateien, die nicht in Standard-Formaten gespeichert werden *.pdf, *.ppt, *.doc Grafikformate Quelle: [To01] Begriffe / Synonyme 18 Surface Web (Oberflächen-Web) Inhalt für normale Suchmaschinen sichtbar Shallow Web (Flaches Web) Normale Web-Seiten, die dynamisch generiert werden Anfragen durch Klicken auf Links Hidden Web (verborgenes Web) Inhalt für normale Suchmaschinen unsichtbar Invisible Web (unsichtbares Web) Synonym y mit Hidden web Deep Web (tiefes Web) nach BrightPlanet, Synonym mit Hidden Web Quelle: [To01] 9

10 Statistiken [Be01] bis 550 fach größer als Surface Web 7,500 Terabytes Informationen im Hidden Web 19 Terabytes Information im Surface Web 550 Milliarden Dokumente im Hidden Web 1 Milliarde Dokumente im Surface Web je nach dem, was man zählt Dynamische Seiten ,000 Hidden Websites ca. 84% sind auf Text-Dokumente spezialisiert ca. 95% des Hidden Web ist öffentlich verfügbar. Eigenschaften [Be01] 20 Hidden Websites haben thematisch oft schmaleren, aber tieferen Inhalt. Oft qualitativ bessere Informationen Meist relevanter Inhalt Kein Spam Über die Hälfte aller Hidden Websites sind thematisch spezialisiert. Am schnellsten wachsende Kategorie neuer Informationen im Internet 10

11 Beispiel: CompletePlanet.com 21 Überblick 22 Motivation [Be01,To01] Suche über das Web Begriffe und Definitionen Auffinden von Hidden Web Informationsquellen Potenzielle Hidden Web Quellen Finden [BC04] Themen extrahieren [IGS01] Klassifikation nach Themen [IGS01] Anfragen an relevante Quellen des Hidden Web Anfragen geeignet verteilen [IGS01] Anfragesprache lernen [BC04] (Ergebnisse integrieren) 11

12 Auffinden von Hidden Web Quellen [BC04] 23 Ziel: Finde Webseiten, die als Einstiegspunkt ins Hidden Web dienen. Seiten mit HTML Formular Einschränkungen Textuelle Formulare mindestens ein Textinput Gegenbeispiele?» Nur radio buttons, menus, checkboxen... Anfrageformulare Formulare, die Anfragen entgegennehmen und Informationen liefern Gegenbeispiele?» Login Seiten Hidden Web Formulare Keine Seiten mit komplexen Formularen (mehr als ein Inputfeld) Aufgabe: Automatisches Finden und Erkennen von Hidden Web Formularen Auffinden von Hidden Web Quellen 24 Manuell Automatisches Auffinden von Formularen 1. Google-Suche (nach Themen) 2. Lokales breadth-first Crawling bis Formular gefunden Innerhalb einer Site Bis zu einer festen Tiefe Automatisches Erkennen von Hidden Web Formularen (Heuristiken) Testanfragen mit positiven und negativen Suchwörtern Positiv: passende Worte Negativ: Fantasieworte Ergebnisse negativer Suchwörter immer gleich groß (Byte) Ergebnisse positiver Suchworte immer größer als negative Berechnung der Größe durch Subtraktion von Webseiten (als Baum) 12

13 Überblick 25 Motivation [Be01,To01] Suche über das Web Begriffe und Definitionen Auffinden von Hidden Web Informationsquellen Potenzielle Hidden Web Quellen Finden [BC04] Themen extrahieren [IGS01] Klassifikation nach Themen [IGS01] Anfragen an relevante Quellen des Hidden Web Anfragen geeignet verteilen [IGS01] Anfragesprache lernen [BC04] (Ergebnisse integrieren) Panagiotis G. Ipeirotis, NYU Suche im Hidden Web Probleme 26 Auswahl relevanter Quellen für Anfrage Themen extrahieren Content summary Nach Themen klassifizieren Hidden Web Metasearcher Hidden Web PubMed Nieren 220,000 Steine 40, Library of Congress Nieren 20 Steine ESPN Nieren 5 Steine

14 Klassifikation von Hidden Web Quellen 27 Klassifikation hier: Hierarchie über Kategorien und Subkategorien Zuordnung von Quellen ist nicht immer eindeutig. Manuell Yahoo, dmoz InvisibleWeb ( SearchEngineGuide ( Hierarchien sind einsehbar. Automatisch Basierend auf Kategorie der Dokumente in der Quelle 28 14

15 29 Content Summaries 30 Statistiken, die den Inhalt einer Hidden Web Quelle beschreiben Document-cardinality dc Anzahl der Dokumente insgesamt Document-frequency df(w) Pro Wort: Anzahl der Dokumente, die dieses Wort enthalten KrebsDB Document cardinality: Wort Document frequency Darm Krebs Vorschau zur Verwendung von content summaries Anfrage Darm-Krebs Anzahl Treffer = dc * df(darm)/dc * df(krebs)/dc =

16 Suche im Hidden Web Probleme Wie extrahiert man content summaries? Basketball 4 Krebs 4,532 CPU 23 Web Database 2. Wie verwendet man content summaries? Basketball 4 Krebs 4,532 CPU 23 Web Database 1 Krebs Metasearcher Basketball 4 Krebs 60,298 CPU 0 Web Database 2 Basketball 6,340 Krebs 2 CPU 0 Web Database 3 Extraktion von Content Summaries Probleme 32 Kein direkter Zugang zu den Dokumenten ohne konkrete Anfrage Gebundene Variablen Deswegen: Anfrage-basiertes Dokument-Sampling: 1. Sinnvolle Anfragen an Datenbank schicken (focussed probing) Ergebnisliste mit Links 2. Ergebnisdokumente aus Liste einholen (das Sample ) 3. Sample verwenden um content summary zu erstellen 16

17 Zufälliges Anfrage-basiertes Sampling Start mit leerem content summary Jedes Wort hat df(w) = Wähle ein Wort und schicke es als Anfrage an Hidden Web Quelle. 3. Wähle top-k Dokumente der Antwort (z.b. k=4). 4. Zähle df(w) für alle w in Sample um content summary zu füllen. 5. Wiederhole bis genug (z.b. 300) Dokumente empfangen wurden Wort Häufigkeit in Sample Krebs 150 (out of 300) aids 114 (out of 300) Herz 98 (out of 300) Basketball 2 (out of 300) Zufälliges Sampling Probleme 34 df(w) zwischen 1 und Anzahl der Dokumente # documents Es wird nicht Document-frequency ermittelt, sondern Samplefrequency. Absolute Zahlen sind nicht aussagekräftig. Große Quellen haben ähnliche content summary wie kleine Quellen. word rank Zahlen sind nur relativ zu interpretieren (als ranking). Zipf s law Viele Anfragen ohne oder nur mit kleinem Ergebnis (Zipf s law) Viele, seltene Worte fehlen in der Deshalb jetzt verbesserte Lösung content summary. 17

18 Zufälliges Sampling Verbesserung 35 Algorithmus: Überblick 1. Trainiere Dokument-Klassifikatoren Finde repräsentative Wörter für jede Kategorie. 2. Verwende Klassifikationsregeln um ein themenspezifisches Sample aus Quelle zu erhalten. 3. Schätze df(w) aller entdeckten Wörter. Fokussiertes Sampling: Trainingsphase 36 Start mit vordefinierter Themen- Hierarchie und bereits klassifizierten Dokumenten Bsp: Yahoo, dmoz Open Directory, Google... Trainiere Dokument-Klassifikatoren für jeden Knoten der Hierarchie. Mittels der bekannten Dokumente Extrahiere automatisch Regeln aus den Klassifikatoren: ibm AND computers Computers lung AND cancer Health angina Heart hepatitis AND liver Hepatitis } Root } Health 18

19 37 Fokussiertes Sampling Transformiere jede Regel in eine Boolesche Anfrage. Für jede Anfrage: Schicke Anfrage an Quelle Merke Anzahl der Ergebnisse Parsing Hole top-k Dokumente ein. Am Ende einer Runde: Analysiere Ergebnisse für jede Kategorie (zählen). Wähle Kategorie zum fokussieren in nächster Runde. Fokussiertes Sampling 38 Fokus nun auf Subkategorie Neue Regelmenge, deshalb neue Anfragemenge Vorteile Weniger Anfragen Fokussierte Anfragen 19

20 Aufruf für jede Kategorie und Subkategorie Anfragen entsprechend der Regeln des Klassifikators 39 Sammle Dokumente ein Bei Ein-Wort Anfragen erlernen wir die tatsächliche df(w) Zähle sample-frequency für jedes Wort Maße zur Berechnung des Grades der Zugehörigkeit zu einer Kategorie Falls hinreichend zu einer Subkategorie zugehörig Wiederhole für Subkategorie Vereinige gesammelte Metadaten Quelle: [IG02] Sample-frequency vs. Documentfrequency 41 Motivation: Sample-frequencies sind nur relativ. Quelle mit ähnlichem Inhalt aber unterschiedlicher Größe haben gleiche content summary. Sample Frequencies Leber erscheint in 200 von 300 Dokumenten im Sample. Niere erscheint in 100 von 300 Dokumenten im Sample. Hepatitis erscheint in 30 von 300 Dokumenten im Sample. Document-frequencies Anfrage Leber ergibt 140,000 Matches. Anfrage Hepatitis ergibt 20, Matches. Niere war kein Trainingswort Darm und Krebs waren zwar Trainingsworte, aber nur gemeinsam. Zur Abschätzung der (besseren) Document-frequencies werden Infos der Ein-Wort Anfragen verwendet. 20

21 Abschätzen der Document-frequencies 42 Bekannt aus Algorithmus Ranking r der Worte f nach Sample- frequencies Document-frequency f der Worte aus Ein- Wort Anfragen Mandelbrot s Formel verfeinert Zipfs Formel: f = P (r+p) -B P, p und B sind Parameter der Quelle Niedriger rank ergibt hohe frequency Dann: Kurvenanpassung z.b.: P = 8*10 5, p =.25, B = r Abschätzen der Document-frequencies 43 Algorithmus Sortiere Wörter absteigend nach Sample-frequency Ermittle P, p und B durch Fokus auf Wörter mit bekannter Document-frequency. (Kurvenanpassung) Berechne df(w i ) = P (r i +p) -B für alle anderen Wörter. 21

22 Vorteile des Fokussierten Sampling 44 Wenige Anfragen (Fokus auf Thema) Vielversprechende Anfragen Klassifikation along the way Nützlich für Auswahl relevanter Quellen Schätzung Document-frequency statt nur Sample-frequency. Überblick 45 Motivation [Be01,To01] Suche über das Web Begriffe und Definitionen Auffinden von Hidden Web Informationsquellen Potenzielle Hidden Web Quellen Finden [BC04] Themen extrahieren [IGS01] Klassifikation nach Themen [IGS01] Anfragen an relevante Quellen des Hidden Web Anfragen geeignet verteilen [IGS01] Anfragesprache lernen [BC04] (Ergebnisse integrieren) 22

23 Suche im Hidden Web Probleme Wie extrahiert man content summaries? Basketball 4 Krebs 4,532 CPU 23 Web Database 2. Wie verwendet man content summaries? Basketball 4 Krebs ,532 CPU 23 Web Database 1 Krebs Metasearcher Basketball 4 Krebs 60,298 CPU 0 Web Database 2 Basketball 6,340 Krebs 2 CPU 0 Web Database 3 Quellenauswahl und Content Summaries 47 Quellenauswahl nimmt vollständige content summaries an. Falls unvollständig (das Suchwort fehlt), kann nicht entschieden werden, ob die Quelle relevant ist. Content summaries aus Sampling sind immer unvollständig. Idee: Klassifikation verwenden Quellen gleicher Kategorie sollten auch ähnliche content summary haben. Content summaries verschiedener Quellen gleicher Kategorie können sich komplementieren. 23

24 Content Summaries für Kategorien (statt für Quellen) 48 Anzahl der Quellen Category: Cancer NumDBs: 2 Anzahl der Dokumente (Summe) Document-frequencies (Summe) Number of Documents: 166, breast 133, cancer 101, diabetes 11,344 metastasis 3,569 Somit kann jede Kategorie als Hidden Web Quelle angesehen werden. CANCERLIT CancerBACUP Number of Documents: 148,944 Number of Documents: 17, breast 121, cancer 91, diabetes 11,344 metastasis <not found>... breast 12, cancer 9, diabetes <not found> metastasis 3,569 Überblick 49 Motivation [Be01,To01] Suche über das Web Begriffe und Definitionen Auffinden von Hidden Web Informationsquellen Potenzielle Hidden Web Quellen Finden [BC04] Themen extrahieren [IGS01] Klassifikation nach Themen [IGS01] Anfragen an relevante Quellen des Hidden Web Anfragen geeignet verteilen [IGS01] Anfragesprache lernen [BC04] (Ergebnisse integrieren) 24

25 Anfragen an Quellen des Hidden Web 50 Hidden Web Quellen verwenden unterschiedliche Anfragesprachen (Schnittstellen-Heterogenität) t t ität) Suchwörter Phrasen Boolesche Kombinationen Es gilt, solche Anomalien Anomalien automatisch zu entdecken. Quelle [BC04] Anfragesprache an Quellen des Hidden Web 51 Mögliche Operatoren O = {CASE, STEM, PHRASE, AND, OR, NOT} Mögliche Syntax S = {wort, `*, `_, `, `AND, `OR, `NOT, `+, `- } Ziel Automatische Erkennung der unterstützten Operatoren Automatische Erkennung der Interpretation der Syntax 25

26 Maschinelles Lernen für Syntax 52 Zielfunktion: T:S O Zuordnung von Ausdrücken zu Operatoren Problem: Nicht jede Syntax wird unterstützt Erweiterung von O zu O O = {CASE, STEM, PHRASE, AND, OR, NOT} O = O {ignored, literal, unknown} Beispiel: Google Wort CASE, STEM `* ignored `_ AND ` PHRASE `AND AND `OR OR `NOT ignored `+ AND `- NOT literal, unknown Maschinelles Lernen für Syntax 53 Idee Testanfragen verschicken und Ergebnisgrößen untersuchen. Machine Learning Methoden verwenden. Wichtige Annahme: Man kann Ergebnisgröße herausparsen. Training Hidden Web Quellen mit bekannter Syntax und bekannten Operatoren Testanfrage verschicken und Eigenschaften der Ergebnisse (insbesondere Ergebnisgröße) beobachten. Testing Unbekannte Hidden Web Quelle Gleiche Testanfragen verschicken und Eigenschaften vergleichen. Welche Testanfragen? Welche Eigenschaften? 26

27 Testanfragen 54 Beispiele casablanca (template RandomCase(A) ) Einzelnes Wort Bogart AND (template B AND ) Nicht wohlgeformt +Casablanca +Bogart (template +A +B ) Kombination von Worten Variationen +Bogart +Casablanca (template +B +A ) In [BC04]: 22 templates Templates füllen mit drei Sorten von Wortpaaren Phrasen: A = information, B = retrieval Co-occurrence: A = information, B = knowledge Nicht verwandte Worte: A = China, B = Käse Quelle [BC04] Eigenschaften der Ergebnisse (Features) 55 Für jede Anfrage q i Extraktion der Trefferanzahl m(q i ) Für jedes Paar von Anfragen q i, q j (231 Stück) merke (zur Normalisierung) -1 falls m(q i ) < m(q j ) 0 falls m(q i ) = m(q j ) +1 falls m(q i ) > m(q j ) Dies sind dreiwertige Machine Learning Features. Nun: Beliebiger Algorithmus für Maschinelles Lernen verwenden Decision Trees, k-nearest Neighbour, Support-Vector- Machines Quelle [BC04] 27

28 Weitere Probleme 56 Stop-Wörter a, the, on, in,... Kontextsensitive Stop-Wörter Google: www vs. www database Dynamische Interpretation CiteSeer: www databases (i) entspricht www AND databases (ii) entspricht www OR databases falls (i) leer Ergebnisgröße oft nur geschätzt. Rückblick 57 Motivation [Be01,To01] Suche über das Web Begriffe und Definitionen Basketball 4 Krebs 4,532 Auffinden von Hidden Web CPU 23 Informationsquellen Potenzielle Hidden Web Web Database Quellen Finden Themen extrahieren Klassifikation nach Themen Anfragen an relevante Quellen des Hidden Web O = {CASE, STEM, PHRASE, AND, OR, NOT} Anfragen geeignet verteilen Anfragesprache lernen Klassifikation S = {wort, `*, `_, `, `AND, `OR, `NOT, `+, `- } 57 28

29 Literatur 58 Wichtigste Literatur [IGS01] Probe, Count, and Classify. P.G. Ipeirotis, L. Gravano, and M. Shami. SIGMOD 2001 [BC04] A. Bergholz and B. Chidlovskii. Learning Query Languages of Web Interfaces, SAC04 Weiteres [Be01] The Deep Web: Surfacing Hidden Value Michael K. Bergman, Whitepaper at [To01] Foliensatz von Dawne Tortorella (BellCow) nach [Be01] [IG02] Distributed Search of the Hidden Web: Hierarchical Data Sampling and Selection. P.G. Ipeirotis and L. Gravano in VLDB

Deep Web. Timo Mika Gläßer

Deep Web. Timo Mika Gläßer Deep Web Timo Mika Gläßer Inhaltsverzeichnis Deep Web Was ist das? Beispiele aus dem Deep Web PubMed AllMusic Statistiken zu Surface/Shallow und Deep Web Auffinden von potentiellen Quellen ([BC04], [WM04],

Mehr

Seminar Informationsintegration und Informationsqualität. Dragan Sunjka. 30. Juni 2006

Seminar Informationsintegration und Informationsqualität. Dragan Sunjka. 30. Juni 2006 Seminar Informationsintegration und Informationsqualität TU Kaiserslautern 30. Juni 2006 Gliederung Autonomie Verteilung führt zu Autonomie... Intra-Organisation: historisch Inter-Organisation: Internet

Mehr

Search Engines Chapter 3 Crawls & Feeds Felix Naumann

Search Engines Chapter 3 Crawls & Feeds Felix Naumann Search Engines Chapter 3 Crawls & Feeds 30.4.2009 Felix Naumann What to crawl 2 Every document answers at least one question: Now where was that document again? Poor quality documents Swamp index Slow

Mehr

Wer suchet, der findet

Wer suchet, der findet Wer suchet, der findet - Über die Kunst des Suchens - 1 Maik Hetmank W W W as möchte ich wissen? omit soll ich suchen? ie soll ich suchen? 2 Maik Hetmank Was genau möchte ich wissen? Offen Welche Gefahren

Mehr

Federated Search: Integration von FAST DataSearch und Lucene

Federated Search: Integration von FAST DataSearch und Lucene Federated Search: Integration von FAST DataSearch und Lucene Christian Kohlschütter L3S Research Center BSZ/KOBV-Workshop, Stuttgart 24. Januar 2006 Christian Kohlschütter, 24. Januar 2006 p 1 Motivation

Mehr

Search Engines Chapter 3 Crawls & Feeds. 21.4.2011 Felix Naumann

Search Engines Chapter 3 Crawls & Feeds. 21.4.2011 Felix Naumann Search Engines Chapter 3 Crawls & Feeds 21.4.2011 Felix Naumann What to crawl 2 Every document answers at least one question: Now where was that document again? Poor quality documents Swamp index Slow

Mehr

Suchmaschinenoptimierung in der Praxis

Suchmaschinenoptimierung in der Praxis Suchmaschinenoptimierung in der Praxis So steigern Sie die Zugriffe auf Ihre Webseite. Frank Jäger, Präsentation am 11. Juni 2010, 1 Überblick Suchmaschinenoptimierung in der Theorie Aufbau der Google-Suchergebnisseite

Mehr

Inhaltsverzeichnis 1 Einführung 2 Formen der Suche im Web 3 Wie Suchmaschinen funktionieren

Inhaltsverzeichnis 1 Einführung 2 Formen der Suche im Web 3 Wie Suchmaschinen funktionieren Inhaltsverzeichnis 1 Einführung...................................................... 1 1.1 Die Bedeutung der Suchmaschinen............................... 2 1.2 Ein Buch über Google?........................................

Mehr

Deep Web Suchen wir was man finden könnte?

Deep Web Suchen wir was man finden könnte? Deep Web Suchen wir was man finden könnte? Dr. Dirk Lewandowski dirk.lewandowski@uni-duesseldorf.de www.durchdenken.de/lewandowski Gliederung Die Bedeutung des Deep Web Die Größe des Deep Web Strategien

Mehr

HUMBOLDT-UNIVERSITÄT ZU BERLIN. Seminararbeit. Deep Web. Timo Mika Gläßer * 1. Februar 2005. betreut durch Prof. Dr. Felix Naumann

HUMBOLDT-UNIVERSITÄT ZU BERLIN. Seminararbeit. Deep Web. Timo Mika Gläßer * 1. Februar 2005. betreut durch Prof. Dr. Felix Naumann HUMBOLDT-UNIVERSITÄT ZU BERLIN Seminararbeit Deep Web Timo Mika Gläßer * 1. Februar 2005 betreut durch Prof. Dr. Felix Naumann * uni@datanomisch.de Inhaltsverzeichnis Inhaltsverzeichnis... 2 Deep Web Was

Mehr

Teil VIII. Weiterführende Veranstaltungen im FG Wissensverarbeitung

Teil VIII. Weiterführende Veranstaltungen im FG Wissensverarbeitung Teil VIII Weiterführende Veranstaltungen im FG Wissensverarbeitung Überblick 1 Zusammenfassung AlgoDS 2 Datenbanken 3 Internet-Suchmaschinen 4 Knowledge Discovery 5 Künstliche Intelligenz 6 Seminare &

Mehr

Suchmaschinen. Anwendung RN Semester 7. Christian Koczur

Suchmaschinen. Anwendung RN Semester 7. Christian Koczur Suchmaschinen Anwendung RN Semester 7 Christian Koczur Inhaltsverzeichnis 1. Historischer Hintergrund 2. Information Retrieval 3. Architektur einer Suchmaschine 4. Ranking von Webseiten 5. Quellenangabe

Mehr

RVK-Portal und BibScout. Zwei Seiten derselben Medaille RVK?

RVK-Portal und BibScout. Zwei Seiten derselben Medaille RVK? RVK-Portal und BibScout Zwei Seiten derselben Medaille RVK? Für Profis W. Heymans, BSZ: BibScout 2 Für Profis Für Laien W. Heymans, BSZ: BibScout 3 W. Heymans, BSZ: BibScout 4 Der eine Schritt mehr im

Mehr

Erfolgreich suchen im Internet

Erfolgreich suchen im Internet Erfolgreich suchen im Internet Steffen-Peter Ballstaedt 05.10.2015 Statistik Weltweit: etwa 1 Milliarde Websites BRD: 15 Millionen Websites Das Internet verdoppelt sich alle 5,32 Jahre Die häufigste Aktivität

Mehr

Suchen im WWW. Einführung

Suchen im WWW. Einführung Suchen im WWW Einführung 1 Das World Wide Web 1990 von Tim Berners-Lee in CERN entwickelt, um im Internet verfügbare Forschungsdokumente zu organisieren. Verbindet zur Verlinkung von Dokumenten die Idee

Mehr

Zugang zum Academic Invisible Web

Zugang zum Academic Invisible Web Zugang zum Academic Invisible Web Dr. Dirk Lewandowski Heinrich-Heine-Universität Düsseldorf, Abt. Informationswissenschaft dirk.lewandowski@uni-duesseldorf.de www.durchdenken.de/lewandowski Gliederung

Mehr

Web Data Management Systeme

Web Data Management Systeme Web Data Management Systeme Seminar: Web-Qualitätsmanagement Arne Frenkel Agenda Einführung Suchsysteme Suchmaschinen & Meta-Suchmaschinen W3QS WebSQL WebLog Information Integration Systems Ariadne TSIMMIS

Mehr

Wenn bereits ein Eintrag existiert, können Sie diesen bearbeiten und übernehmen in dem Sie im Eintrag auf Bearbeiten klicken.

Wenn bereits ein Eintrag existiert, können Sie diesen bearbeiten und übernehmen in dem Sie im Eintrag auf Bearbeiten klicken. Sind Sie bereits eingetragen? Bevor sie einen neuen Eintrag erstellen, sollten Sie sicher gehen, dass ihr Eintrag bei uns noch nicht vorhanden ist. Geben Sie also direkt in das Suchfeld auf unserer Internetseite

Mehr

Verteiltes Information Retrieval

Verteiltes Information Retrieval Seminar Experimentielle Evaluierung im IR Verteiltes Information Retrieval Sascha Brink Sebastian Ruiling 20.12.2005 Universität Duisburg-Essen Agenda Motivation / Grundlagen CORI DTF Diskussion der Verfahren

Mehr

Informationsintegration Beispiel

Informationsintegration Beispiel Informationsintegration Beispiel 17.4.2007 Felix Naumann Informationsintegration 2 Web Service A Web Service B Federated Database Systems Amit Sheth

Mehr

dacore Datenbanksysteme AG Neue Konzepte zur Optimierung der Auslastungsplanung und Big Data im Informationsmanagement

dacore Datenbanksysteme AG Neue Konzepte zur Optimierung der Auslastungsplanung und Big Data im Informationsmanagement dacore Datenbanksysteme AG Neue Konzepte zur Optimierung der Auslastungsplanung und Big Data im Informationsmanagement dacore Datenbanksysteme AG Neue Konzepte zur Optimierung der Auslastungsplanung Die

Mehr

INTELLIGENTE DATENANALYSE IN MATLAB. Einführungsveranstaltung

INTELLIGENTE DATENANALYSE IN MATLAB. Einführungsveranstaltung INTELLIGENTE DATENANALYSE IN MATLAB Einführungsveranstaltung Überblick Organisation. Literatur. Inhalt und Ziele der Vorlesung. Beispiele aus der Praxis. 2 Organisation Vorlesung/Übung + Projektarbeit.

Mehr

limlhaidftswgirzälhimds

limlhaidftswgirzälhimds limlhaidftswgirzälhimds 1 Einführung 1 1.1 Die Bedeutung der Suchmaschinen 2 1.2 Ein Buch über Google? 6 1.3 Ziel dieses Buchs 7 1.4 Über Suchmaschinen sprechen 8 1.5 Aufbau des Buchs 8 1.6 Aufbau der

Mehr

Swoogle. Patrice Matthias Brend amour

Swoogle. Patrice Matthias Brend amour Swoogle Finding and Ranking Knowledge on the Semantic Web Patrice Matthias Brend amour Fachbereich Informatik und Informationswissenschaft Universität Konstanz Kurs: Web Services and Semantic Web Datum:

Mehr

Informationsintegration I Einführung

Informationsintegration I Einführung Informationsintegration I Einführung Felix Naumann Integrierte Informationssysteme Anfrage Integriertes Informationssystem Oracle, DB2 Anwendung Dateisystem Web Service HTML Form Integriertes Info.-system

Mehr

Web Solutions for Livelink

Web Solutions for Livelink Web Solutions for Livelink Current Status and Roadmap (Stand: September 2007) 2007 RedDot Solutions Web Solutions für Open Text Livelink ES Integrate Nahtlose Integration mit dem Livelink Enterprise Server

Mehr

2. Architektur verteilter Datenbanksysteme

2. Architektur verteilter Datenbanksysteme 2. Architektur verteilter Datenbanksysteme Verteilte Datenbank, kurz DDB (engl. distributed database): eine Sammlung logisch zusammengehöriger Datenbanken, welche über Rechnerknoten ( Sites ) verteilt

Mehr

Sprachstatistik: Das Zipf sche Gesetz

Sprachstatistik: Das Zipf sche Gesetz Sprachstatistik: Das Zipf sche Gesetz Korpus-Workshop Thema Korpus-Statistik Thomas Wittig Universität Leipzig Institut für Informatik wittig@uni-leipzig.de Principle of Least Effort 2 George K. Zipf:

Mehr

(Bamberg)

(Bamberg) Konzeption eines Frameworks für die Evaluation von Tag-Suggestion-Algorithmen Martin Garbe Steffen Oldenburg Lukas Zielinski Prof. Dr. Clemens Cap (Universität Rostock) 08.05.2008 (Bamberg) Übersicht Tags

Mehr

Recherchieren im Internet

Recherchieren im Internet Recherchieren im Internet Proseminar 1 Physik für Studierende des Lehramts Übersicht 1. Allgemeines zur Lage 2. google und mehr 3. Kataloge und Metasuchmaschinen 4. Fachspezifische Suchdienste 1. Allgemeines

Mehr

Data-Warehouse-Praktikum

Data-Warehouse-Praktikum Data-Warehouse-Praktikum WS 18/19 Universität Leipzig, Institut für Informatik Abteilung Datenbanken Prof. Dr. E. Rahm V. Christen, M. Franke, Z. Sehili {christen, franke, sehili}@informatik.uni-leipzig.de

Mehr

Data Mining 7-1. Kapitel 7: Advertising on the Web. Johannes Zschache Wintersemester 2018/19

Data Mining 7-1. Kapitel 7: Advertising on the Web. Johannes Zschache Wintersemester 2018/19 Data Mining Kapitel 7: Advertising on the Web Johannes Zschache Wintersemester 2018/19 Abteilung Datenbanken, Universität Leipzig http://dbs.uni-leipzig.de Data Mining 7-1 7-2 Data Mining Übersicht Hochdimension.

Mehr

Apache Lucene. Mach s wie Google! Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.org

Apache Lucene. Mach s wie Google! Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.org Apache Lucene Mach s wie Google! Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.org 1 Apache Apache Software Foundation Software free of charge Apache Software

Mehr

Seiten und Navigationspunkte

Seiten und Navigationspunkte Seiten und Navigationspunkte Legen Sie neue Seiten und Navigationspunkte an. Um Sie mit dem Anlegen von Seiten und Navigationspunkten vertraut zu machen, legen wir zunächst einen neuen Navigationspunkt

Mehr

Informationskompetenz - Was ist das?

Informationskompetenz - Was ist das? Informationskompetenz - Was ist das? Tools für die Internetsuche Suchmaschinen Wissenschaftliche Suchmaschinen Internetverzeichnisse und Fachportale Suche im Deep web Welches Tool ist wann sinnvoll? Funktionsweise

Mehr

Grundlagen Internet-Technologien INF3171

Grundlagen Internet-Technologien INF3171 Fachbereich Informatik Informationsdienste Grundlagen Internet-Technologien INF3171 Cookies & Sessions Version 1.0 20.06.2016 aktuelles 2 Erweiterungen wir betrachten zwei Erweiterungen: Personalisierung

Mehr

Recherche im Internet

Recherche im Internet Recherche im Internet Tools für die Internetsuche Wie suche ich im Internet? Fachliche Internetseiten Einige Vor- und Nachteile der Internetsuche Vorteile Schneller Zugriff vom Arbeitsplatz aus Oft reicht

Mehr

Suchmaschinen- optimierung (SEO)

Suchmaschinen- optimierung (SEO) Suchmaschinen- optimierung (SEO) Zusammenfassung von Keepsmile Design, Castrop-Rauxel (www.keepsmile-design.com) Hintergrund Immer mehr Menschen verlassen sich bei der Suche nach Unternehmen, Produkten

Mehr

Visualisierung in Informatik und Naturwissenschaften

Visualisierung in Informatik und Naturwissenschaften Visualisierung in Informatik und Naturwissenschaften Datenbankvisualisierung Sven Bernhard 12.06.1999 Datenbankvisualisierung Datenbanktheorie in 5 Minuten Visualisierung vs. Datenbanken Visualisierung

Mehr

Neue Erkenntnisse aus unstrukturierten Daten gewinnen

Neue Erkenntnisse aus unstrukturierten Daten gewinnen Neue Erkenntnisse aus unstrukturierten Daten gewinnen Univ.-Prof. Dr. Josef Küng Institut für anwendungsorientierte Wissensverarbeitung (FAW) Johannes Kepler Universität Linz In Zusammenarbeit mit Mag.

Mehr

Ontologien. Design und Beispiele. Christian Schaadt AI-Tools WS 07

Ontologien. Design und Beispiele. Christian Schaadt AI-Tools WS 07 Ontologien Design und Beispiele Inhalte Teil 1: Ontologie - Begriffsklärung Sinn von Ontologien Design einer Ontologie Teil 2: Verschiedene Ontologien SUMO WordNet OpenCyc GUMO Demo: SUMO / WordNet Begriffsklärung

Mehr

INTELLIGENTE DATENANALYSE IN MATLAB

INTELLIGENTE DATENANALYSE IN MATLAB INTELLIGENTE DATENANALYSE IN MATLAB Einführungsveranstaltung Überblick Organisation Literatur Inhalt und Ziele der Vorlesung Beispiele aus der Praxis 2 Organisation Vorlesung/Übung + Projektarbeit. 4 Semesterwochenstunden.

Mehr

Suchen und Finden Geschäftsrelevante Informationen systemübergreifend finden, analysieren und aufbereiten Stefan Jaschke, IBM

Suchen und Finden Geschäftsrelevante Informationen systemübergreifend finden, analysieren und aufbereiten Stefan Jaschke, IBM Suchen und Finden Geschäftsrelevante Informationen systemübergreifend finden, analysieren und aufbereiten Stefan Jaschke, IBM 2010 IBM Corporation IBM ECM Softwaremodul Für die Suche in unstrukturierten

Mehr

2006, Falk Neubert (ecoservice / materialboerse.de GmbH)

2006, Falk Neubert (ecoservice / materialboerse.de GmbH) Wie wird meine Webseite gefunden? Falk Neubert, Geschäftsführer ecoservice / materialboerse.de GmbH Was kann gefunden werden? alles was im sichtbaren Web vorhanden ist...... Texte, Dokumente, Grafiken,

Mehr

Suchmaschinen und E-Commerce-Sites als Herausforderer der Bibliotheksangebote

Suchmaschinen und E-Commerce-Sites als Herausforderer der Bibliotheksangebote Suchmaschinen und E-Commerce-Sites als Herausforderer der Bibliotheksangebote 94. Deutscher Bibliothekartag, Düsseldorf 2005 Dirk Lewandowski Heinrich-Heine-Universität Düsseldorf, Abt. Informationswissenschaft

Mehr

Anleitung zur Benutzung des Admin Control Panel

Anleitung zur Benutzung des Admin Control Panel Anleitung zur Benutzung des Admin Control Panel Homepageversion 0.3.2 vom 04.10.2015 Dokumentenversion 1.0 vom 08.10.2015 1. Globale Einstellungen 2. Eine Seite bearbeiten Wie bearbeite ich eine Seite?

Mehr

Erkennung von bösartigen Netzwerkverbindungen mittels Verhaltensgraphenanalyse

Erkennung von bösartigen Netzwerkverbindungen mittels Verhaltensgraphenanalyse Erkennung von bösartigen Netzwerkverbindungen mittels Verhaltensgraphenanalyse Ralf Hund 21.03.2011 - SPRING 6 Arbeitsgruppe Embedded Malware Lehrstuhl für Netz- und Datensicherheit Zur Person Diplom an

Mehr

Redirect Management. SEO-Unterstützung beim IF 6-Umzug durch SFP

Redirect Management. SEO-Unterstützung beim IF 6-Umzug durch SFP Redirect Management SEO-Unterstützung beim IF 6-Umzug durch SFP 1 Warum Redirect Management (URL-Matching) bei einem Relaunch? Allgemeine Betrachtung 09.05.2016 Seite 3 Grundsätzliches: Die IF im Google-Index

Mehr

Vom Suchen und Finden - Google und andere Ansätze

Vom Suchen und Finden - Google und andere Ansätze Vom Suchen und Finden - Google und andere Ansätze Norbert Fuhr Universität Duisburg Essen FB Ingenieurwissenschaften Abteilung Informatik 12. Mai 2005 Gliederung 1 Einführung 2 Grundlagen 3 Erweiterte

Mehr

Einheitlicher Ansprechpartner 2.0 / Suchtechnologie und Chatbots. Berlin,

Einheitlicher Ansprechpartner 2.0 / Suchtechnologie und Chatbots. Berlin, Einheitlicher Ansprechpartner 2.0 / Suchtechnologie und Chatbots Berlin, 12.07.2016 Suchmethoden im Überblick Keyword-basierte Suche Semantische Suche machine learning Suche Exakte Suche nach Textketten

Mehr

Praktikable Lösungsansätze unter Nutzung semantischer Technologien. Ulrich Bügel

Praktikable Lösungsansätze unter Nutzung semantischer Technologien. Ulrich Bügel What s in my Backyard? Workshop zur Nutzung von Ontologien für das UIS Baden-Württemberg 4.11.2008 Praktikable Lösungsansätze unter Nutzung semantischer Technologien Ulrich Bügel IITB, str. 1 76131 Karlsruhe,

Mehr

Gibbs sampling. Sebastian Pado. October 30, Seien X die Trainingdaten, y ein Testdatenpunkt, π die Parameter des Modells

Gibbs sampling. Sebastian Pado. October 30, Seien X die Trainingdaten, y ein Testdatenpunkt, π die Parameter des Modells Gibbs sampling Sebastian Pado October 30, 2012 1 Bayessche Vorhersage Seien X die Trainingdaten, y ein Testdatenpunkt, π die Parameter des Modells Uns interessiert P (y X), wobei wir über das Modell marginalisieren

Mehr

Web Information Retrieval. Zwischendiskussion. Überblick. Meta-Suchmaschinen und Fusion (auch Rank Aggregation) Fusion

Web Information Retrieval. Zwischendiskussion. Überblick. Meta-Suchmaschinen und Fusion (auch Rank Aggregation) Fusion Web Information Retrieval Hauptseminar Sommersemester 2003 Thomas Mandl Überblick Mehrsprachigkeit Multimedialität Heterogenität Qualität, semantisch, technisch Struktur Links HTML Struktur Technologische

Mehr

1 Information Retrieval Grundlagen

1 Information Retrieval Grundlagen 1. Übung zur Vorlesung Internet-Suchmaschinen im Wintersemester 2007/2008 mit Lösungsvorschlägen Dr. Andreas Hotho, Prof. Dr. Gerd Stumme, M.Sc. Wi-Inf. Beate Krause 01. November 2007 1 Information Retrieval

Mehr

Inhalt. 1 Einführung... 11. 2 Funktionsweise von Suchmaschinen... 21. 3 So werden Suchergebnisse gewichtet... 39

Inhalt. 1 Einführung... 11. 2 Funktionsweise von Suchmaschinen... 21. 3 So werden Suchergebnisse gewichtet... 39 1 Einführung.......................................................... 11 1.1 Eine kurze Geschichte von fast allem.................................. 12 1.2 Die Bedeutung von Suchmaschinen gestern, heute

Mehr

Multimedia-Datenbanken im SS 2010 Einführung in MMDB

Multimedia-Datenbanken im SS 2010 Einführung in MMDB Multimedia-Datenbanken im SS 2010 Einführung in MMDB Dr.-Ing. Marcin Grzegorzek 27.04.2010 Ähnlichkeitssuche in Multimedia-Datenbanken 2/ 28 Inhalte und Termine 1. Einführung in MMDB 1.1 Grundlegende Begriffe

Mehr

Seminar Datenbanksysteme

Seminar Datenbanksysteme Seminar Datenbanksysteme Recommender System mit Text Analysis für verbesserte Geo Discovery Eine Präsentation von Fabian Senn Inhaltsverzeichnis Geodaten Geometadaten Geo Discovery Recommendation System

Mehr

Übersicht. Grundidee des Indexing Lucene Wichtige Methoden und Klassen Lucene Indizierungsbeispiele Lucene Suchbeispiele Lucene QueryParser Syntax

Übersicht. Grundidee des Indexing Lucene Wichtige Methoden und Klassen Lucene Indizierungsbeispiele Lucene Suchbeispiele Lucene QueryParser Syntax Indizierung Lucene Übersicht Grundidee des Indexing Lucene Wichtige Methoden und Klassen Lucene Indizierungsbeispiele Lucene Suchbeispiele Lucene QueryParser Syntax Grundideen und Ziel des Indexing Effizientes

Mehr

FRANZIS PROFESSIONAL SERIES. Das Praxisbuch FRANZIS. Maik Caro / Christoph Lindemann. Mit 252 Abbildungen

FRANZIS PROFESSIONAL SERIES. Das Praxisbuch FRANZIS. Maik Caro / Christoph Lindemann. Mit 252 Abbildungen FRANZIS PROFESSIONAL SERIES Maik Caro / Christoph Lindemann Das Praxisbuch Mit 252 Abbildungen FRANZIS Inhaltsverzeichnis 1 Installation & Konfiguration 11 1.1 Windows ТуроЗ Server-Installation 11 1.2

Mehr

Innovationslabor Semantische Integration von Webdaten

Innovationslabor Semantische Integration von Webdaten Innovationslabor Semantische Integration von Webdaten Workflow-basierte Datenintegration und Objekt-Matching Dr. Andreas Thor http://dbs.uni-leipzig.de/format Workflow-basierte Datenintegration Ausgangspunkt

Mehr

Informationssysteme für Ingenieure

Informationssysteme für Ingenieure Informationssysteme für Ingenieure Vorlesung Herbstsemester 2016 Überblick und Organisation R. Marti Organisation Web Site: http://isi.inf.ethz.ch Dozent: Robert Marti, martir ethz.ch Assistenz:??

Mehr

Internet. HTML Programmierung Grundlagen HTML Programmierung für Fortgeschrittene CGI Programmierung PHP Programmierung Programmieren mit JavaScript

Internet. HTML Programmierung Grundlagen HTML Programmierung für Fortgeschrittene CGI Programmierung PHP Programmierung Programmieren mit JavaScript Internet Internet HTML Programmierung Grundlagen HTML Programmierung für Fortgeschrittene CGI Programmierung PHP Programmierung Programmieren mit JavaScript neu Impressum Herausgeber: LogIn S&C Gesellschaft

Mehr

Suche für Anwender in SharePoint 2013

Suche für Anwender in SharePoint 2013 Suche für Anwender in SharePoint 2013 Vorstellung Nico Thiemer Buch- und Fachartikelautor zum Thema SharePoint Trainer und Berater Microsoft SharePoint Dynamics CRM Office 365/Azure SharePoint und Dynamics

Mehr

Programmieren lernen in ASP.NET mit C#

Programmieren lernen in ASP.NET mit C# Programmieren lernen in ASP.NET mit C# von Patrick A. Lorenz, Christoph A. Müller 1. Auflage Hanser München 2003 Verlag C.H. Beck im Internet: www.beck.de ISBN 978 3 446 22311 0 Zu Leseprobe schnell und

Mehr

Was Google nicht findet gibt es nicht

Was Google nicht findet gibt es nicht Was Google nicht findet gibt es nicht Zur (Un-)Zulässigkeit der Treffer-Optimierung bei Suchmaschinen im Web 3.0 Dr. Hans Peter Wiesemann 5. Dialog Camp München, 19. Februar 2016 A. Einleitung A. Einleitung

Mehr

#Backlinks: Was macht einen guten Backlink aus?

#Backlinks: Was macht einen guten Backlink aus? #Backlinks: Was macht einen guten Backlink aus? Start 1 Was ist ein Backlink? Wozu brauche ich Backlinks? Backlink: Verweis von einer anderen Webseite Wichtiger Rankingfaktor für alle großen Suchmaschinen

Mehr

Suchen, um zu finden. Sta,s,k BRD (Quelle: Comscore, 2013) Beziehungsgeflecht der Suchmaschinen. Antworten auf folgende Fragen: 24.06.

Suchen, um zu finden. Sta,s,k BRD (Quelle: Comscore, 2013) Beziehungsgeflecht der Suchmaschinen. Antworten auf folgende Fragen: 24.06. Suchen, um zu finden Sta,s,k BRD (Quelle: Comscore, 2013) Steffen- Peter Ballstaedt 24.6.2015 etwa 6 Milliarden Suchanfragen pro Monat etwa 2.500 Anfragen pro Sekunde 96% der Suchanfragen über Google Beziehungsgeflecht

Mehr

Web Data Mining. Alexander Hinneburg Sommersemester 2007

Web Data Mining. Alexander Hinneburg Sommersemester 2007 Web Data Mining Alexander Hinneburg Sommersemester 2007 Termine Vorlesung Mi. 10:00-11:30 Raum?? Übung Mi. 11:45-13:15 Raum?? Klausuren Mittwoch, 23. Mai Donnerstag, 12. Juli Buch Bing Liu: Web Data Mining

Mehr

Was bedeutet der Begriff:

Was bedeutet der Begriff: Wie gewinnen Sie mit Ihrer Internetseite neue Gäste? THEMA : Sichtbarkeit schaffen durch SUCHMASCHINEN-OPTIMIERUNG (SEO) Was bedeutet der Begriff: SEO? Die Kunst der Suchmaschinen-Optimierung oder Wie

Mehr

1 Informationssuche im Internet

1 Informationssuche im Internet 1 Informationssuche im Internet Das Internet enthält eine große Menge unterschiedlicher und sehr heterogener Daten, die in unterschiedlicher Art und Weise aufbereitet sind. Der interessante Teil des Internet

Mehr

Semestralklausur zur Vorlesung. Web Mining. Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2004 Termin: 22. 7.

Semestralklausur zur Vorlesung. Web Mining. Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2004 Termin: 22. 7. Semestralklausur zur Vorlesung Web Mining Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2004 Termin: 22. 7. 2004 Name: Vorname: Matrikelnummer: Fachrichtung: Punkte: (1).... (2)....

Mehr

Enterprise Search. Präsentation zur Seminararbeit. im Seminar Moderne Entwurfsmethoden für Innovative Softwaresysteme

Enterprise Search. Präsentation zur Seminararbeit. im Seminar Moderne Entwurfsmethoden für Innovative Softwaresysteme Enterprise Search Präsentation zur Seminararbeit im Seminar Moderne Entwurfsmethoden für Innovative Softwaresysteme Michael Hübschmann 14. Januar 2014 Betreuung: Dr. Hella Seebach Überblick 1. Motivation

Mehr

General Game Playing

General Game Playing General Game Playing Martin Günther mguenthe@uos.de 17. Juni 2010 1 / 31 1997: Deep Blue schlägt Kasparov Motivation: warum General Game Playing? AAAI General Game Playing Competition 2 / 31 Motivation:

Mehr

Suchmaschinen- Optimierung Gestern heute - morgen

Suchmaschinen- Optimierung Gestern heute - morgen Internet-Stammtisch Suchmaschinen- Optimierung Gestern heute - morgen Uwe Stache http://www.ecomm-berlin.de/ Die Themen Die Basics OnSite / OffSite SEO & WEB 2.0 Outlook ein Versuch Vorspann Kein Werkzeug

Mehr

Suchmaschinenoptimierung (SEO) Die Grundlagen was Sie wissen sollten?

Suchmaschinenoptimierung (SEO) Die Grundlagen was Sie wissen sollten? Suchmaschinenoptimierung (SEO) Die Grundlagen was Sie wissen sollten? Search Engine Marketing SEM = Search Engine Marketing SEA SEO Suchmaschinen-Marketing umfasst alle Maßnahmen zur Gewinnung von qualifizierten

Mehr

Suchmaschinen im Internet

Suchmaschinen im Internet Michael Glöggler Suchmaschinen im Internet Funktionsweisen, Ranking Methoden, Top Positionen Mit 47 Abbildungen und 25 n Springer Inhaltsverzeichnis 1 Überblick Suchdienste im World Wide Web 1 1.1 Webkataloge

Mehr

Was Bibliotheken von Suchmaschinen lernen können. Prof. Dr. Dirk Lewandowski dirk.lewandowski@haw-hamburg.de

Was Bibliotheken von Suchmaschinen lernen können. Prof. Dr. Dirk Lewandowski dirk.lewandowski@haw-hamburg.de Was Bibliotheken von Suchmaschinen lernen können Prof. Dr. Dirk Lewandowski dirk.lewandowski@haw-hamburg.de 1 Dirk Lewandowsk: Was Bibliotheken von Suchmaschinen lernen können Suchmaschinen 2 Dirk Lewandowsk:

Mehr

Suchmaschinenoptimierung (SEO) Die Grundlagen was Sie wissen sollten?

Suchmaschinenoptimierung (SEO) Die Grundlagen was Sie wissen sollten? Suchmaschinenoptimierung (SEO) Die Grundlagen was Sie wissen sollten? Search Engine Marketing SEA SEM = Search Engine Marketing Suchmaschinen-Marketing umfasst alle Maßnahmen zur Gewinnung von qualifizierten

Mehr

Portal der Forscher/-innen. Gesellschaft, Territorium, Kulturerbe - Forum der Forscher/-innen

Portal der Forscher/-innen. Gesellschaft, Territorium, Kulturerbe - Forum der Forscher/-innen Portal der Forscher/-innen. Gesellschaft, Territorium, Kulturerbe - Forum der Forscher/-innen Ein Raum für gemeinsame Nutzung, für Diskussionen und für Informationen über Forschungsprojekte, die einen

Mehr

Verknüpfte Daten abfragen mit SPARQL. Thomas Tikwinski, W3C.DE/AT

Verknüpfte Daten abfragen mit SPARQL. Thomas Tikwinski, W3C.DE/AT Verknüpfte Daten abfragen mit SPARQL Thomas Tikwinski, W3C.DE/AT Agenda SPARQL Eine Anfragesprache für RDF Was ist eine SPARQL-Abfrage? Beispiel Arbeiten mit Variablen Komplexere Anfragen Filtern und sortieren

Mehr

Langzeitarchivierungsaspekte. im Dokumentenlebenszyklus

Langzeitarchivierungsaspekte. im Dokumentenlebenszyklus Document Engineering Langzeitarchivierungsaspekte im enlebenszyklus Motivation Disziplin der Computer Wissenschaft, welche Systeme für e aller Formen und Medien erforscht. enlebenszyklus en Management

Mehr

News. Einleitung. Ansicht im Frontend. Typo3-Support

News. Einleitung. Ansicht im Frontend. Typo3-Support Inhalt Einleitung... 1 Ansicht im Frontend... 1 Struktur im Typo3... 3 Kategorie anlegen... 4 Eintrag anlegen... 5 Übersetzung erstellen... 9 Eintrag bearbeiten / löschen... 11 Plug-In einbinden... 11

Mehr

Teil 2: Dynamische Spiele mit vollständigen Informationen

Teil 2: Dynamische Spiele mit vollständigen Informationen Teil : Dynamische Spiele mit vollständigen Informationen Kapitel 5: Grundsätzliches Literatur: Tadelis Chapter 7 Problem Manche Spiele entwickeln sich über die Zeit Dynamik kann aber nicht in Spielen in

Mehr

Gleiche Daten, unterschiedliche Erkenntnisziele?

Gleiche Daten, unterschiedliche Erkenntnisziele? Gleiche Daten, unterschiedliche Erkenntnisziele? Zum Potential vermeintlich widersprüchlicher Zugänge zur Textanalyse Universität Hamburg Evelyn Gius Jan Christoph Meister Janina Jacke Marco Petris Universität

Mehr

Dr. Friedrich Schanda Projektmanagement PENTASYS AG

Dr. Friedrich Schanda Projektmanagement PENTASYS AG Dr. Friedrich Schanda Projektmanagement PENTASYS AG Agenda Erfahrungen mit MOSS 2007 in DMS Projekten Das PENTASYS Framework für Sharepoint Document Handling Search & Retrieval Migration Beispiel: Migration

Mehr

die Relevanz von Webseiten bestimmt Alexander Pohl

die Relevanz von Webseiten bestimmt Alexander Pohl Wie die Relevanz von Webseiten bestimmt Alexander Pohl Gliederung 1. Einleitung 2. Das Web als Graph 3. Das Random Surfer Modell 4. Gleichgewicht im Random Surfer Modell (?) 5. Vervollständigung des Modells:

Mehr

Semantic Web: Das Web der nächsten Generation

Semantic Web: Das Web der nächsten Generation Semantic Web: Das Web der nächsten Generation Slim Abdennadher LMU München 8.2.2002 c S. Abdennadher 1 Einleitung Rechner erfunden als Werkzeug zur Durchführung von Berechnungen Dann entdeckt als Werkzeug

Mehr

TYPO3-Suchmaschinenoptimierung für Redakteure

TYPO3-Suchmaschinenoptimierung für Redakteure TYPO3-Suchmaschinenoptimierung für Redakteure TYPO3 Version 7.6 LTS Allgemeines Dieses Dokument beschreibt redaktionelle Maßnahmen zur Verbesserung des Suchmaschinen- Rankings. Diese Maßnahmen sind Teil

Mehr

Aktuelles Schlagwort Semi-strukturierte Daten

Aktuelles Schlagwort Semi-strukturierte Daten Aktuelles Schlagwort Semi-strukturierte Daten François Bry, Michael Kraus, Dan Olteanu und Sebastian Schaffert Institut für Informatik, Universität München, Oettingenstraße 67, 80538 München, http://www.pms.informatik.uni-muenchen.de

Mehr

Indexstrukturen in XML

Indexstrukturen in XML Seminar XML und Datenbanken Indexstrukturen in XML Vanessa Schäfer 07.02.2003 Übersicht Einführung Indexstrukturen in XML Ein Vergleich SphinX vs. Lore Zusammenfassung und Ausblick Seminar XML und Datenbanken

Mehr

Gefunden werden im Internet - Einblick in die Suchmaschinenoptimierung

Gefunden werden im Internet - Einblick in die Suchmaschinenoptimierung Barbara Schöne Espellohweg 33 22607 Hamburg Tel.: 040-82244963 kontakt@barbaraschoene.de www.barbaraschoene.de Gefunden werden im Internet - Einblick in die Suchmaschinenoptimierung Einführung Suchmaschinenoptimierung

Mehr

Business Intelligence

Business Intelligence Hochschule Darmstadt Business Intelligence Fachbereich Informatik Praktikumsaufgabe 3 Prof. Dr. C. Wentzel Dipl. Inf. Dipl. Math. Y. Orkunoglu Datum: 11.06.2007 Business Intelligence Aufgabenstellung 1.

Mehr

Website-Marketing: Konzepte und Maßnahmen

Website-Marketing: Konzepte und Maßnahmen Website-Marketing: Konzepte und Maßnahmen Seminar Medienmanagement Sommersemester 2004 Martin Villis Inhalt 1. Einleitung 2. Vorstellung verschiedener Werbeformen Hier speziell: Werbeformen im Internet

Mehr

Web Mining und Farming

Web Mining und Farming Web Mining und Farming Shenwei Song Gliederung Übersicht über Web Mining und Farming Web Mining Klassifikation des Web Mining Wissensbasierte Wrapper-Induktion Web Farming Übersicht über Web-Farming-Systeme

Mehr

TensorFlow Open-Source Bibliothek für maschinelles Lernen. Matthias Täschner Seminar Deep Learning WS1718 Abteilung Datenbanken Universität Leipzig

TensorFlow Open-Source Bibliothek für maschinelles Lernen. Matthias Täschner Seminar Deep Learning WS1718 Abteilung Datenbanken Universität Leipzig TensorFlow Open-Source Bibliothek für maschinelles Lernen Seminar Deep Learning WS1718 Abteilung Datenbanken Universität Leipzig Motivation Renaissance bei ML und KNN Forschung bei DNN fortgeschrittene

Mehr