Analyse von Zitierungshäufigkeiten für die Datenbankkonferenz BTW



Ähnliche Dokumente
Würfelt man dabei je genau 10 - mal eine 1, 2, 3, 4, 5 und 6, so beträgt die Anzahl. der verschiedenen Reihenfolgen, in denen man dies tun kann, 60!.

Begriff 1 Begriff 2 Datenbank 1

Vermögensbildung: Sparen und Wertsteigerung bei Immobilien liegen vorn

Wissenschaftliches Arbeiten ( )

Deutschland-Check Nr. 35

Sehr geehrte/r Teilnehmer/in,

Urheberrecht in der Schule Was Lehrer, Eltern, Schüler, Medienzentren und Schulbehörden vom Urheberrecht wissen sollten

Meinungen der Bürgerinnen und Bürger in Hamburg und Berlin zu einer Bewerbung um die Austragung der Olympischen Spiele

Lineargleichungssysteme: Additions-/ Subtraktionsverfahren

Hilfen zur Verwendung der Word-Dokumentvorlage des BIS-Verlags

Tipps für die Seminararbeit - Gesundheitswesen -

Der einfache Weg zur Pflegestufe

Ist Excel das richtige Tool für FMEA? Steve Murphy, Marc Schaeffers

Feiertage in Marvin hinterlegen

Installation OMNIKEY 3121 USB

Markus Demary / Michael Voigtländer

Lehrer: Einschreibemethoden

Tevalo Handbuch v 1.1 vom

Erfahrungen mit Hartz IV- Empfängern

L10N-Manager 3. Netzwerktreffen der Hochschulübersetzer/i nnen Mannheim 10. Mai 2016

1 Einleitung. Lernziele. automatische Antworten bei Abwesenheit senden. Einstellungen für automatische Antworten Lerndauer. 4 Minuten.

ASVZweb_08/ Schreibhilfe

Das Vermögen der privaten Haushalte in Nordrhein-Westfalen ein Überblick auf der Basis der Einkommens- und Verbrauchsstichprobe

2. Psychologische Fragen. Nicht genannt.

Zypern. Mehrwertsteuererstattungen nach der 13. MwSt-Richtlinie (86/560/EWG)

AGROPLUS Buchhaltung. Daten-Server und Sicherheitskopie. Version vom b

Zitieren leicht gemacht // Die amerikanische sowie die deutsche Art der Zitation

Statuten in leichter Sprache

1. Die Maße für ihren Vorbaurollladen müssen von außen genommen werden.

Speicher in der Cloud

Fragebogen. zur Erschließung und Sicherung von Online-Dokumenten. Auswahl von elektronischen Publikationen

Zwischenablage (Bilder, Texte,...)

Deutliche Mehrheit der Bevölkerung für aktive Sterbehilfe

Warum Autoversicherungskunden ihren Anbieter wechseln

Ist Fernsehen schädlich für die eigene Meinung oder fördert es unabhängig zu denken?

Die Zukunft der Zukunftsforschung im Deutschen Management: eine Delphi Studie

Fragebogen zur Erhebung der Zufriedenheit und Kooperation der Ausbildungsbetriebe mit unserer Schule

Resultate GfS-Umfrage November Wie bekannt ist das Phänomen Illettrismus bei der Schweizer Bevölkerung?

1 topologisches Sortieren

Glaube an die Existenz von Regeln für Vergleiche und Kenntnis der Regeln

Informationen zum neuen Studmail häufige Fragen

Anleitung zur Verwendung der VVW-Word-Vorlagen

Anleitung für den Elektronischen Lesesaal der Martin-Opitz Bibliothek

ConTraX Real Estate. Büromarkt in Deutschland 2005 / Office Market Report

Supporting Consumers by Characterizing the Quality of Online Health Information: A Multidimensional Framework. Von Dominic Kipry

Drucken von Webseiten Eine Anleitung, Version 1.0

Fachwörterbuch Sozialrecht und Arbeitsschutz

Aussage: Das Seminar ist hilfreich für meine berufliche Entwicklung

Serienbrieferstellung in Word mit Kunden-Datenimport aus Excel

Richtlinien der Osteopathie Schule Deutschland zur Abschlussarbeit für die Erlangung der Ausbildungsbezeichnung D.O.OSD.

Erstellung von Reports mit Anwender-Dokumentation und System-Dokumentation in der ArtemiS SUITE (ab Version 5.0)

SCHRITT 1: Öffnen des Bildes und Auswahl der Option»Drucken«im Menü»Datei«...2. SCHRITT 2: Angeben des Papierformat im Dialog»Drucklayout«...

MORE Profile. Pass- und Lizenzverwaltungssystem. Stand: MORE Projects GmbH

Was leistet ein Content Management System?

Pädagogik. Melanie Schewtschenko. Eingewöhnung und Übergang in die Kinderkrippe. Warum ist die Beteiligung der Eltern so wichtig?

Arbeitsmarkteffekte von Umschulungen im Bereich der Altenpflege

Anleitung für die Hausverwaltung

B12-TOUCH VERSION 3.5

Advance Steel Nachverfolgung von Änderungen während der Revisionsphasen im Projekt

Psychologie-Geschichte in der Lehre Würzburg, 08. September 2011 (Gallschütz)

Organisation des Qualitätsmanagements

STRATO Mail Einrichtung Mozilla Thunderbird

Die TYPO3-Extension Publikationen

Sechster ProSTEP Benchmark Teil 2: PDM Data Exchange

1 Mathematische Grundlagen

Lausanne, den XX yyyyy Sehr geehrte Frau/ Herr,

Innovation. Zahl der Gewerbeanmeldungen steigt, Zahl der Abmeldungen

Staatssekretär Dr. Günther Horzetzky

Berechnung der Erhöhung der Durchschnittsprämien

Anleitung über den Umgang mit Schildern

Ausschuss für technische und operative Unterstützung (zur Unterrichtung) ZUSAMMENFASSUNG

Hinweise zum elektronischen Meldeformular

Tutorium zur Mikroökonomie II WS 02/03 Universität Mannheim Tri Vi Dang. Aufgabenblatt 3 (KW 44) ( )

Gesundheits-Coaching I Akut-Programme bei Erschöpfung I Gesunder Schlaf I Ernährungs-Umstellung I Mentale Stärke I Gutes Körpergefühl

FRAGE 39. Gründe, aus denen die Rechte von Patentinhabern beschränkt werden können

Test: Sind Sie ein Unternehmertyp?

SMS/ MMS Multimedia Center

Avenue Oldtimer Liebhaber- und Sammlerfahrzeuge. Ihre Leidenschaft, gut versichert

Gezielt über Folien hinweg springen

Mobile Intranet in Unternehmen

Qualifikationsspezifische Arbeitslosenquoten

Downloadfehler in DEHSt-VPSMail. Workaround zum Umgang mit einem Downloadfehler

Jetzt neu: Online Reporting Schritt für Schritt durch das Online Reporting (OLR) Online Liedmeldung

Anwendertreffen 20./21. Juni

Nach der Installation des FolderShare-Satellits wird Ihr persönliches FolderShare -Konto erstellt.

Tech-Clarity Perspective: Best Practices für die Konstruktionsdatenverwaltung

Finanzen. Gesamtausgaben steigen in Niedersachsen unterdurchschnittlich. Kräftiger Anstieg der Sachinvestitionen in Niedersachsen

Bei der Tagung werden die Aspekte der DLRL aus verschiedenen Perspektiven dargestellt. Ich habe mich für die Betrachtung der Chancen entschieden,

4. BEZIEHUNGEN ZWISCHEN TABELLEN

Sichere für Rechtsanwälte & Notare

4 Aufzählungen und Listen erstellen

II. Zum Jugendbegleiter-Programm

Ergebnis und Auswertung der BSV-Online-Umfrage zur dienstlichen Beurteilung

Microsoft (Dynamics) CRM 2020: Wie verändern sich Markt, Eco-System und Anwendungsszenarien nach Cloud & Co?

Vorlage zur Kenntnisnahme. Stellungnahme des Senats zum Bericht des Berliner Beauftragten für Datenschutz und Informationsfreiheit für das Jahr 2009

WinVetpro im Betriebsmodus Laptop

Widerrufsbelehrung der Free-Linked GmbH. Stand: Juni 2014

Umzug der abfallwirtschaftlichen Nummern /Kündigung

Checkliste Hausarbeit

2.5.2 Primärschlüssel

Transkript:

HANNA KÖPCKE. ERHARD RAHM für die Datenbankkonferenz BTW In diesem Beitrag präsentieren wir eine Auswertung zur Häufigkeit von Zitierungen der Publikationen, die im Rahmen der zehn BTW-Tagungen von bis 2003 erschienen sind. Die Daten für diese Analyse stammen von DBLP und Google Scholar. Im Rahmen unserer Analyse bestimmen wir auch die meistzitierten Publikationen und Autoren. 1 Einleitung Anhand von Zitierungszahlen wird oftmals versucht, die Bedeutung von wissenschaftlichen Publikationen, Zeitschriften oder ganzer Forschungsinstitute zu evaluieren. Ein häufig verwendeter Indikator für die Bedeutung einer Zeitschrift ist beispielsweise der»impaktfaktor«[amin & Mabe 2000]. Impaktfaktoren für zahlreiche wissenschaftliche Zeitschriften werden jährlich durch Thomson ISI im Journal Citation Report (JCR) veröffentlicht. Forschungsergebnisse aus dem Informatikbereich»Datenbanken«werden allerdings hauptsächlich auf Konferenzen veröffentlicht, die nicht von den JCR-Zitierungsdatenbanken erfasst werden. In einer kürzlich durchgeführten Auswertung [Rahm & Thor 2005] zeigten wir, dass Publikationen in den international führenden Datenbankkonferenzen SIGMOD und VLDB deutlich häufiger als Veröffentlichungen in den führenden Zeitschriften TODS und VLDB Journal zitiert werden. Für den deutschsprachigen Bereich fehlen solche Analysen bisher. Wir stellen deshalb in dieser Arbeit die Ergebnisse einer Zitationsanalyse für die Datenbanktagungsreihe BTW vor. Die BTW ist die bedeutendste Tagung zu Datenbanken und deren Anwendungen im deutschsprachigen Raum. Sie wird seit alle zwei Jahre durchgeführt. Die Abkürzung»BTW«stand bis 2001 für»datenbanksysteme in Büro, Technik und Wissenschaft«; seit der 10. BTW-Tagung 2003 in Leipzig lautet die Tagungsbezeichnung»Datenbanksysteme für Business, Technologie und Web«. Wir evaluieren in unserer Analyse alle Publikationen, die im Rahmen der BTW in den Jahren bis 2003 erschienen sind. Die Analyse basiert auf einer Integration und Bereinigung von Daten der Quellen DBLP und Google Scholar. Der Beitrag ist wie folgt gegliedert: Abschnitt 2 informiert über die Datenquellen und die Durchführung der Analyse. Die Ergebnisse der Analyse werden in Abschnitt 3 präsentiert. 2 Datenquellen und Datenintegration Die Daten für unsere Analyse haben wir aus zwei Quellen bezogen: der Trierer Informatik-Bibliografie DBLP [DBLP 2006] und Google Scholar [GS 2006]. DBLP ist eine sehr häufig genutzte, qualitativ hochwertige Onlinebibliografie wissenschaftlicher Publikationen aus dem Bereich der Informatik. Der Datenbestand wird an der Universität Trier gepflegt und ist seit 1994 auf derzeit knapp 800.000 Publikationen angewachsen. Google Scholar ist ein seit November 2004 bestehender Suchdienst zur wissenschaftlichen Recherche, der seit April 2006 auch in deutscher Sprache verfügbar ist. Die in Google Scholar erschlossenen Dokumente stammen sowohl aus dem offenen Web als auch aus proprietären Quellen von Wissenschaftsverlagen, Fachgesellschaften und digitalen Bibliotheken von ACM, IEEE und Springer. Es werden somit auch Zitierungen aus Dokumenten der»grauen Literatur«erfasst, z.b. technische Berichte, Diplomarbeiten oder Seminarausarbeitungen. Google Scholar extrahiert automatisch die bibliografischen Daten aus den Literaturangaben der Dokumente und bestimmt die Zahl der Zitierungen auch für Publikationen, die nicht als Dokument verfügbar sind. Im Vergleich zu anderen bibliografischen Quellen mit Zitierungszahlen wie ACM Digital Library oder Citeseer ist Google Scholar wesentlich umfassender und daher besser zur Zitationsanalyse geeignet [Rahm & Thor 2005]. Dennoch kann natürlich keine Vollständigkeit erreicht werden, da viele zitierende Dokumente nicht elektronisch verfügbar sind. Dies betrifft vor allem ältere Arbeiten, die vor der breiten Web-Nutzung in den 90er Jahren erschienen sind. Die zur Zitationsanalyse notwendige Integration der Daten erfolgte mit dem Framework MOMA (Mapping-based Object MAtching) [Thor & Rahm 2007] auf Basis unserer Datenintegrationsplattform ifuice [Rahm et al. 2005]. Für jede in DBLP erfasste BTW-Publikation X ermitteln wir alle korrespondierenden Einträge in Google Scholar sowie die zugehörigen Zitierungen, d.h. die anderen Dokumente, die X im Literaturverzeichnis referenzieren. Zahlreiche Qualitätsprobleme von Google Scholar erfordern eine umfassende, semiautomatische Datenbereinigung. Google Scholar listet beispielsweise oftmals redundante Einträge für eine Publikation auf (s. Abb. 1). Dies resultiert meist aus Unsauberkeiten in den Literaturverzeichnissen, insbesondere der Schreibweise und Reihenfolge der Autorennamen, unterschiedliche Tagungsbezeichnungen, uneinheitliche Trennung zwischen Autorenangaben, Titel und Tagungsbezeichnung u.a. Hinzu kommen noch Extraktionsfehler aus PDF-Dokumenten, z.b. bezüglich Sonderzeichen. Ein anderes Problem besteht darin, dass Google Scholar Zitierungen für unterschiedliche Publikationen teilweise zusammenfasst, z.b. für die Zeitschriften- und Konferenzversion eines Papiers mit gleichem oder ähnlichem Titel. Daneben listet Google Scholar unter den Zitierungen nicht nur Fremdzitierungen, sondern auch Eigenzitierungen auf. Zur besseren Abschätzung der Fremdwirkung einer Arbeit sollten diese Eigenzitierungen ermittelt und herausgerechnet werden. Eine zitierende Publikation Y stellt dabei für eine von Y zitierte Publi- 48 Datenbank-Spektrum 20/2007

Fachthema XMach-1: A Benchmark for XML Data Management - Gruppe von 9» T Böhme, E Rahm - Proceedings of BTW2001, Oldenburg, 2001 - dbs.uni-leipzig.de Zitiert durch: 53 - Ähnliche Artikel - Im Cache - Websuche - In BibTeX importieren Abb. 1: Beispiel für redundante Einträge in Google Scholar [ZITATION] XMach-1: A Benchmark for XML Data Management, Datenbanksysteme in Büro, Technik und Wissenschaft T Böhme, E Rahm - GI-Fachtagung Zitiert durch: 6 - Ähnliche Artikel - Websuche - In BibTeX importieren [ZITATON] XMach-1: A Benchmark for XML Data Management T BöRa01 Böhme, E Rahm - Proceedings of German database conference BTW2001 Zitiert durch: 1 - Ähnliche Artikel - Websuche - In BibTeX importieren kation X eine Eigenzitierung dar, wenn die Autorenmengen von Y und X nicht disjunkt sind. Ferner sind Duplikate bei den zitierenden Arbeiten zu eliminieren, um nicht deren Zitierungen mehrfach zu berücksichtigen. 3 Ergebnisse der Analyse Die im Folgenden präsentierten Zitierungszahlen beziehen sich auf den Auswertungszeitpunkt September 2006. Damit bestehen für die einzelnen Tagungen unterschiedliche Auswertungszeiträume. Während für die BTW zitierende Publikationen der letzten 21 Jahre berücksichtigt werden können, beschränkt sich der entsprechende Zeitraum für die BTW2003 auf drei Jahre. Für die Publikationen der BTW 2005 in Karlsruhe und der BTW 2007 in Aachen liegen erst wenige bzw. noch keine Zitierungen vor, sodass wir diese Tagungen bei der Analyse ausklammern. Tabelle 1 listet für jeden Jahrgang der BTW die Anzahl der Publikationen, die Gesamtzahl der Zitierungen (mit und ohne Eigenzitierungen) sowie die durchschnittliche Anzahl der Zitierungen pro Publikation (ohne Eigenzitierungen) auf. Zu den insgesamt 362 Publikationen (eingeladene Vorträge, begutachtete Lang- und Kurzbeiträge sowie Anwendungs- bzw. Industriebeiträge) der zehn Tagungen wurden im Mittel knapp 3 Zitierungen pro Publikation erreicht. Eigenzitierungen erhöhen die Zitierungszahlen durchschnittlich um 27%. Bezüglich der zeitlichen Entwicklung fällt auf, dass die letzten gegenüber den ersten fünf BTW-Tagungen wesentlich höhere Zitierungszahlen sowohl insgesamt als auch pro Publikation erzielen. Während die ersten fünf Tagungen durchschnittlich weniger als 70 Zitierungen erreichen (1,8 pro Papier), liegt dieser Wert für die jüngeren fünf Tagungen seit mit 150 (4,3 pro Papier) mehr als doppelt so hoch. Diese Entwicklung ist mit hoher Wahrscheinlichkeit dadurch beeinflusst, dass Google Scholar ältere Publikationen wesentlich unvollständiger erfasst als neuere Arbeiten, die zu einem großen Teil im Volltext im Web zu finden sind. Diesen Umstand verdeutlicht Abbildung 2, die für jede BTW-Tagung den Anteil ihrer Publikationen angibt, deren Volltext von Google Scholar erfasst wurde. Für die ersten fünf Tagungen sind durchschnittlich nur 12% der Publikationen eines Jahrgangs im Volltext verfügbar, für die jüngeren fünf Tagungen liegt der Anteil dagegen bei durchschnittlich über 50%. Diese Entwicklung dürfte auch für andere Tagungen und Zeitschriften zutreffen, sodass davon auszugehen ist, dass für die Zeit vor die meisten Publikationen und Zitierungen von Google Scholar nicht ausgewertet werden konnten. Da der Großteil der Zitierungen erfahrungsgemäß in den ersten Jahren nach Erscheinen einer Publikation erfolgt, sind somit die älteren BTW-Publikationen bezüglich ihrer Zitierungszahlen vermutlich deutlich unterbewertet. Jahr Ort # Publikationen mit Eigenzitierungen ohne Eigenzitierungen Durchschnittliche pro Publikation Tab. 1: Anzahl der Publikationen und Zitierungen Karlsruhe 39 84 72 1,8 Darmstadt 50 52 44 0,8 Zürich 37 58 49 1,3 1991 Kaiserslautern 36 118 81 2,3 Braunschweig 28 105 88 3,1 Dresden 28 229 194 6,9 1997 Ulm 26 159 129 4,9 Freiburg 28 185 127 4,5 2001 Oldenburg 43 180 141 3,2 2003 Leipzig 47 200 150 3,1 Gesamt 362 1370 1075 2,9 Datenbank-Spektrum 20/2007 49

100% 80% 60% 40% 20% 0% Abbildung 3 zeigt den Anteil der englischsprachigen Publikationen an der Gesamtzahl der BTW-Publikationen. Für eine Konferenz im deutschsprachigen Raum verzeichnet die BTW einen beachtlichen Anteil englischsprachiger Publikationen, der im Laufe der Jahre gestiegen ist. Insgesamt liegt der Anteil englischsprachiger Publikationen bei einem Drittel; im Jahre 2003 betrug der Anteil bereits 50%. Englische BTW-Publikationen erreichen durchschnittlich 6 Zitierungen, deutsche Publikationen durchschnittlich nur 1 Zitierung. 100% 80% 60% 40% 20% 1991 0% 1991 1997 2001 2003 1997 2001 2003 Abb. 2: Anteil der BTW- Publikationen mit Volltext Publikationen gesamt Publikationen mit Volltext Abb. 3: Anteil der englischsprachigen BTW-Publikationen Publikationen gesamt englischsprachige Publikationen Im Vergleich zu internationalen englischsprachigen Konferenzen wie SIGMOD und VLDB ist die durchschnittliche Anzahl der Zitierungen pro BTW-Publikation erwartungsgemäß sehr gering. Gemäß [Rahm & Thor 2005] kommen auf eine seit 1994 erschienene SIGMOD-Publikation durchschnittlich 70 und auf eine VLDB-Publikation durchschnittlich 50 Zitierungen (diese Werte beziehen sich auf Forschungspapiere; Industrie- und Anwendungspapiere liegen deutlich niedriger). Der Selbstzitierungsanteil liegt mit durchschnittlich 10% der Zitierungen deutlich unter dem Wert der BTW-Tagungen. Noch stärker als bei den internationalen Tagungen gibt es für die BTW-Tagungen eine starke Ungleichverteilung der Zitierungen zwischen den einzelnen Papieren. Zu 160 Publikationen, das sind 44% aller Publikationen, werden von Google Scholar keine Zitierungen oder nur Eigenzitierungen gefunden. Bei den fünf jüngeren Tagungen seit beträgt dieser Anteil immer noch 31%. Nur 21 Publikationen, das sind gerade mal 6 % aller Publikationen, haben mehr als 10 Zitierungen. Sie decken jedoch bereits 52% aller Zitierungen ab. Tabelle 2 zeigt die zehn meistzitierten BTW-Publikationen über den gesamten Zeitraum, die bereits 38% aller Zitierungen auf sich vereinen. Auffällig ist die Dominanz englischsprachiger Publikationen, sie belegen die ersten acht Plätze. Drei der zehn Arbeiten sind eingeladene Beiträge (Nr. 4, 6, 10). Tabelle 3 zeigt für jeden Jahrgang der BTW-Konferenz jeweils die meistzitierte Publikation. In drei Fällen (,, 2003) erzielte ein eingeladener Beitrag die meisten Zitierungen. Die 362 BTW-Publikationen stammen von 579 unterschiedlichen Autoren. Tabelle 4 listet die zehn meistzitierten Autoren mit der Anzahl ihrer BTW-Publikationen auf. Bei mehreren Koautoren haben wir die Zitierungen jedem Koautor zugerechnet. Der mit Abstand meistzitierte BTW-Autor ist demnach Frank Leymann. 1. Supporting Business Transactions Via Partial Backward Recovery In Workflow Management Systems 2. Research Issues in Data Warehousing Titel Autoren Jahr F. Leymann 100 M. Wu, A.P. Buchmann 1997 75 3. XMach-1: A Benchmark for XML Data Management T. Böhme, 2001 52 4. Web Services: Distributed Applications Without Limits F. Leymann 2003 36 5. Rule-Based Dynamic Modification of Workflows in a Medical Domain 6. Multimedia Database Systems - The Notion and the Issues 7. Principles of Object-Oriented Query Languages 8. Type Checking in XOBE 9. 10. Data Mining von Workflow-Protokollen zur teilautomatisierten Konstruktion von Prozeßmodellen Architektur von Datenbanksystemen für Non-Standard-Anwendungen R. Müller, T.C. Rakow, E.J. Neuhold, M. Löhr A. Heuer, M.H. Scholl M. Kempa, V. Linnemann M.K. Maxeiner, K. Küspert, F. Leymann T. Härder, A. Reuter 29 29 1991 29 2003 24 2001 20 18 Gesamt: 412 Tab. 2: Die zehn meistzitierten BTW-Publikationen (-2003) 50 Datenbank-Spektrum 20/2007

Fachthema Jahr Titel Autoren Architektur von Datenbanksystemen für Non-Standard- Anwendungen Managing Schema Versions in a Time-versioned Non- First-Normal-Form Relational Database Query Languages for Object-Oriented Database Systems: Analysis and a Proposal 1991 Principles of Object-Oriented Query Languages Adding Active Functionality to an Object-Oriented Database System - a Layered Approach Supporting Business Transactions Via Partial Backward Recovery In Workflow Management Systems 1997 Research Issues in Data Warehousing Rule-Based Dynamic Modification of Workflows in a Medical Domain T. Härder, A. Reuter P. Dadam, J. Teuhola 18 F. Bancilhon 10 A. Heuer, M.H. Scholl 6 29 K.R. Dittrich 17 F. Leymann 100 M. Wu, A.P. Buchmann R. Müller, 2001 XMach-1: A Benchmark for XML Data Management T. Böhme, 52 2003 Web Services: Distributed Applications Without Limits F. Leymann 36 75 29 Tab. 3: Die meistzitierte Publikation pro BTW-Tagung Autor # BTW-Publikationen (-2003) Tab. 4: Die meistzitierten Autoren (ohne Eigenzitierungen) 1. Frank Leymann 4 156 2. Erhard Rahm 5 88 3. Alejandro P. Buchmann 3 78 4. Ming-Chuan Wu 1 75 5. Timo Böhme 1 52 6. Gerhard Weikum 12 46 7. Marc H. Scholl 3 39 8. Klaus R. Dittrich 13 37 9. Andreas Heuer 1 29 10. Erich J. Neuhold 1 29 4 Zusammenfassung und Ausblick Die Untersuchung zeigt, dass Google Scholar und Datenintegrationswerkzeuge wie ifuice auch zur Zitationsanalyse speziellerer, nationaler Tagungen wie der BTW genutzt werden können. Erwartungsgemäß liegen die Zitierungshäufigkeiten für die BTW deutlich unter denen internationaler Top-Tagungen. Englischsprachige Arbeiten wurden durchschnittlich sechsmal häufiger zitiert als deutschsprachige Arbeiten. Ein Großteil der Zitierungen entfällt auf sehr wenige Publikationen. Google Scholar hat bezüglich älterer, vor erschienener Arbeiten nur einen geringen Abdeckungsgrad. Damit sind die Zitierungszahlen für ältere BTW-Publikationen unterbewertet. Die Studie zeigte einmal mehr die Problematik der eingeschränkten Qualität von Web-Daten, sodass ein erheblicher manueller Nachbearbeitungsaufwand erforderlich war. Eine wichtige Herausforderung besteht daher in der Entwicklung verbesserter automatischer Verfahren zur Bereinigung von Web-Daten, insbesondere zur Identifizierung korrespondierender Instanzen (Objekt-Matching). Datenbank-Spektrum 20/2007 51

Literatur [Amin & Mabe 2000] Amin, M.; Mabe, M.: Impact Factors: Use and Abuse. Perspectives in Publishing, Oct. 2000. [DBLP 2006] DBLP: Digital Bibliography & Library Project, 2006, www.informatik.uni-trier.de/~ley/db/. [GS 2006] Google Scholar, 2006, http://scholar.google.com. [Rahm et al. 2005] Rahm, E.; Thor, A.; Aumüller, D.; Do, H.-H.; Golovin, N.; Kirsten, T.: ifuice Information Fusion utilizing Instance Correspondences and Peer Mappings. In: Proc. 8th WebDB, 2005. [Rahm & Thor 2005] Rahm, E.; Thor, A.: Citation Analysis of Database Publications. In: SIGMOD Record 34 (4), 2005. [Thor & Rahm 2007] Thor, A.; Rahm, E.: MOMA A Mapping-based Object Matching System. In: Proc. 3rd Biennial Conf. on Innovative Data Systems Research (CIDR), 2007. Hanna Köpcke studierte Informatik an der Universität Dortmund. Seit 2006 ist sie Stipendiatin im Graduiertenkolleg Wissensrepräsentation an der Universität Leipzig und promoviert bei Prof. Dr. Rahm zum Thema»Object Matching«. Erhard Rahm ist Lehrstuhlinhaber für Datenbanken am Institut für Informatik der Universität Leipzig. Er promovierte und habilitierte an der Universität Kaiserslautern und verbrachte Forschungsaufenthalte in den USA bei IBM sowie Microsoft Research. Er ist Autor mehrerer Bücher und zahlreicher Konferenzund Zeitschriftenbeiträge. Derzeit ist er Sprecher des GI-Arbeitskreises»Web und Datenbanken«. Dipl.-Inform. Hanna Köpcke Prof. Dr. Erhard Rahm Universität Leipzig Abteilung Datenbanken Postfach 100920 04009 Leipzig {koepcke rahm }@informatik.uni-leipzig.de www.informatik.uni-leipzig.de 52 Datenbank-Spektrum 20/2007