Hauptseminar Plagiarism Detection Christian Pusch 1
Übersicht Was ist ein Plagiat? Erkennungsmethoden Plagiarism Detection Software Demonstration Fazit Quellen 2
Was ist ein Plagiat? Was ist ein Plagiat? 3
Was ist ein Plagiat? - Rip. Mix. Burn. Youtube, Apple itunes Werbung von 2001 4
Was ist ein Plagiat? - Definition unrechtmäßige Aneignung von Gedanken, Ideen o. Ä. eines anderen auf künstlerischem oder wissenschaftlichem Gebiet und ihre Veröffentlichung; Diebstahl geistigen Eigentums http://www.duden.de/rechtschreibung/plagiat Rechtliche Situation in Deutschland Plagiat hat keine rechtliche Definition Plagiat ist nach allgemeiner Ansicht eine Urheberrechtsverletzung, bei der sich jemand fremde Urheberschaft bewusst anmaßt. RA Prof. Dr. Johannes Weberling: Was ist eigentlich ein Plagiat? 5
Was ist ein Plagiat? - Plagiatsformen Copy & Paste Wort für Wort gleich (z.b. auch Schreibfehler) Übersetzungsplagiat Sehr unbekannte Quelle übersetzen, fertig Shake & Paste Verschiedene Quellen zu einem ganzen mixen Halbsatzflickerei Copy & Paste mit Strunkturumstellung Strukturübernahme Gleicher Inhalt, andere Form In der Programmierung Gleiche Algorithmen, andere Variablennamen 6
Was ist ein Plagiat? - Ist das ein Plagiat? 1. Dokument gelesen Verdächtige Passagen gefunden Verdacht stellt sich ein 2. Analyse Händisch oder computergestützt Äußere / innere Analyse Kandidaten finden 3. Vergleich mit Kandidaten Händisch oder computergestützt Verschärfte Analyse 7
Erkennungsmethoden Erkennungsmethoden 8
Erkennungsmethoden - Übersicht Taxonomie von Plagiatvergehen mit Erkennungsmethoden nach Meyer zu Eissen et al. (2007) 9
Erkennungsmethoden exakte Kopie Dokumentenvergleich (Suffixbaum) Baum als Datenstruktur mit Operationen Finden von längsten gemeinsamen Zeichenketten Mit Referenzkorpus (Chunk-Identität) Hashwerte über Abschnitte Vergleich der Hashwerte Ohne Referenzkorpus (Stilanalyse) Innere Analyse Suche nach Auffälligkeiten Stilwechsel, Fachbegriffe,... 10
Erkennungsmethoden modifizierte Kopie Übersetzung (Strukturanalyse) Suche nach sprachunabhängigen Merkmalen Gleiche Abschnitte Länge von Abschnitten Dokumentenvergleich (Vektorraummodell) Erstellung eines Wörterbuches Vektor Kleiner Winkel zwischen Vektoren hohe Ähnlichkeit Mit Referenzkorpus (Fuzzy-Fingerprint) Hashwerte über kleinere Textpassagen Vergleich von Hashwerten Ohne Referenzkorpus (Stilanalyse) 11
Erkennungsmethoden - Vektorraummodell Dokument d Wortvektor d Vokabular V = {f1, f2,, fm } d1 f2 Verzicht auf sog. Stoppworte Nur Stammformen der Worte Dokumentenmenge D gegen die geprüft wird d2 d3 f1 Je kleiner der Winkel zwischen zwei Vektoren, desto größer die Ähnlichkeit f3 Dokument 2 ähnelt Dokument 1 mehr, als Dokument 3 12
Erkennungsmethoden - Vektorraummodell Vorteile: Schnelle Findung von Kandidaten Einfache mathematische Analyse Nachteile: Keine Erkennung von gleichen Passagen Genauer Vergleich des Inhalts im Nachhinein notwendig 13
Plagiarism Detection Software Plagiarism Detection Software 14
Plagiarism Detection Software - Beispiele Turnitin: Verschiedene Algorithmen Bilden Fingerabdrücke Lokale Datenbank CopyCatch: Berechnet Wert für ganzes Dokument Wert wird mit anderen Werten verglichen Lokale Dokumente EVE2: Websuchen nach ähnlichem Inhalt Plagiarism detect: Nutzt Google Sucht immer nach kurzen Textpassagen... 15
Plagiarism Detection Software - Vergleich Ausschnitt, Technical Review of Plagiarism Detection Software Report 16
Demonstration Demonstration 17
Demonstration Plagiarism Detect: http://plagiarism-detect.com/ Copy & Paste: http://en.wikipedia.org/wiki/penguin - http://www-user.tu-chemnitz.de/~puc/plagiarism/copypaste.txt Übersetzungsplagiat: http://en.wikipedia.org/wiki/penguin - http://www-user.tu-chemnitz.de/~puc/plagiarism/translate.txt Shake & Paste: http://en.wikipedia.org/wiki/penguin und http://www.britannica.com/ebchecked/topic/449815/penguin - http://www-user.tu-chemnitz.de/~puc/plagiarism/shakepaste.txt Halbsatzflickerei: - http://www-user.tu-chemnitz.de/~puc/plagiarism/halbsatz.txt 18
Demonstration - Ergebnis Plagiarism Detect: http://plagiarism-detect.com/ Copy & Paste Übersetzungsplagiat Shake & Paste http://en.wikipedia.org/wiki/penguin plagiarised from source: 18% Kein Fund http://en.wikipedia.org/wiki/penguin plagiarised from source: 6% http://www.britannica.com/ebchecked/topic/449815/penguin plagiarised from source: 1% Halbsatzflickerei http://en.wikipedia.org/wiki/penguin plagiarised from source: 6% 19
Demonstration - Schlussfolgerungen Ergebnisse variieren von Suche zu Suche: Heuristisches Retrieval Genaue Analyse der Kandidaten notwendig Kein Fund beim Übersetzungsplagiat Dieses Tool nicht geeignet Weitere Tools zu Rate ziehen 20
Fazit Fazit 21
Fazit Ergebnisse von Plagiarism Detection Software teilweise sehr unterschiedlich Bieten gute Unterstützung bei Verdacht Gute Datenbank sollte vorhanden sein Mensch sollte alle Ergebnisse überprüfen Kein blindes Vertrauen 22
Quellen Quellen 23
Quellen Overview of the 1st International Competition on Plagiarism Detection Martin Potthast, Benno Stein, Andreas Eiselt, Alberto Barron-Cedeno, Paolo Rosso Strategien der Plagiatsbekaämpfung Debora Weber-Wulff, Gabriele Wohnsdorf Plagiatsdetektion in Textdokumenten, Methoden und Werkzeuge Thomas Plank, Daniel Resanovic, Wilhelm Steinegger Spürhunde im Netz. Was taugen Computerprogramme zur Plagiatserkennung? Ramona Fischer Anti-Schummel-Software oder Hilfe bei der wissenschaftlichen Ausbildung? Bettina Berendt External and Intrinsic Plagiarism Detection Using Vector Space Models Mario Zechner, Markus Muhr, Roman Kern, Michael Granitzer Technical Review of Plagiarism Detection Software Report Dr Joanna Bull, Carol Collins, Elisabeth Coughlin, Dale Sharp 24
Ende Vielen Dank für die Aufmerksamkeit. Gibt es noch Fragen? 25