Hauptseminar. Plagiarism Detection. Christian Pusch. Plagiarism Detection Christian

Ähnliche Dokumente
Staatliches Schulamt für den Landkreis Darmstadt-Dieburg und die Stadt Darmstadt Originale und Fälschungen Teil 2: Plagiate

Seminar : Information Retrieval Plagiaterkennung. Allgemeines Algorithmische Plagiaterkennung

Plagiat. Vorsicht vor geistigem Diebstahl! Version:

Gute wissenschaftliche Praxis fördern Plagiate vermeiden

Plagiatsoftware - Konzepte, Einsatzmöglichkeiten, Systeme

Methoden zur sprachübergreifenden Plagiaterkennung

Universität Basel Seminar: Angewandtes Information Retrieval. Plagiatserkennung. Elena Keracheva 11.Mai Was ist Plagiatserkennungssoftware?

Richtig Zitieren. Zitieren in wissenschaftlichen Arbeiten -eine Einführung- September 2018

Einführung in das wissenschaftliche Arbeiten. für Masterstudenten Würzburg,

Eruierung von Methoden zur Exploration von Textwiederverwendung in großen Datenmengen am Beispiel der Wikipedia

Zitat und Plagiat in der Wissenschaft

Abb. 1 Tastatur und USB-Stick mit Fingerabdruckerkennung

(Bamberg)

8.4 Suffixbäume. Anwendungen: Information Retrieval, Bioinformatik (Suche in Sequenzen) Veranschaulichung: DNA-Sequenzen

Copy, Shake & Paste Plagiaterkennung und Plagiatvermeidung

IR Seminar SoSe 2012 Martin Leinberger

Datenstrukturen und Algorithmen. Christian Sohler FG Algorithmen & Komplexität

Plagiarismus. UB für alle offen UNIVERSITÄTSBIBLIOTHEK BASEL

Übersicht über 1. Vorlesungsabschnitt Form und Darstellung von Informationen

Plagiate finden und aufdecken

Plagiaterkennung und Plagiatvermeidung als Dienstleistung an der Universität Heidelberg

Information zur 5. Prüfungskomponente. Kursphase der Oberstufe Jg.St.12

Sprachunabhängige Autorschafts-Verifikation

Übersicht. Volltextindex Boolesches Retrieval Termoperationen Indexieren mit Apache Lucene

T = {t 1,..., t n } sei die Menge der Terme. D = {d 1,..., d m } sei die Menge der Dokumente.

Einführung. (Compiler) Prof. Dr. Oliver Braun. Letzte Änderung: :49. Einführung 1/26

Plagiate (k)ein Problem? Impulsvortrag

Plagiate verhindern Studenten einbeziehen

Leibniz-Gymnasium Pirmasens Schuljahr 2014/15 Klasse 9x Vorname Name. Titel meiner wunderschönen Arbeit

Zaubern im Mathematikunterricht

Sprachübergreifendes Retrieval von. ähnlichen Dokumenten aus großen. Textkollektionen

Zitat und Plagiat in der Wissenschaft

Was ist Informatik? Alexander Lange

Rückblick. Aufteilung in Dokumente anwendungsabhängig. Tokenisierung und Normalisierung sprachabhängig

PLAGIATE VERHINDERN QUALITÄT SICHERN STUDENTEN EINBEZIEHEN SCHREIBKOMPETENZ ENTWICKELN

ONLINE WERKZEUGE. für den Digitalen Export

TOra - Toolkit for Oracle

Rückblick. Aufteilung in Dokumente anwendungsabhängig. Tokenisierung und Normalisierung sprachabhängig

Plagiatserkennungssoftware - Wunderwaffe oder Zeitverschwendung?

Eckpunkte der Informatik-Geschichte

Studiengang Informatik der FH Gießen-Friedberg. Sequenz-Alignment. Jan Schäfer. WS 2006/07 Betreuer: Prof. Dr. Klaus Quibeldey-Cirkel

Jens Renner Plagio, ergo sum - Dowjerai, no prowjerai, od r?

Entwicklung einer Umgebung zur Evaluierung von Plagiaterkennungsverfahren. Bachelorarbeit

Handreichung. zum Umgang mit Plagiaten

Plagiatserkennnungssoftware - Wunderwaffe oder Zeitverschwendung? Prof. Dr. Debora Weber-Wulff HTW Berlin ZKI-Frühjahrstagung HU Berlin,

Anerkennung von Studien- bzw. Prüfungsleistungen für das Fach Erstfach Informatik

Implementierung eines Vektormodells

QMS Klinische Forschung

Seminar Datenbanken Martin Gerstmann

Lichtfeldemitter Grundlagen und Anwendungen

Plagiate und Plagiatserkennung

Nachts ist s kälter als draußen Warum qualifizieren und nicht zertifizieren?

Seminar zur Raumplanung Bachelorseminar. Einführung in das wissenschaftliche Arbeiten

Geburtstagsangriff. Schneller Hash-Kollisionen erzeugen. Philipp Offensand, Samuel Michel, Theodor van Nahl, 12. Februar 2014

Compiler. Einführung. Prof. Dr. Oliver Braun. Fakultät für Informatik und Mathematik Hochschule München. Letzte Änderung:

Compiler: Einführung

Corpus based Identification of Text Segments. Thomas Ebert Betreuer: MSc. Martin Schmitt

TU München. Hauptseminar: WS 2002 / Einführung in Suffix - Bäume

Einsatz von Antiplagiat-Software

Übungsaufgaben. Aufgabe 1 Internetsuchmaschinen. Einführung in das Information Retrieval, 8. Mai 2008 Veranstaltung für die Berufsakademie Karlsruhe

Wissenschaftliches Arbeiten

Algorithmen und Datenstrukturen 2

Universität Duisburg-Essen, Standort Duisburg Institut für Informatik und interaktive Systeme Fachgebiet Informationssysteme

Definitionen/Vorarbeit zum Thema Java

Die Plagiatsprüfungs- Software für Universitäten und Schulen Handbuch

Anmeldung für Bachelor- und Master-Arbeiten in der Informatik

Plagiate werden geahndet

Anmeldung für schriftliche Arbeiten in der Informatik (BSc, MSc und Nebenfach Informatik)

Installation von Zertifikaten. Vertrauensstelle nach 299 SGB V

Prof. Dr. Marion Völger Winsky, MAE Leiterin Bachelorprogramm Wirtschaftsrecht. Building Competence. Crossing Borders.

Einwilligungsmanagement mittels

Nachteile Boolesches Retrieval

Tipps für die Informationsrecherche

Business Intelligence & Machine Learning

Handreichung zum Einsatz von Plagiatssoftware

Hashtabellen. Hashverfahren, was ist das eigentlich?

Automatische Klassifikation: Stand der Technik und Veränderungen im Berufsbild des Dokumentars. Automatische Klassifikation:

Inhaltsverzeichnis. Geleitwort. Abbildungsverzeichnis. Tabellenverzeichnis. Abkürzungsverzeichnis. Symbolverzeichnis

Informatik II, SS 2014

Individuelles Auditing von vielen Datenbanken

Ranking Functions im Web: PageRank & HITS

Studium und wissenschaftliche Redlichkeit

Boole'sches Modell <is web>

Graph Visualisierung und Navigation. PG478 Open Graph Drawing Framework Martin Gronemann

Sichere Programmierung. Klaus Kusche

Zum Beispiel Plagiatur: Sprachtechnologie für den Einsatz in der Hochschule

Template zum Erstellen einer Hauptseminar Ausarbeitung

1 Informationssuche im Internet

REVIEW ON NETWORK RESTORATION STRATEGIES AS A PART OF THE RESTOREGRID4RES PROJECT

Fit für die Projektarbeit. Thematische Literatursuche in 5 Schritten Basiert auf: Lotse, Skript zur Thematischen Literatursuche. Stand 1.10.

Geschichte Grundlagen Fibonacci-Zahlen Geometrischer Trugschluß Anwendung Fazit und Ausblick. Der Goldene Schnitt. Dario Jotanovic

Duplikatanalyse. Ein Vortrag von. Susanne O'Shaughnessy und Michaela Geierhos

Inhaltsverzeichnis Grundlegendes zu den Social Media Social Media Strategie Die Marktforschungs-Strategie 91

Computerlinguistische Grundlagen. Jürgen Hermes Wintersemester 17/18 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln

INTRINSISCHE PLAGIATERKENNUNG MIT AUSREIßERN

Text-Mining: Datenaufbereitung und -repräsentation

Transkript:

Hauptseminar Plagiarism Detection Christian Pusch 1

Übersicht Was ist ein Plagiat? Erkennungsmethoden Plagiarism Detection Software Demonstration Fazit Quellen 2

Was ist ein Plagiat? Was ist ein Plagiat? 3

Was ist ein Plagiat? - Rip. Mix. Burn. Youtube, Apple itunes Werbung von 2001 4

Was ist ein Plagiat? - Definition unrechtmäßige Aneignung von Gedanken, Ideen o. Ä. eines anderen auf künstlerischem oder wissenschaftlichem Gebiet und ihre Veröffentlichung; Diebstahl geistigen Eigentums http://www.duden.de/rechtschreibung/plagiat Rechtliche Situation in Deutschland Plagiat hat keine rechtliche Definition Plagiat ist nach allgemeiner Ansicht eine Urheberrechtsverletzung, bei der sich jemand fremde Urheberschaft bewusst anmaßt. RA Prof. Dr. Johannes Weberling: Was ist eigentlich ein Plagiat? 5

Was ist ein Plagiat? - Plagiatsformen Copy & Paste Wort für Wort gleich (z.b. auch Schreibfehler) Übersetzungsplagiat Sehr unbekannte Quelle übersetzen, fertig Shake & Paste Verschiedene Quellen zu einem ganzen mixen Halbsatzflickerei Copy & Paste mit Strunkturumstellung Strukturübernahme Gleicher Inhalt, andere Form In der Programmierung Gleiche Algorithmen, andere Variablennamen 6

Was ist ein Plagiat? - Ist das ein Plagiat? 1. Dokument gelesen Verdächtige Passagen gefunden Verdacht stellt sich ein 2. Analyse Händisch oder computergestützt Äußere / innere Analyse Kandidaten finden 3. Vergleich mit Kandidaten Händisch oder computergestützt Verschärfte Analyse 7

Erkennungsmethoden Erkennungsmethoden 8

Erkennungsmethoden - Übersicht Taxonomie von Plagiatvergehen mit Erkennungsmethoden nach Meyer zu Eissen et al. (2007) 9

Erkennungsmethoden exakte Kopie Dokumentenvergleich (Suffixbaum) Baum als Datenstruktur mit Operationen Finden von längsten gemeinsamen Zeichenketten Mit Referenzkorpus (Chunk-Identität) Hashwerte über Abschnitte Vergleich der Hashwerte Ohne Referenzkorpus (Stilanalyse) Innere Analyse Suche nach Auffälligkeiten Stilwechsel, Fachbegriffe,... 10

Erkennungsmethoden modifizierte Kopie Übersetzung (Strukturanalyse) Suche nach sprachunabhängigen Merkmalen Gleiche Abschnitte Länge von Abschnitten Dokumentenvergleich (Vektorraummodell) Erstellung eines Wörterbuches Vektor Kleiner Winkel zwischen Vektoren hohe Ähnlichkeit Mit Referenzkorpus (Fuzzy-Fingerprint) Hashwerte über kleinere Textpassagen Vergleich von Hashwerten Ohne Referenzkorpus (Stilanalyse) 11

Erkennungsmethoden - Vektorraummodell Dokument d Wortvektor d Vokabular V = {f1, f2,, fm } d1 f2 Verzicht auf sog. Stoppworte Nur Stammformen der Worte Dokumentenmenge D gegen die geprüft wird d2 d3 f1 Je kleiner der Winkel zwischen zwei Vektoren, desto größer die Ähnlichkeit f3 Dokument 2 ähnelt Dokument 1 mehr, als Dokument 3 12

Erkennungsmethoden - Vektorraummodell Vorteile: Schnelle Findung von Kandidaten Einfache mathematische Analyse Nachteile: Keine Erkennung von gleichen Passagen Genauer Vergleich des Inhalts im Nachhinein notwendig 13

Plagiarism Detection Software Plagiarism Detection Software 14

Plagiarism Detection Software - Beispiele Turnitin: Verschiedene Algorithmen Bilden Fingerabdrücke Lokale Datenbank CopyCatch: Berechnet Wert für ganzes Dokument Wert wird mit anderen Werten verglichen Lokale Dokumente EVE2: Websuchen nach ähnlichem Inhalt Plagiarism detect: Nutzt Google Sucht immer nach kurzen Textpassagen... 15

Plagiarism Detection Software - Vergleich Ausschnitt, Technical Review of Plagiarism Detection Software Report 16

Demonstration Demonstration 17

Demonstration Plagiarism Detect: http://plagiarism-detect.com/ Copy & Paste: http://en.wikipedia.org/wiki/penguin - http://www-user.tu-chemnitz.de/~puc/plagiarism/copypaste.txt Übersetzungsplagiat: http://en.wikipedia.org/wiki/penguin - http://www-user.tu-chemnitz.de/~puc/plagiarism/translate.txt Shake & Paste: http://en.wikipedia.org/wiki/penguin und http://www.britannica.com/ebchecked/topic/449815/penguin - http://www-user.tu-chemnitz.de/~puc/plagiarism/shakepaste.txt Halbsatzflickerei: - http://www-user.tu-chemnitz.de/~puc/plagiarism/halbsatz.txt 18

Demonstration - Ergebnis Plagiarism Detect: http://plagiarism-detect.com/ Copy & Paste Übersetzungsplagiat Shake & Paste http://en.wikipedia.org/wiki/penguin plagiarised from source: 18% Kein Fund http://en.wikipedia.org/wiki/penguin plagiarised from source: 6% http://www.britannica.com/ebchecked/topic/449815/penguin plagiarised from source: 1% Halbsatzflickerei http://en.wikipedia.org/wiki/penguin plagiarised from source: 6% 19

Demonstration - Schlussfolgerungen Ergebnisse variieren von Suche zu Suche: Heuristisches Retrieval Genaue Analyse der Kandidaten notwendig Kein Fund beim Übersetzungsplagiat Dieses Tool nicht geeignet Weitere Tools zu Rate ziehen 20

Fazit Fazit 21

Fazit Ergebnisse von Plagiarism Detection Software teilweise sehr unterschiedlich Bieten gute Unterstützung bei Verdacht Gute Datenbank sollte vorhanden sein Mensch sollte alle Ergebnisse überprüfen Kein blindes Vertrauen 22

Quellen Quellen 23

Quellen Overview of the 1st International Competition on Plagiarism Detection Martin Potthast, Benno Stein, Andreas Eiselt, Alberto Barron-Cedeno, Paolo Rosso Strategien der Plagiatsbekaämpfung Debora Weber-Wulff, Gabriele Wohnsdorf Plagiatsdetektion in Textdokumenten, Methoden und Werkzeuge Thomas Plank, Daniel Resanovic, Wilhelm Steinegger Spürhunde im Netz. Was taugen Computerprogramme zur Plagiatserkennung? Ramona Fischer Anti-Schummel-Software oder Hilfe bei der wissenschaftlichen Ausbildung? Bettina Berendt External and Intrinsic Plagiarism Detection Using Vector Space Models Mario Zechner, Markus Muhr, Roman Kern, Michael Granitzer Technical Review of Plagiarism Detection Software Report Dr Joanna Bull, Carol Collins, Elisabeth Coughlin, Dale Sharp 24

Ende Vielen Dank für die Aufmerksamkeit. Gibt es noch Fragen? 25