Nutzung maschinellen Lernens zur Extraktion von Paragraphen aus PDF-Dokumenten

Größe: px

Ab Seite anzeigen:

Download "Nutzung maschinellen Lernens zur Extraktion von Paragraphen aus PDF-Dokumenten"

Karlheinz Beckenbauer
vor 6 Jahren
Abrufe

1 Nutzung maschinellen Lernens zur Extraktion von Paragraphen aus PDF-Dokumenten Albert-Ludwigs-Universität zu Freiburg Maximilian Dippel

2 Überblick I Einführung Problemstellung und Motivation Ziele II Ausführung Nutzung von maschinellem Lernen Erzeugung von Trainingsdaten III Analyse Laufzeit der Algorithmen Qualität der Ergebnisse Slide 2

3 Überblick I Einführung Problemstellung und Motivation Ziele II Ausführung Nutzung von maschinellem Lernen Erzeugung von Trainingsdaten III Analyse Laufzeit der Algorithmen Qualität der Ergebnisse Slide 3

4 Problemstellung und Motivation Slide 4

5 Problemstellung und Motivation Converter Slide 5

6 Problemstellung und Motivation Input Converter Output Slide 6

7 Problemstellung und Motivation Wir haben den reinen Text aber sonst keine Informationen Slide 9

8 Problemstellung und Motivation Gedankenspiel Literaturrecherche Vielleicht wollen wir... den ganzen Absatz bei Treffern Bildunterschriften filtern den Abstract extrahieren alle Titel auflisten Strukturierung des reinen Textes Slide 10

9 Problemstellung und Motivation Converter Slide 11

10 Problemstellung und Motivation Input Converter Output Thema dieser Arbeit Slide 12

11 Ziele Was sind Paragraphen? Text-Abschnitte Überschriften und Titeln Referenzen... Slide 13

12 Überblick I Einführung Problemstellung und Motivation Ziele II Ausführung Nutzung von maschinellem Lernen Erzeugung von Trainingsdaten III Analyse Laufzeit der Algorithmen Qualität der Ergebnisse Slide 18

13 Nutzung von maschinellem Lernen Ausgangspunkt Tabelle im TSV-Format Wörter und Zeilen Zusätzliche Informationen Slide 19

14 Nutzung von maschinellem Lernen Ausgangspunkt Tabelle im TSV-Format Wörter und Zeilen Zusätzliche Informationen Slide 20

15 Nutzung von maschinellem Lernen Ausgangspunkt Tabelle im TSV-Format Wörter und Zeilen Zusätzliche Informationen Slide 21

16 Nutzung von maschinellem Lernen Ausgangspunkt Tabelle im TSV-Format Wörter und Zeilen Zusätzliche Informationen FontSize, FontColor, Role Slide 22

17 Nutzung von maschinellem Lernen Ausgangspunkt Tabelle im TSV-Format Wörter und Zeilen Zusätzliche Informationen FontSize, FontColor, Role Wir interessieren uns für die line-einträge und ihre Informationen Slide 23

18 Nutzung von maschinellem Lernen Features Model Predict Slide 26

19 Nutzung von maschinellem Lernen Features Model Predict Idee Vergleiche jede Zeile mit ihrem Vorgänger Berechne Features Füge Feature-Spalten zur Tabelle hinzu Features Slide 27

20 Nutzung von maschinellem Lernen Features Model Predict Auswahl 1/2 DistanceToPreviousLine DifferenceInStartPositionToPreviousLine SameAverageFontAsPreviousLine SameConnectedFontAsPreviousLine SameAverageFontSizeAsPreviousLine SameConnectedFontSizeAsPreviousLine SameConnectedFontColorAsPreviousLine SpecialFontPreviousLine SameRoleAsPreviousLine Slide 28

21 Nutzung von maschinellem Lernen Features Model Predict Auswahl 1/2 DistanceToPreviousLine DifferenceInStartPositionToPreviousLine SameAverageFontAsPreviousLine SameConnectedFontAsPreviousLine SameAverageFontSizeAsPreviousLine SameConnectedFontSizeAsPreviousLine SameConnectedFontColorAsPreviousLine SpecialFontPreviousLine SameRoleAsPreviousLine Slide 29

22 Nutzung von maschinellem Lernen Features Model Predict Auswahl 1/2 DistanceToPreviousLine DifferenceInStartPositionToPreviousLine SameAverageFontAsPreviousLine SameConnectedFontAsPreviousLine SameAverageFontSizeAsPreviousLine SameConnectedFontSizeAsPreviousLine SameConnectedFontColorAsPreviousLine SpecialFontPreviousLine SameRoleAsPreviousLine Slide 30

23 Nutzung von maschinellem Lernen Features Model Predict Auswahl 1/2 DistanceToPreviousLine DifferenceInStartPositionToPreviousLine SameAverageFontAsPreviousLine SameConnectedFontAsPreviousLine SameAverageFontSizeAsPreviousLine SameConnectedFontSizeAsPreviousLine SameConnectedFontColorAsPreviousLine SpecialFontPreviousLine SameRoleAsPreviousLine Slide 31

24 Nutzung von maschinellem Lernen Features Model Predict Auswahl 2/2 FirstLineOfPage OverlapPreviousLine IsListing AfterListing IsTitle AfterTitle FormulaSwap IsPageNumber Slide 32

25 Nutzung von maschinellem Lernen Features Model Predict Idee Nutze Modell des maschinellen Lernens Modell auf Trainingsdaten mit Features Slide 39

26 Nutzung von maschinellem Lernen Features Model Predict Idee Nutze Modell des maschinellen Lernens Modell auf Trainingsdaten mit Features Slide 40

27 Nutzung von maschinellem Lernen Features Model Predict Idee Nutze Modell des maschinellen Lernens Modell auf Trainingsdaten mit Features FEATURES Slide 41

28 Nutzung von maschinellem Lernen Features Model Predict Idee Nutze Modell des maschinellen Lernens Modell auf Trainingsdaten mit Features FEATURES LÖSUNG Slide 42

29 Nutzung von maschinellem Lernen Features Model Predict Auswahl Support Vector Machines Logistische Regression Naive Bayes Perceptrons Slide 43

30 Nutzung von maschinellem Lernen Features Model Predict Idee I II III Bestimme Grund-Tabelle aus PDF Erweitere Tabelle um Features Verwende Modell für Vorhersage Slide 48

31 Nutzung von maschinellem Lernen Features Model Predict Post-Processing Lineare Überarbeitung von Spezialfällen Referenzen, Listen, Mehrzeilige Titel Slide 49

32 Vorführung Slide 50

33 Erzeugung von Trainingsdaten Vorraussetzungen Musterlösung Verbindung von Features und Lösung Slide 55

34 Erzeugung von Trainingsdaten Vorraussetzungen Musterlösung Verbindung von Features und Lösung FEATURES LÖSUNG Slide 56

35 Erzeugung von Trainingsdaten Slide 61

36 Erzeugung von Trainingsdaten Erstellen Slide 62

37 Erzeugung von Trainingsdaten Paragraphen-Rechtecke Parser Erstellen Slide 63

38 Erzeugung von Trainingsdaten Zeilen-Rechtecke Paragraphen-Rechtecke Parser Parser Erstellen Slide 64

39 Erzeugung von Trainingsdaten Zeilen-Rechtecke Paragraphen-Rechtecke Matching Parser Parser Erstellen Slide 65

40 Überblick I Einführung Problemstellung und Motivation Ziele II Ausführung Nutzung von maschinellem Lernen Erzeugung von Trainingsdaten III Analyse Laufzeit der Algorithmen Qualität der Ergebnisse Slide 67

41 Laufzeit der Algorithmen Externe Algorithmen Slide 68

42 Laufzeit der Algorithmen Externe Algorithmen Parsen eines PDFs Input: PDF-Dokument Output: Tabelle mit Informationen über jede Zeile des PDFs Laufzeit: O(A1) Slide 69

43 Laufzeit der Algorithmen Externe Algorithmen Parsen eines PDFs Input: PDF-Dokument Output: Tabelle mit Informationen über jede Zeile des PDFs Laufzeit: O(A1) Parsen eines TEXs Input: TEX-Dokument Output: Tabelle mit Paragraphen-Rechtecken Laufzeit: O(A2) Slide 70

44 Laufzeit der Algorithmen Interne Algorithmen N: Anzahl Zeilen M: Anzahl Features Slide 71

45 Laufzeit der Algorithmen Interne Algorithmen N: Anzahl Zeilen M: Anzahl Features Generieren von Trainingsdaten Input: TEX-Dokument Output: Trainingsdaten mit Lösung Laufzeit: O(N² + A1 + A2) Slide 72

46 Laufzeit der Algorithmen Interne Algorithmen N: Anzahl Zeilen M: Anzahl Features Generieren von Trainingsdaten Input: TEX-Dokument Output: Trainingsdaten mit Lösung Laufzeit: O(N² + A1 + A2) Haupt-Algorithmus zur Paragraphen-Bestimmung Input: PDF-Dokument Output: Paragraphen-Lösung, Visualisierung Laufzeit: O(N M + A1) Slide 73

47 Laufzeit der Algorithmen Interne Algorithmen N: Anzahl Zeilen M: Anzahl Features Evaluation eines Modells Input: Verwendetes Modell, Trainings-Dokument Output: Precision, Recall und F1-Score Laufzeit: O(N M) Slide 74

48 Qualität der Ergebnisse Modell Precision Recall F1 Logistische Regression Support Vector Machines Perceptrons Naive Bayes Analyse auf 1000 Datensätzen Slide 75

49 Qualität der Ergebnisse Anteil der berechneten Paragraphen-Anfänge, die korrekt sind Modell Precision Recall F1 Logistische Regression Support Vector Machines Perceptrons Naive Bayes Analyse auf 1000 Datensätzen Slide 76

50 Qualität der Ergebnisse Anteil der korrekten Paragraphen-Anfänge, die erkannt wurden Modell Precision Recall F1 Logistische Regression Support Vector Machines Perceptrons Naive Bayes Analyse auf 1000 Datensätzen Slide 77

51 Qualität der Ergebnisse Verrechnung von Precision und Recall Modell Precision Recall F1 Logistische Regression Support Vector Machines Perceptrons Naive Bayes Analyse auf 1000 Datensätzen Slide 78

52 Qualität der Ergebnisse Modell Precision Recall F1 Logistische Regression Support Vector Machines Perceptrons Naive Bayes Analyse auf 1000 Datensätzen Beobachtung 1: das beste Ergebnis Slide 79

53 Qualität der Ergebnisse Modell Precision Recall F1 Logistische Regression Support Vector Machines Perceptrons Naive Bayes Analyse auf 1000 Datensätzen Beobachtung 2: das schlechteste Ergebnis Slide 80

54 Fazit In Summe gute Ergebnisse auch wenn Spezialfälle Schwierigkeiten bereiten können Mögliche Verbesserungen im Hinblick auf die verwendeten Features im Hinblick auf die verwendeten Algorithmen Slide 81

Ähnliche Dokumente

Projektaufgaben Block 2

Kurs BZQ III - Stochastikpraktikum WS 2013/14 Humboldt-Universität zu Berlin Randolf Altmeyer Philip-Moritz Eckert Projektaufgaben Block 2 Abgabe: bis 10.12.2013 Zur Einstimmung (freiwillig, ohne Abgabe)