Stellenanzeigenanalyse in der Qualifikationsentwicklungsforschung
|
|
- Leonard Gerhardt
- vor 6 Jahren
- Abrufe
Transkript
1 FACHBEITRÄGE IM INTERNET Jürgen Hermes Manuel Schandock Stellenanzeigenanalyse in der Qualifikationsentwicklungsforschung Die Nutzung maschineller Lernverfahren zur Klassifikation von Textabschnitten
2 FACHBEITRÄGE IM INTERNET Jürgen Hermes Manuel Schandock Stellenanzeigenanalyse in der Qualifikationsentwicklungsforschung Die Nutzung maschineller Lernverfahren zur Klassifikation von Textabschnitten
3 Bibliografische Information der Deutschen Nationalbibliothek Die deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über abrufbar. Copyright 06 by Bundesinstitut für Berufsbildung, Bonn Herausgeber: Bundesinstitut für Berufsbildung, Bonn Herstellung: Bundesinstitut für Berufsbildung, Bonn Bundesinstitut für Berufsbildung Arbeitsbereich. Publikationsmanagement/Bibliothek Robert-Schuman-Platz 575 Bonn Internet: Der Inhalt dieses Werkes steht unter einer Creative-Commons-Lizenz (Lizenztyp: Namensnennung Keine kommerzielle Nutzung Keine Bearbeitung.0 Deutschland). Weitere Informationen finden Sie im Internet auf unserer Creative- Commons-Infoseite Diese Netzpublikation wurde bei der Deutschen Nationalbibliothek angemeldet und archiviert: urn:nbn:de: Internet: ISBN
4 Inhaltsverzeichnis Inhaltsverzeichnis Abbildungen... Tabelle... Kontext.... Stellenanzeigenanalyse als Instrument der Qualifikationsentwicklungsforschung.... Information in Stellenanzeigen Kooperation mit der Universität Köln... 6 Struktur von Stellenanzeigen... 8 Regelbasierte Klassifikation und maschinelle Lernverfahren... 0 Umsetzung: Der Job Ad Section Classifier (JASC)... 5 Ergebnisse Diskussion... 6 Literaturverzeichnis... 7 Autoren... 8 Abstract... 9 Abbildungen Abb. : Abb. : Abb. : Klassifikation von Abschnitten zweier anonymisierter Stellenanzeigen in inhaltlich vordefinierte Klassen... 8 Preprocessing Von den Stellenanzeigen in der Datenbank zu manuell ausgezeichneten Abschnitten... Feature Engineering Bildung von Modellen für die einzelnen Klassen durch die Auswahl von Merkmalen über einen FeatureUnit Generator und deren Gewichtung über einen Feature Quantifier... Abb. : Klassifizierung der Testdaten und Evaluation gegen den Gold-Standard... Tabelle Tab. : Ergebnisse der besten Experimente mit unterschiedlichen Klassifikatoren... 5
5 Kontext Kontext Stellenanzeigen enthalten aussagekräftige und umfangreiche Informationen zu betrieblichen Beschreibungen von Arbeits- und Ausbildungsstellen sowie den entsprechenden Anforderungsprofilen an die künftigen Stelleninhaber/-innen. Allerdings liegen diese Informationen in Stellenanzeigen unstrukturiert und unsystematisch vor. Auf Grundlage eines Kooperationsvertrags zwischen dem Bundesinstitut für Berufsbildung (BIBB) und der Universität zu Köln, vertreten durch das Institut für Linguistik, Sprachliche Informationsverarbeitung (Spinfo), wurde ein Software-Framework entwickelt, mit dessen Hilfe unterschiedliche Verfahren zur Klassifikation von kurzen Textabschnitten evaluiert werden können. Mittels dieser Software wurden unter mehr als verschiedenen Verfahren geeignete Kandidaten ermittelt, die Abschnitte aus Stellenanzeigen präzise auf vordefinierte, inhaltlich motivierte Klassen aufteilen können. Diese Verfahren werden auf einer BIBB-internen Datenbank mit mehreren Millionen Stellenanzeigen als erste Stufe einer Methodik mit dem Ziel einer Informationsextraktion aus Stellenanzeigen eingesetzt. Durch die Auswertung von Stellenanzeigen in großem Umfang sollen aktuelle Tendenzen beim Qualifikationsbedarf von Unternehmen sichtbar gemacht werden. Die Ergebnisse dieses Ansatzes können durch ihre Aktualität und Breite in Bezug auf Branchen und Berufe unmittelbar die Qualifikationsentwicklungsforschung im BIBB stärken.. Stellenanzeigenanalyse als Instrument der Qualifikationsentwicklungsforschung Die meisten Statistiken, die das Arbeitsmarktgeschehen dokumentieren, lassen in erster Linie Rückschlüsse auf den Status quo der Qualifikationsstrukturen in den Unternehmen zu. Hierzu zählen insbesondere Erhebungen wie der Mikrozensus oder Daten über die sozialversicherungspflichtig Beschäftigten bei der Bundesagentur für Arbeit (BA). Sie dokumentieren das Resultat des Arbeitsmarktgeschehens sowie daran anschließender innerbetrieblicher Entwicklungs- und Qualifizierungspfade. Aber diese Momentaufnahmen bestehender (formaler) Qualifikationsstrukturen geben nicht unbedingt hinreichenden Aufschluss über den eigentlichen Bedarf, da sich die (nicht beobachtbaren) Kompetenzen und Tätigkeiten und die (beobachtbaren) formalen Qualifikationen im Laufe eines Berufslebens voneinander entfernen können. So bringen in Regionen mit Fachkräftemangel nicht immer alle Bewerber/-innen die aus Sicht der Unternehmen notwendigen Qualifikationen in vollem Umfang mit. In der Folge können die Unternehmen gezwungen sein, auf weniger qualifizierte Bewerber auszuweichen und zur Deckung ihres ursprünglichen Bedarfs Weiterbildungsangebote zu unterbreiten. Weder Weiterbildungen noch Lernprozesse am Arbeitsplatz ändern etwas an den formalen Qualifikationen, wie sie bspw. im Mikrozensus erfasst werden. Insofern bilden die genannten Statistiken das Arbeitsmarktgeschehen nicht zufriedenstellend ab. Demgegenüber formulieren Unternehmen in Stellenanzeigen in der Regel eher idealtypische Qualifikationsanforderungen für die Besetzung von Arbeitsplätzen. Stellenanzeigentexte bieten daher ein besonders geeignetes Analysepotenzial für die Untersuchung des zusätzlichen Arbeitskräftebedarfs und dessen aktuelle Veränderungen. Dies soll anhand eines Beispiels verdeutlicht werden: Werden Fachkräfte für frei werdende Stellen gesucht, orientieren sich Unternehmen mitunter an der Fachqualifikation der ausgeschiedenen Personen. Dabei wird ein Unternehmen in der Regel darauf bedacht sein, die Stellenbesetzung zukunftsorientiert und in diesem Sinne nachhaltig
6 . Information in Stellenanzeigen 5 zu planen. Beispielsweise würde ein Kfz-Fachbetrieb für die Stelle eines Kfz-Mechanikers, der in den Ruhestand eingetreten ist, möglicherweise eine Neubesetzung durch einen Kfz-Mechatroniker anstreben. Durch die Stellenanzeigen werden solche unternehmensstrategischen Entscheidungen deutlich besser abgebildet als durch Bestandsdaten, die, um bei dem Beispiel zu bleiben, lediglich den Kfz-Mechaniker erfassen würden. Die Folgen des technologischen Wandels für den Arbeitsmarkt lassen sich daher mit der Analyse von Stellenanzeigen besser sichtbar machen. Das Gleiche gilt in stärkerem Maße für Unternehmen, die durch Expansion in neue Märkte vordringen. Aus den Bestandsinformationen ließe sich keine Aussage über die Qualifikationsbedarfe dieser Unternehmen ableiten, in Stellenanzeigen werden diese jedoch unmittelbar artikuliert. Daher ist die Untersuchung von Stellenanzeigen bspw. für Transformationsprozesse hin zu einer Green Economy genauso vielversprechend wie auch zu Themen der Digitalisierung und der Verwendung neuer Arbeitsmittel.. Information in Stellenanzeigen Durch einen langfristigen Liefervertrag mit der Bundesagentur für Arbeit (BA) stehen dem Bundesinstitut für Berufsbildung (BIBB) bereits jetzt etwa Stellenanzeigen für Forschungszwecke zur Verfügung. In den kommenden Jahren werden es noch deutlich mehr werden, da jedes Jahr etwa bis neue Stellenanzeigen hinzukommen. Die Daten repräsentieren nahezu die Hälfte aller offenen Stellen auf dem deutschen Arbeitsmarkt. Neben der Kerninformation der Stellenanzeigen den Stellenanzeigentexten sind zusätzliche Informationen zu jeder Anzeige verfügbar. Von den inserierenden Firmen werden Angaben über den gesuchten Beruf, die Firma (bspw. Betriebsgröße), die offene Stelle (bspw. Stellenumfang) und mehr erhoben. Diese Kombination aus den Stellenanzeigentexten und bereits codierten Informationen machen diesen Datenbestand einzigartig. Das Interesse an den Daten im BIBB ist hoch. Im Rahmen kleinerer manueller Auswertungen wurden Anforderungsprofile für verschiedene Berufe erstellt, um bspw. Neuordnungsverfahren mit aktuellen empirischen Daten zu unterstützen. Dafür wurden jeweils kleine Stichproben aus den Stellenanzeigen gezogen (00 bis 600 Stellenanzeigen) und mit qualitativen Methoden analysiert. Auf diesem Wege konnten berufs- und branchenspezifische Anforderungs-, Tätigkeits- und Kompetenzprofile abgeleitet werden, die den jeweils aktuellen Bedarf der Unternehmen widerspiegeln. Diese Projekte haben gezeigt, welchen Nutzen die Analyse von Stellenanzeigen für die Arbeit im BIBB mit sich bringt. An dieser Stelle wird nun angeknüpft. Im Bereich der Computerlinguistik wurden Verfahren entwickelt, die durch den Einsatz maschinellen Lernens in der Lage sind, die bisher erfolgte manuelle Inhaltsanalyse von wenigen Stellenanzeigentexten auf die gesamte Menge der vorhandenen Texte auszuweiten. Da die Texte der Stellenanzeigen dem Urheberrecht und dem Datenschutz unterliegen, müssen die Informationen aus den Anzeigetexten extrahiert und in einer Form gespeichert werden, die den Datenschutz- und den Urheberrechtsvorgaben entspricht. Ein nicht unerheblicher Nebeneffekt der Informationsextraktion ist die Möglichkeit, damit Auswertungen von Trends bezüglich der von Bewerbern geforderten Kompetenzen, der gesuchten Berufe und dergleichen durchzuführen. Qualitaetsbericht-Statistik-gemeldete-Arbeitsstellen.pdf Erarbeitung von Ausbildungsordnungen und ihre Abstimmung mit den Rahmenlehrplänen der KMK sowie den relevanten Sozialpartnern. Die Stellenanzeigen enthalten häufig Firmennamen und -adressen, adressen sowie Personennamen und Telefonnummern. Diese und ähnliche Informationen dürfen nicht für Analysen genutzt werden und sind nach einer festgelegten Nutzungsdauer zu löschen.
7 6 Kontext Die bisher (manuell) durchgeführten Analysen der Stellenanzeigen haben gezeigt, dass die Texte eine Reihe auswertbarer Informationen enthalten. Mittelfristig könnten u. a. folgende Informationen aus den Texten extrahiert werden: Kompetenzanforderungen geforderte Qualifikationsprofile Tätigkeitsbeschreibungen Arbeitsmittel Anreize der Unternehmen zur Fachkräftebindung (bspw. Kinderbetreuung oder Weiterbildung) Eigenschaften der Unternehmen (bspw. inhabergeführt, Start-up, Green Economy etc.) Durch die geplante automatische Informationsextraktion können diese Informationen sowohl auf den kompletten, bereits vorhandenen als auch auf den zukünftigen Datenbestand angewendet werden. Dies ermöglich insbesondere eine Auswertung der Daten im Zeitverlauf: Wie verändern sich Kompetenzanforderungen in bestimmten Berufen oder Branchen? Werden Unternehmen in Zeiten des Fachkräftemangels flexibler hinsichtlich der Qualifikationsanforderungen an die Bewerber? Wie ändern sich Tätigkeitsprofile innerhalb von Branchen und Berufen? Welche Anreize setzen Unternehmen zur Mitarbeitergewinnung und -bindung? Lässt sich ein Zusammenhang zum Fachkräftemangel herstellen? Wie verändert sich die Nachfrage nach bestimmten Berufen in neuen Branchen (bspw. Green Economy)? Werden neue Berufsbilder benötigt?. Kooperation mit der Universität Köln Aufgrund der großen Zahl auszuwertender Stellenanzeigen sind automatisierte Verfahren der Informationsgewinnung eine grundlegende und unverzichtbare Komponente der Datenanalyse. Sie sind im Sinne des Entdeckens und der Nutzbarmachung von Informationen als erster Analyseschritt (Data Mining) zu sehen, bevor inhaltliche Fragestellungen bearbeitet werden können. Für eine automatisierte Inhaltsanalyse der Anzeigentexte bedarf es spezifischer Methodenkenntnisse, die nicht zum Repertoire in der Berufs- und Bildungsforschung zählen. Daher wurde bereits 0 das Institut für Linguistik, Sprachliche Informationsverarbeitung (Spinfo) an der Universität Köln mit einer Vorstudie beauftragt, um die Möglichkeiten und Voraussetzungen der automatisierten Informationsgewinnung für Stellenanzeigentexte zu erörtern. Auf dieser Grundlage wurde 05 eine Kooperation zwischen dem BIBB und dem Spinfo vereinbart. Vor der eigentlichen Informationsextraktion wurde in der Vorstudie die Struktur bzw. der Aufbau der Stellenanzeigen ermittelt, womit bereits ein erster Schritt zur automatischen Textanalyse unternommen werden konnte. Ende 0 wurde im BIBB ein Programm der Spinfo implementiert, welches die Texte vollautomatisch in klassifizierte Textblöcke nach dem folgenden Muster unterteilt: Selbstbeschreibung des Unternehmens Beschreibung der Stelle bzw. der auszuführenden Tätigkeiten Beschreibung der geforderten Bewerberkompetenzen Sonstiges (bspw. Kontaktinformationen und Angaben zum Bewerbungsverfahren) Informationsextraktion nennt sich der Vorgang, in dem unstrukturierte Information (meist in der Form von Texten) in strukturierte Information (bspw. in Form von Datenbankeinträgen) überführt wird (Cowie & Lehnert 996).
8 . Kooperation mit der Universität Köln 7 Dieses Verfahren zur Klassifikation der Textabschnitte in Stellenanzeigen wird im Folgenden erläutert und insbesondere die Anwendung auf die Textsorte Stellenanzeige dokumentiert. Durch eine Evaluation unterschiedlicher Klassifizierungsalgorithmen wurde das für diesen Anwendungsfall am besten geeignete Verfahren ermittelt und später auf den gesamten Datensatz angewendet.
9 8 Struktur von Stellenanzeigen Struktur von Stellenanzeigen Im Vergleich zu anderen Textsorten, wie etwa Zeitungsartikeln oder Erzählungen, handelt es sich bei Stellenanzeigen um eine relativ durchstrukturierte Textsorte sie bestehen meist aus mehreren Abschnitten, welche spezifischen inhaltlichen Klassen zugeordnet werden können. Die inhaltliche Vorklassifikation der Abschnitte bietet sich als eine Vorstufe zur Extraktion von Informationen an, da auf diesem Wege der Suchraum für die zu extrahierenden Terme eingeschränkt werden kann. So finden sich die Anforderungen an den Bewerber bzw. die Bewerberin in dem Abschnitt, in dem die ausschreibende Stelle ihre entsprechenden Erwartungen formuliert. Die Vorgehensweise der Abschnittsklassifikation (engl. Zone Analysis) ist geläufig im Bereich der automatischen Verarbeitung wissenschaftlicher Beiträge in Zeitschriften, Sammelbänden und Proceedings. Derartige Beiträge folgen zum ganz überwiegenden Teil einer Struktur, die mit IMRAD bezeichnet wird (kurz für Introduction, Methods, Results, and Discussion, vgl. Sollaci/Pereira 00). Ansätze zur Zuordnung von einzelnen Sätzen oder auch Abschnitten zu den durch die IMRAD-Struktur vorgegebenen Inhaltsklassen wurden bereits mittels manueller (Teufel/Moens 00) und maschineller Verfahren (McKnight/Srinivasan 00, Mizuta et al. 006, Agarwal/Yu 009) erprobt. Auch Stellenanzeigen lassen sich mehrheitlich auf ein spezifisches Schema zurückführen. Dieses kann man unter dem Kürzel AKJF fassen (für Arbeitgeberinformationen, Kompetenzanforderungen an den Bewerber, Jobinformationen und als Default-Klasse Formalia/Sonstiges). Im Regelfall sind diesen inhaltlich motivierten Klassen ganze Abschnitte von Stellenanzeigen zugeordnet, oft sogar in genau der angegebenen Reihenfolge. Zum Teil allerdings variiert diese Reihenfolge, in manchen Fällen müssen mehrere Abschnitte derselben Klasse zugeordnet werden, mitunter werden unterschiedliche Inhaltsklassen auch im selben Abschnitt behandelt. Alles in allem erschien es ratsam, tatsächlich vollständige Abschnitte bzw. Paragrafen (und nicht etwa einzelne Sätze) als zu klassifizierende Einheiten festzulegen und Klassifikationsverfahren zu mo Abbildung Klassifikation von Abschnitten zweier anonymisierter Stellenanzeigen in inhaltlich vordefinierte Klassen Für unser Kaufhaus in haben wir zum.. eine Ausbildungsstelle zum/zur Kaufmann/-frau im Einzelhandel zu besetzen. Wir erwarten: Guter Hauptschulabschluss oder mittlere Reife Gute Deutschkenntnisse in Wort und Schrift Gute bis sehr gute Ausdrucksmöglichkeiten Französische Sprachkenntnisse wären von Vorteil Ihre Aufgaben werden sein: Verkauf und Beratung von Kunden Sortimentsgestaltung Marketing Einkauf und Lagerwesen Interesse? Dann freuen wir uns auf Ihre Bewerbung! Klassen : Firma : Job : Anforderungen : Sonstiges Wir suchen für unseren Salon eine/-n Friseurmeister/-in oder Friseur/-in Sie waschen, pflegen, schneiden, färben und frisieren Haare. Sie beraten Kunden individuell in Fragen der Frisur, der Haarpflege sowie des Haarstylings. Mehrjährige Berufserfahrung können Sie nachweisen und sind somit selbstständiges Arbeiten im Team gewohnt. Eine abgeschlossene Berufsausbildung ist erforderlich, gerne Bewerber, die auch die Meisterprüfung abgelegt haben. Wir freuen uns auf Ihre Bewerbung.
10 Struktur von Stellenanzeigen 9 dellieren, welche Mehrfachklassifikationen ermöglichen. Dabei soll gewährleistet werden, dass sowohl mehrere Abschnitte einer Klasse (Abbildung, linke Seite) als auch einzelne Abschnitte mehreren Klassen zugeordnet werden können (Abbildung, rechte Seite).
11 0 Regelbasierte Klassifikation und maschinelle Lernverfahren Regelbasierte Klassifikation und maschinelle Lernverfahren Für die Klassifikation von Texten existieren bereits eine ganze Reihe von Ansätzen (vgl. Sebastiani 00). Wie in den meisten Bereichen der Verarbeitung natürlicher Sprache lassen sich dabei zwei Hauptrichtungen unterscheiden: regelbasierte Verfahren und maschinelle Lernverfahren. Bei regelbasierten Verfahren werden durch den Anwender bzw. die Anwenderin feste Regeln codiert (im Beispiel von Stellenanzeigen wäre das z. B. die Regel: wenn Wir sind ein weltweit führendes Unternehmen im Bereich dann Kategorie Arbeitgeberinformation ). Sie arbeiten sehr präzise, allerdings ist ihre Erstellung mit einem hohen Aufwand verbunden, da sämtliche anzuwendenden Regeln manuell codiert werden müssen. Um eine hohe Ausbeute zu erreichen, ist vor allem bei hoher Heterogenität der zu klassifizierenden Einheiten die Erstellung eines umfangreichen Regelsets notwendig. Maschinelle Lernverfahren (ML) lassen sich meist mit weniger Aufwand als regelbasierte Verfahren umsetzen, da sich hierfür etablierte, offen zugängliche Algorithmen verwenden lassen und keine manuelle Codierung von Regeln notwendig ist. ML lassen sich in überwachte und unüberwachte Lernverfahren unterteilen. Für Klassifikationsprobleme werden in den meisten Fällen überwachte Verfahren eingesetzt. Für diese werden Trainingsdaten benötigt, die mit den entsprechenden Klassen vorausgezeichnet sind. Aus diesen Trainingsdaten wird ein Modell gebildet, auf dessen Grundlage ein Klassifikator Zuordnungen neuer, nicht vorausgezeichneter Daten vornehmen kann. Für ein solches Modell ist es notwendig, für die zu klassifizierenden Einheiten Merkmale zu definieren. Als Merkmale können dafür z. B. Kontext- oder Metainformationen herangezogen werden. Alternativ oder ergänzend dazu können Merkmale aus den zu klassifizierenden Einheiten selbst extrahiert werden. Im Bereich der Textklassifikation kommen als Merkmale z. B. die enthaltenen Wörter, n-gramme (über Buchstaben oder über Wörter) sowie numerische Daten wie Wort- oder Satzlängen infrage. Die Modellbildung kann dabei auf sehr unterschiedliche Arten erfolgen. Verwendet man etwa Wörter, so ist es möglich, bestimmte Wortklassen auszuschließen, etwa hochfrequente Artikel, Konjunktionen oder Präpositionen (sogenannte Stoppwörter). Unterschiedliche Wortformen können auf die identische Stammformen (durch Lemmatisierer oder Stemmer) zurückgeführt oder normalisiert werden (etwa durch durchgehende Kleinschreibung oder Zusammenfassung von Zahlausdrücken). Zusätzlich untersuchten wir den Einsatz von Suffixbaum Repräsentationen der Texte für die Merkmalsextraktion (vgl. Chim/Deng 007), um die Abfolge von Einheiten berücksichtigen zu können (Geduldig 05), sowie die Einbeziehung eines Mutual-Information-Filters (Xu et al. 007), der die aussagekräftigsten Merkmale pro Klasse aufzufinden vermag. Die meisten ML Klassifikationsverfahren operieren auf numerischen Daten. Merkmale müssen in diesem Zuge auf numerische Werte abgebildet werden. Diese Überführung kann durch einfache Zählung der Häufigkeit und evtl. daran angeschlossene Gewichtungsverfahren (etwa durch das Term-Frequency-/Inverse Document-Frequency-Maß oder die Log-Likelihood-Ratio) gewährleistet werden. Schließlich gilt es, neben Merkmalsauswahl und Merkmalsgewichtung noch das ML-Klassifikationsverfahren selbst auszuwählen und evtl. zu konfigurieren. Für diese Studie wurden Verfahren mit teilweise sehr unterschiedlichen Herangehensweisen gegeneinander evaluiert: erstens das sehr verbreitete und performante Naive-Bayes-Verfahren; zweitens der Rocchio-Algorithmus als auch performantes, lineares Klassifikationsverfahren; drittens Support Vector Ma-
12 Regelbasierte Klassifikation und maschinelle Lernverfahren chines (SVM, Geduldig 0) und schließlich viertens der k-nearest-neighbour-(knn-)algorithmus als präzises, aber langsameres Verfahren. ML Klassifikationsverfahren wurden im Bereich der Zone Analysis bisher vor allem auf wissenschaftliche Veröffentlichungen angewendet. Die dort erzielten Ergebnisse lassen sich nicht ohne Weiteres auf die Zone Analysis in Stellenanzeigen übertragen, da diese im Allgemeinen kürzer sind, aber allem Anschein nach auch eine noch stärker ausgeprägte Binnenstruktur aufweisen. Aus diesem Grund wurde eine große Auswahl von Modellen gebildet und mit den vier unterschiedlichen ML Klassifikationsverfahren kombiniert. Zu diesem Zweck wurde ein Framework entwickelt, das die Durchführung von mehreren Tausend Experimenten mit unterschiedlicher Konfiguration unterstützt und mit dem die erzielten Resultate miteinander verglichen und gerankt werden können.
13 Umsetzung: Der Job Ad Section Classifier (JASC) Umsetzung: Der Job Ad Section Classifier (JASC) Für das Training der Klassifizierer und deren Evaluation wurden vom BIBB knapp 80 Stellenanzeigen anonymisiert und der Spinfo zur Verfügung gestellt. Mittels regulärer Ausdrücke wurden diese Stellenanzeigen in einzelne Paragrafen (knapp.500) unterteilt. Im Anschluss daran wurden sie manuell mit den entsprechenden Klassenlabels versehen. Der diesen Arbeitsschritten entsprechende Workflow ist in Abbildung dargestellt. Mehrfachklassifikationen sind mit den genutzten, gängigen Klassifikationsverfahren nicht ohne Weiteres möglich und mussten aus diesem Grund gesondert behandelt werden. Zu diesem Zweck wurden für mehrfach zu klassifizierende Abschnitte zunächst eigene Klassenlabels festgelegt. Wenn etwa geforderte Bewerberkompetenzen (Klasse ) und die Beschreibung der Arbeitsstelle (Klasse ) innerhalb eines Abschnitts behandelt werden, wurde dieser mit einem Label für Klasse 5 ausgezeichnet. Vor der Evaluation wurden diese Mehrklassenlabels wieder auf die vier Grundklassen zurückgeführt, sodass die tatsächlichen Precision- und Recall-Werte auch für die mehrfach ausgezeichneten Klassen berechnet werden konnten. Um ein Beispiel zu geben: Würde ein Verfahren einem Abschnitt die Klasse zuordnen, der Abschnitt wäre aber mit Klasse 5 (also und ) gelabelt, würde das Evaluationsverfahren ohne Rückführung auf die Mehrfachklassen die Zuordnung als falsch positiven in Klasse und falsch negativen in Klasse 5 bewerten. Mit Rückführung kann die Zuordnung als richtig positiver für Klasse und falsch negativer für Klasse gezählt werden. Insofern entspricht die Evaluation der Zuordnung nach der Rückübersetzung in die Mehrfachklassen im stärkeren Maße dem, was wirklich gemessen werden sollte. Abbildung Preprocessing Von den Stellenanzeigen in der Datenbank zu manuell ausgezeichneten Abschnitten Preprocessing JobAds DB Extracted JobAds Splitted ClassifyUnits Labeled ClassifyUnits Extractor ClassifyUnit Splitter TrainingData Generator Mit dem Resultat des Preprocessing Workflows können nun in einem weiteren Schritt die unterschiedlichen Modelle für Trainings- und Testphase der Klassifizierer gebildet werden. Dazu wurden die gelabelten Paragrafen (in der Abbildung ClassifyUnits genannt) in zehn Gruppen unterteilt, von denen in einem Kreuzvalidierungsverfahren jeweils neun als Trainingsdaten und die
14 Umsetzung: Der Job Ad Section Classifier (JASC) verbliebenen als Testdaten verwendet wurden. Mit den Trainingsdaten wurde über unterschiedliche Auswahlen und verschiedene Gewichtungen von Merkmalen insgesamt mehr als.000 Modelle gebildet jedes durch einen spezifisch konfigurierten Workflow Feature Engineering, schematisch dargestellt in Abbildung. Abbildung Feature Engineering Bildung von Modellen für die einzelnen Klassen durch die Auswahl von Merkmalen über einen FeatureUnit Generator und deren Gewichtung über einen Feature Quantifier Feature Engineering Labeled ClassifyUnits ClassifyUnits with Features ClassifyUnits with FeatureVectors FeatureUnit Generator Feature Quantifier Im Anschluss werden über die verschiedenen Modelle die Daten aus den Testsektionen der Kreuzvalidierungsgruppen anhand der drei verschiedenen ML-Algorithmen klassifiziert. Über den Vergleich mit dem Gold-Standard der manuell vorgenommenen Vorauszeichnungen können die gängigen Evaluationswerte Precision (Anteil der richtig klassifizierten Abschnitte an allen identifizierten Abschnitten), Recall (Anteil der richtig identifizierten Abschnitte an allen Abschnitten der jeweiligen Klasse), F-Score als harmonisches Mittel über die beiden vorangegangenen Werte und schließlich Accuracy (Anteil aller richtig identifizierten Abschnitte an allen Abschnitten) durch die Evaluator-Komponente ermittelt werden (Workflow Classify and Evaluate in Abbildung ). Abbildung Klassifizierung der Testdaten und Evaluation gegen den Gold-Standard Classify and Evaluate Accuracy Precision Recall F-Score 0,9 0,90 0,9 0,9 Units with FeatureVectors Classified Units Measures Classifier Evaluator
15 Umsetzung: Der Job Ad Section Classifier (JASC) Durch einen vorgeschalteten, regelbasierten Klassifizierer, der das Auftreten von 65 Ausdrücken auf die vorgegebenen Klassen abbildete, konnten sämtliche ML Klassifizierungsverfahren signifikant verbessert werden. Dazu wurden 65 Ausdrücke ausgewählt, deren Einsatz eine Precision von nahezu 00 Prozent und einen Recall von knapp 50 Prozent ergab. Als Aufgabe für die ML Klassifizierer verblieb, im Anschluss daran den Recall zu erhöhen, ohne die Precision allzu weit zu senken.
16 5 Ergebnisse 5 5 Ergebnisse Für die Evaluation wurden Precison/prec und Recall/rec der Verfahren für die vier Inhaltsklassen ermittelt. Da die vierte Klasse (Formalia/Sonstiges) als eine Default-Klasse angesehen werden kann, wurde diese nicht in die Mittelwertberechnungen einbezogen, die in Tabelle dargestellt werden. Aufgeführt sind jeweils die besten Ergebnisse der vier getesteten Klassifikationsalgorithmen. Wie vorhergesehen erzielt die relativ langsame KNN-Klassifikation die mit einigem Abstand besten Ergebnisse. Die besten KNN-Verfahren liegen relativ dicht beieinander, solange für k ein Wert zwischen und 6 gewählt wird, als Distanzmaß die Cosinus-Distanz und als Quantifizierer LogLikelihood genutzt werden. Durchgehend werden mit Buchstaben-n-Grammen (mit Kombinationen aus den Längen bis ), Einbeziehung von Stoppwörtern und SuffixTree Repräsentationen bessere Ergebnisse erzielt als mit der Verwendung von Wörtern, dem Löschen von Stoppwörtern und ohne den Einsatz von SuffixTrees. Lemmatisierung und Normalisierung haben nur wenig Einfluss auf die Güte der Ergebnisse. Die Präzision (precision/prec) der besten Verfahren ist mit einem Wert von über 0,98 sehr hoch, dagegen fällt der Recall mit 0,9 etwas ab. Beim Studium der einzelnen Ergebnisse ist das größtenteils dadurch zu erklären, dass Abschnitte, die im Gold-Standard mit mehreren Klassenlabes versehen wurden, nur als zu einer Klasse zugehörig erkannt wurden. Für eine Mehrfachklassifikation sind die Ergebnisse für die besten KNN-Verfahren (F-Score > 0,95, exemplarisch hier Tabelle, Zeile ) dennoch durchaus beachtlich. Tabelle Ergebnisse der besten Experimente mit unterschiedlichen Klassifikatoren Nr fsco prec rec accu classifier distance quantifier feature units 0,95 0,98 0,9 0,97 KNN (k = ) Cosinus LogLike & Grams + SW + Norm + Stem + SuffTree 0,9 0,96 0,9 0,9 SVM LogLike & Grams + SW + SuffTree 0,9 0,9 0,9 0,95 Rocchio Cosinus LogLike Grams + SW + Norm + SuffTree 0,66 0,5 0,85 0,67 Naive Bayes Grams + SW + Norm + SuffTree Hinsichtlich der Merkmalsauswahl lässt sich feststellen, dass die Klassifizierer durchweg mit aus Suffixbäumen generierten Merkmalen und mit kurzen n-grammen besser performen als mit ganzen Wörtern. Stoppwörter/SW zu filtern verschlechtert das Ergebnis, eine Normalisierung/ Norm (hier: Kleinschreibung und Zurückführen von Numeralausdrücken auf ein Merkmal NUM) verbessert es leicht, eine Lemmatisierung hat dagegen so gut wie keine Auswirkung. Als beste Merkmalsgewichtung (quantifier) stellte sich das LogLikelihood-Verfahren heraus, als bestes Distanzmaß (distance) die Cosinus-Distanz. Von den beiden getesteten linearen Verfahren liegt SVM leicht vor dem Rocchio-Algorithmus, was vor allem auf die höhere Präzision zurückzuführen ist. Mit einem F-Score von 0,9 (SVM, Tabelle, Zeile ) bzw. 0,9 (Rocchio, Tabelle, Zeile ) erzielen sie recht brauchbare Ergebnisse, fallen aber im Vergleich zu den KNN-Verfahren relativ stark ab.
17 6 Diskussion 6 6 Diskussion Die Ergebnisse der Testphase, vor allem die für die KNN Klassifikatoren, sind von überraschend hoher Qualität. Dem BIBB wurde daher der Einsatz eines KNN Klassifikators zur Klassifikation der Abschnitte aus den Stellenanzeigen der BIBB-internen Datenbank empfohlen. Zusammen mit dem Code der Klassifikationssoftware wurden beim BIBB Modelle für verschiedene lineare und KNN-Verfahren implementiert. Die Evaluation des produktiven Einsatzes des Klassifikationstools ist noch nicht endgültig abgeschlossen, denn an Stichproben wurde festgestellt, dass die sehr guten Ergebnisse der Testphase sich nicht ohne Weiteres übertragen ließen, wenngleich die Ergebnisse noch immer sehr brauchbar waren. Die Abweichung liegt vor allem darin begründet, dass die Modelle für die Klassifizierer aus anonymisierten Trainingsdaten gebildet wurden. Die Daten aus der Datenbank liegen dagegen nicht anonymisiert vor, was bedeutet, dass sich in diesen teilweise Merkmale finden, die nicht auf die Trainingsdaten zurückgeführt werden können. Aus diesem Grund wird in der gegenwärtigen Projektphase ein neues Trainingsset mit den Rohdaten erstellt, aus dem dann neue, präzisere Modelle gebildet werden können. Weiterhin werden zurzeit unterschiedliche Verfahren der Informationsextraktion auf den vorklassifizierten Abschnitten der Stellenanzeigen erprobt. Dies geschieht auf Grundlage der ebenfalls im Umfang der Vorstudie geleisteten Arbeit von Neumann (0). Vorrangiges Ziel der derzeit bis April 07 laufenden Projektphase ist die Extraktion der geforderten Bewerberkompetenzen sowie der im ausgeschriebenen Beruf vorgesehenen Arbeitsmittel.
18 Literaturverzeichnis 7 Literaturverzeichnis Agarwal, Shashank; Yu, Hong (009): Automatically classifying sentences in full-text biomedical articles into Introduction, Methods, Results and Discussion. Bioinformatics (Oxford, England), 5 (), doi:0.09/bioinformatics/btp58 Chim, Hung; Deng, Xiaotie (007): A new suffix tree similarity measure for document clustering. In: Proceedings of the 6th international conference on World Wide Web, 0. Cowie, Jim; Lehnert, Wendy (996): Information extraction. Communications of the ACM, 9 (), doi:0.5/7.09 Geduldig, Alena (0): Textklassifikation mit Support Vector Machines. MS, Universität zu Köln, Institut für Linguistik, Sprachliche Informationsverarbeitung URL: phil fak.uni koeln.de/sites/spinfo/geduldia/svm_klassifikation.pdf, zuletzt aufgerufen: Geduldig, Alena (05). Evaluation des Suffixtree Document Models als Repräsentationsmodell zur Textklassifikation. MS, Universität zu Köln, Institut für Linguistik, Sprachliche Informationsverarbeitung URL: SuffixtreeClassification.pdf, zuletzt aufgerufen: Joachims, Thorsten (00): A statistical learning model of text classification for support vector machines. In Proceedings of the th annual international ACM SIGIR conference on Research and development in information retrieval SIGIR 0 (pp. 8 6). New York, USA: ACM Press. McKnight, Larry; Srinivasan, Padmini (00): Categorization of sentence types in medical abstracts. AMIA Annual Symposium Proceedings/AMIA Symposium. AMIA Symposium, 0. Mizuta, Yoko; Korhonen, Anna; Mullen, Tony; Collier, Nigel (006): Zone analysis in biology articles as a basis for information extraction. International Journal of Medical Informatics, 75 (6), doi:0.06/j.ijmedinf Neumann, Mandy (0): Analyse von Anforderungsprofilen. Eine Studie zur Informationsextraktion aus Stellenanzeigen. MA Thesis, Universität zu Köln, Institut für Linguistik, Sprachliche Informationsverarbeitung URL: fak.uni koeln.de/fileadmin/spinfo/ projekte/bibb/masterarbeit_neumann_final.pdf, zuletzt aufgerufen: Sebastiani, Fabrizio (00): Machine learning in automated text categorization. ACM Computing Surveys, (), 7. doi:0.5/ Sollaci, Luciana B.; Pereira, Mauricio G. (00): The introduction, methods, results, and discussion (IMRAD) structure: a fifty year survey. Journal of the Medical Library Association: JMLA, 9 (), Teufel, Simone; Moens, Marc (00): Summarizing Scientific Articles: Experiments with Relevance and Rhetorical Status. Computational Linguistics, 8 (), Xu, Yan; Jones, Gareth; Li, Jin Tao; Wang, Bin; Sun, Chun Ming (007): A study on mutual information-based feature selection for text categorization. Journal of Computational Information Systems. Binary Information Press. Der Code, der für die Durchführung der oben beschriebenen Experimente genutzt wurde, steht unter der Open-Source-Lizenz EPL.0 (Eclipse Public Licence, licenses/epl-.0) bei GitHub unter zur freien Verfügung.
19 8 Autoren Autoren Dr. Hermes, Jürgen, Wissenschaftlicher Assistent, Sprachliche Informationsverarbeitung, Institut für Linguistik, Universität zu Köln, Albertus-Magnus-Platz, 509 Köln, 0 700, hermesj@uni-koeln.de Schandock, Manuel, Wissenschaftlicher Mitarbeiter, AB. Qualifikation, berufliche Integration und Erwerbstätigkeit, Bundesinstitut für Berufsbildung (BIBB), Robert-Schuman-Platz, 575 Bonn, 08 07, schandock@bibb.de
20 Abstract 9 Abstract Für die Qualifikationsentwicklungsforschung des BIBB sind Stellenanzeigen eine aussagekräftige Informationsquelle. Darin werden u. a. Anforderungen, Arbeitsmittel und Tätigkeiten der ausgeschriebenen Stellen beschrieben allerdings unstrukturiert und unsystematisch. Um eine statistische Analyse der Daten zu ermöglichen, entwickelt das BIBB mit der Universität zu Köln eine Methodik zur Extraktion von Informationen aus Stellenanzeigen. Ein Verfahren zur Klassifikation von Textabschnitten wird bereits mit Erfolg auf einer BIBB-internen Datenbank mit mehreren Millionen Stellenanzeigen eingesetzt und schafft damit die Grundlage für weitere Schritte zur Extraktion der Information aus den Volltexten von Stellenanzeigen. For BIBB s qualifications development research, job advertisements are a significant source of information. The requirements, tools and tasks of the advertised vacancies are described therein albeit unstructured and unsystematic. In order to facilitate a statistical analysis of the information, BIBB, in cooperation with the University of Cologne, developed a method of extracting information from job advertisements. A classification process of text extracts is already being successfully utilized in a BIBB internal database with several million job advertisements, thus creating the foundation for further steps of extracting information from the full text of job advertisements. Schlagwörter/Keywords Text Mining Text Classification Information Extraction Zone Analysis Stellenanzeigen Qualifikationsentwicklungsforschung
21
22 Bundesinstitut für Berufsbildung Robert-Schuman-Platz 575 Bonn Telefon: (0 8) 07-0 Internet:
Supervised Learning Algorithmus für Stellenanzeigenklassifikation und Jobdeskriptoren Gewinnung
Informatik Pawel Broda Supervised Learning Algorithmus für Stellenanzeigenklassifikation und Jobdeskriptoren Gewinnung Diplomarbeit Ludwig Maximilian Universität zu München Centrum für Informations- und
Textklassifikation mit Support Vector Machines
Köln, den 25. April 2015 Studiengang Informationsverarbeitung Wintersemester 2014/2015 Sprachliche Informationsverarbeitung Hauptseminar: Linguistic Software Engineering bei Prof. Dr. Jürgen Rolshoven
EXTRAKTION UND KLASSIFIKATION VON BEWERTETEN PRODUKTFEATURES AUF WEBSEITEN
EXTRAKTION UND KLASSIFIKATION VON BEWERTETEN PRODUKTFEATURES AUF WEBSEITEN T-SYSTEMS MULTIMEDIA SOLUTIONS GMBH, 16. FEBRUAR 2012 1. Schlüsselworte Semantic Web, Opinion Mining, Sentiment Analysis, Stimmungsanalyse,
Vektormodelle. Universität zu Köln HS: Systeme der maschinellen Sprachverarbeitung Prof. Dr. J. Rolshoven Referentin: Alena Geduldig
Vektormodelle Universität zu Köln HS: Systeme der maschinellen Sprachverarbeitung Prof. Dr. J. Rolshoven Referentin: Alena Geduldig Gliederung Vektormodelle Vector-Space-Model Suffix Tree Document Model
Nutzung maschinellen Lernens zur Extraktion von Paragraphen aus PDF-Dokumenten
Nutzung maschinellen Lernens zur Extraktion von Paragraphen aus PDF-Dokumenten Albert-Ludwigs-Universität zu Freiburg 13.09.2016 Maximilian Dippel max.dippel@tf.uni-freiburg.de Überblick I Einführung Problemstellung
Intelligente Klassifizierung von technischen Inhalten. Automatisierung und Anwendungspotenziale
Intelligente Klassifizierung von technischen Inhalten Automatisierung und Anwendungspotenziale Künstliche Intelligenz Machine Learning Deep Learning 1950 1980 2010 Abgeleitet von: https://blogs.nvidia.com/blog/2016/07/29/whats-difference-artificial-intelligence-machine-learning-deep-learning-ai/
Einführung in das Maschinelle Lernen I
Einführung in das Maschinelle Lernen I Vorlesung Computerlinguistische Techniken Alexander Koller 26. Januar 2015 Maschinelles Lernen Maschinelles Lernen (Machine Learning): äußerst aktiver und für CL
Inhalt. 4.1 Motivation. 4.2 Evaluation. 4.3 Logistische Regression. 4.4 k-nächste Nachbarn. 4.5 Naïve Bayes. 4.6 Entscheidungsbäume
4. Klassifikation Inhalt 4.1 Motivation 4.2 Evaluation 4.3 Logistische Regression 4.4 k-nächste Nachbarn 4.5 Naïve Bayes 4.6 Entscheidungsbäume 4.7 Support Vector Machines 4.8 Neuronale Netze 4.9 Ensemble-Methoden
Soziale Kompetenzen als strategischer Erfolgsfaktor für Führungskräfte
Europäische Hochschulschriften 3132 Soziale Kompetenzen als strategischer Erfolgsfaktor für Führungskräfte von Christine Scheitler 1. Auflage Soziale Kompetenzen als strategischer Erfolgsfaktor für Führungskräfte
SEMINAR KLASSIFIKATION & CLUSTERING EINFÜHRUNG. Stefan Langer CIS Universität München Wintersemester 2016/17
SEMINAR KLASSIFIKATION & CLUSTERING EINFÜHRUNG Stefan Langer CIS Universität München Wintersemester 2016/17 stefan.langer@cis.uni-muenchen.de Anmeldung Bereits erfolgt über LSF Falls alternative Email
Empirische Analyse der Mitarbeiterbindung am Beispiel der Firma X AG
Wirtschaft Patric Seehofer Empirische Analyse der Mitarbeiterbindung am Beispiel der Firma X AG Masterarbeit Bibliografische Information der Deutschen Nationalbibliothek: Die Deutsche Bibliothek verzeichnet
Dennis Julius Broich. Mitarbeiterbindung in KMU. Analyse von Instrumenten und Maßnahmen
Dennis Julius Broich Mitarbeiterbindung in KMU Analyse von Instrumenten und Maßnahmen Broich, Dennis Julius: Mitarbeiterbindung in KMU: Analyse von Instrumenten und Maßnahmen, Hamburg, Igel Verlag RWS
Mathematische Grundlagen III
Mathematische Grundlagen III Maschinelles Lernen III: Clustering Vera Demberg Universität des Saarlandes 7. Juli 202 Vera Demberg (UdS) Mathe III 7. Juli 202 / 35 Clustering vs. Klassifikation In den letzten
Standardisierte Vorgehensweisen und Regeln zur Gewährleistung von: Eindeutigkeit Schlussfolgerungen aus empirischen Befunden sind nur dann zwingend
Standardisierte Vorgehensweisen und Regeln zur Gewährleistung von: Eindeutigkeit Schlussfolgerungen aus empirischen Befunden sind nur dann zwingend oder eindeutig, wenn keine alternativen Interpretationsmöglichkeiten
Informatik. Christian Kuhn. Web 2.0. Auswirkungen auf internetbasierte Geschäftsmodelle. Diplomarbeit
Informatik Christian Kuhn Web 2.0 Auswirkungen auf internetbasierte Geschäftsmodelle Diplomarbeit Bibliografische Information der Deutschen Nationalbibliothek: Bibliografische Information der Deutschen
Bachelorarbeit Erkennung von Fließtext in PDF-Dokumenten
Bachelorarbeit Erkennung von Fließtext in PDF-Dokumenten 16.08.2016 David Spisla Albert Ludwigs Universität Freiburg Technische Fakultät Institut für Informatik Gliederung Motivation Schwierigkeiten bei
Detecting Near Duplicates for Web Crawling
Detecting Near Duplicates for Web Crawling Gurmeet Singh Manku et al., WWW 2007* * 16th international conference on World Wide Web Detecting Near Duplicates for Web Crawling Finde near duplicates in großen
Semiüberwachte Paarweise Klassifikation
Semiüberwachte Paarweise Klassifikation Andriy Nadolskyy Bachelor-Thesis Betreuer: Prof. Dr. Johannes Fürnkranz Dr. Eneldo Loza Mencía 1 Überblick Motivation Grundbegriffe Einleitung Übersicht der Verfahren
Business Intelligence & Machine Learning
AUSFÜLLHILFE: BEWEGEN SIE DEN MAUSZEIGER ÜBER DIE ÜBERSCHRIFTEN. AUSFÜHRLICHE HINWEISE: LEITFADEN MODULBESCHREIBUNG Business Intelligence & Machine Learning Kennnummer Workload Credits/LP Studiensemester
Bring your own Schufa!
Bring your own Schufa! Jan Schweda Senior Softwareengineer Web & Cloud jan.schweda@conplement.de @jschweda Ziele des Vortrags Die Möglichkeiten von maschinellem Lernen aufzeigen. Azure Machine Learning
Automatische Rekonstruktion und Spezifizierung von Attributnamen in Webtabellen
Automatische Rekonstruktion und Spezifizierung von Attributnamen in Webtabellen Mark Reinke Bachelorarbeit TU Dresden 17. Februar 2014 Webtabellen Warum sind Webtabellen von Bedeutung? Sie können relationale
Textklassifizierung nach Erbkrankheiten aus OMIM Exposé einer Diplomarbeit
Textklassifizierung nach Erbkrankheiten aus OMIM Exposé einer Diplomarbeit betreut von: Prof. Ulf Leser, Jörg Hakenberg bearbeitet von: Juliane Rutsch September 24 November 24 Problemstellung Medizinische
Arbeit und Qualifikation in der Green Economy
Arbeit und Qualifikation in der Green Economy Franziska Mohaupt, Robert Helmrich ein Gemeinschaftsprojekt von Gefördert von Berlin, 18. November 2014 Inhalt Zielsetzung und Anlage des Vorhabens Thesen
Aktuelle betriebliche Bedarfe und zukünftige Qualifikationsanforderungen an An- und Ungelernte
Workshop Qualifizierung An- und Ungelernter im Betrieb planen, durchführen und unterstützen Aktuelle betriebliche Bedarfe und zukünftige Qualifikationsanforderungen an An- und Ungelernte Ergebnisse einer
Accountability in Algorithmic. Decision Making.
Accountability in Algorithmic Decision Making Vural Mert, Larcher Daniel 1. Juni 2016 Zusammenfassung Diese Seminararbeit gibt einen kurzen Überblick über die Algorithmische Entscheidungsfindung, deren
Sentiment Analysis (SA) Robert Bärhold & Mario Sänger Text Analytics WS 2012/13 Prof. Leser
Sentiment Analysis (SA) Robert Bärhold & Mario Sänger Text Analytics WS 2012/13 Prof. Leser Gliederung Einleitung Problemstellungen Ansätze & Herangehensweisen Anwendungsbeispiele Zusammenfassung 2 Gliederung
Das Unternehmensleitbild
Sozialwissenschaft Susanne Walter-Augustin Das Unternehmensleitbild Chance oder Ballast für Non-Profit-Organisationen? Masterarbeit Bibliografische Information der Deutschen Nationalbibliothek: Die Deutsche
Midas Metadata yield by Data Analysis
Midas Metadata yield by Data Analysis Glossar powered by Was ist Text Mining? Unter Text Mining versteht sich im Allgemeinen die Extraktion von strukturierten Informationen aus unstrukturierten oder semistrukturierten
Informationswissenschaft zwischen virtueller Infrastruktur und materiellen Lebenswelten
Inhaltsverzeichnis 3 Hans-Christoph Hobohm (Hrsg.) Informationswissenschaft zwischen virtueller Infrastruktur und materiellen Lebenswelten Information Science between Virtual Infrastructure and Material
Ein Hauch von Jasmin
Janis Brinkmann Ein Hauch von Jasmin Die deutsche Islamberichterstattung vor, während und nach der Arabischen Revolution eine quantitative und qualitative Medieninhaltsanalyse HERBERT VON HALEM VERLAG
Das Spannungsfeld im mittleren Management. Ein möglicher Burnout-Faktor?
Wirtschaft Matthias Schupp Das Spannungsfeld im mittleren Management. Ein möglicher Burnout-Faktor? Bachelorarbeit Bibliografische Information der Deutschen Nationalbibliothek: Die Deutsche Bibliothek
Wirtschaftswissenschaftler Hauptfächer/Schwerpunkte Diplom-Pädagogen Hauptfächer/Schwerpunkte Diplom-Psychologen
Inhalt Einleitung... 15 Aufbau und Zielsetzung... 16 1 Stellenanzeigenanalyse Stand des Wissens... 21 1.1 Empirische Pädagogik... 21 1.2 Bildungsforschung... 27 1.3 Qualifikationsforschung... 29 1.3.1
SelectLine RMA-Verwaltung
Dokumententitel SelectLine RMA-Verwaltung Seite 1 von 1 Die SelectLine RMA-Verwaltung Für Ihre SelectLine Warenwirtschaft gibt es jetzt eine Rücksendeverwaltung, die es ermöglicht, Ware strukturiert zurückzuführen.
Unternehmensnachfolge im Handwerk
Ines Tetzlaff Unternehmensnachfolge im Handwerk Eine strategische Betrachtung Bibliografische Informationen der Deutschen Nationalbibliothek Die Deutsche Nationalbibliothek verzeichnet diese Publikation
Das C-Teile-Management bei KMU
Wirtschaft Lukas Ohnhaus Das C-Teile-Management bei KMU Identifikation und Analyse der Auswahlkriterien für einen Dienstleister mittels qualitativer Marktstudie Bachelorarbeit Bibliografische Information
Space Usage Rules. Neele Halbur, Helge Spieker InformatiCup 2015 19. März 2015
Space Usage Rules? InformatiCup 2015 1 Agenda 1. Vorstellung des Teams 2. Entwicklungsprozess und Umsetzung 3. Verbesserung der Strategien 4. Auswertung der Strategien 5. Ausblick 6. Fazit 2 Vorstellung
Klassifikation und Ähnlichkeitssuche
Klassifikation und Ähnlichkeitssuche Vorlesung XIII Allgemeines Ziel Rationale Zusammenfassung von Molekülen in Gruppen auf der Basis bestimmter Eigenschaften Auswahl von repräsentativen Molekülen Strukturell
Anforderungsprofile und akademischer Arbeitsmarkt
Erziehung & Bildung - Eichstätter Pädagogische Beiträge 3 Anforderungsprofile und akademischer Arbeitsmarkt Die Stellenanzeigenanalyse als Methode der empirischen Bildungs- und Qualifikationsforschung
Seminar Textmining SS 2015 Grundlagen des Maschinellen Lernens
Seminar Textmining SS 2015 Grundlagen des Maschinellen Lernens Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 17.04.2015 Entscheidungsprobleme beim Textmining
Das Internet als Instrument der Unternehmenskommunikation unter besonderer Berücksichtigung der Investor Relations
Wirtschaft Jörn Krüger Das Internet als Instrument der Unternehmenskommunikation unter besonderer Berücksichtigung der Investor Relations Eine theoretische und empirische Analyse Diplomarbeit Bibliografische
Tim Krämer. Archimetrix - Improved Software Architecture Recovery in the Presence of Design Deficiencies. 08. Mai 2013
Tim Krämer 7kraemer@informatik.uni-hamburg.de Archimetrix - Improved Software Architecture Recovery in the Presence of Design Deficiencies 08. Mai 2013 Tim Krämer, 7kraemer@informatik.uni-hamburg.de Universität
Eine empirische Untersuchung zum Angebot von Radsport im Inhaltsbereich "Gleiten, Fahren, Rollen" an ausgewählten Schulen in NRW
Sport Mark Heyde Eine empirische Untersuchung zum Angebot von Radsport im Inhaltsbereich "Gleiten, Fahren, Rollen" an ausgewählten Schulen in NRW Examensarbeit Bibliografische Information der Deutschen
Tesla - ein Labor für Computerlinguisten
Jürgen Hermes & Stephan Schwiebert Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln 01.06.2012 Anwendungsfall 1 Anwendungsfall 2 Arbeiten mit Tesla Fazit und Diskussion
Computerlinguistische Textanalyse
Computerlinguistische Textanalyse 10. Sitzung 06.01.2014 Einführung in die Textklassifikation Franz Matthies Lehrstuhl für Computerlinguistik Institut für Germanistische Sprachwissenschaft Friedrich-Schiller
- I - Inhalt Seite. 1. Problemstellung Bedeutung der beruflichen Weiterbildung Ziel der Untersuchung und Vorgehensweise 8
- I - Inhalt 1. Problemstellung 1 1.1 Bedeutung der beruflichen Weiterbildung 3 1.2 Ziel der Untersuchung und Vorgehensweise 8 2. Methodische Aspekte 9 2.1 Auswahl der Gebiete 9 2.2 Aussagekraft der statistischen
econstor Make Your Publications Visible.
econstor Make Your Publications Visible. A Service of Wirtschaft Centre zbwleibniz-informationszentrum Economics Engelbrech, Gerhard; Jungkunst, Maria Research Report Erziehungsurlaub: Hilfe zur Wiedereingliederung
Der Zusammenhang zwischen narzisstischen Persönlichkeitseigenschaften und dem Führungsverhalten
Geisteswissenschaft Janine Lippelt Der Zusammenhang zwischen narzisstischen Persönlichkeitseigenschaften und dem Führungsverhalten Eine empirische Untersuchung der Selbstbeurteilung von Führungskräften
Bedeutung und Erfassung von soft-skills beim Personalrecruiting im IT-Bereich
Informatik Felix Larondo Bedeutung und Erfassung von soft-skills beim Personalrecruiting im IT-Bereich Diplomarbeit Bibliografische Information der Deutschen Nationalbibliothek: Die Deutsche Bibliothek
Wertorientierte Unternehmensführung und Corporate Governance
Wirtschaft Anonym Wertorientierte Unternehmensführung und Corporate Governance Anforderungen sowie Vorschriften und Empfehlungen an die Managementvergütung Masterarbeit Bibliografische Information der
Emotion Recognition of Call Center Conversations Robert Bosch Engineering and Business Solutions Private Limited
Emotion Recognition of Call Center Conversations Robert Bosch Engineering and Business Solutions Private Limited 1 Agenda 1 Introduction 2 Problem Definition 3 Solution Overview 4 Why Consider Emotions
Einführung in die Computerlinguistik
Einführung in die Computerlinguistik Statistische Verfahren in der lexikalischen Semantik WS 2/22 Manfred Pinkal Beispiel: Adjektive im Wahrig-Korpus Frequenzen in einem kleinen Teilkorpus: n groß - -
Soll der Staat aktiv Innovationen fördern? Das Beispiel Airbus A400M
Wirtschaft Tobias Karcher Soll der Staat aktiv Innovationen fördern? Das Beispiel Airbus A400M Bachelorarbeit Bibliografische Information der Deutschen Nationalbibliothek: Die Deutsche Bibliothek verzeichnet
Textmining Klassifikation von Texten Teil 2: Im Vektorraummodell
Textmining Klassifikation von Texten Teil 2: Im Vektorraummodell Dept. Informatik 8 (Künstliche Intelligenz) Friedrich-Alexander-Universität Erlangen-Nürnberg (Informatik 8) Klassifikation von Texten Teil
Kapitel 6. Zusammenfassung der wichtigsten Ergebnisse dieser Arbeit
Kapitel 6 Zusammenfassung der wichtigsten Ergebnisse dieser Arbeit 159 160 Kapitel 6. Zusammenfassung der Ergebnisse Im Fokus der vorliegenden Arbeit steht die Frage nach der Eignung verschiedener Matchingverfahren
Mobbing am Arbeitsplatz
Wirtschaft Nicole Busch Mobbing am Arbeitsplatz Das Leiden der Opfer im Kontext von Führungsstilen und Konfliktmanagement Diplomarbeit Bibliografische Information der Deutschen Nationalbibliothek: Bibliografische
Wissenschaftstheoretische Grundlagen
Wissenschaftstheoretische Grundlagen Wissenschaftstheorie: Lehre von der Vorgehensweise bei der wissenschaftlichen Tätigkeit (Methodologie) Wissenschaftstheorie ist der Sammelbegriff für alle metawissenschaftlichen
Auswertungen aus dem IAB-Projekt Situation atypisch Beschäftigter und Arbeitszeitwünsche von Teilzeitbeschäftigten zum Thema Arbeit auf Abruf
Aktuelle Daten und Indikatoren Auswertungen aus dem IAB-Projekt Situation atypisch Beschäftigter und Arbeitszeitwünsche von Teilzeitbeschäftigten zum Thema Arbeit auf Abruf September 2016 Inhalt 1 Hintergrund...
Betriebliches Gesundheitsmanagement. Gesundheitliche und psychosoziale Auswirkungen flexibler Arbeitszeiten
Medizin Doreen Börner Betriebliches Gesundheitsmanagement. Gesundheitliche und psychosoziale Auswirkungen flexibler Arbeitszeiten Bachelorarbeit Bibliografische Information der Deutschen Nationalbibliothek:
Application Report. Inventarisierung. LKH Graz, Zentrum für medizinische Grundlagenforschung (ZMF) Bosch und Siemens Hausgeräte GmbH
Application Report Inventarisierung LKH Graz, Zentrum für medizinische Grundlagenforschung (ZMF) Bosch und Siemens Hausgeräte GmbH Seite 1 von 5 Inventarisierung ist häufig selbst dann noch zeit-, personal-
Data Mining-Modelle und -Algorithmen
Data Mining-Modelle und -Algorithmen Data Mining-Modelle und -Algorithmen Data Mining ist ein Prozess, bei dem mehrere Komponenten i n- teragieren. Sie greifen auf Datenquellen, um diese zum Training,
2. Einfach drauf los schreiben
Die 3 Gebote 1. Schreiben 2. Einfach drauf los schreiben 3. Strukturieren 1 1. Schreiben 1.1 Sofort mit dem Schreiben beginnen! Entwicklung der Hypothesen Lesen & Exzerpieren Stimulierstellung, Versuchsdurchführung
(Thema) Optimierung von künstlichen neuronalen Netzen zur Ausfallvorhersage mit Sensordaten. Masterarbeit
(Thema) Optimierung von künstlichen neuronalen Netzen zur Ausfallvorhersage mit Sensordaten Masterarbeit zur Erlangung des akademischen Grades Master of Science (M.Sc.) im Studiengang Wirtschaftsingenieur
Akademiker auf dem Arbeitsmarkt immer noch am besten aufgestellt
36 Akademiker auf dem Arbeitsmarkt immer noch am besten aufgestellt Beate Grundig 1 und Philip Lenecke 2 Dieser Beitrag soll einen Überblick über die Entwicklung der qualifikationsspezifischen Arbeitslosenquoten
Erwerbstätige nach Wirtschaftszweigen
Prozent 100 90 3,0 28,5 60,9 % 67,8 % 72,4 % 73,7 % 38.712 38.148 38.976 41.613 2,1 1,7 1,6 22,1 19,9 18,8 Anteil der Erwerbstätigen Land- und Forstwirtschaft, produzierendes Gewerbe (ohne ) 80 70 60 7,6
Auditive Wahrnehmung in Computerspielen. Funktionelle Aspekte zum Einsatz von Musik und Klang
Medien Marcus Jobs Auditive Wahrnehmung in Computerspielen. Funktionelle Aspekte zum Einsatz von Musik und Klang Bachelorarbeit Bibliografische Information der Deutschen Nationalbibliothek: Die Deutsche
I. EIS-Online-BBS. Stellenausschreibungen Fachpraxis. EIS-Online-BBS/BEST-Online-BBS: Veränderungen ab dem
I. EIS-Online-BBS Folgende Neuerungen ergeben sich im Programm EIS-Online-BBS. Stellenausschreibungen Fachpraxis Ab dem 01.06.2014 hat die Ausschreibung, Bewerbung und Besetzung von Stellen für Fachpraxislehrkräfte
Statistische Verfahren zur Maschinen- und Prozessqualifikation
Statistische Verfahren zur Maschinen- und Prozessqualifikation Bearbeitet von Edgar Dietrich, Alfred Schulze 5., aktualisierte Auflage 2005. Buch. XVIII, 630 S. Hardcover ISBN 978 3 446 22894 8 Format
Stand: Verfasser: Sascha Adam, Matthias Bächle, Carola Reichenbach & Luba Rewin
Ergebnisse zu Berufsfeldorientierung, Bedarf und Positionierung von Absolvierenden eines möglichen berufsbegleitenden Studiengangs Angewandte Pharmazie 2 Berufsfeldbezogene Nachfrage In der pharmazeutischen
Der Islam in den Medien
Der Islam in den Medien Journalistische Qualität im Streit um die Mohammed-Karikaturen Bearbeitet von Fabian Wahl 1. Auflage 2011. Taschenbuch. 169 S. Paperback ISBN 978 3 8288 2723 3 Format (B x L): 14,8
Angebot und Nachfrage auf dem Ausbildungsmarkt
In absoluten Zahlen und Anteile in Prozent, 30.9.2012 In ab Nachfrage nach Ausbildungsplätzen * 627.279 (100%) 183 (0,03%) 2.763 (0,4%) 43.014 (6,9%) 13.260 (2,1%) 12.102 (1,9%) Seeschifffahrt Hauswirtschaft
Digitalisierung kaufmännischer Prozesse, Veränderungen des Profils von kaufmännischen Tätigkeiten und Qualifikationsanforderungen
Digitalisierung kaufmännischer Prozesse, Veränderungen des Profils von kaufmännischen Tätigkeiten und Qualifikationsanforderungen Vortrag bei der Fachtagung Wirtschaft & Verwaltung bei den 19. Hochschultagen
Bibliografische Information der Deutschen Nationalbibliothek:
Bibliografische Information der Deutschen Nationalbibliothek: Bibliografische Information der Deutschen Nationalbibliothek: Die Deutsche Bibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie;
Seminar : Information Retrieval Plagiaterkennung. Allgemeines Algorithmische Plagiaterkennung
Seminar: Information Retrieval Christoph Rauwolf 1 Allgemeines Algorithmische Ansätze Intrinsische Verfahren Extrinsische Verfahren Allgemeiner Ablauf Beispiele für Verfahren Verfahren von Efstathios Stamatatos
optivo broadmail Professionelles E-Mail-Marketing Klick-Profilierung: Einfach und effektiv Zielgruppen erstellen
optivo broadmail Professionelles E-Mail-Marketing Klick-Profilierung: Einfach und effektiv Zielgruppen erstellen Inhalt 1. 2.. 4. 5. Mit Klick-Profilierung Tracking-Links taggen und verwalten.................................................................................
Berücksichtigung von Unterbrechungen bei der Berechnung der Langzeitarbeitslosigkeit
Aktuelle Daten und Indikatoren Berücksichtigung von Unterbrechungen bei der Berechnung der Langzeitarbeitslosigkeit Juli 2015 Inhalt 1. Vorwort...2 2. Berechnung der Dauer der Arbeitslosigkeit...2 3. Berücksichtigung
Agile Methoden in der Softwareentwicklung
Technik Jürgen Götzenauer Agile Methoden in der Softwareentwicklung Vergleich und Evaluierung Diplomarbeit Bibliografische Information der Deutschen Nationalbibliothek: Die Deutsche Bibliothek verzeichnet
Cognitive Maps und Kundenbeobachtung zur Analyse der Orientierungsfreundlichkeit von Einzelhandelsgeschäften
Cognitive Maps und Kundenbeobachtung zur Analyse der Orientierungsfreundlichkeit von Einzelhandelsgeschäften Mit zunehmender Größe der Verkaufsflächen im Einzelhandel gewinnt die Orientierungsfreundlichkeit
Untersuchung der Möglichkeiten und Auswirkungen von Smart Glasses und Augmented Realtiy für das Marketing
Wirtschaft Sebastian Kriegler Untersuchung der Möglichkeiten und Auswirkungen von Smart Glasses und Augmented Realtiy für das Marketing Bachelorarbeit Bibliografische Information der Deutschen Nationalbibliothek:
Ansätze zur Messbarkeit und Vergleichbarkeit der Corporate Governance Maßnahmen von Unternehmen
Wirtschaft Sandra Hild Ansätze zur Messbarkeit und Vergleichbarkeit der Corporate Governance Maßnahmen von Unternehmen Bachelorarbeit Bibliografische Information der Deutschen Nationalbibliothek: Die
Führungstheorien und Führungsstile von Führungskompetenzen
Wirtschaft Ina Maier Führungstheorien und Führungsstile von Führungskompetenzen Bachelorarbeit Bibliografische Information der Deutschen Nationalbibliothek: Die Deutsche Bibliothek verzeichnet diese Publikation
1 PIVOT TABELLEN. 1.1 Das Ziel: Basisdaten strukturiert darzustellen. 1.2 Wozu können Sie eine Pivot-Tabelle einsetzen?
Pivot Tabellen PIVOT TABELLEN. Das Ziel: Basisdaten strukturiert darzustellen Jeden Tag erhalten wir umfangreiche Informationen. Aber trotzdem haben wir oft das Gefühl, Entscheidungen noch nicht treffen
Der Einfluss der sozialen Herkunft auf die Lesekompetenz. Ist Online-Lesen ein intervenierender Faktor der Bildungsungleichheit?
Geisteswissenschaft Thomas Beer Der Einfluss der sozialen Herkunft auf die Lesekompetenz. Ist Online-Lesen ein intervenierender Faktor der Bildungsungleichheit? Eine empirische Untersuchung auf Basis der
Erfolgsfaktoren für virtuelle Teams
Wirtschaft Irmtraut Maibach Erfolgsfaktoren für virtuelle Teams Masterarbeit Bibliografische Information der Deutschen Nationalbibliothek: Bibliografische Information der Deutschen Nationalbibliothek:
Gesundheitsschutz bei Feuchtarbeit und Tätigkeiten mit hautschädigenden Stoffen. GDA-Arbeitsprogramm: Ergebnisbericht Sachsen
Gesundheitsschutz bei Feuchtarbeit und Tätigkeiten mit hautschädigenden Stoffen GDA-Arbeitsprogramm: Ergebnisbericht Sachsen GDA Arbeitsprogramm Gesundheitsschutz bei Feuchtarbeit und Tätigkeiten mit hautschädigenden
Text-Mining: Einführung
Text-Mining: Einführung Claes Neuefeind Fabian Steeg 22. April 2010 Organisatorisches Was ist Text-Mining? Definitionen Anwendungsbeispiele Textuelle Daten Aufgaben u. Teilbereiche Literatur Kontakt Sprechstunde:
Untersuchung der Genauigkeit bei der Mikrolaserablation
Technik Anonym Untersuchung der Genauigkeit bei der Mikrolaserablation Bachelorarbeit Bibliografische Information der Deutschen Nationalbibliothek: Die Deutsche Bibliothek verzeichnet diese Publikation
Data Mining und Maschinelles Lernen Lösungsvorschlag für das 7. Übungsblatt
Data Mining und Maschinelles Lernen Lösungsvorschlag für das 7. Übungsblatt Knowledge Engineering Group Data Mining und Maschinelles Lernen Lösungsvorschlag 7. Übungsblatt 1 Aufgabe 1a) Auffüllen von Attributen
Kapitel 23 Strukturinformationen in Dokumenten. HHU Düsseldorf, WS 2008/09 Information Retrieval 368
Kapitel 23 Strukturinformationen in Dokumenten HHU Düsseldorf, WS 2008/09 Information Retrieval 368 Erkennung von Strukturinformationen in Web- Dokumenten Aufgaben: Kreation von Metadaten optimal: Eintragen
Coaching in der Sozialwirtschaft
Coaching in der Sozialwirtschaft Reviewed Research. Auf den Punkt gebracht. Springer Results richtet sich an Autoren, die ihre fachliche Expertise in konzentrierter Form präsentieren möchten. Externe Begutachtungsverfahren
Aufspürung von Gene Ontology Termen in wissenschaftlichen Artikeln
Fachgebiet Wissensmanagement in der Bioinformatik Aufspürung von Gene Ontology Termen in wissenschaftlichen Artikeln Exposé zur Diplomarbeit Nikolay Damyanliev damyanli@informatik.hu-berlin.de Matr.-Nr.
Ideen und Konzepte der Informatik. Maschinelles Lernen. Kurt Mehlhorn
Ideen und Konzepte der Informatik Maschinelles Lernen Kurt Mehlhorn Übersicht Lernen: Begriff Beispiele für den Stand der Kunst Spamerkennung Handschriftenerkennung mit und ohne Trainingsdaten Gesichts-
Ein Weiterbildungskonzept für (Nachwuchs-)Führungskräfte in einem mittelständischen Unternehmen
Wirtschaft Imke Krome Ein Weiterbildungskonzept für (Nachwuchs-)Führungskräfte in einem mittelständischen Unternehmen Am Beispiel der X GmbH & Co. KG Diplomarbeit Fachhochschule Osnabrück University of
Text Mining Praktikum. Durchführung: Andreas Niekler Email: aniekler@informatik.uni-leipzig.de Zimmer: Paulinum (P) 818
Text Mining Praktikum Durchführung: Andreas Niekler Email: aniekler@informatik.uni-leipzig.de Zimmer: Paulinum (P) 818 Rahmenbedingungen Gruppen von 2- (max)4 Personen Jede Gruppe erhält eine Aufgabe Die
Methoden der qualitativen und quantitativen Inhaltsanalyse
Pädagogik Regina Marsch Methoden der qualitativen und quantitativen Inhaltsanalyse Studienarbeit Methoden der qualitativen und quantitativen Inhaltsanalyse Hausarbeit Inhaltsverzeichnis 1 Unterschiede
Teilhabe durch Arbeit.Auftrag und Rolle der Sozialen Arbeit im Kontext der Arbeitsgelegenheiten für Geflüchtete
Geisteswissenschaft Janina Papenbrock Teilhabe durch Arbeit.Auftrag und Rolle der Sozialen Arbeit im Kontext der Arbeitsgelegenheiten für Geflüchtete Bachelorarbeit Bibliografische Information der Deutschen
WEKA A Machine Learning Interface for Data Mining
WEKA A Machine Learning Interface for Data Mining Frank Eibe, Mark Hall, Geoffrey Holmes, Richard Kirkby, Bernhard Pfahringer, Ian H. Witten Reinhard Klaus Losse Künstliche Intelligenz II WS 2009/2010
Communities mit Bezug zur Bundeswehr
Medien Simon Lutter Communities mit Bezug zur Bundeswehr Communities related to the German Federal Armed Forces Masterarbeit Bibliografische Information der Deutschen Nationalbibliothek: Die Deutsche
ML-Werkzeuge und ihre Anwendung
Kleine Einführung: und ihre Anwendung martin.loesch@kit.edu (0721) 608 45944 Motivation Einsatz von maschinellem Lernen erfordert durchdachtes Vorgehen Programmieren grundlegender Verfahren aufwändig fehlerträchtig
Entwicklung einer KI für Skat. Hauptseminar Erwin Lang
Entwicklung einer KI für Skat Hauptseminar Erwin Lang Inhalt Skat Forschung Eigene Arbeit Risikoanalyse Skat Entwickelte sich Anfang des 19. Jahrhunderts Kartenspiel mit Blatt aus 32 Karten 3 Spieler Trick-taking