Kapitel 6. Zusammenfassung der wichtigsten Ergebnisse dieser Arbeit

Kapitel 6 Zusammenfassung der wichtigsten Ergebnisse dieser Arbeit 159

160 Kapitel 6. Zusammenfassung der Ergebnisse Im Fokus der vorliegenden Arbeit steht die Frage nach der Eignung verschiedener Matchingverfahren für die empirische Evaluationsforschung unter unterschiedlichen Ausgangsbedingungen. Das bedeutet zum einen die besondere Berücksichtigung relativ kleiner Stichproben, zum anderen eine starke Orientierung an der Art der in der Praxis zur Verfügung stehenden Informationen. Solche Informationen liegen in den zur Evaluation eingesetzten Datensätzen in Form unterschiedlich skalierter Variablen vor. Das macht die Anwendung von Distanzoder Ähnlichkeitsindikatoren notwendig, mit deren Hilfe die Berücksichtigung verschieden skalierter Merkmale ohne Informationsverlust möglich ist. Neben den in empirischen Studien häufig angewendeten Balancing Scores werden im zweiten Kapitel dieser Arbeit aggregierte Distanzmaße aus anderen Wissenschaftsbereichen vorgestellt. Es wird erwartet, dass diese Maße in kleinen Stichproben besser in der Lage sind, die Informationen über Ähnlichkeiten und Unterschiede der betrachteten Personen zusammenzufassen als die bisher überwiegend verwendeten Scores. Für die Zuordnung von Partnern auf Grundlage der ermittelten Distanzen bzw. Ähnlichkeiten werden in der Literatur sehr unterschiedliche Verfahren diskutiert und angewendet. Dabei ist kein Verfahren den anderen generell überlegen. Die Algorithmen lassen sich nach verschiedenen Aspekten unterscheiden. So ist die Anzahl der einer Person zugeordneten Partner ein Kriterium, nach dem Nearest Neighbor Matching von Zuordnungen einer festen oder variablen Anzahl von Personen incl. der vollständigen Zuordnung der zur Verfügung stehenden potenziellen Partner zu einem Teilnehmer unterschieden wird. Ein anderes Kriterium ist die Möglichkeit der Mehrfachzuordnung einer Person, nach dem Verfahren mit dieser Möglichkeit (Zuordnung mit Zurücklegen) von solchen ohne Mehrfachnutzung (Zuordnung ohne Zurücklegen) zu trennen sind. Zur erstgenannten Gruppe gehören auch die Verfahren der Local Polynomial Regression. Eine besondere Bedeutung kommt den optimalen Zuordnungsprozessen zu, da mit ihnen die bestmögliche Zuordnung (hinsichtlich eines vorher festgelegten Kriteriums) erreicht werden kann. Die Vorstellung solcher überwiegend aus der linearen Optimierung bzw. der Graphentheorie bekannten Verfahren bildet einen weiteren Schwerpunkt des zweiten Kapitels dieser Arbeit.

161 Das dritte Kapitel gibt einen Überblick über den Stand der Forschung zur Entwicklung von Standards bei der Wahl geeigneter Matchingverfahren in verschiedenen Situationen. In diesen Studien wird festgestellt, dass Matchingverfahren besser als andere nichtparametrische und parametrische Verfahren in der Lage sind, das Selektionsproblem zu lösen, wenn umfangreiche Informationen über die betrachteten Personen zur Verfügung stehen. Die Wahl eines geeigneten Algorithmus ist dabei abhängig von den verfügbaren Daten. Unter den diskutierten Distanzmaßen werden der Propensity Score und der Index Score sowie die Mahalanobisdistanz für die empirische Forschung empfohlen. In Bezug auf Zuordnungsprozesse werden Optimal Full Matching, Ridge Matching und die Zuordnung mit Zurücklegen als vorteilhaft gegenüber anderen Verfahren angesehen. Im vierten Kapitel wird eine Simulationsstudie vorgestellt, in der die empfohlenen Distanzmaße und Zuordungsprozesse miteinander verglichen werden. Zusätzlich zu den in der Literatur favorisierten Distanzmaßen werden zwei der vorgestellten aggregierten Distanzmaße, die Mahalanobis-Matching-Distanz und das Ähnlichkeitsmaß von Gower, in die Analyse einbezogen. Neben den in früheren Studien hervorgehobenen Zuordnungsalgorithmen und einem in der empirischen Literatur weit verbreiteten Verfahren, dem Random Matching, werden zwei Algorithmen aus der Gruppe der optimalen Zuordnungsprozesse betrachtet: der Ungarische Algorithmus für optimale 1:1-Zuordungen sowie ein Auktionsalgorithmus für Optimal Full Matching. Als Datenbasis der Simulation dient eine Nachbildung des Mikrozensus Deutschland. Mit dieser engen Orientierung an einem häufig in der Arbeitsmarktforschung eingesetzten Datensatz wird eine realitätsnahe Verteilung der unterschiedlich skalierten Merkmale in den untersuchten Stichproben erreicht. In jedem Schritt der Untersuchung werden verschiedene Teilnehmer- und Nichteilnehmerstichproben miteinander kombiniert, die sich in ihrer Größe insgesamt, dem Zahlenverhältnis von Teilnehmern und Nichtteilnehmern sowie dem Grad der Übereinstimmung der Merkmalsverteilungen in beiden Gruppen unterscheiden. In jedem Schritt werden jeweils 100 Simulationsläufe durchgeführt. Die Ergebnisse werden anhand unterschiedlicher Gütemaße beurteilt. Zur Prüfung der Distanzmaße werden neben der Bias Reduzierung durch Matching nichtpara-

162 Kapitel 6. Zusammenfassung der Ergebnisse metrische skalenspezifische Tests der Übereinstimmung der Mittelwerte bzw. Häufigkeitsverteilungen der einzelnen betrachteten Variablen eingesetzt: für metrisch skalierte Merkmale der Vorzeichen-Rangtest von Wilcoxon, für dichotome der Mc- Nemartest und für polytome Variablen der χ 2 -Homogenitätstest. Diese Tests stellen eine sinnvolle Alternative zu den bisher in der Literatur gebräuchlichen Verfahren der Gütemessung dar. Die Beurteilung der Zuodnunsprozesse erfolgt anhand des mittleren quadratischen Fehlers, des Bias und der empirischen Varianz sowie der Summe der quadrierten Distanzen zwischen Teilnehmern und Nichtteilnehmern. Im ersten Teil der Analyse wird festgestellt, dass die Zusammenfassung unterschiedlich skalierter Merkmale mit den untersuchten Balancing Scores (Index Score und Propensity Score) deutlich schlechter gelingt als mit der Mahalanobisdistanz und den aggregierten Distanzmaßen. Die gewichtete Mahalanobis-Matching-Distanz scheint am besten zur Feststellung von Ähnlichkeiten bzw. Unterschieden der betrachteten Personen geeignet zu sein. Allerdings schwankt die Güte der erzielten Ergebnisse mit dem Skalenniveau der Variablen. Während die Angleichung der Verteilung nominaler (dichotomer und vor allem polytomer) Variablen sehr gut gelingt, treten nach dem Matching relativ häufig noch Unterschiede in der Verteilung der metrischen Variablen auf. Das Gegenteil gilt für das Distanzmaß nach Gower. In einer weiterführenden Analyse wäre zu prüfen, ob mit einer Verbindung beider Distanzmaße die Kombination ihrer jeweiligen Vorteile möglich ist. Dazu müsste der verallgemeinerte Matchingkoeffizient für nominale Variablen mit der normierten absoluten Merkmalsdifferenz metrischer Variablen verknüpft werden. Im zweiten Teil der Analyse ergeben die verschiedenen betrachteten Gütemaße ein sehr heterogenes Bild. Kein Zuordnungsalgorithmus liefert in allen Qualitätskriterien gleichermaßen gute oder schlechte Ergebnisse. Die Rangfolge, die sich beim Vergleich der Prozesse ergibt, ist abhängig vom betrachteten Gütemaß. Wird der mittlere quadratische Fehler betrachtet, gelingt mit Optimal Full Matching die Zuordnung der besten Partner in Stichproben mit unterschiedlich großen Teilnehmer- und Nichtteilnehmerzahlen. Dies ist umso deutlicher, je größer die Nichtteilnehmerstichprobe im Vergleich zur Teilnehmerstichprobe ist. Verwendet man dagegen die Summe der quadrierten Distanzen als Gütekriterium zur Beurteilung der Ähnlichkeit der Merkmalsverteilungen in Teilnehmer- und Kontrollgruppe,

163 liefert die Zuordnung mit Zurücklegen die besten Ergebnisse unter den betrachteten Zuordnungsprozessen. Für die beiden 1:1-Zuordnungsprozesse ohne Mehrfachzuordnung werden sehr ähnliche Ergebnisse hinsichtlich aller Gütemaße beobachtet. Es lässt sich kein Vorteil des optimalen Nearest Neighbor Matching gegenüber dem Random Matching nachweisen. Das Ridge Matching wird hinsichtlich aller Kriterien schlechter bewertet als die anderen analysierten Zuordnungsprozesse. Mit der empirischen Untersuchung des fünften Kapitels soll die Frage, ob die Absolventen geförderter Berufsausbildungen in den Neuen Bundesländern beim Berufseinstieg gegenüber Absolventen ungeförderter Ausbildungsgänge benachteiligt sind, beantwortet werden. Hinsichtlich der Förderung wird zwischen außerbetrieblicher und betriebsnaher Ausbildung unterschieden. Die Analyse wird auf Basis des Jugendpanels des Zentrums für Sozialforschung Halle durchgeführt, aus dem Informationen über die Jugendlichen, die eine Berufsausbildung erfolgreich abgeschlossen haben, genutzt werden. Aus der deskriptiven Analyse dieser Stichprobe wird deutlich, dass die Berufseinstiegschancen der geförderten Jugendlichen schlechter sind als die der ungefördert Ausgebildeten. Ebenfalls deutlich wird eine ungleiche Verteilung der Merkmale in den Teilstichproben, woraus sich die ungleichen Chancen auf dem Arbeitsmarkt zum Teil erklären lassen. Ob darüber hinaus der Umstand der Förderung selbst einen Einfluss auf die Beschäftigungschancen der Jugendlichen hat, wird in der Analyse mit Hilfe der Zuordnung mit Zurücklegen ermittelt. Sowohl für die außerbetriebliche als auch die betriebsnahe Berufsausbildung wird ein negativer Effekt der Förderung auf die Berufseinstiegschancen der Jugendlichen festgestellt. Dies trifft sowohl auf den Anteil der Jugendlichen, die eine Beschäftigung aufnehmen, als auch auf qualitative Merkmale der aufgenommenen Berufstätigkeit zu. Der Vergleich beider Arten der Förderung ergibt keinen Hinweis darauf, dass außerbetrieblich geförderte Jugendliche schlechtere Berufseinstiegschancen haben als die Absolventen betriebsnaher Ausbildungen.

164 Kapitel 6. Zusammenfassung der Ergebnisse