Folienauszüge aus: Grundlagen Statistik Steinbeis-Transferzentrum Managementsysteme Industriepark West, Söflinger Strasse 100, 89077 Ulm Tel.: 0731-933-1180, Fax: 0731-933-1189 Mail: info@tms-ulm.de, Internet: www.tms-ulm.de 1
Arbeiten mit Statistik Die ISO/ TR 10017 definiert statistische Methoden, welche für die Weiterentwicklung, Aufrechterhaltung und Verbesserung eines QM-Systems geeignet sein können. Methode gemäß ISO / TR 10017 beschreibende, deskriptive Statistik Messsystemanalyse Prozessfähigkeitsuntersuchung Regelkarten Regressionsanalyse Simulation Statistische Toleranzrechnung Stichprobenprüfung Testverfahren Versuchsplanung Zeitreihenanalyse Zuverlässigkeitsanalyse Inhalte Charakterisierung der Daten mit Hilfe von statistischen Kennwerten und grafischen Darstellungen Bewertung der Fähigkeit / Unsicherheit eines Messsystems unter Anwendungsbedingungen Untersuchung von Prozessen und deren Ergebnisse hinsichtlich der Erfüllung von Anforderungen / Spezifikationen Bewertung der Prozessstabilität über die Zeit Untersuchung des Einflusses / der Abhängigkeit verschiedener Faktoren auf das Verhalten von Merkmalen Mathematische Beschreibung von Systemen zur Lösung komplexer Probleme Verfahren zur Toleranzbetsimmung Gewinnung von Informationen über Merkmale einer Grundgesamtheit durch Untersuchung repräsentativer Stichproben Überprüfung der Vereinbarkeit der Daten mit definierten Hypothesen bei einem gegebenen Fehlerrisiko Schlussfolgerungen anhand der Ergebnisse geplanter Experimente Untersuchungen von Verhaltensmustern und Vorhersage zukünftiger Beobachtungen Untersuchung der Lebensdauer / fehlerfreien Leistungsdauer eines Produktes oder Systems 2
Arbeiten mit Statistik Vorgehensweise beim Arbeiten mit Statistik 1. Formulierung der Problemstellung 2. Datenerhebung 3. Darstellung, Beschreibung und Interpretation des Datenmaterials 4. Schlussfolgerungen auf übergeordnete Gesamtheiten 3
Teilgebiete der Statistik beschreibende Statistik (deskriptiv) meist Untersuchung einer Grundgesamtheit beurteilende Statistik (induktiv / analytisch) Untersuchung einer Stichprobe aus einer Grundgesamtheit Ordnen von Daten / Merkmalen Grafische Darstellung von Daten / Merkmalen Berechnen von Kennwerten aus Stichproben Intervallschätzungen Formulieren und Prüfen von Hypothesen Schätzen von Parametern Korrelationsanalyse xx xxxxx xxxxxxxxx xxxxxxxxxxxx xxxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxxxxxxxxx gemessene Werte mathematisches Modell 4
Klassifizierung von Produktmerkmalen Merkmalsarten quantitative Merkmale (meß-/zählbar) qualitative Merkmale (beobachtbar) kontinuierliches Merkmal (Meßwerte) diskretes Merkmal (Zählwerte) Merkmal mit Ordnungsbezug Merkmal ohne Ordnungsbezug Durchmesser von Drehteilen Grösse von Personen monatliche Fehlerkosten Zahl der Fehlstücke Zahl der Krankheitstage Zahl der Teileausbringung Lohngruppen Schulnoten Geschlecht: m/w Kostenart: Materialk., Personalk. 5
Datengewinnung und -sammlung Grundsätzliche Basisfragen sind Welche Information soll ermittelt werden? Wie soll die Datenbeschaffung erfolgen? Soll eine Voll- oder Teilerhebung durchgeführt werden? - z.b. Untersuchung einer Stichprobe oder einer Grundgesamtheit? Welche Form der Stichprobenauswahl wird angewandt? - z.b. zufällige oder nicht zufällige Auswahl? Ist eine Teilerhebung repräsentativ? - z.b. wird die Grundgesamtheit ausreichend abgebildet? Welche Arten von Daten treten auf? - z.b. bei Fehleranalyse: systematische Fehler, zufällige Fehler? 6
15 10 5 0 100 90 80 70 60 50 40 30 20 10 F10 F6 F5 F9 F3 F1 F12 F4 F11 F2 F7 F8 Fehlerarten Übersicht zu Varianten der Datenvisualisierung Körpergrößen Gruppe A 1 2 150-160 4 4 161-170 171-180 9 181-190 191-200 13 201-210 Körpergrößen 30 20 10 0 150-160 161-170 171-180 181-190 191-200 201-210 Gruppe A Gruppe B Körpergrößen Gruppe A 201-210 150-160 191-200 161-170 181-190 171-180 Körpergrößen 150-160 201-210 191-200 181-190 161-170 171-180 Gruppe A Gruppe B Zielsetzung: Darstellung der Häufigkeiten bzw. Flächenanteilen bei klassierten Daten Anwendung: Darstellung der jeweiligen Anteile, Verhältnisse (z.b. Kostencontrolling) Varianten: Kreisdiagramm, Kuchendiagramm, Flächendiagramme, Radardiagramme absolute Häufigkeit 20 15 10 5 0 4,979 4,982 4,985 4,988 4,991 4,994 4,997 5,000 Durchmesser in [mm] Häufigkeit der Kriterien in [%] 100 90 80 70 60 50 40 30 20 10 0 1 2 3 4 Fehlerarten SummealerFehler[in%] Zielsetzung: Darstellung der Verteilungsform bei klassierten Daten Anwendung: Darstellung der Form der Verteilung der Daten, Ranking von Häufigkeiten (z.b. ABC-Analysen, Fehlermanagement, Prozessanalyse) Varianten: Histogramm, Pareto-Diagramm. Summenhäufigkeits-Graph Körpergewicht in [kg] Durchmesser in [mm] 5.000 4.990 4.980 4.970 4.960 0 10 20 30 40 50 60 Wert Nr. 110 100 90 80 70 60 50 160 165 170 175 180 185 190 195 200 205 210 Körpergröße in [cm] Zielsetzung: Darstellung des zeitlichen Verhaltens von Ereignissen Anwendung: Darstellung des Verhaltens von statistischen Kennzahlen (z.b. Prozessregelung) Varianten: Verlaufsdiagramm / Polygonenzug Zielsetzung: Darstellung der Abhängigkeit von Variablen / Merkmalen Anwendung: Darstellung der jeweiligen Wertepaare (z.b. Prozessanalyse, Versuchsplanung) Varianten: Korrelationsdiagramme 7
Beispiele für graphische Auswertungen Werteverlauf Wertestrahl Histogramm Werteverlauf: Wertestrahl: Histogramm: zeigt die zeitliche Erfassung der Messwert -> ggf. Erkennung von Trend, Sprüngen, etc. Information wie aus Histogramm -> allerdings geht keine Information durch die Klassierung verloren -> erkennbar ist auch die Auflösung des Messverfahrens zeigt die grundsätzliche Form der Verteilung -> Vorsicht: die Klassenanzahl /-weite hat Auswirkung auf die Darstellung 8
Statistische Kennwerte - Überblick Umfang einer Messwertreihe kleinster und größter Wert arithmetischer Mittelwert Median Lage- bzw. Lokalisationsparameter Modalwert Varianz s 2, Standardabweichung s Spannweite Streuungs- oder Dispersionsparameter Quartile, Percentile Wölbung b 2, Exzess g 2 Formparameter Schiefe g 1 Cm, Cmk, Pp, Ppk, Cp, Cpk, Fähigkeitskennwerte Überschreitungsanteile Variationskoeffizient Vertrauensbereich für Mittelwerte, Varianzen, Fähigkeitsindizes und Überschreitungsanteile 9
Lageparameter / Lokalisationsparameter Mittelwert: Summe aller Werte dividiert durch den Umfang der entnommenen Stichprobe 1 x = n n x i i= 1 Median: derjenige Wert, für den die relative Häufigkeitssumme genau 50 % beträgt x~ = x n + 1 2 Beschreibung der Lage (Lokalisationparameter) Modalwert: der Modalwert liefert das Dichtemaximum P = 50% (50 %-Quartil) P = 50% (50 %-Quartil) linksgipflig symmetrisch Beispiel: elektrischer Widerstand mit einer 5er-Stichprobe 1. Wert: 269 Ohm 2. Wert: 268 Ohm 3. Wert: 267 Ohm 4. Wert: 267 Ohm 5. Wert: 268 Ohm Modalwert Median arith. Mittelwert bei normalverteilten Häufigkeiten.. arithm. Mittelwert = Median = Modalwert Mittelwert: Median: 267,8 Ohm 268 Ohm 10
Grundmodell der beurteilenden Statistik Interessierender Sachverhalt Grundgesamtheit direkter Schluss indirekter Schluss Stichprobenentnahme Zufallsstichprobe Schluss von der bekannten Stichprobe auf die unbekannte Grundgesamtheit mittels statistischer Verfahren Datenerfassung Datenaufbereitung tabellarisch zeichnerisch rechnerisch 11
Voraussetzungen für Stichprobenentnahmen Voraussetzungen für eine Stichprobe sind: Die Stichprobe ist repräsentativ Die Stichprobe ist homogen Es liegen gleiche Produktionsbedingungen für die Stichprobe und die Grundgesamtheit vor Das Fertigungsverfahren wird und wurde nicht geändert, der Prozess wurde nicht gestört Voraussetzungen, damit eine Stichprobe repräsentativ ist: Random Sample bedeutet, dass jedes Teil einer Grundgesamtheit die gleiche Chance hat in die Stichprobe zu n gelangen. Stratified Sample bedeutet, dass bei Verwendung von Trays, Karrees oder anderen Auftragsteilungen die gleiche Anzahl von Teilen aus jedem dieser Auftragsteile entnommen wird. In einem Tray sind die Proben gleich verteilt. Wenn zum Beispiel 20 Teile aus 10 Trays entnommen werden sollen, müssen 2 aus jedem Tray entnommen werden. Periodic Sample bedeutet, dass aus der Grundgesamtheit jedes n te Teil ausgewählt wird. Besteht zum Beispiel eine Grundgesamtheit aus 250 Teilen und sollen 25 ausgewählt werden, startet man mit dem 5ten Teil und zieht dann jedes 10te. (250/25=10). 12
Zielsetzung der beurteilenden Statistik Zielsetzung der beurteilenden Statistik ist aus den Eigenschaften einer Stichprobe auf die Eigenschaften einer Grundgesamtheit zu schliessen Grundgesamtheit (bekannt) Stichprobe Grundgesamtheit (unbekannt) Stichprobe Grundgesamtheit: Menge aller Einheiten oder Ereignisse, die einer statistischen Betrachtung zugrunde liegt Stichprobe: Menge von Einheiten, die aus einer Grundgesamtheit entnommen werden Eine physikalische Grundgesamtheit muss nicht unbedingt vorhanden sein! jede Mess- oder Beobachtungsreihe ist eine Stichprobe zu jeder Stichprobe gibt es (mindestens) eine zugehörige Grundgesamtheit eine Grundgesamtheit braucht weder bei der Stichprobenziehung, noch überhaupt körperlich existieren. Es reicht aus, eine Grundgesamtheit zu definieren. 13
Beispiel zu Intervallschätzungen Gesucht: Vertrauensbereich für den Mittelwert der Grundgesamtheit Bekannt: Mittelwert der Stichprobe xquer: 20,5 Standardabweichung der Stichprobe s: 0,13 Stichprobenumfang n: 200 Vertrauensbereich (indirekter Schluss) x quer : 20,5 Sigma SP: 0,13 n: 200 ein-/ zweiseitig: 2 P A 0,95 t Tab 1,971896178 µ op: 20,5181 µ un: 20,4819 Festlegung: Vertrauensbereich (einseitig / zweiseitig: zweiseitig Vertrauensniveau (0,95; 0,99; 0,999): 0,95 Ergebnis: 20,47 µ 20,52 Anwendung: Schätzung auf die Lage einer Grundgesamtheit auf Erkenntnissen einer Stichprobe (z.b. Stichprobenprüfung in einer Fertigung) 14
Vertrauensbereich / Zufallsstreubereich - Formelübersicht Bekannt Gesucht Formel / Diagramm x,σ VB von µ mit P A % σ µ ob / un = x ± utab u-tabelle n x,s VB von µ mit P % A µ ob / un = x ± t Tab s n t-tabelle s VB von mit P % s σ < σ < s Fα ( ;n 1) A F (n 1; ) α F-Tabelle µ, σ ZS von s mit P % A x ob / un = µ ± u Tab σ n u-tabelle VB = Vertrauensbereich ZS = Zufallstreubereich µ σ S n α Grundgesamtheit Mittelwert Grundgesamtheit Standardabweichung Stichprobe Mittelwert Stichprobe Standardabweichung Stichprobe Umfang Irrtumswahrscheinlichkeit 15
Korrelationsanalyse Mit Hilfe der Korrelationsanalyse kann die Stärke eines linearen Zusammenhangs zwischen zwei Variablen beschrieben werden. Grob klassifiziert lassen sich dabei folgende Zusammenhänge voneinander unterscheiden Übereinstimmung Unabhängigkeit Gegensatz Wenn z.b. in einer Lehrevaluation herausgefunden würde, daß die Zufriedenheit der Studierenden umso größer ist, je besser der Dozent für die Lehre qualifiziert sind, spricht man von Übereinstimmung der Variablen. Stellt man z.b. fest, daß es keinen Zusammenhang zwischen gemessenem Kopfumfang und Intelligenzquotient gibt, spricht man von Unabhängigkeit der Variablen. Findet man z.b. heraus, daß eine hohe Leistung in einem Rechentest häufig mit einem niedrigen Ergebniswert in einem Wortschatztest einhergeht, spricht man vom Gegensatz der Variablen. 16