Der Begriff Statistik:
-kommt von "Status" (lat.) "der Staat"
-"statista" (lat.) der Staatsmann
Wozu braucht man Statistik?
Die Statistik hilft uns, Studien zu konzipieren, mit denen wir inhaltliche Fragen beantworten können.
Die Statistik ist ein Selbstzweck.
Die Statistik ist Mittel zum Zweck, kein Selbstzweck.
Die Statistik ermöglicht es, Komplexität in Zusammenhängen zu berücksichtigen
Die Statistik hilft uns, zu korrekten und generalisierbaren wissenschaftlichen Aussagen zu gelangen!
Die Statistik ist abhängig von normativen Vorstellungen
Die Statisitk ist unabhängig von normativen Vorstellungen, was wir gut oder schlecht finden.
Statistik leistet keine Interpretation der Befunde
Statistik kann auch missbraucht werden
Statistik kann niemalls missbraucht werden
Gemäß der Theorie der Schweigespirale äußern sich Menschen weniger wahrscheinlich in öffentlichen Sitatuionen, wenn sie die Mehrheitsmeinung gegen sich sehen. Dies führt zu einem Spiraleffekt.
Die Theorie der Schweigespirale stammt von Noelle-Neuman, 1975
Hypothesen sollen bei der Statistik erst nach der Durchführung statistischer Analysen aufgestellt werden
Ein "DON´T" der Statistik ist es mit den Daten alle möglichen statistischen Analysen durchzuführen, bis sich ein halbwegs plausibles "signifikantes" Ergebnis zeigt
Es gibt deskriptive und induktive Statistik
Deskriptive und induktive Statistik!
Deskriptiv: beschreibende Statistik, ordnen, beschreibem von Daten und Zahlen mit z.B. Tabellen
Deskriptiv: schließende Statistik, Rückschlüsse von meinen erhobenen Daten (Stichproben) auf die Grundgesamtheit
Induktiv:beschreibende Statistik, ordnen, beschreibem von Daten und Zahlen mit z.B. Tabellen
Induktiv: schließende Statistik, Rückschlüsse von meinen erhobenen Daten (Stichproben) auf die Grundgesamtheit
Univariate, bivariate und multivariate Statistik!
univariate: Beschreibung einer einzelnen Variable z.B. Nutzung von Facebook
bivariate: Beschreibung eines Zusammenhanges zwischen 2 Variaten, z.B. Nutzung von Facebook und das Glauben von Fehlinformationen, wie hängt das zusammen?
multivariate: Beschreibung des Zusammenhanges von mehr als 2 Variaten, z.B. Wie erklärt sich das Glauben von Fehlinformationen in Abhängigkeit von verschiedenen Mediennutzungsquellen, des Vorwissens und der politischen Verbindung
Prädiktor Variable die etwas vorhersagt
Abhängige Variable: die von etwas abhängt z.B. Glauben von Fehlinformationen
Urliste ist eine sortierte Urliste z.B. nach Größe sortiert
Wie viel Menschen in Ö haben Angst sich mit Corona zu infizieren und wie stark weichen die Personen vom Mittelwert ab
ist ein typischces Beispiel fur ein Lagemaß
Haben Menschen Angst oder nicht vor Corona?
ist ein typisches Beispiel für eine Verteilung
Wie oft tritt eine Ausprägung i des Merkmals X in einer Stichprobe mit dem Umfang N auf?
ist die absolute Häufigkeit (fi)
Wie oft tritt eine Ausprägung i des Merkmals X im Verhältnis zur Gesamtstichproobe mit dem Umfang N auf?
ist die relative Häufigkeit (pi)
Regeln bei der Häufigkeitsverteilung (=Gruppenbildung)!!!
jede Ausprägung muss genau einer Klasse zugeordnet werden
jede Ausprägung muss mehr als einer Klasse zugeordnet werden
in der Regel sind 5-10 Gruppen ideal
in der Regel sind 6-12 Gruppen ideal
offene Klassen möglichst bevorzugen
offene Klassen möglichst vermeiden
Randklassen sollten gering besetzt sein
Möglichst Gruppenbreite konstant halten
Maßzahlen für bereits erhobene Daten (Stichproben) nennen wir Verteilungskennwerte (deskriptive Statistik)
Maßzahlen für die Grundgesamtheit nennen wir Verteilungsparameter (induktive Statistik)
Lagemaße geben Auskunft darüber, wie sich die Daten um den Schwerpunkt (Zentrum/zentrale Tendenz) verteilen = Wie unterschiedlich sind die Messwerte
Der Modus (auch Modalwert) ist der Wert einer Verteilung, der am häufigsten auftritt
Modus
Vorteil: schnell und einfach zu ermitteln, was ist typisch
Nachteil: sehr aufwendig zu ermitteln
Nachteil: nicht sehr informationsreich, wenig aussagekräftig (z.B. zwei Werte haben die gleiche Häufigkeit, Aussagekraft ist beschränkt)
Vorteil: hohe Aussagekraft, liefert viel Informationen über Daten
Der Modus ist ein Lagemaß
Median
auch Md, x med
teilt die Verteilung in zwei gleich große Hälften
50% der Werte sind kleiner und 50% der Werte sind größer als der Median
ungruppierte Daten: Daten müssen zunächste der Größe nach geordnet werden, Dann ist der Median bei ungeraden Zahlen die Ausprägung des "mittleren" Wertes
Bei 9 Werten, ist der 5. Wert der Median
Z.B. 2,6, 12,15,16,20,22,30,35
ist 16 der Median
Bei geradem n gibt es keine echte Mitte, Der Median liegt dann genau in der rechnerischen Mitte zwischen den beiden Werten, die der Mitte der Verteilung am nächsten kommen.
bei 10 Werten liegt der Median zwischen dem 5. und dem 6. Wert
z.B.
2, 6, 12, 15, 16, 20, 23, 30, 35, 40
der Wert zwischen 16 und 20 ist der Median, also 18 ist der Median
Der Mittelwert, Durschnittswert oder Schwerpunkt der Verteilung ist die durchschnittliche Ausprägung aller Were
Mittelwert
Nachteil: wenig stabil, andere Stichprobe = anderer Mittelwert
nur bei intervallskalierten Daten möglich
bei ordinalen und nominalskalierten Daten macht der Mittelwert keinen Sinn mehr
Mittelwert macht sowohl bei intervallskalierten, als auch bei ordinalen und nominalskalierten Daten Sinn
ist sehr empfindlich gegenüber Ausreißern
Ausreißer spielen fast keine Rolle
ein Ausreißer wäre z.B. jemand hatte 1000 Partner
Ein Säulendiagramm eignet sich nicht für die Darstellung von absoluten und relativen Häufigkeiten
Ein Balkendiagramm benutzt man bei relativen Häufigkeiten, bei sehr vielen Ausprägungen (Kategorien), sind solche Diagramme aber nicht aussagekräftig
Ein Kreisdiagramm, auch Tortendiagramm genannt hat ein Problem:
zu viele Ausprägungen = nicht mehr gut lesbar, desto größer die Fläche, desto häufiger tritt es auf, Prozentangaben nötig, da sonst sehr schwer zu interpretieren
Eine Randklasse wäre z.B. niedrigste oder höchste Einkommensgrenze
Zentrale Tendenz= wie viele Gipfel hat eine Verteilung?
Schiefe (Beschreibungsmöglichkeiten von Verteilungen)!
Maß für die Symmetrie der Verteilung
Maß für die Asymmetrie der Verteilung
Die Schiefe einer symmetrischen Verteilung hat den Wert null
Die Schiefe einer symmetrischen Verteilung hat den Wert eins
jede Verteilung die nicht symmetrisch ist heißt automatiscch schiefe Verteilung
linksschief, rechtsschief
Wölbung (Kurtosis) (Beschreibungsmöglichkeiten von Verteilungen)!
Ein Maß dafür, wie sich die Beobachtungen, um einen zentralen Punkt gruppieren
z.B. schmalgipflig/breitgipflig
wie spitz/gestaucht ist eine Verteilung?
Schiefe = 0 ist eine symmetrische Schiefe
Schiefe kleiner 0 = rechtssteile Verteilung
Schiefe größer 0 = linksseitige Verteilung
Die Kurtosis ist bei einer Normalverteilung niemals 0
positive Kurtosis: gruppieren sich stark um den Mittelwert, auch schmalgipflig genannt
negative Kurtosis: gruppieren sich die Beobachtungen weniger dicht, also breitgipflig zusammen
Spannweite/Range
Differenz vom größten und kleinsten vorkommenden Wert
Vorteil: schnell und einfach
Nachteil: aufwendig
Nachteil: sehr empfindlich gegenüber Ausreißern, informationsarm
Vorteil: kaum empfindlich gegenüber Ausreißern, viel Informationen
wichtig um zu überprüfen: Kann das stimmen?
Interquartilbreite/Interquartilabstand!
mittlere 50 %
man bestimmt sie indem man das dritte Quartil minus das erste Quartil rechnet
man bestimmt sie indem man das dritte Quartil plus das erste Quartil rechnet
Vorteil: wenig empfindlich gegenüber Ausreißern
Nachteil: ist sehr empfindlich gegenüber Ausreißern
Nachteil: informationsarm und nur sinnvoll für metrische Daten
Vorteil: viel Informatonen und für alle Daten möglich (intervall, metrisch, ordinal...)
Ausreißer sind Daten die mehr als 1,5 Interquartilabstände vom ersten bzw.. dritten Quartil entfernt liegen
Extremwerte sind extremer als Ausreißer, da sie 3 Interquartilsabstände vom ersten bzw. dritten Quartil entfernt liegen
Was ist AID?
durschnittliche Abweichung vom Mittelwert
Average Deviation
Die Standardabweichung und Varianz sind beide unempfindlich gegenüber Ausreißern
Tim hat in der Prüfung an der Uni Wien 620 Punkte, Mia hat in Innsbruck 640 Punkte ist Mia wirklich besser, wenn wir wissen das die Prüfungen unterschiedlich schwer waren?
ist ein typisches Beispiel für eine Standardisierung
Was lässt sich zusammenfassend also bisher sagen?
Häufigkeitsverteilungen lassen sich immer durch ihre Lage auf der Merkmalsachse (Lagemaße) und ihre Streuung (Streuungsmaße) kennzeichnen
Häufigkeitsverteilungen lassen sich immer durch ihre Lage auf der Merkmalsachse (Streuungsmaße) und ihre Streuung (Lagemaße) kennzeichnen
in Forschungsarbeiten werden meist Mittelwert und Standardabweichung angegeben
in Forschungsarbeiten werden meist Mittelwert, Varianz und Standardabweichung angegeben
Verteilungen können nur asymmetrisch sein
Verteilungen können symmetrisch oder schief sein, sie können unimodal, bimodal und multimodal sein
Variablen, die in der Population normalverteilt sind, lassen sich mit Mittelwert und Standardabweichung sinnvoll repräsentieren
z-Werte haben einen Mittelwert von 1 und eine SD von 0
z-Werte haben einen Mittelwert von 0 und eine SD von 1
Quartile, Standardabweichung, Varianz, Bereich, Maximum und Minim = Lagemaße
Grundlagen der Inferenzstatistik
induktive Statistik: wir unterscheiden zwischen der Menge aller Merkmalsträger und Teilmengen davon
Die Menge aller Merkmalsträger = Grundgesamtheit/Population
Teilmengen = Stichproben (Sample, Auswahl)
Die korrspondierenden Kennwerte der Grundgesamtheit = Parameter
Stichprobe muss für Grundgesamtheit repräsentativ sein
im eindimensionalen Fall schätzt die induktive Statistik die wahren, aber unbekannten Werte in der Grundgesamtheit -> darum wird von Testen gesprochen
Die Grundlage der induktiven Statistik ist die Wahrscheinlichkeitstheorie
Das Gesetz der großen Zahlen...
In einer Zufallsstichprobe...
liegt das arithmetische Mittel...
für große n....
mit hoher Wahrscheinlichkeit...
sehr nahe beim Mittelwert der Grundgesamtheit.
Das gilt umso eher, je größer n ist
Bei Punktschätzungen muss das Merkmal in der Grundgesamtheit stets normalverteilt sein
Bei Punktschätzung schätzt man einen einzigen Wert
Ich möchte wissen, vie viele Studierende in Wien aus NÖ kommen, bei der Stichprobe finde ich heraus das 22 Studenten von 100 aus NÖ kommen, jetzt schätze ich also das in ganz Wien der Anteil an Studenten aus NÖ 22% beträgt. Aber die Wahrscheinlichkeit ist hoch das meine Stichprobe nicht dieser Schätzung (=Grundgesamtheit) entspricht....
Dieses ist ein typisches Beispiel für eine Punktschätzung
Wir unterscheiden drei inferenzstatistische Maße!
Standardfehler
Konfidenzintervalle
Signifikanztests
Punktschätzung
Intervallschätzung
Z-Test
Normalverteilung
Der Standardfehler sagt etwas über die Verlässlichkeit der Parameterschätzung
Konfidenzintervalle...sagen etwas über die Verlässlichkeit der Parameterschätzung als Intervall
Wir wollen ermitteln, ob die TV Nutzung von Jungen und Mädchen sich unterscheiden, man befragt je 100 Mädchen und Jungen, dann bekommt man einen Mittelwert und man will wissen gehören sie zur gleichen Population. Wenn die TV Nutzung sich unterscheidet, dann gehören sie zu verschiedenen Grundgesamtheiten.
ist ein typisches Beispiel für die Inferenzstatistik
Was passiert beim Signifikanztest bei der Ablehunung bzw. Beibehaltung der Nullhypothese?
Ablehnung der Nullhypothese:
-H0 wird abgelehnt, wenn die aus der Stichprobe gebildete Prüfgröße in den Ablehnbereich K fällt
Beibehaltung der Nullhypothese:
Ablehung der Nullhypothese:
-H0 wird beibehlaten, wenn die aus der Stichprobe gebildete Prüfgröße in den Annahmebreich fällt
Der P-Wert bezeichnet die Wahrscheinlichkeit für das gefundene Ergebnis unter der Annahme da in der Population H0 gilt.
In der Sozialforschung hat sich eine Irrtumswahrscheinlichkeit von alpha= 1% eingebürgert
Signifikanz hat nichts mit Bedeutsamkeit zu tun
mit größerer Stichprobe steigt die Wahrscheinlichkeit das auch kleine Effekte signifikant werden
wenn man sich für die H1 entscheidet und die H0 ablehnt, kann es sein das man einen Beta Fehler eingeht
Nonparametrische Tests legen keine Bedingungen fest über Parameter derjenigen Population, aus der die Stichprobe gezogen wurde (z.B. Normalverteilung)
eine Nullhypothese in einem Signifikanztest wäre z.B.
"verrichtete Hausarbeit von Männern und Frauen pro Woche", dabei wäre die Nullhypothese das beide gleich viel Hausarbeit verrichten und die beiden Gruppen nicht voneinander abweichen
Der p-Wert
=Ablehnungsgrenze
=Annehmgrenze
muss kleiner als 0,1 sein
muss kleiner als 0,5 sein
man kann daran ablesen ob es ein signifikantes oder nicht signifikantes Ergebnis ist