Pregunta | Respuesta |
Ziel der deskriptiven und explorativen Datenanalyse | wichtigste Aussagen der Rohdaten beschreiben und grafisch darstellen |
Schritte der statistischen Auswertung | - deskriptive Statistik - explorative Statistik - Inferenzstatistik |
deskriptive Statistik | = alle Methoden zur zusammenfassenden Darstellung und Beschreibung von empirischen Daten - dazu dienen Kennwerte, Grafiken und Tabellen |
explorative Statistik | = Durchsuchen der Daten nach bestimmten Mustern oder Zusammenhängen - bietet sich für komplexe Daten an |
statistische Kennwerte | = grundlegendste & häufigste Möglichkeit zur Beschreibung von Daten - Anteile - Häufigkeiten - Lagemaße - Streuungsmaße |
demografischen Daten | wird in fast allen Studien erfragt, z.B. Alter, Geschlecht, Familienstand... |
Anteile und Häufigkeiten | = Daten in Nominalskala werden in Kategorien dargestellt (z.B. männlich, weiblich) --> dadurch entsteht die Häufigkeit (z.B. 30 von 50 etc.) Häufigkeit = nominal; Anteil = prozentual |
Ratings | = differenzierte Darstellung der Kategorien (Intervallskala) = Erstellen von Reihenfolge der Werte |
mögliche Darstellung von Anteilen und Häufigkeiten | - Zahlenwerte - Tabellen - Abbildungen (Diagramme) |
N (kursiv) | Anzahl von Personen, die an der Studie teilgenommen haben / Stichprobengröße |
Merkmalachse | X-Achse bei der Darstellung von Häufigkeitsverteilungen - dort steht das gemessene Merkmal = kategoriale Variable, gemessen auf Nominalskala |
Häufigkeitsverteilungen | = Darstellung der Anzahl / Anteil von Personen, die bestimmten Messwert erzielt haben |
Charakterisierung der Häufigkeitsverteilung | - Lagemaß (Mittelwert alleine ist nicht aussagekräftig genug!) - Streuungsmaß |
Lage der Verteilung | = Wert, um den sich die Verteilung konzentriert |
Kennwerte für die Lage der Verteilung | = Lagemaße, stehen für Häufigkeitsverteilung - abhängig vom Skalenniveau: - Modalwert - Median Mittelwert |
Modalwert / Modus einer Verteilung | = häufigste Merkmalsausprägung |
Median | = welcher Wert liegt in der Mitte (Anzahl der Werten!) der Verteilung - robust gegenüber Ausreißern - erst ab Ordinalskala möglich - häufige Anwendung bei explorativer Datenanalyse |
Modalwert ist nicht gleich Median | bei einer unsymmetrische Häufigkeits-verteilung |
Mittelwert | - wird auf eine Nachkommastelle gerundet - häufigstes Lagemaß - Ausreißer beeinflussen M - notwendig für weitere statistische Berechnungen - steht stellvertretend für Verteilung |
x (kursiv) | einzelner Messwert |
i (kursiv) | Index |
Unterschied der grafischen Darstellung des Mittelwerts vs. Häufigkeitsverteilung | Bei grafischer Darstellung des Mittelwertes: - Merkmal auf Y-Achse - Keine Häufigkeitsverteilung / Personen --> Mittelwerte entstehen aus Häufigkeitsverteilungen |
Mittelwerte auf Ordinalskala | sollte vermieden werden. Differenz zwischen Stufen der Ordinalskala ist nicht ersichtlich, deswegen ist Mittelwert nicht dafür geeignet |
Lagemaße bei unterschiedlichen Skalenniveaus | |
Streuungsmaße | - Spannweite (Range) - Interquartilsabstand - Varianz - Standardabweichung - |
Spannweite | = Differenz zwischen größten und kleinsten gewählten Wert der Daten - schlechte Differenzierung zwischen unterschiedlichen Verteilungen - anfällig gegenüber Ausreißern - seltene Anwendung |
Interquartilsabstand | FOST S. 20 |
Varianz (s²) | = durchschnittliche quadrierte Abweichung aller Werte vom gemeinsamen Mittelwert |
Standardabweichung (s oder SD) | = Wurzel aus Varianz |
bestes Streuungsmaß um die durchschnittliche Abweichung vom Mittelwert zu bestimmen | Varianz und Standardabweichung (sehr genaue Differenzierung zwischen den unterschiedlichen Verteilungen) |
Kennwerte | = Angaben über Stichproben (z.B. Mittelwerte, SD) - lateinische Buchstaben |
Parameter | = Angaben über Populationen - Schätzwerte - griechische Buchstaben |
Varianzaufklärung | = wichtigstes Ziel der Statistik = welchen Anteil der Varianz der AV kann die UV aufklären |
Fehlervarianz | = Teil der Varianz, der aufgrund der natürlichen Streuung entsteht |
durch UV hervorgerufene Varianz | = Effekt der UV = sollte möglichst groß |
Gesetz der großen Zahlen (Jakob Bernoulli) | = Je größer die Stichprobe desto eher entspricht die Häufigkeitsverteilung der Populationsverteilung --> wir vertrauen großen Stichproben mehr als kleinen (ab 30 Personen zuverlässige Werte) |
unsichtbare Populationsverteilung | die Populationsverteilung ist unbekannt, deswegen: große Stichprobe --> Schätzung der entsprechenden Werte in der Population |
Formen der Verteilung | - symmetrische Verteilung - schiefe Verteilung -unimodale Verteilung - bimodale Verteilung |
schiefe Verteilung | = Verteilung ist in eine Richtung eingeschränkt -> z.B. Deckeneffekt (weiter nach oben ist nicht möglich) --> Mittelwert ist ebenfalls verzerrt |
unimodale Verteilung | = ein "Gipfel"/Hochwert in der Verteilung |
bimodale Verteilung | = Variable hat zwei Merkmalsausprägungen (Gipfel/Höchstwerte) --> Mittelwert wenig informativ |
Normalverteilung | = symmetrische und unimodale Verteilung in einer Glockenform (Gauss'sche Glockenform) |
Vorteil der Normalverteilung | + Wissen: Merkmale sind normalverteilt --> Form der Verteilung klar --> nur noch Mittelwert und Streuung notwendig ABER: immer Normalverteilung prüfen! |
z-Transformation / z-Standardisierung | = unterschiedliche Skalen auf eine Skala transformieren und so umrechnen und vergleichbar machen |
Besondere an z-Transformation | = standardisierte Skala Mittelwert = 0 SD = 1 muss für jeden Wert einzeln berechnet werden |
z-Verteilung / Standardnormalverteilung | = stellt dar wie viel Prozent über / unter dem Mittelwert sind |
grafische Datenanalyse bei der explorativen Datenanalyse | - Boxplot - Stamm- & Blatt-Diagramm - Streudiagramm (Scatterplot) - Sonnenblumendiagramm - Bubble Plot - Streudiagrammmatrix (Scatterplotmatrix) |
Boxplot | = grafische Darstellung des Median (Strich im Kasten) und Interquartilsabstand (graue Box) |
Informationen, die man aus der Boxplot zieht | - Median -> deutet auch die Verteilung an - Interquartilsabstand - Ausreißer (mit Stern und Nummer versehen) - Whiskers |
Whiskers (Barthaare) | = kleinen Querstriche oben und unten des Boxplot Interquartilsabstand * 1,5 (oben und unten der Boxplot) Nur die Werte die außerhalb den Whiskers sind, sind Ausreißer |
Vorteile von Boxplot | + unverzerrte Darstellung der Rohdaten + Ausreißer identifizieren --> werden meist aus Daten entfernt |
Stamm- und Blatt-Diagramm (Stem & Leaf Plot) | kein Informationsverlust; jede Zahl bei Leaf = 1 Person * zwischen 0-4 und . 5-9 -> liegt aber im eigenen Ermessen |
Streudiagramm (Scatterplot) | Darstellung von zwei Variablen in einem Diagramm; 1 Person = 1 Punkt |
Sonnenblummendiagramm | übereinstimmende Daten werden als Sonnenblumen dargestellt; ansonsten wären identische Werte nicht ersichtlich |
Bubble-Plot | 3 Variablen, dritte wird in der Größe des Punktes dargestellt |
Streudiagramm-Matrix (Scatterplot-Matrix) | Darstellung mehrerer Variablen durch jeweilige Streudiagramme von 2 Variablen |
(bivariaten) Korrelation | = Ausmaß des linearen Zusammenhangs zweier Variablen |
positiv korrelierte Daten | linearer Zusammenhang aber perfekte Datenzusammen-hänge kommen in der Forschung eher nicht vor |
negativ korrelierte Daten | linearer Zusammenhang aber perfekte Datenzusammen-hänge kommen in der Forschung eher nicht vor |
unkorrelierende Daten | Es besteht kein Zusammenhang |
nicht lineare Zusammenhänge | - werden nicht weiter berechnet - kurvilinearen Zusammenhänge sind nicht selten |
Kovarianz | = zwei Variablen sind in der Ausprägung abhängig voneinander - gleiche Skala notwendig --> unterschiedliche Skala: Korrelation |
Korrelationskoeffizient | Kovarianz unabhängig der Skala zu machen Anwendung der Streuung --> Kovarianz / Streuung beider Variablen = Korrelation (r) (Werte zwischen -1 und 1) |
Regression | = Vorhersageanalyse - nutzt Korrelation, um Werte der Variable1 (Kriterium) aus den Werten der Variable 2 (Prädiktor) hervorzusagen |
Korrelationskoeffizient | = Varianzaufklärung Alle Werte auf einer Geraden -> beide Variablen voneinander abhängig |
Gründe für keine vollständige Gesamtvarianz | - Messfehler - Varianz korreliert nicht nur mit einer Variable sondern mit mehreren |
Interpretation von Korrelation nach Cohen (Faustregel) | |
Voraussetzungen für Korrelationsberechnung | - intervallskalierte Daten oder dichotome Variablen - linearer Zusammenhang (Streudiagramm nutzen!) |
Korrelation vs. Kausalität | Korrelation lässt keine Rückschlüsse auf inhaltliche Kausalität zu |
mögliche Zusammenhänge zwischen Variablen | - X ruft Y hervor - Y ruft X hervor - Zusammenhang zwischen X und Y wird durch Z bedingt (=Scheinkorrelation) |
Wichtigkeit von Experimenten für die Forschung | = aus experimentell gewonnene Daten berechnete Korrelation lassen Kausalschlüsse zu |
dichotome Variablen | = Variable hat zwei Ausprägungen |
Regressionsgerade | Bestimmung der Gerade: - Gerade beliebig in Punktewolke legen - Abweichungsquadrat bestimmen (Abstand der Punkte zur Geraden vertikal messen & quadrieren) - Quadratsumme bilden (Abweichungsquadrat aller Punkte) - Gerade anpassen bis die Quadratsumme so gering wie möglich ist |
Vorhersagefehler / Residuum / Residualwert | = Differenz zwischen Schätzung und wahrem Wert in der Population; = Abweichungen auf Y von der Regressionsgerade --> ist nicht erklärbar --> Y-Wert ist nur eine Schätzung! |
Anwendungsfelder der Regression | - konkrete Werte eine Variable vorherzusagen - Enge des Zusammenhangs & Güte der Vorhersage |
Determinationskoeffizient r² | = Ausmaß der Varianzerklärung von Variable Y zu Variable X = Korrelationskoeffizient ² |
einfache lineare Regression | = schätzt den Wert einer Person mithilfe der Ausprägung einer Prädiktorvariable auf einer Kriteriumsvariable - beruhen auf bivariater Korrelation |
Werte der Regression | - β (Beta-Gewicht) = r (bei bivariater Korrelation) - r² (Determinations-Koeffizient) |
¿Quieres crear tus propias Fichas gratiscon GoConqr? Más información.