FOST 2 Deskriptive und explorative Datenanalyse

Question	Answer
Ziel der deskriptiven und explorativen Datenanalyse	wichtigste Aussagen der Rohdaten beschreiben und grafisch darstellen
Schritte der statistischen Auswertung	- deskriptive Statistik - explorative Statistik - Inferenzstatistik
deskriptive Statistik	= alle Methoden zur zusammenfassenden Darstellung und Beschreibung von empirischen Daten - dazu dienen Kennwerte, Grafiken und Tabellen
explorative Statistik	= Durchsuchen der Daten nach bestimmten Mustern oder Zusammenhängen - bietet sich für komplexe Daten an
statistische Kennwerte	= grundlegendste & häufigste Möglichkeit zur Beschreibung von Daten - Anteile - Häufigkeiten - Lagemaße - Streuungsmaße
demografischen Daten	wird in fast allen Studien erfragt, z.B. Alter, Geschlecht, Familienstand...
Anteile und Häufigkeiten	= Daten in Nominalskala werden in Kategorien dargestellt (z.B. männlich, weiblich) --> dadurch entsteht die Häufigkeit (z.B. 30 von 50 etc.) Häufigkeit = nominal; Anteil = prozentual
Ratings	= differenzierte Darstellung der Kategorien (Intervallskala) = Erstellen von Reihenfolge der Werte
mögliche Darstellung von Anteilen und Häufigkeiten	- Zahlenwerte - Tabellen - Abbildungen (Diagramme)
N (kursiv)	Anzahl von Personen, die an der Studie teilgenommen haben / Stichprobengröße
Merkmalachse	X-Achse bei der Darstellung von Häufigkeitsverteilungen - dort steht das gemessene Merkmal = kategoriale Variable, gemessen auf Nominalskala
Häufigkeitsverteilungen	= Darstellung der Anzahl / Anteil von Personen, die bestimmten Messwert erzielt haben
Charakterisierung der Häufigkeitsverteilung	- Lagemaß (Mittelwert alleine ist nicht aussagekräftig genug!) - Streuungsmaß
Lage der Verteilung	= Wert, um den sich die Verteilung konzentriert
Kennwerte für die Lage der Verteilung	= Lagemaße, stehen für Häufigkeitsverteilung - abhängig vom Skalenniveau: - Modalwert - Median Mittelwert
Modalwert / Modus einer Verteilung	= häufigste Merkmalsausprägung
Median	= welcher Wert liegt in der Mitte (Anzahl der Werten!) der Verteilung - robust gegenüber Ausreißern - erst ab Ordinalskala möglich - häufige Anwendung bei explorativer Datenanalyse
Modalwert ist nicht gleich Median	bei einer unsymmetrische Häufigkeits-verteilung Image: 8cca9b83-1276-4e9b-acfe-4f65e5b983f5 (image/png)
Mittelwert	- wird auf eine Nachkommastelle gerundet - häufigstes Lagemaß - Ausreißer beeinflussen M - notwendig für weitere statistische Berechnungen - steht stellvertretend für Verteilung Image: c04dc95d-595b-4c7e-967a-18bcb9bfb1f3 (image/png)
x (kursiv)	einzelner Messwert
i (kursiv)	Index
Unterschied der grafischen Darstellung des Mittelwerts vs. Häufigkeitsverteilung	Bei grafischer Darstellung des Mittelwertes: - Merkmal auf Y-Achse - Keine Häufigkeitsverteilung / Personen --> Mittelwerte entstehen aus Häufigkeitsverteilungen
Mittelwerte auf Ordinalskala	sollte vermieden werden. Differenz zwischen Stufen der Ordinalskala ist nicht ersichtlich, deswegen ist Mittelwert nicht dafür geeignet
Lagemaße bei unterschiedlichen Skalenniveaus	Image: 57628a81-f704-47cb-888e-26753eb7e44c (image/png)
Streuungsmaße	- Spannweite (Range) - Interquartilsabstand - Varianz - Standardabweichung -
Spannweite	= Differenz zwischen größten und kleinsten gewählten Wert der Daten - schlechte Differenzierung zwischen unterschiedlichen Verteilungen - anfällig gegenüber Ausreißern - seltene Anwendung
Interquartilsabstand	FOST S. 20
Varianz (s²)	= durchschnittliche quadrierte Abweichung aller Werte vom gemeinsamen Mittelwert Image: 7ff0ab25-0873-4170-a382-3ca6164ed18b (image/png)
Standardabweichung (s oder SD)	= Wurzel aus Varianz Image: 08548eb5-e4c9-49f8-9e81-1debe16bf737 (image/png)
bestes Streuungsmaß um die durchschnittliche Abweichung vom Mittelwert zu bestimmen	Varianz und Standardabweichung (sehr genaue Differenzierung zwischen den unterschiedlichen Verteilungen)
Kennwerte	= Angaben über Stichproben (z.B. Mittelwerte, SD) - lateinische Buchstaben Image: 25824275-b0b1-42ba-afa6-636eb7110885 (image/png)
Parameter	= Angaben über Populationen - Schätzwerte - griechische Buchstaben Image: c94e79c5-619c-4593-8a04-9614a05205f9 (image/png)
Varianzaufklärung	= wichtigstes Ziel der Statistik = welchen Anteil der Varianz der AV kann die UV aufklären
Fehlervarianz	= Teil der Varianz, der aufgrund der natürlichen Streuung entsteht
durch UV hervorgerufene Varianz	= Effekt der UV = sollte möglichst groß
Gesetz der großen Zahlen (Jakob Bernoulli)	= Je größer die Stichprobe desto eher entspricht die Häufigkeitsverteilung der Populationsverteilung --> wir vertrauen großen Stichproben mehr als kleinen (ab 30 Personen zuverlässige Werte)
unsichtbare Populationsverteilung	die Populationsverteilung ist unbekannt, deswegen: große Stichprobe --> Schätzung der entsprechenden Werte in der Population
Formen der Verteilung	- symmetrische Verteilung - schiefe Verteilung -unimodale Verteilung - bimodale Verteilung
schiefe Verteilung	= Verteilung ist in eine Richtung eingeschränkt -> z.B. Deckeneffekt (weiter nach oben ist nicht möglich) --> Mittelwert ist ebenfalls verzerrt
unimodale Verteilung	= ein "Gipfel"/Hochwert in der Verteilung
bimodale Verteilung	= Variable hat zwei Merkmalsausprägungen (Gipfel/Höchstwerte) --> Mittelwert wenig informativ
Normalverteilung	= symmetrische und unimodale Verteilung in einer Glockenform (Gauss'sche Glockenform)
Vorteil der Normalverteilung	+ Wissen: Merkmale sind normalverteilt --> Form der Verteilung klar --> nur noch Mittelwert und Streuung notwendig ABER: immer Normalverteilung prüfen!
z-Transformation / z-Standardisierung	= unterschiedliche Skalen auf eine Skala transformieren und so umrechnen und vergleichbar machen Image: 3f663700-7ea3-45ed-9ad5-550a08d41061 (image/png)
Besondere an z-Transformation	= standardisierte Skala Mittelwert = 0 SD = 1 muss für jeden Wert einzeln berechnet werden
z-Verteilung / Standardnormalverteilung	= stellt dar wie viel Prozent über / unter dem Mittelwert sind Image: c55a26bd-6ff8-4913-a5dd-58d84c611256 (image/png)
grafische Datenanalyse bei der explorativen Datenanalyse	- Boxplot - Stamm- & Blatt-Diagramm - Streudiagramm (Scatterplot) - Sonnenblumendiagramm - Bubble Plot - Streudiagrammmatrix (Scatterplotmatrix)
Boxplot	= grafische Darstellung des Median (Strich im Kasten) und Interquartilsabstand (graue Box) Image: 98f8ab00-0118-46e8-ae87-fe9148758ac5 (image/png)
Informationen, die man aus der Boxplot zieht	- Median -> deutet auch die Verteilung an - Interquartilsabstand - Ausreißer (mit Stern und Nummer versehen) - Whiskers
Whiskers (Barthaare)	= kleinen Querstriche oben und unten des Boxplot Interquartilsabstand * 1,5 (oben und unten der Boxplot) Nur die Werte die außerhalb den Whiskers sind, sind Ausreißer
Vorteile von Boxplot	+ unverzerrte Darstellung der Rohdaten + Ausreißer identifizieren --> werden meist aus Daten entfernt
Stamm- und Blatt-Diagramm (Stem & Leaf Plot)	kein Informationsverlust; jede Zahl bei Leaf = 1 Person * zwischen 0-4 und . 5-9 -> liegt aber im eigenen Ermessen Image: 3e6689d5-1c0b-4ff5-bb33-2cd2e364a9b7 (image/png)
Streudiagramm (Scatterplot)	Darstellung von zwei Variablen in einem Diagramm; 1 Person = 1 Punkt Image: 5283a0cf-5cee-48d3-b797-03302b3e20f7 (image/png)
Sonnenblummendiagramm	übereinstimmende Daten werden als Sonnenblumen dargestellt; ansonsten wären identische Werte nicht ersichtlich Image: 316ea047-04b9-4336-a7f3-a36ee2f7aff6 (image/png)
Bubble-Plot	3 Variablen, dritte wird in der Größe des Punktes dargestellt Image: 463e5c32-929f-4515-9c21-b203c4bc3eaa (image/png)
Streudiagramm-Matrix (Scatterplot-Matrix)	Darstellung mehrerer Variablen durch jeweilige Streudiagramme von 2 Variablen Image: 0885c209-d4ed-436e-acc3-b3af4e8d83cd (image/png)
(bivariaten) Korrelation	= Ausmaß des linearen Zusammenhangs zweier Variablen
positiv korrelierte Daten	linearer Zusammenhang aber perfekte Datenzusammen-hänge kommen in der Forschung eher nicht vor Image: 9e5ce3e2-a0ea-4c01-9c66-97a7be976524 (image/png)
negativ korrelierte Daten	linearer Zusammenhang aber perfekte Datenzusammen-hänge kommen in der Forschung eher nicht vor Image: 0958f995-0ab8-41eb-94c4-dd6e522c5894 (image/png)
unkorrelierende Daten	Es besteht kein Zusammenhang Image: 3b8a864a-7872-40a2-b0a9-3e5f6b32fea4 (image/png)
nicht lineare Zusammenhänge	- werden nicht weiter berechnet - kurvilinearen Zusammenhänge sind nicht selten Image: 2cfd21dd-68f1-44c1-a515-a7963bb2396f (image/png)
Kovarianz	= zwei Variablen sind in der Ausprägung abhängig voneinander - gleiche Skala notwendig --> unterschiedliche Skala: Korrelation Image: 5a431256-7027-4f41-9372-53c9f45d0509 (image/png)
Korrelationskoeffizient	Kovarianz unabhängig der Skala zu machen Anwendung der Streuung --> Kovarianz / Streuung beider Variablen = Korrelation (r) (Werte zwischen -1 und 1) Image: 3cfe1262-b986-4a82-a5c7-9a930fd4f46e (image/png)
Regression	= Vorhersageanalyse - nutzt Korrelation, um Werte der Variable1 (Kriterium) aus den Werten der Variable 2 (Prädiktor) hervorzusagen
Korrelationskoeffizient	= Varianzaufklärung Alle Werte auf einer Geraden -> beide Variablen voneinander abhängig
Gründe für keine vollständige Gesamtvarianz	- Messfehler - Varianz korreliert nicht nur mit einer Variable sondern mit mehreren
Interpretation von Korrelation nach Cohen (Faustregel)	Image: b561af64-e498-457c-aa8e-d867b522d9c9 (image/png)
Voraussetzungen für Korrelationsberechnung	- intervallskalierte Daten oder dichotome Variablen - linearer Zusammenhang (Streudiagramm nutzen!)
Korrelation vs. Kausalität	Korrelation lässt keine Rückschlüsse auf inhaltliche Kausalität zu
mögliche Zusammenhänge zwischen Variablen	- X ruft Y hervor - Y ruft X hervor - Zusammenhang zwischen X und Y wird durch Z bedingt (=Scheinkorrelation)
Wichtigkeit von Experimenten für die Forschung	= aus experimentell gewonnene Daten berechnete Korrelation lassen Kausalschlüsse zu
dichotome Variablen	= Variable hat zwei Ausprägungen
Regressionsgerade	Bestimmung der Gerade: - Gerade beliebig in Punktewolke legen - Abweichungsquadrat bestimmen (Abstand der Punkte zur Geraden vertikal messen & quadrieren) - Quadratsumme bilden (Abweichungsquadrat aller Punkte) - Gerade anpassen bis die Quadratsumme so gering wie möglich ist
Vorhersagefehler / Residuum / Residualwert	= Differenz zwischen Schätzung und wahrem Wert in der Population; = Abweichungen auf Y von der Regressionsgerade --> ist nicht erklärbar --> Y-Wert ist nur eine Schätzung! Image: 9c721908-5459-4cb6-a6e6-27d43e76a37f (image/png)
Anwendungsfelder der Regression	- konkrete Werte eine Variable vorherzusagen - Enge des Zusammenhangs & Güte der Vorhersage
Determinationskoeffizient r²	= Ausmaß der Varianzerklärung von Variable Y zu Variable X = Korrelationskoeffizient ²
einfache lineare Regression	= schätzt den Wert einer Person mithilfe der Ausprägung einer Prädiktorvariable auf einer Kriteriumsvariable - beruhen auf bivariater Korrelation
Werte der Regression	- β (Beta-Gewicht) = r (bei bivariater Korrelation) - r² (Determinations-Koeffizient) Image: d242dae0-7385-4f73-90ff-205cd8f7e136 (image/png)

Next up

FOST 2 Deskriptive und explorative Datenanalyse

Description

Resource summary

Similar

	Created by Kathy H over 8 years ago

	Copied by Vanesssa Porth over 7 years ago