Welche Begriffe treffen zu?
Univariat: Untersuchung einzelner Merkmale
Bivariat: Untersuchung einzelner Merkmale
Bivariat: Untersuchung Zusammenhänge zweier Merkmale
Multivariat: Untersuchung Zusammenhänge zweier Merkmale
Multivariat: Untersuchung Zusammenhänge mehrerer Merkmale
Welche Definitionen sind korrekt?
Vorhandene Daten: qualitative Informationen zu Sachverhalten
Vorhandene Daten: quantitative Informationen zu Sachverhalten
Methodensammlung: Grafiken und komprimierte Kennzahlen zur Entscheidungsfindung
Erhobene Daten: Wissenschaft der Konzeption und Erstellung von Datenanalysen
Erhobene Daten: Wissenschaft, die sich mit Erhebung, Methode und Technik der Datenanalysen, sowie mit den aufbereiteten numerischen Daten beschäftigt.
Methodensammlung: Sammlung von verschiedenen statistischen Methoden
Grundgesamtheit: Menge aller gleichartigen Objekte auf die sich eine Erhebung bezieht.
Thema Normalverteilung
Gaußsche Normalverteilung ist die bedeutendste
Normalverteilung ist symmetrisch
Wird beschrieben durch Mittelwert und Standardabweichung
Wird beschrieben durch Median und Varianz
Gesamtfläche unter der Kurve immer 0,5
Maximum der Kurve ist Spiegelfläche der Symmetrie und x= μ
Wendepunkte liegen bei μ-σ oder μ +σ
Je größer σ desto schlanker die Glockenkurve
Was bedeutet Negative Schiefe?
Das die Kurve nach rechts ausläuft und somit rechtsschief ist
Das die Kurve nach links ausläuft und somit linksschief ist
Bei einer positiven Schiefe sind die Ausprägungen meist klein und der Mittelwert ist größer als der Median
Wozu ist das deskriptive Verfahren da?
Zählung von Häufigkeiten wie deskriptive Statistiken oder explorative Datenanalysen wie Kreuztabellen, Mittelwertsvergleiche und Korrelationen
Chi2-Tests, T-Tests, Varianzanalysen, U-Tests und Korrelationsanalysen
Faktorenanalysen, Diskriminanzanalysen, Regressionsanalysen, Kausalmodelle
p-Wert....
Maximal so groß wie die Irrtumswahrscheinlichkeit
drückt Gültigkeit der Nullhypothese aus
Auskunft über Kontrollgruppen
Wert bewegt sich zwischen 0,5 und 1 und muss mit 100 dividiert werden
sobald p<0,05 ist gilt die Alternativhypothese (in der Sowi)
je größer p, desto mehr sprechen die Daten gegen eine Nullhypothese
Wann berechnet man den Endlichkeitsfaktor?
Wenn man aus einer großen GG eine kleine Stichprobe zieht
Wenn man aus einer kleinen GG eine große Stichprobe zieht
Wenn die Stichprobe mehr als 1% der GG ausmacht
Wenn die Stichprobe weniger als 1% der GG ausmacht
Statistische Parameter: Das arithmetische Mittel wird mit σ in der GG und σ´2 in der Stichprobe beschrieben
Statistische Parameter: Median wird mit μ Strich in der GG und X mit Strich in der Stichprobe dargestellt
Was sind die Streuungsmaße?
Varianz
Median
Mittelwert
Modus
Standardabweichung
Standardfehler
Quartile
Streuungsmaße: Welche Definitionen sind korrekt
Varianz: die Abweichung ausgesuchter Messwerte durch 2
Varianz: die durchschnittliche quadrierte Abweichung aller Messwerte vom Mittelwert
Standardabweichung: durchschnittliche Abweichung der Merkmalsausprägungen vom arithmetischen Mittel
Standardabweichung: Wurzel der Varianz
je größer die Standardabweichung, desto besser beschreibt der Mittelwert die Verteilung
Ausreißer: Werte die zwischen dem eineinhalb und dreifachen des Interquartilabstandes (Boxlänge) außerhalb dieses Bereiches liegen. Links oder unterhalb des 1. Quartil und rechts oder oberhalb des 3. Quartil
Extremwert: Werte die mehr als das doppelte des Interquartilabstandes (Boxenlänge) außerhalb der Box liegen
Lagemaße: Welche Definitionen sind korrekt?
Median: Formel ist Stichprobe * =0,5
Modus: Ist die Mitte
Mittelwert: Nachteile bei unsymmetrischen Verteilungen und ein Nullwert= fehlender Wert
Median: Nachteil bei Ausreißern und Extremwerten
Arten von Häufigkeiten und Prozentwerten:
Häufigkeit: Anzahl der Daten je Variable
Häufigkeit: Anzahl der Fälle je Merkmalsausprägungen
Prozent: Anzahl der Fälle je Ausprägung, relativiert zu ALLEN Fällen
Gültige Prozente: Anzahl der Fälle je Ausprägung, relativiert zu ALLEN Fällen
Gültige Prozente: Anzahl der Fälle je Ausprägung, relativiert an jenen Fällen, die eine Merkmalsausprägung haben
Kumulierte Prozente: Prozente die durcheinander ohne Ausprägung aufgeschrieben worden sind
Kumulierte Prozente: Prozentwerte summiert in steigender Reihenfolge der Merkmalsausprägungen, beginnend beim kleinsten Wert.
Relative Häufigkeit:
Gibt an, wie oft eine Ausprägung i des Merkmals X im Verhältnis einer GG mit Umfang N oder der Stichprobe n auftritt
Gibt an, wie oft eine Ausprägung i des Mekrmals X im Verhältnis einer GG mit Umfang N oder einer Stichprobe mit Umfang n auftritt
Häufigkeitsauszählung:
Ist bei Nominal und metrisch skalierten Variablen anwendbar
Ist bei ordinal skalierten Variablen anwendbar
Um aus einer Datenmenge sinnvolle Informationen zu bekommen müssen die Ausprägungen der Merkmale berechnet und aussortiert werden
Null und Alternativhypothese
N0 hat einen Zusammenhang in der GG
Die Alternativhypothese sieht die Ergebnisse als nicht zufällig an
Laut N0 unterscheidet sich die GG durch keine Faktoren
Die Alternativhypothese ist gerichtet/ unterrichtet und es gibt Unterschiede
Skalen:
Ordinalskalen sind diskret
Intervallskalen sind diskret
Eine Nominalskala ist A<B<C
Eine Intervalskala ist B-A=D-C
Eine Rationalskala ist A=x*B
Quasi-metrische Skalen für Temperaturen
Definitionen: Analyseeineheiten
Variablen: Merkmale der Analyseeineheiten
Werte: Ausprägungen der Merkmale je Analyseeinheit
Werte: Daten die Merkmale beschreiben
Daten: Beschreiben Messungen und definieren diese
Daten: Menge aller Merkmalsmessungen über alle Analyseeinheiten
Deskriptive und schließende Statistik
Deskriptive Statistik: zum Beschreiben, ordnen und darstellen von Merkmalsträgern
Deskriptive Statistik: Informationsanalyse von erhobenen Daten
Deskriptive Statistik: Analyse von Zusammenhängen zwischen einzelnen Merkmalen.
Schließende Statistik ( auch Inferenzstatistik oder deduktive Statistik gennant): Erlauben die Ergebnisse Aussagen über die GG, sind sie genrealisierbar?
Schließende Statistik: Ist der Zusammenhang gegeben?
Schließende Statistik: Kann von einer Stichprobe ermittelte Ergebnisse auf die GG geschlossen werden?
Mittelwertsvergleiche: Abhängige & unabhängige Stichprobenteile
Abhängig: Wenn jedem Wert der einen (Teil)Stichprobe ein Wert der anderen zugeordnet werden kann. Zwei gleiche Datensätze, zweimal die gleichen Mensche, Wiederholungsmessungen bei denselben Personen...
Unabhängige: Wenn einem Wert aus der einen Stichprobe kein Wert aus der anderen zugeordnet werden kann, also zwei unterschiedliche Datensätze, unterschiedliche Menschen etc.
Abhängig: Wenn jedem Wert der einen (Teil)Stichprobe eine beliebige Variable zugeordnet werden kann.
Unabhängige: Wenn einem Wert aus der einen Stichprobe ein Wert aus der anderen zugeordnet werden kann, also zwei gleiche Datensätze, gleiche Menschen etc.
Parameterverfahren
schlechter als Parameterfreie Verfahren
basieren auf Parameter: Mittelwert und Varianz
nur unter gewissen Bedingungen anwendbar wie: Mindestens eine Quasi-Intervalskalierung, Normalverteilung der Werte, Homogenität der Varianzen
immer anwendbar--> Voraussetzung. mind Ordinalskalierung
Verteilungsunabhängig
Was sind Freiheitsgrade?
beurteilen die Güte eines Ergebnisses
dienen zur Berechnung von Daten
dienen zur Identifizierung der kritischen Wertgrenzen bei Hypothesentests
Frei auswählbare Variablen
frei wählbares Element in einer Berechnung
werden mit df abgekürzt
Formel ist df= (Stichprobe/2)
Formel ist df= (Spalten-1)*(Zellen-1)
funktionieren gut bei kategorialen Kreuztabellen
Chi2-Test, welche Aussagen treffen zu?
Messung der Gruppenunterschiede zwei ordinal skalierter Variablen
Kontingenzkoeffizient C
Gilt als Signifikanzprüfung
ist alleine gut beweisbar, da man unendlich große/kleine Werte annehmen kann
bildet die Basis für Berechnung von Zusammenhangsmaßen (z.b Cramers V) oder Hypothesenprüfungen
Wann ist ein Chi2 Test sinnvoll?
Wenn die vergleichenden Stichproben unabhängig voneinander sind
Alle erwartenden Häufigkeiten >0 sind
Chi2 Wert sagt viel über die Stärke des Effekts aus
Wenn die vergleichenden Stichproben abhängig voneinander sind
Koeffizient Cramers V, was ist korrekt?
Aussage über Anwendung der Werte
Aussage über Stärke eines Zusammenhangs zwischen nominalen Variablen
Werte zwischen 0 und 1
0-0,2: kein Zusammenhang
0,2-0,6: starker Zusammenhang
Ab 0,6: starker Zusammenhang
Korrelation/ Regression
Messung der Unterschiede zwischen zweier metrisch skalierter Variablen
Messung der Unterschiede zwischen zweier ordinal skalierter Variablen
Messung der Unterschiede zwischen zweier nominal skalierter Variablen
Was trifft bei der Kontingenztafel (Kreuztabellen) zu?
ein Merkmal wird den Zeilen j, das andere der Spalte i zugeordnet
ein Merkmal wird den Zeilen i, das andere der Spalte j zugeordnet
Zusammenhangsdarstellung zwischen zwei nominal oder ordinal skalierten Variablen
Kontingenztafel mit m Zeilen und k Spalten= m/k- Kontingenztafel
Kontingenztafel mit k Zeilen und m Spalten= k*m. Kontingenztafel
Prozente zeigen den Unterschied
Nullhypothese: gibt Unterschiede
Alternativhypothese: gibt wirklichen Unterschied, sind keine Zufälle
Signifikanzprüfung: Wie groß ist die Wahrscheinlichkeit des vorhandenen Stichprobenergebnisses, wenn in der GG die Nullhypothese gilt?
Der Levene-Test ist eine Überprüfung der Homogenität der Varianten
Was bedeutet der F-Test
Berechnung der homogenität zweier abhängiger Stichproben
Berechnung der homogenität zweier unabhängiger Stichproben
kann benutzt werden um Annahme der Varianzhomogenität bei einem T-Test zu überprüfen
Nullhypothese: Varianzen sind ungleich (p-Wert muss größer als 5% sein)
Alternativhypothese: Varianzen sind verschieden
Was stimmt über den T-Test?
Messung der Gruppenunterschiede zwischen Spalten
Messung der Gruppenunterschiede zwischen nominal und metrisch skalierten Variablen
Berechnet den Median
Berechnet den Mittelwert
Ist ein Mittelwertsvergleichstest
Der z-Wert....
Größe der Varianz bestimmt die Größe der Standardabweichung innerhalb des Konfidenzintervalles und damit den z-Wert in der Tabelle
Größe des Konfidenzintervalles bestimmt die Größe der Fläche innerhalb der Normalverteilung und damit der z-Wert (Standardabweichung) in der Verteilungstabelle
Bei welchen Skalen Niveaus müssen welche Korrelations Methoden verwendet werden:
Ordinalskala: Spearman-Korrelation
Intervalskala: Spearman-Korrelation
Intervalskala: Person-Korrelation
Zusammenhänge nominal skalierter Variablen: Cramers V & Person Korrelation
Zusammenhänge nominal skalierter Variablen: Cramers V & Kontingenzkoeffizient
Was macht die Korrelation?
sucht jene Gerade deren Prognose möglichst nahe an den Werten liegend
Misst die gemeinsame Streuung von x und y
Unterschiede diskrete und stetige Werte:
diskrete Werte sind metrisch
stetige Werte sind metrisch
diskrete Werte sind Zahlen ohne rechnerische Bedeutung und deren Merkmale können nur definierte Werte annehmen
stetige Werte sind Zahlen mit rechnerischer Bedeutung und deren Merkmale können jeden beliebigen Wert annehmen.
stetige Werte werden bei Nominal und Ordinalskalen verwendet
diskrete Werte: Häufigkeiten & Kreuztabellen
stetige Werte: Mittelwerte, Häufigkeiten
Das SPSS Fenster: Die Anzeige aller statistischen Ergebnisse, Tabellen und Diagramme. Ist bearbeitbare und speicherbar, öffnet sich automatisch. Die Dateien enden mit *.spv
Syntax- Editor: Auswertungen automatisiert und Sekundenschnell ablaufen lassen. Auswertungen über Befehlstext anstelle (vergänglicher Mausklicks). Syntax ist Speicher und bearbeitbare (Text-Editor). Dateien enden mit *.sps
SPSS Fenster: Daten-Editor: Anzeige des Inhalts der Datenbank, neue Daten erstellen, bestehende bearbeiten. Dateien enden *.sav