Question | Answer |
Typen wissenschaftlicher Studien | 1. Beobachtungsstudie (Observational Research) 2. Experiment |
Variablentypen | Unanbhängige Variable (vermutliche Ursache) Abhängige Variable (vermutliche Wirkung) konfundierte Variable (im Experiment zu kontrollieren) |
Fehlertypen | 1. Messfehler (Diskrepanz zwischen tatsächlichem und gemessenem Wert) 2. Validität (inwieweit Instrument das misst, was es messen soll) 3. Reliabilität (inwieweit Instrument unter gleichen Umständen die gleichen Messergebnisse erzielen kann) |
Grundgesamtheit | Gesamtheit aller Einheiten, die statistisch untersucht werden sollen (N= Anzahl dieser Gesamtheit) |
Merkmal | Eigenschaft der Merkmalsträger, die statistisch untersucht werden soll (verschiedene Merkamlsausprägungen vorhanden) |
Merkmalstypen | 1. qualitativ (Ausprägung in verbaler Form) 2. quantitativ (Ausprägung in Zahlen) quantitativ und disrekt (abzählbar) quantitativ und stetig (reelle Zahlen) |
Messen | Zuordnung von Zahlen zu Messobjekten nach Regeln, die gewährleisten, dass die Relation der Messobjekte innerhalb der Menge der Zahlen erhalten bleibt |
empirisches Relativ numerisches Relativ Homomorphismus | e.R.= Menge der Messobjekte mit Relationen n.R.= Menge der Zahlen mit Relationen Homomoprhismus ist eine Abbildung, be der Objekten der Menge A Objekte der Menge B derart zugeordnet werden, dass die Relation erhalten bleibt |
Skaleneinteilung | Nominalskala Ordinalskala Intervallskala Verhätlnisskala |
Nominalskala | - Merkmalswerte haben nur einen Bezeichnungspunkt - nur Identitätsvergleiche möglich - ist oder nicht nicht Bsp: Religionszugehörigkeit |
Ordinalskala | - natrüliche Ordnung der Merkmalswerte - Größe der Abstände ist irrelevant - nur Größenvergleiche möglich Bsp: Windstärke |
Intervallskala | - Differenzen von 2 Merkmalswerten können sinnvoll miteinander verglichen werden - Maßstab frei wählbar - kein natürlicher Nullpunkt Bsp: Temperatur in Celsius |
Verhältnisskala | - natürlicher Nullpunkt - keine natürliche Messeinheit Bsp: Temperatur in Kelvin |
Datenexploration | 1. Erste Visualisierung (dot plot geeignet, so nah wie möglich an Daten bleiben) 2. Stem- and Leaf- Plot 3. Häufigkeiten in Wertebereich- intervallen 4. Histogram |
Maße der zentralen Tendenz | Modus Median Mittelwert (je größer die Streuung desto schlechter beschreiben Maße der zentralen Tendenz die Daten) |
Modus | - ab Nominalskala definiert - Wert, der am häufigsten vorkommt - anfällig für kleine Änderungen - bimodal oder unimodal |
Median | - ab Ordinalskala definiert - teilt Wahrscheinlichkeitsverteilung auf (50% der Daten oberhalb und 50% der Daten unterhalb) - Daten werden als Element berücksichtigt - robust gegenüber Ausreißern |
Mittelwert | - ab Intervallskala definiert - gebräuchlichstes Maß - anfällig für Ausreißer (beschreibt Daten dann nicht gut) |
Maße der Streuung | Variationsbreite/ Range MAD (Median Absolut Deviation) Inter- Quartil- Range Varianz Standardabweichung Kurtosis Assymetrie |
Variationsbreite/ Range | - Differenz zwischen Maximum und Minimum - anfällig für Ausreißer - gibt keine Information über Art der Verteilung |
MAD (Median Absolut Deviation) | - Median der Abständer der Daten zum Median - MAD= median(x-median(x)) - robustes Streuungsmaß für alle quantitativen Daten - Aletrnative für Standardabweichung |
Inter- Quartil- Range | - definiert durch Gesamtmedian und Mediane der anderen beiden Hälften - für Visualisierung ist Box- Plot geeignet |
Varianz | - mittlerer Abstand der quadrierten Abweichungen aller Messwerte vom Mittelwert - ab intervallskalierten Daten - anfällig für Ausreißer (große Abweichungen fallen quadriert ins Gewicht) |
Standardabweichung | - Wurzel aus der Varianz - gleiche Eigenschaften wie Varianz - besser interpretierbar wegen gleicher Einheiten |
Kurtosis | - Wölbung der Verteilung - schmal oder breit |
Asymmetrie | - rechts- schief -symmetrisch - links- schief |
Modelle Definition | vereinfachte Darstellung der Realität durch Erfassen der wichtigsten Untersuchungsgegenstände |
Zweck von Modellen | 1. Untersuchung von Eigenschaften von Gegenständen (Original zu teuer/ sperrig) 2. Untersuchung von Zusammenhängen (Wettervorhersage) |
Eigenschaften von Modellen | - Abbildung der wichtigsten Aspekte - trifft Vorhersagen - so kompakt und komplex wie nötig |
Fehler und Vorhersagen | Beobachtung= Modellvorhersage + Fehler Bsp. Mittelwertsmodell: y= x + Abweichung vom Mittelwert |
Quantifizierung der Modellgüte | 1. Varianz 2. Fehlerquadratsummen (Bestandteil der Varianz) |
Goodness of fit (Modellfehler) | - Varianz gibt Auskunft darüber, wie gut ein Modell ist (ob es viele Fehler erklärt oder nicht) - kleine Varianz = gutes Modell |
Fehlerquadratsummen (SS) | - quadrierte Abweichungen der Werte vom Mittelwert - Ausreißer in beide Richtungen gehen in Gesamtfehler ein (große Abweichungen haben großen Einfluss) - v= s²= Wurzel (SS/N) |
Von der Stichprobe auf die Grundgesamtheit schließen | - Populationsmittelwert soll bekannt werden Problem: Beschreibt mein Modell die Stichprobe? Beschreibt meine Stichprobe die Population? Idee: Stichprobenverteilung |
Stichprobenverteilung | = Verteilung der Stichprobenmittelwerte - von allen Stichproben den Mittelwert bilden und daraus erneut den Mittelwert ziehen (soll Populationsmittelwert entsprechen) Problem: Um den Mittelwert alles Stichproben zu bilden, braucht man alle Stichproben |
Lösung für Problem der Stichprobenverteilung | - Wahrscheinlichkeitsverteilung - Gaußsche Normalverteilung - zentraler Grenzwertsatz |
zentraler Grenzwertsatz | Wenn - eine Folge von Zufallsvariablen unabhängig voneinander ist und die gleiche Wahrscheinlichkeitsverteilung hat - der Erwartungswert und Standardabweichung existieren dann konvergiert die Verteilungsfunktion gegen Standardnormalverteilung - Bedingung für Normalverteilung |
Wahrscheinlichkeitsverteilung | - Verteilungen geben Informationen für Wahrscheinlichkeit der Realisierung einer Zufallsvariable = prior probability (Wahrscheinlichkeit einer Beobachtung bevor sie stattfindet) - nötig, um Aussage von konkreter Stichprobe zu machen - Hintergrund= ZGS - Verteilungsfunktion= Integral der Dichtefunktion (Wert oder größer kann direkt abgelesen werden, Wendepunkt=MW) |
Gaußsche Normalverteilung | - tritt auf, bei der Summer von zufälligen Ereignissen (Bsp: Verteilung der Augenzahl, wenn man mit 2 Würfeln spielt - sagt aus, wie wahrscheinlich es ist, ein Ereigniss zu beobachten - Verteilung der Mittelwerte vieler Stichprobe ist normalverteilt |
Standardfehler des Mittelwerts | = s/ Wurzel aus N - gilt für N>30 |
Konfidenzintervalle | - Verteilungsfunktion= Wahrscheinlichkeitsdichtefunktion (Fläche unter Verteilung steht für p) - bei der Standardnormalverteilung liegen 95% der Daten im Intervall von -1,96 bis 1,96 Problem: Verteilungen sind meist nicht standardnormalverteilt (anderer MW und s) |
Z- Standardisierung | - Lösung für Problem der Konfidenzintervalle - Zentrierung durch Substarktion des MW - Normalisierung durch Division mit s - Standardabweichung wird Einheit - Variablen werden vergleichbar gemacht x=z*s + MW |
Schlusslogik/ Modus Tollens | - es gibt Hypothese H und Zustand Z - wenn Z nicht beobachtet werden kann, ist H falsch - wenn Z beobachtet werden kann ist H NICHT automatisch richtig (kann durch andere Umstände herbeigeführt werden) Bsp: Wenn es regnet ist die Straße nass |
Falsifikationsprobleme in der Psychologie | - beim Modus Tollens gibt es nur wahr oder falsch - empirische Daten sind oft unsiceher und haben Messfehler - es entstehen Interpretations-/ Glaubensfragen Problem: nur Modell kann als falsch bezeichnte werden, Glaubensfragen/ Hypothese nicht Deswegen: Konzept der Wahrscheinlichkeit zur Qauntifizierung der Wirklichkeit |
Frequentisten vs. Bayesianer | Unterschied liegt in der Zuweisung von Unsicherheiten in der Welt |
Frequentisten | - Welt an sich ist unsicher - Unsicherheit von Modellvorhersagen entsteht durch Variabilität der Stichproben -p ist die Häufigkeit, mit der ein Ereigniss beobachtet werden kann |
Bayesianer | - Modell/ Konzepte sind unsicher - im Modell werden Wahrscheinlichkeitsannahmen gemacht, die nicht Bestandteil der Welt sind Bsp: Münzen verhalten sich beim Werfen nicht zufällig, wir wissen nur nicht genug über den Zustand |
Entscheidung unter Unsicherheit | - Plausibilität der Daten wird durch Wahrscheinlichkeitstheorie bestimmt - Zustand= Konsequenz einer Ereigniskette - mehrere Zustände sind möglich - jede Beobachtung schließt einige Zustände aus - Plausibilität entspricht Wahrscheinlichkeit |
statistische Zusammenhänge | Kovarianz Pearson- Korrelazions- Koeffizient Fisher- Z- Transformation Rangkorrelation nach Spearman Kontingenztabelle/ Randsummenhäufigkeit |
Kovarianz | = ob und wie stark Werte in selbe Richtung und Stärke um MW abweichen - positiv (Variation in gleiche Richtung) - negativ (Variation in gegenteilige Richtung) - Null (keine konstante gemeinsame Variation Problem: abhängig von Skalierung der Daten |
Pearson - Korrelations- Koeffizient/ Produkt- Moment- Korrelation | - standardisierte Kovarianz (Einheiten entfallen) - Wertebereich von -1 bis 1 (einfacher interpretierbar Problem: haben nicht die gleichen Abstände, nicht intervallskaliert und normalverteilt (keine Vergleiche möglich) |
Fisher- Z- Transformation | - Korrelation durch Fisher-Z-Transformation normalverteilt - Transformation in den WB +unendlich und -unendlich - Wahrscheinlichkeit ist normalverteilt |
Problem der Korrelation | - ungeeignet für nicht-lineare Verteilungen (Abwesenheit Korrelation ungleich Abwesenheit von Zusammenhang) - Selektionsfehler (ungeeignte Stichprobe) - Ausreißerempfindlich (erbt alle Probleme des MW- Modells, Varianz enthält summierte Abweichungen vom MW) |
Rangkorrelation nach Spearman | - analog zur Pearson- Produkt- Moment- Korrelation - statt tatsächlichen Werten werden Ränge in Gleichung eingesetzt (keine Rohwerte) -ab Ordinalskala definiert |
Kontingenztabelle | - ab Nominalskala definiert Nullhypothese: Wie müsste die Tabelle aussehen, wenn es keinen Zusammenhang gäbe? Wie sieht meine Tabelle aus? Wie warhrscheinlich ist es, dass sie so aussieht? |
Lineare Regression | -Modellierung eines linearen Zusammenhangs von 2 Variablen - basierend auf Beobachung einer Variable, soll eine Vorhersahe für die andere gemacht werden können Bsp: Blutdruck und Lebenserwarung y= a+b*x+error |
einfach lineare Regression | - y soll durch lineares Modell von x möglichst gut beschrieben werden - Minimierung der Fehlerquadratsummen (und somit der Varianz) |
Lage der Regressionsgeraden | -b beschreibt Stärke des linearen Zusammenhangs (je größer b, desto mehr weicht lineares Regressionsmodell vom MW-Modell ab) |
Goodness of fit durch Varianzzerlegung | Zerlegung der Varianz in 1. Kriteriumsvarianz (gesamte zu erklärende Varianz SSt) 2. Modellvarianz (Varianz, die zustätzlich zum MW-Modell erklärt wird SSm) 3. Fehlervarianz (Varianz, die immer noch nicht erklärt werden kann SSe) SSt=SSm+SSe |
Determinationskoeffizient R² | - Bestimmtheitsmaß für erklärte Varianz Wie viel prozentuale Varianz erklärt mein Regressionsmodell mehr, als mein MW-Modell) R²= SSm/SSt -Wertebereich von 0 bis 1 |
Regressionsrichtung | - Anteil der erklärten gemeinsamen Varianz ist unabhängig von der Regressionsrichtung - Modellparameter unterscheiden sich |
Datenpräsentation (geometrische Betrachtungsweise) | 1. Variablenraum (Achen entsprechen Variablen 2. Personenraum (Achsen entsprechen Personen) |
zentrierte Daten | -durch kleine Buchstaben dargestellt -MW wird abgezogen (Varianz und Korrelation bleiben gleich) Warum? Nur Unterschiede sollen betrachtet werden. Gemeinsamkeiten (MW) interessieren nicht |
Personenraum | - Vektorlänge entspricht Standardabweichung - Winkel zwischen Vektoren entspricht Korrelation (-1 bis 1) |
Vektorraum V | - Raum, der durch die Vektoren aufgespannt wird - Basis: minimaler Satz von Vektoren, die V aufspannen -orthogonale Basis: Basisvektoren im rechten Winkel -otrhonormale Basis: orthogonale Basis hat Einheitslänge von 1 |
Dimensionalität/ Freiheitsgrade | - Anzahl der Basisvektoren, die V aufspannen -Freiheitsgrade von der Anzahl der Vp abhängig - F(1,98): 100 VP, 1 Prädiktordimension, 98 Fehlerdimensionen (100 VP=1 MW-Dimension+ 98 Fehlerdimension+ 1 Prädiktordimension) |
Projektion (=geometrische Regression) | - Zerlegung des Beobachtungsvektors x in 2 orthogonale Komponenten (inner- und außerhalb des Unterraums, sind nicht korreliert) - Aufteilung von V in Unterraum V´und V orthogonal zu V´ y=b*x (a entfällt, da Daten im Personenraum zentriert sind) |
multiple Regression | - Modellerweiterung mit mehreren Prädiktoren - Modellvorhersage entspricht Ebene - je mehr Variablen, desto mehr Fehlervarianz wird aufgeklärt (mehr Punkte können durch Linearkombination erreicht werden), Modellfehler geringer ABER: je mehr Variablen, desto komplizeirter und schlechter interpretierbar - bei nicht- zentrierten Daten ist MW-Modell ebenfalls multiple (MW+ Abweichung vom MW) |
absolute Größe von Regressionsgewichten | - nicht ohne Kontext interpretierbar - nur mit anderen Regressionsgewichten vergleichbar - Regressionsgewicht =0 heißt nicht, dass die Variable nicht mit y korreliert |
Ladungen | - Korrelation der Präditkoren x mit Regressionsvorhersage y - hohe Ladung= kleiner Winkel, ähnliche Konzepte, große gemeinsame Varianz - geringe Ladung= nahezu orthogonal, unterschiedliche Konzepte |
Multikollinearität von Regressoren untereinander | - p Vektoren spannen einen Raum mit weniger als p Dimensionen auf (mehr Vektoren vorhanden als notwendig um Raum aufzuspannen) Praxis: eine Variable ergibt sich aus anderen Variablen (Bsp: generelle Zustimmungsrate in Fragebögen wird ermittelt) - unendliche viele Linearkombinationen führen zu y Dach (nicht interpretierbar) |
Multikollinearität (lineare Abhängigkeit) verhindern | - Anzahl der Prädiktoren ändern, ohne V zu beeinflussen (Entfernen, Kombinieren von variablen) - was man entfernt hängt vom Kontext ab |
nahezu multikollineare Regressoren | -schwerer zu identifizieren - Potential für Fehlinterpretationen groß - kleine Änderungen bei Messungen führen zu Lageveränderung von Vx |
Vermeidung nahezu multikollinearer Regressoren | - Strategien zur Vermeidung linearer Abhängigkeit - Hauptkomponentenanalyse (Korrelation vorher testen) |
Supressoren | - Variable, die nicht mit Datenvektor korreliert (orthogonal zueinander) - kann Modellgüte deutlich verbessern - vergrößern Vektorraum und erlauben bessere Modellanpassung - korreliert mit Prädiktoren (Bsp: kalte Finger korrelieren nicht mit Lungenkrebs ABER: Rauchen korreliert mit Lungenkrebs und mit kalten Fingern) |
Want to create your own Flashcards for free with GoConqr? Learn more.