Durch eine Retest-Korrelation kann man gut erkennen, ob sich eine Person in einem Test verbessert hat.
ie Stereotype Accuracy beurteilt, inwieweit Beurteiler ein durchschnittliches Persönlichkeitsmerkmal beschreiben.
Unsystematische Messfehler von parallelen Tests (Persönlichkeitsbeurteilungen) können durch Aggregation reduziert werden.
Eigenschaften sollen mittelfristig stabil, müssen aber nicht unbedingt transsituativ konsistent sein.
Soziale Erwünschtheit kann die Korrelation zwischen den Items eines Persönlichkeitstests nicht beeinflussen.
Wenn alle Bewerber in einem Auswahlverfahren vergleichbar sozial erwünscht auf einen Persönlichkeitsfragebogen reagieren, führt dies zu einer Verzerrung von Persönlichkeitsunterschieden.
Die interne Konsistenz eines Tests besitzt vergleichbare Informationen wie die Ermittlung einer Testinformationsfunktion.
Im Modell von Cronbach gibt die Komponente „Elevation“ wieder, inwieweit verschiedene Urteiler dasselbe Response-Set benutzen.
Response sets können durch Q-Sorts Techniken vermieden werden.
Nach der IRT kann die Messgenauigkeit für jedes Item eines Tests bestimmt werden
Differenzielle Itemfunktionen liegen vor, wenn Itemparameter zwischen Gruppen variieren, obwohl die Personenmerkmale gleich sind.
Der Youden-Index ist ein Maß für die Testgüte eines kriteriumsorientierten Tests und kann einen Wert von 0.5 bis 1 annehmen.
Cohens Kappa als Maß der Beobachterübereinstimmungen berücksichtigt die per Zufall zu erwartende Übereinstimmung zwischen 2 oder mehr Beobachtern.
Korrelationen zwischen Persönlichkeitsfaktoren können auch auf geteilten Methodeneffekten beruhen.
Bei Umpolung von Items bleibt die Faktorenstruktur eines Tests immer gleich
Nichtorthogonalität von Persönlichkeitsfaktoren beruht ausschließlich auf geteilten Methodeneffekten.
Höhere Trennschärfen werden i.d.R. in heterogenen Stichproben gefunden, niedrigere in homogenen Stichproben.
Die Kenntnis numerischer Kennwerte für Gütekriterien eines Tests reicht aus, um die Qualität psychodiagnostischer Verfahren bewerten zu können.
Nach dem einfachen Raschmodell unterscheiden sich die Testitems lediglich in Schwierigkeit und Diskrimination.
Für nach der IRT konstruierte Tests lassen sich alle KTT-Kennwerte ermitteln
Bipolare Skalen haben einen Null-bzw. Bezugspunkt.
Reliabilitätsschätzungen sind stichprobenabhängig.
Die Bestimmung des Konfidenzintervalls nach der Regressionshypothese beruht auf der Annahme, dass der beobachtete Wert eine gute Schätzung des wahren Werts einer Testperson ist.
AUC ist ein Maß für die Testgüte eines kriteriumorientierten Tests und kann einen Wert zwischen 0.5 und 1 annehmen.
Dichotome Auswahlaufgaben in Persönlichkeitstests erhöhen das Risiko für Aquieszenz
Die interne Konsistenz eines Tests kann durch Testverlängerung erhöht werden
Bei einem IRT-konformen Test für Depression zeigen die Diskriminationsparameter, wo die Symptome auf dem latenten Merkmalskontinuum lokalisiert sind.
Stark diskriminierende Items können zwischen Personen mit ähnlichen Merkmalsausprägungen differenzieren, während schwach diskriminierende Items lediglich zwischen Personen mit großen Merkmalsunterschieden differenzieren können
Nach der KTT hängt die Breite des Konfidenzintervalls auch vom beobachteten Wert ab
Nach der KTT entwickelte Tests genügen meist nicht den Anforderungen für eine adaptive Anwendung
Akkurate Persönlichkeitsurteile durch Dritte können über Beurteilerkonsens belegt werden / setzen Beurteilerkonsens voraus
Der Reliable Change Index nach Jacobson & Truax berücksichtigt die Unreliabilität der Messungen
Aus Sicht der KTT gehen Methodeneffekte in die Messung des wahren Wertes ein
Verhaltensbeobachtung und Experiment schließen sich gegenseitig aus
Beim Vergleich zwischen Testprofilen ist eine Korrektur für die Profilhöhe dann sinnvoll, wenn Niveauunterschiede z.B. auf unterschiedlichen Antwortstilen beruhen
*Thema Einzelfalldiagnostik, kam nicht bei uns dran
Sie haben für einen Leistungstest eine niedrige interne Konsistenz ermittelt, aber eine hohe Retestreliabilität. Wie erklären Sie sich das?
Homogenität der Merkmale
Heterogenität der Merkmale
geringe Korrelation der Items und damit geringe interne Konsistenz, trotz gegebener Reliabilität
invers formulierte Items können interne Konsistenz unterschätzen, da sie unabhängig vom Iteminhalt einen eigenen Faktor bilden können
die Retestreliabilität ist abhängig von der internen Konsistenz
Nennen Sie die drei Bedingungen von Konstruktäquivalenz. Äquivalenz der....
Faktorenstruktur
Items
Korrelate
Testnormen
Testwerte
Was ist der Unterschied zwischen korrelativer und lokal stochastischer Unabhängigkeit von Items
korrelative Unabhängigkeit: Items korrelieren hoch miteinander.
Lokale Unabhängigkeit: Eindimensionalität ist gegeben.
Eindimensionalität ist formal gegeben, sobald die Inter-ItemKorrelation eines Tests nach Auspartialisierung der manifesten Eigenschaft verschwindet
Lokale stochastische Unabhängigkeit Ist gegeben, wenn für jede Person die Lösungswahrscheinlichkeiten zweier beliebiger Items multipliziert werden dürfen um die kombinierte Lösungswahrscheinlichkeit beider Items zu ermitteln.
Lokale stochastische Unabhängigkeit: Zusammenhänge zwischen den manifesten Variablen (z.B. 2 Antworten 2 verschiedener Items) sind nicht Ausdruck direkter Abhängigkeit zwischen den einzelnen Verhaltensweisen, sondern Ausdruck ihrer Abhängigkeit von einer, allen manifesten Variablen gemeinsam zugrunde liegenden latenten Dimension.
Was ist das Problem der zentraler Tendenz, welche Konsequenzen ergeben sich?
geringe Aussagekraft der Ergebnisse
Beobachtungsfehler durch den Beobachter
Die Interpretation der Verhaltensbeobachtung ist fehlerhaft
Interne Konsistenz ist ein Maß für Eindimensionalität.
Was ist der Unterschied zwischen Itemschwierigkeit/ Trennschärfe in der KTT und Itemschwierigkeit und Diskrimination in der IRT? Kreuze korrekte Aussagen an!
Die numerische Höhe der Schwierigkeit kennzeichnet in der KTT eigentlich die Leichtigkeit von Items.
Der Schwierigkeitsindex der KTT gibt an, wie groß der relative Anteil der Probanden ist, die ein Item falsch (i. S. höherer Merkmalsausprägung) gelöst haben.
Die Trennschärfe eines Items drückt in der KTT aus, wie groß der korrelative Zusammenhang der Itemwerte mit den Testwerten ist, die aus sämtlichen Testwerten gebildet werden. (Korrelation zwischen Item und Skala)
Die Trennschärfe kann in der KTT Werte zwischen 0 und 1 annehmen.
Die Itemschwierigkeit und die Diskrimination wird in der IRT mithilfe der ICC ermittelt.
Itemschwierigkeit ist in der IRT definiert als die Stelle auf der x-Achse, an der die Lösungswahrscheinlichkeit =.50 ist und beschreibt die "tatsächliche" Schwierigkeit des Items.
Die Itemparameter sind in der IRT abhängig von der Stichprobe, also variant über die Stichproben.
Je steiler die ICC ist, umso größer ist die Diskriminationsfähigkeit eines Items.
Welche Aussagen zur part whole Korrektur sind korrekt?
Wird vorgenommen, wenn sich viele Items in der Skala befinden.
...,wenn sich wenige Items in der Skala befinden.
Korrektur der Autokorrelation von Items.
Dadurch kommt es zur Verzerrung des Summenscores (der Korrelation), da jedes Item mit sich selbst zu 1 korreliert.
Wird eingesetzt zur Vermeidung der Überschätzung der Itemschwierigkeit in der KTT.
Welche Aussagen zu Beobachtungsverfahren sind korrekt?
Sie beschreiben was beobachtet wird.
Unterteilen sich in Time- und Eventsampling-Methoden, jeweils mit und ohne Wiederholung.
Beim Eventsampling wird ein bestimmtes Verhalten/ Ereignis notiert, sobald es auftritt.
Beim Time-Point-Sampling wird notiert wie oft ein bestimmtes Verhalten in einem Intervall auftritt.
Welche Aussagen zum Modell der akkuraten Persönlichkeitsbeurteilung von Lee Cronbach sind korrekt?
Gemäß diesem Modell kann Beurteilerübereinstimmung durch ganz unterschiedliche Elemente zustande kommen, die nicht alle etwas mit dem tatsächlichen Persönlichkeitsmerkmal zu tun haben:
Elevation: Urteiler beschreiben „durchschnittliche“ Persönlichkeit.
Stereotype Accuracy: Urteiler nutzen dasselbe Response-Set.
Differential Elevation: Urteiler nutzt für Zielperson ein Response-Set.
Differential Accuracy: Urteiler geben idiosynkratische ("überempfindliche") Urteile ab.
Nach welchen Kriterien kann ein adaptiver Test beendet werden?
Erreichen bestimmter Anzahl Items
hinreichend großer Standardmessfehler der Personenparameter
Erreichen maximaler Testzeit
alle verfügbaren Items wurden vorgelegt
Der Cut-off-Wert einer Depressivitäts-Skala wird erhöht. Wie ändern sich die Spezifität und die Sensitivität?
Anzahl der FN wird geringer, Anzahl der TP steigt
Anzahl der als richtig eingestuften Depressiven an Gesamtzahl der Depressiven Personen sinkt
Sensitivität (TP/TP+FN) wird schlechter, dh. die Fähigkeit des Tests, tatsächlich Depressive als depressiv zu erkennen, sinkt.
zahl der FP wird geringer, Anzahl der FP sinkt, dh. die Anzahl der als richtig eingestuften Nicht-Depressiven/Gesunden an der Gesamtzahl der Nicht-Depressiven/Gesunden Personen steigt
Spezifität (TN/TN+FN) sinkt, dh. die Fähigkeit des Tests, Gesunde als gesund zu erkennen, vermindert sich.
Nennen Sie Vorteile der kriteriumsorientierten Vorhersage mit Hilfe sog. ROC-Analysen (verglichen mit anderen Indizes)!
AUC (als Maß für die Testgüte i.S. von Trennschärfe) ist unabhängig von Basisrate
AUC kann zwischen Stichproben/Populationen verglichen werden
ROC ermöglicht die Ermittlung optimaler Cut-off Werte
Wie kann man der Tendenz zur Mitte bei der Konstruktion von Ratingskalen vorbeugen?
gerade Anzahl wählbarer Skalenwerte
keine neutrale Mittelkategorie
weiß-nicht-Kategorie
Q-Sort
Welche Aussagen zur ICC sind korrekt?
Beschreibt Beziehung zwischen dem manifestem Merkmal und dem Reaktionsverhalten von Probanden auf ein Item in Form einer WSK-Aussage
Itemparameter (Schwierigkeit, Diskrimination) und latente Personenparameter bestimmten WSK, mit der Vpn Item löst
Zeigt wie gut ein Item zwischen Personen mit unterschiedlichen Merkmalsausprägungen differenziert
ICCs im dichotomen Raschmodell als monoton fallend angenommen, d.h. Lösungs-WSK steigt mit zunehmender Fähigkeit/Merkmalsausprägung monoton an --> Zusammenhang durch logistische Funktion beschrieben.
Im dichotomen Birnbaum- Modell entspricht die Steigung der ICC dem Diskriminationsparameter --> je steiler der Anstieg, umso stärker die Diskrimination
Cronbachs Alpha setzt voraus, dass Items zumindest ... sind. Ist diese Voraussetzung nicht erfüllt, gibt Cronbachs Alpha die ...
min. tau- kongenerisch
min. essentiell tau- äquivalent
gibt untere Grenze Raliabilität wieder
gibt obere Grenze Reliabilität wieder
Prozentränge sind nicht intervallskaliert. Worauf muss man deswegen bei der Testwertinterpretation achten?
Testwertdifferenzen im Bereich geringer Testwertdichte werden größer (akzentuiert).
Testwertdifferenzen im Bereich hoher Testwertdichte größer (akzentuiert).
Testwertdifferenzen im Bereich geringer Testwertdichte werden kleiner (nivelliert).
Testwertdifferenzen im Bereich hoher Testwertdichte kleiner (nivelliert).
Die Abstände zwischen Personen sind nicht interpretierbar
Worin unterscheiden sich Reliabilität und Iteminformationsfunktion (IIC) nach IRT?
IIC gibt an, wie gut ein Item zwischen Personen mit unterschiedlichen Merkmalsausprägungen differenziert
Aus der Testinformationsfunktion lässt sich der Standardmessfehler für JEDE Merkmalsausprägung ermitteln
Reliabilität gilt nur ür Gesamttests bzw. Gesamtskala, ICC gibt Infos über einzelne Items.
ICC variiert über das Merkmalsspektrum.
Wie kann man die Stichprobeninvarianz für Itemparameter bestimmen?
Kreuzvalidierung der Itemparameter über zwei verschiedene Stichproben bzw. zwei Stichprobenhälften
Prüfung des Modellfits
Itemparameter dürfen zwischen Subgruppen variieren
Korrelation zwischen Parametern > .83 =Hinweis auf Stichprobenunabhängigkeit der Parameter
Wenn alle Testpersonen vor der Bearbeitung eines Konzentrationstests Alkohol getrunken haben, entsteht ein systematischer Messfehler. Wenn nur einer alkoholisiert erscheint, entsteht ein unsystematischer Messfehler.
Angesichts der nachgewiesenen Eindimensionalität eines Tests und ihres hohen Informationsgehalts erwägen Sie, den Test zu kürzen? Mögliche Konsequenzen nach KTT?
Verringerte Re-Test-Reliablität
Verringerte interne Konsistenz
Verringerte Inter-Rater- Reliabilität
Verringerte Konstruktvalidität
Verringerter Wert für Cronbach´s Alpha
Welche Aussagen bezüglich Cohen´s Kappa sind zutreffend?
....ist ein Maß für die Beurteilerübereinstimmung.
...nimmt eine Zufallskorrektur für die Abweichung zwischen Beobachtern vor
Zufallskorrektur auf Basis absoluter Häufigkeit der Gesamtzahl tatsächlicher Übereinstimmungen und absoluter Häufigkeit der Gesamtzahl erwarteter Übereinstimmungen
Die Itemparameter in einem IRT-konformen Test (Schwierigkeit, Diskrimination) korrelieren hoch in zwei Stichproben. Daraus kann man schlussfolgern, dass die beiden Stichproben abhängig sind.
Welche Aussagen zum Unterschied zwischen Homogenität und interner Konsistenz sind korrekt?
Interne Konsistenz errechnet sich über die Interitemkorrelation
Interne Konsistenz ist ein Maß für Eindimensionalität
Bei Internen Konsistenz wird die zugrunde liegende faktorielle Struktur berücksichtigt.
Cronbachs Alpha kann auch hoch bei heterogenen Items sein
Homogenität kennzeichnet die Einfachstruktur/Eindimensionalität
Interne Konsistenz ist eine hinreichende aber nicht notwendige Bedingung für Homogenität
Bei der Evaluation von zwei Leistungstest ist es ratsam den trennschärferen Test zu wählen, auch wenn seine Schwierigkeit geringer ausfällt.
Welche Aussagen zum Unterschied zwischen Äquivalentnormen und Abweichungsnormen sind korrekt? Wie unterscheiden sich Äquivalenz- und Abweichungsdifferenzierung/ -normen?
Äquivalenznormen orientieren sich am Mittelwert der Testgruppe
Äquivalenznormen ignorieren die Varianz der Vergleichsgruppe
Äquivalenznormen ordnen Testwerte in Abschnitte ein, die typisch für diesen Zeitabschnitt sind
Abweichungsnormen orientieren sich am Mittelwert der Referenzpopulation unter Berücksichtigung Varianz.
Äquivalenznormen setzen Normalverteilung voraus und müssen z-transformiert werden
Wenn keine Normalverteilung gegeben ist, dann können Prozentränge genutzt werden.
Ein Beispiel für eine Äquivalenznorm ist das Intelligenzalter nach Simon und Binet, wohingegen der aktuelle verwendete Intelligenzquotient eine Abweichungsnorm darstellt.
Nach Brunswicks Linsenmodell ist die Validität eines Persönlichkeitsurteils gegeben, wenn Divergenz zwischen Cue-Validität und Cue-Nutzung besteht
Bei der Verwendung einer neutralen Mittelkategorie kann es zur (Antwort-)Tendenz zur Mitte kommen.
Bei IRT-konformen Testverfahren werden Item- und Personenparameter auf derselben Skala dargestellt. Durch diese Verortung werden die Parameter direkt, d.h. kriteriumsorientiert interpretierbar.