3. Basados en la teoría clásica o de respuesta al ítem
Clasificación según Cronbach (1998)
Test de Máxima ejecución: Miden diferencias individuales, en el nivel de ejecución máximo ante distintas
tareas como: los test de inteligencia, desarrollo de rendimiento, de habilidades, aptitudes o de
conocimientos
Test de Comportamiento típico: Ninguna respuesta puede ser calificada como correcta o incorrecta. Se
evalúa comportamiento habitual de los individuos. aquí encontramos inventarios y cuestionarios de
personalidad, intereses actitudes, estilos, técnicas proyectivas de evaluación de la personalidad,
objétales y de desarrollo libidinal. Son, en su gran mayoría inventarios de autoinforme donde se
demanda al individuo información sobre sí mismo.
ESCALAS DE AUTOEFICACIA: Es la creencia en las propias capacidades para realizar determinados
cursos de acción. Se relaciona fuertemente con los intereses vocacionales y con las aptitudes.
INVENTARIO DE INTERESES VOCACIONALES: Son perfiles de agrados y aversiones respecto a actividades
relacionadas con carreras y ocupaciones. Se relacionan también significativamente con la estabilidad y
el compromiso de los individuos en sus carreras y ocupaciones.
ESCALAS DE ACTITUDES: Se refieren a predisposiciones aprendidas para responder positiva o
negativamente ante objetos sociales particulares, es decir, tipos de personas, instituciones sociales o
situaciones.
INVENTARIOS DE RASGOS DE PERSONALIDAD: Hace referencia a las tendencias afectivas básicas de una
persona. Estas disposiciones le confieren relativa estabilidad al comportamiento individual, más allá de
las lógicas variaciones que resultan de la adaptación a diferentes contextos y situaciones.
INVENTARIOS DE HABILIDADES SOCIALES: el conjunto de conductas que favorecen el desarrollo social de la
persona y por medio de las cuales ésta expresa sus sentimientos, actitudes, deseos, opiniones o derechos de un
modo adecuado a la situación, respetando la expresión de esas conductas en los demás.
Normas Técnicas
Confiabilidad
Es la exactitud o precisión de una medición, o el grado en el cual las
puntuaciones de un test están libres de esos errores de medición.
El concepto de confiabilidad en la teoría
clásica de los tests
Teoría clásica de los tests
La puntuación observada de una persona en un test es una función de dos componentes: su
puntaje verdadero (que es inobservable) y el error de medición implícito en toda medición.
La puntuación de error es la suma de todos aquellos factores aleatorios que influyen y afectan el registro
de los datos, introduciendo inconsistencia en el proceso y alejando la puntuación observada de la
puntuación verdadera.
La confiabilidad se verifica mediante un coeficiente de correlación entre las medidas repetidas de un fenómeno.
Varianza observada
Varianza verdadera
Varianza de error
Respuesta al ítem
Factores que afectan la confiabilidad
Contenido del test: cuando el muestreo de contenido es sesgado, como si no es
suficientemente extenso, los puntajes resultantes serán poco confiables.
Administración: Las condiciones generales del ambiente en que se
administran los tests deben ser lo más semejantes que sea posible
(iluminación, nivel de ruido o confort del lugar)
Factores internos del examinado: Las distracciones momentáneas, las preocupaciones de
índole personal y otros acontecimientos semejantes pueden afectar la estabilidad de los
puntajes de tests
Calificación: En los tests de opción múltiple pueden cometerse errores cuando la corrección es manual, tales
como calificar accidentalmente algunas respuestas correctas como erróneas y viceversa, o realizar mal la
sumatoria de los respuestas clave o correctas.
Dimensiones de la confiabilidad
Estabilidad: Los procedimientos indicados para evaluar la estabilidad temporal de una prueba son el
método test-retest y el método de formas equivalentes
Consistencia interna: Los procedimientos para evaluar la consistencia interna de un test son: el método de formas
equivalentes, el método de partición en mitades y el método del coeficiente alfa de Cronbach.
Confiabilidad inter-examinadores: Refiere a la objetividad de los datos proporcionados por un test, vale decir,
que los individuos obtengan puntuaciones idénticas en sus ejecuciones independientemente de quién sea su
examinador.
Métodos para verificar la confiabilidad
Test-retest: Consiste en administrar un test en dos oportunidades a la misma muestra de sujetos,
con un determinado intervalo entre las dos administraciones, y calcular la correlación entre los
puntajes obtenidos en la primera y segunda vez.
Formas equivalentes: El procedimiento básico consiste en administrar dos formas equivalentes de un
test a un mismo grupo de individuos.
Partición en mitades: Se administra el test en una ocasión a una muestra de individuos y posteriormente
se divide la prueba en dos mitades comparables, obteniendo de esta manera dos puntuaciones para cada
individuo de la muestra. Finalmente, se correlacionan las puntuaciones correspondientes a ambas mitades
del test por medio de un coeficiente de correlación.
Método de covarianza de los ítems: A partir de una única aplicación del test a una muestra se obtiene
una estimación del grado de covarianza de los ítems, utilizando como estadístico el coeficiente alfa
de Cronbach o la fórmula alternativa de Kuder Richardson (KR-20), cuando se trabaja con ítems
dicotómicos (verdadero-falso, por ejemplo).
Acuerdo entre examinadores: Consiste en administrar un test a una muestra, entregar los resultados
(protocolos de respuesta) del test a un conjunto de jueces que los puntuarán independientemente. A
continuación, se verifica el grado de acuerdo que alcanzan los jueces luego de leer, registrar y codificar los
mismos datos
Validez
Fuentes de evidencia de validez
Fuentes internas de evidencia
Evidencia basada en el contenido del test: Se obtiene demostrando que el
contenido (ítems) del test es una muestra representativa del constructo o dominio
respecto del cual se desea hacer alguna inferencia.
Evidencia basada en la estructura del test: Indican si las relaciones entre los ítems y las dimensiones
(factores, escalas) permiten confirmar la existencia de los constructos que el test pretende medir.
Evidencia basada en el proceso de respuesta: Refleja la interacción entre la psicología cognitiva y la psicometría,
donde el análisis de los procesos cognitivos comprometidos en el proceso de respuesta a los tests adquiere
particular importancia.
Fuentes externas de evidencia
Evidencia convergente-discriminante: evidenciar que el test en cuestión mide realmente el
constructo que se propone medir, al correlacionarse con otros tests reconocidos que miden
el mismo constructo, y no correlacionarse con tests que miden constructos diferentes.
Evidencia de las relaciones entre las puntuaciones del test y criterios externos:es especialmente
importante en los contextos aplicados de la psicología en los que se busca predecir de manera
precisa un determinado comportamiento o desempeño a partir de las puntuaciones de un test.
Correlación bivariada con un criterio: En este contexto, la validez de las puntuaciones de un test
significa la efectividad con que se puede predecir el desempeño de una muestra en una situación real
(laboral o académica, por ejemplo) o criterio diferente del test en sí mismo.
Correlación múltiple con un criterio: Los métodos multivariados son numerosos (análisis factorial, regresión
múltiple, análisis de senderos, análisis discriminante, entre otros) y se emplean con diferentes finalidades,
tales como predecir la pertenencia a un grupo, explicar la variabilidad de una variable dependiente o verificar
la estructura de un constructo medido.
Utilidad de los tests en contextos de clasificación
Para Cronbach (1998), los tests pueden usarse con cuatro
propósitos diferentes:
1- AUTOCONOCIMIENTO
2. CLASIFICACIÓN
3. EVALUACIÓN DE PROGRAMAS DE INTERVENCIÓN
4. INVESTIGACIÓN
El propósito de clasificación se presenta en situaciones de selección o diagnóstico, tales como exámenes
aplicados a aspirantes al ingreso a un empleo o asignación de los individuos a una categoría diagnóstica, como
depresión o fobia. Es decir, en situaciones donde el criterio que se intenta predecir es dicotómico, por ejemplo,
aprobar-reprobar, enfermo-no enfermo, admitido-rechazado.
Generalización de la validez: el meta-análisis
Método que permite integrar y combinar los resultados de diversos estudios empíricos mediante
técnicas específicas.
Es útil para este propósito de generalización al agregar estudios bien diseñados pero obstaculizados por
una muestra pequeña y al promediar efectos falsos que operan en ambas direcciones (Nunnally y
Bernstein, 1995).
Es considerado en la actualidad como una metodología potente de investigación que permite integrar
los resultados de diversos estudios empíricos y sus descubrimientos particulares.
Validez de constructo
Se basa en el significado psicológico del puntaje de una prueba y en la explicación teórica de la
ejecución del sujeto.
1. ESPECIFICACIÓN DEL DOMINION DE LAS CONDUCTAS OBSERVABLES
2. DETERMINAR HASTA QUÉ PUNTO TODAS O ALGUNAS DE ESAS CONDUCTAS SE CORRELACIONAN
ENTRE SÍ.
3 PRECISAR SI UNA, ALGUNAS O TODAS LAS MEDIDAS DE TALES CONDUCTAS ACTÚAN COMO SI
MIDIERAN EL CONSTRUCTO.
Validez referida al criterio
Es aquella que se utiliza para estimar a futuro una conducta, a la que se llama
criterio.
Valora el grado en el que un instrumento de evaluación puede utilizarse para estimar la conducta de una persona
en una situación concurrente con la aplicación de la prueba.
Validez del contenido
Es la representatividad o adecuación muestral del contenido del instrumento de medición,
además, es una clara descripción de dominio de conductas de interés, es decir es el grado en que
un conjunto de reactivos representa adecuadamente un dominio o universo de conductas.
Construcción de los test
Pasos para construir un test
1. Delimitación del dominio del test, características de la población a la cual va dirigido y estructura
formal del test (instrucciones, contenido y formato de respuesta a los ítems).
2. Redacción de los
ítems.
3. Revisión de los ítems por
expertos.
4. Análisis de las propiedades psicométricas de los ítems y/o escalas
del test.
5. Elaboración de los materiales definitivos de prueba (manual, cuadernillo de ítems, hojas de
respuesta).
Definición del dominio
Requiere, en primer lugar, un exhaustivo análisis conceptual del dominio o constructo a medir. Este análisis
implica la selección y revisión de las teorías más relevantes, rigurosas y contemporáneas en relación con el
constructo que se pretende medir.
Redacción de los ítems
• Redactar ítems congruentes con el objetivo de medición
• Evitar los ítems demasiados largos (de más de 20 vocablos).
• Evitar las oraciones complejas con ambigüedades de sentido.
• Evitar las frases con doble negación
• Evitar el uso de expresiones extremas (nunca, siempre, todos).
• Utilizar el lenguaje más apropiado al nivel de maduración y educativo de la población meta de la
medición (Oesterlind, 1990).
Con referencia al enunciado o base del ítem
1.Debe contener un esquema de indagación completa (que el estudiante no necesite
leer las alternativas para emitir la respuesta correcta).
2. Se debe incluir lo estrictamente necesario para la comprensión de las
respuestas.
3. Es preferible que las palabras que puedan repetirse en las alternativas se incluyan
sólo en la proposición base.
4. Se deberá evitar redactar la proposición base como enunciado negativo, a menos que la finalidad
sea reforzar el aprendizaje de lo que no debe hacerse.
5. La base no debe contener expresiones que puedan debilitar o confundir la respuesta correcta.
6. Cuando se intenta evaluar la comprensión de términos, es preferible que estos conceptos se
mencionen en la base, y las descripciones o definiciones se incluyan en las alternativas de respuesta.
7. Debe evitarse que el ítem se refiera a contenidos triviales
Con referencia a las alternativas de respuesta (distractores y clave u opción correcta)
1. El ítem deberá contener una sola opción correcta, la cual tiene que estar acompañada por
distractores que sean plausibles para el estudiante que no conoce la respuesta correcta y
fácilmente desechables para el que la conoce.
2. Todas las alternativas deberán ser gramaticalmente semejantes e igualmente aceptables desde el
sentido común
3. Por lo general, tres alternativas de respuesta son suficientes puesto que el formato de cuatro
opciones es más dificultoso de elaborar y, muchas veces, la elección de la última opción de
respuesta resulta algo forzada.
4. En cuanto al formato, se deberá evitar que la alternativa
correcta sea la más larga.
5. Se deberán evitar las expresiones muy literales que expliquen el texto de estudio y que favorezcan
la mera memorización.
6. Las alternativas incorrectas deberán tener el mismo grado de especificidad que la opción correcta de
respuesta.
7. La alternativa correcta deberá estar dispuesta aleatoriamente
8. Debe evitarse que un ítem pueda ayudar a la respuesta correcta de otro.
9. Las distintas opciones de respuesta al ítem tienen que ser independientes entre sí, sin solaparse y sin
referirse unas a otras pues ello introduce dificultades o facilidades indebidas.
Revisión de expertos
Claridad semántica y corrección gramatical.
Adecuación al nivel de comprensión de la población meta.
Congruencia con el constructo o dominio medido.
Análisis factorial de los ítems
a) Análisis factorial: es un método para agrupar las variables (ítems, por
ejemplo) que se correlacionan fuertemente entre sí, y cuyas correlaciones con
las variables de otros agrupamientos (factores) es menor (Aiken, 2003)
Análisis factorial exploratorio y confirmatorio
Tamaño de la muestra
Factibilidad de análisis factorial
Métodos de extracción de factores
Número de factores a extraer
Rotación de factores
Interpretación de los factores
b) Análisis de ítems: Para implementar estos métodos de análisis de ítems se recomienda
administrar el test a una muestra por lo menos cinco veces superior a la del número inicial de
ítems y, como se mencionó anteriormente, es deseable contar aproximadamente con el doble
de ítems de los que aparecerán en la versión definitiva del test.