TEMA 6: La fiabilidad del test

Página 1

Implica el grado de exactitud o precisión con la que son detectadas las respuestas de los examinados. Un test es fiable si las mediciones que se hacen con él carecen de errores de medida y los resultados son consistentes cuando es aplicado en distintas ocasiones.Cuando un test no da como resultado de su aplicación el valor real del rasgo o el atributo se dice que comete un error de medida. El error de medida se puede categorizar en:-Error aleatorio: Provocado por variables ajenas al constructo psicológico que se pretende medir y afectan de forma dispar a los sujetos que realizan el test. Es variable en cada aplicación del test y afecta a la puntuación del sujeto de forma desconocida para el investigador. El control de este error es el objetivo principal de la Teoría Clásica de los Test (TCT), modelo elaborado por Spearman (1904) y reformulado por Lord y Novick (1968).-Error sistemático: Provocado por variables ajenas al constructo psicológico que se pretende medir y actúan de igual manera en todos los sujetos.La fiabilidad del test determina:-Que parte de la variación observada en las puntuaciones se debe a verdaderas diferencias entre los sujetos.-Que parte de dicha variación se debe a errores de medida.

FUNDAMENTOS: MODELO DE LA PUNTUACIÓN VERDADERAEn la TCT, la puntuación de un sujeto se desglosa en:-Puntuación obtenida por el individuo y en el test.-Puntuación verdadera del individuo i en el test.-Error cometido en la medición.Supuestos respecto al componente de error:-Es aleatorio, no sistemático.-No correlaciona con el error de otra medición.-No correlaciona con las puntuaciones obtenidas en el test.-No correlaciona con las puntuaciones verdaderas.Supuestos respecto a la puntuación verdadera: Si administramos un test au un sujeto infinitas veces, su puntuación promedio será la puntuación verdadera en el atributo que se mide.-Test paralelos o formas paralelas:Son aquellas en las que, aplicadas al mismo grupo:-Cada forma proporciona la misma puntuación promedio.-Cada forma proporciona la misma varianza y desviación típica.-Las correlaciones entre las puntuaciones de cada forma y las restantes serán iguales.-La correlación entre la puntuación verdadera y cada una de las obtenidas en las diversas formas sarán iguales.-Vi: Promedio de las puntuaciones obtenidas en las n formas paralelas.-S2e: Dispersión de cada sujeto alrededor de la puntuación verdadera. Un valor elevado indica gran dispersión en torno a la puntuación verdadera y, por tanto, poca fiabilidad. Un test fiable es aquel con S2e pequeño.La relación entre las puntuaciones implicadas en el modelo también pueda expresarse en términos de varianza.

COEFICIENTE DE FIABILIDAD (r tt')Mide la concordancia entre las réplicas de unas mismas medidas sobre un mismo grupo de sujetos. La concordancia puede ser:-Longitudinal: estabilidad a través del tiempo.-Transversal: equivalencia entre medidas simultáneas procedentes de formas paralelas.-Longitudinal-transversal: estabilidad y equivalencia entre medidas procedentes de varias formas paralelas aplicadas en diferentes momentos.Las pruebas cuyo coeficiente no alcanza el valor de 0.80 ofrecen sospechas acerca de su fiabilidad. Por norma, las menores de 0,70 ofrecen mínimas garantías de precisión y exactitud en sus puntuaciones.Exigencias difíciles de cumplir en la TCT:A. Es imposible construir formas perfectamente paralelas.B. No siempre es posible obtener dos medidas para un mismo individuo.C. Suponer que todo error es aleatorio y no sistemático.Debemos obtener el coeficiente de fiabilidad de forma empírica.

PROCEDIMIENTOS EMPÍRICOS PARA OBTENER EL COEFICIENTE DE FIABILIDADA. Procedimientos basados en el paso del tiempo (estabilidad temporal): Test-Retest.B. Procedimientos basados en un momento temporal (consistencia interna): Formas paralelas, dos mitades (Spearman Brown y Guttman), coeficiente Alfa de Cronbach.TEST-RETEST (TR)Se trata de la aplicación de una misma prueba en dos ocasiones, mediando un intervalo de tiempo entre las dos semanas y los seis meses, dependiendo de la estabilidad del constructo.Se calcula la correlación entre los resultados de la administración de un mismo test en el momento 1 y en el momento 2.Condición fundamental: Ausencia de cambio en el atributo evaluado para los sujetos de la muestra de análisis.Precauciones de su empleo:-La maduración personal en individuos jóvenes.-En pruebas diagnósticas, los intervalos y fases de ciertos trastornos.-Diferenciación entre estado y rasgo.-El aprendizaje.El coeficiente de correlación también se llama coeficiente de estabilidad temporal.FORMAS PARALELAS (FP)Es el método que mejor responde a las condiciones teóricamente establecidas por el modelo de puntuación verdadera.Correlación entre los resultados de dos formas paralelas de un test. El coeficiente obtenido también se llama coeficiente de equivalencia.Su principal problema es la dificultad de construir dos formas paralelas, ya que los dos test deben medir lo mismo con diferentes ítems.DOS MITADES (DM)Simulacro del método FP apropiado en pruebas de gran longitud. Se divide la prueba en dos mitades, obteniéndose para cada sujeto las puntuaciones correspondientes a cada una de las mitades.Aplicación:-Método de Spearman-Brown: Correlación entre las puntuaciones de cada una de las dos mitades más una corrección. Exige que las varianzas de ambas mitades sean iguales.-Método de Guttman: Estimación de la fiabilidad del test completo a partir de las diferencias entre puntuaciones de cada mitad.Precaución:El criterio por el que se decide qué ítems formarán parte de cada una de las dos mitades.Problema fundamental:Garantizar que las dos mitades sean paralelas. Además, las numerosas formas de dividir el test darán lugar a diferentes coeficientes de fiabilidad.ALFA DE CRONBACH (a)Método muy utilizado por su sencillez de cálculo.Informa del valor resultante tras haber calculado todos los coeficientes posibles por el método de las dos mitades.Es un indicador de la fiabilidad del test, así como de su homogeneidad; sin embargo, esto no indica que los ítems midan el mismo atributo, pero sí hay cierta confianza de que miden algo similar.

EL ERROR TÍPICO DE LA MEDIDAEs la desviación típica de los errores de medida.Características:-A medida que aumenta, disminuye el error típico de medida.-A medida que aumenta la dispersión de las puntuaciones en el test, también lo hará el error típico de medida.-Constituye la vía para la estimación de la puntuación verdadera.

FACTORES QUE INCIDEN SOBRE LA FIABILIDAD DEL TEST1. La longitud del test.Principio fundamental: a mayor número de ítems, mejor fiabilidad.Relación longitud del test/calidad de los ítems: los test con ítems de baja calidad precisarán de un gran número de ellos; los test con ítems coherentes no necesitarán tal cantidad para alcanzar el mismo coeficiente de fiabilidad.Para conocer cómo aumenta o disminuye el coeficiente según la nueva longitud del test, se utiliza la fórmula se Spearman-Brown.2. Variabilidad y homogeneidad.El coeficiente de fiabilidad aumenta al aumentar la variabilidad de la muestra. Para conocer cómo lo hace se utiliza la siguiente fórmula:A partir de esta relación, podemos modificar elementos del test para aumentar su varianza:-Modificar el enunciado o intención de los ítems.-En pruebas de actitud, exagerar su contenido para evitar indiferencias en las respuestas de los examinados.-Valorar seriamente la necesidad o no de la categoría central.-Reducir la conjetura.-Aumentar el número de alternativas de respuesta.-Variar la dificultad p=0,5 a la situación central del grupo.-Controlar la aquiesencia y deseabilidad social.-Regular el tiempo de aplicación en pruebas de velocidad.3. Otros factores.-Diseño de la prueba.-Aplicación.-Dificultad del ítem en escalas dicotómicas.-Poder discriminativo de los ítems.-La conjetura.-Polaridad de los ítems y ordenación en el test.-Tiempo de aplicación.-Tamaño de la muestra.-Ponderación de las respuestas.-Miedo, deseabilidad social y aquiescencia.-Números de alternativas.

CONSIDERACIONES FINALES SOBRE LA FIABILIDADAspectos importantes acerca de la fiabilidad de las pruebas:-Los datos sobre fiabilidad deben estar presentes en el manual de toda prueba, facilitando su consulta y comparación. Esta información permitirá valorar la adecuación del test ante diversas aplicaciones y situaciones.-Es fundamental describir las muestras sobre las que se han obtenido los anteriores datos. Sus variables personales. tamaño y características deben estar presentes en tal descripción.-Puesto que la fiabilidad de una prueba no asegura la precisión de las medidas, es importante añadir en cada muestra y análisis el valor del error típico de medida,informando además del intervalo de confianza de la puntuación verdadera.-Los datos y resultados de los tres apartados anteriores deben presentarse en lenguaje asequible y de fácil comprensión.-Dada su operatividad, se añadirá el coeficiente de Alfa de Cronbach como información de referencia en todos los análisis.-En pruebas de tipo clínico, un procedimiento obligado es el de estabilidad.-Junto con los datos, debe incluirse la fecha y lugar de su obtención.-Las pruebas de velocidad recibirán una atención especial, ya que no todos los métodos producirán emociones coherentes de la fiabilidad.-La fiabilidad de una prueba no asegura su validez.Si el test es unidimensional, deberá aparecer su valor global.Si el test tiene varias dimensiones, deberá aparecer su valor para cada una de las dimensiones.

ALTERNATIVAS A LA TCT1. La teoría de la GeneralizabilidadSurge para dar respuesta a las limitaciones del tratmiento que recibe el componente de error y soluciones a la pluralidad de coeficiente de fiabiliadad que se obtienen para un mismo test desde el modelo clásico.Parte del modelo del dominio muestral (MDM) y de las formulaciones de la fiabilidad a partir del análisis de la varianza.Supuestos:-Existe un universo o población de ítems.-Puntuación verdadera: puntuación que se obtendría de aplicar todos los elementos de ese universo al sujeto.-Puntuación empçirica: estimación de la puntuación verdadera, dado que ella se obtiene sobre una muestra aleatoria concreta de ese universo de ítems.-Fiabiliada del test: la estabilidad de las puntuaciones obrevadas en los sujetos a través de las diferentes muestras aleatorias de ítems.2. Teoría fuerte de las puntuaciones verdaderas:Conjunto de modelos que, a pesar de su estrecha relación con el modelo clásico, parten de una conceptualización del proceso de medida que en algunos aspectos llega a ser sustancialmente diferente a la del modelo clásico.Puntos en común con la TCT:-Puntuación observada: la verdadera más el error de medida.-Puntuación verdadera: valor esperado de las puntuaciones emp+iricas.-Valor esperado de los errores igual a cero y errores de medida independientes.Supuestos adicionales:-Las puntuaciones verdaderas y los errores de medida pueden estar relacionados.-La distribución condicional de los errores respecto a las puntuaciones verdaderas puede o no ser homoscedástica.-Las respuestas de los sujetos han de ajustarse a determinadas distribuciones probabilísticas.3. Test referidos al criterioLa Medida Referida al Criterio (MRC) surge como reacción a las limitaciones de los test normativos estandarizados resultantes de la TCT.Objetivo: Construir y evaluar test que permitan interpretar las puntuaciones en sentido absoluto y describir con mayor precisión los conociemitnos, habilidades y destrezas de los sujetos en un dominio concreto de contenidos.Diferencias con la TCT:-Oposición a los test normativos.-Se presta mucha atención a las especificaciones de contenido y a la elaboración ya análisis de los ítems.-La validez de contenido es fundamental porque la esencia de los TRC es la relevancia y representatividad de los ítems respecto al dominio específico.-Desarrollo de métodos específicos para analizar la fiabilidad y para establecer estándares de desempeño. Los métodos de la TCT no son apropiados porque no permiten describir la precisión de las puntuaciones individuales ni la consistencia de las decisiones tomadas a partir de ellas.4. Teoría de respuesta al ítemImplantación y transición definitiva de la TCT a la TRI: tiene lugar en la década de los 80, con la publicación de Lord de su obra Applications of ítem resonse theory to practical testing problems.Objetivo principal: conseguir medidas invariantes respecto de los sujetos medidos y de los instrumentos utilizados.Supuestos:-Unidimensionalidad: la respuesta a un ítem esté en función de una única característica de sujeto. Lo que se mide, pues, es un único rasgo latente.-Independencia local de los ítems: la probabilidad de que un sujeto, con un nivel determinado de habilidad, conteste correctamente a un ítem, es independiente de la probabilidad de que el mismo sujeto conteste correctamente a cualquier otro ítem del test.

Próximo

TEMA 6: La fiabilidad del test

Descrição

Resumo de Recurso

Página 1

Semelhante

	Criado por Alba Manera Pérez mais de 8 anos atrás