4.- PRUEBAS DE HIPÓTESIS CON
DOS MUESTRAS Y VARIAS
MUESTRAS DE DATOS
NUMÉRICOS
4.1 INTRODUCCIÓN
En esta unida nos
concentraremos en la prueba
de hipótesis, otro aspecto de
la inferencia estadística...
Al igual que la estimación de
intervalos de confianza, se basa en
la información de la muestra.
Se desarrolla una metodología paso a paso
que le permita hacer inferencias sobre un
parámetro poblacional mediante el
análisis diferencial entre los resultados
observados (estadístico de la muestra)y
los resultados de la muestra esperados si
la hipótesis subyacente es realmente
cierta.
Una prueba de hipótesis consiste en contrastar dos
hipótesis estadísticas. Tal contraste involucra la toma de
decisión acerca de las hipótesis. La decisión consiste en
rechazar o no una hipótesis en favor de la otra.
4.2 DISTRIBUCIONES NORMAL Y
T STUDENT
Se llama distribución normal,
distribución de Gauss o distribución
gaussiana, a una de las distribuciones
de probabilidad de variable continua
que con más frecuencia aparece en
fenómenos reales.
La gráfica de su función de densidad tiene
una forma acampanada y es simétrica
respecto de un determinado parámetro. Esta
curva se conoce como campana de Gauss.
El uso del modelo normal puede
justificarse asumiendo que cada
observación se obtiene como la suma
de unas pocas causas
independientes.
La estadística es un modelo
matemático que sólo permite describir
un fenómeno, sin explicación alguna.
La distribución normal también es
importante por su relación con la
estimación por mínimos cuadrados,
uno de los métodos de estimación
más simples y antiguos.
La distribución muestral de las medias
muéstrales es aproximadamente normal,
cuando la distribución de la población de
la cual se extrae la muestra no es normal.
La distribución t (de Student) es una
distribución de probabilidad que surge del
problema de estimar la media de una
población normalmente distribuida cuando el
tamaño de la muestra es pequeño.
Aparece de manera natural al realizar la prueba t de Student para la determinación de las
diferencias entre dos medias muestrales y para la construcción del intervalo de confianza
para la diferencia entre las medias de dos poblaciones cuando se desconoce la desviación
típica de una población y ésta debe ser estimada a partir de los datos de una muestra.
La distribución t de Student es la distribución
de probabilidad del cociente.
4.3 PRUEBAS DE
SIGNIFICANCIA
Son un procedimiento que brinda un criterio objetivo para
calificar las diferencias que presentan al comprar los
resultados de dos muestras.
El objetivo de explicar si dichas diferencias se mantienen dentro de
los limites previstos por el diseño estadístico (un error y una
confianza esperados) o si.
La diferencia entre ellas resulta lo
suficiente grande como para inferir
que ha ocurrido un cambio real en
el indicador.
Cuando se prueba una hipótesis, la
probabilidad máxima con la que
estarían puesto a arriesgarse a
cometer un error.
Error Tipo I se llama nivel de significancia de la prueba esta
probabilidad con frecuencia denotada por α, por lo general se
especifica antes de seleccionar cualquier muestra para que
los resultados obtenidos no influyan en la decisión.
En la práctica se utiliza un nivel de significancia de 0.05
o 0.01, aunque también se usan otros valores.
EJEMPLO
Se elige el nivel de significancia de 0.05 (o 5%) diseñar una regla de decisión, existen
aproximadamente 5 posibilidades en 100 de que se rechace la hipótesis cuando debe aceptarse; es
decir, se tiene una confianza de 95% de haber tomado la decisión correcta. En tal caso, se dice que la
hipótesis se rechazó al nivel de significancia de 0.05 o bien que la hipótesis tiene una probabilidad de
0.05 de ser falsa. (Murray R. Spiegel, 2001, pág. 219)
4.4 COMPARACIÓN DE DOS MUESTRAS
INDEPENDIENTES PARA LAS DIFERENCIAS
ENTRE DOS MEDIAS
Cuando se conocen las varianzas de 2 poblaciones
Si se trata de muestras grandes e independientes y
si se conocen las verdaderas varianzas de las
poblaciones correspondientes.
El estadístico de prueba es la ya conocida z
estandarizada de la distribución normal que
para 2 poblaciones se calcula como:
La única diferencia entre las fórmulas para calcular el
estadístico de prueba y el error estándar de la
diferencia entre 2 medias, cuando se utilizan datos
muestrales es que se sustituye
La única diferencia entre las fórmulas para calcular
el estadístico de prueba y el error estándar de la
diferencia entre 2 medias, cuando se utilizan datos
muestrales es que se sustituye
Cuando no se conocen las varianzas pero se asume que
son iguales
Se calcula el error estándar de la diferencia de medias de la
misma manera que se hizo antes pero ahora utilizando la
varianza combinada.
Cuando no se conocen las varianzas pero se asume que son
iguales
4.5 PRUEBA DE FISHER PARA VARIANZAS Y DE
IGUALDAD DE LAS VARIANZAS DE DOS
POBLACIONES NORMALES
Para probar si existe o no la diferencia entre las varianzas de dos poblaciones puede utilizarse como
estadístico de prueba de F de la distribución de F de Fisher.
Llamada así en honor del destacado estadístico Ronald Aylmer Fisher, que se calcula como el cociente de
las varianzas de dos poblaciones:
Que sería la expresión teoría de F. Y el valor calculado de F a partir de las varianzas
muestrales:
Para determinar los valores no mostrados, lo que se hace es utilizar el inverso del valor correspondiente
de las talas, invirtiendo el orden de los grados de libertad en símbolos:
4.6 COMPARACIONES DE DOS MUESTRAS PAREADAS
Pruebas para muestras pareadas cuando no se conocen las
varianzas pero no se necesita asumir que sean iguales
Se analizará el caso de la diferencia entre 2 medias
provenientes de poblaciones pareadas o relacionadas. Es
importante tener presentes las circunstancias de estos
casos:
• Se trata de
muestras
pareadas.
• Los tamaños
de muestras
son
pequeños.
• La variable
se distribuye
de forma
normal en la
población.
En este caso, la prueba se convierte
en una prueba sobre la diferencia
entre las observaciones, ya que se
calculan las diferencias entre:
1. Dos individuos de la misma especie sometidos a tratamientos
diferentes (paramiento de individuos según una característica de interés).
2. Dos mediciones hechas a los mismos individuos.
La media de la diferencia es:
Con el teorema del límite central, el promedio de las
diferencias sigue una distribución normal cuando se
conoce la varianza de las diferencias y n es grande. Pero
generalmente no se conoce la varianza de las
diferencias, entonces se estima:
4.7 MODELO TOTALMENTE ALEATORIO: ANÁLISIS DE VARIANZA DE UN FACTOR
Se extraen dos muestras aleatorias independientes de tamaño
respectivamente, de dos poblaciones con medias
y varianzas
Sabemos que la variable aleatoria tiene una
distribución normal estándar.
4.8 SELECCIÓN DEL TAMAÑO DE MUESTRA PARA ESTIMAR LA DIFERENCIA DE
DOS MEDIAS
Se puede utilizar un procedimiento similar para determinar el tamaño de la
muestra n=n_1=n_2 que se requiere para una potencia específica de la prueba
en que se comparan dos medias poblacionales.
Por ejemplo, suponga que deseamos probar la hipótesis cuando se conocen
Para una alternativa específica, digamos, μ_1-μ_2=do+δ en la figura se muestra que la potencia de
nuestra prueba es:
Cuando se desconoce la varianza poblacional (o varianzas en la situación de dos muestras), la elección
del tamaño de la muestra no es directa. Al probar la hipótesis
No sigue una distribución t, como podría esperarse, sino que más bien sigue la distribución t no central
para determinar el tamaño adecuado de la muestra, si dispone de alguna estimación de σ o si δ es un
múltiplo de σ.
En el caso de la prueba t de dos muestras en la que se desconocen las varianzas, pero se suponen
iguales, obtenemos los tamaños muéstrales n = n1 = n2 necesarios para controlar los valores de α y β
para diversos valores de