¿Qué procedimiento se
sigue para analizar
cuantitativamente los
datos?
Una vez que los datos se han codificado,
transferido a una matriz, guardado en un
archivo y “limpiado” los errores, el
investigador procede a analizarlos
El análisis cuantitativo de los datos se
lleva a cabo por computadora u
ordenador. Ya casi nadie lo hace de
forma manual ni aplicando fórmulas, en
especial si hay un volumen considerable
de datos.
Proceso para efectuar
análisis estadístico.
Paso 1: seleccionar un
programa de análisis
Hay diversos programas
para analizar datos
El SPSS (Paquete Estadístico para las
Ciencias Sociales), desarrollado en la
Universidad de Chicago, es uno de los
más difundidos y actualmente es
propiedad de IBM®
El paquete IBM® SPSS trabaja de una
manera muy sencilla: éste abre la matriz
de datos y el investigador usuario
selecciona las opciones más apropiadas
para su análisis, tal como se hace en otros
programas
Minitab es un paquete que goza de popularidad
por su relativo bajo costo. Incluye un
considerable número de pruebas estadísticas y
cuenta con un tutorial para aprender a utilizarlo
y practicar; además, es muy sencillo de manejar
Otro programa de análisis sumamente difundido es el SAS (Sistema
de Análisis Estadístico), que fue diseñado en la Universidad de
Carolina del Norte. Es muy poderoso y su utilización se ha
incrementado notablemente. Es un paquete muy completo para
computadoras personales que contiene una variedad considerable
de pruebas estadísticas (análisis de varianza, regresión, análisis de
datos categóricos, análisis no paramétricos, etc.)
Por otro lado, en internet se encuentran
diversos programas gratuitos de análisis
estadístico para cualquier ciencia o disciplina.
Paso 2: ejecutar el
programa
La mayoría de los programas son fáciles de usar,
pues lo único que hay que hacer es solicitar los
análisis requeridos seleccionando las opciones
apropiadas.
Paso 3:
explorar los
datos
inmediata a la ejecución del programa, se inicia el
análisis. Cabe señalar que si hemos llevado a cabo la
investigación reflexionando paso a paso, la fase
analítica es relativamente sencilla, porque:
1) formulamos las preguntas de
investigación que pretendemos contestar
2) visualizamos un alcance (exploratorio,
descriptivo, correlacional o explicativo)
3) establecimos nuestras hipótesis (o
estamos conscientes de que no las
tenemos
4) definimos las
variables
5) elaboramos un instrumento (conocemos qué ítems o
indicadores miden qué variables y qué nivel de medición tiene
cada variable: nominal, ordinal, de intervalos o razón)
6) recolectamos los datos. Sabemos qué
deseamos hacer, es decir, tenemos
claridad
es necesario realizar un par de apuntes, uno
sobre las variables del estudio y las variables de
la matriz de datos, y el otro sobre los factores de
los que depende el análisis
Apunte
1
Las variables de la matriz de datos son columnas que
constituyen indicadores o ítems. Las variables de la
investigación son las propiedades medidas y que forman parte
de las hipótesis o que se pretenden describir (género, edad,
actitud hacia el presidente municipal, inteligencia, duración de
un material, presión arterial, etc.)
Y cuando las variables de la investigación se integran de varios ítems o
variables en la matriz, las columnas pueden ser continuas o no (estar
ubicadas de manera seguida o en distintas partes de la matriz). En el
cuarto ejemplo (variable “moral de los empleados”), las preguntas podrían
ser las número 1, 2, 3, 4 y 5 del cuestionario; entonces, las primeras cinco
columnas de la matriz representarán a estos ítems
Apunte
2
Los análisis de los datos
dependen de tres factores
a) El nivel de medición de las
variables. b) La manera como
se hayan formulado las
hipótesis. c) El interés analítico
del investigador (que depende
del planteamiento del
problema)
El investigador busca, en primer término, describir sus datos y
posteriormente efectuar análisis estadísticos para relacionar
sus variables. Es decir, realiza análisis de estadística
descriptiva para cada una de las variables de la matriz (ítems o
indicadores) y luego para cada una de las variables del estudio,
finalmente aplica cálculos estadísticos para probar sus
hipótesis.
Estadística descriptiva para cada
variable
La primera tarea es describir los datos, los valores o las puntuaciones
obtenidas para cada variable. Por ejemplo, si aplicamos a 2 112 niños el
cuestionario sobre los usos y las gratificaciones que la televisión tiene
para ellos, ¿cómo pueden describirse estos datos? Esto se logra al
describir la distribución de las puntuaciones o frecuencias de cada
variable.
¿Qué es una distribución
de frecuencias?
Una distribución de frecuencias es un conjunto de
puntuaciones respecto de una variable ordenadas
en sus respectivas categorías y generalmente se
presenta como una tabla
A veces, las categorías de las distribuciones de
frecuencias son tantas que es necesario resumirlas. por
ejemplo se puede resumir en intervalos
¿Qué otros elementos contiene una
distribución de frecuencias?
Las distribuciones de frecuencias pueden
completarse agregando los porcentajes de casos en
cada categoría, los porcentajes válidos (excluyendo
los valores perdidos) y los porcentajes acumulados
(porcentaje de lo que se va acumulando en cada
categoría, desde la más baja hasta la más alta)
El porcentaje acumulado constituye lo que aumenta
en cada categoría de manera porcentual y
progresiva (en orden de aparición de las categorías),
tomando en cuenta los porcentajes válidos.
Las columnas porcentaje y porcentaje válido son iguales
(mismas cifras o valores) cuando no hay valores perdidos;
pero si tenemos valores perdidos, la columna porcentaje
válido presenta los cálculos sobre el total menos tales
valores
¿De qué otra manera pueden
presentarse las distribuciones de
frecuencias?
Las distribuciones de frecuencias, especialmente cuando
utilizamos los porcentajes, pueden presentarse en forma
de histogramas o gráficas de otro tipo (por ejemplo: de
pastel).
SPSS, Minitab y SAS producen tales gráficas, o bien, los datos
pueden exportarse a otros programas o paquetes que las generan
(de cualquier tipo, a colores, utilizando efectos de movimiento y en
tercera dimensión, como por ejemplo: Power Point)
Las distribuciones de frecuencias
también se pueden graficar como
polígonos de frecuencias
Los polígonos de frecuencias relacionan las
puntuaciones con sus respectivas frecuencias. Es más
bien propio de un nivel de medición por intervalos o
razón.
Los polígonos se construyen sobre los puntos medios de los
intervalos. Por ejemplo, si los intervalos fueran 20-24,, y
siguientes; los puntos medios serían 22, . SPSS o Minitab realizan
esta labor en forma automática
¿Cuáles son las medidas de tendencia
central?
Las medidas de tendencia central son puntos en
una distribución obtenida, los valores medios o
centrales de ésta, y nos ayudan a ubicarla dentro
de la escala de medición de la variable analizada.
Las principales medidas de tendencia central son
tres: moda, mediana y media. El nivel de
medición de la variable determina cuál es la
medida de tendencia central apropiada para
interpretar
La moda
es la categoría o puntuación que
ocurre con mayor frecuencia
La
media
Es tal vez la medida de tendencia central más utilizada, y puede
definirse como el promedio aritmético de una distribución. Se
simboliza como X , y es la suma de todos los valores dividida entre
el número de casos. Es una medida solamente aplicable a
mediciones por intervalos o de razón. Carece de sentido para
variables medidas en un nivel nominal u ordinal. Resulta sensible
a valores extremos
La
mediana
es el valor que divide la distribución por la mitad. Esto es,
la mitad de los casos caen por debajo de la mediana y la
otra mitad se ubica por encima de ésta. La mediana
refleja la posición intermedia de la distribución
¿Cuáles son las medidas de la
variabilidad?
Las medidas de la variabilidad indican la dispersión de los datos en
la escala de medición de la variable considerada y responden a la
pregunta: ¿dónde están diseminadas las puntuaciones o los valores
obtenidos? Las medidas de tendencia central son valores en una
distribución y las medidas de la variabilidad son intervalos que
designan distancias o un número de unidades en la escala de
medición
Las medidas de la variabilidad más utilizadas
son
El rango
También llamado recorrido, es la diferencia entre
la puntuación mayor y la puntuación menor, e
indica el número de unidades en la escala de
medición que se necesitan para incluir los valores
máximo y mínimo, Cuanto más grande sea el
rango, mayor será la dispersión de los datos de
una distribución
La desviación
estándar
Es el promedio de desviación de las puntuaciones
con respecto a la media, Esta medida se expresa en
las unidades originales de medición de la
distribución. Se interpreta en relación con la media.
Cuanto mayor sea la dispersión de los datos
alrededor de la media, mayor será la desviación
estándar.
La
varianza
La varianza es la desviación estándar elevada al
cuadrado y se simboliza como s 2 . Es un concepto
estadístico muy importante, ya que la mayoría de
las pruebas cuantitativas se fundamentan en él.
Diversos métodos estadísticos parten de la
descomposición de la varianza,
¿Cómo se interpretan las medidas de
tendencia central y de la variabilidad?
al describir nuestros datos, respecto a cada variable del estudio,
interpretamos las medidas de tendencia central y de la
variabilidad en conjunto, no aisladamente. Consideramos
todos los valores. Para interpretarlos, lo primero que hacemos
es tomar en cuenta el rango potencial de la escala
¿Hay alguna otra estadística
descriptiva?
Sí, la asimetría y la curtosis. Los polígonos de frecuencia son curvas,
por ello se representan como tales para que puedan analizarse en
términos de probabilidad y visualizar su grado de dispersión. Estos dos
elementos resultan esenciales para analizar estas curvas o polígonos
de frecuencias
La asimetría es una estadística necesaria para conocer
cuánto se parece nuestra distribución a una distribución
teórica llamada curva normal y constituye un indicador del
lado de la curva donde se agrupan las frecuencias. Si es cero
(asimetría = 0), la curva o distribución es simétrica
La curtosis es un indicador de lo plana o “picuda” que
es una curva. Cuando es cero (curtosis = 0), significa
que puede tratarse de una curva normal. Si es positiva,
quiere decir que la curva, la distribución o el polígono
es más “picudo” o elevado. Si la curtosis es negativa,
indica que es más plana la curva
La asimetría y la curtosis requieren al
menos un nivel de medición por
intervalos
¿Cómo se traducen las
estadísticas descriptivas al
inglés?
Algunos programas y paquetes estadísticos
computacionales pueden realizar el cálculo de las
estadísticas descriptivas, cuyos resultados aparecen junto al
nombre respectivo de éstas, muchas veces en inglés
Nota
final
Debe recordarse que en una investigación
se obtiene una distribución de frecuencias
y se calculan las estadísticas descriptivas
para cada variable, las que se necesiten de
acuerdo con los propósitos de la
investigación y los niveles de medición
Puntuaciones z
Las puntuaciones z son transformaciones que se pueden
hacer a los valores o las puntuaciones obtenidas, con el
propósito de analizar su distancia respecto a la media, en
unidades de desviación estándar. Una puntuación z nos
indica la dirección y el grado en que un valor individual
obtenido se aleja de la media, en una escala de unidades de
desviación estándar
Razones y
tasas
Una tasa es la relación entre el número de casos,
frecuencias o eventos de una categoría y el número total de
observaciones, multiplicada por un múltiplo de 10,
generalmente 100 o 1 000
Corolario
Hemos analizado descriptivamente los datos por variable del estudio y los visualizamos gráficamente. En caso
de que alguna distribución resulte ilógica, debemos cuestionarnos si la variable debe ser excluida, sea por
errores del instrumento de medición o en la recolección de los datos, ya que la codificación puede ser
verificada. Supongamos que en una investigación en empresas, al medir la satisfacción laboral, resulta que
90% se encuentra “sumamente satisfecho” (¿es lógico?)
Proceso para efectuar el
analisis estadistico
(cont)
Paso 4: evaluar la confiabilidad o
fiabilidad y validez lograda por el
instrumento de medición
La confiabilidad se calcula y evalúa para todo el
instrumento de medición utilizado, o bien, si se
administraron varios instrumentos, se determina para
cada uno de ellos. Asimismo, es común que el instrumento
contenga varias escalas para diferentes variables o
dimensiones, entonces la fiabilidad se establece para cada
escala y para el total de escalas
Los procedimientos más utilizados
para determinar la confiabilidad
mediante un coeficiente son:
1. Medida de estabilidad (confiabilidad por test-retest). En este
procedimiento un mismo instrumento de medición se aplica dos o más
veces a un mismo grupo de personas o casos, después de cierto periodo.
Si la correlación entre los resultados de las diferentes aplicaciones es muy
positiva, el instrumento se considera confiable
2. Método de formas alternativas o paralelas. En este esquema no se administra el mismo instrumento de
medición, sino dos o más versiones equivalentes de éste. Las versiones (casi siempre dos) son similares en
contenido, instrucciones, duración y otras características, y se administran a un mismo grupo de personas
simultáneamente o dentro de un periodo corto. El instrumento es confiable si la correlación entre los
resultados de ambas administraciones es positiva de manera significativa (
3. Método de mitades partidas (split-halves). Los procedimientos anteriores requieren cuando menos dos
administraciones de la medición en la muestra. En cambio, el método de mitades partidas necesita sólo
una aplicación de la medición. Específicamente, el conjunto total de ítems o reactivos se divide en dos
mitades equivalentes y se comparan las puntuaciones o resultados de ambas.
4. Medidas de coherencia o consistencia interna. Éstos son coeficientes que estiman la confiabilidad: a) el alfa
de Cronbach (desarrollado por J.L. Cronbach) y b) los coeficientes KR-20 y KR-21 de Kuder y Richardson (1937). El
método de cálculo de éstos requiere una sola administración del instrumento de medición. Su ventaja reside en
que no es necesario dividir en dos mitades a los ítems del instrumento, simplemente se aplica la medición y se
calcula el coeficient
Validez
La evidencia de la validez de criterio se produce al correlacionar las
puntuaciones de los participantes, obtenidas por medio del
instrumento, con sus valores logrados en el criterio. Recordemos que
una correlación implica asociar puntuaciones obtenidas por la
muestra en dos o más variables. Por ejemplo, Núñez (2001), además
de aplicar su instrumento sobre el sentido de vida, administró otras
dos pruebas que teóricamente miden variables similares: el PIL
(Propósito de Vida) y el Logo-test de Elizabeth Lukas.
Para cada escala, una vez que se determina la confiabilidad (de 0 a
1) y se muestra la evidencia sobre la validez, si algunos ítems son
problemáticos (no discriminan, no se vinculan a otros ítems, van en
sentido contrario a toda la escala, no miden lo mismo, etc.), se
eliminan de los cálculos (pero en el reporte de la investigación, se
indica cuáles fueron descartados, las razones de ello y cómo
alteran los resultados); posteriormente se vuelve a realizar el
análisis descriptivo
¿Hasta aquí
llegamos?
Cuando el estudio tiene una finalidad puramente exploratoria o
descriptiva, debemos interrogarnos: ¿podemos establecer
relaciones entre variables? En caso de una respuesta positiva, es
factible seguir con la estadística inferencial; pero si dudamos o el
alcance se limitó a explorar y describir, el trabajo de análisis
concluye y debemos comenzar a preparar el reporte de la
investigación
Paso 5: analizar mediante pruebas
estadísticas las hipótesis planteadas
(análisis estadístico inferencial)
Estadística inferencial:
de la muestra a la
población
Estadística para probar hipótesis y estimar parámetros, La inferencia de los
parámetros depende de que hayamos elegido una muestra probabilística con
un tamaño que asegure un nivel de significancia o significación adecuado
¿En qué consiste la
prueba de hipótesis?
Una hipótesis en el contexto de la estadística inferencial
es una proposición respecto de uno o varios parámetros,
y lo que el investigador hace por medio de la prueba de
hipótesis es determinar si la hipótesis poblacional es
congruente con los datos obtenidos en la muestra
Una hipótesis se retiene como un valor aceptable del parámetro, si es consistente con los datos. Si
no lo es, se rechaza (pero los datos no se descartan). Para comprender lo que es la prueba de
hipótesis en la estadística inferencial es necesario revisar los conceptos de distribución muestral14 y
nivel de significancia
¿Qué es una
distribución muestral?
es un conjunto de valores sobre una estadística calculada de
todas las muestras posibles de determinado tamaño de una
población (Bond, 2007a). Las distribuciones muestrales de
medias son probablemente las más conocidas.
Supongamos que nuestro universo son los automovilistas
de una ciudad y deseamos averiguar cuánto tiempo pasan
diariamente manejando (“al volante”). De este universo
podría extraerse una muestra representativa. Vamos a
suponer que el tamaño adecuado de muestra es de 512
automovilistas (n = 512). Del mismo universo se podrían
extraer diferentes muestras, cada una con 512 personas
distribucion
normal
Distribución normal Distribución en forma de
campana que se logra con muestras de 100 o más
unidades muestrales y que es útil y necesaria cuando
se hacen inferencias estadísticas.
Las principales características de
la distribución normal son:
1. Es unimodal, una sola moda. 2. La asimetría es cero. La mitad de la curva es exactamente igual a
la otra mitad. La distancia entre la media y −3s es la misma que la distancia entre la media y +3s. 3.
Es una función particular entre desviaciones con respecto a la media de una distribución y la
probabilidad de que éstas ocurran
4. La base está dada en unidades de desviación estándar
(puntuaciones z), destacando las puntuaciones –1s, −2s, –3s, +1s,
+2s y +3s (que equivalen respectivamente a −1.00z, −2.00z, −3.00z,
+1.00z, +2.00z, +3.00z). Las distancias entre puntuaciones z
representan áreas bajo la curva. De hecho, la distribución de
puntuaciones z es la curva normal. 5. Es mesocúrtica (curtosis de
cero). 6. La media, la mediana y la moda coinciden en el mismo
punto (el centro
¿Qué es el nivel de significancia o
significación?}
Nivel de la probabilidad de equivocarse y que fija
de manera a priori el investigador ( de 0 a 1)
Existen dos niveles convenidos en las ciencias: a) El nivel de significancia de 0.05, el cual implica que
el investigador tiene 95% de seguridad para generalizar sin equivocarse y sólo 5% en contra. En
términos de probabilidad, 0.95 y 0.05, respectivamente; ambos suman la unidad. Este nivel es el más
común en ciencias sociales. b) El nivel de significancia de 0.01, el cual implica que el investigador
tiene 99% en su favor y 1% en contra (0.99 y 0.01 = 1.00) para generalizar sin temor. Muy utilizado
cuando las generalizaciones implican riesgos vitales para las personas
¿Cómo se relacionan la
distribución muestral y el nivel de
significancia?
El nivel de significancia o significación se expresa en términos de probabilidad (0.05 y 0.01) y
la distribución muestral también como probabilidad (el área total de ésta como 1.00). Pues
bien, para ver si existe o no confianza al generalizar acudimos a la distribución muestral, con
una probabilidad adecuada para la investigación. Dicho nivel lo tomamos como un área bajo
la distribución muestral, , y depende de si elegimos un nivel de 0.05 o de 0.01. Es decir, que
nuestro valor estimado en la muestra no se encuentre en el área de riesgo y estemos lejos
del valor de la distribución muestral, que insistimos es muy cercano al de la población
¿Se pueden cometer errores al probar
hipótesis y realizar estadística
inferencial?
Nunca estaremos completamente seguros de
nuestra estimación. Trabajamos con altos niveles
de confianza o seguridad, pero, aunque el riesgo
es mínimo, podría cometerse un error. Los
resultados posibles al probar hipótesis son: 18 1.
Aceptar una hipótesis verdadera (decisión
correcta). 2. Rechazar una hipótesis falsa (decisión
correcta). 3. Aceptar una hipótesis falsa (conocido
como error del Tipo II o error beta). 4. Rechazar
una hipótesis verdadera (conocido como error del
Tipo I o error alfa)
Ambos tipos de error son indeseables; sin embargo,
puede reducirse sustancialmente la posibilidad de
que se presenten mediante: a) Muestras
probabilísticas representativas. b) Inspección
cuidadosa de los datos. c) Selección de las pruebas
estadísticas apropiadas. d) Mayor conocimiento de
la población.
análisis multivariados. Paso 7: preparar los
resultados para presentarlos
Se recomienda, una vez que se obtengan los resultados de los
análisis estadísticos (tablas, gráficas, cuadros, etc.), las
siguientes actividades, sobre todo para quienes se inician en
la investigación
1. Revisar cada resultado [análisis general → análisis
específico → valores resultantes (incluida la
significación) → tablas, diagramas, cuadros y gráficas].
2. Organizar los resultados (primero los descriptivos, por variable
del estudio; luego los resultados relativos a la confiabilidad y la
validez; posteriormente los inferenciales, que se pueden ordenar
por hipótesis o de acuerdo con su desarrollo)
3. Cotejar diferentes resultados: su congruencia y en
caso de inconsistencia lógica volverlos a revisar.
Asimismo, se debe evitar la combinación de tablas,
diagramas o gráficas que repitan datos. Por lo
común, columnas o filas idénticas de datos no
deben aparecer en dos o más tabla
4. Priorizar la información más valiosa (que es en gran
parte resultado de la actividad anterior), sobre todo si se
van a producir reportes ejecutivos y otros más extensos.
5. Copiar o “formatear” las tablas en el programa con el cual se
elaborará el reporte de la investigación (procesador de textos —como
Word— o uno para presentaciones, como Power Point, Flash, Prezi).
Algunos programas como SPSS y Minitab permiten que se transfieran
los resultados (tablas, por ejemplo) directamente a otro programa
(copiar y pegar)
6. Comentar o describir brevemente la esencia de los análisis,
valores, tablas, diagramas, gráficas. 7. Volver a revisar los
resultados. 8. Y, finalmente, elaborar el reporte de investigación
Prueba de hipótesis
Hay dos tipos de análisis estadísticos que pueden realizarse para probar
hipótesis: los análisis paramétricos y los no paramétricos. Cada tipo
posee sus características y presuposiciones que lo sustentan; la elección
de qué clase de análisis efectuar depende de los supuestos
analisis
parametricos
Para realizar análisis paramétricos debe
partirse de los siguientes supuestos:19 1. La
distribución poblacional de la variable
dependiente es normal: el universo tiene
una distribución normal. 2. El nivel de
medición de las variables es por intervalos
o razón. 3. Cuando dos o más poblaciones
son estudiadas, tienen una varianza
homogénea: las poblaciones en cuestión
poseen una dispersión similar en sus
distribucione
Ciertamente estos criterios son tal vez demasiado rigurosos
y algunos investigadores sólo basan sus análisis en el tipo
de hipótesis y los niveles de medición de las variables. Esto
queda a juicio del lector. En la investigación académica y
cuando quien la realiza es una persona experimentada, sí
debe solicitársele tal rigor
¿Cuáles son los métodos o las
pruebas estadísticas
paramétricas más utilizados?
Existen diversas pruebas
paramétricas, pero las más
utilizadas son: • Coeficiente de
correlación de Pearson y regresión
lineal. • Prueba t. • Prueba de
contraste de la diferencia de
proporciones. • Análisis de varianza
unidireccional (ANOVA en un
sentido). • Análisis de varianza
factorial (ANOVA). • Análisis de
covarianza (ANCOVA)
¿Qué es el coeficiente de
correlación de Pearson?
Es una prueba estadística para analizar
la relación entre dos variables medidas
en un nivel por intervalos o de razón. Se
le conoce también como “coeficiente
producto-momento”. Se simboliza: r, El
coeficiente de correlación de Pearson se
calcula a partir de las puntuaciones
obtenidas en una muestra en dos
variables. Se relacionan las
puntuaciones recolectadas de una
variable con las puntuaciones obtenidas
de la otra, con los mismos participantes
o casos
¿Qué es la regresión
lineal?
Es un modelo estadístico para
estimar el efecto de una variable
sobre otra. Está asociado con el
coeficiente r de Pearson. Brinda la
oportunidad de predecir las
puntuaciones de una variable a
partir de las puntuaciones de la
otra variable. Entre mayor sea la
correlación entre las variables
(covariación), mayor capacidad de
predicción.
¿Qué es la prueba t?
Es una prueba estadística para evaluar si dos
grupos difieren entre sí de manera significativa
respecto a sus medias en una variable. Se
simboliza: t., Los grupos pueden ser dos
plantas comparadas en su productividad, dos
escuelas contrastadas en los resultados a un
examen, dos clases de materiales de
construcción cotejados en su rendimiento, dos
medicamentos comparados en su efecto,
etcétera
¿Qué es el
tamaño del
efecto?
Al comparar grupos, en este caso con la
prueba t, es importante determinar el
tamaño del efecto, que es una medida de la
“fuerza” de la diferencia de las medias u
otros valores considerados (Creswell, 2013a;
Alhija y Levy, 2009; y Cortina, 2003). Resulta
ser una medida en unidades de desviación
estándar. ¿Cómo se calcula? El tamaño del
efecto es justo la diferencia estandarizada
entre las medias de los dos grupos
¿Qué es la prueba de
diferencia de
proporciones?
s una prueba estadística para analizar si dos
proporciones o porcentajes difieren
significativamente entre si, , Con esta prueba
podemos analizar, por ejemplo, si el porcentaje de
mujeres con cáncer de mama es significativamente
diferente en dos comunidades, si el porcentaje de
errores en la producción de arneses automotrices es
significativamente distinto en dos plantas, si el
porcentaje de reprobados es significativamente
desigual entre los alumnos de bachillerato del turno
matutino y del vespertino, etc.
¿Qué es el análisis de varianza
unidireccional o de un factor?
(ANOVA one-way
Es una prueba estadística para
analizar si más de dos grupos
difieren significativamente entre sí
en cuanto a sus medias y varianzas.
La prueba t se aplica para dos grupos
y el análisis de varianza
unidireccional se usa para tres,
cuatro o más grupos. Aunque con
dos grupos se puede utilizar también
analisis no
parametricos
Para realizar los análisis no paramétricos debe
partirse de las siguientes consideraciones:29 1. La
mayoría de estos análisis no requieren de
presupuestos acerca de la forma de la distribución
poblacional. Aceptan distribuciones no normales
(distribuciones “libres”). 2. Las variables no
necesariamente tienen que estar medidas en un
nivel por intervalos o de razón; pueden analizar
datos nominales u ordinales. De hecho, si se quieren
aplicar análisis no paramétricos a datos por
intervalos o razón, éstos necesitan resumirse a
categorías discretas (a unas cuantas). Las variables
deben ser categóricas
¿Cuáles son los métodos o
las pruebas estadísticas
no paramétricas más
utilizados?
Las pruebas no paramétricas más utilizadas
son:30 1. La chi cuadrada o 2 . 2. Los coeficientes
de correlación e independencia para tabulaciones
cruzadas. 3. Los coeficientes de correlación por
rangos ordenados de Spearman y Kendall
¿Qué es la Chi cuadrada o
2 ?
Prueba estadística para
evaluar hipótesis acerca
de la relación entre dos
variables categóricas.
EJ;: a Chi cuadrada es: máquina utilizada en la fabricación de
tornillos (cuatro categorías: máquina 1, máquina 2, máquina 3
y máquina 4) y calidad de la pieza (dos categorías: defectuosa
o sin defectos), para analizar diferencias por máquina.
La Chi cuadrada se puede obtener a través de los programas
estadísticos o mediante STATS®. En SPSS el programa produce un
resumen de los casos válidos y perdidos para cada variable (N y
porcentaje) y una tabla de contingencia sencilla, como la 10.17, o
bien una tabla más compleja con diversos resultados por celda
¿Qué son los coeficientes
de correlación e
independencia para
tabulaciones cruzadas?
Además de la Chi
cuadrada, hay otros
coeficientes para evaluar
si las variables incluidas
en la tabla de
contingencia o tabulación
cruzada están
correlacionadas
¿Qué otra aplicación tienen las
tablas de contingencia?
Las tablas de contingencia,
además de servir para el cálculo
de Chi cuadrada y otros
coeficientes, son útiles para
describir conjuntamente dos o
más variables. Esto se efectúa al
convertir las frecuencias
observadas en frecuencias
relativas o porcentajes. En una
tabulación cruzada puede haber
tres tipos de porcentajes
respecto de cada celda
Otros coeficientes de correlación
¿Qué son los coeficientes y
la correlación por rangos
ordenados de Spearman y
Kendall?
Los coeficientes rho de Spearman, simbolizado
como rs, y tau de Kendall, simbolizado como t,
son medidas de correlación para variables en un
nivel de medición ordinal (ambas), de tal modo
que los individuos, casos o unidades de análisis
de la muestra pueden ordenarse por rangos
(jerarquías). Son coeficientes utilizados para
relacionarestadísticamente escalas tipo Likert
por aquellos investigadores que las consideran
ordinales.
Por ejemplo, supongamos que tenemos
para refrescos embotellados o sodas las
variables “preferencia en el sabor” y
“atractivo del envase”, y queremos
asociarlas estadísticamente, entonces
pedimos a un grupo de personas
representativas del mercado que evalúen
conjuntamente 10 marcas específicas y las
ordenen del 1 al 10
¿Qué otros coeficientes hay?
Un coeficiente muy importante es el Eta, que es similar al
coeficiente r de Pearson, pero con relaciones no lineales,
las cuales se comentaron anteriormente. Es decir, Eta
define la “correlación perfecta” (1.00) como curvilineal y a
la “relación nula” (0.0) como la independencia estadística
de las variables. Este coeficiente es asimétrico, cuando se
revisa Lambda), y a diferencia de Pearson, se puede
obtener un valor diferente para el coeficiente al
determinar cuál variable se considera independiente y
cuál dependiente. Eta2 es interpretada como el
porcentaje de la varianza en la variable dependiente
explicado por la independiente
Una vista general a los
procedimientos o
pruebas estadísticas
los principales métodos estadísticos. En la primera se considera: a) el tipo de pregunta de
investigación (descriptiva, de diferencia de grupos, correlacional o causal), b) el número de
variables involucradas, c) nivel de medición de las variables o tipo de datos y d) en comparación de
grupos, si son muestras independientes o correlacionadas. En este último punto, las muestras
independientes se seleccionan de manera que no exista ninguna relación entre los casos de las
muestras; por ejemplo, un grupo experimental y uno de control en un experimento. No hay ningún
emparejamiento de las observaciones entre las muestras. Mientras que en las correlacionadas sí
existe una relación entre las unidades o participantes de las muestras
Estadística multivariada
Hasta aquí hemos visto pruebas paramétricas con
una sola variable independiente y una
dependiente. ¿Pero qué ocurre cuando tenemos
diversas variables independientes y una
dependiente, varias independientes y
dependientes?
Paso 6: realizar análisis
adicionales
Este paso implica simplemente que una vez realizados nuestros análisis,
es posible que decidamos ejecutar otros análisis o pruebas extras para
confirmar tendencias y evaluar los datos desde diferentes ángulos. Por
ejemplo, podemos en una tabla de contingencia calcular primero Chi
cuadrada y luego Phi, Lambda, T de Cramer (C) y el coeficiente de
contingencia. O después de un ANOVA, efectuar os contrastes
posteriores que consideremos apropiados