En cualquier estudios descriptivo,N es un estadístico y la media aritmética es un parámetro
Las variables cuantitativas discretas poseen más información intrínseca que las variables categóricas nominales.
La variable edad puede ser cuantitativa discreta como cualitativa ordinal.
Una tabla de distribución de frecuencias absolutas para una variable cuantitativa, coincide con su tabla de contingencia.
sí la fi es multiplicada por 100, proporciona el porcentaje del valor de la variable estudiada.
La suma de las frecuencia relativas de una variable, coincide con el tamaño de la muestra.
En una muestra de lince ibérico, el número de machos dividido entre el total de linces capturados es una frecuencia relativa.
La marca de clase, se utiliza en el caso de variables cuantitativas agrupadas en intervalos de valores, para el cálculo de los estadísticos descriptivos.
La moda siempre es la frecuencia más alta y no tiene por qué ser única.
Una ventaja de la media aritmética es que no depende de todas las observaciones.
A la diferencia entre el máximo y el mínimo percentil, se le denomina RI.
La varianza indica la dispersión en las mismas unidades que las de los datos analizados.
Las medidas de tendencia central proporcionan la misma información, que las de dispersión, pero expresadas de distinta forma.
El cuantil más adecuado para analizar la tendencia central de una distribución claramente asimétrica, es el D5
El p50, cuando la distribución es asimétrica, no coincide con la mediana.
Para los mismos datos, la media aritmética, harmónica y geométrica, coinciden si la distribución es simétrica.
El CV es menor que la S sólo cuando la distribución es leptocúrtica.
Los percentiles son medidas de dispersión, los cuartiles de posición.
Todas las medidas de tendencia central indican al mismo tiempo la posición de un valor de la variable.
Las medidas de dispersión, nos indican la representatividad de la medida de tendencia central utilizada.
Una S= -0,3 para la variable nº de huevos/nido, indica una dispersión inversa
La covarianza es una medida de dispersión de la media que puede presentar valores negativos.
El error estándar de la media me indica la representatividad de la media en la muestra.
El p28 es igual o menor que 7, indica que la dispersión es pequeña.
El valor de la variable que verifica que el 75% de las observaciones son mayores o iguales que él y el otros 25% menores que él p75.
Para comparar la dispersión de dos variables medidas en distintas unidades, utilizaría el recorrido intercuartílico, porque es adimensional.
Cuando existe asimetría, la variabilidad no afecta a la representatividad de la medida de tendencia central utilizada.
La media de la variable edad es representativa de una distribución con una dispersión de 0,01, aunque presente asimetría (Ap2=-0,3) y apuntamiento (G2=0,4).
Cuando G2>3, la distribución es leptocúrtica.
Cuando existe asimetría negativa, la media es más pequeña que la mediana.
El apuntamiento de una distribución informa de forma complementaria sobre la representatividad de la tendencia central.
Una distribución con curtosis positiva nunca puede ser asimétrica a la derecha.
En general, cuanto menos apuntamiento presente la distribución, menor será el RI.
A menor simetría de la distribución, menor representatividad de la media.
Cuando existe una distribución bimodal, no puede calcularse la simetría.
No es posible que exista asimetría a la derecha y que la Mo sea más grande que la mediana.
El CV es más grande cuanto más apuntada sea la distribución de la variable.
La probabilidad asociada a todo suceso, una ver producido, es siempre la misma.
La probabilidad asociada a todo suceso, es un número real P(A) que verifica 0<P(A)<1.
La distribución Ji-cuadrado y de la t de Student, salvo en los grados de libertad, es la misma.
En una distribución N(40,6), el área bajo la curva a la derecha de 32 es menor de 0,5
En una distribución Z, el área bajo la curva a la izquierda de 1 es mayor de 0,99.
En una distribución normal de parámetros desconocidos, el área bajo la curva comprendida entre la media ±S, es aproximadamente del 69%.
El rango de valores de la t de Student es todo el eje real.
La distribución t de student tiene mayor dispersión que la distribución Z y es la que se emplea cuando tenemos muestras grandes y varianzas poblacionales conocidas.
En una distribución Chi-cuadrado, los valores críticos nunca pueden ser negativos.
En un muestreo aleatorio simple, cada individuo de la población no tiene la misma probabilidad de ser elegido como parte de la muestra.
En un muestreo no probabilístico, los individuos tienen la misma probabilidad de ser incluidos en la muestra.
En un muestreo estratificado se divide la población en estratos homogéneos, y en cada estrato se realiza un muestreo al azar.
El muestreo por cuotas es un muestreo probabilístico, porque asegura proporcionalidad.
La pregunta "¿Desea usted una autovía al lado de su casa: sí no ns/nc" es una pregunta abierta.
El transecto es un método de muestreo probabilístico de estimación de la diversidad.
Los cuadrados puntuales se utilizan en cuestionarios sociodemográficos.
Un estimador eficiente es siempre igual al verdadero parámetro a estimar.
Un estimador eficiente, de entre todos los posibles, es el que tiene la dispersión más pequeña.
Cuando existe asimetría, la mediana muestral es un estimador eficiente de µ.
la Cuasi desviación típica muestral es un estimador eficiente de la dispersión poblacional.
Una vez obtenido el intervalo de confianza al 95% de una muestra concreta sobre un parámetro poblacional, se puede afirmar que la probabilidad de que el intervalo calculado contenga al verdadero valor del parámetro poblacional es de 0,05.
El intervalo de confianza al 95% sobre un parámetro poblacional en una muestra concreta nos asegura que una vez calculado, tendremos una probabilidad del 95% de que contenga al verdadero parámetro poblacional.
Un intervalo de confianza para un nivel de significación dado, será tanto más preciso cuanto menor amplitud tenga.
En un contraste de hipótesis, el error tipo I viene definido como el error que se comete cuando se rechaza la hipótesis nula siendo realmente verdadera.
En un contraste de hipótesis el error tipo II viene definido como el error que se comete cuando se rechaza la hipótesis nula siendo realmente verdadera.
Sí el contraste de hipótesis para la tendencia central de dos poblaciones resulta altamente significativo, podemos afirmar que existe una fuerte asociación entre las dos variables.
El EC para la media poblacional de una distribución normal cuando la varianza es desconocida y el tamaño muestral es pequeño, sigue una t de student con n-1 gl.
El contraste para la igualdad de medias de 2 poblaciones apareadas, se basa en las diferencias y es no paramétrico.
El test de Levene, es un test adecuado para decidir qué estadígrafo de contraste utilizar para contrastar la igualdad de medias de 2 poblaciones normales, independientes, muestras pequeñas y varianzas desconocidas.
El test U de Mann-Whitney se utiliza para contrastar tendencia central en términos de mediana.
Si rechazamos el contraste al 5% de nivel de significación, tendremos resultados NS.
el p-valor se corresponde con el área debajo de la curva que determina la región crítica.
Un p-valor=0.02 se corresponde siempre con un valor crítico muy pequeño.
En general, a mayor valor crítico en valor absoluto, mayor significación.
El valor crítico determina la RA, pero no la RC
Si rechazamos la H0 al 5%, es porque en el 95% de las ocasiones podemos equivocarnos.
Si el p-valor=0,000, aceptamos la hipótesis nula.
si la significación es **, es porque el p valor resultó mayor del 5%.
Si nos dan un p-valor de 0,02, rechazamos H0 al 5%, pero aceptamos al 1%.
Si nos dan un p-valor de 0,02, aceptamos H0 al 5% y la rechazamos al 1%.
El valor crítico determinar la RC, pero no la RA.
Cuando el valor experimental es pequeño, la región de aceptación es grande.
Si sólo tenemos el p-valor, pero no el valor experimental, no podemos concluir nada sobre la hipótesis de partida.
Un nivel de significación de 0,1 no se utiliza nunca en estadística.
Un p-valor de 0,01 nos lleva a rechazar la Ho con resultados *.
Aceptar la hipótesis nula (dado el caso) no significa necesariamente que no existan diferencias, simplemente es posible que no las hayamos detectado.
El ANOVA es el procedimiento adecuado para comparar dos o más variables cualitativas.
El ANOVA es un contraste que, independientemente de la hipótesis de interés para el investigador, siempre es unilateral superior.
La hipótesis nula en el ANOVA es que las muestras a estudio tienen la misma varianza.
Los supuestos de partida del ANOVA son Normalidad y Homocedasticidad.
El ANOVA es robusto frente a varianzas desiguales, si el diseño es balanceado.
Si el ANOVA resulta significativo, algunas medias poblacionales son distintas.
Si la interacción sale significativa, es interesante realizar los llamados constrastes tras el ANOVA, para determinar dónde están las diferencias encontradas en los factores.
Los valores críticos para el test de Tukey son mayores que los de la t de student para un mismo nivel de significación.
Si el test de Bonferroni detecta significación, los resultados no son significativos con el de Tukey.
Si el test de Tukey detecta significación, los resultados son significativos con el LSD.
Si el test LSD detecta significación, los resultados son significativos con Tukey y Bonferroni.
Sólo si acepto la hipótesis nula en el ANOVA , tiene sentido realizar contrastes POS HOC para saber donde se encuentra la significación.
El contraste para la igualdad de varianzas (Levene) y el ANOVA, utilizan un estadístico que bajo el supuesto de la H0 cierta, sigue una distribución F.
Las frecuencias esperadas en una tabla de contigencia, son el nº de individuos (o unidades experimentales) que cabría esperar en cada casilla si H0 es cierta.
Si el coeficiente de contingencia es 0,0001, entonces el contraste es altamente significativo.
La hipótesis nula de la que se parte en un contraste de asociación para tablas de contingencia es: las dos (o más) características en estudio están relacionadas.
El tratamiento estadístico de las tablas de contingencia está basado generalmente en la misma distribución teórica: La distribución Ji-cuadrado.
La búsqueda de las causas de significación en un análisis de tablas de contingencia, se realiza mediante el coeficiente de contingencia.
Si en el análisis de una tabla de contingencia observamos frecuencias pequeñas (menores a 5) en al menos el 20% de las celdas, entonces el resultado será plenamente fiable.
El valor crítico para una na´lisis de contingencia se obtiene en la tabla de la distribución Ji-cuadrado, al nivel de significaicón estipulado y con 2 gl, el del nº de filas menos 1 y el del nº de columnas menos 1.
Tanto el coeficiente de contingencia, como el estadígrafo Ji-cuadrado de un análisis en tablas de contingencia, tienen que compararse con los correspondientes valores críticos de sus distribuciones teóricas asociadas.
El coeficiente de contingencia no alcanza el valor 1 aún cuando las variables sean totalmente dependientes.
Si el diagrama de dispersión de 2 variables muestra una tendencia en la nube de puntos, es posible que exista una relación entre dichas variables.
Si el coeficiente de correlación lineal de Pearson es nulo, es porque las variables son independientes.
Si el ajuste de la recta de regresión se ha realizado por el procedimiento de los mínimos cuadrados, la raíz cuadrada del Coeficiente de determinación me proporciona el valor del coeficiente de correlación de Pearson.
La ecuación de regresión lineal Y= -16,66 +2,15X indica una relación inversa entre las variables.
El término independiente en una ecuación de regresión lineal me indica el punto de corte de la recta ajustada, con el eje de ordenadas.
El coeficiente de regresión tiene el mismo valor siempre que la pendiente de la recta.
Si R^2 es 0,99, el grado de relación entre las variables es muy alto.
El coeficiente de correlación es negativo cuando el coeficiente de determinación también lo sea.
Cuando el modelo exponencial presenta un coeficiente de regresión mayor que el del modelo lineal, es más apropiado que el modelo lineal.
El error de extrapolación se comete cuando se utiliza el modelo ajustado para predecir el valor de la variable dependiente con un valor de X fuera del rango de nuestra muestra.
Los gráficos de residuales nos indican el poder predictivo del modelo ajustado.
El gráfico de residuales muestra la bondad del ajuste del modelo.
Que 2 variables estén relacionadas según un modelo de regresión, no implica que una sea causa de la otra.
Los datos de Ascombe, ponen de manifiesto hasta que punto el coeficiente de determinación por si mismo, proporciona información fiable.
La regresión múltiple implica una variable regresora y varias variables respuesta.