TIPOS DE DISTRIBUCIÓN

Podemos definir una distribución de probabilidad como una lista que nos proporciona todos los resultados de los valores que pueden presentarse en un acontecimiento, junto con la probabilidad de ocurrencia asociada a cada uno de estos valores.
1. TIPOS DE DISTRIBUCIONES DE PROBABILIDAD
  1. DISTRIBUCIÓNES DE PROBABILIDAD CONTINUAS
    1. Las distribuciones de probabilidad continuas son las correspondientes a variables aleatorias relacionadas con eventos como los siguientes: Que mañana la bolsa baje más del 1%. Que alguien sano tenga una concentración de urea en la sangre superior a x . Que alguien sin estudios gane más de 3000 euros al mes; la probabilidad correspondiente en este caso sería una probabilidad condicional (condicionada a que el sujeto no tenga estudios) Que alguien mida más de 1.90 y pese menos de 80 kilos; en este caso, a diferencia de los anteriores, la variable aleatoria es bidimensional: tiene en cuenta la altura y el peso.
      1. DE HISTOGRAMAS A FUNCIONES DE DENSIDAD
        Siempre que una variable aleatoria continua X obtenemos observaciones —ya sea muestreando, simulando o realizando experimentos en laboratorio—, podemos representarlas mediante un histograma. Los histogramas son representaciones gráficas de datos que seccionan el rango de variación de la variable aleatoria en segmentos (bins) y calculan la proporción de las observaciones obtenidas que caen en cada uno de ellos; estas proporciones definen la altura de los rectángulos que se representan gráficamente.
      2. LA DISTRIBUCIÓN UNIFORME
        La distribución uniforme es, posiblemente, la más sencilla entre las continuas: su densidad es 0 salvo en un determinado rango [ a , b ] donde es constante (y, como consecuencia, toma el valor 1 / ( b − a ) ). Es decir, solo puede tomar valores en ese rango y, dentro de él, todos son equiprobables.
      3. FUNCIONES DE DENSIDAD, PROBABILIDAD Y CUANTILES
        FUNCIÓN DE DENSIDAD
        la función de densidad es siempre positiva (i.e., ≥ 0 ) y su integral es P ( Ω ) = 1 . También se puede deducir que su integral entre a y b , ∫ b a p ( x ) d ( x ) es P ( a < X < b ) ; en nuestro caso, la proporción de personas que se enteran de la noticia entre las horas a y b ; o, de otro modo, la probabilidad de que alguien se entere de ella en ese periodo de tiempo.
        CUANTILES
        El 76.2% de la población se enteró de la noticia en menos de una hora. Significa que, tal como ya sabemos, 0.762 es el valor de la función de probabilidad asociada a 1 (hora); pero, visto a la inversa, 1 (hora) es el cuantil al 76.2% de la distribución. Es decir, igual que podemos asociar probabilidades a momentos en el tiempo, invirtiendo la relación podemos asociar momentos en el tiempo a probabilidades. Los valores de X asociados de esa manera a probabilidades son los cuantiles.
        FUNCIÓN DE PROBABILIDAD
        El tipo de eventos X ≤ a son muy importantes y por eso es útil contar con la llamada función de probabilidad, F , definida así: F ( a ) = P ( X ≤ a ) . Se deduce automáticamente que la función de probabilidad crece desde 0 hasta 1 . En R, la función de probabilidad sigue la misma nomenclatura que la de densidad, solo que usando p en lugar de d (p.e., pgamma).
      4. DISTRIBUCIÓN BETA
        La distribución beta es una generalización de la uniforme y también toma valores entre 0 y 1. Valores entre 0 y 1 pueden significar muchas cosas pero muy frecuentemente, representan proporciones o probabilidades. De ahí que la distribución beta se utilice a menudo para modelar la incertidumbre sobre una probabilidad.
      5. DISTRIBUCIÓN NORMAL
        La distribución normal tiene una importancia fundamental en la teoría de la probabilidad porque es un atractor de distribuciones. No es solo que la suma de variables aleatorias independientes con una distribución normal tenga también distribución normal sino que, además, la suma de variables aleatorias independientes de otras distribuciones tiende a tener también distribución normal.
      6. DISTRIBUCIÓN T
        La distribución t es similar a la normal (simétrica, unimodal, etc.) pero tiene colas más gruesas. De hecho, no es una distribución sino una familia de distribuciones parametrizadas por un parámetro, el número de grados de libertad (o df), según el cual las colas son más o menos gruesas
      7. DISTRIBUCIÓN GAMMA Y LOGNORMAL
        Se trata de dos distribuciones con soporte en los valores x > 0 y que tienen una forma similar. Ambas son asimétricas y tienen una cola que desciende lentamente hacia la derecha. Se usan para modelar tiempos (hasta que ocurre algún evento) o magnitudes tales como ingresos, que se extienden a través de varios órdenes de magnitud.
      8. DISTRIBUCIONES JERÁRQUICAS
        La mezcla de distribuciones es un caso particular de una técnica para construir las distribuciones con las que modelar fenómenos aleatorios complejos. Por ejemplo, el de las pérdidas por siniestros en una compañía de seguros en un periodo determinado (p.e., un mes), que podría describirse de la siguiente manera: El número de siniestros es Pois ( λ ) El impacto económico de cada uno de ellos es lognormal
  2. DISTRIBUCIÓNES DE PROBABILIDAD DISCRETAS
    1. Son las distribuciones correspondientes a variables aleatorias toman valores discretos, como por ejemplo los valores 0 y 1, las letras del abecedario, determinados colores, o los números 0 , 1 , 2 , … . Ejemplos de ellas son: el número de caras en 100 tiradas de una moneda, el número de siniestros mensual en una compañía de seguros o el número de apariciones de las palabras viagra u oferta en un correo electrónico.
      1. DISTRIBUCIÓN DE DIRAC
        La distribución de Dirac puede considerarse degenerada: toma siempre (con probabilidad 1) un valor fijo a . Una variable aleatoria de Dirac, por lo tanto, no es aleatoria. la distribución de Dirac tiene su importancia y puede entenderse de dos maneras: La primera, como el elemento básico a partir del cuál se pueden construir otras distribuciones discretas. La segunda, como una distribución límite.
      2. DISTRIBUCIÓN DE BERNOULLI
        La distribución de Bernoulli es muy simple: es la de una moneda con probabilidad P ( H ) = p de cara. Una variable aleatoria de Bernoulli toma valores 0 o 1 (que frecuentemente se usan para codificar otros tales como cara o cruz, éxito o fracaso, etc.). La distribución de Bernoulli es la base de muchos modelos de clasificación. De hecho, una de las tareas más habituales de la ciencia de datos es encontrar el valor p i asociado a una determinada acción (de resultado binario) de un sujeto i .
      3. LA MEDIA DE UNA VARIABLE ALEATORIA
        Una variable aleatoria es un objeto extraño en el sentido de que puede tomar distintos valores de una manera impredecible: piénsese en un dado. La teoría de la probabilidad, sin embargo, es capaz de identificar (y estudiar) regularidades dentro de ese azar. Por ejemplo, si varias personas realizan —esta realización puede ser efectiva (p.e., tirando una moneda o, más en general, realizando un experimento) o simulada (p.e., usando un ordenador)— una variable aleatoria numérica X muchas veces y promedian los valores resultantes, obtendrán una lista de números muy parecidos.
      4. DISTRIBUCIÓN BINOMIAL
        La distribución binomial es la de una suma de variables aleatorias de Bernoulli independientes. Permite modelar problemas como el número de caras que se obtienen después de tirar una moneda 15 veces. O el número de clientes que abandonarán la empresa al cabo de un año si la correspondiente tasa de fuga es del 12%. or ser una suma de variables aleatorias de Bernoulli, podemos deducir su media: es n p . Pero, además de su media, interesa saber cómo se distribuyen los valores alrededor de ese valor. Para ello podemos representar gráficamente su función de probabilidad, que tiene una típica forma de campana (es unimodal) y es ligeramente asimétrica (es simétrica solo cuando p = 0.5 )
        CENTRALIDAD Y DISPERSIÓN
        La media admite entonces una interpretación como una medida de centralidad: es un valor alrededor del cual podría decirse que pivota la distribución. De hecho, para la distribución binomial es precisamente el valor central. Sin embargo, no es necesariamente un valor típico: pudiera ser, incluso, un valor imposible para la distribución. Eso ocurre precisamente con la distribución de Bernoulli: su media es p , un valor típicamente estrictamente comprendido entre 0 y 1, mientras la variable solo puede tomar los valores 0 o 1. Una manera alternativas de entender la centralidad es la de interpretarla como el valor que está estrictamente en la mitad. Es decir, aquel que tiene el 50% de las observaciones por encima y el 50% de ellas por debajo, la mediana. Y si por centralidad, abusando del lenguaje, se entiende un valor típico, otra medida alternativa que se usa (menos frecuentemente) es el de la moda, el valor más frecuente.
      5. DISTRIBUCIÓN MULTINOMIAL
        La distribución multinomial es una extensión de la distribución binomial que se aplica a situaciones en que la variable aleatoria X puede tomar más de dos valores. Su concreción práctica más habitual tiene que ver con extracciones al azar de bolas de colores de urnas. Cuando no existe reemplazo, es decir, cuando las bolas no se devuelven a la urna, las distintas tiradas no son independientes: de extraerse una bola negra, en la siguiente extracción decrecería la probabilidad de obtener otra bola negra. Este tipo de fenómenos aleatorios, poco frecuentes en ciencia de datos, se pueden simular usando, por ejemplo, la función sample de R.
      6. DISTRIBUCIÓN DE POISSON
        En general, si n es grande y p relativamente pequeña, se puede demostrar que las variables aleatorias binomiales de parámetros α n y p / α son aproximadamente iguales y que, en el fondo, la distribución solo depende de la media, n p . Esa distribución común es conocida como distribución de Poisson, que admite como parámetro el valor n p , que se suele denominar intensidad y denotar por λ . El nombre hace referencia al número de eventos que cabe esperar, a lo intenso del fenómeno aleatorio que modela.

Next up

TIPOS DE DISTRIBUCIÓN

Description

Resource summary

Similar

	Created by ABIGAIL TELLEZ JUÁREZ over 2 years ago