Podemos definir una distribución de probabilidad como una
lista que nos proporciona todos los resultados de los valores
que pueden presentarse en un acontecimiento, junto con la
probabilidad de ocurrencia asociada a cada uno de estos
valores.
TIPOS DE DISTRIBUCIONES DE PROBABILIDAD
DISTRIBUCIÓNES DE PROBABILIDAD CONTINUAS
Las distribuciones de probabilidad continuas son las correspondientes a variables aleatorias relacionadas con
eventos como los siguientes: Que mañana la bolsa baje más del 1%. Que alguien sano tenga una concentración de
urea en la sangre superior a x . Que alguien sin estudios gane más de 3000 euros al mes; la probabilidad
correspondiente en este caso sería una probabilidad condicional (condicionada a que el sujeto no tenga estudios)
Que alguien mida más de 1.90 y pese menos de 80 kilos; en este caso, a diferencia de los anteriores, la variable
aleatoria es bidimensional: tiene en cuenta la altura y el peso.
DE HISTOGRAMAS A FUNCIONES DE DENSIDAD
Siempre que una variable aleatoria continua X obtenemos observaciones —ya
sea muestreando, simulando o realizando experimentos en laboratorio—,
podemos representarlas mediante un histograma. Los histogramas son
representaciones gráficas de datos que seccionan el rango de variación de la
variable aleatoria en segmentos (bins) y calculan la proporción de las
observaciones obtenidas que caen en cada uno de ellos; estas proporciones
definen la altura de los rectángulos que se representan gráficamente.
LA DISTRIBUCIÓN UNIFORME
La distribución uniforme es, posiblemente, la más sencilla
entre las continuas: su densidad es 0 salvo en un determinado
rango [ a , b ] donde es constante (y, como consecuencia, toma el
valor 1 / ( b − a ) ). Es decir, solo puede tomar valores en ese
rango y, dentro de él, todos son equiprobables.
FUNCIONES DE DENSIDAD, PROBABILIDAD Y CUANTILES
FUNCIÓN DE DENSIDAD
la función de densidad es siempre positiva (i.e., ≥ 0 ) y su integral es P ( Ω )
= 1 . También se puede deducir que su integral entre a y b , ∫ b a p ( x ) d ( x )
es P ( a < X < b ) ; en nuestro caso, la proporción de personas que se enteran
de la noticia entre las horas a y b ; o, de otro modo, la probabilidad de que
alguien se entere de ella en ese periodo de tiempo.
CUANTILES
El 76.2% de la población se enteró de la noticia en menos de una hora.
Significa que, tal como ya sabemos, 0.762 es el valor de la función de
probabilidad asociada a 1 (hora); pero, visto a la inversa, 1 (hora) es el
cuantil al 76.2% de la distribución. Es decir, igual que podemos asociar
probabilidades a momentos en el tiempo, invirtiendo la relación
podemos asociar momentos en el tiempo a probabilidades. Los valores
de X asociados de esa manera a probabilidades son los cuantiles.
FUNCIÓN DE PROBABILIDAD
El tipo de eventos X ≤ a son muy importantes y por eso es útil contar
con la llamada función de probabilidad, F , definida así: F ( a ) = P ( X ≤
a ) . Se deduce automáticamente que la función de probabilidad crece
desde 0 hasta 1 . En R, la función de probabilidad sigue la misma
nomenclatura que la de densidad, solo que usando p en lugar de d
(p.e., pgamma).
DISTRIBUCIÓN BETA
La distribución beta es una generalización de la uniforme y
también toma valores entre 0 y 1. Valores entre 0 y 1 pueden
significar muchas cosas pero muy frecuentemente,
representan proporciones o probabilidades. De ahí que la
distribución beta se utilice a menudo para modelar la
incertidumbre sobre una probabilidad.
DISTRIBUCIÓN NORMAL
La distribución normal tiene una importancia fundamental en la teoría
de la probabilidad porque es un atractor de distribuciones. No es solo
que la suma de variables aleatorias independientes con una
distribución normal tenga también distribución normal sino que,
además, la suma de variables aleatorias independientes de otras
distribuciones tiende a tener también distribución normal.
DISTRIBUCIÓN T
La distribución t es similar a la normal (simétrica, unimodal,
etc.) pero tiene colas más gruesas. De hecho, no es una
distribución sino una familia de distribuciones
parametrizadas por un parámetro, el número de grados de
libertad (o df), según el cual las colas son más o menos gruesas
DISTRIBUCIÓN GAMMA Y LOGNORMAL
Se trata de dos distribuciones con soporte en los valores x > 0 y que
tienen una forma similar. Ambas son asimétricas y tienen una cola
que desciende lentamente hacia la derecha. Se usan para modelar
tiempos (hasta que ocurre algún evento) o magnitudes tales como
ingresos, que se extienden a través de varios órdenes de magnitud.
DISTRIBUCIONES JERÁRQUICAS
La mezcla de distribuciones es un caso particular de una técnica para
construir las distribuciones con las que modelar fenómenos aleatorios
complejos. Por ejemplo, el de las pérdidas por siniestros en una
compañía de seguros en un periodo determinado (p.e., un mes), que
podría describirse de la siguiente manera: El número de siniestros es
Pois ( λ ) El impacto económico de cada uno de ellos es lognormal
DISTRIBUCIÓNES DE PROBABILIDAD DISCRETAS
Son las distribuciones correspondientes a variables aleatorias toman valores discretos, como por
ejemplo los valores 0 y 1, las letras del abecedario, determinados colores, o los números 0 , 1 , 2 , … .
Ejemplos de ellas son: el número de caras en 100 tiradas de una moneda, el número de siniestros
mensual en una compañía de seguros o el número de apariciones de las palabras viagra u oferta en
un correo electrónico.
DISTRIBUCIÓN DE DIRAC
La distribución de Dirac puede considerarse degenerada: toma siempre (con
probabilidad 1) un valor fijo a . Una variable aleatoria de Dirac, por lo tanto, no
es aleatoria. la distribución de Dirac tiene su importancia y puede entenderse
de dos maneras: La primera, como el elemento básico a partir del cuál se
pueden construir otras distribuciones discretas. La segunda, como una
distribución límite.
DISTRIBUCIÓN DE BERNOULLI
La distribución de Bernoulli es muy simple: es la de una moneda con probabilidad P ( H ) =
p de cara. Una variable aleatoria de Bernoulli toma valores 0 o 1 (que frecuentemente se
usan para codificar otros tales como cara o cruz, éxito o fracaso, etc.). La distribución de
Bernoulli es la base de muchos modelos de clasificación. De hecho, una de las tareas más
habituales de la ciencia de datos es encontrar el valor p i asociado a una determinada
acción (de resultado binario) de un sujeto i .
LA MEDIA DE UNA VARIABLE ALEATORIA
Una variable aleatoria es un objeto extraño en el sentido de que puede tomar
distintos valores de una manera impredecible: piénsese en un dado. La teoría de la
probabilidad, sin embargo, es capaz de identificar (y estudiar) regularidades
dentro de ese azar. Por ejemplo, si varias personas realizan —esta realización
puede ser efectiva (p.e., tirando una moneda o, más en general, realizando un
experimento) o simulada (p.e., usando un ordenador)— una variable aleatoria
numérica X muchas veces y promedian los valores resultantes, obtendrán una lista
de números muy parecidos.
DISTRIBUCIÓN BINOMIAL
La distribución binomial es la de una suma de variables aleatorias de Bernoulli independientes.
Permite modelar problemas como el número de caras que se obtienen después de tirar una
moneda 15 veces. O el número de clientes que abandonarán la empresa al cabo de un año si la
correspondiente tasa de fuga es del 12%. or ser una suma de variables aleatorias de Bernoulli,
podemos deducir su media: es n p . Pero, además de su media, interesa saber cómo se
distribuyen los valores alrededor de ese valor. Para ello podemos representar gráficamente su
función de probabilidad, que tiene una típica forma de campana (es unimodal) y es ligeramente
asimétrica (es simétrica solo cuando p = 0.5 )
CENTRALIDAD Y DISPERSIÓN
La media admite entonces una interpretación como una medida de centralidad: es un valor alrededor del cual podría decirse que pivota la
distribución. De hecho, para la distribución binomial es precisamente el valor central. Sin embargo, no es necesariamente un valor típico:
pudiera ser, incluso, un valor imposible para la distribución. Eso ocurre precisamente con la distribución de Bernoulli: su media es p , un
valor típicamente estrictamente comprendido entre 0 y 1, mientras la variable solo puede tomar los valores 0 o 1. Una manera alternativas de
entender la centralidad es la de interpretarla como el valor que está estrictamente en la mitad. Es decir, aquel que tiene el 50% de las
observaciones por encima y el 50% de ellas por debajo, la mediana. Y si por centralidad, abusando del lenguaje, se entiende un valor típico,
otra medida alternativa que se usa (menos frecuentemente) es el de la moda, el valor más frecuente.
DISTRIBUCIÓN MULTINOMIAL
La distribución multinomial es una extensión de la distribución binomial que se aplica a
situaciones en que la variable aleatoria X puede tomar más de dos valores. Su concreción
práctica más habitual tiene que ver con extracciones al azar de bolas de colores de urnas.
Cuando no existe reemplazo, es decir, cuando las bolas no se devuelven a la urna, las
distintas tiradas no son independientes: de extraerse una bola negra, en la siguiente
extracción decrecería la probabilidad de obtener otra bola negra. Este tipo de fenómenos
aleatorios, poco frecuentes en ciencia de datos, se pueden simular usando, por ejemplo,
la función sample de R.
DISTRIBUCIÓN DE POISSON
En general, si n es grande y p relativamente pequeña, se puede
demostrar que las variables aleatorias binomiales de parámetros α n y
p / α son aproximadamente iguales y que, en el fondo, la distribución
solo depende de la media, n p . Esa distribución común es conocida
como distribución de Poisson, que admite como parámetro el valor n p
, que se suele denominar intensidad y denotar por λ . El nombre hace
referencia al número de eventos que cabe esperar, a lo intenso del
fenómeno aleatorio que modela.