Está en la página 1de 12

Matemáticas para Data Science:

Probabilidad
¿Qué es la probabilidad?
La probabilidad es una creencia que tenemos sobre la ocurrencia de eventos
elementales.

Intuitivamente, hacemos estimaciones de la probabilidad de que algo ocurra o no, al


desconocimiento que tenemos sobre la información relevante de un evento lo
llamamos incertidumbre.

El azar en estos términos no existe, representa la ausencia del conocimiento de


todas las variables que componen un sistema.

En otras palabras, la probabilidad es un lenguaje que nos permite cuantificar la


incertidumbre

AXIOMAS
Es un conjunto de sentencias que no son derivables de algo más fundamental. Las
damos por verdad y no requieren demostración.

“A veces se compara a los axiomas con semillas, porque de ellas surge toda la
teoría”

Axiomas

AXIOMAS DE PROBABILIDAD
La probabilidad está dada por el número de casos de éxito sobre la cantidad
total(teórica) de casos.

Probabilidad = Casos de éxito / Casos-totales.

Suceso elemental: Es una única ocurrencia, “Solo tienes una cara de la


moneda como resultado”

Matemáticas para Data Science: Probabilidad 1


Sucesos: Son las posibilidades que tenemos en el sistema. Está compuesto de
sucesos elementales, por ejemplo, “El resultado de lanzar un dado es par”, hay
tres sucesos (2,4,6) que componen este enunciado.

De la interpretación del axioma anterior divergen dos escuelas de


pensamiento. Frecuentista y Bayesiana

Ejemplo: “Solo tengo dos posibles resultados al lanzar una moneda, 50% de
probabilidad para cada cara, (1/2 y 1/2), si lanzo la moneda n veces, la moneda
no cae la mitad de las veces en una cara, y luego la otra”

Esta equiprobabilidad de ocurrencia en un espacio muestral ocurre bajo el


supuesto de quela proporción de éxitos/totales tiende a un valor P. En otras
palabras, solo lanzando la moneda infinitas veces podemos advertir que el valor
de la probabilidad es cercano a (1/2 o 50%).

Escuela frecuentista
“Toda variable aleatoria viene descrita por el espacio muestral que contiene todos
los posibles sucesos de ese problema aleatorio.”

La probabilidad que se asigna como un valor a cada posible suceso tiene varias
propiedades por cumplirse

PROPIEDADES AXIOMAS
0≤P≤1

Certeza: P = 1

Imposibilidad P = 0

Disyunción P(AuB) = P(A) +P(B)

Probabilidad en machine learning


¿Cuáles son las fuentes de incertidumbre?

Datos: Debido a que nuestros instrumentos de medición tienen un margen de


error, se presentan datos imperfectos e incompletos, por lo tanto hay
incertidumbre en los datos.

Atributos del modelo: Son variables que representan un subconjunto reducido


de toda la realidad del problema, estas variables provienen de los datos y por lo

Matemáticas para Data Science: Probabilidad 2


tanto presentan cierto grado de incertidumbre.

Arquitectura del modelo: Un modelo en mates es una representación


simplificada de la realidad y al ser así, por construcción, induce otra capa de
incertidumbre, ya que al ser una representación simplificada se considera
mucho menos información.

Y claro, todo esta incertidumbre se puede cuantificar con probabilidad:

Ejemplo, un clasificador de documento de texto:

Entonces, el modelo asignara cierta probabilidad a cada documento y así de


determinara la clasificación de los documentos.

Pero, ¿Cómo funciona por dentro nuestro modelo de clasificación?

Matemáticas para Data Science: Probabilidad 3


Tipos de probabilidad
Marginal P(A)
Cuando obtienes una probabilidad sencilla. Puede obtenerse a partir de una
probabilidad conjunta.
Ejemplos típicos:

Probabilidad de obtener cara en una moneda

Probabilidad de obtener “2” en un dado

Probabilidad de que el día este soleadoProbabilidad de ganar la lotería

Conjunta P(A,B)
Es la unión de sucesos. (En inglés: joint)
Ejemplos típicos:

Probabilidad de obtener un número par y un número impar al lanzar dos dados

Probabilidad de que el día este soleado y el cielo despejado

Probabilidad de que el día este soleado con algo de nubes

Matemáticas para Data Science: Probabilidad 4


Probabilidad de sacar un dulce rojo y otro azul

Condicional P(A|B)
Que suceda un evento dado que ocurre otro previamente. Ejemplos típicos:

Probabilidad de obtener en un dado “3”, dado que primero se obtuvo un "4"

Probabilidad de que llueva hoy, dado que ayer estuvo muy nublado.

Probabilidad de que llueva hoy, dado que el cielo está soleado (hoy).

Probabilidad de que llueva mañana, por que en la ciudad vecina llovió ayer.

Probabilidad de tener una enfermedad mental, después del abuso de


sustancias.

Regla del producto: P(A,B) = P(A|B) * P (B)

Ejemplos de cálculo de probabilidad


Correlación entre sucesos
Decimos que dos sucesos están correlacionados si la ocurrencia de uno varía
directamente sobre la probabilidad del otro, pueden ser:

Correlación positiva: la ocurrencia de un suceso incrementa la probabilidad de


ocurrencia del otro

Correlación negativa: la ocurrencia de un suceso disminuye la probabilidad de


ocurrencia del otro

Nota: Dos elementos excluyentes no son independientes, todo lo contrario tienen


correlación negativa

¿Qué es una distribución?


Distribuciones de Probabilidad/ función densidad
Es la función que relaciona una variable aleatoria con sus probabilidades.
Convención de notación

X → variable aleatoria

x → valores posibles del espacio muestral

Matemáticas para Data Science: Probabilidad 5


Tipos de distribución según el dominio

Discretos → cuando el dominio (valores de entrada) es discontinuo (números


enteros)

Continuo → cuando el dominio de la variable aleatoria es continua, acepta


todos los valores reales

Distribución acumulada

Se refiere a la suma de las probabilidades, por lo tanto en el caso de una variable


continua sería la integral de la función distribución
Nota: Llamamos histograma a la función densidad de una variable discreta

Distribuciones discretas
Distribución de Bernoulli: Es una función donde se tiene una variable variable con
dos valores, Entonces

P(X) = p
P(¬X) = 1 - p

Distribución binomial
Cuando se tiene secuencias repetitivas de varios eventos binarios(eventos tipos
Bernoulli). Todos los eventos son igualmente probables.

Existe un elemento matemático llamado el combinatorio, que sirve en este caso


para calcular un numero k de ocurrencias en n intentos.
(k,n)= (n!)/(k!.(n-k)!)

donde (k,n) seria el combinatorio.


Con esto podemos calcular ya la distribución binomial a través de la siguiente
formula:

P(k,n) = (n,k)P^(k)(1-p)^(n - k)

Distribución Multinomial
Es la generalización natural de la binomial para casos donde las posibilidades no
son binarias, cómo el lanzamiento de un dado

Matemáticas para Data Science: Probabilidad 6


Otras Distribuciones
Poisson

Geométrica

Hipergeométrica

Binomial negativa

Etc.

Distribuciones continuas

¿Cómo estimar una distribución?

Matemáticas para Data Science: Probabilidad 7


Estimación paramétrica
Se basa realizar el cálculo de una distribución teórica, cuyos parámetros se basan
en la información o en el conjunto de datos con el que estamos trabajando.
Consiste en suponer una función para la distribución y ajustar los parámetros de los
datos a dicha distribución. Por otro lado, la estimación no paramétrica se aplica
cuando los datos no se ajustan a ninguna distribución conocida.

¿Qué es MLE?
MLE (Maximum Likelihood Estimation) o estimación de máxima verosimilitud.
Consiste en escoger la distribución que más se ajuste a nuestros datos, para ello
maximizamos la probabilidad de nuestro modelo:

P(X,θ)=L(X,θ)

max L(X,θ) → maxΠP(Xi,θ)

Nota: El producto de múltiples probabilidades (por tanto son menores a 1) genera


número cada vez más pequeños al punto que no son reconocimos por la máquina, a
esto se llama underflow para evitar esta situación usamos logaritmos:
max log L(X,θ) → maxΣ log P(Xi,θ)

MLE en machine learning

Matemáticas para Data Science: Probabilidad 8


Regresión logística

Matemáticas para Data Science: Probabilidad 9


Cross-Entropy: Función de error que busca siempre minimizarse en un problema
de clasificación binaria. Es una consecuencia de la estimación de Máxima

Matemáticas para Data Science: Probabilidad 10


Verosimilitud.

Teorema de Bayes
Este teorema permite actualizar nuestras probabilidades a medida que acumulamos
evidencia.

Dicta que la probabilidad a posteriori es igual a la verosimilitud por la probabilidad a


priori sobre la probabilidad de la evidencia, matemáticamente:

P(A|B) = P(B|A)P(A)/P(B)

Cassie Kozyrkov, Head of Decision intelligence en Google. Nos explica el


pensamiento Bayesiano y Frecuentista con una moneda.
https://www.youtube.com/watch?v=GEFxFVESQXc

Bayes en machine learning


MAP (Maximum a Posteriori Probability)
De la misma manera que el algoritmo MLE consiste en maximizar la probabilidad
para ajustarla mejor a los datos:P(h|D) = P(D|h)P(h)/P(D)→ max P(h|D) = max
P(D|h)P(h)Eliminamos P(D) puesto que es el mismo valor para el conjuto de datos

Nota:

Matemáticas para Data Science: Probabilidad 11


Puesto que no podemos hallar la probabilidad de la verosimilitud de manera
exacta (Lo que llamaríamos un modelo Optimal Bayes) puesto que
computacionalmente es muy complicado, simplificamos el modelo a la
probabilidad de cada uno de los atributos (Modelo conocido como Naive Bayes):
P(D|h) = P(X1,X2,…,Xn|h) = P(X1|h)P(X2|h)…P(Xn|h)

Matemáticas para Data Science: Probabilidad 12

También podría gustarte