Matemticas para Data Science Probabilidad

Matemáticas para Data Science:
Probabilidad
¿Qué es la probabilidad?
La probabilidad es una creencia que tenemos sobre la ocurrencia de eventos
elementales.
Intuitivamente, hacemos estimaciones de la probabilidad de que algo ocurra o no, al

desconocimiento que tenemos sobre la información relevante de un evento lo
llamamos incertidumbre.
El azar en estos términos no existe, representa la ausencia del conocimiento de

todas las variables que componen un sistema.
En otras palabras, la probabilidad es un lenguaje que nos permite cuantificar la

incertidumbre
AXIOMAS
Es un conjunto de sentencias que no son derivables de algo más fundamental. Las
damos por verdad y no requieren demostración.
“A veces se compara a los axiomas con semillas, porque de ellas surge toda la
teoría”
Axiomas
AXIOMAS DE PROBABILIDAD
La probabilidad está dada por el número de casos de éxito sobre la cantidad
total(teórica) de casos.
Probabilidad = Casos de éxito / Casos-totales.
Suceso elemental: Es una única ocurrencia, “Solo tienes una cara de la

moneda como resultado”
Matemáticas para Data Science: Probabilidad 1

Sucesos: Son las posibilidades que tenemos en el sistema. Está compuesto de
sucesos elementales, por ejemplo, “El resultado de lanzar un dado es par”, hay
tres sucesos (2,4,6) que componen este enunciado.
De la interpretación del axioma anterior divergen dos escuelas de

pensamiento. Frecuentista y Bayesiana
Ejemplo: “Solo tengo dos posibles resultados al lanzar una moneda, 50% de
probabilidad para cada cara, (1/2 y 1/2), si lanzo la moneda n veces, la moneda
no cae la mitad de las veces en una cara, y luego la otra”
Esta equiprobabilidad de ocurrencia en un espacio muestral ocurre bajo el

supuesto de quela proporción de éxitos/totales tiende a un valor P. En otras
palabras, solo lanzando la moneda infinitas veces podemos advertir que el valor
de la probabilidad es cercano a (1/2 o 50%).
Escuela frecuentista
“Toda variable aleatoria viene descrita por el espacio muestral que contiene todos
los posibles sucesos de ese problema aleatorio.”
La probabilidad que se asigna como un valor a cada posible suceso tiene varias
propiedades por cumplirse
PROPIEDADES AXIOMAS
0≤P≤1
Certeza: P = 1
Imposibilidad P = 0
Disyunción P(AuB) = P(A) +P(B)
Probabilidad en machine learning

¿Cuáles son las fuentes de incertidumbre?
Datos: Debido a que nuestros instrumentos de medición tienen un margen de

error, se presentan datos imperfectos e incompletos, por lo tanto hay
incertidumbre en los datos.
Atributos del modelo: Son variables que representan un subconjunto reducido

de toda la realidad del problema, estas variables provienen de los datos y por lo

tanto presentan cierto grado de incertidumbre.
Arquitectura del modelo: Un modelo en mates es una representación

simplificada de la realidad y al ser así, por construcción, induce otra capa de
incertidumbre, ya que al ser una representación simplificada se considera
mucho menos información.
Y claro, todo esta incertidumbre se puede cuantificar con probabilidad:
Ejemplo, un clasificador de documento de texto:
Entonces, el modelo asignara cierta probabilidad a cada documento y así de

determinara la clasificación de los documentos.
Pero, ¿Cómo funciona por dentro nuestro modelo de clasificación?

Tipos de probabilidad
Marginal P(A)
Cuando obtienes una probabilidad sencilla. Puede obtenerse a partir de una
probabilidad conjunta.
Ejemplos típicos:
Probabilidad de obtener cara en una moneda
Probabilidad de obtener “2” en un dado
Probabilidad de que el día este soleadoProbabilidad de ganar la lotería
Conjunta P(A,B)
Es la unión de sucesos. (En inglés: joint)
Ejemplos típicos:
Probabilidad de obtener un número par y un número impar al lanzar dos dados
Probabilidad de que el día este soleado y el cielo despejado
Probabilidad de que el día este soleado con algo de nubes

Probabilidad de sacar un dulce rojo y otro azul
Condicional P(A|B)
Que suceda un evento dado que ocurre otro previamente. Ejemplos típicos:
Probabilidad de obtener en un dado “3”, dado que primero se obtuvo un "4"
Probabilidad de que llueva hoy, dado que ayer estuvo muy nublado.
Probabilidad de que llueva hoy, dado que el cielo está soleado (hoy).
Probabilidad de que llueva mañana, por que en la ciudad vecina llovió ayer.
Probabilidad de tener una enfermedad mental, después del abuso de

sustancias.
Regla del producto: P(A,B) = P(A|B) * P (B)
Ejemplos de cálculo de probabilidad

Correlación entre sucesos
Decimos que dos sucesos están correlacionados si la ocurrencia de uno varía
directamente sobre la probabilidad del otro, pueden ser:
Correlación positiva: la ocurrencia de un suceso incrementa la probabilidad de

ocurrencia del otro
Correlación negativa: la ocurrencia de un suceso disminuye la probabilidad de

ocurrencia del otro
Nota: Dos elementos excluyentes no son independientes, todo lo contrario tienen

correlación negativa
¿Qué es una distribución?

Distribuciones de Probabilidad/ función densidad
Es la función que relaciona una variable aleatoria con sus probabilidades.
Convención de notación
X → variable aleatoria
x → valores posibles del espacio muestral

Tipos de distribución según el dominio
Discretos → cuando el dominio (valores de entrada) es discontinuo (números

enteros)
Continuo → cuando el dominio de la variable aleatoria es continua, acepta

todos los valores reales
Distribución acumulada
Se refiere a la suma de las probabilidades, por lo tanto en el caso de una variable

continua sería la integral de la función distribución
Nota: Llamamos histograma a la función densidad de una variable discreta
Distribuciones discretas
Distribución de Bernoulli: Es una función donde se tiene una variable variable con
dos valores, Entonces
P(X) = p
P(¬X) = 1 - p
Distribución binomial
Cuando se tiene secuencias repetitivas de varios eventos binarios(eventos tipos
Bernoulli). Todos los eventos son igualmente probables.
Existe un elemento matemático llamado el combinatorio, que sirve en este caso

para calcular un numero k de ocurrencias en n intentos.
(k,n)= (n!)/(k!.(n-k)!)
donde (k,n) seria el combinatorio.

Con esto podemos calcular ya la distribución binomial a través de la siguiente
formula:
P(k,n) = (n,k)P^(k)(1-p)^(n - k)
Distribución Multinomial
Es la generalización natural de la binomial para casos donde las posibilidades no
son binarias, cómo el lanzamiento de un dado

Otras Distribuciones
Poisson
Geométrica
Hipergeométrica
Binomial negativa
Etc.
Distribuciones continuas
¿Cómo estimar una distribución?

Estimación paramétrica
Se basa realizar el cálculo de una distribución teórica, cuyos parámetros se basan
en la información o en el conjunto de datos con el que estamos trabajando.
Consiste en suponer una función para la distribución y ajustar los parámetros de los
datos a dicha distribución. Por otro lado, la estimación no paramétrica se aplica
cuando los datos no se ajustan a ninguna distribución conocida.
¿Qué es MLE?
MLE (Maximum Likelihood Estimation) o estimación de máxima verosimilitud.
Consiste en escoger la distribución que más se ajuste a nuestros datos, para ello
maximizamos la probabilidad de nuestro modelo:
P(X,θ)=L(X,θ)
max L(X,θ) → maxΠP(Xi,θ)
Nota: El producto de múltiples probabilidades (por tanto son menores a 1) genera

número cada vez más pequeños al punto que no son reconocimos por la máquina, a
esto se llama underflow para evitar esta situación usamos logaritmos:
max log L(X,θ) → maxΣ log P(Xi,θ)
MLE en machine learning

Regresión logística

Cross-Entropy: Función de error que busca siempre minimizarse en un problema
de clasificación binaria. Es una consecuencia de la estimación de Máxima

Verosimilitud.
Teorema de Bayes
Este teorema permite actualizar nuestras probabilidades a medida que acumulamos
evidencia.
Dicta que la probabilidad a posteriori es igual a la verosimilitud por la probabilidad a

priori sobre la probabilidad de la evidencia, matemáticamente:
P(A|B) = P(B|A)P(A)/P(B)
Cassie Kozyrkov, Head of Decision intelligence en Google. Nos explica el

pensamiento Bayesiano y Frecuentista con una moneda.
https://www.youtube.com/watch?v=GEFxFVESQXc
Bayes en machine learning

MAP (Maximum a Posteriori Probability)
De la misma manera que el algoritmo MLE consiste en maximizar la probabilidad
para ajustarla mejor a los datos:P(h|D) = P(D|h)P(h)/P(D)→ max P(h|D) = max
P(D|h)P(h)Eliminamos P(D) puesto que es el mismo valor para el conjuto de datos
Nota:

Puesto que no podemos hallar la probabilidad de la verosimilitud de manera
exacta (Lo que llamaríamos un modelo Optimal Bayes) puesto que
computacionalmente es muy complicado, simplificamos el modelo a la
probabilidad de cada uno de los atributos (Modelo conocido como Naive Bayes):
P(D|h) = P(X1,X2,…,Xn|h) = P(X1|h)P(X2|h)…P(Xn|h)

Matemticas para Data Science Probabilidad

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Matemticas para Data Science Probabilidad

Cargado por

Copyright:

Formatos disponibles

Matemáticas para Data Science:

Intuitivamente, hacemos estimaciones de la probabilidad de que algo ocurra o no, al

El azar en estos términos no existe, representa la ausencia del conocimiento de

En otras palabras, la probabilidad es un lenguaje que nos permite cuantificar la

Probabilidad = Casos de éxito / Casos-totales.

Suceso elemental: Es una única ocurrencia, “Solo tienes una cara de la

Matemáticas para Data Science: Probabilidad 1

De la interpretación del axioma anterior divergen dos escuelas de

Esta equiprobabilidad de ocurrencia en un espacio muestral ocurre bajo el

Disyunción P(AuB) = P(A) +P(B)

Probabilidad en machine learning

Datos: Debido a que nuestros instrumentos de medición tienen un margen de

Atributos del modelo: Son variables que representan un subconjunto reducido

Matemáticas para Data Science: Probabilidad 2

Arquitectura del modelo: Un modelo en mates es una representación

Y claro, todo esta incertidumbre se puede cuantificar con probabilidad:

Ejemplo, un clasificador de documento de texto:

Entonces, el modelo asignara cierta probabilidad a cada documento y así de

Pero, ¿Cómo funciona por dentro nuestro modelo de clasificación?

Matemáticas para Data Science: Probabilidad 3

Probabilidad de obtener cara en una moneda

Probabilidad de obtener “2” en un dado

Probabilidad de que el día este soleadoProbabilidad de ganar la lotería

Probabilidad de obtener un número par y un número impar al lanzar dos dados

Probabilidad de que el día este soleado y el cielo despejado

Probabilidad de que el día este soleado con algo de nubes

Matemáticas para Data Science: Probabilidad 4

Probabilidad de obtener en un dado “3”, dado que primero se obtuvo un "4"

Probabilidad de tener una enfermedad mental, después del abuso de

Regla del producto: P(A,B) = P(A|B) * P (B)

Ejemplos de cálculo de probabilidad

Correlación positiva: la ocurrencia de un suceso incrementa la probabilidad de

Correlación negativa: la ocurrencia de un suceso disminuye la probabilidad de

Nota: Dos elementos excluyentes no son independientes, todo lo contrario tienen

¿Qué es una distribución?

x → valores posibles del espacio muestral

Matemáticas para Data Science: Probabilidad 5

Discretos → cuando el dominio (valores de entrada) es discontinuo (números

Continuo → cuando el dominio de la variable aleatoria es continua, acepta

Se refiere a la suma de las probabilidades, por lo tanto en el caso de una variable

Existe un elemento matemático llamado el combinatorio, que sirve en este caso

donde (k,n) seria el combinatorio.

Matemáticas para Data Science: Probabilidad 6

¿Cómo estimar una distribución?

Matemáticas para Data Science: Probabilidad 7

max L(X,θ) → maxΠP(Xi,θ)

Nota: El producto de múltiples probabilidades (por tanto son menores a 1) genera

MLE en machine learning

Matemáticas para Data Science: Probabilidad 8

Matemáticas para Data Science: Probabilidad 9

Matemáticas para Data Science: Probabilidad 10

Dicta que la probabilidad a posteriori es igual a la verosimilitud por la probabilidad a

Cassie Kozyrkov, Head of Decision intelligence en Google. Nos explica el

Bayes en machine learning

Matemáticas para Data Science: Probabilidad 11

Matemáticas para Data Science: Probabilidad 12

También podría gustarte