Está en la página 1de 63

Estadística para Ciencia de Datos

Alonso Molina
PROBABILIDADES

Definiciones
Dada la incertidumbre existente en la toma de decisiones, es
importante que se evalúen científicamente todos los riesgos
implicados. La teoría de la probabilidad resulta útil para hace esta
evaluación.

En particular, este capítulo está orientado en conocer las


principales definiciones para poder conocer y aplicar cálculo de
probabilidades y medición de errores.
PROBABILIDADES

Definiciones

- Datos - Parámetro
- Elemento o individuo - Estadístico
- Variable - Censo
- Observaciones - Encuesta
- Escala de medición - Estimación
- Experimento - Inferencia
- Evento - Hipótesis
- Población - Confianza
- Muestra - Error
- Aleatorio - Significancia
PROBABILIDADES

Definiciones
Teoría de Conjuntos:

Unión Intersección Complemento Subconjunto

𝐴∪𝐵 𝐴∩𝐵 𝐴𝑐 𝐵∁𝐴


PROBABILIDADES

Definiciones

EXPERIMENTO ESPACIO MUESTRAL

¿Es Impar?

PUNTO MUESTRAL EVENTO


PROBABILIDADES

Definiciones

Se definirá PROBABILIDAD como una función numérica de ciertos


eventos de algún experimento, tal que reportan valores entre 0 y
1 y representarán las posibilidades relativas que ocurra dicho
evento.
PROBABILIDADES

Definiciones

Probabilidad Clásica
La probabilidad clásica es la proporción de veces que ocurrirá un
suceso, suponiendo que todos los resultados contenidos en el espacio de
resultados posibles tiene la misma probabilidad de ocurrir.

Probabilidad Frecuentista o Empírica


La probabilidad de un suceso B se aproxima por el límite de la frecuencia
relativa de ocurrencias de un suceso B a partir de un gran numero de
pruebas n.

Probabilidad Subjetiva
La probabilidad subjetiva expresa el grado en que una persona cree que
ocurrirá un suceso. Estas probabilidades subjetivas se utilizan en algunos
procedimientos empresariales de toma de decisiones.
PROBABILIDADES

Definiciones

CLÁSICA

PROBABILIDAD

EMPÍRICA SUBJETIVA
CASOS
FAVORABLES
P(A) =
CASOS
TOTALES
PROBABILIDADES

Definiciones
Las compañías de seguros de
vida confían en datos empíricos
para determinar la
aceptabilidad de un solicitante,
así como la prima. Las tablas de
mortalidad incluyen una lista de
las posibilidades de que una
persona de determinada edad
fallezca en el siguiente año.

FUENTE: INE. Defunciones de 1998 – 2010, excluyendo 2007


y sus respectivas estimaciones y proyecciones de población
PROBABILIDADES

Definiciones
Diremos que 𝑷 ⋅ es una probabilidad si:

Axioma I: Para cada evento B contenido en un espacio muestral


S se tiene que 𝑷 𝑩 ≥ 𝟎

Axioma II: La probabilidad del evento certeza S es 𝑷 𝑺 = 𝟏

Axioma III*: Para dos eventos 𝑩𝟏 y 𝑩𝟐 que no tengan puntos


muestrales en común (eventos mutuamente excluyentes),
𝑷 𝑩𝟏 ∪ 𝑩𝟐 = 𝑷 𝑩𝟏 + 𝑷(𝑩𝟐 )

* En casos que S sea infinito numerable, Axioma III se puede extender a infinitos eventos
mutuamente excluyentes.
PROBABILIDADES

Propiedades de Probabilidad

- El complemento de un evento: 𝑷 𝑩𝒄 = 𝟏 − 𝑷 𝑩

- Probabilidad de un evento imposible: 𝑷 ∅ = 𝟎

- Cota superior: 𝑷 𝑨 ≤ 𝟏

- Partición de un evento: 𝑷 𝑨 = 𝑷 𝑨 ∩ 𝑩𝒄 + 𝑷(𝑨 ∩ 𝑩)

- Ley aditiva: 𝑷 𝑨 ∪ 𝑩 = 𝑷 𝑨 + 𝑷 𝑩 − 𝑷(𝑨 ∩ 𝑩)


PROBABILIDADES

Cálculo de Probabilidad
En el caso de Probabilidad Clásica, se tiene que

#𝑩 𝑪𝒂𝒔𝒐𝒔 𝒇𝒂𝒗𝒐𝒓𝒂𝒃𝒍𝒆𝒔
𝑷 𝑩 = =
#𝑺 𝑪𝒂𝒔𝒐𝒔 𝒕𝒐𝒕𝒂𝒍𝒆𝒔

Diversos métodos de conteo pueden ayudar a comprender la


forma de obtener el número de casos favorables y totales.
PROBABILIDADES

Cálculo de Probabilidad
I. Regla dela multiplicación:
Si un experimento puede describirse como una secuencia de k
experimentos, con 𝑛1 resultados posibles en el primero, 𝑛2 resultados
posibles en el segundo, y así sucesivamente, entonces el número total
de resultados posibles será 𝑛1 ⋅ 𝑛2 ⋯ 𝑛𝑘

II. Combinatoria:
El número de maneras de seleccionar k elementos de un total de n
distintos, sin importar el orden y sin reemplazamiento, está dado por
𝑛 𝑛!
= 𝑛−𝑘 !𝑘!
𝑘

III. Permutación:
El número de maneras de seleccionar k elementos de un total de n
distintos, sin reemplazamiento, pero en una secuencia ordenada, está
𝑛!
dado por 𝑃𝑘𝑛 = 𝑛−𝑘 !
PROBABILIDADES

Cálculo de Probabilidad

Ejemplo de aplicación
Debido a los Pandora Papers, muchos famosos y políticos han
salido a dar declaraciones y defensas por sus movimientos y
finanzas. El archivo considera a 35 líderes, de las cuales 14 son
latinoamericanos.
Suponga que se seleccionan 8 al azar, ¿Cuál es la probabilidad
que al menos 2 sean latinoamericanos?
PROBABILIDADES

Cálculo de Probabilidad
Ejemplo de aplicación
Debido a los Pandora Papers, muchos famosos y políticos han salido a dar declaraciones y
defensas por sus movimientos y finanzas. El archivo considera a 35 líderes, de las cuales 14
son latinoamericanos.
Suponga que se seleccionan 8 al azar, ¿Cuál es la probabilidad que al menos 2 sean
latinoamericanos?

Definamos B: al menos 2 líderes LA en la muestra de 8 líderes al azar

𝑷 𝑩 = 𝟏 − 𝑷 𝑩𝒄
Donde 𝑩𝒄 : 1 o ninguno es líder LA en la muestra de 8 líderes al azar

#𝑩𝒄
𝑷 𝑩 =𝟏 −𝑷 𝑩 𝒄
=𝟏 − 𝑷 𝑩𝒄𝟎 +𝑷 𝑩𝒄𝟏 =𝟏−
#𝑺

𝟏𝟒 𝟑𝟓 − 𝟏𝟒 𝟏𝟒 𝟑𝟓 − 𝟏𝟒
𝑷(𝑩) = 𝟏 − 𝟎 𝟖 + 𝟏 𝟕 = 𝟏 − 𝟎. 𝟐𝟑𝟕𝟏 = 𝟎. 𝟕𝟔𝟐𝟗
𝟑𝟓 𝟑𝟓
𝟖 𝟖
PROBABILIDADES

Probabilidad Condicional

𝑷 𝑨
𝑷 𝑨|𝑩
PROBABILIDADES

Probabilidad Condicional
Una de las definiciones más importantes en la teoría inicial de
probabilidades está relacionada a la Probabilidad de un evento,
sujeto a la ocurrencia de otro. De esta forma, se dice que la
probabilidad de A condicionada a B está dado por:

𝑷 𝑨∩𝑩
𝑷 𝑨|𝑩 =
𝑷(𝑩)

Esta definición genera 2 teoremas importantes:

- Teorema de Probabilidades Totales: 𝑷 𝑩 = σ𝒊 𝑷 𝑩 𝑨𝒊 𝑷(𝑨𝒊 )

𝑷(𝑩|𝑨𝒋 )𝑷(𝑨𝒋 )
- Teorema de Bayes: 𝑷(𝑨𝒋 |𝑩) =
𝑷(𝑩)
PROBABILIDADES

Probabilidad Condicional
Ejemplo de aplicación
Retomemos el problema de Pandora Papers; del total de
acusados, se presume que el 30% corresponde a políticos, un 20%
a famosos y el resto son empresarios. De los políticos, el 80% ya ha
salido a desmentir todo, mientras que de los famosos solo lo ha
hecho un 40%, y de los empresarios un 10%.

¿Cuál es la probabilidad que un acusado salga a desmentir


todo?
PROBABILIDADES

Probabilidad Condicional
Ejemplo de aplicación
Retomemos el problema de Pandora Papers; del total de acusados, se presume que el 30%
corresponde a políticos, un 20% a famosos y el resto son empresarios. De los políticos, el 80% ya
ha salido a desmentir todo, mientras que de los famosos solo lo ha hecho un 40%, y de los
empresarios un 10%.

Definamos:
A: Políticos – B: Famosos – C: Empresarios - X: Sale a desmentir todo

𝑷 𝑿 = 𝑷 𝑿∩𝑨 + 𝑷 𝑿∩𝑩 + 𝑷 𝑿∩𝑪


A B C
= 𝑷 𝑿 𝑨 ⋅ 𝑷 𝑨 + 𝑷 𝑿 𝑩 ⋅ 𝑷 𝑩 + 𝑷 𝑿 𝑪 ⋅ 𝑷(𝑪)

X
S
PROBABILIDADES

Probabilidad Condicional
Ejemplo de aplicación
Retomemos el problema de Pandora Papers; del total de acusados, se presume que el 30%
corresponde a políticos, un 20% a famosos y el resto son empresarios. De los políticos, el 80% ya
ha salido a desmentir todo, mientras que de los famosos solo lo ha hecho un 40%, y de los
empresarios un 10%.

Definamos:
A: Políticos – B: Famosos – C: Empresarios - X: Sale a desmentir todo

𝑿
A
𝑿𝒄

𝑷 𝑩 = 𝟎. 𝟐 𝑿
B
𝑿𝒄

C 𝑿
𝑿𝒄
PROBABILIDADES

Probabilidad Condicional
Ejemplo de aplicación
Retomemos el problema de Pandora Papers; del total de acusados, se presume que el 30%
corresponde a políticos, un 20% a famosos y el resto son empresarios. De los políticos, el 80% ya
ha salido a desmentir todo, mientras que de los famosos solo lo ha hecho un 40%, y de los
empresarios un 10%.

Definamos:
A: Políticos – B: Famosos – C: Empresarios - S: Sale a desmentir todo

𝑿 𝑷 𝑿 = 𝑷 𝑿 𝑨 ⋅ 𝑷 𝑨 + 𝑷 𝑿 𝑩 ⋅ 𝑷 𝑩 + 𝑷 𝑿 𝑪 ⋅ 𝑷(𝑪)
A
𝑿𝒄 = 𝟎. 𝟖 ⋅ 𝟎. 𝟑 + 𝟎. 𝟒 ⋅ 𝟎. 𝟐 + 𝟎. 𝟏 ⋅ 𝟎. 𝟓
= 𝟎. 𝟑𝟕
𝑷 𝑩 = 𝟎. 𝟐 𝑿
B
𝑿𝒄

𝑿
C
𝑿𝒄
PROBABILIDADES

Propiedades de Probabilidad
Airbnb ha sido una empresa que ha crecido a lo largo de los
años, sobre todo en Chile. Algunos datos de la sexta región de
nuestro país indican que de 13562 reservas, un 6,4% son de 2017,
29,4% de 2018, 61,3% de 2019 y un 2,9% del 2020.
La tabla muestra las proporciones por tipo de habitación en cada
año.

Habitación Habitación
Año/Tipo compartida privada Hogar completo
2017 0,009 0,690 0,301
2018 0,008 0,502 0,490
2019 0,010 0,481 0,509
2020 0,003 0,717 0,280
PROBABILIDADES

Propiedades de Probabilidad
(a) Determine la probabilidad de que una reserva sea por
habitación privada.
(b) Determine la probabilidad que, dado el año 2018, sea por
hogar completo.
(c) Determine la probabilidad que una reserva haya sido del
2017, dado que fue por habitación compartida.
PROBABILIDADES

Independencia
El último concepto importante es la independencia de los
eventos, que definiremos de la siguiente forma: Se dice que A,B
son eventos independientes si satisfacen que la probabilidad
condicional resulta solo la probabilidad del evento condicionado,
es decir,
𝑷 𝑨|𝑩 = 𝑷 𝑨

De esta forma, se puede concluir que si A,B son independientes,


entonces
𝑷 𝑨 ∩ 𝑩 = 𝑷 𝑨 𝑷(𝑩)
PROBABILIDADES

Modelos de Probabilidad

Una distribución de probabilidad muestra los posibles resultados


de un experimento y la probabilidad de que cada uno se
presente, de forma generalizada.

Una distribución puede estar definida sobre una variable


aleatoria discreta, en el caso que los resultados sean contables (o
numerables).

Una distribución también se puede definir en una variable


aleatoria continua, si hay “infinitas” posibilidades, tal que no sea
contable dos números consecutivos.
PROBABILIDADES

Modelos de Probabilidad
EXPERIMENTO VARIABLE VALORES POSIBLES

OBSERVAR UN CLIENTE ¿CUÁNTOS PLATOS, 1, 2, 3, 4, 5


EN LA FILA DE UNA DE LOS 5 DISPONIBLES,
SUCURSAL DE PODRÍA PEDIR UN
COMIDA RÁPIDA CLIENTE?
INSPECCIONAR UN NÚMERO DE 0,1,2,…,49,50
LOTE DE 50 CELULARES CELULARES CON
ALGÚN DEFECTO
SUPERVISAR UN PEAJE NÚMERO DE 0,1,2,3,…
EN LA AUTOPISTA VEHÍCULOS DIARIOS

REALIZAR UNA SEXO DEL CLIENTE 0: SI ES HOMBRE


CAMPAÑA 1: SI ES MUJER
PERSONALIZADA
PROBABILIDADES

Modelos de Probabilidad
EXPERIMENTO VARIABLE VALORES POSIBLES

OPERAR UN BANCO TIEMPO ENTRE LA [0,∞)


LLEGADA DE DOS
CLIENTES
RELLENAR UNA LATA CANTIDAD DE ML [0,350]

CONSTRUIR UN AVANCE DEL [0,1]


PROYECTO PROYECTO DURANTE
INMOBILIARIO UN PERÍODO
OBSERVAR EL RENTABILIDAD DE UN (-∞,∞)
MOVIMIENTO DE UNA MES A OTRO
ACCIÓN
PROBABILIDADES

Modelos de Probabilidad
En el caso de las distribuciones, interesará conocer
principalmente dos indicadores: Valor Esperado (o
Esperanza) que representa el valor de la distribución más
probable, mientras que la Varianza se relaciona a la
dispersión de la distribución.

෍ 𝒙𝑷(𝑿 = 𝒙) ෍ 𝒙 − 𝝁 𝟐 𝑷(𝑿 = 𝒙)
𝝁=𝑬 𝑿 = 𝒙

𝝈𝟐 = 𝑽𝒂𝒓 𝑿 = 𝒙

න 𝒙𝒇 𝒙 𝒅𝒙 න 𝒙 − 𝝁 𝟐 𝒇 𝒙 𝒅𝒙
−∞ −∞

𝑽𝒂𝒓 𝑿 = 𝑬 𝑿𝟐 − 𝑬 𝑿 𝟐
PROBABILIDADES

Modelos de Probabilidad
Un modelo de probabilidad responde a una generalización
de diversos experimentos, cuyos posibles resultados se
pueden adaptar a una sola función matemática, tomando
valores sus parámetros. En el caso discreto, los más usuales
son:

Discretos Continuos
- Modelo Binomial - Modelo Uniforme
- Modelo Binomial Negativo - Modelo Normal
- Modelo Poisson - Modelo Gamma
PROBABILIDADES

Modelos de Probabilidad
El Modelo Binomial se adapta para calcular la probabilidad
de ocurrencia de x “éxitos” sobre una muestra de tamaño
n. El parámetro es la probabilidad que ocurra dicho “éxito”.

Un Modelo Binomial Negativo corresponde cuando se


desea obtener la probabilidad de que, al obtener k éxitos,
la muestra sea de tamaño x. El parámetro es la
probabilidad de ser un “éxito”

El Modelo Poisson está pensado cuando se desee obtener


la probabilidad de observar x veces la ocurrencia de un
evento, en un cierto espacio o tiempo. El parámetro es la
tasa histórica de ocurrencia.
PROBABILIDADES

Modelos de Probabilidad
Modelo Binomial:
Dada una variable X: número de éxitos es una muestra de
tamaño n, con 𝜋 la probabilidad de éxito,

𝑛 𝑥 𝑛−𝑥 , 𝑥
𝑃 𝑋=𝑥 = 𝜋 1−𝜋 = 0,1, … , 𝑛
𝑘

Uno de los grandes problemas de las aerolíneas consiste en que las


personas que hacen reservaciones para un vuelo finalmente no lo
toman originando este hecho trastornos de carácter económico
para las empresas. Por este motivo se efectúo un estudio en el que se
logro establecer que el 80% de las personas que realizan
reservaciones efectivamente utilizan el servicio. Si en un vuelo hay
cupo para 25 personas y la compañía efectúo reservaciones para
30, ¿Cuál es la probabilidad que no más de 25 personas de las que
efectuaron reservaciones aborden el vuelo?
PROBABILIDADES

Modelos de Probabilidad
Modelo Binomial Negativo:
Dada una variable X: tamaño de la muestra hasta k éxitos, con 𝜋
la probabilidad de éxito,

𝑥−1 𝑘 𝑥−𝑘
𝑃 𝑋=𝑥 = 𝜋 1−𝜋 , 𝑥 = 𝑘, 𝑘 + 1, …
𝑘−1

La participación electoral es parte de los temas más relevantes en


este momento del año, debido a que datos históricos revelan que
solo un 45% de la población va a votar.
a. ¿Cuál es la probabilidad de tener que entrevistar a 30 personas
para encontrar a 20 que quieran votar?
b. Determine el número esperado de personas para entrevistar, si
queremos encontrar a 20 que quieran votar.
PROBABILIDADES

Modelos de Probabilidad
Modelo Poisson:
Dada una variable X: número de ocurrencias en una muestra
infinita – periodo de tiempo – espacio ilimitado; con 𝜆 la tasa de
ocurrencias
𝜆𝑥 𝑒 −𝜆
𝑃 𝑋=𝑥 = , 𝑥 = 0,1,2, …
𝑥!

Es de mucho interés de algunos fanáticos pronosticar los


resultados de los partidos de futbol, y se ha determinado que los
goles en un partido de futbol siguen una distribución Poisson. El
archivo Futbol Poisson mostrará algunos resultados interesantes.
PROBABILIDADES

Modelos de Probabilidad
El Modelo Uniforme se adapta para situaciones donde
todos los casos son equiprobables. Los parámetros son los
límites de la variable.

El Modelo Gamma es útil cuando los datos no presentan


simetría. Está reservado solo cuando la variable es positiva,
y es flexible pensando en parámetros de forma y tasa. Un
caso particular más famoso es el modelo Exponencial.

Un Modelo Normal se utiliza cuando se observa una


variable simétrica, cuyos datos se concentran en torno a la
media. Los parámetros son dicha media, y la dispersión
respecto a ella. Es el modelo más famoso (y usual) de
distribución.
PROBABILIDADES

Modelos de Probabilidad
Modelo Uniforme
Una variable aleatoria posee distribución Uniforme entre a y b,
cuando su función de probabilidad es:
1
𝑓 𝑥 = , 𝑎≤𝑥≤𝑏
𝑏−𝑎

La espera de un pasajero en el metro, desde que llega hasta que


el tren ingresa a la estación, puede ser descrito con una
distribución uniforme entre 0 y 10 minutos. ¿Cuál es la
probabilidad de esperar entre 2 a 6 minutos?
PROBABILIDADES

Modelos de Probabilidad
Modelo Gamma
Una variable aleatoria posee distribución Gamma con shape 𝛼 y rate
𝛽, cuando su función de probabilidad es:

𝛽 𝛼 𝑥 𝛼−1 𝑒 −𝛽𝑥
𝑓 𝑥 = , 𝑥>0
Γ(𝛼)

Las Encuestas de Movilidad constituyen la principal fuente de


información utilizada en todo proceso de planificación de los
sistemas de transporte. Éstas entregan antecedentes relevantes
sobre los patrones de movilidad de una determinada ciudad y
proporcionan los datos requeridos para la calibración de los modelos
de análisis de transporte. Se cree que en Ñuñoa se posee una
distribución Gamma con parámetros shape 1.60 y rate 0.04.
Compruebe dichos valores y determine si en Puente Alto se cumple
lo mismo.
PROBABILIDADES

Modelos de Probabilidad
Modelo Normal
La función de probabilidad de una variable con
distribución Normal con parámetros la media 𝝁 y la
varianza 𝝈𝟐 es de la forma:

1 1 𝑥−𝜇 2
𝑓 𝑥 = 𝑒𝑥𝑝 − , −∞ < 𝑥 < ∞
2𝜋𝜎 2 2 𝜎
PROBABILIDADES

Modelos de Probabilidad
Modelo Normal
Efecto de la media
PROBABILIDADES

Modelos de Probabilidad
Modelo Normal
Efecto de la varianza
PROBABILIDADES

Modelos de Probabilidad
Modelo Normal
Un caso especial es cuando 𝝁 =0 y 𝝈𝟐 =1. Este caso es
conocido como la distribución normal estándar, ya que es
resultado de la transformación (o estandarización) a través
de la media y varianza, de la forma:

𝑋 −𝜇 1 1 2
=𝑍 →𝑓 𝑧 = 𝑒𝑥𝑝 − 𝑧 , −∞ < 𝑧 < ∞
𝜎 2𝜋 2

La ventaja es que cualquier distribución normal puede ser


transformada en una normal estándar, y dicha distribución
está tabulada e implementada en cualquier lenguaje y
software.
PROBABILIDADES

Modelos de Probabilidad
Modelo Normal
Para las empresas que se dedican al rubro ganadero y
alimenticio es una herramienta muy potente para hacer
seguimiento de sus animalitos.
Dos empresas que crían conejos y otros animales desean
observar como distribuye el peso de sus crías… ¿será
normal?
Considere que el promedio muestral es 𝝁, y la varianza
muestral es 𝝈𝟐 . Compare la probabilidad empírica y teórica
para alguna Empresa/Centro/Jaula/Fecha, de seleccionar
un animalito con peso superior a 𝝁 + 𝝈.
PROBABILIDADES

Probabilidad
En modo de resumen:

- Definición de Probabilidades

- Cálculo de probabilidades y Conteo

- Probabilidades Condicionales

- Modelos de probabilidad
PROBABILIDADES

Tópicos de Probabilidad
En modo de exploración, hablaremos un poco de algunos
tópicos interesantes para la Ciencia de Datos basados en
probabilidades:

- Procesos Estocásticos

- Muestreo
PROBABILIDADES

Procesos Estocásticos
Un proceso estocástico corresponde a una familia de
variables ordenadas, usualmente acompañadas con un
subíndice t, que se identifica con un orden, principalmente
el tiempo.

En este sentido diremos que un proceso estocástico es


estacionario si la distribución de probabilidad es constante
a lo largo del tiempo.

Por otro lado, los procesos estocásticos no estacionarios son


aquellos que poseen volatilidad en su distribución, y son
impredecibles a priori. En algunos casos, se pueden
transformar para pasar a un proceso estacionario.
PROBABILIDADES

Procesos Estocásticos
Los valores que puede tomar esta variable se les reconoce
como estados, y podrían ser discretos o continuos.

t discreto t continuo

Variable Discreta Cadenas Saltos Puros o


Cadenas a tiempo
continuo
Variable Continua Procesos Discretos Proceso Continuo
PROBABILIDADES

Procesos Estocásticos
Entre los procesos estocásticos más utilizados en la industria
se encuentran:

- Cadenas de Markov
- Martingalas
- Movimiento Browniano

En esta ocasión conoceremos un poco del primer proceso.


PROBABILIDADES

Procesos Estocásticos
Cadenas de Markov
Una Cadena de Markov es un proceso tal que lo que
ocurre en un tiempo n+1 depende solo que lo ocurrido en
el periodo n y el pasado pasa a ser irrelevante.

En términos matemáticos sería:

𝑃 𝑋𝑛+1 = 𝑗 𝑋𝑛 = 𝑖, 𝑋𝑛−1 = 𝑖𝑛−1 , … , 𝑋0 = 𝑖0 = 𝑃 𝑋𝑛+1 = 𝑗 𝑋𝑛 = 𝑖

En particular, el caso temporalmente homogéneo indica que la


probabilidad no depende del tiempo, es decir,

𝑃 𝑋𝑛+1 = 𝑗 𝑋𝑛 = 𝑖 = 𝑝(𝑖, 𝑗)
PROBABILIDADES

Procesos Estocásticos
Cadenas de Markov
Supongamos dos jugadores, A y B, que poseen k y N-k
billetes de 1000 pesos. El juego consiste en lanzar una
moneda; si sale casa, A le paga a B 1000 pesos, si sale sello,
B le paga a A los 1000 pesos. El juego termina cuando uno
de los jugadores pierde.

Supongamos que en total hay 4000 en juego (N=4),


PROBABILIDADES

Muestreo
Denominaremos por estimación al proceso estadístico que
busca valorizar un posible parámetro de la población a
través de una muestra. El último capítulo está dedicado a
la estimación y predicción.

Las estimaciones no serán exactamente igual al parámetro


poblacional, pero hay herramientas para lograr que sea lo
más similar posible. Para ello, se debe considerar el Tipo de
Muestra y el Nivel de Error
PROBABILIDADES

Muestreo
Las ventajas del muestreo radican en necesitar menos
información, y por tanto ahorrar costo y tiempo, además de
la manipulación de datos.
En desventajas está en introducir error y sesgo. Para ello,
existen diversas técnicas para definir una muestra y
controlar el error. Se pueden clasificar dos tipos de
muestreo:

-Muestro probabilístico
-Muestro determinístico
PROBABILIDADES

Muestreo
Los métodos de muestreo probabilístico son aquellos que se
basan en que todos los elementos del universo poseen
cierta probabilidad de selección. Los tipos de muestreo
probabilístico más usuales son:

a. Muestreo aleatorio simple


b. Muestreo aleatorio sistemático
c. Muestreo estratificado
d. Muestreo por conglomerados

Veremos cada uno a través de un ejemplo.


PROBABILIDADES

Muestreo
Suponga que se desea estudiar la brecha salarial de los
trabajadores hombres y mujeres dependientes en las
empresas del país. ¿Cómo se pueden obtener 50 empresas
para estudiar?
Aleatorio Simple: A través del directorio de todas las empresas del país,
se toman 50 al azar.

Sistemático: A través del directorio ordenado, se elige la 1, la 101, la


201, la 301…

Estratificado: A partir del tamaño de cada empresa, se eligen algunas


micro, pequeña, mediana y grandes empresas.

Por conglomerados: De los 135 sub rubros, se eligen 5 y se toman


empresas de ellos.
PROBABILIDADES

Muestreo
Los métodos de muestreo no-probabilístico son aquellos
donde todos los elementos del universo poseen una
probabilidad de ser seleccionados de forma subjetiva o
alterada, perdiendo representatividad. Los tipos de
muestreo probabilístico más usuales son:

a. Muestreo por cuotas


b. Muestreo intencional
c. Muestreo causal o accidental
d. Muestreo por bola de nieve
PROBABILIDADES

Muestreo
Suponga que se desea estudiar la brecha salarial de los
trabajadores hombres y mujeres dependientes en las
empresas del país. ¿Cómo se pueden obtener 50 empresas
para estudiar?
Por Cuotas: A partir de la información del SII, se toma las empresas
proporcionales a la cantidad en cada región del país.

Intencional: Se eligen 50 empresas de un mismo holding.

Causal: Se utiliza a las 50 primeras empresas que tienen la información


en internet.

Bola de nieve: Se le pide la información a una empresa, y que


entregue información de las empresas que subcontrata o que trabajan
en paralelo.
PROBABILIDADES

Muestreo
Tamaños de muestra aleatoria simple necesario para tener
un error del 5%
Muestra %
Universo
necesaria
10 10 100%
100 80 80%
1.000 278 27,8%
10.000 370 3,7%
100.000 383 0,38%
1.000.000 384 0,038%
10.000.000 385 0,004%
100.000.000 385 0,0004%
PROBABILIDADES

Muestreo
Un factor de expansión se interpreta como la cantidad de
personas en la población que representa una persona en
la muestra.
Por ejemplo, una observación posee como fde 16, significa
que su respuesta está representando a 16 personas más.

La estimación de un total dado para una variable se


obtiene, primero, ponderando el valor de la variable en
cada persona por su factor de expansión y luego,
sumando todas las personas de la muestra.

Depende de cada diseño si el factor se aplica a la unidad


primaria u otra unidad.
PROBABILIDADES

Ley de los grandes números


La ley de los grandes números es una parte importante de
la teoría de probabilidad, que propone lo siguiente: Si un
evento puede repetirse infinitas veces, entonces la
frecuencia de sus sucesos tiende a ser constante. En otras
palabras, después de ver muchas veces el resultado,
converge a un valor fijo.

La propuesta oficial fue realizada por Gerolamo Cardomo,


mientras que Jacob Bernoulli logró hacer una
demostración completa en su obra “Ars Conjectandi” en
1713. Posteriormente, Siméon Denis Poisson describió con
detalle esta ley.
PROBABILIDADES

Ley de los grandes números


PROBABILIDADES

Ley de los grandes números


PROBABILIDADES

Ley de los grandes números


PROBABILIDADES

Teorema del Límite Central


Independiente de la forma distribucional de una variable
X, se puede probar que si su media es 𝜇, su varianza es 𝜎 2 y
su tamaño de muestra 𝑛 es mayor a 30, entonces la suma y
el promedio poseen una distribución normal, de la forma:

σ𝑋𝑖 ∼ 𝑁𝑜𝑟𝑚𝑎𝑙 𝑛𝜇, 𝑛𝜎 2

𝜎2
𝑋ത ∼ 𝑁𝑜𝑟𝑚𝑎𝑙 𝜇,
𝑛

σ𝑋𝑖 − 𝑛𝜇 𝑋ത − 𝜇
= = 𝑍 ∼ 𝑁𝑜𝑟𝑚𝑎𝑙 0,1
𝑛𝜎 𝜎/ 𝑛
PROBABILIDADES

Teorema del Límite Central

También podría gustarte