Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Estadística para Riesgos
Estadística para Riesgos
ANÁLISIS DE RIESGOS
Fuentes de
Escalas de Medida Estadística Importancia del Información
y Tipos de Datos Muestreo
Procedimientos de
Investigación
Material
Oportunidades Funciones Estadístico
Año
Año 762 Año 578-535
1000
A.C A.C
A.C
Importancia
• Administradores de Empresas. Análisis del Problema. Áreas
• Analistas de Riesgos. relacionales. Importancia del Negocio.
• Economistas. Ciencia de Descripción, Gráficos y
• Investigación de Mercados. los Datos Análisis de los Datos.
• Marketing. Toma de Decisiones Gerenciales a
• Ciencias del Comportamiento. partir de Modelos.
• Finanzas Cuantitativas y Corporativas.
Muestra y Estadístico
Estimador y Estimación
Variable
Estadística Descriptiva
Estadística Inferencial
Error de Muestreo
Estudiantes de la universidad
Habitantes de Bogotá, Colombia, Estados Unidos..
Alumnos del Curso de Estadística Básica
Número de Automóviles Nuevos en Barranquilla
1. Población objetivo.
2. Nivel de confianza de la investigación.
3. Tamaño del error permisible (General 5%)
4. Variabilidad de la población o muestra piloto.
5. Tiempo y recursos para el estudio (realizar la encuesta y manejo de la base de datos).
El estadístico es una medida descriptiva de la variable en la muestra y sirve como una estimación del parámetro
de la población.
Miremos por ejemplo los principales indicadores financieros de Colombia: Inflación, Desempleo, Crecimiento Anual y
Trimestral del PIB, Tipo de Cambio, UVR…
Nominales Clasificar
A,B,C,D
Cualitativas
Categorías Ordinales Jerarquizar
I,II,III
Discretas Contar
Cuantitativas 1,2,3,4
Numéricas Continuas Medir
1.26, 3.1416
Cualitativa Cuantitativa
Es aquel tipo de variable cuya Es aquel tipo de variable cuya
representación es de cualidad (atributo). representación es de cantidad.
Descriptiva
La estadística descriptiva es el proceso de recolectar, agrupar y presentar datos
de tal manera que se pueda presentar y mostrar el problema de manera fácil.
Estadística Permite descubrir las leyes que regulan su aparición y transformación
Inferencial
La estadística inferencial involucra la utilización de la muestra para concluir sobre
el comportamiento del fenómeno de la población.
La exactitud de toda estimación es de enorme importancia (se están tomando decisiones). Azar en el proceso
La exactitud va a depender de la forma de tomar la muestra y del cuidado que se de muestreo Casos atípicos.
tenga para garantizar que la muestra sea confiable y representativa de la población,
sin embargo, se puede comprobar que en muchas ocasiones la muestra no es Sesgo Muestral Tendencia a favorecer la selección
representativa y resultará un error de muestreo. El error de muestreo es la diferencia de ciertos elementos de muestra en
entre el estadístico de la muestra y el valor real pero desconocido del parámetro. lugar de otros.
Consumo
Recolección
Organización
Presentación
Ingresos Netos
$10 $20 $30 $40 $50
Unidades 9 11
Interpretación
Costo Variable
de Datos
$6 $5
Abajo
Costo Fijo $22 $18
Arriba
Ingreso
Los datos son generados a partir de las siguientes escalas de medida, dependiendo de la manera en que se clasifican las
variables, el análisis y la manera de presentar la información puede variar.
Escala de Definición Ejemplos
Medida
Género.
Raza.
Nominal Nombres o clasificaciones que se utilizan para datos en categorías distintas y separadas.
Estado Civil.
Tipo de Inversión.
Factores de Riesgo.
Son las que clasifican las observaciones en categorías con un orden significativo. Los datos con Conformidad.
Ordinal
escala ordinal pueden ser numéricos (Clasificación) y no numéricos. Nivel o Calidad de Vida.
Tamaño de la Empresa.
Medidas en una escala numérica en la cual el valor de cero es arbitrario pero la diferencia entre Temperatura.
Intervalo
valores es importante. El cero de la escala no expresa el valor nulo o ausencia de atributo. Calificaciones.
Velocidad y Distancia
Medidas numéricas en las cuales el cero es un valor fijo en cualquier escala y la diferencia entre Ingresos.
Razón
valores es importante. Rentabilidad y Riesgo.
Pulsaciones.
➔Tipo de Automóvil:
✓1 = Auto Familiar
✓2 = Transporte Público
✓3 = Transporte de Carga
➔Género:
✓1 = Hombre
✓2 = Mujer
Medidas en Escala Ordinal: Se clasifican las observaciones en un orden significativo. La magnitud de los
números no es importante.
➔Nivel de Escolaridad:
✓0 = Sin educación
✓1 = Primaria
✓2 = Secundaria
✓3 = Universidad
Medidas en Escala de Intervalo: Las observaciones tienen un orden inherente y su magnitud es significativa. El cero
es un punto más en la escala, pero no indica ausencia.
➔Temperatura (°F)
Celsius Fahrenheit
-17.7 0
0 33.8
5 41
10 50
Medidas en Escala de Intervalo: Las observaciones tienen un orden inherente y su magnitud es significativa. El cero
es un punto más en la escala, pero no indica ausencia.
➔Nivel de Ingresos.
➔Nivel de Gastos.
➔Edad.
➔Ventas.
➔Calorías consumidas.
Medidas en Nivel de Razón: Posee todas las características de las escalas por intervalo.
El cero tiene sentido en la escala, indica ausencia.
La razón entre dos números es significativa
Objeto de
Propiedades Proceso de Medición Resultado de la Medición
Análisis
Series de Tiempo
Series Transversales
Tipos de
Datos Los datos transversales consisten en datos de una o más variables recopilados en
el mismo punto del tiempo
Información Combinada
Los datos combinados reúnen elementos de series de tiempo y transversales. Hay
un tipo especial de datos combinados en el cual se estudia a través del tiempo la
misma unidad transversal (por ejemplo, una familia o una empresa). Este tipo de
datos se llama Datos de Panel
De esta manera estaríamos entregando lo correcto: producto, clientes, contenido, canal, frecuencia.
¿Cuál debería ser la mejor inversión haciendo el supuesto de que se tiene $1,000? ¿Por qué?
Sacando el mejor provecho, A (2), B (1), C (10), se debe escoger el Proyecto C. Con un presupuesto de $1,000, es
posible obtener lo siguiente:
Datos
Los datos es el diamante en bruto de los analistas, existen
múltiples fuentes de información, sin embargo, no tendrían
sentido si no se pueden interpretar para tomar decisiones
o solucionar fenómenos en particular, el objetivo principal
es utilizar los datos para interpretar los datos. Los
principales problemas de los analistas es la recolección,
descripción y el análisis de los datos.
La distribución de frecuencias es un sistema o método para organizar la información recolectada y poder resumirla
en una tabla. Mediante este método podríamos identificar el número de veces que sucede un evento y su
probabilidad empírica. La probabilidad es un valor que esta acotado entre 0 y 1, que describe la posibilidad
relativa de un evento.
La distribución de frecuencias entonces, nos permitirá organizar grandes volúmenes de información, en forma de
tablas y que se pueden complementar con gráficos (Diagramas de Frecuencias, Histogramas de Frecuencia, Ojivas
y Polígonos de Frecuencia)
𝒚′𝒊−𝟏 - 𝒚′𝒊 Identifica a la variable continua con sus intervalos TOTAL 92 100%
Fuente: Tomado de The Cartoon Guide to Statistics.
C Amplitud del intervalo
https://www.socscistatistics.com/descriptive/histograms/
X1=74 X16=58 1. Determinar el valor máximo y mínimo de las data histórica y luego calcular el rango o recorrido.
X2=67 X17=76 Rango=Máximo-Mínimo.
X3=94 X18=57 2. Debemos determinar el valor del número de intervalos “m” que se van a tomar en cuenta para
X4=70 X19=72 resumir la información en una tabla. Existen diferentes maneras para calcular este valor, vamos a
X5=69 X20=66 recomendar la Fórmula de Sturges, m=1+3.3*log(n). Pero también dependerá del analista, se
X6=61 X21=48 recomienda un número arbitrario entre 5 y 18. Si se utiliza la fórmula de Sturges, ese valor se
X7=71 X22=56 puede redondear a cero decimales tanto por encima como por debajo (se debe tener un valor
X8=79 X23=63 entero).
X9=47 X24=71 3. Vamos a calcular una amplitud constante, C=Rango/m. Siempre debemos aproximar al número
X10=85 X25=60 inmediatamente superior, por pequeña que sea la fracción.
X11=82 X26=64 4. Recalcular el rango o recorrido, c ajustado x m, este último valor se llamará, rango hipotético. La
X12=55 X27=68 diferencia entre el rango hipotético y el rango se le podrá restar al límite inferior o aumentarse al
X13=65 X28=83 limite superior para realizar el ajuste y que ningún valor posible se quede por fuera de la
X14=88 X29=74 distribución de frecuencias.
X15=52 X30=92 5. Organizar los valores dentro de los limites inferior y superior, 𝒚′𝒊−𝟏 - 𝒚′𝒊 , para cada intervalo.
6. Calcular la marca de clase 𝒚𝒊 .
Histrograma de Frecuencias
9 Ojiva
8
8 30
7
6 6 25
6
20
5
4
ni
15
Ni
4
3 3
3 10
2
5
1
0
0
46 54 62 70 78 86 94
46-54 54-62 62-70 70-78 78-86 86-94 Intervalos de Clase
Intervalos de Clase
Polígono de Frecuencias: representación gráfica que combina las marcas de clase y la frecuencia.
Polígono e Histograma
9
8
7
6
5
ni
4
3
2
1
0
46-54 54-62 62-70 70-78 78-86 86-94
Intervalos de Clase
https://home.ubalt.edu/ntsbarsh/Business-stat/otherapplets/Descriptive.htm
http://digitalfirst.bfwpub.com/stats_applet/stats_applet_8_ovc.html
https://www.rossmanchance.com/applets/2021/descstats/Dotplot.htm?hideExtras=1
https://www.rossmanchance.com/applets/2021/guesscorrelation/GuessCorrelation.html
https://www.rossmanchance.com/applets/2021/regshuffle/regshuffle.htm
https://digitalfirst.bfwpub.com/stats_applet/stats_applet_5_correg.html
https://www.statcrunch.com/applets/type2®byeye
https://mste.illinois.edu/activity/regression/
σ𝑥
𝜇=
𝑁
𝜇: 𝑀𝑒𝑑𝑖𝑎 𝑃𝑜𝑏𝑙𝑎𝑐𝑖𝑜𝑛𝑎𝑙
𝑁: 𝑇𝑎𝑚𝑎ñ𝑜 𝑑𝑒 𝑙𝑎 𝑃𝑜𝑏𝑙𝑎𝑐𝑖ó𝑛
Media 1 Media 2
Estadística para el análisis de riesgos Miguel.Bello@Software-Shop.com Pág. 81
DESCRIPCIÓN DE LOS DATOS
Medidas de Tendencia Central y Posición
6 1200,00
5 1000,00
800,00
4
Los niveles actuales de demanda
600,00
3
400,00
2 Inventario de prueba
200,00
1
0,00
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
0 2 4 6 8 10 12 14 More
Media Acotada con un porcentaje del 40%, elimina el 20% de los datos por encima y 20% de los datos por debajo de la
𝑛∗𝑃𝑜𝑟𝑐𝑒𝑛𝑡𝑎𝑗𝑒% 𝑛∗𝑃𝑜𝑟𝑐𝑒𝑛𝑡𝑎𝑗𝑒%
siguiente manera → y se redondea por debajo para luego calcular la media aritmética. =
2 2
10∗40%
= 1.8 ≅ 1, por lo tanto se elimina el primer y último valor, luego se calcula el promedio de 2,8,10,12,24,25,35.
2
𝑳𝟓𝟎 = 𝒏 + 𝟏 ∗ 𝟓𝟎% → Permite calcular la posición del dato que se encuentra en medio, en caso de que las observaciones
sea un número par, se deberá calcular la media aritmética de los dos datos del medio.
Ejemplo: Se tienen valores aleatorios 𝒚𝒊 con una frecuencia 𝒏𝒊 (la frecuencia es el número de veces que se
presenta una característica). Si tenemos los siguientes datos: 2,2,2,3,3,3,3,3,4,4,4,4,4,4,5,5,5; la tabla se
presentaría de la siguiente manera:
𝒚𝒊 𝒏𝒊
2 3 𝑴𝒅 = 𝟒
3 5
4 6
5 3
𝛴 17
Media Ponderada: la media ponderada es un caso especial de la media aritmética, se presenta cuando hay
observaciones con una importancia relativa diferente.
¿Cuál es el salario promedio por hora para cada producto y el promedio del costo de trabajo para cada
producto?
σ 𝒙𝒊 𝒘𝒊
Horas de mano de obra por ഥ
𝒙𝒘 =
σ 𝒘𝒊
Nivel de mano Salario por hora unidad
de obra en Euros
Producto 1 Producto 2 𝑺𝒂𝒍𝒂𝒓𝒊𝒐 𝒑𝒓𝒐𝒎𝒆𝒅𝒊𝒐 𝒑𝒓𝒐𝒅𝒖𝒄𝒕𝒐 𝟏
No calificado 5.00 1 4 5 ∗ 1 + 7 ∗ 2 + [ 9 ∗ 5] 64
𝑥ҧ𝑤1 = = =8
Semicalificado 1+2+5 8
7.00 2 3
Calificado 9.00 5 3 𝑺𝒂𝒍𝒂𝒓𝒊𝒐 𝒑𝒓𝒐𝒎𝒆𝒅𝒊𝒐 𝒑𝒓𝒐𝒅𝒖𝒄𝒕𝒐 𝟐
5 ∗ 4 + 7 ∗ 3 + [ 9 ∗ 3] 68
𝑥ҧ𝑤2 = = = 6.8
4+3+3 10
María Paula quiere saber su nota definitiva de la materia Estadística para el análisis de riesgos. Tiene la
siguientes notas:
El primer corte tiene un peso (participación, ponderación,…) del 30%, el segundo de 30% y el último de 40%
Media Geométrica: la media geométrica es útil para determinar el cambio promedio de porcentajes, razones,
índices o tasas de crecimiento. La media geométrica de un conjunto de n números positivos se define como la raíz
enésima de un producto de n valores. La media geométrica siempre es menor o igual (nunca mayor) que la
media aritmética. Los valores deben ser TODOS positivos.
Tasa de Interés Promedio Otra aplicación de la media geométrica se relaciona con la determinación de un
cambio porcentual promedio durante cierto periodo. Suponga que la población
Suponga que un préstamo tiene tasas de interés fijas conocidas y quisiera en 1990 es de 258295 habitantes y para el 2011 fue de 584539, la pregunta
calcular la tasa de interés promedio de la colocación de su dinero. El monto de la sería: ¿Cuál fue le incremento anual promedio?
inversión es de 5,000 usd, el primer año tendrá una tasa efectiva anual de 10%, 𝑛 𝑉𝑎𝑙𝑜𝑟 𝐹𝑖𝑛𝑎𝑙 𝑑𝑒𝑙 𝑝𝑒𝑟í𝑜𝑑𝑜
el segundo año de 25% y el tercer año de 12.5%. 𝑇𝑎𝑠𝑎 𝑑𝑒 𝑖𝑛𝑐𝑟𝑒𝑚𝑒𝑛𝑡𝑜 𝑐𝑜𝑛 𝑒𝑙 𝑡𝑖𝑒𝑚𝑝𝑜 = −1
𝑉𝑎𝑙𝑜𝑟 𝑎𝑙 𝑖𝑛𝑖𝑐𝑖𝑜 𝑑𝑒𝑙 𝑝𝑒𝑟𝑖𝑜𝑑𝑜
3
𝑀𝐺 = 1 + 0.1 ∗ 1 + 0.25 ∗ (1 + 0.125) = 1.1565 − 1 = 15.65% 584539
𝑇𝑎𝑠𝑎 𝑑𝑒 𝑖𝑛𝑐𝑟𝑒𝑚𝑒𝑛𝑡𝑜 𝑐𝑜𝑛 𝑒𝑙 𝑡𝑖𝑒𝑚𝑝𝑜 = 21 − 1 = 0.0397 = 3.97%
258295
Suponga que un préstamo tiene tasas de interés fijas conocidas y quisiera calcular la tasa de interés promedio de la colocación de
su dinero. El monto de la inversión es de 5,000 usd, el primer año tendrá una tasa efectiva anual de 10%, el segundo año de 25%
y el tercer año de 12.5%.
3
𝑀𝐺 = 1 + 0.1 ∗ 1 + 0.25 ∗ (1 + 0.125) = 1.1565 − 1 = 15.65%
Periodo Valor Inicial Interés Factor de Crecimiento Valor al Final En este caso cometeríamos un error si calculamos el
promedio de los intereses y lo incorporamos en la
1 5,000 10% (1+0.10) 5,500 fórmula de Valor Futuro
Cuartiles
Q1 Q2 Q3 Q4
25% 50% 75% 100%
Deciles
D1 D2 D3 D4 D5 D6 D7 D8 D9 D10
10% 20% 30% 40% 50% 60% 70% 80% 90% 100%
Percentiles
P1 P2 P3 … P50 … P100
1% 2% 3% 50% 100%
La fórmula de localización indica que el percentil 25 o cuartil 1 se encuentra entre el primer y segundo valor, y
es 0.75 la distancia entre ellos. El primer valor es 43 y el segundo es 61, de esta manera, la distancia entre
estos valores es de 18. El percentil sería 43+0.75*(61-43)=56.5
$900
$800
$700
Riesgo = 20%
$600
$500
Riesgo = 0%
Time
Año 1 Año 2 Año 3 Año 4 Año 5
Promedio
Estadística para el análisis de riesgos Miguel.Bello@Software-Shop.com Pág. 96
DESCRIPCIÓN DE LOS DATOS
𝑄1 𝑄2 𝑄3
Observación más baja Primer Cuartil Media=Mediana=Moda Tercer Cuartil Observación más alta
Estadística para el análisis de riesgos Miguel.Bello@Software-Shop.com Pág. 100
DESCRIPCIÓN DE LOS DATOS
Medidas de Dispersión o Variabilidad
Diagrama de Caja o Bigotes
Un diagrama de caja es una representación gráfica basada en cuartiles que ayuda a presentar un conjunto de
datos. Además, permite identificar datos atípicos, es decir, valores que no concuerdan con el resto de los datos y
que se pueden obtener a partir del rango intercuartílico.
Q3
Q3+1.5RIC
Q3
Mediana RIC=Rango
intercuartil
Mediana
Q1 Q1
Valor Mínimo Q1-1.5RIC Valor Mínimo
Varianza: La varianza mide la cantidad media respecto de la cual los valores de una población o muestra
varían. A diferencia del rango, toma todos los valores para calcular la variación promedio. La varianza es la
media aritmética de los valores absolutos de las desviaciones con respecto a la media aritmética.
σ 2
σ(𝑥 − 𝜇)2 (𝑥 − 𝑥)
ҧ
𝜎2 = 𝑠2 =
𝑁 𝑛−1
σ(𝑥 − 𝑥)ҧ 2
σ(𝑥 − 𝜇)2 𝑠=
𝑛−1
𝜎=
𝑁
Coeficiente de variación o variación relativa: medida relativa de variabilidad, medida en términos porcentuales.
Expresa la desviación típica en porcentaje de la media. Proporciona una estimación de la magnitud de la desviación respecto
a la magnitud de la media.
Regla Empírica: en cualquier distribución de frecuencias simétrica con forma de campana, aproximadamente
68% de las observaciones se encontrarán entre más o menos una desviación estándar de la media; cerca de
95% de las observaciones se encontrarán entre más o menos dos desviaciones estándar de la media y, de
hecho, “todas” (99.7%) estarán entre más o menos tres desviaciones estándar.
68%
68%
95%
99.7%
Teorema de Chebyshev
Para cualquier población de media 𝜇 y desviación estándar 𝜎 y k>1, el porcentaje de observaciones que se
encuentran dentro del intervalo 𝜇 ± 𝑘𝜎 es
1
100 1 − %
𝑘2
En una distribución normal estándar “z”, la media es 0 y la varianza es 1. Un valor de z mayor que cero indica que el valor es
mayor que la media, un valor de cero indicar que el valor es igual a la media.
𝑥𝑖 − 𝜇
𝑧=
𝜎
Asimetría < 0
Sesgada a la izquierda Coeficiente de
Sesgo de Pearson
A B C 3(𝑥ҧ − 𝑀𝑒𝑑𝑖𝑎𝑛𝑎)
𝑆𝑘 =
𝑠
Medida acotada entre -3 y 3
Asimetría < 0
Sesgada a la izquierda Coeficiente de
Sesgo de Pearson
A B C 3(𝑥ҧ − 𝑀𝑒𝑑𝑖𝑎𝑛𝑎)
𝑆𝑘 =
Media Mediana Moda 𝑠
Medida acotada entre -3 y 3
Curtosis
4
m1 = m2 𝑛(𝑛 + 1) 𝑥 − 𝑥ҧ 3(𝑛 − 1)2
𝑘= −
(𝑛 − 1)(𝑛 − 2)(𝑛 − 3) 𝑠 (𝑛 − 2)(𝑛 − 3)
Un valor de cero se llama distribución mesocúrtica, >0 indica
leptocúrtica y <0 indica platicúrtica.
2,4,5,7,8,10
STATA
La representación gráfica bivariada más utilizada es el diagrama de dispersión o ScatterPlot. Para trazar un diagrama se necesitan dos
variables, una de las variables se escala sobre el eje horizontal (eje x) y la otra variable, a los largo del eje vertical (eje y).
Y Y Y
X X X
Estadística para el análisis de riesgos Miguel.Bello@Software-Shop.com Pág. 117
DESCRIPCIÓN DE LOS DATOS
Medidas descriptivas entre dos variables
Asociaciones Lineales Asociaciones NO Lineales
➢ Covarianza: es una medida de relación lineal entre dos variables. Un valor positivo indica una
relación lineal directa o creciente y un valor negativo indica una relación lineal decreciente.
σ(𝑥𝑖 − 𝜇𝑥 )(𝑦𝑖 − 𝜇𝑦 )
𝐶𝑜𝑣 𝑥, 𝑦 → 𝐶𝑜𝑣𝑎𝑟𝑖𝑎𝑛𝑧𝑎 𝑃𝑜𝑏𝑙𝑎𝑐𝑖𝑜𝑛𝑎𝑙 → 𝜎𝑥𝑦 =
𝑁
𝜇𝑥 : 𝑀𝑒𝑑𝑖𝑎 𝑝𝑜𝑏𝑙𝑎𝑐𝑖𝑜𝑛𝑎𝑙 𝑑𝑒 𝑥
𝜇𝑦 : 𝑀𝑒𝑑𝑖𝑎 𝑝𝑜𝑏𝑙𝑎𝑐𝑖𝑜𝑛𝑎𝑙 𝑑𝑒 𝑦
𝑁: 𝑇𝑎𝑚𝑎ñ𝑜 𝑑𝑒 𝑙𝑎 𝑝𝑜𝑏𝑙𝑎𝑐𝑖ó𝑛
σ(𝑥𝑖 − 𝑥)(𝑦
ҧ 𝑖 − 𝑦)
ത
𝐶𝑜𝑣 𝑥, 𝑦 → 𝐶𝑜𝑣𝑎𝑟𝑖𝑎𝑛𝑧𝑎 𝑀𝑢𝑒𝑠𝑡𝑟𝑎𝑙 → 𝑠𝑥𝑦 =
𝑛−1
𝑥:ҧ 𝑀𝑒𝑑𝑖𝑎 𝑚𝑢𝑒𝑠𝑡𝑟𝑎𝑙 𝑑𝑒 𝑥
𝑦:
ത 𝑀𝑒𝑑𝑖𝑎 𝑚𝑢𝑒𝑠𝑡𝑟𝑎𝑙 𝑑𝑒 𝑦
𝑛: 𝑇𝑎𝑚𝑎ñ𝑜 𝑑𝑒 𝑙𝑎 𝑚𝑢𝑒𝑠𝑡𝑟𝑎
Estadística para el análisis de riesgos Miguel.Bello@Software-Shop.com Pág. 120
DESCRIPCIÓN DE LOS DATOS
Medidas descriptivas entre dos variables: Medidas de Asociación Lineal
➢ Coeficiente de correlación o producto momento de Pearson: medida más útil, ya que indica el sentido
como el grado de relación. Es una media estandarizada de la relación lineal entre dos variables.
Propiedades:
MOMENTOS
MEDIDAS DE ASOCIACÓN LINEAL
Tercer Momento Cuarto Momento Covarianza
Coeficiente de Correlación Lineal
• El análisis de regresión trata del estudio de la dependencia de la variable dependiente, respecto a una o
más variables, con el objetivo de estimar y/o predecir el valor promedio poblacional de la primera en
términos de los valores conocidos o fijos de la última.
• A pesar de que el análisis de regresión tiene que ver con la dependencia de una variable respecto a otras
variables, esto no implica causalidad necesariamente. Las ideas de causalidad deben venir de
consideraciones a priori, estadísticas externas y, en último termino de una u otra teoría.
REGRESIÓN
• En el análisis de correlación el objetivo principal es medir la fuerza o el
grado de asociación lineal entre dos variables. En el análisis de regresión
se trata de estimar o de predecir el valor promedio de una variable sobre la
base de valores fijos de otras variables.
Los expertos en cada caso tendrán ALGO que decir (especular) pero difícilmente están
seguros de CUÁNTO, en esos casos la Modelación cuantitativa les puede ayudar.
Tipos de
Modelo 1. Económico o Financiero: el consumo depende del ingreso.
2. Econométrico: el consumo depende del ingreso y de un término de error. El error, recoge el
efecto combinado de otras variables independientes que explican el comportamiento de la
variable dependiente y que no fueron incluidas en el modelo.
𝐶𝑜𝑛𝑠𝑢𝑚𝑜 = 𝛼0 + 𝛽 𝐼𝑛𝑔𝑟𝑒𝑠𝑜
𝐶𝑎𝑛𝑡𝑖𝑑𝑎𝑑 = 𝛼0 + 𝛽 𝑃𝑟𝑒𝑐𝑖𝑜
2. Estadístico/Econométrico:
𝐶𝑜𝑛𝑠𝑢𝑚𝑜 = 𝛼0 + 𝛽 𝐼𝑛𝑔𝑟𝑒𝑠𝑜 + 𝑒𝑖
El error, recoge el efecto combinado de otras variables independientes que explican el
comportamiento de la variable dependiente y que no fueron incluidas en el modelo.
Partiendo de una función lineal entre dos variables, se puede estimar una relación de
tal manera que la variable independiente explique de manera exclusiva el
comportamiento de la variable dependiente, este modelo de regresión es llamado Y
determinístico.
𝑌 = 𝛽0 + 𝛽1 𝑋
𝑌 = 𝛽0 + 𝛽1 𝑋 + 𝑒 𝛽1
𝛽0
El término 𝑒 es una variable estocástica inobservable que captura los errores de
X
especificación dentro del modelo, tales como variables omitidas, forma funcional
incorrecta, comportamiento aleatorio de los individuos y errores de medida.
𝑌 = 𝛽መ0 + 𝛽መ1 𝑋 + 𝑒Ƹ
𝑌 = 𝑌𝑖 + 𝑒Ƹ Y
𝛽0 = 𝑌ത − 𝛽1 𝑋ത
σ 𝑋 − 𝑋ത 𝑌 − 𝑌ത
𝛽መ1 =
σ 𝑋 − 𝑋ത 2
𝑆𝐶𝐸
𝑅2 =
𝑆𝐶𝑇
El coeficiente de determinación puede tomar valores menores o iguales a uno o valores mayores o iguales a cero. Entre más cercano a uno
este el coeficiente de determinación indica un poder predictivo más fuerte.
Y 𝑌𝑖
𝑌𝑖 𝑌𝑖 − 𝑌ത = 𝑌𝑖 − 𝑌𝑖 + (𝑌𝑖 − 𝑌ത ൯
𝑌𝑖 − 𝑌𝑖 2 2
𝑌𝑖 − 𝑌ത 𝑌𝑖 − 𝑌ത 2
= 𝑌𝑖 − 𝑌𝑖 + 𝑌𝑖 − 𝑌ത
𝑌𝑖 − 𝑌ത = 𝑃𝑎𝑟𝑡𝑒 𝐸𝑥𝑝𝑙𝑖𝑐𝑎𝑑𝑎
𝑌ത 𝑌𝑖 − 𝑌ത 2
= 𝑺𝑪𝑻 = 𝑆𝑢𝑚𝑎 𝑑𝑒 𝑐𝑢𝑎𝑑𝑟𝑎𝑑𝑜𝑠 𝑡𝑜𝑡𝑎𝑙
(𝑌𝑖 − 𝑌)
ത 2 = 𝑺𝑪𝑬 = 𝑆𝑢𝑚𝑎 𝑑𝑒 𝑐𝑢𝑎𝑑𝑟𝑎𝑑𝑜𝑠 𝑒𝑥𝑝𝑙𝑖𝑐𝑎𝑑𝑎
2
𝑋ത X 𝑌𝑖 − 𝑌𝑖 = 𝑺𝑪𝑹 = 𝑆𝑢𝑚𝑎 𝑑𝑒 𝑐𝑢𝑎𝑑𝑟𝑎𝑑𝑜𝑠 𝑑𝑒 𝑙𝑜𝑠 𝑟𝑒𝑠𝑖𝑑𝑢𝑜𝑠
Pronosticar una variable siempre será una combinación ideal entre arte y ciencia. A continuación, se detalla de manera
gráfica los principales problemas al analizar una relación entre variables.
Casos Relación no
Atípicos Lineal
Relación no Varianza no
Lineal Constante
Varianza no
Constante
PROBABILIDAD
Probabilidad Probabilidad de
de Fuga Incumplimiento
Probabilidad
No existe ninguna posibilidad Posibilidad de obtener una cara Con seguridad el evento
de que el evento ocurra. en el lanzamiento de una moneda sucederá.
Experimento Resultado
Ω= 𝜔1 , 𝜔2 : 𝜔𝑖 𝜖 𝑖 = 1,2,3,4,5,6, 𝑖 = 1,2
Contar el número de miembros que hacen parte de la junta
Experimento Lanzar un Dado directiva de las 500 mejores empresas dentro de los cuales
su edad sea superior de 60 años
Este será un conjunto de 36 resultados posibles.
Algunos
Observar un número par
Más de 13 miembros tienen más de 60 años
¿Cuál sería el conjunto de resultados en donde
Observar un número mayor que 4 la suma del lanzamiento de dos dados sea
posibles eventos Menos de 20 miembros son mayores de 60 años
Observar un número menor o igual que 3
igual que 10?
Enfoques de
Probabilidad
Objetivo Subjetivo
𝑁𝐴
𝑃 𝐴 =
𝑁
La frecuencia empírica o relativa es el número de sucesos contenidos en la población que satisfacen la condición divido por el
número total de sucesos. Estas probabilidades indican la frecuencia con que ocurrirá un suceso en comparación con otros.
𝑛𝐴
𝑃 𝐴 =
𝑛
Sin embargo, si hay un número muy grande de resultados, tal como el número de resultados de un experimento al
lanzar 20 monedas, sería tedioso contar todas las posibilidades.
Para esto, se analizarán tres fórmulas para contar: la fórmula de la multiplicación, la fórmula de las permutaciones
y la fórmula de las combinaciones.
Si hay m formas de hacer una cosa y n de hacer otra, hay m x n formas de hacer ambas
Si un distribuidor de telefonía móvil quiere colocar todos sus modelos de iPhone en el mostrador de la tienda
(Tamaño, Color y Modelo) ¿Cuántos tipos distintos de iPhone se pueden ofrecer?
✓ La fórmula de la multiplicación se aplica para determinar el número posible de disposiciones de dos o más
grupos.
✓ La fórmula de las permutaciones hace referencia al número de arreglos que se pueden hacer con un conjunto
de elementos cuando solo hay un grupo de objetos.
✓ Es importante el orden.
𝑛!
𝑛𝑃𝑟 = 𝑑𝑜𝑛𝑑𝑒 𝑛 𝑒𝑠 𝑒𝑙 𝑡𝑜𝑡𝑎𝑙 𝑑𝑒 𝑜𝑏𝑗𝑒𝑡𝑜𝑠 𝑦 𝑟 𝑒𝑠 𝑒𝑙 𝑡𝑜𝑡𝑎𝑙 𝑑𝑒 𝑜𝑏𝑗𝑒𝑡𝑜𝑠 𝑠𝑒𝑙𝑒𝑐𝑐𝑖𝑜𝑛𝑎𝑑𝑜𝑠
𝑛−𝑟 !
Si el orden de los objetos seleccionados no es importante, cualquier selección se denomina combinación. La forma
para contar el número de r combinaciones de objetos de un conjunto de n objetos es:
𝑛 𝑛!
𝑛𝐶𝑟 = = 𝑑𝑜𝑛𝑑𝑒 𝑛 𝑒𝑠 𝑒𝑙 𝑡𝑜𝑡𝑎𝑙 𝑑𝑒 𝑜𝑏𝑗𝑒𝑡𝑜𝑠 𝑦 𝑟 𝑒𝑠 𝑒𝑙 𝑡𝑜𝑡𝑎𝑙 𝑑𝑒 𝑜𝑏𝑗𝑒𝑡𝑜𝑠 𝑠𝑒𝑙𝑒𝑐𝑐𝑖𝑜𝑛𝑎𝑑𝑜𝑠
𝑟 𝑟! 𝑛 − 𝑟 !
Ahora, ¿Qué pasaría si usted prefiere comer primero una banana Split y después una torta de chocolate y su satisfacción es
diferente que comer primero una torta de chocolate y una banana Split?
El espacio muestral contiene 5A y 7B. ¿Cuál es la probabilidad de que un conjunto de 2 seleccionado aleatoriamente contenga 1A
y 1B?
El espacio muestral contiene 6A y 4B. ¿Cuál es la probabilidad de que un conjunto de 3 seleccionado aleatoriamente contenga 1A
y 2B?
En una ciudad de 180,000 personas, hay 20,000 inmigrantes legales procedentes de Latinoamérica. ¿Cuál es la probabilidad de
que una muestra aleatoria de dos personas de la ciudad contenga dos inmigrantes legales procedentes de Latinoamérica?
Dado que hay 5 postres en una repostería y supongamos que ustedes comen dos postres por cada visita. ¿Cuántas veces podría
visitar la repostería sin comer los mismos postres?
AB,AC,AD,AE,BC,BD,BE,CD,CE,DE
5!
𝐶25 = = 10
2! ∗ 5 − 2 !
Ahora, ¿Qué pasaría si usted prefiere comer primero una banana Split y después una torta de chocolate y su satisfacción es
diferente que comer primero una torta de chocolate y una banana Split?
5!
𝑃25 = = 20
5−2 !
𝑛𝐴 20,000
𝑃 𝐴 = = = 11.11%
𝑛 180,000
La probabilidad de que una muestra aleatoria de 2 personas de la ciudad contenga 2 inmigrantes legales de América Latina es
11.11%*11.11%=1.23%
𝐶220,000
𝑃 𝐴 = = 1.23%
𝐶2180,000
La probabilidad clásica parte del supuesto de que los resultados de un experimento son igualmente posibles. La
probabilidad de un evento se calcula dividendo el número de resultados favorables entre el número de posibles
resultados.
𝑁ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑅𝑒𝑠𝑢𝑙𝑡𝑎𝑑𝑜𝑠 𝐹𝑎𝑣𝑜𝑟𝑎𝑏𝑙𝑒𝑠
𝑃𝑟𝑜𝑏𝑎𝑏𝑖𝑙𝑖𝑑𝑎𝑑 𝑑𝑒 𝑢𝑛 𝑒𝑣𝑒𝑛𝑡𝑜 =
𝑁ú𝑚𝑒𝑟𝑜 𝑡𝑜𝑡𝑎𝑙 𝑑𝑒 𝑝𝑜𝑠𝑖𝑏𝑙𝑒𝑠 𝑟𝑒𝑠𝑢𝑙𝑡𝑎𝑑𝑜𝑠
Mutuamente
Excluyente ✓ El hecho de que un evento se presente significa que ninguno de los demás
puede ocurrir.
Compatibles
✓ Sucesos que pueden ocurrir simultáneamente.
Independientes
✓ Evento donde la presentación de uno, no tiene efecto sobre la probabilidad
de presentación de cualquier otro.
El segundo tipo de probabilidad, se basa en el número de veces que ocurre un evento como proporción del número
de sucesos similares en el pasado.
Este enfoque se basa en la llamada ley de los grandes números. La ley de los grandes números indica que en una
gran cantidad de intentos, la probabilidad empírica de un evento se aproximará a su probabilidad real.
Si se cuenta con poca o ninguna información con la cual sustentar la probabilidad, es posible aproximarla de
manera subjetiva. Existe un amplio grado de incertidumbre en este tipo de probabilidad, la cual se basa,
principalmente, en el conocimiento que posee el individuo del proceso que estudia.
Diagrama de Venn
http://www.stat.ucla.edu/~vlew/stat11/lectures/venn/venn.html
1. Regla Especial de la adición: se aplica cuando los eventos son mutuamente excluyentes. Por lo tanto, la regla
especial de la adición establece que la probabilidad de que ocurra uno u otro es igual a la suma de sus
probabilidades marginales. Una probabilidad marginal se refiere a la probabilidad de ocurrencia de un
suceso.
𝑅𝑒𝑔𝑙𝑎 𝐸𝑠𝑝𝑒𝑐𝑖𝑎𝑙 𝑑𝑒 𝑙𝑎 𝐴𝑑𝑖𝑐𝑖ó𝑛 𝑃 𝐴 𝑜 𝐵 = 𝑃 𝐴 + 𝑃 𝐵
El concepto de eventos mutuamente excluyentes, así como de otras reglas para combinar probabilidades se
ilustra mediante el diagrama de Venn. Para construir un diagrama de Venn, primero se encierra un espacio
de forma rectangular, el cual representa el total de los posibles resultados. Así, un evento se representa por
medio de un área circular que se dibuja dentro del rectángulo, la cual corresponde a la probabilidad del
evento.
La tabla de contingencia se utiliza para clasificar observaciones de una muestra de acuerdo con
dos o más características identificables. Una tabla de contingencia consiste en una tabulación
cruzada que resume simultáneamente dos variables de interés, así como la relación entre estas.
Golosinas Golosinas
Frecuencia Si No Total Probabilidad Si No Total
Spam 4 16 20 Spam 4% 16% 20%
Ham 1 79 80 Ham 1% 79% 80%
Total 5 95 100 Total 5% 95% 100%
Número de
0 Entre 1 y 3 Entre 4 y 6 Entre 7 y 9 Entre 10 y 12 Más de 12
Reclamaciones
1. Hallar la probabilidad de A.
2. Hallar la probabilidad de B.
3. Hallar la probabilidad del complemento de A.
4. Hallar la probabilidad de la unión de A y B.
5. Hallar la probabilidad de la intersección de A y B
6. ¿Son A y B sucesos mutuamente excluyentes?
7. ¿Son A y B sucesos colectivamente exhaustivos?
𝑃 𝐴ҧ = 1 − 𝑃 𝐴 = 14%
𝑃 𝐴 𝑜 𝐵 𝑜 𝐶 = 𝑃 𝐴 + 𝑃 𝐵 + 𝑃 𝐶 − 𝑃 𝐴 𝑦 𝐵 − 𝑃 𝐴 𝑦 𝐶 − 𝑃 𝐵 𝑦 𝐶 + 𝑃(𝐴 𝑦 𝐵 𝑦 𝐶)
𝑃 𝐴 ∪ 𝐵 ∪ 𝐶 = 𝑃 𝐴 + 𝑃 𝐵 + 𝑃 𝐶 − 𝑃 𝐴 ∩ 𝐵 − 𝑃 𝐴 ∩ 𝐶 − 𝑃 𝐵 ∩ 𝐶 + 𝑃(𝐴 ∩ 𝐵 ∩ 𝐶)
A B
𝑃 𝐴 𝑜 𝐵 𝑜 𝐶 = 𝑃 𝐴 + 𝑃 𝐵 + 𝑃 𝐶 − 𝑃 𝐴 𝑦 𝐵 − 𝑃 𝐴 𝑦 𝐶 − 𝑃 𝐵 𝑦 𝐶 + 𝑃(𝐴 𝑦 𝐵 𝑦 𝐶)
A B
𝑃 𝐴 𝑜 𝐵 𝑜 𝐶 = 𝑃 𝐴 + 𝑃 𝐵 + 𝑃 𝐶 − 𝑃 𝐴 𝑦 𝐵 − 𝑃 𝐴 𝑦 𝐶 − 𝑃 𝐵 𝑦 𝐶 + 𝑃(𝐴 𝑦 𝐵 𝑦 𝐶)
A B
2% 3% 7%
5%
4% 8%
20%
C
Al igual que la regla de la adición, la regla de la multiplicación tiene dos tipos: especial y general.
Recordemos que un evento independiente, se llama independiente si un evento ocurre y no tiene ningún efecto
sobre la probabilidad de que otro evento acontezca.
𝑃 𝐴 𝑦 𝐵 = 𝑃 𝐴 ∗ 𝑃(𝐵)
𝑃 𝐴 ∩ 𝐵 = 𝑃 𝐴 ∗ 𝑃(𝐵)
¿El evento Golosinas y Spam son eventos independiente? RTA// No, la multiplicación de las probabilidades
marginales es diferente a la probabilidad conjunta.
La probabilidad condicional es una probabilidad de un evento en particular suceda, dado que otro evento haya
acontecido.
𝑃 𝐴 𝑦 𝐵 = 𝑃 𝐴 ∗ 𝑃(𝐵|𝐴)
Se tendrá entonces que la probabilidad conjunta, que los dos eventos sucedan, es la multiplicación de la
probabilidad marginal (probabilidad sencilla que quiere decir que solo un evento puede llevarse a cabo) y la
probabilidad condicional (la probabilidad de B dada A)
0 𝐴1 15 50 10 75 𝑃 2 𝑜 𝑚𝑒𝑛𝑜𝑠 𝑝𝑒𝑙í𝑐𝑢𝑙𝑎𝑠
3,4 y 5 𝐴3 55 60 60 175 𝑃 6 𝑜 𝑚á𝑠 𝑝𝑒𝑙í𝑐𝑢𝑙𝑎𝑠 𝑑𝑎𝑑𝑜 𝑞𝑢𝑒 𝑙𝑎 𝑝𝑒𝑟𝑠𝑜𝑛𝑎 𝑡𝑖𝑒𝑛𝑒 60 𝑎ñ𝑜𝑠 𝑜 𝑚á𝑠
2. Hay tres ramas principales que salen de la raíz. En la rama superior se representa el evento de un adulto que tiene menos de
30 años. La rama se etiqueta con la probabilidad 𝑃 𝐵1 = 100/500.
3. De cada una de las ramas principales salen cuatro ramas, las cuales representan las cuatro categorías de películas vistas por
mes. Las ramas superiores del árbol representan la probabilidad condicional de un adulto que no vio ninguna película dado
que tiene menos de 30 años. Estas se escriben 𝑃(𝐴1 𝐵1 , 𝑃(𝐴2 𝐵1 …
4. Por último, se determinan las diversas probabilidades conjuntas. Por tanto, la probabilidad conjunta de que un adulto
seleccionado al azar tenga menos de 30 años y no vea películas durante el mes es:
100 15
𝑃(𝐵1 𝑦 𝐴1 ) = 𝑃 𝐵1 ∗ 𝑃(𝐴1 𝐵1 = ∗ = 0.03
500 100
50 225 50
= 0.22 0 ∗ = 0.10
225 500 225
100 225 100
225 = 0.44 1o2 ∗ = 0.20
= 0.45 225 500 225
500 30 hasta 60 225 60
Edad 60
años = 0.27 3, 4 y 5 ∗ = 0.12
225 500 225
15 225 15
= 0.07 6 o más ∗ = 0.03
225 500 225
10 175 10
175 = 0.06 0 ∗ = 0.02
175 500 175
= 0.35
500 75 175 75
= 0.43 1o2 ∗ = 0.15
175 500 175
60 años o 60 175 60
más = 0.34 3, 4 y 5 ∗ = 0.12
175 500 175
30 175 30
= 0.17 6 o más ∗ = 0.06
175 500 175
Género
P(M|C)= Masculino P(Casado ∩ Masculino)=
P(Casado)=
Género
P(Separado)= P(M|S)= Masculino P(Separado ∩ Masculino)=
P(Viudo)=
Género
𝑃 𝐴1 ∗ 𝑃(𝐵|𝐴1 )
𝑃 𝐴1 𝐵 =
𝑃 𝐴1 𝑃 𝐵 𝐴1 + 𝑃 𝐴2 𝑃(𝐵|𝐴2 )
𝑃 𝐴 ∩𝐵 =𝑃 𝐵∩𝐴
𝑃 𝐴 ∗𝑃 𝐵 𝐴 = 𝑃 𝐵 ∗𝑃 𝐴 𝐵
𝑃 𝐴 ∗𝑃 𝐵 𝐴 𝑃 𝐴1 𝑃 𝐵 𝐴1
𝑃 𝐴𝐵 = =
𝑃(𝐵) 𝑃 𝐴1 𝑃 𝐵 𝐴1 + 𝑃 𝐴2 𝑃 𝐵 𝐴2 + ⋯ + 𝑃 𝐴𝐾 𝑃 𝐵 𝐴𝐾
Estos son los cuatro pasos para calcular la probabilidad por medio del Teorema de Bayes
1. Se definen los sucesos de los subconjuntos, dado el problema.
2. Se definen las probabilidades y las probabilidades condicionadas de los sucesos definidos en el paso 1.
3. Se calculan los complementos de las probabilidades.
4. Se construye el diagrama de árbol o se aplica directamente la fórmula del Teorema de Bayes para calcular la probabilidad.
Golosinas
20
𝑃 𝑆𝑝𝑎𝑚 = = 0.2
Frecuencia Si No Total 100
Spam 4 16 20 4
𝑃 𝐺𝑜𝑙𝑜𝑠𝑖𝑛𝑎𝑠 𝑆𝑝𝑎𝑚 = = 0.2
20
Ham 1 79 80
Golosinas
5
Total 5 95 100 𝑃 𝐺𝑜𝑙𝑜𝑠𝑖𝑛𝑎𝑠 = = 0.05
Probabilidad Si No Total 100
Spam 4/20 16/20 20
𝟒 𝟐𝟎
Ham 1/80 79/80 80 𝟐𝟎 ∗ 𝟏𝟎𝟎
𝑷 𝑺𝒑𝒂𝒎 𝑮𝒐𝒍𝒐𝒔𝒊𝒏𝒂𝒔 = = 𝟎. 𝟖 = 𝟖𝟎%
𝟓
Total 5/100 95/100 100 𝟏𝟎𝟎
CC: Cliente compra y CN: Cliente no compra. P(Cliente Compra)=10% P(Cliente no compra)=90% 1)P(CC|CI)=30.76%
CI: Cliente incentivo y CNI: Cliente no incentivo
P(Cliente Incentivo|Cliente Compra)=40% P(Cliente no Incentivo|Cliente Compra)=60% 2)P(CC|CNI)=6.89%
4%
𝑃 𝐶𝑙𝑖𝑒𝑛𝑡𝑒 𝐶𝑜𝑚𝑝𝑟𝑎|𝐶𝑙𝑖𝑒𝑛𝑡𝑒 𝐼𝑛𝑐𝑒𝑛𝑡𝑖𝑣𝑜 = = 30.76%
𝑃 𝐶𝑙𝑖𝑒𝑛𝑡𝑒 𝑁𝑜 𝐼𝑛𝑐𝑒𝑛𝑡𝑖𝑣𝑜|𝐶𝑜𝑚𝑝𝑟𝑎𝑟 = 60% 6% 4% + 9%
𝑃 𝑁𝑜 𝐶𝑜𝑚𝑝𝑟𝑎𝑟 = 90% 6%
𝑃 𝐶𝑙𝑖𝑒𝑛𝑡𝑒 𝐶𝑜𝑚𝑝𝑟𝑎|𝐶𝑙𝑖𝑒𝑛𝑡𝑒 𝑁𝑜 𝐼𝑛𝑐𝑒𝑛𝑡𝑖𝑣𝑜 = = 6.89%
6% + 81%
Un trabajador selecciona un microchip para instalarlo y lo encuentra defectuoso. ¿Cuál es la probabilidad de que
lo haya fabricado Intel?
𝑃 𝐼𝑛𝑡𝑒𝑙 = 20%
Una distribución de probabilidad proporciona toda la gama de valores que pueden presentarse en un
experimento y la probabilidad de que cada uno se presente. Es similar a una distribución de frecuencias relativas,
pero, en lugar a referirse al pasado, describe la probabilidad de un evento se presente en el futuro.
Distribución de Probabilidad
Lista de todos los resultados de un experimento y la probabilidad asociadas a cada uno
de ellos.
Suponga que el experimento consta en lanzar una moneda tres veces. ¿Cuál es el experimento?, ¿Cuál es el
espacio muestral? ¿Cuál es el evento? y ¿Cuál es la variable aleatoria?
Posibles resultados de tres lanzamientos de moneda (C=Cara, S=Sello)
SSC CSS
SSS SCS CSC CCC
CSS CCS
x P(x) F(x) 𝐹𝑢𝑛𝑐𝑖ó𝑛 𝑑𝑒 𝑀𝑎𝑠𝑎 𝑑𝑒 𝑃𝑟𝑜𝑏𝑎𝑏𝑖𝑙𝑖𝑑𝑎𝑑 PMF 𝐹𝑢𝑛𝑐𝑖ó𝑛 𝑑𝑒 𝐷𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑐𝑖ó𝑛 𝐴𝑐𝑢𝑚𝑢𝑙𝑎𝑑𝑎 𝐶𝐷𝐹
0.6
0.3
0.5
0.2 0.3
0.2
0.1
0.1
1 2 3 4 1 2 3 4 x
x
Rojo 1 2 3 4 5 6
Esta secuencia provee un ejemplo de un variable aleatoria discreta. Suponga que usted tiene un dado rojo que va
de uno a seis en su cara con igual probabilidad de ocurrencia para cada una de las caras.
Rojo
1 2 3 4 5 6
Verde
1
2
3
4
5
6
Suponga que tiene un dado verde que puede tomar los valores de 1 a 6 con igual probabilidad de ocurrencia..
Rojo
1 2 3 4 5 6
Verde
1
2
3
4
5
6
Definiremos la variable aleatoria X como la suma de las dos caras de los dados que se lanzan..
1 2 3 4 5 6 7 4
5
2 3 4 5 6 7 8 6
3 4 5 6 7 8 9 7
8
4 5 6 7 8 9 10 9
5 6 7 8 9 10 11 10
11
6 7 8 9 10 11 12 12
Si usted observa en la tabla, puede ver que la variable aleatoria X puede ser cualquier número de 2 a 12. ¿Cómo
se definen estos valores en términos estadísticos? A partir de su probabilidad de ocurrencia.
Estadística para el análisis de riesgos Miguel.Bello@Software-Shop.com Pág. 203
DISTRIBUCIÓN DISCRETA DE PROBABILIDAD
¿Cómo generar una distribución de probabilidad?
Ejemplo de distribución de probabilidad. Se lanzan dos dados (uno rojo y uno verde) y se suman los resultados de
sus caras.
X f
Rojo
1 2 3 4 5 6 2
Verde 3
1 2 3 4 5 6 7 4
5
2 3 4 5 6 7 8 6
3 4 5 6 7 8 9 7
8
4 5 6 7 8 9 10 9
5 6 7 8 9 10 11 10
11
6 7 8 9 10 11 12 12
1 2 3 4 5 6 7 4
5 4
2 3 4 5 6 7 8 6
3 4 5 6 7 8 9 7
8
4 5 6 7 8 9 10 9
5 6 7 8 9 10 11 10
11
6 7 8 9 10 11 12 12
Por ejemplo, hay cuatro resultados en los que la variable aleatoria X puede ser igual a 5.
1 2 3 4 5 6 7 4 3
5 4
2 3 4 5 6 7 8 6 5
3 4 5 6 7 8 9 7 6
8 5
4 5 6 7 8 9 10 9 4
5 6 7 8 9 10 11 10 3
11 2
6 7 8 9 10 11 12 12 1
1 2 3 4 5 6 7 4 3
5 4
2 3 4 5 6 7 8 6 5
3 4 5 6 7 8 9 7 6
8 5
4 5 6 7 8 9 10 9 4
5 6 7 8 9 10 11 10 3
11 2
6 7 8 9 10 11 12 12 1
Finalmente, podemos derivar la probabilidad de ocurrencia para cada uno de estos valores de x.
1 2 3 4 5 6 7 4 3
5 4
2 3 4 5 6 7 8 6 5
3 4 5 6 7 8 9 7 6
8 5
4 5 6 7 8 9 10 9 4
5 6 7 8 9 10 11 10 3
11 2
6 7 8 9 10 11 12 12 1
Si hay una probabilidad de 1/6 de obtener cada número en el dado rojo y la misma probabilidad en el dado
verde, cada resultado en la tabla ocurrirá con una probabilidad de 1/36.
Estadística para el análisis de riesgos Miguel.Bello@Software-Shop.com Pág. 208
DISTRIBUCIÓN DISCRETA DE PROBABILIDAD
¿Cómo generar una distribución de probabilidad?
Ejemplo de distribución de probabilidad. Se lanzan dos dados (uno rojo y uno verde) y se suman los resultados de
sus caras.
X f P(x)
Rojo
1 2 3 4 5 6 2 1 1/36
Verde 3 2 2/36
1 2 3 4 5 6 7 4 3 3/36
5 4 4/36
2 3 4 5 6 7 8 6 5 5/36
3 4 5 6 7 8 9 7 6 6/36
8 5 5/36
4 5 6 7 8 9 10 9 4 4/36
5 6 7 8 9 10 11 10 3 3/36
11 2 2/36
6 7 8 9 10 11 12 12 1 1/36
Aquí, para obtener las probabilidades asociadas con los diferentes valores de X, dividimos las frecuencias entre
36.
Estadística para el análisis de riesgos Miguel.Bello@Software-Shop.com Pág. 209
DISTRIBUCIÓN DISCRETA DE PROBABILIDAD
¿Cómo generar una distribución de probabilidad?
Ejemplo de distribución de probabilidad. Se lanzan dos dados (uno rojo y uno verde) y se suman los resultados de
sus caras.
X f P(x)
2 1 1/36
3 2 2/36
4 3 3/36
5 4 4/36
6 5 5/36
7 6 6/36
8 5 5/36
9 4 4/36
10 3 3/36
11 2 2/36
12 1 1/36
La distribución se muestra en la gráfica. En este ejemplo la distribución es simétrica, donde el valor más alto se da
en X igual a 7 y declina hacia ambos lados.
Estadística para el análisis de riesgos Miguel.Bello@Software-Shop.com Pág. 210
DISTRIBUCIÓN DISCRETA DE PROBABILIDAD
Media, Varianza y Desviación Estándar de una Distribución de Probabilidad Discreta
Recordemos que la media indica la posición central de los datos y la varianza describe la dispersión de estos en
comparación a la media.
La media represente un valor típico para mostrar la posición central de una distribución de probabilidad. También
es el promedio de la variable aleatoria.
La media de una distribución de probabilidad también recibe el nombre de valor esperado. Se trata de un
promedio ponderado en el que los posibles valores de una variable aleatoria se ponderan por sus
correspondientes probabilidades de ocurrir.
𝐸 𝑋 = 𝜇 = 𝑥𝑃(𝑥)
𝑥
A partir de aquí veremos como se calcula el Valor Esperado. Primero en forma abstracta y luego con el concepto
de variable aleatoria que definimos previamente. Inicialmente se muestran los posibles valores de X.
Se define una columna en la cual los valores son ponderados por las probabilidades correspondientes. Y así se
haría para cada valor correspondiente.
Observemos los valores de la variable aleatoria X definidos previamente y sus respectivas probabilidades. El valor esperado es
igual a 7, recordemos que cuando vimos la distribución que era simétrica dicho valor se aproximaba a 7.
1. 𝐸 𝑋 =𝑘
2. 𝐸 𝑘 =𝑘
3. 𝐸 𝑘 + 𝑋 = 𝑘 + 𝐸(𝑋)
4. 𝐸 𝑘𝑋 = 𝑘𝐸 𝑋
5. 𝐸 𝑋+𝑌 =𝐸 𝑋 +𝐸 𝑌
6. 𝑆𝑖 𝑋 ≥ 0, 𝑒𝑛𝑡𝑜𝑛𝑐𝑒𝑠 𝐸 𝑋 > 0
7. 𝑆𝑖 𝑋 ≤ 𝑌, 𝑒𝑛𝑡𝑜𝑛𝑐𝑒𝑠 𝐸 𝑋 ≤ 𝐸(𝑌)
𝜎 2 = 𝐸 𝑋 2 − 𝜇2 = 𝑥 2 𝑃 𝑥 − 𝜇2
𝑥
Para calcular la varianza poblacional se deben seguir los siguientes pasos: 1) La media se resta de cada valor de
la variable aleatoria y la diferencia se eleva al cuadrado, 2) cada diferencia al cuadrado se multiplica por su
probabilidad y 3) se suman los productos resultantes para obtener la varianza.
Calcularemos la varianza poblacional de la variable aleatoria X definida en el primer ejemplo. Necesitamos una columna que nos
de las desviaciones de los posibles valores de X alrededor de su media poblacional, recordemos que la media poblacional en
nuestro ejemplo fue igual a 7.
Cuando X toma el valor de 2, la desviación es -5. Se realizan los cálculos similares para los demás valores.
Ahora se tomará en cuenta las desviaciones al cuadrado, en nuestro caso para X=2, la desviación es de 25.
= 𝐸 𝑋 2 − 𝜇2
Notación Empleada
𝐸 𝑋 = 𝜇 = 𝑋𝑖 𝑃𝑖
𝐼=1
𝑉𝑎𝑟(𝑋) = 𝜎2 = 𝜎
X P(X)
0 b
• ¿Cuál es el valor de b?
1 2b • Encuentre 𝑃 𝑋 ≤ 2 𝑦 𝑃(2 ≤ 𝑋 ≤ 3)
2 3b • Encuentre el valor esperado de X.
• Encuentre la desviación estándar de X.
3 4b
4 5b
2. Suponga que el valor esperado de X es de 8 E[X]=8 y la varianza de X es 4, VAR[X]=4. ¿Que se podría decir sobre el valor
esperado y la varianza de Y para las siguientes expresiones?.
• Y=3X+2
• Y=0.5X-4
• Y=X/4
https://www.geogebra.org/m/UGJsyzZ4
Binomial y Poisson: https://www.stat.auckland.ac.nz/~fergusson/prob_dist_explorer/features/
Binomial: https://homepage.divms.uiowa.edu/~mbognar/applets/binnormal.html
Hipergeométrica: https://homepage.divms.uiowa.edu/~mbognar/applets/hg.html
Poisson: https://homepage.divms.uiowa.edu/~mbognar/applets/pois-like.html
Jacob Bernoulli
Antes de comenzar con la distribución Binomial, se comenzará desarrollando primero la distribución de tipo
Bernoulli, la cual es la base de la distribución Binomial y otras distribuciones más complejas, por ejemplo: la
distribución geométrica y la distribución binomial negativa. La distribución Bernoulli es la distribución binomial solo
con un ensayo.
La distribución Bernoulli es una distribución de probabilidad para variable aleatoria discreta con dos resultados,
por ejemplo: éxito o fracaso, cara o sello, perder o ganar, subir o bajar, si o no, 0 o 1; estos eventos son
mutuamente excluyentes y colectivamente exhaustivos.
La distribución Bernoulli tiene el objetivo de encontrar una probabilidad de éxito o fracaso. Un éxito no
necesariamente es algo positivo; puede corresponder, por ejemplo, al número de productos defectuosos que
produce una máquina. Como solo se tienen dos resultados se le asigna el valor de 1 al éxito y 0 en caso contrario;
si el éxito consiste en seleccionar una sociedad anónima, le corresponderá un valor de 1, pero si se seleccionara
cualquier empresa con otra organización como limitada, unipersonal o sociedad en comandita, le corresponderá 0.
1−𝑃 𝑝𝑎𝑟𝑎 𝑥 = 0
𝑃 𝑋 =
𝑃 𝑝𝑎𝑟𝑎 𝑥 = 1
𝑃 𝑋 = 𝑃 𝑥 (1 − 𝑃)1−𝑥
𝐸 𝑋 = 𝜇 = 𝑥𝑃(𝑥) = 𝑃
𝑥
𝜎 2 = 𝑥 2 𝑃 𝑥 − 𝜇2 = 𝑃 − 𝑃2 = 𝑃(1 − 𝑃)
𝑥
• El resultado de un intento no influye en el resultado del siguiente intento, esto quiere decir que los intentos son
independientes.
• El experimento se puede repetir n veces, sin embargo, cuando el número de intentos tiende a infinito, la distribución de
probabilidad se ajustaría a una distribución normal.
Varios ejemplos se podrían analizar con esta distribución: (1) lanzamiento de un dado donde la variable aleatoria
discreta describe la posibilidad de obtener un número par, (2) lanzamiento de una moneda donde la variable
aleatoria discreta describe la posibilidad de obtener cara, (3) colocar un nuevo producto en el mercado, donde la
variable aleatoria discreta describe el éxito del producto en el mercado y (4) perforación de múltiples pozos en
una cuenca donde la variable aleatoria discreta describe el éxito de encontrar reservas.
En cada uno de los ejemplos anteriores existen únicamente dos resultados, éxito o fracaso. A partir de esta
característica, la unión de eventos nos define todos los elementos del espacio muestral, y en el caso que se vuelva a
replicar el experimento con las mismas condiciones saldrá un resultado de los dos, lo que se conoce como sucesos
colectivamente exhaustivos.
𝑛!
𝑃 𝑋 = nCX𝑃 𝑋 (1 − 𝑃)𝑛−𝑋 = ∗ 𝑃 𝑋 (1 − 𝑃)𝑛−𝑋
𝑥! 𝑛 − 𝑥 !
C corresponde al símbolo de combinación.
𝑃 𝑋 es la probabilidad de tener un valor en especifico.
𝑛 es el número de ensayos/tamaño de muestra.
𝑋 es la variable aleatoria definida como el número de éxitos.
P es la probabilidad de éxito en cada ensayo. Esta letra griega representa un parámetro de población binomial.
𝐸 𝑋 = 𝑛𝑃
𝑉𝑎𝑟 𝑋 = 𝑛𝑃(1 − 𝑃)
Un estudio de una agencia que busca proteger y promover la salud de la población, mediante la
gestión del riesgo asociada al consumo y uso de alimentos, reveló que el 65% de los lotes de
productos de conserva provenientes de mar tenían altos contenidos de mercurio. Si se selecciona una
muestra aleatoria de 12 lotes, calcule los siguientes enunciados:
𝑛 = 10 𝑛 = 10 𝑛 = 10 𝑛 = 10 𝑛 = 10 𝑛 = 10
𝑃 é𝑥𝑖𝑡𝑜 = 10% 𝑃 é𝑥𝑖𝑡𝑜 = 20% 𝑃 é𝑥𝑖𝑡𝑜 = 30% 𝑃 é𝑥𝑖𝑡𝑜 = 50% 𝑃 é𝑥𝑖𝑡𝑜 = 70% 𝑃 é𝑥𝑖𝑡𝑜 = 90%
𝑛 = 10 𝑛 = 20 𝑛 = 50 𝑛 = 100
𝑃 é𝑥𝑖𝑡𝑜 = 20% 𝑃 é𝑥𝑖𝑡𝑜 = 20% 𝑃 é𝑥𝑖𝑡𝑜 = 20% 𝑃 é𝑥𝑖𝑡𝑜 = 20%
Abraham de Moivre
Christiaan Huygens
Para aplicar una distribución binomial, la probabilidad de un éxito debe permanecer igual en cada
ensayo. ¿ Que sucede cuando la muestra es finita y el experimento no implica reemplazo?.
La distribución hipergeométrica permite calcular la probabilidad de que la muestra contenga “x”
éxitos, a partir del número posible de muestras “n” tomadas de una población pequeña “N” .
La distribución hipergeométrica se aplica cuando: 1) se selecciona una muestra finita sin reemplazo en
una población pequeña y 2) el tamaño de la muestra “n” es mayor que el 5% de la población.
s N
𝐶𝑥𝑠 es el número de formas en que pueden
seleccionarse x éxitos en la muestra de un total
x de s éxitos contenido en la población.
n
𝑁−𝑠
𝐶𝑛−𝑥 es el número de formas en que se pueden
seleccionar n-x fracasos en la población que
𝐶𝑥𝑠 𝐶𝑛−𝑥
𝑁−𝑠
𝑁𝐶𝐸 contiene N-s fracasos.
𝑃 𝑋 = =
𝐶𝑛𝑁 𝑁𝐶𝑃
N representa el tamaño de la población.
𝐶𝑛𝑁 es el número total de muestras de tamaño n
s es el número de éxitos en la población. 𝑁≥𝑠
que pueden obtenerse en una población de
𝑥 es el número de éxitos en la muestra. 𝑁>𝑛 tamaño N. TODAS LAS POSIBILIDADES QUE SE
n es el tamaño de la muestra o el número de ensayos. 𝑛≥𝑥 TIENEN.
C corresponde al símbolo de combinación.
𝑠𝑛
𝐸 𝑋 =
𝑁
Varianza
𝑁 − 𝑠 𝑠𝑛(𝑁 − 𝑛) 𝑠 𝑠 𝑁−𝑛
𝑉𝑎𝑟 𝑋 = = 𝑛 1 −
𝑁 2 (𝑁 − 1) 𝑁 𝑁 𝑁−1
Como ejemplo suponga que en un proceso de producción se fabrican procesadores Intel en lotes de 40 unidades.
Además se sabe que en dicho proceso cinco componentes de un lote particular son defectuosos. Se quiere hallar la
probabilidad de que exactamente uno de estos cinco componentes defectuosos aparezca en una muestra de cuatro
seleccionados aleatoriamente. En otras palabras, se quiere hallar la probabilidad de que una muestra de tamaño
cuatro contenga exactamente un componente defectuoso y tres buenos.
En términos de este ejemplo, la probabilidad de obtener un componente defectuoso cambia después de la revisión
de cada uno de los cuatro seleccionados. Por ejemplo, la probabilidad de que el primer procesador seleccionado
sea defectuoso es de 5/40, es decir de 0.125; si este componente es defectuoso, solo quedan 4 defectuosos; de
modo que en la segunda extracción la probabilidad de obtener uno defectuoso es de 4/39, es decir, 0.10256.
Como se observa la probabilidad cambia con cada extracción a diferencia del modelo binomial.
Una empresa recibe un envío de 20 artículos. Como es caro inspeccionarlos, se tiene una política de comprobar una
muestra aleatoria de seis artículos de ese envío y si no hay más de un artículo defectuoso en la muestra, no
comprueba el resto. ¿Cuál es la probabilidad de que un envío de cinco artículos defectuosos no se someta a una
comprobación adicional?
20−5
𝐶𝑥𝑠 𝐶𝑛−𝑥
𝑁−𝑠
𝐶𝑥5 𝐶6−𝑥
𝑃 𝑥 = =
𝐶𝑛𝑁 𝐶620
El envío no se verifica más si la muestra contiene 0 o 1 defectos, por lo que la probabilidad de que se acepte será:
1. Hay que formar un comité de ocho miembros de un grupo de ocho hombres y ocho mujeres. Si los miembros del
comité se eligen aleatoriamente. ¿Cuál es la probabilidad de que exactamente la mitad sean mujeres?
2. Un analista de bonos recibió una lista de 12 bonos de empresa. Seleccionó de esa lista tres cuya calificación
creía que corría el riesgo de que se rebajara al año siguiente. En realidad, al año siguiente se rebajó la
calificación de cuatro de 12 bonos. Suponga que el analista hubiera elegido simplemente tres bonos
aleatoriamente de la lista. ¿Cuál es la probabilidad de que al menos dos de los elegidos se encontraran entre
los bonos cuya calificación se rebajo el año siguiente?
3. Un ejecutivo de banca recibe diez solicitudes de crédito. Los perfiles de los solicitantes son similares, salvo que
cinco pertenecen a minorías y cinco no. Al final, el ejecutivo autoriza seis de las solicitudes. Si estas
autorizaciones se eligen aleatoriamente del grupo de diez solicitudes, ¿Cuál es la probabilidad de que menos
de la mitad de las autorizaciones sean autorizaciones de solicitudes de personas que pertenecen a minorías?
4. Una empresa recibe un envío de 16 artículos. Se selecciona una muestra aleatoria de cuatro y se rechaza el
envío si cualquiera de estos artículos resulta ser defectuoso.
a) ¿Cuál es la probabilidad de que se acepte un envío que contiene cuatro artículos defectuosos?
b) ¿Cuál es la probabilidad de que se acepte un envío que contiene un artículo defectuoso?
c) ¿Cuál es la probabilidad de que se rechace un envío que contiene un artículo defectuoso?
La distribución de probabilidad de Poisson permite calcular la probabilidad del número de veces que se presenta un evento
durante un intervalo continuo, el cual puede ser de tiempo, distancia, área o volumen.
La distribución se basa en cinco supuestos:
1) Cada intervalo se divide en un gran número de pequeños subintervalos, cuya probabilidad de ocurrencia en cada uno de ellos
es muy pequeña.
2) La probabilidad de que ocurra un suceso es constante en todos los subintervalos
3) No puede haber más de una ocurrencia en cada subintervalo.
4) Las ocurrencias son independientes y no se superponen, es decir, una ocurrencia en un intervalo no influye en la probabilidad
de una ocurrencia en otro intervalo
5) La probabilidad de que ocurra un evento es proporcional al tamaño del intervalo. Es decir, cuanto más grande sea el
intervalo, mayor será la probabilidad de que se presente un evento.
Esta distribución constituye una forma restrictiva de la distribución binomial cuando la probabilidad de éxito es muy pequeña y n
es grande.
Suponga que se divide la hora dada en subintervalos de un minuto; que la probabilidad de que
llegue un cliente al banco en cualquier minuto es muy pequeña y constante; que solo puede entrar un
cliente en un minuto dado (puerta anti-atraco) y que los clientes no dejan de entrar o se marchan
cuando ven filas de atención muy largas. En este caso se tiene un experimento de Poisson en donde
interesa hallar la probabilidad de “x” ocurrencias (llegadas al banco) sobre algún intervalo de
tiempo (cada minuto en una hora específica).
La media de número de éxitos 𝜆 , puede determinarse con 𝑛𝑃 mediante la aproximación de Poisson de la distribución binomial,
en este caso n es el número total de ensayos y 𝑃, la probabilidad de éxito. En caso de tener información histórica del evento, se
calcula la media aritmética para obtener el parámetro de la función de masa de probabilidad. De esta manera, la probabilidad
de Poisson es una estimación aproximada de la probabilidad binomial efectiva, siempre y cuando n sea grande y nP tiene un
tamaño moderado (preferiblemente 𝝀 ≤ 𝟕).
𝐸 𝑋 = 𝑛𝑃 = 𝜆
𝑉𝑎𝑟 𝑋 = 𝑛𝑃 = 𝜆
(𝑛𝑃)𝑥 𝑒 −𝑛𝑃
𝑃 𝑥 =
𝑥!
Ejemplo: Un analista ha predicho que el próximo año quebrará el 3.5% de todas las pequeñas empresas. Suponiendo que la
predicción del analista es correcta, estima la probabilidad de que el próximo año quiebren al menos tres empresas de una muestra
aleatoria de 100.
Poisson:
• Los casos analizados son muy grandes y el número medio de éxitos es pequeño, por ejemplo, menos que 30.
• Cuando P (probabilidad de éxito) es menor que 5% y n (tamaño de muestra) es grande.
Binomial:
• Problema se basa en una pequeña muestra de observaciones.
• Además de tener una muestra pequeña, probabilidad de éxito está comprendida entre 5 y 95%.
Es posible demostrar que cuando n es mayor o igual que 20 y P (probabilidad de éxito) menor o igual que 5% y
la media poblacional es la misma, se observa que los valores de la probabilidad son los mismos en las dos
distribuciones.
1. Los clientes llegan a una caja registradora ocupada a una tasa media de tres por minuto. Si las llegadas siguen una
distribución de Poisson, halle la probabilidad de que en un minuto dado lleguen dos clientes o menos.
2. El número de accidentes que se producen en una fábrica tiene una distribución de Poisson con una media de 2.6 al mes.
3. Un centro de servicio al cliente de la India recibe, por término medio 4.2 llamadas telefónicas por minuto. Si las llamadas
siguen una distribución de Poisson, ¿Cuál es la probabilidad de que reciba al menos tres llamadas en un determinado minuto?
4. Una empresa tiene 250 ordenadores personales. La probabilidad de que uno cualquiera de ellos necesite una reparación en
una semana dada es de 1%. Halle la probabilidad de que menos de cuatro de los ordenadores personales necesiten una
reparación en una semana dada.
5. Los datos indican que en la hora punta de la mañana se producen, por término medio, 3.2 colisiones al día en una vía urbana.
• Hallar la probabilidad de que un día dado se produzcan menos de dos colisiones en esta vía durante la hora punta de
la mañana.
• Halle la probabilidad de que en un día dado se produzcan más de cuatro colisiones en esta vía durante la hora punta
de la mañana.
6. Delta internacional transporta alrededor de un millón de paquetes al día entre el Este asiático y Estados Unidos. Una muestra
aleatoria del número de fallos registrado en el envío de paquetes en los últimos seis meses dio los siguientes resultados:
15,10,8,16,11,12,11,9,8,12,9,10,8,7,16,14,12,10,9,8,11. No ocurrió nada excepcional durante estos días, por lo que los
resultados pueden considerarse representativos. Utilizando estos datos y sus conocimientos responda lo siguiente:
7. Asesores Financieros recibe una media de 19.5 solicitudes semanales para la realización de un estudio
financiero personal. La realización de cada estudio requiere un día del tiempo de un analista. Suponga que
las solicitudes recibidas durante una semana cualquiera se asignan a un analista para que las realice la
semana siguiente. Si no las termina durante la segunda semana, el cliente anula la solicitud.
• ¿Cuántos analistas hay que contratar para que la empresa pueda afirmar que el 90% de los estudios se
terminarán durante la segunda semana?
• Suponga que decide contratar un analista menos de los contratados en el numeral anterior ¿Cuál es la
probabilidad de que los clientes anulen su solicitud dado este nivel de dotación de personal?
90000
80000
70000
60000
50000
40000
30000
20000
10000
0
1/01/2019 1/02/2019 1/03/2019 1/04/2019 1/05/2019 1/06/2019 1/07/2019 1/08/2019 1/09/2019 1/10/2019 1/11/2019 1/12/2019 1/01/2020 1/02/2020
55 56 60 65 70 75 X
Estadística para el análisis de riesgos Miguel.Bello@Software-Shop.com Pág. 269
DISTRIBUCIÓN CONTINUA DE PROBABILIDAD
¿Cómo generar una Distribución de Probabilidad?
Podemos medir la probabilidad de que la temperatura de la habitación este entre
Altura 55 y 56 grados.
55 56 60 65 70 75 X
Estadística para el análisis de riesgos Miguel.Bello@Software-Shop.com Pág. 270
DISTRIBUCIÓN CONTINUA DE PROBABILIDAD
¿Cómo generar una Distribución de Probabilidad?
Altura Matemáticamente, la densidad de probabilidad es escrita como una función de la
variable, por ejemplo f(X). En este ejemplo, f(X) es 0.05 para 55≤ X ≤ 75 y es
cero en otro caso.
0.05
55 56 60 65 70 75 X
Estadística para el análisis de riesgos Miguel.Bello@Software-Shop.com Pág. 271
DISTRIBUCIÓN CONTINUA DE PROBABILIDAD
¿Cómo generar una Distribución de Probabilidad?
Densidad de Probabilidad El eje vertical se conoce como el sello de densidad de probabilidad. f(X) es
conocida como la función de densidad de probabilidad y se muestra como la línea
f(X)
negra gruesa punteada que está en la parte superior de la gráfica y sobre el eje.
0.05
55 56 60 65 70 75 X
Estadística para el análisis de riesgos Miguel.Bello@Software-Shop.com Pág. 272
DISTRIBUCIÓN CONTINUA DE PROBABILIDAD
¿Cómo generar una Distribución de Probabilidad?
Suponga que desea calcular la probabilidad de que la temperatura este entre 65 y 70
Densidad de Probabilidad grados. Para hacer esto, usted debe calcular el área por debajo de la función de
densidad de probabilidad entre 65 y 70.
f(X) Generalmente se usa el cálculo integral para trabajar el área bajo la curva, pero para
este ejemplo simple basta con calcular el área del rectángulo.
0.05
55 60 65 70 75 X
Estadística para el análisis de riesgos Miguel.Bello@Software-Shop.com Pág. 273
DISTRIBUCIÓN CONTINUA DE PROBABILIDAD
¿Cómo generar una Distribución de Probabilidad?
Densidad de Probabilidad
La altura del rectángulo es 0.05 y su ancho es de 5, así el área es de 0.25.
f(X)
0.05
0.25
55 60 65 70 75 X
Estadística para el análisis de riesgos Miguel.Bello@Software-Shop.com Pág. 274
DISTRIBUCIÓN CONTINUA DE PROBABILIDAD
Cálculo de pendiente y área bajo la curva
𝑓 ′ 𝑥 = 𝑑𝑒𝑟𝑖𝑣𝑎𝑑𝑎
′
𝑓 𝑥+ℎ + 𝑓(𝑥)
𝑓 𝑥 = lim
ℎ→0 ℎ
Integral Indefinida (antiderivada)
න 𝑓′ 𝑥 𝑑𝑥 = 𝑓 𝑥 + 𝐶
𝑛
𝑥 𝑛+1
න 𝑥 𝑑𝑥 = + 𝐶 𝑆𝑖𝑒𝑛𝑑𝑜 𝑛 ≠ −1
𝑛+1
65 70 75 X
Estadística para el análisis de riesgos Miguel.Bello@Software-Shop.com Pág. 276
DISTRIBUCIÓN CONTINUA DE PROBABILIDAD
¿Cómo generar una Distribución de Probabilidad?
Densidad de Probabilidad El área total del triángulo es la unidad ya que la probabilidad de que la
f(X) temperatura esté entre 65 y 75 es la unidad. Ya que la base del triángulo es 10, la
𝑏∗ℎ
altura debe ser 0.20. Recordemos que el área de un triángulo es
2
0.20
0.15
0.10
0.05
65 70 75 X
Estadística para el análisis de riesgos Miguel.Bello@Software-Shop.com Pág. 277
DISTRIBUCIÓN CONTINUA DE PROBABILIDAD
¿Cómo generar una Distribución de Probabilidad?
Densidad de Probabilidad En este ejemplo, la función de densidad de probabilidad es una línea de la
f(X) forma f(X) = b1 + b2X. Si no se acuerdan, entonces, Y=mx+b
Para pasar a través de los puntos (65, 0.20) y (75, 0), b1 debe ser igual a
0.20 1.50 y b2 debe ser igual a -0.02. Recordemos que la pendiente es igual a
𝑌2 −𝑌1
.
𝑋2 −𝑋1
0.15
0.10
65 70 75 X
Estadística para el análisis de riesgos Miguel.Bello@Software-Shop.com Pág. 278
DISTRIBUCIÓN CONTINUA DE PROBABILIDAD
¿Cómo generar una Distribución de Probabilidad?
Densidad de Probabilidad Suponga que estamos interesados en encontrar la probabilidad de que la
f(X) temperatura este entre 65 y 70 grados.
Podríamos realizar esto a partir de la evaluación de la integral, pero esto
0.20 no es estrictamente necesario.
0.15
f(X) = 1.50 – 0.02X para 65 ≤ X ≤ 75
f(X) = 0 para X < 65 y X > 75
0.10
0.05
65 70 75 X
Estadística para el análisis de riesgos Miguel.Bello@Software-Shop.com Pág. 279
DISTRIBUCIÓN CONTINUA DE PROBABILIDAD
¿Cómo generar una Distribución de Probabilidad?
Densidad de Probabilidad Es fácil mostrar geométricamente que la respuesta es 0.75.
f(X) Área de un cuadrado más área de un triángulo.
0.20
0.15
f(X) = 1.50 – 0.02X para 65 ≤ X ≤ 75
f(X) = 0 para X < 65 y X > 75
0.10
0.05
65 70 75 X
Estadística para el análisis de riesgos Miguel.Bello@Software-Shop.com Pág. 280
PROPIEDADES DE LA FUNCIÓN DE DENSIDAD
La función de densidad de probabilidad (PDF) es igual a la altura de la función con respecto al eje Y. Esta función
muestra el contorno de la distribución de probabilidad.
Propiedades
1. 𝑓 𝑥 ≥ 0
+∞
2. −∞ 𝑓 𝑥 𝑑𝑥 = 1
𝑎
3. = 𝑥𝑑 𝑥 𝑓 𝑎0
𝑏
4. 𝑃 𝑎 < 𝑋 < 𝑏 = 𝑥𝑑 𝑥 𝑓 𝑎
a b
Propiedades
0 𝑥
1. 𝐹 𝑥0 = 𝑃 𝑋 ≤ 𝑥0 = −∞ 𝑓 𝑥 𝑑𝑥
2. 𝐹 +∞ = 1
3. 𝐹 −∞ = 0
4. 𝑃 𝑎 < 𝑋 < 𝑏 = 𝐹 𝑏 − 𝐹 𝑎
𝜕𝐹(𝑥)
5. 𝜕𝑥
= 𝑓(𝑥)
4. 𝑃 𝑎 < 𝑋 < 𝑏 = 𝐹 𝑏 − 𝐹 𝑎
Sea 𝑓 𝑥 = 𝑘𝑥 2 ; 0 ≤ x ≤ 1.
1. Encontrar el valor de k para que sea una función de densidad de probabilidad.
2. Mostrar la función de densidad de probabilidad.
3. Mostrar la función de distribución acumulada.
4. Calcular 𝑃 𝑋 ≤ 0.7
5. Calcular 𝑃 𝑋 ≤ 0.3
6. Calcular 𝑃 𝑋 > 0.7
7. Calcular 𝑃 0.3 ≤ 𝑋 ≤ 0.7
𝑓 𝑥 = 𝑘𝑥 2
3 3
1 1 3 1 x f(x)
𝑥
න 𝑘𝑥 2 𝑑𝑥 → 𝑘 න 𝑥 2 𝑑𝑥 → 𝑘 =1 0 0 2.5 2.43
0 0 3
0 0.1 0.03 2 1.92
0.5 0.75
13 03
f(x)
1.5 1.47
𝑘 − =1→𝑘=3 0.7 1.47
3 3 1.08
1
1 3
0.75
0.5 0.48
2
𝑓 𝑥 = ቊ 3𝑥 , 0≤x≤1 0.27
0.12
0 0 0.03
0 𝑒𝑛 𝑐𝑎𝑠𝑜 𝑐𝑜𝑛𝑡𝑟𝑎𝑟𝑖𝑜 0 0.2 0.4 0.6 0.8 1
x
0.7 0.7
3 3
2 3
𝑃 0.3 ≤ 𝑋 ≤ 0.7 = න 3𝑥 𝑑𝑥 → 𝑥
0.3
2.5 2.43
0.3
2 1.92
𝑃 0.3 ≤ 𝑋 ≤ 0.7 = 0.73 − 0.33 = 31.60%
f(x)
1.5 1.47
1.08
1
0.75
0.5 0.48
0.27
0.12
0 0 0.03
0 0.2 0.4 0.6 0.8 1
x
100.00%
0.1 0.10% 100.00%
𝑥0 𝑥0
𝐹 𝑥0 = 𝑃 𝑋 ≤ 𝑥0 = න 3𝑥 𝑑𝑥 → 3 න 𝑥 2 𝑑𝑥 → 𝑥𝑜3
2
0.5 12.50% 0 0
80.00%
0.7 34.30% 72.90%
𝐹 𝑥0 = 𝑥𝑜3 , 0 ≤ X ≤ 1
60.00% 1 100%
F(x)
51.20%
20.00% 21.60%
𝑃 𝑋 ≤ 0.3 = 0.33 = 2.7%
12.50%
0.10% 0.80% 6.40%
0.00% 2.70%
0.00%
0 0.2 0.4 0.6 0.8 1
𝑃 0.2 ≤ 𝑋 ≤ 0.6 = 𝐹 0.6 − 𝐹 0.2 = 0.63 − 0.23 = 20.8%
x
Valor Esperado
+∞
𝐸 𝑥 =න 𝑥𝑓 𝑥 𝑑𝑥
−∞
1 1 1
3 3
𝐸 𝑥 = න 𝑥3𝑥 𝑑𝑥 = 3 න 𝑥 𝑑𝑥 = 𝑥 4 =
2 3
0 0 4 4
0
3
𝐸 𝑥 =
4
Recordar las propiedades de la varianza y apliquémosela a la integral definida: 𝑉𝑎𝑟 𝑥 = 𝐸[(𝑥 − 𝜇)]2 = 𝐸 𝑥 2 − 𝜇2
+∞ +∞ 2
2
𝑉𝑎𝑟 𝑥 = න 𝑥 𝑓 𝑥 𝑑𝑥 − න 𝑥𝑓 𝑥 𝑑𝑥
−∞ −∞
1 1 2 1 2 2
2 2 4
3 3 3
𝑉𝑎𝑟 𝑥 = න 𝑥 3𝑥 𝑑𝑥 − න 𝑥𝑓 𝑥 𝑑𝑥 = 3 න 𝑥 𝑑𝑥 − = 𝑥5 − = 0.0375
0 0 0 4 5 4
Es la mejor distribución cuando faltan datos. Es una distribución continua que describe una variable aleatoria en la que cualquier
ocurrencia tiene la misma probabilidad dentro de los límites inferior y superior. Por sus características la distribución de frecuencia
acumulada se presenta como una línea recta.
f(x)
𝑋𝑚𝑖𝑛 + 𝑋𝑚á𝑥
1 𝜇=
𝑓 𝑥 = ቐ𝑀á𝑥 − 𝑀í𝑛 , 𝑀í𝑛 ≤ 𝑥 ≤ 𝑀á𝑥 2
0, 𝑒𝑛 𝑐𝑎𝑠𝑜 𝑐𝑜𝑛𝑡𝑟𝑎𝑟𝑖𝑜
Ejemplos: Historial de ventas de una empresa, niveles de inventarios y precios del mercado accionario.
2(𝑥 − 𝑀í𝑛)
𝑝𝑎𝑟𝑎 𝑚í𝑛 ≤ 𝑥 ≤ 𝑚á𝑠 𝑝𝑟𝑜𝑏
𝑀á𝑥 − 𝑀í𝑛 𝑀á𝑠 𝑃𝑟𝑜𝑏 − 𝑀í𝑛
𝑋1 : 𝑀𝑖𝑛𝑖𝑚𝑜, 𝑋2 : 𝑀á𝑠 𝑃𝑟𝑜𝑏𝑎𝑏𝑙𝑒; 𝑋3 : 𝑀á𝑥𝑖𝑚𝑜 f(x) 𝑓 𝑥 =
2(𝑀á𝑥 − 𝑥)
𝑝𝑎𝑟𝑎 𝑚á𝑠 𝑝𝑟𝑜𝑏 ≤ 𝑥 ≤ 𝑚á𝑥
(𝑀á𝑥 − 𝑀í𝑛)(𝑀á𝑥 − 𝑀á𝑠 𝑃𝑟𝑜𝑏)
𝑋1 + 𝑋2 + 𝑋3 (𝑥 − 𝑀í𝑛)2
𝜇= 𝑝𝑎𝑟𝑎 𝑚í𝑛 ≤ 𝑥 ≤ 𝑚á𝑠 𝑝𝑟𝑜𝑏
3 𝑀á𝑠 𝑝𝑟𝑜𝑏 − 𝑀í𝑛 𝑀á𝑥 − 𝑀í𝑛
𝐹 𝑥 =
𝑀á𝑥 − 𝑥 2
1− 𝑝𝑎𝑟𝑎 𝑚á𝑠 𝑝𝑟𝑜𝑏 ≤ 𝑥 ≤ 𝑚á𝑥
𝑀á𝑥 − 𝑀á𝑠 𝑝𝑟𝑜𝑏 𝑀á𝑥 − 𝑀í𝑛
𝑋3 − 𝑋1 𝑋32 − 𝑋1 𝑋3 + 𝑋12 − 𝑋2 𝑋3 𝑋3 − 𝑋2 − 𝑋1 𝑋2(𝑋2 − 𝑋1 )
𝜎=
18(𝑋3 − 𝑋1 )
https://homepage.divms.uiowa.edu/~mbognar/applets/normal.html
https://www.rossmanchance.com/applets/2021/normcalc/NormCalc.html
https://onlinestatbook.com/2/calculators/normal.html
https://stapplet.com/normal.html
https://stats.cpm.org/normal/
Distribución Normal
(Media=100, Desviación Estándar=10)
𝟏 𝟏 𝒙−𝝁 𝟐
−
𝒇 𝒙 = 𝒆 𝟐 𝝈
𝝈 𝟐𝝅
𝟏 𝟏 𝒙−𝝁 𝟐
−
𝒇 𝒙 = 𝒆 𝟐 𝝈
𝝈 𝟐𝝅
Distribución Normal
(Media=100, Desviación Estándar=10)
La distribución normal no es una única función corresponde a una familia de distribuciones debido a que los parámetros pueden
tomar diferentes valores. A continuación, se presentan diferentes gráficas de la distribución normal teniendo en cuenta la misma
media, pero diferente desviación estándar y distintas medias poblacionales con la misma desviación estándar poblacional.
Los parámetros de una distribución normal son la media y la desviación estándar. De esta manera se dice que una variable X sigue
una distribución normal con parámetros media y desviación estándar poblacional.
𝑋~𝑁 𝜇, 𝜎
𝜇 = 100 𝟏 𝟏 𝒙−𝝁 𝟐
−
𝜎 = 10 𝒇 𝒙 = 𝒆 𝟐 𝝈
𝝈 𝟐𝝅
𝑃(𝑥 ≤ 110)
𝟏𝟏𝟎 𝟏 𝒙−𝝁 𝟐
𝟏 −
𝑷 𝑿 ≤ 𝟏𝟏𝟎 = න 𝒆 𝟐 𝝈 𝒅𝒙
−𝜶 𝝈 𝟐𝝅
Los parámetros de una distribución normal son la media y la desviación estándar. De esta manera se dice que una variable X sigue
una distribución normal con parámetros media y desviación estándar poblacional.
𝑋~𝑁 𝜇, 𝜎
𝜇 = 100 𝟏 𝟏 𝒙−𝝁 𝟐
−
𝜎 = 10 𝒇 𝒙 = 𝒆 𝟐 𝝈
𝝈 𝟐𝝅
𝑃(𝑥 ≤ 110)
𝟏𝟏𝟎 𝟏 𝒙−𝝁 𝟐
𝟏 −
𝑷 𝑿 ≤ 𝟏𝟏𝟎 = න 𝒆 𝟐 𝝈 𝒅𝒙
−𝜶 𝝈 𝟐𝝅
Podemos realizar la anterior integral “sería bastante complicado ya que no tiene una solución cerrada”
Distribución Normal Estándar o Tipificada “Z”
• Proceso mediante el cual una variable X medida en cualquier unidad se transforma en una variable Z.
• Una variable X se transforma en una medida en desviaciones estándar.
𝑋~𝑁 𝜇, 𝜎
𝑍~𝑁 0,1
z es el número de desviaciones estándar en que se
𝑥−𝜇 aleja un valor x de su respectiva media.
𝑧= También se define como el valor del percentil de una
𝜎 distribución normal estándar.
0 1 𝑍
𝑷(𝑿 > 𝒙)
𝑷(𝑿 ≤ 𝒙)
𝑷(𝒁 ≤ 𝒛) 𝑷(𝒁 > 𝒛)
x X x X
Z Z
z z