Documentos de Académico
Documentos de Profesional
Documentos de Cultura
ANALÍTICA DE DATOS
INTRODUCCIÓN A LA ESTADÍSTICA INFERENCIAL
1
Aprendizaje esperado
Iniciemos
Aquí vamos a ver los fundamentos de la estadística inferencial, los cuales nos servirán de base
para el resto de temáticas que veremos en próximas oportunidades.
¡Sígueme!
Conceptos clave
2
● Parámetro: Cualquier característica numérica de una población.
● Big Data: Término utilizado para describir conjuntos de datos tan grandes que los
tradicionales y típicos procesos de almacenamiento, gestión, búsqueda, análisis, entre
otros se han convertido en un reto debido a su tamaño.
● Valor atípico (o outlier): Es una medida con un valor extremo en un conjunto de datos.
Puede indicar un error de anotación o una medida muy poco común en la población.
● Evento simple: Es el evento que corresponde a un solo punto muestral y se nota por 𝐸
con un subíndice.
● Evento vacío: El evento vacío se nota por ∅ y es el evento que no tiene elementos.
● Error muestral: Es la variación natural que existe entre las muestras de una misma
población, cuando las muestras no son copias exactas de la población.
● Errores no muestrales: Son los errores que surgen al tomar una muestra.
3
Distribuciones muestrales
Introducción:
𝜃 = 𝜃̂ ± 𝐸
donde
𝜃: 𝑃𝑎𝑟á𝑚𝑒𝑡𝑟𝑜.
𝜃̂ : 𝐸𝑠𝑡𝑎𝑑í𝑠𝑡𝑖𝑐𝑜.
𝐸: 𝐸𝑟𝑟𝑜𝑟 𝑑𝑒 𝑒𝑠𝑡𝑖𝑚𝑎𝑐𝑖ó𝑛.
con
𝐸 = |𝜃 − 𝜃̂|
No obstante, la muestra que elijamos y la forma en que realizamos el muestreo afecta nuestra
estimación pues estos factores causan errores muestrales y errores no muestrales, donde
e: Error muestral.
e=θ -θ
El sesgo muestral por ejemplo es un tipo de error no muestral y puede suprimirse o minimizarse
usando aleatorización, es decir, tomando muestras aleatorias.
4
Distribuciones muestrales
Para estimar un parámetro 𝜃 de una población, seleccionamos muestras del mismo tamaño y
en cada muestra se calcula el estadístico 𝜃, por ejemplo, de la muestra 1 se puede obtener un
valor del estadístico notado por 𝜃̂1, de la muestra 2 se puede obtener el valor del estadístico 𝜃̂2
y así sucesivamente. A partir de los valores 𝜃̂1 , 𝜃̂2 , 𝜃̂3 , . .. que varían de una muestra
aleatoria en otra muestra aleatoria se
obtiene una variable aleatoria 𝛩 con su
respectiva distribución de frecuencias.
5
Distribución muestral de la media
Sea una población 𝑈 con media poblacional 𝜇 y varianza 𝜎 2 . De esa población se seleccionan
muestras aleatorias con reemplazo de tamaño 𝑛, si el estadístico es igual a la media muestral 𝑥
entonces la distribución de frecuencias recibe el nombre de distribución muestral de la media,
la variable se nota por 𝑋, los valores por 𝑥1 , 𝑥2 , . .. y la media y la varianza de la variable 𝑋 están
dadas por
𝜇𝑋 = 𝜇
𝜎2
𝜎𝑋2 =
𝑛
𝜎𝑋 = 𝜎𝑒
6
Ejemplo [Distribución muestral de la media]
Sea la población
𝑈 = {1,3,5,7}
1+3+5+7
𝜇= =4
4
𝜎2 = 5
7
Por otra parte, de la población se eligen muestras de tamaño 𝑛 = 2 con reemplazo y se calcula
la media, esto es
8
Por lo tanto, la media y la varianza de la distribución muestral de la media quedan en la forma
∑ 𝑥𝑓 64
𝜇𝑋 = = =4=𝜇
∑ 𝑓 16
y
2
2
∑ (𝑥 − 𝜇 𝑋 ) 40 5 𝜎 2
𝜎𝑋 = = = =
∑ 𝑓 16 2 𝑛
El error 𝜎𝑋 varía de acuerdo al tipo de muestreo que se realice (con reemplazo o sin reemplazo),
del tamaño de la muestra 𝑛 y del tamaño de la población 𝑁, en ese sentido se tiene
● Error estándar de la media para poblaciones grandes o poblaciones pequeñas con
reemplazo (𝑁 < 20𝑛)
𝜎
𝜎𝑋 =
√𝑛
● Error estándar de la media para poblaciones pequeñas (𝑁 < 20𝑛) y sin reemplazo
𝜎 𝑁−𝑛
𝜎𝑋 = √
√𝑛 𝑁 − 1
9
Fortalece tus conocimientos
Si las muestras de tamaño 𝑛 proceden de una población normal, con media y desviación
estándar conocidas. Entonces la distribución muestral de la media también será normal y el
estadístico de prueba será
𝑥 − 𝜇𝑋 𝑥−𝜇
𝑧= =
𝜎𝑋 𝜎
( )
√𝑛
28 − 30
𝑃(𝑋 ≤ 28) = 𝑃 (𝑍 ≤ ) = 𝑃(𝑍 ≤ −1.26) = 0.1038
5
( )
√10
10
y su media y varianza están dadas por
𝜇𝑇 = 0
2
𝜐
𝜎𝑇 =
𝜐−2
11
De una población normal se elige una
muestra de tamaño 𝑛 = 18 con media 𝜇 =
30 y desviación estándar muestral 𝑠 = 6 .
Calcular 𝑃(𝑋 ≤ 28).
Visualiza
Distribuciones muestrales de
poblaciones no normales
Bibliografía o Referencias
• Wackerly D., D., mendenhall III, W., & Scheaffer L., R. (2010).
[Wackerly,Mendenhall,Scheaffer]Estadistica_Matematica_con_Aplicaciones.pdf.
• Walpole, R. E. (2007). Probabilidad Y Estadistica Para Ingenieria Y Ciencias.
Pearson Educación. https://books.google.com.co/books?id=jBnRMQAACAAJ
• Weimer, R. C. (1993). Statistics. Wm. C. Brown Publishers.
https://books.google.com.co/books?id=%5C_O4JAQAAMAAJ
𝑥 − 𝜇𝑋 𝑥−𝜇
𝑧= =
𝜎𝑋 𝜎
( )
√𝑛
12
conforme 𝑛 → ∞, es la distribución normal 2. Población sesgada a la izquierda
estándar.
http://www.ltcconline.net/greenl/java/Statistic
s/clt/cltsimulation.html
1. Población uniforme
13
Ejemplo [Distribución muestral de la media]
𝑈 = {1,3,5,7}
1+3+5+7
𝜇= =4
4
y
𝜎2 = 5
14
Sin embargo, la distribución muestral de la media es aproximadamente normal.
15
tamaño cdsd
En general intentamos tomar las muestras del mayor tamaño posible sin importar la
forma de la población y por el Teorema del límite central asumimos que la distribución
muestral de la media es aproximadamente normal y aplicamos los resultados vistos
anteriormente.
¡Vamos!
Una población dicotómica es una población que tiene solo dos datos cualitativos.
Ejemplos
● 𝑈 = {𝐻𝑜𝑚𝑏𝑟𝑒, 𝑀𝑢𝑗𝑒𝑟 }
● 𝑈 = {𝐶𝑎𝑟𝑎, 𝑆𝑒𝑙𝑙𝑜 }
● 𝑈 = {𝐴𝑝𝑟𝑜𝑏𝑜 𝑙𝑎 𝑚𝑎𝑡𝑒𝑟𝑖𝑎, 𝑅𝑒𝑝𝑟𝑜𝑏𝑜 𝑙𝑎 𝑚𝑎𝑡𝑒𝑟𝑖𝑎 }
Es común que en este tipo de poblaciones se asignen las categorías con 1 y 0 en una población
binomial (población de ceros y unos) asociada. Esto hace que las proporciones de las
categorías sean iguales a la media calculada con los unos y ceros.
16
Ejemplo
1 = 𝑀𝑢𝑗𝑒𝑟
y
0 = 𝐻𝑜𝑚𝑏𝑟𝑒
Entonces se tiene
En ese sentido se asume que la distribución muestral de las proporciones son un caso especial
de la distribución muestral de la media.
𝑝̂ − 𝑝
𝑧=
𝜎𝑝̂
17
donde 𝑝 es la proporción de unos en la población binomial y
𝑝(1 − 𝑝)
𝜎𝑝̂ = √
𝑛
● Para el caso de poblaciones pequeñas (𝑁 ≥ 20𝑛)
𝑝(1 − 𝑝) 𝑁 − 𝑛
𝜎𝑝̂ = √ √
𝑛 𝑁−1
Ejemplo
0.04 − 0.03
𝑃(𝑝̂ < 4%) = 𝑃 𝑍 < = 𝑃(𝑍 < 0.76) = 0.7764
√0.03(1 − 0.03)
( 170 )
18