Descargable U1

ESTADÍSTICA PARA LA
ANALÍTICA DE DATOS
INTRODUCCIÓN A LA ESTADÍSTICA INFERENCIAL
1
Aprendizaje esperado
Comprender los diferentes conceptos básicos de la estadística inferencial, que permitan el

desarrollo de pronósticos y análisis de datos, a partir de su estructura conceptual.
Iniciemos
Bienvenido a la introducción a Estadística para la Analítica de datos!
Aquí vamos a ver los fundamentos de la estadística inferencial, los cuales nos servirán de base
para el resto de temáticas que veremos en próximas oportunidades.
Al cumplir con el desarrollo de la presente unidad estarás en capacidad de:
1. Comprender los principales conceptos de la estadística inferencial.

2. Identificar las principales fórmulas que nos permiten encontrar la distribución muestral de
la media muestral.
¡Sígueme!
Conceptos clave
A continuación, se presentan algunos conceptos importantes en el área de la estadística.
● Estadística: Es la ciencia que se encarga de recolectar, organizar, analizar e interpretar

datos.
● Estadística descriptiva: Es la rama de la estadística que comprende todos los métodos
y técnicas usados para organizar y describir información.
● Estadística inferencial: Es la rama de la estadística que comprende todos los métodos

y técnicas usados para hacer inferencias, estimaciones o predicciones sobre poblaciones
a partir de una muestra.
● Dato: Es una porción de información.
● Datos: Sinónimo de muestra.
● Población: Es el conjunto de todos los elementos de interés para un investigador.
● Muestra: Es cualquier subconjunto de la población.
2
● Parámetro: Cualquier característica numérica de una población.
● Estadístico: Cualquier característica numérica de una muestra.
● Big Data: Término utilizado para describir conjuntos de datos tan grandes que los
tradicionales y típicos procesos de almacenamiento, gestión, búsqueda, análisis, entre
otros se han convertido en un reto debido a su tamaño.
● Datos cualitativos: Información categórica.
● Datos cuantitativos: Información numérica. Se puede clasificar en continuos y discretos.
● Datos cuantitativos discretos: Son obtenidos de un proceso de conteo. Números

naturales, enteros o racionales.
● Medida: Es un valor representativo de un conjunto de datos.
● Valor atípico (o outlier): Es una medida con un valor extremo en un conjunto de datos.
Puede indicar un error de anotación o una medida muy poco común en la población.
● Distribución de frecuencias: Es sinónimo de tabla de frecuencias y puede ser

representada gráficamente con ayuda de histogramas.
● Evento simple: Es el evento que corresponde a un solo punto muestral y se nota por 𝐸
con un subíndice.
● Evento vacío: El evento vacío se nota por ∅ y es el evento que no tiene elementos.
● Error muestral: Es la variación natural que existe entre las muestras de una misma
población, cuando las muestras no son copias exactas de la población.
● Errores no muestrales: Son los errores que surgen al tomar una muestra.
● Sesgo muestral: Es un tipo de error no muestral y es una tendencia sistemática

inherente a un método de muestreo que da estimaciones de un parámetro. El sesgo es
negativo si las estimaciones son menores y positivo si las estimaciones son mayores.
● Aleatorización: Proceso de selección de muestras donde la selección es imparcial o no

está sesgada.
● Muestra aleatoria: Es una muestra elegida con procedimientos aleatorios.
3
Distribuciones muestrales
Del curso de Estadística probabilística recordamos los siguientes conceptos:
● Población: Es el conjunto de todos los elementos de interés para un investigador.
Introducción:
● Muestra: Es cualquier subconjunto de la población.
● Parámetro: Cualquier característica numérica de una población.
● Estadístico: Cualquier característica numérica de una muestra.
El parámetro es el valor de interés desconocido para el investigador, pero la mayoría de las

veces es imposible calcularlo y por tanto se recurre a tomar una muestra representativa de la
población y en esa muestra se calcula el estadístico que nos servirá para aproximar el valor del
parámetro.
Mediante la siguiente ecuación
𝜃 = 𝜃̂ ± 𝐸
donde
𝜃: 𝑃𝑎𝑟á𝑚𝑒𝑡𝑟𝑜.
𝜃̂ : 𝐸𝑠𝑡𝑎𝑑í𝑠𝑡𝑖𝑐𝑜.
𝐸: 𝐸𝑟𝑟𝑜𝑟 𝑑𝑒 𝑒𝑠𝑡𝑖𝑚𝑎𝑐𝑖ó𝑛.
con
𝐸 = |𝜃 − 𝜃̂|
No obstante, la muestra que elijamos y la forma en que realizamos el muestreo afecta nuestra
estimación pues estos factores causan errores muestrales y errores no muestrales, donde
e: Error muestral.
e=θ -θ
El sesgo muestral por ejemplo es un tipo de error no muestral y puede suprimirse o minimizarse
usando aleatorización, es decir, tomando muestras aleatorias.
4
Distribuciones muestrales
Para estimar un parámetro 𝜃 de una población, seleccionamos muestras del mismo tamaño y
en cada muestra se calcula el estadístico 𝜃, por ejemplo, de la muestra 1 se puede obtener un
valor del estadístico notado por 𝜃̂1, de la muestra 2 se puede obtener el valor del estadístico 𝜃̂2
y así sucesivamente. A partir de los valores 𝜃̂1 , 𝜃̂2 , 𝜃̂3 , . .. que varían de una muestra
aleatoria en otra muestra aleatoria se
obtiene una variable aleatoria 𝛩 con su
respectiva distribución de frecuencias.
La distribución de frecuencias de la variable aleatoria 𝛩 recibe el nombre de distribución

muestral del estadístico 𝜃̂.
● En la siguiente gráfica se muestra la distribución muestral de la media muestral 𝜃̂ = 𝑥.
● En la siguiente gráfica se muestra la distribución muestral de la desviación estándar

muestral 𝜃̂ = 𝑠 2 .
5
Distribución muestral de la media
Sea una población 𝑈 con media poblacional 𝜇 y varianza 𝜎 2 . De esa población se seleccionan
muestras aleatorias con reemplazo de tamaño 𝑛, si el estadístico es igual a la media muestral 𝑥
entonces la distribución de frecuencias recibe el nombre de distribución muestral de la media,
la variable se nota por 𝑋, los valores por 𝑥1 , 𝑥2 , . .. y la media y la varianza de la variable 𝑋 están
dadas por
𝜇𝑋 = 𝜇
𝜎2
𝜎𝑋2 =
𝑛
Respectivamente. La desviación estándar 𝜎𝑋 recibe el nombre de error estándar de la media y

si se eligen muestras de tamaño 𝑛 con reemplazo, entonces
𝜎𝑋 = 𝜎𝑒
donde 𝑒 = 𝑥 − 𝜇 son los errores muestrales de la media.
6
Ejemplo [Distribución muestral de la media]
Sea la población
𝑈 = {1,3,5,7}
Entonces la población tiene media y varianza dada por
1+3+5+7
𝜇= =4
4
𝜎2 = 5
7
Por otra parte, de la población se eligen muestras de tamaño 𝑛 = 2 con reemplazo y se calcula
la media, esto es
Con lo cual se obtiene la distribución de frecuencias
8
Por lo tanto, la media y la varianza de la distribución muestral de la media quedan en la forma
∑ 𝑥𝑓 64
𝜇𝑋 = = =4=𝜇
∑ 𝑓 16
y
2
2
∑ (𝑥 − 𝜇 𝑋 ) 40 5 𝜎 2
𝜎𝑋 = = = =
∑ 𝑓 16 2 𝑛
Errores estándar de la media para diversos tipos de muestreo
El error 𝜎𝑋 varía de acuerdo al tipo de muestreo que se realice (con reemplazo o sin reemplazo),
del tamaño de la muestra 𝑛 y del tamaño de la población 𝑁, en ese sentido se tiene
● Error estándar de la media para poblaciones grandes o poblaciones pequeñas con
reemplazo (𝑁 < 20𝑛)
𝜎
𝜎𝑋 =
√𝑛
● Error estándar de la media para poblaciones pequeñas (𝑁 < 20𝑛) y sin reemplazo
𝜎 𝑁−𝑛
𝜎𝑋 = √
√𝑛 𝑁 − 1
Ver (Weimer, 1993), (Wackerly D. et al., 2010) y (Walpole, 2007)
9
Fortalece tus conocimientos
Distribuciones muestrales de poblaciones normales
En estadística se asume que, si las muestras se seleccionan de una población normal,

entonces la distribución de la media muestral también será normal.
Muestras de poblaciones normales con σ conocida
Si las muestras de tamaño 𝑛 proceden de una población normal, con media y desviación
estándar conocidas. Entonces la distribución muestral de la media también será normal y el
estadístico de prueba será
𝑥 − 𝜇𝑋 𝑥−𝜇
𝑧= =
𝜎𝑋 𝜎
( )
√𝑛
Ejemplo [Desviación estándar poblacional conocida]
De una población normal se elige una muestra de tamaño 𝑛 = 10 con media 𝜇 = 30 y

desviación estándar 𝜎 = 5. Calcular 𝑃(𝑋 ≤ 28).
28 − 30
𝑃(𝑋 ≤ 28) = 𝑃 (𝑍 ≤ ) = 𝑃(𝑍 ≤ −1.26) = 0.1038
5
( )
√10
10
y su media y varianza están dadas por
𝜇𝑇 = 0
2
𝜐
𝜎𝑇 =
𝜐−2
La grafica de la distribución t de Student es
Muestras de poblaciones normales

con 𝜎 desconocida
Si las muestras de tamaño 𝑛 proceden de

una población normal, con media conocida y
desviación estándar desconocida. Entonces,
la distribución muestral de la media también
será normal, pero no se puede transformar
la media muestral a un puntaje estándar.
Donde la curva en rojo es la distribución
normal estándar. Cuando 𝑛 → ∞, la grafica
Luego, el estadístico de prueba en este
de la distribución t de Student en azul se ira
caso será
acercando a la distribución normal estándar
𝑥−𝜇 en rojo.
𝑇=
𝑠
( )
√𝑛
donde 𝑠 es la desviación estándar de la
muestra.
La distribución del estadístico 𝑇 recibe el

nombre de distribución t de Student y está
dada por
Ejemplo [Desviación estándar

Los grados de libertad 𝜐 en este caso están
poblacional desconocida]
definidos como
𝜐=𝑛−1
11
De una población normal se elige una
muestra de tamaño 𝑛 = 18 con media 𝜇 =
30 y desviación estándar muestral 𝑠 = 6 .
Calcular 𝑃(𝑋 ≤ 28).
Visualiza
Distribuciones muestrales de
poblaciones no normales
Si las muestras se seleccionan de

poblaciones que no son normales, no se
cumpliría las condiciones que se impusieron
en la sección anterior. No obstante, el
siguiente teorema establece que a pesar de
que la población no es normal se toman
muestras grandes, entonces la distribución
de la media muestral si será normal.
28 − 30
𝑃(𝑋 ≤ 28) = 𝑃 (𝑇 ≤ ) = 𝑃(𝑇
6 Teorema
( )
√18
≤ −1.41) = 0.0883 [Teorema del límite central]
Si 𝑋 es la media de una muestra aleatoria

de tamaño 𝑛 tomada de una población con
media 𝜇 y varianza finita 𝜎 2 , entonces la
Bibliografía o Referencias
• Wackerly D., D., mendenhall III, W., & Scheaffer L., R. (2010).
[Wackerly,Mendenhall,Scheaffer]Estadistica_Matematica_con_Aplicaciones.pdf.
• Walpole, R. E. (2007). Probabilidad Y Estadistica Para Ingenieria Y Ciencias.
Pearson Educación. https://books.google.com.co/books?id=jBnRMQAACAAJ
• Weimer, R. C. (1993). Statistics. Wm. C. Brown Publishers.
https://books.google.com.co/books?id=%5C_O4JAQAAMAAJ
forma limite de la distribución de
𝑥 − 𝜇𝑋 𝑥−𝜇
𝑧= =
𝜎𝑋 𝜎
( )
√𝑛
12
conforme 𝑛 → ∞, es la distribución normal 2. Población sesgada a la izquierda
estándar.
El teorema del limite central puede ser

ilustrado en el siguiente simulador online
http://www.ltcconline.net/greenl/java/Statistic
s/clt/cltsimulation.html
A continuación, se mostrarán algunos

ejemplos
1. Población uniforme
3. Población sesgada a la derecha
13
Ejemplo [Distribución muestral de la media]
Para el ejemplo de la distribución muestral de la media en la primera sección se tenía la

población
𝑈 = {1,3,5,7}
Entonces la población tiene media y varianza dada por
1+3+5+7
𝜇= =4
4
y
𝜎2 = 5
Se observa que la distribución de la población no es normal, sino uniforme
14
Sin embargo, la distribución muestral de la media es aproximadamente normal.
15
tamaño cdsd
En general intentamos tomar las muestras del mayor tamaño posible sin importar la
forma de la población y por el Teorema del límite central asumimos que la distribución
muestral de la media es aproximadamente normal y aplicamos los resultados vistos
anteriormente.
Activa tus aprendizajes
¿Quieres conocer la Distribución muestral de poblaciones dicotómicas?
¡Vamos!
Una población dicotómica es una población que tiene solo dos datos cualitativos.
Ejemplos
● 𝑈 = {𝐻𝑜𝑚𝑏𝑟𝑒, 𝑀𝑢𝑗𝑒𝑟 }
● 𝑈 = {𝐶𝑎𝑟𝑎, 𝑆𝑒𝑙𝑙𝑜 }
● 𝑈 = {𝐴𝑝𝑟𝑜𝑏𝑜 𝑙𝑎 𝑚𝑎𝑡𝑒𝑟𝑖𝑎, 𝑅𝑒𝑝𝑟𝑜𝑏𝑜 𝑙𝑎 𝑚𝑎𝑡𝑒𝑟𝑖𝑎 }
Es común que en este tipo de poblaciones se asignen las categorías con 1 y 0 en una población
binomial (población de ceros y unos) asociada. Esto hace que las proporciones de las
categorías sean iguales a la media calculada con los unos y ceros.
16
Ejemplo
Se les preguntan a 10 personas su género y se hace
1 = 𝑀𝑢𝑗𝑒𝑟
y
0 = 𝐻𝑜𝑚𝑏𝑟𝑒
Entonces se tiene
Luego la proporción de mujeres es

𝑓 6
𝑝= =
𝑛 10
y la media en la población de ceros y unos es

1+1+1+1+1+1+0+0+0+0 6
𝑥= =
10 10
En ese sentido se asume que la distribución muestral de las proporciones son un caso especial
de la distribución muestral de la media.
Distribución muestral de las proporciones muestrales
Si de una población binomial grande se toman muestras aleatorias de tamaño 𝑛 y se calcula

proporción muestral 𝑝̂ para cada muestra, entonces a esa colección de proporciones se le llama
distribución muestral de proporciones muestrales que será aproximadamente normal. Con
estadístico
𝑝̂ − 𝑝
𝑧=
𝜎𝑝̂
17
donde 𝑝 es la proporción de unos en la población binomial y
● Para el caso de poblaciones grandes (𝑁 ≥ 20𝑛)
𝑝(1 − 𝑝)
𝜎𝑝̂ = √
𝑛
● Para el caso de poblaciones pequeñas (𝑁 ≥ 20𝑛)
𝑝(1 − 𝑝) 𝑁 − 𝑛
𝜎𝑝̂ = √ √
𝑛 𝑁−1
Ejemplo
Un medicamento tiene la advertencia de que algunos usuarios pueden sufrir efectos

secundarios. Se piensa que alrededor del 3% pueden sufrir de estos efectos. Si una muestra
aleatoria de 170 personas usa el medicamento, calcule la probabilidad 𝑃(𝑝̂ < 4%)
0.04 − 0.03
𝑃(𝑝̂ < 4%) = 𝑃 𝑍 < = 𝑃(𝑍 < 0.76) = 0.7764
√0.03(1 − 0.03)
( 170 )
18

Descargable U1

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Descargable U1

Cargado por

Copyright:

Formatos disponibles

ESTADÍSTICA PARA LA

Comprender los diferentes conceptos básicos de la estadística inferencial, que permitan el

Bienvenido a la introducción a Estadística para la Analítica de datos!

Al cumplir con el desarrollo de la presente unidad estarás en capacidad de:

1. Comprender los principales conceptos de la estadística inferencial.

A continuación, se presentan algunos conceptos importantes en el área de la estadística.

● Estadística: Es la ciencia que se encarga de recolectar, organizar, analizar e interpretar

● Estadística inferencial: Es la rama de la estadística que comprende todos los métodos

● Dato: Es una porción de información.

● Datos: Sinónimo de muestra.

● Población: Es el conjunto de todos los elementos de interés para un investigador.

● Muestra: Es cualquier subconjunto de la población.

● Estadístico: Cualquier característica numérica de una muestra.

● Datos cualitativos: Información categórica.

● Datos cuantitativos: Información numérica. Se puede clasificar en continuos y discretos.

● Datos cuantitativos discretos: Son obtenidos de un proceso de conteo. Números

● Medida: Es un valor representativo de un conjunto de datos.

● Distribución de frecuencias: Es sinónimo de tabla de frecuencias y puede ser

● Sesgo muestral: Es un tipo de error no muestral y es una tendencia sistemática

● Aleatorización: Proceso de selección de muestras donde la selección es imparcial o no

● Muestra aleatoria: Es una muestra elegida con procedimientos aleatorios.

Del curso de Estadística probabilística recordamos los siguientes conceptos:

● Población: Es el conjunto de todos los elementos de interés para un investigador.

● Muestra: Es cualquier subconjunto de la población.

● Parámetro: Cualquier característica numérica de una población.

● Estadístico: Cualquier característica numérica de una muestra.

El parámetro es el valor de interés desconocido para el investigador, pero la mayoría de las

Mediante la siguiente ecuación

La distribución de frecuencias de la variable aleatoria 𝛩 recibe el nombre de distribución

● En la siguiente gráfica se muestra la distribución muestral de la media muestral 𝜃̂ = 𝑥.

● En la siguiente gráfica se muestra la distribución muestral de la desviación estándar

Respectivamente. La desviación estándar 𝜎𝑋 recibe el nombre de error estándar de la media y

donde 𝑒 = 𝑥 − 𝜇 son los errores muestrales de la media.

Entonces la población tiene media y varianza dada por

Con lo cual se obtiene la distribución de frecuencias

Errores estándar de la media para diversos tipos de muestreo

Ver (Weimer, 1993), (Wackerly D. et al., 2010) y (Walpole, 2007)

Distribuciones muestrales de poblaciones normales

En estadística se asume que, si las muestras se seleccionan de una población normal,

Muestras de poblaciones normales con σ conocida

Ejemplo [Desviación estándar poblacional conocida]

De una población normal se elige una muestra de tamaño 𝑛 = 10 con media 𝜇 = 30 y

La grafica de la distribución t de Student es

Muestras de poblaciones normales

Si las muestras de tamaño 𝑛 proceden de

La distribución del estadístico 𝑇 recibe el

Ejemplo [Desviación estándar

Si las muestras se seleccionan de

Si 𝑋 es la media de una muestra aleatoria

forma limite de la distribución de

El teorema del limite central puede ser

A continuación, se mostrarán algunos

3. Población sesgada a la derecha

Para el ejemplo de la distribución muestral de la media en la primera sección se tenía la

Entonces la población tiene media y varianza dada por

Se observa que la distribución de la población no es normal, sino uniforme

Activa tus aprendizajes

¿Quieres conocer la Distribución muestral de poblaciones dicotómicas?

Se les preguntan a 10 personas su género y se hace

Luego la proporción de mujeres es

y la media en la población de ceros y unos es

Distribución muestral de las proporciones muestrales

Si de una población binomial grande se toman muestras aleatorias de tamaño 𝑛 y se calcula

● Para el caso de poblaciones grandes (𝑁 ≥ 20𝑛)