Está en la página 1de 18

ESTADÍSTICA PARA LA

ANALÍTICA DE DATOS
INTRODUCCIÓN A LA ESTADÍSTICA INFERENCIAL
1
Aprendizaje esperado

Comprender los diferentes conceptos básicos de la estadística inferencial, que permitan el


desarrollo de pronósticos y análisis de datos, a partir de su estructura conceptual.

Iniciemos

Bienvenido a la introducción a Estadística para la Analítica de datos!

Aquí vamos a ver los fundamentos de la estadística inferencial, los cuales nos servirán de base
para el resto de temáticas que veremos en próximas oportunidades.

Al cumplir con el desarrollo de la presente unidad estarás en capacidad de:

1. Comprender los principales conceptos de la estadística inferencial.


2. Identificar las principales fórmulas que nos permiten encontrar la distribución muestral de
la media muestral.

¡Sígueme!

Conceptos clave

A continuación, se presentan algunos conceptos importantes en el área de la estadística.

● Estadística: Es la ciencia que se encarga de recolectar, organizar, analizar e interpretar


datos.
● Estadística descriptiva: Es la rama de la estadística que comprende todos los métodos
y técnicas usados para organizar y describir información.

● Estadística inferencial: Es la rama de la estadística que comprende todos los métodos


y técnicas usados para hacer inferencias, estimaciones o predicciones sobre poblaciones
a partir de una muestra.

● Dato: Es una porción de información.

● Datos: Sinónimo de muestra.

● Población: Es el conjunto de todos los elementos de interés para un investigador.

● Muestra: Es cualquier subconjunto de la población.

2
● Parámetro: Cualquier característica numérica de una población.

● Estadístico: Cualquier característica numérica de una muestra.

● Big Data: Término utilizado para describir conjuntos de datos tan grandes que los
tradicionales y típicos procesos de almacenamiento, gestión, búsqueda, análisis, entre
otros se han convertido en un reto debido a su tamaño.

● Datos cualitativos: Información categórica.

● Datos cuantitativos: Información numérica. Se puede clasificar en continuos y discretos.

● Datos cuantitativos discretos: Son obtenidos de un proceso de conteo. Números


naturales, enteros o racionales.

● Medida: Es un valor representativo de un conjunto de datos.

● Valor atípico (o outlier): Es una medida con un valor extremo en un conjunto de datos.
Puede indicar un error de anotación o una medida muy poco común en la población.

● Distribución de frecuencias: Es sinónimo de tabla de frecuencias y puede ser


representada gráficamente con ayuda de histogramas.

● Evento simple: Es el evento que corresponde a un solo punto muestral y se nota por 𝐸
con un subíndice.

● Evento vacío: El evento vacío se nota por ∅ y es el evento que no tiene elementos.

● Error muestral: Es la variación natural que existe entre las muestras de una misma
población, cuando las muestras no son copias exactas de la población.

● Errores no muestrales: Son los errores que surgen al tomar una muestra.

● Sesgo muestral: Es un tipo de error no muestral y es una tendencia sistemática


inherente a un método de muestreo que da estimaciones de un parámetro. El sesgo es
negativo si las estimaciones son menores y positivo si las estimaciones son mayores.

● Aleatorización: Proceso de selección de muestras donde la selección es imparcial o no


está sesgada.

● Muestra aleatoria: Es una muestra elegida con procedimientos aleatorios.

3
Distribuciones muestrales

Del curso de Estadística probabilística recordamos los siguientes conceptos:

● Población: Es el conjunto de todos los elementos de interés para un investigador.

Introducción:

● Muestra: Es cualquier subconjunto de la población.

● Parámetro: Cualquier característica numérica de una población.

● Estadístico: Cualquier característica numérica de una muestra.

El parámetro es el valor de interés desconocido para el investigador, pero la mayoría de las


veces es imposible calcularlo y por tanto se recurre a tomar una muestra representativa de la
población y en esa muestra se calcula el estadístico que nos servirá para aproximar el valor del
parámetro.

Mediante la siguiente ecuación

𝜃 = 𝜃̂ ± 𝐸
donde
𝜃: 𝑃𝑎𝑟á𝑚𝑒𝑡𝑟𝑜.
𝜃̂ : 𝐸𝑠𝑡𝑎𝑑í𝑠𝑡𝑖𝑐𝑜.
𝐸: 𝐸𝑟𝑟𝑜𝑟 𝑑𝑒 𝑒𝑠𝑡𝑖𝑚𝑎𝑐𝑖ó𝑛.
con
𝐸 = |𝜃 − 𝜃̂|

No obstante, la muestra que elijamos y la forma en que realizamos el muestreo afecta nuestra
estimación pues estos factores causan errores muestrales y errores no muestrales, donde

e: Error muestral.
e=θ -θ

El sesgo muestral por ejemplo es un tipo de error no muestral y puede suprimirse o minimizarse
usando aleatorización, es decir, tomando muestras aleatorias.

4
Distribuciones muestrales

Para estimar un parámetro 𝜃 de una población, seleccionamos muestras del mismo tamaño y
en cada muestra se calcula el estadístico 𝜃, por ejemplo, de la muestra 1 se puede obtener un
valor del estadístico notado por 𝜃̂1, de la muestra 2 se puede obtener el valor del estadístico 𝜃̂2
y así sucesivamente. A partir de los valores 𝜃̂1 , 𝜃̂2 , 𝜃̂3 , . .. que varían de una muestra
aleatoria en otra muestra aleatoria se
obtiene una variable aleatoria 𝛩 con su
respectiva distribución de frecuencias.

La distribución de frecuencias de la variable aleatoria 𝛩 recibe el nombre de distribución


muestral del estadístico 𝜃̂.

● En la siguiente gráfica se muestra la distribución muestral de la media muestral 𝜃̂ = 𝑥.

● En la siguiente gráfica se muestra la distribución muestral de la desviación estándar


muestral 𝜃̂ = 𝑠 2 .

5
Distribución muestral de la media

Sea una población 𝑈 con media poblacional 𝜇 y varianza 𝜎 2 . De esa población se seleccionan
muestras aleatorias con reemplazo de tamaño 𝑛, si el estadístico es igual a la media muestral 𝑥
entonces la distribución de frecuencias recibe el nombre de distribución muestral de la media,
la variable se nota por 𝑋, los valores por 𝑥1 , 𝑥2 , . .. y la media y la varianza de la variable 𝑋 están
dadas por

𝜇𝑋 = 𝜇

𝜎2
𝜎𝑋2 =
𝑛

Respectivamente. La desviación estándar 𝜎𝑋 recibe el nombre de error estándar de la media y


si se eligen muestras de tamaño 𝑛 con reemplazo, entonces

𝜎𝑋 = 𝜎𝑒

donde 𝑒 = 𝑥 − 𝜇 son los errores muestrales de la media.

6
Ejemplo [Distribución muestral de la media]

Sea la población

𝑈 = {1,3,5,7}

Entonces la población tiene media y varianza dada por

1+3+5+7
𝜇= =4
4

𝜎2 = 5

7
Por otra parte, de la población se eligen muestras de tamaño 𝑛 = 2 con reemplazo y se calcula
la media, esto es

Con lo cual se obtiene la distribución de frecuencias

8
Por lo tanto, la media y la varianza de la distribución muestral de la media quedan en la forma
∑ 𝑥𝑓 64
𝜇𝑋 = = =4=𝜇
∑ 𝑓 16
y
2
2
∑ (𝑥 − 𝜇 𝑋 ) 40 5 𝜎 2
𝜎𝑋 = = = =
∑ 𝑓 16 2 𝑛

Errores estándar de la media para diversos tipos de muestreo

El error 𝜎𝑋 varía de acuerdo al tipo de muestreo que se realice (con reemplazo o sin reemplazo),
del tamaño de la muestra 𝑛 y del tamaño de la población 𝑁, en ese sentido se tiene
● Error estándar de la media para poblaciones grandes o poblaciones pequeñas con
reemplazo (𝑁 < 20𝑛)
𝜎
𝜎𝑋 =
√𝑛
● Error estándar de la media para poblaciones pequeñas (𝑁 < 20𝑛) y sin reemplazo
𝜎 𝑁−𝑛
𝜎𝑋 = √
√𝑛 𝑁 − 1

Ver (Weimer, 1993), (Wackerly D. et al., 2010) y (Walpole, 2007)

9
Fortalece tus conocimientos

Distribuciones muestrales de poblaciones normales

En estadística se asume que, si las muestras se seleccionan de una población normal,


entonces la distribución de la media muestral también será normal.

Muestras de poblaciones normales con σ conocida

Si las muestras de tamaño 𝑛 proceden de una población normal, con media y desviación
estándar conocidas. Entonces la distribución muestral de la media también será normal y el
estadístico de prueba será

𝑥 − 𝜇𝑋 𝑥−𝜇
𝑧= =
𝜎𝑋 𝜎
( )
√𝑛

Ejemplo [Desviación estándar poblacional conocida]

De una población normal se elige una muestra de tamaño 𝑛 = 10 con media 𝜇 = 30 y


desviación estándar 𝜎 = 5. Calcular 𝑃(𝑋 ≤ 28).

28 − 30
𝑃(𝑋 ≤ 28) = 𝑃 (𝑍 ≤ ) = 𝑃(𝑍 ≤ −1.26) = 0.1038
5
( )
√10

10
y su media y varianza están dadas por
𝜇𝑇 = 0
2
𝜐
𝜎𝑇 =
𝜐−2

La grafica de la distribución t de Student es

Muestras de poblaciones normales


con 𝜎 desconocida

Si las muestras de tamaño 𝑛 proceden de


una población normal, con media conocida y
desviación estándar desconocida. Entonces,
la distribución muestral de la media también
será normal, pero no se puede transformar
la media muestral a un puntaje estándar.
Donde la curva en rojo es la distribución
normal estándar. Cuando 𝑛 → ∞, la grafica
Luego, el estadístico de prueba en este
de la distribución t de Student en azul se ira
caso será
acercando a la distribución normal estándar
𝑥−𝜇 en rojo.
𝑇=
𝑠
( )
√𝑛
donde 𝑠 es la desviación estándar de la
muestra.

La distribución del estadístico 𝑇 recibe el


nombre de distribución t de Student y está
dada por

Ejemplo [Desviación estándar


Los grados de libertad 𝜐 en este caso están
poblacional desconocida]
definidos como
𝜐=𝑛−1

11
De una población normal se elige una
muestra de tamaño 𝑛 = 18 con media 𝜇 =
30 y desviación estándar muestral 𝑠 = 6 .
Calcular 𝑃(𝑋 ≤ 28).

Visualiza
Distribuciones muestrales de
poblaciones no normales

Si las muestras se seleccionan de


poblaciones que no son normales, no se
cumpliría las condiciones que se impusieron
en la sección anterior. No obstante, el
siguiente teorema establece que a pesar de
que la población no es normal se toman
muestras grandes, entonces la distribución
de la media muestral si será normal.
28 − 30
𝑃(𝑋 ≤ 28) = 𝑃 (𝑇 ≤ ) = 𝑃(𝑇
6 Teorema
( )
√18
≤ −1.41) = 0.0883 [Teorema del límite central]

Si 𝑋 es la media de una muestra aleatoria


de tamaño 𝑛 tomada de una población con
media 𝜇 y varianza finita 𝜎 2 , entonces la

Bibliografía o Referencias

• Wackerly D., D., mendenhall III, W., & Scheaffer L., R. (2010).
[Wackerly,Mendenhall,Scheaffer]Estadistica_Matematica_con_Aplicaciones.pdf.
• Walpole, R. E. (2007). Probabilidad Y Estadistica Para Ingenieria Y Ciencias.
Pearson Educación. https://books.google.com.co/books?id=jBnRMQAACAAJ
• Weimer, R. C. (1993). Statistics. Wm. C. Brown Publishers.
https://books.google.com.co/books?id=%5C_O4JAQAAMAAJ

forma limite de la distribución de

𝑥 − 𝜇𝑋 𝑥−𝜇
𝑧= =
𝜎𝑋 𝜎
( )
√𝑛

12
conforme 𝑛 → ∞, es la distribución normal 2. Población sesgada a la izquierda
estándar.

El teorema del limite central puede ser


ilustrado en el siguiente simulador online

http://www.ltcconline.net/greenl/java/Statistic
s/clt/cltsimulation.html

A continuación, se mostrarán algunos


ejemplos

1. Población uniforme

3. Población sesgada a la derecha

13
Ejemplo [Distribución muestral de la media]

Para el ejemplo de la distribución muestral de la media en la primera sección se tenía la


población

𝑈 = {1,3,5,7}

Entonces la población tiene media y varianza dada por

1+3+5+7
𝜇= =4
4
y
𝜎2 = 5

Se observa que la distribución de la población no es normal, sino uniforme

14
Sin embargo, la distribución muestral de la media es aproximadamente normal.

15
tamaño cdsd

En general intentamos tomar las muestras del mayor tamaño posible sin importar la
forma de la población y por el Teorema del límite central asumimos que la distribución
muestral de la media es aproximadamente normal y aplicamos los resultados vistos
anteriormente.

Activa tus aprendizajes

¿Quieres conocer la Distribución muestral de poblaciones dicotómicas?

¡Vamos!

Una población dicotómica es una población que tiene solo dos datos cualitativos.

Ejemplos

● 𝑈 = {𝐻𝑜𝑚𝑏𝑟𝑒, 𝑀𝑢𝑗𝑒𝑟 }
● 𝑈 = {𝐶𝑎𝑟𝑎, 𝑆𝑒𝑙𝑙𝑜 }
● 𝑈 = {𝐴𝑝𝑟𝑜𝑏𝑜 𝑙𝑎 𝑚𝑎𝑡𝑒𝑟𝑖𝑎, 𝑅𝑒𝑝𝑟𝑜𝑏𝑜 𝑙𝑎 𝑚𝑎𝑡𝑒𝑟𝑖𝑎 }

Es común que en este tipo de poblaciones se asignen las categorías con 1 y 0 en una población
binomial (población de ceros y unos) asociada. Esto hace que las proporciones de las
categorías sean iguales a la media calculada con los unos y ceros.

16
Ejemplo

Se les preguntan a 10 personas su género y se hace

1 = 𝑀𝑢𝑗𝑒𝑟
y
0 = 𝐻𝑜𝑚𝑏𝑟𝑒

Entonces se tiene

Luego la proporción de mujeres es


𝑓 6
𝑝= =
𝑛 10

y la media en la población de ceros y unos es


1+1+1+1+1+1+0+0+0+0 6
𝑥= =
10 10

En ese sentido se asume que la distribución muestral de las proporciones son un caso especial
de la distribución muestral de la media.

Distribución muestral de las proporciones muestrales

Si de una población binomial grande se toman muestras aleatorias de tamaño 𝑛 y se calcula


proporción muestral 𝑝̂ para cada muestra, entonces a esa colección de proporciones se le llama
distribución muestral de proporciones muestrales que será aproximadamente normal. Con
estadístico

𝑝̂ − 𝑝
𝑧=
𝜎𝑝̂

17
donde 𝑝 es la proporción de unos en la población binomial y

● Para el caso de poblaciones grandes (𝑁 ≥ 20𝑛)

𝑝(1 − 𝑝)
𝜎𝑝̂ = √
𝑛
● Para el caso de poblaciones pequeñas (𝑁 ≥ 20𝑛)

𝑝(1 − 𝑝) 𝑁 − 𝑛
𝜎𝑝̂ = √ √
𝑛 𝑁−1

Ejemplo

Un medicamento tiene la advertencia de que algunos usuarios pueden sufrir efectos


secundarios. Se piensa que alrededor del 3% pueden sufrir de estos efectos. Si una muestra
aleatoria de 170 personas usa el medicamento, calcule la probabilidad 𝑃(𝑝̂ < 4%)

0.04 − 0.03
𝑃(𝑝̂ < 4%) = 𝑃 𝑍 < = 𝑃(𝑍 < 0.76) = 0.7764
√0.03(1 − 0.03)
( 170 )

18

También podría gustarte