Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Natalia SALABERRY
Facultad
Taller de Ciencias Económicas
de Programación
Metodología
del plan y desarrollo de los datos, a través de un suceso, a partir toma de decisiones
del proceso de de la exploración de los datos (muestra) entorno al suceso
investigación
Sub Conjunto de
Origen de conjunto Población todos los
Objetivo de la elementos del
los datos
población Muestra fenómeno a
estudiar
Inferir (obtener Técnicas de Como la inferencia se
medidas muestrales muestreos realiza a partir de una Medición del
para inferir) muestra, entonces existirá Riesgo
características de la un riesgo asociado: que la
Aleatorio Simple
población muestra no represente
Sistemático Intervalos de
Estratificado adecuadamente a la
confianza
Por conglomerados población 2
Estadística – R. Del
M. Conocchiari - M. SperanzaNatalia Salaberry
Rosso
Facultad
Taller de Ciencias Económicas
de Programación
Intervalo de confianza
Es un rango de valores posibles dentro del cual se encuentra el parámetro poblacional que se
quiere estimar bajo un cierto nivel de confianza.
Los estadísticos y estimadores son variables aleatorias ya que su valor varía de una muestra a
otra. En consecuencia, por más que usemos el mismo estimador, la estimación que realicemos
variará de una muestra a otra. Pero si conocemos la distribución de muestreo del estimador (lo
que vimos la clase pasada, entonces utilizaremos un estadístico), podremos hallar un intervalo
estimado que con cierta probabilidad contendrá al parámetro poblacional.
Elementos que contiene un intervalo de confianza
- Límites: Son los valores límites entre los cuales se encontrará el parámetro de la población
bajo un cierto nivel de confianza. Señalamos con Li al límite inferior y Ls al límite superior .
- Nivel de confianza: es el nivel de probabilidad con el cual quiero realizar la estimación 1-𝞪
Si establezco un 95% (1-𝞪) de confianza para estimar entonces 𝞪=5% es el nivel de
significatividad (o margen de error). Por lo tanto 1- 𝞪 es el percentil hasta el cual estoy
acumulando la probabilidad de la estimación.
𝞪/2=2,5% 𝞪/2=2,5%
1-𝞪=95%
Estadística – R. Del
M. Conocchiari - M. SperanzaNatalia Salaberry
Rosso
Facultad
Taller de Ciencias Económicas
de Programación
- Obtener mucha precisión (es decir, cometer el menor error posible y por tanto obtener
una longitud chica del intervalo)
- Optimizar el costo (es decir, poder obtener lo anterior con el menor tamaño de muestra
posible)
Estadística – R. Del
M. Conocchiari - M. SperanzaNatalia Salaberry
Rosso
Facultad
Taller de Ciencias Económicas
de Programación
𝜎 𝜎
𝑃(𝑋ത − 𝑍1−𝛼 ≤ 𝜇 ≤ 𝑋ത + 𝑍1−𝛼 ) = 1 − 𝞪
2 𝑛 2 𝑛
Li Ls Percentil
Estadística – R. Del
M. Conocchiari - M. SperanzaNatalia Salaberry
Rosso
Facultad
Taller de Ciencias Económicas
de Programación
Ejemplo 1: Una empresa proveedora de gas en una ciudad decide hacer un estudio para
determinar la cantidad de gas gastada para calefacción casera durante un año. Con tal motivo
se selecciona una muestra de 64 hogares de la ciudad. Se supone que el gasto por consumo
domiciliario de gas sigue una distribución normal. La media muestral del gasto en gas para
calefacción resultó de $836. Se sabe por experiencia que el desvío estándar de la población es
$178. Hallar un intervalo de con fianza del 95% para el gasto promedio anual de gas en las
viviendas de esta ciudad.
Nos preguntamos: el desvío de la población, ¿es conocido? SI. Entonces:
𝝈 𝝈
ഥ
𝑷(𝑿 − 𝒁𝟏−𝜶 ഥ
≤ 𝝁 ≤ 𝑿 + 𝒁𝟏−𝜶 )=𝟏−𝞪
𝟐 𝒏 𝟐 𝒏
178 178
𝑃 836 − 𝑍1−𝛼 ≤ 𝜇 ≤ 836 + 𝑍1−𝛼 = 95%
2 64 2 64
Estadística – R. Del
M. Conocchiari - M. SperanzaNatalia Salaberry
Rosso
Facultad
Taller de Ciencias Económicas
de Programación
Ejemplo 1.1: Un investigador desea determinar mediante un intervalo de confianza del 95% y
una longitud de 3000 pesos, el salario medio mensual del sector gastronómico de determinada
ciudad. Por estudios anteriores se sabe que los salarios siguen una distribución normal con
desvío estándar de 10000 pesos. ¿Qué tamaño de muestra debería utilizar?.
2∗𝑍 𝛼 ∗𝜎 2
1−
2
𝑛= donde L es la longitud del IC
𝐿
2
2 ∗ 1,96 ∗ 10000
𝑛= = 170,74 == 171
3000
Estadística – R. Del
M. Conocchiari - M. SperanzaNatalia Salaberry
Rosso
Facultad
Taller de Ciencias Económicas
de Programación
2. Intervalo de confianza para la media si la varianza poblacional es desconocida
Sean 𝑋1 , 𝑋2 … , 𝑋𝑛 una muestra aleatoria de tamaños n proveniente de una población
Normal con media 𝜇𝑥 y varianza desconocida. Entonces:
𝑋ത − 𝜇
~𝑡𝑛−1
𝑆
𝑛
Construimos el intervalo:
𝑋ത − 𝜇 Por simetría de la distribución normal
𝑃(𝑡𝑛−1;𝛼 ≤ ≤ 𝑡𝑛−1;1−𝛼 ) = 1 − 𝞪
2 𝑆 2
𝑛 𝑆 𝑆
ത
𝑃(𝑋 − 𝑡𝑛−1;1−𝛼 ത
≤ 𝜇 ≤ 𝑋 + 𝑡𝑛−1;1−𝛼 ) = 1 − 𝞪
2 𝑛 2 𝑛
Li Ls Percentil
Por lo tanto, si me solicitan estimar un intervalo de confianza para la media poblacional, lo
que debo preguntarme es si conozco o no conozco la varianza (o desvío) poblacional para
determinar que intervalo utilizar
2.1 Tamaño de la muestra 2
𝑡 𝛼 ∗𝑆
Error ∈ = |𝑋ത − 𝜇|
𝑛−1;1− 2
𝑛= ∈
donde ∈ es el error de la estimación
𝑆 2∗𝑡 𝛼 ∗𝑆 2
𝑛−1;1−
𝐿 = 2 ∗ 𝑡𝑛−1;1−𝛼 𝑛= 2
donde L es la longitud del IC
2 𝑛 𝐿
8
Estadística – R. Del
M. Conocchiari - M. SperanzaNatalia Salaberry
Rosso
Facultad
Taller de Ciencias Económicas
de Programación
Ejemplo 2: Con el fin de determinar la edad media de alumnos que cursan una carrera
determinada en un Universidad, se tomó una muestra de 20 alumnos, obteniéndose una
media de 23 años y un desvío de 3,5 años. Si la edad en un estudio se distribuye normalmente,
hallar un intervalo de confianza para la verdadera media con un nivel de confianza del 95%.
Nos preguntamos: el desvío de la población, ¿es conocido? NO. Entonces:
𝑆 𝑆
ത
𝑃(𝑋 − 𝑡𝑛−1;1−𝛼 ത
≤ 𝜇 ≤ 𝑋 + 𝑡𝑛−1;1−𝛼 ) = 1 − 𝞪
2 𝑛 2 𝑛
3,5 3,5
𝑃 23 − 𝑡𝑛−1;1−𝛼 ≤ 𝜇 ≤ 23 + 𝑡𝑛−1;1−𝛼 = 95%
2 20 2 20
3,5 3,5
𝑃 23 − 2,093 ∗ ≤ 𝜇 ≤ 23 + 2,093 ∗ = 95% ⇒ 𝑃 21,36 ≤ 𝜇 ≤ 24,64 = 95%
20 20
Estadística – R. Del
M. Conocchiari - M. SperanzaNatalia Salaberry
Rosso
Facultad
Taller de Ciencias Económicas
de Programación
2 (𝑛−1)𝑆 2 2
𝑃(𝑥𝑛−1;𝛼 ≤ ≤ 𝑥𝑛−1;1−𝛼) = 1 − 𝞪
2
𝜎2 2
(𝑛 − 1)𝑆 2 (𝑛 − 1)𝑆 2
𝑃( ≤ 𝜎2 ≤ )=1−𝞪
𝑥2 𝛼 𝑥2 𝛼
𝑛−1;1− 2 𝑛−1; 2
LI LS Percentil
10
Estadística – R. Del
M. Conocchiari - M. SperanzaNatalia Salaberry
Rosso
Facultad
Taller de Ciencias Económicas
de Programación
Ejemplo 3: Una agencia de alquiler de autos quiere estudiar la distribución de los kilómetros
diarios que realiza su flota. Para eso, a lo largo de varios días, se anotan los recorridos de cien
vehículos de su flota y se obtiene que la media muestral es de 165km/día y que el desvío
estándar muestral es 6km/día. Suponiendo que la distribución de los km recorridos es normal
con media conocida, hallar un intervalo de con confianza del 90% para la varianza de la
distribución.
Nos preguntamos: ¿conocemos la media de la población? SI. Entonces:
(𝑛 − 1)𝑆 2 2
(𝑛 − 1)𝑆 2
100 − 1 ∗ 62 2
100 − 1 ∗ 62
𝑃( 2 ≤𝜎 ≤ )=1−𝞪 𝑃 ≤𝜎 ≤ = 90%
𝑥 𝛼 𝑥2 𝛼 𝑥2 0,1 𝑥 2 0,1
𝑛−1;1− 2 𝑛−1; 2 100−1;1− 2 𝑛−1; 2
Estadística – R. Del
M. Conocchiari - M. SperanzaNatalia Salaberry
Rosso
Facultad
Taller de Ciencias Económicas
de Programación
4. Intervalo de confianza para proporciones en poblaciones binomiales
Sean 𝑋1 , 𝑋2 … , 𝑋𝑛 una muestra aleatoria de tamaños n proveniente de una población
Normal con media conocida. Entonces:
pത − p
~𝑁(0; 1)
𝑝(1 − 𝑝)
𝑛
Construimos el intervalo: pത − p
𝑃(𝑍𝛼 ≤ ≤ 𝑍1−𝛼 ) = 1 − 𝞪
2 𝑝(1 − 𝑝) 2
𝑛
Por simetría de la distribución normal y un n grande, tomando un 𝑝 ya que no conocemos pത
𝑝 1 − 𝑝 𝑝(1
− 𝑝)
𝑃(𝑝 − 𝑍1−𝛼 ≤ 𝑝 ≤ 𝑝 + 𝑍1−𝛼 )=1−𝞪
2 𝑛 2 𝑛
Li Ls Percentil
Cuando hablamos de proporciones nos referimos a la proporción de una población que cumple
con determinadas características. Entonces, p será la cantidad de casos favorables que se
obtuvo en la muestra.
Tamaño de la muestra 2
𝑍 𝛼
1− 2
Tamaño de la muestra : 𝑛 = 𝑝(1
− 𝑝)
∈
12
Estadística – R. Del
M. Conocchiari - M. SperanzaNatalia Salaberry
Rosso
Facultad
Taller de Ciencias Económicas
de Programación
Ejemplo 4: En una investigación de mercados que involucró encuestar a 100 personas se
detectó que el 40% de los consumidores prefieren los productos de la marca A frente a los de
otras marcas sustitutas.
Construir un intervalo de confianza del 95% para la proporción poblacional.
𝑝 1 − 𝑝 𝑝(1
− 𝑝)
𝑃 𝑝 − 𝑍1−𝛼 ≤ 𝑝 ≤ 𝑝 + 𝑍1−𝛼 =1−𝞪
2 𝑛 2 𝑛
Estadística – R. Del
M. Conocchiari - M. SperanzaNatalia Salaberry
Rosso
Facultad
Taller de Ciencias Económicas
de Programación
Ejemplo 4.1: Continuando con el ejemplo anterior, supongamos que antes de recopilar los
datos se especificó que la estimación a través de un intervalo del 95% de confianza debería
tener una precisión del 5% ¿Cuál tendría que ser el tamaño de la muestra que debería
tomarse?
𝑆𝑎𝑏𝑖𝑎𝑚𝑜𝑠 𝑞𝑢𝑒 𝑝ҧ = 0,4 𝑒𝑛𝑡𝑜𝑛𝑐𝑒𝑠:
𝑍 𝛼 2
1− 2
Tamaño de la muestra : 𝑛 = 𝑝 1−𝑝
∈
1,96 2
𝑛= 0,4(1 − 0,4)= 368,7936==369
0,05
14
Estadística – R. Del
M. Conocchiari - M. SperanzaNatalia Salaberry
Rosso
Facultad
Taller de Ciencias Económicas
de Programación
Muchas veces se desea comparar poblaciones para saber si sus medias o varianzas o
proporciones son iguales o no.
Por ejemplo, el gobierno Nacional podría estar interesado en comparar el ingreso
medio de los habitantes de dos provincias para saber si son iguales. O una empresa
podría estar interesada en comprar la proporción de artículos defectuosos que
generan dos máquinas para utilizar aquélla que tenga mejor funcionamiento.
Una herramienta útil en estos casos son los intervalos de confianza que nos permiten
realizar estas comparaciones.
15
Estadística – R. Del
M. Conocchiari - M. SperanzaNatalia Salaberry
Rosso
Facultad
Taller de Ciencias Económicas
de Programación
Percentil
Li Ls
16
Estadística – R. Del
M. Conocchiari - M. SperanzaNatalia Salaberry
Rosso
Facultad
Taller de Ciencias Económicas
de Programación
Ejemplo 5: Supongamos que se extrae una muestra con 30 datos de mujeres y 20 datos de
varones. Las medias es las muestra son 1,7 mts y 1,8 mts respectivamente. Si la distribución de
estaturas de mujeres es Normal con desvío estándar de 10cm (o 0,10 m) e independiente de
las estaturas de varones con desvío estándar 15 cm (o 0,15 mts), ¿cuál es el IC al 99% para la
diferencia de las medias?
𝜎𝑋2 𝜎𝑌2 𝜎𝑋2 𝜎𝑌2
ഥ −Y
𝑃( X ഥ −𝑍 𝛼 + ഥ −Y
≤ (𝜇𝑥 − 𝜇𝑦 ) ≤ X ഥ +𝑍 𝛼 + )=1−𝞪
1− 𝑛 𝑚 1− 𝑛 𝑚
2 2
Definimos:
X= estatura de los varones Y = estatura de las mujeres
Nota: el valor más chico siempre es Y
𝑆𝑖 1 − 𝞪 = 99% ⇒ 𝞪 = 1% ⇒ 𝑍 0,01 ⇒ 𝑍0,995
1− 2
⇒ 𝑏𝑢𝑠𝑐𝑜 𝑒𝑛 𝑎𝑙 𝑡𝑎𝑏𝑙𝑎 𝑒𝑙 𝑣𝑎𝑙𝑜𝑟 𝑑𝑒 𝑍 𝑝𝑎𝑟𝑎 0,995 ⇒ 𝑍 = 2,576
Estadística – R. Del
M. Conocchiari - M. SperanzaNatalia Salaberry
Rosso
Facultad
Taller de Ciencias Económicas
de Programación
6. Intervalo de confianza para diferencia de medias de dos poblaciones con
varianzas poblaciones desconocidas e iguales
Sean 𝑋1 , 𝑋2 … , 𝑋𝑛 y 𝑌1 , 𝑌2 … , 𝑌𝑛 dos muestras aleatorias de tamaños n y m,
respectivamente, provenientes de dos poblaciones Normales independientes con medias 𝜇𝑥 y
𝜇𝑦 , y varianzas desconocidas pero iguales. Entonces:
ഥ −Y
X ഥ −(𝜇𝑥 −𝜇𝑦 )
2 2
𝑛 − 1 𝑆𝑋2 + 𝑚 − 1 𝑆𝑌2
~𝑡𝑛+𝑚−2 con 𝑆𝑝 = 𝑆𝑝 donde 𝑆𝑝 =
𝑆𝑝 +
1 1 𝑛+𝑚−2
𝑛 𝑚
Construimos el intervalo correspondiente
ഥ −Y
X ഥ − (𝜇𝑥 − 𝜇𝑦 )
𝑃(−𝑡𝑛+𝑚−2;1−𝛼 ≤ ≤ 𝑡𝑛+𝑚−2;1−𝛼 ) = 1 − 𝞪
2 1 1 2
𝑆𝑝 𝑛 + 𝑚
1 1 1 1
𝑃( ഥ
X −ഥ
Y − 𝑡𝑛+𝑚−2;1−𝛼 ∗ 𝑆𝑝 + ≤ (𝜇𝑥 − 𝜇𝑦 ) ≤ ഥ
X −ഥ
Y + 𝑡𝑛+𝑚−2;1−𝛼 ∗ 𝑆𝑝 + =1−𝞪
2 𝑛 𝑚 2 𝑛 𝑚
Li Ls Percentil
18
Estadística – R. Del
M. Conocchiari - M. SperanzaNatalia Salaberry
Rosso
Facultad
Taller de Ciencias Económicas
de Programación
Ejemplo 6: Supongamos que se extrae una muestra con 30 de mujeres y 20 de varones. Las
medias de la estatura en las muestra son 1,7 mts y 1,8 mts respectivamente. Los desvíos
muestrales son 0,09 y 0,064 respectivamente. Si la distribución de estaturas de personas es
Normal, ¿cuál es el IC al 95% para la diferencia de las medias?
1 1 1 1
𝑃( ഥ
X −ഥ
Y − 𝑡𝑛+𝑚−2;1−𝛼 ∗ 𝑆𝑝 + ≤ (𝜇𝑥 − 𝜇𝑦 ) ≤ ഥ
X −ഥ
Y + 𝑡𝑛+𝑚−2;1−𝛼 ∗ 𝑆𝑝 + =1−𝞪
2 𝑛 𝑚 2 𝑛 𝑚
Definimos:
X= estatura de los varones Y = estatura de las mujeres
Nota: el valor más chico siempre es Y
Desconocemos los desvío poblaciones entonces se asumen iguales.
𝑆𝑖 1 − 𝞪 = 95% ⇒ 𝞪 = 5% ⇒ t 20+30−2;0,975
⇒ 𝑏𝑢𝑠𝑐𝑜 𝑒𝑛 𝑎𝑙 𝑡𝑎𝑏𝑙𝑎 𝑒𝑙 𝑣𝑎𝑙𝑜𝑟 𝑑𝑒 𝑡 𝑝𝑎𝑟𝑎 0,975 𝑦 48 𝑔𝑙 ⇒ 𝑡 = 2,011
20−1 0,0642 + 30−1 0,092
𝑆𝑝2 = = 0,006515 => 𝑆𝑝 = 0,006515 = 0,0807
20+30−2
1 1 1 1
𝑃 1,8 − 1,7 − 2,011 ∗ 0,0807 + ≤ 𝜇𝑥 − 𝜇𝑦 ≤ 1,8 − 1,7 + 2,011 ∗ 0,0807 + = 95%
20 30 20 30
Estadística – R. Del
M. Conocchiari - M. SperanzaNatalia Salaberry
Rosso
Facultad
Taller de Ciencias Económicas
de Programación
Li Ls Percentil
𝑝𝐴 1 − 𝑝𝐴 𝑝𝐵 1 − 𝑝𝐵
𝑆𝑝2 = +
𝑛 𝑚 20
Estadística – R. Del
M. Conocchiari - M. SperanzaNatalia Salaberry
Rosso
Facultad
Taller de Ciencias Económicas
de Programación
Ejemplo 7: Suponga que, en una encuesta tomada a 500 personas en la ciudad A, 350
respondieron que apoyan al candidato A. Supongamos que en otra ciudad B se encuesta a 300
personas, y resulta que 150 están a favor del candidato A. ¿Cuál es el IC al 95% para la
diferencia entre las proporciones de ambas ciudades?
𝑃( 𝑝𝐴 − 𝑝𝐵 − 𝑍1−𝛼 ∗ 𝑆𝑝 ≤ (𝑝𝐴 − 𝑝𝐵 ) ≤ 𝑝𝐴 − 𝑝𝐵 + 𝑍1−𝛼 ∗ 𝑆𝑝 = 1 − 𝞪
2 2
Calculamos:
𝑝𝐴 = 350/500= 0,7 𝑝𝐵 = 150/300= 0,5
𝑆𝑖 1 − 𝞪 = 95% ⇒ 𝞪 = 5% ⇒ 𝑍 0,05 ⇒ 𝑍0,975
1−
2
⇒ 𝑏𝑢𝑠𝑐𝑜 𝑒𝑛 𝑎𝑙 𝑡𝑎𝑏𝑙𝑎 𝑒𝑙 𝑣𝑎𝑙𝑜𝑟 𝑑𝑒 𝑍 𝑝𝑎𝑟𝑎 0,975 ⇒ 𝑍 = 1,96
0,7 1 − 0,7 0,5 1 − 0,5
𝑆𝑝2 = + = 0,00125 ⇒ 𝑆𝑝 = 0,035
500 300
𝑃( 0,7 − 0,5 − 1,96 ∗ 0,035 ≤ (𝑝𝐴 − 𝑝𝐵 ) ≤ 0,7 − 0,5 − 1,96 ∗ 0,035 = 1 − 𝞪
Estadística – R. Del
M. Conocchiari - M. SperanzaNatalia Salaberry
Rosso
Facultad
Taller de Ciencias Económicas
de Programación
22
Estadística – R. Del
M. Conocchiari - M. SperanzaNatalia Salaberry
Rosso