Está en la página 1de 8

Universidad de los Andes

Departamento de Ingeniería Industrial


Probabilidad y Estadística I (IIND2106)
Profesor Coordinador: Mario Castillo
Profesores: Mario Castillo, Gonzalo Torres, Nicole Ramírez, Mauricio Delgado, Natalia
Pacheco, Nicolás Mejía, Carlos Castellanos y Santiago Castro
Segundo Semestre de 2023

BANCO DE PROBLEMAS – SESIÓN 11

ESTADÍSTICA DESCRIPTIVA Y ESTIMACIÓN PUNTUAL

Punto 1

La Decanatura de Estudiantes de la Universidad de los Andes realizó una encuesta a


estudiantes de Ingeniería sobre su dedicación semanal a actividades deportivas. La encuesta
fue realizada a 500 estudiantes, donde se obtuvo los resultados que se encuentran disponibles
en el archivo “Encuesta Deportiva.xlsx”.

La base de datos suministrada cuenta con las siguientes variables:

• Sexo: Indica si el estudiante es hombre o mujer.

• Ingeniería: Corresponde a la ingeniería a la que pertenece el estudiante.

• Deporte: Hace referencia al deporte que practica el estudiante.

• Dedicación Semanal (horas): Cantidad de horas semanales que dedica el estudiante


a realizar actividad física.

Haciendo uso de la información presentada en el archivo, dé solución a los siguientes literales:

a) Construya un histograma de frecuencias para las horas dedicadas semanalmente a la


práctica de alguna actividad física. Muestre la tabla de frecuencias asociada. ¿Qué se
puede inferir del resultado obtenido?

Gráfica 1. Histograma de frecuencias de la dedicación semanal. 1

1
Gráfico realizado por el equipo de Probabilidad y Estadística 1. Segundo semestre 2021.
Universidad de los Andes
Departamento de Ingeniería Industrial
Probabilidad y Estadística I (IIND2106)
Profesor Coordinador: Mario Castillo
Profesores: Mario Castillo, Gonzalo Torres, Nicole Ramírez, Mauricio Delgado, Natalia
Pacheco, Nicolás Mejía, Carlos Castellanos y Santiago Castro
Segundo Semestre de 2023

En este caso se tienen valores discretos de las horas dedicadas semanalmente a la


práctica de actividad física, y el máximo es 13 horas y el mínimo es 0. El rango de los
datos es 13, que es menor a la raíz del número de datos √500 ≈ 22, por lo general no
en estos casos no se realizan clases, sino tan solo un histograma de frecuencias para
los distintos valores, para estos datos en específico de 0 a 13.

Para una cantidad de 6 horas de dedicación semanal se encuentra la mayor frecuencia,


es decir que 6 es la moda. El valor con menor frecuencia es 13. Estos datos se verifican
en la siguiente tabla de frecuencias.

Tabla 1. Frecuencias de la dedicación semanal.

Clase Frecuencia
1 20
2 25
3 31
4 55
5 86
6 97
7 74
8 40
9 37
10 17
11 12
12 4
13 2

b) Realice un diagrama de caja para cada una de las ingenierías que represente la dedicación
semanal en horas de los estudiantes en la práctica de actividad física. Interprete su
resultado.
Universidad de los Andes
Departamento de Ingeniería Industrial
Probabilidad y Estadística I (IIND2106)
Profesor Coordinador: Mario Castillo
Profesores: Mario Castillo, Gonzalo Torres, Nicole Ramírez, Mauricio Delgado, Natalia
Pacheco, Nicolás Mejía, Carlos Castellanos y Santiago Castro
Segundo Semestre de 2023

Gráfica 2. Diagramas de caja de la dedicación semanal para las diferentes ingenierías.2

Se observa que, para esta muestra los estudiantes de Industrial y Sistemas presentan
una media mayor que las demás ingenierías. En Ingeniería Química se presentan 4
valores atípicos y la distribución de Mecánica es asimétrica y esto se observa en la
diferencia de la longitud de los bigotes.

c) Realice un resumen de las principales estadísticas descriptivas correspondientes a la


variable Dedicación semanal. Interprete los resultados obtenidos.

Dedicación Semanal (horas)


Media 5,874
Error típico 0,10805369
Mediana 6
Moda 6
Desviación estándar 2,41615389
Varianza de la 5,8377996
muestra
Curtosis 0,0387732
Coeficiente de 0,10201311
asimetría
Rango 13
Mínimo 0

2
Gráfico realizado por el equipo de Probabilidad y Estadística 1.
Universidad de los Andes
Departamento de Ingeniería Industrial
Probabilidad y Estadística I (IIND2106)
Profesor Coordinador: Mario Castillo
Profesores: Mario Castillo, Gonzalo Torres, Nicole Ramírez, Mauricio Delgado, Natalia
Pacheco, Nicolás Mejía, Carlos Castellanos y Santiago Castro
Segundo Semestre de 2023

Máximo 13
Suma 2937
Cuenta 500
Interpretación:

1. Medidas de tendencia central (media, mediana, moda, etc.): Estas explican la


tendencia y lo que se espera de una variable. En este caso, la dedicación semanal
promedio es 5,874 horas. La moda es 6 horas, que es el valor con mayor
frecuencia y en este caso coincide con la mediana que es el valor a partir del
cual, el 50% de los datos se encuentran por debajo y el otro 50% de los datos
se encuentran por encima.

2. Medidas de dispersión (desviación, varianza, error típico, etc.): indican la


variabilidad de la muestra, es decir que informan que tan alejados se encuentran
los datos con respecto a su valor esperado. La desviación estándar tiene un valor
de 2,416 lo que representa la variabilidad de los datos alrededor de la media. Por
otro lado, el error típico es como varía la media muestral alrededor de la
poblacional y se calcula como; √𝜎 2 /𝑛, en este caso, el valor del error típico es
0,108.

3. Teoría de las colas gordas (curtosis): Se debe recordar que la normal estándar
cuenta con 3 desviaciones alrededor de la media por lo que 3 es el valor de
comparación, sin embargo, en Excel se tiene que es alrededor de cero. En este
caso la curtosis es mayor a 0 (0,039), las colas son cortas y gruesas, y la
concentración de los datos alrededor de la media es mayor, se le denomina como
una distribución leptocúrtica.

4. Simetría o Asimetría (el coeficiente de simetría): En este caso la dedicación


semanal tiene un valor de asimetría positivo mayor a cero, que indica que la
gráfica de su distribución tiene una cola positiva orientada hacia la derecha.
Universidad de los Andes
Departamento de Ingeniería Industrial
Probabilidad y Estadística I (IIND2106)
Profesor Coordinador: Mario Castillo
Profesores: Mario Castillo, Gonzalo Torres, Nicole Ramírez, Mauricio Delgado, Natalia
Pacheco, Nicolás Mejía, Carlos Castellanos y Santiago Castro
Segundo Semestre de 2023

Punto 2

Se tiene una muestra aleatoria 𝑋1 , 𝑋2 , … , 𝑋𝑛 de tamaño 𝑛, 𝑑𝑜𝑛𝑑𝑒 (𝑛 > 2) de una población con
media 𝜇 y varianza 𝜎 2 . Se tienen los siguientes 2 estimadores para la media poblacional:

̂1 = 𝑋̅
𝜇

6𝑋1 + 24𝑋2 + ⋯ + 6𝑛2 𝑋𝑛


𝜇
̂2 =
𝑛(𝑛 + 1)(2𝑛 + 1)

Responda los siguientes literales. Para ello, tenga en cuenta que:

𝑛
𝑛(𝑛 + 1)(2𝑛 + 1)
∑ 𝑖2 =
6
𝑖=1

a) Calcule el sesgo de los 2 estimadores. Especifique si son o no insesgados.

𝑆𝑒𝑠𝑔𝑜(𝜇̂ 1 ) = 0

𝑆𝑒𝑠𝑔𝑜(𝜇̂ 2 ) = 0

En conclusión, los estimadores 𝜇̂ 1 y 𝜇̂ 2 son insesgados.

b) Calcule el Error Cuadrático Medio (EMC) de los 2 estimadores.

Ayuda:
𝑛
𝑛(𝑛 + 1)(2𝑛 + 1)(3𝑛2 + 3𝑛 − 1)
∑ 𝑖4 =
30
𝑖=1

𝜎2
𝐸𝐶𝑀( 𝜇
̂)
1 =
𝑛

6(3𝑛2 + 3𝑛 − 1) 2
𝐸𝐶𝑀( 𝜇
̂)2 = 𝜎
5𝑛(𝑛 + 1)(2𝑛 + 1)

c) Para cada uno de los estimadores, determine si son consistentes.

Para que un estimador sea consistente debe cumplir con:

lim 𝐸(𝜇
̂)
1 = 𝜇
𝑛→∞
Universidad de los Andes
Departamento de Ingeniería Industrial
Probabilidad y Estadística I (IIND2106)
Profesor Coordinador: Mario Castillo
Profesores: Mario Castillo, Gonzalo Torres, Nicole Ramírez, Mauricio Delgado, Natalia
Pacheco, Nicolás Mejía, Carlos Castellanos y Santiago Castro
Segundo Semestre de 2023

lim 𝑉𝑎𝑟(𝜇
̂)
1 =0
𝑛→∞

lim 𝐸(𝜇
̂)2 = 𝜇
𝑛→∞

lim 𝑉𝑎𝑟(𝜇
̂)2 =0
𝑛→∞

Se observa que los estimadores 𝜇


̂1 y 𝜇
̂2 son consistentes.

d) ¿Cuál de los 2 estimadores presentados elegiría usted? Justifique su respuesta.

Los estimadores 𝜇
̂1 y 𝜇
̂,2 son insesgados y consistentes, se elegirá el que presente el
menor error cuadrático medio.

𝐸𝐶𝑀(𝜇
̂)
1
<1
𝐸𝑀𝐶(𝜇
̂)2

(10𝑛3 + 15𝑛2 + 5𝑛) < (18𝑛3 + 18𝑛2 − 6𝑛)

De la última expresión es claro que la desigualdad siempre se va cumplir para valores


de 𝑛 > 1, por lo cual se cumple la desigualdad planteada inicialmente, entonces el mejor
estimador es 𝜇̂1 dado que tiene menor error cuadrático medio.

Punto 3

El tiempo en minutos que se demora un médico en su consultorio privado en atender a un


paciente, se puede modelar como una variable aleatoria 𝑋 con función de densidad de
probabilidad:

𝑥

𝑥 2𝑒 𝛽
𝑓𝑋 (𝑥, 𝛽) = { 𝑥 > 0, 𝛽 > 0
2𝛽 3
0 𝑑. 𝑙. 𝑐

Con valor esperado y varianza:

𝐸[𝑋] = 3𝛽

𝑉𝐴𝑅[𝑋] = 3𝛽 2

Con base en la información anterior y teniendo en cuenta que se toma una muestra aleatoria
independiente de tamaño 𝑛, resuelva los siguientes literales:
Universidad de los Andes
Departamento de Ingeniería Industrial
Probabilidad y Estadística I (IIND2106)
Profesor Coordinador: Mario Castillo
Profesores: Mario Castillo, Gonzalo Torres, Nicole Ramírez, Mauricio Delgado, Natalia
Pacheco, Nicolás Mejía, Carlos Castellanos y Santiago Castro
Segundo Semestre de 2023

a) Encuentre el Estimador de Máxima Verosimilitud del parámetro 𝛽.

𝑋̅
𝛽̂𝑀𝑣 =
3

Una empresa consultora ha propuesto el siguiente estimador para el parámetro 𝛽:

∑𝑛𝑖=1 𝑥𝑖 5
𝛽̂ = +
3𝑛 𝑛

b) Encuentre el mejor estimador entre 𝛽̂ y 𝛽̂𝑀𝑣 . Para esto calcule el sesgo, la consistencia y
el error cuadrático medio de cada estimador.

Estimador 𝛽̂ :

5
𝑆𝑒𝑠𝑔𝑜(𝛽̂ ) =
𝑛

El estimador 𝛽̂ es sesgado, dado que el sesgo es diferente de cero.

Estimador 𝛽̂𝑀𝑣 :

𝑆𝑒𝑠𝑔𝑜(𝛽̂𝑀𝑣 ) = 0

El estimador 𝛽̂𝑀𝑣 es insesgado, dado que el sesgo es cero.

Consistencia:

Para evaluar consistencia es necesario probar que:

lim 𝐸(𝐸𝑠𝑡𝑖𝑚𝑎𝑑𝑜𝑟) = 𝑝𝑎𝑟á𝑚𝑒𝑡𝑟𝑜


𝑛→∞

lim 𝑉𝑎𝑟(𝐸𝑠𝑡𝑖𝑚𝑎𝑑𝑜𝑟) = 0
𝑛→∞

Estimador 𝛽̂ :

lim 𝐸(𝛽̂ ) = 𝛽
𝑛→∞

lim 𝑉𝑎𝑟(𝛽̂ ) = 0
𝑛→∞

Por lo tanto, el estimador 𝛽̂ es consistente.

Estimador 𝛽̂𝑀𝑣 :
Universidad de los Andes
Departamento de Ingeniería Industrial
Probabilidad y Estadística I (IIND2106)
Profesor Coordinador: Mario Castillo
Profesores: Mario Castillo, Gonzalo Torres, Nicole Ramírez, Mauricio Delgado, Natalia
Pacheco, Nicolás Mejía, Carlos Castellanos y Santiago Castro
Segundo Semestre de 2023

lim 𝐸(𝛽̂𝑀𝑣 ) = 𝛽
𝑛→∞

lim 𝑉𝑎𝑟(𝛽̂𝑀𝑣 ) = 0
𝑛→∞

Por lo tanto, el estimador 𝛽̂𝑀𝑣 es consistente.

Error cuadrático medio:

Está definido como:

𝐸𝐶𝑀 = 𝑉𝐴𝑅(𝐸𝑠𝑡𝑖𝑚𝑎𝑑𝑜𝑟) + 𝑠𝑒𝑠𝑔𝑜 2 (𝐸𝑠𝑡𝑖𝑚𝑎𝑑𝑜𝑟)

Estimador 𝛽̂ :

1 2 25
𝐸𝐶𝑀(𝛽̂ ) = 𝛽 + 2
3𝑛 𝑛

Estimador 𝛽̂𝑀𝑣 :

1 2
𝐸𝐶𝑀(𝛽̂𝑀𝑣 ) = 𝛽
3𝑛

El estimador hallado por máxima verosimilitud es insesgado, en comparación con el otro


estimador, además de presentar un error cuadrático medio menor, por lo cual se escoge
éste estimador.

Se tomó una muestra aleatoria de tamaño 10, obteniendo los siguientes resultados:

n 1 2 3 4 5 6 7 8 9 10
𝒙𝒊 7,747 18,33 9,457 15,492 6,93 17,79 8,535 12,519 11,722 12,794

c) ¿Cuál sería el valor puntual del estimador 𝛽̂ y del estimador encontrado por Máxima
Verosimilitud (𝛽̂𝑀𝑣 )?

𝛽̂ = 4,544

𝛽̂𝑀𝑣 = 4,044

También podría gustarte