Está en la página 1de 9

Ingeniería Civil Industrial Facultad de Ingeniería y Ciencias Geológicas / Escuela de Ingeniería

Estadística Aplicada 2 2° Semestre 2017

Prueba de Cátedra N°1 (Parte I)

RUT: Nombre y Apellido: PAUTA

Puntaje total: Duración: Puntaje obtenido: Nota:


60 puntos 150 minutos

Importante: Lea atentamente toda la prueba antes de responder. Responda en el espacio disponible. Para los
cálculos utilice 2 decimales. Escriba sus respuestas finales con lápiz de pasta, caso contrario no tendrá
derecho a reclamos posteriores.

1. (10 puntos) Sea 𝛽 ̂ 1 la pendiente de un modelo de regresión lineal simple estimado de la forma
𝑦̂ = 𝛽̂0 + 𝛽̂1 𝑥. Pruebe si 𝛽̂ , estimador de mínimos cuadrados del parámetro 𝛽 , es un estimador
1 1
insesgado de la pendiente de la verdadera recta. Considere que 𝑦𝑖 es una variable aleatoria y los 𝑥𝑖
son valores fijos.

𝑛 ∑𝑛𝑖=1 𝑥𝑖 𝑦𝑖 − (∑𝑛𝑖=1 𝑥𝑖 )(∑𝑛𝑖=1 𝑦𝑖 )


̂1 =
𝛽
𝑛 ∑𝑛𝑖=1 𝑥2𝑖 − (∑𝑛𝑖=1 𝑥𝑖 )2

̂ 𝟏 ) = 𝜷𝟏
Por demostrar: 𝑬(𝜷 (1 pto.)

𝑛 ∑𝑛𝑖=1 𝑥𝑖 𝑦𝑖 − (∑𝑛𝑖=1 𝑥𝑖 )(∑𝑛𝑖=1 𝑦𝑖 )


̂ 𝟏) = 𝑬 (
𝑬(𝜷 )
𝑛 ∑𝑛𝑖=1 𝑥𝑖2 − (∑𝑛𝑖=1 𝑥𝑖 )2
𝑛 𝑛 𝑛
𝟏
= 𝑬 (𝑛 ∑ 𝑥𝑖 𝑦𝑖 − (∑ 𝑥𝑖 ) (∑ 𝑦𝑖 ))
𝑛 ∑𝑛𝑖=1 𝑥𝑖2 − (∑𝑛𝑖=1 𝑥𝑖 )2
𝑖=1 𝑖=1 𝑖=1

𝑛 𝑛 𝑛
𝟏
= (𝑛 ∑ 𝑥𝑖 𝐸(𝑦𝑖 ) − (∑ 𝑥𝑖 ) (∑ 𝐸(𝑦𝑖 )))
𝑛 ∑𝑛𝑖=1 𝑥𝑖2 − (∑𝑛𝑖=1 𝑥𝑖 )2
𝑖=1 𝑖=1 𝑖=1

𝑛 𝑛 𝑛
𝟏
= (𝑛 ∑ 𝑥𝑖 (𝛽0 + 𝛽1 𝑥𝑖 ) − (∑ 𝑥𝑖 ) (∑(𝛽0 + 𝛽1 𝑥𝑖 )))
𝑛 ∑𝑛𝑖=1 𝑥𝑖2 − (∑𝑛𝑖=1 𝑥𝑖 )2
𝑖=1 𝑖=1 𝑖=1
𝑛 𝑛 𝑛 𝑛
𝟏
= (𝑛 ∑(𝑥𝑖 𝛽0 + 𝛽1 𝑥𝑖2 ) − (∑ 𝑥𝑖 ) (∑ 𝛽0 + ∑ 𝛽1 𝑥𝑖 ))
𝑛 ∑𝑛𝑖=1 𝑥𝑖2 − (∑𝑛𝑖=1 𝑥𝑖 )2
𝑖=1 𝑖=1 𝑖=1 𝑖=1

𝑛 𝑛 𝑛 𝑛 2
𝟏
= (𝑛𝛽0 ∑ 𝑥𝑖 + 𝑛𝛽1 ∑ 𝑥𝑖2 − 𝑛𝛽0 ∑ 𝑥𝑖 − 𝛽1 (∑ 𝑥𝑖 ) )
𝑛 ∑𝑛𝑖=1 𝑥𝑖2 − (∑𝑛𝑖=1 𝑥𝑖 )2
𝑖=1 𝑖=1 𝑖=1 𝑖=1

𝑛 𝑛 2
𝟏
= (𝑛𝛽1 ∑ 𝑥𝑖2 − 𝛽1 (∑ 𝑥𝑖 ) )
𝑛 ∑𝑛𝑖=1 𝑥𝑖2 − (∑𝑛𝑖=1 𝑥𝑖 )2
𝑖=1 𝑖=1

1
Ingeniería Civil Industrial Facultad de Ingeniería y Ciencias Geológicas / Escuela de Ingeniería
Estadística Aplicada 2 2° Semestre 2017

𝛽 (𝑛 ∑𝑛𝑖=1 𝑥𝑖2 − (∑𝑛𝑖=1 𝑥𝑖 )2 )


= 1 𝑛 2 = 𝛽1
𝑛 ∑𝑖=1 𝑥𝑖 − (∑𝑛𝑖=1 𝑥𝑖 )2

(Desarrollo: 8 pts. Considerando la correcta aplicación de las propiedades del valor esperado)

̂ 𝟏 ) = 𝜷𝟏 queda demostrado que 𝜷


Como 𝑬(𝜷 ̂ 𝟏 es un estimador insesgado de 𝜷𝟏 (1 pto.)

2
Ingeniería Civil Industrial Facultad de Ingeniería y Ciencias Geológicas / Escuela de Ingeniería
Estadística Aplicada 2 2° Semestre 2017

2. (10 puntos) Un estudio sobre la accidentabilidad laboral en una empresa manufacturera se comporta
según una distribución binomial negativa de parámetros r y p desconocidos. Suponiendo que la
cantidad de accidentes de la empresa es la variable aleatoria x en estudio, se le solicita lo siguiente:

a) Encuentre las expresiones de los estimadores de los parámetros r y p, a través del método de los
momentos (5 pts.)

b) Obtenga una estimación puntual para r y p, a partir de una muestra aleatoria sobre la cantidad de
accidentes en empresas del rubro: x = {0, 2, 1, 5, 4, 2, 3} (5 pts.)

𝑟(1−𝑝) 𝑟(1−𝑝)
Nota: 𝐸(𝑥) = ; 𝑉(𝑥) =
𝑝 𝑝2

a) 2 parámetros desconocidos  2 ecuaciones de momentos

𝑚´1 = 𝑥̅ (0,5 pts.)

𝑟(1−𝑝)
𝑀´1 = 𝐸(𝑥) = (0,5 pts.)
𝑝

𝑚2 = 𝑆 2 (0,5 pts.)

𝑟(1−𝑝)
𝑀2 = 𝑉(𝑥) = (0,5 pts.)
𝑝2

𝑚´1 = 𝑀´1

𝑚2 = 𝑀2

𝑟(1−𝑝)
𝑥̅ =
𝑝

𝑟(1−𝑝)
𝑆2 =
𝑝2

Despejando r y p se obtiene:

𝑥̅ 𝑥̅ 2
𝑝̂ = ; 𝑟̂ = Estimadores de p y r respectivamente (3 ptos. (Sin gorro - 0.5 pts por c/u))
𝑆2 𝑆 2 −𝑥̅

b) Considerando la muestra x = {0, 2, 1, 5, 4, 2, 3}, las estimaciones puntuales de los parámetros son:

𝑥̅ = 2,428

𝑆 2 = 2,53 (Observe que esta fórmula de varianza muestral considera la división por “n” grados de
libertad)

𝑥̅
𝑝̂ = =0,959 (2,5 pts.) (Sin gorro - 0.5 pts)
𝑆2

𝑥̅ 2
𝑟̂ = =57,8 (2,5 pts.) (Sin gorro - 0.5 pts)
𝑆 2 −𝑥̅

3
Ingeniería Civil Industrial Facultad de Ingeniería y Ciencias Geológicas / Escuela de Ingeniería
Estadística Aplicada 2 2° Semestre 2017

3. (10 puntos) Sea X una variable aleatoria que sigue la distribución de probabilidad siguiente:

𝑓(𝑥; 𝜃) = (𝜃 + 1)𝑥 𝜃 , 𝑑𝑜𝑛𝑑𝑒 0 < 𝑥 ≤ 1

𝑓(𝑥; 𝜃) = 𝑜, en otro caso

a) Encuentre un estimador del parámetro θ, a través del método de máxima verosimilitud (5 pts.)
b) A partir de la distribución asintótica del MLE de θ y considerando la muestra aleatoria x = {0.7,
0.8, 0.5, 0.5, 0.4, 0.6, 0.3}, construya un intervalo de confianza aproximado con 95% de confianza
(𝑧𝛼/2 = 1,96) para el verdadero parámetro θ (5 pts.)

Nota: Varianza de la Cota de Crámer Rao:

1
𝜎2 =
𝑑 2 𝑙𝑛𝑓𝑥 (𝑋; 𝜃)
−𝑛𝐸[ ]
𝑑𝜃 2

a) Sea x1, x2,...,xn una m.a.s. que se distribuye según una función 𝑓(𝑥; 𝜃) (1 pto.)

𝐿(𝑥; 𝜃) = ∏ 𝑓(𝑥𝑖 ; 𝜃)
𝑖

𝐿(𝑥; 𝜃) = ∏ (𝜃 + 1)𝑥𝑖 𝜃
𝑖

𝐿(𝑥; 𝜃) = (𝜃 + 1)𝑛 ∏ 𝑥𝑖 𝜃 /ln()


𝑖

𝑙𝑛𝐿(𝑥; 𝜃) = 𝑛𝑙𝑛(𝜃 + 1) + ln(∏ 𝑥𝑖 𝜃 )


𝑖

(2 pts. desarrollo)
𝑛
𝑙𝑛𝐿(𝑥; 𝜃) = 𝑛𝑙𝑛(𝜃 + 1) + 𝜃 ∑ ln(𝑥𝑖 )
𝑖=1

dln L(x; 𝜃)
=0
d𝜃
𝑛
𝑛
+ ∑ ln(𝑥𝑖 ) = 0
(𝜃 + 1)
𝑖=1

Despejando 𝜃 se obtiene:
𝑛
𝜃̂= − ∑𝑛 −1 Estimador MLE de θ (2 pts. resultado. Sin gorro, -0,5 pts.)
𝑖=1 ln(𝑥𝑖 )

b) Un IC para este parámetro es:

𝜃̂ − 𝑧𝛼⁄2 𝜎𝜃̂ ≤ 𝜃 ≤ 𝜃̂ + 𝑧𝛼 ⁄2 𝜎𝜃̂

Cálculo de 𝜎𝜃̂ a partir de la cota de Crámer-Rao:

4
Ingeniería Civil Industrial Facultad de Ingeniería y Ciencias Geológicas / Escuela de Ingeniería
Estadística Aplicada 2 2° Semestre 2017

1
𝜎2 =
𝑑 2 𝑙𝑛𝑓𝑥 (𝑋; 𝜃)
−𝑛𝐸[ ]
𝑑𝜃 2
𝑑 2 𝑙𝑛𝑓𝑥 (𝑋;𝜃) −1 1 (𝜃+1)2
=  𝜎2 = −1  𝜎2 = (1 pto.)
𝑑𝜃 2 (𝜃+1)2 −𝑛𝐸[ ] 𝑛
(𝜃+1)2

̂ +1)2
(𝜃
Por propiedad de invarianza  √𝜎̂ 2 = √
𝑛

Evaluando con la muestra aleatoria:

𝜃̂ = 0,52 (1 pto.)

𝜎𝜃̂ = 0,57

𝑧𝛼/2 = 1,96 (dato)

𝜃̂ − 𝑧𝛼⁄2 𝜎𝜃̂ ≤ 𝜃 ≤ 𝜃̂ + 𝑧𝛼⁄2 𝜎𝜃̂

0,52 − 1,96 ∗ 0,57 ≤ 𝜃 ≤ 0,52 + 1,96 ∗ 0,57

Luego, el IC para 𝛉 a un 95% de confiabilidad es: −𝟎, 𝟔𝟏 ≤ 𝜽 ≤ 𝟏, 𝟔𝟓 (3 pts.)

5
Ingeniería Civil Industrial Facultad de Ingeniería y Ciencias Geológicas / Escuela de Ingeniería
Estadística Aplicada 2 2° Semestre 2017

Prueba de Cátedra N°1 (Parte II)

RUT: Nombre y Apellido: PAUTA

Importante: Para responder los problemas 4 y 5 descargue el archivo “BaseDeDatosPrueba1.xlsx” y


responda por escrito en la hoja de respuesta, a menos que se indique lo contrario. A modo de respaldo cree un
archivo Excel que contenga el tratamiento de los datos y los principales pantallazos de Minitab. Este archivo
deberá subirlo a la plataforma EDUCA sección Trabajos en el plazo indicado, luego de lo cual deberá apagar
su computador.

4. (20 puntos) El Índice de Desarrollo Humano (IDH) es una medida sinóptica del desarrollo humano
ideado por el Programa de Naciones Unidas para el Desarrollo (PNUD). Mide tres dimensiones
básicas del desarrollo humano: Índice de esperanza de Vida (IEV), Índice de Educación (IE) e Índice
del Producto Interno Bruto (IPIB).
La fórmula que determina el IDH es la siguiente:
1 1 1
𝐼𝐷𝐻 = 𝐼𝐸𝑉 + 𝐼𝐸 + 𝐼𝑃𝐼𝐵
3 3 3
Para determinar cada uno de los índices descritos, se debe calcular con las fórmulas indicadas a
continuación:
𝐸𝑠𝑝𝑒𝑟𝑎𝑛𝑧𝑎 𝑑𝑒 𝑉𝑖𝑑𝑎 𝑎𝑙 𝑁𝑎𝑐𝑒𝑟 − 𝑀í𝑛𝑖𝑚𝑎 𝑒𝑠𝑝𝑒𝑟𝑎𝑛𝑧𝑎 𝑑𝑒 𝑉𝑖𝑑𝑎 𝑎𝑙 𝑁𝑎𝑐𝑒𝑟
𝐼𝐸𝑉 =
𝑀á𝑥𝑖𝑚𝑎 𝑒𝑠𝑝𝑒𝑟𝑎𝑛𝑧𝑎 𝑑𝑒 𝑉𝑖𝑑𝑎 𝑎𝑙 𝑁𝑎𝑐𝑒𝑟 − 𝑀í𝑛𝑖𝑚𝑎 𝑒𝑠𝑝𝑒𝑟𝑎𝑛𝑧𝑎 𝑑𝑒 𝑉𝑖𝑑𝑎 𝑎𝑙 𝑛𝑎𝑐𝑒𝑟
2 𝑇𝑎𝑠𝑎 𝑑𝑒 𝐴𝑙𝑓𝑎𝑏𝑒𝑡𝑖𝑧𝑎𝑐𝑖ó𝑛 1 𝑇𝑎𝑠𝑎 𝑑𝑒 𝑀𝑎𝑡𝑟𝑖𝑐𝑢𝑙𝑎𝑐𝑖ó𝑛
𝐼𝐸 = ( )+ ( )
3 100 3 100
𝑙𝑜𝑔(𝑃𝐼𝐵 𝑝𝑒𝑟 𝐶á𝑝𝑖𝑡𝑎) − log(100)
𝐼𝑃𝐼𝐵 =
log(𝑀𝑎𝑥𝑖𝑚𝑜 𝑃𝐼𝐵) − log(100)
El indicador IDH tiene un rango de 0 a 1, siendo 1 una nación que tiene un muy buen desarrollo
humano. Los rangos que se pueden encontrar son: IDH bajo (inferior a 0.5), medio (de 0.5 a 0.8,
ambos inclusive) y alto (más de 0.8).
La teoría dice que el Gasto Público en Salud y en el Gasto Público en Educación influyen
directamente en el cambio que tenga el IDH, es por este motivo que se le solicita:
a) Estime un modelo de regresión lineal entre el IDH de una nación y los Gastos en Salud y en
Educación, para las zonas geográficas de Suramérica, África y Europa por separado. Analice la
calidad y significancia de los modelos obtenidos individualmente. Justifique estadísticamente. (5
pts.)
b) Tomando en cuenta el mejor modelo de regresión obtenido en a) pruebe el supuesto de
independencia de los residuos, a partir de la prueba de Durbin Watson. Considere un nivel de
significancia del 5%. (5 pts.)
c) ¿Cuáles son las unidades de medida de los i calculados?, utilizando el modelo de Europa,
interprete el significado de los i calculados. (5 pts.)
d) En Chile ha existido estos últimos años presión popular para aumentar el gasto en Educación.
Esta demanda muy sentida por la población no se ha reflejado con la misma intensidad para la
Salud. Se le solicita que estime un nuevo modelo de regresión lineal para los países con el
mismo rango de IDH de Chile (IDH Alto). Comente la validez del modelo obtenido. Determine
entonces un intervalo de pronóstico para el futuro IDH que tendría Chile si mantiene el Gasto
Público en Salud, pero incurre en un 20% de aumento de Gasto en Educación. Considere un
nivel de significancia del 5%. (5 pts.)

6
Ingeniería Civil Industrial Facultad de Ingeniería y Ciencias Geológicas / Escuela de Ingeniería
Estadística Aplicada 2 2° Semestre 2017

Solución

a) Suramérica
IDH = 0.77 + 2.03*10-5 GPS +5.08*10-5 GPE
R2 = 0.838 R2 ajustado = 0.797 s= 0.023 n= 10 F = 20.63 (P= 0.0007)
0: t = 52.6 (P=0.0000); 1: t = 0,56 (P=0.5923); 2: t = 3.16 (P=0.0134);
El coeficiente de correlación indica que existe una alta relación entre IDH y los Gastos en Educación
y en Salud. El modelo es útil, ya que el valor P de la prueba Fisher es menor a 5% de significancia.
Las pruebas t indican que tanto el intercepto como el 2 que acompaña al gasto en educación son
significativos, sin embargo, la variable de gasto en salud no lo es, ya que la prueba P del estadístico t
indica que se debería no rechazar Ho: 1=0

Europa
IDH = 0.86 + 1.59*10-5 GPS +1.42*10-5 GPE
R2 = 0.662 R2 ajustado = 0.616 s= 0.022 n= 18 F = 14.65 (P= 0.0003)
0: t = 91.55 (P=0.0000); 1: t = 1.73 (P=0.1037); 2: t = 1.87 (P=0.0819);
El coeficiente de correlación indica que existe una relación media entre IDH y los Gastos en
Educación y en Salud. El modelo es útil, ya que el valor P de la prueba Fisher es menor a 5% de
significancia.
Las pruebas t indican que tanto el intercepto 0 es significativo, pero los gastos en Salud y Educación
no son significativos presumiblemente debido al coeficiente de variación superior al 70%

África
IDH = 0.37 + 78,9*10-5 GPS +10.3*10-5 GPE
R2 = 0.557 R2 ajustado = 0.527 s= 0.136 n= 33 F = 18.86 (P= 0.0000)
0: t = 11,13 (P=0.0000); 1: t = 2.72 (P=0.011); 2: t = 0.91 (P=0.3687);
El coeficiente de correlación indica que existe una relación media baja entre IDH y los Gastos en
Educación y en Salud. El modelo es útil, ya que el valor P de la prueba Fisher es menor a 5% de
significancia.
Las pruebas t indican que tanto el intercepto como el 2 que acompaña al gasto en salud son
significativos, sin embargo, la variable de gasto en educación no lo es, ya que la prueba P del
estadístico t indica que se debería no rechazar Ho: 2=0

b) El modelo que representa a los países de América tiene un mejor ajuste que el de África debido a que
el coeficiente de correlación es mayor en los en los primeros y además tiene un error estándar menor.
Durbin-Watson statistic = 2,30185
n = 10 -> dL = 0 .697 dU = 1.641
Dado que d > dU, NO se rechaza H0:  = 0

c) El IDH es un indicador sin unidad de medida, recordemos que este indicador va de 0 a 1. Respecto a
las unidades de medida de cada uno de los i se concluye:
 0: Sin unidad de medida
 1 y 2: Ambos acompañan a los Gasto público en Salud y Educación que están medidos en
USD por persona, por lo que su unidad de medida debe ser personas/USD.

7
Ingeniería Civil Industrial Facultad de Ingeniería y Ciencias Geológicas / Escuela de Ingeniería
Estadística Aplicada 2 2° Semestre 2017

d) El IDH de Chile es alto, por lo que se debe realizar una regresión lineal entre los países con éste
IDH.
IDH = 0.84 + 2.37*10-5 GPS +1.11*10-5 GPE
R2 ajustado = 0.587 s= 0.027 n= 43 F = 30.81 (P= 0.0000)
0: t = 127.98 (P=0.0000); 1: t = 3.17 (P=0.0029); 2: t = 2.79 (P=0.0081);

Indicadores Actuales para Chile: IDH: 0.92. Gasto en Salud= 1017.73. Gasto Educación: 2573.01
Un aumento sólo del Gasto de Educación del 20% indica que este gasto será de 3087.61.

Si aplicamos los actuales valores en el modelo nos entrega un IDH de 0.89, lo que es diferente al
actual IDH, el motivo de la diferencia es debido a que el IDH no depende directamente de los gastos
indicados.

8
Ingeniería Civil Industrial Facultad de Ingeniería y Ciencias Geológicas / Escuela de Ingeniería
Estadística Aplicada 2 2° Semestre 2017

5. (10 puntos) En Chile, como se comentó en la pregunta anterior, existe una necesidad sentida en
educación, sin embargo, se cree que esta necesidad ha sido alimentada básicamente por los
liderazgos estudiantiles en la política nacional.
a) Considerando el Gasto Público en Educación de cada nación, determine si dichos datos se
distribuyen de forma Normal o Exponencial, utilizando la prueba de Anderson-Darling.
Considere un nivel de significancia de 2.5%. (8 pts.)
b) Respecto a la respuesta encontrada en a), explique ¿Cuál es el significado de que este gasto se
distribuya de esa manera, dado el contexto de la problemática en estudio? (2 pts.)

Nota: Cree un archivo Excel con el desarrollo del test y responda en la hoja sus conclusiones.

     ln 1  Fˆ  X   n
n
 (2i  1) ln Fˆ X i   n 1i 
An2  i 1

Solución

a) Aplicando las Pruebas de Bondad de ajuste

i
Gasto
N° Gasto Público CDF Teórica
Público CDF Teórica (F^(Xi)) Ln F^ Componente 1 Componente 2
Obs. Z -> A (F^(X(n+1-i))

      
A -> Z

1 Gasto =DISTR.NORM.N(Gasto;m;s;1) 
ln Fˆ X i   Gasto =DISTR.NORM.N(Gasto;m;s;1)   
ln 1  Fˆ X  n 1i  (2i  1) ln Fˆ X i   ln 1  Fˆ X  n1i 

1 Gasto =DISTR.EXP.N(Gasto ;1/m ; 1)



ln Fˆ X i   Gasto =DISTR.EXP.N(Gasto ;1/m ; 1)
ln 1  Fˆ  X 
 n 1i  (2i  1)  ln  Fˆ  X    ln 1  Fˆ  X
i  
 n 1i 

Distribución Normal Distribución Exponencial


An2 7,5476 1,4413
Test Ajustado 7,8630 1,4510

Se concluye que los datos se distribuyen exponencialmente al 2.5% de significancia


b) Los gastos se distribuyen de esta manera ya que los países tienen distintas realidades y por lo tanto
los países no gastan su dinero en el ítem educación acorde a un promedio y con alguna variación
respecto a esta media como ocurriría en el caso de una distribución normal, sino que el gasto en
educación es proporcional a la cantidad de dinero (PIB) con el que cuenta el país, de este modo, a
medida que un país tiene mayores recursos, incurrirá en mayores gastos en este ítem.

También podría gustarte