Está en la página 1de 8

UNIVERSIDAD NACIONAL DE CAJAMARCA

FACULTAD DE CIENCIAS ECONÓMICAS, CONTABLES Y


ADMINISTRATIVAS
ESCUELA PROFESIONAL DE ECONOMÍA

“Modelo de regresión con variables dicotómicas, Anova - Ancova”


DOCENTE :
GAITÁN GUERRA, LUIS

ESTUDIANTES :
CHÁVEZ BURGA, LIHMI FRANCISCO
COTRINA HUAMÁN, CÉSAR ALBERTO
VARGAS REQUENA, FRANK OMAR

CÁTEDRA:
ECONOMETRÍA II
Cajamarca – Perú
Modelos ANOVA y ANCOVA para el caso de la Covid19 en el Perú
El Perú fue uno de los países más afectados por la Covid19, el gobierno a través del
Ministerio de Economía y Finanzas ha destinado recursos importantes para reducir el
impacto de la COVID-19.
Por tanto, teniendo en cuenta todo este despliegue de recursos económicos destinados a
la emergencia sanitaria, se tiene interés en conocer si existen diferencias significativas
entre las tres regiones del Perú, respecto al número de contagios y el número de fallecidos
por Covid19.
Así, teniendo en cuenta lo anterior, en el presente trabajo se desarrollarán un modelo
ANOVA y un modelo ANCOVA.

I. ANOVA
1. Planteamiento de la teoría o de la hipótesis.
Pregunta de investigación: ¿Es el resultado de la Covid19 en términos de fallecidos, en
las regiones del Perú similar?
Hipótesis nula e hipótesis alternativa
H0: μ1 = μ2 = μ3 ; El número de fallecidos por Covid19 en las tres regiones del Perú son
similares.
H1: μ1 ≠ μ2 ≠ μ3 ; El número de fallecidos por Covid19 en las regiones del Perú son
diferentes.

2. Especificación del modelo matemático de la teoría.


𝒀 𝒊 = 𝜷𝟎 + 𝜷𝟏 𝑫 𝟏 + 𝜷𝟐 𝑫 𝟐

3. Especificación del modelo econométrico o estadístico de la teoría.


El modelo econométrico propuesto es el siguiente:
𝒀 𝒊 = 𝜷𝟎 + 𝜷 𝟏 𝑫 𝟏 + 𝜷𝟐 𝑫 𝟐 + 𝒖

Dónde:
Y, representa el número de fallecidos para cada región del Perú.
𝜷𝟎 = Valor promedio de los fallecidos de la costa.

D1 = 1 si se trata de la región selva.


= 0 para cualquier otra región.
D2 = 1 si se trata de la región sierra.
= 0 para cualquier otra región.
4. Obtención de datos.
Para probar la hipótesis planteada, se han obtenido datos del portal de datos abiertos del
MINSA, datos respecto al número de fallecidos por departamento, para luego agruparlos
en las tres regiones del Perú (Costa, Sierra y Selva).

DEPARTAMENTO REGION CONTAG FALL


ANCASH COSTA 123686.00 7044
AREQUIPA COSTA 210996.00 10161
CALLAO COSTA 145963.00 10437
ICA COSTA 103025.00 8868
LA LIBERTAD COSTA 145723.00 10845
LAMBAYEQUE COSTA 104743.00 9185
LIMA COSTA 1595657.00 92451
MOQUEGUA COSTA 47991.00 1603
PIURA COSTA 156632.00 12965
TACNA COSTA 53474.00 2108
TUMBES COSTA 26991.00 1680
AMAZONAS SELVA 43593.00 1331
LORETO SELVA 57704.00 4364
MADRE DE DIOS SELVA 17670.00 834
SAN MARTIN SELVA 61711.00 3122
UCAYALI SELVA 39334.00 3223
APURIMAC SIERRA 38437.00 1608
AYACUCHO SIERRA 47754.00 2298
CAJAMARCA SIERRA 95301.00 4408
CUSCO SIERRA 115962.00 5093
HUANCAVELICA SIERRA 25351.00 1254
HUANUCO SIERRA 51625.00 2846
JUNIN SIERRA 124761.00 7385
PASCO SIERRA 23782.00 1082
PUNO SIERRA 64903.00 4667

5. Estimación de los parámetros del modelo econométrico.

𝒀𝒊 = 𝜷𝟎 + 𝜷𝟏 𝑫𝟏 + 𝜷𝟐 𝑫𝟐 + 𝒆
𝒀𝒊 = 𝟏𝟓𝟐𝟏𝟑. 𝟑𝟔 − 𝟏𝟐𝟔𝟑𝟖. 𝟓𝟔(𝑺𝒆𝒍𝒗𝒂) − 𝟏𝟏𝟖𝟎𝟖. 𝟖𝟏(𝑺𝒊𝒆𝒓𝒓𝒂)
𝜷𝟎 = 𝟏𝟓𝟐𝟏𝟑. 𝟑𝟔, El número de fallecidos promedio por Covid19, en la región costa es
de 15213 aproximadamente.
𝜷𝟏 = 𝟏𝟐𝟔𝟑𝟖. 𝟓𝟔, el valor diferencial entre el número promedio de fallecidos por Covid19
de la región Selva con respecto al número promedio de fallecidos de la Región Costa es
de 2574.
𝜷𝟐 = 𝟏𝟏𝟖𝟎𝟖. 𝟖𝟏, el valor diferencial entre el número promedio de fallecidos por Covid19
de la región Sierra con respecto al número promedio de fallecidos de la Región Costa es
de 3404.
Interpretación:
Como muestran los resultados de esta regresión, el número medio de fallecidos de la
región costa es de casi 15213.36, el de la región selva es menor por cerca de 12638.56, y
respecto de la región sierra, es menor por cerca de 11808.81.
6. Pruebas de hipótesis.
Se tienen las siguientes hipótesis:
H0: μ1 = μ2 = μ3 ; El número de fallecidos por Covid19 en las tres regiones del Perú son
similares.
H1: μ1 ≠ μ2 ≠ μ3 ; El número de fallecidos por Covid19 en las regiones del Perú son
diferentes.
Como P-value (0.2514) > 0.05, se acepta hipótesis nula, por tanto, se concluye que el
número de fallecidos por Covid19 en las tres regiones del Perú son similares.

Hipótesis para los coeficientes

𝜷𝟏 , P-value = 0.195 > 0.05, el número de fallecidos por Covid19 en la región Selva y la
Región Costa son similares.

𝜷𝟐 , P-value = 0.148 > 0.05, el número de fallecidos por Covid19 en la región Sierra y la
Región Costa son similares.

II. ANCOVA
1. Planteamiento de la teoría o de la hipótesis.
Pregunta de investigación: ¿El número de contagiados y la región afectan al número de
fallecidos por Covid19 en el Perú?
Hipótesis nula e hipótesis alternativa
̂𝟏 = 𝜷
H0 , 𝜷 ̂𝟐 = 𝜷 ̂ 𝟑 = 𝟎, El número de contagios por Covid19 y la clasificación por
regiones no influyen en generar diferencias en el número de fallecidos por Covid19.
̂𝟏 ≠ 𝜷
H1 , 𝜷 ̂𝟐 ≠ 𝜷 ̂ 𝟑 ≠ 𝟎, El número de contagios por Covid19 y la clasificación por
regiones si influyen en generar diferencias en el número de fallecidos por Covid19.

2. Especificación del modelo matemático de la teoría.


𝒀 𝒊 = 𝜷𝟎 + 𝜷𝟏 𝑫 𝟏 + 𝜷𝟐 𝑫 𝟐

3. Especificación del modelo econométrico o estadístico de la teoría.


El modelo econométrico propuesto es el siguiente:
𝒀 𝒊 = 𝜷𝟎 + 𝜷𝟏 𝑫 𝟏 + 𝜷𝟐 𝑫 𝟐 + 𝜷 𝟑 𝑿 𝒊 + 𝒆

Donde:
Y, representa el número de fallecidos para cada región del Perú.
X, representa el número de contagiados para cada región del Perú.
D1 = 1 si se trata de la región selva.
= 0 para cualquier otra región.
D2 = 1 si se trata de la región sierra.
= 0 para cualquier otra región.

4. Obtención de datos.
Para probar la hipótesis planteada, se han obtenido datos del portal de datos abiertos del
MINSA, datos respecto al número de fallecidos y número de contagiados por
departamento, para luego agruparlos en las tres regiones del Perú (Costa, Sierra y Selva).

5. Estimación de los parámetros del modelo econométrico.


𝒀 𝒊 = 𝜷𝟎 + 𝜷𝟏 𝑫 𝟏 + 𝜷𝟐 𝑫 𝟐 + 𝜷𝟑 𝑿 𝒊 + 𝒆

𝒀𝒊 = 𝟏𝟎𝟔𝟎. 𝟒𝟏𝟕 − 𝟏𝟎𝟎𝟖. 𝟖𝟗𝟓(𝑺𝒆𝒍𝒗𝒂) − 𝟏𝟒𝟎𝟏. 𝟓𝟓𝟑(𝑺𝒊𝒆𝒓𝒓𝒂) +. 𝟎𝟓𝟕𝟑𝟒𝟒𝟏(𝑪𝑶𝑵𝑻𝑨𝑮)

En este caso tenemos un modelo con dos rectas paralelas (una por cada región) cuyas
ecuaciones de estimación vienen dadas por:
Región Costa: FALL (costa) = 𝟏𝟎𝟔𝟎. 𝟒𝟏𝟕+. 𝟎𝟓𝟕𝟑𝟒𝟒𝟏(𝑪𝑶𝑵𝑻𝑨𝑮)
Región Selva: FALL (selva) = 𝟏𝟎𝟔𝟎. 𝟒𝟏𝟕 − 𝟏𝟎𝟎𝟖. 𝟖𝟗𝟓 +. 𝟎𝟓𝟕𝟑𝟒𝟒𝟏(𝑪𝑶𝑵𝑻𝑨𝑮)
Región Selva: FALL (sierra) = 𝟏𝟎𝟔𝟎. 𝟒𝟏𝟕 − 𝟏𝟒𝟎𝟏. 𝟓𝟓𝟑 +. 𝟎𝟓𝟕𝟑𝟒𝟒𝟏(𝑪𝑶𝑵𝑻𝑨𝑮)
Se tiene una interceptación mayor para la región costa indicando que la recta asociada
con región está por encima de la de la región selva y sierra; o en otras palabras que el
número de fallecidos en la región costa es mayor al número de fallecidos en la región
selva y sierra.
Además, 𝜷𝟑 = . 𝟎𝟓𝟕𝟑𝟒𝟒𝟏, Si el número de contagios aumenta en 1000 personas, el
número de fallecidos aumenta en 57.
Por otro lado, el Adj R-squared = 0.9929, el modelo estimado tiene una buena bondad
de ajuste, puesto que la variación en las variables explicativas, explica el 99% de la
variación en la variable explicada.

6. Pruebas de hipótesis.
. Hipótesis:

H0, 𝜷̂𝟏 = 𝜷̂𝟐 = 𝜷 ̂ 𝟑 = 𝟎, El número de contagios por Covid19 y la clasificación por


regiones no influyen en generar diferencias en el número de fallecidos por Covid19.

H0, 𝜷̂𝟏 ≠ 𝜷̂𝟐 ≠ 𝜷 ̂ 𝟑 ≠ 𝟎, El número de contagios por Covid19 y la clasificación por


regiones si influyen en generar diferencias en el número de fallecidos por Covid19.
Prob > F = 0.00 < 0.05, se rechaza la hipótesis nula, por tanto, el número de contagios
por Covid19 y la clasificación por regiones si influyen en generar diferencias en el
número de fallecidos por Covid19.
. Hipótesis:
̂ 𝟑 = 𝟎, Los contagios no influyen de manera significativa sobre los fallecidos.
H0, 𝜷
̂ 𝟑 ≠ 𝟎, Los contagios si influyen de manera significativa sobre los fallecidos.
H1, 𝜷
Prueba de significancia:
𝜷𝟑 , P-value = 0.000 < 0.05, el número de contagiados por Covid19 en las regiones del
Perú, es significativo para explicar la variación en el número de fallecidos.

También podría gustarte