Está en la página 1de 8

Henry Andrés Gómez Ramírez – Cod: 2150148

Prueba 2 Métodos Cuantitativos (Estadística).


Maestría Economía y Desarrollo. UIS.
1. Un estudio realizado durante 10 años por la Asociación de Cardiología proporcionó
datos sobre la relación que guardan la edad, la presión sanguínea y el hábito de fumar
sobre el riesgo de sufrir un infarto. Los datos que se listan a continuación se obtuvieron
como parte de este estudio. El Riesgo se interpreta como la probabilidad (multiplicada
por 100) de que el paciente sufra un infarto en los próximos 10 años. Para la variable
Fumar defina una variable ficticia que tome los valores 1 si el individuo es fumador y 0
si no lo es.
a) Obtenga la ecuación de regresión estimada que relacione el riesgo de infarto con la
edad, la presión sanguínea y si la persona fuma o no.

A través de la regresión corrida en el programa Stata, se observa que los coeficientes de


dicha relación arrojan los siguientes resultados:
. reg Riesgo Edad Presion Fumar

Source SS df MS Number of obs = 50


F(3, 46) = 111.43
Model 9016.64231 3 3005.54744 Prob > F = 0.0000
Residual 1240.73769 46 26.9725585 R-squared = 0.8790
Adj R-squared = 0.8712
Total 10257.38 49 209.334286 Root MSE = 5.1935

Riesgo Coef. Std. Err. t P>|t| [95% Conf. Interval]

Edad 1.101154 .0930894 11.83 0.000 .9137744 1.288533


Presion .2522759 .025698 9.82 0.000 .2005485 .3040032
Fumar 7.831979 1.685143 4.65 0.000 4.439963 11.22399
_cons -93.14607 8.487547 -10.97 0.000 -110.2306 -76.06153

Dichos estimadores arrojan la siguiente ecuación de regresión

Y i=−93.15+1.10 X 1 i+ 0.25 X 2i +7.83 X 3 i +ε i


Donde:

Y i=¿ Riesgo de sufrir una enfermedad cardiovascular de un paciente i en los próximos 10


años.
X 1 i=¿Años cumplidos del individuo i.
X 2 i=¿ Nivel de presión arterial del individuo i.
X 3 i =¿ Variable dummy que indica 1 si el individuo i fuma y cero sí no.
ε i=¿Término de error estocástico.

b) ¿Fumar es un factor significativo para el riesgo de infarto? Explique.

En el caso de la regresión corrida en la tabla anterior el hecho de que alguien fume tiene un
efecto significativo, ya que, en la realización de la prueba de hipótesis de su estimador, este
en la distribución estadísticamente toma un valor diferente a cero. (t-valor>valor crítico y
p-valor<α)
c) ¿Cuál es la probabilidad de que Juan sufra un infarto en la próxima década si tiene
68 años, fuma y su presión sanguínea es de 175? ¿Qué recomendará el médico a
este paciente?

La probabilidad de que Juan sufra el infarto está dada por la ecuación dada en el punto a:

Y i=−93.15+1.10∗68+0.25∗175+7.83∗1+0
Y i=−93.15+126.38
Y i=3 3.23
Este resultado establece que Juan, con sus condiciones de hábitos que lo caracterizan, tiene
una probabilidad de tener un ataque al corazón aproximado del 33.23% Dicho médico
podría recomendarle dos cosas al paciente, como primera y algo más al alcance de sus
decisiones, es la posibilidad de que deje de fumar, ya que esto reduciría su riego de sufrir
un infarto cerca de un 25% de su riesgo incial. Como segundo, le podría recomendar un
chequeo para revisar las causas de su nivel de tensión, y a su vez poder identificar si este
puede reducir, inclusive, el identificar si el fumar puede incidir en este (inclusive teniendo
en cuenta que en la regresión no existe autocorrelación entre estas dos variables)

d) Estimar dos regresiones, una para fumadores y otra para no fumadores. Comparar
resultados.

-> Fumar = 0

Source SS df MS Number of obs = 25


F(2, 22) = 10.46
Model 819.878424 2 409.939212 Prob > F = 0.0006
Residual 862.361576 22 39.1982534 R-squared = 0.4874
Adj R-squared = 0.4408
Total 1682.24 24 70.0933333 Root MSE = 6.2609

Riesgo Coef. Std. Err. t P>|t| [95% Conf. Interval]

Edad .9826649 .2182156 4.50 0.000 .5301135 1.435216


Presion .2074554 .0554743 3.74 0.001 .0924088 .3225019
_cons -78.65751 21.16452 -3.72 0.001 -122.55 -34.765

-> Fumar = 1

Source SS df MS Number of obs = 25


F(2, 22) = 126.55
Model 3876.40339 2 1938.20169 Prob > F = 0.0000
Residual 336.956615 22 15.3162098 R-squared = 0.9200
Adj R-squared = 0.9128
Total 4213.36 24 175.556667 Root MSE = 3.9136

Riesgo Coef. Std. Err. t P>|t| [95% Conf. Interval]

Edad 1.103637 .0874591 12.62 0.000 .9222574 1.285016


Presion .2787459 .0261165 10.67 0.000 .2245837 .3329081
_cons -89.77052 7.992277 -11.23 0.000 -106.3455 -73.19555

Corriendo dos modelos separados por la característica de fumador nos arrojan resultados
más claros y diferenciados en los términos del riesgo de sufrir infarto. A nivel general,
ambos modelos son estadísticamente significativos a un 99.9% sin embargo uno parece
arrojar mayor nivel de explicación debido al R2 (el modelo de los fumadores, aunque puede
estar dado debido a una relación espuria en el número de observaciones).

Sin embargo, se observa que todas las variables son significativas al 99.9% como se
observa una clara mayor magnitud en el valor de las estimaciones del modelo regresado
para los fumadores, lo que puede indicar, de acuerdo a lo hablado por expertos que el hecho
de ser fumador aumenta la probabilidad de sufrir enfermedades de este tipo en comparación
de quienes no lo hacen.

2. Problema de una empresa que se dedica al transporte de objetos y mercancías. Su


actividad principal es hacer entregas en su área local. Para mejorar el horario de trabajo,
los gerentes desean estimar el tiempo total de recorrido diario necesario para efectuar
las entregas. Al principio, los gerentes creyeron que el tiempo total de recorrido diario
estaba estrechamente relacionado con el número de Km recorridos para realizar las
entregas Los gerentes consideraron que, para describir la relación entre tiempo total de
recorrido en horas y el número de Km recorridos, podía emplearse el modelo de
regresión lineal simple. Al tratar de identificar otras variables explicativas, los gerentes
encontraron que el número de entregas podía contribuir también a explicar la duración
total del recorrido
a) Obtenga la ecuación de regresión estimada que relacione el tiempo total de
recorrido diario con el número de Km recorridos para realizar las entregas.
. reg TiempoViaje RecorridoKm

Source SS df MS Number of obs = 31


F(1, 29) = 63.87
Model 53.4691115 1 53.4691115 Prob > F = 0.0000
Residual 24.2792755 29 .837216398 R-squared = 0.6877
Adj R-squared = 0.6770
Total 77.7483871 30 2.5916129 Root MSE = .915

TiempoViaje Coef. Std. Err. t P>|t| [95% Conf. Interval]

RecorridoKm .0690298 .0086378 7.99 0.000 .0513634 .0866961


_cons 1.163777 .7021677 1.66 0.108 -.2723167 2.599872

De acuerdo a la regresión la ecuación toma la siguiente forma:

Y i=1.164 +0.069 X 1 i +ε i
Dónde:

Y i=¿ Tiempo de recorrido en horas en la ruta del conductor i.


X 1 i=¿Número de kilómetros que abarca la ruta i.
ε i=¿ Término de error estocástico.
b) Obtenga la ecuación de regresión estimada que relacione el tiempo total de
recorrido diario con el número de Km recorridos para realizar las entregas. y el
número de entregas realizadas.
. reg TiempoViaje RecorridoKm Entregas

Source SS df MS Number of obs = 31


F(2, 28) = 143.24
Model 70.8262113 2 35.4131057 Prob > F = 0.0000
Residual 6.92217576 28 .247220563 R-squared = 0.9110
Adj R-squared = 0.9046
Total 77.7483871 30 2.5916129 Root MSE = .49721

TiempoViaje Coef. Std. Err. t P>|t| [95% Conf. Interval]

RecorridoKm .0607515 .0047967 12.67 0.000 .0509259 .070577


Entregas .9185348 .1096224 8.38 0.000 .6939835 1.143086
_cons -.8190536 .4489853 -1.82 0.079 -1.738758 .1006511

La ecuación tiene la siguiente forma:

Y i=−0.819+0. 0 6075 X 1i + 0.9185 X 2i + ε i


Dónde:

Y i=¿ Tiempo de recorrido en horas en la ruta del conductor i.


X 1 i=¿ Número de kilómetros que abarca la ruta i.
X 2 i=¿ Número de entregas a realizar en la ruta i.
ε i=¿ Término de error estocástico.

c) Estimar el tiempo de viaje para un conductor que recorre 95 Km para realizar tres
entregas.

Debido a la ecuación dada en el punto c, la estimación para estas características es la


siguiente:

Y i=−0.819+0. 0 6075∗95+ 0.9185∗3+ 0


Y i=−0.819+8.52675
Y i=7.71
Debido a las condiciones, un conductor con una distancia de 95 km de su ruta, y con la
obligación de realizar tres entregas, deberá tardarse en su recorrido, 7.7 hrs en promedio.

3. Una empresa vende sus productos en varios territorios, cada uno de los cuales está
asignado a un representante de ventas. Se realizó el análisis de regresión para
determinar si diversas variables independientes podrían explicar las ventas en cada
territorio. Se dispone de una muestra aleatoria de 50 territorios de ventas.

Variable Definición
 Ventas Total de ventas acreditadas al representante de ventas
 Antigüedad Antigüedad del empleado en meses
 Potencial Mercado Ventas industriales totales en unidades en el territorio de
ventas
 GastosPublicidad Gastos de publicidad en el territorio de ventas
 Participación Promedio de participación en el mercado de los últimos cuatro años
 Cuentas Cuentas asignadas a los representantes de ventas
 Trabajo Carga de trabajo: índice basado en compras anuales
 Raiting Evaluación general del representante de ventas (escala de 1-7)

a) Estimar la matriz de correlación simple entre las variables descritas. Comentar

. pwcorr Ventas - Rating, star(0.1)

Ventas Antigü~d Potenc~l GastoP~l Partic~n Cuentas Trabajo

Ventas 1.0000
Antigüedad 0.6070* 1.0000
Potencial 0.5825* 0.4299* 1.0000
GastoPubl 0.6294* 0.2737* 0.2012 1.0000
Participac~n 0.5519* 0.1628 -0.1717 0.3260* 1.0000
Cuentas 0.7415* 0.7348* 0.4627* 0.2250 0.4407* 1.0000
Trabajo -0.0273 -0.0882 -0.1844 -0.2310 0.3141* -0.1691 1.0000
Rating 0.3380* 0.0268 0.3037* 0.3531* 0.0407 0.2027 -0.2082

Rating

Rating 1.0000

Cuando realizamos la matriz de correlaciones podemos identificar una serie de relaciones


interesantes. Respecto a las ventas, que podría ser nuestra variable de más interés, se
observa que existe una relación positiva respecto a casi todas las variables, contrario a lo
que uno creería, La existencia de una carga de trabajo en los temas de la compra reduce las
ventas del vendedor en el territorio, aunque cabe resaltar que dicha relación es la única que
no es significativa al 10% respecto a las ventas.

Esta correlación negativa del trabajo se mantiene respecto a la mayoría de las otras
variables, solo siendo positiva respecto a la participación de la empresa en el mercado
durante los años. La matriz de correlaciones muestra una fuerte y significativa correlación
(0.7348) entre la variable Antigüedad y Cuentas, lo que puede verse incidido en la
regresión que se plantee para determinar los efectos respecto a las ventas, teniendo en
cuenta esto, es más clara una correlación mayor de las “cuentas” respecto a las ventas que
la misma antigüedad respecto a la variable de interés, esto puede ayudar a determinar la
ecuación de regresión del siguiente punto.
b) Obtenga la ecuación de regresión estimada que relacione las ventas territoriales con
algunas o todas las variables descritas, y que mejor explique el comportamiento de esas
ventas.

Luego de la realización de diferentes modelos, se llegó a dos posibles que cumplían con las
condiciones de MCO como con un nivel de significancia adecuado de modelo y de sus
variables. Luego de correr diferentes intentos la mejor ecuación de regresión múltiple está
dada por las siguientes relaciones:

Y i=−1517.79+ 0.040 X 1 i+ 0.17 X 2i +217 . 06 X 3 i +8 . 38 X 4 i + ε i

Dónde:

Y i=¿ Es el nivel de ventas de la empresa (unidades no especificadas) del territorio i


X 1 i=¿ Es el número de ventas industriales totales en unidades en el territorio i de ventas
X 2 i=¿ Es el nivel de gastos de publicidad en el territorio de ventas (unidades de medición
no especificadas) en el territorio i
X 3 i =¿ Promedio de participación en el mercado de los últimos cuatro años en el territorio i
X 4 i=¿ Son las cantidades de cuentas asignadas a los representantes de ventas
ε i=¿ Término de error estocástico

c) Explicar el procedimiento seguido para estimar la ecuación de regresión múltiple.

El procedimiento para llegar a esta ecuación se dio de la siguiente forma. Para comenzar se
realizó una regresión que incluyera a todas las variables involucradas en la base, dicha
orden en el programa arrojó un cuadro de resultados donde a nivel general, el modelo es
significativo estadísticamente, sin embargo, al revisar sus variables a nivel individual, tres
de ellas cero estadísticamente al 10% (Antigüedad, Trabajo y Rating) y una que es
significativa después del 5% (Cuentas).
. reg Ventas Antigüedad- Rating

Source SS df MS Number of obs = 50


F(7, 42) = 64.96
Model 81671457.2 7 11667351 Prob > F = 0.0000
Residual 7543984.6 42 179618.681 R-squared = 0.9154
Adj R-squared = 0.9013
Total 89215441.8 49 1820723.3 Root MSE = 423.81

Ventas Coef. Std. Err. t P>|t| [95% Conf. Interval]

Antigüedad 1.645745 1.263342 1.30 0.200 -.903782 4.195272


Potencial .0378859 .0055663 6.81 0.000 .0266527 .0491191
GastoPubl .169577 .030506 5.56 0.000 .1080134 .2311405
Participacion 205.1644 45.08069 4.55 0.000 114.1879 296.1409
Cuentas 6.867946 3.049406 2.25 0.030 .7139964 13.0219
Trabajo 28.96823 24.07949 1.20 0.236 -19.62616 77.56261
Rating 54.14892 78.6246 0.69 0.495 -104.5219 212.8198
_cons -2024.996 514.9501 -3.93 0.000 -3064.207 -985.7846

Teniendo en cuenta la matriz de correlaciones mostrada anteriormente, se pudo inferir que


la variable cuentas y antigüedad podían estar teniendo autocorrelación, por lo que una de
las medidas para ver si mejoraba el modelo fue correr dos modelos quitando alguna de las
dos (acompañadas de las variables Trabajo y Rating, que previamente no están tan
correlacionadas a la variable ventas o no son significativas). Dichos modelos arrojaron
modelos de regresión significativos globalmente (por la prueba F) y a nivel de todas las
variables, como arrojaron niveles de bondad de ajuste ( R2) bastante fuertes (por encima de
0.9) y con los niveles más bajos posibles de residuo al cuadrado. Revisando ambos
modelos, optamos por elegir el que agrega como variable independiente la variable
“cuentas” debido a que tiene un poco más de poder de explicación (por su R2) y por el error
cuadrado un poco más bajo. La base para esta elección se da debido a que en ambos
modelos los signos y magnitudes no difieren mucho, entonces la decisión de elección se da
en términos de variación estadística más que un interés de explicación específico.
. reg Ventas Potencial GastoPubl Participacion Cuentas

Source SS df MS Number of obs = 50


F(4, 45) = 108.47
Model 80831614.5 4 20207903.6 Prob > F = 0.0000
Residual 8383827.25 45 186307.272 R-squared = 0.9060
Adj R-squared = 0.8977
Total 89215441.8 49 1820723.3 Root MSE = 431.63

Ventas Coef. Std. Err. t P>|t| [95% Conf. Interval]

Potencial .0398245 .0054062 7.37 0.000 .0289359 .0507131


GastoPubl .1703619 .0247149 6.89 0.000 .1205836 .2201402
Participacion 217.0614 34.38306 6.31 0.000 147.8104 286.3125
Cuentas 8.377225 1.902027 4.40 0.000 4.546346 12.20811
_cons -1517.79 282.3095 -5.38 0.000 -2086.391 -949.1897

. reg Ventas Antigüedad Potencial GastoPubl Participacion

Source SS df MS Number of obs = 50


F(4, 45) = 103.67
Model 80481913 4 20120478.3 Prob > F = 0.0000
Residual 8733528.75 45 194078.417 R-squared = 0.9021
Adj R-squared = 0.8934
Total 89215441.8 49 1820723.3 Root MSE = 440.54

Ventas Coef. Std. Err. t P>|t| [95% Conf. Interval]

Antigüedad 3.534947 .8619297 4.10 0.000 1.798931 5.270963


Potencial .0456553 .0048608 9.39 0.000 .0358651 .0554455
GastoPubl .1470104 .025312 5.81 0.000 .0960294 .1979914
Participacion 281.5245 29.01659 9.70 0.000 223.0821 339.9669
_cons -1392.471 293.57 -4.74 0.000 -1983.751 -801.1908

También podría gustarte