Está en la página 1de 48

UNIVERSIDAD NACIONAL DE SAN ANTONIO

ABAD DEL CUSCO


ESCUELA PROFESIONAL DE ECONOMIA

ESTADISTICA ECONÓMICA II

Dr. Guillermo Paucar C.


UNIDAD V
ANÁLISIS DE
REGRESIÓN LINEAL
SIMPLE

02/01/2023 2 Dr. Guillermo PAUCAR C-


ANÁLISIS DE REGRESIÓN

ANÁLISIS DE
REGRESIÓN
LINEAL

02/01/2023 3 Dr. Guillermo PAUCAR C-


ANÁLISIS DE REGRESIÓN

El análisis de las relaciones existentes entre dos o más variables


requiere en la mayoría de las ocasiones de tratamiento estadístico
debido a que:
• La estructura verdadera de la relación no es conocida
• No existe dependencia funcional exacta entre las variables
consideradas

REGRESIÓN: La regresión mide el grado de asociación


que se existe entre dos o más variables. Se mide con la
covarianza.

CORRELACIÓN: La correlación mide la fuerza con que


están asociadas dos o más variables. Se mide con el
coeficiente de correlación.

02/01/2023 4 Dr. Guillermo PAUCAR C-


ANÁLISIS DE REGRESIÓN
• Existe una relación funcional entre ellas, en el sentido de que el
conocimiento de las variables regresoras determina completamente
el valor que toma la variable respuesta, esto es,

• No exista ninguna relación entre la variable respuesta y las


variables regresoras, en el sentido de que el conocimiento de éstas
no proporciona ninguna información sobre el comportamiento de la
otra.

• Existe una relación estocástica entre la variable respuesta y las


variables regresores, en el sentido de que el conocimiento de éstas
permite predecir con mayor o menor exactitud el valor de la variable
respuesta. Por lo tanto, siguen un modelo de la forma,

02/01/2023 5 Dr. Guillermo PAUCAR C-


ANÁLISIS DE REGRESIÓN

• Modelos de regresión paramétricos. Se supone


que la función de regresión, m, que relaciona a la variable respuesta con
las variables regresoras pertenecen a una determinada familia
paramétrica:

Donde

Por ejemplo, podemos suponer la familia paramétrica lineal,

En este caso, el problema básico es estimar los parámetros de la familia


supuesta a partir de las observaciones muestrales.

02/01/2023 6 Dr. Guillermo PAUCAR C-


ANÁLISIS DE REGRESIÓN
Una vez estimadas estas funciones se tiene conocimiento de:

• La relación funcional de la variable respuesta con las variables


regresoras, dada por la función de regresión que se define como
sigue,

Esto permite tener una idea general del comportamiento de la


variable respuesta en función de las regresoras.

• Se puede estimar y predecir el valor de la variable respuesta de


un individuo del que se conocen los valores de las variables
regresoras. Esto es, de un individuo t se sabe que
, entonces se puede predecir el valor de Y, y calcular un
intervalo de predicción del mismo.

02/01/2023 7 Dr. Guillermo PAUCAR C-


ANÁLISIS DE REGRESIÓN

Según la forma de recogida muestral:


• Modelos de regresión de diseño fijo. En esos
modelos las variables regresoras son valores predeterminados.

• Modelos de regresión con diseño


aleatorio. En estos modelos las variables regresoras son
variables aleatorias. Se utiliza este modelo cuando se estudia
la relación entre la variable respuesta y las variables
regresoras a partir de una muestra obtenida de la observación
de las variables en unidades de experimentación elegidas al
azar. Esto es, el experimentador es un observador pasivo en la
recogida muestral y los resultados sólo serán válidos para el
rango de variación conjunta de las variables implicadas en el
estudio.
02/01/2023 8 Dr. Guillermo PAUCAR C-
ANÁLISIS DE REGRESIÓN

La resistencia del cemento depende del tiempo de secado del cemento.


En un experimento se obtuvo la resistencia de bloques de cemento con
diferente tiempo de secado los resultados fueron los de la tabla adjunta.
Analizar la relación entre dos variables.
Tiempo (días) Resistencia
(kg/cm2)
1 13.0, 13.3, 11.8
2 21.9, 24.5, 24.7
3 29.8, 28.0, 24.1, 24.2, 26.2

7 32.4, 30.4, 34.5, 33.1, 35.7

20 35.3, 32.2, 34.5, 35.5, 37.4

28 41.8, 42.6, 40.3, 35.7, 37.3


02/01/2023 9 Dr. Guillermo PAUCAR C-
ANÁLISIS DE REGRESIÓN

El siguiente conjunto de datos era tomado sobre grupos de


trabajadoras de Inglaterra y Galés en el período de 1970-1972.
Cada grupo está formado por trabajadores de la misma profesión
(médicos, decoradores, trabajadores textiles, ….., etc), en cada uno
de los veinticinco grupos muestreados se han observado dos
variables: el índice estandarizado de consumo de cigarrillos
(variable regresora, x) y el índice de muertes por cáncer de pulmón
(variable dependiente, y). Se desea estudiar la relación entre estas
dos variables.

x y x y x y x y x y x y
77 84 102 88 13 146 116 155 112 96 91 85
137 116 91 104 115 128 102 101 113 144 100 120
117 123 104 129 105 115 111 118 110 139 76 60
94 128 107 86 87 79 93 113 125 113 66 51
88 104
02/01/2023 10 Dr. Guillermo PAUCAR C-
ANÁLISIS DE REGRESIÓN

MODELO DE REGRESIÓN LINEAL SIMPLE


FORMULACIÓN MATEMÁTICA DEL MODELO

El modelo de regresión más sencillo es el modelo de regresión


lineal simple que estudia la relación lineal entre la variable
respuesta ( Y) y la variable regresora (X), a partir de una muestra
, que sigue el siguiente modelo:

Por tanto, es un modelo de regresión parmétrico de diseño fijo. En


forma matricial
02/01/2023 11 Dr. Guillermo PAUCAR C-
ANÁLISIS DE REGRESIÓN

02/01/2023 12 Dr. Guillermo PAUCAR C-


PROCESO DE ANÁLISIS DE REGRESIÓN

02/01/2023 13 Dr. Guillermo PAUCAR C-


ANÁLISIS DE REGRESIÓN

SUPUESTOS DE LA REGRESIÓN
LINEAL
Se supone que se verifican las siguientes hipótesis:
1. La función de regresión es lineal,

2. La varianza es constante (homocedasticidad),

02/01/2023 14 Dr. Guillermo PAUCAR C-


ANÁLISIS DE REGRESIÓN

3. La distribución es normal,

4. Las observaciones Y, son independientes. Bajo las


hipótesis de normalidad, esto equivale a que,

02/01/2023 15 Dr. Guillermo PAUCAR C-


ANÁLISIS DE REGRESIÓN

ESTIMACIÓN DE LOS PARÁMETROS DEL


MODELO

En el modelo de regresión lineal simple hay tres parámetros que se


deben estimar:

El cálculo de estimadores para estos parámetros puede hacerse por


diferentes métodos, siendo los más utilizados el método de máxima
verosimilitud y el método de mínimos cuadrados.

02/01/2023 16 Dr. Guillermo PAUCAR C-


ANÁLISIS DE REGRESIÓN

A la recta que relaciona X e Y se le llama recta de regresión y nos


describe cómo varía la media de una variable (dependiente) en
función de la otra (independiente)
DIAGRAMA DE DISPERSIÓN

02/01/2023 17 Dr. Guillermo PAUCAR C-


ANÁLISIS DE REGRESIÓN

02/01/2023 18 Dr. Guillermo PAUCAR C-


ANÁLISIS DE REGRESIÓN

ESTIMACIÓN DE PARAMETROS –
MÉTODO MÍNIMOS CUADRADOS

02/01/2023 19 Dr. Guillermo PAUCAR C-


ANÁLISIS DE REGRESIÓN
El objetivo de esta etapa es hallar estimadores de los
parámetros desconocidos , y obtener la ecuación de
predicción en base a los datos.

donde:
es el valor de y pronosticado por el modelo para un valor de x.

El modelo de la regresión lineal simple en términos de la muestra


aleatoria , es entonces:

02/01/2023 20 Dr. Guillermo PAUCAR C-


ANÁLISIS DE REGRESIÓN
La recta de regresión de mínimos cuadrados de Y en X
es aquella que hace mínima la suma de los cuadrados de
los errores (SCE) alrededor de la línea de regresión. Es
decir:

Derivando esta función SCE respecto a ,


se obtiene el sistema de ecuaciones:

02/01/2023 21 Dr. Guillermo PAUCAR C-


ANÁLISIS DE REGRESIÓN

Resolviendo, este sistema lineal se obtiene:

02/01/2023 22 Dr. Guillermo PAUCAR C-


ANÁLISIS DE REGRESIÓN
OBSERVACIÓN:

02/01/2023 23 Dr. Guillermo PAUCAR C-


ANÁLISIS DE REGRESIÓN

INTERPRETACIÓN DE LOS PARÁMETROS ESTIMADOS

02/01/2023 24 Dr. Guillermo PAUCAR C-


ANÁLISIS DE REGRESIÓN
CORRELACIÓN Y COEFICIENTE DE
DETERMINACIÓN
COEFICIENTE DE CORRELACIÓN
Para una muestra bivariante , la correlación entre las
variables es

02/01/2023 25 Dr. Guillermo PAUCAR C-


ANÁLISIS DE REGRESIÓN
PROPIEDADES

02/01/2023 26 Dr. Guillermo PAUCAR C-


ANÁLISIS DE REGRESIÓN

02/01/2023 27 Dr. Guillermo PAUCAR C-


ANÁLISIS DE REGRESIÓN

02/01/2023 28 Dr. Guillermo PAUCAR C-


ANÁLISIS DE REGRESIÓN
COEFICIENTE DE DETERMINACIÓN

Si el modelo estimado es:

El error cometido:

02/01/2023 29 Dr. Guillermo PAUCAR C-


ANÁLISIS DE REGRESIÓN
Se observa que en este caso el error es más pequeño que el existente en
ausencia de información. Si tomamos el valor:

Como indicativo del error cometido cuando carecemos de la información


proporcionada por el modelo y lo definimos como desviación total
respecto a la media para un determinado sujeto, entonces el valor:

Hará referencia a la parte que de la desviación total explica el modelo de


regresión. Se denomina desviación explicada por el modelo de regresión.
Queda entonces, un resto:

02/01/2023 30 Dr. Guillermo PAUCAR C-


ANÁLISIS DE REGRESIÓN
Que no logra explicar el modelo – desviación no explicada- De esta forma,
según lo expuesto, podemos establecer la siguiente igualdad:

DESVIACIÓN DESVIACIÓN DESVIACIÓN NO


TOTAL EXPLICADA EXPLICADA

Si elevamos al cuadrado ambos miembros de la igualdad

Si se cumple esta igualdad para cada uno de los sujetos, se cumplirá


igualmente para la suma de todos ellos. Así pues:

02/01/2023 31 Dr. Guillermo PAUCAR C-


ANÁLISIS DE REGRESIÓN

Si se cumple esta igualdad para cada uno de los sujetos, se cumplirá


igualmente para la suma de todos ellos. Así:

Donde:

Ya que los errores aleatorios no correlacionan con ninguna otra puntuación


(observar que la sumatoria anterior es el numerador de la covarianza).

02/01/2023 32 Dr. Guillermo PAUCAR C-


ANÁLISIS DE REGRESIÓN

02/01/2023 33 Dr. Guillermo PAUCAR C-


ANÁLISIS DE REGRESIÓN
A partir de los datos calcularemos la varianza explicada y no explicada,
permitiéndonos su cociente tomar la decisión de si el modelo lineal es un
buen indicador del comportamiento de los datos observados. Es decir

BONDAD DE AJUSTE - COEFICIENTE DE DETERMNACIÓN

Tomaremos como índice de la bondad de ajuste la proporción de variación


explicada por el mismo; esto es, el cociente entre la suma de cuadrados
explicada por el modelo y la suma de cuadrados total.

02/01/2023 34 Dr. Guillermo PAUCAR C-


ANÁLISIS DE REGRESIÓN
OBSERVACIÓN:

02/01/2023 35 Dr. Guillermo PAUCAR C-


ANÁLISIS DE REGRESIÓN
FASES EN EL ANÁLISIS DE REGRESIÓN

02/01/2023 36 Dr. Guillermo PAUCAR C-


ANÁLISIS DE REGRESIÓN
MODELOS DE REGRESIÓN NO LINEAL

02/01/2023 37 Dr. Guillermo PAUCAR C-


CONTRASTES DE REGRESIÓN
En esta sección se descompone la variabilidad de la variable respuesta en
variabilidad explicada por el modelo más variabilidad no explicada o
residual, esto permitirá contrastar si el modelo es significativo o no.

Bajo la hipótesis de que existe una relación lineal entre la variable


respuesta y la regresora, se quiere realizar el siguiente contraste de
hipótesis,

Por tanto, si se acepta Ho, la variable regresora no influye y no hay


relación lineal entre ambas variables. En caso contrario, si existe una
dependencia lineal de la variable respuesta respecto a la regresora.
Para todos los datos muestrales se hace la siguiente descomposición

Elevando al cuadrado y sumando se obtiene,

02/01/2023 38 Dr. Guillermo PAUCAR C-


CONTRASTES DE REGRESIÓN
Por tanto, si se acepta Ho, la variable regresora no influye y no hay relación
lineal entre ambas variables. En caso contrario, si existe una dependencia
lineal de la variable respuesta respecto a la regresora.

Para todos los datos muestrales se hace la siguiente descomposición

Elevando al cuadrado y sumando se obtiene,

02/01/2023 39 Dr. Guillermo PAUCAR C-


CONTRASTES DE REGRESIÓN
En base a la ortogonalidad de los vectores se obtiene que los productos
cruzados son cero, de donde se sigue la siguiente igualdad (Teorema de
Pitágoras) que permite

descomponer la variabilidad de la variable respuesta en


la

variabilidad explicada por la recta de regresión más la


variabilidad

residual o no explicada por el modelo ajustado

02/01/2023 40 Dr. Guillermo PAUCAR C-


CONTRASTES DE REGRESIÓN

FUENTE DE SUMA DE GRADOS DE VARIANZAS


VARIACIÓN CUADRADOS LIBERTAD

POR LA RECTA

RESIDUAL

GLOBAL

02/01/2023 41 Dr. Guillermo PAUCAR C-


CONTRASTES DE REGRESIÓN
Si Ho es cierta (la variable X no influye), la recta de regresión es
aproximadamente horizontal y se verifica que aproximadamente ,y
por lo tanto . Pero scE es una medida con dimensiones y no puede
utilizarse como medida de discrepancia, para resolver este inconveniente se
divide por la varianza residual y como estadístico del contraste de regresión se
utiliza el siguiente

Por la hipótesis de normalidad y bajo Ho se deduce que el estadístico, sigue


una distribución F (contraste de la F) con 1 y n-2 grados de libertad.

Si el p-value =P , es grande (mayor que ) pero este modelo proporciona


exactamente el mismo resultado que se obtiene por el contraste individual de
la t relativo al coeficiente de regresión (Contraste de la t)

02/01/2023 42 Dr. Guillermo PAUCAR C-


CONTRASTES DE REGRESIÓN

02/01/2023 43 Dr. Guillermo PAUCAR C-


ANÁLISIS DE REGRESIÓN
COEFICIENTE DE DETERMINACIÓN Y COEFICIENTE DE
CORRELACIÓN
Una vez ajustada la recta de regresión a la nube de observaciones o diagrama
de dispersión, es importante disponer de una medida que mida la bondad del
ajuste realizado y que permita decidir si el ajuste lineal es suficiente o se deben
buscar modelos alternativos.

Como medida de bondad del ajuste se utiliza el coeficiente de determinación,


definido como sigue

O bien

Como

02/01/2023 44 Dr. Guillermo PAUCAR C-


ANÁLISIS DE REGRESIÓN
El coeficiente de determinación mide la proporción de variabilidad total de la
variable dependiente Y respecto a su medida que es explicada por el
modelo de regresión. Es usual expresar esta medida en tanto por ciento,
multiplicándola por cien.

Por otra parte, teniendo en cuenta que , se obtiene

Dadas dos variables aleatorias cualesquiera X e Y, una medida de la relación


lineal que hay entre ambas variables es el coeficiente de correlación definido
por

Donde representa las desviación típica de la variable X e Y


respectivamente.
02/01/2023 45 Dr. Guillermo PAUCAR C-
ANÁLISIS DE REGRESIÓN

Un buen estimador de este parámetro es el coeficiente de correlación lineal


muestral ( o coeficiente de correlación de Pearson), definido por:

Por tanto, . Este coeficiente es una buena medida de la bondad del


ajuste de la recta de regresión. Evidentemente, existe una estrecha relación
entre
Aunque estos estimadores proporcionan diferentes interpretaciones
del modelo:

• r es una medida de la relación lineal entre las variables X e Y.

• mide el cambio en promedio producido en la variable Y al realizarse un


cambio de una unidad en la variable X.
02/01/2023 46 Dr. Guillermo PAUCAR C-
ANÁLISIS DE REGRESIÓN

En la interpretación del coeficiente de correlación se debe tener en cuenta que:

 indica una relación lineal exacta positiva (creciente) o


negativa (decreciente),

 indica la no existencia de relación lineal estocástica,

 Los valores intermedios de r ( ) indican la


existencia de una relación lineal estocástica, más fuerte cuanto
más próximo a +1 ó -1 sea el valor de r.

02/01/2023 47 Dr. Guillermo PAUCAR C-


ANÁLISIS DE REGRESIÓN

EJEMPLO. Se desea estudiar la posible relación entre los gastos (en


publicidad, material informático), en múltiplos de cien mil dólares, de
una Empresa, y los ingresos globales (por ventas), en miles de dólares.
Para ello se recoge una muestra de datos anuales de gastos e ingresos
de 65 empresas, los datos muestrales son los de la tabla adjunta.
Analizar la posible existencia de una relación lineal entre la variable
respuesta gasto y la variable regresora ingreso global.

02/01/2023 48 Dr. Guillermo PAUCAR C-

También podría gustarte