Está en la página 1de 13

ESTADISTICA Y PROBABILIDADES

UNIDAD VIII

ANÁLISIS DE REGRESIÓN Y CORRELACIÓN


LINEAL

UNIVERSIDAD NACIONAL DE LA RIOJA


8.1. INTRODUCCIÓN.

En las unidades anteriores nos centramos en el estudio de una sola variable de respuesta
numérica, como por ejemplo, el ingreso de los empleados, el peso de un grupo de
personas o las ventas de un comercio, donde calculamos o describimos la variable en
estudio a partir de las medidas descriptivas, la probabilidad de que se verifiquen ciertos
eventos, sus distribuciones o modelos teóricos que los definen y estimar ciertos
parámetros poblacionales.

En esta unidad estudiaremos situaciones en donde se involucran dos variables


numéricas como medio para observar la relación que existen entre ellas. Las técnicas
empleadas para este fin son los estudios de regresión y correlación.

Si bien generalmente hablamos de un estudio de regresión y correlación conjuntamente,


estas son técnicas que pueden usarse en formas independientes, es decir, puede hacerse
un estudio de correlación sin uno de regresión y viceversa.

El análisis de regresión se usa con propósito de predicción. Las metas del análisis de
regresión es desarrollar un modelo estadístico a partir de una ecuación que se pueda usar
para predecir los valores de una variable basado en los valores de al menos otra
variable.

El análisis de correlación al contrario del análisis de regresión, se usa para medir la


fuerza de asociación entre las variables numéricas.

Si se tiene dos variables numéricas, muchos estudios se basan en la creencia de que se


puede identificar y cuantificar alguna relación funcional entre ambas, por lo tanto, se
dice que una variable depende de la otra. Si tenemos dos variables numéricas que
llamamos x e y, se puede decir que y depende de x y escribimos:

y = f(x)

Como y depende de x, es la variable dependiente y es la que se desea explicar o


predecir, también llamada regresando o variable de respuesta, y x es la variable

2
independiente, también denominada variable explicativa o regresor. Es importante
identificar cual es la variable dependiente y cual es la independiente en el modelo de
regresión, por ejemplo, supongamos que se desea desarrollar un modelo estadístico que
pueda servir para predecir el ingreso personal en $ de los empleados que trabajan más
de 8 horas diarias en una empresa. Si bien en la práctica para elaborar este modelo
estadístico intervienen varias variables, como ser, capacitación laboral, edad,
antigüedad, puesto laboral, podemos suponer que la antigüedad en años puede ser una
buena variable de predicción. Así, la variable dependiente y, que es la que vamos a
predecir, será el ingreso personal en $ y la variable independiente x, serán los años de
antigüedad.

Se debe diferenciar entre la regresión simple y la regresión múltiple. En la regresión


simple se establece que la variable y está dada en función de una sola variable
independiente y con frecuencia se le denomina regresión bivariada porque solo hay dos
variables la x e y, independiente y dependiente respectivamente. En un modelo de
regresión múltiple, y es una función de dos o más variables independiente. También hay
que hacer una distinción entre la regresión lineal simple y la regresión curvilínea o no
lineal. En un modelo de regresión lineal la relación entre x e y puede representarse por
medio de una recta y se sostiene que a medida que x cambia y cambia en una cantidad
constante. La regresión curvilínea utiliza una curva para expresar la relación entre x e y,
y sostiene que a medida que x cambia, y cambia en una cantidad diferente cada vez.

8.2. DETERMINACIÓN DEL MODELO DE REGRESIÓN LINEAL SIMPLE.

Utilizamos la correlación para medir la magnitud de una asociación lineal entre dos
variables aleatorias. Para ilustrar esta idea, el siguiente ejemplo muestra el efecto de la
temperatura de operación del proceso sobre el rendimiento del producto.

Temperatura ºC (x) 100 110 120 130 140 150 160 170 180 190
Rendimento % (y) 45 51 54 61 66 70 74 78 85 89

3
Diagrama de dispersión de rendimiento frente a la temperatura

100
90
80

Rendimiento 70
60
50
40
30
20
10
0
90 110 130 150 170 190 210

Temperatura

Los pares de puntos se representaron en un diagrama de dispersión y el mismo indica


que hay una fuerte relación entre el rendimiento y la temperatura.

El objetivo del análisis de regresión es encontrar un modelo para esta relación y en el


contexto del ejemplo esperamos que temperaturas elevadas se correspondan con
rendimientos también elevados. En tale circunstancias comenzamos postulando una
estructura lo más sencilla, un modelo lineal, por lo menos en el rango de interés. El
interés ahora se centra en el valor que toma la variable aleatoria y cuando la variable
aleatoria x toma un valor específico. Por ejemplo, podemos tener interés en conocer el
rendimiento cuando la temperatura toma el valor de 147 ºC. Ahora bien, no sabremos
que valor exactamente que valor se obtendría de rendimiento para la temperatura
específica de 147 ºC. En realidad la relación entre estas dos variables no será exacta,
existiendo para cada posible nivel de temperatura una distribución para los posibles
niveles de rendimiento por lo que podemos pensar en una distribución del rendimiento
cuando la temperatura de operación del proceso es de 147 ºC y como toda distribución,
interesa conocer su media o valor esperado y en este caso el valor esperado de la
variable aleatoria y cuando x toma un valor específico. En el supuesto de linealidad, el
valor esperado queda:

E(y/x) = α + βx

4
Donde las constantes α y β determinan una recta concreta. Es importante tener
presente que el supuesto de linealidad no puede extenderse fuera del intervalo, ya que al
no disponer de observaciones fuera de este rango el supuesto de linealidad no puede ser
respaldado pudiendo dar conclusiones erroneas.

Supongamos que la variable independiente toma el valor de x i y denotamos por yi el


correspondiente a la variable dependiente, la recta de regresión poblacional queda
definida por:

y i = α + βx i + ε i

Donde ε i representa el error aleatorio con media 0.

8.3. MÉTODO DE MÍNIMOS CUADRADOS. LA RECTA DE MEJOR AJUSTE.

Supongamos que tenemos n pares de observaciones en donde estos pueden emplearse


para estimar los parámetros desconocidos α y β de la recta de regresión poblacional.
El procedimiento de estimación será el método de mínimos cuadrados de manera que la
suma de los cuadrados de las desviaciones entre las observaciones y la recta de
regresión sean mínimos para lo cual la condición necesaria es que las primeras
derivadas parciales respecto a cada uno de los parámetros se anulen. Las estimaciones
de mínimos cuadrados de α y β son los valores a y b.

n
SC = ∑ (y i - a - bx i ) 2
i =1

Los estimadores resultantes son:

n n
∑ (x i - x ) . (y i - y) ∑ x i y i - n x y
i =1 i =1
b= n = n
∑ (x i - x ) 2 ∑ x i2 - n x 2
i =1 i =1

a = y - bx

5
Finalmente, la recta de regresión muestral queda definida:

y = a + bx

Problema 1. Determinar la recta de regresión para el efecto de la temperatura de


operación del proceso sobre el rendimiento del producto.

n = 10 ∑xi = 1450 ∑ yi = 673 x = 145 y = 67,3

∑ x i2 = 218500 ∑ y i2 = 47225 ∑ x i yi = 101570

La pendiente b es:
n
∑ x i yi - n x y
i =1 (101570) - (10) . (145) . (67,3) 3985
b= n = = = 0,483
(218500) - (10) . (145)2 8250
∑ x i2 - n x 2
i =1

La ordenada al origen es:


a = y - b x = 67,3 - (0,483) . (145) = - 2,739

El modelo de regresión lineal simple ajustado es:


y = - 2,739 + 0,483x

8.4. SUPUESTOS DEL MODELO DE REGRESIÓN LINEAL SIMPLE.

El modelo de regresión lineal determinado a partir del procedimiento de mínimos


cuadrados se asienta sobre la base de cuatro supuestos.

Los supuestos para el modelo de regresión lineal son:

1. El error e es una variable aleatoria distribuida normalmente. Como se expuso


anteriormente, si la variable independiente xi toma un valor específico, la
variable dependiente yi puede variar tomando un conjunto diferente de valores.
Algunas veces yi puede estar por encima de la recta lo que hace que los errores
e, (yi – y*) sean positivos, mientras que en otros momentos yi es menor que y*
creando un error negativo y se asume que estos términos de error se distribuyen

6
normal y aleatoriamente alrededor de la recta de regresión poblacional. Como la
variable dependiente y toma un conjunto de valores para uno específico de x, la
recta de regresión estima el valor promedio de yi, por lo tanto, la recta de
regresión poblacional pasa por la media de aquellos valores de y i en donde xi
toma un valor específico.

2. Variancias iguales de los valores yi. El método de mínimos cuadrados asume que
la variancia en los valores yi es la misma para todos los valores de x i. Este
supuesto se llama homoscedasticidad. Este supuesto se no se verifica cuando se
trabaja con datos de corte seccional, por ejemplo, se desea desarrollar un modelo
de regresión en el cual los ingresos de los consumidores se utilicen para predecir
o explica sus gastos de consumo, consumo = f(ingreso). Si se recolectaran datos
sobre los consumidores en diferentes estratos de ingreso durante un año dado, se
estaría usando datos de corte seccional ya que se incluyeron las observaciones a
través de diferentes estratos de ingresos. Por lo tanto se puede encontrar un
rango muy estrecho en los valores para el consumo en los niveles de bajos
ingresos, mientras que para los consumidores de altos ingresos, la variación en
sus gastos de consumo es mucho mayor. Los valores y i se dispersan más
ampliamente a medida que el ingreso se incrementa. Este supuesto se denomina
heteroscedasticidad.

3. Los errores ei son independientes unos de otros. El error encontrado para un


valor de yi no se relaciona con el error para cualquier otro valor y i mientras no se
encuentre ningún patrón que sugiera lo contrario. En el caso que aparezca un
patrón, es evidente que los errores no son aleatorios y que están relacionados,
así, el patrón comienza con varios errores positivos seguidos por varios errores
negativos y luego nuevamente por varios positivos. Se puede decir que el valor
de un error es una función del error anterior. Es más probable que un error
positivo sea seguido por otro error positivo mientras que un error negativo está
relacionado con un segundo error negativo. Tal condición, la cual contradice el
supuesto de independencia de errores se llama autocorrelación positiva porque
los signos iguales se agrupan. La autocorrelación negativa se verifica cuando
cada error va seguido de un error de signo opuesto.

7
4. Supuesto de linealidad. En un modelo de regresión lineal la relación entre x e y
puede representarse por medio de una recta y se sostiene que a medida que x
cambia y cambia en una cantidad constante.

8.5. MEDIDA DE LA BONDAD DE AJUSTE. COEFICIENTE DE


DETERMINACIÓN Y ERROR ESTÁNDAR DE LA ESTIMACIÓN.

Coeficiente de determinación.
Una ecuación de regresión puede considerarse como un intento de emplear la
información proporcionada por una variable independiente x para explicar el
comportamiento de una variable dependiente y. Las observaciones de la variable
dependiente presentaran cierta variabilidad en la muestra, por lo tanto nos interesa
conocer que proporción de esta variabilidad puede explicarse por la dependencia lineal
de y sobre x.

Para los valores muestrales, la recta de regresión estimada puede escribirse como:

y i = a + bx i + e i o y i = y*i + e i

Donde y *i es el valor dado por la recta de regresión e i es el error de la diferencia entre


los valores observados y los dados por la recta. Por lo tanto, el error e representa la parte
del comportamiento de la variable dependiente que no puede ser explicada por su
relación lineal con la variable independiente.

Se puede pensar la variabilidad muestral de la variable dependiente en términos de las


desviaciones respecto a la media muestral, por lo tanto queda:

( y i - y) = ( y *i - y) + e i

Elevando al cuadrado ambos miembros y sumamos respecto al índice muestral i, queda:


n n n
∑ ( y i - y) 2
=∑ ( y *i - y) + ∑ e i2
2

i =1 i =1 i =1

8
El término del lado izquierdo representa la variabilidad total en la muestra de la variable
dependiente en torno a su media y esta puede descomponerse en dos partes, la primera
representa la parte de la variabilidad explicada por la regresión mientras que el segundo
término representa la variabilidad no explicada. Así, a mayor proporción de variabilidad
explicada, mayor capacidad explicativa tiene la regresión.

Definimos las siguientes expresiones a partir de la descomposición de la última


ecuación.

n
Suma de Cuadrados Total: SCT = ∑ ( yi - y) 2
i =1

n
Suma de Cuadrados de la Regresión: SCR = ∑ ( y *i - y) 2
i =1

n
Suma de Cuadrados del Error (o residual): SCE = ∑ e i2
i =1

SCT = SCR + SCE

El coeficiente de determinación R2 de la regresión ajustada se define como:

SCR SCR
R2 = = 1-
SCT SCT

Se deduce que la proporción de variabilidad explicada toma los valores:

0 ≤ R2 ≤ 1

A mayor R2, mayor capacidad explicativa.

Error estándar de la estimación.


El error estándar de la estimación, Se, es una medida del grado de dispersión de los
valores yi alrededor de la recta de regresión, es decir, mide la variación de los puntos de
datos por encima y por debajo de la recta de regresión y refleja la tendencia a desviarse

9
del valor real de y cuando se utiliza el modelo de regresión para fines predictivos. Si
todos los puntos de datos se situaran perfectamente sobre una recta, la recta de regresión
pasaría por cada uno de ellos, no presentándose errores en los pronósticos y el error
estándar de estimación seria cero.

Debido a que σ² es un parámetro, probablemente permanecerá desconocida, es necesario


estimar su valor con los datos muestrales. Un estimador insesgado de σ² es la suma de
cuadrados del error dividida por sus grados de libertad:

n
∑ e i2
i =1 SCE
S e2 = =
n-2 n-2

La razón de dividir por (n - 2) es que se pierden 2 grados de libertad al estimar los


parámetros desconocidos α y β .

El error estándar de la estimación se:

SCE
Se =
n-2

Problema 1. A partir del Problema 1 calcular el coeficiente de determinación y el error


estándar de la estimación.

A partir de la determinación de la recta de regresión confeccionamos la tabla que se


muestra a continuación y calculamos SCT, SCR y SCE.
El coeficiente de determinación es:
SCR 1924,634
R2 = = = 0,996
SCT 1932,100

El error estándar de la estimación se:


SCE 7,224
Se = = = 0,950
n-2 10 - 2

10
Temperatura ºC Rendimento %
y *i ei2 ( y*i - y) 2 ( y i - y) 2
(x) (y)
100 45 45,561 0,3147 472,584 497,29
110 51 50,391 0,3709 285,914 265,69
120 54 55,221 1,4908 145,902 176,89
130 61 60,051 0,9006 52,548 39,69
140 66 64,881 1,2522 5,852 1,69
150 70 69,711 0,0835 5,813 7,29
160 74 74,541 0,2927 52,432 44,89
170 78 79,371 1,8796 145,709 114,49
180 85 84,201 0,6384 285,644 313,29
190 89 89,031 0,0010 472,236 470,89
Total - - 7,224 1924,634 1932,100

8.7. EL ANÁLISIS DE CORRELACIÓN.

El modelo de regresión proporciona un panorama claro de la relación entre dos


variables determinando la recta que mejor se ajusta. En particular, nos interesa
cuantificar la intensidad de la relación lineal entre estas dos variables. El parámetro que
nos da tal cuantificación es el coeficiente de correlación lineal de Pearson r, definido
como:

SCR
r=
SCT

Los valores que puede tomar r son:

-1 ≤ r ≤ 1

Consideremos los siguientes casos:

1. Si r = 1 . La variancia residual es cero y los valores teóricos coinciden con los


observados, es decir, todos los puntos están contenidos en l. En este caso la
correlación es perfecta positiva y la relación funcional viene determinada por
una recta de pendiente positiva.

11
2. Si r = -1 . En este caso la correlación es perfecta negativa y la recta es de
pendiente negativa.

3. Si r = 0 . La correlación lineal es nula.

4. Si - 1 < r < 0 . La correlación lineal será negativa y la recta de regresión es de


pendiente negativa.

5. Si 0 < r < -1 . La correlación lineal será positiva y la recta de regresión es de


pendiente positiva.

BIBLIOGRAFIA

1. ENCICLOPEDIA DE MATEMÁTICAS
OCEANO Grupo Editorial S.A.

12
2. ESTADÍSTICA
Murria R. Spiegel - Larry J. Stephens
Mc Graw Hill
Año 2002

3. Estadística para los Negocios y la Economía


Paul Newbold
Prentice Hall
Año 2005

4. Probabilidad y Estadística para Ingeniería


William W. Hines - Douglas C. Montgomeri - David M, Goldsman - Connie M.
Borror
CECSA
Año 2006

5. Introducción a la Estadística Económica y Empresarial


F. Javier Martín Pliego
Editorial AC
Año 2003

6. Estadística para Ingeniería - Apuntes de Cátedra


Lic. Mauricio Pierfederici

7. http://es.wikipedia.org/wiki/Wikipedia:Portada

13

También podría gustarte