10 - Regresión y Correlación

Regresión lineal simple y correlación
El objetivo del análisis de regresión es explorar la relación entre dos (o más) variables de modo que
se pueda obtener información sobre una de ellas sabiendo los valores de la otra (u otras).
Existen muchas variables x e y que están relacionadas entre sí pero no de manera determinística.
Por ejemplo: si x es el tamaño de un motor (en cm³) puede ser que y sea la eficiencia de
combustible de un automóvil equipado con dicho motor. No siempre dos motores del mismo
tamaño son igualmente eficientes.
Otro ejemplo: sea x la fuerza de tracción aplicada sobre una tira (fleje o barra) de metal, siendo y el
alargamiento de esa tira.
DEFINICIÓN.
El análisis de regresión es la parte de la estadística que se ocupa de investigar la
relación entre dos o más variables vinculadas en forma no determinística.
Modelo de regresión lineal simple

La relación determinística más simple entre dos variables es la lineal, y = β0 + β1x donde β1 es la
pendiente de una recta y β0 la ordenada al origen.
Si las dos variables no están determinísticamente relacionadas, entonces con un valor fijo de x el
valor de y es incierto.
Generalmente, la variable cuyo valor es fijado por el experimentador es x, llamada variable
independiente, pronosticadora o explicativa. La segunda variable será aleatoria y se la designa
con la letra y, llamada variable dependiente o de respuesta.
Consecuentemente, se realizan observaciones para varios escenarios de la variable independiente:
x1, x2, … xn que resultarán en los respectivos valores de y. Los datos bivariantes se componen de n
pares (x1, y1), (x2, y2),… (xn, yn). Una imagen (gráfica) de esos pares, llamada gráfica de dispersión
proporciona una primera impresión de la relación entre las dos variables.
Ejemplo: el arsénico se encuentra en muchas aguas subterráneas y algunas superficiales. En
los datos adjuntos x = pH mientras que y = arsénico eliminado (%) por un determinado
proceso. La forma en que se grafique esta relación facilita -o no- percibir la naturaleza
general que vincula a las variables. Es importante ubicar los ejes para evitar
amontonamientos.
N x y N x y N x y
1 7,01 60 7 8,04 52 13 8,97 31
2 7,11 67 8 8,05 48 14 8,98 26
3 7,12 66 9 8,07 40 15 9,85 9
4 7,24 52 10 8,90 23 16 9,86 22
5 7,94 50 11 8,94 20 17 9,86 13
6 7,94 45 12 8,95 40 18 9,87 7
Modelo probabilístico lineal

En un modelo probabilístico, la ecuación y = β0 + β1x representa el valor esperado de y que resulta
de una función lineal de x, pero que con x fija la variable y (obtenida en la realidad) difiere de su
valor esperado en una cantidad aleatoria.
Página 1 de 8
DEFINICIÓN. Modelo de regresión lineal simple.
Sean los parámetros β0, β1 y σ2 de modo tal que, con cualquier valor fijo de la variable
independiente x, la variable dependiente es una variable aleatoria y está relacionada con x
mediante una ecuación de modelo siguiente:
y=β0+β1 x +ε Ec.1
… donde ε es una variable aleatoria que –se supone– está distribuida normalmente con:
E(ε) = 0 V(ε) = σ2
La variable ε se conoce como término de error aleatorio o desvío aleatorio. Si ε no existiera, los
pares ordenados (x,y) quedarían todos sobre la recta y = β0 + β1x llamada línea de regresión (o de
población) verdadera.
Nota: a veces ε representa el error de medición en una relación lineal exacta.
Vamos a usar la siguiente notación:

x* es un valor particular de la variable independiente x
μY∙x* es el valor esperado (o media) de Y cuando x = x*
σ2Y∙x* es la varianza de Y cuando x = x*
Ejemplo: sea x el esfuerzo aplicado (en kg/mm²) siendo y el tiempo hasta llegar a la fractura
(en horas). Entonces μY∙20 indica el valor esperado del tiempo hasta la fractura con un
esfuerzo de 20 kg/mm²
Considerando una población completa,
μY∙x* es la media de todos los valores de y, con x = x*
σ2Y∙x* es la varianza (o medida de dispesión de los valores alrededor de la media).
Cuando se fija x, lo único aleatorio del lado derecho de la Ec.1 es el error ε, cualquiera sea x.
Entonces:
μY∙x* = E(β0 + β1x* + ε) = β0 + β1x* + E(ε) = β0 + β1x* (I)
σ2Y∙x* = V(β0 + β1x* + ε) = V(β0 + β1x*) + V(ε) = σ2 (II)
Si en μY∙x* reemplazamos x* por x, se obtiene μY∙x* = β0 + β1x que expresa el valor medio de Y.
Entonces y = β0 + β1x es la línea de valores medios.
La ordenada (gráfica) en cualquier valor de x es el valor esperado de Y para ese valor de x.

La pendiente β1 de la línea de regresión verdadera es el cambio esperado de Y asociado al
incremento de x.
Página 2 de 8
En la relación (II), se muestra que la variabilidad de Y es la misma, con cualquier valor de x. Estas
propiedades se ilustran de la siguiente manera:
El parámetro de varianza σ2 determina el grado al cual cada curva normal se dispersa en torno a su
valor medio. Cuando σ2 es pequeño, un punto (x, y) quedará bastante cerca de la línea de regresión
verdadera; cuando σ2 es grande, las observaciones se apartan de sus valores esperados.
La dirección de la curva puede indicar si la relación es inversa o directa.
ACLARACIÓN
Como percibirá el lector en adelante, la notación utilizada en el tema en desarrollo dista de ser homogénea en la
bibliografía disponible. En el afán de presentar claramente los conceptos se ha recurrido a diversos textos que utilizan
notaciones distintas para los mismos conceptos. En cada caso, se han respetado esas notaciones distintas porque suelen
repetirse en los gráficos adjuntos. Tratando de mantener la claridad de estas notas se realizarán las adecuaciones
pertinentes y se mencionarán las equivalencias necesarias entre ecuaciones provenientes de distintas fuentes. El lector
deberá estar alerta ante los cambios de notación para no perderse en una maraña de letras.
Estimación mediante la recta de regresión

La ecuación para una línea recta donde la variable dependiente Y está determinada por la variable
independiente x es:
Y= a + bx
Tanto a como b son constantes numéricas porque para cada valor de la recta dada, sus valores no
cambian. Para encontrar la pendiente b de la recta utilizamos:
Y 2 −Y 1
b=
X 2− X 1
… donde (X1, Y1) y (X2, Y2) son dos puntos por donde pasa la recta. Cuando la pendiente b es
negativa, la relación es inversa. Cuando la pendiente b es positiva, la relación es directa.
Página 3 de 8
Teniendo el valor de b, basta reemplazar un valor de x en la ecuación, ya que conociendo el valor de
y del par ordenado, es sencillo calcular a.
Método de mínimos cuadrados

El método anterior nos proporciona la ecuación de una recta que pasa por dos puntos. Bastaría
cambiar esos puntos para que la recta fuese distinta.
El método de mínimos cuadrados ajusta matemáticamente la ecuación de una recta con buen ajuste,
que minimiza el error entre los puntos de la recta y los observados.
• Una forma de medir el error de la línea de estimación1 Y^ =a+ bx consiste en sumar todas
las diferencias o errores entre la recta y las observaciones (que se cancelan entre sí).
• Pero un mejor criterio para encontrar un buen ajuste consiste en minimizar la suma de los
valores absolutos de los errores. Sin embargo, este método no hace hincapié en la magnitud
de cada error.
• Podemos minimizar los errores si elevamos al cuadrado los errores individuales y luego los
sumamos. Con esto:
1. se magnifican los errores grandes.
2. se cancela el efecto de los positivos y los negativos.
La línea de estimación que minimiza la suma de los cuadrados de los errores es aquella obtenida por
el método de mínimos cuadrados.
Los estadísticos han desarrollado dos ecuaciones para la pendiente y la ordenada:
b=
∑ XY −n X̄ Ȳ a=Ȳ −b X̄
∑ X 2−n X̄ 2
Ejemplo 1:
Antigüedad de un vehículo vs. Gastos anuales en repuestos.
Antigüedad X Gastos anuales repuestos Y
Camión
[años] [miles $]
C1 5 7
C2 3 7
C3 3 6
C4 1 4
Solución: Y^ =3,75+ 0,75 x
Ejemplo 2:
Inversión en Investigación y Desarrollo vs. Ganancias anuales de la empresa.
Año Millones $ (I+D) Ganancia (M$)
1995 5 31
1994 11 40
1993 4 30
1992 5 34
1991 3 25
1990 2 20
Solución: Y^ =20+2 x
1 Obsérvese que indicaremos las estimaciones con un acento circunflejo (o sombrero o gorro, según cada texto) sobre
la letra correspondiente; en este caso Y^ es un estimador de Y.
Página 4 de 8
El error estándar de la estimación
Debemos aprender a medir la confiabilidad de la ecuación de estimación desarrollada. Para ello los
especialistas desarrollaron el error estándar de la estimación, simbolizado por se y es similar al
desvío estándar ya que ambos son medidas de dispesión
El error estándar de la estimación mide la variabilidad o dispesión de los valores observados
alrededor de la recta de regresión.
se=
√ ∑ (Y −Y^ )2
n−2
Se escribe (n-2) porque perdimos dos grados de libertad al estimar la recta de regresión.
Método abreviado
se=
√ ∑ Y 2−a ∑ Y −b ∑ XY
n−2
Interpretación del error estándar de la estimación

Suponiendo que los puntos observados siguen una distribución normal alrededor de la recta de
regresión, podemos esperar encontrar el 68% de los puntos dentro de ±1se, el 95,5% de los puntos
dentro de ±2se y el 99,7% de los puntos dentro de ±3se.
Otra cosa que debemos observar es que el error estándar de la estimación se mide a lo largo del eje
Y y no perpendicularmente desde la recta de regresión.
Deben establecerse dos suposiciones necesarias:
1. Los valores observados para Y tienen distribución normal alrededor de cada valor estimado
de Y^ .
2. La varianza de las distribuciones alrededor de cada Y^ , es la misma.
Intervalos de confianza para la estimación (o el valor esperado)

Podemos concebir el error estándar de la estimación como una herramienta estadística que podemos
usar para hacer afirmaciones de probabilidad acerca del intervalo alrededor del valor estimado de
Y^ dentro del cual cae el valor real de Y. Llamaremos a esos intervalos alrededor de la Y^
estimada como intervalos de confianza para la estimación.
Ejercicio: calcular se para el Ejemplo 1 (Camiones vs. Gastos).
Página 5 de 8
Análisis de correlación
El análisis de correlación es la herramienta estadística que podemos usar para describir el grado en
que una variable está linealmente relacionada con otra. El análisis de correlación y el de regresión
se pueden usar juntos o no. Se han desarrollado dos medidas para describir la correlación entre dos
variables.
Coeficiente de determinación
Es la principal forma en que podemos medir el grado o fuerza de asociación entre variables X e Y.
Como usaremos una muestra, será el coeficiente de determinación muestral. Éste se deriva de la
relación entre dos tipos de variación; la variación de los valores de Y en un conjunto de datos
alrededor de:
1. la recta de regresión ajustada
2. su propia media
Variación de los valores de Y alrededor de la recta de regresión = ∑ (Y −Y^ )2
Variación de los valores de Y alrededor de su media = ∑ (Y −Ȳ )2
El coeficiente de determinación muestral r2 será:
2
r =1−
∑ (Y −Y^ )
∑ (Y −Ȳ )
Observaciones:
• r2 mide solamente la fuerza de una relación lineal.
• Si r2 = 1, marca una correlación perfecta.
• Si r2 = 0, no hay correlación.
Método abreviado
a ∑ Y + b ∑ XY −n Ȳ
2
2
r=
∑ Y 2−n Ȳ 2
Ejercicio: calcular el r2 para el Ejemplo 2 (I+D). Rta: r2 = 0,826
Coeficiente de correlación
Es la segunda medida que usaremos para describir qué tan bien explica una variable a otra. Tratando
con muestras, el coeficiente de correlación de la muestra es:
r= √r
2
Cuando la pendiente de la ecuación de estimaciónes positiva, r es la raíz cuadrada positiva. Pero si

la pendiente b es negativa, r es la raíz cuadrada negativa. Por lo tanto, el signo de r indica la
dirección de la relación. Además:
• r indica el porcentaje de los datos relacionados entre sí.
• r2 indica el porcentaje de la variación de Y explicado por la recta de regresión.
Página 6 de 8
Inferencia sobre parámetros de población
La recta de regresión de la muestra sólo representa una parte de los datos de la población. Nuestra
recta de regresión de la muestra estimada, es una estimación de una recta de regresión verdadera
aunque desconocida de la forma2:
Y = A + BX
que representamos mejor por:
Y = A + BX+e
donde e es la perturbación o variable aleatoria de la recta de regresión de la población. En
promedio, e vale cero. La desviación estándar de esas variaciones será σe ; el error estándar de la
estimación se será entonces una estimación de σe .
De modo que usaremos la recta de regresión de la muestra para hacer inferencias sobre la recta
de regresión de la población.
Pendiente de la recta de regresión de la población

La recta de regresión se obtiene de una muestra y no de la población entera. Sin embargo podemos
usar b para probar hipótesis respecto al valor de B. El procedimiento es similar a los ya aprendidos.
Imaginemos una situación: la relación entre los gastos (I+D) y las ganancias presentadas en el
Ejemplo 2 es de b = 2. Si durante largo tiempo la relación fue B = 2,1 entonces…
• H0: B = 2,1
• H1: B ≠ 2,1
Ahora debemos encontrar el error estándar del coeficiente de regresión sb…
se
s b= donde se es la expresión de la pág. 5
√∑ X 2
−n X̄ 2
Una vez calculado, podemos estandarizar la pendiente… (con muestra pequeña, distribución tst)
b−B H
t= 0
sb
Supongamos que α = 10%. Operamos como aprendimos anteriormente. Asimismo podemos
construir un intervalo de confianza para el valor de B con...
b±t( s b)=Linfer ;super con t0,10 = ± 2,132 y con tmuestra = -0,217
Uso del análisis de regresión y correlación: limitaciones, errores y advertencias

• Extrapolación más allá del rango de datos observados
Una ecuación de estimación sólo es válida para el mismo rango del cual se tomó la muestra
inicial.
• Causa y efecto
Los análisis de regresión y correlación no pueden, de ninguna manera, determinar la causa
y el efecto. Ejemplo: ganancias e inversión de una compañía en un mismo año.
• Uso de tendencias anteriores para estimar tendencias futuras
Las condiciones pueden cambiar y violar una o más de las suposiciones de las cuales
depende nuestro análisis de regresión.
2 Nótese que aquí se han sustituido los coeficientes β0 y β1 de la Ec.1 por los coeficientes A y B. Esto no tiene la más
mínima importancia, ya que su función en la ecuación es la misma.
Página 7 de 8
Ejemplo: productividad de un determinados conjunto de mano de obra (calificación),
tecnología, cantidad de empleados.
• Interpretación errónea de los coeficientes de correlación y determinación
Si r = 0,6 entonces la ecuación de regresión NO explica el 60% de la variación total en Y. En
cambio, si r = 0,6 entonces r2 = 0,36 o sea el 36% de la variación total se explica por la
recta de regresión.
El coeficiente de determinación r2 NO describe el % de cambio en la variable dependiente
ocasionado por la independiente.
• Descubrimiento de relaciones que NO existen
Pueden encontrarse relaciones estadísticas entre variables cuya relación no tiene sentido.
Cuestión de sentido común…
Ejemplo: la cantidad de tiros libres de un partido y la cantidad de espectadores.
Página 8 de 8

10 - Regresión y Correlación

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

10 - Regresión y Correlación

Cargado por

Copyright:

Formatos disponibles

Regresión lineal simple y correlación

Modelo de regresión lineal simple

Modelo probabilístico lineal

Nota: a veces ε representa el error de medición en una relación lineal exacta.

Vamos a usar la siguiente notación:

σ2Y∙x* = V(β0 + β1x* + ε) = V(β0 + β1x*) + V(ε) = σ2 (II)

La ordenada (gráfica) en cualquier valor de x es el valor esperado de Y para ese valor de x.

Estimación mediante la recta de regresión

Método de mínimos cuadrados

Solución: Y^ =3,75+ 0,75 x

Interpretación del error estándar de la estimación

Intervalos de confianza para la estimación (o el valor esperado)

Ejercicio: calcular se para el Ejemplo 1 (Camiones vs. Gastos).

Cuando la pendiente de la ecuación de estimaciónes positiva, r es la raíz cuadrada positiva. Pero si

Pendiente de la recta de regresión de la población

Uso del análisis de regresión y correlación: limitaciones, errores y advertencias

También podría gustarte