Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Regresión y Correlación
INTRODUCCIÓN
Aunque estas relaciones podrían asumir una gran variedad de formas, la explicación que
daré aquí se limitará a ecuaciones lineales. Otras formas de análisis de regresión, tales
como la regresión múltiple (más de dos variables) y la regresión curvilínea (para relaciones
de forma no lineal) comprenden extensiones de los mismos conceptos que se utilizan en la
regresión lineal simple.
1. La pendiente de la recta
2. La localización de la recta en algún punto
En la que a y b son valores que se determinan a partir de los datos de la muestra; a indica
la altura de la recta en x = 0, y b señala su pendiente. La variable y es la que se habrá de
predecir, y x es la variable predictora.
Y
Decisión acerca de un tipo de relación. Cuando los datos no se pueden aproximar con
un modelo lineal, las alternativas son buscar un modelo no lineal adecuado, o bien, cambiar
los datos a la forma lineal. Por ejemplo, si se convierten una o ambas escalas en
logarítmicas puede llegarse a un modelo lineal.
En la regresión, los valores de “y” son predichos a partir de valores de “x” dados o
conocidos. La variable “y” recibe el nombre de variable dependiente y la variable
“x”, el de variable independiente.
Método de mínimos cuadrados. El procedimiento que más se utiliza para adaptar una
recta a un conjunto de puntos se conoce como método de los mínimos cuadrados. La recta
resultante presenta dos características importantes:
Apuntes de Regresión y Correlación 3
Ing. Ilse A.Bernal Mar
(y − y )
2
i c
y = na + b( x )
xy = a( x ) + b( x ) 2
a=
( y ) − b( x ) = Y − b X
n
Es importante observar ciertos hechos con respecto a una ecuación de regresión. Uno de
ellos es que corresponde a una relación promedio. Otro punto de importancia es que seria
muy riesgoso tratar de utilizar la ecuación para determinar puntos fuera del intervalo de
datos. La línea de regresión tiene la interesante propiedad de que siempre pasa por el punto
(x, y) promedios.
Inferencias en el análisis de regresión. Los datos muéstrales que se utilizan para calcular
una línea de regresión se pueden considerar como un número relativamente pequeño de
posibles observaciones, a partir de una población infinita de pares de valores. En este
Apuntes de Regresión y Correlación 4
Ing. Ilse A.Bernal Mar
yc = a + bx
Cabe observar que, incluso en la población, los valores no caen sobre una sola recta, sino
que tienden a mostrar cierto grado de dispersión. De hecho, si no hubiera dispersión en la
población, todas las observaciones de la muestra caerían en una recta única, y no habría
necesidad de deducir inferencias respecto a los valores verdaderos de la población. Por
desgracia, en la vida real existen pocos ejemplos de poblaciones en las que no existe
dispersión.
Una pregunta razonable podría ser: “¿por qué hay dispersión?” La respuesta radica en el
hecho de que no hay una relación perfecta entre las dos variables en la población. Existen
otras variables que influyen en los valores de la variable dependiente, quizás un número
sorpresivamente grande de otras variables que no se incluyen en el análisis de regresión.
La dispersión en la población significa que, para cualquier valor dado de x, habrá muchos
valores posibles de y.
Y
y = A + Bx
El análisis de regresión supone que, para cada valor posible de “x” existe una distribución
de las “y” potenciales que es de carácter normal. Esta recibe el nombre de distribución
condicional (esto es, dada x). Dicha distribución equivale a una delgada porción vertical de
la población tomada en un valor dado de x. La media de cada distribución condicional es
igual al valor promedio de y en la población para esa x partículas y = A + Bx se estima
mediante yc = a + bx. Además se supone que todas las distribuciones condicionales tienen
la misma desviación estándar, y que “y” es una variable aleatoria (es decir, las x se pueden
preseleccionar, pero no las y).
Apuntes de Regresión y Correlación 5
Ing. Ilse A.Bernal Mar
s xy =
(y i − yc )2
n−2
La formula anterior no se utiliza por lo general para cálculos reales, debido a que es mas
fácil trabajar con la formula simplificada (que se obtuvo al sustituir yc por la ecuación de
regresión y al completar el cuadrado). Es decir:
s xy =
y 2
− a y − b xy
n−2
El calculo del error estándar se funda en el supuesto de que se produce una dispersión
uniforme de los puntos respecto a la línea de regresión, que es otra forma de expresar que
se supone que las distribuciones condicionales de los valores de y tienen iguales
desviaciones Standard.
Inferencias acerca de la pendiente de una línea de regresión. Aun cuando es muy poca
o nula la relación entre dos variables de una población, es posible obtener valores
maestrales que hacen que parezca que las variables están relacionadas.
Apuntes de Regresión y Correlación 6
Ing. Ilse A.Bernal Mar
De esta manera, es importante probar los resultados de tales cálculos, a fin de determinar
si son significativos. Por tanto, es conveniente distinguir entre esos casos en los que dos
variables se relacionan, y aquellos en los que las variables no están relacionadas, Si no
existe ninguna relación, se esperaría obtener una pendiente cero. De este modo, se quiere
poner a prueba la hipótesis nula
H0 : B = 0
H1 : B ≠ 0
-t B=0 +t
b − tsb B b + tsb
Apuntes de Regresión y Correlación 7
Ing. Ilse A.Bernal Mar
En realidad, el intervalo de confianza puede tener una doble finalidad. Sin duda, indica el
intervalo probable en el que pueda estar el valor verdadero, pero también se pude utilizar
para probar la significación de una pendiente de la muestra.
Distribución de muestreo
para la pendiente de
Sb
regresión.
b
-t B0=0 +t
(y − yc )
2
S xy =
i
Sea:
n−2
La desviación estándar de la variación de los puntos y i respecto al valor calculado por la
función de regresión yc.
(y − y)
2
Sy =
i
Y sea:
n −1
La desviación estándar de la variación de los puntos y i respecto al valor promedio de la
variable dependiente; o sea, la desv. Std de la población de la variable dependiente.
Variación de puntos
Variación de puntos respecto a la media del
Sy respecto a la línea de grupo
regresión ( yc )
Dist. Normal
Sxy
S xy
Por lo tanto, podemos entender que: 0 1
Sy
S xy
Y cuando 0 indica relación perfecta entre x e y
Sy
S xy
Y cuando 1 Indica que no existe relación entre x e y
Sy
(y − y)
2
Variación total = i
regresión, el cálculo de la varianza de los valores y, Sy, tiene como denominador a n-2, en
lugar del común n-1. Mediante variancias, la formula para calcular r2 resulta:
(y − yc )
2
−S
2 2 2 i
S S n−2
r2 = y e
= 1− e
= 1−
(y − y)
2 2 2
S y S y i
n−2
( y )2
(
n y − 2
n
)
Donde: S y2 =
n−2
(y − y)
2
c
F = 1
(y − yc )
2
(n − 2 )
i
Apuntes de Regresión y Correlación 12
Ing. Ilse A.Bernal Mar
Grados
Fuente de Estimación de
Suma de Cuadrados de Razón F
variación varianza
libertad
Línea de
(y − y)
regresión 2
SSR= 1 Sb2 = SSR / 1 Fp = Sb2 / Sw2
(intermediante) c
Error
(y − y )
2
SSE=
(interno) i c n-2 Sw2 = SSE / n-2
(y − y)
2
SST=
Total i n-1
El valor en ambos casos seria el mismo, pero el intervalo de confianza para esa predicción
dependerá del punto de vista que se este empleando. Los intervalos de confianza para
estas predicciones se basan en las desviaciones estándar de sus respectivas cantidades.
En lo que respecta al valor promedio de y, la desviación estándar de yc es:
1 (x − x)
2
S yc = S e +
g
n ( x )2
x −
2
n
1 (x − x)
2
S yi = S e 1+ +
g
n ( x )2
x − 2
n
Apuntes de Regresión y Correlación 13
Ing. Ilse A.Bernal Mar
Estas dos últimas ecuaciones significan que el intervalo de confianza para valores
individuales de y, correspondientes a un valor dado de x, es ligeramente mayor que el
intervalo para el valor promedio de y. Los valores individuales son análogos a una población
de ellos mientras que los valores promedios tienen analogía con una distribución de
muestreo de medias de dicha población. Esto ultimo siempre tendera a tener una desviación
Standard menor que la desviación estándar de la población.
Si fuera posible calcular intervalos de confianza para todos los valores posibles de x, el
resultado seria un par de “bandas de confianza” alrededor de la línea de regresión. Cabe
observar que las bandas son mas estrechas cuando xg=xprom, y se van ampliando a medida
que aumenta la distancia de xg a partir de la media.
Y
(x,y)
Línea de regresión
✓ Tanto x como y son variables aleatorias continuas. Es decir, a diferencia del análisis
de regresión, no es aceptable seleccionar ciertos valores de x, y después medir y;
tanto x como y deben variar libremente.
✓ La distribución conjunta de frecuencia (es decir, la distribución de valores de los
pares x,y) es normal (Distribución normal bivariada).
r=
Z x Zy
n −1
xprom
Zy y
II I
yprom
III IV
Zx
La aplicación de este procedimiento para el calculo de r suele ser poco practica porque
implica muchos cálculos, y ello lleva mucho tiempo, por ello podemos simplificar el
procedimiento aplicando la siguiente formula simplificada.
n xy − ( x )( y )
r=
n( x ) − ( x ) ( )
n y 2 − ( y )
2 2 2
Variable y
Variable x a b j Total
A fAa fAb ...... fAj fA
B fBa fBb ...... FBj fB
Cabe observar que hay dos importantes diferencias entre la tabla de contingencia que aquí
se analiza y las anteriores tablas r x k que se utilizaron en pruebas para conocer el grado
de independencia. En el caso anterior se hablaba de k muestras, mientras que aquí
hablamos de una muestra, los datos de contingencia forman parte de una sola muestra en
la que cada observación ha sido clasificada de acuerdo con dos variables separadas;
Además, la variable esta ordenada de la categoría mas baja a la mas alta o viceversa; esto
es, las categorías presentan dirección, mientras que en el caso r x k no era necesario.
2
C= Donde: N=# total de observaciones
2 +N
Un aspecto interesante de una tabla de ji cuadrada es que el tamaño máximo posible de X 2
es función de N, del cuadrado de observaciones y del tamaño de la tabla. En el caso de
tablas cuadradas, esto lleva a obtener un valor máximo de C el cual será:
k −1
C max = Donde: k= # de filas o columnas
k
Al comparar C con Cmax se puede obtener una idea de la intensidad de la asociación entre
las dos variables. A diferencia de las otras medidas de correlación, C max no varia entre -1 y
+1. En lugar de ello, su valor mas pequeño es cero, y el valor mas grande es menor de 1,
dado que la razón (k-1)/k siempre será menor que 1. Esto limita la utilidad del coeficiente
de contingencia, ya que únicamente se pueden comparar tablas cuadradas (igual numero
de filas y columnas)
La interpretación del coeficiente de contingencia se hace comparando C vs Cmax y
cuanto mas tienda a 1 la relación de C/Cmax mas intensa será la relación
Apuntes de Regresión y Correlación 17
Ing. Ilse A.Bernal Mar
Si:
Ventajas:
Desventajas:
Para evaluar los modelos de regresión obtenidos se requiere realizar las siguientes pruebas
estadísticas.
Si algunos de los coeficientes (bi) del modelo fuesen nulos, significaría que las
variables correspondientes no son importantes en la determinación del modelo de
regresión. Por lo tanto, es sumamente importante determinar la validez de estos
coeficientes, para ello se utilizan los estadísticos t que se presentan.
• Prueba de significancia global del modelo, que prueba la Hipótesis Nula que
todos los parámetros del modelo excepto el intercepto son simultáneamente
iguales a cero. Se estima el estadístico de la prueba que aproximadamente
tiene una distribución F con grados de libertad: ?1 igual al número de
parámetros a probar y ?2 igual al número de conglomerados menos el número
de estratos de la muestra.
Este análisis se lleva a cabo para comprobar si se cumplen o no los supuestos del modelo.
En el Modelo de Regresión se supone que los errores verdaderos son independientes con
distribución N (0,s2). Los residuos que se obtienen en el proceso son estimaciones de los
verdaderos errores y la estimación de s2 es la media de los cuadrados de los residuos, s2,
donde s es el error estándar de la estimación.
El hecho que la media de los residuos sea igual a cero es consecuencia del método de
estimación de los parámetros en la función de regresión.
La Distribución de los residuos debe ser Normal: los residuos observados y esperados bajo
la hipótesis de Distribución Normal deben ser parecidos. Esta suposición se comprueba con
el gráfico de probabilidad Normal, que permite comparar gráficamente la función de
distribución observada en la muestra tipificada, con la función de distribución Normal. Si la
distribución de los residuos fuera Normal, dichos valores deberían ser aproximadamente
iguales y en consecuencia, los puntos del gráfico estarían situados sobre la recta que pasa
por el origen con pendiente igual a 1.
Las varianzas de las distribuciones de la variable dependiente ligadas a los distintos valores
de las variables independientes deben ser iguales. Los residuos no deben presentar ningún
patrón sistemático respecto a las predicciones o respecto a cada una de las variables
independientes. Para analizar la homogeneidad de varianzas utilizaremos el gráfico de
dispersión de los residuos tipificados frente a las estimaciones tipificadas.