Regresion y Correlacion - Teoria - Apuntes

Apuntes de Regresión y Correlación 1
Ing. Ilse A.Bernal Mar
Regresión y Correlación
INTRODUCCIÓN
La Regresión y la Correlación son dos técnicas estrechamente relacionadas que

comprenden una forma de estimación. La diferencia entre estas técnicas y el tipo de
estimación estudiando anteriormente radica en que las técnicas anteriores se utilizaron para
evaluar un parámetro de población única, en tanto que los métodos que se presentaran a
continuación se emplean en la estimación de una relación que pude existir en la población.
En forma más especifica, el análisis de correlación y regresión comprende el análisis de los

datos muestrales para saber si y como se relacionan entre si dos o mas variables en una
población. El análisis de correlación produce un número que resume el grado de relación
entre dos variables; y el análisis de regresión da lugar a una ecuación matemática que
describe dicha relación. Esta ecuación se puede utilizar para estimar o predecir los valores
futuros que puede tener una variable cuando se conocen o suponen los valores de la otra
variable. El análisis de correlación generalmente resulta útil para un trabajo de exploración
cuando un investigador o analista trata de determinar que variables son potencialmente
importantes, y el interés radica básicamente en la fuerza de la relación.
La correlación mide la fuerza de una relación entre variables; La regresión da lugar

a una ecuación que describe dicha relación en términos matemáticos.
Los datos necesarios para el análisis de regresión y correlación provienen de

observaciones de variables relacionadas. En el caso de un problema de dos variables, esto
significa que cada observación proporciona dos valores, uno para cada variable.
Regresión lineal. La Regresión Lineal simple comprende el intento de desarrollar una

línea recta o ecuación matemática lineal que describa la relación entre dos variables.
Las ecuaciones de regresión pueden ser utilizadas de diversas formas.

✓ Se emplean en situaciones en las que las dos variables miden aproximadamente lo
mismo, pero en las que una variable es relativamente costosa, o, por el contrario,
es poco interesante trabajar con ella, mientras que con la otra variable no ocurre lo
mismo.
✓ Otra forma de emplear las ecuaciones de regresión es para explicar los valores de
una variable en términos de la otra. Es decir, se puede intuir una relación de causa
y efecto entre dos variables. Sin embargo, se deberá observar que, la lógica de una
relación causal, debe provenir de teorías externas al campo de la estadística. El
análisis de regresión únicamente indica qué relación matemática podría haber, de
existir una. En otras palabras, ni con la regresión ni con la correlación se puede
establecer si una variable tiende a “causar” ciertos valores de otra variable.
✓ Un tercer uso de la ecuación de regresión es para predecir los valores futuros de
una variable.
Aunque estas relaciones podrían asumir una gran variedad de formas, la explicación que
daré aquí se limitará a ecuaciones lineales. Otras formas de análisis de regresión, tales
como la regresión múltiple (más de dos variables) y la regresión curvilínea (para relaciones
de forma no lineal) comprenden extensiones de los mismos conceptos que se utilizan en la
regresión lineal simple.
La ecuación lineal. Dos características importantes de una ecuación lineal son:
1. La pendiente de la recta
2. La localización de la recta en algún punto
Una ecuación lineal tiene la forma y = a + bx
En la que a y b son valores que se determinan a partir de los datos de la muestra; a indica
la altura de la recta en x = 0, y b señala su pendiente. La variable y es la que se habrá de
predecir, y x es la variable predictora.
Y
Decisión acerca de un tipo de relación. Cuando los datos no se pueden aproximar con
un modelo lineal, las alternativas son buscar un modelo no lineal adecuado, o bien, cambiar
los datos a la forma lineal. Por ejemplo, si se convierten una o ambas escalas en
logarítmicas puede llegarse a un modelo lineal.
Determinación de la ecuación matemática. Concentremos nuestra atención en la forma

de obtener la ecuación de la recta que mejor describa un conjunto de observaciones.
En la regresión, los valores de “y” son predichos a partir de valores de “x” dados o
conocidos. La variable “y” recibe el nombre de variable dependiente y la variable
“x”, el de variable independiente.
Método de mínimos cuadrados. El procedimiento que más se utiliza para adaptar una
recta a un conjunto de puntos se conoce como método de los mínimos cuadrados. La recta
resultante presenta dos características importantes:
1. Es nula la suma de las desviaciones verticales de los puntos a partir de la recta.

2. Es mínima la suma de los cuadrados de dichas desviaciones.
Simbólicamente, el valor que se minimiza es:
(y − y )
2
i c
Donde: yi = valor observado de y

yc = valor calculado de y usando la ecuación de mínimos cuadrados con el
valor correspondiente para x de yi .
Los valores de a y b para la recta yc = a + bx que minimiza la suma de los cuadrados

de las desviaciones, son las soluciones a las llamadas “ecuaciones normales”.
 y = na + b( x )
 xy = a( x ) + b( x ) 2
En las que n es el numero de pares de observaciones. Así, evaluando las diversas

cantidades, como  
x, xy , etc. Se pueden resolver estas dos ecuaciones simultáneas
para determinar a y b.
a=
( y ) − b( x ) = Y − b X
n
n( xy ) − ( x )( y )  xy − nXY

b= =
( )
n  x 2 − ( x )
2
 ( x ) − n( X )
2 2
Es importante observar ciertos hechos con respecto a una ecuación de regresión. Uno de
ellos es que corresponde a una relación promedio. Otro punto de importancia es que seria
muy riesgoso tratar de utilizar la ecuación para determinar puntos fuera del intervalo de
datos. La línea de regresión tiene la interesante propiedad de que siempre pasa por el punto
(x, y) promedios.
Inferencias en el análisis de regresión. Los datos muéstrales que se utilizan para calcular
una línea de regresión se pueden considerar como un número relativamente pequeño de
posibles observaciones, a partir de una población infinita de pares de valores. En este
sentido, la línea de regresión calculada se puede considerar como una estimación de la

relación real, pero desconocida, que existe entre las dos variables de la población. Por
tanto, los coeficientes de regresión a y b sirven como estimaciones de punto de los dos
parámetros de población correspondientes A y B y la ecuación
yc = a + bx
Es un estimado de la relación de la población y = A + Bx + e, donde e representa la

dispersión en aquella.
Cabe observar que, incluso en la población, los valores no caen sobre una sola recta, sino
que tienden a mostrar cierto grado de dispersión. De hecho, si no hubiera dispersión en la
población, todas las observaciones de la muestra caerían en una recta única, y no habría
necesidad de deducir inferencias respecto a los valores verdaderos de la población. Por
desgracia, en la vida real existen pocos ejemplos de poblaciones en las que no existe
dispersión.
Una pregunta razonable podría ser: “¿por qué hay dispersión?” La respuesta radica en el
hecho de que no hay una relación perfecta entre las dos variables en la población. Existen
otras variables que influyen en los valores de la variable dependiente, quizás un número
sorpresivamente grande de otras variables que no se incluyen en el análisis de regresión.
La dispersión en la población significa que, para cualquier valor dado de x, habrá muchos
valores posibles de y.
Y
y = A + Bx
Líneas de regresión posibles para diferentes

muestras.
X
El análisis de regresión supone que, para cada valor posible de “x” existe una distribución
de las “y” potenciales que es de carácter normal. Esta recibe el nombre de distribución
condicional (esto es, dada x). Dicha distribución equivale a una delgada porción vertical de
la población tomada en un valor dado de x. La media de cada distribución condicional es
igual al valor promedio de y en la población para esa x partículas y = A + Bx se estima
mediante yc = a + bx. Además se supone que todas las distribuciones condicionales tienen
la misma desviación estándar, y que “y” es una variable aleatoria (es decir, las x se pueden
preseleccionar, pero no las y).
Así, los supuestos para el análisis de regresión son como sigue:

✓ Existen datos de medición para “x” y “y”.
✓ La variable dependiente es una variable aleatoria
✓ Para cada valor de x, existe una distribución condicional de las y que es de
naturaleza normal
✓ Las desviaciones estándares de todas las distribuciones condicionales son iguales.
El error estándar de estimación. La pregunta que surge en forma natural en el análisis de

regresión es: “¿Cuán exactas son las diversas estimaciones de regresión?”. La
determinante primaria de la exactitud es el grado de dispersión de la población: cuanto mas
dispersa este, menor será la exactitud de las estimaciones. El grado de dispersión en las
poblaciones se puede estimar a partir del grado de dispersión en las observaciones de las
muestras con respecto a la línea de regresión calculada, utilizando la formula
s xy =
(y i − yc )2
n−2
En la cual: yi = cada valor de y

yc = valor de la línea de regresión correspondiente a partir de la
ecuación de regresión
n = Numero de observaciones.
Esto es simplemente un cálculo de la desviación estándar, en la que y c, sustituye a la media

de la muestra, y con n – 2 en el denominador en vez de n – 1. La razón de que sea n – 2,
es que se pierden dos grados de libertad al calcular las dos constantes, a y b, en la ecuación
de regresión. El uso de yc en lugar de yprom proviene del hecho de que se quiere utilizar la
línea de regresión como centro o punto de referencia, en vez de la media de la muestra,
para medir la dispersión con respecto a la recta.
La formula anterior no se utiliza por lo general para cálculos reales, debido a que es mas
fácil trabajar con la formula simplificada (que se obtuvo al sustituir yc por la ecuación de
regresión y al completar el cuadrado). Es decir:
s xy =
y 2
− a y − b xy
n−2
El calculo del error estándar se funda en el supuesto de que se produce una dispersión
uniforme de los puntos respecto a la línea de regresión, que es otra forma de expresar que
se supone que las distribuciones condicionales de los valores de y tienen iguales
desviaciones Standard.
Inferencias acerca de la pendiente de una línea de regresión. Aun cuando es muy poca
o nula la relación entre dos variables de una población, es posible obtener valores
maestrales que hacen que parezca que las variables están relacionadas.
De esta manera, es importante probar los resultados de tales cálculos, a fin de determinar
si son significativos. Por tanto, es conveniente distinguir entre esos casos en los que dos
variables se relacionan, y aquellos en los que las variables no están relacionadas, Si no
existe ninguna relación, se esperaría obtener una pendiente cero. De este modo, se quiere
poner a prueba la hipótesis nula
H0 : B = 0
Contra la hipótesis alternativa
H1 : B ≠ 0
La significación del coeficiente de regresión se puede probar comparándolo con su

desviación estándar Sb. Es decir,
Distribución de muestreo para la

pendiente de regresión.
Rechazar Ho Aceptar Ho Rechazar Ho
-t B=0 +t
La desviación estándar de la distribución de muestreo para la pendiente se calcula por la

formula:
1
s b = s xy
(
 x 2  )
 x 2
−  n 
 
Se puede obtener mayor información, al establecer un intervalo de confianza para el valor

verdadero B, en lugar de probar únicamente la significación de b. Es decir, la prueba de
significación puede indicar que el valor verdadero probablemente no sea cero. Así, la
pregunta natural es: “¿Cuál es el valor verdadero?” Esto nos lleva a calcular el intervalo de
confianza para B. Dicho intervalos es b  tsb , o bien, alternativamente,
b − tsb  B  b + tsb
En realidad, el intervalo de confianza puede tener una doble finalidad. Sin duda, indica el
intervalo probable en el que pueda estar el valor verdadero, pero también se pude utilizar
para probar la significación de una pendiente de la muestra.
Estimación y Prueba de Hipótesis acerca de la pendiente

de la línea de regresión.
Población Muestra Regresión

X1, Y1
X2, Y2
X3, Y3
X4, Y4
(X, Y) …….
……
…… y = a + bx
……
(x, y) ……
Xn, Yn
Muestra
Hipótesis que se quieren probar:

H0 : B = 0
H1 : B ≠ 0
Distribución de muestreo
para la pendiente de
Sb
regresión.
Rechazar Ho Aceptar Ho Rechazar Ho
b
-t B0=0 +t
Valor estadístico de prueba:
Decisión: Aceptar H0 si: -t+ < tp < +t+

Rechazar H0 si: -t+ > tp > +t+
El coeficiente de determinación (r2). Una medida útil, asociada a la línea de regresión

es el grado en el que las predicciones que se basan en la ecuación de regresión son
superiores a las basadas en y. Es decir, si las predicciones que se fundamentan en la recta
no son mejores que las que utilizan el valor promedio de y, no tiene sentido contar con una
ecuación de regresión. Una prueba de significación para B indicará si la pendiente es cero
o no, pero es difícil traducir esto en una medida que refleje el grado en el que los valores
de y están relacionados con los valores de x. Por otra parte, el coeficiente de
determinación, r2, interviene directamente en esto.
 (y − yc )
2
S xy =
i
Sea:
n−2
La desviación estándar de la variación de los puntos y i respecto al valor calculado por la
función de regresión yc.
 (y − y)
2
Sy =
i
Y sea:
n −1
La desviación estándar de la variación de los puntos y i respecto al valor promedio de la
variable dependiente; o sea, la desv. Std de la población de la variable dependiente.
Variación de puntos
Variación de puntos respecto a la media del
Sy respecto a la línea de grupo
regresión ( yc )
Dist. Normal
Sxy
Si: Sxy = 0 Indica relación perfecta entre x e y

Si: Sxy = Sy Indica ausencia de relación entre x e y
S xy
Por lo tanto, podemos entender que: 0  1
Sy
S xy
Y cuando 0 indica relación perfecta entre x e y
Sy
S xy
Y cuando 1 Indica que no existe relación entre x e y
Sy
De ahí que el coeficiente de determinación r2 será:
La variación de los puntos respecto de y recibe el nombre de variación total, y se calcula

como la suma de las desviaciones elevadas al cuadrado:
 (y − y)
2
Variación total = i
Variación de puntos respecto a la media

del grupo
Variación de puntos respecto a la

línea de regresión ( yc )
Las desviaciones verticales de las y, respecto de la línea de regresión reciben el nombre

de variaciones “no explicadas “, ya que no se pueden explicar por el valor de x solamente
(es decir, hay dispersión aun después que la recta es tomada en consideración). La
desviación no explicada se calcula como la suma de los cuadrados de las desviaciones
respecto de la recta:
Variación no explicada = (y i − yc )

2
El grado de desviación explicada mediante la línea de regresión es la diferencia entre la

variación total y la variación no explicada:
Variación explicada = variación total – variación no explicada
El porcentaje de variación explicada, r2, es la razón de la variación explicada a la variación

total:
Desde el punto de vista de cálculo, el uso de varianzas en lugar de suma de cuadrados es

una posibilidad útil. Es importante observar que, en las ecuaciones de correlación y
regresión, el cálculo de la varianza de los valores y, Sy, tiene como denominador a n-2, en
lugar del común n-1. Mediante variancias, la formula para calcular r2 resulta:
 (y − yc )
2
−S
2 2 2 i
S S n−2
r2 = y e
= 1− e
= 1−
 (y − y)
2 2 2
S y S y i
n−2
( y )2 
(
n  y − 2
n
) 
 
Donde: S y2 =
n−2
El valor de r2 puede variar de 0 a 1.00. Cuando la variación no explicada es un gran

porcentaje de la variación total, r2 será pequeña. Por el contrario, cuando la dispersión es
pequeña respecto de la línea de regresión, relativa a la variación total de los valores de y
con respecto a su media, esto significa que la variación explicada justifica un gran
porcentaje de la variación total, y r2 estará mucho más próxima a 1.00.
Análisis de varianza para la regresión simple.- Es posible demostrar la significancía de

la línea de regresión utilizando el método del análisis de varianza. Recuerde usted que la
prueba es valida si se puede suponer que las k muestras independientes han sido
obtenidas a partir de poblaciones normales que tienen varianzas iguales. Por tanto, se
supone que las observaciones provienen de poblaciones normales con varianzas iguales,
y se realizan pruebas para obtener la independencia entre las k (que son 2) variables.
Recordemos como obtenemos F;
En términos de Análisis de regresión, esto es:
 (y − y)
2
c
F = 1
(y − yc )
2
(n − 2 )
i
Grados
Fuente de Estimación de
Suma de Cuadrados de Razón F
variación varianza
libertad
Línea de
 (y − y)
regresión 2
SSR= 1 Sb2 = SSR / 1 Fp = Sb2 / Sw2
(intermediante) c
Error
(y − y )
2
SSE=
(interno) i c n-2 Sw2 = SSE / n-2
 (y − y)
2
SST=
Total i n-1
Nota: La prueba F con un grado de libertad en el numerador equivale a una prueba t.
Ho: No existe relación entre las variables “x” y “y”

H1: Si existe relación entre las variables “x” y “y”
Decisión: Si Fp > F* Rechazar Ho y Aceptar H1

Si Fp < F* Aceptar Ho y Rechazar H1
Intervalos de predicción en el análisis de regresión. El valor predicho de y, que se

obtuvo a partir de la ecuación de regresión para un valor específico de x, se puede
considerar de dos maneras:
✓ Se puede referir al promedio o valor medio de y respecto a un valor dado de x, o
bien
✓ A un valor individual de y que cabria esperar.
El valor en ambos casos seria el mismo, pero el intervalo de confianza para esa predicción
dependerá del punto de vista que se este empleando. Los intervalos de confianza para
estas predicciones se basan en las desviaciones estándar de sus respectivas cantidades.
En lo que respecta al valor promedio de y, la desviación estándar de yc es:
1 (x − x)
2
S yc = S e +
g
n ( x )2 
 x −
2
 n 

 

donde xg es un valor dado de x. Para los valores individuales de y, un solo termino, 1, se

suma a la expresión bajo el radical:
1 (x − x)
2
S yi = S e 1+ +
g
n ( x )2 
x − 2
n 
 
Estas dos últimas ecuaciones significan que el intervalo de confianza para valores
individuales de y, correspondientes a un valor dado de x, es ligeramente mayor que el
intervalo para el valor promedio de y. Los valores individuales son análogos a una población
de ellos mientras que los valores promedios tienen analogía con una distribución de
muestreo de medias de dicha población. Esto ultimo siempre tendera a tener una desviación
Standard menor que la desviación estándar de la población.
Si fuera posible calcular intervalos de confianza para todos los valores posibles de x, el
resultado seria un par de “bandas de confianza” alrededor de la línea de regresión. Cabe
observar que las bandas son mas estrechas cuando xg=xprom, y se van ampliando a medida
que aumenta la distancia de xg a partir de la media.
Y
(x,y)
Línea de regresión
Banda de confianza para yi
Banda de confianza para yc
Análisis de Correlación. El objetivo de un estudio de correlación es determinar la

consistencia de una relación entre observaciones por pares. El termino “correlación”
literalmente significa relación mutua, ya que indica el grado en el que los valores de una
variable se relacionan con los de otra variable. El resultado de un análisis de esta naturaleza
es un coeficiente, de correlación, valor que cuantifica el grado de correlación existente.
La manera de calcular el coeficiente de correlación es según sea el tipo de datos que

dispongamos, a continuación se mencionara la forma de obtener el coeficiente de
correlación para:
✓ Datos de medición; datos Cuantitativos (Continuos) : r de Pearson
✓ Datos Cualitativos (Nominales): El coeficiente de contingencia.
Datos continuos: r de Pearson. La forma mas común del análisis de correlación

comprende datos continuos. El grado de relación entre dos variables continuas se resume
mediante un coeficiente de correlación que se conoce como “r de Pearson” en honor al

matemático Kart Pearson, Este método supone lo siguiente:
✓ Tanto x como y son variables aleatorias continuas. Es decir, a diferencia del análisis
de regresión, no es aceptable seleccionar ciertos valores de x, y después medir y;
tanto x como y deben variar libremente.
✓ La distribución conjunta de frecuencia (es decir, la distribución de valores de los
pares x,y) es normal (Distribución normal bivariada).
Características de r. El coeficiente de correlación presenta dos propiedades que establecen

la naturaleza de una relación entre dos variables.
✓ Una es su signo (+ ó -). El signo indica el sentido de la pendiente de la línea de

regresión que se ajustaría a los datos
✓ La otra es su magnitud; la magnitud de r indica cuan cerca están los datos
observados de la “recta” que se ajustaría a tales puntos.
En forma más precisa se puede señalar lo siguiente:
✓ El valor de r puede estar en el intervalo que va de -1 a +1, así: -1 r +1

✓ Una relación positiva (r es de signo +) entre dos variables significa que los valores
altos de una variable forman pares con valores altos de la otra variable, y que los
valores bajos de una forman pares con valores bajos de la otra.
✓ Una relación negativa (r es de signo -) significa que valores bajos de una variable
forman pares con valores altos de la otra variable.
✓ Una relación cero (r = 0) significa que no existe relación entre las variables pues
algunos valores altos de una de variable forman pares con valores altos de la otra,
y algunos altos de la primera variable forman pares con valores bajos de la segunda.
✓ El signo de r siempre es igual al signo de b, que esta pendiente de una curva que
se ajusta a los datos.
Correlación producto-momento: El termino producto-momento describe la forma como los

valores por pares se combinan para obtener el coeficiente de correlación. El procedimiento
para obtener el coeficiente de correlación por este método es el siguiente:
1. Tome los datos de x y de y (parejas de datos).

2. Calcule el xprom y el yprom, así como sx y sy.
3. Estandarice los datos de x y y. Convierta cada dato en su valor relativo z
respecto al promedio correspondiente.
4. Obtenga el producto de cada par de valores estandarizados
5. Sume los productos
6. Determine el producto promedio, el cual es el coeficiente de correlación.
r=
Z x Zy
n −1
Si bien el coeficiente de correlación es útil e importante, un valor estadístico más

significativo es r2, que es el coeficiente de determinación (ya explicado con anterioridad) el
cual muestra el % de variación de una variable que es explicada estadísticamente, o
considerada como tal, por la variación de la otra variable.
xprom
Zy y
II I
yprom
III IV
Zx
La aplicación de este procedimiento para el calculo de r suele ser poco practica porque
implica muchos cálculos, y ello lleva mucho tiempo, por ello podemos simplificar el
procedimiento aplicando la siguiente formula simplificada.
 
n  xy − ( x )( y )
r=
n( x ) − ( x ) ( )
 n  y 2 − ( y )
2 2 2
Datos Cualitativos (Nominales): El coeficiente de contingencia. Cuando ambas

variables se miden en escalas nominales (es decir categorías, atributos, características
etc.), el análisis se facilita mediante el desarrollo de una tabla de contingencia semejante al
que se uso en el análisis de prueba de hipótesis de proporciones de k poblaciones (análisis
de k proporciones o prueba de ji cuadrado). De hecho el procedimiento es una extensión
del análisis de una tabla de r x k.
Variable y
Variable x a b j Total
A fAa fAb ...... fAj fA
B fBa fBb ...... FBj fB
R fRa fRb ..... fRj fR

TOTAL fa fb fj N
Donde: A, B, ....R Categorías de la variable x

a, b, .....j Categorías de la variable y
fR,j = Frecuencia observada para la casilla R,j.
Cabe observar que hay dos importantes diferencias entre la tabla de contingencia que aquí
se analiza y las anteriores tablas r x k que se utilizaron en pruebas para conocer el grado
de independencia. En el caso anterior se hablaba de k muestras, mientras que aquí
hablamos de una muestra, los datos de contingencia forman parte de una sola muestra en
la que cada observación ha sido clasificada de acuerdo con dos variables separadas;
Además, la variable esta ordenada de la categoría mas baja a la mas alta o viceversa; esto
es, las categorías presentan dirección, mientras que en el caso r x k no era necesario.
Una vez definida la tabla podemos calcular el valor de X2, donde
 ( f o − f e )2   ( frecuencia observada − frecuencia esperada)2 

X = 
2
 =  
 f e   frecuencia esperada 
Lo cual nos permitirá calcular el coeficiente de contingencia C, el cual es:
2
C= Donde: N=# total de observaciones
2 +N
Un aspecto interesante de una tabla de ji cuadrada es que el tamaño máximo posible de X 2
es función de N, del cuadrado de observaciones y del tamaño de la tabla. En el caso de
tablas cuadradas, esto lleva a obtener un valor máximo de C el cual será:
k −1
C max = Donde: k= # de filas o columnas
k
Al comparar C con Cmax se puede obtener una idea de la intensidad de la asociación entre
las dos variables. A diferencia de las otras medidas de correlación, C max no varia entre -1 y
+1. En lugar de ello, su valor mas pequeño es cero, y el valor mas grande es menor de 1,
dado que la razón (k-1)/k siempre será menor que 1. Esto limita la utilidad del coeficiente
de contingencia, ya que únicamente se pueden comparar tablas cuadradas (igual numero
de filas y columnas)
La interpretación del coeficiente de contingencia se hace comparando C vs Cmax y
cuanto mas tienda a 1 la relación de C/Cmax mas intensa será la relación
Si:
mayor será la intensidad de la relación entre las variables
Se debe observar que la formula no produce automáticamente el signo del coeficiente de

contingencia. De ahí que no siempre resulte evidente si existe una relación positiva o
negativa. Es necesario hacer un cuidadoso examen visual de los datos para determinar
esto.
Algunas de las ventajas y limitaciones de esta técnica se señalan a continuación:
Ventajas:
✓ No se requiere de supuestos respecto a la forma de la población

✓ Solamente se necesita una medición nominal
Desventajas:
✓ El límite superior de C es menor que 1, incluso para una correlación perfecta.

✓ El límite superior depende del tamaño de la tabla, por lo que no son comparables
los coeficientes de contingencia de tablas de tamaño diferente.
✓ El coeficiente de contingencia no es directamente comparable con otras medidas de
correlación, como la r de Pearson, o incluso con otras tablas de contingencia de
tamaños diferentes.
✓ Cada casilla deberá tener una frecuencia esperada de tamaño 5 por lo menos
✓ Conforme crece el número de filas (o columnas) el valor de C max tiende más a 1.
Pruebas estadísticas en análisis de regresión

Para evaluar los modelos de regresión obtenidos se requiere realizar las siguientes pruebas
estadísticas.
• Prueba t de la Hipótesis nula de que el valor poblacional de cada coeficiente

de regresión individual es cero, es verdadera.
Si algunos de los coeficientes (bi) del modelo fuesen nulos, significaría que las
variables correspondientes no son importantes en la determinación del modelo de
regresión. Por lo tanto, es sumamente importante determinar la validez de estos
coeficientes, para ello se utilizan los estadísticos t que se presentan.
• Prueba de significancia global del modelo, que prueba la Hipótesis Nula que
todos los parámetros del modelo excepto el intercepto son simultáneamente
iguales a cero. Se estima el estadístico de la prueba que aproximadamente
tiene una distribución F con grados de libertad: ?1 igual al número de
parámetros a probar y ?2 igual al número de conglomerados menos el número
de estratos de la muestra.
• El coeficiente de determinación R2, que mide la proporción de variabilidad de

la variable dependiente que es explicada mediante el Modelo de Regresión.
Análisis de los residuales
Este análisis se lleva a cabo para comprobar si se cumplen o no los supuestos del modelo.
En el Modelo de Regresión se supone que los errores verdaderos son independientes con
distribución N (0,s2). Los residuos que se obtienen en el proceso son estimaciones de los
verdaderos errores y la estimación de s2 es la media de los cuadrados de los residuos, s2,
donde s es el error estándar de la estimación.
El hecho que la media de los residuos sea igual a cero es consecuencia del método de
estimación de los parámetros en la función de regresión.
La Distribución de los residuos debe ser Normal: los residuos observados y esperados bajo
la hipótesis de Distribución Normal deben ser parecidos. Esta suposición se comprueba con
el gráfico de probabilidad Normal, que permite comparar gráficamente la función de
distribución observada en la muestra tipificada, con la función de distribución Normal. Si la
distribución de los residuos fuera Normal, dichos valores deberían ser aproximadamente
iguales y en consecuencia, los puntos del gráfico estarían situados sobre la recta que pasa
por el origen con pendiente igual a 1.
Respecto a la independencia, el valor observado en una variable para un individuo no debe

ser influenciado en ningún sentido por los valores de esta variable observados en otros
individuos: los residuos no deben presentar ningún patrón sistemático respecto a la
secuencia de observación. El estadístico D de Durbin-Watson, mide el grado de
autocorrelación entre el residuo correspondiente a cada observación y la anterior. Si el valor
es próximo a 2, los residuos estarán incorrelacionados; si se aproxima a 4, estarán
negativamente autocorrelacionados y si se aproxima a 0 estarán positivamente
autocorrelacionados.
El estadístico D se calcula con la siguiente fórmula:
Las varianzas de las distribuciones de la variable dependiente ligadas a los distintos valores
de las variables independientes deben ser iguales. Los residuos no deben presentar ningún
patrón sistemático respecto a las predicciones o respecto a cada una de las variables
independientes. Para analizar la homogeneidad de varianzas utilizaremos el gráfico de
dispersión de los residuos tipificados frente a las estimaciones tipificadas.
Notas: La estadística D de Durbin-Watson que prueba la independencia de los residuos, es

decir, que valores observados en una variable para un individuo no deben verse
influenciados por los valores de la variable en otros individuos, proporciona valores que
pueden fluctuar entre 0 y 4. Un valor cercano a cero indicará auto correlación positiva, en
tanto que uno cercano a 4, auto correlación negativa. El valor 2 indica ausencia de auto
correlación; que es lo esperado en un modelo de Regresión.

Regresion y Correlacion - Teoria - Apuntes

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Regresion y Correlacion - Teoria - Apuntes

Cargado por

Copyright:

Formatos disponibles

Apuntes de Regresión y Correlación 1

Ing. Ilse A.Bernal Mar

La Regresión y la Correlación son dos técnicas estrechamente relacionadas que

En forma más especifica, el análisis de correlación y regresión comprende el análisis de los

La correlación mide la fuerza de una relación entre variables; La regresión da lugar

Los datos necesarios para el análisis de regresión y correlación provienen de

Regresión lineal. La Regresión Lineal simple comprende el intento de desarrollar una

Las ecuaciones de regresión pueden ser utilizadas de diversas formas.

La ecuación lineal. Dos características importantes de una ecuación lineal son:

Una ecuación lineal tiene la forma y = a + bx

Determinación de la ecuación matemática. Concentremos nuestra atención en la forma

1. Es nula la suma de las desviaciones verticales de los puntos a partir de la recta.

Simbólicamente, el valor que se minimiza es:

Donde: yi = valor observado de y

Los valores de a y b para la recta yc = a + bx que minimiza la suma de los cuadrados

En las que n es el numero de pares de observaciones. Así, evaluando las diversas

n( xy ) − ( x )( y )  xy − nXY

sentido, la línea de regresión calculada se puede considerar como una estimación de la

Es un estimado de la relación de la población y = A + Bx + e, donde e representa la

Líneas de regresión posibles para diferentes

Así, los supuestos para el análisis de regresión son como sigue:

El error estándar de estimación. La pregunta que surge en forma natural en el análisis de

En la cual: yi = cada valor de y

Esto es simplemente un cálculo de la desviación estándar, en la que y c, sustituye a la media

Contra la hipótesis alternativa

La significación del coeficiente de regresión se puede probar comparándolo con su

Distribución de muestreo para la

Rechazar Ho Aceptar Ho Rechazar Ho

La desviación estándar de la distribución de muestreo para la pendiente se calcula por la

Se puede obtener mayor información, al establecer un intervalo de confianza para el valor

Estimación y Prueba de Hipótesis acerca de la pendiente

Población Muestra Regresión

Hipótesis que se quieren probar:

Rechazar Ho Aceptar Ho Rechazar Ho

Valor estadístico de prueba:

Decisión: Aceptar H0 si: -t+ < tp < +t+

El coeficiente de determinación (r2). Una medida útil, asociada a la línea de regresión

Si: Sxy = 0 Indica relación perfecta entre x e y

De ahí que el coeficiente de determinación r2 será:

La variación de los puntos respecto de y recibe el nombre de variación total, y se calcula

Variación de puntos respecto a la media

Variación de puntos respecto a la

Las desviaciones verticales de las y, respecto de la línea de regresión reciben el nombre

Variación no explicada = (y i − yc )

El grado de desviación explicada mediante la línea de regresión es la diferencia entre la

Variación explicada = variación total – variación no explicada

El porcentaje de variación explicada, r2, es la razón de la variación explicada a la variación

Desde el punto de vista de cálculo, el uso de varianzas en lugar de suma de cuadrados es

El valor de r2 puede variar de 0 a 1.00. Cuando la variación no explicada es un gran

Análisis de varianza para la regresión simple.- Es posible demostrar la significancía de

Recordemos como obtenemos F;

En términos de Análisis de regresión, esto es:

Nota: La prueba F con un grado de libertad en el numerador equivale a una prueba t.

Ho: No existe relación entre las variables “x” y “y”

Decisión: Si Fp > F* Rechazar Ho y Aceptar H1

Intervalos de predicción en el análisis de regresión. El valor predicho de y, que se

donde xg es un valor dado de x. Para los valores individuales de y, un solo termino, 1, se

Banda de confianza para yi

Banda de confianza para yc

Análisis de Correlación. El objetivo de un estudio de correlación es determinar la

La manera de calcular el coeficiente de correlación es según sea el tipo de datos que

Datos continuos: r de Pearson. La forma mas común del análisis de correlación

mediante un coeficiente de correlación que se conoce como “r de Pearson” en honor al