Regresión y Correlación

Análisis de
Regresión y Correlación
CB-412 V
Lic. Yolanda Segura García
CB-412 1
Introducción
Muchas veces las decisiones se basan en la relación entre
dos o más variables.Ejemplos
• Dosis de fertilizantes aplicadas y rendimiento del cultivo.
• La relación entre la radiación que reciben los sensores con

la que se predicen los rendimientos por parcelas con los
rendimientos reales observados en dichas parcelas.
• Relación entre tamaño de un lote de producción y horas –

hombres utilizadas para realizarlo.
Distinguiremos entre relaciones funcionales y relaciones
estadísticas
CB-412 2
Relación funcional entre dos
variables
Una relación funcional se expresa mediante
una función matemática.
Si X es la variable independiente e Y es la variable
dependiente, una relación funcional tiene la forma:
Y=f(X)
Ejemplo 1
Parcela Dosis Rend.(kg/h)
1 75 150
2 25 50
3 130 260
CB-412 3
Figura 1
Relación funcional perfecta entre dosis y
rendimientos
300
250
Rendimiento
200
150
Rend.
100
50
0
0 20 40 60 80 100 120 140
Dosis
Nota: Las observaciones caen exactamente sobre la línea de

relación funcional CB-412 4
Relación estadística entre dos variables
A diferencia de la relación funcional, no es una

relación perfecta, las observaciones no caen
exactamente sobre la curva de relación entre las
variables
Ejemplo 2
Lote de prod. Tamaño del lote Horas hombre
1 30 73
2 20 50
3 60 128
4 80 170
5 40 87
CB-412 5
Figura 2
Relación estadística entre tamaño del lote y
horas hombre
1 80
1 60
Horas hombre
1 40
1 20
1 00
80
Horas hombre
60
40
20
0
0 10 20 30 40 50 60 70 80 90
Tamaño del lote
Nota: La mayor parte de los punto no caen directamente sobre

la línea de relación estadística.
Esta dispersión de punto alrededor de la línea representa la
variación aleatoria CB-412 6
Figura 3
Coordenadas de puntos de control utilizados
para corregir la columna de los niveles
digitales de una imagen satelital
7000
6000
5000
4000
3000
2000
1000
0
0 2 4 6 8 10 12 14 16
Nota: se trata de un terreno rugoso donde varían notablemente

las condiciones de observación del sensor, para corregir errores
geométricos de la imagen, se aplican funciones de segundo
grado. Los datos sugieren que la relación estadística es de tipo
curvilínea. CB-412 7
Conceptos básicos
Análisis de Regresión: Es un procedimiento estadístico que estudia la
relación funcional entre variables.Con el objeto de predecir una en
función de la/s otra/s.
Análisis de Correlación: Un grupo de técnicas estadísticas usadas para
medir la intensidad de la relación entre dos variables
Diagrama de Dispersión: Es un gráfico que muestra la intensidad y el
sentido de la relación entre dos variables de interés.
Variable dependiente (respuesta, predicha, endógena): es la variable
que se desea predecir o estimar
Variables independientes (predictoras, explicativas exógenas). Son las
variables que proveen las bases para estimar.
Regresión simple: interviene una sola variable independiente
Regresión múltiple: intervienen dos o más variables independientes.
Regresión lineal: la función es una combinación lineal de los
parámetros.
Regresión no lineal: la función que relaciona los parámetros no es una
combinación lineal
CB-412 8
Gráfico de dispersión
Los diagramas de dispersión no sólo muestran la
relación existente entre variables, sino también resaltan
las observaciones individuales que se desvían de la
relación general. Estas observaciones son conocidas
como outliers o valores inusitados, que son puntos de
los datos que aparecen separados del resto.
CB-412 9
Coeficiente de correlación lineal
El Coeficiente de Correlación (r) requiere

variables medidas en escala de intervalos o de
proporciones
z Varía entre -1 y 1.
z Valores de -1 ó 1 indican correlación perfecta.
z Valor igual a 0 indica ausencia de correlación.
z Valores negativos indican una relación lineal inversa y
valores positivos indican una relación lineal directa
CB-412 10
Correlación Negativa Perfecta
10
9
8
7
6
Y 5
4
3
2
1
0
0 1 2 3 4 5 6 7 8 9 10
X
CB-412 11
Correlación Positiva Perfecta
10
9
8
7
6
Y 5
4
3
2
1
0
0 1 2 3 4 5 6 7 8 9 10
X
CB-412 12
Ausencia de Correlación
10
9
8
7
6
Y 5
4
3
2
1
0
0 1 2 3 4 5 6 7 8 9 10
X
CB-412 13
Correlación Fuerte y Positiva
10
9
8
7
6
Y 5
4
3
2
1
0
0 1 2 3 4 5 6 7 8 9 10
X
CB-412 14
Fórmula para el coeficente de
correlación (r) Pearson
n (( ΣXY ) − ( ΣX )( ΣY ))
r=
[n(ΣX 2
) − ( ΣX ) n ΣY
2
][ ( 2
) -(ΣY ) ]
2
CB-412 15
Modelos de Regresión
Un modelo de regresión, es una manera de

expresar dos ingredientes esenciales de una
relación estadística:
Una tendencia de la variable dependiente Y a
variar conjuntamente con la variación de la o las
X de una manera sistemática
Una dispersión de las observaciones alrededor de
la curva de relación estadística
CB-412 16
Modelos de Regresión
Estas dos características están implícitas en un
modelo de regresión, postulando que:
En la población de observaciones asociadas con el
proceso que fue muestreado, hay una distribución de
probabilidades de Y para cada nivel de X.
Las medias de estas distribuciones varían de manera
sistemática al variar X.
CB-412 17
Representación gráfica del modelo
de Regresión Lineal
Nota: en esta figura se muestran las distribuciones de probabilidades

de Y para distintos valores de X CB-412 18
Análisis de Regresión
Objetivo: determinar la ecuación de regresión para

predecir los valores de la variable dependiente (Y) en
base a la o las variables independientes (X).
Procedimiento: seleccionar una muestra a partir de la
población, listar pares de datos para cada observación;
dibujar un diagrama de puntos para dar una imagen
visual de la relación; determinar la ecuación de
regresión.
CB-412 19
Supuestos de Regresión Lineal
Clásica
z Cada error está normalmente distribuido
con:
z Esperanza de los errores igual a 0
z Variancia de los errores igual a una constante σ2.
z Covariancia de los errores nulas para todo i≠j
CB-412 20
Proceso de estimación de la regresión lineal simple
Modelo de regresión Datos de la muestra
y=β0+β1x+ε x y
x1 y1
Ecuación de regresión x2 y2
E(y)=β0+β1x . .
Parámetros desconocidos . .
β0.β1 . .
xn yn
Ecuación estimada de
b0 y b1 regresión
y=b0+b1x
proporcionan estimados Estadísticos de la muestra
β0 y β 1 b0.b1
CB-412 21
Líneas posibles de regresión en la
regresión lineal simple
Sección A Sección B Sección C
Relación lineal positiva Relación lineal negativa No hay relación
Ey Ey Ey
La pendiente β1
Línea de regresión * es negativa
La pendiente β1
es 0
* La pendiente β1 *
es positiva Línea de regresión Línea de regresión
x x x
* Ordenada al origen β0
CB-412 22
Estimación de la ecuación de Regresión
Simple
Y’= a + bX, donde:
Y’ es el valor estimado de Y para distintos X.
a es la intersección o el valor estimado de Y cuando X=0
b es la pendiente de la línea, o el cambio promedio de Y’
para cada cambio en una unidad de X
el principio de mínimos cuadrados es usado para obtener a y
b:
n ( Σ X Y ) − ( Σ X )( Σ Y )
b =
n(Σ X 2) − (Σ X )2
Σ Y Σ X
a = − CB-412
b 23
n n
Mínimos cuadrados - Supuestos
1. El modelo de regresión es lineal en los parámetros.
2. Los valores de X son fijos en muestreo repetido.
3. El valor medio de la perturbación εi es igual a cero.
4. Homocedasticidad o igual variancia de εi.
5. No autocorrelación entre las perturbaciones.
6. La covariancia entre εi y Xi es cero.
7. El número de observaciones n debe ser mayor que el
número de parámetros a estimar.
8. Variabilidad en los valores de X.
9. El modelo de regresión está correctamente especificado.
10. No hay relaciones lineales perfectas entre las explicativas.
CB-412 24
Estimación de la variancia de los
términos del error (σ2)
Debe ser estimada por varios motivos
z Para tener una indicación de la variabilidad de
las distribuciones de probabilidad de Y.
z Para realizar inferencias con respecto a la
función de regresión y la predicción de Y.
z La lógica del desarrollo de un estimador de σ2
para el modelo de regresión es la misma que
cuando se muestrea una sola población
z La variancia de cada observación Yi es σ2, la
misma que la de cada término del error
CB-412 25
Dado que los Yi provienen de diferentes distribuciones de
probabilidades con medias diferentes que dependen del nivel
de X, la desviación de una observación Yi debe ser calculada
con respecto a su propia media estimada Yi.
Por tanto, las desviaciones son los residuales
Yi - Ŷi = e i
Y la suma de cuadrados es:
n n n
SC = ∑ (Y − Ŷ ) = ∑ (Y − a − bX ) = ∑ e
e i i
2
i 1
2 2
i
i =1 i =1 i =1
CB-412 26
La suma de cuadrados del error, tiene n-2 grados de libertad
asociados con ella, ya que se tuvieron que estimar dos
parámetros.
Por lo tanto, las desviaciones al cuadrado dividido por los
grados de libertad, se denomina cuadrados medios
n 2
SC ∑e
CM = e
= i =1 i
Donde CM es el Cuadradon − 2 del n − 2o cuadrado medio

e
medio error
residual. Es un estimador insesgado de σ2
CB-412 27
Análisis de Variancia en el análisis de
regresión
El enfoque desde el análisis de variancia se basa en la
partición de sumas de cuadrados y grados de libertad
asociados con la variable respuesta Y.
La variación de los Yi se mide convencionalmente en
términos de las desviaciones
(Y − Y )
i i
La medida de la variación total Sctot, es la suma de las
desviaciones al cuadrado
∑ (Y − Y )
2
i
CB-412
i 28
Desarrollo formal de la partición
Consideremos la desviación
(Y − Y )
i i
Podemos descomponerla en
(Y − Y ) = (Ŷ − Y) + (Y − Ŷ )
i i i i
T R E
(T): desviación total
(R): es la desviación del valor ajustado por la
regresión con respecto a la media general
(E): es la desviación de la observación con respecto a
la línea de regresión
CB-412 29
Desarrollo formal de la partición
Si consideremos todas las observaciones y elevamos al
cuadrado para que los desvíos no se anulen
∑ (Y − Y ) = ∑ (Ŷ − Y) + ∑ (Y − Ŷ )
2 2 2
i i i i
SCtot SCreg SCer

(SCtot): Suma de cuadrados total
(SCreg): Suma de cuadrados de la regresión
(SCer): Suma de cuadrados del error
Dividiendo por los grados de libertad, (n-1), (k) y
(n-2), respectivamente cada suma de cuadrados, se
obtienen los cuadrados medios del análisis de variancia.
CB-412 30
Coeficiente de Determinación
Coeficiente de Determinación, R2 - es la
proporción de la variación total en la variable
dependiente Y que es explicada o contabilizada
por la variación en la variable independiente X.
z El coeficiente de determinación es el
cuadrado del coeficiente de correlación, y
varia entre 0 y 1.
CB-412 31
Cálculo del R2 a través de la
siguiente fórmula
R 2
=
∑ ( yˆ − y ) 2
∑ ( y − y) 2
CB-412 32
Inferencia en Regresión
z Los supuestos que establecimos sobre los
errores nos permiten hacer inferencia sobre los
parámetros de regresión (prueba de hipòtesis e
intervalos de confianza), ya que los estimadores
de β0 y β1 pueden cambiar su valor si cambia la
muestra.
z Por lo tanto debemos conocer la distribución de
los estimadores para poder realizar prueba de
hipòtesis e intervalos de confianza
CB-412 33
Ejemplo
Se desean comparar los rendimientos predichos a partir de la
información obtenida por 3 sensores sobre los rendimientos reales por
parcelas de lotes de maíz. Los rendimientos (Y) y el los rindes
predichos de 4 sensores se presentan a continuación
Sensor 1 Sensor 4 Sensor 5 Rendimiento
0,0754 0,3083 0,1212 42,5846
0,0754 0,3083 0,1212 43,8576
0,0742 0,3327 0,1328 44,0082
0,0766 0,3327 0,1251 43,4989
0,0766 0,3297 0,1251 41,3327
0,0730 0,3205 0,1193 41,0313
0,0754 0,3114 0,1193 40,4802
0,0766 0,2901 0,1193 36,6735
0,0754 0,3449 0,1328 43,3535
0,0754 0,3480 0,1193 43,3180
0,0766 0,3480 0,1193 43,3143
0,0766 0,3419 0,1135 41,0042
0,0766 0,2840 0,1135 36,4908
0,0766 0,3053 0,1193 37,5931
0,0754 0,3266 0,1232 40,4556
0,0766 0,2840 0,1135 35,5595
0,0754 0,3358 0,1232 41,6400
0,0742 0,3419 0,1251 43,5951
¿Qué sensor refleja mejor el rendimiento de esa zona?

CB-412 34
Descripción Gráfica y cuantitativa de la relación entre
cada sensor y el rendimiento
T ít u lo
4 5 ,9 5
PRED_Rendimiento 3 8 ,4 1
3 0 ,8 7
2 3 ,3 3
1 5 ,7 9
0 ,0 7 8 0 ,0 9 2 0 ,1 0 7 0 ,1 2 1 0 ,1 3 5
B5
R e n d im ie n to
PR ED _ R e n d im ie n to
Y = 338.71*X - 4.87 CB-412 35
R2 = 0.32
T ít u lo
4 5 ,9 5
PRED_Rendimiento
3 8 ,4 1
3 0 ,8 7
2 3 ,3 3
1 5 ,7 9
0 ,2 2 0 ,2 6 0 ,3 0 0 ,3 4 0 ,3 7
B4
R e n d im ie n t o
P R E D _ R e n d im ie n t o
Y = 155.37*X – 13.25 CB-412 36

R2 = 0.57
T ít u lo
PRED_Rendimiento 4 5 ,9 5
3 8 ,4 1
3 0 ,8 7
2 3 ,3 3
1 5 ,7 9
0 ,0 7 1 0 ,0 7 6 0 ,0 8 1 0 ,0 8 7 0 ,0 9 2
B 1
R e n d im ie n t o
P R E D _ R e n d im ie n t o
Y = -1004.34*X +112.24
CB-412 R2 = 0.44 37

Regresión y Correlación

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Regresión y Correlación

Cargado por

Copyright:

Formatos disponibles

Análisis de

• Dosis de fertilizantes aplicadas y rendimiento del cultivo.

• La relación entre la radiación que reciben los sensores con

• Relación entre tamaño de un lote de producción y horas –

Nota: Las observaciones caen exactamente sobre la línea de

A diferencia de la relación funcional, no es una

Tamaño del lote

Nota: La mayor parte de los punto no caen directamente sobre

Nota: se trata de un terreno rugoso donde varían notablemente

El Coeficiente de Correlación (r) requiere

Un modelo de regresión, es una manera de

Nota: en esta figura se muestran las distribuciones de probabilidades

Objetivo: determinar la ecuación de regresión para

Donde CM es el Cuadradon − 2 del n − 2o cuadrado medio

SCtot SCreg SCer

¿Qué sensor refleja mejor el rendimiento de esa zona?

Y = 338.71*X - 4.87 CB-412 35

Y = 155.37*X – 13.25 CB-412 36

También podría gustarte