Está en la página 1de 22

Análisis de Regresión y

Correlación Lineal

Mg. Stella Figueroa


Clase Nº 3
¿ Qué es el análisis de regresión ?
• Es una técnica estadística que permite encontrar una ecuación (ecuación
de regresión) que aproxime una variable en función de otras.

• Estudiamos la relación entre una variable dependiente y otro conjunto de


una o varias variables independientes.

• El análisis se realiza a partir de los valores de esas variables para alguna


muestra de individuos.

• Involucra el estudio de la relación entre dos variables CUANTITATIVAS.

• Estudia la forma de la relación. Se grafican los datos en un diagrama de


dispersión para elegir un modelo más adecuado para la relación.

• Estudia la fuerza de la asociación, a través del coeficiente de


correlación de Pearson.
Razones para efectuar un análisis de
regresión

• Se quiere predecir la variable dependiente, a partir

de los valores de las variables independientes, lo cual


es muy útil si la variable dependiente es costosa o
difícil de medir.
• Investiga si existe una asociación entre las dos
variables
Existe un
componente
aleatorio por lo que
Modelo estadístico las predicciones
tienen asociado un
error de predicción.

Ejemplo: Relación de la altura con la edad en niños.


• Niños de la misma edad no tendrán la misma altura.

• Pero, a través de un modelo estadístico es posible


concluir que la altura de los niños aumenta con la edad.

• Podríamos predecir la altura de un niño de cierta edad y


asociarle un ERROR DE PREDICCIÓN que tiene en cuenta:
ERRORES DE MEDICIÓN y VARIABILIDAD ENTRE INDIVIDUOS.
Ejemplos
• Un ingeniero puede querer predecir la cantidad de óxido que se
formaría en la superficie de un metal, calentado en un horno
durante un tiempo especificado a 200°C.

• El tiempo de un desgaste entre recubrimientos de una cubierta


de una rueda de un auto, que tiene una composición y espesor
de cuerda dados.

• Tales predicciones requieren una fórmula que relacione la


variable dependiente con una o más variables independientes.

• Sólo consideraremos el caso en el que una variable dependiente


se deba predecir en función de una sola variable independiente.
Algunas de las herramientas utilizadas
para relacionar dos variables
(en este curso)

1. Diagrama de dispersión

2. Coeficiente de correlación de Pearson


Modelo de regresión lineal simple

Predice el efecto de una variable explicativa Y sobre


otra variable predictiva X, ambas cuantitativas.

Diagramas de dispersión
No hay correlación Correlación negativa

Correlación positiva
Media condicional

Si a cada valor de x, le corresponden varios valores


de y
x1 = 2 toma los valores y1 = 5; y2 = 7 ;y3 = 12

5 + 7 + 12
entonces y2 = =8
3

media condicional

Media condicional y x es la media aritmética de los valores


de y correspondientes al valor de X = x
Dependencia de correlación

Se llama dependencia de correlación de Y respecto de X,


a la dependencia funcional
de la media condicional respecto de x
yx = f (x) Ecuación de regresión de Y en X

Función de
regresión de
Y en X

Análogamente se determina xy = g ( y )
Cálculo de la Recta de Regresión de Y en X

Para el cálculo de la recta de regresión se aplica el método


de mínimos cuadrados entre dos variables.
Consideramos el caso distintos valores de x de la variable X y
distintos valores de y de la variable Y, observados una vez
cada uno.
Y = bx + a donde b = yx

Se eligen las estimaciones de los parámetros a y b de


manera tal que los valores observados se encuentren lo más
cerca posible a la recta de regresión.
Diagrama de dispersión recta de regresión

Y-y`
desviación
entre el
valor
observado
“Y” con el
valor
calculado
“y`”
Notación
Yi − y i :desviación, donde Yi es una ordenada calculada por la ecuación
correspondiente al valor observado yi 𝑌𝑖 = b. 𝑥𝑖 + 𝑎
O también, si la pendiente b = 𝜌𝑦𝑥 entonces 𝑌𝑖 =𝜌𝑦𝑥 𝑥𝑖 + 𝑎
Como no podemos hacer mínima cada desviación, haremos mínima su suma:

n
Esta suma se puede hacer cero de muchas
 (Y
i =1
i − yi ) maneras y los errores compensarse.
n
F ( , a) =  (Yi − y i )
2

i =1

Depende de 𝜌 y de a
F ( , a) =  (Yi − y i ) =  (  yx xi + a − y i )
n n
2 2

i =1 i =1
Minimizar F ( , a) =  (Yi − y i ) =  (  yx xi + a − y i )
n n
2 2

i =1 i =1

 F  F
( yx i i ) .x i = 0
n


1

  = 0   = 2  x + a − y

   y i = an +   xi
i =1

 
 F   F  
( )
n


1
 a = 0  a = 2  x + a − y = 0  xy =a x +
  i =1
yx i i
  i i  i  xi2

 

Resolviendo el sistema obtenemos
𝑛 σ 𝑥𝑖 𝑦𝑖 − σ 𝑥𝑖 σ 𝑦𝑖
O su expresión
σ(𝑥𝑖 −𝑥)ҧ 𝑦𝑖 − 𝑦lj
𝜌𝑦𝑥 = 𝜌𝑦𝑥 =
𝑛 σ 𝑥𝑖2 − σ 𝑥𝑖 2 equivalente σ 𝑥𝑖 − 𝑥lj 2

a=
y i
−
x i

n n
y x = yx x + a
Ecuación muestral de regresión de Y en X

Ecuación muestral de regresión de X en Y


xy = xy y + c
Ejemplo
X: tiempo de recalentamiento
Y: los espesores de óxido de cierta pieza
X 20 30 40 60 70 90 100 120 150 180
(min)
Y 3,5 7,4 7,1 15,6 11,1 14,9 23,5 27,1 22,1 32,9
(Ang)

x yi i = 18469 x i = 860 y i = 165,2

 i = 98800
x 2
yx = 0,17 a = 1,76 y x = 0,17x + 1,76
Resolver con calculadora (con el Modo
regresión) y verificar con GeoGebra
¿Cómo efectuar predicciones?

y x = 0,17 x + 1,9
Para predecir el espesor de óxido de hierro de una pieza
calentada durante 80 minutos:
y x = 0,17.80 + 1,9 = 15,5 Angstrom

La pendiente b no mide la FUERZA de la asociación. Su valor


numérico depende de las unidades de medida de las dos variables.
Un cambio de unidades en una de ellas puede producir un cambio
drástico en el valor de la pendiente.
Coeficiente de correlación de Pearson
Mide la calidad del ajuste de la recta de regresión
Dice cuánto se relacionan las dos variables X e Y

Coeficiente de σ(𝑥𝑖 −𝑥)ҧ 𝑦𝑖 − 𝑦lj


regresión Muestral r 𝑟=
σ 𝑥𝑖 − 𝑥lj 2 𝑦𝑖 − 𝑦lj 2

1 𝑥 −𝑥ҧ 𝑦 −𝑦ത
Otra forma de definir r r= σ( 𝑖 )( 𝑖 )
𝑛−1 𝑆𝑥 𝑆𝑦

donde (𝑥1 , 𝑦1 ) ,..,(𝑥𝑛 , 𝑦𝑛 ) es un conjunto de pares de datos de tamaño n,


correspondiente a observaciones de dos variables continuas X e Y, siendo
𝑆𝑥 y 𝑆𝑦 sus respectivas dispersiones muestrales.
σ(𝑥𝑖 −𝑥)ҧ 𝑦𝑖 −𝑦lj 𝑟. 𝑆y
𝑆𝑖 𝜌𝑦𝑥 = σ 𝑥𝑖 −𝑥lj 2
entonces 𝜌𝑦𝑥 =
𝑆x

Notar que si Sx=Sy 𝑟 = 𝜌𝑦𝑥


Valores posibles
del coeficiente de
correlación r

Acordamos considerar
una muy buena relación,
para 𝑟 > 0.9
Para trabajar en grupos

En la provincia de San Juan, la elaboración del vino es una de las


actividades económicas más importantes.
El proceso de producción del vino varía enormemente de acuerdo
al lugar, la bodega, y la calidad y variedad de vino.
Esta actividad contiene datos reales. Fuente: Prof. María Rosa
Castro y Elina Ortega (2014) de la Facultad de Ingeniería de la
Universidad Nacional de San Juan.
Para trabajar en grupos

Existen muchas diferencias en este proceso que pueden afectar el vino obtenido,
como el estado sanitario de la uva y su integridad para evitar fermentaciones
prematuras e intercambios entre mosto y raspón, que originarían aromas y gustos no
deseados, tiempo de almacenamiento, energía proporcionada al proceso y aspectos
ambientales asociados.
Uno de los desafíos que se presenta en la producción en general, es el de conocer
la relación existente entre la cantidad de materia prima utilizada y la cantidad de
producto obtenido.
El proceso
de producción
del vino
Datos proporcionados por
una bodega testigo
ubicada en la provincia
de San Juan, durante un Cantidad de Cantidad de
uva molida vino obtenido
periodo de su producción (Miles de (Millones de
de seis años. Toneladas) litros)
4,8 3,9
4,7 3,7
4,4 3,5
5,4 4,3
6,5 5,1
6,7 5,3
Para trabajar en grupos
• Trazar un diagrama de dispersión con GeoGebra entre las dos variables
más impotantes del proceso de vinificación.

• Modelar estadísticamente la relación, si es que existe, entre la cantidad


de uva molida versus la cantidad de vino obtenido. Utilizar la calculadora
y verificar con GeoGebra.

• Interpretar el valor del coeficiente de correlación.

• Elaborar conclusiones en términos del problema.

• Si la producción de esa bodega fuera de 5000 toneladas de uva molida.


Qué cantidad de millones de litros de vino se esperaría obtener?

También podría gustarte