Está en la página 1de 20

Regresión

lineal
y
correlación
D r. R i c a r d o Va l d e z R e y e s , P h D .
Análisis de regresión y correlación
➢ Los análisis de regresión y correlación nos mostrarán cómo determinar tanto la naturaleza como
la fuerza de una relación entre dos variables. De esta forma, aprenderemos a pronosticar, con
cierta precisión, el valor de una variable desconocida basándonos en observaciones anteriores
de ésa y otras variables.

➢ El término regresión fue utilizado por primera vez como un concepto estadístico en 1877 por sir
Francis Galton, quien llevó a cabo un estudio que mostró que la estatura de los niños nacidos de
padres altos tiende a retroceder o “regresar” hacia la estatura media de la población. Designó la
palabra regresión como el nombre del proceso general de predecir una variable (la estatura de
los niños) a partir de otra (la estatura del padre o de la madre). Más tarde, los estadísticos
acuñaron el término regresión múltiple para describir el proceso mediante el cual se utilizan
varias variables para predecir otra.
Análisis de regresión
¿Qué es diagrama de dispersión?

➢ El diagrama de dispersión es un grafico que nos permite estudiar las relaciones entre dos
conjuntos asociados de datos que aparecen en pares (por ejemplo, (x, y), uno de cada conjunto).
Análisis de regresión
Tipos de relación
Análisis de regresión
➢ Análisis de regresión es una técnica para desarrollar la ecuación y proporcionar las
estimaciones.

➢ Ecuación de regresión, es una ecuación que expresa la relación lineal entre dos variables.

➢ Principio de los mínimos cuadrados es un procedimiento que determina una ecuación de


regresión al minimizar la suma de los cuadrados de las distancias verticales entre los valores
reales de Y y los valores pronosticados de Y.
Principio de los mínimos cuadrados
Principio de los mínimos cuadrados

Por tanto, debemos concluir que el proceso de suma de las diferencias individuales para calcular el
error no es una forma confiable de juzgar la bondad de ajuste de una línea de estimación.
El problema al sumar los errores individuales es el efecto de cancelación de los valores positivos
y negativos.
Podríamos concluir que la minimización de la suma de los valores absolutos de los errores es el
mejor criterio para encontrar un buen ajuste. Pero antes de sentirnos demasiado cómodos con él,
debemos examinar una situación distinta.
¿Por qué?
La suma de los valores absolutos no hace hincapié en la magnitud del error.

Parece razonable que mientras más lejos esté un punto de la línea de estimación, más serio es el
error. Preferiríamos tener varios errores absolutos pequeños que uno grande, como vimos en el
ejemplo anterior. En efecto, deseamos encontrar una forma de “penalizar” errores absolutos
grandes, para poder evitarlos.
Principio de los mínimos cuadrados

Podemos lograr esto si elevamos al cuadrado los errores individuales antes de sumarlos. Los cuadrados
de cada término logran dos objetivos:

1. Magnifica, o penaliza, los errores más grandes.


2. Cancela el efecto de los valores positivos y negativos (un error negativo al cuadrado sigue siendo
positivo).
Como estamos buscando la línea de estimación que minimiza la suma de los cuadrados de los errores, a
esto le llamamos método de mínimos cuadrados.
Ecuación de la recta de regresión de mejor ajuste
Ecuación de la recta de regresión de mejor ajuste

El error estándar de la estimación


El error estándar de la estimación mide la variabilidad, o dispersión, de los valores observados alrededor
de la recta de regresión.
Problema sobre regresión lineal y correlación

d) Sabiendo que se tiene un nivel de confianza de 95%, ¿cuál sería el intervalo de confianza de esa
estimación?
e) Calcule el coeficiente de determinación e interprételo.
f) Calcule el coeficiente de correlación e interprételo.
Problema sobre regresión lineal y correlación
Problema sobre regresión lineal y correlación

d) Como P=0.95, entonces =1−P = 1−0.95 = 0.05


los Grados de Libertad = n−1=10−1= 9 ൡ vamos a la tabla de t y obtenemos a t = 2.262
y es de 2 colas
ഥ ± 𝒕𝒔𝒆
𝒀
ഥ − 𝒕𝒔𝒆 = 𝟏𝟗𝟐. 𝟐 − (𝟐. 𝟐𝟔𝟐)(10.2320)= 𝟏𝟔𝟗. 𝟎𝟔
𝑳𝑰𝑪 = 𝒀 Tenemos un 95% de confianza de que los gastos
ഥ + 𝒕𝒔𝒆 = 𝟏𝟗𝟐. 𝟐 + (𝟐. 𝟐𝟔𝟐)(10.2320)= 𝟐𝟏𝟓. 𝟑𝟒
𝑳𝑺𝑪 = 𝒀 generales están entre 169.06 y 215.34.

e)
Podemos concluir que la variación en los gastos de generales explica el
f) 96.73% de la variación en las unidades producidas y que 98.35% de
los gastos generales se relacionan con las unidades producidas.
¿Qué es el análisis de correlación?
➢ Análisis de correlación Grupo de técnicas para medir la asociación entre dos variables.

➢ El coeficiente de correlación, creado por Karl Pearson alrededor de 1900, describe la fuerza de
la relación entre dos conjuntos de variables en escala de intervalo o de razón. Se designa con la
letra r, y con frecuencia se le conoce como r de Pearson y coeficiente de correlación producto-
momento. Puede adoptar cualquier valor de - 1.00 a +1.00, inclusive. Un coeficiente de
correlación de - 1.00 o bien de +1.00 indica una correlación perfecta.
Análisis de correlación
Análisis de correlación

El coeficiente de determinación
El coeficiente de determinación es la principal forma en que podemos medir el grado, o fuerza, de
la asociación que existe entre dos variables, X y Y.
El coeficiente de determinación muestral se deriva de la relación entre dos tipos de variación: la
variación de los valores Y en un conjunto de datos alrededor de

1. la recta de regresión ajustada;

2. su propia media
Análisis de correlación
Análisis de correlación

Un punto que debemos resaltar es que r2 mide sólo la fuerza de una relación lineal entre dos
variables.

Los estadísticos también interpretan el coeficiente de determinación de la muestra viendo la


cantidad de la variación en Y que se explica por la recta de regresión.
Análisis de regresión múltiple
Problema sobre análisis de regresión
múltiple

También podría gustarte