Está en la página 1de 24

REGRESIÓN

LINEAL
5.1 DEPENDENCIA LINEAL ENTRE DOS VARIABLES ALEATORIAS

5.1.1 DIAGRAMA DE DISPERSIÓN O NUBE DE PUNTOS


5.1.2 COVARIANZA Y CORRELACIÓN, INTERPRETACIÓN
OBJETIVOS DE LA UNIDAD…..
Usar datos pareados para encontrar el valor del coeficiente de correlación lineal r.

Determinar si hay evidencia suficiente para respaldar la conclusión de que existe una
correlación lineal entre dos variables.

Usar datos muestrales pareados para encontrar la ecuación de la línea de regresión.

Encontrar el mejor valor predicho de una variable dado algún valor de la otra variable.
ANALICEMOS LOS SIGUIENTES DATOS…..
Cantidad de horas Cantidad de
que estudia helados que Al parecer no hay correlación
estadística en la consume por
semana semana
5 4
4 2
10 1
9 8
7 6
1 7 Edad Estatura (cm)
2 10 1 60
5 90
8 100
10 120
Al parecer hay correlación 13 140
16 160
20 170
CONCEPTOS IMPORTANTES…..

Existe una correlación entre dos variables


cuando los valores de una variable están
de alguna manera asociados con los valores de la
otra variable.

Existe una correlación lineal entre dos variables cuando


existe una correlación y los puntos graficados de los datos
pareados dan como resultado un patrón que se
puede aproximar mediante una línea recta.
¿CÓMO SE MIDE LA CORRELACIÓN?
El coeficiente de correlación lineal r mide la fuerza de la correlación lineal entre los
valores cuantitativos pareados x y y en una muestra. El coeficiente de correlación lineal r ( −1 ≤
𝑟 < 0 para correlación negativa y 0 ≤ 𝑟 ≤ 1 para correlación positiva),
TIPOS DE CORRELACIÓN
PROPIEDADES DEL COEFICIENTE DE
CORRELACIÓN LINEAL r
1. El valor de r siempre esta entre -1 y 1 inclusive. Es decir, −1 ≤ 𝑟 ≤ 1

2. Si todos los valores de cualquiera de las variables se convierten a una


escala diferente, el valor de r no cambia.

3. El valor de r no se ve afectado por la elección de x o y. Si se intercambian todos los


valores de x y y, y el valor de r no cambiara.

4. r mide la fuerza de una relación lineal. No esta diseñado para medir la fuerza de una
relación que no sea lineal

5. r es muy sensible a los valores atípicos en el sentido de que un único valor de este tipo
podría afectar dramáticamente su valor.
¿CÓMO SE CALCULA EL COEFICIENTE DE
CORRELACIÓN……?
OBJETIVO

Determinar si existe una correlación lineal entre dos variables.

NOTACIÓN
REQUISITOS…..

1. La muestra de datos pareados (x, y) es una muestra aleatoria


simple de datos cuantitativos. (Es importante que los datos
muestrales no se hayan recopilado utilizando algún método
inadecuado, como el uso de una muestra de respuesta
voluntaria).
2. El examen visual del diagrama de dispersión debe confirmar
que los puntos se aproximan a un patrón en línea recta.
3. Debido a que los resultados pueden verse fuertemente
afectados por la presencia de valores atípicos, es necesario
eliminar tales valores si se sabe que representan errores. Los
efectos de cualquier otro valor atípico se deben considerar
calculando r con y sin los valores atípicos incluidos.
FÓRMULA…..

𝑛 ∗ (σ 𝑥 ∗ 𝑦) − (σ 𝑥) ∗ (σ 𝑦)
𝑟=
2 2
𝑛 ∗ (σ 𝑥 2 ) − (σ 𝑥) ∗ 𝑛 ∗ (σ 𝑦 2 ) − (σ 𝑦)
INTERPRETACIÓN DEL COEFICIENTE DE
CORRELACIÓN LINEAL r
Correlación Si el coeficiente de correlación
lineal calculado r se encuentra en la cola
izquierda mas allá del valor critico mas a la
izquierda o si se encuentra en la cola Correlación Sin Correlación
derecha mas allá del valor critico mas a la Correlación
derecha (es decir, 𝑟 ≥ valor critico),
concluya que hay suficiente evidencia para
respaldar la afirmación de una correlación
−1 0 1
lineal.
Valor crítico Valor crítico

Sin correlación Si el coeficiente de correlación lineal calculado se encuentra entre los dos valores críticos se
concluye que no hay pruebas suficientes para respaldar la afirmación de una correlación lineal.
INTERPRETACIÓN DEL COEFICIENTE DE
CORRELACIÓN LINEAL r
𝛼 = 𝑛𝑖𝑣𝑒𝑙 𝑑𝑒 𝑠𝑖𝑔𝑛𝑖𝑓𝑖𝑐𝑎𝑛𝑐𝑖𝑎 (5% 𝑦 1%)

𝑛. 𝑐 = 𝑛𝑖𝑣𝑒𝑙 𝑑𝑒 𝑐𝑜𝑛𝑓𝑖𝑎𝑛𝑧𝑎 (95% 𝑦 99%


VEAMOS UN EJEMPLO:
A continuación se listan los tiempos de duración (en segundos) y los intervalos de tiempo (en
minutos) hasta la próxima erupción, de eventos eruptivos seleccionados al azar en el géiser Old
Faithful del Parque Nacional Yellowstone. ¿Hay sufi ciente evidencia para concluir que existe una
correlación lineal entre los tiempos de duración de la erupción y el intervalo de tiempo
posterior?
REGRESIÓN
LINEAL
5.2 RECTA DE MÍNIMOS CUADRADOS

5.2.1 ECUACIONES NORMALES DE GAUSS


5.2.2 COEFICIENTE DE DETERMINACIÓN O R-CUADRADO,
INTERPRETACIONES
5.2.3 ESTIMACIONES O PROYECCIONES UTILIZANDO LA
RECTA DE REGRESIÓN LINEAL
DESPUÉS DE LA INTERPRETACIÓN DEL
COEFICIENTE DE CORRELACIÓN LINEAL
Si concluimos que existe una
correlación lineal entre x y y, podemos
encontrar una ecuación lineal que
exprese y en términos de x, y esa
ecuación puede usarse para predecir
valores de y para valores dados de x.

se presentan métodos para encontrar la


ecuación de la línea recta que mejor se
ajusta a los puntos en un diagrama de
dispersión de datos muestrales pareados. Esa
línea recta con el mejor ajuste se denomina
línea de regresión, y su ecuación se llama
ecuación de regresión.
LA REGRESIÓN…..

Dada una colección de datos muestrales pareados, la línea de regresión (o línea de mejor
ajuste, o línea de mínimos cuadrados) es la línea recta que “mejor” se ajusta al diagrama de
dispersión de los datos.

La ecuación de regresión describe


algebraicamente la línea de regresión. La
ecuación de regresión expresa una relación
entre x (llamada variable explicativa, variable
predictora, o variable independiente) y y
(llamada variable de respuesta o variable
dependiente).

𝑎 = 𝑖𝑛𝑡𝑒𝑟𝑠𝑒𝑐𝑐𝑖ó𝑛

𝑏 = 𝑝𝑒𝑛𝑑𝑖𝑒𝑛𝑡𝑒 𝑦 = 𝑎 + 𝑏𝑥
DETERMINACIÓN DE LA ECUACIÓN DE LA LINEA DE
REGRESIÓN……
OBJETIVO

Encontrar la ecuación de una línea de regresión.

NOTACIÓN

Estadístico Muestral Parámetro poblacional


Intersección y de la 𝑎 𝐴
ecuación de regresión
Pendiente de la ecuación 𝑏 𝐵
de regresión
Ecuación de la línea de 𝑦 = 𝑎 + 𝑏𝑥 𝑌 = 𝐴 + 𝐵𝑋
regresión
DETERMINACIÓN DE LA ECUACIÓN DE LA LINEA DE
REGRESIÓN……
REQUISITOS:
1. La muestra de datos pareados (x, y) es una muestra aleatoria de datos cuantitativos.

2. El examen visual del diagrama de dispersión


muestra que los puntos se aproximan a un patrón en
línea recta.

3. Los valores atípicos pueden tener un fuerte efecto en la ecuación de


regresión; por lo tanto, elimine los valores atípicos si se sabe que son
errores.
DETERMINACIÓN DE LA ECUACIÓN DE LA LINEA DE
REGRESIÓN……
FÓRMULAS PARA DETERMINAR LA PENDIENTE Y LA
INTERSECCIÓN DE LA LINEA DE REGRESIÓN LINEAL:

𝑦 = 𝑎 + 𝑏𝑥
(σ 𝑦) ∗ (σ 𝑥 2 ) − (σ 𝑥) ∗ (σ 𝑥 ∗ 𝑦) 𝑛 ∗ (σ 𝑥 ∗ 𝑦) − (σ 𝑥) ∗ (σ 𝑦)
𝑎= 2 𝑏= 2
𝑛 ∗ (σ 𝑥 2 ) − (σ 𝑥) 𝑛 ∗ (σ 𝑥 2 ) − (σ 𝑥)

Redondee a y b a tres decimales


𝑛 ∗ (σ 𝑥 ∗ 𝑦) − (σ 𝑥) ∗ (σ 𝑦)
𝑟=
2 2
𝑛 ∗ (σ 𝑥 2 ) − (σ 𝑥) ∗ 𝑛 ∗ (σ 𝑦 2 ) − (σ 𝑦)
VEAMOS UN EJEMPLO:
Con base en los tiempos de duración y los intervalos de tiempo posteriores indicados,
encuentre el mejor tiempo predicho para el “intervalo posterior” a una erupción con duración
de 253 segundos. ¿Cómo se compara con una erupción real que duró 253 segundos y tuvo un
intervalo de tiempo posterior de 83 minutos?
ACTIVIDADES EN CLASE

“Lo maravilloso de
aprender algo es que nadie
puede quitarnoslo”
RESUÉLVELO TÚ
Use los datos pareados de longitud del pie y estatura del ejercicio anterior. ¿Hay evidencia
sufi ciente para concluir que existe una correlación lineal entre la longitud del pie y la
estatura de los hombres? Con base en estos resultados ¿parece que la policía puede usar la
longitud de los pies para estimar la estatura de un hombre?
RESUÉLVELO TÚ
Una aplicación clásica de la correlación implica la asociación entre la temperatura y el
número de veces que un grillo chirría en un minuto. A continuación se listan el número de
chirridos en 1 minuto y las temperaturas correspondientes en °F (según datos de The Song
of Insects, de George W. Pierce, Harvard University Press). ¿Hay sufi ciente evidencia para
concluir que existe una correlación lineal entre el número de chirridos en 1 min y la
temperatura?
RESUÉLVELO TÚ
Usa las longitudes del pie y las estaturas para encontrar la mejor estatura predicha para un
hombre que tiene una longitud de pie de 28 cm. ¿El resultado sería útil para los inves-
tigadores policiales de la escena del crimen al tratar de describir al hombre?
RESUÉLVELO TÚ
Encuentre la mejor temperatura predicha en un momento en que un grillo chirría 3000
veces en 1 minuto. ¿Qué es erróneo en esta temperatura prevista?

También podría gustarte