Está en la página 1de 80

MAESTRIA EN MODELACIÓN Y CIENCIA

COMPUTACIONAL.
Correlación, Modelo de
regresión y ecuación de
regresión
¿Podemos predecir el precio del boleto del
metro a partir del precio de una rebanada de
pizza?
 1964, Eric Bram. Observa una relación entre
el precio de aumento de una rebanada de
pizza y el boleto del metro en N.Y.
 En 1980, Bram comunicó al The New York
Times.
Año 1960 1973 1986 1995 2002 2003
Precio de 0.15 0.35 1.00 1.25 1.75 2.00
Pizza
Tarifa del 0.15 0.35 1.00 1.35 1.50 2.00
metro
IPC 30.2 48.3 112.3 162.2 191.9 197.8
Existe una correlación entre dos variables cuando los
valores de una de ellas están relacionados de alguna
manera con los valores de otra.

Antes de realizar cualquier análisis estadístico


formal, primero debemos utilizar un diagrama de
dispersión para explorar los datos de manera visual.

Podemos examinar el diagrama de dispersión para


ver si existen patrones diferentes y valores atípicos,
que son los puntos que se alejan mucho de los
demás valores.
 ¿Sí hay una correlación, entre dos variables, como
se puede describir?
 ¿Hay alguna ecuación que permita predecir el
precio de un boleto del metro a partir del precio de
una rebanada de pizza?
 Si pudiéramos predecir el precio de un boleto del
metro. ¿Qué tan exacta sería la predicción?
 ¿Existe también una correlación entre el IPC y el
precio de un boleto del metro?
 Sí es así,
 ¿el IPC es mejor para predecir el precio de un
boleto del metro?
 El coeficiente de correlación lineal 𝑟 mide la
fuerza de la relación lineal entre los valores
cuantitativos pareados 𝑥 y 𝑦 en una muestra.

 El coeficiente de correlación lineal también se


conoce como coeficiente de correlación producto
momento de Pearson, en honor de Karl Pearson
(1857-1936) quien lo desarrolló originalmente.
 Como 𝑟 se calcula utilizando datos muestrales, se
trata de un estadístico muestral.
𝒙𝒚 indica que el valor de 𝑥 debe
multiplicarse por su valor
𝒏 =número de pares de datos correspondiente de 𝒚. Después de
muestrales. obtener todos estos productos, se
calcula la suma.

denota la suma de los 𝑟= coeficiente de correlación para


elementos indicados datos muestrales.
𝑥 =suma de todos los valores de 𝜌 = coeficiente de correlación
𝑥 lineal para una población de datos
pareados.
𝑥 2 indica que cada valor debe
elevarse al cuadrado y que
después debe sumarse.
𝑥 2 indica que los valores de 𝑥
Deben sumarse para luego elevar
al cuadrado.
 Al enfrentarnos a un conjunto de datos
cuantitativos muestrales pareados, siempre se
puede calcular l coeficiente de correlación lineal 𝑟,

 Pero deben satisfacer los siguientes requisitos al


utilizar los datos muestrales para llegar a una
conclusión acerca de una correlación en la
población.
1. La muestra de datos pareados 𝑥, 𝑦 es una m.a.s
de datos cuantitativos. (Es importante que los
datos muestrales no se hayan reunido por medio
de alguna método inadecuado, como una muestra
de respuesta voluntaria).
2. El diagnostico visual del diagrama de dispersión
debe confirmar que los puntos se acercan al
patrón de una línea recta.
3. Como los resultados se pueden verse muy
afectados por la presencia de valores atípicos, es
necesario eliminar cualquier valor atípico, si se
sabe que se trata de un error.
Los efectos de cualquier otro valor atípico deben
tomarse en cuenta calculando 𝑟 con y sin el valor
atípico incluido.
𝑛 𝑥𝑦 − 𝑥 𝑦
𝑟=
𝑛 𝑥2 − 𝑥 2 𝑛 𝑦2 − 𝑦 2

Esta forma breve simplifica los cálculos manuales,


aunque por lo general 𝑟 se calcula por medio de un
programa de computo o una calculadora.
(𝑧𝑥 𝑧𝑦 )
𝑟=
𝑛−1
Donde 𝑧𝑥 es la puntuación 𝑧 para el valor muestral
𝑥, y 𝑧𝑦 es la puntuación 𝑧 para el valor muestral 𝑦.
Redondee el coeficiente de
correlación lineal 𝑟
a tres decimales, de
manera que pueda
compararse con los valores
críticos de la tabla.
1. El valor de 𝑟 está siempre entre −1 𝑦 1, inclusive. Es decir,
−1 ≤ 𝑟 ≤ 1
2. El valor de 𝑟 no cambia si todos los valores de cualquiera de
las variables se convierten a una escala diferente.
3. El valor de 𝑟 no se ve afectado por la elección de 𝑥 𝑜 𝑦.
Intercambiamos todos los valores de 𝑥 𝑦 𝑦, y el valor de 𝑟
no sufrirá cambios.
4. 𝑟 mide la fuerza de una relación lineal. No esta diseñada
para medir la fuerza de una relación que no sea lineal.
5. 𝑟 es muy sensible a los valores atípicos, en el sentido de
que un solo valor atípico puede afectar su valor de manera
drástica.
Precio de la 0.15 0.35 1.00 1.25 1.75 2.00
pizza
Tarifa del Metro 0.15 0.35 1.00 1.35 1.50 2.00

𝑟 = 0.9878109
𝒙 𝒚 𝒙𝟐 𝒚𝟐 𝒙𝒚
0.15 0.15 0.225 0.0225 0.0225
0.35 0.35 0.1225 0.1225 0.1225
1.00 1.00 1.0000 1.0000 1.0000
1.25 1.35 1.5625 1.8225 1.6875
1.75 1.50 3.0625 2.2500 2.6250
2,00 2.00 4.0000 4.0000 4.0000

𝑥 = 6.50 𝑦 = 6.35 𝑥 2 = 9.77 𝑦 2 = 9.2175 𝑥𝑦 = 9.4575

Obsérvese que hay 6 pares de datos


𝑛=6
𝑛 𝑥𝑦 − 𝑥 𝑦
𝑟=
𝑛 𝑥2 − 𝑥 2 𝑛 𝑦2 − 𝑦 2

15.47
𝑟= = 0.988 ≈ 𝑟 = 0.9878109
16.37 14.9825
R=0.811
Correlación Sin correlación Correlación

-1 -0.811 0.811 1

𝑟 = 0.9878109

A un nivel de significancia del 5% se puede afirmar que hay


evidencia suficiente para sustentar la conclusión de que
existe una correlación lineal entre el precio de la pizza y el
precio del boleto del metro.
 Si concluimos que existe una correlación
lineal entre 𝑥 𝑦 𝑦, podemos obtener una
ecuación lineal que exprese 𝑦 en términos de
𝑥, y la ecuación puede utilizarse para predecir
valores de 𝑦 a partir de 𝑥.

 El valor de 𝒓𝟐 es la proporción de la variación


de 𝒚 que se explica por la relación lineal entre
𝒙 𝒚 𝒚.
 Con los datos del ejemplo anterior, se puede
dar respuesta a la interrogante,

 ? Qué proporción de la variación en el precio


del boleto del metro puede explicarse por la
variación en el precio de la rebanada de
pizza?

 Con 𝑟 = 0.988, obtenemos 𝑟 2 = 0.976.


 Concluimos que 0.976 (o aproximadamente
el 98%) de la variación en el precio de un
boleto del metro puede explicarse en relación
lineal entre los precios de la pizza y del
boleto del metro.

 Esto implica que cerca del 2% de la variación


de los precios del boleto del metro no puede
explicarse por los precios de la pizza.
 NOTACIÓN
𝑛 = 𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑝𝑎𝑟𝑒𝑠 𝑑𝑒 𝑑𝑎𝑡𝑜𝑠 𝑚𝑢𝑒𝑠𝑡𝑟𝑎𝑙𝑒𝑠.
𝑟= coeficiente de correlación lineal para una muestra de datos pareados.
𝜌 =coeficiente de correlación lineal para una población de datos
pareados.

Requisitos: Se aplican los mismos que en el recuadro anterior.

Hipótesis
𝐻0 : 𝜌 = 0 (𝑁𝑜 𝑒𝑥𝑖𝑠𝑡𝑒 𝑢𝑛𝑎 𝑐𝑜𝑟𝑟𝑒𝑙𝑎𝑐𝑖ó𝑛 𝑙𝑖𝑛𝑒𝑎𝑙)
𝐻1 : 𝜌 ≠ 0 (𝐸𝑥𝑖𝑠𝑡𝑒 𝑢𝑛𝑎 𝑐𝑜𝑟𝑟𝑒𝑙𝑎𝑐𝑖ó𝑛 𝑙𝑖𝑛𝑒𝑎𝑙)
Estadístico de Prueba: 𝑟
Valores Críticos: Remitirse a la tabla A-6.
 CONCLUSIÓN:

• Si 𝑟 > el valor crítico de la tabla A-6, rechace 𝐻0 y


concluya que no existe evidencia suficiente para
sustentar la afirmación de una correlación lineal.
• Si 𝑟 ≤ valor critico, no rechace 𝐻0 y concluya que
no hay evidencia suficiente para sustentar la
afirmación de una correlación lineal.
Solución. Ya sabemos que los requisitos se satisfacen.
Hipótesis
𝐻0 : 𝜌 = 0 (𝑁𝑜 𝑒𝑥𝑖𝑠𝑡𝑒 𝑢𝑛𝑎 𝑐𝑜𝑟𝑟𝑒𝑙𝑎𝑐𝑖ó𝑛 𝑙𝑖𝑛𝑒𝑎𝑙)
𝐻1 : 𝜌 ≠ 0 (𝐸𝑥𝑖𝑠𝑡𝑒 𝑢𝑛𝑎 𝑐𝑜𝑟𝑟𝑒𝑙𝑎𝑐𝑖ó𝑛 𝑙𝑖𝑛𝑒𝑎𝑙)
El E.P es 𝑟 = 0.988.

El valor critico de 𝑟 = 0.811, de la Tabla A-6.

Puesto que 0.988 > 0.811, rechazamos 𝐻0 : 𝜌 = 0 , por lo tanto existe


una correlación lineal.

Concluimos que existe evidencia suficiente a un nivel de


significancia del 5%, para sustentar la afirmación de una
correlación lineal entre los precios de una rebanada de pizza y los
precios del boleto del metro.
 A continuación se presentan los precios (en
dólares) de tarifas aéreas de diferentes aerolíneas
que vuelan de New York a San Francisco. Los
precios se basan en boletos comprados con 30 días
de anticipación y un día de anticipación . ?Hay
evidencia suficiente para concluir que existe una
correlación lineal entre los precios de los boletos
comprados con 30 días de anticipación y un día de
anticipación?
30 244 260 264 264 278 318 320
días
Un 456 614 567 943 628 1088 536
día
Parte 1: Conceptos Básicos de Regresión
𝑦 = 𝛽0 + 𝛽1 𝑥 + 𝜖 (1.1)

• 𝛽0 𝑦 𝛽1 se conocen como los parámetros del modelo, y (la


letra griega épsilon) es una variable aleatoria que se conoce
como término del error.

• El término del error da cuenta de la variabilidad de y que no


puede ser explicada por la relación lineal entre x y y.
 A la ecuación que describe la relación entre el valor esperado
de 𝑦, que se denota 𝐸 𝑥 , y 𝑥 se le llama ecuación de
regresión.

 La palabra “regresión” en este contexto fue utilizado por


primera vez por el Biólogo Francis Galton (1822-1911),
cuando hacía estudio sobre la herencia.
 En ellos se noto que las características promedio de la
siguiente generación de un grupo en particular tendían a
moverse en las características promedio de la población
general, mas que hacia la generación previa de ese grupo.

 Esta tendencia fue referida como una regresión hacia la media


de la población.
 La siguiente es la ecuación de regresión para la regresión
lineal simple.

𝐸 𝑦 = 𝛽0 + 𝛽1 𝑥 (1.2)

 La gráfica de la ecuación de regresión lineal simple es una


línea recta; 𝛽0 es la intersección de la recta de regresión con
el eje y, 𝛽1 es la pendiente y 𝐸 𝑦 es la media o valor esperado
de 𝑦 para un valor dado de 𝑥.
𝛽0
𝛽0 𝛽0

Gráfica A: Gráfica B: Gráfica C:


Relación Lineal Relación Lineal No hay
Positiva Negativa Relación
 Si se conocieran los valores de los parámetros
poblacionales 𝛽0 y 𝛽1 , se podría emplear la
ecuación (1.2) para calcular el valor medio de 𝑦
para un valor dado de 𝑥.

 Sin embargo, en la práctica no se conocen los


valores de estos parámetros y es necesario
estimarlos usando datos muestrales.

 Se calculan estadísticos muestrales (que se denotan


𝑏0 y 𝑏1 ) como estimaciones de los parámetros
poblacionales 𝛽0 y 𝛽1 .
 Sustituyendo en la ecuación de regresión 𝑏0 y 𝑏1 por los
valores de los estadísticos muestrales 𝛽0 y 𝛽1 , se obtiene la
ecuación de regresión estimada.

𝑦 = 𝑏0 + 𝑏1 𝑥 (1.3)

 A la gráfica de la ecuación de regresión simple


estimada se le llama recta de regresión estimada;
 𝑏0 es la intersección con el eje 𝑦 y 𝑏1 es la
pendiente.
 En general, 𝑦 es el estimador puntual de
𝐸 𝑦 , el valor medio de las 𝑦 para un valor
dado de 𝑥.

 Como el valor de 𝑦 proporciona tanto una


estimación puntual de 𝐸 𝑥 para un valor
dado de 𝑥 como una estimación puntual de
un solo valor de 𝑦 para un valor dado de 𝑥, a
𝑦 se le llamará simplemente valor estimado
de 𝑦.
 Uno surge de la distribución conjunta de
probabilidad de dos variables aleatorias (v.a).

 El otro es empírico y nace de la necesidad de


ajustar alguna función a un conjunto de
datos.

 Este ultimo significado es el que no


centraremos en esta parte del curso.
Modelo de
regresión
𝑦 = 𝛽0 + 𝛽1 𝑥 + 𝜖 Datos
Ecuación de muestrales
regresión 𝑥 𝑦
𝐸 𝑦 = 𝛽0 + 𝛽1 𝑥 𝑥1 𝑦1
Parámetros 𝑥2 𝑦2
desconocidos
𝛽0 𝑦 𝛽1
𝑥3 𝑦3
… …

Ecuación de
regresión
𝑏0 𝑦 𝑏1
Estimada
son las
estimaciones 𝑦 = 𝑏0 + 𝑏1 𝑥
de
Estadísticos
𝛽0 𝑦 𝛽1
muestrales
𝑏0 𝑦 𝑏1
 El análisis de regresión no puede entenderse
como un procedimiento para establecer una
relación de causa y efecto entre las variables.

 Este procedimiento sólo indica cómo o en qué


medida las variables están relacionadas una con
otra.
 Conclusiones acerca de una relación causa y
efecto deben basarse en los conocimientos de los
especialistas en la aplicación de que se trate.
El método de mínimos cuadrados es un
método en el que se usan los datos muestrales
para hallar la ecuación de regresión estimada.

Ejemplo 1: Para ilustrar el método de mínimos


cuadrados, supóngase que se recolectan datos
de una muestra de 10 restaurantes de Pizza de
una franquicia reconocida y los cuales están
ubicados todos cerca de campus universitarios.
Población de Ventas Trimestrales
Restaurante 𝒊 estudiantes (miles) 𝒙𝒊 (miles de $)
1 2 58
2 6 105
3 8 88
4 8 118
5 12 117
6 16 137
7 20 157
8 22 169
9 22 149
10 26 202
¿Qué
conclusión
preliminar se
puede
Ventas
obtener de la
trimestrales
figura?
(miles de $)

Fig. 1

Población de estudiantes
(miles)
 Las ventas trimestrales parecen ser mayores
cerca de campus en los que la población de
estudiantes es mayor.

 Además, en estos datos se observa que la


relación entre el tamaño de la población de
estudiantes y las ventas trimestrales parece
poder aproximarse mediante una línea recta;
en efecto, se observa que hay una relación
lineal positiva entre 𝑥 y 𝑦.
 Para representar la relación entre ventas
trimestrales y la población de estudiantes, se
elige el modelo de regresión lineal simple.

 Decidido esto, la tarea siguiente es usar los


datos muestrales de la tabla 1 para
determinar los valores de 𝑏0 𝑦 𝑏1 en la
ecuación de regresión lineal simple.
 Para el restaurante 𝑖, la ecuación de regresión
simple estimada es:

𝑦𝑖 = 𝑏0 + 𝑏1 𝑥𝑖 1.4
Donde
𝑦𝑖 =valor estimado de las ventas trimestrales (en miles de
dólares) del restaurante i
𝑏0 = intersección de la recta de regresión con el eje y
𝑏1 = pendiente de la recta de regresión
𝑥𝑖 = tamaño de la población de estudiantes (en miles)
del restaurante i
 Como para el restaurante 𝑖 , 𝑦𝑖 denota ventas observadas
(reales) y 𝑦𝑖 denota ventas estimadas mediante la ecuación
(1.4), para cada uno de los restaurantes de la muestra habrá
un valor de ventas observadas 𝑦𝑖 y un valor de ventas
estimadas 𝑦𝑖 para que la recta de regresión estimada
proporcione un buen ajuste a los datos, las diferencias entre
los valores observados y los valores estimados deben ser
pequeñas.
 En el método de mínimos cuadrados se usan los datos
muestrales para obtener los valores de 𝑏0 y 𝑏1 que minimicen
la suma de los cuadrados de las desviaciones (diferencias)
entre los valores observados de la variable dependiente 𝑦𝑖 y
los valores estimados de la variable dependiente.
El criterio que se emplea en el método de mínimos cuadrados
es el de la expresión

2
𝑚𝑖𝑛 𝑦𝑖 − 𝑦𝑖 1.5
donde

𝑦𝑖 = valor observado de la variable dependiente en la


observación 𝑖.
𝑦𝑖 = valor estimado de la variable independiente en la
observación 𝑖.
Se puede usar cálculos diferenciales para demostrar que los
valores de 𝑏0 y 𝑏1 que minimiza la expresión (1.5) se pueden
encontrar usando las ecuaciones (1.6) y (1.7).

𝑥𝑖 − 𝑥 𝑦𝑖 − 𝑦
𝑏1 = 1.6
𝑥𝑖 − 𝑥 2

𝑏0 = 𝑦 − 𝑏1 𝑥 1.7
En efecto, como 𝑦𝑖 = 𝑏0 + 𝑏1 𝑥𝑖 , al reemplazar en (1.5) se obtiene

𝟐 𝟐
𝒚𝒊 − 𝒚𝒊 = 𝒚𝒊 − 𝒃𝟎 − 𝒃𝟏 𝒙𝒊 (𝟏. 𝟖)
 La expresión (1.8) es la que hay que minimizar, para ello se
deben hallar las derivadas parciales e igualar a cero
𝜕 𝒚𝒊 − 𝒃𝟎 − 𝒃𝟏 𝒙𝒊 𝟐
= −2 𝒚𝒊 − 𝒃𝟎 − 𝒃𝟏 𝒙𝒊 = 0 (1.9)
𝜕𝑏0
𝟐
𝜕 𝒚𝒊 − 𝒃𝟎 − 𝒃𝟏 𝒙𝒊
= −2 𝑥𝑖 𝒚𝒊 − 𝒃𝟎 − 𝒃𝟏 𝒙𝒊 = 0 (1.10)
𝜕𝑏1
Se divide (1.9) por 2 y se hacen las sumas por separado

− 𝑦𝑖 + 𝑏0 + 𝑏1 𝑥𝑖 = 0;

Despejando
𝑦𝑖 = 𝑏0 + 𝑏1 𝑥𝑖
Como 𝑏0 = 𝑛𝑏0 ,

𝑦𝑖 = 𝑛𝑏0 + 𝑏1 𝑥𝑖 (1.11)

En forma similar para (1.10) se va a obtener

𝑥𝑖 𝑦𝑖 = 𝑥𝑖 𝑏0 + 𝑥𝑖 2 𝑏1 (1.12)

Las ecuaciones (1.11) y (1.12) se le conoce como Ecuaciones


Normales.
Despejando 𝑏0 en la ecuación (1.11), nos queda:

𝑦𝑖 − 𝑏1 𝑥𝑖
𝑏0 = =
𝑛
Separando para reescribir

𝑦𝑖 𝑥𝑖
𝑏0 = − 𝑏1 (1.13)
𝑛 𝑛
Usando la ecuación (1.13) para sustituir 𝑏0 en (1.12) se obtiene

2
𝑦𝑖 𝑏1
𝑥𝑖 𝑦𝑖 = 𝑥𝑖 − 𝑥𝑖 + 𝑏1 𝑥𝑖 2 (1.14)
𝑛 𝑛
Reordenamos los términos de (1.14), nos queda:

2
𝑦𝑖 𝑏1
𝑥𝑖 𝑦𝑖 − 𝑥𝑖 =− 𝑥𝑖 + 𝑏1 𝑥𝑖 2
𝑛 𝑛

Luego
𝑥𝑖 2 𝑦 Se sigue de usar
𝑏1 𝑥𝑖 − = 𝑥𝑖 𝑦𝑖 −
2 𝑥𝑖 𝑖 varios artificios
𝑛 𝑛 matemáticos,
Despejando 𝑏1 en esta última expresión tales como sumar
y restar términos
convenientemente
Forma 𝑦𝑖 para reagrupar y
𝑥𝑖 𝑦𝑖 − 𝑥𝑖 𝑥𝑖 − 𝑥 𝑦𝑖 − 𝑦
recomendada
𝑏1 = 𝑛 = simplificar
cuando se usa 2
𝑥𝑖 𝑥𝑖 − 𝑥 2
calculadora 𝑥𝑖 2 −
𝑛
𝑦𝑖 𝑥𝑖
Como 𝑦 = 𝑛 𝑦𝑥 = 𝑛 la ecuación (1.13) se puede escribir
como

𝑏0 = 𝑦 − 𝑏1 𝑥

Continuación Ejemplo 1

140 1300
𝑥= = 14 𝑦 𝑦 = = 130
10 10
Restaurante 𝒙𝒊 𝒚𝒊 𝒙𝒊 − 𝒙 𝒚𝒊 − 𝒚 (𝒙𝒊 − 𝒙)(𝒚𝒊 − 𝒚) 𝒙𝒊 − 𝒙 𝟐
𝒊

1 2 58 -12 -72 864 144


2 6 105 -8 -25 200 64
3 8 88 -6 -42 252 36
4 8 118 -6 -22 72 36
5 12 117 -2 -13 26 4
6 16 137 2 7 14 4
7 20 157 6 27 162 36
8 20 169 6 39 234 36
9 22 149 8 19 152 64
10 26 202 12 72 864 144
Totales 140 1300 2840 568

Tabla N° 2
 La pendiente 𝑏1 se calcula como sigue a partir de los
resultados de la tabla N° 2.

𝑥𝑖 −𝑥 𝑦𝑖 −𝑦 2840
𝑏1 = = =5
𝑥𝑖 −𝑥 2 568
 La intersección con el eje y,(𝑏0 ) se calcula como sigue:

𝑏0 = 𝑦 − 𝑏1 𝑥=130-5(14)=60

Por lo tanto, la ecuación de regresión estimada es

𝑦 = 60 + 5𝑥
> x <- c(2,6,8,8,12,16,20,22,22,26)
> y <- c(58,105,88,118,117,137,157,169,149,202)

> cor(x,y)
[1] 0.9533307
> lm(y~x)

Call:
lm(formula = y ~ x)

Coefficients:
(Intercept) x
60.430 4.899

> plot(x,y,main='ventas')
> abline(lm(y~x))
Fig. 4
El método de mínimos cuadrados proporciona una
ecuación de regresión estimada que minimiza la
suma de los cuadrados de las desviaciones entre los
valores observados de la variable dependiente 𝑦𝑖 y los
valores estimados de la variable dependiente 𝑦𝑖 .

El criterio de mínimos cuadrados permite obtener la


ecuación de mejor ajuste. Si se empleara otro criterio,
como minimizar la suma de las desviaciones absolutas
entre 𝑦𝑖 y 𝑦𝑖 se obtendría una ecuación diferente.

En la práctica el método de mínimos cuadrados


es el método más usado.
¿qué tan bien se ajusta a los datos la ecuación de regresión
estimada?

A la diferencia que existe, en la observación 𝑖, entre el valor


observado de la variable dependiente 𝑦𝑖 y el valor estimado de
la variable dependiente 𝑦𝑖 , se le llama residual 𝑖.

El residual 𝑖 representa el error que existe al usar 𝑦𝑖 para


estimar 𝑦𝑖 .
Por lo tanto, para la observación 𝑖 el residual es 𝑦𝑖 -𝑦𝑖 . Las suma
de los cuadrados de estos residuales o errores es la cantidad
que se minimiza empleando el método de los mínimos
cuadrados.
𝑆𝐶𝐸 = 𝑦𝑖 −𝑦𝑖 2 (1.15)

El valor de SCE es una medida del error al utilizar, la


ecuación de regresión estimada para estimar los
valores de la variable dependiente en los elementos
de la muestra.
Ventas
Pronosticadas Error Error al
Restaurante 𝒙𝒊 𝒚𝒊 𝒚=60+5𝒙𝒊 𝒚𝒊 − 𝒚 cuadrado
𝒊 𝒚𝒊 − 𝒚 𝟐

1 2 58 70 -12 144
2 6 105 90 15 225
3 8 88 100 -12 144
4 8 118 100 18 324
5 12 117 120 -3 9
6 16 137 140 -3 9
7 20 157 160 -3 9
8 20 169 160 9 81
9 22 149 170 -21 441
10 26 202 190 12 144
Totales 140 1300 SCE=1530
 Para el 𝑖-ésimo restaurante de la muestra, la
diferencia 𝑦𝑖 − 𝑦 proporciona una medida del
error que hay al usar 𝑦 para estimar las
ventas.
 La correspondiente suma de cuadrados,
llamada suma total de cuadrados, se denota
STC.

STC= 𝑦𝑖 − 𝑦 2 (1.16)
Desviación Desviación al
Restaurante 𝒊 𝒙𝒊 𝒚𝒊 𝒚𝒊 − 𝒚 cuadrado
𝒚𝒊 − 𝒚 𝟐

1 2 58 -72 5184
2 6 105 -25 625
3 8 88 -42 1764
4 8 118 -12 144
5 12 117 -13 169
6 16 137 7 49
7 20 157 27 721
8 20 169 39 1521
9 22 149 19 361
10 26 202 72 5184
Totales 140 1300 STC=15730
𝑦10 − 𝑦10

𝑦 = 60 + 5𝑥 𝑦10 − 𝑦 𝑦10 − 𝑦

Ventas
Trimestrales 𝑦 = 𝑦 = 130
(miles de $)

Muestra de estudiantes (miles) Fig. 3


 Obsérvese que los puntos se encuentran más agrupados en
torno a la recta de regresión estimada que en torno a la línea
𝑦 = 130.

 Por ejemplo, se ve que para el 10° restaurante de la muestra,


el error es mucho más grande cuando se usa 𝑦 = 130 para
estimar 𝑦10 que cuando se usa 𝑦10 = 60 + 5 26 = 190

 Se puede entender STC como una medida de qué tanto se


agrupan las observaciones en torno a la recta 𝑦 y SCE como
una medida de qué tanto se agrupan las observaciones en
torno de la recta 𝑦.
 Para medir qué tanto se desvían de 𝑦 los valores 𝑦, de la recta
de regresión, se calcula otra suma de cuadrados. A esta suma
se le llama suma de cuadrados debida a la regresión y se
denota por SCR.

𝑆𝐶𝑅 = 𝑦𝑖 − 𝑦 2 1.17

 Se esperaría que hubiera alguna relación entre STC, SCR y


SCE. En efecto, y la relación entre estas tres sumas de
cuadrados constituye uno de los resultados más importantes
de la estadística.
STC = SCR + SCE (1.18)

Donde

STC = suma total de cuadrados.


SCR = suma de cuadrados debida a la regresión.
SCE = suma de cuadrados debida al error.

 La ecuación (1.18) muestra que la suma total de cuadrados


puede ser dividida en dos componentes, la suma de los
cuadrados debida a la regresión y la suma de cuadrados
debida al error.
 Por lo tanto, si se conocen dos cualesquiera de estas sumas
de cuadrados, es fácil calcular la tercera suma de cuadrados.

 Por ejemplo, en el ejemplo 1, se conocen SCE= 1530 y STC


15 730; por lo tanto, despejando de la ecuación (1.18) SCR,
se encuentra que la suma de los cuadrados debidos a la
regresión es

SCR = STC + SCE = 15 730 – 1530 = 14 200


 La ecuación de regresión estimada se ajustaría perfectamente a
los datos si cada uno de los valores de la variable independiente
𝑦𝑖 se encontraran sobre la recta de regresión.

 En este caso para todas las observaciones se tendría que 𝑦𝑖 −


𝑦𝑖 sería igual a cero, con lo que SCE=0.

 Como STC = SCR + SCE se ve que para que haya un ajuste


perfecto SCR debe ser igual a STC, y el cociente (SCR/STC) debe
ser igual a uno.

 Cuando los ajustes son malos, se tendrán valores altos para SCE.
Si en la ecuación (1.18) se despeja SCE, se tiene que SCE= STC -
SCR. Por lo tanto, los valores más grandes de SCE (y por lo tanto
un peor ajuste) se presentan cuando SCR=0 y SCE = STC.
 El cociente SCR/STC, que toma valores entre cero y uno, se
usa para evaluar la bondad de ajuste de la ecuación de
regresión estimada. A este cociente se le llama coeficiente de
determinación y se denota 𝑟 2 .

𝑆𝐶𝑅
𝑟2 = (1.19)
𝑆𝑇𝐶

En el ejemplo 1, el valor del coeficiente de determinación es

𝑆𝐶𝑅 14200
𝑟2 = = = 0.9027
𝑆𝑇𝐶 15730
 Si se expresa el coeficiente de determinación en forma de
porcentaje, 𝑟 2 se puede interpretar como el porcentaje de la
suma total de cuadrados que se explica mediante el uso de la
ecuación de regresión estimada.

 En el ejemplo 1, se concluye que 90.27% de la variabilidad en


las ventas se explica por la relación lineal que existe entre el
tamaño de la población de estudiantes y las ventas. Sería
bueno que la ecuación de regresión tuviera un ajuste tan
bueno.
 Se puede presentar el coeficiente de correlación como una
medida descriptiva de la intensidad de la relación lineal entre
dos variables 𝑥 y 𝑦.

 Los valores del coeficiente de correlación son valores que van


desde -1 hasta +1. El valor+ 1 indica que las dos variables x y y
están perfectamente relacionadas en una relación lineal positiva.
Es decir, los puntos de todos los datos se encuentran en una
línea recta que tiene pendiente positiva.

 El valor -1 indica que 𝑥 y 𝑦 están perfectamente relacionadas, en


una relación lineal negativa, todos los datos se encuentran en
una línea recta que tiene pendiente negativa.

 Los valores del coeficiente de correlación cercanos a cero indican


que 𝑥 y 𝑦 no están relacionadas linealmente.
 Cuando se ha realizado un análisis de regresión y se ha
calculado el coeficiente de determinación 𝑟 2 el coeficiente de
correlación muestral se puede calcular como se indica a
continuación

𝑟𝑥𝑦 = 𝑠𝑖𝑔𝑛𝑜 𝑑𝑒 𝑏1 𝑐𝑜𝑒𝑓𝑖𝑐𝑖𝑒𝑛𝑡𝑒 𝑑𝑒 𝑑𝑒𝑡𝑒𝑟𝑚𝑖𝑛𝑎𝑐𝑖ó𝑛


= 𝑠𝑖𝑔𝑛𝑜 𝑑𝑒 𝑏1 𝑟 2 (1.20)
Donde

𝑏1 = 𝑝𝑒𝑛𝑑𝑖𝑒𝑛𝑡𝑒 𝑑𝑒 𝑙𝑎 𝑒𝑐𝑢𝑎𝑐𝑖ó𝑛 𝑑𝑒 𝑟𝑒𝑔𝑟𝑒𝑠𝑖ó𝑛 𝑒𝑠𝑡𝑖𝑚𝑎𝑑𝑎 𝑦 = 𝑏0 + 𝑏1 𝑥


 El signo del coeficiente de regresión muestral es positivo si la
ecuación de regresión tiene pendiente positiva 𝑏1 > 0 .

 y es negativo si la ecuación de regresión estimada tiene


pendiente negativa 𝑏1 < 0 .

 En el ejemplo 1, el valor del coeficiente de determinación


correspondiente a la ecuación de regresión estimada 𝑦 = 60 + 5𝑥
es 0.9027.

 Como la pendiente de la ecuación de regresión estimada es


positiva, la ecuación (1.20) indica que el coeficiente de
correlación muestral es + 0.9027 = +0.9501.

 Con este coeficiente de correlación muestral, 𝑟𝑥𝑦 =+0.9501, se


concluye que existe una relación lineal fuerte entre 𝑥 𝑦 𝑦.
 En el caso de una relación lineal entre dos variables, tanto el
coeficiente de determinación como el coeficiente de correlación
muestral proporcionan medidas de la intensidad de la relación.

 El coeficiente de determinación proporciona una medida cuyo valor


va desde cero hasta uno, mientras que el coeficiente de correlación
muestral proporciona una medida cuyo valor va desde -1 hasta +1.

 El coeficiente de correlación lineal está restringido a la relación


lineal entre dos variables, pero el coeficiente de determinación
puede emplearse para relaciones no lineales y para relaciones en las
que hay dos o más variables independientes.

 Por tanto, el coeficiente de determinación tiene un rango más


amplio de aplicaciones.
1. Al obtener la ecuación de regresión estimada mediante el
método de mínimos cuadrados y calcular el coeficiente de
determinación, no se hizo ninguna suposición probabilística
acerca del término del error ni tampoco una prueba de
significancia para la relación entre 𝑥 𝑦 𝑦.

2. Los valores grandes de 𝑟 2 implican que la recta de mínimos


cuadrados se ajusta mejor a los datos; es decir, las
observaciones se encuentran más cerca de la recta de mínimos
cuadrados.

3. Sin embargo, usando únicamente 𝑟 2 no se pueden sacar


conclusiones acerca de si la relación entre 𝑥 𝑦 𝑦 es
estadísticamente significativa. Tal conclusión debe basarse en
consideraciones que implican el tamaño de la muestra y las
propiedades de la distribución muestral adecuada de los
estimadores de mínimos cuadrados.
4. Para fines prácticos, cuando se trata de datos que se
encuentran en las ciencias sociales, valores de 𝑟 2 tan
pequeños como 0.25 suelen considerarse útiles.

5. En datos de la física o de las ciencias de la vida, suelen


encontrarse valores de 𝑟 2 de 0.60 o mayores; en algunos
casos pueden encontrarse valores mayores de 0.90.

6. En las aplicaciones a los negocios, los valores de 𝑟 2 varían


enormemente dependiendo de las características
particulares de cada aplicación.
 La preocupación por el calentamiento global ha conducido a la
realización de estudios de la relación entre la temperatura global y
la concentración de dióxido de carbono (𝐶𝑂2 ).
 A continuación se presentan las concentraciones (en partes por
millón) de 𝐶𝑂2 y las temperaturas en °C, para diferentes años (según
datos del Earth Policy Institute).
 ¿Existe una correlación lineal entre la temperatura y la concentración
de 𝐶𝑂2 ? Realice los detalles como se mostró en clases, explique y
concluya en términos de las evidencias.
 Calcule la mejor temperatura predicha para un año reciente en el
que la concentración de 𝐶𝑂2 es de 370.9. ¿La temperatura predicha
se acerca a la temperatura real de 14.5°Celsius?
𝐶𝑂2 (ppm) 314 317 320 326 331 339 346 354 361 369

Temperatura 13.9 14.0 13.9 14.1 14.0 14.3 14.1 14.5 14.5 14.4
(°C)