Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Año 2021∗
9.1. Introducción
Muchos problemas estadísticos requieren que se estudien dos variables cuantitativas de manera conjunta, con el
objetivo de explorar si hay alguna relación entre las mismas. Cuando una de estas variables depende de la otra, es
decir, cuando se quiere estudiar el efecto que una variable explicativa produce sobre una variable respuesta,
nos enfrentaremos a un análisis de regresión. Por el contrario, si se desea estudiar la relación existente entre dos
variables aleatorias con el fin de cuantificar el grado de asociación entre ellas, sin que ninguna ocupe específicamente
el rol de explicativa o de respuesta, nos encontraremos con un análisis de correlación.
Cualquiera sea el caso, a la hora de estudiar dos variables el primer paso consiste siempre en visualizar de manera
gráfica la relación entre las mismas mediante un diagrama de dispersión. Esta herramienta descriptiva fue
presentada en la Unidad 1 y este es un buen momento para que te tomes unos minutos y la recuerdes con una breve
lectura (páginas 16 y 17 del libro “Problemas de Estadística aplicados a la Biología y la Química”).
expresar ideas en formas que puedan ser mejoradas. Agradeceremos que nos notifiquen de los errores encontrados.
1
Estadística - FCByF Unidad 9
puede especificar de manera exacta un valor 𝑦 a partir de un valor de la variable 𝑥. Por ejemplo, el laboratorio al-
quila el cromatógrafo para poder determinar la concentración de metil vinil cetona (MVC), 𝑥, en distintas unidades
experimentales, a través del área relativa del pico que informa el aparato, 𝑌 . Para poner a punto el equipo (es decir,
para calibrarlo), el personal confecciona varios preparados con concentraciones de MVC conocidas para observar
cuál es el área relativa del pico resultante. Aunque dos preparados tengan exactamente la misma concentración de
MVC (el mismo valor de 𝑥), es muy probable que el área relativa del pico que arroje el cromatógrafo no sea la mis-
ma (distinto valor de 𝑌 ). Esto se debe a que otros factores pueden estar interviniendo (por ejemplo, la interacción
de MVC con otros compuestos, variaciones ambientales, mínimas perturbaciones en el manejo del instrumental o,
sencillamente, la variabilidad propia del proceso), los cuales hacen que a partir de un valor dado de 𝑥 no se pueda
especificar el valor correspondiente de 𝑌 .
Es en este tipo de situaciones donde la Estadística sale al rescate proveyendo un conjunto de herramientas englobadas
bajo el nombre de análisis de regresión que permiten explorar y modelar la relación existente entre una variable
aleatoria llamada respuesta o dependiente (𝑌 ) y una variable controlada llamada explicativa o independiente
(𝑥), haciendo posible, entre otras cosas, predecir los valores de la respuesta ante valores dados de la explicativa.
Que la variable 𝑥 sea controlada significa que sus posibles valores son fijados por el equipo investigador y no están
sometidos a variabilidad, mientras que el nombre de explicativa hace referencia a que, mediante el análisis de
regresión, se determinará si es capaz o no de explicar las variaciones que se presentan en 𝑌 .
El escenario descripto propone estudiar a 𝑌 en función de una única variable explicativa 𝑥, por lo cual recibe el
nombre de regresión simple, pero si se quisiera estudiar su dependencia respecto de un conjunto de variables
explicativas 𝑥1 , 𝑥2 , …, 𝑥𝑝 , se habla de regresión múltiple.
En este curso nos abocaremos sólo al primer caso, el de regresión simple. En este contexto, una muestra aleatoria
de tamaño 𝑛 estará conformada por el conjunto de 𝑛 pares de valores (𝑥𝑖 , 𝑦𝑖 ), 𝑖 = 1, ..., 𝑛. El valor 𝑦𝑖 en cada par
es una observación de la variable aleatoria 𝑌𝑖 , puesto que, como se observó antes, hay cierta variabilidad en los
posibles valores de la respuesta asociados a cada 𝑥𝑖 † .
𝑌𝑖 = 𝛼 + 𝛽𝑥𝑖 + 𝜀𝑖
mientras que se emplean mayúsculas (𝑋, 𝑌 ) para representar a variables aleatorias, es decir, aquellas que están sujetas a variabilidad.
‡ Probablemente recuerden la notación 𝑦 = 𝑚𝑥+ℎ empleada usualmente en Matemática para la ecuación de una recta. Aquí estamos
2
Estadística - FCByF Unidad 9
El error aleatorio 𝜀𝑖 es el responsable de que unidades experimentales con el mismo valor 𝑥𝑖 puedan arrojar distintos
valores de la variable respuesta. Como su nombre lo indica, 𝜀𝑖 es una variable aleatoria que representa la suma de
los efectos de los múltiples factores que introducen variabilidad en la relación entre la respuesta y la explicativa. Se
asume que la esperanza del error aleatorio es 0, 𝐸(𝜀𝑖 ) = 0, y que su variancia es un valor constante que no depende
de 𝑥𝑖 , 𝑉 (𝜀𝑖 ) = 𝜎2 . Esto significa que, si la aproximación lineal es acertada, todo par (𝑥𝑖 , 𝑦𝑖 ) fluctúa alrededor de la
verdadera recta que representa a la relación entre las variables y que llamaremos recta de regresión: 𝛼 + 𝛽𝑥. La
siguiente figura representa esta situación, presentando un conjunto hipotético de 6 pares de datos:
Y
µY x = α + βx
ε5 ε6
ε4
ε2
ε3
ε1
x1 x2 x3 x4 x5 x6
X
Aplicando propiedades ya conocidas de esperanza, encontramos que la esperanza de 𝐸(𝑌𝑖 ), también simbolizada
como 𝜇𝑌 /𝑥𝑖 , es igual a:
Esto significa que, bajo el modelo asumido, el promedio de todos los posibles valores que la variable respuesta podría
tomar cuando la explicativa vale 𝑥𝑖 es igual al valor que la recta de regresión toma para 𝑥𝑖 . Por esta razón, la recta
suele ser simbolizada con:
𝐸(𝑌 ) = 𝜇𝑌 /𝑥 = 𝛼 + 𝛽𝑥
y se la suele llamar indistintamente con los nombres verdadera recta de regresión, recta de regresión teórica
o recta de regresión poblacional, haciendo referencia a que la misma es una función desconocida (puesto que
describe a la población o al fenómeno estudiado) y que sus coeficientes 𝛼 y 𝛽 son parámetros que deberán ser
estimados a partir de la información muestral. Se debe notar una diferencia sutil en la notación empleada: mientras
que 𝜇𝑌 /𝑥 = 𝛼 + 𝛽𝑥 representa a una recta, 𝜇𝑌 /𝑥𝑖 = 𝛼 + 𝛽𝑥𝑖 representa un punto en dicha recta.
A pesar de ser parámetros desconocidos, los coeficientes de regresión 𝛼 y 𝛽 tienen una interpretación clara, que
surge de vincular nuestros conocimientos de Matemática sobre la ecuación de la recta con la idea de que la misma
representa valores promedios de la variable respuesta:
𝛼: ordenada al origen, es el valor promedio de la variable respuesta cuando la explicativa toma el valor 0:
𝜇𝑌 /𝑥𝑖 =0 = 𝛼 + 𝛽 × 0 = 𝛼
En algunas situaciones esta interpretación carece de utilidad, ya sea porque no es razonable pensar que 𝑥
pueda tomar el valor 0 o porque dicho valor no forma parte del rango de valores estudiados.
3
Estadística - FCByF Unidad 9
El modelo de regresión lineal simple, además de establecer que 𝐸(𝜀𝑖 ) = 0 y 𝑉 (𝜀𝑖 ) = 𝜎2 , asume que los errores
aleatorios son independientes entre sí y siguen una distribución normal (supuesto semejante al considerado para el
modelo en ANOVA):
𝜀𝑖 ∼ 𝑁 𝐼(0, 𝜎2 )
Esto implica que la variable aleatoria 𝑌𝑖 , al ser una combinación lineal del error aleatorio, también tendrá distribución
normal:
𝑌𝑖 = 𝛼 + 𝛽𝑥𝑖 + 𝜀𝑖
} ⟹ 𝑌𝑖 ∼ 𝑁 (𝜇𝑌 /𝑥𝑖 = 𝛼 + 𝛽𝑥𝑖 ; 𝜎𝑌2 /𝑥𝑖 = 𝜎2 )
𝜀𝑖 ∼ 𝑁 𝐼(0, 𝜎2 )
Lo anterior se interpreta de la siguiente forma: para cada valor 𝑥𝑖 de la variable explicativa, existe una población de
valores 𝑌𝑖 , que sigue una distribución normal y cuyo promedio cae sobre la recta de regresión teórica. Es decir, la
recta pasa a través de todos los valores promedios de la respuesta. Dado un valor 𝑥𝑖 en particular, una observación
𝑦𝑖 se origina como el promedio correspondiente 𝜇𝑌 /𝑥𝑖 (punto sobre la recta) más el efecto de una perturbación
aleatoria 𝜀𝑖 . Además, cada una de las poblaciones normales correspondientes a distintos 𝑥𝑖 tienen la misma variancia,
𝜎2 . La siguiente figura intenta reflejar este concepto. La misma debe interpretarse como una representación en 3
dimensiones, en la cual el plano x-y replica lo mostrado en la figura 1. Sin embargo, se agrega para cada valor
𝑥𝑖 la curva normal de la distribución de 𝑌 , con densidad 𝑓(𝑦). Cada punto representa a una posible observación,
proveniente de la distribución correspondiente.
En términos más generales, se dice que una función de regresión es una función matemática que pasa por cada
promedio de 𝑌 a través de distintos valores de 𝑥. No siempre será una recta: podría ser que la relación entre las
variables siga un comportamiento cuadrático u otra forma no lineal. El caso particular que estamos estudiando
corresponde exclusivamente a situaciones donde la relación es lineal, de modo que la función de regresión es una
recta y por lo tanto también le podemos decir función de regresión lineal (un nombre más, sumado a los ya
mencionados recta de regresión teórica o poblacional).
4
Estadística - FCByF Unidad 9
𝑦 ̂ = 𝑎 + 𝑏𝑥
donde 𝑎 y 𝑏 son las estimaciones puntuales de la ordenada al origen y la pendiente, respectivamente, y se obtienen
como:
𝑛
∑𝑖=1 𝑥𝑖 𝑦𝑖 − 𝑛𝑥𝑦̄ ̄
𝑎 = 𝑦 ̄ − 𝑏𝑥̄ 𝑏=
(𝑛 − 1)𝑠2𝑥
𝑛 𝑛 𝑛
𝑎, 𝑏 / ∑ 𝑒2𝑖 = ∑(𝑦𝑖 − 𝑦𝑖̂ )2 = ∑(𝑦𝑖 − 𝑎 − 𝑏𝑥𝑖 )2 = mín
𝑖=1 𝑖=1 𝑖=1
La suma anterior recibe el nombre de Suma de Cuadrados del Error (𝑆𝐶𝐸𝑟𝑟𝑜𝑟 ). Como sabemos por nuestros
conocimientos de Análisis Matemático, para hallar los valores 𝑎 y 𝑏 que minimizan la 𝑆𝐶𝐸𝑟𝑟𝑜𝑟 , se debe derivar
𝑆𝐶𝐸𝑟𝑟𝑜𝑟 con respecto a 𝑎 y 𝑏, igualar a cero y resolver el sistema de ecuaciones lineales resultante, que bajo este
contexto recibe el nombre de ecuaciones normales. El resultado de este proceso son las fórmulas para 𝑎 y 𝑏
compartidas anteriormente.
𝑛
𝑆𝐶𝐸𝑟𝑟𝑜𝑟 ∑ 𝑒2𝑖
2
𝜎̂ = 𝐶𝑀𝐸𝑟𝑟𝑜𝑟 = = 𝑖=1
𝑛−2 𝑛−2
Se puede demostrar que, bajo los supuestos establecidos para este modelo, la distribución muestral de este estimador
es:
(𝑛 − 2)𝐶𝑀𝐸𝑟𝑟𝑜𝑟
∼ 𝜒2𝑛−2
𝜎2
5
Estadística - FCByF Unidad 9
Como ya sabemos, la estimación puntual no es la única forma de estimación de parámetros desconocidos. También
podemos estimar 𝛼 y 𝛽 mediante intervalos de confianza (IC). Para esto debemos reconocer que las estimaciones
𝑎 y 𝑏 son los valores numéricos que los estimadores 𝐴 y 𝐵 toman en una muestra en particular: como le ocurre a
cualquier estadística, si la muestra cambia, también lo harán los valores calculados de los coeficientes de la recta, lo
cual los convierte en variables aleatorias (y por eso se hace la distinción de ponerlos en mayúsculas).
Es posible demostrar que los estimadores mínimos cuadráticos 𝐴 y 𝐵, al considerarlos como variables aleatorias,
siguen las siguientes distribuciones:
1 𝑥2̄ 𝜎2
𝐴 ∼ 𝑁 (𝛼, 𝜎2 ( + )) 𝐵 ∼ 𝑁 (𝛽, )
𝑛 (𝑛 − 1)𝑠2𝑥 (𝑛 − 1)𝑠2𝑥
Lo anterior permite verificar que 𝐴 y 𝐵 son buenos estimadores de 𝛼 y 𝛽, respectivamente, puesto que son insesgados
y consistentes.
Ahora estamos en condiciones de afrontar el problema de la estimación por intervalos de confianza de dichos
parámetros. Para esto, seguiremos los pasos generales presentados en la Unidad 5. Por ejemplo, para estimar la
pendiente 𝛽:
3. Fijar el grado de confianza: 1 − 𝛼 (no confundir este 𝛼 con el de la ordenada al origen, estamos usando la
misma letra para representar dos elementos distintos).
4. Definir una nueva variable que contenga al parámetro a estimar y al estimador, cuya distribución de proba-
bilidad sea conocida y si depende de otros parámetros, éstos también deben ser conocidos. Sabiendo que 𝐵
tiene distribución normal, podríamos estandarizar y considerar para la deducción del intervalo:
𝐵−𝛽
𝑍= 2
∼ 𝑁 (0, 1)
𝜎
√ (𝑛−1)𝑠 2
𝑥
Pero lo anterior depende del parámetro desconocido 𝜎2 . Al reemplazarlo por su estimador 𝐶𝑀𝐸𝑟𝑟𝑜𝑟 , se obtiene
una variable que cumple con la definición de la distribución T-Student con 𝑛 − 2 grados de libertad, por lo
cual emplearemos:
𝐵−𝛽
𝑇 = ∼ 𝑡𝑛−2
√ 𝐶𝑀 𝐸𝑟𝑟𝑜𝑟
(𝑛−1)𝑠2 𝑥
5. Sobre el eje de variación de la nueva variable, elegir dos valores que encierren una probabilidad igual a 1 − 𝛼,
dejando 𝛼/2 en cada cola de la distribución:
𝐵−𝛽
𝑃 (𝑡𝑛−2;𝛼/2 ≤ 𝑇 ≤ 𝑡𝑛−2;1−𝛼/2 ) = 1 − 𝛼 ⟹ 𝑃 ( − 𝑡𝑛−2;1−𝛼/2 ≤ ≤ 𝑡𝑛−2;1−𝛼/2 ) = 1 − 𝛼
√ 𝐶𝑀 𝐸𝑟𝑟𝑜𝑟
(𝑛−1)𝑠2 𝑥
6. Despejar el parámetro en la expresión anterior para deducir la expresión del intervalo aleatorio:
6
Estadística - FCByF Unidad 9
𝐵−𝛽
𝑃 ( − 𝑡𝑛−2;1−𝛼/2 ≤ ≤ 𝑡𝑛−2;1−𝛼/2 ) = 1 − 𝛼
√ 𝐶𝑀 𝐸𝑟𝑟𝑜𝑟
(𝑛−1)𝑠2 𝑥
𝐶𝑀𝐸𝑟𝑟𝑜𝑟 𝐶𝑀𝐸𝑟𝑟𝑜𝑟
⟹ 𝑃 ( − 𝑡𝑛−2;1−𝛼/2 √ ≤ 𝐵 − 𝛽 ≤ 𝑡𝑛−2;1−𝛼/2 √ )=1−𝛼
(𝑛 − 1)𝑠2𝑥 (𝑛 − 1)𝑠2𝑥
𝐶𝑀𝐸𝑟𝑟𝑜𝑟 𝐶𝑀𝐸𝑟𝑟𝑜𝑟
⟹ 𝑃 ( − 𝐵 − 𝑡𝑛−2;1−𝛼/2 √ 2
≤ −𝛽 ≤ −𝐵 + 𝑡𝑛−2;1−𝛼/2 √ )=1−𝛼
(𝑛 − 1)𝑠𝑥 (𝑛 − 1)𝑠2𝑥
𝐶𝑀𝐸𝑟𝑟𝑜𝑟 𝐶𝑀𝐸𝑟𝑟𝑜𝑟
⟹ 𝑃 (𝐵 − 𝑡𝑛−2;1−𝛼/2 √ ≤ 𝛽 ≤ 𝐵 + 𝑡𝑛−2;1−𝛼/2 √ )=1−𝛼
(𝑛 − 1)𝑠2𝑥 (𝑛 − 1)𝑠2𝑥
𝐶𝑀𝐸𝑟𝑟𝑜𝑟
∴ El intervalo aleatorio es: 𝐵 ± 𝑡𝑛−2;1−𝛼/2 √
(𝑛 − 1)𝑠2𝑥
𝐶𝑀𝐸𝑟𝑟𝑜𝑟
𝑏 ± 𝑡𝑛−2;1−𝛼/2 √
(𝑛 − 1)𝑠2𝑥
Queda propuesto como ejercicio demostrar, siguiendo un procedimiento similar, que el intervalo del (1 − 𝛼) × 100
de confianza para la ordenada al origen está dado por:
1 𝑥2̄
𝑎 ± 𝑡𝑛−2;1−𝛼/2 √𝐶𝑀𝐸𝑟𝑟𝑜𝑟 ( + )
𝑛 (𝑛 − 1)𝑠2𝑥
1 (𝑥 − 𝑥)̄ 2
𝑌0̂ ∼ 𝑁 (𝜇𝑌 /𝑥0 , 𝜎2 ( + 0 ))
𝑛 (𝑛 − 1)𝑠2𝑥
Luego, una vez extraída la muestra se puede obtener la estimación puntual de 𝜇𝑌 /𝑥0 , igual a:
𝑦0̂ = 𝑎 + 𝑏 𝑥0
1 (𝑥 − 𝑥)̄ 2
𝑦0̂ ± 𝑡𝑛−2;1−𝛼/2 √𝐶𝑀𝐸𝑟𝑟𝑜𝑟 ( + 0 )
𝑛 (𝑛 − 1)𝑠2𝑥
cuya demostración se deja como ejercicio. Se puede apreciar que la precisión de la estimación depende de cuán
alejado esté 𝑥0 de la media 𝑥.̄
7
Estadística - FCByF Unidad 9
Un modelo estadístico, en su afán de describir de manera simplificada un fenómeno complejo bajo estudio, realiza
varios supuestos sobre los que descansa la teoría para realizar las estimaciones y las pruebas de hipótesis (que
veremos más adelante). Es de vital importancia verificar si los datos proveen evidencia para concluir que dichos
supuestos se cumplen, de lo contrario no serán válidas todas las conclusiones a las que se arribe. En el modelo de
regresión lineal, los supuestos establecidos son:
Estos supuestos se verifican mediante el análisis de los residuos 𝑒𝑖 , ya que los mismos son estimaciones de los
errores aleatorios. Para evaluar la normalidad se construye un gráfico de probabilidad normal con los residuos del
modelo. La Figura 9.3 representa una situación donde se puede verificar que el supuesto de normalidad se cumple.
Para verificar la homocedasticidad se realiza un diagrama de dispersión de residuos versus valores de la variable
explicativa. Si es posible apreciar que los residuos se encierran dentro de una banda de ancho aproximadamente
constante a lo largo del campo de variación de 𝑥, entonces el supuesto se cumple.
El gráfico de residuos versus valores de 𝑥 también sirve para evaluar el supuesto de linealidad. Si bien el diagrama
de dispersión producido con los datos (𝑥𝑖 , 𝑦𝑖 ) nos muestra rápidamente si la relación entre las variables es o no lineal,
muchas veces hay alejamientos de la linealidad muy sutiles que sólo son descubiertos al visualizar los residuos. En
la Figura 9.4 se muestran tres ejemplos de este tipo de diagrama. Mientras que en el primer panel no se evidencia el
incumplimiento de los supuestos mencionados, en el segundo el patrón curvilíneo sugiere que la verdadera naturaleza
de la relación entre la explicativa y la respuesta no es lineal y en el tercero el patrón con forma de embudo indica
que la variancia no es constante, sino que la dispersión aumenta para valores grandes de 𝑥.
Asumir que los errores aleatorios sean independientes quiere decir que las observaciones de la muestra hayan sido
generadas de manera independiente entre sí. Esto no ocurre, por ejemplo, si hay alguna variación debida a que
la mitad de las observaciones se hicieron con un equipo y la mitad con otro, o que varios datos provienen de una
misma unidad experimental y otros de una unidad diferente, o que los valores se midieron a lo largo del tiempo con
alguna tendencia a cambiar la forma en que se fueron registrando. La manera de garantizar el cumplimiento del
supuesto de independencia es llevar adelante un cuidadoso diseño experimental.
1
Residuos
−1
−2
−1.0 −0.5 0.0 0.5 1.0
z
Figura 9.3: Gráfico de probabilidad normal para los residuos de una regresión lineal. Ejemplo de un caso donde se
cumple el supuesto de normalidad.
8
Estadística - FCByF Unidad 9
A 2 B 2 C 2
1 1 1
Residuos
Residuos
Residuos
0 0 0
−1 −1 −1
−2 −2 −2
x1 x2 x3 x4 x5 x6 x1 x2 x3 x4 x5 x6 x1 x2 x3 x4 x5 x6
x x x
Figura 9.4: Gráfico de residuos versus valores de x. A: No se evidencia incumplimiento de supuestos. B: falta de
linealidad. C: variancia no constante (heterocedasticidad).
Otra herramienta para evaluar si el modelo es adecuado es el coeficiente de determinación, 𝑅2 , que mide la
proporción de la variabilidad total en las observaciones de la variable respuesta que es explicada por el modelo
de regresión ajustado. Por ejemplo, si en un análisis se obtiene que 𝑅2 = 0.87 podemos decir que el 87 % de la
variabilidad en la variable 𝑌 es explicada por la variable 𝑥 a través de la recta de regresión. El 13 % restante se
puede atribuir, entonces, a otros factores no considerados por el modelo y a la variabilidad natural del proceso,
encerrado todo en los errores aleatorios.
Para poder definir formalmente al coeficiente de determinación, debemos considerar la descomposición de la va-
riabilidad total de las observaciones en sus fuentes de variación, de manera similar a lo que estudiamos en
ANOVA.
La variabilidad total está representada por la Suma de Cuadrados Total (𝑆𝐶𝑇 𝑜𝑡𝑎𝑙 ) y coincide con el numerador
del cálculo de la variancia muestral para las 𝑌𝑖 :
𝑛
𝑆𝐶𝑇 𝑜𝑡𝑎𝑙 = ∑(𝑌𝑖 − 𝑌 ̄ )2 = (𝑛 − 1)𝑆𝑌2
𝑖=1
Cada observación 𝑌𝑖 aporta a la 𝑆𝐶𝑇 𝑜𝑡𝑎𝑙 la diferencia (𝑌𝑖 − 𝑌 ̄ ), la cual puede ser reescrita como:
Dicha descomposición se ilustra en el siguiente diagrama, tomando como ejemplo a la observación correspondiente
al quinto valor de 𝑥:
Y
y5
y5 − y^5
y^5 y5 − y
y^5 − y
y
y^ = a + bx
x1 x2 x3 x4 x5 x6
X
9
Estadística - FCByF Unidad 9
El primer término, (𝑌𝑖 − 𝑌𝑖̂ ), representa la diferencia entre una observación y el valor estimado o predicho por el
modelo para el 𝑥𝑖 correspondiente, de modo que capta la variación aleatoria de los datos alrededor de la recta
de regresión. La suma de estas cantidades elevadas al cuadrado es entonces la Suma de Cuadrados del Error
(𝑆𝐶𝐸𝑟𝑟𝑜𝑟 ) y la asociamos a la variabilidad de los errores aleatorios:
𝑛
𝑆𝐶𝐸𝑟𝑟𝑜𝑟 = ∑(𝑌𝑖 − 𝑌𝑖̂ )2
𝑖=1
El segundo término, (𝑌𝑖̂ − 𝑌 ̄ ), representa la diferencia entre el valor predicho por el modelo y la media de todas las
observaciones. Esto mide el efecto atribuible a la regresión, es decir, a la influencia de la variable explicativa 𝑥. La
suma de estas cantidades elevadas al cuadrado es entonces la Suma de Cuadrados de Regresión (𝑆𝐶𝐸𝑟𝑟𝑜𝑟 ) y
la asociamos a la variabilidad explicada por la regresión:
𝑛
𝑆𝐶𝑅𝑒𝑔 = ∑(𝑌𝑖̂ − 𝑌 ̄ )2
𝑖=1
Es posible verificar matemáticamente la siguiente igualdad, que explicita la descomposición de la variabilidad total
en sus dos fuentes: la regresión y los errores aleatorios:
𝑛 𝑛 𝑛
∑(𝑌𝑖 − 𝑌 ̄ )2 = ∑(𝑌𝑖 − 𝑌𝑖̂ )2 + ∑(𝑌𝑖̂ − 𝑌 ̄ )2 ⟹ 𝑆𝐶𝑇 𝑜𝑡𝑎𝑙 = 𝑆𝐶𝐸𝑟𝑟𝑜𝑟 + 𝑆𝐶𝑅𝑒𝑔
𝑖=1 𝑖=1 𝑖=1
Ahora surge de manera natural la fórmula para el cálculo del coeficiente de determinación que, al ser definido como
la proporción de la variabilidad total en 𝑌 que es explicado por el modelo de regresión, se define como:
𝑆𝐶𝑅𝑒𝑔 𝑆𝐶𝐸𝑟𝑟𝑜𝑟
𝑅2 = =1−
𝑆𝐶𝑇 𝑜𝑡𝑎𝑙 𝑆𝐶𝑇 𝑜𝑡𝑎𝑙
El rango de variación de este coeficiente es 0 ≤ 𝑅2 ≤ 1. Analicemos cómo serían las situaciones en las que 𝑅2
coincidiría con sus límites:
Si el ajuste de la recta estimada es perfecto, la recta pasa por todos los puntos observados y todos los residuos
son cero, arrojando una 𝑆𝐶𝐸𝑟𝑟𝑜𝑟 = 0 y, por lo tanto, 𝑅2 = 1 (Figura 9.5 A).
Si no hay una dependencia lineal de 𝑌 sobre la explicativa (por ejemplo, el diagrama de dispersión presenta
una nube de puntos), entonces la recta estimada es una constante, indicando que el promedio de 𝑌 es el mismo
para cualquier 𝑥. Es decir, se tiene 𝑌 ̂ = 𝑌 ̄ , una recta de pendiente nula (recta horizontal) con ordenada al
origen igual al promedio de las 𝑌𝑖 , como lo indica la siguiente figura. Bajo esta situación resulta 𝑆𝐶𝑅𝑒𝑔 = 0 y
toda la variabilidad existente se debe a los errores aleatorios: 𝑅2 = 0 (Figura 9.5 B).
A B
Y y^ = a + bx Y
y^ = a
x1 x2 x3 x4 x5 x6 x1 x2 x3 x4 x5 x6
X X
Figura 9.5: A: Las observaciones están alineadas, por lo cual el ajuste es perfecto y 𝑅2 =1. B: No hay relación entre
las variables, la recta de regresión estimada tiene pendiente nula y su ordenada al origen coincide con la media de
las 𝑦𝑖 , resultando en 𝑅2 = 0.
10
Estadística - FCByF Unidad 9
Ninguno de estos casos extremos suele presentarse en la práctica, pero interpretamos que cuanto más cercano a 1
esté 𝑅2 , mejor es el ajuste.
Sin embargo, el coeficiente de determinación debe emplearse con precaución, ya que puede ser alto aún cuando el
ajuste no sea del todo satisfactorio o sin que la relación sea lineal (por ejemplo, su valor aumenta cuanto mayor
es la variabilidad en las 𝑥, si el 𝑛 aumenta, si se agregan más variables explicativas en el modelo, etc.). Además,
lo que podría ser considerado un valor bajo para algunos, por ejemplo un 𝑅2 = 0.7 en alguna aplicación química,
puede ser considerado como alto por otros, por ejemplo, en un estudio referente a comportamiento humano. Por
todas estas razones, se señala que para seleccionar un modelo y decidir sobre la bondad de su ajuste no debemos
basarnos solamente en este coeficiente.
El enfoque de la partición de la variabilidad total descripto anteriormente provee un cuadro teórico para la resolución
de esta prueba de hipótesis. Recordemos que: 𝑆𝐶𝑇 𝑜𝑡𝑎𝑙 = 𝑆𝐶𝐸𝑟𝑟𝑜𝑟 + 𝑆𝐶𝑅𝑒𝑔 . Intuitivamente, si la variabilidad debida
a la regresión es significativamente mayor a la originada por los errores aleatorios, entonces se debe rechazar 𝐻0 ,
puesto que hay un efecto significativo de la regresión. Es decir, deberíamos comparar 𝑆𝐶𝑅𝑒𝑔 con 𝑆𝐶𝐸𝑟𝑟𝑜𝑟 . Sin
embargo, esta comparación se realiza mediante el cociente de los Cuadrados Medios (𝐶𝑀 ), que se definen como
la división entre una suma de cuadrados y sus respectivos grados de libertad, y que cumplen con el rol de ser
estimadores de variancias:
Entonces, si el efecto de la regresión es significativo, esperamos que la variabilidad debida a 𝑥 (𝐶𝑀𝑅𝑒𝑔 ) sea grande
en comparación a la debida a los errores aleatorios (𝐶𝑀𝐸𝑟𝑟𝑜𝑟 ) y que el cociente 𝐹 tome un valor grande. Esto puede
apreciarse matemáticamente en las esperanzas de los cuadrados medios: si 𝛽 ≠ 0, el valor esperado del 𝐶𝑀𝑅𝑒𝑔 es
mayor que el de 𝐶𝑀𝐸𝑟𝑟𝑜𝑟 , mientras que si 𝛽 = 0, ambos valores esperados son iguales, ya que bajo los supuestos
establecidos para el modelo de regresión se tiene:
Queda claro entonces que se debe rechazar 𝐻0 si, una vez calculado con los datos muestrales, el cociente 𝐹 arroja
un valor grande. Es decir, la regla de decisión será:
Rechazar 𝐻0 si 𝐹𝑜𝑏𝑠 ≥ 𝑐𝛼
Aquí 𝛼 hace referencia a la 𝑃 (𝐸𝐼 ) y no a la ordenada al origen de la recta de regresión. Para poder encontrar el
valor crítico y así establecer cuándo la estadística 𝐹 es lo suficientemente grande como para rechazar 𝐻0 , tenemos
que estudiar su distribución muestral. Es posible demostrar que:
(𝑛 − 2)𝐶𝑀𝐸𝑟𝑟𝑜𝑟 𝐶𝑀𝑅𝑒𝑔 𝐻0 2
∼ 𝜒2𝑛−2 y ∼ 𝜒1
𝜎2 𝜎2
11
Estadística - FCByF Unidad 9
𝐶𝑀
Así, si 𝐻0 es cierta, el cociente 𝐹 = 𝐶𝑀 𝑅𝑒𝑔 cumple con la definición de la distribución F de Snedecor, ya que es
𝐸𝑟𝑟𝑜𝑟
el cociente entre dos variables chi-cuadrado, cada una dividida por sus grados de libertad:
𝐶𝑀𝑅𝑒𝑔 𝐶𝑀𝑅𝑒𝑔
𝜎2 /1 𝜎2
𝐶𝑀𝑅𝑒𝑔 𝐻0
𝐹 = (𝑛−2)𝐶𝑀𝐸𝑟𝑟𝑜𝑟
= 𝐶𝑀𝐸𝑟𝑟𝑜𝑟 = ∼ 𝐹1,𝑛−2
/(𝑛 − 2) 𝜎2
𝐶𝑀𝐸𝑟𝑟𝑜𝑟
𝜎2
Haciendo uso de esta distribución es posible hallar el valor crítico partiendo, como en toda prueba de hipótesis, del
planteo de la probabilidad de error de tipo 1 elegida para el test:
(1)
𝑃 (𝐸𝐼 ) = 𝛼 ⟹ 𝑃 (𝑟𝑒𝑐ℎ𝑎𝑧𝑎𝑟 𝐻0 /𝐻0 𝑐𝑖𝑒𝑟𝑡𝑎) = 𝛼
(2) 𝐶𝑀𝑅𝑒𝑔 (3) (4)
⟹ 𝑃( ≥ 𝑐𝛼 /𝛽 = 0) = 𝛼 ⟹ 𝑃 (𝐹 ≥ 𝑐𝛼 ) = 𝛼 ⟹ 𝑐𝛼 = 𝐹1,𝑛−2;1−𝛼
𝐶𝑀𝐸𝑟𝑟𝑜𝑟
(1) Por definición de 𝐸𝐼 .
(2) 𝐸𝐼 para el caso de la prueba de hipótesis que estamos analizando.
𝐶𝑀𝑅𝑒𝑔
(3) Debido a que el cociente 𝐶𝑀𝐸𝑟𝑟𝑜𝑟 sigue una distribución F de Snedecor con 1 y 𝑛 − 2 grados de libertad, si
𝐻0 es cierta.
(4) El segundo miembro de la desigualdad es un percentil de la distribución 𝐹1,𝑛−2 .
También se puede establecer una regla de decisión mediante el enfoque de la probabilidad asociada: Rechazar 𝐻0 si
𝑝𝑎𝑠𝑜𝑐 ≤ 𝛼, con:
𝑝𝑎𝑠𝑜𝑐 = 𝑃 (𝐹 ≥ 𝐹𝑜𝑏𝑠 )
Toda la información mencionada suele resumirse en un cuadro ANOVA como se muestra a continuación:
o bien,
𝐻0
Rechazar 𝐻0 si 𝑝𝑎𝑠𝑜𝑐 ≤ 𝛼 𝑝𝑎𝑠𝑜𝑐 = 𝑃 (𝐵 ≥ 𝑏/𝛽 = 0) = 𝑃 (𝑇 ≥ 𝑡𝑜𝑏𝑠 ) 𝑇 ∼ 𝑡𝑛−2
12
Estadística - FCByF Unidad 9
o bien,
𝐻0
Rechazar 𝐻0 si 𝑝𝑎𝑠𝑜𝑐 ≤ 𝛼 𝑝𝑎𝑠𝑜𝑐 = 𝑃 (𝐵 ≤ 𝑏/𝛽 = 0) = 𝑃 (𝑇 ≤ 𝑡𝑜𝑏𝑠 ) 𝑇 ∼ 𝑡𝑛−2
𝐶𝑀𝐸𝑟𝑟𝑜𝑟 𝐶𝑀𝐸𝑟𝑟𝑜𝑟
Rechazar 𝐻0 si 𝑏 ≤ −𝑡𝑛−2;1−𝛼/2 √ o si 𝑏 ≥ 𝑡𝑛−2;1−𝛼/2 √
(𝑛 − 1)𝑠2𝑥 (𝑛 − 1)𝑠2𝑥
o bien,
𝑏−0
Rechazar 𝐻0 si |𝑡𝑜𝑏𝑠 | ≥ 𝑡𝑛−2;1−𝛼/2 𝑡𝑜𝑏𝑠 =
√ 𝐶𝑀 𝐸𝑟𝑟𝑜𝑟
(𝑛−1)𝑠2𝑥
o bien,
Rechazar 𝐻0 si 𝑝𝑎𝑠𝑜𝑐 ≤ 𝛼 𝑝𝑎𝑠𝑜𝑐 = 2𝑃 (𝑇 ≥ |𝑡𝑜𝑏𝑠 |)
Conducir la prueba bilateral mediante este enfoque o mediante el enfoque del ANOVA lleva a la misma
conclusión (ambas pruebas están relacionadas, de hecho se puede verificar que 𝑡2𝑜𝑏𝑠 = 𝐹𝑜𝑏𝑠 y que los valores
de la probabilidad asociada coinciden).
Siguiendo los pasos usuales para el desarrollo de una prueba de hipótesis se plantea a continuación la deducción
para el caso unilateral a la derecha y se dejan los restantes como ejercicios.
1. Plantear las hipótesis: 𝐻0 )𝛽 = 0 versus 𝐻1 )𝛽 > 0
2. Fijar el nivel de significación: 𝑃 (𝐸𝐼 ) = 𝛼.
3. Especificar la estadística base: ya se ha comentado que, bajo los supuestos establecidos para el modelo,
el estimador de la pendiente, 𝐵, tiene la siguiente distribución:
𝜎2
𝐵 ∼ 𝑁 (𝛽, )
(𝑛 − 1)𝑠2𝑥
y que al estandarizar empleando 𝐶𝑀𝐸𝑟𝑟𝑜𝑟 en lugar del parámetro desconocido 𝜎2 se forma una estadística
con distribución T de Student, la cual servirá como estadística de la prueba:
𝐵−𝛽
𝑇 = ∼ 𝑡𝑛−2
√ 𝐶𝑀 𝐸𝑟𝑟𝑜𝑟
(𝑛−1)𝑠2𝑥
Demostraremos que dicho valor crítico es igual a 𝑐𝛼 = 0 + 𝑡𝑛−2;1−𝛼 √ 𝐶𝑀 (𝑛−1)𝑠2𝑥 , donde 𝑡𝑛−2;1−𝛼 es el percentil
𝐸𝑟𝑟𝑜𝑟
(1 − 𝛼) × 100 de la distribución T de Student con 𝑛 − 2 grados de libertad. Para esto, se parte desde el planteo
de la probabilidad de error de tipo I:
13
Estadística - FCByF Unidad 9
1 𝑥2̄
Rechazar 𝐻0 si 𝑎 ≥ 𝑐𝛼 = 0 + 𝑡𝑛−2;1−𝛼 √𝐶𝑀𝐸𝑟𝑟𝑜𝑟 ( + )
𝑛 (𝑛 − 1)𝑠2𝑥
o bien,
𝑎−0
Rechazar 𝐻0 si 𝑡𝑜𝑏𝑠 ≥ 𝑡𝑛−2;1−𝛼 𝑡𝑜𝑏𝑠 =
√𝐶𝑀𝐸𝑟𝑟𝑜𝑟 ( 𝑛1 + 𝑥̄2
(𝑛−1)𝑠2𝑥 )
o bien,
𝐻0
Rechazar 𝐻0 si 𝑝𝑎𝑠𝑜𝑐 ≤ 𝛼 𝑝𝑎𝑠𝑜𝑐 = 𝑃 (𝐴 ≥ 𝑎/𝛼 = 0) = 𝑃 (𝑇 ≥ 𝑡𝑜𝑏𝑠 ) 𝑇 ∼ 𝑡𝑛−2
1 𝑥2̄
Rechazar 𝐻0 si 𝑎 ≤ 𝑐𝛼 = 0 − 𝑡𝑛−2;1−𝛼 √𝐶𝑀𝐸𝑟𝑟𝑜𝑟 ( + )
𝑛 (𝑛 − 1)𝑠2𝑥
o bien,
𝑎−0
Rechazar 𝐻0 si 𝑡𝑜𝑏𝑠 ≤ −𝑡𝑛−2;1−𝛼 𝑡𝑜𝑏𝑠 =
√𝐶𝑀𝐸𝑟𝑟𝑜𝑟 ( 𝑛1 + 𝑥̄2
(𝑛−1)𝑠2𝑥 )
14
Estadística - FCByF Unidad 9
o bien,
𝐻0
Rechazar 𝐻0 si 𝑝𝑎𝑠𝑜𝑐 ≤ 𝛼 𝑝𝑎𝑠𝑜𝑐 = 𝑃 (𝐴 ≤ 𝑎/𝛼 = 0) = 𝑃 (𝑇 ≤ 𝑡𝑜𝑏𝑠 ) 𝑇 ∼ 𝑡𝑛−2
1 𝑥2̄
o si 𝑎 ≥ 𝑡𝑛−2;1−𝛼/2 √𝐶𝑀𝐸𝑟𝑟𝑜𝑟 ( + )
𝑛 (𝑛 − 1)𝑠2𝑥
o bien,
𝑎−0
Rechazar 𝐻0 si |𝑡𝑜𝑏𝑠 | ≥ 𝑡𝑛−2;1−𝛼/2 𝑡𝑜𝑏𝑠 =
√𝐶𝑀𝐸𝑟𝑟𝑜𝑟 ( 𝑛1 + 𝑥̄2
(𝑛−1)𝑠2𝑥 )
o bien,
Rechazar 𝐻0 si 𝑝𝑎𝑠𝑜𝑐 ≤ 𝛼 𝑝𝑎𝑠𝑜𝑐 = 2𝑃 (𝑇 ≥ |𝑡𝑜𝑏𝑠 |)
Este coeficiente provee información acerca de la dirección de la relación entre las variables: será positiva si la relación
es directa y negativa si es inversa.
Sin embargo, presenta dos inconvenientes. La covariancia no tiene un rango de variación acotado, por lo tanto nunca
es posible saber si su valor es “grande” o “pequeño” y no permite cuantificar la fuerza de la asociación. Por otro lado,
es sensible a las unidades de medida de las variables, si alguna de ellas es modificada puede hacerse arbitrariamente
grande o pequeña.
El parámetro 𝜎𝑋𝑌 es desconocido y debe ser estimado a partir de la información muestral. Su estimador es:
15
Estadística - FCByF Unidad 9
𝑛
1 ̄ 𝑖 − 𝑌̄ )
𝐶𝑜𝑣(𝑋, 𝑌 ) = 𝑆𝑋𝑌 = ∑(𝑋𝑖 − 𝑋)(𝑌
𝑛 − 1 𝑖=1
Los siguientes esquemas permiten explicar por qué la covariancia toma un signo positivo o negativo según la relación
sea directa o inversa, respectivamente. Cuando la relación es directa (Figura 9.6 A), valores grandes de 𝑋 suelen
asociarse con valores grandes de 𝑌 , resultando en puntos observados que están por encima tanto de 𝑋̄ como de 𝑌 ̄
(cuadrante I definido por las medias muestrales). Para estos pares de datos, se tendrá en general un valor positivo
de (𝑋𝑖 − 𝑋)(𝑌̄ 𝑖 − 𝑌 ̄ ). De la misma forma, valores pequeños de 𝑋 suelen asociarse con valores pequeños de 𝑌 ,
resultando en puntos observados que están por debajo tanto de 𝑋̄ como de 𝑌 ̄ (cuadrante III definido por las medias
̄ 𝑖 − 𝑌 ̄ ). Luego,
muestrales). Para estos pares de datos, también se tendrá en general un valor positivo de (𝑋𝑖 − 𝑋)(𝑌
̄ ̄
la mayoría de los productos (𝑋𝑖 − 𝑋)(𝑌𝑖 − 𝑌 ) son positivos y la covariancia resulta ser mayor a cero. Cuando la
relación es inversa (Figura 9.6 B), se puede seguir un razonamiento análogo para entender por qué se espera que la
covariancia sea negativa.
A (xi − x)(yi − y) < 0 (xi − x)(yi − y) > 0 B (xi − x)(yi − y) < 0 (xi − x)(yi − y) > 0
Y Y
y y
(xi − x)(yi − y) > 0 (xi − x)(yi − y) < 0 (xi − x)(yi − y) > 0 (xi − x)(yi − y) < 0
x X x X
Si bien la covariancia es útil para describir la dirección de la relación entre las variables estudiadas, no es útil
para cuantificar la fuerza de la asociación, por los inconvenientes ya mencionados. Esto se soluciona al dividir
la covariancia por el producto de los desvíos estándar, dando origen al coeficiente de correlación lineal de
Pearson.
Definición. El coeficiente de correlación lineal de Pearson mide la intensidad de la relación lineal entre dos
variables aleatorias 𝑋 e 𝑌 e indica la dirección de la misma. Se define como:
𝜎𝑋𝑌
𝜌=
𝜎𝑋 𝜎𝑌
16
Estadística - FCByF Unidad 9
El parámetro 𝜌 suele ser desconocido y se lo estima mediante el coeficiente de correlación lineal muestral, 𝑟:
𝑆𝑋𝑌
𝑟=
𝑆𝑋 𝑆𝑌
La siguiente regla práctica puede emplearse como una guía para la interpretación de la intensidad de la relación,
aunque no es más que un criterio arbitrario:
A B C D
y
y
x x x x
Figura 9.7: (A) Relación lineal directa (o positiva) fuerte. (B) Relación lineal inversa (o negativa) moderada. (C)
Relación no definida. (D) Relación cuadrática fuerte.
𝜇𝑌 /𝑥 = 𝛼1 + 𝛽1 𝑥 𝜇𝑋/𝑦 = 𝛼2 + 𝛽2 𝑦
𝑦 ̂ = 𝑎 1 + 𝑏1 𝑥 𝑥 ̂ = 𝑎 2 + 𝑏2 𝑦
𝑛 𝑛
∑𝑖=1 𝑥𝑖 𝑦𝑖 − 𝑛𝑥𝑦̄ ̄ ∑𝑖=1 𝑥𝑖 𝑦𝑖 − 𝑛𝑥𝑦̄ ̄
𝑎1 = 𝑦 ̄ − 𝑏 1 𝑥 ̄ 𝑏1 = 𝑎2 = 𝑥̄ − 𝑏2 𝑦 ̄ 𝑏2 =
(𝑛 − 1)𝑠2𝑥 (𝑛 − 1)𝑠2𝑦
Las pendientes 𝑏1 y 𝑏2 siempre tienen igual signo y además se demuestra que 𝑟 = ±√𝑏1 𝑏2 .
17
Estadística - FCByF Unidad 9
x^ = a2 + b2y
Y y^ = a1 + b1x
x1 x2 x3 x4 x5 x6
X
Si la relación entre las variables es perfecta (|𝑟| = 1), entonces ambas rectas son coincidentes (Figura 9.9 A), En
cambio, si no hay relación lineal, las rectas son perpendiculares entre sí, ya que cada una de ellas es una constante
igual a la media muestral correspondiente (Figura 9.9 B):
A B
y^ = a1 + b1x x^ = a2
Y x^ = a + b y
2 2
Y
y^ = a1
x1 x2 x3 x4 x5 x6 x1 x2 x3 x4 x5 x6
X X
Figura 9.9: A: La relación lineal es perfecta, ambas rectas de regresión coinciden (𝑟 = 1). B: No hay relación entre
las variables, las rectas de regresión son perpendiculares y cada una coincide con la media muestral de una de las
variables (𝑟 = 0).
Para poder realizar inferencia (estimaciones por intervalos de confianza o pruebas de hipótesis) sobre los parámetros
de estas rectas de regresión o sobre el coeficiente de correlación lineal poblacional se deben realizar supuestos
distribucionales sobre 𝑋 e 𝑌 ; sin embargo, no abarcamos estas cuestiones en este curso.
Finalmente, se debe observar que el cuadrado del coeficiente de correlación muestral coincide con el valor numérico
del coeficiente de determinación 𝑅2 . Este resultado matemático proviene de la íntima relación que, como pudimos
ver, existe entre un análisis de regresión lineal y un análisis de correlación lineal, pero no debe olvidarse
que cada una de estas técnicas tienen por objetivo resolver problemas diferentes.
9.4. Bibliografía
Devore, J. L. (2008). Probabilidad y estadística para ingenierías y ciencias. Cengage Learning Editores. Capí-
tulo 12.
Walpole, R., Myers, R., Myers, S., Ye, K. (2007). Probabilidad y estadística para ingenierías y ciencias. Pearson
Prentice Hall. Capítulo 11.
18