Está en la página 1de 18

Universidad Nacional de Rosario

Facultad de Ciencias Bioquímicas y Farmacéuticas


Área Estadística y Procesamiento de Datos

Análisis de Regresión y Correlación Lineal


Estadística - Unidad 9

Año 2021∗

9.1. Introducción
Muchos problemas estadísticos requieren que se estudien dos variables cuantitativas de manera conjunta, con el
objetivo de explorar si hay alguna relación entre las mismas. Cuando una de estas variables depende de la otra, es
decir, cuando se quiere estudiar el efecto que una variable explicativa produce sobre una variable respuesta,
nos enfrentaremos a un análisis de regresión. Por el contrario, si se desea estudiar la relación existente entre dos
variables aleatorias con el fin de cuantificar el grado de asociación entre ellas, sin que ninguna ocupe específicamente
el rol de explicativa o de respuesta, nos encontraremos con un análisis de correlación.
Cualquiera sea el caso, a la hora de estudiar dos variables el primer paso consiste siempre en visualizar de manera
gráfica la relación entre las mismas mediante un diagrama de dispersión. Esta herramienta descriptiva fue
presentada en la Unidad 1 y este es un buen momento para que te tomes unos minutos y la recuerdes con una breve
lectura (páginas 16 y 17 del libro “Problemas de Estadística aplicados a la Biología y la Química”).

9.2. Análisis de regresión


En algunos contextos puede darse una relación exacta entre las variables consideradas y es la Matemática la
encargada de caracterizarlas. Por ejemplo, supongamos que un laboratorio necesita alquilar un cromatógrafo, a una
tarifa básica de $5000 más $2500 por día. Si llamamos con 𝑥 a la cantidad de días del alquiler y con 𝑦 al monto
que el laboratorio debe abonar, resulta que ambas variables están vinculadas por la expresión 𝑦 = 5000 + 2500 𝑥.
Se dice que esta relación es determinista: una vez conocido el valor de 𝑥, 𝑦 queda completamente especificada.
Sin embargo, en muchos otros casos hay variables que no están relacionadas determinísticamente, sino que repre-
sentan procesos estocásticos: de alguna forma están sometidos a la influencia de componentes aleatorios y no se
∗ Este apunte se encuentra en desarrollo. El mismo será revisado a lo largo del cuatrimestre y no está exento de presentar errores o

expresar ideas en formas que puedan ser mejoradas. Agradeceremos que nos notifiquen de los errores encontrados.

1
Estadística - FCByF Unidad 9

puede especificar de manera exacta un valor 𝑦 a partir de un valor de la variable 𝑥. Por ejemplo, el laboratorio al-
quila el cromatógrafo para poder determinar la concentración de metil vinil cetona (MVC), 𝑥, en distintas unidades
experimentales, a través del área relativa del pico que informa el aparato, 𝑌 . Para poner a punto el equipo (es decir,
para calibrarlo), el personal confecciona varios preparados con concentraciones de MVC conocidas para observar
cuál es el área relativa del pico resultante. Aunque dos preparados tengan exactamente la misma concentración de
MVC (el mismo valor de 𝑥), es muy probable que el área relativa del pico que arroje el cromatógrafo no sea la mis-
ma (distinto valor de 𝑌 ). Esto se debe a que otros factores pueden estar interviniendo (por ejemplo, la interacción
de MVC con otros compuestos, variaciones ambientales, mínimas perturbaciones en el manejo del instrumental o,
sencillamente, la variabilidad propia del proceso), los cuales hacen que a partir de un valor dado de 𝑥 no se pueda
especificar el valor correspondiente de 𝑌 .
Es en este tipo de situaciones donde la Estadística sale al rescate proveyendo un conjunto de herramientas englobadas
bajo el nombre de análisis de regresión que permiten explorar y modelar la relación existente entre una variable
aleatoria llamada respuesta o dependiente (𝑌 ) y una variable controlada llamada explicativa o independiente
(𝑥), haciendo posible, entre otras cosas, predecir los valores de la respuesta ante valores dados de la explicativa.
Que la variable 𝑥 sea controlada significa que sus posibles valores son fijados por el equipo investigador y no están
sometidos a variabilidad, mientras que el nombre de explicativa hace referencia a que, mediante el análisis de
regresión, se determinará si es capaz o no de explicar las variaciones que se presentan en 𝑌 .
El escenario descripto propone estudiar a 𝑌 en función de una única variable explicativa 𝑥, por lo cual recibe el
nombre de regresión simple, pero si se quisiera estudiar su dependencia respecto de un conjunto de variables
explicativas 𝑥1 , 𝑥2 , …, 𝑥𝑝 , se habla de regresión múltiple.
En este curso nos abocaremos sólo al primer caso, el de regresión simple. En este contexto, una muestra aleatoria
de tamaño 𝑛 estará conformada por el conjunto de 𝑛 pares de valores (𝑥𝑖 , 𝑦𝑖 ), 𝑖 = 1, ..., 𝑛. El valor 𝑦𝑖 en cada par
es una observación de la variable aleatoria 𝑌𝑖 , puesto que, como se observó antes, hay cierta variabilidad en los
posibles valores de la respuesta asociados a cada 𝑥𝑖 † .

9.2.1. El modelo de regresión lineal simple


El ejemplo del alquiler del cromatógrafo ilustra el tipo de relación determinista más sencillo que puede haber entre
dos variables: 𝑦 = 𝛼 + 𝛽𝑥. Este tipo de relación se llama lineal, pues establece que la ecuación de una recta es capaz
de representar el comportamiento de las variables. Los coeficientes 𝛼 y 𝛽 son la ordenada al origen y la pendiente,
respectivamente‡ .
La misma idea se puede emplear para describir relaciones no deterministas, pero es necesario incluir algún elemento
que contemple al componente aleatorio. Es por eso que se postula un modelo estadístico: una ecuación matemática
que busca representar de manera sencilla algún fenómeno complejo, como la relación entre dos variables, incorpo-
rando un término que dé idea de la incertidumbre o aleatoriedad inherente al fenómeno.
En particular, para las situaciones en las cuales es adecuado suponer que una recta representa adecuadamente la
dependencia de una variable aleatoria 𝑌 sobre una variable controlada 𝑥, se postula un modelo conocido como
modelo de regresión lineal simple:

𝑌𝑖 = 𝛼 + 𝛽𝑥𝑖 + 𝜀𝑖

Los componentes de este modelo son:


𝑌𝑖 : variable aleatoria que representa al valor de la respuesta correspondiente al valor 𝑥𝑖 de la variable explica-
tiva.
𝑥𝑖 : 𝑖-ésimo valor de la variable explicativa controlada 𝑥.
𝛼: ordenada al origen de la recta que representa la relación entre 𝑌 y 𝑥.
𝛽: pendiente de la recta que representa la relación entre 𝑌 y 𝑥 (también llamado coeficiente de regresión).
𝜀𝑖 : error aleatorio asociado a 𝑌𝑖 .
† Se utilizan minúsculas (𝑥, 𝑦) cuando se trata de variables controladas experimentalmente o relacionadas a fenómenos deterministas,

mientras que se emplean mayúsculas (𝑋, 𝑌 ) para representar a variables aleatorias, es decir, aquellas que están sujetas a variabilidad.
‡ Probablemente recuerden la notación 𝑦 = 𝑚𝑥+ℎ empleada usualmente en Matemática para la ecuación de una recta. Aquí estamos

planteando el mismo concepto, con otros símbolos.

2
Estadística - FCByF Unidad 9

El error aleatorio 𝜀𝑖 es el responsable de que unidades experimentales con el mismo valor 𝑥𝑖 puedan arrojar distintos
valores de la variable respuesta. Como su nombre lo indica, 𝜀𝑖 es una variable aleatoria que representa la suma de
los efectos de los múltiples factores que introducen variabilidad en la relación entre la respuesta y la explicativa. Se
asume que la esperanza del error aleatorio es 0, 𝐸(𝜀𝑖 ) = 0, y que su variancia es un valor constante que no depende
de 𝑥𝑖 , 𝑉 (𝜀𝑖 ) = 𝜎2 . Esto significa que, si la aproximación lineal es acertada, todo par (𝑥𝑖 , 𝑦𝑖 ) fluctúa alrededor de la
verdadera recta que representa a la relación entre las variables y que llamaremos recta de regresión: 𝛼 + 𝛽𝑥. La
siguiente figura representa esta situación, presentando un conjunto hipotético de 6 pares de datos:

Y
µY x = α + βx
ε5 ε6

ε4

ε2
ε3

ε1

x1 x2 x3 x4 x5 x6
X

Figura 9.1: Representación de la recta de regresión teórica.

Aplicando propiedades ya conocidas de esperanza, encontramos que la esperanza de 𝐸(𝑌𝑖 ), también simbolizada
como 𝜇𝑌 /𝑥𝑖 , es igual a:

𝜇𝑌 /𝑥𝑖 = 𝐸(𝑌𝑖 ) = 𝐸(𝛼 + 𝛽𝑥𝑖 + 𝜀𝑖 ) = 𝛼 + 𝛽𝑥𝑖 + 𝐸(𝜀𝑖 ) = 𝛼 + 𝛽𝑥𝑖

Esto significa que, bajo el modelo asumido, el promedio de todos los posibles valores que la variable respuesta podría
tomar cuando la explicativa vale 𝑥𝑖 es igual al valor que la recta de regresión toma para 𝑥𝑖 . Por esta razón, la recta
suele ser simbolizada con:

𝐸(𝑌 ) = 𝜇𝑌 /𝑥 = 𝛼 + 𝛽𝑥

y se la suele llamar indistintamente con los nombres verdadera recta de regresión, recta de regresión teórica
o recta de regresión poblacional, haciendo referencia a que la misma es una función desconocida (puesto que
describe a la población o al fenómeno estudiado) y que sus coeficientes 𝛼 y 𝛽 son parámetros que deberán ser
estimados a partir de la información muestral. Se debe notar una diferencia sutil en la notación empleada: mientras
que 𝜇𝑌 /𝑥 = 𝛼 + 𝛽𝑥 representa a una recta, 𝜇𝑌 /𝑥𝑖 = 𝛼 + 𝛽𝑥𝑖 representa un punto en dicha recta.
A pesar de ser parámetros desconocidos, los coeficientes de regresión 𝛼 y 𝛽 tienen una interpretación clara, que
surge de vincular nuestros conocimientos de Matemática sobre la ecuación de la recta con la idea de que la misma
representa valores promedios de la variable respuesta:
𝛼: ordenada al origen, es el valor promedio de la variable respuesta cuando la explicativa toma el valor 0:

𝜇𝑌 /𝑥𝑖 =0 = 𝛼 + 𝛽 × 0 = 𝛼

En algunas situaciones esta interpretación carece de utilidad, ya sea porque no es razonable pensar que 𝑥
pueda tomar el valor 0 o porque dicho valor no forma parte del rango de valores estudiados.

3
Estadística - FCByF Unidad 9

𝛽: pendiente, es el cambio promedio en la variable respuesta ante un incremento unitario en la explicativa.


Este cambio promedio podría ser un aumento o una disminución, en el caso de que 𝛽 fuese positivo o negativo,
respectivamente:

𝜇𝑌 /𝑥𝑖 +1 − 𝜇𝑌 /𝑥𝑖 = [𝛼 + 𝛽(𝑥𝑖 + 1)] − [𝛼 + 𝛽𝑥𝑖 ] = 𝛽

El modelo de regresión lineal simple, además de establecer que 𝐸(𝜀𝑖 ) = 0 y 𝑉 (𝜀𝑖 ) = 𝜎2 , asume que los errores
aleatorios son independientes entre sí y siguen una distribución normal (supuesto semejante al considerado para el
modelo en ANOVA):

𝜀𝑖 ∼ 𝑁 𝐼(0, 𝜎2 )

Esto implica que la variable aleatoria 𝑌𝑖 , al ser una combinación lineal del error aleatorio, también tendrá distribución
normal:

𝑌𝑖 = 𝛼 + 𝛽𝑥𝑖 + 𝜀𝑖
} ⟹ 𝑌𝑖 ∼ 𝑁 (𝜇𝑌 /𝑥𝑖 = 𝛼 + 𝛽𝑥𝑖 ; 𝜎𝑌2 /𝑥𝑖 = 𝜎2 )
𝜀𝑖 ∼ 𝑁 𝐼(0, 𝜎2 )

Lo anterior se interpreta de la siguiente forma: para cada valor 𝑥𝑖 de la variable explicativa, existe una población de
valores 𝑌𝑖 , que sigue una distribución normal y cuyo promedio cae sobre la recta de regresión teórica. Es decir, la
recta pasa a través de todos los valores promedios de la respuesta. Dado un valor 𝑥𝑖 en particular, una observación
𝑦𝑖 se origina como el promedio correspondiente 𝜇𝑌 /𝑥𝑖 (punto sobre la recta) más el efecto de una perturbación
aleatoria 𝜀𝑖 . Además, cada una de las poblaciones normales correspondientes a distintos 𝑥𝑖 tienen la misma variancia,
𝜎2 . La siguiente figura intenta reflejar este concepto. La misma debe interpretarse como una representación en 3
dimensiones, en la cual el plano x-y replica lo mostrado en la figura 1. Sin embargo, se agrega para cada valor
𝑥𝑖 la curva normal de la distribución de 𝑌 , con densidad 𝑓(𝑦). Cada punto representa a una posible observación,
proveniente de la distribución correspondiente.

Figura 9.2: Representación de la distribución teórica de Y para cada valor de la explicativa.

En términos más generales, se dice que una función de regresión es una función matemática que pasa por cada
promedio de 𝑌 a través de distintos valores de 𝑥. No siempre será una recta: podría ser que la relación entre las
variables siga un comportamiento cuadrático u otra forma no lineal. El caso particular que estamos estudiando
corresponde exclusivamente a situaciones donde la relación es lineal, de modo que la función de regresión es una
recta y por lo tanto también le podemos decir función de regresión lineal (un nombre más, sumado a los ya
mencionados recta de regresión teórica o poblacional).

4
Estadística - FCByF Unidad 9

9.2.2. Estimación del modelo


9.2.2.1. Estimación puntual de la ordenada al origen y la pendiente
Hemos supuesto que la dependencia de la variable 𝑌 sobre la explicativa 𝑥 está representada por la recta de regresión:
𝜇𝑌 /𝑥 = 𝛼 + 𝛽𝑥. Sin embargo, la misma es una expresión teórica: los valores verdaderos de los coeficientes 𝛼 y 𝛽 son
desconocidos y deben ser estimados.
Una vez recolectada una muestra con 𝑛 pares de valores (𝑥𝑖 , 𝑦𝑖 ), la estimación de la recta de regresión teórica es:

𝑦 ̂ = 𝑎 + 𝑏𝑥
donde 𝑎 y 𝑏 son las estimaciones puntuales de la ordenada al origen y la pendiente, respectivamente, y se obtienen
como:

𝑛
∑𝑖=1 𝑥𝑖 𝑦𝑖 − 𝑛𝑥𝑦̄ ̄
𝑎 = 𝑦 ̄ − 𝑏𝑥̄ 𝑏=
(𝑛 − 1)𝑠2𝑥

A 𝑦 ̂ = 𝑎 + 𝑏𝑥 también le decimos modelo de regresión ajustado.


Dada la recta estimada, es posible estimar de forma puntual el valor promedio de la variable respuesta para cualquier
𝑥𝑖 de interés: 𝑦𝑖̂ = 𝑎 + 𝑏𝑥𝑖 .
Las fórmulas anteriores para 𝑎 y 𝑏 son el resultado de aplicar el Método de los Mínimos Cuadrados, el cual
provee las estimaciones que corresponden a la recta que mejor ajusta a las observaciones recolectadas, es decir,
que pasa lo más cerca posible de todos los puntos observados, simultáneamente. Por supuesto, es necesario definir
con claridad qué se entiende por “mejor ajuste” o “lo más cerca posible”. Para esto vamos a utilizar la noción de
residuo:
Definición. Dados 𝑛 pares de datos (𝑥𝑖 , 𝑦𝑖 ) y el modelo estimado 𝑦 ̂ = 𝑎 + 𝑏𝑥, el 𝑖-ésimo residuo 𝑒𝑖 está dado por
𝑒𝑖 = 𝑦𝑖 − 𝑦𝑖̂ = 𝑦𝑖 − (𝑎 + 𝑏𝑥𝑖 ) y representa la diferencia entre el valor observado 𝑦𝑖 y el estimado por la recta de
regresión.
Claramente, es deseable encontrar los valores 𝑎 y 𝑏 (y por consiguiente, la recta estimada 𝑦 ̂ = 𝑎 + 𝑏𝑥) que arrojen
residuos lo más pequeños posibles, ya que estos representan errores en el ajuste. Entonces, se buscan los valores 𝑎
y 𝑏 que minimicen la suma de los residuos al cuadrado:

𝑛 𝑛 𝑛
𝑎, 𝑏 / ∑ 𝑒2𝑖 = ∑(𝑦𝑖 − 𝑦𝑖̂ )2 = ∑(𝑦𝑖 − 𝑎 − 𝑏𝑥𝑖 )2 = mín
𝑖=1 𝑖=1 𝑖=1

La suma anterior recibe el nombre de Suma de Cuadrados del Error (𝑆𝐶𝐸𝑟𝑟𝑜𝑟 ). Como sabemos por nuestros
conocimientos de Análisis Matemático, para hallar los valores 𝑎 y 𝑏 que minimizan la 𝑆𝐶𝐸𝑟𝑟𝑜𝑟 , se debe derivar
𝑆𝐶𝐸𝑟𝑟𝑜𝑟 con respecto a 𝑎 y 𝑏, igualar a cero y resolver el sistema de ecuaciones lineales resultante, que bajo este
contexto recibe el nombre de ecuaciones normales. El resultado de este proceso son las fórmulas para 𝑎 y 𝑏
compartidas anteriormente.

9.2.2.2. Estimación de la variancia de los errores aleatorios, 𝜎2


Los residuos también se emplean para estimar la variancia desconocida de los errores aleatorios, 𝜎2 , mediante la
construcción de un estimador conocido como Cuadrado Medio del Error (𝐶𝑀𝐸𝑟𝑟𝑜𝑟 ):

𝑛
𝑆𝐶𝐸𝑟𝑟𝑜𝑟 ∑ 𝑒2𝑖
2
𝜎̂ = 𝐶𝑀𝐸𝑟𝑟𝑜𝑟 = = 𝑖=1
𝑛−2 𝑛−2

Se puede demostrar que, bajo los supuestos establecidos para este modelo, la distribución muestral de este estimador
es:

(𝑛 − 2)𝐶𝑀𝐸𝑟𝑟𝑜𝑟
∼ 𝜒2𝑛−2
𝜎2

5
Estadística - FCByF Unidad 9

Esto permite observar que se trata de un estimador insesgado y consistente.

9.2.2.3. Estimación por intervalos de confianza de la ordenada al origen y la pendiente

Como ya sabemos, la estimación puntual no es la única forma de estimación de parámetros desconocidos. También
podemos estimar 𝛼 y 𝛽 mediante intervalos de confianza (IC). Para esto debemos reconocer que las estimaciones
𝑎 y 𝑏 son los valores numéricos que los estimadores 𝐴 y 𝐵 toman en una muestra en particular: como le ocurre a
cualquier estadística, si la muestra cambia, también lo harán los valores calculados de los coeficientes de la recta, lo
cual los convierte en variables aleatorias (y por eso se hace la distinción de ponerlos en mayúsculas).

Es posible demostrar que los estimadores mínimos cuadráticos 𝐴 y 𝐵, al considerarlos como variables aleatorias,
siguen las siguientes distribuciones:

1 𝑥2̄ 𝜎2
𝐴 ∼ 𝑁 (𝛼, 𝜎2 ( + )) 𝐵 ∼ 𝑁 (𝛽, )
𝑛 (𝑛 − 1)𝑠2𝑥 (𝑛 − 1)𝑠2𝑥

Lo anterior permite verificar que 𝐴 y 𝐵 son buenos estimadores de 𝛼 y 𝛽, respectivamente, puesto que son insesgados
y consistentes.

Ahora estamos en condiciones de afrontar el problema de la estimación por intervalos de confianza de dichos
parámetros. Para esto, seguiremos los pasos generales presentados en la Unidad 5. Por ejemplo, para estimar la
pendiente 𝛽:

1. Definir el parámetro a estimar: 𝛽.

2. Seleccionar un buen estimador: 𝐵.

3. Fijar el grado de confianza: 1 − 𝛼 (no confundir este 𝛼 con el de la ordenada al origen, estamos usando la
misma letra para representar dos elementos distintos).

4. Definir una nueva variable que contenga al parámetro a estimar y al estimador, cuya distribución de proba-
bilidad sea conocida y si depende de otros parámetros, éstos también deben ser conocidos. Sabiendo que 𝐵
tiene distribución normal, podríamos estandarizar y considerar para la deducción del intervalo:

𝐵−𝛽
𝑍= 2
∼ 𝑁 (0, 1)
𝜎
√ (𝑛−1)𝑠 2
𝑥

Pero lo anterior depende del parámetro desconocido 𝜎2 . Al reemplazarlo por su estimador 𝐶𝑀𝐸𝑟𝑟𝑜𝑟 , se obtiene
una variable que cumple con la definición de la distribución T-Student con 𝑛 − 2 grados de libertad, por lo
cual emplearemos:
𝐵−𝛽
𝑇 = ∼ 𝑡𝑛−2
√ 𝐶𝑀 𝐸𝑟𝑟𝑜𝑟
(𝑛−1)𝑠2 𝑥

5. Sobre el eje de variación de la nueva variable, elegir dos valores que encierren una probabilidad igual a 1 − 𝛼,
dejando 𝛼/2 en cada cola de la distribución:

𝐵−𝛽
𝑃 (𝑡𝑛−2;𝛼/2 ≤ 𝑇 ≤ 𝑡𝑛−2;1−𝛼/2 ) = 1 − 𝛼 ⟹ 𝑃 ( − 𝑡𝑛−2;1−𝛼/2 ≤ ≤ 𝑡𝑛−2;1−𝛼/2 ) = 1 − 𝛼
√ 𝐶𝑀 𝐸𝑟𝑟𝑜𝑟
(𝑛−1)𝑠2 𝑥

6. Despejar el parámetro en la expresión anterior para deducir la expresión del intervalo aleatorio:

6
Estadística - FCByF Unidad 9

𝐵−𝛽
𝑃 ( − 𝑡𝑛−2;1−𝛼/2 ≤ ≤ 𝑡𝑛−2;1−𝛼/2 ) = 1 − 𝛼
√ 𝐶𝑀 𝐸𝑟𝑟𝑜𝑟
(𝑛−1)𝑠2 𝑥

𝐶𝑀𝐸𝑟𝑟𝑜𝑟 𝐶𝑀𝐸𝑟𝑟𝑜𝑟
⟹ 𝑃 ( − 𝑡𝑛−2;1−𝛼/2 √ ≤ 𝐵 − 𝛽 ≤ 𝑡𝑛−2;1−𝛼/2 √ )=1−𝛼
(𝑛 − 1)𝑠2𝑥 (𝑛 − 1)𝑠2𝑥

𝐶𝑀𝐸𝑟𝑟𝑜𝑟 𝐶𝑀𝐸𝑟𝑟𝑜𝑟
⟹ 𝑃 ( − 𝐵 − 𝑡𝑛−2;1−𝛼/2 √ 2
≤ −𝛽 ≤ −𝐵 + 𝑡𝑛−2;1−𝛼/2 √ )=1−𝛼
(𝑛 − 1)𝑠𝑥 (𝑛 − 1)𝑠2𝑥

𝐶𝑀𝐸𝑟𝑟𝑜𝑟 𝐶𝑀𝐸𝑟𝑟𝑜𝑟
⟹ 𝑃 (𝐵 − 𝑡𝑛−2;1−𝛼/2 √ ≤ 𝛽 ≤ 𝐵 + 𝑡𝑛−2;1−𝛼/2 √ )=1−𝛼
(𝑛 − 1)𝑠2𝑥 (𝑛 − 1)𝑠2𝑥

𝐶𝑀𝐸𝑟𝑟𝑜𝑟
∴ El intervalo aleatorio es: 𝐵 ± 𝑡𝑛−2;1−𝛼/2 √
(𝑛 − 1)𝑠2𝑥

7. Tomar una muestra y obtener el intervalo observado del (1 − 𝛼) × 100 de confianza:

𝐶𝑀𝐸𝑟𝑟𝑜𝑟
𝑏 ± 𝑡𝑛−2;1−𝛼/2 √
(𝑛 − 1)𝑠2𝑥

Queda propuesto como ejercicio demostrar, siguiendo un procedimiento similar, que el intervalo del (1 − 𝛼) × 100
de confianza para la ordenada al origen está dado por:

1 𝑥2̄
𝑎 ± 𝑡𝑛−2;1−𝛼/2 √𝐶𝑀𝐸𝑟𝑟𝑜𝑟 ( + )
𝑛 (𝑛 − 1)𝑠2𝑥

9.2.2.4. Estimación del promedio de 𝑌 para un valor 𝑥0 , 𝜇𝑌 /𝑥0


Haber estimado la función que relaciona a la variable respuesta con la explicativa es útil para realizar otras estima-
ciones de interés. Por ejemplo, podemos estimar el promedio de la respuesta en 𝑥 = 𝑥0 , es decir, 𝜇𝑌 /𝑥0 = 𝛼 + 𝛽 𝑥0 .
Se utiliza el subíndice cero en 𝑥0 para resaltar que se puede tratar de cualquier valor de interés, no necesariamente
uno de los 𝑥𝑖 que forman parte de la muestra. Sin embargo, es importante que 𝑥0 se encuentre dentro del rango
de los 𝑥𝑖 de la muestra, ya que la relación entre las variables es estudiada sólo en esa región y no sería cauteloso
asumir que fuera de la misma la relación también es lineal.
El estimador de 𝜇𝑌 /𝑥0 es 𝜇𝑌̂ /𝑥0 = 𝑌0̂ = 𝐴 + 𝐵 𝑥0 y se demuestra que es insesgado, consistente y con distribución:

1 (𝑥 − 𝑥)̄ 2
𝑌0̂ ∼ 𝑁 (𝜇𝑌 /𝑥0 , 𝜎2 ( + 0 ))
𝑛 (𝑛 − 1)𝑠2𝑥

Luego, una vez extraída la muestra se puede obtener la estimación puntual de 𝜇𝑌 /𝑥0 , igual a:

𝑦0̂ = 𝑎 + 𝑏 𝑥0

y el correspondiente intervalo del (1 − 𝛼) × 100 de confianza:

1 (𝑥 − 𝑥)̄ 2
𝑦0̂ ± 𝑡𝑛−2;1−𝛼/2 √𝐶𝑀𝐸𝑟𝑟𝑜𝑟 ( + 0 )
𝑛 (𝑛 − 1)𝑠2𝑥

cuya demostración se deja como ejercicio. Se puede apreciar que la precisión de la estimación depende de cuán
alejado esté 𝑥0 de la media 𝑥.̄

7
Estadística - FCByF Unidad 9

9.2.3. Estudio de la adecuación del modelo

Un modelo estadístico, en su afán de describir de manera simplificada un fenómeno complejo bajo estudio, realiza
varios supuestos sobre los que descansa la teoría para realizar las estimaciones y las pruebas de hipótesis (que
veremos más adelante). Es de vital importancia verificar si los datos proveen evidencia para concluir que dichos
supuestos se cumplen, de lo contrario no serán válidas todas las conclusiones a las que se arribe. En el modelo de
regresión lineal, los supuestos establecidos son:

Linealidad en la relación entre 𝑥 e 𝑌 .


Distribución normal y con variancia constante (homocedasticidad) para el error aleatorio: 𝜀𝑖 ∼ 𝑁 (0, 𝜎2 )
Independencia entre los errores aleatorios.

Estos supuestos se verifican mediante el análisis de los residuos 𝑒𝑖 , ya que los mismos son estimaciones de los
errores aleatorios. Para evaluar la normalidad se construye un gráfico de probabilidad normal con los residuos del
modelo. La Figura 9.3 representa una situación donde se puede verificar que el supuesto de normalidad se cumple.
Para verificar la homocedasticidad se realiza un diagrama de dispersión de residuos versus valores de la variable
explicativa. Si es posible apreciar que los residuos se encierran dentro de una banda de ancho aproximadamente
constante a lo largo del campo de variación de 𝑥, entonces el supuesto se cumple.

El gráfico de residuos versus valores de 𝑥 también sirve para evaluar el supuesto de linealidad. Si bien el diagrama
de dispersión producido con los datos (𝑥𝑖 , 𝑦𝑖 ) nos muestra rápidamente si la relación entre las variables es o no lineal,
muchas veces hay alejamientos de la linealidad muy sutiles que sólo son descubiertos al visualizar los residuos. En
la Figura 9.4 se muestran tres ejemplos de este tipo de diagrama. Mientras que en el primer panel no se evidencia el
incumplimiento de los supuestos mencionados, en el segundo el patrón curvilíneo sugiere que la verdadera naturaleza
de la relación entre la explicativa y la respuesta no es lineal y en el tercero el patrón con forma de embudo indica
que la variancia no es constante, sino que la dispersión aumenta para valores grandes de 𝑥.

Asumir que los errores aleatorios sean independientes quiere decir que las observaciones de la muestra hayan sido
generadas de manera independiente entre sí. Esto no ocurre, por ejemplo, si hay alguna variación debida a que
la mitad de las observaciones se hicieron con un equipo y la mitad con otro, o que varios datos provienen de una
misma unidad experimental y otros de una unidad diferente, o que los valores se midieron a lo largo del tiempo con
alguna tendencia a cambiar la forma en que se fueron registrando. La manera de garantizar el cumplimiento del
supuesto de independencia es llevar adelante un cuidadoso diseño experimental.

1
Residuos

−1

−2
−1.0 −0.5 0.0 0.5 1.0
z

Figura 9.3: Gráfico de probabilidad normal para los residuos de una regresión lineal. Ejemplo de un caso donde se
cumple el supuesto de normalidad.

8
Estadística - FCByF Unidad 9

A 2 B 2 C 2

1 1 1
Residuos

Residuos

Residuos
0 0 0

−1 −1 −1

−2 −2 −2
x1 x2 x3 x4 x5 x6 x1 x2 x3 x4 x5 x6 x1 x2 x3 x4 x5 x6
x x x

Figura 9.4: Gráfico de residuos versus valores de x. A: No se evidencia incumplimiento de supuestos. B: falta de
linealidad. C: variancia no constante (heterocedasticidad).

Otra herramienta para evaluar si el modelo es adecuado es el coeficiente de determinación, 𝑅2 , que mide la
proporción de la variabilidad total en las observaciones de la variable respuesta que es explicada por el modelo
de regresión ajustado. Por ejemplo, si en un análisis se obtiene que 𝑅2 = 0.87 podemos decir que el 87 % de la
variabilidad en la variable 𝑌 es explicada por la variable 𝑥 a través de la recta de regresión. El 13 % restante se
puede atribuir, entonces, a otros factores no considerados por el modelo y a la variabilidad natural del proceso,
encerrado todo en los errores aleatorios.
Para poder definir formalmente al coeficiente de determinación, debemos considerar la descomposición de la va-
riabilidad total de las observaciones en sus fuentes de variación, de manera similar a lo que estudiamos en
ANOVA.
La variabilidad total está representada por la Suma de Cuadrados Total (𝑆𝐶𝑇 𝑜𝑡𝑎𝑙 ) y coincide con el numerador
del cálculo de la variancia muestral para las 𝑌𝑖 :

𝑛
𝑆𝐶𝑇 𝑜𝑡𝑎𝑙 = ∑(𝑌𝑖 − 𝑌 ̄ )2 = (𝑛 − 1)𝑆𝑌2
𝑖=1

Cada observación 𝑌𝑖 aporta a la 𝑆𝐶𝑇 𝑜𝑡𝑎𝑙 la diferencia (𝑌𝑖 − 𝑌 ̄ ), la cual puede ser reescrita como:

𝑌𝑖 − 𝑌 ̄ = (𝑌𝑖 − 𝑌𝑖̂ ) + (𝑌𝑖̂ − 𝑌 ̄ )

Dicha descomposición se ilustra en el siguiente diagrama, tomando como ejemplo a la observación correspondiente
al quinto valor de 𝑥:

Y
y5

y5 − y^5
y^5 y5 − y
y^5 − y
y

y^ = a + bx

x1 x2 x3 x4 x5 x6
X

9
Estadística - FCByF Unidad 9

El primer término, (𝑌𝑖 − 𝑌𝑖̂ ), representa la diferencia entre una observación y el valor estimado o predicho por el
modelo para el 𝑥𝑖 correspondiente, de modo que capta la variación aleatoria de los datos alrededor de la recta
de regresión. La suma de estas cantidades elevadas al cuadrado es entonces la Suma de Cuadrados del Error
(𝑆𝐶𝐸𝑟𝑟𝑜𝑟 ) y la asociamos a la variabilidad de los errores aleatorios:

𝑛
𝑆𝐶𝐸𝑟𝑟𝑜𝑟 = ∑(𝑌𝑖 − 𝑌𝑖̂ )2
𝑖=1

El segundo término, (𝑌𝑖̂ − 𝑌 ̄ ), representa la diferencia entre el valor predicho por el modelo y la media de todas las
observaciones. Esto mide el efecto atribuible a la regresión, es decir, a la influencia de la variable explicativa 𝑥. La
suma de estas cantidades elevadas al cuadrado es entonces la Suma de Cuadrados de Regresión (𝑆𝐶𝐸𝑟𝑟𝑜𝑟 ) y
la asociamos a la variabilidad explicada por la regresión:

𝑛
𝑆𝐶𝑅𝑒𝑔 = ∑(𝑌𝑖̂ − 𝑌 ̄ )2
𝑖=1

Es posible verificar matemáticamente la siguiente igualdad, que explicita la descomposición de la variabilidad total
en sus dos fuentes: la regresión y los errores aleatorios:

𝑛 𝑛 𝑛
∑(𝑌𝑖 − 𝑌 ̄ )2 = ∑(𝑌𝑖 − 𝑌𝑖̂ )2 + ∑(𝑌𝑖̂ − 𝑌 ̄ )2 ⟹ 𝑆𝐶𝑇 𝑜𝑡𝑎𝑙 = 𝑆𝐶𝐸𝑟𝑟𝑜𝑟 + 𝑆𝐶𝑅𝑒𝑔
𝑖=1 𝑖=1 𝑖=1

Ahora surge de manera natural la fórmula para el cálculo del coeficiente de determinación que, al ser definido como
la proporción de la variabilidad total en 𝑌 que es explicado por el modelo de regresión, se define como:

𝑆𝐶𝑅𝑒𝑔 𝑆𝐶𝐸𝑟𝑟𝑜𝑟
𝑅2 = =1−
𝑆𝐶𝑇 𝑜𝑡𝑎𝑙 𝑆𝐶𝑇 𝑜𝑡𝑎𝑙

El rango de variación de este coeficiente es 0 ≤ 𝑅2 ≤ 1. Analicemos cómo serían las situaciones en las que 𝑅2
coincidiría con sus límites:
Si el ajuste de la recta estimada es perfecto, la recta pasa por todos los puntos observados y todos los residuos
son cero, arrojando una 𝑆𝐶𝐸𝑟𝑟𝑜𝑟 = 0 y, por lo tanto, 𝑅2 = 1 (Figura 9.5 A).
Si no hay una dependencia lineal de 𝑌 sobre la explicativa (por ejemplo, el diagrama de dispersión presenta
una nube de puntos), entonces la recta estimada es una constante, indicando que el promedio de 𝑌 es el mismo
para cualquier 𝑥. Es decir, se tiene 𝑌 ̂ = 𝑌 ̄ , una recta de pendiente nula (recta horizontal) con ordenada al
origen igual al promedio de las 𝑌𝑖 , como lo indica la siguiente figura. Bajo esta situación resulta 𝑆𝐶𝑅𝑒𝑔 = 0 y
toda la variabilidad existente se debe a los errores aleatorios: 𝑅2 = 0 (Figura 9.5 B).

A B
Y y^ = a + bx Y

y^ = a

x1 x2 x3 x4 x5 x6 x1 x2 x3 x4 x5 x6
X X

Figura 9.5: A: Las observaciones están alineadas, por lo cual el ajuste es perfecto y 𝑅2 =1. B: No hay relación entre
las variables, la recta de regresión estimada tiene pendiente nula y su ordenada al origen coincide con la media de
las 𝑦𝑖 , resultando en 𝑅2 = 0.

10
Estadística - FCByF Unidad 9

Ninguno de estos casos extremos suele presentarse en la práctica, pero interpretamos que cuanto más cercano a 1
esté 𝑅2 , mejor es el ajuste.
Sin embargo, el coeficiente de determinación debe emplearse con precaución, ya que puede ser alto aún cuando el
ajuste no sea del todo satisfactorio o sin que la relación sea lineal (por ejemplo, su valor aumenta cuanto mayor
es la variabilidad en las 𝑥, si el 𝑛 aumenta, si se agregan más variables explicativas en el modelo, etc.). Además,
lo que podría ser considerado un valor bajo para algunos, por ejemplo un 𝑅2 = 0.7 en alguna aplicación química,
puede ser considerado como alto por otros, por ejemplo, en un estudio referente a comportamiento humano. Por
todas estas razones, se señala que para seleccionar un modelo y decidir sobre la bondad de su ajuste no debemos
basarnos solamente en este coeficiente.

9.2.4. Pruebas de hipótesis


9.2.4.1. Prueba de hipótesis para la pendiente 𝛽 en base al ANOVA
En un problema de regresión lineal es de particular interés conducir una prueba de hipótesis para determinar si
efectivamente la variable respuesta 𝑌 depende linealmente de 𝑥, es decir, si el efecto de la regresión es significativo.
Como se ilustró anteriormente, si esto no fuese así, la recta de regresión sería paralela al eje de las abscisas, indicando
que en promedio la variable respuesta no cambia con 𝑥. Es decir, si no hubiese regresión lineal, la verdadera recta
sería 𝜇𝑌 /𝑥 = 𝛼, donde la pendiente 𝛽 es nula.
Por esta razón, interesa plantear las siguientes hipótesis:

𝐻0 )𝛽 = 0 (no existe regresión lineal) 𝑣𝑠 𝐻1 )𝛽 ≠ 0 (existe regresión lineal)

El enfoque de la partición de la variabilidad total descripto anteriormente provee un cuadro teórico para la resolución
de esta prueba de hipótesis. Recordemos que: 𝑆𝐶𝑇 𝑜𝑡𝑎𝑙 = 𝑆𝐶𝐸𝑟𝑟𝑜𝑟 + 𝑆𝐶𝑅𝑒𝑔 . Intuitivamente, si la variabilidad debida
a la regresión es significativamente mayor a la originada por los errores aleatorios, entonces se debe rechazar 𝐻0 ,
puesto que hay un efecto significativo de la regresión. Es decir, deberíamos comparar 𝑆𝐶𝑅𝑒𝑔 con 𝑆𝐶𝐸𝑟𝑟𝑜𝑟 . Sin
embargo, esta comparación se realiza mediante el cociente de los Cuadrados Medios (𝐶𝑀 ), que se definen como
la división entre una suma de cuadrados y sus respectivos grados de libertad, y que cumplen con el rol de ser
estimadores de variancias:

𝑆𝐶𝑅𝑒𝑔 𝑆𝐶𝐸𝑟𝑟𝑜𝑟 𝐶𝑀𝑅𝑒𝑔


𝐶𝑀𝑅𝑒𝑔 = 𝐶𝑀𝐸𝑟𝑟𝑜𝑟 = 𝐹 =
1 𝑛−2 𝐶𝑀𝐸𝑟𝑟𝑜𝑟

Entonces, si el efecto de la regresión es significativo, esperamos que la variabilidad debida a 𝑥 (𝐶𝑀𝑅𝑒𝑔 ) sea grande
en comparación a la debida a los errores aleatorios (𝐶𝑀𝐸𝑟𝑟𝑜𝑟 ) y que el cociente 𝐹 tome un valor grande. Esto puede
apreciarse matemáticamente en las esperanzas de los cuadrados medios: si 𝛽 ≠ 0, el valor esperado del 𝐶𝑀𝑅𝑒𝑔 es
mayor que el de 𝐶𝑀𝐸𝑟𝑟𝑜𝑟 , mientras que si 𝛽 = 0, ambos valores esperados son iguales, ya que bajo los supuestos
establecidos para el modelo de regresión se tiene:

𝐸(𝐶𝑀𝑅𝑒𝑔 ) = 𝜎2 + 𝛽 2 (𝑛 − 1)𝑠2𝑥 y 𝐸(𝐶𝑀𝐸𝑟𝑟𝑜𝑟 ) = 𝜎2

Queda claro entonces que se debe rechazar 𝐻0 si, una vez calculado con los datos muestrales, el cociente 𝐹 arroja
un valor grande. Es decir, la regla de decisión será:

Rechazar 𝐻0 si 𝐹𝑜𝑏𝑠 ≥ 𝑐𝛼

Aquí 𝛼 hace referencia a la 𝑃 (𝐸𝐼 ) y no a la ordenada al origen de la recta de regresión. Para poder encontrar el
valor crítico y así establecer cuándo la estadística 𝐹 es lo suficientemente grande como para rechazar 𝐻0 , tenemos
que estudiar su distribución muestral. Es posible demostrar que:

(𝑛 − 2)𝐶𝑀𝐸𝑟𝑟𝑜𝑟 𝐶𝑀𝑅𝑒𝑔 𝐻0 2
∼ 𝜒2𝑛−2 y ∼ 𝜒1
𝜎2 𝜎2

11
Estadística - FCByF Unidad 9

𝐶𝑀
Así, si 𝐻0 es cierta, el cociente 𝐹 = 𝐶𝑀 𝑅𝑒𝑔 cumple con la definición de la distribución F de Snedecor, ya que es
𝐸𝑟𝑟𝑜𝑟
el cociente entre dos variables chi-cuadrado, cada una dividida por sus grados de libertad:

𝐶𝑀𝑅𝑒𝑔 𝐶𝑀𝑅𝑒𝑔
𝜎2 /1 𝜎2
𝐶𝑀𝑅𝑒𝑔 𝐻0
𝐹 = (𝑛−2)𝐶𝑀𝐸𝑟𝑟𝑜𝑟
= 𝐶𝑀𝐸𝑟𝑟𝑜𝑟 = ∼ 𝐹1,𝑛−2
/(𝑛 − 2) 𝜎2
𝐶𝑀𝐸𝑟𝑟𝑜𝑟
𝜎2

Haciendo uso de esta distribución es posible hallar el valor crítico partiendo, como en toda prueba de hipótesis, del
planteo de la probabilidad de error de tipo 1 elegida para el test:

(1)
𝑃 (𝐸𝐼 ) = 𝛼 ⟹ 𝑃 (𝑟𝑒𝑐ℎ𝑎𝑧𝑎𝑟 𝐻0 /𝐻0 𝑐𝑖𝑒𝑟𝑡𝑎) = 𝛼
(2) 𝐶𝑀𝑅𝑒𝑔 (3) (4)
⟹ 𝑃( ≥ 𝑐𝛼 /𝛽 = 0) = 𝛼 ⟹ 𝑃 (𝐹 ≥ 𝑐𝛼 ) = 𝛼 ⟹ 𝑐𝛼 = 𝐹1,𝑛−2;1−𝛼
𝐶𝑀𝐸𝑟𝑟𝑜𝑟
(1) Por definición de 𝐸𝐼 .
(2) 𝐸𝐼 para el caso de la prueba de hipótesis que estamos analizando.
𝐶𝑀𝑅𝑒𝑔
(3) Debido a que el cociente 𝐶𝑀𝐸𝑟𝑟𝑜𝑟 sigue una distribución F de Snedecor con 1 y 𝑛 − 2 grados de libertad, si
𝐻0 es cierta.
(4) El segundo miembro de la desigualdad es un percentil de la distribución 𝐹1,𝑛−2 .
También se puede establecer una regla de decisión mediante el enfoque de la probabilidad asociada: Rechazar 𝐻0 si
𝑝𝑎𝑠𝑜𝑐 ≤ 𝛼, con:

𝑝𝑎𝑠𝑜𝑐 = 𝑃 (𝐹 ≥ 𝐹𝑜𝑏𝑠 )

Toda la información mencionada suele resumirse en un cuadro ANOVA como se muestra a continuación:

Fuente de Variación Suma de Cuadrados Grados de Libertad Cuadrado Medio 𝐹 𝑝


𝑆𝐶𝑅𝑒𝑔 𝐶𝑀𝑅𝑒𝑔
Regresión 𝑆𝐶𝑅𝑒𝑔 1 𝐶𝑀𝑅𝑒𝑔 = 1 𝐶𝑀𝐸𝑟𝑟𝑜𝑟 𝑃 (𝐹 ≥ 𝐹𝑜𝑏𝑠 )
𝑆𝐶𝐸𝑟𝑟𝑜𝑟
Error 𝑆𝐶𝐸𝑟𝑟𝑜𝑟 𝑛−2 𝐶𝑀𝐸𝑟𝑟𝑜𝑟 = 𝑛−2
Total 𝑆𝐶𝑇 𝑜𝑡𝑎𝑙 𝑛−1

9.2.4.2. Prueba de hipótesis para la pendiente 𝛽 en base a la distribución T-Student


El enfoque del ANOVA presentado en la sección anterior sólo permite ensayar la prueba bilateral 𝐻0 )𝛽 = 0 versus
𝐻1 )𝛽 ≠ 0, es decir, si existe o no un efecto significativo de la regresión de 𝑌 en 𝑥. Sin embargo, dependiendo
del problema de investigación podría ser de interés probar una hipótesis unilateral, por ejemplo, 𝐻0 )𝛽 = 0 versus
𝐻1 )𝛽 > 0, en el caso que se sospeche una relación directa o positiva entre las variables estudiadas.
Para estas situaciones se puede desarrollar una prueba de hipótesis para 𝛽 en base a la distribución muestral de su
estimador. Tomando 𝑃 (𝐸𝐼 ) = 𝛼, a continuación se describe el procedimiento a seguir para cada caso posible.
Prueba unilateral a la derecha: 𝐻0 )𝛽 = 0 versus 𝐻1 )𝛽 > 0
Regla de decisión:
𝐶𝑀𝐸𝑟𝑟𝑜𝑟
Rechazar 𝐻0 si 𝑏 ≥ 𝑐𝛼 = 0 + 𝑡𝑛−2;1−𝛼 √
(𝑛 − 1)𝑠2𝑥
o bien,
𝑏−0
Rechazar 𝐻0 si 𝑡𝑜𝑏𝑠 ≥ 𝑡𝑛−2;1−𝛼 𝑡𝑜𝑏𝑠 =
√ 𝐶𝑀 𝐸𝑟𝑟𝑜𝑟
(𝑛−1)𝑠2𝑥

o bien,
𝐻0
Rechazar 𝐻0 si 𝑝𝑎𝑠𝑜𝑐 ≤ 𝛼 𝑝𝑎𝑠𝑜𝑐 = 𝑃 (𝐵 ≥ 𝑏/𝛽 = 0) = 𝑃 (𝑇 ≥ 𝑡𝑜𝑏𝑠 ) 𝑇 ∼ 𝑡𝑛−2

12
Estadística - FCByF Unidad 9

Prueba unilateral a la izquierda: 𝐻0 )𝛽 = 0 versus 𝐻1 )𝛽 < 0


Regla de decisión:
𝐶𝑀𝐸𝑟𝑟𝑜𝑟
Rechazar 𝐻0 si 𝑏 ≤ 𝑐𝛼 = 0 − 𝑡𝑛−2;1−𝛼 √
(𝑛 − 1)𝑠2𝑥
o bien,
𝑏−0
Rechazar 𝐻0 si 𝑡𝑜𝑏𝑠 ≤ −𝑡𝑛−2;1−𝛼 𝑡𝑜𝑏𝑠 =
√ 𝐶𝑀 𝐸𝑟𝑟𝑜𝑟
(𝑛−1)𝑠2𝑥

o bien,
𝐻0
Rechazar 𝐻0 si 𝑝𝑎𝑠𝑜𝑐 ≤ 𝛼 𝑝𝑎𝑠𝑜𝑐 = 𝑃 (𝐵 ≤ 𝑏/𝛽 = 0) = 𝑃 (𝑇 ≤ 𝑡𝑜𝑏𝑠 ) 𝑇 ∼ 𝑡𝑛−2

Prueba bilateral: 𝐻0 )𝛽 = 0 versus 𝐻1 )𝛽 ≠ 0


Regla de decisión:

𝐶𝑀𝐸𝑟𝑟𝑜𝑟 𝐶𝑀𝐸𝑟𝑟𝑜𝑟
Rechazar 𝐻0 si 𝑏 ≤ −𝑡𝑛−2;1−𝛼/2 √ o si 𝑏 ≥ 𝑡𝑛−2;1−𝛼/2 √
(𝑛 − 1)𝑠2𝑥 (𝑛 − 1)𝑠2𝑥

o bien,

𝑏−0
Rechazar 𝐻0 si |𝑡𝑜𝑏𝑠 | ≥ 𝑡𝑛−2;1−𝛼/2 𝑡𝑜𝑏𝑠 =
√ 𝐶𝑀 𝐸𝑟𝑟𝑜𝑟
(𝑛−1)𝑠2𝑥

o bien,
Rechazar 𝐻0 si 𝑝𝑎𝑠𝑜𝑐 ≤ 𝛼 𝑝𝑎𝑠𝑜𝑐 = 2𝑃 (𝑇 ≥ |𝑡𝑜𝑏𝑠 |)
Conducir la prueba bilateral mediante este enfoque o mediante el enfoque del ANOVA lleva a la misma
conclusión (ambas pruebas están relacionadas, de hecho se puede verificar que 𝑡2𝑜𝑏𝑠 = 𝐹𝑜𝑏𝑠 y que los valores
de la probabilidad asociada coinciden).
Siguiendo los pasos usuales para el desarrollo de una prueba de hipótesis se plantea a continuación la deducción
para el caso unilateral a la derecha y se dejan los restantes como ejercicios.
1. Plantear las hipótesis: 𝐻0 )𝛽 = 0 versus 𝐻1 )𝛽 > 0
2. Fijar el nivel de significación: 𝑃 (𝐸𝐼 ) = 𝛼.
3. Especificar la estadística base: ya se ha comentado que, bajo los supuestos establecidos para el modelo,
el estimador de la pendiente, 𝐵, tiene la siguiente distribución:

𝜎2
𝐵 ∼ 𝑁 (𝛽, )
(𝑛 − 1)𝑠2𝑥

y que al estandarizar empleando 𝐶𝑀𝐸𝑟𝑟𝑜𝑟 en lugar del parámetro desconocido 𝜎2 se forma una estadística
con distribución T de Student, la cual servirá como estadística de la prueba:

𝐵−𝛽
𝑇 = ∼ 𝑡𝑛−2
√ 𝐶𝑀 𝐸𝑟𝑟𝑜𝑟
(𝑛−1)𝑠2𝑥

4. Determinar la región de rechazo:

Regla de decisión: Rechazar 𝐻0 si 𝑏 ≥ 𝑐𝛼

Demostraremos que dicho valor crítico es igual a 𝑐𝛼 = 0 + 𝑡𝑛−2;1−𝛼 √ 𝐶𝑀 (𝑛−1)𝑠2𝑥 , donde 𝑡𝑛−2;1−𝛼 es el percentil
𝐸𝑟𝑟𝑜𝑟

(1 − 𝛼) × 100 de la distribución T de Student con 𝑛 − 2 grados de libertad. Para esto, se parte desde el planteo
de la probabilidad de error de tipo I:

13
Estadística - FCByF Unidad 9

(1) (2) (3) 𝑐𝛼 − 0


𝑃 (𝐸𝐼 ) = 𝛼 ⟹ 𝑃 (𝑟𝑒𝑐ℎ𝑎𝑧𝑎𝑟 𝐻0 /𝐻0 𝑐𝑖𝑒𝑟𝑡𝑎) = 𝛼 ⟹ 𝑃 (𝐵 ≥ 𝑐𝛼 /𝛽 = 0) = 𝛼 ⟹ 𝑃 (𝑇 ≥ )=𝛼
√ 𝐶𝑀 𝐸𝑟𝑟𝑜𝑟
(𝑛−1)𝑠2 𝑥

(4) 𝑐𝛼 − 0 (5) 𝐶𝑀𝐸𝑟𝑟𝑜𝑟


⟹ = 𝑡𝑛−2;1−𝛼 ⟹ 𝑐𝛼 = 0 + 𝑡𝑛−2;1−𝛼 √
√ 𝐶𝑀 𝐸𝑟𝑟𝑜𝑟 (𝑛 − 1)𝑠2𝑥
(𝑛−1)𝑠2𝑥

(1) Por definición de 𝐸𝐼 .


(2) 𝐸𝐼 para el caso de la prueba de hipótesis que estamos analizando.
(3) Construcción de una variable con distribución T-Student.
(4) El segundo miembro de la desigualdad es un percentil de la distribución T de Student con 𝑛 − 2 grados
de libertad.
(5) Por despeje.
5. Obtener una muestra y calcular el valor observado de la estadística base.
6. Tomar una decisión y concluir.
Se debe notar que también puede plantearse una prueba de hipótesis que contraste el valor verdadero de la pendiente
con respecto a cualquier otro valor no necesariamente igual a cero, por ejemplo: 𝐻0 )𝛽 = 𝛽0 versus 𝐻1 )𝛽 > 𝛽0 , con
𝛽0 ≠ 0. El procedimiento para la deducción del valor crítico correspondiente es análogo al anterior.

9.2.4.3. Prueba de hipótesis para la ordenada al origen 𝛼 en base a la distribución T-Student


También puede ser de interés realizar pruebas de hipótesis para la ordenada al origen 𝛼, con el fin de evaluar si es
igual o no a algún valor 𝛼0 . Particularmente, suele ser conveniente investigar si la recta pasa por el origen, es decir,
si el promedio de la variable respuesta es igual a cero cuando la variable explicativa es cero. Por lo tanto, es común
plantear pruebas de hipótesis con 𝐻0 )𝛼 = 0. A continuación se presenta el procedimiento para resolver el test para
cada tipo de hipótesis alternativa que pueda interesar. Las demostraciones quedan propuestas como ejercicio. Se
debe reparar en el uso del mismo símbolo 𝛼 para representar dos elementos distintos: por un lado, la ordenada al
origen, y por otro, la probabilidad de error de tipo I, como hacemos habitualmente.
Prueba unilateral a la derecha: 𝐻0 )𝛼 = 0 versus 𝐻1 )𝛼 > 0
Regla de decisión:

1 𝑥2̄
Rechazar 𝐻0 si 𝑎 ≥ 𝑐𝛼 = 0 + 𝑡𝑛−2;1−𝛼 √𝐶𝑀𝐸𝑟𝑟𝑜𝑟 ( + )
𝑛 (𝑛 − 1)𝑠2𝑥

o bien,
𝑎−0
Rechazar 𝐻0 si 𝑡𝑜𝑏𝑠 ≥ 𝑡𝑛−2;1−𝛼 𝑡𝑜𝑏𝑠 =
√𝐶𝑀𝐸𝑟𝑟𝑜𝑟 ( 𝑛1 + 𝑥̄2
(𝑛−1)𝑠2𝑥 )

o bien,
𝐻0
Rechazar 𝐻0 si 𝑝𝑎𝑠𝑜𝑐 ≤ 𝛼 𝑝𝑎𝑠𝑜𝑐 = 𝑃 (𝐴 ≥ 𝑎/𝛼 = 0) = 𝑃 (𝑇 ≥ 𝑡𝑜𝑏𝑠 ) 𝑇 ∼ 𝑡𝑛−2

Prueba unilateral a la izquierda: 𝐻0 )𝛼 = 0 versus 𝐻1 )𝛼 < 0


Regla de decisión:

1 𝑥2̄
Rechazar 𝐻0 si 𝑎 ≤ 𝑐𝛼 = 0 − 𝑡𝑛−2;1−𝛼 √𝐶𝑀𝐸𝑟𝑟𝑜𝑟 ( + )
𝑛 (𝑛 − 1)𝑠2𝑥

o bien,
𝑎−0
Rechazar 𝐻0 si 𝑡𝑜𝑏𝑠 ≤ −𝑡𝑛−2;1−𝛼 𝑡𝑜𝑏𝑠 =
√𝐶𝑀𝐸𝑟𝑟𝑜𝑟 ( 𝑛1 + 𝑥̄2
(𝑛−1)𝑠2𝑥 )

14
Estadística - FCByF Unidad 9

o bien,
𝐻0
Rechazar 𝐻0 si 𝑝𝑎𝑠𝑜𝑐 ≤ 𝛼 𝑝𝑎𝑠𝑜𝑐 = 𝑃 (𝐴 ≤ 𝑎/𝛼 = 0) = 𝑃 (𝑇 ≤ 𝑡𝑜𝑏𝑠 ) 𝑇 ∼ 𝑡𝑛−2

Prueba bilateral: 𝐻0 )𝛼 = 0 versus 𝐻1 )𝛼 ≠ 0


Regla de decisión:
1 𝑥2̄
Rechazar 𝐻0 si 𝑎 ≤ −𝑡𝑛−2;1−𝛼/2 √𝐶𝑀𝐸𝑟𝑟𝑜𝑟 ( + )
𝑛 (𝑛 − 1)𝑠2𝑥

1 𝑥2̄
o si 𝑎 ≥ 𝑡𝑛−2;1−𝛼/2 √𝐶𝑀𝐸𝑟𝑟𝑜𝑟 ( + )
𝑛 (𝑛 − 1)𝑠2𝑥
o bien,

𝑎−0
Rechazar 𝐻0 si |𝑡𝑜𝑏𝑠 | ≥ 𝑡𝑛−2;1−𝛼/2 𝑡𝑜𝑏𝑠 =
√𝐶𝑀𝐸𝑟𝑟𝑜𝑟 ( 𝑛1 + 𝑥̄2
(𝑛−1)𝑠2𝑥 )

o bien,
Rechazar 𝐻0 si 𝑝𝑎𝑠𝑜𝑐 ≤ 𝛼 𝑝𝑎𝑠𝑜𝑐 = 2𝑃 (𝑇 ≥ |𝑡𝑜𝑏𝑠 |)

9.3. Análisis de correlación


El objetivo del análisis de correlación es estudiar el comportamiento conjunto de dos variables aleatorias, 𝑋
e 𝑌 , referidas a dos características diferentes que se miden sobre la misma unidad. A diferencia del análisis de
regresión, en el análisis de correlación ninguna de las variables es controlada por el investigador (por eso decimos
que ambas son aleatorias) y no hay roles asignados mediante los cuales se identifique a una como explicativa y otra
como respuesta. En cambio, el interés radica en estimar una medida de la intensidad de la relación entre ambas y,
si correspondiese, explorar y modelar la relación de una en función de la otra y viceversa.
Se asume que la muestra está compuesta por 𝑛 pares de valores (𝑥𝑖 , 𝑦𝑖 ), 𝑖 = 1, ..., 𝑛. Nuevamente, el primer paso
es realizar un diagrama de dispersión para explorar la naturaleza de la relación entre las variables. En el mismo
se puede distinguir si no están relacionadas, o si lo están pero en una forma no lineal, o si presentan una relación
lineal directa o inversa. El análisis que discutiremos en este curso se limita al estudio de relaciones lineales, por lo
que recibe el nombre de análisis de correlación lineal. Debe ser aplicado sólo si éste es el tipo de relación que se
aprecia en el diagrama de dispersión.

9.3.1. Medición de la intensidad de la relación entre las variables


En búsqueda de dar respuesta al objetivo del análisis de correlación de medir la fuerza de la asociación entre dos
variables aleatorias, se define en primer instancia a la covariancia.
Definición. La covariancia entre dos variables aleatorias 𝑋 e 𝑌 es una medida que describe la naturaleza de la
asociación entre ambas y se define como el valor esperado:

𝜎𝑋𝑌 = 𝐸[(𝑋 − 𝜇𝑋 )(𝑌 − 𝜇𝑌 )]

Este coeficiente provee información acerca de la dirección de la relación entre las variables: será positiva si la relación
es directa y negativa si es inversa.
Sin embargo, presenta dos inconvenientes. La covariancia no tiene un rango de variación acotado, por lo tanto nunca
es posible saber si su valor es “grande” o “pequeño” y no permite cuantificar la fuerza de la asociación. Por otro lado,
es sensible a las unidades de medida de las variables, si alguna de ellas es modificada puede hacerse arbitrariamente
grande o pequeña.
El parámetro 𝜎𝑋𝑌 es desconocido y debe ser estimado a partir de la información muestral. Su estimador es:

15
Estadística - FCByF Unidad 9

𝑛
1 ̄ 𝑖 − 𝑌̄ )
𝐶𝑜𝑣(𝑋, 𝑌 ) = 𝑆𝑋𝑌 = ∑(𝑋𝑖 − 𝑋)(𝑌
𝑛 − 1 𝑖=1
Los siguientes esquemas permiten explicar por qué la covariancia toma un signo positivo o negativo según la relación
sea directa o inversa, respectivamente. Cuando la relación es directa (Figura 9.6 A), valores grandes de 𝑋 suelen
asociarse con valores grandes de 𝑌 , resultando en puntos observados que están por encima tanto de 𝑋̄ como de 𝑌 ̄
(cuadrante I definido por las medias muestrales). Para estos pares de datos, se tendrá en general un valor positivo
de (𝑋𝑖 − 𝑋)(𝑌̄ 𝑖 − 𝑌 ̄ ). De la misma forma, valores pequeños de 𝑋 suelen asociarse con valores pequeños de 𝑌 ,
resultando en puntos observados que están por debajo tanto de 𝑋̄ como de 𝑌 ̄ (cuadrante III definido por las medias
̄ 𝑖 − 𝑌 ̄ ). Luego,
muestrales). Para estos pares de datos, también se tendrá en general un valor positivo de (𝑋𝑖 − 𝑋)(𝑌
̄ ̄
la mayoría de los productos (𝑋𝑖 − 𝑋)(𝑌𝑖 − 𝑌 ) son positivos y la covariancia resulta ser mayor a cero. Cuando la
relación es inversa (Figura 9.6 B), se puede seguir un razonamiento análogo para entender por qué se espera que la
covariancia sea negativa.

A (xi − x)(yi − y) < 0 (xi − x)(yi − y) > 0 B (xi − x)(yi − y) < 0 (xi − x)(yi − y) > 0
Y Y

y y

(xi − x)(yi − y) > 0 (xi − x)(yi − y) < 0 (xi − x)(yi − y) > 0 (xi − x)(yi − y) < 0

x X x X

Figura 9.6: La mayoría de los productos (𝑥𝑖 − 𝑥)(𝑦


̄ 𝑖 − 𝑦)̄ son positivos cuando la relación entre las variables es directa
(A) y negativos cuando la relación es inversa (B).

Si bien la covariancia es útil para describir la dirección de la relación entre las variables estudiadas, no es útil
para cuantificar la fuerza de la asociación, por los inconvenientes ya mencionados. Esto se soluciona al dividir
la covariancia por el producto de los desvíos estándar, dando origen al coeficiente de correlación lineal de
Pearson.
Definición. El coeficiente de correlación lineal de Pearson mide la intensidad de la relación lineal entre dos
variables aleatorias 𝑋 e 𝑌 e indica la dirección de la misma. Se define como:

𝜎𝑋𝑌
𝜌=
𝜎𝑋 𝜎𝑌

Este coeficiente goza de las siguientes propiedades:


Al igual que la covariancia, su signo indica si la relación es positiva o negativa
Su campo de variación es −1 ≤ 𝜌 ≤ 1.
Su magnitud es indicativa de la fuerza de la asociación: cuanto más cercano a cero esté, más débil es la
asociación; mientras que cuanto más cercano a 1 se encuentre en valor absoluto, más fuertemente están
relacionadas las variables.
Si 𝜌 = 1, existe una relación lineal directa perfecta entre las variables (todas las observaciones caen sobre una
recta con pendiente positiva).
Si 𝜌 = −1, existe una relación lineal inversa perfecta entre las variables (todas las observaciones caen sobre
una recta con pendiente negativa).
Si 𝑋 e 𝑌 son dos variables independientes, entonces 𝜌 = 0. Sin embargo, la recíproca no es cierta. 𝜌 = 0 no
implica necesariamente falta de asociación, sino que podría indicar falta de linealidad en la relación entre las
variables.

16
Estadística - FCByF Unidad 9

El parámetro 𝜌 suele ser desconocido y se lo estima mediante el coeficiente de correlación lineal muestral, 𝑟:

𝑆𝑋𝑌
𝑟=
𝑆𝑋 𝑆𝑌

La siguiente regla práctica puede emplearse como una guía para la interpretación de la intensidad de la relación,
aunque no es más que un criterio arbitrario:

Si |𝑟| < 0.5 la relación lineal entre las variables es débil.


Si 0.5 ≤ |𝑟| < 0.8 la relación lineal entre las variables es moderada.
Si |𝑟| ≥ 0.8 la relación lineal entre las variables es intensa.

En el diagrama que se presenta a continuación se describen algunos ejemplos.

A B C D
y

y
x x x x

Figura 9.7: (A) Relación lineal directa (o positiva) fuerte. (B) Relación lineal inversa (o negativa) moderada. (C)
Relación no definida. (D) Relación cuadrática fuerte.

9.3.2. Estimación de rectas de regresión


Si en un problema en particular se encuentra una asociación lineal fuerte entre las variables estudiadas puede ser
de interés describir la relación empleando la ecuación de alguna recta. Como ninguna de las variables tiene el rol
de explicativa o de respuesta, se definen dos rectas de regresión téoricas, una de 𝑌 en función de 𝑋 y otra de 𝑋 en
función de 𝑌 :

𝜇𝑌 /𝑥 = 𝛼1 + 𝛽1 𝑥 𝜇𝑋/𝑦 = 𝛼2 + 𝛽2 𝑦

Las estimaciones de dichas rectas, en base a los datos muestrales, son:

𝑦 ̂ = 𝑎 1 + 𝑏1 𝑥 𝑥 ̂ = 𝑎 2 + 𝑏2 𝑦

𝑛 𝑛
∑𝑖=1 𝑥𝑖 𝑦𝑖 − 𝑛𝑥𝑦̄ ̄ ∑𝑖=1 𝑥𝑖 𝑦𝑖 − 𝑛𝑥𝑦̄ ̄
𝑎1 = 𝑦 ̄ − 𝑏 1 𝑥 ̄ 𝑏1 = 𝑎2 = 𝑥̄ − 𝑏2 𝑦 ̄ 𝑏2 =
(𝑛 − 1)𝑠2𝑥 (𝑛 − 1)𝑠2𝑦

Las pendientes 𝑏1 y 𝑏2 siempre tienen igual signo y además se demuestra que 𝑟 = ±√𝑏1 𝑏2 .

17
Estadística - FCByF Unidad 9

x^ = a2 + b2y
Y y^ = a1 + b1x

x1 x2 x3 x4 x5 x6
X

Figura 9.8: Representación de las dos rectas de regresión estimadas.

Si la relación entre las variables es perfecta (|𝑟| = 1), entonces ambas rectas son coincidentes (Figura 9.9 A), En
cambio, si no hay relación lineal, las rectas son perpendiculares entre sí, ya que cada una de ellas es una constante
igual a la media muestral correspondiente (Figura 9.9 B):

A B
y^ = a1 + b1x x^ = a2
Y x^ = a + b y
2 2
Y

y^ = a1

x1 x2 x3 x4 x5 x6 x1 x2 x3 x4 x5 x6
X X

Figura 9.9: A: La relación lineal es perfecta, ambas rectas de regresión coinciden (𝑟 = 1). B: No hay relación entre
las variables, las rectas de regresión son perpendiculares y cada una coincide con la media muestral de una de las
variables (𝑟 = 0).

Para poder realizar inferencia (estimaciones por intervalos de confianza o pruebas de hipótesis) sobre los parámetros
de estas rectas de regresión o sobre el coeficiente de correlación lineal poblacional se deben realizar supuestos
distribucionales sobre 𝑋 e 𝑌 ; sin embargo, no abarcamos estas cuestiones en este curso.
Finalmente, se debe observar que el cuadrado del coeficiente de correlación muestral coincide con el valor numérico
del coeficiente de determinación 𝑅2 . Este resultado matemático proviene de la íntima relación que, como pudimos
ver, existe entre un análisis de regresión lineal y un análisis de correlación lineal, pero no debe olvidarse
que cada una de estas técnicas tienen por objetivo resolver problemas diferentes.

9.4. Bibliografía
Devore, J. L. (2008). Probabilidad y estadística para ingenierías y ciencias. Cengage Learning Editores. Capí-
tulo 12.
Walpole, R., Myers, R., Myers, S., Ye, K. (2007). Probabilidad y estadística para ingenierías y ciencias. Pearson
Prentice Hall. Capítulo 11.

18

También podría gustarte