Está en la página 1de 17

Estadística Analítica 2020- 1er Cuatrimestre Fac. Cs. Veterinarias (U. B. A.

REGRESIÓN LINEAL SIMPLE Y MÚLTIPLE


Objetivos específicos
✓ Comprender el sentido de las técnicas de regresión lineal, así como su importancia en el marco de la
Inferencia Estadística para dos o más variables conjuntamente distribuidas.
✓ Conocer las ventajas y limitaciones de esta técnica, así como los procedimientos de diagnóstico para
evaluar la calidad de los resultados obtenidos en la estimación.
✓ Distinguir claramente entre casos de relación funcional entre variables respecto a independencia de
variables aleatorias.

Contenidos temáticos
Concepto de regresión. Caso particular: regresión lineal simple. Diagrama de dispersión. Variable dependiente.
Modelo, condiciones para elegir el modelo. Método de mínimos cuadrados. Coeficiente de regresión: cálculo e
interpretación. Varianza del error. Prueba de hipótesis e intervalo de confianza para . Banda de confianza
para la recta de regresión. Intervalo de predicción. Coeficiente de determinación. Aplicaciones. Regresión
múltiple: Conceptos y aplicaciones. Interpretación de análisis realizados mediante procesadores estadísticos.

Glosario
Modelo estadístico funcional de relación entre variables. Concepto de función. Variables dependiente e
independiente. Diagrama de dispersión. Curva aproximada de ajuste. La función lineal simple. Criterio de los
mínimos cuadrados. Conceptos de error y de residuo. Las ecuaciones normales. Parámetros del modelo.
Pendiente de la recta (, coeficiente de regresión lineal). Ordenada al origen (). Contrastes e intervalo para .
Varianza del error. Varianza explicada (coeficiente de determinación). Partición de la varianza total.
Coeficientes de regresión parcial.

PROBLEMAS RESUELTOS
EJERCICIO 01) Se desea estudiar la cantidad de energía metabolizada por el gorrión Passer domesticus,
bajo diversas condiciones de temperatura seleccionadas por el experimentador y un fotoperíodo de 10 hs con
el fin de probar si el aumento de la temperatura puede generar una disminución de la energía metabolizable.
Para ello, se toman 10 gorriones y se los somete a distintas temperaturas. La siguiente tabla da los resultados
del estudio:

Temperatura (°C) 10 12 14 16 18 20 22 24 26 28
Energía metabolizada (cal) 24 23 22 24 20 18 18 15 16 13

Shapiro-Wilks (modificado)
Variable n Media D.E. W* p (una cola)
RDUO_Columna2 10 0,00 1,21 0,85 0,1188

a) Dibujar el diagrama de dispersión.


b) Enunciar las condiciones necesarias para realizar un análisis de regresión lineal.
c) Escribir el modelo teórico correspondiente e interpretar sus componentes
d) Estimar la función lineal de regresión y graficarla en el diagrama de dispersión del inciso a.
e) Realizar la prueba en interés ( = 0,05).
f) En caso de que lo crea necesario calcule el intervalo de confianza del 95% para la modificación de la energía
media metabolizable cuando la temperatura aumenta en un grado centígrado ().
g) Particionar la suma de cuadrados total mostrando la proporción explicada por el modelo y la no explicada o
residual.
h) Calcular el R2 e interpretar el resultado.
i) ¿Qué porcentaje de la variabilidad de la variable respuesta no es explicada por el modelo escogido?
j) Construir un intervalo de 95% para la energía media metabolizada por un gorrión que es sometido a una
temperatura de 21°C. Indique también la estimación puntual.
k) Construir un intervalo de 95% para la energía metabolizada por un gorrión que es sometido a una
temperatura de 21°C. Indique también la estimación puntual.

12
Estadística Analítica 2020- 1er Cuatrimestre Fac. Cs. Veterinarias (U. B. A.)

El objetivo del estudio de regresión es investigar si se puede explicar la relación entre dos variables
cuantitativas por una relación funcional con el propósito de estimar o predecir valores de una de ellas a partir
de la otra.

Datos del problema


• Variables en estudio:
X: Temperatura ambiente donde habita un gorrión Passer domesticus, medida en ºC; variable explicatoria,
independiente (no aleatoria)
Y: Energía metabolizada por un gorrión Passer domesticus, medida en calorías (cal); variable respuesta,
dependiente (aleatoria)

Solución
a) El diagrama de dispersión es recomendable como
primer paso del estudio de regresión, ya que nos permite
apreciar visualmente la existencia o no de una tendencia
lineal, tener una idea sobre el tipo de relación entre las
variables, y sobre su grado de dispersión.
Se grafican los puntos (pares (xi; yj)) representando la
variable independiente sobre el eje X (horizontal) y la
variable dependiente sobre el eje Y (vertical). Es
importante elegir escalas adecuadas, ya que de lo
contrario se pierde la apreciación grafica de la adecuación
del modelo lineal para explicar la relación entre las
variables consideradas.
En este caso parecería haber una relación lineal
inversa entre la “energía metabolizada” y la “temperatura
ambiente”, de modo tal que al aumentar la temperatura del
ambiente donde se encuentra el gorrión, disminuye la
energía metabolizada por el mismo en forma lineal.
b) Condiciones para la elección del modelo
i) Para cada valor de temperatura, existe una subpoblación de valores de energía metabolizada por el
gorrión Passer domesticus, con distribución normal.
Dado que utilizamos el caso más simple (una observación de cada subpoblación) no probamos la normalidad
de la variable respuesta en cada subpoblación.
Pero, al tener los valores de energía metabolizada por el gorrión Passer domesticus distribución normal,
entonces, como consecuencia, los errores del modelo también se distribuyen normalmente. Para probar la
condición sobre la distribución de los errores del modelo se utiliza la prueba de Shapiro Wilks utilizando los
residuos del modelo estimado como información muestral.
ii) Los valores de energía metabolizada por el gorrión Passer domesticus son independientes unos de otros
(tanto dentro de cada temperatura como entre las diferentes temperaturas). Para garantizar esta condición, se
toman 10 gorriones Passer domesticus al azar y aleatoriamente se asigna uno a cada de las temperaturas
ambientales prefijadas.
iii) Las varianzas poblacionales de los valores de energía metabolizada por los gorriones Passer domesticus
para cada temperatura deben ser iguales (al tener un solo valor de cada subpoblación no podemos verificarlo y
suponemos que se cumple). Si fuese otro el caso, se debe hacer un Test de Levene.

c) Modelo poblacional propuesto es:


Yi =  + Xi + i para i=1...N donde i ~ N (0; 2) y son independientes entre sí

Es importante observar que, si bien en el modelo poblacional expresado se observan dos parámetros, el
análisis de regresión lineal simple tiene tres parámetros o constantes desconocidas, que deben estimarse a
partir de la muestra de pares ordenados observados y disponibles. Dichos parámetros son: la pendiente de la
recta (), la ordenada al origen de la recta () y la variabilidad de los errores (²).

13
Estadística Analítica 2020- 1er Cuatrimestre Fac. Cs. Veterinarias (U. B. A.)

Aplicando el operador esperanza en ambos miembros del modelo poblacional conduce a la siguiente expresión
del modelo.
E(Y) =  + X

Yi= Energía metabolizada por el i-ésimo gorrión Passer domesticus, medida en calorías (cal). (Variable
aleatoria)
= Energía media poblacional metabolizada por los gorriones Passer domesticus, medida en calorías (cal)
cuando la temperatura es de 0ºC. (Parámetro)
= Cambio o modificación en la energía media poblacional metabolizada por los gorriones Passer domesticus,
medida en calorías (cal) cuando la temperatura aumenta en 1 ºC. (Parámetro)
Xi= Temperatura ambiente donde habita el i-ésimo gorrión Passer domesticus, medida en ºC. (Variable
controlada por el experimentador)
i= error aleatorio proveniente del modelo propuesto: alejamiento de cada valor de energía metabolizada por
el i-ésimo Passer domesticus, medida en calorías (cal), de la energía media poblacional metabolizada por los
gorriones correspondiente a su subpoblación definida por cierto valor de temperatura ambiente. (Variable
aleatoria)

d) Los estimadores de mínimos cuadrados de los parámetros (son los que se obtienen al hacer mínima
i2 = (Yi -  - Xi )2 son: ˆ = a y ˆ = b
̂ =
Por lo tanto E(Y) Yˆi = a + bxi es la recta estimada
• Información muestral: xi = 190; xi2 = 3940; yi =193; yi2 = 3863; xi yi = 3464

Reemplazando en las fórmulas correspondientes se obtienen las estimaciones de los parámetros:

(∑ X)(∑ Y) 190·193
∑ XY - 3464 - -203
b= n = 10 = = -0,62
(∑ X ) 2 36100 330
∑ X2 - 3940 -
10
n
=
̅ = 193 - (-0,62)· 190 = 19,3 + 0,62·19 = 31,08
̅ - bX
a= Y 10 10

La expresión de la recta estimada con los datos disponibles de la muestra que tenemos resulta:
Yˆi = 31, 08 − 0, 62 xi

Gráfico:

e) Lo planteado en esta parte se responde resolviendo una prueba cuyas hipótesis son:
H0:  ≥ 0
H1:  < 0
14
Estadística Analítica 2020- 1er Cuatrimestre Fac. Cs. Veterinarias (U. B. A.)

Para encontrar el estadístico de prueba adecuado, tenemos en cuenta que el parámetro en estudio es , y que
su estimador es b, cuya expresión se obtiene por el método de mínimos cuadrados.
Resulta que: E (b) =  por lo que b es estimador insesgado de , y además b  N ( , 2), lo cual puede
verse intuitivamente observando la fórmula de b, dado que los xi son valores constantes y que los yi tienen
distribución normal.
Por lo tanto, estandarizando a b, obtenemos
Z = b -   N (0; 1)


Considerando que desconocemos la varianza poblacional, y el caso general en que la variable respuesta
sea aproximadamente normal, tenemos como estadístico de prueba:
b-
t= ~t
( n -2)
Sb
El nivel de significación es  = 0,05
La región crítica (RC) es unilateral izquierda: t8  -1,86

La regla de decisión (RD) es:


RECHAZO HO si tHo  - 1,86
NO RECHAZO HO si tHo > - 1,86

-t(8;0,95) = -1,86

Se2
La varianza muestral de b es: Sb2 =
( X )
2

X 2
-
n

Siendo la varianza muestral del error:

1  ( Y ) 2 2  ( X ) 2  
2
Se =   Y 2 - - b   X 2 - 
n-2  n  n 
  
Luego, tomando la información muestral:
1  (193) 2  (190) 2  
S e2 =  3863 - - (-0, 62) 2 3940 - 
10 - 2  10  10  
  
(3863 − 3724, 9 − 0, 3844  330 ) (138,10 − 126, 85) = 1, 405
1 1
= =
8 8

sb2 = 1,405/330 = 0,0043 ; sb =0,0653  0,07

-0, 62
tHo = = - 9, 4946
0, 0653
Conclusión: A un nivel de significación del 5%, hay evidencias suficientes para rechazar H0 (H0:   0), es decir
 < 0. Se puede concluir que por cada aumento de temperatura ambiente en 1ºC hay una disminución de la
energía media poblacional metabolizada por los gorriones, en calorías, en esta población de gorriones Passer
domesticus.

15
Estadística Analítica 2020- 1er Cuatrimestre Fac. Cs. Veterinarias (U. B. A.)

f) Se considera necesario realizar el intervalo de confianza para  ya que se concluyó en el punto anterior que
 < 0 con un nivel de significación del 5%, por ello, ahora se desea estimar qué tan lejos del cero se encuentra
el valor del parámetro en estudio. Para el cálculo del intervalo de confianza para , se toma como variable
pivotal el estadístico de prueba que se utilizó en la dócima para ese parámetro, y su construcción es similar al
de todos los intervalos simétricos.

En este caso, calculamos el intervalo de confianza del 95% para :


L.I. = b - t8; 0,975 . Sb = -0,62 - (2,306 · 0,07) = - 0,78
L.S. = b + t8; 0,975 . Sb = -0,62 + (2,306 · 0,07) = - 0,46

Conclusión: Con una confianza del 95%, se espera que el intervalo [- 0,78 cal/°C; - 0,46 cal/°C] cubra al
verdadero valor del coeficiente de regresión, en este caso la modificación o cambio de la energía media
metabolizada (cal) por los gorriones al aumentar en 1C la temperatura ambiente, en la población de gorriones
Passer domesticus.

g) Sean: yi un valor observado de la variable respuesta


ŷ i el valor estimado correspondiente, para el mismo xi y según la recta estimada.
y el promedio de todos los valores observados de la variable respuesta.
yi - y : desvío total
ŷ i - y : desvío debido a la regresión
yi - ŷ i : desvío debido al error muestral o residuo (ei = yi - ŷ i error muestral)

Observación: tanto los residuos como los errores aleatorios son variables aleatorias, pero solo podemos
observar los residuos y con ellos pretendemos tener una idea del valor de los errores.

Se verifica que: yi - y = ( ŷ i - y ) + (yi - ŷ i)

(Por ejemplo: en x4 = 16 el valor observado es y4 = 24, el valor estimado es ŷ 4 = 21,16 ; y = 19,3


24 – 19,3 = 4,7 desvío total correspondiente al punto 4
21,16 – 19,3 = 1,86 desvío debido a la regresión del punto 4
24 – 21,16 = 2,84 desvío debido al error o residuo del punto 4

Luego, la igualdad se verifica para el punto 4, ya que 4,7 = 1,86 + 2,84


Elevando al cuadrado cada uno de los miembros de la igualdad, sumando y operando algebraicamente se
obtiene la partición de la suma de cuadrados total

(yi - y )2 = ( ŷ i - y )2 + (yi - ŷ i)2


SCtotal = SCregresión + SCresidual

En este caso: SCtotal = (yi - y )2 =  y2 – (yi )2 /n = 3863 – (193)2 /10 = 138,10


n
SCregresión = ( ŷ i - y )2 = b 2  ( X i − X )2 = (-0,62)2 330 = 126,85
i =1

SCresidual = SCtotal - SCregresión = 138,10 – 126,85 = 11,25

Luego:
SCregresión 126, 85
= = 0, 91 es la proporción explicada por el modelo estimado.
SCtotal 138,10
SCresidual 11,25
= = 0,09 es la proporción no explicada por el modelo estimado.
SCtotal 138,10

16
Estadística Analítica 2020- 1er Cuatrimestre Fac. Cs. Veterinarias (U. B. A.)

SCregresión
h) Se define: R2 =
SCtotal
Como se vio en el punto anterior, expresa la proporción de la suma de cuadrados total explicada por la
regresión. Es una medida muestral.
En este caso: R2 = 0,91
Interpretación: El 91% de la variabilidad total de la variable respuesta es explicada por la regresión en la
variable explicatoria, en la relación dada por el modelo estimado. En este caso, el 91% de la variabilidad
de la energía metabolizada (Y, en cal) por los gorriones es explicada por la temperatura ambiente (X, en
°C) a la que están sometidos los gorriones, según el modelo estimado: ŷ = 31,08 − 0,62  x i i=1…10

i) Si R² = 0,91 es una medida de la variabilidad de la variable respuesta que es explicada por el modelo
estimado, teniendo en cuenta que 0  R2  1, su complemento, 1 – R2, es una medida de la variabilidad de
y no explicada por el modelo estimado.
En este caso: 1- 0,91 = 0,09, y por lo tanto 9% es el porcentaje de la variabilidad total de la energía
metabolizada por los gorriones (Y, en cal) que no es explicado por la temperatura ambiente (X, en °C) a la
que están sometidos los gorriones, según el modelo estimado ŷ = 31,08 − 0,62  x , i=1…10

j) Cuando se habla de una estimación para la energía media poblacional metabolizada por los gorriones
Passer domesticus, se está refiriendo a la estimación de la esperanza de la energía metabolizada por los
gorriones, o sea, su media poblacional, un parámetro cuyo valor se encuentra sobre la recta de regresión.
La estimación puntual de E(Y) para X = 21°C es: Yˆ( X =21) = 31, 08 - 0, 62(21) = 18, 06 cal, (teniendo en cuenta
el modelo estimado en el punto d).
La estimación mediante un intervalo de confianza se realiza empleando la fórmula:

1 ( X  - X )2 1 ( X  - X )2
a + bX t n - 2;1 −  / 2 S e + = a + bX t n - 2;1 −  / 2 S e +
n ( X - X ) 2 n ( X ) 2
X2-
n
donde X' es el valor de la variable X de nuestro interés, en este caso X' = 21°C.

1 (21-19) 2
31, 08 - (0, 62) 21 2, 306 1, 405 + = 18,06  2,306 * 0,40
10 330
En consecuencia: L.I. = 18,06 - 0,92 = 17,14 cal
L.S. = 18,06 + 0,92 = 18,98 cal
Conclusión: Con una confianza del 95%, se espera que el intervalo (17,14 cal; 18,98 cal) contenga al valor
medio poblacional de la energía metabolizada por los gorriones cuando la temperatura ambiente es de 21°C.en
la población de gorriones Passer domesticus.

k) En cambio, cuando se habla de la estimación para un cierto valor de la energía metabolizada, se está
refiriendo a un valor de la variable y no a la media poblacional que le corresponde a su correspondiente
subpoblación.
La estimación puntual es Yˆ( X =21) = 31, 08 - 0, 62(21) = 18, 06
La estimación mediante un intervalo de predicción se realiza empleando la fórmula:

1 ( X  - X )2
a + bX  tn-2;1− / 2 S e 1 + +
n ( X ) 2
X2-
n
donde X' es el valor de la variable X de nuestro interés, en este caso X' = 21°C.

1 (21-19) 2
31, 08 - (0, 62) 21 2, 306 1, 405 1 + + = 18,06  2,306 * 1,25
10 330

17
Estadística Analítica 2020- 1er Cuatrimestre Fac. Cs. Veterinarias (U. B. A.)

En consecuencia: L.I. = 18,06 - 2,88 = 15,18 cal


L.S. = 18,06 + 2,88 = 20,94 cal
Conclusión: Con un nivel del 95%, se espera que el intervalo (15,18 cal; 20,94 cal) cubra o contenga al valor
de la energía metabolizada por un gorrión sometido a una temperatura ambiente de 21°C en esta población
de gorriones Passer domesticus.
Nota: aunque la estimación puntual sea la misma, el intervalo de predicción tendrá una amplitud mayor que el
intervalo de confianza para el mismo nivel y valor de X (temperatura ambiente).
EJERCICIO 02) Con el objeto de estudiar el efecto del tratamiento con estrona sobre el peso uterino de
ratas hembra, un conjunto de ratas se dividió aleatoriamente en grupos y a cada grupo se le administró una
dosis diferente de estrona. Considere que se verifican todas las condiciones necesarias para realizar el análisis
de regresión. Después de cierto tiempo se observó el peso del útero de una rata, tomada al azar, para cada
una de las dosis, expresado en mg.

Dosis (g) 4 6 8 10 12 14 16 18 20 22

Peso (mg) 12,4 14,8 15,2 16,9 19,1 19,9 20,2 21,0 18,7 20,9

a) Definir las variables y designar cuál de ellas será la independiente según el propósito de la
investigación.
b) Estimar los parámetros del diseño y proponer la fórmula de un modelo estimado.
c) Docimar la significación de la regresión, utilizando la Tabla de Análisis de Varianza. ( = 0,05)
d) Realizar un intervalo de confianza del 95% para 
e) Realizar un intervalo de confianza del 95% para 
f) Calcular e interpretar el coeficiente de determinación.
g) Suponiendo que se agrega al diseño del experimento el uso de dosis de progesterona, en g, como
nueva predictora….
g1) …Expresar la fórmula del modelo teórico.
g2) …Interpretar 2
g3) …Expresar las hipótesis y región crítica de la significación de la regresión (=1%)

Análisis de regresión lineal


Variable N R² R² Aj ECMP
Peso 10 0,80 0,77 3,28

Coeficientes de regresión y estadísticos asociados


Coef Est. EE LI(95%) LS(95%) T p-valor
Const 12,26 1,10 9,73 14,79 11,17 <0,0001
Dosis 0,43 0,08 0,26 0,61 5,63 0,0005

Cuadro de Análisis de la Varianza (SC tipo III)


F.V. SC gl CM F p-valor
Modelo 62,40 1 62,40 31,74 0,0005
Dosis 62,40 1 62,40 31,74 0,0005
Error 15,73 8 1,97
Total 78,13 9

Solución
a) Variables en estudio:
X: dosis de estrona administrada a una rata hembra (en g)
Y: peso del útero de una rata hembra después de cierto tiempo de haberle administrado una dosis de
estrona (en mg)
b) Modelo teórico propuesto: Yi =  + Xi + i para i=1…N
Los valores correspondientes a las estimaciones de los parámetros del modelo pueden extraerse de la
tabla: “Coeficientes de regresión y estadísticos asociados”, columna “Est.”

18
Estadística Analítica 2020- 1er Cuatrimestre Fac. Cs. Veterinarias (U. B. A.)

El valor de a es el que corresponde a “const” (constante), en este caso es de 12,26, y el valor de b es el que
corresponde al nombre de la variable independiente (por ser el coeficiente que la multiplica), en este caso es
“Dosis”, y su valor es de 0,43.

Por lo que el modelo estimado es: yˆi = 12, 26 + 0, 43 xi . para i=1…10

No resulta pedido en el enunciado, pero de ser necesario, las estimaciones de los parámetros del diseño
pueden interpretarse de la siguiente manera para el problema en estudio:
a = 12,26 mg, por lo tanto, la estimación del peso medio poblacional del útero de las ratas hembra con
dosis 0 g es decir, sin haber recibido tratamiento con estrona, es 12,26 mg.
b = 0,43 mg/g, indica que al aumentar la dosis de estrona en 1 g, la estimación del cambio del peso
medio poblacional del útero de las ratas hembra es de 0,43 mg.
s² =1,97 mg²/g² varianza muestral o residual que estima la varianza poblacional de los errores del modelo.

c) La tabla de Análisis de la Varianza fue construida basándose en la descomposición de la Suma de


Cuadrados Total. Hay dos fuentes de variación que la afectan: una debida a la regresión, simbolizada por el
nombre de la variable explicatoria, en este caso “Dosis”; y otra debida al residuo o error muestral, simbolizada
por “Error”.
Suma de Cuadrados
La tercera columna de la tabla, es la de Cuadrados Medios: C.M. = . Son varianzas
grados de libertad
muestrales y con ellos se construye el estadístico de prueba.
Con los datos de la Tabla de Análisis de Varianza, las únicas hipótesis que se plantean son:
H0:  = 0
H1:   0

La variable pivotal a usar es F de Snedecor, que, bajo la hipótesis nula, es el cociente de dos varianzas
muestrales que provienen de variables independientes, cada una con distribución 2:
CMregresión CM DOSIS
F=  F1, n-2 ; en este caso F= ~ F1,8
CMresidual CM ERROR
✓ Si F es grande (F>1), esto equivale a que CMregresión > CMresidual entonces es mayor la varianza debida a la
regresión que la debida a los residuos, por lo tanto se rechaza la hipótesis nula y la regresión es significativa
(0).
✓ Si F es chico (F1), esto equivale a que CMregresión  CMresidual entonces es mayor o igual la varianza debida
a los residuos que la debida a la regresión, por lo tanto no se rechaza la hipótesis nula y la regresión es no
significativa (=0).

Por lo tanto, la región crítica es siempre unilateral derecha.

En este caso,  = 0,05; el valor crítico es F1, 8; 0,95 = 5,32

 RC: F1, 8  5,32

F1, 8; 0,95 = 5,32

La regla de decisión es: RECHAZO HO si FHo  5,32


NO RECHAZO HO si FHo < 5,32
Según la tabla de Análisis de Varianza, el valor de FHo = 31,74 es mayor que 5,32, entonces RECHAZO H0.
Conclusión: A un nivel de significación del 5%, hay evidencias suficientes para rechazar H0 (H0: ß=0), por lo
tanto se puede concluir que por cada aumento de la dosis de estrona en 1g hay una modificación del peso
medio poblacional del útero de las ratas, en mg, en la población de ratas hembra.

19
Estadística Analítica 2020- 1er Cuatrimestre Fac. Cs. Veterinarias (U. B. A.)

A la misma decisión se llega cuando observamos el p-valor que aparece en la tabla de Análisis de Varianza.
En este caso, p-valor=0,0005<0,05, por lo que RECHAZO H0 y concluimos que hay diferencias
significativas que nos permiten rechazar a la hipótesis nula. Otra forma de expresarlo es: p<0,05, que
corresponde a la comparación con el valor que toma el nivel de significación en este problema. Esta última
expresión se utiliza en las conclusiones de trabajos de investigación, y generalmente figura entre
paréntesis. Sin embargo, en esta asignatura que es de formación, se espera que las decisiones se basen
en el estadistico de contraste o variable pivotal, su distribucion, el nivel de significacion elegido para la
prueba y la consecuente región critica.

Con el programa estadístico utilizado también se puede realizar el diagrama de dispersión, en donde
los datos aparecen expresados como círculos pequeños, junto a la recta muestral, y a la banda de confianza
de nivel 1-.

Estos gráficos fueron hechos con distintas escalas para el eje Y. Al respecto debemos hacer notar que:
✓ la recta solamente está graficada para los valores de X que consideramos en el problema, o sea en el
intervalo [4; 22].
✓ Las distintas escalas utilizadas reflejan distintas pendientes. Sin embargo ambas tienen un b=0,43.Por
lo que con distintas escalas podremos visualizar distintos gráficos, aún representando los mismos datos.
✓ R2 = 0,80 se ve mejor reflejado en el primer gráfico que en el segundo.

d) Este intervalo de confianza también puede leerse de la tabla “Coeficientes de regresión y estadísticos
asociados”, donde figuran LI (límite inferior) y LS (límite superior), en este caso los correspondientes a “Dosis”,
valores calculados para un nivel de confianza del 95%. Luego: 0,26 mg/g ; 0,61 mg/g es el IC del 95%
para .
Con un nivel de confianza del 95%, espero que el intervalo 0,26mg/g ; 0,61 mg/g contenga al
cambio o modificación del verdadero valor del peso medio del útero de las ratas hembra al aumentar la dosis
de estrona en un g, en la población de ratas hembra.

e) Este intervalo se lee en la misma tabla que el anterior, en la fila correspondiente a “const”. Luego: 9,73 mg;
14,79 mg es el IC del 95% para .
Con un nivel de confianza del 95%, espero que el intervalo 9,73 mg; 14,79 mg contenga al verdadero
valor del peso medio del útero de las ratas hembra que no reciben tratamiento con estrona.

f) En la salida de computadora tenemos también información sobre el valor de R2, calculado con los datos de
la muestra. El que nos interesa es el primero, 0,80. La interpretación correspondiente es: El 80% de la
variabilidad total del peso del útero de las ratas (Y) es explicada por la dosis de estrona aplicada (X) a las
ratas hembra, según el modelo estimado: yˆi = 12, 26 + 0, 43 xi i=1…10.

g) g1) Yi =  + 1X1i + 2X2i + i para i=1…N


g2) 2 es el cambio en la media poblacional peso del útero de las ratas hembra al aumentar la dosis de
progesterona en 1 g, manteniendo constante la dosis de estrona.

20
Estadística Analítica 2020- 1er Cuatrimestre Fac. Cs. Veterinarias (U. B. A.)

g3) H0: i = 0 i= 1, 2
H1: algún i  0
Región crítica: FF2;7;0,99 = 9,55

EJERCICIO 03) En una población salvaje de la serpiente Vipera berus, un grupo de investigadores cazó
nueve hembras adultas y midió sus longitudes y pesos. La siguiente tabla muestra la longitud y el peso de
las nueve serpientes.
Long (cm) 63 65 59 67 54 64 66 69 60
Peso (g) 145 174 116 172 93 140 194 198 136
Tabla 1:
Análisis de regresión lineal
Variable N R² R² Aj
Peso 9 0,89 0,87

Coeficientes de regresión y estadísticos asociados


Coef Est. E.E. LI(95%) LS(95%) T p-valor
const -301,09 60,19 -443,41 -158,76 -5,00 0,0016
Longitud 7,19 0,95 4,94 9,45 7,55 0,0001

Cuadro de Análisis de la Varianza (SC tipo III)


F.V. SC gl CM F p-valor
Modelo 8896,33 1 8896,33 56,94 0,0001
Longitud 8896,33 1 8896,33 56,94 0,0001
Error 1093,67 7 156,24
Total 9990,00 8

Tabla 2:
Análisis de regresión lineal
Variable N R² R² Aj
Longitud 9 0,89 0,87

Coeficientes de regresión y estadísticos asociados


Coef Est. E.E. LI(95%) LS(95%) T p-valor
const 44,18 2,55 38,14 50,22 17,30 <0,0001
Peso 0,12 0,02 0,09 0,16 7,55 0,0001

Cuadro de Análisis de la Varianza (SC tipo III)


F.V. SC gl CM F p-valor
Modelo. 153,17 1 153,17 56,94 0,0001
Peso 153,17 1 153,17 56,94 0,0001
Error 18,83 7 2,69
Total 172,00 8

a) Enunciar las condiciones que deben verificarse para poder realizar un análisis de regresión particulari-
zado para la situación planteada.
b) Suponiendo que se cumplen las condiciones detalladas en el inciso “a” encontrar la ecuación de regre-
sión estimada del peso en función de la longitud. Interpretar sus coeficientes en términos del problema.
c) Para probar si la regresión planteada es significativa al 5% se solicita: hipótesis estadísticas, variable
pivotal, región crítica, valor del estadístico calculado bajo la hipótesis nula y conclusión.
d) Hallar un intervalo del 95% para el peso medio cuando la longitud es de 61cm.
e) Si se hubiese querido realizar un intervalo del 95% para el peso medio cuando la longitud es de 58cm
¿Cómo sería la amplitud con respecto al intervalo realizado en el inciso d?

21
Estadística Analítica 2020- 1er Cuatrimestre Fac. Cs. Veterinarias (U. B. A.)

Datos del problema:


Variables en estudio:
X: longitud de una serpiente Vipera berus, en cm.
Y: Peso de una serpiente Vipera berus, en g.

Solución

a) En este caso en particular, ambas variables X e Y son aleatorias. Por lo tanto, al no tener una de ellas
prefijada, las condiciones son otras:
La longitud de las serpientes Vipera berus, en cm, y el peso de las serpientes Vipera berus, en g se
distribuyen conjuntamente normal bivariada con parámetros 1, 2, 21, 22, , siendo este último el
coeficiente de correlación lineal de Pearson que veremos en la próxima unidad.

b) Al ser ambas variables aleatorias se puede realizar la regresión del peso en función de la longitud y la
regresión de la longitud en función del peso.
En éste caso nos solicitan la primera situación por lo que corresponden los resultados de la Tabla 1 y en
consecuencia la recta estimada es: (se obtienen los valores de la tabla)

ŷ = -301.09 g + 7.19 g / cm  x i i=1…9


a = el peso medio estimado de las serpientes Vipera berus es de -301,09 g cuando su longitud es de 0 cm
(sin sentido biológico)
b = al aumentar la longitud de las serpientes Vipera berus, en 1 cm, el peso medio estimado aumenta en
7,19 g.

c) Hipótesis estadísticas: H0:  = 0


H1:   0

Si bien, al ser una hipótesis de igual contra distinto, podríamos utilizar a F como estadístico de prueba, para
este caso, vamos a usar:
b-
t= ~t
7
Sb
El nivel de significación es  = 0,05
La región crítica (RC) es bilateral: t7  -2,365 y t7  2,365 (Valores críticos: -t(7;0,975) = -2,365 y t(7;0,975)= 2,365)

La regla de decisión (RD) es: RECHAZO HO si tHo  - 2,365 o si tHo  2,365


NO RECHAZO HO si -2,365< tHo < 2,365

Tomando la información de la tabla, el valor del estadístico calculado bajo la hipótesis nula es:
tH0 = 7,55
Conclusión: A un nivel de significación del 5%, hay evidencias suficientes para rechazar H0 (H0: = 0), es decir
  0. Se puede concluir que, por cada aumento de la longitud de las serpientes en 1 cm, el peso medio
poblacional de ellas se modifica, en esta población de serpientes Vipera berus. Por lo tanto, al mismo nivel,
se puede concluir que la regresión es significativa.

d) La estimación puntual de E (Y) para X = 61 cm es: Yˆ( X =61) = − 301, 09 + 7,19(61) = 137, 5 g, (teniendo en
cuenta el modelo estimado en el punto d).
La estimación mediante un intervalo de confianza se realiza empleando la fórmula:

1 ( X  - X )2 1 ( X  - X )2
a + bX t n - 2;1 −  / 2 S e + = a + bX t n - 2;1 −  / 2 S e +
n ( X - X ) 2 n ( X ) 2
X2-
n
donde X' es el valor de la variable X de nuestro interés, en este caso X' = 61 cm.
22
Estadística Analítica 2020- 1er Cuatrimestre Fac. Cs. Veterinarias (U. B. A.)

1 (61- 63) 2
137, 5 2, 365 156, 24 + = 137,5  2,365 * 4,582
9 172

En consecuencia: L.I. = 137,5 - 10,837 = 126,66 g


L.S. = 137,5 + 10,837 = 147,84 g
Conclusión: Con una confianza del 95%, se espera que el intervalo [126,66; 147,84] g contenga al valor medio
poblacional del peso de las serpientes cuando su longitud es de 61 cm en esta población de serpientes Vipera
berus.

e) Al compararse las amplitudes de dos intervalos de confianza realizados para la media poblacional de la
variable dependiente para ciertos valores x1 y x2, dependen de la cercanía de los valores de dados x 1 y x2
con respecto a la media X . Como X = 63 , entonces el intervalo hecho en el inciso d será de menor
amplitud.

Regresión Lineal Múltiple

EJERCICIO 04) En un estudio sobre la duración de la hospitalización para pacientes de un hospital de


enfermedades crónicas, un grupo de investigadores deseaba poder predecir la duración de la internación
(Y, en días), dadas las variables independientes: número de admisiones previas (X1) y edad (X2, en años).
Se obtuvieron datos de una muestra de 15 pacientes.

a) Enunciar las condiciones necesarias para realizar la prueba en estudio.


b) Indicar e interpretar la expresión del plano de la regresión propuesta.
c) Indicar e interpretar la expresión del plano estimado.
d) Analizar la significación de la regresión ( = 0,05)
e) Analizar el ajuste del modelo.
f) Realice las pruebas individuales y realice una conclusión global
g) Si tuviese que elegir a una de las dos regresoras en estudio para realizar una regresión simple
g1) ¿a cuál elegiría? Justificar.
g2) Interpretar  en el caso del modelo que plantearía.

Análisis de regresión lineal


Variable N R² R² Aj ECMP
Y 15 0.85 0.83 59.81

Coeficientes de regresión y estadísticos asociados


Coef Est. EE LI(95%) LS(95%) T p-valor
const 2.09 6.74 -12.60 16.77 0.31 0.7623
X1 0.06 2.61 -5.64 5.75 0.02 0.9830
X2 1.05 0.33 0.34 1.76 3.22 0.0074

Cuadro de Análisis de la Varianza (SC tipo III)


F.V. SC gl CM F p-valor
Modelo 2502.39 2 1251.20 34.08 <0.0001
X1 0.02 1 0.02 4.8E-04 0.9830
X2 380.37 1 380.37 10.36 0.0074
Error 440.54 12 36.71
Total 2942.93 14

Datos del problema:


• Variables en estudio:
X1: Número de admisiones previas de un paciente de un hospital de enfermedades crónicas
X2: Edad de un paciente, en años, de un hospital de enfermedades crónicas
Y: Duración de la internación de un paciente, en días, de un hospital de enfermedades crónicas

23
Estadística Analítica 2020- 1er Cuatrimestre Fac. Cs. Veterinarias (U. B. A.)

Solución

a) En éste caso no hay variables explicatorias prefijadas por lo que la condición necesaria es: El número de
admisiones previas, la duración de la internación y la edad y del paciente de un hospital de enfermedades
crónicas son tres variables aleatorias que se distribuyen conjuntamente normal multivariada.

b) Modelo teórico: Yi =  + β1 X1i + β2 X2i + i i= 1…N donde i ~ N(0; 2) y son independientes entre sí.

Al tener una regresión lineal con dos variables explicatorias en el análisis se tiene cuatro parámetros: ; β1;
β2; 2

Aplicando el operador esperanza en ambos miembros de la expresión:


E(Y) =  + β1 X1i + β2 X2i i=1...15

β1 = Indica que, para cada edad fija, al aumentar en 1 el número de hospitalizaciones previas, el tiempo
medio poblacional de hospitalización se modifica en los pacientes de enfermedades crónicas de un
hospital
β2 = Indica que, para un número de admisiones previas fijo, al aumentar en 1 año la edad del paciente, el
tiempo medio poblacional de hospitalización se modifica en los pacientes de enfermedades crónicas
de un hospital
= Indica el tiempo medio poblacional de internación de los pacientes en un hospital para enfermedades
crónicas para pacientes recién nacidos (edad cero) y sin internaciones previas.
² = varianza poblacional de los errores del modelo.

c) Ecuación del plano estimado: ŷi = 2,09 dias+ 0,06 dias/UC x1i + 1,05 dias/años x 2i i=1…15, (extraída
de la salida de computadora).

Interpretaciones de los estimadores de los parámetros del modelo.

b1 = 0,06 días/número de admisiones previas. Indica que para cada edad fija, al aumentar en 1 el número
de hospitalizaciones previas, la estimación del cambio del tiempo medio poblacional de hospitalización es
de 0,06 días ( 1 hora) en los pacientes de enfermedades crónicas de un hospital
b2 = 1,05 días/año de edad. Indica que para un número de admisiones previas fijo, al aumentar en 1 año la
edad del paciente, la estimación del cambio del tiempo medio poblacional de hospitalización es de 1,05
días ( 1 día) en los pacientes de enfermedades crónicas de un hospital
a = 2,09 días. Indicaría la estimación del tiempo medio poblacional de internación en un hospital para
enfermedades crónicas para pacientes recién nacidos (edad cero) y sin internaciones previas, sin sentido
biológico.
s² = 36,71 dias² estima la varianza poblacional de los errores del modelo.

d) Análisis de Regresión
H0 : 1 =  2 = 0
Hipótesis conjunta 
H1 : algún i  0 con i = 1, 2
CMREGRESION
F= ~ F(2; n-3)= F(2; 12)
CMRESIDUAL

Regla de decisión ( = 0.05)


Rechazo H0 si FHo  3,89 (F(2, 12); 0.95 = 3,89)
No rechazo H0 si FHo < 3,89

Decisión: F=34.08 por lo tanto se rechaza H0, el resultado es significativo.

24
Estadística Analítica 2020- 1er Cuatrimestre Fac. Cs. Veterinarias (U. B. A.)

Conclusión: Con un nivel de significación del 5% se tienen evidencias suficientes para rechazar H0
(H0:1=2=0), por lo tanto algún i  0, la regresión conjunta del tiempo de hospitalización con las variables
explicatorias número de admisiones previas y edad del paciente es significativa; o sea que al aumentar
conjuntamente, en una unidad, el número de admisiones previas y la edad, se modifica el tiempo medio
poblacional de hospitalización de los pacientes en los pacientes de cierto hospital de enfermedades
crónicas. El modelo propuesto parece aceptable para explicar la duración de la internación en pacientes
crónicos en este hospital.

e) Coeficiente de determinación: R2 = 0,85


El 85% de la variabilidad total del tiempo de internación en los pacientes de un hospital de enfermedades
crónicas está explicada por el número de internaciones previas de los pacientes (X1) y la edad de los pa-
cientes (X2) conjuntamente, según la relación dada por el modelo estimado ŷ i = 2,09 + 0,06 x1i + 1,05 x 2i
. i=1…15

f) Hipótesis individuales
H0 :1 = 0 b1
Para X1: Hipótesis estadística  t= ~ tn-3 = t12
H1:1  0
Sb1

H 0 : 2 = 0 b2
Para X2: Hipótesis estadísticas  t= ~ tn-3 = t12
H1: 2  0
Sb2

Regla de decisión (=0,05)


Rechazo H0 si tHo  2,179 ó tHo  -2,179 (t12,0.975 = 2,179)
No rechazo H0 si -2,179 < tHo < 2,179

Decisión 1: t=0,02 por lo tanto no se rechaza H0, el resultado es no significativo.


Conclusión 1: Con un nivel de significación del 5%, no se tienen evidencias suficientes para rechazar H0:
1=0, por lo tanto se supone que al aumentar en uno el número de admisiones previas de los pacientes y
manteniendo fija la edad de los pacientes, no se modifica el tiempo medio poblacional de internación de los
pacientes en pacientes crónicos en este hospital en estudio.

Decisión 2: t=3,22 por lo tanto se rechaza H0, el resultado es significativo.


Conclusión 2: Con un nivel de significación del 5%, se tienen evidencias suficientes para rechazar H 0:2=0,
por lo tanto 2  0, lo que significa que podemos suponer que al aumentar la edad de los pacientes en un
año y manteniendo fijo el número de internaciones previas de los pacientes, se modifica el tiempo medio
poblacional de internación de los pacientes en pacientes crónicos en este hospital en estudio.

Conclusión final: Si bien el modelo propuesto para la duración de las internaciones en pacientes crónicos en
función del número de internaciones previas y de la edad del paciente resultó adecuado, parecería que el
tiempo de internación de los pacientes está afectado en forma significativa por la edad y no por la cantidad de
internaciones previas de los pacientes en los pacientes de este hospital de enfermedades crónicas.

g1) Lo primero que habría que ver es la significación de ambas pruebas individuales. Como fue analizado
en el inciso anterior, el tiempo de internación de los pacientes está afectado en forma significativa por la
edad y no por la cantidad de internaciones previas de los pacientes, y es por ello que seleccionaremos
como mejor predictora a la edad.
Si ambas variables hubiesen dado significativas las influencias sobre la variable respuesta en sus pruebas
individuales, se decantaría por la de mayor coeficiente de determinación.

g2) = valor medio poblacional de la duración de las internaciones en pacientes crónicos cuando el número
de internaciones previas y la edad de los pacientes son simultáneamente nulos.

25
Estadística Analítica 2020- 1er Cuatrimestre Fac. Cs. Veterinarias (U. B. A.)

PROBLEMAS PROPUESTOS
EJERCICIO 01) Para analizar el rendimiento (en toneladas) de una pastura en función de la cantidad de
agua aplicada (riego artificial en mm) se realizó un experimento con 10 parcelas. Considere que se verifican
todas las condiciones necesarias para realizar el análisis. Los resultados se muestran en la tabla siguiente:

Agua 12 18 24 30 36 42 48 54 60 66
Rendimiento 5 6 6 7 8 9 8 8 9 9

a) Graficar e interpretar el diagrama de dispersión.


b) Estimar la ecuación de regresión y graficarla en el diagrama anterior
c) Docimar el coeficiente de regresión al 5%
d) Para el supuesto de que al aumentar el riego en 1mm, el rendimiento de la pastura aumenta más de 0,01tn
i) Explicitar las hipótesis estadísticas
ii) Indicar el valor crítico (=0,05)
iii) Definir la regla de decisión
e) Calcular el R2 e interpretarlo.
f) Estimar el rendimiento medio de la pastura sin riego artificial con una confianza del 95%.
g) Estimar el rendimiento de la pastura con un riego artificial de 50 mm con nivel del 95%.
h) Si se hubiese tomado en cuenta, además del riego artificial, la cantidad de fertilizante utilizado para explicar
el rendimiento…
h1) …expresar el modelo teórico
h2)… interpretar ß2
h3) …siendo R2=0,88 interpretarlo

Análisis de regresión lineal


Variable N
Rendimiento 10

Coeficientes de regresión y estadísticos asociados


Coef Est. E.E. LI(95%) LS(95%) T p-valor
const 4,70 0,50 3,56 5,85 9,47 <0,0001
Agua 0,07 0,01 0,04 0,10 6,16 0,0003
Cuadro de Análisis de la Varianza (SC tipo III)
F.V. SC gl CM F p-valor
Modelo. 15,28 1 15,28 37,90 0,0003
Agua 15,28 1 15,28 37,90 0,0003
Error 3,22 8 0,40
Total 18,50 9

EJERCICIO 02) La siguiente tabla registra datos correspondientes a concentraciones conocidas de -


eritroidina (C, en mg/ml) en una solución acuosa, y la lectura de la turbidez de la solución correspondiente (L)
registrada en un colorímetro.
ci 40 45 50 55 60 65 70 75 80 85
li 69 72 175 180 272 265 335 340 490 492

Considere que se verifican todas las condiciones necesarias para realizar el análisis
a) Definir las variables en estudio
b) Enunciar las condiciones que deberían cumplirse para poder realizar un análisis de regresión lineal.
c) Expresar el modelo teórico.
d) Interpretar los coeficientes del modelo teórico en términos del problema.
e) Poner a prueba la significación de la regresión al 5%

26
Estadística Analítica 2020- 1er Cuatrimestre Fac. Cs. Veterinarias (U. B. A.)

f) Estimar la lectura media de una solución cuya concentración de -eritroidina es de 72 mg/ml, con un nivel
de confianza del 95%.
Datos:
c i = 625; c 2
i
= 41125; l i = 2690; l 2
i = 927168; c l i i = 188165; Se2 = 1105, 26

Análisis de regresión lineal


Variable N R² R² Aj ECMP
Lectura 10 0,96 0,95 1740,07

Coeficientes de regresión y estadísticos asociados


Coef Est. E.E. LI(95%) LS(95%) T p-valor
const -338,27 46,94 -446,53 -230,02 -7,21 0,0001
Concent 9,72 0,73 8,03 11,40 13,27 <0,0001

Cuadro de Análisis de la Varianza (SC tipo III)


F.V. SC gl CM F p-valor
Modelo 194715,93 1 194715,93 176,17 <0,0001
Concent 194715,93 1 194715,93 176,17 <0,0001
Error 8842,07 8 1105,26
Total 203558,00 9

EJERCICIO 03) Se realizó una experiencia para analizar la influencia de la anestesia en la presión intra-
ocular. A 10 perros que habían recibido pentobarbital como inducción anestésica, se les aplicó, además, como
refuerzo, metoxifluorano por inhalación. Se controló la presión intraocular media (pi, en unidades de presión),
cada cinco minutos una vez comenzada la inhalación (ti, en minutos).

Tiempo 5 10 15 20 25 30 35 40 45 50

Presión 25,1 29,2 27,7 24,9 22,1 19,6 19,1 18,8 17,9 17,7

Considere que se verifican todas las condiciones necesarias para realizar el análisis
a) Indicar el modelo lineal teórico
b) Interpretar las variables que contiene el modelo propuesto en el inciso anterior y expresar el modelo
estimado
c) Indicar las condiciones que deben tenerse en cuenta, en este caso, para poder hacer inferencia a la
población en estudio
d) Estimar el coeficiente de regresión puntualmente y con una confianza del 95%
e) Estimar puntualmente y al 90% la presión intraocular a los 12 minutos.
f) Si se hubiese realizado la estimación del inciso anterior al 90% pero a los 16 minutos, ¿Cómo sería la
amplitud en comparación a la estimación realizada?

Estadística descriptiva
Variable n Media D.E. Suma Suma Cuad.
Tiempo 10 27,50 15,14 275,00 9625,00
Presión 10 22,21 4,24 222,10 5094,47

Análisis de regresión lineal


Variable N R² R² Aj ECMP
Presión 10 0,83 0,81 6,23

Coeficientes de regresión y estadísticos asociados


Coef Est. E.E. LI(95%) LS(95%) T p-valor
const 29,21 1,27 26,27 32,15 22,91 <0,0001
Tiempo -0,25 0,04 -0,35 -0,16 -6,20 0,0003

27
Estadística Analítica 2020- 1er Cuatrimestre Fac. Cs. Veterinarias (U. B. A.)

Cuadro de Análisis de la Varianza (SC tipo III)


F.V. SC gl CM F p-valor
Modelo 133,76 1 133,76 38,40 0,0003
Tiempo 133,76 1 133,76 38,40 0,0003
Error 27,87 8 3,48
Total 161,63 9

CUESTIONARIO
1.- Dadas las variables X1: longitud y X2: peso, dentro del contexto de un análisis de Regresión proponga:
a.- hipótesis de trabajo
b.- experimento (sea claro al comentar las acciones que realiza)
c.- condiciones necesarias en este caso (No en forma genérica)
d.- significado biológico de el o los parámetros poblacionales en estudio.

2.- Si en un análisis de regresión lineal simple al estimar  se obtiene que b = 2, ¿puede afirmar que la
regresión es significativa? ¿por qué? Explique de qué depende que se concluya "es significativo".

3.- Si debe elegir entre dos variables independientes o explicatorias (X 1 o X2) para predecir la variable
aleatoria Y, y mediante dos muestras independientes estima ambas regresiones. ¿En qué se basa para
seleccionar la mejor variable explicatoria? ¿Por qué?
4.- En un modelo de regresión lineal, ¿mediante qué método obtiene los estimadores de los parámetros
poblacionales? Explique brevemente el método, NO LAS FÓRMULAS.
5.- En un Análisis de Regresión Lineal Simple considerando un valor de Y por cada valor de X:
a) ¿Cuál es el parámetro que nos permite decidir si la regresión es significativa? ¿Qué significa? Expréselo
en términos de un problema propuesto por Ud.
b) ¿Cuál es la descomposición de la suma de cuadrados (SC) que se puede realizar a partir de una
observación? Indicar gráficamente dicha partición señalando a qué parte de la suma de cuadrados da
origen cada una de ellas.
c) ¿Por qué en el Análisis de Varianza para la Regresión Lineal la región crítica es unilateral derecha?
d) El estadístico al que se hace referencia, ¿qué relación tiene con la distribución t-Student?
6.- Relacione los siguientes gráficos con posibles valores de R2, suponiendo que el gráfico representa la
situación promedio de los desvíos presentados.

A) Y B) Y C) Y



Y Y Y
7.- Elija la opción correcta:
En una prueba de hipótesis para  en regresión lineal simple, las condiciones son:
a) X e Y son independientes, Y  N (Y , 2)
b) X prefijada, X e Y son independientes, Y  N (Y, 2)
c) X prefijada, los valores de Y son independientes entre si, Y  N (Y, 2)

8.- Seleccionar V (verdadero) o F (falso), según corresponda:


V F a) Si el coeficiente de determinación es igual a 1, entonces la recta poblacional pasa exactamente
por los valores (Xi, Yi )
V F b) En un análisis de RLS, el método de mínimos cuadrados consiste en minimizar la SC de la
regresión
V F c) En un análisis de regresión lineal múltiple puede ocurrir que uno de los coeficientes i resulte
significativo y sin embargo el modelo resulte no significativo.
28

También podría gustarte