Está en la página 1de 4

ANÁLISIS DE REGRESIÓN

PRÁCTICA 1: Regresión Lineal Simple

1. Los productores de caña de azúcar están interesados en estudiar la relación entre la superficie
de tierras cosechadas (hectáreas) y la producción total de caña de azúcar (en toneladas) de esa
superficie. Para dar respuesta a la inquietud de los productores se analizó la cosecha del año 2021
de 49 departamentos productores de caña de azúcar del norte argentino.
Los datos se encuentran en archivo Excel “Datos_Practica1_1.xlsx”.

1.1. ¿Cómo es la distribución de la producción total de caña de azúcar y de la superficie de tierras


cosechadas? Calcular las medidas descriptivas para cada variable.
1.2. ¿Cómo es la relación existente entre las hectáreas cosechadas y las toneladas de producción
de azúcar?
1.3. Calcular el coeficiente de correlación.
1.4. Realice un gráfico de dispersión. ¿Qué relación observa entre las variables en estudio?
1.5. Ajustar un modelo de regresión lineal simple y graficarlo junto a los datos.
1.6. Interpretar los coeficientes de regresión estimados en términos del problema.
1.7. ¿Cuál es el valor de ?
1.8. ¿Hay evidencia estadística suficiente para concluir que la variable hectáreas cosechadas
aporta significativamente a la explicación de la producción de caña de azúcar? Realizar el test t.
1.9. Construir un intervalo del 95% de confianza para β1 e interpretar.
1.10. ¿Cuál será la producción media esperada de caña de azúcar para 5302 hectáreas cosechadas?
Agregar un intervalo de confianza para su estimación.
1.11. ¿Cuál será la producción media esperada de caña de azúcar para 6302 hectáreas cosechadas?
Compare el valor obtenido con el valor estimado en el punto anterior.
1.12. Un grupo de productores de un determinado departamento están interesados en predecir
cuál será la producción de caña de azúcar para la próxima campaña. Esperan cosechar 7244
hectáreas. Realizar la estimación puntual y por intervalo.
1.13. ¿Podemos utilizar este modelo para predecir la producción media esperada de caña de azúcar
para 20000 hectáreas cosechadas?
1.14. Construir el cuadro Anova
1.15. Probar la significación de la regresión utilizando la estadística F . Comparar los resultados
obtenidos en el punto 1.6.
1.16. ¿Qué valor toma el coeficiente de determinación R2?
1.17. Estudie el cumplimiento de los supuestos.

2. Los suelos con abundante biomasa son los que producen mayor rendimiento de los cultivos.
Dado que el pH afecta directamente la disponibilidad de los nutrientes existe una relación entre el
pH y la biomasa del suelo. La escala del pH tiene un rango que va de 0 a 14, siendo el 7 el valor
neutral. Los números menores a 7 indican acidez mientras que los números mayores a 7 indican
alcalinidad. Los suelos muy ácidos generalmente presentan menos biomasa. En un estudio realizado
por un laboratorio de suelos se desea encontrar una función que permita estimar la biomasa del
suelo a partir de los niveles de pH. Para ello se tomaron muestras de 45 sitios y se midió el pH y la
biomasa (kg/ha). Los datos fueron guardados en el archivo Excel “Datos_Practica1_2.xlsx”.

Práctica 1 – Análisis de regresión - Licenciatura en Estadística Página 1


2.1. ¿Cómo es la distribución de la variable pH?
2.2. ¿Cómo es la distribución de la biomasa?
2.3. ¿En este problema cuál es la variable respuesta y cuál es la explicativa?
2.4. Mediante un diagrama de dispersión analice la relación entre estas dos variables. ¿Qué tipo
de relación observa?
2.5. Ajuste un modelo de regresión lineal simple y grafíquelo junto a los datos. Interprete los
coeficientes estimados.
2.6. Si el pH es 3.8 , ¿cuánto estima que será la biomasa de ese suelo? ¿cuál es el valor observado
de la biomasa en la muestra para ese valor de pH? Compare ambos valores. ¿Cómo se denomina a
la diferencia entre ellos?
2.7. ¿Cuál es el valor del ?
2.8. Realizar el test de hipótesis para la pendiente.
2.9. Construya un intervalo de confianza del 95% para la pendiente de modelo. ¿Cómo se
interpreta?
2.10. Construya e interprete el intervalo de confianza del 95% para la biomasa media cuando el pH
del suelo es 4,1.
2.11. Construya e interprete el intervalo de predicción del 95% cuando el pH del suelo es 4,1. ¿Cuál
es la diferencia con el intervalo obtenido en el punto anterior?
2.12. Construya el cuadro ANOVA y pruebe la significación de la regresión.
2.13. ¿Qué porcentaje de la variación total de la variable respuesta es explicada por la regresión?
2.14. Estudie el cumplimiento de los supuestos.

3. Una consultora de nuestra ciudad está estudiando cómo estimar la cantidad de supervisores
que se necesitan para coordinar un determinado conjunto de operarios en empresas metalúrgicas
del cordón industrial de Rosario. Para ello seleccionó al azar 27 empresas de la región mencionada
(con cantidades de operarios que se desean considerar en el estudio) y relevó las siguientes
variables:
- Cantidad de supervisores en la empresa
- Cantidad de operarios supervisados.
Los datos se encuentran en el archivo Excel “Datos_Practica1_3.xls”.

3.1. Realice un diagrama de dispersión y postule un modelo para ajustar a los datos.
3.2. Estime el modelo e interprete los coeficientes.
3.3. Construya un intervalo de confianza del 95% para la pendiente.
3.4. ¿Existe regresión?
3.5. Construya un intervalo de confianza del 95% para la cantidad promedio de supervisores
cuando la cantidad de operarios supervisados es de 1000.
3.6. Estudie el cumplimiento de los supuestos.
3.7. Proponga soluciones.

4. Un biólogo evaluó el efecto de la temperatura (en grados centígrados) sobre el crecimiento


de células amnióticas humanas en un cultivo de tejido (expresado en millones). Los datos obtenidos
se encuentran en el archivo txt: “Datos Practica 1_4.txt”
4.1. En éste problema, ¿cuál es la variable respuesta y cuál es la explicativa?

Práctica 1 – Análisis de regresión - Licenciatura en Estadística Página 2


4.2. Mediante un diagrama de dispersión analice la relación entre estas dos variables.¿Qué tipo
de relación observa?
4.3. Ajuste un modelo de regresión lineal simple y grafíquelo junto a los datos.
4.4. Pruebe la significación de la regresión.
4.5. Construya un intervalo del 95% de confianza para β1.
4.6. ¿Entre qué valores podría predecirse que estará la cantidad esperada de células cuando la
temperatura es de 100°? Realice estimación puntual y por intervalo.
4.7. ¿Qué porcentaje de la variación total de la variable respuesta es explicada por la regresión?
4.8. Estudie el cumplimiento de los supuestos.

5. En un análisis de control de calidad de un producto enlatado se desea conocer la relación entre


el tiempo de exposición del producto a 150°C de calor y el número de bacterias sobrevivientes.
Para ello se realizó un experimento en 12 unidades seleccionadas al azar de la línea de producción.
A cada unidad se la expuso a 150°C por un determinado tiempo (en minutos) y se registró la cantidad
de bacterias sobrevivientes.
Los datos del experimento se encuentran en el archivo de formato CSV “Datos_Practica1_5.csv”.

5.1. Mediante un diagrama de dispersión analice la relación entre estas dos variables.¿Qué tipo de
relación observa?
5.2. Ajuste un modelo de regresión lineal simple y grafíquelo junto a los datos.
5.3. Pruebe la significación de la regresión.
5.4. Construya un intervalo del 95% de confianza para β1.
5.5. Construya un intervalo del 95% de confianza para la cantidad media esperada de bacterias
sobrevivientes cuando los minutos de exposición a 150°C asciende a 11 minutos.
5.6. Estudie el cumplimiento de los supuestos.

6. Una compañía que repara pequeñas computadoras desea estimar el tiempo que dura un
service (en minutos) a través de la cantidad de componentes electrónicos de la computadora que
deben ser reparados o reemplazados. Para establecer esta relación se tomó una muestra de los
services realizados durante el año pasado. Los datos se presentan a continuación:
Tiempo Cantidad de componentes
Id Service
(minutos) reparados/reemplazados
#204 23 1
#306 29 2
#365 49 3
#370 64 4
#401 74 4
#404 87 5
#506 96 6
#565 97 6
#570 109 7
#601 119 8
#604 149 9
#706 145 9
#765 154 10
#770 165 10

Práctica 1 – Análisis de regresión - Licenciatura en Estadística Página 3


6.1. Mediante un diagrama de dispersión analice la relación entre estas dos variables.¿Qué tipo de
relación observa?
6.2. Ajuste un modelo de regresión lineal simple y grafíquelo junto a los datos.
6.3. Construya el cuadro ANOVA y pruebe la significación de la regresión.
6.4. Construya un intervalo del 95% de confianza para β1.
6.5. Construya un intervalo del 95% de confianza para la respuesta media cuando el número de
unidades es de 10.
6.6. ¿Qué valor toma el coeficiente R2?
6.7. Estudie el cumplimiento de los supuestos.

7. La compañía mencionada en el ejercicio anterior decidió realizar un segundo muestreo en el


cual se tomaron 10 observaciones más. Puesto que todas las observaciones fueron tomadas de la
misma manera, se juntaron las 24 observaciones para formar un solo conjunto de datos. Las nuevas
10 observaciones se encuentran en la siguiente tabla.
Tiempo Cantidad de componentes
Id Service
(minutos) reparados/reemplazados
#805 162 11
#816 174 11
#832 180 12
#842 176 12
#853 179 14
#869 193 16
#879 193 17
#890 195 18
#906 198 18
#916 205 20

El conjunto total de datos se encuentra en el archivo “Datos Practica 1_6y7.xlsx”

7.1. Mediante un diagrama de dispersión analice nuevamente la relación entre estas dos variables
ahora incluyendo toda la información disponible. ¿Qué tipo de relación observa?
7.2. Ajuste un modelo de regresión lineal simple ¿Observa diferencias respecto al modelo ajustado
en el punto 6.2?
7.3. Construya el cuadro ANOVA y pruebe la significación de la regresión.
7.4. Construya un intervalo del 95% de confianza para la respuesta media cuando el número de
unidades es de 10. Compare con los resultados del punto 6.5.
7.5. Estudie el cumplimiento de los supuestos.

Práctica 1 – Análisis de regresión - Licenciatura en Estadística Página 4

También podría gustarte