Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Autónomo Análisis de Datos 20200202
Autónomo Análisis de Datos 20200202
ANÁLISIS DE DATOS
1. Considere la información de 38 vehículos de diferentes modelos, levantada durante un estudio de eficiencia del uso
de la energía. El peso se indica en toneladas, el rendimiento en millas por galón y el cociente de manejo
(adimensional). Se desea obtener un modelo de regresión que relacione el peso como variable predictora del
rendimiento.
A. Obtenga un modelo de regresión lineal simple para predecir el rendimiento en función del tonelaje. Realice el
análisis de significancia del modelo y las constantes. ¿Qué conclusiones obtiene al respecto?
B. A partir de la gráfica de los residuales, ¿se podría concluir que cabría la posibilidad de encontrar un modelo
mejorado si se usara una transformación? Explique su respuesta.
C. Ajuste el modelo a estas tres alternativas:
Reemplazando el peso con el logaritmo del peso.
Reemplazando millas/gal con los galones por cada 100 millas recorridas, como se reporta con frecuencia el
rendimiento del combustible en otros países.
D. ¿Cuál de los tres modelos es preferible? ¿Qué criterios debe usar para ello? Explique su respuesta.
E. Con el modelo elegido, determine los intervalos de confianza y predicción del rendimiento para un vehículo de
3,75 ton.
F. Verifique y analice la validez de los supuestos para la aplicación del modelo de regresión múltiple.
3. Cada año, la American Association of University Professors informa sobre salarios de profesores académicos en
universidades y colegios en Estados Unidos. Los datos levantados son:
4. Como parte de un proyecto de investigación para el diseño de un incinerador para desechos en la ciudad de Loja,
es necesario contar con información referente al contenido energético de los desechos. El equipo de campo del
proyecto, luego de seis meses de trabajo, proporciona información referente al contenido energético (kcal/kg) del
desecho en relación con la composición en base seca (% peso de plástico, % peso de papel, % peso de basura) y
% de humedad del desecho, para 30 muestras tomadas aleatoriamente en el vertedero de la ciudad.
Composición en base
Composición en base seca
Contenido seca Contenido
Humedad, Humedad,
No. energético, No. energético,
%p %p
Plástico, Papel, Basura, kcal/kg Plástico, Papel, Basura, kcal/kg
%p %p %p %p %p %p
1 18,69 15,65 45,01 58,21 947 16 18,28 21,87 41,5 47,44 1334
2 19,43 23,51 39,69 46,31 1407 17 21,41 20,47 41,2 54,68 1155
3 19,24 24,23 43,16 46,63 1452 18 25,11 22,59 37,02 48,74 1453
4 22,64 22,2 35,76 45,85 1553 19 21,04 26,27 38,66 53,22 1278
5 16,54 23,56 41,2 55,14 989 20 17,99 28,22 44,18 53,37 1153
6 21,44 23,65 35,56 54,24 1162 21 18,73 29,39 34,77 51,06 1225
7 19,53 24,45 40,18 47,2 1466 22 18,49 26,58 37,55 50,66 1237
8 23,97 19,39 44,11 43,82 1656 23 22,08 24,88 37,07 50,72 1327
9 21,45 23,84 35,41 51,01 1254 24 14,28 26,27 35,8 48,24 1229
10 20,34 26,5 34,21 49,06 1336 25 17,74 23,61 37,36 49,92 1205
11 17,03 23,46 32,45 53,23 1097 26 20,54 26,58 35,4 53,58 1221
12 21,03 26,99 38,19 51,78 1266 27 18,25 13,77 51,32 51,38 1138
13 20,49 19,87 41,35 46,69 1401 28 19,09 25,62 39,54 50,13 1295
14 20,45 23,03 43,59 53,57 1223 29 21,25 20,63 40,72 48,67 1391
15 18,81 22,62 42,20 52,98 1216 30 21,62 22,71 36,22 48,19 1372
a. Establezca el mejor modelo de regresión lineal múltiple que relacione las variables de composición con el contenido
energético del desecho.
b. Determine si existe un ajuste al modelo lineal estadísticamente significativo entre los datos de composición y el
contenido energético del desecho.
c. Exprese y pruebe las hipótesis apropiadas (95% de significancia) para determinar si el ajuste del modelo a los
datos especifica una relación lineal útil entre contenido energético y al menos uno de los cuatro predictores. En
función de estos resultados, realice las correcciones al modelo que considere necesarias.
d. Interprete el valor del coeficiente de determinación y realice un análisis de la matriz de correlaciones. ¿Qué
conclusiones puede obtener al respecto?
e. Para un porcentaje de plástico del 20%, 25% de papel, 40% de basura y 45% de agua; calcular un intervalo de
confianza de 95% para el verdadero contenido energético promedio bajo estas circunstancias. ¿El intervalo
resultante sugiere que el contenido energético medio ha sido estimado con precisión?
f. Use la información dada en el literal anterior para predecir el contenido energético, para una muestra de desechos
que tenga las características especificadas, de modo que lleve información acerca de precisión y confiabilidad.
g. Verifique y analice la validez de los supuestos para la aplicación del modelo de regresión lineal.