Está en la página 1de 4

TRABAJO PRÁCTICO

Introducción
El archivo WakeCounty.xlsx fue obtenido de una base de datos del registro inmobiliario en el condado de Wake County, North
Carolina en Estados Unidos. Wake County, es el condado de residencia de las ciudades de Raleigh (capital de Carolina del Norte)
y Cary, las cuales se ubican en el 15º y 8º lugar, respectivamente, entre las ciudades con mayor crecimiento en Estados Unidos.
Esto hace que Wake County se convierta en el 9º condado con mayor crecimiento dentro del país. A la fecha de recolección de
los datos (2 de noviembre de 2008), el condado de Wake County tuvo un crecimiento del 31,8 % en la población, contados
desde el año 2000 con una población en 2008, de aproximadamente, 823.345 habitantes.
Datos
Los datos incluyen 100 propiedades aleatoriamente elegidas de la base de datos de registro inmobiliario. No se incluyen
parcelas que no fueran residenciales o con registros incompletos.
Para cada propiedad se registraron las 11 variables que las caracterizan, obtenidas de bases de datos del sitio web del condado
de Wake y se muestran sin ninguna alteración.
Se utiliza el punto como separador de miles y la coma como separador decimal

Descripción de las variables


Columna Nombre Tipo de Descripción y Observaciones
Variable

A ID# Cuantitativa Identificación del elemento en la muestra


discreta
B Año de Cuantitativa Año de construcción de la propiedad
Construcción discreta
C Superficie de Cuantitativa Área de la planta. Los datos originales se expresaban en pies cuadrados y
Planta continua fueron convertidos a metros cuadrados, usando la relación
1 f t 2=0,093 m2. Los resultados se redondearon al entero más próximo.
D Cantidad de Cualitativa Cantidad de plantas de la construcción
Plantas Nominal Observación: el valor 1.5 significa que la propiedad cuenta con una planta baja
y una planta alta, cuya superficie corresponde a la mitad de la superficie de la
planta baja
E Superficie del Cuantitativa Superficie del terreno sobre la que está emplazada la propiedad.
Terreno discreta Los datos
Los datos originales se expresan en acres y fueron convertidos según la
relación 1 acre=4046,86 m 2. Los resultados se redondearon al entero
más próximo.
F Número de Cuantitativa Cantidad de baños con que cuenta la propiedad
Baños discreta
G Chimeneas Cuantitativa Cantidad de hogares a chimenea de la construcción
discreta
H Valor Total Cuantitativa Suma del valor de la construcción y del terreno. Montos expresados en dólares
discreta
I Valor del Cuantitativa Valor del terreno expresado en dólares
Terreno discreta
J Valor de la Cuantitativa Valor de la construcción expresado en dólares
Construcción discreta
K Código Postal Cuantitativa Código Postal del lugar donde está emplazada la propiedad
discreta
Observaciones
- Las celdas vacías representan valores no obtenidos en el relevamiento

Fuente

Dr. Roger Woodard


Professor/Head of North Carolina State University Undergraduate Dept.
Jason Leone NCSU Junior in Statistics
Consignas del Trabajo

A – Análisis Exploratorio de Datos


1. Completar el cuadro Descripción de las variables, indicando el Tipo de variable que corresponde a cada concepto, según la
naturaleza de las mismas.
2. Analizar si existen datos no registrados. Indicar el procedimiento apropiado a aplicar. Plantear alternativas para el
tratamiento de los mismos.
3. Obtener las medidas descriptivas de las variables Superficie de Planta, Superficie de Terreno y Valor Total.
4. Analizar la variabilidad de las tres variables. ¿Cuáles son los motivos que podrían justificar la variabilidad observada en la
Superficie del Terreno y el Valor Total?
5. Indicar un intervalo central y centrado para los precios en el que se encuentra el 40 % central de las propiedades?
Diagrama de caja
El diagrama de caja es una herramienta gráfica que permite detectar valores atípicos, visualizar la asimetría y la variabilidad de
los datos observados.
6. Calcular las medidas características de los diagramas de caja (vallas internas, vallas externas, extensiones, etc) de las tres
variables mencionadas y con ellos determinar la presencia de valores atípicos, clasificándolos en moderados y severos
7. Se desea comparar las valuaciones de las propiedades construidas en la década del 80 contra las construidas en la década
del ’90. Para ello, agrupar los valores de las propiedades según el año en que fueron construidas:
- Grupo de propiedades construidas en la década de 1980 (considerar a 1980 como perteneciente a esta década)
- Grupo de propiedades construidas en la década de 1990 (considerar a 1990 y 2003 como pertenecientes a esa
década)
Realizar un diagrama de caja conjunto y analizar la variabilidad, la asimetría y la presencia de valores atípicos. Obtener las
conclusiones que resulten apropiadas
8. Mediante la construcción de diagramas de caja, determinar si en promedio, los valores de la construcción dependen de la
cantidad de plantas. Considerar propiedades de 1, 1.5, 1.75 y 2 plantas. Identificar valores atípicos. Repetir la opción
excluyendo a los outliers severos (en caso de encontrarlos).¿Cuál es el alcance de los resultados obtenidos?
Matriz de Varianza Covarianza y Correlación
Se analizará ahora la correlación que existe entre el Valor Total y las variables Plantas, Chimeneas, Baños, Superficie de la
Planta y Superficie del Terreno. Para eso, utilizando la opción Correlación del complemento Análisis de Datos, obtener la matriz
de correlación lineal
9. ¿Cuáles son los dos factores con mayor incidencia en el Valor Total de la propiedad?
10. Identificar los factores con menor incidencia en el valor total.

B – Ajuste de modelos a los datos


1. Realizar un Diagrama de Dispersión que relacione el Valor Total con la Superficie de la Planta. Ajustar un modelo lineal. Se
observa un valor atípico ¿Qué conclusiones se sacan? En función de la posición relativa en el Diagrama de Dispersión,
clasificarlo como Outlier Relativo o Absoluto. ¿Qué acciones tomaría?
2. Realizar un Diagrama de Dispersión que relacione el Valor Total con la Superficie de la Planta, pero sin tener en cuenta el
valor atípico relevado anteriormente. ¿Qué se observa ahora? ¿Qué decisión tomaría a partir? Detectar los outliers siguen
apareciendo. Clasificarlos, en función de su posición relativa en el Diagrama de Dispersión en Outliers Relativos o
Absolutos.
3. Aplicar a la relación del punto 2, un ajuste lineal, uno polinomial de grado 6, uno exponencial y uno exponencial.
4. Mostrar las ecuaciones resultantes de cada función y el coeficiente de determinación asociado.
5. Decidir para cada caso, cuál es el modelo de regresión que presenta mayor bondad de ajuste.
6. ¿Por qué piensa que la relación polinomial de grado 6 representa el mejor ajuste?

C – Inferencia en el Modelo de Regresión Lineal


1. Plantear un modelo de Regresión Múltiple, a los efectos de analizar si las variables Superficie de Planta, Plantas, Superficie
del Terreno, Baños y Chimeneas son significativas a la hora de explicar el Valor Total de la propiedad. Para ello utilizar los
datos que están en la solapa Subconjuntos
a. ¿Qué puede decir de la bondad de ajuste del modelo propuesto?
b. ¿Qué puede decir de la significación de los coeficientes?
2. Eliminar si corresponde una variable y repetir el proceso indicado en el paso 2
3. Repita el procedimiento hasta que queden variables significativas. En ese caso, escribir la ecuación que representa al
modelo, indicando la bondad de ajuste del modelo propuesto.

También podría gustarte