Documentos de Académico
Documentos de Profesional
Documentos de Cultura
SUPERVISADO
PREDECIR VALOR DE UNA VIVIENDA
Grupo: 2
Materia: Inteligencia Artificial
Docente: Rodríguez Bilbao Erika Patricia
1. Introducción 3
2. Objetivos 3
2.1 Objetivos Generales 3
2.2 objetivos específicos 3
3. Marco teórico 3
3.1 Aprendizaje Supervisado 3
3.1.1 Regresión 3
3.1.1.1 Regresión Lineal 4
3.1.1.2 Máquinas de Vectores de Soporte (SVM) 9
3.1.1.3 Árboles de Decisión 9
3.1.1.4 bosques aleatorios (random forests) 9
3.1.1.5 Métricas de Evaluación 9
3.1.2 Redes Neuronales 11
4. Marco Referencial 12
5. Ingeniería 12
5.1 Set Datos 12
5.2 Exploración de los Datos 13
5.3 Datos de Entrenamiento y Pruebas 14
5.4 Métricas de Evaluación 14
5.5 Software y Lenguaje 14
5.6 Ejecución 15
6. Conclusiones 15
7. Bibliografía 16
1. Introducción
En la presente práctica lo que se pretende es resolver el problema de predecir el Valor de una
casa de acuerdo a algunas características o atributos que tengan como por ejemplo (Área del
Terreno, área construida, número de habitaciones, etc.). Para lo cual nos enfocaremos en uno
de los campos de Aprendizaje Automático (Machine Learning) que es Aprendizaje Supervisado
utilizando sus algoritmos de regresión.
2. Objetivos
3. Marco teórico
3.1.1 Regresión
Regresión es un subcampo de aprendizaje supervisado, Su propósito es establecer un modelo
para la relación entre un cierto número de características y una variable Objetivo continua.
En los problemas de regresión perseguimos obtener una respuesta cuantitativa, como, por
ejemplo, predicciones sobre precios de inmuebles o el número de segundos que alguien
dedicará a visualizar un vídeo.
Entre las técnicas de regresión comunes se incluyen:
● Regresión Lineal y No Lineal
● máquinas de vectores de soporte (support vector machines)
● árboles de decisión (decision trees)
● bosques aleatorios (random forests)
● redes neuronales y aprendizaje profundo (Deep Learning)
Hemos usado una regresión lineal para encontrar los parámetros de la línea que minimiza el
error de los datos que tenemos. El proceso de aprendizaje consiste en estimar los parámetros
w y b. Así nos queda que, para estos datos, los mejores valores son:
w=0.0918
b=1.2859
así que nos queda:
y=0.0918x+1.2859
Podemos usar este modelo de regresión lineal para estimar cuáles serán los resultados para
otros valores de x. Por ejemplo, si queremos saber el resultado para x = 5, usaremos el modelo
anterior y veremos que el resultado es 1.7449:
y=0.0918⋅5+1.2859=1.7449
Este es un ejemplo muy simple. En realidad, los problemas de machine Learning tienen muchas
más variables. Sin embargo, este ejemplo es muy fácil de visualizar, explicar y entender.
Desplazar la Recta
Aproximación Cuadrática
Se basa en la siguiente premisa: Si hay un punto cercano a la recta y la distancia es pequeña,
la recta se desplazará una distancia corta. Si está lejos, la recta se desplazará mucho más.
● Mini Batch:En la práctica no se utilizan los dos métodos anteriores, dado que son lentos
desde el punto de vista computacional. La mejor forma de realizar la regresión lineal es
dividir los datos en muchos lotes reducidos, cada uno de ellos con aproximadamente
el mismo número de puntos. En este caso, los pesos del modelo son actualizados con
cada lote (mini batch) procesado, dando lugar al método llamado “Descenso de
gradiente por mini batch”.
Más Dimensiones
Cuando tenemos una columna de entrada y otra de salida, nos enfrentamos a un problema de
dos dimensiones. La regresión es una recta, y la predicción será el producto de la pendiente de
la recta por la variable independiente más una constante.
Si tenemos más columnas de entrada, significa que habrá más dimensiones y estaremos ante
planos o hiperplanos, dependiendo del número de dimensiones.
Y la siguiente imagen muestra un hiperplano ajustado o una regresión lineal múltiple con dos
características.
Según añadimos más predictores, añadimos más dimensiones al problema y se hace más
complicado visualizarlo, pero el concepto del proceso no varía.
c) Regresión Polinómica
La regresión polinómica es un caso especial de análisis de regresión lineal múltiple en la que la
relación entre la variable independiente x, y la variable dependiente y, se modela como un
polinomio de grado “n” en x. En otras palabras, cuando nuestra distribución de datos es más
compleja que una lineal, y debemos crear una curva para ajustar datos no lineales.
Las variables independientes (o explicatorias) que resultan de la expansión polinómica de las
variables predictoras, se conocen como “términos de mayor grado”. Se han usado para
describir fenómenos no lineales como la tasa de crecimiento de consumo de pañuelos de papel
y la progresión de enfermedades epidémicas.
3.1.1.2 Máquinas de Vectores de Soporte (SVM)
También son conocidas con el acrónimo SVM por sus siglas en inglés (Support Vector
Machines). Se pueden usar tanto para regresión como para clasificación.
EL error absoluto medio o “MAE”, es la media de la diferencia absoluta entre los puntos de
datos reales, y la salida predicha. Si tomamos esto como la estrategia a seguir, a cada paso del
exceso de gradiente, se reducirá el MAE.
El error cuadrático medio o “MSE”, es la media de la diferencia entre los puntos reales de datos
y la salida predicha, al cuadrado. Este método penaliza más las diferencias mayores y es la
estándar en los problemas de regresión.
Si elegimos esta estrategia, cada paso del descenso de gradiente reducirá el MSE. Esto hace
que sea el método preferido para calcular la recta que mejor se ajuste, y es también llamado
“Ordinary Least Squares” o OLS.
c) Error Cuadrático Medio
El error cuadrático medio, o RMSE por sus siglas en inglés, es la raíz de la media de los errores
elevados al cuadrado. Éste es el medidor de evaluación más popular para determinar el
desempeño de los modelos de regresión ya que la raíz, consigue las mismas unidades que la
de Y.
d) Coeficiente de determinación o R²
El coeficiente de determinación se puede entender como una versión estandarizada del MSE,
que proporciona una mejor interpretación del rendimiento del modelo.
Técnicamente, el R² representa la varianza de las respuestas capturadas por el modelo:
4. Marco Referencial
Imaginemos que somos una agencia inmobiliaria situada en Bolivia que usaremos este modelo
para ayudar a los propietarios, clientes de la agencia, a establecer el precio de sus viviendas que
desean vender. Entonces para poder saber el precio de la vivienda necesitaremos que el
propietario nos de alguna información sobre las características que tiene la vivienda como, por
ejemplo:
Metros cuadrados que tiene el terreno
Metros cuadrados de construcción
Cantidad de pisos que tiene la vivienda
Cantidad de habitaciones
Cantidad de Baños
Entonces básicamente de eso trata el problema, de poder ayudar a los propietarios a saber el
precio que podría tener su Vivienda, como ya pudimos ver un modelo como estos sería muy
valioso apara una agencia inmobiliaria pero también para los propietarios que quieran vender
sus Viviendas.
5. Ingeniería
Para poder resolver el problema de predecir el precio de una vivienda de acuerdo a algunas
características usaremos una de las técnicas de Regresión.
Regresión lineal Multiple
Utilizaremos esta técnica porque la cantidad de características que tiene es más de una, es
decir tiene más de 1 variable independiente.
Y = (w1x1 + w2x2 + w3x3 + w4x4 + w5x5) + b
Y= Target(Objetivo)
Wi= Features
Features
target = ['Precio']
Target
luego de haber definido nuestros Features y Target, procederemos a eliminar las filas que
contengan valores NaN o Vacíos, ya que estos podrían afectar en la predicción.
Análisis de Datos
En el grafico podemos ver el Comportamiento del Precio en función de M2 Terreno
5.6 Ejecución
Para poder realizar la predicción de una vivienda se realizó una función de directamente
retorna el valor de la vivienda, dado que le paso los parámetros.
6. Conclusiones
A lo largo de esta Práctica, hicimos un proyecto de regresión de aprendizaje automático
supervisado además aprendimos y obtuvimos varias ideas sobre los modelos de regresión y
cómo se desarrollan. También aprendimos sobre la diferentes librerías y herramientas que se
usan para machine Learning.
7. Bibliografía