Documentos de Académico
Documentos de Profesional
Documentos de Cultura
RESÚMEN
El objetivo de este proyecto es ejemplificar el uso del Machine Learning, mediante el
análisis de una base de datos. Para esto se implementa un algoritmo que le proporciona
al ordenador la capacidad de identificar un patrón que le permita predecir el precio del
alquiler de un vehículo. ¿Cómo se realizará el proyecto?, Mediante una de las ramas de
la inteligencia artificial la cual es Machine Learning se desarrollará una técnica que
permita al ordenador aprender ejecutando el método ‘supervised Learning’.
Por medio de una base de datos generada la cual contiene características como: Tipo de
vehículo, rendimiento en Km/galón de combustible, numero de puestos, pantallas y
airbags y si cuenta o no con aire acondicionado y servicio técnico. En el algoritmo se
trabajará con funciones como ‘sklearn. model_selection, importtrain_test_split ’ la cual
va dividir los conjuntos de datos en dos bloques uno de entrenamiento y otro de validación
del modelo, también se trabajara con funciones como ‘from sklearn.preprocessingimport
MinMaxScaler’ y algunas más que se analizaran más a fondo en la explicación de la base
de datos.
Para concluir, mediante el uso de la función de regularización lineal se pudo evidenciar
que se logró minimizar la diferencia de error tomando el valor de Alpha más conveniente
para su respectivo modelo.
PALABRAS CLAVES
Matlab, aprender, algoritmo, predecir, validación, regularización.
INTRODUCCIÓN
El proyecto desarrollado se enfoca en predecir el precio del alquiler de un vehículo. Su
valor va a depender de algunas variables como las que son: el tipo de vehículo, el numero
de puestos, el rendimiento, si cuenta o no con aire acondicionado, entre otras.
El algoritmo de alquiler de vehículos se realizó por el interés de abarcar una mayor
competencia en el manejo del Machine Learning, dando uso a una variedad de librerías y
funciones. Se iniciara tomando de la base de datos algunas muestras las cuales se van a
dividir para probar y entrenar los datos, de igual manera se manejó una función para
transformar los datos y entregarlos en valores entre 0 y 1 con el fin de no contar con
números ya sean muy pequeños o muy grandes, seguidamente se implementaron las
regresiones en las cuales se obtuvieron algunos obstáculos debido a que se debía
encontrar el mejor valor tanto del polinomio de la función como el alfa de la
regularización para conseguir un mejor valor de regresión
(poner algunos análisis y resultados obtenidos)
CÓDIGOS PYTHON
1. Aplicación de algoritmo visto en clase a la base de datos
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
y = data[['precio de alquiler']]
print("reg.coef_: {}".format(reg.coef_))
print("reg.intercept_: {}".format(reg.intercept_))
X_test_scaled= scaler.transform(X_test)
print("Training set score: {:.2f}".format(reg.score(X_train_scaled, y_train)))
print("Test set score: {:.2f}".format(reg.score(X_test_scaled, y_test)))
Diagrama de cajas
El diagrama de cajas y bigotes es un método estadístico estandarizado para representar de
manera grafica una serie de datos numéricos a través de sus cuartiles. El diagrama muestra
a simple vista la mediana y los cuartiles de los datos, además de los valores atípicos.
Bigote Superior 10
Cuartil Superior 7
Mediana 5
Cuartil inferior 3
Bigote Inferior 1
se puede inferir que gran parte de los vehículos cuentan con entre 3 y 7 puestos, además
de que contar con uno o diez puestos no es atípico.
Diagrama de caja para la variable número de Airbags
Bigote Superior 10
Cuartil Superior 6
Mediana 4,5
Cuartil inferior 3
Bigote Inferior 1
Del análisis mediante el diagrama se puede inferir que no se presentan valores atípicos,
además de que la mayoría de los automóviles cuentan con entre 3 y 6 Airbags.
Diagrama de caja para la variable número de Pantallas
Bigote Superior 8
Cuartil Superior 6
Mediana 4
Cuartil inferior 2
Bigote Inferior 0
Se puede evidenciar que un vehiculo que cuente con 12 pantallas no es algo habitual,
mientras lo normal es que cuenten con 4 pantallas.
Histogramas
Los histogramas son una representación grafica de una variable en forma de barras, donde
la superficie de la barra es proporcional a los valores representados. Sirve para a primera
vista observar el comportamiento de la muestra y deducir valores de interés.
Histograma de tipo de vehículo
De los vehículos que se ofertan para alquiler se evidencio mediante la construcción del
histograma que la mayoría no cuenta con aire acondicionado. De los vehículos tipo cero
o camioneta solo 118 ofertan esta característica de los 831 automóviles te este tipo. En
cuanto a los vehículos tipo 1 o automóvil, 1464 vehículos cuentan con aire acondicionado
y 3785 no lo hacen.
Histograma de disponibilidad de Servicio Técnico
Mediante este histograma podemos evidenciar que la mayoría de los vehículos incluyen
el servicio técnico. De los 831 vehículos tipo cero, 667 incluyen el servicio técnico y de
los 5249 vehículos tipo uno, 3999 incluyen el servicio técnico.
Medidas de dispersión y tendencia central
Media: La media es el valor promedio de un conjunto de datos numéricos, calculada
como la suma del conjunto de valores dividida entre el número total de valores.
Mediana: La mediana es el valor de la variable que ocupa la posición central, cuando los
datos se disponen en orden de magnitud. Es decir, el 50% de las observaciones tiene
valores iguales o inferiores a la mediana y el otro 50% tiene valores iguales o superiores
a la mediana.
Moda: La moda se define como el valor de la variable que más se repite. En un polígono
de frecuencia la moda corresponde al valor de la variable que está bajo el punto más alto
del gráfico.
Rango: El rango es la diferencia entre el mayor valor de la variable y el menor valor de
la variable.
Varianza: La varianza representa la variabilidad de una serie de datos respecto a su
media. Formalmente se calcula como la suma de los residuos al cuadrado divididos entre
el total de observaciones.
Desviación estándar o covarianza: La covarianza es el valor que refleja en qué cuantía
dos variables aleatorias varían de forma conjunta respecto a sus medias.
Moda 50 3 1 1 1 1 0 15000
Medidas de Dispersión
RESULTADOS Y ANÁLISIS
- Para la base de datos implementada se hizo más conveniente usar un Polinomio
mayor que 2, esto para minimizar el error de la relación entre las variables.
- El valor de Alpha juega un papel muy importante, para la base de datos implementada
resultó más conveniente un Alpha que tiende a 0, esto se debe, al igual que el
Polinomio, al número de datos que componen la base de datos.
- El valor de la talla del paso y el “random_test” aunque también dependa de la base
de datos a implementar, hace que en el proceso de la regresión lineal a la base datos, el
rango sea o no más estrecho, entre más estrecho sean los valores, en otras palabras,
exista una menor diferencia entre los valores entregados en la regresión se obtiene un
resultado similar al valor esperado.
- A partir de la implementación de la base de datos y junto con el uso del modelo
matemático usado para aproximar la relación de una variable dependiente, variables
independientes y un término aleatorio denominado regresión lineal, se verificó la
relación de las mismas, con una precisión cercana al 70%.
- En la implementación de la biblioteca de aprendizaje profundo, primero se debió
acondicionar la biblioteca de Python para Keras, al momento de dar lectura a la base de
datos, se ajustaron los valores de densidad, el tamaño de X y Y, para el ejemplo se
presenta con 13 columnas, para este se presenta con 8.
CONCLUSIONES
- A partir de una base de datos se implementó un modelo en Python para predecir una
variable aleatoria dependiente de otras variables aleatorias.
- Se verificó la regresión lineal como modelo usado para aproximar la relación de
dependencia entre una variable dependiente, variables independientes y un término
aleatorio.
-Se ejemplifico el Uso de Machine Learning mediante el modelo matemático
implementado en Python.