Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Introduccion
1 Unas palabras
1.1 £Que es Machine Learning?
El machine learning es el campo de estudio que da a las computadoras la habilidad de aprender
sin que este explicitamente programado.
Arthur Samuel, 1959
El machine learning en este momento se escucha cada vez mas en todo sitios pero £que es este
mundo?. Bueno para dar una introduccion al concepto de Machine Learning devemos comprender
a un algoritmo de Machine Learning como un Functor Universal, £Que significa esto?, Cuando tu
quieres resolver un problema creas un algoritmo para llegar a un resultado pero, cuando tenemos
una gran cantidad de datos que parecen no tener coorelacion para una persona se pasan a estos
algoritmos para que encuentre la funcion que se acota a ese grafico.
Una aplicacion que se le puede dar es por ejemplo, la deteccion de fraudes, si tu marcas un
correo como Spam un algoritmo aprendera del corpus de ese mail para ver cuando el usuario
marcaria un mail como Spam y hacerlo automaticamente. Otra aplicacion es en la deteccion de
objetos invisibles en imagenes que se usa para el campo medico con una eficiencia en la deteccion
de cancer a traves de imagenes.
1
2 Entrando en materia
2.1 Tipos de Machine Learning
Aqui tenemos muchos tipos de machine learning y vamos a hacer un repaso por los principales
2
2. Obteniendo los datos
1 Obteniendo datos
Necesitamos primeramente instalar lo que usaremos inmediatamente
Anaconda (Opcional)
Pagina: https://www.anaconda.com/download/
Luego abriremos la consola en mi caso en linux la terminal y escribimos un comando para
hacer un nuevo espacio de trabajo
Ejecutar
Comando:
*conda create –name “ml” python=3.5.2
Luego con source activaremos el entorno
Nota:
Ejecutaremos este comando cada vez que trabajemos con este libro
source activate ml
Luego instalaremos lo siguiente que usaremos inmediatamente
pip install jupyter pip install numpy pip install scipy pip install pandas pip install matplotlib pip install
sklearn
luego de haber hecho esto testeamos que todo este en orden y ejecutaremos este comando
python3 -c “import, jupyter, numpy, scipy, pandas, matplotlib, sklearn”
ahora iniciaremos jupyter con el comando
jupyter notebook
se nos abrira el navegador por defecto y crearas un nuevo con el boton new y seleccionaras
python 3
2 Explorando un dataset
Vamos a usar el dataset del titanic que es la lista real del titanic el link esta aqui
https://raw.githubusercontent.com/ageron/handson-ml/master/datasets/housing/housing.csv
1
2 Allison, Miss Helen Loraine 1st 2.00 female
3 Allison, Mr Hudson Joshua Creighton 1st 30.00 male
4 Allison, Mrs Hudson JC (Bessie Waldo Daniels) 1st 25.00 female
5 Allison, Master Hudson Trevor 1st 0.92 male
Survived SexCode
1 1 1
2 0 1
3 0 0
4 0 1
5 1 0
In [4]: print(datos['PClass'].value_counts())
3rd 711
1st 322
2nd 279
* 1
Name: PClass, dtype: int64
In [5]: print(datos['Sex'].value_counts())
male 851
female 462
Name: Sex, dtype: int64
In [6]: print(datos['Survived'].value_counts())
0 863
1 450
Name: Survived, dtype: int64
datos['Age'].hist(bins=50, figsize=(20,15))
2
Aqui tenemos un datase de 6 columnas Nombre, Pclass, Edad, Sexo, Sobrevivio ademas ha-
ciendo un poco de exploracion mas a fondo podemos ver que el dataset tiene 1313 intacias la Edad
minima es 0.17 y la Edad maxima es 71.0 tambien podemos ver que iban 711 personas en 3era clase
322 personas en 1era clase y 322 personas en 2da clase habien 851 hombres y 462 mujeres y sobre-
vivieron 450 y murieron 864 y las edades las podemos explorar en un grafico como se hizo en este
caso
print(len(datos))
datos.head()
3
1313
print(len(trainset))
print(len(testset))
984
329