Está en la página 1de 3

VICERRECTORADO DOCENTE Código: GUIA-PRL-001

CONSEJO ACADÉMICO Aprobación: 2016/04/06

Formato: Guía de Práctica de Laboratorio / Talleres / Centros de Simulación

FORMATO DE INFORME DE PRÁCTICA DE LABORATORIO / TALLERES / CENTROS DE


SIMULACIÓN – PARA ESTUDIANTES

CARRERA: Computación ASIGNATURA: Aprendizaje de Maquina


NRO. PRÁCTICA: 1 TÍTULO PRÁCTICA: : Coding, Procesamiento y Aplicaciones de Machine Learning (ML)
OBJETIVO ALCANZADO:
Aplicar técnicas de procesamiento de datos Reconocer problemas de regresión y clasificación en diversas
aplicaciones de Machine Learning

ACTIVIDADES DESARROLLADAS
1. Seleccionar mínimo 3 aplicaciones de interés para proyecto futuro y argumentar las razones
 Bolsa de valores: Predecir tendencias
Me interesa esta aplicación ya que machine learning podemos hacer una que esta aprenda de los
datos una vez que esta aprenda de los datos esta me puede ayudar en el mercado de valores a
predecir cual empresa va a ser la mas rentable e invertir en ella.
 Cybersecurity : Deteccion de Malware, Spam
Me interesa esta aplicación ya que siempre habrán personas que busquen la manera de pasar
toda la seguridad día a día están ejecutando ataques por eso con esta aplicación podríamos
predecir estos dichos ataques en distintas áreas y así tener a salvo la información mas relevante.
 Reconocimientos de rostros: Seguridad con cámaras para mitigar la delincuencia
Me interesa esta aplicación ya que el tema de la seguridad es algo critico a la hora de desarrollar
un sistema y con la tecnología adecuada podemos asegurar muy bien el acceso a nuestra
información ya que descifrar un rostro para desbloquear o para la parte de medicina todavía no
lo es posible.

2. Describir dataset: cantidad de variables (atributos), cantidad de observaciones (instancias), la salida que
indica (lo que se predice)
• Age: edad de cada observación valido de entre 0 a 110
• Workclass: Tipo de trabajo que desempeña
• Education: Nivel de educación de cada observación
• Marital-status: Situación civil en la que se encuentra actualmente.
• Ocupation: Profesión o trabajo que registra cada observación
• Relationship: Corresponde a que relación o cargas familiares tiene la observación
• Race: raza de cada observación
• Sexo : Femenino o masculino
• Capital-gain: ganancia capital
• Capital-loss: perdida de capital
• Hours-per-week: horas de trabajo por semana
• Native-country: Ciudad de origen de cada observación
• Target: Objetivo del análisis que consiste en determinar si su ganancia es menor o mayor a 50.000
3) Describir dataset: cantidad de variables (atributos), cantidad de observaciones (instancias),
la salida que indica (lo que se predice)
El dataset cuenta con 15 variables o atributos incluyendo la salida, el numero de observaciones es de
32561

Formato aprobado con Res. C.S. N° 076-04-2016-04-20 Página 1 de 3


VICERRECTORADO DOCENTE Código: GUIA-PRL-001

CONSEJO ACADÉMICO Aprobación: 2016/04/06

Formato: Guía de Práctica de Laboratorio / Talleres / Centros de Simulación

La salida del dataset nos indica si los ingresos de cada observación son mayores a 50.0000 o no.

4)Realizar coding y procesamiento al dataset

• Limpieza del dataset :


1.El dataset tiene datos faltantes representados por el signo de interrogación, se
procedió a eliminar las observaciones con este valor ya que representan un 7%
del dataset por lo cual no se pierde muchos datos.
• Variables categóricas:
2.Las variables: Realizado el análisis previo de las variables se procedió a
codificar las distintas variables categóricas como el estado-civil, sexo y otros.
La documentación del valor numérico que representa al valor categórico se
encuentra en el cuaderno de jupyter adjunto.
• Variables ordinales:
3.Las variables ordinales que he considerado en mi análisis es la educación ya
que influye directamente en el tipo de trabajo en el que se desempeña, se han
categorizado los distintos niveles de educación con números de 1 al 16 teniendo
mínimo el valor ‘Some-college’ y como máximo ‘Doctorado’.
• Archivo exportado
4.Ya realizado el reprocesamiento se realiza la exportación del archivo con
los valores numéricos de cada columna para poder aplicar los algoritmos de machine learning
Normalización:
5.Se carga el nuevo archivo ya preprocesado para tener como respaldo el anterior
y se procede a realizar la normalización del dataset.

RESULTADOS: (OBTENIDOS)
MATRIZ PROCESADA

Formato aprobado con Res. C.S. N° 076-04-2016-04-20 Página 2 de 3


VICERRECTORADO DOCENTE Código: GUIA-PRL-001

CONSEJO ACADÉMICO Aprobación: 2016/04/06

Formato: Guía de Práctica de Laboratorio / Talleres / Centros de Simulación

Conclusiones:
Con base a machine learning Podemos concluir que con la codificación nos puede ayudar a nuestros datos a darles un valor
de categóricos como queremos q influya en nuestros datos aplicando todas las técnicas necesarias como son la limpieza de
los datos la codificación y el preprocesamiento de nuestro data set para futuras decisiones sobre nuestra información.
Recomendaciones: Se debe limpiar nuestro data set para que este al momento de tomar decisiones estos ruidos no influyan
en nuestra toma de decisiones.

Nombre de estudiante: ________________Jonnathan Sicha_____________

Firma de estudiante: _______________________________

Formato aprobado con Res. C.S. N° 076-04-2016-04-20 Página 3 de 3

También podría gustarte