Fase 4 Covid

FASE 4 Aprendizaje Supervisado
INTEGRANTES
Álvaro Santiago Suarez Lagos
Presentado a:
Ing. Javier Leonardo
Universidad Nacional Abierta y a Distancia – UNAD

Escuela de Ciencias Básicas, Tecnología e Ingeniería
Curso : Análisis de Datos
2023
Introducción
El aprendizaje automatizado, también conocido como machine learning en inglés, ha
emergido como una herramienta revolucionaria en el campo del análisis de datos. En un
mundo cada vez más inundado de información, el análisis de datos se ha convertido en un
pilar fundamental para la toma de decisiones informadas. El aprendizaje automatizado,
dentro de este contexto, se destaca como una disciplina que permite a los sistemas
informáticos aprender patrones y realizar tareas específicas sin intervención humana
directa.
Este enfoque transformador aprovecha algoritmos avanzados que pueden analizar grandes
conjuntos de datos, identificar tendencias ocultas y generar predicciones precisas. Desde la
detección de patrones en datos complejos hasta la automatización de procesos de toma de
decisiones, el aprendizaje automatizado se ha convertido en un componente esencial para
optimizar el análisis de datos y descubrir insights valiosos. En este contexto, exploraremos
cómo el aprendizaje automatizado está impulsando la evolución del análisis de datos,
abriendo nuevas fronteras para la comprensión y aplicación efectiva de la información en
diversas industrias.
Objetivos
Desarrollar e implementar soluciones basadas en aprendizaje automatizado para optimizar
el análisis de datos, mejorando la precisión, eficiencia y capacidad predictiva en diversos
contextos.
Objetivos Específicos
1. Optimizar la clasificación de datos para Implementar algoritmos de aprendizaje
automatizado para mejorar la precisión y velocidad en la clasificación de grandes conjuntos
de datos, permitiendo una identificación más rápida y precisa de patrones y tendencias.
2. Incrementar la capacidad predictiva de desarrollar modelos de aprendizaje automatizado
que mejoren la capacidad predictiva mediante la identificación de relaciones complejas
entre variables, permitiendo anticipar eventos futuros y facilitando la toma de decisiones
proactiva.
3. Automatizar la detección de anomalías e Implementar sistemas de aprendizaje
automatizado capaces de identificar de manera automática patrones anómalos o

comportamientos inusuales en conjuntos de datos, contribuyendo a la detección temprana
de problemas y reduciendo el tiempo de respuesta ante situaciones críticas.
4. Personalizar recomendaciones y experiencias para desarrollar modelos de aprendizaje
automatizado que permitan la personalización de recomendaciones y experiencias para
usuarios, clientes o pacientes, adaptando de manera dinámica la información presentada
según sus preferencias, comportamientos y necesidades individuales.
Desarrollo de la actividad correspondiente

Mapa conceptual sobre los diferentes modelos supervisados
Link del mapa https://lucid.app/lucidchart/e0a23e5b-a983-42ed-87da-091b52a4178e/edit?

viewport_loc=-1424%2C-641%2C4192%2C1864%2C0_0&invitationId=inv_ae360aeb-2c56-4f54-
8125-cfd683294992
Link del ejercicio de los modelos
https://drive.google.com/file/d/1esiCofSP7Pdl1EsP_iSHatNAHeCOjRTc/view?usp=drive_link
Desarrollo de los modelos

En este proceso lo que podemos realizar es el cargue del data set con la ayuda de csv Reader
donde se carga correctamente los datos del data set se ejecuta el csv Reader y evidenciamos que
está cargada la información de una manera más rápida y efectiva con la cual podemos realizar
diferentes funciones nuestro modelo supervisado
Acá en este paso lo que realizamos es que ponemos un row filtre que se utiliza para poder eliminar
variables que no tienen datos los cuales pueden ser eliminadas con este paso y así poder realizar
un informa mas detallado sin ningún inconveniente
Una vez colocamos nuestro primer many to one podemos configurarlo con el fin de que los valores
Configuramos el many to one con la variable que hemos seleccionado con la edad para que
se pueda realizar la clasificación por edades para poder construir un modelo mas fiable y
predecible
Ahora colocamos un color manager que nos va ayudar a resaltar los colores de cada una de
las variables seleccionadas
Acá podemos evidenciar que el color manager se ha ejecutado de una manera mas eficaz y
sin ningún inconveniente
Una vez vemos que el color manager esta corriendo de una manera correcta nos disponemos a
poner un partitioning para realizar la partición de la información del data set
Una vez ingresamos a la configuración podemos evidenciar que se ha cargado la información de
una manera correcta en la cual procesedemos a darle en un ok
Acá podemos evidenciar la partición numero 1 que nos nuestra los datos que nos han solicitado en
el cual podemos observar que los datos son los recomendados por el dataset
Acá podemos evidenciar el 30% faltante de la información que esta en la partición numero 2 y
podemos evidenciar que hace falta algunos valores los cuales nos salen sin identificación que nos
aparece de una forma como si estos valores estuvieran vacíos
Una vez ejecutada el partitioning procedemos a colocar un decisión tree learner con el cual vamos
a poder predecir los valores y las variables que nos han solicitado lo conectamos con los datos de
entrenamiento que están en la primera partición del partitioning
Acá dejamos los valores que nos da por defecto lo único que modificamos es el class colum por la
Condense colum (# 3 ) damos un ok y se cierra nuestro proyecto

Damos en open view para poder visualizar nuestro árbol y podemos evidenciar las primera ramas
de nuestro árbol de decisión
Acá evidenciamos el resto de la información que tiene el árbol de decisión ya que por al cantidad
de la información no lo permite desplegar completo toca uno por uno
Ahora colocamos un decisión tree predictor con el cual podemos predecir pero ahora realizamos la
conexión con el la información del decisión tree learner y con el 30% de la partición que es la
segunda parte de nuestra partición inicial
Entramos a la configuración y nos encontramos con los valores que por defecto nos ha dejado el
decisión tree predictor que es el máximo de información que el trabaja de es de 10.000 datos los
cuales nosotros modificamos y lo formazamos a que trabaje con mas del limite poniendo 95.040
registros los cuales no pone problema damos en el ok y cerramos ejecutamos y evidenciamos que
se ejecuta de la mejor manera posible
Acá evidenciamos el árbol de predisición como en el anterior nos nuestra la información y
podemos evidenciar que se ha ejecutado de la manera correcta indicándonos cuales son los
géneros contagiados el grado de cerevidad y si tuvo contacto o no tuvo contacto con una persona
contagiada de covid 19.
Acá podemos evidenciar la ejecución que nos muestra la columna de condense colum 3 y la
columna que ha predijo nuestro árbol de decisión
Finalmente colocamos un score para poder visualizar los datos y el acuracy de la predicción del
árbol de decisión lo conectamos con los datos del árbol el cual podemos evidenciar la información
de una manera mas rápida y efectiva para poder mirar si nuestro árbol de decisión es predecible o
no es predecible a lo cual tenemos que conectar y realizar la configuración adecuada.
Acá dejamos los valores de la condensed colum (#3) y vamos a realizar la predicision del modelo
con la condensed colum ( #3) con el cual podemos realizar la predicción y con ello poder ver
Diagrama k-nearest Neighbor
Realizamos el diagrama de K Nearest Neighbor en el mismo diagrama que habíamos realizado

nuestro árbol de decisión para poder evidenciar los diferentes resultados que se producen con la
información del data set que hemos utilizado para poder representar la información que se había
trabajado
Trabajamos con la información que tiene el color manager y colocamos un partitioning el cual es
configurado y que va a trabajar con la información del color manager
Dejamos los valores que trae por defecto obviamente podemos modificarlos pero dejamos estos
valores para evidenciar que tal trabaja y como nos representa cada uno de los valores damos en el
ok y salimos después realizamos la ejecución y evidenciamos que se ha ejecutado de la forma
correcta
Ahora colocamos colocamos un K Nearest Neighbor con el cual procedemos a conectar y nos dice
que el trabaja con los datos de entrenamiento los cuales son los datos de la primera partición
después conectamos los datos de la otra partición para poder realizar el K Nearest Neighbor una
vez ha sido conectado procedemos a entrar a la configuración configuramos el knn
Una vex colocamos la información procedemos a realizar la ejecución la cual dejamos por defecto y
procedemos a ejecutar el KNN damos ok y ejecutamos el nodo de knn
Ahora colocamos el Score para poder realizar y poder visualizar la información de una forma
correcta utilizamos el score en el cual podemos evidenciar la información solicitada en el score una
vez conectamos nuestro score nos dirigimos a la parte de configuración y con figuramos nuestro
score
Ahora damos en el ok y cerramos la pagina del score y abrimos en el open view para visualizar la
información solicitada de forma mas rápida para ver el acurracy y los márgenes de errores
Acá podemos evidenciar que los datos nos muestran un margen de error ya que es por el dataset
que se evidencia en este scorer podemos evidenciar que hay un error de 76,86% y un Accuracy
23,14% y una correcta clasificación del 21.992 esto se debe a quel data set presenta no esta de la
forma correcta para los datos ya que presenta varios datos nulos o vacíos
Diagrama Naive Bayes

Para este diagrama utilizamos la información suministrada del color manager en el cual para poder
realizar nuestro diagrama de Naive Bayes usamos un partitioning para poder realizar la partición
de los datos en el cual conectamos con la información suministrada del Color Manager
Una vez entramos en el área de configuración nos muestra los datos p+que tiene por defecto los
cuales dejamos como están sin modificarlos para poder evidenciar como se trabaja el área con
estos valores que dejamos por defecto damos ok} cerramos la ventana
Acá podemos visualizar la ejecución y podemos visualizar la primera partición que se ha realizado
con los datos que tenemos del data set vemos que tiene 16 columnas y un total de 221760
registros los cuales son de los datos de entrenamiento de la primera partición
Acá podemos visualizar la segunda partición que hace referencia al 30% de los datos y me dice que
se tiene 16 colunmas y un total de 95040 registros de los datos y visualizamos que se ha creado la
columna de condesed colum 3
Ahora colocamos un Naive Bayes learner que nos va ayudar a predecir el modelo del Naive Bayer
conectamos el modo de Naive Bayes learner con los datos de entrameinto que nos representa la
primera partición
Una vez nos encontramos en el área de configuración dejamos los valores ya que se nos muestra la
columna clasificadora que es la condensed columna (#3) que es la columna con la cual vamos a
trabajar con el modelo de Naive Bayes Learner
Ahora colocamos el nodo de Naive Bayes Predictor que es el que nos va ayudar a predecir el
modelo del Naives Bayes realizamos la conexión con el naive bayes learner y con la segunda
partición que es el 30% de los datos que habíamos realizado de la partición y nos dirigimos a la
parte de la configuración
Una vez en el área de la configuración del Naive Bayes predictor seleccionamos la primera casilla y
dejamos la columna con la cual va realizar la predicción que es la (condensed Colum (#3)) es
nuestra columna con la cual podemos realizar la predicción damos en el ok y salimos de ese
recuadro
Acá podemos ver que se ha ejecutado de una manera efectiva con la cual podemos evidenciar que
se ha creado la columna de la predicción con esto nos damos cuenta que se ha realizado la
configuración correcta de una manera rápida y efectiva y que podemos evidenciar que se ha
manejado 95040 registros en 17 columnas
Ahora colocamos un Scorer con el cual podemos visualizar el acurracy y el margen de error que
puede tener nuestro modelo de Naive Bayes esto nos ayuda a poder verificar a cada una de las
área que se quiere proceder a demostrar en cada uno de los ejercicios pero primero nos toca
realizar la configuración del scorer para que nos tome los datos para poder visualizarlos de una
manera mas correcta y efectiva
Ahora damos en el botón de ok el cual nos ayuda salir del área de configuración y damos en la
parte de la ejecución y podemos visualizar la ejecución del programa el cual se va a facilitar la
visulizacion de los datos
Acá podemos evidenciar la confunsion de la Matrix la cual nos indica que la variable que habíamos
tomado desde el inicio que la de severidad y el numero de las columnas que son 4 columnas que
nos arroja el modelo de la confunsion de la matriz
Acá podemos eveidenciar los datos del Acurracy y las estadísticas las cuales nos representa un
porcentaje de error ya que como se evidencia falta de algunos valores que no están presentes en el
modelo.
Acá podemos evidenciar la calificación correcta que es de 23,147 y un accuracy de 24,355% con un
margen de error de 75,645 % que nos puede indicar el margen de error que puede tener nuestro
modelos al momento de ser predecible al momento de hacer una predicción de una persona
normal nos indica que no seria un modelo muy fiable con el cual podríamos tener algún
inconveniente de manera remota y consecutiva al momento detener que ponerlo en
funcionamiento
Conclusión de la actividad
Podemos concluir que nuestro modelo se trabajo con un dataset que no estaba adapatado para
este ejercicio ya que su información contenía algunos valores nulos los cuales eran de por si más
valores vacíos los cuales nos presentaron algún inconveniente con el árbol de decisión y con el
modelo de naive bayes y el modelo del KNN con los cuales nos arrojo unos márgenes de errores
muy altos y sobre todo muy poco confiables estos datos que nos fueron suministrados
Conclusiones
1.Potencial Transformador El aprendizaje automatizado ha demostrado ser un elemento
transformador en el análisis de datos, permitiendo la identificación de patrones y relaciones
no evidentes mediante enfoques convencionales. Esta capacidad de revelar insights ocultos
amplía significativamente las posibilidades de comprensión y toma de decisiones
informadas.
2. Eficiencia y Velocidad Mejoradas La implementación de algoritmos de aprendizaje
automatizado ha contribuido a una mejora sustancial en la eficiencia y velocidad del
análisis de datos. La capacidad de procesar grandes cantidades de información en tiempo
real permite respuestas más rápidas a cambios en el entorno, lo que resulta fundamental en
entornos empresariales dinámicos.
3. Desafíos de Interpretación A pesar de sus ventajas, el aprendizaje automatizado presenta
desafíos en la interpretación de los resultados. Los modelos complejos pueden carecer de
transparencia, lo que dificulta comprender cómo y por qué se toman ciertas decisiones. La
interpretación de los resultados sigue siendo un área crítica que requiere atención para
garantizar la confianza y comprensión de los usuarios y stakeholders.

4. Necesidad de Datos de Calidad La eficacia del aprendizaje automatizado en el análisis
de datos está intrínsecamente ligada a la calidad de los datos utilizados para su
entrenamiento. La falta de datos representativos o la presencia de sesgos pueden afectar la
precisión y confiabilidad de los modelos. La atención a la calidad de los datos sigue siendo
esencial para garantizar resultados sólidos y aplicaciones exitosas.
Referencias Bibliográficas
 Taylor Smith. (2019). Supervised Machine Learning with Python : Develop Rich
Python Coding Practices While Exploring Supervised Machine Learning. Packt
Publishing.
https://bibliotecavirtual.unad.edu.co/login?url=https://search.ebscohost.com/
login.aspx?direct=true&db=nlebk&AN=2145644&lang=es&site=eds-
live&scope=site&ebv=EB&ppid=pp_5 Capítulo 1
 Díaz Monroy, L. G. y Morales Rivera, M. A. (2012). Análisis estadístico de datos
multivariados. Editorial Universidad Nacional de Colombia. https://elibro-
net.bibliotecavirtual.unad.edu.co/es/ereader/unad/127592?page=407
 Pardo, C. E., & Del Campo, P. C. (2007). Combinación de métodos factoriales y de
análisis de conglomerados en R: el paquete FactoClass. Revista colombiana de
estadística, 30(2), 231-245. https://www.redalyc.org/pdf/899/89930206.pdf

 Posada Hernández, G. J. (2016). Elementos básicos de estadística descriptiva para el
análisis de datos. Universidad Católica Luis Amigó. Recuperado de https://elibro-
net.bibliotecavirtual.unad.edu.co/es/ereader/unad/127436?page=128

Fase 4 Covid

Cargado por

Copyright:

Formatos disponibles

También podría gustarte

Fase 4 Covid

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Fase 4 Covid

Cargado por

Copyright:

Formatos disponibles

FASE 4 Aprendizaje Supervisado

Álvaro Santiago Suarez Lagos

Universidad Nacional Abierta y a Distancia – UNAD

El aprendizaje automatizado, también conocido como machine learning en inglés, ha

emergido como una herramienta revolucionaria en el campo del análisis de datos. En un

mundo cada vez más inundado de información, el análisis de datos se ha convertido en un

pilar fundamental para la toma de decisiones informadas. El aprendizaje automatizado,

informáticos aprender patrones y realizar tareas específicas sin intervención humana

conjuntos de datos, identificar tendencias ocultas y generar predicciones precisas. Desde la

detección de patrones en datos complejos hasta la automatización de procesos de toma de

decisiones, el aprendizaje automatizado se ha convertido en un componente esencial para

optimizar el análisis de datos y descubrir insights valiosos. En este contexto, exploraremos

cómo el aprendizaje automatizado está impulsando la evolución del análisis de datos,

abriendo nuevas fronteras para la comprensión y aplicación efectiva de la información en

Desarrollar e implementar soluciones basadas en aprendizaje automatizado para optimizar

el análisis de datos, mejorando la precisión, eficiencia y capacidad predictiva en diversos

1. Optimizar la clasificación de datos para Implementar algoritmos de aprendizaje

automatizado para mejorar la precisión y velocidad en la clasificación de grandes conjuntos

de datos, permitiendo una identificación más rápida y precisa de patrones y tendencias.

2. Incrementar la capacidad predictiva de desarrollar modelos de aprendizaje automatizado

que mejoren la capacidad predictiva mediante la identificación de relaciones complejas

entre variables, permitiendo anticipar eventos futuros y facilitando la toma de decisiones

3. Automatizar la detección de anomalías e Implementar sistemas de aprendizaje

automatizado capaces de identificar de manera automática patrones anómalos o

de problemas y reduciendo el tiempo de respuesta ante situaciones críticas.

4. Personalizar recomendaciones y experiencias para desarrollar modelos de aprendizaje

automatizado que permitan la personalización de recomendaciones y experiencias para

usuarios, clientes o pacientes, adaptando de manera dinámica la información presentada

según sus preferencias, comportamientos y necesidades individuales.

Desarrollo de la actividad correspondiente

Link del mapa https://lucid.app/lucidchart/e0a23e5b-a983-42ed-87da-091b52a4178e/edit?

Desarrollo de los modelos

Condense colum (# 3 ) damos un ok y se cierra nuestro proyecto

Realizamos el diagrama de K Nearest Neighbor en el mismo diagrama que habíamos realizado

Diagrama Naive Bayes

1.Potencial Transformador El aprendizaje automatizado ha demostrado ser un elemento

transformador en el análisis de datos, permitiendo la identificación de patrones y relaciones

no evidentes mediante enfoques convencionales. Esta capacidad de revelar insights ocultos

amplía significativamente las posibilidades de comprensión y toma de decisiones

2. Eficiencia y Velocidad Mejoradas La implementación de algoritmos de aprendizaje

automatizado ha contribuido a una mejora sustancial en la eficiencia y velocidad del

análisis de datos. La capacidad de procesar grandes cantidades de información en tiempo

entornos empresariales dinámicos.

3. Desafíos de Interpretación A pesar de sus ventajas, el aprendizaje automatizado presenta

desafíos en la interpretación de los resultados. Los modelos complejos pueden carecer de

garantizar la confianza y comprensión de los usuarios y stakeholders.

de datos está intrínsecamente ligada a la calidad de los datos utilizados para su

entrenamiento. La falta de datos representativos o la presencia de sesgos pueden afectar la

esencial para garantizar resultados sólidos y aplicaciones exitosas.

Python Coding Practices While Exploring Supervised Machine Learning. Packt

 Díaz Monroy, L. G. y Morales Rivera, M. A. (2012). Análisis estadístico de datos

multivariados. Editorial Universidad Nacional de Colombia. https://elibro-

 Pardo, C. E., & Del Campo, P. C. (2007). Combinación de métodos factoriales y de

análisis de conglomerados en R: el paquete FactoClass. Revista colombiana de

estadística, 30(2), 231-245. https://www.redalyc.org/pdf/899/89930206.pdf

análisis de datos. Universidad Católica Luis Amigó. Recuperado de https://elibro-

También podría gustarte