Entregable 3 - COMPONENTE PRÁCTICO - PRÁCTICAS SIMULADAS

Etapa 3 - COMPONENTE PRÁCTICO - PRÁCTICAS SIMULADAS
Nombre del estudiante

Yudy Estefany Sanchez Montes
Grupo:
Análisis de datos 202016908_32
Tutor
Javier Leonardo Pineda Uribe
Universidad Nacional Abierta y a Distancia-UNAD

CEAD – Neiva (H)
Ingeniería de sistemas
Neiva 15-Nov-2023
1
Introducción
Mediante el presente vamos a desarrollar la Etapa 3 - Componente Práctico -

Prácticas Simuladas, dado definición sobre Datos de Train, validation y test, Gradient
descent, Machine learning losses, cross validation.
Presento un informe escrito detallado del desarrollo del Entregable, teniendo en cuenta
el Dataset de la tripulación del Titanic que representa Los sobrevivientes de un
naufragio al cual se realizará el proceso de analítica de datos.
Para que los datos compartidos en el Dataset que contiene el archivo titanic.csv,
teniendo en cuenta la herramienta KNIME esta proporciona una plataforma con una
interfaz gráfico de usuario donde se puede crear flujos de trabajo que permite obtener
un modelo predictivo para saber si una persona a sobrevivido o no en el naufragio de la
embarcación Titanic.
2
Anexo 1_Etapa 3 Guía única para el desarrollo del componente
Práctico del Curso: Análisis de datos_202016908
La actividad consiste en:

• Realizar la revisión bibliográfica de la Unidad 2.
• Elaborar un listado con las siguientes definiciones:
Datos de Train
Los algoritmos de Machine Learning aprenden de datos previos y buscan

patrones para predecir resultados de casos futuros. Se ace necesario validar la
eficacia del modelo con una batería de pruebas en un conjunto de datos
diferente al de entrenamiento. Por ello, se separan los datos en dos partes:
entrenamiento y prueba. Cuando estamos formando un modelo, los datos de
entrenamiento - o "training data" - son los que utilizamos. Se debe tener en
cuenta que la calidad de nuestro modelo de aprendizaje automático estará
directamente relacionada con la calidad de los datos. Por esta razón, las tareas
de limpieza, depuración o "data wrangling" consumen una parte significativa del
tiempo de los científicos de datos.
validation y test
Las pruebas, validación o "datos de prueba" son datos de los que hacemos
una "copia de seguridad" para verificar que el modelo que construimos a partir de
los datos de entrenamiento "funciona". Es decir, si las respuestas predichas por el
modelo para un caso completamente nuevo son correctas o no. Es importante que
el conjunto de datos de pruebasea lo suficientemente grande como para obtener
resultados estadísticamente significativos y, al mismo tiempo, sea representativo
de todo el conjunto de datos. Normalmente, el conjunto de datos se divide en un
3
70% de datos de entrenamiento y un 30% de datos de prueba, pero la proporción
puede variar de un caso a otro. Es importante recordar siempre evitar el sobre
entrenamiento
Gradient descent
Al algoritmo gradient descent se le conoce por varios nombres, sobretodo en

la literatura en inglés (vanilla gradient descent, batch gradient descent). A veces se
les da el nombre de steepest descent, pero este término es más propio
para aproximación analítica de integrales . El algoritmo también tiene una
versión gemela bizarra que en lugar de buscar por un mínimo busca el punto
máximo de una función.
Gradient descent es un método general de minimización para cualquier función f.

A la versión original se le considera lenta pero versátil, sobre todo para casos de
que la funciones multi-dimensionales.
La opciones para encontrar el punto mínimo de las funciones son:
 Analítica, que consiste en calcular la derivada cerrada de una función y encontrar

los puntos donde la derivada es igual a cero.
 Métodos numéricos, localizarse en un punto de la función y tratar de descender al

punto mínimo usando información de la primera derivada (gradient descent).
También podemos usar información de la segunda derivada (Newtown’s gradient
descent).
 Usar métodos aproximativos: BFGS , PSO
4
Machine learning losses
La "pérdida de aprendizaje automático" se refiere a una función de pérdida

(tambiénconocida como función de costo o función de pérdida) en el contexto del
aprendizaje automático.
Esta es una forma de evaluar qué tan bien un algoritmo particular modela datos
particulares. Las funciones de pérdida de aprendizaje automático devuelven
números muygrandes cuando la predicción se desvía significativamente del
resultado real.
Estas características son esenciales para los algoritmos de aprendizaje
supervisado, donde se entrena un modelo para realizar predicciones basadas en
datos de entrenamiento.
El objetivo principal del aprendizaje automático es minimizar esta función de
pérdida. Esto significa que el modelo intenta hacer las predicciones más precisas
posibles sobre los datosde entrenamiento.
cross validation:
La validación cruzada, también conocida como cross validation, es una
técnica que se usa en el aprendizaje automático (machine learning) para
evaluar la variabilidad de los datos y la confiabilidad de cualquier modelo que
se esté utilizando.
consiste en evaluar y probar el rendimiento de un modelo de machine
learning, con el fin de encontrar un mejor modelo rápidamente. Esta técnica
ayuda a la comprensión y aplicación de este modelado predictivo, siendo fácil y
sencilla de aplicar.
Hoy en día existen dos principales técnicas de validación cruzada:
 Train-Test Split: Esta técnica descompone de manera aleatoria una
serie de datos y se divide en dos partes. La primera, que es entre el
5
70% y 80% de los datos de la serie, sirve para el entrenamiento del
modelo de aprendizaje automático y la segunda, entre el 20% y 30% de
los datos restantes, te permite probarla para la validación, Es eficaz, si
los datos no están limitados
 Método K-Folds: Este método es fácil de comprender y es la más
conocida, siendo un modelo menos sesgado, pues permite garantizar
todas las observaciones de la serie de datos original. Si los datos de
entrada son limitados, entonces este método es ideal. Tenemos que
señalar que esta técnica tiene un parámetro único llamado “K”, que hace
referencia al número de grupos en el que se dividirá la muestra. El valor
K no debe ser ni demasiado bajo ni demasiado alto.
• Desarrollar las actividades propuestas en el Entregable
1 - Componente Práctico
Con el desarrollo de este componente práctico-Práctica simulada se pretende analizar

el proceso de aprendizaje a partir de datos mediante la recolección y preparación de
estos, tomando en cuenta las características y complejidad de su representación.
Desarrollo de actividad
Yesanchez87/Entregable-3---Dataset_Titanic: Entregable 3 - Dataset_Titanic

(github.com)
6
Importar librería
Os: Poder Navegar en mi directorio

Pandas: Para el análisis
Matplotlib: Para graficar
%: Para que las gráficas nos salgan
en el mismo documento
Font : Estableciendo tamaño para que los textos
y afines no sean pequeños
Importamos la información que vamos a

Analizar desde nuestro Excel
En este recuadro nos dan los datos del pasajero si sobrevivió o no la clase el nombre el sexo la
Edad Esta columna presenta el número de acompañantes y parentesco también el ticket la tarifa
Número de cabina y tipo de embarcación, La función de describe nos hacen un conteo de las
Columnas que son numéricas o categóricas conteo arrojando la media el estándar mínima también los
Cuartiles y la máxima.
7
Identificamos el tipo de datos de nuestras columnas y aquí
tenemos int64 y object, así no nos arrojan error.
La función de describe nos hacen un conteo de las columnas que

Son numéricas o categóricas conteo arrojando la media el estándar
Mínima también los cuartiles y la máxima.
Entonces lo que hacemos es llenar los datos

de la edad con la media de estos mismos de
esta manera.
Queda por rellenar el campo cabina el cual se

asigna con NE de la siguiente manera .
8
Para una mejor lectura vamos a cambiar
algunos datos Para ello vamos a tomar la
columna Survived Realizaremos un mapeo
Por cada “0” asignamos NO
Por cada “1” asignamos SI.
Y proyectamos la cabecera donde se

Evidencia el cambio en esta columna.
Realizaremos el mismo cambio en la columna

Embarket:
'S': 'Southampton',
'C': 'Cherbourg',
'Q': 'Queenstown'
9
Y proyectamos la cabecera donde se
Evidencia el cambio en esta columna.
Analizaremos la información valiosa que

Obtenemos de este mismo:
Tenemos en primera medida un gráfico de

Barra sobre el estado del pasajero si
Falleció o sobrevivió en referente al tipo de clase
A la que pertenecía.
Se puede evidenciar que:
En la clase 1: el mayor de sobrevivientes
En la clase 2: relativamente fue casi paralelo
En la clase 3: el número de fallecidos fue mayor.
10
Realizaremos un conteo
O agrupación de sobrevivientes
Según el género si es:
Femenino (F) o masculino (M),
Según este conteo:
Género (F), no sobrevivieron 81
sí sobrevivieron 233
Género (M), no sobrevivieron 468
sí sobrevivió 109
Presentamos la Gráfica mediante barra

Representativa de esta información
Dónde se cumple esta información.
11
Realizaremos el análisis de índice de
Supervivencia
Según la clase en la que se
Transportaban
Teniendo en cuenta el género o sexo
De los tripulantes.
En la clase 1: el mayor número de fallecidos es el género masculino y el mayor número de sobrevivientes es

femenino.
En la clase 2: el mayor número de fallecidos es masculino y el mayor número de sobrevivientes es femenino.
12
Aquí tenemos una función para aplicar etiquetas
A las gráficas de barras esta
Tabla pívot nos ayuda a mostrar
Mostrar este caso si son columnas
Vamos a pasarlas a filas
Los valores son: la edad
El índex: la cabina
Y agregamos la función media.
Para saber si esto es cierto o no, vamos a agrupar

por cabina una función lambda y vamos a tomar
por ejemplo la cabina F4 así con esa línea nos
traerá los registros que se tengan con esta
especificación en todas las cabinas
De esa manera traemos los primeros

cinco índices de las cabinas
13
En esta gráfica de barras vamos a indicar
los parámetros de las edades promedios
en las diferentes cabinas
de la siguiente manera;
En las primeras 5 cabinas:
cabina A10: con 36 personas
14
Una tabla en donde vamos a
Indicar los índices de supervivencia según
el lugar de embarque
A través de esta gráfica podemos analizar

la distribución de supervivencia según
el lugar de embarque Contamos con
tres lugares de embarque:
Survived No Si
Southampton 427 217
Cherbourg 75 93
Queenstown 47 30
15
Aquí realizaremos el conteo de personas por
cabina ejemplo la cabina 10 una persona y
así consecutivamente
Aquí realizaremos el conteo de las personas

que eran menores a 18 años, incluyendo
la clase en la que estaban embarcados sea 1, 2 o 3.
realizaremos el conteo de las personas que

tenían un Rango de edad de 18 a 50 años
en cualquiera de las 3 clases.
Realizaremos un conteo de las personas

mayores a 50 años embarcadas en
cualquiera de las 3 clases
16
Aquí tenemos nuestra función para
aplicar etiqueta a las gráficas de pastel
Donde solicitamos con parámetros de

función pie que nos cree esa gráfica del pastel
en el intervalo de edad 1 que
son las personas menores de 18 años
Así mismo solicitamos el intervalo de edad 2

correspondientes a las personas
mayores o iguales de 18 y
menores o iguales de 50 años
ese Rango de edad de 18 a 50 años.
Nuestra tercera solicitamos con función de

parámetros de gráfica a las personas mayores
de 50 años
17
En esta función vamos a solicitar
todos los nombres que coincidan
con algo específico que sería “Carter”
Entonces nos arrojaría solo el nombre
de quien viajó y que corresponda a “Carter”
En esta función Buscamos que los nombres

que coincidan con dicho apellido nos lo
envíe en una lista una vez obtenido esto
nos muestre los primeros cinco registros
a esta acción le asignaremos como familias
Con la función Len nos arrojaría el número

que se considera hay de familias entre los
Navegantes del Titanic o al menos comparten
el mismo apellido.
Con esta función buscamos organizar por

Apellidos de mayor a menor cantidad de
Personas por familia.
Ejemplo;
La familia Andersson, con 9 miembros.
La familia Sage, con 7 miembros.
La familia Panula, con 6 miembros.
La familia Goodwin, con 6 miembros.
La familia Skoog, con 5 miembros.
18
En esta gráfica se enseña las 3 familias más numerosas, abordo del titanic,
Como primera familia donde se

evidencia que los; Andersson
con 9 miembros y también
registra los nombres de cada
uno de ellos.
Como segunda familia donde se

evidencia que los; Sage con 7
y también registra los nombres
de cada uno de ellos.
Como tercera familia donde se

evidencia que los; Panula con 9
miembros y también registra los
nombres de cada uno de ellos.
19
Con esta función buscamos ejecutar
una tabla que nos den los datos de edad
género clase y su estado de supervivencia
con una edad igual establecida a 50 años.
Se crea una tabla Pivot que su Index sea

el género o bien sea sexo las columnas
de Survived y la clase esta tabla nos indica
que una mujer de la clase 1 no supervivió
y una mujer de la clase 1 sí súper
vivió y tres mujeres de la clase 2 sí supervivieron.
También indica que dos hombres de la

clase 1 no supervivieron un hombre de
la clase 2 no supervivió un hombre de la clase 3
no supervivió un hombre de la clase 1 sí
súper vivió ningún hombre de la clase 2 super vivió.
En esta función buscamos enseñar:

femenino (F) , masculino (M)
Clase 1: (F) 94 / (M) 122
Clase 2 : (F) 76 / (M) 108
Clase 3 : (F) 144 / (M) 347
20
Con esta función vamos a crear
nuestro gráfico de pastel en referente
a lo anterior tenemos nuestra primera
gráfica total de la clase 1

56.5% hombres 43.5% mujeres.

41.3% mujeres 58.7% hombres

29.3% mujeres 70.7 hombres
Realizaremos un diagrama con nuestra

función Scatter, dónde nos apoyaremos
con los datos de edad tarifa que sea
relación entre la Edad y la tarifa.
21
Aplicaremos nuestra función Scatter,
realizando un diagrama de acuerdo
a la edad, la clase y la tarifa entonces
nos arroja este resultado.
En la clase 1 la edad que más pago tarifa

fueron dos personas con edades de 30 a 40
años la mayoría de las personas
pagaron una tarifa inferior a 150.
En la clase 3 se considera que una

persona pagó tarifa de un alto costo,
con 70 seguidamente cuatro personas con 60
y el rango de edad de estas personas es
de 25 a 35 años de edad en un Rango de
10 a 50 años de edad con tarifas inferiores a
30 es la mayor.
22
Bibliografía
De Los Santos, P. R. (2023, 29 junio). Datos de entrenamiento vs datos de test.

TelefónicaTech. https://telefonicatech.com/blog/datos-entrenamiento-vs-datos-de-test
Ruiz, I. V. M. (2016, 21 noviembre). Descenso por gradiente (Gradient descent).

https://turing.iimas.unam.mx/~ivanvladimir/posts/gradient_descent/
Springer: https://link.springer.com/article/10.1007/s40745-020-00253-5
23

Entregable 3 - COMPONENTE PRÁCTICO - PRÁCTICAS SIMULADAS

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Entregable 3 - COMPONENTE PRÁCTICO - PRÁCTICAS SIMULADAS

Cargado por

Copyright:

Formatos disponibles

Etapa 3 - COMPONENTE PRÁCTICO - PRÁCTICAS SIMULADAS

Nombre del estudiante

Universidad Nacional Abierta y a Distancia-UNAD

Mediante el presente vamos a desarrollar la Etapa 3 - Componente Práctico -

La actividad consiste en:

Los algoritmos de Machine Learning aprenden de datos previos y buscan

Al algoritmo gradient descent se le conoce por varios nombres, sobretodo en

Gradient descent es un método general de minimización para cualquier función f.

 Analítica, que consiste en calcular la derivada cerrada de una función y encontrar

 Métodos numéricos, localizarse en un punto de la función y tratar de descender al

 Usar métodos aproximativos: BFGS , PSO

La "pérdida de aprendizaje automático" se refiere a una función de pérdida

• Desarrollar las actividades propuestas en el Entregable

Con el desarrollo de este componente práctico-Práctica simulada se pretende analizar

Yesanchez87/Entregable-3---Dataset_Titanic: Entregable 3 - Dataset_Titanic

Os: Poder Navegar en mi directorio

Importamos la información que vamos a

La función de describe nos hacen un conteo de las columnas que

Entonces lo que hacemos es llenar los datos

Queda por rellenar el campo cabina el cual se

Y proyectamos la cabecera donde se

Realizaremos el mismo cambio en la columna

Analizaremos la información valiosa que

Tenemos en primera medida un gráfico de

Presentamos la Gráfica mediante barra

En la clase 1: el mayor número de fallecidos es el género masculino y el mayor número de sobrevivientes es

Para saber si esto es cierto o no, vamos a agrupar

De esa manera traemos los primeros

A través de esta gráfica podemos analizar

Aquí realizaremos el conteo de las personas

realizaremos el conteo de las personas que

Realizaremos un conteo de las personas

Donde solicitamos con parámetros de

Así mismo solicitamos el intervalo de edad 2

Nuestra tercera solicitamos con función de

En esta función Buscamos que los nombres

Con la función Len nos arrojaría el número

Con esta función buscamos organizar por

Como primera familia donde se

Como segunda familia donde se

Como tercera familia donde se

Se crea una tabla Pivot que su Index sea

También indica que dos hombres de la

En esta función buscamos enseñar:

gráfica total de la clase 1

gráfica total de la clase 2

gráfica total de la clase 3

Realizaremos un diagrama con nuestra

En la clase 1 la edad que más pago tarifa

En la clase 3 se considera que una

De Los Santos, P. R. (2023, 29 junio). Datos de entrenamiento vs datos de test.

Ruiz, I. V. M. (2016, 21 noviembre). Descenso por gradiente (Gradient descent).

También podría gustarte