Está en la página 1de 23

Etapa 3 - COMPONENTE PRÁCTICO - PRÁCTICAS SIMULADAS

Nombre del estudiante


Yudy Estefany Sanchez Montes

Grupo:
Análisis de datos 202016908_32

Tutor
Javier Leonardo Pineda Uribe

Universidad Nacional Abierta y a Distancia-UNAD


CEAD – Neiva (H)
Ingeniería de sistemas
Neiva 15-Nov-2023

1
Introducción

Mediante el presente vamos a desarrollar la Etapa 3 - Componente Práctico -


Prácticas Simuladas, dado definición sobre Datos de Train, validation y test, Gradient
descent, Machine learning losses, cross validation.
Presento un informe escrito detallado del desarrollo del Entregable, teniendo en cuenta
el Dataset de la tripulación del Titanic que representa Los sobrevivientes de un
naufragio al cual se realizará el proceso de analítica de datos.
Para que los datos compartidos en el Dataset que contiene el archivo titanic.csv,
teniendo en cuenta la herramienta KNIME esta proporciona una plataforma con una
interfaz gráfico de usuario donde se puede crear flujos de trabajo que permite obtener
un modelo predictivo para saber si una persona a sobrevivido o no en el naufragio de la
embarcación Titanic.

2
Anexo 1_Etapa 3 Guía única para el desarrollo del componente
Práctico del Curso: Análisis de datos_202016908

La actividad consiste en:


• Realizar la revisión bibliográfica de la Unidad 2.
• Elaborar un listado con las siguientes definiciones:

Datos de Train

Los algoritmos de Machine Learning aprenden de datos previos y buscan


patrones para predecir resultados de casos futuros. Se ace necesario validar la
eficacia del modelo con una batería de pruebas en un conjunto de datos
diferente al de entrenamiento. Por ello, se separan los datos en dos partes:
entrenamiento y prueba. Cuando estamos formando un modelo, los datos de
entrenamiento - o "training data" - son los que utilizamos. Se debe tener en
cuenta que la calidad de nuestro modelo de aprendizaje automático estará
directamente relacionada con la calidad de los datos. Por esta razón, las tareas
de limpieza, depuración o "data wrangling" consumen una parte significativa del
tiempo de los científicos de datos.

validation y test

Las pruebas, validación o "datos de prueba" son datos de los que hacemos
una "copia de seguridad" para verificar que el modelo que construimos a partir de
los datos de entrenamiento "funciona". Es decir, si las respuestas predichas por el
modelo para un caso completamente nuevo son correctas o no. Es importante que
el conjunto de datos de pruebasea lo suficientemente grande como para obtener
resultados estadísticamente significativos y, al mismo tiempo, sea representativo
de todo el conjunto de datos. Normalmente, el conjunto de datos se divide en un
3
70% de datos de entrenamiento y un 30% de datos de prueba, pero la proporción
puede variar de un caso a otro. Es importante recordar siempre evitar el sobre
entrenamiento

Gradient descent

Al algoritmo gradient descent se le conoce por varios nombres, sobretodo en


la literatura en inglés (vanilla gradient descent, batch gradient descent). A veces se
les da el nombre de steepest descent, pero este término es más propio
para aproximación analítica de integrales . El algoritmo también tiene una
versión gemela bizarra que en lugar de buscar por un mínimo busca el punto
máximo de una función.

Gradient descent es un método general de minimización para cualquier función f.


A la versión original se le considera lenta pero versátil, sobre todo para casos de
que la funciones multi-dimensionales.
La opciones para encontrar el punto mínimo de las funciones son:

 Analítica, que consiste en calcular la derivada cerrada de una función y encontrar


los puntos donde la derivada es igual a cero.

 Métodos numéricos, localizarse en un punto de la función y tratar de descender al


punto mínimo usando información de la primera derivada (gradient descent).
También podemos usar información de la segunda derivada (Newtown’s gradient
descent).

 Usar métodos aproximativos: BFGS , PSO

4
Machine learning losses

La "pérdida de aprendizaje automático" se refiere a una función de pérdida


(tambiénconocida como función de costo o función de pérdida) en el contexto del
aprendizaje automático.
Esta es una forma de evaluar qué tan bien un algoritmo particular modela datos
particulares. Las funciones de pérdida de aprendizaje automático devuelven
números muygrandes cuando la predicción se desvía significativamente del
resultado real.
Estas características son esenciales para los algoritmos de aprendizaje
supervisado, donde se entrena un modelo para realizar predicciones basadas en
datos de entrenamiento.
El objetivo principal del aprendizaje automático es minimizar esta función de
pérdida. Esto significa que el modelo intenta hacer las predicciones más precisas
posibles sobre los datosde entrenamiento.

cross validation:
La validación cruzada, también conocida como cross validation, es una
técnica que se usa en el aprendizaje automático (machine learning) para
evaluar la variabilidad de los datos y la confiabilidad de cualquier modelo que
se esté utilizando.
consiste en evaluar y probar el rendimiento de un modelo de machine
learning, con el fin de encontrar un mejor modelo rápidamente. Esta técnica
ayuda a la comprensión y aplicación de este modelado predictivo, siendo fácil y
sencilla de aplicar.
Hoy en día existen dos principales técnicas de validación cruzada:
 Train-Test Split: Esta técnica descompone de manera aleatoria una
serie de datos y se divide en dos partes. La primera, que es entre el

5
70% y 80% de los datos de la serie, sirve para el entrenamiento del
modelo de aprendizaje automático y la segunda, entre el 20% y 30% de
los datos restantes, te permite probarla para la validación, Es eficaz, si
los datos no están limitados
 Método K-Folds: Este método es fácil de comprender y es la más
conocida, siendo un modelo menos sesgado, pues permite garantizar
todas las observaciones de la serie de datos original. Si los datos de
entrada son limitados, entonces este método es ideal. Tenemos que
señalar que esta técnica tiene un parámetro único llamado “K”, que hace
referencia al número de grupos en el que se dividirá la muestra. El valor
K no debe ser ni demasiado bajo ni demasiado alto.

• Desarrollar las actividades propuestas en el Entregable

1 - Componente Práctico

Con el desarrollo de este componente práctico-Práctica simulada se pretende analizar


el proceso de aprendizaje a partir de datos mediante la recolección y preparación de
estos, tomando en cuenta las características y complejidad de su representación.

Desarrollo de actividad

Yesanchez87/Entregable-3---Dataset_Titanic: Entregable 3 - Dataset_Titanic


(github.com)

6
Importar librería

Os: Poder Navegar en mi directorio


Pandas: Para el análisis
Matplotlib: Para graficar
%: Para que las gráficas nos salgan
en el mismo documento
Font : Estableciendo tamaño para que los textos
y afines no sean pequeños

Importamos la información que vamos a


Analizar desde nuestro Excel

En este recuadro nos dan los datos del pasajero si sobrevivió o no la clase el nombre el sexo la
Edad Esta columna presenta el número de acompañantes y parentesco también el ticket la tarifa
Número de cabina y tipo de embarcación, La función de describe nos hacen un conteo de las
Columnas que son numéricas o categóricas conteo arrojando la media el estándar mínima también los
Cuartiles y la máxima.

7
Identificamos el tipo de datos de nuestras columnas y aquí
tenemos int64 y object, así no nos arrojan error.

La función de describe nos hacen un conteo de las columnas que


Son numéricas o categóricas conteo arrojando la media el estándar
Mínima también los cuartiles y la máxima.

Entonces lo que hacemos es llenar los datos


de la edad con la media de estos mismos de
esta manera.

Queda por rellenar el campo cabina el cual se


asigna con NE de la siguiente manera .

8
Para una mejor lectura vamos a cambiar
algunos datos Para ello vamos a tomar la
columna Survived Realizaremos un mapeo
Por cada “0” asignamos NO
Por cada “1” asignamos SI.

Y proyectamos la cabecera donde se


Evidencia el cambio en esta columna.

Realizaremos el mismo cambio en la columna


Embarket:
'S': 'Southampton',
'C': 'Cherbourg',
'Q': 'Queenstown'

9
Y proyectamos la cabecera donde se
Evidencia el cambio en esta columna.

Analizaremos la información valiosa que


Obtenemos de este mismo:

Tenemos en primera medida un gráfico de


Barra sobre el estado del pasajero si
Falleció o sobrevivió en referente al tipo de clase
A la que pertenecía.
Se puede evidenciar que:
En la clase 1: el mayor de sobrevivientes
En la clase 2: relativamente fue casi paralelo
En la clase 3: el número de fallecidos fue mayor.

10
Realizaremos un conteo
O agrupación de sobrevivientes
Según el género si es:
Femenino (F) o masculino (M),
Según este conteo:
Género (F), no sobrevivieron 81
sí sobrevivieron 233
Género (M), no sobrevivieron 468
sí sobrevivió 109

Presentamos la Gráfica mediante barra


Representativa de esta información
Dónde se cumple esta información.

11
Realizaremos el análisis de índice de
Supervivencia
Según la clase en la que se
Transportaban
Teniendo en cuenta el género o sexo
De los tripulantes.

En la clase 1: el mayor número de fallecidos es el género masculino y el mayor número de sobrevivientes es


femenino.
En la clase 2: el mayor número de fallecidos es masculino y el mayor número de sobrevivientes es femenino.

12
Aquí tenemos una función para aplicar etiquetas
A las gráficas de barras esta
Tabla pívot nos ayuda a mostrar
Mostrar este caso si son columnas
Vamos a pasarlas a filas
Los valores son: la edad
El índex: la cabina
Y agregamos la función media.

Para saber si esto es cierto o no, vamos a agrupar


por cabina una función lambda y vamos a tomar
por ejemplo la cabina F4 así con esa línea nos
traerá los registros que se tengan con esta
especificación en todas las cabinas

De esa manera traemos los primeros


cinco índices de las cabinas

13
En esta gráfica de barras vamos a indicar
los parámetros de las edades promedios
en las diferentes cabinas
de la siguiente manera;
En las primeras 5 cabinas:
cabina A10: con 36 personas
cabina A14: con 30 personas
cabina A16: con 48 personas
cabina A19: con 30 personas
cabina A20: con 49 personas

14
Una tabla en donde vamos a
Indicar los índices de supervivencia según
el lugar de embarque

A través de esta gráfica podemos analizar


la distribución de supervivencia según
el lugar de embarque Contamos con
tres lugares de embarque:
Survived No Si
Southampton 427 217
Cherbourg 75 93
Queenstown 47 30

15
Aquí realizaremos el conteo de personas por
cabina ejemplo la cabina 10 una persona y
así consecutivamente

Aquí realizaremos el conteo de las personas


que eran menores a 18 años, incluyendo
la clase en la que estaban embarcados sea 1, 2 o 3.

realizaremos el conteo de las personas que


tenían un Rango de edad de 18 a 50 años
en cualquiera de las 3 clases.

Realizaremos un conteo de las personas


mayores a 50 años embarcadas en
cualquiera de las 3 clases

16
Aquí tenemos nuestra función para
aplicar etiqueta a las gráficas de pastel

Donde solicitamos con parámetros de


función pie que nos cree esa gráfica del pastel
en el intervalo de edad 1 que
son las personas menores de 18 años

Así mismo solicitamos el intervalo de edad 2


correspondientes a las personas
mayores o iguales de 18 y
menores o iguales de 50 años
ese Rango de edad de 18 a 50 años.

Nuestra tercera solicitamos con función de


parámetros de gráfica a las personas mayores
de 50 años

17
En esta función vamos a solicitar
todos los nombres que coincidan
con algo específico que sería “Carter”
Entonces nos arrojaría solo el nombre
de quien viajó y que corresponda a “Carter”

En esta función Buscamos que los nombres


que coincidan con dicho apellido nos lo
envíe en una lista una vez obtenido esto
nos muestre los primeros cinco registros
a esta acción le asignaremos como familias

Con la función Len nos arrojaría el número


que se considera hay de familias entre los
Navegantes del Titanic o al menos comparten
el mismo apellido.

Con esta función buscamos organizar por


Apellidos de mayor a menor cantidad de
Personas por familia.
Ejemplo;
La familia Andersson, con 9 miembros.
La familia Sage, con 7 miembros.
La familia Panula, con 6 miembros.
La familia Goodwin, con 6 miembros.
La familia Skoog, con 5 miembros.

18
En esta gráfica se enseña las 3 familias más numerosas, abordo del titanic,

Como primera familia donde se


evidencia que los; Andersson
con 9 miembros y también
registra los nombres de cada
uno de ellos.

Como segunda familia donde se


evidencia que los; Sage con 7
y también registra los nombres
de cada uno de ellos.

Como tercera familia donde se


evidencia que los; Panula con 9
miembros y también registra los
nombres de cada uno de ellos.

19
Con esta función buscamos ejecutar
una tabla que nos den los datos de edad
género clase y su estado de supervivencia
con una edad igual establecida a 50 años.

Se crea una tabla Pivot que su Index sea


el género o bien sea sexo las columnas
de Survived y la clase esta tabla nos indica
que una mujer de la clase 1 no supervivió
y una mujer de la clase 1 sí súper
vivió y tres mujeres de la clase 2 sí supervivieron.

También indica que dos hombres de la


clase 1 no supervivieron un hombre de
la clase 2 no supervivió un hombre de la clase 3
no supervivió un hombre de la clase 1 sí
súper vivió ningún hombre de la clase 2 super vivió.

En esta función buscamos enseñar:


femenino (F) , masculino (M)
Clase 1: (F) 94 / (M) 122
Clase 2 : (F) 76 / (M) 108
Clase 3 : (F) 144 / (M) 347

20
Con esta función vamos a crear
nuestro gráfico de pastel en referente
a lo anterior tenemos nuestra primera

gráfica total de la clase 1


56.5% hombres 43.5% mujeres.

gráfica total de la clase 2


41.3% mujeres 58.7% hombres

gráfica total de la clase 3


29.3% mujeres 70.7 hombres

Realizaremos un diagrama con nuestra


función Scatter, dónde nos apoyaremos
con los datos de edad tarifa que sea
relación entre la Edad y la tarifa.

21
Aplicaremos nuestra función Scatter,
realizando un diagrama de acuerdo
a la edad, la clase y la tarifa entonces
nos arroja este resultado.

En la clase 1 la edad que más pago tarifa


fueron dos personas con edades de 30 a 40
años la mayoría de las personas
pagaron una tarifa inferior a 150.

En la clase 3 se considera que una


persona pagó tarifa de un alto costo,
con 70 seguidamente cuatro personas con 60
y el rango de edad de estas personas es
de 25 a 35 años de edad en un Rango de
10 a 50 años de edad con tarifas inferiores a
30 es la mayor.

22
Bibliografía

De Los Santos, P. R. (2023, 29 junio). Datos de entrenamiento vs datos de test.


TelefónicaTech. https://telefonicatech.com/blog/datos-entrenamiento-vs-datos-de-test

Ruiz, I. V. M. (2016, 21 noviembre). Descenso por gradiente (Gradient descent).


https://turing.iimas.unam.mx/~ivanvladimir/posts/gradient_descent/

Springer: https://link.springer.com/article/10.1007/s40745-020-00253-5

23

También podría gustarte