Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Grupo:
Análisis de datos 202016908_32
Tutor
Javier Leonardo Pineda Uribe
1
Introducción
2
Anexo 1_Etapa 3 Guía única para el desarrollo del componente
Práctico del Curso: Análisis de datos_202016908
Datos de Train
validation y test
Las pruebas, validación o "datos de prueba" son datos de los que hacemos
una "copia de seguridad" para verificar que el modelo que construimos a partir de
los datos de entrenamiento "funciona". Es decir, si las respuestas predichas por el
modelo para un caso completamente nuevo son correctas o no. Es importante que
el conjunto de datos de pruebasea lo suficientemente grande como para obtener
resultados estadísticamente significativos y, al mismo tiempo, sea representativo
de todo el conjunto de datos. Normalmente, el conjunto de datos se divide en un
3
70% de datos de entrenamiento y un 30% de datos de prueba, pero la proporción
puede variar de un caso a otro. Es importante recordar siempre evitar el sobre
entrenamiento
Gradient descent
4
Machine learning losses
cross validation:
La validación cruzada, también conocida como cross validation, es una
técnica que se usa en el aprendizaje automático (machine learning) para
evaluar la variabilidad de los datos y la confiabilidad de cualquier modelo que
se esté utilizando.
consiste en evaluar y probar el rendimiento de un modelo de machine
learning, con el fin de encontrar un mejor modelo rápidamente. Esta técnica
ayuda a la comprensión y aplicación de este modelado predictivo, siendo fácil y
sencilla de aplicar.
Hoy en día existen dos principales técnicas de validación cruzada:
Train-Test Split: Esta técnica descompone de manera aleatoria una
serie de datos y se divide en dos partes. La primera, que es entre el
5
70% y 80% de los datos de la serie, sirve para el entrenamiento del
modelo de aprendizaje automático y la segunda, entre el 20% y 30% de
los datos restantes, te permite probarla para la validación, Es eficaz, si
los datos no están limitados
Método K-Folds: Este método es fácil de comprender y es la más
conocida, siendo un modelo menos sesgado, pues permite garantizar
todas las observaciones de la serie de datos original. Si los datos de
entrada son limitados, entonces este método es ideal. Tenemos que
señalar que esta técnica tiene un parámetro único llamado “K”, que hace
referencia al número de grupos en el que se dividirá la muestra. El valor
K no debe ser ni demasiado bajo ni demasiado alto.
1 - Componente Práctico
Desarrollo de actividad
6
Importar librería
En este recuadro nos dan los datos del pasajero si sobrevivió o no la clase el nombre el sexo la
Edad Esta columna presenta el número de acompañantes y parentesco también el ticket la tarifa
Número de cabina y tipo de embarcación, La función de describe nos hacen un conteo de las
Columnas que son numéricas o categóricas conteo arrojando la media el estándar mínima también los
Cuartiles y la máxima.
7
Identificamos el tipo de datos de nuestras columnas y aquí
tenemos int64 y object, así no nos arrojan error.
8
Para una mejor lectura vamos a cambiar
algunos datos Para ello vamos a tomar la
columna Survived Realizaremos un mapeo
Por cada “0” asignamos NO
Por cada “1” asignamos SI.
9
Y proyectamos la cabecera donde se
Evidencia el cambio en esta columna.
10
Realizaremos un conteo
O agrupación de sobrevivientes
Según el género si es:
Femenino (F) o masculino (M),
Según este conteo:
Género (F), no sobrevivieron 81
sí sobrevivieron 233
Género (M), no sobrevivieron 468
sí sobrevivió 109
11
Realizaremos el análisis de índice de
Supervivencia
Según la clase en la que se
Transportaban
Teniendo en cuenta el género o sexo
De los tripulantes.
12
Aquí tenemos una función para aplicar etiquetas
A las gráficas de barras esta
Tabla pívot nos ayuda a mostrar
Mostrar este caso si son columnas
Vamos a pasarlas a filas
Los valores son: la edad
El índex: la cabina
Y agregamos la función media.
13
En esta gráfica de barras vamos a indicar
los parámetros de las edades promedios
en las diferentes cabinas
de la siguiente manera;
En las primeras 5 cabinas:
cabina A10: con 36 personas
cabina A14: con 30 personas
cabina A16: con 48 personas
cabina A19: con 30 personas
cabina A20: con 49 personas
14
Una tabla en donde vamos a
Indicar los índices de supervivencia según
el lugar de embarque
15
Aquí realizaremos el conteo de personas por
cabina ejemplo la cabina 10 una persona y
así consecutivamente
16
Aquí tenemos nuestra función para
aplicar etiqueta a las gráficas de pastel
17
En esta función vamos a solicitar
todos los nombres que coincidan
con algo específico que sería “Carter”
Entonces nos arrojaría solo el nombre
de quien viajó y que corresponda a “Carter”
18
En esta gráfica se enseña las 3 familias más numerosas, abordo del titanic,
19
Con esta función buscamos ejecutar
una tabla que nos den los datos de edad
género clase y su estado de supervivencia
con una edad igual establecida a 50 años.
20
Con esta función vamos a crear
nuestro gráfico de pastel en referente
a lo anterior tenemos nuestra primera
21
Aplicaremos nuestra función Scatter,
realizando un diagrama de acuerdo
a la edad, la clase y la tarifa entonces
nos arroja este resultado.
22
Bibliografía
Springer: https://link.springer.com/article/10.1007/s40745-020-00253-5
23