Está en la página 1de 21

Competencia phyton

Dia 1

¡Bienvenido a Kaggle!

Una vez que haya creado una cuenta de Kaggle, será oficialmente un "Kaggler" y se unirá a una
comunidad de más de siete millones de usuarios.

Si aún no ha creado una cuenta de Kaggle, solo le llevará un par de minutos. Haga clic aquí.

Entonces, ¿qué debes hacer primero? Este cuaderno le presentará el sistema de progresión de
Kaggle, que puede utilizar para medir su crecimiento como científico de datos. Subirás de nivel de
"Novato" a "Colaborador" y también realizarás tu primera presentación a una competencia de
Kaggle (¡no se necesita experiencia en programación!).

Esperamos que seguir todos los pasos aquí te lleve aproximadamente 35 minutos.

Paso 1: su perfil de Kaggle [2 minutos]

Navegue a su perfil de Kaggle visitando kaggle.com/me. Si aún no ha hecho mucho en Kaggle, la


página se verá similar a la captura de pantalla a continuación.
Verá cuatro cuadros que dicen Competitions Novice, Datasets Novice, Notebooks Novice y
Discussion Novice. Cada uno de los cuadros se asigna a un tipo diferente de actividad que puede
realizar en Kaggle:

 A través de concursos, puede presentar soluciones a los problemas de ciencia de datos


que plantean empresas como Santander y Zillow. También puede colaborar con otros
Kaggler, y las mejores soluciones a menudo reciben grandes premios en efectivo.

 Kaggle tiene una gran colección de conjuntos de datos que puede usar en sus proyectos de
ciencia de datos. También puede contribuir a la comunidad cargando sus propios
conjuntos de datos.

 Los cuadernos son una excelente manera de compartir sus proyectos con la comunidad de
ciencia de datos.

 Puede contribuir al debate de la comunidad planteando preguntas o proporcionando


respuestas a otros Kagglers.

Puede contribuir al debate de la comunidad planteando preguntas o respuestas a otros Kagglers.

Paso 2: progresión de Kaggle [5 minutos]

Aquí hay cinco niveles de desempeño en Kaggle: novato, colaborador, experto, maestro
y gran maestro.

La buena noticia es que subir de nivel de principiante a colaborador es rápido y fácil.


¡Esto es lo que harás hoy!

Para subir de nivel, la lista de cosas que debe hacer se muestra en la imagen a
continuación.
Completó su perfil, se comprometió con la comunidad y exploró por completo la
plataforma Kaggle.

 ejecutar 1 cuaderno o secuencia de comandos


 Realiza 1 presentación de competencia o tarea
 Hacer 1 comentario
 dar 1 voto a favor

Si tiene curiosidad sobre lo que deberá hacer para continuar avanzando en el sistema de
progresión (a Experto y, en última instancia, a Gran Maestro), puede acceder a esta
información haciendo clic en Sin clasificar en cualquier parte de su página de perfil.

Esto lo llevará a kaggle.com/progression. Puede leer esta página ahora, si lo desea. Si


prefiere revisar esta información más adelante, puede pasar a la siguiente sección con
seguridad.

Paso 3: Enviar a Titanic [20 minutos]

Primero, ejecutará un cuaderno y realizará una presentación de la competencia (los dos


primeros elementos de la lista). Para hacer esto, siga las instrucciones en este cuaderno.

El portátil no asume ningún trasfondo de programación, por lo que aún podrá


completarlo, si es completamente nuevo en la ciencia de datos.

Tutorial del Titanic

Iniciar sesión en Kaggle por primera vez puede resultar abrumador. Nuestras
competiciones a menudo tienen grandes premios en efectivo, tablas de clasificación
públicas e involucran datos complejos. Sin embargo, realmente creemos que todos los
científicos de datos pueden aprender rápidamente de las competencias de aprendizaje
automático y contribuir de manera significativa a nuestra comunidad. Para brindarle una
comprensión clara de cómo funciona nuestra plataforma y un modelo mental del tipo de
aprendizaje que podría hacer en Kaggle, hemos creado un tutorial de introducción para la
competencia Titanic. Lo guía a través de los pasos iniciales necesarios para obtener su
primera presentación decente en la tabla de clasificación. Al final del tutorial, también
tendrá un conocimiento sólido de cómo usar el entorno de codificación en línea de Kaggle,
donde habrá entrenado su propio modelo de aprendizaje automático.

Entonces, si esta es la primera vez que participa en una competencia de Kaggle,


independientemente de si:

 tener experiencia en el manejo de grandes conjuntos de datos,


 no he hecho mucha codificación,
 son más nuevos en la ciencia de datos, o
 tienen relativamente experiencia (pero no están familiarizados con la plataforma
de Kaggle),

estás en el lugar correcto!

Parte 1: Empiece

En esta sección, aprenderá más sobre la competencia y realizará su primera presentación.

¡Únete a la competencia!

¡Lo primero que debe hacer es unirse a la competencia! Abra una nueva ventana con la
página de la competencia y haga clic en el botón "Unirse a la competencia", si aún no lo ha
hecho. (Si ve un botón "Enviar predicciones" en lugar de un botón "Unirse a la
competencia", ya se ha unido a la competencia y no es necesario que vuelva a hacerlo).

El reto
La competencia es simple: queremos que uses los datos de los pasajeros del Titanic
(nombre, edad, precio del boleto, etc.) para intentar predecir quién sobrevivirá y quién
morirá.

Los datos

Para ver los datos de la competencia, haga clic en la pestaña Datos en la parte superior de
la página de la competencia. Luego, desplácese hacia abajo para encontrar la lista de
archivos.

Hay tres archivos en los datos: (1) train.csv, (2) test.csv y (3) gender_submission.csv.

(1) train.csv

train.csv contiene los detalles de un subconjunto de pasajeros a bordo (891 pasajeros,


para ser exactos, donde cada pasajero tiene una fila diferente en la tabla). Para investigar
estos datos, haga clic en el nombre del archivo a la izquierda de la pantalla. Una vez que
haya hecho esto, puede ver todos los datos en la ventana.

Los valores de la segunda columna ("Sobrevivido") se pueden utilizar para determinar si


cada pasajero sobrevivió o no:

si es un "1", el pasajero sobrevivió.


si es un "0", el pasajero murió.

Por ejemplo, el primer pasajero que aparece en train.csv es el Sr. Owen Harris Braund.
Tenía 22 años cuando murió en el Titanic.

(2) test.csv

Usando los patrones que encuentra en train.csv, debe predecir si los otros 418 pasajeros a
bordo (en test.csv) sobrevivieron.

Haga clic en test.csv (a la izquierda de la pantalla) para examinar su contenido. Tenga en


cuenta que test.csv no tiene una columna "Sobrevivido"; esta información está oculta para
usted, y lo bien que lo haga en la predicción de estos valores ocultos determinará su
puntuación en la competencia.

(3) gender_submission.csv
El archivo gender_submission.csv se proporciona como un ejemplo que muestra cómo
debe estructurar sus predicciones. Predice que todas las pasajeras sobrevivieron y todos
los varones murieron. Sus hipótesis con respecto a la supervivencia probablemente serán
diferentes, lo que conducirá a un archivo de envío diferente. Pero, al igual que este
archivo, su envío debe tener:

una columna "PassengerId" que contiene los ID de cada pasajero de test.csv.

una columna "Sobrevivido" (¡que creará usted!) con un "1" para las filas en las que cree
que sobrevivió el pasajero y un "0" donde predice que el pasajero murió.
Parte 2: su entorno de codificación

En esta sección, entrenará su propio modelo de aprendizaje automático para mejorar sus
predicciones. Si nunca antes ha escrito código o no tiene experiencia con el aprendizaje
automático, ¡no se preocupe! No asumimos ninguna experiencia previa en este tutorial.

El cuaderno

Lo primero que debe hacer es crear un cuaderno de Kaggle donde almacenará todo su
código. Puede usar Kaggle Notebooks para comenzar a escribir código rápidamente y sin
tener que instalar nada en su computadora. (Si está interesado en el aprendizaje
profundo, ¡también ofrecemos acceso gratuito a la GPU!)
Comience haciendo clic en la pestaña Código en la página de la competencia. Luego, haga
clic en "Nuevo cuaderno".

Su portátil tardará unos segundos en cargarse. En la esquina superior izquierda, puede ver
el nombre de su cuaderno, algo como "kernel2daed3cd79".

Puede editar el nombre haciendo clic en él. Cámbielo por algo más descriptivo, como
"Introducción a Titanic".
Tus primeras líneas de código¶

Cuando inicia un nuevo cuaderno, tiene dos recuadros grises para almacenar el código.
Nos referimos a estos cuadros grises como "celdas de código".

La primera celda de código ya tiene algo de código. Para ejecutar este código, coloque el
cursor en la celda del código. (Si el cursor está en el lugar correcto, notará una línea
vertical azul a la izquierda del cuadro gris). Luego, presione el botón de reproducción (que
aparece a la izquierda de la línea azul) o presione [Shift ] + [Enter] en su teclado.
Si el código se ejecuta correctamente, se devuelven tres líneas de salida. A continuación,
puede ver el mismo código que acaba de ejecutar, junto con el resultado que debería ver
en su cuaderno.

Esto nos muestra dónde se almacenan los datos de la competencia, para que podamos
cargar los archivos en el portátil. Lo haremos a continuación.

Cargar los datos

La segunda celda de código en su cuaderno ahora aparece debajo de las tres líneas de
salida con las ubicaciones de los archivos.
Escriba las dos líneas de código a continuación en su segunda celda de código. Luego, una
vez que haya terminado, haga clic en el botón de reproducción azul o presione [Shift] +
[Enter].

Su código debe devolver el resultado anterior, que corresponde a las primeras cinco filas
de la tabla en train.csv. ¡Es muy importante que vea este resultado en su cuaderno antes
de continuar con el tutorial!

Si su código no produce esta salida, verifique que su código sea idéntico a las dos líneas
anteriores. Y asegúrese de que su cursor esté en la celda de código antes de presionar
[Shift] + [Enter].

El código que acaba de escribir está en el lenguaje de programación Python. Utiliza un


"módulo" de Python llamado pandas (abreviado como pd) para cargar la tabla desde el
archivo train.csv en el cuaderno. Para hacer esto, necesitábamos ingresar la ubicación del
archivo (que vimos era /kaggle/input/titanic/train.csv).
Si aún no está familiarizado con Python (y pandas), el código no debería tener sentido
para usted, ¡pero no se preocupe! El objetivo de este tutorial es (¡rápidamente!) Hacer su
primera presentación a la competencia. Al final del tutorial, sugerimos recursos para
continuar con su aprendizaje.

En este punto, debe tener al menos tres celdas de código en su cuaderno.

Copie el código a continuación en la tercera celda de código de su computadora portátil


para cargar el contenido del archivo test.csv. ¡No olvide hacer clic en el botón de
reproducción (o presione [Shift] + [Enter])!

Como antes, asegúrese de ver el resultado anterior en su computadora portátil antes de


continuar.

Una vez que todo el código se ejecuta correctamente, todos los datos (en train.csv y
test.csv) se cargan en el cuaderno. (El código anterior muestra solo las primeras 5 filas de
cada tabla, pero todos los datos están allí: ¡las 891 filas de train.csv y las 418 filas de
test.csv!)

Parte 3: Tu primer envío


Recuerde nuestro objetivo: queremos encontrar patrones en train.csv que nos ayuden a
predecir si los pasajeros de test.csv sobrevivieron.

Al principio, puede resultar abrumador buscar patrones, cuando hay tantos datos para
clasificar. Entonces, comenzaremos de manera simple.

Explora un patrón

Recuerde que el archivo de envío de muestra en gender_submission.csv asume que todas


las pasajeras sobrevivieron (y todos los varones murieron).

¿Es esta una primera suposición razonable? Comprobaremos si este patrón se cumple en
los datos (en train.csv).

Copie el siguiente código en una nueva celda de código. Luego, ejecuta la celda.

Antes de continuar, asegúrese de que su código devuelva el resultado anterior. El código


anterior calcula el porcentaje de mujeres pasajeras (en train.csv) que sobrevivieron.

Luego, ejecute el siguiente código en otra celda de código:

El código anterior calcula el porcentaje de pasajeros masculinos (en train.csv) que


sobrevivieron.
De esto se puede ver que casi el 75% de las mujeres a bordo sobrevivieron, mientras que
solo el 19% de los hombres vivieron para contarlo. Dado que el género parece ser un
indicador tan fuerte de supervivencia, el archivo de envío en gender_submission.csv no es
una mala primera suposición.

Pero al final del día, esta presentación basada en el género basa sus predicciones en una
sola columna. Como puede imaginar, al considerar varias columnas, podemos descubrir
patrones más complejos que potencialmente pueden producir predicciones mejor
informadas. Dado que es bastante difícil considerar varias columnas a la vez (o tomaría
mucho tiempo considerar todos los patrones posibles en muchas columnas diferentes
simultáneamente), usaremos el aprendizaje automático para automatizar esto.

Tu primer modelo de aprendizaje automático

Construiremos lo que se conoce como modelo de bosque aleatorio. Este modelo está
construido con varios "árboles" (hay tres árboles en la imagen de abajo, ¡pero
construiremos 100!) Que considerarán individualmente los datos de cada pasajero y
votarán si el individuo sobrevivió. Entonces, el modelo de bosque aleatorio toma una
decisión democrática: ¡el resultado con más votos gana!
La celda de código siguiente busca patrones en cuatro columnas diferentes ("Pclass",
"Sex", "SibSp" y "Parch") de los datos. Construye los árboles en el modelo de bosque
aleatorio basándose en patrones en el archivo train.csv, antes de generar predicciones
para los pasajeros en test.csv. El código también guarda estas nuevas predicciones en un
archivo CSV my_submission.csv.

Copie este código en su cuaderno y ejecútelo en una nueva celda de código.

Asegúrese de que su cuaderno muestre el mismo mensaje anterior (¡Su envío se guardó
correctamente!) Antes de continuar.

Nuevamente, ¡no se preocupe si este código no tiene sentido para usted! Por ahora, nos
centraremos en cómo generar y enviar predicciones.

Una vez que esté listo, haga clic en el botón "Guardar versión" en la esquina superior
derecha de su cuaderno. Esto generará una ventana emergente.

 Asegúrese de que la opción "Guardar y ejecutar todo" esté seleccionada y luego


haga clic en el botón "Guardar".
 Esto genera una ventana en la esquina inferior izquierda del cuaderno. Una vez
que haya terminado de ejecutarse, haga clic en el número a la derecha del botón
"Guardar versión". Esto abre una lista de versiones a la derecha de la pantalla.
Haga clic en los puntos suspensivos (...) a la derecha de la versión más reciente y
seleccione Abrir en el visor.
 Haga clic en la pestaña Salida a la derecha de la pantalla. Luego, haga clic en el
botón "Enviar a la competencia" para enviar sus resultados.
¡Felicitaciones por hacer su primer envío a una competencia de Kaggle! En diez
minutos, debería recibir un mensaje que le indicará su lugar en la tabla de
clasificación. ¡Buen trabajo!
Paso 4: haz un comentario [7 minutos]
Ahora es el momento de hacer un comentario. Para comenzar, regrese al cuaderno
de la sección anterior haciendo clic aquí.

Para hacer un comentario, desplácese hasta la parte inferior del cuaderno, donde
encontrará la sección Comentarios. Si no está seguro de qué publicar, es posible
que desee:
 resalte lo que le pareció más útil sobre el cuaderno, o
 haga preguntas sobre cualquier cosa que le parezca confusa en el cuaderno.

Si se siente cómodo, también puede ofrecer sugerencias para ampliar el trabajo.

Cuando intente hacer un comentario, primero se le pedirá que verifique su cuenta por
SMS. Se requiere verificación por SMS para acceder a algunas funciones útiles en
Kaggle, como las horas gratuitas de GPU y TPU de Kaggle.

Esto será útil si decide estudiar el aprendizaje profundo o la visión por computadora.
¡También te permitirá unirte a concursos que otorgan premios en efectivo!
El proceso de verificación por SMS lo llevará a un formulario para enviar su número de
teléfono móvil. Después de leer la página, si desea continuar, complete el formulario.
Luego, se enviará un código de verificación a su número por mensaje de texto. Una vez
que envíe el código correctamente, habrá terminado y ahora puede comentar sobre
Kaggle.

Paso 5: Dar un voto a favor [1 minuto]

Lo siguiente que debe hacer es dar 1 voto a favor. Para ello, echa un vistazo a los
comentarios que han publicado otros usuarios. Elija uno que le parezca
particularmente útil o perspicaz y haga clic en el ticker a la derecha del comentario
para emitir un voto a favor.

¡Felicitaciones por dar sus primeros pasos en Kaggle!

¿Aún no eres colaborador?

Una vez que haya completado con éxito todas las instrucciones de este cuaderno, será
un colaborador de Kaggle. Si su perfil aún no refleja esto, puede volver a la página de
progresión para determinar qué elementos faltan.

¿Tiene preguntas?

Si tiene alguna pregunta sobre el sistema de progresión de Kaggle, puede comunicarse


con la comunidad para obtener ayuda publicando en el foro Getting Started. Para
hacer esto, haga clic en [+ Nuevo tema] en la parte superior derecha de la página.
¿Que sigue?

Si participa en el programa 30 Days of ML y accede a este cuaderno el primer día, ¡su


trabajo está hecho por hoy! Mañana, recibirá un correo electrónico con su próxima
tarea.

Si no se ha inscrito en el programa 30 Days of ML y tiene curiosidad por saber qué


hacer a continuación, Kaggle tiene mucho que ofrecer, a medida que continúa
progresando como científico de datos.

Si recién está aprendiendo ciencia de datos, le recomendamos que consulte nuestros


cursos para principiantes en Kaggle Learn. Los cursos son gratuitos y duran solo unas
horas. Cada lección tiene un ejercicio de programación práctico, donde escribirás
código para analizar datos.

Para aplicar lo que ha aprendido a un problema de la vida real y aprender nuevas


técnicas junto con otros Kagglers, consulte Competencias de Kaggle.

Una vez que esté listo para crear un portafolio de ciencia de datos, puede usar Kaggle
Datasets para inspirarse y Kaggle Notebooks para ejecutar código y compartir su
trabajo con la comunidad.

También podría gustarte