Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Dia 1
¡Bienvenido a Kaggle!
Una vez que haya creado una cuenta de Kaggle, será oficialmente un "Kaggler" y se unirá a una
comunidad de más de siete millones de usuarios.
Si aún no ha creado una cuenta de Kaggle, solo le llevará un par de minutos. Haga clic aquí.
Entonces, ¿qué debes hacer primero? Este cuaderno le presentará el sistema de progresión de
Kaggle, que puede utilizar para medir su crecimiento como científico de datos. Subirás de nivel de
"Novato" a "Colaborador" y también realizarás tu primera presentación a una competencia de
Kaggle (¡no se necesita experiencia en programación!).
Esperamos que seguir todos los pasos aquí te lleve aproximadamente 35 minutos.
Kaggle tiene una gran colección de conjuntos de datos que puede usar en sus proyectos de
ciencia de datos. También puede contribuir a la comunidad cargando sus propios
conjuntos de datos.
Los cuadernos son una excelente manera de compartir sus proyectos con la comunidad de
ciencia de datos.
Aquí hay cinco niveles de desempeño en Kaggle: novato, colaborador, experto, maestro
y gran maestro.
Para subir de nivel, la lista de cosas que debe hacer se muestra en la imagen a
continuación.
Completó su perfil, se comprometió con la comunidad y exploró por completo la
plataforma Kaggle.
Si tiene curiosidad sobre lo que deberá hacer para continuar avanzando en el sistema de
progresión (a Experto y, en última instancia, a Gran Maestro), puede acceder a esta
información haciendo clic en Sin clasificar en cualquier parte de su página de perfil.
Iniciar sesión en Kaggle por primera vez puede resultar abrumador. Nuestras
competiciones a menudo tienen grandes premios en efectivo, tablas de clasificación
públicas e involucran datos complejos. Sin embargo, realmente creemos que todos los
científicos de datos pueden aprender rápidamente de las competencias de aprendizaje
automático y contribuir de manera significativa a nuestra comunidad. Para brindarle una
comprensión clara de cómo funciona nuestra plataforma y un modelo mental del tipo de
aprendizaje que podría hacer en Kaggle, hemos creado un tutorial de introducción para la
competencia Titanic. Lo guía a través de los pasos iniciales necesarios para obtener su
primera presentación decente en la tabla de clasificación. Al final del tutorial, también
tendrá un conocimiento sólido de cómo usar el entorno de codificación en línea de Kaggle,
donde habrá entrenado su propio modelo de aprendizaje automático.
Parte 1: Empiece
¡Únete a la competencia!
¡Lo primero que debe hacer es unirse a la competencia! Abra una nueva ventana con la
página de la competencia y haga clic en el botón "Unirse a la competencia", si aún no lo ha
hecho. (Si ve un botón "Enviar predicciones" en lugar de un botón "Unirse a la
competencia", ya se ha unido a la competencia y no es necesario que vuelva a hacerlo).
El reto
La competencia es simple: queremos que uses los datos de los pasajeros del Titanic
(nombre, edad, precio del boleto, etc.) para intentar predecir quién sobrevivirá y quién
morirá.
Los datos
Para ver los datos de la competencia, haga clic en la pestaña Datos en la parte superior de
la página de la competencia. Luego, desplácese hacia abajo para encontrar la lista de
archivos.
Hay tres archivos en los datos: (1) train.csv, (2) test.csv y (3) gender_submission.csv.
(1) train.csv
Por ejemplo, el primer pasajero que aparece en train.csv es el Sr. Owen Harris Braund.
Tenía 22 años cuando murió en el Titanic.
(2) test.csv
Usando los patrones que encuentra en train.csv, debe predecir si los otros 418 pasajeros a
bordo (en test.csv) sobrevivieron.
(3) gender_submission.csv
El archivo gender_submission.csv se proporciona como un ejemplo que muestra cómo
debe estructurar sus predicciones. Predice que todas las pasajeras sobrevivieron y todos
los varones murieron. Sus hipótesis con respecto a la supervivencia probablemente serán
diferentes, lo que conducirá a un archivo de envío diferente. Pero, al igual que este
archivo, su envío debe tener:
una columna "Sobrevivido" (¡que creará usted!) con un "1" para las filas en las que cree
que sobrevivió el pasajero y un "0" donde predice que el pasajero murió.
Parte 2: su entorno de codificación
En esta sección, entrenará su propio modelo de aprendizaje automático para mejorar sus
predicciones. Si nunca antes ha escrito código o no tiene experiencia con el aprendizaje
automático, ¡no se preocupe! No asumimos ninguna experiencia previa en este tutorial.
El cuaderno
Lo primero que debe hacer es crear un cuaderno de Kaggle donde almacenará todo su
código. Puede usar Kaggle Notebooks para comenzar a escribir código rápidamente y sin
tener que instalar nada en su computadora. (Si está interesado en el aprendizaje
profundo, ¡también ofrecemos acceso gratuito a la GPU!)
Comience haciendo clic en la pestaña Código en la página de la competencia. Luego, haga
clic en "Nuevo cuaderno".
Su portátil tardará unos segundos en cargarse. En la esquina superior izquierda, puede ver
el nombre de su cuaderno, algo como "kernel2daed3cd79".
Puede editar el nombre haciendo clic en él. Cámbielo por algo más descriptivo, como
"Introducción a Titanic".
Tus primeras líneas de código¶
Cuando inicia un nuevo cuaderno, tiene dos recuadros grises para almacenar el código.
Nos referimos a estos cuadros grises como "celdas de código".
La primera celda de código ya tiene algo de código. Para ejecutar este código, coloque el
cursor en la celda del código. (Si el cursor está en el lugar correcto, notará una línea
vertical azul a la izquierda del cuadro gris). Luego, presione el botón de reproducción (que
aparece a la izquierda de la línea azul) o presione [Shift ] + [Enter] en su teclado.
Si el código se ejecuta correctamente, se devuelven tres líneas de salida. A continuación,
puede ver el mismo código que acaba de ejecutar, junto con el resultado que debería ver
en su cuaderno.
Esto nos muestra dónde se almacenan los datos de la competencia, para que podamos
cargar los archivos en el portátil. Lo haremos a continuación.
La segunda celda de código en su cuaderno ahora aparece debajo de las tres líneas de
salida con las ubicaciones de los archivos.
Escriba las dos líneas de código a continuación en su segunda celda de código. Luego, una
vez que haya terminado, haga clic en el botón de reproducción azul o presione [Shift] +
[Enter].
Su código debe devolver el resultado anterior, que corresponde a las primeras cinco filas
de la tabla en train.csv. ¡Es muy importante que vea este resultado en su cuaderno antes
de continuar con el tutorial!
Si su código no produce esta salida, verifique que su código sea idéntico a las dos líneas
anteriores. Y asegúrese de que su cursor esté en la celda de código antes de presionar
[Shift] + [Enter].
Una vez que todo el código se ejecuta correctamente, todos los datos (en train.csv y
test.csv) se cargan en el cuaderno. (El código anterior muestra solo las primeras 5 filas de
cada tabla, pero todos los datos están allí: ¡las 891 filas de train.csv y las 418 filas de
test.csv!)
Al principio, puede resultar abrumador buscar patrones, cuando hay tantos datos para
clasificar. Entonces, comenzaremos de manera simple.
Explora un patrón
¿Es esta una primera suposición razonable? Comprobaremos si este patrón se cumple en
los datos (en train.csv).
Copie el siguiente código en una nueva celda de código. Luego, ejecuta la celda.
Pero al final del día, esta presentación basada en el género basa sus predicciones en una
sola columna. Como puede imaginar, al considerar varias columnas, podemos descubrir
patrones más complejos que potencialmente pueden producir predicciones mejor
informadas. Dado que es bastante difícil considerar varias columnas a la vez (o tomaría
mucho tiempo considerar todos los patrones posibles en muchas columnas diferentes
simultáneamente), usaremos el aprendizaje automático para automatizar esto.
Construiremos lo que se conoce como modelo de bosque aleatorio. Este modelo está
construido con varios "árboles" (hay tres árboles en la imagen de abajo, ¡pero
construiremos 100!) Que considerarán individualmente los datos de cada pasajero y
votarán si el individuo sobrevivió. Entonces, el modelo de bosque aleatorio toma una
decisión democrática: ¡el resultado con más votos gana!
La celda de código siguiente busca patrones en cuatro columnas diferentes ("Pclass",
"Sex", "SibSp" y "Parch") de los datos. Construye los árboles en el modelo de bosque
aleatorio basándose en patrones en el archivo train.csv, antes de generar predicciones
para los pasajeros en test.csv. El código también guarda estas nuevas predicciones en un
archivo CSV my_submission.csv.
Asegúrese de que su cuaderno muestre el mismo mensaje anterior (¡Su envío se guardó
correctamente!) Antes de continuar.
Nuevamente, ¡no se preocupe si este código no tiene sentido para usted! Por ahora, nos
centraremos en cómo generar y enviar predicciones.
Una vez que esté listo, haga clic en el botón "Guardar versión" en la esquina superior
derecha de su cuaderno. Esto generará una ventana emergente.
Para hacer un comentario, desplácese hasta la parte inferior del cuaderno, donde
encontrará la sección Comentarios. Si no está seguro de qué publicar, es posible
que desee:
resalte lo que le pareció más útil sobre el cuaderno, o
haga preguntas sobre cualquier cosa que le parezca confusa en el cuaderno.
Cuando intente hacer un comentario, primero se le pedirá que verifique su cuenta por
SMS. Se requiere verificación por SMS para acceder a algunas funciones útiles en
Kaggle, como las horas gratuitas de GPU y TPU de Kaggle.
Esto será útil si decide estudiar el aprendizaje profundo o la visión por computadora.
¡También te permitirá unirte a concursos que otorgan premios en efectivo!
El proceso de verificación por SMS lo llevará a un formulario para enviar su número de
teléfono móvil. Después de leer la página, si desea continuar, complete el formulario.
Luego, se enviará un código de verificación a su número por mensaje de texto. Una vez
que envíe el código correctamente, habrá terminado y ahora puede comentar sobre
Kaggle.
Lo siguiente que debe hacer es dar 1 voto a favor. Para ello, echa un vistazo a los
comentarios que han publicado otros usuarios. Elija uno que le parezca
particularmente útil o perspicaz y haga clic en el ticker a la derecha del comentario
para emitir un voto a favor.
Una vez que haya completado con éxito todas las instrucciones de este cuaderno, será
un colaborador de Kaggle. Si su perfil aún no refleja esto, puede volver a la página de
progresión para determinar qué elementos faltan.
¿Tiene preguntas?
Una vez que esté listo para crear un portafolio de ciencia de datos, puede usar Kaggle
Datasets para inspirarse y Kaggle Notebooks para ejecutar código y compartir su
trabajo con la comunidad.