Está en la página 1de 4

BIG DATA 5 - Introducción a la utilización práctica de los datos masivos

Proyecto Capstone

Informe final
Instrucciones:
- Completa este documento siguiendo las indicaciones que os damos en cursivas y entre
líneas, utilizando lo que habéis ido haciendo en las semanas anteriores.
- El contenido de este informe tiene que ser una elaboración personal, no puede ser una copia
exacta del material del curso.
- Borra las frases en cursiva con las instrucciones antes de acabar el informe.
- El informe final tiene que ser un único documento, que incluya las tablas y las gráficas
necesarias. Puedes copiar las imágenes de tu notebook y pegarlas en este documento.
- Una vez completado, guarda el informe en formato PDF. Recuerda: No se admite la entrega
de más de un fichero o de formato distinto de PDF.

1. Objetivo del proyecto


El objetivo de este proyecto capstone es … Completa (no más de 2 o 3 frases)

2. Criterio de clasificación de las galaxias

2.1 La galáxias se pueden clasificar por su forma en …. Describe el criterio de


clasificación de galaxias por su forma, tal y como se van a clasificar en este proyecto (cómo se
diferencian?).

Para distinguirlas se usan los siguientes criterios: …

Utiliza una o dos frases para explicar cuál es al menos una de las dificultades en aplicar este tipo de
clasificación de forma automática.

3. Descripción de los datos y las herramientas usadas

3.1 Para este proyecto tenemos a disposición los siguientes ficheros de parámetros:

Completa la tabla con nombre de fichero, formato y descripción del contenido. Utiliza la información y
el trabajo hecho en la semana 1.

Fichero Formato Descripción

1
3.2 Las herramientas informáticas utilizadas son:
Completa la tabla con el nombre y descripción de las herramientas usadas para llevar a cabo el
proyecto. Escribe para qué se han usado (exploración de …, filtrado, etc...).

Herramienta Descripción Usada para

4. Exploración de los datos

La exploración de los datos con los parámetros de los objetos observados ha dato el
siguiente resultado:

Por cada uno de los ficheros de parámetros proporcionados (los mismos de la lista en la sección 3),
escribe el nombre del fichero, el número de elementos y el tamaño, y en las observaciones escribe si
el contenido de los datos es válido, o si contiene valores no utilizables, o repetidos, o cualquier otra
cosa interesante que hayas descubierto con la exploración. Añade más filas si las necesitas.

Fichero n. de elementos/ Observaciones


tamaño

Escribe qué información comparten los ficheros y cómo se puede conectar entre sí (a través campos
en común).

5. Modelización de los datos de voto

La normalización del modelos de datos se hace para … (escribe porque se ejecuta la


normalización de los datos)

5.2 Modelo normalizado

Describe el modelo con los datos de votos (tablas con nombre de los campos, el tipo y la
descripción), identificando las claves primarias y las conexiones entre ellas.

Nombre de la tabla: ...

Descripción: ...

2
Nombre Tipo Descripción

(puedes crear cuantas tablas necesites)

6. Exploración de los datos de voto

Utiliza los notebooks y los ejercicios que hiciste para la semana 3.

6.1 De la exploración de los datos de voto podemos comprobar que … (indica el


objetivo por el que es necesario explorar los datos de votos antes de empezar a trabajar con ellos )

6.2 Gráficos (Poner los 4 gráficos de: distribución de usuarios por País y por edad, distribución de
votos por País y por edad. En cada uno escribir una frase identificando picos y/o tendencias, o
cualquier otra cosa interesante.)

7.Creación del clasificador

Completa esta sección, según el contenido y el trabajo hecho en la semana 4.

7.1 Los datos usados para crear el clasificador son … (descripción del contenido)

Se han reunidos en una misma tabla con las siguientes características:.. . (nombre y
descripción de los campos, número de entradas final)

PCA

7.2 Antes de empezar, aplicamos el método PCA para … (escribe el objetivo de aplicar la
PCA a los datos)

Desde el análisis de los … componentes conservados se ve que … (completa la frase,


pon el número de componentes seleccionadas).

7.3 Análisis de los componentes conservados (completa esta sección con el gráfico
correspondiente)

Regresión Logística

7.4 Para entrenar un algoritmo de clasificación hay que separar el conjunto de datos en …

cada uno con … (poner el nombre de los grupos en que se han dividido los datos y el porcentaje de
datos de cada grupo)

7.5 El algoritmo de clasificación se ha preparado en el siguiente modo: … (describir


brevemente los pasos ejecutados)

7.6 Se obtiene un porcentaje de acierto de … (poner el valor con el porcentaje de acierto)

La curva ROC indica que … (pon el gráfico y completa la frase que comente el resultado)

8. Redes neuronales

3
8.1 Las redes neuronales son unos de los algoritmos más utilizados para … y por este
motivo lo hemos aplicado a … con el objetivo de obtener … (completa la frase)

8.2 Las características de la red neuronal que vamos a utilizar son:

Capas: ...(escribe una frase que indique cuántas capas y el número de nodos por capa utilizados
para configurar la red neuronal)

Resultado: (escribe una frase con el porcentaje de aciertos)

9. Conclusiones

Escribe una frase que explique cuál de los clasificadores es lo suficientemente bueno (o no) para el
objetivo de este trabajo y porqué.

Escribe una o dos frases explicando cómo se podría mejorar, si necesitas más información y de qué
tipo, etcétera.

También podría gustarte