Está en la página 1de 12

ESCUELA SUPERIOR POLITÉCNICA DE

CHIMBORAZO

FACULTAD DE INFORMÁTICA Y ELECTRÓNICA


CARRERA DE SOFTWARE

SISTEMAS DE INFORMACIÓN Y PROCESAMIENTO DE DATOS

INFORME DE TAREA No. 8

1. DATOS GENERALES:

TEMA: PERFILADO DE FUENTES DE DATOS

NOMBRE: CÓDIGO:

ARIEL HURTADO 6825

GRUPO No:

FECHA DE ENTREGA: 14/06/2022


2. OBJETIVO

Realizar el perfilado de una fuente de datos utilizando la herramienta de análisis Knime.

3. ACTIVIDADES DESARROLLADAS

• Abrimos knim, seleccionamos y lanzamos nuestro espacio por defecto.

• Creamos un nuevo flujo de trabajo desde la pestaña file y seleccionamos new.

• En la siguiente pantalla elegimos nuevo flujo de trabajo de knime y siguiente.

• Le damos un nombre a nuestro flujo de trabajo (en este caso le daremos el nombre
de la fuente de datos a perfilar) y el destino donde se creará lo dejamos en nuestro
mismo espacio de trabajo luego clic en finalizar para completar su creación.
• En nuestro espacio de trabajo en blanco seleccionaremos un nodo de entrada de
lectura, nuestra fuente al ser un archivo CSV elegiremos el nodo especifico para este
tipo de archivos.

• En principio nuestro nodo estará con un semáforo en rojo lo cual significa que no
esta configurado, para hacerlo realizamos doble clic sobre este.

• Seleccionamos el archivo de nuestra fuente y por el momento dejaremos las


configuraciones por defecto y aplicamos y aceptamos los cambios.
• Elegimos tambien la decodificacion UTF-8 para visualizar de manera correcta los
datos.
• El nodo estará listo para ejecutarse, clic derecho sobre este y lo ejecutamos. Nos
damos cuenta de que ha sido ejecutado exitosamente por el semáforo en color
verde.

• En el repositorio de nodos, el apartado de análisis elegimos un nodo de este tipo.

• Con el semáforo en rojo vemos que aun no esta configurado por lo que enlazaremos
el nodo de lectura de excel de nuestra fuente con este último nodo y vemos que pasa
a un estado para ser ejecutado
• Ejecutamos este nodo con clic derecho sobre él y seleccionamos ejecutar por lo cual
pasara a estae estado ejecutado.

• Para observar las estadisticas de nuestra fuente elegida, clic derecho sobre el nodo
estadistico y seleccionamos ver estadisticas.

4. RESULTADOS OBTENIDOS

• Se nos detecta variables numéricas y nominales o categóricas, en este caso no hay


numéricas ya que todas vienen como cadena por eso es por lo que todas se
encuentran en el grupo de nominales.
• En la pestaña de top/bottom visualizamos el contenido del archivo para saber si hay
nulos o no. Para darnos cuenta si hay datos faltantes (por columna) nos fijamos en el
número de perdidas (No. Missings), en este caso se determina que no existen nulos
en ninguna de las columnas de nuestra fuente, lo cual es un punto positivo.
• Nos damos cuenta también que se presenta los top 20 primeros y los top 20 últimos
y junto a sus valores se encuentra un valor numérico (recordemos que se hace una
revisión por columna y/o variable). Este valor numérico es un conteo de las veces
que se repiten esos valores, el hecho de que nos salga uno es bueno por que quiere
decir que hay valores que no se repiten y que son únicos. Aunque no siempre sea así
resulta interesante tener el valor de 1.
Carreras

Escuelas
Estudiantes

Facultades
Materias

Matriculas
Periodos

Provincias

Sexos
5. CONCLUSIONES

• Al realizar perfiles de datos, las organizaciones pueden gestionar eficazmente la


calidad de su información, con el fin de extraer de manera eficaz información valiosa
y procesable.
• El perfilado de datos se suele abordar en procesos de calidad de Datos, y consiste en
realizar un primer análisis sobre los datos de origen, normalmente sobre tablas, con
el objetivo de empezar a conocer su estructura, formato y nivel de calidad.
• Llevar a cabo una gestión de la calidad de datos adecuada depende de saber cómo
medirla, porque, aunque cada organización es única, existen una serie de medidas
cuantitativas que son universales.

6. RECOMENDACIONES

• Utilizar los recursos audiovisuales sobre la herramienta elegida para la tarea con el
fin de manejarla con mayor soltura.
• Entender la importancia del perfilado de datos nos ayudará en la construcción de
nuestra solución.
• Elegir los nodos de entra/salida acorde al formato de archivo de nuestras fuentes.

También podría gustarte