Tarea - Perfilado de Las Fuentes de Datos

ESCUELA SUPERIOR POLITÉCNICA DE
CHIMBORAZO
FACULTAD DE INFORMÁTICA Y ELECTRÓNICA

CARRERA DE SOFTWARE
SISTEMAS DE INFORMACIÓN Y PROCESAMIENTO DE DATOS
INFORME DE TAREA No. 8
1. DATOS GENERALES:
TEMA: PERFILADO DE FUENTES DE DATOS
NOMBRE: CÓDIGO:
ARIEL HURTADO 6825
GRUPO No:
FECHA DE ENTREGA: 14/06/2022

2. OBJETIVO
Realizar el perfilado de una fuente de datos utilizando la herramienta de análisis Knime.
3. ACTIVIDADES DESARROLLADAS
• Abrimos knim, seleccionamos y lanzamos nuestro espacio por defecto.
• Creamos un nuevo flujo de trabajo desde la pestaña file y seleccionamos new.
• En la siguiente pantalla elegimos nuevo flujo de trabajo de knime y siguiente.
• Le damos un nombre a nuestro flujo de trabajo (en este caso le daremos el nombre
de la fuente de datos a perfilar) y el destino donde se creará lo dejamos en nuestro
mismo espacio de trabajo luego clic en finalizar para completar su creación.
• En nuestro espacio de trabajo en blanco seleccionaremos un nodo de entrada de
lectura, nuestra fuente al ser un archivo CSV elegiremos el nodo especifico para este
tipo de archivos.
• En principio nuestro nodo estará con un semáforo en rojo lo cual significa que no
esta configurado, para hacerlo realizamos doble clic sobre este.
• Seleccionamos el archivo de nuestra fuente y por el momento dejaremos las

configuraciones por defecto y aplicamos y aceptamos los cambios.
• Elegimos tambien la decodificacion UTF-8 para visualizar de manera correcta los
datos.
• El nodo estará listo para ejecutarse, clic derecho sobre este y lo ejecutamos. Nos
damos cuenta de que ha sido ejecutado exitosamente por el semáforo en color
verde.
• En el repositorio de nodos, el apartado de análisis elegimos un nodo de este tipo.
• Con el semáforo en rojo vemos que aun no esta configurado por lo que enlazaremos
el nodo de lectura de excel de nuestra fuente con este último nodo y vemos que pasa
a un estado para ser ejecutado
• Ejecutamos este nodo con clic derecho sobre él y seleccionamos ejecutar por lo cual
pasara a estae estado ejecutado.
• Para observar las estadisticas de nuestra fuente elegida, clic derecho sobre el nodo
estadistico y seleccionamos ver estadisticas.
4. RESULTADOS OBTENIDOS
• Se nos detecta variables numéricas y nominales o categóricas, en este caso no hay

numéricas ya que todas vienen como cadena por eso es por lo que todas se
encuentran en el grupo de nominales.
• En la pestaña de top/bottom visualizamos el contenido del archivo para saber si hay
nulos o no. Para darnos cuenta si hay datos faltantes (por columna) nos fijamos en el
número de perdidas (No. Missings), en este caso se determina que no existen nulos
en ninguna de las columnas de nuestra fuente, lo cual es un punto positivo.
• Nos damos cuenta también que se presenta los top 20 primeros y los top 20 últimos
y junto a sus valores se encuentra un valor numérico (recordemos que se hace una
revisión por columna y/o variable). Este valor numérico es un conteo de las veces
que se repiten esos valores, el hecho de que nos salga uno es bueno por que quiere
decir que hay valores que no se repiten y que son únicos. Aunque no siempre sea así
resulta interesante tener el valor de 1.
Carreras
Escuelas
Estudiantes
Facultades
Materias
Matriculas
Periodos
Provincias
Sexos
5. CONCLUSIONES
• Al realizar perfiles de datos, las organizaciones pueden gestionar eficazmente la

calidad de su información, con el fin de extraer de manera eficaz información valiosa
y procesable.
• El perfilado de datos se suele abordar en procesos de calidad de Datos, y consiste en
realizar un primer análisis sobre los datos de origen, normalmente sobre tablas, con
el objetivo de empezar a conocer su estructura, formato y nivel de calidad.
• Llevar a cabo una gestión de la calidad de datos adecuada depende de saber cómo
medirla, porque, aunque cada organización es única, existen una serie de medidas
cuantitativas que son universales.
6. RECOMENDACIONES
• Utilizar los recursos audiovisuales sobre la herramienta elegida para la tarea con el
fin de manejarla con mayor soltura.
• Entender la importancia del perfilado de datos nos ayudará en la construcción de
nuestra solución.
• Elegir los nodos de entra/salida acorde al formato de archivo de nuestras fuentes.

Tarea - Perfilado de Las Fuentes de Datos

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Tarea - Perfilado de Las Fuentes de Datos

Cargado por

Copyright:

Formatos disponibles

ESCUELA SUPERIOR POLITÉCNICA DE

FACULTAD DE INFORMÁTICA Y ELECTRÓNICA

SISTEMAS DE INFORMACIÓN Y PROCESAMIENTO DE DATOS

INFORME DE TAREA No. 8

TEMA: PERFILADO DE FUENTES DE DATOS

ARIEL HURTADO 6825

FECHA DE ENTREGA: 14/06/2022

Realizar el perfilado de una fuente de datos utilizando la herramienta de análisis Knime.

• Abrimos knim, seleccionamos y lanzamos nuestro espacio por defecto.

• Creamos un nuevo flujo de trabajo desde la pestaña file y seleccionamos new.

• En la siguiente pantalla elegimos nuevo flujo de trabajo de knime y siguiente.

• Seleccionamos el archivo de nuestra fuente y por el momento dejaremos las

• En el repositorio de nodos, el apartado de análisis elegimos un nodo de este tipo.

• Se nos detecta variables numéricas y nominales o categóricas, en este caso no hay

• Al realizar perfiles de datos, las organizaciones pueden gestionar eficazmente la

También podría gustarte