Documentos de Académico
Documentos de Profesional
Documentos de Cultura
En nuestro proyecto vamos a utilizar el Excel como una base de conocimientos. Aquí está
el Excel que vamos a utilizar. Hay dos columnas. Uno es Colores y otra es Shade. Son
columnas independientes y no relacionados entre sí. El punto que estoy tratando de
demostrar es que en la columna A hay datos únicos y en la columna B se encuentran
registros duplicados.
Como este es el primer ejemplo, voy a crear dominio único - para los colores crearé
dominio Colores y Shade crearé Shade dominio.
Esta es la pantalla que demostrar cómo la pantalla se verá después de crear dominios.
Al hacer clic en SIGUIENTE que le llevará a siguiente pantalla donde se puede hacer el
descubrimiento de datos. Al hacer clic en el botón START comenzará el procesamiento de
los datos de origen previstas.
Datos de pre-procesado se mostrará diversa información relacionada con los datos de
origen. En nuestro caso se demuestra que la columna Colores tener datos únicos mientras
que Shade tiene datos que no son únicas y filas de datos únicas son sólo dos.
En la siguiente pantalla en realidad se puede añadir más filas y ver la frecuencia de los
datos como los valores se enumeran único.
Al hacer clic en el próximo publicará la base de conocimientos que se acaba de crear.
Ahora se crea la base de conocimientos. Vamos a tratar de tomar los datos al azar y tratar
de hacer la aplicación DQS sobre ella. Estoy usando otra hoja excel aquí por finalidad la
simplicidad. En realidad puede utilizar simplemente tabla de SQL Server para el mismo.
Haga clic en Proyecto de Calidad Nuevos datos para ver empezar DQS Proyecto.
En la siguiente pantalla se le pedirá que Knowledge Base para usar. Nosotros vamos a usar
nuestra base de Colores conocimiento que hemos creado recientemente.
En la base Colores conocimiento que teníamos dos columnas - 1) Colores y 2) Shade. En
nuestro caso vamos a utilizar las dos asignaciones aquí. El usuario puede seleccionar uno o
múltiples asignación de columna aquí.
Ahora la fase más importante de todo el proyecto. Haga clic en Inicio y hará que el proceso
de limpieza y muestra varios resultados.
En nuestro caso había dos columnas para ser procesados y que completaron la tarea con la
información necesaria. Se demostró que en Colores columnas no ha corregido cualquier
valor por sí mismo, sino en el valor de sombra hay una sugerencia que tiene. Podemos
entrenar a los DQS para corregir los valores pero vamos a mantener ese tema para futuras
publicaciones del blog.
Ahora haga clic en siguiente y mantener los dominios Colores seleccionados lado
izquierdo.Se demostrará que hay dos columnas incorrectas que necesita ser
corregido. Aquí es el lugar donde el valor una vez corregido se auto-corregirse en el futuro.
Corregí manualmente el valor aquí y hecho clic en Aprobar botones de radio. Tan pronto
como haga clic en los botones de las filas se desaparecieron de esta ficha aprobar y
moveré al Tab corregido. Si yo hubiera rechazado pestaña hubiera movido las filas a la
ficha no válida también.
En esta pantalla se puede ver cómo se demuestran los corregidos 2 filas. Puede hacer clic
en la pestaña correcta y ver previamente validados 6 filas que pasaron el proceso de DQS.
Ahora vamos clic en el dominio de sombra en el lado izquierdo de la pantalla. Este dominio
muestra detalles muy interesantes, ya que el sistema DQS adivinó la respuesta correcta
como oscuro con un nivel de confianza del 77%. Se trata de un muy alto nivel de confianza
y la observación manual también demuestran que la oscuridad es la respuesta correcta. He
hecho clic en Aprobar y la fila se trasladó a la pestaña corregido.
El usuario también tiene la opción de explorar los datos y toda la información asociada a la
limpieza o datos solamente. Lo seleccionaré de datos sólo para fines de demostración.
Al hacer clic en explorar generará los archivos.