Está en la página 1de 15

04 DE SEPTIEMBRE 2012POR PINAL DE DAVE

SQL SERVER - Guía paso a paso a partir de


servicios de calidad de datos en SQL Server
2012 - Introducción a DQS
Servicios de calidad de los datos es un concepto muy importante de SQL
Server.Recientemente he comenzado a explorar la misma y realmente estoy aprendiendo
algunos buenos conceptos. Aquí hay dos entradas de blog muy importantes que hay que ir
más antes de continuar esta entrada del blog.
 Instalación de Servicios de Calidad de Datos (DQS) en SQL Server 2012
 Conexión de error a servicios de calidad de datos (DQS) en SQL Server
2012
Este artículo es la introducción de servicios de calidad de datos para los
principiantes.Vamos a utilizar un archivo de Excel
Haga clic en la imagen para ampliar la misma.
En el primer artículo que aprendimos para instalar DQS. En este artículo vamos a ver cómo
podemos aprender acerca de la construcción de Knowledge Base y usarlo para ayudarnos a
identificar la calidad de los datos, así ayudamos a corregir la mala calidad de los datos.
Estos son los dos pasos muy importantes que van a aprender en este tutorial.
 La construcción de una base de nuevos conocimientos
 Creación de un proyecto de calidad de datos nuevo
Comencemos el edificio de la Base de Conocimiento. Haga clic en Nueva base de
conocimientos.

En nuestro proyecto vamos a utilizar el Excel como una base de conocimientos. Aquí está
el Excel que vamos a utilizar. Hay dos columnas. Uno es Colores y otra es Shade. Son
columnas independientes y no relacionados entre sí. El punto que estoy tratando de
demostrar es que en la columna A hay datos únicos y en la columna B se encuentran
registros duplicados.

Al hacer clic en Nueva base de conocimientos se abrirá la siguiente pantalla. Escriba el


nombre de la nueva base de conocimientos.

Al hacer clic en SIGUIENTE abrirá siguiente pantalla donde se le permitirá seleccionar el


archivo EXCE y también permitirá a los usuarios seleccionar la columna de origen. He
seleccionado Colores y sombra tanto como una columna de origen.
Creación de un dominio es muy importante. Aquí usted puede crear un dominio único o
dominio que se compuestamente construir a partir de los colores y de sombra.

Como este es el primer ejemplo, voy a crear dominio único - para los colores crearé
dominio Colores y Shade crearé Shade dominio.
Esta es la pantalla que demostrar cómo la pantalla se verá después de crear dominios.
Al hacer clic en SIGUIENTE que le llevará a siguiente pantalla donde se puede hacer el
descubrimiento de datos. Al hacer clic en el botón START comenzará el procesamiento de
los datos de origen previstas.
Datos de pre-procesado se mostrará diversa información relacionada con los datos de
origen. En nuestro caso se demuestra que la columna Colores tener datos únicos mientras
que Shade tiene datos que no son únicas y filas de datos únicas son sólo dos.

En la siguiente pantalla en realidad se puede añadir más filas y ver la frecuencia de los
datos como los valores se enumeran único.
Al hacer clic en el próximo publicará la base de conocimientos que se acaba de crear.

Ahora se crea la base de conocimientos. Vamos a tratar de tomar los datos al azar y tratar
de hacer la aplicación DQS sobre ella. Estoy usando otra hoja excel aquí por finalidad la
simplicidad. En realidad puede utilizar simplemente tabla de SQL Server para el mismo.
Haga clic en Proyecto de Calidad Nuevos datos para ver empezar DQS Proyecto.

En la siguiente pantalla se le pedirá que Knowledge Base para usar. Nosotros vamos a usar
nuestra base de Colores conocimiento que hemos creado recientemente.
En la base Colores conocimiento que teníamos dos columnas - 1) Colores y 2) Shade. En
nuestro caso vamos a utilizar las dos asignaciones aquí. El usuario puede seleccionar uno o
múltiples asignación de columna aquí.

Ahora la fase más importante de todo el proyecto. Haga clic en Inicio y hará que el proceso
de limpieza y muestra varios resultados.
En nuestro caso había dos columnas para ser procesados y que completaron la tarea con la
información necesaria. Se demostró que en Colores columnas no ha corregido cualquier
valor por sí mismo, sino en el valor de sombra hay una sugerencia que tiene. Podemos
entrenar a los DQS para corregir los valores pero vamos a mantener ese tema para futuras
publicaciones del blog.

Ahora haga clic en siguiente y mantener los dominios Colores seleccionados lado
izquierdo.Se demostrará que hay dos columnas incorrectas que necesita ser
corregido. Aquí es el lugar donde el valor una vez corregido se auto-corregirse en el futuro.
Corregí manualmente el valor aquí y hecho clic en Aprobar botones de radio. Tan pronto
como haga clic en los botones de las filas se desaparecieron de esta ficha aprobar y
moveré al Tab corregido. Si yo hubiera rechazado pestaña hubiera movido las filas a la
ficha no válida también.

En esta pantalla se puede ver cómo se demuestran los corregidos 2 filas. Puede hacer clic
en la pestaña correcta y ver previamente validados 6 filas que pasaron el proceso de DQS.
Ahora vamos clic en el dominio de sombra en el lado izquierdo de la pantalla. Este dominio
muestra detalles muy interesantes, ya que el sistema DQS adivinó la respuesta correcta
como oscuro con un nivel de confianza del 77%. Se trata de un muy alto nivel de confianza
y la observación manual también demuestran que la oscuridad es la respuesta correcta. He
hecho clic en Aprobar y la fila se trasladó a la pestaña corregido.

En la siguiente pantalla DQS muestra el resumen de todas las actividades. También


demuestra cómo se realizó la corrección de la calidad de los datos. El usuario puede
explorar sus datos a una tabla de SQL Server, archivo CSV o Excel.

El usuario también tiene la opción de explorar los datos y toda la información asociada a la
limpieza o datos solamente. Lo seleccionaré de datos sólo para fines de demostración.
Al hacer clic en explorar generará los archivos.

Abramos el archivo generado. Se verá de la siguiente manera y se ve bastante completo y


corregido.
Bueno, hemos terminado con éxito Proceso DQS. El proceso es realmente muy fácil. Le
sugiero que pruebe esto usted y usted encontrará que es muy fácil de aprender. En el
futuro vamos a repasar los conceptos avanzados.
¿Está utilizando esta función en el servidor de producción? En caso afirmativo, ¿podría por
favor deje un comentario con su medio ambiente y la necesidad de la empresa. Será
ciertamente interesante ver donde se aplica.

También podría gustarte