Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Tutorial Limpieza Datos Final
Tutorial Limpieza Datos Final
SQL SERVER
INTEGRATION SERVICES
2008
LABORATORIOS
Alberto Rivera Tavera
7/19/2010
Tabla de Contenidos
LABORATORIO 1: Exportacin de datos desde SQL Server hacia Excel 15 minutos ......................... 3
LABORATORIO 2: Preparacin de datos en Excel para futuras prcticas de limpieza de datos 5
minutos ...................................................................................................................................10
LABORATORIO 3: Creacin de un nuevo proyecto de integration services, asignando un nombre al
proyecto y otro a la solucin. 5 minutos ....................................................................................12
LABORATORIO 4: Ingreso a la solucin desde el archivo .sln asociado con ella 5 minutos ..............13
LABORATORIO 5: Creacin de un paquete para limpieza de datos 40 minutos .............................14
8. Haga clic derecho sobre DimReseller y seleccione Scrip table as Select to New
Query Editor
10. Presione F5 para ejecutar la sentencia. Observe en la parte inferior los resultados.
11. Copie en algn lugar esta sencilla sentencia, puede ser en un archivo de notepad;
ms adelante la va a necesitar.
12. En Object Explorer haga clic derecho sobre la base de datos
AdventureWorksDW2008 y seleccione Tasks y all Export data
14. Verifique que la fuente de datos sea SQL Native Client, que este escrito el
nombre de la instancia por defecto y que est seleccionada la base de datos
AdventureWorksDW2008; de no ser as modifique los datos para que as sea. Haga
clic en Next
15. Ahora seleccione como destino Microsoft Excel escriba la direccin y nombre del
archivo de Excel que cre y asegrese de chequear el campo que indica que en el
documento, la primera fila indica el nombre de las columnas. Haga clic en Next
16. Seleccione la opcin para escribir una consulta, haga clic en Next
17. Pegue all la sentencia que cre unos pasos atrs, esta sentencia va a traer los 3 tipos
de negocio que existen en la base de datos. Haga clic en Next
18. En Destination, seleccione la hoja de Excel en la cual usted puso las dos
columnas al comienzo de este laboratorio. Luego haga clic en Edit Mapping
19. Complete el mapeo, haciendo que la fuente BusinessType coincida con el campo
Tipo de Negocio de la tabla de Excel. Haga clic en OK y luego en Next
21. Observe el listado de las acciones que va a realizar el asistente cuando usted
finalice, luego haga clic en Finish
3. Ahora, copie los tres registros una y otra vez hacia abajo hasta completar las 20
filas.
5. Ahora simulemos errores de escritura, para datos correctos, para ello modifique
algunos registros de tal manera que sean registros correctos pero con errores de
escritura; por ejemplo:
a. En la fila 5 escriba Value Aded Reseller
(Added)
b. En la fila 10 escriba Specialty Bike Shoop
(Shop)
c. En la fila 15 escriba Warehuose
(Warehouse)
d. En la fila 20 escriba Value Added Reseler
(Reseller)
6. Guarde el documento pues lo necesitara, con estos cambios en los datos, para un
prximo laboratorio.
3. Cierre BIDS
2. Observe que all habr un directorio con el nombre de la solucin, ingrese a ese
directorio.
3. All hay un directorio con el nombre del proyecto; ahora haga clic sobre el archivo
.sln
3. En el panel Connection managers (parte inferior del Control Flow) haga clic
derecho y seleccione New Connection
5. Escriba la ubicacin del archivo de Excel que creo en laboratorios anteriores, revise
que la versin de Excel sea Microsoft Excel 2007 y que este chequeada la opcin
para que la primera fila traiga el nombre de las columnas. Luego haga clic en OK.
12. Haga clic derecho sobre esta tarea y seleccione Rename , cmbiele el nombre a
Limpieza de Datos
13. Arrastre una tarea File System Task y ubquela debajo de la tarea limpieza de
datos
15. Renombre la tarea File System Task como Movimiento del Archivo y el
Sequence Container como Proceso Completo
22. Renombre la fuente de datos de Excel como Archivo a Limpiar y luego haga
doble clic sobre ella.
23. Seleccione la tabla del libro de Excel donde se encuentra la tabla. Luego haga clic a
la izquierda en Columns
24. Observe que aqu estn las columnas que usted cre. Haga clic en OK
25. Ahora arrastre un destino de flujo de datos Data Reader destination y pngalo
justo debajo de Archivo a Limpiar, luego conctelos.
26. Haga clic derecho sobre el conector que une la fue nte con el destino y seleccione
Data Viewers
29. Observe que all ya se encuentran las columnas del archivo de Excel, haga clic en
OK y luego de nuevo en OK
30. Haga clic derecho sobre la superficie de trabajo y seleccione Execute Task
31. All aparece el Data Viewer mostrando los datos que estn pasando por all, esta
caracterstica de SSIS nos va a ser de gran utilidad ms adelante, en el proceso de
limpieza de datos.
32.
33. Haga clic en el botn run (el botn verde en la parte superior izquierda del Data
Viewer)
34. Cierre el Data Viewer
35. El pequeo flujo de datos se ha ejecutado, sin embargo hasta ac solamente hemos
visto que podemos sacar los datos del archivo de Excel.
36. Detenga el paquete, para ello, en la parte superior est el botn Stop Debugging,
haga clic sobre l.
39. Busque la tabla dbo.DimReseller como tabla de referencia y luego vaya al tab
Columns
40. Haga clic sobre Tipo de Negocio y arrastre hasta BusinessType, luego chequee el
campo BusinessType. Y haga clic en OK
44. Observe muy bien el DataViewer, se ha generado una columna adicional que nos
muestra que tan parecido es (entre 0 y 1) un campo con el otro. Observe que los
campos 6 y 16 estan por debajo del 50 % de similaridad, mientras que los campos 5,
10, 15 y 20, en los cuales el problema es un error de digitacin, pero son datos
correctos se encuentran por encima de 75 % y la mayora de ellos muy cercanos al
100%; el proceso de limpieza de datos debera recibir a estos datos como correctos
y adems debera corregir los errores de digitacin que hay en ellos. Haga clic en el
botn Rundel dataViewer y luego cirrelo.
48. Edite el texto de la condicin escribiendo a la derecha del campo que acaba de
arrastrar el siguiente texto: >0.7 , observe que si usted escribiera una expresin
errnea, esta tomara un color rojo automticamente.
49. Cambie el texto Case 1 y escriba en vez de el Datos Correctos, Luego cambie el
campo Default output name y escriba all datos incorrectos. Luego haga clic en
OK
50. Arrastre dos destinos DataReaderDestination y pngalos debajo de CorrectosIncorrectos; Conecte el primero de ellos como lo ha hecho siempre
51. Aparecer una ventana para que seleccione cul de las salidas de la transformacin
desea enviar a ese destino, seleccione Datos Correctos y haga clic en OK, luego
conecte el otro destino a la otra salida de la transformacin.
55. Haga clic derecho sobre el contenedor Proceso Completo y seleccione Execute
Container
Alberto Rivera
http://www.intermezzo-bi.com/alberto