Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Clase 01 Liempieza de Datos e Importaci N PDF
Clase 01 Liempieza de Datos e Importaci N PDF
Miguel Caballero
Autor del Canal: Excel Free Blog
Fabian Torres
Co-Autor del Libro: Tablas
Dinámicas, La Quinta Dimensión
Excel Free Blog: Es una Canal de YouTube y Blog dedicado a impartir conocimiento de Excel para
aumentar la competitividad en cualquier persona que desee diferenciarse en el mundo empresarial
1
Tabla 1.1
Formato Detalle Extensión
XLSX Hojas de Cálculos de Excel 2007 y Cada formato se identifica
Posteriores. por una serie de letras y/o
números que
XLSM Hojas de Cálculos de Excel 2007 y Posteriores generalmente son 3
Habilitada para macros. caracteres precedidos de
un punto después del
XLSB Hojas Binarias de Excel 2007 y Posteriores nombre.
Habilitada para Macros.
XLTX
Hojas de Cálculo
La función de las
Plantillas de Excel 2007 y Posteriores.
extensiones es poder
XLAM Archivo de Excel 2007 y posteriores para distinguir de qué manera
complementos. esta codificado del
archivo, lo cual es
XLS Hojas de Cálculos Excel 2003, 2002, 2000, 97, fundamental para que el
98 y 4. sistema operativo
disponga del
XLM Libro para macros en Excel 2003, 2002, 2000, procedimiento necesario
97, 98 y 4 (No incluye datos). para poder leerlo,
interpretarlo y ejecutarlo.
XLT Archivo de Plantilla en Excel 2003, 2002, 2000,
97, 98 y 4.
MDB
Base de datos Access 2003 y anteriores.
DB
ACCDB
Base de datos Access 2007 y posteriores.
Continúa….
4 Clase 01 • Limpieza de Datos e Importación
Continuación
Formato Detalle
Las columnas se separan con
CSV Coma y las filas con un retorno de carro.
Archivos de Texto
.1
Obtener Datos Externos Pestaña: [Datos] Grupo: [Obtener Datos Externos] [1.1]
Considere que tiene que importar la tabla de datos en la base de datos Access
AdventureWorks llamada Production_ProductInventory.
Solución
Scroll hasta
ubicar la tabla
Aquí aparecen
todas las tablas en
la base de datos
AdventureWorks Seleccionar la Tabla
Clic en el
botón Aceptar
Continuación
Asegúrese de que
la opción tabla este
seleccionada Si los datos están preparados
puede crear directamente una tabla
o gráfico dinámico.
El botón
(E) Clic en el cuadroAceptar.
de diálogo que parece a continuación nos brinda la
(F) Ahoraopción
la tablade
esubicar la tabla en un rango en específico, por ejemplo
exportada
$D$1
Si el origen cambia,
podemos actualizar
esta tabla para que
detecte los cambios
utilizando el
comando actualizar
todo, que se
encuentra en la
pestaña DATOS o
simplemente
pulsando clic
derecho encima de la
tabla y actualizar
Considere que tiene que importar los datos Abalone Data que se encuentran en
formato CSV
Solución
Ratifique que
únicamente la
casilla Coma este
seleccionada
Contabilidad
Sandra 0.6375988
etiquetas que agrupen filas, figura 1.7, ni filas vacías que Andrés 0.6759436
Dayana 0.5682193
segmenten la tabla, ni tampoco cálculos predefinidos como Camilo 0.517822
Servicio al
Alejandro 0.7808237
Cliente
Angélica 0.9155153
Carlos 0.3051751
Gina 0.1453039
Si bien la tabla puede contener datos vacíos, es recomendable que
se eviten, principalmente para no tener que manipular las funciones de Jorge
Natalia
0.2177068
0.9410365
resume SUMA Y CUENTA en la creación de un reporte de tabla David 0.298831
Procesos
Tatiana 0.0053683
dinámica. Filas figura 1.8 muestra el formato tabular. Victor 0.1470424
Valeria 0.1446448
Alvaro 0.2910655
Especifique los
separadores. Clic en el Botón
Avanzadas
Aceptar y
Finalizar.
análisis porque inflan los resultados obteniendo conclusiones no 6347 92 Guinness $20.35
1212 69 Fat Tire $5.03
muy confiables, por lo anterior en la mayoría de la situaciones se 1212 69 Fat Tire $5.03
7076 62 Pilsner Urquell $4.69
debe eliminar las filas duplicadas. 5115 60 Grolsch $12.70
7181 59 Budweiser $17.78
1212 69 Fat Tire $5.03
Imagine que tiene que eliminar las filas duplicadas en la tabla BeersScore en el
Archivo de Excel Beers. La figura 1.10 la muestra parcialmente
Solución
No Manipulación
Figura 1. 11
Imputación e Imputación Parcial ID Score Beer Price
6347 92 Guinness $20.35
5092 85 Samuel Adams Boston $5.73
La imputación consiste en reemplazar valores faltantes por uno 7646 80 Sierra Nevada $11.61
Eliminación
La técnica de imputación más simple consiste en reducir el
tamaño de los datos, de la muestra, mediante la eliminación de
todas aquellas filas que contienen un valor faltante.
Suponga que sabe que los datos faltantes en la tabla Beers son aleatorios, dado
que son pocos faltantes lo que se pide es su eliminación completa. Figura 1.12
Solución
(A) Convierta la tabla tabular en una tabla estructurada de Excel si esta no
está de esta forma. Pulse la combinación Ctrl + T y Aceptar.
Continúa….
Clase 01 • Limpieza de Datos e Importación 15
Continuación
(B) Ubique el campo que contiene los valores faltantes, allí en la flecha de
selección despliegue las opciones y filtre todos los #N/A
Filtrar por el
campo que
contiene los
valores faltantes
Figura 1. 13 Filtrar todos los valores faltantes, es decir los #N/A, Si utiliza otro carácter,
palabra o frase para denotarlos, entonces, debe filtrar el de su uso.
Continúa….
16 Clase 01 • Limpieza de Datos e Importación
Continuación
(C) Seleccione todas las filas que contienen valores nulos, pulse clic
derecho encima de las etiquetas de filas y clic en eliminar.
Clic derecho
encima de
cualquier número
azul, con esto se
despliega el menú
contextual Clic en eliminar
(D) Por último remueva el filtro (Ctrl+Shift+L). Así, habrá eliminado todos
los registros que contenían valores nulos en el campo Beer
Full Analysis
Interpolación
Consistencia Mayúsculas/Minúsculas
Es una buena práctica, hacer que los textos en las columnas
sean consistente en términos de mayúsculas y minúsculas. Para
lograr esta consistencia Excel brinda las siguientes funciones:
Sumario
Importación
• La Importación de datos es el proceso de extraer datos • Directamente:
desde alguna instancia u origen que los contenga, los
cuales fueron creados con otro programa, o que pertenece Hoja de Cálculo, Beses
a versiones antiguas dataos y Archivos texto
Limpieza
No manipulación
Tareas: Imputación
Formato de Datos Tabular Imputación Parcial
Formato de Columnas Consistente Eliminación
Eliminar Registros Duplicados Full Analysis
Tratamiento de Valores Faltantes Interpolación
Eliminación de Espacios y Caracteres Especiales
Consistencia Mayúscula/Minúscula