Está en la página 1de 19

Excel Edición

Mini-Curso: Analizando Datos 2015


con Microsoft Excel 2013

Clase 01: Limpieza de Datos e Importación


www.excelfree.weebly.com

Miguel Caballero
Autor del Canal: Excel Free Blog

Fabian Torres
Co-Autor del Libro: Tablas
Dinámicas, La Quinta Dimensión

Excel Free Blog: Es una Canal de YouTube y Blog dedicado a impartir conocimiento de Excel para
aumentar la competitividad en cualquier persona que desee diferenciarse en el mundo empresarial
1

Esta Página fue dejada en blanco intencionalmente


2 Clase 01 • Limpieza de Datos e Importación

1.1 Importación de datos

Antes de poder limpiar los datos para posteriormente hacer un


análisis, es necesario generarlos. La recolección de datos hoy por
hoy se hace de una cantidad inimaginable de maneras y es
mérito para un curso completo sobre ello, no obstante, lo que
es importante, lo que está en el corazón del tema, es como
obtener datos que se encuentren codificados en distintos
formatos a una hoja de cálculo de Excel.

La Importación de datos es el proceso de extraer datos desde


Formato alguna instancia u origen que los contenga, los cuales fueron
La manera en la cual se
creados con otro programa, o que pertenece a versiones
codifica un archivo para antiguas, o que fueron generados por la misma versión en un
que el sistema operativo momento previo y no están disponible en el documento actual.
o S.O lo pueda leer, se
denomina formato.

1.2 Formatos en Excel

Microsoft Excel Puede abrir una gran variedad de formatos de


manera directa, los cuales se agrupan de manera simplificada en
las siguientes categorías:

 Formatos de Hojas de Cálculo


Figura 1. 1 Tal vez no hayas
escuchado hablar mucho de  Formatos de Gestores de Bases de Datos
formatos, pero estamos
familiarizados con ellos a  Formatos de Archivos de Texto
veces sin darnos cuenta, tal es
el caso del formato PDF.  Archivos HTML
 Archivos XML
Clase 01 • Limpieza de Datos e Importación 3

La tabla presentada a continuación describe brevemente cada


formato agrupado en su categoría.

Tabla 1.1
Formato Detalle Extensión
XLSX Hojas de Cálculos de Excel 2007 y Cada formato se identifica
Posteriores. por una serie de letras y/o
números que
XLSM Hojas de Cálculos de Excel 2007 y Posteriores generalmente son 3
Habilitada para macros. caracteres precedidos de
un punto después del
XLSB Hojas Binarias de Excel 2007 y Posteriores nombre.
Habilitada para Macros.

XLTX
Hojas de Cálculo

La función de las
Plantillas de Excel 2007 y Posteriores.
extensiones es poder
XLAM Archivo de Excel 2007 y posteriores para distinguir de qué manera
complementos. esta codificado del
archivo, lo cual es
XLS Hojas de Cálculos Excel 2003, 2002, 2000, 97, fundamental para que el
98 y 4. sistema operativo
disponga del
XLM Libro para macros en Excel 2003, 2002, 2000, procedimiento necesario
97, 98 y 4 (No incluye datos). para poder leerlo,
interpretarlo y ejecutarlo.
XLT Archivo de Plantilla en Excel 2003, 2002, 2000,
97, 98 y 4.

XLA Archivo de Excel 2003 y anteriores para


complementos.

MDB
Base de datos Access 2003 y anteriores.
DB

ACCDB
Base de datos Access 2007 y posteriores.

Continúa….
4 Clase 01 • Limpieza de Datos e Importación

Continuación
Formato Detalle
Las columnas se separan con
CSV Coma y las filas con un retorno de carro.
Archivos de Texto

Valores separados por TAB: las columnas se separan


TXT con TAB y las filas con un retorno de carro.

Las columnas se separan con varios espacios y las filas


PRN con retorno de carro.

VisiCalc: Primera hoja de cálculo para computadoras


DIF personales. (Raramente utilizado)

MultiPlan: Primera hoja de cálculo distribuida por


SYLK Microsoft. (Raramente Utilizado)
Web

Excel puede abrir HTML localizado en nuestro PC o


HTML en la WEB.

XML Excel Puede abrir datos almacenados en XML.

.1

La forma más adecuada de importar es bastante sencilla:

Obtener Datos Externos  Pestaña: [Datos]  Grupo: [Obtener Datos Externos] [1.1]

Allí va poder apreciar las categorías de formatos mencionadas


anteriormente, así como otras fuentes externas. En la figura 1.2
puede ver esto.
Clase 01 • Limpieza de Datos e Importación 5

Figura 1. 2 Grupo Obtener datos para importar orígenes de datos externos

Importar datos es bastante sencillo, pero consideremos los dos


casos presentados enseguida.

Ejemplo Base de Datos Obtener Datos desde Tabla de Access

Considere que tiene que importar la tabla de datos en la base de datos Access
AdventureWorks llamada Production_ProductInventory.

Solución

(A) Vamos a obtener datos externos [1.1] y pulsamos clic en el comando


desde Access.
(B) Ubicamos la base de datos AdventureWorks.accdb en nuestro
computador y pulsamos clic en abrir.
(C) En el cuadro de diálogo emergente navegamos mediante el Scroll y
ubicamos la tabla solicitada: Production_ProductInventory, Clic en
Aceptar.

 Scroll hasta
ubicar la tabla
Aquí aparecen
todas las tablas en
la base de datos
AdventureWorks Seleccionar la Tabla

 Clic en el
botón Aceptar

Figura 1. 3 Seleccionar la tabla en la base de datos


Continúa….
6 Clase 01 • Limpieza de Datos e Importación

Continuación

(D) El cuadro de diálogo que aparece a continuación nos brinda la opción


de ubicar la tabla en un rango en específico, por ejemplo $D$1.

Asegúrese de que
la opción tabla este
seleccionada Si los datos están preparados
puede crear directamente una tabla
o gráfico dinámico.

Especifique la Si estás listo para


celda desde utilizar el corazón
donde desea que de PowerPivot,
aparezca la tabla esta es la opción

Figura 1. 4 Exportar una tabla a un rango específico

El botón
(E) Clic en el cuadroAceptar.
de diálogo que parece a continuación nos brinda la
(F) Ahoraopción
la tablade
esubicar la tabla en un rango en específico, por ejemplo
exportada
$D$1

Si el origen cambia,
podemos actualizar
esta tabla para que
detecte los cambios
utilizando el
comando actualizar
todo, que se
encuentra en la
pestaña DATOS o
simplemente
pulsando clic
derecho encima de la
tabla y actualizar

Figura 1. 5 Tabla Production_ProductInventory Importada en Excel


Clase 01 • Limpieza de Datos e Importación 7

Ejemplo Archivo de Texto Obtener Datos desde un CSV

Considere que tiene que importar los datos Abalone Data que se encuentran en
formato CSV

Solución

(A) Vamos a obtener datos externos y pulsamos clic en el comando: Desde


Texto.
(B) Ubicamos el archivo CSV, para este caso Abalone.CSV y clic en
importar.
(C) En el cuadro de diálogo que aparece pulsamos clic en siguiente
asegurando de dejar la opción Delimitados activada. En el paso
siguiente deseleccionamos tabulación y seleccionamos Coma.

Ratifique que
únicamente la
casilla Coma este
seleccionada

Figura 1. 6 Delimitado por comas

(D) Clic en siguiente y Finalizar.


(E) Clic en Aceptar.
8 Clase 01 • Limpieza de Datos e Importación

1.3 Limpieza de Datos

La limpieza de datos o preparación de datos: es el proceso de


Raw Data transformación de Raw Data a una estructura consistente para
El término raw data se que posteriormente sean analizados. Este proceso incluye
utiliza para referirnos a identificar valores erróneos, eliminar registros duplicados,
las datos antes de pasar adecuar valores faltantes, ajustar los datos a un formato tabular,
por un proceso de
etc., etc.
limpieza, en otras
palabras, no han sido
sometidos a ningún tipo
de preparación, así Si los datos a analizar no son debidamente preparados entonces
como tampoco han sido las conclusiones no serán confiables, lo que deriva en esfuerzo
manipulados de alguna
superfluo, puesto que es necesario prepáralos nuevamente y
manera para este fin. Los
datos generalmente analizarlos después de ello. Aunque no es una regla universal,
contienen casi siempre se pasa más tiempo preparando los datos que
inconsistencias porque analizándolos
son generados por
personas diferentes, no
hay estandarización,
falta de validación, etc. Para asegurar la calidad de los datos previamente importados es
necesario verificar varios ítems, algunos de los más comunes se
listan a continuación:

Registro  Formato de Datos Tabular.


Un registro es una fila de  Formato de Columnas Consistente.
datos la cual representa
un objeto único de  Eliminar Registros Duplicados.
datos. A las columnas de
 Tratamiento de Valores Faltantes.
datos las llamamos
campos.  Eliminación de Espacios y Caracteres Especiales.
 Consistencia Mayúscula/Minúscula.
Clase 01 • Limpieza de Datos e Importación 9

Formato de Datos Tabular


El formato tabular es la manera de representar los datos en filas Por cada departamento, los
datos se segmentan
y columnas; donde cada columna, denominada campo, tiene una mediante una fila en blanco
etiqueta que la define claramente. Cada fila, llamada registro,
representa un objeto en su totalidad. El formato tabular no tiene Nombre Qj-Promedio

Contabilidad
Sandra 0.6375988
etiquetas que agrupen filas, figura 1.7, ni filas vacías que Andrés 0.6759436
Dayana 0.5682193
segmenten la tabla, ni tampoco cálculos predefinidos como Camilo 0.517822

totales y subtotales. Sonia 0.4521236

Servicio al
Alejandro 0.7808237

Cliente
Angélica 0.9155153
Carlos 0.3051751
Gina 0.1453039
Si bien la tabla puede contener datos vacíos, es recomendable que
se eviten, principalmente para no tener que manipular las funciones de Jorge
Natalia
0.2177068
0.9410365
resume SUMA Y CUENTA en la creación de un reporte de tabla David 0.298831

Procesos
Tatiana 0.0053683
dinámica. Filas figura 1.8 muestra el formato tabular. Victor 0.1470424
Valeria 0.1446448
Alvaro 0.2910655

Figura 1. 7 Formato no Tabular


Propiedades del formato tabular

 Organización: Organización filas y columnas Claras. Validación de Datos


 Etiquetación: Etiquetas claras y bien definidas solo para columnas.
Utilice validación de datos
 Entereza: Ausencia de filas vacías y columnas vacías.
cuando se recolectan los
 Ausentismo: Ausencia total de cálculos prefinidos, sin totales ni datos, de esta manera
subtotales. garantizar uniformidad.
 Categorización: Cada elemento de un campo de texto debe regirse
por subcategorías estándar, por ejemplo: Bogota y Bogotá son
Nombre Qj-Promedio
diferentes por el acento en la letra a. Debido a esto siempre se Sandra 0.6375988
debe definir un estándar para que los elementos queden Andrés 0.6759436
Dayana 0.5682193
uniformes. Camilo 0.517822
 No celdas vacías (Opcionales): Preferiblemente ninguna celda vacía David 0.298831
Tatiana 0.0053683
y definir estándares para aquellas que lo tienen. Esto es Victor 0.1470424
especialmente útil para la creación de reportes de tabla dinámica. Valeria 0.1446448
Alvaro 0.2910655

Figura 1. 8 Formato Tabular


10 Clase 01 • Limpieza de Datos e Importación

• Tip Rápido: Para cambiar un conjunto de celdas vacías por


algún carácter o palabras estándar escogida (a) seleccione la
columna donde va a reemplazar (b) pulse la combinación Ctrl +
I y clic en especial en el cuadro de diálogo que aparece (c) Active
la opción Celdas en blanco en el cuadro de diálogo Ir as especial,
y aceptar (d) pulse la tecla F2 (e) digite el carácter o palabra y (f)
pulse la combinación de teclas Ctrl + Enter.

Formato de Columnas Consistente


Cuando importamos datos numéricos a veces el separador
Formato Igual decimal y el separador de miles no coinciden, es decir, están
También cerciórese que invertidos. Por ejemplo nuestro Excel puede que este
el formato aplicado a configurado para que lea los números de la siguiente manera:
uno y cada uno de los
147,456.99 mientras que en el origen de datos puede venir
datos en una columna
en particular sean
configurado de la siguiente forma: 147.456,99. Cuando esto
exactamente iguales. sucede Excel lo interpreta como texto. La solución a este
problema es bastante sencilla porque en el último paso de
importación podemos hacer clic en el botón Avanzadas y allí
especificar cuál es el separador decimal y el separador de miles.
Figura 1.9.

 Especifique los
separadores.  Clic en el Botón
Avanzadas

 Aceptar y
Finalizar.

Figura 1. 9 Especificar separadores


Clase 01 • Limpieza de Datos e Importación 11

Eliminar Registros Duplicados ID Score Beer Price


6347 92 Guinness $20.35

Si los datos son extraídos de múltiples fuente es probable que


5092 85 Samuel Adams Boston $5.73
7646 80 Sierra Nevada $11.61

existan filas duplicadas, las cuales no son deseadas para un 7220


7646
79
80
Blue Moon
Sierra Nevada
$13.96
$11.61

análisis porque inflan los resultados obteniendo conclusiones no 6347 92 Guinness $20.35
1212 69 Fat Tire $5.03
muy confiables, por lo anterior en la mayoría de la situaciones se 1212 69 Fat Tire $5.03
7076 62 Pilsner Urquell $4.69
debe eliminar las filas duplicadas. 5115 60 Grolsch $12.70
7181 59 Budweiser $17.78
1212 69 Fat Tire $5.03

Figura 1. 10 Tabla BeersScore


Veamos cómo hacer este sencillo procedimiento con un ejemplo mostrada parcialmente. Esta tabla
contiene filas duplicadas como es
el caso de la cerveza Guinness

Ejemplo Duplicados Eliminar registros duplicados

Imagine que tiene que eliminar las filas duplicadas en la tabla BeersScore en el
Archivo de Excel Beers. La figura 1.10 la muestra parcialmente

Solución

(A) Ubique la celda activa dentro de la tabla.

(B) Pestaña: [Datos] Grupo: [Herramientas de Datos] Comando: [Quitar


duplicados]

(C) Clic en Aceptar.

(D) Opcional. Si solamente desea que la eliminación se lleve a cabo con


solo la coincidencia de algunas columnas, entonces, en el cuadro de
diálogo remover duplicados, que parece en el paso previo,
deselecciona las que columnas que no aplican.

Los valores duplicados son determinados por como se muestran y no


necesariamente como son almacenados, por ejemplo, los valores $20.53 y
20.53 no son considerados iguales.
12 Clase 01 • Limpieza de Datos e Importación

Tratamiento de Valores Faltantes


Los datos faltantes o valores faltantes ocurren cuando no se
Tipos de Datos tiene ninguna información acerca de ellos, por lo tanto son
completamente desconocido para nosotros. Los valores
Faltantes
faltantes aparecen porque no hay respuesta, porque es
ambiguo, porque la recolección de datos se hizo de manera
Entender la razón por la errónea, porque al momento de ingresar el dato se hizo de
cual hay valores
manera inapropiada, etc.
faltantes, facilita que tipo
de tratamiento abordar,
por ejemplo, si los datos
faltantes son aleatorios, Para abordar los valores faltantes podemos utilizar cualquiera
entonces la muestra de de las siguientes “técnicas”:
los datos sigue siendo
representativa para la
población. Por otra
parte, si lo datos  No manipulación
faltantes están ausentes  Imputación
de manera sistemática,  Imputación Parcial
entonces sí que requiere
 Eliminación
un análisis exhaustivo, y
todo esta temática es  Full Analysis
acreedora de su propio  Interpolación
capítulo e incluso de su
propio libro.

Frecuentemente asumimos que no existen tales valores o


simplemente los trabajamos como un elementos distintos
desconocidos, sin embargo, pueden existir argumentos válidos
del porque estos valores estén ausentes, tal vez por decisión.

No Manipulación

Como su nombre lo indica, no se debe hacer nada con ellos y


llevar el acabo el análisis, esto puede ser porque la muestra sigue
siendo significativa o porque se va a llevar a cabo un análisis de
los valores faltantes.
Clase 01 • Limpieza de Datos e Importación 13

Figura 1.11 La imputación de


datos, en su forma más
simple, consiste en
reemplazar los valores
faltantes en un campo por un
dato escogido previamente y
que se ajuste al entendimiento
de estos valores.

Figura 1. 11
Imputación e Imputación Parcial ID Score Beer Price
6347 92 Guinness $20.35
5092 85 Samuel Adams Boston $5.73
La imputación consiste en reemplazar valores faltantes por uno 7646 80 Sierra Nevada $11.61

seleccionado. En el análisis de datos estos valores faltantes


7220 79 Blue Moon $13.96
7646 80 Sierra Nevada $11.61

pueden causar serios dolores de cabeza que incluso se puede 6347


1212
92
69
Guinness
Fat Tire
$20.35
$5.03

derivar en una pérdida de tiempo visto que no se puede extraer 1212


7076
69
62
#N/A
Pilsner Urquell
$5.03
$4.69

información significativa. Las técnicas de imputación son bastante 5115


7181
60
59
Grolsch
Budweiser
$12.70
$17.78
amplias, además, se encuentran en constante desarrollo y 1212 69 Fat Tire $5.03
1212 69 Fat Tire $5.03
perfeccionismo. En Excel los valores faltantes son especificados 7524 54 Corona $16.33
7168 35 #N/A $14.84
con #N/A, sin embargo muchas personas utilizan su propio 9116 40 Beck's $5.30
7168 35 Magic Hat $14.84
carácter o su propia palabra, por ejemplo: Desconocido. La figura 6347 92 Guinness $20.35
7220 79 #N/A $13.96
1.12 muestra un sencillo ejemplo con #N/A. 7220 79 #N/A $13.96
7220 79 Blue Moon $13.96

Figura 1. 12 Valore faltantes en Excel

Como se mencionó en la nota de la página anterior, es útil saber


porque hay valores faltantes para poder saber que método
aplicar. Podemos considerar 3 casos simples de valores faltantes:
Faltantes que
dependen de sí
 Faltantes Aleatorio. mismos
 Faltante que depende de una predicción no observada. Este es el caso más
 Faltante que depende de sí mismo. complejo y está por fuera
del alcance de presente
artículo.

Faltantes que dependen de una predicción no observada: Los


datos faltantes ya no son aleatorios. Depende de la información
que no ha sido guardada.
14 Clase 01 • Limpieza de Datos e Importación

Por ejemplo: si se está recolectando información acerca de los


ingresos de los graduados en una universidad, podemos saber
que los recién graduados son menos propensos a revelar su
salario, por lo que se pueden clasificar fácilmente estos salarios
en un intervalo previamente conocido y sustituir los faltantes
por dichos datos.

• Tip Rápido: Para sustituir un conjunto de celdas que contienen


un carácter o frase especial (a) seleccione el rango de celdas
donde va a reemplazar (b) pulse la combinación Ctrl + B y clic en
la pestaña reemplazar en el cuadro de diálogo que aparece (c)
En el cuadro de texto Buscar, digite la palabra o frase a
reemplazar, ejemplo: Desconocido (d) En el cuadro de texto
reemplazar con, escriba el valor por el cual serán sustituidos los
valores (e) Clic en el botón reemplazar todo.

Eliminación
La técnica de imputación más simple consiste en reducir el
tamaño de los datos, de la muestra, mediante la eliminación de
todas aquellas filas que contienen un valor faltante.

Ejemplo Duplicados Eliminar registros duplicados

Suponga que sabe que los datos faltantes en la tabla Beers son aleatorios, dado
que son pocos faltantes lo que se pide es su eliminación completa. Figura 1.12

Solución
(A) Convierta la tabla tabular en una tabla estructurada de Excel si esta no
está de esta forma. Pulse la combinación Ctrl + T y Aceptar.
Continúa….
Clase 01 • Limpieza de Datos e Importación 15

• Tip Rápido: No es necesario convertir los datos en una tabla


estructurada, lo importante es activar los filtros en los campos.
También puede utilizar la combinación de teclas Ctrl + Shift + L
para activar los autofiltros.

Continuación

(B) Ubique el campo que contiene los valores faltantes, allí en la flecha de
selección despliegue las opciones y filtre todos los #N/A
Filtrar por el
campo que
contiene los
valores faltantes

Filtrar los #N/A o


el carácter,
palabra o frase
que utilice para
denotarlos

Figura 1. 13 Filtrar todos los valores faltantes, es decir los #N/A, Si utiliza otro carácter,
palabra o frase para denotarlos, entonces, debe filtrar el de su uso.

Continúa….
16 Clase 01 • Limpieza de Datos e Importación

Continuación

(C) Seleccione todas las filas que contienen valores nulos, pulse clic
derecho encima de las etiquetas de filas y clic en eliminar.

Clic derecho
encima de
cualquier número
azul, con esto se
despliega el menú
contextual Clic en eliminar

(D) Por último remueva el filtro (Ctrl+Shift+L). Así, habrá eliminado todos
los registros que contenían valores nulos en el campo Beer

Full Analysis

Full analysis consiste en varios métodos que toman toda la


información disponible y mediante algoritmos iterativos
encuentra la mayor probabilidad de que un valor faltante
corresponda un datos especifico, hay que advertir que el estudio
de estos métodos esta por fuera de este artículo.

Interpolación

La interpolación es un método mediante el cual se crea o conoce


un dato basado en un conjunto discreto de puntos.
Clase 01 • Limpieza de Datos e Importación 17

Eliminación de Espacios y Caracteres Especiales


Para evitarnos dificultades, es una buena práctica confirmar que
los datos no contienen espacios extras, dado que por ellos en una
comparación que de manera lógica deberían coincidir, no lo
hace. Por ejemplo Excel no es igual a Excel con un espacio al final,
esto porque el primero tiene 5 caracteres y el último 6 caracteres.

Hacer esta tarea es bastante fácil. La función ESPACIOS remueve


todos los espacios extra entre palabra y palabra dejando
únicamente un espacio. Por ejemplo si en la celda A1 tiene escrito
“Excel Free Blog”, donde se pueden notar múltiples espacios
entre palabra y palabra, y aplicamos:

[1.2] =ESPACIOS(A1)  Remover Espacios Extras

Entonces, retorna: “Excel Free Blog” con solo un espacio entre


palabra y palabra, sin espacios al principio ni al final.

También es necesario remover caracteres no imprimibles los


cuales no son fáciles de detectar, por ejemplo un dato importado
desde otra fuente pude contener TAB al final. Para remover estos
caracteres no imprimibles

[1.2] =LIMPIAR(A1)  Remover Caracteres no


Imprimibles

Estos cambios se deben realizar en columnas a parte y


luego copiar y pegar por valores para sustituir.
18 Clase 01 • Limpieza de Datos e Importación

Consistencia Mayúsculas/Minúsculas
Es una buena práctica, hacer que los textos en las columnas
sean consistente en términos de mayúsculas y minúsculas. Para
lograr esta consistencia Excel brinda las siguientes funciones:

MAYUSC: Convierte el texto a mayúsculas.

MINUSC: Convierte a texto en minúsculas.

NOMPROPRIO: Convierte una cadena de texto en mayúsculas


o minúsculas según corresponda, la primera letra de cada.

Estos cambios se deben realizar en columnas a parte y


luego copiar y pegar por valores para sustituir.

Sumario

Importación
• La Importación de datos es el proceso de extraer datos • Directamente:
desde alguna instancia u origen que los contenga, los
cuales fueron creados con otro programa, o que pertenece Hoja de Cálculo, Beses
a versiones antiguas dataos y Archivos texto

Limpieza

• Proceso de transformación de Raw Data a una estructura


consistente para que posteriormente sean analizados. Valores Faltantes:

No manipulación
Tareas: Imputación
Formato de Datos Tabular Imputación Parcial
Formato de Columnas Consistente Eliminación
Eliminar Registros Duplicados Full Analysis
Tratamiento de Valores Faltantes Interpolación
Eliminación de Espacios y Caracteres Especiales
Consistencia Mayúscula/Minúscula