Está en la página 1de 17

PRÁCTICA PASO A PASO

Transformación y generación de datos numéricos


y categóricos
Contenido
Utilidad de este ejercicio ................................................................................................2
El caso: King County Real State ....................................................................................3
Equivalente categórico usando fórmulas........................................................................5
Equivalente categórico usando búsquedas ....................................................................6
Equivalente categórico usando SI.CONJUNTO() .........................................................10
Equivalente categórico ordinal, a partir de una fecha ..................................................12
Fórmulas de cálculo comunes ......................................................................................14
Convertir a mayúsculas el contenido de una columna .................................................15

45 MINUTOS.

IMPORTANTE: Los documentos, ejercicios y archivos complementarios son propiedad intelectual de Aprenda, y forman parte de los
materiales didácticos del curso que los publica. Queda estrictamente prohibido su uso fuera de eventos de capacitación organizados
o autorizados por Aprenda, en este caso, Analítica de Datos para la Toma de Decisiones, con firma digital para esta plataforma digital
en concreto. Todos los materiales son de uso personal: no pueden ser transferidos o publicados para su lectura o uso de terceros.
Puede adquirirse como Workbook en papel, o en formato digital, para su uso en programas de capacitación; también es posible
adquirir el programa con mentoría, o curso presencial. Consulta otras modalidades en www.Aprenda.mx

Página 1 de 17
Utilidad de este ejercicio

Como analista de datos, difícilmente vas a encontrar los datos justo como los
necesitas.

El paradigma ETL (Extract / Transform / Load) indica que primero se


deben extraer los datos de las fuentes, luego debes transformarlos para que
tengan el formato y el nivel de detalle que requieres, para finalmente
poderlos cargar en la herramienta de cálculo y visualización, en nuestro
caso, las Tablas dinámicas.

En este ejercicio aprenderás a realizar algunas transformaciones


elementales que debes ser capaz de realizar cuando manejas datos en Excel.

Algunos conceptos que pueden ser de utilidad son los siguientes:

a) Datos dicotómicos. Son datos que sólo pueden tener dos valores
(Sí/No, Cierto/Falso, Encendido/Apagado, y así).

b) Datos categóricos. Son datos que implican categorías dentro de los


datos, y generalmente son etiquetas cortas; es normal que los
valores se repitan en varios de los registros. Si tuviéramos una base
de datos de películas, un dato categórico podría ser género
(Comedia, Horror, Acción, y así).

c) Escala ordinal. Se trata de datos categóricos que implican un


orden, no necesariamente alfabético. Por ejemplo, el nombre de los
meses: Si los ordenamos alfabéticamente de forma ascendente,
«marzo» queda antes que «enero» y «febrero», lo cual es
incorrecto. Debeos encontrar la manera de ordenar las etiquetas en
la posición correcta que les corresponde.

Página 2 de 17
El caso: King County Real State

Trabajarás con un archivo llamado KingCounty_inicio.xlsx, que


contiene un set de datos con las ventas de bienes raíces en el condado de
King, en Washington.

El set tiene los siguientes campos:

• id : Identificador de la operación de compra - venta.


• fecha_operacion : Fecha en que se realizó la operación.
• precio : Precio al que fue vendida la propiedad.
• remamaras : Número de recámaras en la propiedad.
• baños : Número de baños de la propiedad.
• m2_construcción : Metros cuadrados de construcción en la
propiedad.
• m2_terreno : Metros cuadrados de terreno en la propiedad.
• pisos : Número de pisos de la propiedad.
• codigo_frente_agua : Índice que representa si la propiedad da
frente a una fuente de agua (mar, lago, laguna).
▪ 0 es NO
▪ 1 es SI.

• codigo_vista : Índice que indica qué tan buena es la vista


panorámica de la propiedad.
▪ 0 es SIN VISTA.
▪ 1 es VISTA ESTÁNDAR
▪ 2 es VISTA ABIERTA
▪ 3 es VISTA PANORÁMICA
▪ 4 es VISTA EXCEPCIONAL

• codigo_condición : Índice que indica la condición física del


apartamento.
▪ 1 es MALAS CONDICIONES
▪ 2 es CONDICIONES REGULARES
Página 3 de 17
▪ 3 es BUENAS CONDICIONES
▪ 4 es MUY BUENAS CONDICIONES
▪ 5 es EXCELENTES CONDICIONES

• codigo_calidad : Índice que indica la calidad de acabados y


diseño de la propiedad.
▪ De 1 a 3 es DISEÑO ANTICUADO
▪ De 3 a 7 es DISEÑO PROMEDIO
▪ De 7 a 11 es DISEÑO INNOVADOR
▪ De 11 A 13 es DISEÑO EXCEPCIONAL

• m2_sobre_calle : Metros de la construcción que están sobre nivel


de calle.
• m2_sotano : Metros de la construcción que están bajo el nivel de
calle (sótano).
• año_construcción : Año de construcción de la propiedad.
• año_renovación : Año en que se remodeló la propiedad, en su
caso. 0 indica que no se ha renovado nunca.
• código_postal : Código postal de la propiedad.
• latitud : Latitud del punto de geolocalización de la propiedad.
• longitud : Longitud del punto de geolocalización de la propiedad.
• m2_construcción_vecinal : Metros de construcción promedio
de las propiedades 15 casas a la redonda.
• m2_terreno_vecinal : Metros de terreno promedio de las
propiedades 15 casas a la redonda.
• agente_id : Identificador del agente inmobiliario que realizó la
venta.
• nombre_agente : Nombre del agente inmobiliario que realizó la
venta.

Página 4 de 17
Equivalente categórico usando fórmulas

1. Descarga de la plataforma el archivo


KingCounty_inicio.xlsx y colócalo en la carpeta de
trabajo \AprendaADTD; abre el archivo.
2. Presiona F12.
a. Guarda el archivo con otro nombre.
b. Sugiero eliminarle el «_inicio» al nombre actual.
c. El nuevo archivo se guardará en la misma carpeta.

3. Colócate en la Hoja Operaciones.


4. El campo codigo_frente_agua es numérico, dicotómico
(solo tiene dos alternativas), donde 0 es NO, y 1 es SÍ.
a. Para cambiar de datos numéricos dicotómicos (0,1) a
su equivalente categórico (NO/SI), la forma más fácil
es aplicar una simple fórmula usando la función
SI(), que permite aplicar condicionales.

5. Deseamos generar, a partir del dato dicotómico, un dato


categórico.
a. Colócate en la Celda I1, que es donde está el
encabezado del campo codigo_frente_agua .
b. Presiona CTRL+BARRA ESPACIADORA, para seleccionar
la columna.
c. Presiona CTRL+SÍMBOLO SUMA (+), para insertar una
columna a la izquierda.
d. Colócate en la Celda I1, y escribe como nuevo
nombre «frente_agua».

Página 5 de 17
6. Colócate en la Celda I2, y escribe la siguiente fórmula:

=SI([@[codigo_frente_agua]]=0,"NO","SÍ")

7. Ahora ya tenemos el equivalente categórico del dato


dicotómico.

Equivalente categórico usando búsquedas

8. En el caso de los campos codigo_vista y


codigo_condición , la aplicación de estatutos condicionales
puede ser un dolor de cabeza, debido a que son muchas las
opciones a manejar.
a. Cuando se tiene una serie de opciones mutuamente
excluyentes, lo recomendable es tener los datos en
Tablas de datos independientes, y utilizar la función
BUSCARV() para recuperar los datos equivalentes.

9. Colócate en la Hoja Tablas.


a. Ahí se encuentran los datos numéricos de los campos
en cuestión, y sus equivalentes categóricos.

Página 6 de 17
10. Elabora una Tabla de datos para manejar los tipos de vista:
a. Selecciona el Rango A1:B6.
b. En la Cinta de opciones, elije Insertar – Tabla –
Tabla.
i. También puedes presionar CTRL+Q.

c. Aparecerá la ventana Crear tabla, con la


información del Rango. Asegúrate que la casilla La
tabla tiene encabezados esté marcada, y presiona
Aceptar.

d. Se generará una Tabla de datos.


e. Colócate en la Celda A1 (dentro de la tabla).
f. En la Cinta de opciones, elije Diseño de tabla.
g. En el Grupo de comandos Propiedades, establece el
Nombre de la tabla el valor «VISTAS»

Página 7 de 17
11. Elabora una Tabla de datos para manejar los tipos de
condiciones:
a. Selecciona el Rango A10:B15.
b. En la Cinta de opciones, elije Insertar – Tabla –
Tabla.
i. También puedes presionar CTRL+Q.

c. Aparecerá la ventana Crear tabla, con la


información del Rango. Asegúrate que la casilla La
tabla tiene encabezados esté marcada, y presiona
Aceptar.
d. Se generará una Tabla de datos.
e. Colócate en la Celda A10 (dentro de la tabla).
f. En la Cinta de opciones, elije Diseño de tabla.
g. En el Grupo de comandos Propiedades, establece el
Nombre de la tabla el valor «CONDICIONES»

12. Genera una columna con la equivalencia categórica de


codigo_vista .
a. Colócate en la Hoja Operaciones.
b. Colócate en la Celda K1, que es donde está el
encabezado del campo codigo_vista .
c. Presiona CTRL+BARRA ESPACIADORA, para seleccionar
la columna.
d. Presiona CTRL+SÍMBOLO SUMA (+), para insertar una
columna a la izquierda.
e. Colócate en la Celda K1, y escribe como nuevo
nombre «vista».

Página 8 de 17
13. Colócate en la Celda K2, y escribe la siguiente fórmula:
a. Le estamos diciendo que busque el valor que tenga la
fila (@) en el campo codigo_vista , y que lo busque
en la Tabla de datos VISTAS; en caso de encontrar
una coincidencia, recuperar el dato que se encuentre
en la columna 2 de la tabla VISTAS; se requiere que la
búsqueda sea atendiendo valores exactos (FALSO).

=BUSCARV([@[codigo_vista]],VISTAS,2,FALSO)

14. Genera una columna con la equivalencia categórica de


codigo_condición .
a. Colócate en la Celda M1, que es donde está el
encabezado del campo codigo_condición .
b. Presiona CTRL+BARRA ESPACIADORA, para seleccionar
la columna.
c. Presiona CTRL+SÍMBOLO SUMA (+), para insertar una
columna a la izquierda.
d. Colócate en la Celda M1, y escribe como nuevo
nombre «condición».

15. Colócate en la Celda M2, y escribe la siguiente fórmula:


e. Le estamos diciendo que busque el valor que tenga la
fila (@) en el campo codigo_condición , y que lo
busque en la Tabla de datos CONDICIONES; en caso de
encontrar una coincidencia, recuperar el dato que se
encuentre en la columna 2 de la tabla CONDICIONES;

Página 9 de 17
se requiere que la búsqueda sea atendiendo valores
exactos (FALSO).

=BUSCARV([@[codigo_condición]],CONDICIONES,2,FALSO)

Equivalente categórico usando SI.CONJUNTO()

16. El caso del campo codigo_calidad plantea un reto, debido


a que las categorías no son específicas, sino que hay varios
valores que representan una misma categoría.
17. Se pueden aplicar condicionales anidados (uno dentro del
otro), pero suele ser origen de problemas y errores. Hay
una función que genera los mismos resultados, y es mucho
más sencilla: SI.CONJUNTO().
18. La función permite especificar una serie de condiciones, y
los valores que generan. Para su correcta aplicación, tiene
los siguientes requisitos:
a. Permite un máximo de 127 condiciones diferentes.
b. Los condicionales deben especificarse en cascada, es
decir, una condición solo es posible si la condición
anterior es rechazada. Esto generalmente implica
que las condiciones tengan un orden, de lo más
restrictivo, a lo menos restrictivo.
c. Ejemplo: Si tenemos la siguiente lista de números
{10, 14, 25, 45, 77, 87, 92} ¿Cuántos son mayores a 70?
3; ¿Cuántos son mayores a 20? 5. Como ves, >20

Página 10 de 17
incluye los >70, por lo tanto >70 es más restrictivo, y
se pondría primero dentro de la función.
d. Es importante determinar si los límites son incluidos
en los conjuntos (>=, <=), o no (>,<).

19. Los rangos definidos para el campo codigo_calidad son los


siguientes:
a. De 1 a 3 es DISEÑO ANTICUADO
b. De 3 a 7 es DISEÑO PROMEDIO
c. De 7 a 11 es DISEÑO INNOVADOR
d. De 11 A 13 es DISEÑO EXCEPCIONAL

20. El filtrado correcto sería de mayor a menor, sin incluir la posición


más baja.
a. >11, DISEÑO EXCEPCIONAL
b. >7, DISEÑO INNOVADOR
c. >3, DISEÑO PROMEDIO
d. >0, DISEÑO ANTICUADO

21. Genera una columna con la equivalencia categórica de


codigo_calidad .
f. Colócate en la Celda O1, que es donde está el
encabezado del campo codigo_calidad .
g. Presiona CTRL+BARRA ESPACIADORA, para seleccionar
la columna.
h. Presiona CTRL+SÍMBOLO SUMA (+), para insertar una
columna a la izquierda.
i. Colócate en la Celda O1, y escribe como nuevo
nombre «calidad».

Página 11 de 17
22. Colócate en la Celda O2, y escribe la siguiente fórmula:

=SI.CONJUNTO(
[@[codigo_calidad]]>11,"DISEÑO EXCEPCIONAL",
[@[codigo_calidad]]>7,"DISEÑO INNOVADOR",
[@[codigo_calidad]]>3,"DISEÑO PROMEDIO",
[@[codigo_calidad]]>0,"DISEÑO ANTICUADO"
)

Equivalente categórico ordinal, a partir de una fecha

23. Aunque los datos de tipo fecha son muy útiles cuando se
utilizan para segmentación temporal, cuando se les quiere
utilizar como etiqueta categórica son un problema, debido a
que son datos ordinales.
24. Es muy común que, para referirnos categóricamente a un
mes, lo hagamos anteponiéndole un ordinal, de tal manera
que el número de mes, o sea 1, se anteponga a una etiqueta
textual del nombre; de esa manera, al ordenar los meses,
estarán en el orden que les corresponde. Por ejemplo, si una
fecha es de enero, la etiqueta de su mes será “01-ENE”, o
“01-ENERO”.
25. Para hacer una conversión de ese tipo, es común que
utilicemos varias funciones:
a. TEXTO(): Permite dar formato a diferentes datos,
generando una representación de tipo texto, aunque
lo representado sea un número.
b. CONCAT(): Permite la concatenación de texto.
c. MAYUSC(): Convierte a mayúsculas un contenido.

Página 12 de 17
26. Genera, a partir de un dato de tipo fecha, el categórico “01-
NOMBREMES”, así, en mayúsculas.
27. Genera una columna con la equivalencia categórica de
fecha_operacion , para disponer del mes en forma de
etiqueta.
j. Colócate en la Celda B1, que es donde está el
encabezado del campo fecha_operacion .
k. Presiona CTRL+BARRA ESPACIADORA, para seleccionar
la columna.
l. Presiona CTRL+SÍMBOLO SUMA (+), para insertar una
columna a la izquierda.
m. Colócate en la Celda B1, y escribe como nuevo
nombre «mes_operacion».

28. Colócate en la Celda B2, y escribe la siguiente fórmula:


a. Se concatenan 3 elementos: El mes de la fecha de
operación, en formato numérico, a dos posiciones;
un guion; la representación en mayúsculas del mes
de la fecha de operación, en formato de nombre
completo de mes.

=CONCAT(
TEXTO([@[fecha_operación]],"MM"),
"-",
MAYUSC(TEXTO([@[fecha_operación]],"MMMM"))
)

Página 13 de 17
29. Genera una columna con la equivalencia categórica de
fecha_operacion , para disponer del año en forma de
etiqueta.
n. Colócate en la Celda C1, que es donde está el
encabezado del campo fecha_operacion .
o. Presiona CTRL+BARRA ESPACIADORA, para seleccionar
la columna.
p. Presiona CTRL+SÍMBOLO SUMA (+), para insertar una
columna a la izquierda.
q. Colócate en la Celda C1, y escribe como nuevo
nombre «año_operacion».

30. Colócate en la Celda C2, y escribe la siguiente fórmula:

=TEXTO([@[fecha_operación]],"AAAA")

Fórmulas de cálculo comunes

31. Ahora, queremos saber cuál es el precio por metro


cuadrado. Como ese dato no lo tenemos, así que hay que
calcularlo.
32. Genera una columna con el cálculo, y llámale precio_M2 .
a. Colócate en la Celda AD1; como está continuo al
encabezado del último campo de la tabla, asume que
deseas extender la tabla con un nuevo campo más.
b. Colócate en la Celda AD1, y escribe como nuevo
nombre «precio_M2».
Página 14 de 17
33. Colócate en la Celda AD2, y escribe la siguiente fórmula:

=[@precio]/[@[m2_construcción]]

Convertir a mayúsculas el contenido de una columna

34. Llama la atención que los valores en la columna


nombre_agente están en minúsculas; dado que todas las
etiquetas están en mayúsculas, queremos que esa etiqueta
también lo esté.
35. Genera una columna de trabajo y haz la conversión.
c. Colócate en la Celda AE1; como está continuo al
encabezado del último campo de la tabla, asume que
deseas extender la tabla con un nuevo campo más.
d. Colócate en la Celda AE1, y escribe como nuevo
nombre «trabajo».

36. Colócate en la Celda AE2, y escribe la siguiente fórmula:

=MAYUSC([@[nombre_agente]])

37. Colócate en AE2 y presiona CTRL+MAYUS+FLECHA ABAJO, para


seleccionar todos los valores de la columna.
38. Presiona CTRL+C, para copiar las celdas.
39. Colócate en AC2, presiona el botón alternativo del ratón, y
en el Menú contextual, selecciona el ícono de Pegar como
valores.
Página 15 de 17
40. Se copiarán los nombres de agente en mayúscula, como
valores.
41. Colócate en AE1, que es donde está el encabezado de la
columna trabajo ; presiona el botón alternativo del ratón, y
en el Menú de contexto selecciona Eliminar – Columnas de
la tabla. Con eso eliminarás la columna trabajo, porque ya
no la necesitas.

Página 16 de 17
42. Guarda tu trabajo, presionando CTRL+G.

FIN DEL LAB

Página 17 de 17

También podría gustarte