0% encontró este documento útil (0 votos)
489 vistas31 páginas

Preprocesamiento de Datos en Minería

Este documento presenta la unidad 2 sobre preprocesamiento de datos de un curso de minería de datos. La unidad cubre temas como limpieza de datos, integración y transformación de datos, discretización y reducción de datos. El objetivo del preprocesamiento es mejorar la calidad de los datos para que puedan ser analizados efectivamente.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como DOCX, PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
489 vistas31 páginas

Preprocesamiento de Datos en Minería

Este documento presenta la unidad 2 sobre preprocesamiento de datos de un curso de minería de datos. La unidad cubre temas como limpieza de datos, integración y transformación de datos, discretización y reducción de datos. El objetivo del preprocesamiento es mejorar la calidad de los datos para que puedan ser analizados efectivamente.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como DOCX, PDF, TXT o lee en línea desde Scribd

INGENIERIA EN SISTEMAS COMPUTACIONALES

MINERÍA DE DATOS

UNIDAD 2: PREPROCESAMIENTO DE DATOS

DOCENTE:

DRA. CAROLINA ASTUDILLO HERNÁNDEZ

EQUIPO:

 SEVILLA SALAZAR LUZ JOCELYN 14321085


 SUASTE ESTRADA MAYOLO MOSIAHI 14321087
 MORENO GARCÍA LUIS EDUARDO 14321038

SALÓN: 706 HORA: 7:00 A.M – 8:00 A.M.


Minería de datos
7:00-8:00

Índice

Introducción ............................................................................................................. 2
Unidad 2 – Preprocesamiento de datos .................................................................. 3
2.1 Limpieza de datos. ......................................................................................... 5
2.1.1 Valores faltantes. ..................................................................................... 7
2.1.2 Ruido en los datos. .................................................................................. 9
2.2 Integración y transformación. ....................................................................... 12
2.2.1 Integración de los datos. ........................................................................ 12
2.2.2 Transformación de los datos. ................................................................. 13
2.3 Discretización de datos y jerarquías conceptuales. ..................................... 16
2.4 Reducción de datos. .................................................................................... 22
2.4.1 Cubo de datos. ...................................................................................... 27
2.4.2 Subconjuntos de atributos. .................................................................... 28
2.4.3 Reducción de dimensiones. ................................................................... 28
Conclusión............................................................................................................. 29
Bibliografía ............................................................................................................ 30
Linkografía............................................................................................................. 30

1
Minería de datos
7:00-8:00

Introducción

En los últimos años, el crecimiento masivo en la escala de los datos está siendo un
factor clave en el actual escenario de procesamiento de datos. La eficacia de los
algoritmos de extracción de conocimiento depende en gran medida de la calidad de
los datos, la cual puede ser garantizada por los algoritmos de preprocesamiento.
Inmensas cantidades de información nos rodean en la actualidad. Tecnologías
como Internet generan datos a un ritmo exponencial gracias al abaratamiento y gran
desarrollo del almacenamiento y los recursos de red. El volumen actual de datos ha
superado las capacidades de procesamiento de los sistemas clásicos de minería de
datos.
En el proceso de la recopilación de los datos debe existir una limpieza e integración
de los mismos, para que éstos estén en condiciones para su análisis. Los beneficios
del análisis y de la extracción de conocimiento a partir de datos dependen, en gran
medida, de la calidad de los datos recopilados. Además, generalmente, debido a las
características propias de las técnicas de minería de datos, es necesario realizar
una transformación de los datos para obtener una “materia prima” que sea
adecuada para el propósito concreto y las técnicas que se quieren emplear.
En definitiva, el éxito de un proceso de minería de datos depende, no solo de tener
todos los datos necesarios (una buena recopilación), sino de que estos estén
íntegros, completos y consistentes (una buena limpieza e integración).

2
Minería de datos
7:00-8:00

Unidad 2 – Preprocesamiento de datos


El preprocesamiento de datos es una etapa esencial del proceso de descubrimiento
de información o KDD (Knowledge Discovery in Databases, en inglés. Esta etapa
se encarga de la limpieza de datos, su integración, transformación y reducción para
la siguiente fase de minería de datos.

“El Preprocesamiento de Datos” / “La Preparación de Datos” engloba a todas


aquellas técnicas de análisis de datos que permite mejorar la calidad de un conjunto
de datos de modo que las técnicas de extracción de conocimiento/minería de datos
puedan obtener mayor y mejor información (mejor porcentaje de clasificación, reglas
con más completitud, etc.).

Las técnicas de procesamiento de datos son las siguientes:

1. Data cleaning: la limpieza de datos elimina ruido y resuelve las inconsistencias


en los datos.
2. Data integration: con la Integración de datos se migran datos de varias fuentes
a una fuente coherente como un Data Warehouse.
3. Data transformation: la transformación de datos sirve para normalizar datos de
cualquier tipo.
4. Data reduction: la reducción de datos reduce el tamaño de los datos
agregandolos.

Todas estas técnicas pueden trabajar juntas o individualmente para crear un


fuerte conjunto de datos. Una gran parte del preprocesamiento de datos es el
aspecto de la transformación. Cuando se trata de datos sin procesar nunca se sabe
lo que se va a obtener. Por lo tanto, normalizar datos a través del proceso de
transformación, es una de las maneras más rápidas y eficientes para lograr tu
objetivo final de unos datos limpios y utilizables.

3
Minería de datos
7:00-8:00

4
Minería de datos
7:00-8:00

2.1 Limpieza de datos.

La limpieza de datos (en inglés data cleansing o data scrubbing) es el acto de


descubrimiento y corrección o eliminación de registros de datos erróneos de
una tabla o base de datos. El proceso de limpieza de datos permite identificar datos
incompletos, incorrectos, inexactos, no pertinentes, etc. y luego substituir, modificar
o eliminar estos datos sucios ("data duty"). Después de la limpieza, la base de datos
podrá ser compatible con otras bases de datos similares en el sistema.
Las inconsistencias descubiertas, modificadas o eliminadas en un conjunto de
datos pueden haber sido causado por: las definiciones de diccionario de
datos diferentes de entidades similares, errores de entrada del usuario y corrupción
en la transmisión o el almacenaje.
La limpieza de datos se diferencia de la validación de datos, que casi siempre
cumple la función de rechazar los registros erróneos durante la entrada al sistema
y no en lotes de data. El proceso de limpieza de datos incluye la validación y además
la corrección de datos, para alcanzar datos de calidad.
Calidad de datos
La calidad de datos debe cumplir con los siguientes requisitos:
 Exactitud: Los datos deben cumplir los requisitos de integridad, consistencia
y densidad.
 Integridad: Los datos deben cumplir los requisitos de Entereza y validez.
 Entereza: Alcanzado por la corrección de datos que contienen anomalías.
 Validez: Alcanzado por la cantidad de datos que satisfacen las restricciones
de integridad.
 Consistencia: Alcanzado por la corrección de contradicciones y anomalías
sintácticas.
 Uniformidad: Relacionado con irregularidades.
 Densidad: Conocer el cociente de valores omitidos sobre el número de
valores totales.
 Unicidad: Relacionado con datos duplicados.
Proceso de Limpieza de Datos
 Auditoría de Datos: Los datos son revisados con el empleo de métodos
estadísticos de descubrir anomalías y contradicciones. Esto tarde o temprano
da una indicación de las características de las anomalías y sus posiciones.
 Definición de Workflow (Flujo de Trabajo): La detección y el retiro de
anomalías son realizados por una secuencia de operaciones sobre los datos
sabidos como el workflow. Para alcanzar un workflow apropiado, se debe
identificar las causas de las anomalías y errores. Si por ejemplo encontramos
que una anomalía es un resultado de errores de máquina en etapas de

5
Minería de datos
7:00-8:00
entrada de datos, la disposición del teclado puede ayudar en la solución de
posibles problemas.
 Ejecución de Workflow: En esta etapa, el workflow es ejecutado después
de que su especificación es completa y su corrección es verificada. The
implementación del workflow debería ser eficiente aún sobre los juegos
grandes de los datos que inevitablemente plantean una compensación,
porque la ejecución de la operación limpiadora puede ser cara.
 Post-Proceso y Control: Los datos que no podían ser corregidos durante la
ejecución del workflow deberán ser corregidos manualmente, de ser posible.
El resultado es un nuevo ciclo en el proceso de limpieza de datos donde los
datos son revisados nuevamente para ajustarse a las especificaciones de un
workflow adicional y realizar un tratamiento automático.
Métodos más usados
 Análisis: El análisis en la limpieza de datos, es realizado para la detección
de errores de sintaxis. Un analizador gramatical decide si una cuerda de
datos es aceptable dentro de la especificación de datos permitida. Esto es
similar al modo que un analizador gramatical trabaja con gramáticas y
lenguas.
 Transformación de Datos: La Transformación de Datos permite al trazar un
mapa de datos, en el formato esperado. Esto incluye conversiones de valor
o funciones de traducción, así como normalización de valores numéricos para
conformarse a valores mínimos y máximos.
 Eliminación de duplicados: La detección de duplicados requiere un
algoritmo para determinar si los datos contienen representaciones dobles de
la misma entidad. Por lo general, los datos son ordenados por un dato "llave"
o "pivote" que permite la identificación más rápida.
 Método Estadístico: Incluye analizar los datos usando promedios,
desviación estándar, rangos, o algoritmos de clúster, este análisis se realiza
por expertos que identifican errores. Aunque la corrección de datos sea difícil
ya que no saben el valor verdadero, pueden ser resueltos poniendo los
valores a un promedio u otro valor estadístico. Los métodos estadísticos
también pueden ser usados para manejar los valores que fallan, que pueden
ser substituidos por uno o varios valores posibles que por lo general son
obtenidos por algoritmos de aumento de datos extensos...

6
Minería de datos
7:00-8:00

2.1.1 Valores faltantes.


Los valores faltantes, perdidos o ausentes (missing values) pueden ser
reemplazados por varias razones. En primer lugar, el método de minería de datos
que utilicemos puede no tratar bien los campos faltantes. En segundo lugar,
podemos querer agregar los datos (especialmente los numéricos) para realizar otras
vistas minables y que los valores faltantes no nos permitan agregar correctamente
(totales, medias, etc.). En tercer lugar, si el método es capaz de tratar campos
faltantes es posible que ignore todo el ejemplo (produciendo un sesgo) o es posible
que tenga un método de sustitución de campos faltantes que no sea adecuado
debido a que no conoce el contexto asociado al atributo faltante.
A la hora de hablar de campos faltantes, debemos tratar de su detección y de su
tratamiento. La detección de campos faltantes puede parecer sencilla. Si los datos
proceden de una base de datos, basta mirar en la tabla de resumen de
atributos/características y ver la cantidad de nulos que tiene cada atributo. El
problema es que a veces los campos faltantes no están representados como nulos.
Por ejemplo, aunque hay campos en los que las restricciones de integridad del
sistema evitan introducir códigos fuera del formato para representar valores
faltantes, esto al final ocurre en muchos otros, especialmente en campos sin
formato: direcciones o teléfono cono “no tiene”, códigos postales o números de
tarjeta de crédito con valor -1, etc.
A veces son las propias restricciones de integridad las que causan el problema. Por
ejemplo, ¿cuántos sistemas obligan a introducir necesariamente los dos apellidos y
fuerzan a que los extranjeros, por tanto, les pongamos algún valor (“-“) en el
segundo apellido? Este tipo de situaciones complica sobremanera la detección de
valores faltantes. No obstante, son precisamente aquellos casos más difíciles en los

7
Minería de datos
7:00-8:00
que merece la pena realizar más esfuerzo, ya que muchas veces son este tipo de
“nulos camuflados” los que pueden introducir sesgo en el conocimiento extraído.
Tanto para la detección, como para su tratamiento posterior, es importante saber el
porqué de los valores faltantes.
 Algunos valores expresan características relevantes. Por ejemplo, la falta de
teléfono puede representar en muchos casos un deseo de que no se moleste
a la persona en cuestión, o un cambio de domicilio reciente.
 Valores no existentes. Muchos valores faltantes existen en la realidad, pero
otros no. Por ejemplo, el cliente que se acaba de dar de alta no tiene un
registro de accidentes medios de los últimos años.
 Datos incompletos; si los datos vienen de fuentes diferentes, al combinarlos
se suele hacer la unión y no la intersección de campos, con lo que muchos
datos faltantes representan que estas tuplas vienen de una/s fuente/s
diferente/s al resto.
Finalmente, si se han conseguido establecer los datos faltantes e, idealmente, sus
causas, procederemos a su tratamiento. Las posibles acciones sobre datos faltantes
son:
 Ignorar (dejar pasar); algunos algoritmos son robustos a datos faltantes (por
ejemplos arboles de decisión).
 Eliminar (filtrar o reemplazar) toda la columna (es decir quitar el atributo
para todos los ejemplos): solución extrema, pero a veces la proporción de
nulos están alta que la columna no tiene arreglo. Otras veces, existe otra
columna dependiente con datos de mayor de calidad.
 Filtrar la fila: claramente sesga los datos, porque muchas veces las causas
de un dato faltante están relacionadas con casos o tipos especiales.
 Reemplazar el valor: se puede intentar reemplazar el valor manualmente
(en el caso de que no haya muchos) o automáticamente por un valor que
preserve la media o la varianza (globales o por clases/grupos), en el caso de
valores numéricos, o por el valor moda, en el caso de valores nominales. Una
manera más sofisticada de estimar un valor es predecirlo a partir de los otros
ejemplos (esto se llama veces “imputación de datos perdidos”, utilizando
cualquier técnica predictiva de aprendizaje automático (clasificación o
regresión) o técnicas más específicas (por ejemplo, determinar sexo a partir
del nombre). También existen algoritmos que se usan tradicionalmente para
esto, como el algoritmo EM.
 Segmentar: se segmentan las tuplas por los valores que tienen disponibles.
Se obtienen modelos diferentes para cada segmento y luego se combinan.
 Modificar la política de calidad de datos y esperar hasta que los datos
faltantes estén disponibles.
Quizás una de las soluciones anteriores frecuente cuando el algoritmo a utilizar no
maneja bien los nulos, sea reemplazar el valor. Si sustituimos un dato faltante por

8
Minería de datos
7:00-8:00
un dato estimado, hemos de tener en cuenta que, en primer lugar, perdemos
información ya que ya no se sabe que el dato era faltante y, en segundo lugar,
inventamos información, con los riesgos que puedan tener de que sea errónea. El
primer problema también ocurre en el caso de que eliminemos toda columna.
La solución a ambos problemas para por crear un nuevo atributo lógico (booleano)
indicando si el atributo original era nulo o no. Esto permite al proceso y al método
de minería de datos, si son bastante perspicaces, saber que el dato era faltante y,
por tanto, que el valor hay que tomarlo con cautela. En el caso en el que el atributo
original sea nominal no es necesario crear un nuevo atributo, basta con añadir un
valor adicional, denominado “faltante”. Esta es una solución (sin ninguna acción
adicional) bastante frecuente con atributos nominales.
Existen casos excepcionales, por ejemplo, cuando tratamos con datos poco densos
en el sentido de que casi todos los atributos tienen unos niveles muy altos valores
faltantes (por encima del 50%, por ejemplo). Reemplazar o filtrar no parece ser la
solución. En estos casos existen soluciones particulares, por ejemplo intentar
aglutinar varios ejemplos similares en uno solo y describir porcentajes de valores
faltantes, valores medios, desviaciones, etc.

2.1.2 Ruido en los datos.

En cualquier tipo de comunicación, el ruido es algo que hay que evitar, ya que
ensucia el mensaje que se está transmitiendo.
Cuando nos referimos a un modelo de predicción, podemos asumir que las variables
independientes transmiten información sobre la variable dependiente. Dicho de otro
modo, existen variables que comunican información que nos será útil para predecir
la variable de interés.
Ahora bien, no siempre los modelos alcanzan un alto grado de precisión en sus
predicciones debido a distintas razones. Por ejemplo, podría ser que las relaciones
entre las variables independientes y la dependiente no sean lineales y la
herramienta usada para construir el modelo sólo tenga en cuenta relaciones
lineales.
Otra razón que muchas veces escuchamos tiene que ver con el ruido en los datos.
Se suele decir que los datos contienen ruido y esto interfiere con la creación de un
buen modelo. Pero ¿qué es el ruido?
Podemos definir el ruido como una señal aleatoria que se suporpone a la señal
original y confunde al destinatario. Veamos un ejemplo viendo primero una señal sin
ruido y luego con rudio superpuesto.

9
Minería de datos
7:00-8:00
El ruido en los datos puede estar atribuido a errores en la medida, transmisión de
datos, características inherentes a los sistemas de los cuales se obtienen los datos,
etc.
El ruido en los datos, es el error aleatorio o varianza en una variable medida, los
valores de atributos incorrectos se deben a:
 Instrumentos de medición erróneos.
 Problemas en la entrada de datos.
 Problemas en la transmisión.
 Limitaciones tecnológicas.
Supongamos que tenemos la siguiente relación entre dos variables
y = x2 – x + 2
Una tabla de datos que contenga esta relación tendrá dos variables X e Y. La
variable X será la variable independiente e Y la dependiente. Podemos asumir que
X transmite información acerca de Y y un buen modelo será capaz de usar la
información de X para estimar Y.
Si graficamos esta relación veremos que para cada valor de X existe solamente un
valor de Y posible
Los datos podrán contener
varios valores de X iguales,
por ejemplo, varias filas en
donde X es 5, pero en cada
una de estas filas, la
variable Y tendrá el mismo
valor: 22 (que es el
resultado de la ecuación
dada más arriba).
Supongamos ahora que los
datos tienen la siguiente
particularidad: para un
mismo valor de X pueden existir varios valores de Y. O sea, ahora si existen varias
filas en donde X es 5, no necesariamente el valor de Y será en todas ellas 22. Podría
ser que en algunas sea 20, en otras 22 y en otras 30.
El gráfico de estos nuevos datos se verá así:
Estos nuevos datos contienen ruido porque para una misma señal (en nuestro
ejemplo la señal es el valor de X) existen distintos valores que puede tomar la
variable a predecir.

10
Minería de datos
7:00-8:00
El ruido, así como la
información, se mide en
bits. Powerhouse mide el
ruido que contienen los
datos y la información que
queda luego de suprimir el
ruido.
Por ejemplo, si los datos
contaminados con ruido son
analizados con
Powerhouse, resulta que el
58% de la información es
ruido, con lo que sólo el 42%
servirá para estimar exactamente Y. Dicho de otro modo, un modelo construido con
estos datos nunca será lo suficientemente preciso debido a que parte de la
información contiene ruido. Es importante notar que no importa el tipo de
herramienta usada para construir el modelo. Si los datos contienen ruido, el modelo
no será perfecto, y el grado de precisión dependerá justamente del nivel de ruido.

¿Cómo tratar los datos con ruidos?


Existen varios métodos como:
 Método de cubas (Binning method): el cual ordena primeros los datos y
los particiona en cubas de igual profundidad, luego se suaviza por medias de
cubas, frontera de cubas, etc.
 Clustering: Detecta y remueve “outliers”.
 Inspección combinada humano-computadora: Detecta valores
sospechosos automáticamente y los contrasta con opinión humana.
 Regresión: Ajusta los datos a través de funciones de regresión.

11
Minería de datos
7:00-8:00

2.2 Integración y transformación.


En esta sección describiremos dos fases. Una fase de punto de partida, conocida
como fase de integración y recopilación de datos. En esta fase se determinan las
fuentes de información que pueden ser útiles y dónde conseguirlas. Dado que los
datos pueden provenir de diferentes fuentes, pueden contener valores erróneos,
faltantes, inconsistentes, etc. Estas situaciones se tratan en la fase de
transformación, en esta fase se decide la estrategia a seguir con esos datos. A las
dos fases mencionadas se las engloba bajo el nombre de preparación de datos.

2.2.1 Integración de los datos.


La idea de la integración y recopilación de múltiples bases de datos ha dado lugar
a la tecnología de Data warehouse. Este término, muy popular en la actualidad,
hace referencia a la tendencia que se observa en empresas e instituciones de
coleccionar datos de bases de datos transaccionales y otras fuentes diversas,
haciéndolos accesibles para el análisis y la toma de decisiones.
Un Data warehouse (DW) es un repositorio de información coleccionado desde
varias fuentes, almacenado bajo un esquema unificado que normalmente reside en
un único emplazamiento. Los datos que son usados en un DW deben ser extraídos
de sistemas operacionales que contengan los datos fuentes.
La recolección de datos es la etapa inicial durante su creación. La extracción de
datos puede convertirse en una operación simple si los datos residen en una base
de datos relacional, o en una operación muy compleja si los datos residen en
múltiples sistemas operacionales heterogéneos. Los datos fuentes pueden residir

12
Minería de datos
7:00-8:00
en bases de datos personales almacenadas en computadoras individuales o
dispersas. Esto último ocurre especialmente en organizaciones donde la
información que generan crece sin ser concentrada con tecnologías grupales. Lo
normal es que los datos necesarios para poder llevar a cabo el proceso KDD
pertenezcan a diferentes organizaciones, o distintos departamentos de una misma
entidad. Incluso puede ocurrir que algunos datos necesarios para el análisis nunca
hayan sido recolectados por la organización al no ser necesarios para sus
aplicaciones.
En muchos casos tendremos que adquirir además datos externos desde bases de
datos públicas (por ejemplo, datos demográficos o climatológicos) o desde bases
de datos privadas brindadas por otras empresas. El hecho de que los datos sean
recolectados de diferentes fuentes representa un importante desafío, ya que cada
fuente de datos puede usar diferentes formatos de registro, diferentes grados de
agregación de los datos, y considerar diferentes claves primarias, diferentes tipos
de error, etc. El primer paso es integrar todos estos datos.
Existen varias formas de combinar las distintas bases de datos para crear el
repositorio. Una posibilidad es simplemente hacer una copia de las bases de datos
integrantes (eliminando inconsistencias y redundancias). Obviamente, esta
aproximación limita las ventajas para acceder a bases de datos heterogéneas. Por
ello, generalmente los DWs se construyen vía un proceso de integración y
almacenamiento en un nuevo esquema integrado. Lo importante en el proceso de
extracción de datos es llevar todas las fuentes de datos a un formato común y
consistente para proceder con la carga al DW correspondiente.

2.2.2 Transformación de los datos.


Los datos que van a ser usados en el DW pueden ser extraídos de varias fuentes
de datos, por lo que deberán ser transformados a un formato común manteniendo
consistencia e integridad referencial.
Para realizar estas tareas, se crea un área de tratamiento de datos, también
conocida como área de transformación de datos. Si se tratan problemas de
consistencia, por ejemplo, es necesario hacer coincidir nombres, significados,
dominios de datos de las distintas fuentes de datos; por ejemplo, las empresas
fiscales de una sociedad numerosa pueden tener calendarios fiscales diferentes que
acaben en fechas diferentes, haciendo que sea difícil agregar los datos financieros
por trimestre.
Uno de los problemas más frecuentes que se tratan en el área de tratamiento es el
modelado de almacenamiento de los datos. Los DWs son creados basándose en
un modelo multidimensional, pero los datos procedentes de distintas fuentes
generalmente pertenecen a distintos modelos (relacionales, orientados a objetos,
espaciales, temporales, etc.) y deben ser adaptados en el modelo apropiado del
DW.

13
Minería de datos
7:00-8:00
El diseño específico del área de transformación de datos depende, entre otras
cosas, de la diversidad de orígenes de datos y complejidad de la transformación
para organizar la carga al DW. El área de preparación de datos es creada, usada y
separada de los datos originales e incluso muchas veces de la base de datos donde
se crea el DW. Realizar la transformación de los datos en los sistemas de datos
fuentes puede interferir en la performance del procesamiento de transacciones en
línea (OLTP, On-LineTransaction Processing) que será tratado luego. Incluso,
algunos de estos sistemas ni siquiera poseen herramientas de transformaciones.
Además, cuando los datos son recolectados de varias fuentes de datos, no se los
utiliza hasta que sean almacenados en un área de tratamiento, donde los errores
pueden ser fácilmente identificados, tratados y rectificados.
El proceso de transformación incluye, entre sus tareas, la construcción de atributos.
Hablamos en este caso de construir automáticamente nuevos atributos aplicando
alguna operación o función a los atributos originales con el objeto de que estos
nuevos atributos hagan más fácil el proceso de obtener informes avanzados
enriquecedores.
Una fuerte motivación para esta tarea surge cuando los atributos originales no
tienen mucho poder predictivo por sí solos o los patrones dependen de variaciones
lineales de las variables originales. Por ejemplo, el precio de las viviendas de una
zona se puede estimar más fácilmente a partir de la densidad de población de la
zona, en vez de considerar la población absoluta y de su superficie, entonces es
razonable derivar el atributo densidad de población de los otros dos.
Otro ejemplo, sería el caso en el cual, en base al número de documento de las
personas, se obtiene una estimación de las edades aproximadas de cada una de
ellas (asumiendo que este dato es desconocido), para alguna aplicación particular
de minería de datos en la que esta información puede ser relevante. El tipo de los
datos también puede modificarse para facilitar el uso de técnicas que requieren tipos
de datos específicos. Así, algunos atributos podrán ser “numerados” para reducir el
espacio y poder usar técnicas numéricas.
Por ejemplo, podemos reemplazar los valores del atributo “sexo” por números
enteros. El proceso inverso consiste en discretizar los atributos continuos, es decir,
transformar val-ores numéricos en atributos discretos o nominales. Los atributos
discretizados pueden tratarse como atributos categóricos con un número más
pequeño de valores. La idea básica es partir de los valores de un atributo continuo
en una pequeña lista de intervalos, tal que, cada intervalo es visto como un valor
discreto del atributo.
Otras transformaciones típicas incluyen las siguientes tareas: unificación de
nombres de campos ,división de las fechas en campos separados (por ejemplo, año,
mes y día), mapeos de una representación a otra (por ejemplo, los valores
booleanos “true” y “false” a “1” y “0” respectivamente); también códigos numéricos
a campos de textos, mapeos de múltiples representaciones a una única (por

14
Minería de datos
7:00-8:00
ejemplo, unificar los formatos de los números de teléfonos a una representación
común).Una vez realizados los pasos descriptos previamente, los datos están listos
para ser cargados al DW, en la etapa denominada carga de datos.
El proceso tradicional de base de datos más parecido a la carga de un DW es el
proceso de “migración”, aunque a diferencia de éste, existe un “mantenimiento”
posterior. En realidad, la carga y mantenimiento de un DW es uno de los aspectos
más delicados y que más esfuerzo requiere y, de hecho, suele existir un sistema
especializado para realizar estas tareas, denominado sistema ETL (en inglés,
Extraction,Transformation,Load). Dicho sistema no se compra en el supermercado
ni se descarga de Internet, sino que es responsabilidad del equipo de desarrollo del
DW y se realiza específicamente para cada DW.

15
Minería de datos
7:00-8:00

2.3 Discretización de datos y jerarquías conceptuales.


Discretización de datos.
La discretización, o cuantización (también llamada “binning”) es la conversión de un
valor numérico en un valor nominal ordenado (que representa un intervalo o “bin”).
Por ejemplo, convertir una nota o calificación de 0 a 10 en una serie de valores
ordenados {suspenso (0:4, 99), aprobado (5:6, 99), notable (7:8, 49), sobresaliente
(8, 5:9, 99), matrícula de honor (10)} es un ejemplo de discretización. En teoría,
como hemos dicho, la discretización por intervalos genera un ordinal, es decir, un
nominal ordenado. No obstante, el orden del atributo nominal puede ser preservado
y utilizado por los pasos subsiguientes o bien pueden olvidarse y tratarse el atributo
como un valor nominal sin orden.
La discretización, en general, se realiza cuando el error en la medida puede ser
grande o existen ciertos umbrales significativos. El caso de las notas es,
probablemente, el más ilustrativo: la diferencia numérica entre 4,99 y 5 es mínima y
equivalente a la diferenci9a numérica entre 3,99 y 4,00. Sin embargo, la primera
diferencia (según el sistema de califiacio0nes tradicional en España) significa pasar
de suspenso a aprobado, de consecuencias más que jubilosas para los alumnos.
Otra razón importante para discretizar es la integración de escalas diferentes. Por
ejemplo, en ciertos países de Latinoamérica, como, por ejemplo, El Salvador, el
aprobado empieza en 6 y no en 5, como en España. En el caso de tener notas de
varios países sería preferible integrarlas todas en algún tipo de escala común. Una
escala discreta, en este caso, más sencilla de realizar.
Existen más razones para discretizar como, por ejemplo, el hecho de que las
diferencias en ciertas zonas del rango de valores sean más importantes que en otras
o, dicho más técnicamente, cuando la interpretación de la medida no sea lineal. Por
ejemplo, si tomamos las medidas de luz en una casa domótica, nos puede interesar
más que tener una escala numérica de 0 a 1,000 volúmenes, tener una simple
escala discreta: {oscuro (0:170), penumbroso (170:200), luminoso (200:1000) }, que
puede ser mucho más practico de cara a la obtención de modelos.
Una última razón y, quizá la más obvia, es cuando tenemos algunos atributos
nominales y otros numéricos, y queremos que todos sean nominales para, por
ejemplo, establecer reglas de asociación.
En general, si no conocemos el atributo que queremos discretizar o queremos
realizar la discretización de muchos atributos nos podemos ayudar de técnicas que
nos indican, principalmente, dónde hay que separar los intervalos y cuántos hay que
obtener, ya que existen infinitas posibilidades.

16
Minería de datos
7:00-8:00
Otra forma de explicar el binning.
Binning es una forma de agrupar una cantidad de valores más o menos continuos
en un número menor de "bins". Por ejemplo, si tiene datos sobre un grupo de
personas, es posible que desee organizar sus edades en un menor número de
intervalos de edad. Las columnas numéricas también se pueden agrupar
temporalmente haciendo clic con el botón derecho en un selector de columna y
haciendo clic en Columna de contenedor automático.
También hay una opción para agrupar valores categóricos en compartimientos. Esto
es útil cuando tiene más valores categóricos en una columna de los que considera
necesarios. Su visualización puede, por ejemplo, mostrar las ventas de manzanas,
peras, naranjas y limas, pero está interesado en las ventas de cítricos en
comparación con venta de manzanas y peras. Entonces las naranjas y las limas se
pueden agrupar en un recipiente.
Nota: Un caso de uso especial de este método de agrupación es agrupar valores
que son erróneos o diferir debido a otros motivos. Por ejemplo, si una columna
contiene valores como "apple" y "appel", o "UK" y "Reino Unido", puede agrupar
estos valores en contenedores.
Ejemplo de binning de datos continuos:
La tabla de datos contiene información sobre varias personas.

Al agrupar la edad de las personas en una nueva columna, los datos se pueden
visualizar para los diferentes grupos de edad en lugar de para cada individuo.

17
Minería de datos
7:00-8:00

Ejemplo de binning de datos categóricos


El gráfico circular muestra las ventas por manzanas, limas, naranjas y peras.

Debajo de las naranjas y las limas se han agrupado en un contenedor llamado


"Citrus".

18
Minería de datos
7:00-8:00
Binning sin supervisión
Los métodos de agrupamiento no supervisados transforman las variables numéricas
en contrapartes categóricas, pero no utilizan la información de destino (clase). Equal
Width y Equal Frequency son dos métodos de binning no supervisados.
1- Equal Width Binning
El algoritmo divide los datos en k intervalos de igual tamaño. El ancho de los
intervalos es:
w = (max-min) / k
Y los límites del intervalo son:
min + w, min + 2w, ..., min + (k-1) w
2- Binning de frecuencia igual
El algoritmo divide los datos en k grupos que cada grupo contiene aproximadamente
el mismo número de valores. Para ambos métodos, la mejor forma de determinar k
es mirando el histograma y probando diferentes intervalos o grupos.
Ejemplo:

19
Minería de datos
7:00-8:00
3- Otros métodos
♣ Rango: el rango de un número es su tamaño relativo a otros valores de una
variable numérica. Primero, ordenamos la lista de valores, luego asignamos
la posición de un valor como su rango. Los mismos valores reciben el mismo
rango, pero la presencia de valores duplicados afecta a los rangos de los
valores posteriores (por ejemplo, 1,2,3,3,5). El rango es un método de
agrupamiento sólido con un inconveniente importante, los valores pueden
tener diferentes rangos en diferentes listas.
♣ Quantiles (mediana, cuartiles, percentiles, ...): Los cuantiles también son
métodos de agrupamiento muy útiles, pero al igual que Rank, un valor puede
tener un cuantil diferente si la lista de valores cambia.
♣ Funciones matemáticas: por ejemplo, FLOOR (LOG (X)) es un método
eficaz de agrupamiento para las variables numéricas con una distribución
muy sesgada (por ejemplo, ingresos).

20
Minería de datos
7:00-8:00
Jerarquías conceptuales.
Por lo general, los datos se pueden abstraer en diferentes niveles conceptuales. Los
datos sin procesar en una base de datos se llaman primitivos y se dice que el
conocimiento está en un nivel primitivo, si se descubre utilizando solo datos brutos.
El descubrimiento del conocimiento en el nivel primitivo ha sido estudiado
ampliamente. Por ejemplo, la mayoría de las herramientas estadísticas para el
análisis de datos se basan en los datos brutos de un conjunto de datos.
Resumir los datos sin procesar a un nivel conceptual más elevado, y descubrir y
expresar el conocimiento a niveles de abstracción más elevados, tiene ventajas
superiores a las de la extracción de datos en un nivel primitivo.
Las jerarquías conceptuales se pueden usar en el procesamiento de todas las
tareas establecidas en la última sección. Para una tarea típica de minería de datos,
se deben ejecutar los siguientes pasos básicos y las jerarquías conceptuales
desempeñan un papel clave en estos pasos:
 Recuperación del conjunto de datos relacionados con la tarea.
Generación de un cubo de datos.
 Generalización de datos brutos a un nivel de abstracción más alto.
 Mayor generalización o especialización. Extracción de reglas de niveles
múltiples.
 Visualización del conocimiento descubierto.
Antes de pasar a la siguiente sección, cabe señalar que las jerarquías conceptuales
también tienen una importancia fundamental en las técnicas de almacenamiento de
datos. En un sistema típico de almacenamiento de datos, las dimensiones se
organizan en forma de jerarquías conceptuales. Por lo tanto, el despliegue y
desglose de operaciones OLAP se puede realizar por generalización y
especialización de conceptos (o datos).

21
Minería de datos
7:00-8:00

2.4 Reducción de datos.


Las técnicas de reducción de datos se orientan a obtener una representación
reducida de los datos originales, manteniendo en la mayor medida posible la
integridad y la información existente en los datos. Es por esta razón que la aplicación
de técnicas de reducción no se considera estrictamente obligatoria. Sin embargo,
cuando el tiempo de ejecución de un algoritmo o el tamaño de los datos son
prohibitivos para los algoritmos de extracción, estas técnicas deben ser aplicadas
para obtener conjuntos de datos más pequeños y de calidad.
La Figura X muestra las diferentes técnicas que se pueden emplear para llevar a
cabo la reducción de datos:

Reducción
de datos

Discretización
Selección de Selección de
de Agrupamiento Compactación
caracteristicas instancias
características

 Selección de características: La selección de características es una parte


importante del aprendizaje automático, esta hace referencia al proceso de
reducir las entradas para su procesamiento y análisis, o de encontrar las
entradas más significativas. Un término relacionado, ingeniería de
características (o extracción de características), hace referencia al proceso
de extraer información útil o características de datos existentes.
La selección de
características no
solo mejora la calidad
del modelo, sino que
también hace que el
proceso de modelado
sea más eficiente.
Si usa columnas
Ilustración 1:"Representación de la selección de características".
innecesarias al
generar el
modelo, se necesitará más CPU y memoria durante el proceso de entrenamiento,
así como más espacio de almacenamiento para el modelo completado. Incluso si
los recursos no son un problema, se recomienda realizar la selección de
características para identificar las mejores columnas, ya que las columnas
innecesarias pueden reducir la calidad del modelo de varias formas:

22
Minería de datos
7:00-8:00
 Los datos redundantes o poco relevantes hacen que resulte más difícil
detectar patrones significativos.
 Si el conjunto de datos es de dimensiones elevadas, la mayoría de los
algoritmos de minería de datos necesitarán un conjunto de datos de
aprendizaje mucho más grande.

Ilustración 2:"Proceso clásico de la selección de características"

Una manera de clasificar un poco de manera exhaustiva a la selección de


características puede ser:

 Métodos de completitud: En este grupo encontramos aquellas técnicas que


emplean búsqueda completa, cubriendo totalmente el espacio de búsqueda.
La Tabla 1 presenta diferentes algoritmos siguiendo esta estrategia.
 Métodos Heurísticos: Son técnicas caracterizadas por sacrificar la promesa
del subconjunto solución óptimo a fin de obtener una solución rápida. Para
ello emplean el conocimiento disponible para dirigir la búsqueda. En la Tabla
2 se muestran algunos de estos métodos.
 Métodos Estocásticos: Este tipo de técnicas permiten la búsqueda del
subconjunto de características óptimo mediante la generación aleatoria de
subconjuntos. En la Tabla 3 aparecen reflejados algunos de estos métodos.
 Métodos Ponderando Características: Este tipo de técnicas se distinguen
por no llevar a cabo ningún tipo de selección de forma explícita. En lugar de
eso asocian a cada característica un valor de ponderación con el cual podrán
modificar su participación en el posterior proceso de aprendizaje automático.
La Tabla 4 muestra diferentes métodos que siguen esta orientación.

23
Minería de datos
7:00-8:00

 Selección de instancias: La
selección de instancias consiste en
escoger las muestras más
representativas de un conjunto
determinado. Disminuyendo el
conjunto inicial de datos se consigue
reducir tanto la complejidad en tiempo
de cálculo, como los recursos de
almacenamiento. La eliminación de
instancias no tiene porqué producir
una degradación de los resultados, ya que podemos estar eliminando
ejemplos repetidos o ruido.

24
Minería de datos
7:00-8:00
La selección de instancias se puede llevar a cabo siguiendo diferentes vías,
como podemos ver en la Figura X:

 Discretización de características.
La discretización es el proceso mediante el cual los valores de una variable
continua se incluyen en contenedores, intervalos o grupos, con el objetivo de
que haya un número limitado de estados posibles. Los contenedores se
tratarán entonces como si fueran categorías.

La discretización es una tarea habitual en los procesos de minería de datos


puesto que muchos algoritmos de clasificación requieren que sus atributos
sean discretizados, bien porque solo aceptan valores nominales, bien porque
trabajar con atributos nominales en lugar de continuos disminuye el coste
computacional y acelera el proceso inductivo. Además, la discretización de
atributos puede, en ocasiones, mejorar el rendimiento de un clasificador.

Se puede clasificar las diferentes técnicas de la siguiente forma:

 Combinación: Se sigue una estrategia de abajo hacia arriba.


Consiste en comenzar con la lista completa de valores continuos
utilizándolos como puntos de corte e ir eliminándolos mediante
combinaciones sucesivas entre ellos conforme el proceso de
discretización progresa.

25
Minería de datos
7:00-8:00
 División: La estrategia seguida en este conjunto de técnicas es de
arriba hacia abajo. De esta forma, se comienza con un conjunto vacío
de puntos de corte y se van añadiendo nuevos por división del espacio
continuo mientras el proceso progresa.

 Agrupamiento.
El proceso típico de agrupamiento consta de las siguientes etapas:

 Definición de la representación de las instancias. Habría que concretar


el número de grupos a crear, el número de prototipos disponibles y el
número, tipo y escala de las características de cada patrón.
 Definición de la medida de proximidad entre instancias según el
dominio de los datos. Se pueden emplear diferentes tipos de medidas,
como puede ser la distancia euclídea, que refleja diferencias entre
prototipos. Otras medidas alternativas dependiendo del algoritmo
empleado pueden ser la distancia de Mahalanobis, la distancia de
Hausdor, etc.
 Separación en los diferentes grupos. La obtención de los grupos se
puede llevar a cabo de diferentes formas.

 Compactación.
Formalmente podemos describir la compactación de datos como un mecanismo
de compresión que pretende conservar información estadística. La idea
fundamental es muy simple, guardar la mayor cantidad de datos posibles en la
menor cantidad de espacio posible. Los algoritmos de compresión a lo largo de
la historia fueron progresando comprimiendo cada vez más.

26
Minería de datos
7:00-8:00

2.4.1 Cubo de datos.


Los cubos son elementos claves en OLAP (online analytic processing), una
tecnología que provee rápido acceso a datos en un almacén de datos (data
warehouse). Los cubos proveen un mecanismo para buscar datos con rapidez y
tiempo de respuesta uniforme independientemente de la cantidad de datos en el
cubo o la complejidad del procedimiento de búsqueda.

Los cubos son subconjuntos de datos de un almacén de datos, organizado y


resumidos dentro de una estructura multidimensional. Los datos se resumen de
acuerdo a factores de negocio seleccionados, proveyendo el mecanismo para la
rápida y uniforme tiempo de respuesta de las complejas consultas.
Para los cubos, se ofrece tres formas de almacenar su información:
1.- MOLAP – Multidimensional OLAP.
Los datos fuente del cubo son almacenados junto con sus agregaciones
(sumarizaciones) en una estructura multidimensional de alto rendimiento. El
almacenaje de MOLAP, provee excelente rendimiento y compresión de datos. Tiene
el mejor tiempo de respuesta, dependiendo solo en el porcentaje y diseño de las
agregaciones del cubo. En general este método, es muy apropiado para cubos con
uso frecuente por su rápida respuesta.
2.- ROLAP – Relacional OLAP.
Toda la información del cubo, sus datos, su agregación, sumas etc., son
almacenados en una base de datos relacional. ROLAP no almacena copia de la
base de datos, accesa las tablas originales cuando necesita responder a preguntas,
es generalmente, mucho más lenta que las otras dos estrategias de almacenaje.
Típicamente ROLAP se usa, para largos conjuntos de datos que no son
frecuentemente buscados, tales como datos históricos de los años más recientes.

27
Minería de datos
7:00-8:00

3.- HOLAP – OLAP híbrido.


HOLAP es generalmente usado para cubos que requieren rápida respuesta, para
sumarizaciones basadas en una gran cantidad de datos. Constituye un sistema
híbrido entre MOLAP y ROLAP, que combina estas dos implementaciones.
Los datos agregados y precalculados se almacenan en estructuras
multidimensionales y los de menor nivel de detalle en estructuras relacionales. Es
decir:
 Se utilizará ROLAP para navegar y explorar los datos a bajos niveles de
granularidad y
 Se utilizará MOLAP para la explotación de datos pre-calculados, por lo
general sumatorias o funciones de alto de nivel de agregación.

2.4.2 Subconjuntos de atributos.


Se tratan los siguientes temas:
 ¿Por qué hacer selección de atributos? Principalmente por tres razones: la
existencia de atributos irrelevantes, la existencia de atributos redundantes y la
maldición de la dimensionalidad. La primera puede producir problemas de sobre
aprendizaje además de hacer más confusos los modelos resultantes. La segunda
es nociva para ciertos algoritmos de aprendizaje. La tercera es una cuestión a tener
en cuenta cuando hay pocos datos en relación a la presencia de muchos atributos.
 Una cuestión importante en selección de atributos es que en algunos problemas
puede ocurrir que algunos atributos no estén correlacionados con la clase por
separado pero si cuando actúan juntos, por lo que el objetivo último de la selección
es encontrar el subconjunto de atributos más apropiado.
 Para definir un método de selección de atributos es necesario definir un espacio
de búsqueda y un método de evaluación de la calidad de los subconjuntos.
 Se clasifican los métodos de selección en dos tipos principales: ranking y selección
de subconjuntos.

2.4.3 Reducción de dimensiones.


Las razones por las que nos interesa reducir la dimensionalidad son varias:
 Porque interesa identificar y eliminar las variables irrelevantes.
 Porque no siempre el mejor modelo es el que más variables tiene en cuenta.
 Porque se mejora el rendimiento computacional, lo que se traduce en un
ahorro en coste y tiempo.
 Porque se reduce la complejidad, lo que lleva a facilitar la comprensión del
modelo y sus resultados.

28
Minería de datos
7:00-8:00

Conclusión.
La minería de datos es solo una parte de un proceso más completo conocido como
Descubrimiento del conocimiento de datos (KDD por sus siglas en inglés), y como
todo proceso, sigue una secuencia definida, en esta unidad hemos visto lo referente
a la primera parte de la cadena, la cual es la agrupación, ordenamiento y limpieza
de los datos para posteriormente ser transformados en una base minable de la cual
se puede extraer la información que necesitamos para para toma de decisiones que
la empresa necesita.
Aunque el temario toma la limpieza de los datos como la primera parte a ser
estudiada, lo primero es la agrupación de los datos, reunir los datos de diferentes
lugares, documentos, toda la información que necesitamos se encuentra en
diferentes formatos y con diferentes formas de ser ubicada, por lo que una vez que
tenemos los datos agrupados es necesario ordenarlos, encontrar cuales son los
datos que se repiten, los datos que pertenecen a la misma sección pero tienen
diferentes nombres, etc.
Cuando ya hemos ordenado los datos, podremos pasar a la parte de la limpieza, la
cual consistirá en eliminar todo aquel dato no necesario para nuestros intereses,
datos que una vez que hemos tomado la parte necesaria se vuelven innecesarios,
o datos repetidos que se puedan encontrar en las diferentes bases o documentos
de los cuales estemos extrayendo los datos, por ultimo nos queda la reducción de
los datos, el convertir todo ese conjunto de múltiples datos en bruto, a una base
sólida con un mismo orden y estructura.
Corresponderá ahora la parte de la minería de datos, la parte que por fin nos dará
las estadísticas que buscamos y que nos serán arrojadas como información
obtenida de todo ese conjunto de datos extraídos.

29
Minería de datos
7:00-8:00

Bibliografía
García, S., Ramírez Gallego, S., Luengo, J., & Herrera, F. (s.f.). Big Data:
Preprocesamiento y calidad de datos.

Hernández Orallo, J., Ramírez Quintana, M. J., & Ferri Ramírez, C. (2004).
Introducción a la Minería de Datos. Pearson.

Herrera, F., & Cano, J. (2006). Técnicas de reducción de datos en KDD. el uso de
algoritmos evolutivos para la selección de instancias. Madrid:
UniversidadRey Juan Carlos.

Lu, Y. (19997). Concept Hierarchy in Data Mining: Specification, Generation and


Implementation.

Linkografía
https://www.researchgate.net/publication/266445601_Preparacion_de_los_datos_
en_el_proceso_KDD
http://sci2s.ugr.es/sites/default/files/ficherosPublicaciones/2133_Nv237-Digital-
sramirez.pdf
http://www.lsi.us.es/redmidas/IIreunion/trans/prepro.pdf
https://www.mindmeister.com/es/32276741/pre-procesamiento-de-
datos?fullscreen=1
https://blog.powerdata.es/el-valor-de-la-gestion-de-datos/preprocesar-y-
normalizar-datos-4-pasos-para-limpiar-y-mejorar-datos
https://es.wikipedia.org/wiki/Limpieza_de_datos
http://cs.uns.edu.ar/~cic/dm2007/downloads/transparencias/06_Sobre_Preprocesa
miento_datos.pdf
https://www.gestiopolis.com/olap-y-el-diseno-de-cubos/
https://docs.microsoft.com/es-es/sql/analysis-services/data-mining/feature-
selection-data-mining?view=sql-server-2017
https://docs.tibco.com/pub/spotfire/7.0.1/doc/html/bin/bin_what_is_binning.htm

30

También podría gustarte