Preprocesamiento de Datos en Minería
Preprocesamiento de Datos en Minería
MINERÍA DE DATOS
DOCENTE:
EQUIPO:
Índice
Introducción ............................................................................................................. 2
Unidad 2 – Preprocesamiento de datos .................................................................. 3
2.1 Limpieza de datos. ......................................................................................... 5
2.1.1 Valores faltantes. ..................................................................................... 7
2.1.2 Ruido en los datos. .................................................................................. 9
2.2 Integración y transformación. ....................................................................... 12
2.2.1 Integración de los datos. ........................................................................ 12
2.2.2 Transformación de los datos. ................................................................. 13
2.3 Discretización de datos y jerarquías conceptuales. ..................................... 16
2.4 Reducción de datos. .................................................................................... 22
2.4.1 Cubo de datos. ...................................................................................... 27
2.4.2 Subconjuntos de atributos. .................................................................... 28
2.4.3 Reducción de dimensiones. ................................................................... 28
Conclusión............................................................................................................. 29
Bibliografía ............................................................................................................ 30
Linkografía............................................................................................................. 30
1
Minería de datos
7:00-8:00
Introducción
En los últimos años, el crecimiento masivo en la escala de los datos está siendo un
factor clave en el actual escenario de procesamiento de datos. La eficacia de los
algoritmos de extracción de conocimiento depende en gran medida de la calidad de
los datos, la cual puede ser garantizada por los algoritmos de preprocesamiento.
Inmensas cantidades de información nos rodean en la actualidad. Tecnologías
como Internet generan datos a un ritmo exponencial gracias al abaratamiento y gran
desarrollo del almacenamiento y los recursos de red. El volumen actual de datos ha
superado las capacidades de procesamiento de los sistemas clásicos de minería de
datos.
En el proceso de la recopilación de los datos debe existir una limpieza e integración
de los mismos, para que éstos estén en condiciones para su análisis. Los beneficios
del análisis y de la extracción de conocimiento a partir de datos dependen, en gran
medida, de la calidad de los datos recopilados. Además, generalmente, debido a las
características propias de las técnicas de minería de datos, es necesario realizar
una transformación de los datos para obtener una “materia prima” que sea
adecuada para el propósito concreto y las técnicas que se quieren emplear.
En definitiva, el éxito de un proceso de minería de datos depende, no solo de tener
todos los datos necesarios (una buena recopilación), sino de que estos estén
íntegros, completos y consistentes (una buena limpieza e integración).
2
Minería de datos
7:00-8:00
3
Minería de datos
7:00-8:00
4
Minería de datos
7:00-8:00
5
Minería de datos
7:00-8:00
entrada de datos, la disposición del teclado puede ayudar en la solución de
posibles problemas.
Ejecución de Workflow: En esta etapa, el workflow es ejecutado después
de que su especificación es completa y su corrección es verificada. The
implementación del workflow debería ser eficiente aún sobre los juegos
grandes de los datos que inevitablemente plantean una compensación,
porque la ejecución de la operación limpiadora puede ser cara.
Post-Proceso y Control: Los datos que no podían ser corregidos durante la
ejecución del workflow deberán ser corregidos manualmente, de ser posible.
El resultado es un nuevo ciclo en el proceso de limpieza de datos donde los
datos son revisados nuevamente para ajustarse a las especificaciones de un
workflow adicional y realizar un tratamiento automático.
Métodos más usados
Análisis: El análisis en la limpieza de datos, es realizado para la detección
de errores de sintaxis. Un analizador gramatical decide si una cuerda de
datos es aceptable dentro de la especificación de datos permitida. Esto es
similar al modo que un analizador gramatical trabaja con gramáticas y
lenguas.
Transformación de Datos: La Transformación de Datos permite al trazar un
mapa de datos, en el formato esperado. Esto incluye conversiones de valor
o funciones de traducción, así como normalización de valores numéricos para
conformarse a valores mínimos y máximos.
Eliminación de duplicados: La detección de duplicados requiere un
algoritmo para determinar si los datos contienen representaciones dobles de
la misma entidad. Por lo general, los datos son ordenados por un dato "llave"
o "pivote" que permite la identificación más rápida.
Método Estadístico: Incluye analizar los datos usando promedios,
desviación estándar, rangos, o algoritmos de clúster, este análisis se realiza
por expertos que identifican errores. Aunque la corrección de datos sea difícil
ya que no saben el valor verdadero, pueden ser resueltos poniendo los
valores a un promedio u otro valor estadístico. Los métodos estadísticos
también pueden ser usados para manejar los valores que fallan, que pueden
ser substituidos por uno o varios valores posibles que por lo general son
obtenidos por algoritmos de aumento de datos extensos...
6
Minería de datos
7:00-8:00
7
Minería de datos
7:00-8:00
que merece la pena realizar más esfuerzo, ya que muchas veces son este tipo de
“nulos camuflados” los que pueden introducir sesgo en el conocimiento extraído.
Tanto para la detección, como para su tratamiento posterior, es importante saber el
porqué de los valores faltantes.
Algunos valores expresan características relevantes. Por ejemplo, la falta de
teléfono puede representar en muchos casos un deseo de que no se moleste
a la persona en cuestión, o un cambio de domicilio reciente.
Valores no existentes. Muchos valores faltantes existen en la realidad, pero
otros no. Por ejemplo, el cliente que se acaba de dar de alta no tiene un
registro de accidentes medios de los últimos años.
Datos incompletos; si los datos vienen de fuentes diferentes, al combinarlos
se suele hacer la unión y no la intersección de campos, con lo que muchos
datos faltantes representan que estas tuplas vienen de una/s fuente/s
diferente/s al resto.
Finalmente, si se han conseguido establecer los datos faltantes e, idealmente, sus
causas, procederemos a su tratamiento. Las posibles acciones sobre datos faltantes
son:
Ignorar (dejar pasar); algunos algoritmos son robustos a datos faltantes (por
ejemplos arboles de decisión).
Eliminar (filtrar o reemplazar) toda la columna (es decir quitar el atributo
para todos los ejemplos): solución extrema, pero a veces la proporción de
nulos están alta que la columna no tiene arreglo. Otras veces, existe otra
columna dependiente con datos de mayor de calidad.
Filtrar la fila: claramente sesga los datos, porque muchas veces las causas
de un dato faltante están relacionadas con casos o tipos especiales.
Reemplazar el valor: se puede intentar reemplazar el valor manualmente
(en el caso de que no haya muchos) o automáticamente por un valor que
preserve la media o la varianza (globales o por clases/grupos), en el caso de
valores numéricos, o por el valor moda, en el caso de valores nominales. Una
manera más sofisticada de estimar un valor es predecirlo a partir de los otros
ejemplos (esto se llama veces “imputación de datos perdidos”, utilizando
cualquier técnica predictiva de aprendizaje automático (clasificación o
regresión) o técnicas más específicas (por ejemplo, determinar sexo a partir
del nombre). También existen algoritmos que se usan tradicionalmente para
esto, como el algoritmo EM.
Segmentar: se segmentan las tuplas por los valores que tienen disponibles.
Se obtienen modelos diferentes para cada segmento y luego se combinan.
Modificar la política de calidad de datos y esperar hasta que los datos
faltantes estén disponibles.
Quizás una de las soluciones anteriores frecuente cuando el algoritmo a utilizar no
maneja bien los nulos, sea reemplazar el valor. Si sustituimos un dato faltante por
8
Minería de datos
7:00-8:00
un dato estimado, hemos de tener en cuenta que, en primer lugar, perdemos
información ya que ya no se sabe que el dato era faltante y, en segundo lugar,
inventamos información, con los riesgos que puedan tener de que sea errónea. El
primer problema también ocurre en el caso de que eliminemos toda columna.
La solución a ambos problemas para por crear un nuevo atributo lógico (booleano)
indicando si el atributo original era nulo o no. Esto permite al proceso y al método
de minería de datos, si son bastante perspicaces, saber que el dato era faltante y,
por tanto, que el valor hay que tomarlo con cautela. En el caso en el que el atributo
original sea nominal no es necesario crear un nuevo atributo, basta con añadir un
valor adicional, denominado “faltante”. Esta es una solución (sin ninguna acción
adicional) bastante frecuente con atributos nominales.
Existen casos excepcionales, por ejemplo, cuando tratamos con datos poco densos
en el sentido de que casi todos los atributos tienen unos niveles muy altos valores
faltantes (por encima del 50%, por ejemplo). Reemplazar o filtrar no parece ser la
solución. En estos casos existen soluciones particulares, por ejemplo intentar
aglutinar varios ejemplos similares en uno solo y describir porcentajes de valores
faltantes, valores medios, desviaciones, etc.
En cualquier tipo de comunicación, el ruido es algo que hay que evitar, ya que
ensucia el mensaje que se está transmitiendo.
Cuando nos referimos a un modelo de predicción, podemos asumir que las variables
independientes transmiten información sobre la variable dependiente. Dicho de otro
modo, existen variables que comunican información que nos será útil para predecir
la variable de interés.
Ahora bien, no siempre los modelos alcanzan un alto grado de precisión en sus
predicciones debido a distintas razones. Por ejemplo, podría ser que las relaciones
entre las variables independientes y la dependiente no sean lineales y la
herramienta usada para construir el modelo sólo tenga en cuenta relaciones
lineales.
Otra razón que muchas veces escuchamos tiene que ver con el ruido en los datos.
Se suele decir que los datos contienen ruido y esto interfiere con la creación de un
buen modelo. Pero ¿qué es el ruido?
Podemos definir el ruido como una señal aleatoria que se suporpone a la señal
original y confunde al destinatario. Veamos un ejemplo viendo primero una señal sin
ruido y luego con rudio superpuesto.
9
Minería de datos
7:00-8:00
El ruido en los datos puede estar atribuido a errores en la medida, transmisión de
datos, características inherentes a los sistemas de los cuales se obtienen los datos,
etc.
El ruido en los datos, es el error aleatorio o varianza en una variable medida, los
valores de atributos incorrectos se deben a:
Instrumentos de medición erróneos.
Problemas en la entrada de datos.
Problemas en la transmisión.
Limitaciones tecnológicas.
Supongamos que tenemos la siguiente relación entre dos variables
y = x2 – x + 2
Una tabla de datos que contenga esta relación tendrá dos variables X e Y. La
variable X será la variable independiente e Y la dependiente. Podemos asumir que
X transmite información acerca de Y y un buen modelo será capaz de usar la
información de X para estimar Y.
Si graficamos esta relación veremos que para cada valor de X existe solamente un
valor de Y posible
Los datos podrán contener
varios valores de X iguales,
por ejemplo, varias filas en
donde X es 5, pero en cada
una de estas filas, la
variable Y tendrá el mismo
valor: 22 (que es el
resultado de la ecuación
dada más arriba).
Supongamos ahora que los
datos tienen la siguiente
particularidad: para un
mismo valor de X pueden existir varios valores de Y. O sea, ahora si existen varias
filas en donde X es 5, no necesariamente el valor de Y será en todas ellas 22. Podría
ser que en algunas sea 20, en otras 22 y en otras 30.
El gráfico de estos nuevos datos se verá así:
Estos nuevos datos contienen ruido porque para una misma señal (en nuestro
ejemplo la señal es el valor de X) existen distintos valores que puede tomar la
variable a predecir.
10
Minería de datos
7:00-8:00
El ruido, así como la
información, se mide en
bits. Powerhouse mide el
ruido que contienen los
datos y la información que
queda luego de suprimir el
ruido.
Por ejemplo, si los datos
contaminados con ruido son
analizados con
Powerhouse, resulta que el
58% de la información es
ruido, con lo que sólo el 42%
servirá para estimar exactamente Y. Dicho de otro modo, un modelo construido con
estos datos nunca será lo suficientemente preciso debido a que parte de la
información contiene ruido. Es importante notar que no importa el tipo de
herramienta usada para construir el modelo. Si los datos contienen ruido, el modelo
no será perfecto, y el grado de precisión dependerá justamente del nivel de ruido.
11
Minería de datos
7:00-8:00
12
Minería de datos
7:00-8:00
en bases de datos personales almacenadas en computadoras individuales o
dispersas. Esto último ocurre especialmente en organizaciones donde la
información que generan crece sin ser concentrada con tecnologías grupales. Lo
normal es que los datos necesarios para poder llevar a cabo el proceso KDD
pertenezcan a diferentes organizaciones, o distintos departamentos de una misma
entidad. Incluso puede ocurrir que algunos datos necesarios para el análisis nunca
hayan sido recolectados por la organización al no ser necesarios para sus
aplicaciones.
En muchos casos tendremos que adquirir además datos externos desde bases de
datos públicas (por ejemplo, datos demográficos o climatológicos) o desde bases
de datos privadas brindadas por otras empresas. El hecho de que los datos sean
recolectados de diferentes fuentes representa un importante desafío, ya que cada
fuente de datos puede usar diferentes formatos de registro, diferentes grados de
agregación de los datos, y considerar diferentes claves primarias, diferentes tipos
de error, etc. El primer paso es integrar todos estos datos.
Existen varias formas de combinar las distintas bases de datos para crear el
repositorio. Una posibilidad es simplemente hacer una copia de las bases de datos
integrantes (eliminando inconsistencias y redundancias). Obviamente, esta
aproximación limita las ventajas para acceder a bases de datos heterogéneas. Por
ello, generalmente los DWs se construyen vía un proceso de integración y
almacenamiento en un nuevo esquema integrado. Lo importante en el proceso de
extracción de datos es llevar todas las fuentes de datos a un formato común y
consistente para proceder con la carga al DW correspondiente.
13
Minería de datos
7:00-8:00
El diseño específico del área de transformación de datos depende, entre otras
cosas, de la diversidad de orígenes de datos y complejidad de la transformación
para organizar la carga al DW. El área de preparación de datos es creada, usada y
separada de los datos originales e incluso muchas veces de la base de datos donde
se crea el DW. Realizar la transformación de los datos en los sistemas de datos
fuentes puede interferir en la performance del procesamiento de transacciones en
línea (OLTP, On-LineTransaction Processing) que será tratado luego. Incluso,
algunos de estos sistemas ni siquiera poseen herramientas de transformaciones.
Además, cuando los datos son recolectados de varias fuentes de datos, no se los
utiliza hasta que sean almacenados en un área de tratamiento, donde los errores
pueden ser fácilmente identificados, tratados y rectificados.
El proceso de transformación incluye, entre sus tareas, la construcción de atributos.
Hablamos en este caso de construir automáticamente nuevos atributos aplicando
alguna operación o función a los atributos originales con el objeto de que estos
nuevos atributos hagan más fácil el proceso de obtener informes avanzados
enriquecedores.
Una fuerte motivación para esta tarea surge cuando los atributos originales no
tienen mucho poder predictivo por sí solos o los patrones dependen de variaciones
lineales de las variables originales. Por ejemplo, el precio de las viviendas de una
zona se puede estimar más fácilmente a partir de la densidad de población de la
zona, en vez de considerar la población absoluta y de su superficie, entonces es
razonable derivar el atributo densidad de población de los otros dos.
Otro ejemplo, sería el caso en el cual, en base al número de documento de las
personas, se obtiene una estimación de las edades aproximadas de cada una de
ellas (asumiendo que este dato es desconocido), para alguna aplicación particular
de minería de datos en la que esta información puede ser relevante. El tipo de los
datos también puede modificarse para facilitar el uso de técnicas que requieren tipos
de datos específicos. Así, algunos atributos podrán ser “numerados” para reducir el
espacio y poder usar técnicas numéricas.
Por ejemplo, podemos reemplazar los valores del atributo “sexo” por números
enteros. El proceso inverso consiste en discretizar los atributos continuos, es decir,
transformar val-ores numéricos en atributos discretos o nominales. Los atributos
discretizados pueden tratarse como atributos categóricos con un número más
pequeño de valores. La idea básica es partir de los valores de un atributo continuo
en una pequeña lista de intervalos, tal que, cada intervalo es visto como un valor
discreto del atributo.
Otras transformaciones típicas incluyen las siguientes tareas: unificación de
nombres de campos ,división de las fechas en campos separados (por ejemplo, año,
mes y día), mapeos de una representación a otra (por ejemplo, los valores
booleanos “true” y “false” a “1” y “0” respectivamente); también códigos numéricos
a campos de textos, mapeos de múltiples representaciones a una única (por
14
Minería de datos
7:00-8:00
ejemplo, unificar los formatos de los números de teléfonos a una representación
común).Una vez realizados los pasos descriptos previamente, los datos están listos
para ser cargados al DW, en la etapa denominada carga de datos.
El proceso tradicional de base de datos más parecido a la carga de un DW es el
proceso de “migración”, aunque a diferencia de éste, existe un “mantenimiento”
posterior. En realidad, la carga y mantenimiento de un DW es uno de los aspectos
más delicados y que más esfuerzo requiere y, de hecho, suele existir un sistema
especializado para realizar estas tareas, denominado sistema ETL (en inglés,
Extraction,Transformation,Load). Dicho sistema no se compra en el supermercado
ni se descarga de Internet, sino que es responsabilidad del equipo de desarrollo del
DW y se realiza específicamente para cada DW.
15
Minería de datos
7:00-8:00
16
Minería de datos
7:00-8:00
Otra forma de explicar el binning.
Binning es una forma de agrupar una cantidad de valores más o menos continuos
en un número menor de "bins". Por ejemplo, si tiene datos sobre un grupo de
personas, es posible que desee organizar sus edades en un menor número de
intervalos de edad. Las columnas numéricas también se pueden agrupar
temporalmente haciendo clic con el botón derecho en un selector de columna y
haciendo clic en Columna de contenedor automático.
También hay una opción para agrupar valores categóricos en compartimientos. Esto
es útil cuando tiene más valores categóricos en una columna de los que considera
necesarios. Su visualización puede, por ejemplo, mostrar las ventas de manzanas,
peras, naranjas y limas, pero está interesado en las ventas de cítricos en
comparación con venta de manzanas y peras. Entonces las naranjas y las limas se
pueden agrupar en un recipiente.
Nota: Un caso de uso especial de este método de agrupación es agrupar valores
que son erróneos o diferir debido a otros motivos. Por ejemplo, si una columna
contiene valores como "apple" y "appel", o "UK" y "Reino Unido", puede agrupar
estos valores en contenedores.
Ejemplo de binning de datos continuos:
La tabla de datos contiene información sobre varias personas.
Al agrupar la edad de las personas en una nueva columna, los datos se pueden
visualizar para los diferentes grupos de edad en lugar de para cada individuo.
17
Minería de datos
7:00-8:00
18
Minería de datos
7:00-8:00
Binning sin supervisión
Los métodos de agrupamiento no supervisados transforman las variables numéricas
en contrapartes categóricas, pero no utilizan la información de destino (clase). Equal
Width y Equal Frequency son dos métodos de binning no supervisados.
1- Equal Width Binning
El algoritmo divide los datos en k intervalos de igual tamaño. El ancho de los
intervalos es:
w = (max-min) / k
Y los límites del intervalo son:
min + w, min + 2w, ..., min + (k-1) w
2- Binning de frecuencia igual
El algoritmo divide los datos en k grupos que cada grupo contiene aproximadamente
el mismo número de valores. Para ambos métodos, la mejor forma de determinar k
es mirando el histograma y probando diferentes intervalos o grupos.
Ejemplo:
19
Minería de datos
7:00-8:00
3- Otros métodos
♣ Rango: el rango de un número es su tamaño relativo a otros valores de una
variable numérica. Primero, ordenamos la lista de valores, luego asignamos
la posición de un valor como su rango. Los mismos valores reciben el mismo
rango, pero la presencia de valores duplicados afecta a los rangos de los
valores posteriores (por ejemplo, 1,2,3,3,5). El rango es un método de
agrupamiento sólido con un inconveniente importante, los valores pueden
tener diferentes rangos en diferentes listas.
♣ Quantiles (mediana, cuartiles, percentiles, ...): Los cuantiles también son
métodos de agrupamiento muy útiles, pero al igual que Rank, un valor puede
tener un cuantil diferente si la lista de valores cambia.
♣ Funciones matemáticas: por ejemplo, FLOOR (LOG (X)) es un método
eficaz de agrupamiento para las variables numéricas con una distribución
muy sesgada (por ejemplo, ingresos).
20
Minería de datos
7:00-8:00
Jerarquías conceptuales.
Por lo general, los datos se pueden abstraer en diferentes niveles conceptuales. Los
datos sin procesar en una base de datos se llaman primitivos y se dice que el
conocimiento está en un nivel primitivo, si se descubre utilizando solo datos brutos.
El descubrimiento del conocimiento en el nivel primitivo ha sido estudiado
ampliamente. Por ejemplo, la mayoría de las herramientas estadísticas para el
análisis de datos se basan en los datos brutos de un conjunto de datos.
Resumir los datos sin procesar a un nivel conceptual más elevado, y descubrir y
expresar el conocimiento a niveles de abstracción más elevados, tiene ventajas
superiores a las de la extracción de datos en un nivel primitivo.
Las jerarquías conceptuales se pueden usar en el procesamiento de todas las
tareas establecidas en la última sección. Para una tarea típica de minería de datos,
se deben ejecutar los siguientes pasos básicos y las jerarquías conceptuales
desempeñan un papel clave en estos pasos:
Recuperación del conjunto de datos relacionados con la tarea.
Generación de un cubo de datos.
Generalización de datos brutos a un nivel de abstracción más alto.
Mayor generalización o especialización. Extracción de reglas de niveles
múltiples.
Visualización del conocimiento descubierto.
Antes de pasar a la siguiente sección, cabe señalar que las jerarquías conceptuales
también tienen una importancia fundamental en las técnicas de almacenamiento de
datos. En un sistema típico de almacenamiento de datos, las dimensiones se
organizan en forma de jerarquías conceptuales. Por lo tanto, el despliegue y
desglose de operaciones OLAP se puede realizar por generalización y
especialización de conceptos (o datos).
21
Minería de datos
7:00-8:00
Reducción
de datos
Discretización
Selección de Selección de
de Agrupamiento Compactación
caracteristicas instancias
características
22
Minería de datos
7:00-8:00
Los datos redundantes o poco relevantes hacen que resulte más difícil
detectar patrones significativos.
Si el conjunto de datos es de dimensiones elevadas, la mayoría de los
algoritmos de minería de datos necesitarán un conjunto de datos de
aprendizaje mucho más grande.
23
Minería de datos
7:00-8:00
Selección de instancias: La
selección de instancias consiste en
escoger las muestras más
representativas de un conjunto
determinado. Disminuyendo el
conjunto inicial de datos se consigue
reducir tanto la complejidad en tiempo
de cálculo, como los recursos de
almacenamiento. La eliminación de
instancias no tiene porqué producir
una degradación de los resultados, ya que podemos estar eliminando
ejemplos repetidos o ruido.
24
Minería de datos
7:00-8:00
La selección de instancias se puede llevar a cabo siguiendo diferentes vías,
como podemos ver en la Figura X:
Discretización de características.
La discretización es el proceso mediante el cual los valores de una variable
continua se incluyen en contenedores, intervalos o grupos, con el objetivo de
que haya un número limitado de estados posibles. Los contenedores se
tratarán entonces como si fueran categorías.
25
Minería de datos
7:00-8:00
División: La estrategia seguida en este conjunto de técnicas es de
arriba hacia abajo. De esta forma, se comienza con un conjunto vacío
de puntos de corte y se van añadiendo nuevos por división del espacio
continuo mientras el proceso progresa.
Agrupamiento.
El proceso típico de agrupamiento consta de las siguientes etapas:
Compactación.
Formalmente podemos describir la compactación de datos como un mecanismo
de compresión que pretende conservar información estadística. La idea
fundamental es muy simple, guardar la mayor cantidad de datos posibles en la
menor cantidad de espacio posible. Los algoritmos de compresión a lo largo de
la historia fueron progresando comprimiendo cada vez más.
26
Minería de datos
7:00-8:00
27
Minería de datos
7:00-8:00
28
Minería de datos
7:00-8:00
Conclusión.
La minería de datos es solo una parte de un proceso más completo conocido como
Descubrimiento del conocimiento de datos (KDD por sus siglas en inglés), y como
todo proceso, sigue una secuencia definida, en esta unidad hemos visto lo referente
a la primera parte de la cadena, la cual es la agrupación, ordenamiento y limpieza
de los datos para posteriormente ser transformados en una base minable de la cual
se puede extraer la información que necesitamos para para toma de decisiones que
la empresa necesita.
Aunque el temario toma la limpieza de los datos como la primera parte a ser
estudiada, lo primero es la agrupación de los datos, reunir los datos de diferentes
lugares, documentos, toda la información que necesitamos se encuentra en
diferentes formatos y con diferentes formas de ser ubicada, por lo que una vez que
tenemos los datos agrupados es necesario ordenarlos, encontrar cuales son los
datos que se repiten, los datos que pertenecen a la misma sección pero tienen
diferentes nombres, etc.
Cuando ya hemos ordenado los datos, podremos pasar a la parte de la limpieza, la
cual consistirá en eliminar todo aquel dato no necesario para nuestros intereses,
datos que una vez que hemos tomado la parte necesaria se vuelven innecesarios,
o datos repetidos que se puedan encontrar en las diferentes bases o documentos
de los cuales estemos extrayendo los datos, por ultimo nos queda la reducción de
los datos, el convertir todo ese conjunto de múltiples datos en bruto, a una base
sólida con un mismo orden y estructura.
Corresponderá ahora la parte de la minería de datos, la parte que por fin nos dará
las estadísticas que buscamos y que nos serán arrojadas como información
obtenida de todo ese conjunto de datos extraídos.
29
Minería de datos
7:00-8:00
Bibliografía
García, S., Ramírez Gallego, S., Luengo, J., & Herrera, F. (s.f.). Big Data:
Preprocesamiento y calidad de datos.
Hernández Orallo, J., Ramírez Quintana, M. J., & Ferri Ramírez, C. (2004).
Introducción a la Minería de Datos. Pearson.
Herrera, F., & Cano, J. (2006). Técnicas de reducción de datos en KDD. el uso de
algoritmos evolutivos para la selección de instancias. Madrid:
UniversidadRey Juan Carlos.
Linkografía
https://www.researchgate.net/publication/266445601_Preparacion_de_los_datos_
en_el_proceso_KDD
http://sci2s.ugr.es/sites/default/files/ficherosPublicaciones/2133_Nv237-Digital-
sramirez.pdf
http://www.lsi.us.es/redmidas/IIreunion/trans/prepro.pdf
https://www.mindmeister.com/es/32276741/pre-procesamiento-de-
datos?fullscreen=1
https://blog.powerdata.es/el-valor-de-la-gestion-de-datos/preprocesar-y-
normalizar-datos-4-pasos-para-limpiar-y-mejorar-datos
https://es.wikipedia.org/wiki/Limpieza_de_datos
http://cs.uns.edu.ar/~cic/dm2007/downloads/transparencias/06_Sobre_Preprocesa
miento_datos.pdf
https://www.gestiopolis.com/olap-y-el-diseno-de-cubos/
https://docs.microsoft.com/es-es/sql/analysis-services/data-mining/feature-
selection-data-mining?view=sql-server-2017
https://docs.tibco.com/pub/spotfire/7.0.1/doc/html/bin/bin_what_is_binning.htm
30