Está en la página 1de 14

UES. Arias, De la Cruz, Figueroa, Palma, Sáenz. Minería de datos en R.

Minería de Datos
Definición y conceptos importantes de la
minería de datos, el proceso de minería,
metodología del análisis por minería,
Clasificación, regresión lineal, asociación,
agrupación y árboles de decisión,
implementado en R.
Carlos Aecio Arias López
carlosa.ariaslopez@gmail.com

José Oswaldo De La Cruz De La O


ing_josedelao_k01701@outlook.com

Luis Gerardo Figueroa Deras


fd11002@ues.edu.sv

Ligia Elena Palma Avalos


Universidad de El Salvador
Escuela de Ingeniería de Sistemas Informáticos
San Salvador, El Salvador
ligia.palma@outlook.com

Víctor Manuel Sáenz Osorio


vmz16eco@gmail.com

Resumen —

Palabras clave: Minerìa de datos / data mining, Lenguaje R, técnicas de minería, procesos de
KDD .
UES. Arias, De la Cruz, Figueroa, Palma, Sáenz. Minería de datos en R.

INTRODUCCIÓN

El presente trabajo de investigación se trata de la exploración del concepto de minería de dato (MD) con el lenguaje en R
y el proceso de extracción o descubrimiento de conocimiento en las bases de datos (KDD). Las actuales herramientas de
tratamiento automatizado de la información han llevado aparejado el uso de las técnicas estadísticas en el análisis
multivariante de datos de una forma sencilla. Al crecer la tecnología de información (TI) se ha facilitado sobremanera la
manejabilidad de los algoritmos estadísticos.

Se entiende que la problemática es minería de datos y sus técnicas con los conceptos de eficiencia y adaptabilidad de
las herramientas informáticas para proporcionar soluciones a modelos de abstracción que los usuarios desean reconocer
o investigar a nivel táctico o estratégico.

Una de las características principales de la minería de datos es la extracción y análisis de datos, esta última se refiere a
los patrones, tendencias y desviaciones que se obtiene luego realizar un ciclo de vida analítico que es un proceso
iterativo de hacer descubrimientos en sus datos y aplicar nuevos conocimientos para mejorar continuamente los modelos
predictivos y sus resultados.

El interés de esta investigación es de tipo académico y se centra en la exploración de las bases teóricas de la minería de
datos y uso del lenguaje R, esta última es con finalidad de reconocer y demostrar las técnicas de clasificación, regresión
lineal, asociación, agrupación y árboles de decisión

Esta investigación se llevada a cabo mediante recolección de información en sitios web, publicaciones y documentos
científicos de aportación académica o de carácter informática.
UES. Arias, De la Cruz, Figueroa, Palma, Sáenz. Minería de datos en R.

OBJETIVOS

OBJETIVO GENERAL
Elaborar una investigación descriptiva de la minería de datos, afirmando con documentos y
artículos científicos actuales con el fin de que funcione como referencia académica a futuros
estudiantes o personas de interés.

OBJETIVOS ESPECIFICOS

 Realizar un estudio bibliográfico y documental acerca de los fundamentos teóricos y metodológicos de la


minería de datos
 Enumerar los componentes del ciclo de vida de un proyecto utilizando la temática asignada.
 Describir algunas de las técnicas de minería de datos.
 Demostrar la aplicación del Lenguaje de R con la minería de datos y herramientas estadísticas de: clasificación,
regresión lineal, asociación, agrupación y árboles de decisión
 Reconocer las distintas formas de implementación en la arquitectura de software con minería de datos y KDD
UES. Arias, De la Cruz, Figueroa, Palma, Sáenz. Minería de datos en R.

ANTECEDENTES

A. Proceso de minería.

Antes de entrar al proceso debemos de reconocer algunos conceptos, características y proceso de ciclo de vida que
infiere en esta investigación.

Minería de datos (MD) – data mining se refiere a:


 Un proceso no trivial de identificación válida, novedosa, potencialmente útil y entendible de patrones
comprensibles que se encuentran ocultos en los datos. (Vallejos, 2006)
 Es la etapa de análisis de “Knowledge Discovery in Databases” o KDD) es decir es el: “Paso consistente en el
uso de algoritmos concretos que generan una enumeración de patrones a partir de los datos preprocesados
(Fayyad et al., 1996) Aunque se suelen usar indistintamente los términos KDD y Minería de Datos. (Vallejos,
2006)
 Es el análisis automático o semiautomático de grandes cantidades de datos para extraer patrones interesantes
hasta ahora desconocidos, como los grupos de registros de datos (análisis clúster), registros poco usuales (la
detección de anomalías) y dependencias (minería por reglas de asociación). (Wikipedia, 2016)

Descubrimiento de Conocimiento en Bases de Datos (KDD) - Knowledge Discovery in Databases:


 (KDD) apunta a procesar automáticamente grandes cantidades de datos para encontrar conocimiento útil en
ellos, de esta manera permitirá al usuario el uso de esta información valiosa para su conveniencia. (Vallejos,
2006)
 Es la convergencia del Aprendizaje Automático, la Estadística, el Reconocimiento de Patrones, la Inteligencia
Artificial, las Bases de Datos, la Visualización de Datos, los Sistemas para el Apoyo a la Toma de Decisiones, la
Recuperación de Información, y otros muchos campos. (Martínez, 2016)

Por lo tanto, podemos mencionar que “La minería de datos es parte del proceso de descubrimiento de conocimiento en
bases de datos”. Las metas del KDD (Vallejos, 2006) son:
 Procesar automáticamente grandes cantidades de datos crudos.
 Identificar los patrones más significativos y relevantes.
 Presentarlos como conocimiento apropiado para satisfacer las metas del usuario.

En este punto tenemos claro de que se trata KDD y MD, pero no la interacción entre estos dos términos, es decir el ciclo
de vida analítico iterativo con el objetivo de crear una oportunidad de aprovechamiento de tomas de decisiones con la
información de la organización u entidad.

Veamos primero como es el proceso de descubrimiento de conocimiento KDD. Entonces para crea un entorno que
permita lidiar con todos los datos que se están recolectando, con todos los modelos que se están creando, y con todas
las decisiones que necesitan tomarse, ¿todo a una mayor escala? Se requiere plantearse un ciclo de vida analítico
interactivo e iterativo que reúna (SAS, 2016):
 Datos, el fundamento de las decisiones.
 Descubrimiento, el proceso de identificar nuevos conocimientos en los datos.
 Implementación, el proceso de utilizar conocimientos recientemente encontrados para impulsar acciones
mejoradas.

Si lo vemos desde una perspectiva se sugiere tener un enfoque metodológico, en la figura siguiente se representa la
inclusión de estos elementos con aspectos principales para realizar esta perspectiva analítica predictiva como resultado
es un ciclo de vida analítico interactivo e iterativo
UES. Arias, De la Cruz, Figueroa, Palma, Sáenz. Minería de datos en R.

Figura ciclo de vida analítico KDD. (SAS, 2016)

Uso de la minería de datos con KDD (SAS, 2016):

 La minería de datos ofrece una serie de tecnologías que ayudan a las organizaciones a anticipar resultados
futuros, descubrir nuevas oportunidades y mejorar el desempeño del negocio. Puede aplicarse a una variedad
de problemas de los clientes en todas las industrias – desde la segmentación de clientes y la detección de
fraudes y la calificación de riesgo de crédito, hasta identificar los efectos adversos de un medicamente durante
las pruebas clínicas.

 Un uso común de la minería de datos y de las técnicas de machinelearning es la segmentación automática de


los clientes por comportamiento, demografías o actitudes. Utilizando estos segmentos, usted puede crear
modelos para cada grupo para predecir la siguiente mejor oferta o actividad a la cual probablemente
responderán. Para asegurar que usted sólo llega a los clientes que quiere, puede complementar el modelo de
adquisición con un modelo de calificación de riesgos para averiguar quién es un buen riesgo de crédito y que
vale la inversión para adquirirlo o retenerlo.

 Otro uso importante para la minería de datos y machine-learning es ayudar a detectar los fraudes, lo que es
importante a medida que los defraudadores desarrollan tácticas más sofisticadas. Pueden construirse modelos
para cruzar datos de una amplia variedad de fuentes, correlacionar variables no obvias con características
conocidas para identificar nuevos patrones de actividades fraudulentas.

Debido a su potencial de producir conocimientos predictivos precisos de enormes volúmenes de datos diversos, la
minería de datos ha demostrado ser un componente valioso de muchas iniciativas analíticas. La minería de datos y el
machine learning pueden ayudarle a:

 Descubrir automáticamente patrones, tendencias y relaciones representadas en los datos


 Desarrollar modelos para entender y describir mejor las características y actividades basadas en estos
patrones.
 Utilizar esos conocimientos para ayudar a evaluar las opciones futuras y tomar decisiones basadas en hechos.
 Crear código de calificación que exprese los cálculos hechos para acciones adecuadas oportunas.

Implementando los conceptos anteriores, ciclo de vida analítico interactivo e iterativo e información de la BD se tiene un
modelo de proceso de KDD.
UES. Arias, De la Cruz, Figueroa, Palma, Sáenz. Minería de datos en R.

Figura. Proceso de KDD. (Martínez, 2016)

Diversos autores tienen similar planteamiento, pero en esencia es la misma finalidad tener un modelo predictivo lo mas
cerca posible a la solución esperada por los usuarios finales de toma de decisiones.

Figura. Proceso de KDD. (Gonzales Bernal, 2016)

A continuación, se describe la composición de este modelo (Martínez, 2016):

Pasos Nombre Descripción


1 Desarrollo y entendimiento del El conocimiento relevante y los objetivos del usuario final. Este paso
dominio de la aplicación requiere cierta dependencia usuario/analista, pues intervienen factores
como: conocer los cuellos de botella del dominio, saber qué partes son
susceptibles de un procesado automático y cuáles no, cuáles son los
objetivos, los criterios de rendimiento exigibles, para qué se usarán los
resultados que se obtengan, compromisos entre simplicidad y precisión del
conocimiento extraído, etc.
2 Creación del conjunto de datos Seleccionando el subconjunto de variables o ejemplos sobre los que se
objetivo realizará el descubrimiento. Esto implica consideraciones sobre la
homogeneidad de los datos, su variación a lo largo del tiempo, estrategia de
muestreo, grados de libertad, etc
3 Preprocesados de los datos Eliminación de ruido, estrategias para manejar valores ausentes,
normalización de los datos, etc.
4 Transformación y reducción de Incluye la búsqueda de características útiles de los datos según sea el
los datos. objetivo final, la reducción del número de variables y la proyección de los
datos sobre espacios de búsqueda en los que sea más fácil encontrar una
UES. Arias, De la Cruz, Figueroa, Palma, Sáenz. Minería de datos en R.

solución. Este es un paso crítico dentro del proceso global, que requiere un
buen conocimiento del problema y una buena intuición, y que, con
frecuencia, marca la diferencia entre el éxito o fracaso de la minería de
datos.
5 Elección del tipo de sistema Esto depende de sí el objetivo del proceso de KDD es la clasificación,
para minería de datos. regresión, agrupamiento de conceptos (clustering), detección de
desviaciones, etc
6 Elección del algoritmo de En este paso se realiza la búsqueda de conocimiento con una determinada
minería de datos. representación del mismo. El éxito de la minería de datos depende en gran
parte de la correcta realización de los pasos previos: por parte del usuario.
7 Interpretación del conocimiento La obtención de resultados aceptables dependerá de factores como:
extraído. definición de medidas del interés del conocimiento (de tipo estadístico, en
función de su sencillez, etc.) que permitan filtrarlo de forma automática,
existencia de técnicas de visualización para facilitar la valoración de los
resultados o búsqueda manual de conocimiento útil entre los resultados
obtenidos.
8 Consolidación del conocimiento Es la incorporación al sistema, o simplemente documentándolo y enviándolo
descubierto a la parte interesada. Este paso incluye la revisión y resolución de posibles
inconsistencias con otro conocimiento extraído previamente.

Aspecto de las nuevas tendencias y tecnología a KDD (Martínez, 2016):


Los aspectos que se refieren son los nuevos métodos, principalmente de aprendizaje y representación de conocimiento,
desarrollados por la comunidad de inteligencia artificial, estadística y física de dinámicas no lineales. Estos métodos
complementan a las tradicionales técnicas estadísticas en el sentido de que son capaces de inducir relaciones
cualitativas generales, o leyes, previamente desconocidas.

Las técnicas de minería de datos han surgido a partir de sistemas de aprendizaje inductivo en computadoras, siendo la
principal diferencia entre ellos los datos sobre los que se realiza la búsqueda de nuevo conocimiento. En el caso
tradicional de aprendizaje en computadoras (machine learning), se usa un conjunto de datos pequeño y cuidadosamente
seleccionado para entrenar al sistema. Por el contrario, en la minería de datos se parte de una base de datos,
generalmente grande, en la que los datos han sido generados y almacenados para propósitos diferentes del aprendizaje
con los mismos.

Por parte de esta investigación se tomarán en cuenta el lenguaje en R, falta describir las fases de este método de KDD y
luego veremos cómo es la descripción del método de minería de datos.

La diferencia explicita acerca del método de KDD y el método de MD es (Martínez, 2016):

 El término KDD describe el proceso completo de extracción de conocimiento a partir de los datos.
 En este contexto, descubrimiento de conocimiento significa la identificación de relaciones y patrones
existenciales en los datos.
 Un proceso KDD consiste en la extracción no trivial de conocimiento previamente desconocido y potencialmente
útil a partir de un conjunto de datos.
 En el proceso KDD es posible definir al menos 6 estados: Recolección de datos, Selección, Limpieza y
Transformación de datos, Minería de datos, Evaluación y Validación, Interpretación y Difusión, Actualización y
Monitorización.
 Mientras que Data Mining, se refiere exclusivamente al estadio de descubrimiento de un proceso general KDD.

Descripción de las Fases o Etapas del modelo de KDD (Martínez, 2016):

Fases Nombre Descripción


1 Recolección de Datos. Actividad:
 Diseñar el esquema de un almacén de datos (Data Warehouse): que consiga
unificar de manera operativa toda la información recogida.
 Implantación del almacén de datos: que permita la navegación y
visualización previa de sus datos, para discernir qué aspectos puede
interesar que sean estudiados. Esta es la etapa que puede llegar a consumir
el mayor tiempo.

Dependencias de esta fase:


UES. Arias, De la Cruz, Figueroa, Palma, Sáenz. Minería de datos en R.

 Depende mucho de la fuente: OLAP u OLTP, Datawarehouse o copia con


el esquema original y ROLAP o MOLAP.
 Depende también del tipo de usuario:
- Picapedreros (o granjeros): se dedican fundamentalmente a realizar
informes periódicos, ver la evolución de determinados parámetros,
controlar valores anómalos, etc.
- Exploradores: encargados de encontrar nuevos patrones significativos
utilizando técnicas de minería de datos
 Recolección de Información Externa. Aparte de información interna de la
organización, los almacenes de datos pueden recoger informaciones
externas:
- Demografía (censo), páginas amarillas, psicogeografías, gráficos web,
información de otras organizaciones.
- Datos compartidos en una industria o área de negocio, organizaciones y
colegios profesionales, catálogos, etc.
- Datos resumidos de áreas geográficas, distribución de la competencia,
evolución de la economía, información de calendarios y climatológicas,
programaciones televisivas, deportivas, catástrofes.
- Bases de datos externas compradas a otras compañías.

2 Selección, Limpieza y Se deben eliminar el mayor número posible de datos erróneos o inconsistentes
Transformación de (limpieza) e irrelevantes (criba). Métodos estadísticos casi exclusivamente.
Datos
Actividad:
 Histogramas (detección de datos anómalos).
 Selección de datos (muestreo, ya sea verticalmente, eliminando atributos u
horizontalmente, eliminando tuplas).
 Redefinición de atributos (agrupación o separación).

Acciones ante datos anómalos (outlíers):


 Ignorar: algunos algoritmos son robustos a datos anómalos (por ejemplo:
árboles)
 Filtrar (eliminar o reemplazar) la columna: Solución extrema, pero a veces
existe otra columna dependiente con datos de mayor calidad. Preferible a
eliminar la columna es reemplazarla por una columna discreta diciendo si el
valor era normal o outlier (por encima o por debajo).
 Filtrar la fila: Claramente sesga los datos, porque muchas veces las causas
de un dato erróneo están relacionadas con casos o tipos especiales.
 Reemplazar el valor: Por el valor 'nulo' si el algoritmo lo trata bien o por
máximos o mínimos, dependiendo por donde es el outlier, o por medias. A
veces se puede predecir a partir de otros datos, utilizando cualquier técnica
de ML.
 Discretizar: transformar un valor continuo en uno discreto (por ejemplo: muy
alto, alto, medio, bajo, muy bajo) hace que los outliers caigan en 'muy alto' o
'muy bajo' sin mayores problemas.

Acciones ante datos faltantes (missing values):


 Ignorar: algunos algoritmos son robustos a datos faltantes (por ejemplo:
árboles).
 Filtrar (eliminar o reemplazar) la columna: solución extrema, pero a veces
existe otra columna dependiente con datos de mayor calidad. Preferible a
eliminar la columna, es reemplazarla por una columna booleana diciendo si
el valor existía o no.
 Filtrar la fila: claramente sesga los datos, porque muchas veces las causas
de un dato faltante están relacionadas con casos o tipos especiales.
 Reemplazar el valor por medias. A veces se puede predecir a partir de otros
datos, utilizando cualquier técnica de ML.
 Segmentar: se segmentan las tuplas por los valores que tienen disponibles.
Se obtienen modelos diferentes para cada segmento y luego se combinan.
 Modificar la política de calidad de datos y esperar hasta que los datos
faltantes estén disponibles.
UES. Arias, De la Cruz, Figueroa, Palma, Sáenz. Minería de datos en R.

Razones sobre datos faltantes (missing values):


 A veces es importante examinar las razones tras datos faltantes y actuar en
consecuencia:
- Algunos valores faltantes expresan características relevantes: por
ejemplo: La falta de teléfono puede representar en muchos casos un
deseo de que no se moleste a la persona en cuestión, o un cambio de
domicilio reciente.
- Valores no existentes: muchos valores faltantes existen en la realidad,
pero otros no. Por ejemplo: el cliente que se acaba de dar de alta no
tiene consumo medio de los últimos 12 meses.
- Datos incompletos: si los datos vienen de fuentes diferentes, al
combinarlos se suele hacer la unión y no la intersección de campos, con
lo que muchos datos faltantes representan que esas tuplas vienen de
una(s) fuente(s) diferente(s) al resto.
3 Minería de Datos Actividad:
 Seleccionar una la tarea de descubrimiento a realizar, por ejemplo,
clasificación, agrupamiento o clustering, regresión, etc. La selección de él o
de los algoritmos a utilizar.
 La transformación de los datos al formato requerido por el algoritmo
específico de minería de datos. Y llevar a cabo el proceso de minería de
datos, se buscan patrones que puedan expresarse como un modelo o
simplemente que expresen dependencias de los datos,
 El modelo encontrado depende de su función (clasificación) y de su forma de
representarlo (árboles de decisión, reglas, etc.), se tiene que especificar un
criterio de preferencia para seleccionar un modelo dentro de un conjunto
posible de modelos, se tiene que especificar la estrategia de búsqueda a
utilizar (normalmente está predeterminada en el algoritmo de minería)

Las técnicas de aprendizaje automático y estadísticas no son directamente aplicables


debido a:
 Los datos residen en el disco. No se pueden escanear múltiples veces.
 Algunas técnicas de muestreo no son compatibles con algoritmos no
incrementales.
 Muy alta dimensionalidad (muchos campos).
 Evidencia Positiva.
 Datos Imperfectos

Patrones a descubrir:
 Una vez recolectados los datos de interés, un explorador puede decidir qué
tipos de patrón quiere descubrir.
 El tipo de conocimiento que se desea extraer va a marcar claramente la
técnica de minería de datos a utilizar.

Según como sea la búsqueda del conocimiento se puede distinguir entre:


 Directed data mining: se sabe claramente lo que se busca, generalmente
predecir unos ciertos datos o clases.
 Undirected data mining: no se sabe lo que se busca, se trabaja con los
datos.

En el primer caso, los propios sistemas de minería de datos se encargan


generalmente de elegir el algoritmo más idóneo entre los disponibles para un
determinado tipo de patrón a buscar. Esta parte de los patrones y técnicas se vera
mas adelante en este documento en proceso de Minería de Datos (MD)
4 Evaluación y Actividad:
Validación  Interpretar los resultados y posiblemente regresar a los pasos anteriores.
Esto puede involucrar repetir el proceso, quizás con otros datos, otros
algoritmos, otras metas y otras estrategias. Este es un paso crucial en donde
se requiere tener conocimiento del dominio. La interpretación puede
beneficiarse de procesos de visualización, y sirve también para borrar
patrones redundantes o irrelevantes.
UES. Arias, De la Cruz, Figueroa, Palma, Sáenz. Minería de datos en R.

criterios de evaluación:
 Comprobación de la precisión del modelo, en un banco de ejemplos
independiente del que se ha utilizado para aprender el modelo. Se puede
elegir el mejor modelo.
 Se puede realizar una experiencia piloto con ese modelo. Por ejemplo, si el
modelo encontrado se quería utilizar para predecir la respuesta de los
clientes a un nuevo producto, se puede enviar un mailing a un subconjunto
de clientes y evaluar la fiabilidad del modelo
5 Interpretación y Actividad:
Difusión  Incorporar el conocimiento descubierto al sistema (normalmente para
mejorarlo) lo cual puede incluir resolver conflictos potenciales con el
conocimiento existente.

En este sentido, KDD implica un proceso interactivo e iterativo involucrando


la aplicación de varios algoritmos de minería de datos.

El despliegue del modelo a veces es trivial pero otras veces requiere un proceso de
implementación o interpretación:
 El modelo puede requerir implementación (por ejemplo: Tiempo real
detección de tarjetas fraudulentas).
 El modelo es descriptivo y requiere interpretación (por ejemplo: Una
caracterización de zonas geográficas según la distribución de los productos
vendidos).
 El modelo puede tener muchos usuarios y necesita difusión: el modelo
puede requerir ser expresado de una manera comprensible para ser
distribuido en la organización (por ejemplo: Las cervezas y los productos
congelados se compran frecuentemente en conjunto y ponerlos en estantes
distantes).
6 Actualización y Actividad:
Monitorización  El conocimiento se obtiene para realizar acciones, ya sea incorporándolo
dentro de un sistema de desempeño o simplemente para almacenarlo y
reportarlo a las personas interesadas.

Los procesos derivan en un mantenimiento:


 Actualización: Un modelo válido puede dejar de serio: cambio de contexto
(económicos, competencia, fuentes de datos, etc.).
 Monitorización: Consiste en ir revalidando el modelo con cierta frecuencia
sobre nuevos datos, con el objetivo de detectar si el modelo requiere una
actualización.

Producen realimentaciones en el proceso KDD.

B. Metodología del análisis por minería.

C. Clasificación.

MARCO TEORICO
UES. Arias, De la Cruz, Figueroa, Palma, Sáenz. Minería de datos en R.

RESULTADOS
UES. Arias, De la Cruz, Figueroa, Palma, Sáenz. Minería de datos en R.

CONCLUSIONES
UES. Arias, De la Cruz, Figueroa, Palma, Sáenz. Minería de datos en R.

REFERENCIAS BIBLIOGRÁFICAS
UES. Arias, De la Cruz, Figueroa, Palma, Sáenz. Minería de datos en R.

ANEXOS