Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Mineria de Datos Apuntes
Mineria de Datos Apuntes
ELABORACIÓN
VALIDACIÓN
EQUIPO DE DESARROLLO
Welearn
AÑO
2022
Tabla de contenidos
Aprendizaje esperado .............................................................................................. 4
Introducción .............................................................................................................. 5
Los modelos que podemos utilizar pueden ser de dos tipos: predictivos o
descriptivos. Los modelos predictivos se usan para clasificar datos
estructurados, que tienen una etiqueta que les permite generalizar patrones y
predecir ciertos valores.
Existe una amplia gama de algoritmos para estas técnicas de minería de datos,
los que pueden aplicarse en todo tipo de dominios donde se requiera el análisis
de datos.
5
1. Ciclo de vida del análisis de datos
1.1 Descubrir
Una vez claro lo anterior, se debe entender qué información que tenemos a
disposición y cuáles necesitamos buscar. Para ello, se requiere hacer un análisis
exploratorio de los datos, de manera que podamos comprender la historia que
estos nos cuentan, además de estimar si los datos que tenemos son suficientes
y relevantes para la construcción de un modelo.
6
7
Cuando tenemos este tipo de situaciones se puede realizar una de las
siguientes acciones:
• Eliminar los datos: la opción más fácil. Eliminar los datos incompletos,
dejando solo los completos, es una buena decisión si los datos a eliminar
son pocos. En caso contrario, no es la mejor opción.
8
e) Normalización de datos: muchas veces se requiere normalizar los datos
para hacer más fácil la técnica de aprendizaje. Normalizar consiste en
poner a todos los datos en una escala similar.
En esta etapa es donde comienza la minería de datos, pues los datos de interés
ya han sido seleccionados y se ha realizado el proceso de limpieza y
transformación de estos.
9
1. Seleccionar la técnica de modelamiento.
3. Implementar el modelo.
4. Evaluar el modelo
En esta etapa del proyecto se debe comunicar los resultados obtenidos a los
diversos stakeholders, para ello es necesario adecuar las vistas a los distintos
niveles de intervinientes. Estos resultados se deben entregar mediante reportes,
gráficas, infografías, cuadro de mandos, reportes, etc.
1.6 Operacionalizar
10
2. Técnicas predictivas
Los métodos predictivos o de aprendizaje supervisado se basan en entrenar
a un modelo o método con diferentes datos para poder predecir una variable
basándose en la información otorgada. El método genera modelos los que
predicen resultados basándose en datos históricos (ejemplos históricos) de
dichas variables. Su nombre se debe a que el desarrollador actúa como guía
para enseñar a los algoritmos las conclusiones a las que deben llegar.
11
Sabemos que el médico se entrenó a partir de clases y libros donde estudió
casos pasados, ahí estudio qué síntomas son señal de qué enfermedad. Luego,
empezó a testear lo aprendido en un grupo de pacientes durante su internado
y, finalmente, cuando ya estaba entrenado, tuvo licencia para poder aplicar
este aprendizaje a pacientes en su consultorio, clínica u hospital.
12
sin etiquetas, podrá aplicar esa relación aprendida y determinar si es un gato
o no (ver figura 2).
Un modelo predictivo se basa en separar los datos en dos sets de datos: datos
de entrenamiento y datos de prueba. Los datos de entrenamiento se utilizan
para entrenar el modelo y los datos de prueba se utilizan para determinar la
13
eficiencia del modelo y saber si está prediciendo de manera correcta,
comparando lo que tenemos en set de aprendizaje con lo que contiene el set
de testing.
14
aprendizaje de regresión realiza el entrenamiento de un algoritmo para lograr
predecir un resultado a partir de un rango de valores posibles.
15
Cuando la predicción se realiza con una sola variable, se llama regresión
lineal simple. Cuando se desea realizar una predicción con múltiples variables
independientes se llama regresión lineal múltiple.
Una de las ventajas del modelo es que resulta muy fácil de entender y explicar,
lo que es muy beneficioso para la toma de decisiones, además de ser rápido
de modelar y menos propenso al sobreajuste.
16
Figura 4: Variable dependientes e independientes
Fuente: Elaboración propia
Existen muchos métodos para cumplir con este objetivo, pero todos tienen un
solo fin que es el de minimizar la distancia. Uno de ellos es utilizar el criterio de
los mínimos cuadrados para reducir el error. Esta técnica intenta reducir la
suma de los errores al cuadrado, buscando el mejor valor posible de los
coeficientes de regresión:
17
2.3.2. Casos de uso del modelo
18
Es un análisis predictivo, utilizado para describir datos y explicar la relación
entre una variable binaria dependiente y una o más variables independientes
nominales, ordinales, de intervalo o de nivel de razón.
19
20
Figura 6: Función sigmoide
Fuente: Live.staticflickr.com (s.f)
• Detección de spam.
• Predicción de la diabetes.
2.5 Clasificación
21
que se pueda extraer de un conjunto de objetos disponibles divididos en clases
y la decisión de una regla de clasificación o clasificador (ver figura 7).
22
de conocimiento, cuál es la clase a la que debería concernir una nueva
muestra, teniendo en cuenta la información que se pueda extraer.
23
2.5.2. Casos de uso del modelo
• Segmentar clientes.
24
3. Técnicas descriptivas
Esta técnica se encuentra estrechamente alineada con la inteligencia
artificial, dado que es el algoritmo quien debe aprender a identificar procesos
y patrones complejos sin una persona que guíe el proceso. Algunos ejemplos
de estos algoritmos son clustering, k-means y reglas de asociación.
25
entrenar el algoritmo de la forma en que lo haría normalmente. Lo que el
aprendizaje sin supervisión puede hacer es descubrir la estructura subyacente
de los datos.
Esta técnica es utilizada para agrupar los datos según sus similitudes y patrones
distintos en el conjunto de datos. Un ejemplo es si tenemos un conjunto de
imágenes con distintos animales, el algoritmo no supervisado simplemente va
a agrupar cada uno de los tipos de animales según las características y
similitudes que poseen. Este agrupamiento sería el resultado final o solución del
algoritmo. Acá, a diferencia del aprendizaje supervisado no se sabe
exactamente qué animal es.
26
3.1 Objetivo de la técnica
3.2 Asociación
Toda regla de asociación se crea buscando patrones frecuentes del tipo “if-
then” en los datos y utilizando los criterios de apoyo y confianza para identificar
las relaciones más importantes. El apoyo se refiere a la frecuencia con que los
elementos se repiten en los datos, a la vez que la la confianza corresponde al
27
número de veces que las afirmaciones del tipo “if-then” se consideran
verdaderas.
28
• Netflix y Spotify utilizan las reglas de asociación para alimentar sus motores
de recomendación de contenido. Busca patrones frecuentes y desarrollan
reglas de asociación para recomendar el contenido con el que es
probable que un usuario se comprometa
3.3 Clustering
En teoría, los puntos de datos que están en el mismo clúster deben tener
propiedades y/o características similares, mientras que los puntos de datos en
diferentes clústeres deben tener propiedades y/o características diferentes.
Esta agrupación corresponde a un método de aprendizaje no supervisado.
Otra forma de explicar el modelo es definirlo como la división de datos en
grupos o clústeres, compartiendo características entre ellos.
Un clúster es la colección de datos que son similares entre sí dentro del mismo
grupo, clase o categoría y son diferentes de los objetos de los otros clústeres.
29
seleccionado como un objetivo de mercado a alcanzar, con una mezcla
de marketing distinta.
30
Cierre
31
Referencias bibliográficas
• Aggarwal, C. C. (2015). Data Mining: The Textbook. Springer Publishing.
• EMC Education Services. (27 de enero del 2015). Data Science and Big Data
Analytics: Discovering, Analyzing, Visualizing and Presenting Data (1st ed.).
Wiley.
32