Mineria de Datos Apuntes

Unidad 1
Minería y Ciencias de datos

ESCUELA DE NEGOCIOS
Directora: Lorena Patricia Baus
ELABORACIÓN
Experta disciplinar: Giannina Costa
Diseñadora instruccional: Luisa García
Editora instruccional: Trinidad Marshall
VALIDACIÓN
Experto disciplinar: José Fuentes Morales
Jefa de Diseño Instruccional: Alejandra San Juan Reyes
EQUIPO DE DESARROLLO
Welearn
AÑO
2022
Tabla de contenidos
Aprendizaje esperado .............................................................................................. 4
Introducción .............................................................................................................. 5
1. Ciclo de vida del análisis de datos ..................................................................... 6
1.1 Descubrir ............................................................................................................ 6
1.2 Preparación de la data ....................................................................................... 6
1.3 Planificación del modelo..................................................................................... 9
1.4 Construcción del modelo .................................................................................... 9
1.5 Comunicación de resultados ............................................................................ 10
1.6 Operacionalizar ................................................................................................ 10
2. Técnicas predictivas ........................................................................................... 11
2.1 Objetivo de la técnica ....................................................................................... 13
2.2 Importancia de la técnica ................................................................................. 15
2.3 Regresión lineal ............................................................................................... 15
2.3.1. Descripción del modelo ........................................................................ 15
2.3.2. Casos de uso del modelo ...................................................................... 18

2.4 Regresión logística ........................................................................................... 18
2.5 Clasificación ..................................................................................................... 21
3. Técnicas descriptivas .......................................................................................... 25
3.1 Objetivo de la técnica ....................................................................................... 27
3.2 Asociación ........................................................................................................ 27
3.3 Clustering ......................................................................................................... 29

Cierre ........................................................................................................................ 31
Referencias bibliográficas ...................................................................................... 32

Aprendizaje esperado
Clasifican técnicas empleadas para hacer minería de datos de acuerdo con
sus características, usos y metodología.
Fuente: rawpixel.com en Freepik (s.f)

Introducción
La minería de datos utiliza distintas técnicas, las que se determinan en base a
los tipos de datos que se requiere analizar, el tipo de conocimiento que se
desea extraer y la forma en que se utilizará el conocimiento obtenido.
Como ya sabemos la minería de datos tiene como objetivo el análisis de datos

para extraer conocimiento. Este conocimiento se puede obtener mediante
relaciones, patrones, reglas de asociación o descripciones.
Los modelos que podemos utilizar pueden ser de dos tipos: predictivos o
descriptivos. Los modelos predictivos se usan para clasificar datos
estructurados, que tienen una etiqueta que les permite generalizar patrones y
predecir ciertos valores.
Los modelos descriptivos son utilizados sobre datos que no se encuentran

etiquetados. Agrupa datos que poseen características similares, lo que permite
clasificar por características e identificar la relación entre variables,
estableciendo reglas de asociación para detectar patrones distintos.
Existe una amplia gama de algoritmos para estas técnicas de minería de datos,
los que pueden aplicarse en todo tipo de dominios donde se requiera el análisis
de datos.
5
1. Ciclo de vida del análisis de datos
1.1 Descubrir
Es muy importante entender el problema que deseamos resolver, lo que

requiere bastante tiempo, aún más si se desconoce el área del negocio. Por
eso es importante que colaboren personas que tengan un conocimiento del
área del negocio que deseamos comenzar.
Para obtener el problema a resolver, hay que preguntarse cuál es ese

problema, para ello es posible utilizar diversas técnicas como “los 5 por qué”
(ishikawa).
Una vez claro lo anterior, se debe entender qué información que tenemos a
disposición y cuáles necesitamos buscar. Para ello, se requiere hacer un análisis
exploratorio de los datos, de manera que podamos comprender la historia que
estos nos cuentan, además de estimar si los datos que tenemos son suficientes
y relevantes para la construcción de un modelo.
1.2 Preparación de la data
La preparación de datos es una de las fases que consume el mayor esfuerzo.

Los principales retos en esta etapa son:
a) Datos Incompletos: normalmente no contamos con todos los datos

necesarios. Por ejemplo, si se desea predecir qué clientes tienen más
probabilidad de comprar un producto y para ello se cuenta con una
encuesta realizada. Lo más probable que muchos de los encuestados no
hayan completados todos los campos.
6
7
Cuando tenemos este tipo de situaciones se puede realizar una de las
siguientes acciones:
• Eliminar los datos: la opción más fácil. Eliminar los datos incompletos,
dejando solo los completos, es una buena decisión si los datos a eliminar
son pocos. En caso contrario, no es la mejor opción.
• Imputarlos con un valor razonable: cuando falte un valor, es posible

asignarle un valor que tenga sentido. Por ejemplo, si falta la edad de un
encuestado, podemos usar la edad media de los encuestados que han
especificado su edad.
• Imputarlos con un modelo de aprendizaje automático: si deseamos

ser más específicos, podemos construir un modelo que prediga cuál es
el valor que nos falta al reconocer los valores de los datos que sí tenemos.
• No hacer nada y usar alguna técnica que permita manejar datos

incompletos.
b) Combinar datos de varias fuentes: se debe hacer de una manera que

les permita a los algoritmos considerar toda la información.
c) Darles el formato adecuado a los datos.
d) Calcular características relevantes: los algoritmos funcionan mucho

mejor si les entregamos la información relevante en vez de los todos datos.
Esta etapa requiere mucho esfuerzo, se debe pensar en qué características
van a ser más relevantes para solucionar el problema y probarlo.
8
e) Normalización de datos: muchas veces se requiere normalizar los datos
para hacer más fácil la técnica de aprendizaje. Normalizar consiste en
poner a todos los datos en una escala similar.
1.3 Planificación del modelo
En esta etapa, se identifican tareas que van desde la selección de la técnica

más apropiada para la solución de la problemática hasta la revisión del
proyecto. Dentro de los plazos más relevantes se identifican:
• Selección de la técnica de minería de datos a utilizar.
• Selección de métricas a utilizar para determinar modelo.
• Planificación del despliegue.
• Planificación de la monitorización y el mantenimiento.
• Elaboración de informe final.
• Revisión del proyecto.
1.4 Construcción del modelo
En esta etapa es donde comienza la minería de datos, pues los datos de interés
ya han sido seleccionados y se ha realizado el proceso de limpieza y
transformación de estos.
En esta fase varias técnicas de modelamiento son seleccionadas y aplicadas,

y sus parámetros son calibrados buscando valores óptimos. Típicamente,
existen varias técnicas para resolver un mismo problema de minería de datos.
En esta etapa se deben realizar las siguientes tareas:
9
1. Seleccionar la técnica de modelamiento.
2. Construir el modelo de pruebas.
3. Implementar el modelo.
4. Evaluar el modelo
Aquí se debe determinar si el modelo obtenido es beneficioso para los

objetivos del negocio, o si hay alguna cuestión importante de la empresa que
no ha sido considerada suficientemente.
1.5 Comunicación de resultados
En esta etapa del proyecto se debe comunicar los resultados obtenidos a los
diversos stakeholders, para ello es necesario adecuar las vistas a los distintos
niveles de intervinientes. Estos resultados se deben entregar mediante reportes,
gráficas, infografías, cuadro de mandos, reportes, etc.
1.6 Operacionalizar
Se debe identificar la forma de integrar el modelo en las operaciones de la

organización. Dentro de los objetivos de esta etapa se encuentra medir la
capacidad de predicción del modelo en forma periódica y detectar si existe
un aumento de errores en el modelo.
Se deben ejecutar de forma periódicas evaluaciones de la capacidad

predictiva del modelo, además de chequear la evolución en el tiempo del
modelo mediante cálculos periódicos y reconocer cómo evolucionan
también las variables.
10
2. Técnicas predictivas
Los métodos predictivos o de aprendizaje supervisado se basan en entrenar
a un modelo o método con diferentes datos para poder predecir una variable
basándose en la información otorgada. El método genera modelos los que
predicen resultados basándose en datos históricos (ejemplos históricos) de
dichas variables. Su nombre se debe a que el desarrollador actúa como guía
para enseñar a los algoritmos las conclusiones a las que deben llegar.
Esta técnica es la más común, cuenta con algoritmos de regresión y

clasificación. El modelo permite actuar como guía que enseña el resultado
que se debe obtener dado que la salida es conocida.
Figura 1: Características de la técnica predictiva

Fuente: Elaboración propia
Para entender la técnica de forma intuitiva, utilizaremos este ejemplo: vas al

médico ya que sientes mucho dolor de garganta, además tienes fiebre y
escalofríos. Cuando estamos con el doctor, nos realiza una serie de preguntas
y finalmente nos dice la enfermedad y el tratamiento que debemos seguir.
11
Sabemos que el médico se entrenó a partir de clases y libros donde estudió
casos pasados, ahí estudio qué síntomas son señal de qué enfermedad. Luego,
empezó a testear lo aprendido en un grupo de pacientes durante su internado
y, finalmente, cuando ya estaba entrenado, tuvo licencia para poder aplicar
este aprendizaje a pacientes en su consultorio, clínica u hospital.
Lo descrito es un ejemplo de técnica predictiva o aprendizaje supervisado

porque el entrenamiento se realizó a partir de datos conocidos o inputs los
cuales están etiquetados (síntomas de enfermedades: dolor de garganta,
dolor de cabeza, fiebre, etc) con la finalidad de obtener un resultado u output
que también era conocido y etiquetado (¿tiene amigdalitis?). La técnica
deduce información a partir de datos de entrenamiento.
El entrenamiento de las técnicas predictivas comienza con el análisis de un

conjunto de datos con etiquetas correctas asociadas, por lo cual el algoritmo
aprenderá la relación entre los datos y la etiqueta y aplicará esa relación
aprendida para clasificar datos completamente nuevos que no hayan sido
vistos antes.
Por ejemplo, cuando se aprende a clasificar imágenes de gatos, el algoritmo

toma miles de imágenes de gatos junto con la etiqueta “gato”. El algoritmo
aprenderá esta relación y cuando se le muestre una nueva imagen, esta vez
12
sin etiquetas, podrá aplicar esa relación aprendida y determinar si es un gato
o no (ver figura 2).
Figura 2: Ejemplo técnica predictiva

2.1 Objetivo de la técnica
El objetivo de los modelos predictivos es describir una o más de las variables en

relación con todas las demás. Son conocidos como métodos supervisados,
asimétricos o directos, y se llevan a cabo mediante la búsqueda de normas de
clasificación o de predicción basada en los datos. Estas normas nos ayudan a
predecir o clasificar el resultado futuro de una o más variables de respuesta o
de destino en relación a las variables de entrada.
Los principales métodos de este tipo se desarrollan en las máquinas de

aprendizaje. Por ejemplo: redes neuronales (perceptrón de multicapa y
árboles de decisión). Aunque también pueden ser modelos estadísticos
clásicos, como los modelos de regresión lineal y logística.
El propósito del aprendizaje supervisado es crear un programa que sea capaz

de resolver cualquier variable de entrada luego de ser sometido a un proceso
de entrenamiento. El objetivo fundamental es la creación de funciones con la
posibilidad de predecir valores correspondientes a objetos de entrada luego
de haberse familiarizado con una serie de ejemplos que son los datos de
entrenamiento.
Un modelo predictivo se basa en separar los datos en dos sets de datos: datos
de entrenamiento y datos de prueba. Los datos de entrenamiento se utilizan
para entrenar el modelo y los datos de prueba se utilizan para determinar la
13
eficiencia del modelo y saber si está prediciendo de manera correcta,
comparando lo que tenemos en set de aprendizaje con lo que contiene el set
de testing.
Se llaman variables predictoras a los datos utilizados para poder predecir un

resultado (por ejemplo: tid, Attrib1, Attrib2 e Attrib3), y se llama variable a
predecir o clase a aquella variable que se desea obtener (por ejemplo: Class)
(ver figura 3).
Figura 3: Set de datos de entrenamiento y testing

Fuente: Tan, P., Steinbach, M. & Kumar, V. (2005)
Existen dos tipos de aprendizajes: supervisados o técnicas predictivas, cuando

la variable a definir sea discreta los llamaremos clasificación, y cuando la
variable sea continua se llamará regresión (ejemplo: los precios de una casa
dado sus características como tamaño, numero habitaciones). Este
14
aprendizaje de regresión realiza el entrenamiento de un algoritmo para lograr
predecir un resultado a partir de un rango de valores posibles.
2.2 Importancia de la técnica
Ofrece soluciones para procesar y convertir datos en información real. Ayuda

a las organizaciones a predecir situaciones de interés, haciéndoles saber
cuáles son las decisiones más favorables para conseguir sus objetivos, junto con
informar cuales pueden perjudicarlas. Esto les permite a las organizaciones
adelantarse a eventos no favorables, junto con la enorme ventaja de
adelantarse a sus competidores.
2.3 Regresión lineal
2.3.1. Descripción del modelo
La regresión lineal es un modelo estadístico que permite establecer una

relación entre dos variables continuas cuantitativas. Una de ellas es la variable
dependiente (depende de los valores de la variable independiente, es la
característica que estamos tratando de predecir), y la otra es la variable
independiente (son características, es decir, variables que se utilizan para
determinar el valor de una variable dependiente).
El algoritmo consiste en hallar la línea recta que mejor encaje en un conjunto

de datos (este conjunto de datos comprende las variables dependientes e
independientes). La regresión lineal supone que la relación entre la entrada y
salida es lineal, y su objetivo es lograr entrenar la mejor línea a través de todos
los puntos de datos.
15
Cuando la predicción se realiza con una sola variable, se llama regresión
lineal simple. Cuando se desea realizar una predicción con múltiples variables
independientes se llama regresión lineal múltiple.
Una de las ventajas del modelo es que resulta muy fácil de entender y explicar,
lo que es muy beneficioso para la toma de decisiones, además de ser rápido
de modelar y menos propenso al sobreajuste.
Dentro de las desventajas del modelo se encuentra que no es posible modelar

relaciones complejas y tampoco es posible capturar relaciones no lineales sin
tener que transformar la entrada de los datos.
De forma simple, la regresión lineal es un método para predecir la variable

dependiente (y) en función de los valores de las variables independientes (X)
(ver figura 4).
16
Figura 4: Variable dependientes e independientes
El objetivo de la regresión lineal simple es minimizar la distancia vertical entre

todos los datos y nuestra línea, por lo tanto, para determinar la mejor línea,
debemos minimizar la distancia entre todos los puntos y la distancia de nuestra
línea.
Existen muchos métodos para cumplir con este objetivo, pero todos tienen un
solo fin que es el de minimizar la distancia. Uno de ellos es utilizar el criterio de
los mínimos cuadrados para reducir el error. Esta técnica intenta reducir la
suma de los errores al cuadrado, buscando el mejor valor posible de los
coeficientes de regresión:
Figura 5: Minimizar la distancia vertical entre los datos

Fuente: Aprende IA (2018)
17
2.3.2. Casos de uso del modelo
Los modelos de regresión lineal pueden ser utilizados en distintas disciplinas,

como:
• Predicción de montos de ventas de nuevos productos basados en gastos

de publicidad.
• Predicción de las velocidades del viento en función de la temperatura, la

humedad, la presión del aire, etc.
• Predicción del tráfico en una tienda minorista.
• Predicción del tiempo de permanencia de un usuario en una tienda.
• Predicción de la relación entre la dosis de un fármaco y la presión arterial

de los pacientes.
• Predicción del efecto de los fertilizantes en el rendimiento de los cultivos.
• Medición del efecto que tienen los diferentes regímenes de entrenamiento

en el rendimiento de los jugadores.
2.4 Regresión logística
La regresión logística es un algoritmo de clasificación utilizado para predecir

la probabilidad de una variable dependiente categórica, la cual es una
variable binaria que contiene dos opciones: 1 – 0, sí – no, abierto – cerrado. El
resultado o variable objetivo es de naturaleza dicotómica, lo que significa que
solo hay dos clases posibles.
18
Es un análisis predictivo, utilizado para describir datos y explicar la relación
entre una variable binaria dependiente y una o más variables independientes
nominales, ordinales, de intervalo o de nivel de razón.
Este es uno de los algoritmos más simples y utilizados para la clasificación de

dos clases. Es fácil de implementar y se puede usar como línea de base para
cualquier problema de clasificación binaria. Describe y estima la relación entre
una variable binaria dependiente y las variables independientes. Permite decir
que la presencia de un factor de riesgo aumenta la probabilidad de un
resultado dado un porcentaje específico.
La razón por la cual la regresión logística es ampliamente utilizada, a pesar de

sus algoritmos avanzados, como las redes neuronales profundas, es por su
eficiencia, y además no requiere demasiados recursos computacionales, de
manera que es muy asequible ejecutar la producción.
La diferencia entre la regresión lineal y logística es que la primera proporciona

una salida continua, en cambio la segunda proporciona una salida discreta.
Un ejemplo de una salida continua es conocer el porcentaje de probabilidad
de lluvia o el precio de una acción. Por otro lado, un ejemplo de una salida
discreta es conocer si va a llover o no, o si el precio de una acción subirá o no.
La función logística es también llamada función sigmoide. Esta función es una

curva en forma de S que puede tomar cualquier número de valor real y
asignarle un valor entre 0 y 1.
Si la curva va a infinito positivo, la predicción se convertirá en 1, y si la curva

pasa el infinito negativo, la predicción se convertirá en 0. Si la salida de la
función sigmoide es mayor que 0.5, podemos clasificar el resultado como 1 o
SÍ, y si es menor que 0.5 podemos clasificarlo como 0 o NO (ver figura 6).
19
20
Figura 6: Función sigmoide
Fuente: Live.staticflickr.com (s.f)
Estos algoritmos se pueden utilizar para variados problemas de clasificación,

como:
• Detección de spam.
• Predicción de la diabetes.
• Si un cliente determinado comprará un producto en particular o si se irá con

la competencia.
2.5 Clasificación
Los algoritmos de clasificación supervisada se utilizan en problemas en los

cuales se conoce a priori el número de clases y los reconocimientos de
patrones representantes de cada clase. Básicamente consiste en que, para
clasificar automáticamente una nueva muestra, se considera la información
21
que se pueda extraer de un conjunto de objetos disponibles divididos en clases
y la decisión de una regla de clasificación o clasificador (ver figura 7).
Figura 7: Algoritmo de clasificación

Los algoritmos de clasificación se utilizan cuando el resultado deseado es una

etiqueta discreta, es decir, se encuentra dentro de un conjunto finito de
resultados posibles. Por ejemplo, la determinación de si un correo electrónico
es deseado o no deseado, en dicho caso solo se tienen dos opciones y se
conoce como clasificación binaria.
Los algoritmos enfocados a la clasificación trabajan generalmente sobre la

información entregada por un conjunto de muestras, patrones, ejemplos o
prototipos de entrenamiento que son tomados como representantes de las
clases, que conservan una etiqueta de clase correcta. A este conjunto de
prototipos correctamente etiquetados se les llama conjunto de entrenamiento,
y es el conocimiento disponible para la clasificación de nuevas muestras. El
objetivo de la clasificación supervisada es determinar, según lo que se tenga
22
de conocimiento, cuál es la clase a la que debería concernir una nueva
muestra, teniendo en cuenta la información que se pueda extraer.
23
• Predecir tumores malignos o benignos.
• Clasificar transacciones de tarjeta de crédito como legitimas o

fraudulentas.
• Clasificar estructuras secundarias de proteínas.
• Categorizar artículos de noticias como financieros, de clima,

entretenimiento, deportes, entre otros.
• Segmentar clientes.
• Categorizar imágenes o audios.
• Analizar sentimiento del cliente.
24
3. Técnicas descriptivas
Esta técnica se encuentra estrechamente alineada con la inteligencia
artificial, dado que es el algoritmo quien debe aprender a identificar procesos
y patrones complejos sin una persona que guíe el proceso. Algunos ejemplos
de estos algoritmos son clustering, k-means y reglas de asociación.
Acá no hay un conjunto de datos de entrenamiento y los resultados son

desconocidos. Esta técnica tiene la capacidad de resolver problemas
complejos utilizando solo los datos de entrada y los algoritmos lógicos, y en
ningún momento se tiene datos de referencias.
Figura 8: Características de técnica descriptiva

La técnica descriptiva o algoritmos de aprendizaje no supervisados infieren

patrones de un conjunto de datos sin tener referencias de resultados
conocidos o etiquetados. Esta técnica no puede ser aplicada de forma
directa a un problema de regresión o clasificación porque no tiene idea de
cuáles pueden ser los valores de los datos de salida, lo que hace imposible
25
entrenar el algoritmo de la forma en que lo haría normalmente. Lo que el
aprendizaje sin supervisión puede hacer es descubrir la estructura subyacente
de los datos.
Esta técnica es utilizada para agrupar los datos según sus similitudes y patrones
distintos en el conjunto de datos. Un ejemplo es si tenemos un conjunto de
imágenes con distintos animales, el algoritmo no supervisado simplemente va
a agrupar cada uno de los tipos de animales según las características y
similitudes que poseen. Este agrupamiento sería el resultado final o solución del
algoritmo. Acá, a diferencia del aprendizaje supervisado no se sabe
exactamente qué animal es.
El algoritmo aprenderá a agrupar los tipos de animales, por ende, cuando se

le introduzca un nuevo animal, podrá aplicar esa relación aprendida y
determinar a qué grupo pertenece.
Figura 9: Ejemplo de técnica descriptiva

26
3.1 Objetivo de la técnica
Los métodos descriptivos o aprendizaje no supervisado, también conocidos

como métodos simétricos, no supervisados o indirectos, permiten formar grupos
de datos rápidamente. Las observaciones son generalmente clasificadas en
grupos que no son conocidos con anterioridad, los elementos de las variables
pueden estar conectados entre sí mediante vínculos desconocidos de
antemano, de esta manera, todas las variables disponibles son tratados en el
mismo nivel y no hay hipótesis de causalidad.
3.2 Asociación
Las reglas de asociación, en un nivel simple, analizan los datos en búsqueda

de patrones, correlaciones y coocurrencias entre los datos. Son capaces de
identificar las asociaciones más frecuentes, que serán las reglas de asociación.
El acto de utilizar estas reglas se denomina a veces “minería de reglas de
asociación” o “asociaciones mineras”.
Toda regla de asociación cuenta con dos partes: antecedente (si) y

consecuente (entonces). El antecedente es un factor que se encuentra dentro
de los datos y el consecuente corresponde al elemento que se encuentra en
combinación con el antecedente.
Toda regla de asociación se crea buscando patrones frecuentes del tipo “if-
then” en los datos y utilizando los criterios de apoyo y confianza para identificar
las relaciones más importantes. El apoyo se refiere a la frecuencia con que los
elementos se repiten en los datos, a la vez que la la confianza corresponde al
27
número de veces que las afirmaciones del tipo “if-then” se consideran
verdaderas.
Una regla puede mostrar una fuerte correlación en un conjunto de datos

porque aparece muy a menudo, pero puede ocurrir menos cuando se aplica.
Este sería un caso de alto apoyo, pero baja confianza.
Otro parámetro de interés es el valor de elevación o fit, que corresponde a la

relación entre la confianza y el apoyo. Si el valor de elevación es un valor
negativo, entonces hay una correlación negativa entre los puntos de datos, si
el valor es positivo, hay una correlación positiva, y si la relación es igual a 1,
entonces no hay correlación.
• En medicina es utilizado para ayudar a diagnosticar pacientes. Es posible

determinar la probabilidad condicional de una determinada enfermedad
comparando las relaciones entre los síntomas en los datos de casos
anteriores.
• Las tiendas pueden recopilar datos sobre los patrones de compra y

determinar qué productos pueden venderse juntos, lo que permite ajustar
las estrategias de comercialización y ventas para aprovechar esta
información.
• Los desarrolladores pueden recopilar datos sobre la forma en que los

consumidores utilizan un sitio web que ha creado. Posteriormente, es posible
utilizar asociaciones entre esos datos para optimizar la interfaz de usuario
del sitio.
28
• Netflix y Spotify utilizan las reglas de asociación para alimentar sus motores
de recomendación de contenido. Busca patrones frecuentes y desarrollan
reglas de asociación para recomendar el contenido con el que es
probable que un usuario se comprometa
3.3 Clustering
Esta técnica requiere una agrupación de puntos de datos. Con el conjunto de

puntos de datos, es posible utilizar este algoritmo para clasificar cada punto
de datos en un clúster específico.
En teoría, los puntos de datos que están en el mismo clúster deben tener
propiedades y/o características similares, mientras que los puntos de datos en
diferentes clústeres deben tener propiedades y/o características diferentes.
Esta agrupación corresponde a un método de aprendizaje no supervisado.
Otra forma de explicar el modelo es definirlo como la división de datos en
grupos o clústeres, compartiendo características entre ellos.
Es una gran herramienta para darle un sentido a los datos no etiquetados y

agrupar datos en grupos similares.
Un clúster es la colección de datos que son similares entre sí dentro del mismo
grupo, clase o categoría y son diferentes de los objetos de los otros clústeres.
• Segmentación de mercado: subdividir un mercado en distintos

subconjuntos de clientes, donde cualquier subconjunto puede ser
29
seleccionado como un objetivo de mercado a alcanzar, con una mezcla
de marketing distinta.
• Agrupación de documentos: para encontrar grupos de documentos

similares entre sí en función de los términos importantes que aparecen en
ellos.
• Aplicaciones bioinformáticas: agrupar genes y tejidos para que los genes

sean expresados en los mismos tejidos.
• Perfiles personalizados para marketing dirigido.
• Acciones de grupo con fluctuaciones de precios similares.
30
Cierre
La minería de datos se puede dividir en dos clases: descriptiva y predictiva.
• Técnicas de Minería Descriptiva: el objetivo de este tipo de minería es

encontrar patrones (correlaciones, tendencias, grupos, trayectorias y
anomalías) que resuman relaciones en los datos. Dentro de las principales
técnicas descriptivas se encuentran clustering y las reglas de asociación.
• Técnicas de Minería Predictiva: el objetivo de este tipo de minería es

predecir el valor particular de un atributo basado en otros atributos. El
atributo a predecir es comúnmente llamado “clase” o variable
dependiente, mientras que los atributos usados para hacer la predicción se
llaman variables independientes. Dentro de las principales técnicas
predictivas encontramos: regresión lineal, regresión logística y clasificación.
31
Referencias bibliográficas
• Aggarwal, C. C. (2015). Data Mining: The Textbook. Springer Publishing.
• EMC Education Services. (27 de enero del 2015). Data Science and Big Data
Analytics: Discovering, Analyzing, Visualizing and Presenting Data (1st ed.).
Wiley.
• Martínez, J. (10 de octubre de 2020). Análisis Descriptivo, Predictivo y

Prescriptivo de datos. IArtificial.net. Obtenido de https://bit.ly/3TAc3DY
• Ramírez, F. C., Orallo, H. J., & Quintana, R. M. J. (1 de mayo de 2004).

Introducción a la minería de datos 1era ed. Alhambra.
• Tan, P., Steinbach, M. & Kumar, V. (1 de abril de 2005). Introduction to Data

Mining. Pearson India.
32

Mineria de Datos Apuntes

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Mineria de Datos Apuntes

Cargado por

Copyright:

Formatos disponibles

Unidad 1

Minería y Ciencias de datos

Directora: Lorena Patricia Baus

Experta disciplinar: Giannina Costa

Diseñadora instruccional: Luisa García

Editora instruccional: Trinidad Marshall

Experto disciplinar: José Fuentes Morales

Jefa de Diseño Instruccional: Alejandra San Juan Reyes

1. Ciclo de vida del análisis de datos ..................................................................... 6

1.1 Descubrir ............................................................................................................ 6

1.2 Preparación de la data ....................................................................................... 6

1.3 Planificación del modelo..................................................................................... 9

1.4 Construcción del modelo .................................................................................... 9

1.5 Comunicación de resultados ............................................................................ 10

1.6 Operacionalizar ................................................................................................ 10

2. Técnicas predictivas ........................................................................................... 11

2.1 Objetivo de la técnica ....................................................................................... 13

2.2 Importancia de la técnica ................................................................................. 15

2.3 Regresión lineal ............................................................................................... 15

2.3.1. Descripción del modelo ........................................................................ 15

2.3.2. Casos de uso del modelo ...................................................................... 18

2.4.1. Descripción del modelo ........................................................................ 18

2.4.2. Casos de uso del modelo ...................................................................... 21

2.5 Clasificación ..................................................................................................... 21

2.5.1. Descripción del modelo ........................................................................ 21

2.5.2. Casos de uso del modelo ...................................................................... 24

3. Técnicas descriptivas .......................................................................................... 25

3.1 Objetivo de la técnica ....................................................................................... 27

3.2 Asociación ........................................................................................................ 27

3.2.1. Descripción del modelo ........................................................................ 27

3.2.2. Casos de uso del modelo ...................................................................... 28

3.3 Clustering ......................................................................................................... 29

3.3.1. Descripción del modelo ........................................................................ 29

3.3.2. Casos de uso del modelo ...................................................................... 29

Referencias bibliográficas ...................................................................................... 32

Fuente: rawpixel.com en Freepik (s.f)

Como ya sabemos la minería de datos tiene como objetivo el análisis de datos

Los modelos descriptivos son utilizados sobre datos que no se encuentran

Es muy importante entender el problema que deseamos resolver, lo que

Para obtener el problema a resolver, hay que preguntarse cuál es ese

1.2 Preparación de la data

La preparación de datos es una de las fases que consume el mayor esfuerzo.

a) Datos Incompletos: normalmente no contamos con todos los datos

• Imputarlos con un valor razonable: cuando falte un valor, es posible

• Imputarlos con un modelo de aprendizaje automático: si deseamos

• No hacer nada y usar alguna técnica que permita manejar datos

b) Combinar datos de varias fuentes: se debe hacer de una manera que

c) Darles el formato adecuado a los datos.

d) Calcular características relevantes: los algoritmos funcionan mucho

1.3 Planificación del modelo

En esta etapa, se identifican tareas que van desde la selección de la técnica

• Selección de la técnica de minería de datos a utilizar.

• Selección de métricas a utilizar para determinar modelo.

• Planificación del despliegue.

• Planificación de la monitorización y el mantenimiento.

• Elaboración de informe final.

• Revisión del proyecto.

1.4 Construcción del modelo

En esta fase varias técnicas de modelamiento son seleccionadas y aplicadas,

2. Construir el modelo de pruebas.

Aquí se debe determinar si el modelo obtenido es beneficioso para los

1.5 Comunicación de resultados

Se debe identificar la forma de integrar el modelo en las operaciones de la