Está en la página 1de 34

MINERÍA DE DATOS

CAPITULO 1
DR. CHRISTIAN SALAMEA PALACIOS PH.D

Fundamentos de la Minería de Datos


06/10/2021 1
Dr. Christian Salamea Palacios Ph.D
QUE VAMOS A ESTUDIAR ?
• FUNDAMENTOS DE LA MINERÍA DE DATOS
• ALGORITMOS DE LA MINERÍA DE DATOS
• EVALUACIÓN DE TÉCNICAS DE MINERÍAS DE DATOS
• FUNDAMENTOS DE PROCESAMIENTO DE LENGUAJE NATURAL
• TÉCNICAS Y APLICACIONES DEL PROCESAMIENTO DE LENGUAJE NATURAL

Fundamentos de la Minería de Datos


06/10/2021 2
Dr. Christian Salamea Palacios Ph.D
CAPITULO 1

Fundamentos de la minería de datos

1.1 Introducción a la Minería de Datos

Aprendizaje Aprendizaje No
Datos Supervisado: Supervisado: Validación
La Minería de Descubrimiento etiquetados y no Clasificación, Reglas de La Precisión Cruzada: k-fold
Datos del conocimiento etiquetados Predicción asociación, Predictiva ,n-fold
Numérica Clustering

Fundamentos de la Minería de Datos


06/10/2021 3
Dr. Christian Salamea Palacios Ph.D
1.1 INTRODUCCIÓN A LA
MINERÍA DE DATOS
UNIDAD 1

Fundamentos de la Minería de Datos


06/10/2021 4
Dr. Christian Salamea Palacios Ph.D
INTRODUCCIÓN A LA MINERÍA DE DATOS

• Los sistemas de computación modernos


cuentan con
• Una casi inimaginable cantidad de datos y de
• Una muy amplia variedad de fuentes
• Y más con todo el volumen creciente de
información disponible en internet
• Ejemplos:
• Transacciones de tarjetas de crédito
• Observación de satélites en el espacio
• Imagen de un agujero negro

Fundamentos de la Minería de Datos


06/10/2021 5
Dr. Christian Salamea Palacios Ph.D
INTRODUCCIÓN A LA MINERÍA DE DATOS

• El volumen de los datos • Aunque existe este inmenso volumen de


información
• Los satélites de observación de la NASA
generan terabytes de información cada día. • Eso no significa que esté
• Se estima que existen más de 650 millones de adecuadamente almacenada.
websites, algunos sumamente extensos
• Hay más de 900 millones de usuarios de
• Su análisis se realiza, muchas veces,
Facebook con 3 billiones de posteos al día. de manera superficial
• Se estima que hay alrededor de 150 millones de
usuarios de twitter, enviando 350 millones de
tweets cada día.

Fundamentos de la Minería de Datos


06/10/2021 6
Dr. Christian Salamea Palacios Ph.D
“ La tecnología de aprendizaje automático tiene el potencial de
resolver el problema de la inmensa cantidad de datos que
están alrededor y dentro de organizaciones, gobiernos y
demás.

Machine Learning
Deep Learning
Natural Language Processing
Fundamentos de la Minería de Datos
06/10/2021 7
Dr. Christian Salamea Palacios Ph.D
INTRODUCCIÓN A LA MINERÍA DE DATOS
DESCUBRIMIENTO DEL CONOCIMIENTO
Se define como
“la extracción no trivial de información implícita, previamente
conocida y potencialmente útil a partir de los datos existentes”

Fundamentos de la Minería de Datos


06/10/2021 8
Dr. Christian Salamea Palacios Ph.D
INTRODUCCIÓN A LA MINERÍA DE DATOS
• DATOS ETIQUETADOS Y NO ETIQUETADOS
• Normalmente se cuenta con un conjunto de datos de ejemplos
• Cada conjunto se corresponde con una “categoría” o “clase”
• Los valores de cada uno de esos conjuntos, a ellos normalmente se les llama “atributos”
• Al conjunto de ejemplos, donde se conoce la clase o categoría a la que se pertenece cada uno
de los valores de los atributos se les llama “etiquetados”.

Fundamentos de la Minería de Datos


06/10/2021 9
Dr. Christian Salamea Palacios Ph.D
INTRODUCCIÓN A LA MINERÍA DE DATOS
• DATOS ETIQUETADOS Y NO ETIQUETADOS (cont.)
• La minería de datos que usa datos etiquetados se conoce como “aprendizaje supervisado”.
• La clase puede ser categórica (bueno, malo) y en este contexto la tarea se denomina
clasificación.
• ”La clase puede ser numérica (el índice de ventas en los últimos 5 años) donde la tarea se
denomina regresión.

Fundamentos de la Minería de Datos


06/10/2021 10
Dr. Christian Salamea Palacios Ph.D
INTRODUCCIÓN A LA MINERÍA DE DATOS
• DATOS ETIQUETADOS Y NO ETIQUETADOS (cont.)
• Los datos que no tienen ningún atributo asignado (clase) son llamados no etiquetados.
• La minería de datos de datos no etiquetados se conoce como “aprendizaje no supervisado”.
• La meta es extraer la mayor cantidad de información que se pueda a partir de los datos
disponibles.

Fundamentos de la Minería de Datos


06/10/2021 11
Dr. Christian Salamea Palacios Ph.D
INTRODUCCIÓN A LA MINERÍA DE DATOS
• APRENDIZAJE SUPERVISADO: CLASIFICACIÓN
• La clasificación es una de las más comunes aplicaciones de la minería de datos.
• Ejemplos:
• Un hospital quiere clasificar pacientes según el riesgo que puedan tener de adquirir una enfermedad
en: alto, medio o bajo
• Una universidad desea clasificar a sus estudiantes entre aquellos que pasan con mérito, solo pasan o
pierden

Fundamentos de la Minería de Datos


06/10/2021 12
Dr. Christian Salamea Palacios Ph.D
INTRODUCCIÓN A LA MINERÍA DE DATOS
APRENDIZAJE SUPERVISADO: CLASIFICACIÓN (CONT.)
Inicial 1 Inicial 2 Medio Avanzado 1 Avanzado 2 Clase
• La siguiente figura muestra una tabla que indica
A B A B B Segunda
• La evaluación de los estudiantes en los cinco años
A B B B B Segunda
de estudio (Inicial 1, Inicial 2, Medio, Avanzado 1 y
Avanzado 2) en dos grupos (A y B). B A A B A Segunda

A A A A B Primera
• Las categorías posibles son (primera y segunda)
A A B B A Primera
• Hay varias maneras para realizar una predicción de B A A B B Segunda
la clasificación de otros estudiantes, entre las
………………… ………………….. ………………….. ………………….. ………………….. …………………..
cuales tenemos: ..

A A B A B Primera

Fundamentos de la Minería de Datos


06/10/2021 13
Dr. Christian Salamea Palacios Ph.D
INTRODUCCIÓN A LA MINERÍA DE DATOS
APRENDIZAJE SUPERVISADO: CLASIFICACIÓN (CONT.)
Inicial 1 Inicial 2 Medio Avanzado 1 Avanzado 2 Clase

• El vecino más cercano A B A B B Segunda

A B B B B Segunda

B A A B A Segunda
• Este método para la identificación confía en los
ejemplos que están más cerca del elemento sin A A A A B Primera

clasificación. A A B B A Primera

• Si los cinco vecinos más cercanos tienen clases: B A A B B Segunda


Segunda, Primera, Segunda, Segunda y Segunda, ………………… ………………….. ………………….. ………………….. ………………….. …………………..
puede ser muy razonable pensar que el nuevo ..
ejemplo será clasificado como Segunda.
A A B A B Primera

Fundamentos de la Minería de Datos


06/10/2021 14
Dr. Christian Salamea Palacios Ph.D
INTRODUCCIÓN A LA MINERÍA DE DATOS
APRENDIZAJE SUPERVISADO: CLASIFICACIÓN (CONT.)
Inicial 1 Inicial 2 Medio Avanzado 1 Avanzado 2 Clase

• Reglas de clasificación A B A B B Segunda

• En este caso se buscan reglas que permitan predecir la A B B B B Segunda


clasificación de un ejemplo no visto anteriormente. Por ejemplo: B A A B A Segunda

• SI Inicial 1 = A Y Avanzado 2 = A THEN Clase = Primera A A A A B Primera

• SI Inicial 1 = A Y Avanzado 2 = B Y Inicial 2 = B ENTONCES A A B B A Primera


Clase = Segunda B A A B B Segunda
• SI Inicial 1 = B ENTONCES Clase = Segunda ………………… ………………….. ………………….. ………………….. ………………….. …………………..
..

A A B A B Primera

Fundamentos de la Minería de Datos


06/10/2021 15
Dr. Christian Salamea Palacios Ph.D
INTRODUCCIÓN A LA MINERÍA DE DATOS
APRENDIZAJE SUPERVISADO: CLASIFICACIÓN (CONT.)
Inicial 1 Inicial 2 Medio Avanzado 1 Avanzado 2 Clase

A B A B B Segunda

A B B B B Segunda

• Árboles de decisión
B A A B A Segunda

A A A A B Primera

• Los árboles de clasificación o árboles de decisión constituyen una A A B B A Primera


vía para generar reglas de clasificación. B A A B B Segunda

………………… ………………….. ………………….. ………………….. ………………….. …………………..


..

A A B A B Primera

Fundamentos de la Minería de Datos


06/10/2021 16
Dr. Christian Salamea Palacios Ph.D
INTRODUCCIÓN A LA MINERÍA DE DATOS
APRENDIZAJE SUPERVISADO: PREDICCIÓN NUMÉRICA

• Si bien la clasificación es una forma de predicción, donde el valor que se va a


predecir es una etiqueta,
• La predicción es numérica (normalmente llamada regresión)
• En este caso lo que se pretende predecir es un valor numérico, tal como un precio
de promoción de algún producto.
• Una forma muy popular de llevar a cabo esto es usando una red neuronal
artificial.
• Esta es una técnica de modelamiento compleja basada en un modelo de una
neurona humana.
Fundamentos de la Minería de Datos
06/10/2021 17
Dr. Christian Salamea Palacios Ph.D
INTRODUCCIÓN A LA MINERÍA DE DATOS
APRENDIZAJE SUPERVISADO: PREDICCIÓN NUMÉRICA (CONT.)

• Una red neuronal está formada por un conjunto de entradas y es usada para
predecir una o más salidas.
• Se definen como sistemas de mapeo no lineales cuya estructura se basa en
principios observados en los sistemas nerviosos de humanos y animales.
• Constan de un número grande de procesadores simples ligados por conexiones
con pesos.
• Cada unidad recibe entradas de otros nodos y genera una salida simple escalar que
depende de la información local disponible

Fundamentos de la Minería de Datos


06/10/2021 18
Dr. Christian Salamea Palacios Ph.D
INTRODUCCIÓN A LA MINERÍA DE DATOS
APRENDIZAJE SUPERVISADO: PREDICCIÓN NUMÉRICA (CONT.)

Fundamentos de la Minería de Datos


06/10/2021 19
Dr. Christian Salamea Palacios Ph.D
INTRODUCCIÓN A LA MINERÍA DE DATOS
APRENDIZAJE NO SUPERVISADO: REGLAS DE ASOCIACIÓN
• Hay veces en las que deseamos utilizar un conjunto de entrenamiento para encontrar alguna relación
existente entre los valores de diferentes variables.
• Para ello, generalmente se utilizan reglas que son conocidas como reglas de asociación.
• Las reglas de asociación pueden ser de todo tipo dependiendo del tipo de datos con los que se cuente.
• Ejemplo:
• SI variable_1 > 85 AND switch_6 = open THEN variable_23 < 47.5 AND switch_8 = closed (probabilidad = 0.8)
• Una forma común de este tipo de análisis se denomina “market basket analysis”
• Si es que conocemos el nivel de ventas en una tienda en una semana, podremos encontrar relaciones que ayudarán a
conocer que productos serán más efectivos en el futuro. Por ejemplo: IF queso AND leche THEN pan
(probabilidad = 0.7)
• Indica que el 70% de los clientes quienes compraron queso y leche también compraron pan, con lo cual será
importante colocar el pan cerca del queso y la leche.
Fundamentos de la Minería de Datos
06/10/2021 20
Dr. Christian Salamea Palacios Ph.D
INTRODUCCIÓN A LA MINERÍA DE DATOS
APRENDIZAJE NO SUPERVISADO: CLUSTERING
• Los algoritmos de clustering examinan los datos para encontrar grupos
de ítems que sean similares.
• Ejemplos:
• Una compañía START-UP agruparía a sus clientes de acuerdo a sus ingresos, edad, tipo de
membresía, etc.
• En caso de un análisis de fallas en el sistema eléctrico, los datos se podrían agrupar de acuerdo
a ciertas variables claves para encontrar relaciones con las fallas del sistema eléctrico.

Fundamentos de la Minería de Datos


06/10/2021 21
Dr. Christian Salamea Palacios Ph.D
INTRODUCCIÓN A LA MINERÍA DE DATOS
LA PRECISIÓN PREDICTIVA DE UN CLASIFICADOR
• Error estándar (S)
• Es importante tener en cuenta que la meta final no es solo clasificar los
ejemplos en el conjunto de evaluación
• Sino estimar la precisión predictiva del clasificador para todos los ejemplos no
vistos posibles
• Si la precisión predictiva calculada para el conjunto de evaluación es P
• Y se usa el clasificador para clasificar los ejemplos en un diferente conjunto de
evaluación, es muy probable que se obtenga un valor diferente de precisión

Fundamentos de la Minería de Datos


06/10/2021 22
Dr. Christian Salamea Palacios Ph.D
INTRODUCCIÓN A LA MINERÍA DE DATOS
LA PRECISIÓN PREDICTIVA DE UN CLASIFICADOR
• Error estándar (S) (cont.)
• Se dice que P es una estimación de la precisión de predicción real del
clasificador para todos los ejemplos no vistos posibles.
• No se puede determinar el valor real sin recolectar todos los ejemplos y
corriéndolos en el clasificador, lo cual es imposible.
• Por ello se utilizan métodos estadísticos para definir un rango de valores en los
que los valores reales de la precisión predictiva funcionen, con un grado de
“confianza aceptable”.
• Para hacer esto se usa el error estándar que está asociado al valor estimado P.
Fundamentos de la Minería de Datos
06/10/2021 23
Dr. Christian Salamea Palacios Ph.D
INTRODUCCIÓN A LA MINERÍA DE DATOS
LA PRECISIÓN PREDICTIVA DE UN CLASIFICADOR
• Error estándar (S) (cont.)
• Si P se calcula usando un conjunto de evaluación de N ejemplos, el valor del
error estándar es 𝑝(1 − 𝑝)/𝑁.
• El error estándar nos permite decir que con una probabilidad específica, la
precisión predictiva real de un clasificador tiene tantos errores estándar sobre o
debajo del valor estimado P.
• La probabilidad se denomina “nivel de confianza” y se la denota como CL y el
número de errores estándar es usualmente escrito como 𝑍𝐶𝐿 .

Nivel de confianza 0,9 0,95 0,99


Fundamentos de la Minería de Datos
Dr. Christian Salamea Palacios Ph.D 𝑍𝐶𝐿 1,64 1,96 2,58 06/10/2021 24
INTRODUCCIÓN A LA MINERÍA DE DATOS
LA PRECISIÓN PREDICTIVA DE UN CLASIFICADOR
• Error estándar (S) (cont.)
• Si la precisión predictiva para un conjunto de evaluación es P, con un error
estándar S
• Entonces al usar esta tabla se puede decir que con probabilidad CL (o con un
nivel de confianza CL) la precisión predictiva real recae en el intervalo 𝑝 ±
𝑍𝐶𝐿 × 𝑆
Nivel de confianza 0,9 0,95 0,99
𝑍𝐶𝐿 1,64 1,96 2,58

Fundamentos de la Minería de Datos


06/10/2021 25
Dr. Christian Salamea Palacios Ph.D
INTRODUCCIÓN A LA MINERÍA DE DATOS
LA PRECISIÓN PREDICTIVA DE UN CLASIFICADOR
• Cualquier algoritmo que asigne una clasificación a ejemplos no vistos se
llama “clasificador”.
• El mejor criterio para estimar el rendimiento de un clasificador es la
“precisión predictiva”.
• Por ejemplo, la proporción de un conjunto de ejemplos no vistos que son
correctamente clasificados.

Fundamentos de la Minería de Datos


06/10/2021 26
Dr. Christian Salamea Palacios Ph.D
INTRODUCCIÓN A LA MINERÍA DE DATOS
LA PRECISIÓN PREDICTIVA DE UN CLASIFICADOR
• En la mayoría de los casos de interés
• El número de posibles ejemplos no vistos es potencialmente muy grande
y no es posible establecer la precisión predictiva.
• En lugar de ello,
• Se suele estimar la precisión predictiva de un clasificador midiendo su precisión
para una muestra de datos no usados en la generación del clasificador.
• Hay tres estrategias comúnmente usadas para esto:
• Dividir los datos en un conjunto de entrenamiento y un conjunto de validación,
Fundamentos k-fold
de la Minería decross-validation
Datos y N-fold (leave one out) cross-validation. 06/10/2021 27
Dr. Christian Salamea Palacios Ph.D
INTRODUCCIÓN A LA MINERÍA DE DATOS
LA PRECISIÓN PREDICTIVA DE UN CLASIFICADOR
• Separación de conjuntos de entrenamiento y evaluación
• Primero, el conjunto de entrenamiento es usado para construir un clasificador y luego
dicho clasificador es usado para predecir la clasificación para los ejemplos en el
conjunto de evaluación.
• Si el conjunto de evaluación contiene N ejemplos de los cuales C son los
correctamente clasificados, la precisión predictiva del clasificador para el conjunto de
evaluación es 𝑝 = 𝑁𝐶 .
• Esto puede ser usado como una estimación del rendimiento del clasificador.

Fundamentos de la Minería de Datos


06/10/2021 28
Dr. Christian Salamea Palacios Ph.D
INTRODUCCIÓN A LA MINERÍA DE DATOS
LA PRECISIÓN PREDICTIVA DE UN CLASIFICADOR
• La validación cruzada k-fold
• Se utiliza cuando el número de ejemplos es relativamente pequeño.
• Si la base de datos comprende N ejemplos, estos se dividen en k partes iguales, k típicamente
es un valor pequeño como 5 o 10.
• Cada una de esas k partes se usan como un conjunto de evaluación y las otras k-1 partes son
usadas como conjunto de entrenamiento.
• El número total de ejemplos correctamente clasificados (en todas las k combinaciones)
• Se dividen para el número total de ejemplos N para dar un nivel promedio de precisión predictiva P, con
un error estándar 𝑝(1 − 𝑝)/𝑁.
Fundamentos de la Minería de Datos
06/10/2021 29
Dr. Christian Salamea Palacios Ph.D
INTRODUCCIÓN A LA MINERÍA DE DATOS
LA PRECISIÓN PREDICTIVA DE UN CLASIFICADOR
• La validación cruzada k-fold (cont.)

Fundamentos de la Minería de Datos


06/10/2021 30
Dr. Christian Salamea Palacios Ph.D
INTRODUCCIÓN A LA MINERÍA DE DATOS
LA PRECISIÓN PREDICTIVA DE UN CLASIFICADOR
• La validación cruzada n-fold
• La validación cruzada n-fold es un caso extremo de la validación cruzada
K-Fold.
• Frecuentemente es conocida como “leave-one-out”
• Donde el conjunto de datos se divide en tantas partes como ejemplos
existan
• Cada ejemplo forma un conjunto de evaluación de uno.

Fundamentos de la Minería de Datos


06/10/2021 31
Dr. Christian Salamea Palacios Ph.D
INTRODUCCIÓN A LA MINERÍA DE DATOS
LA PRECISIÓN PREDICTIVA DE UN CLASIFICADOR
• La validación cruzada n-fold (cont.)
• Se generan N clasificadores, cada uno a partir de los N-1 ejemplos y cada
uno es usado para clasificar un único ejemplo de evaluación.
• La precisión predictiva p es el número total de clasificaciones correctas
divididas por el número total de ejemplos.
• El error estándar es 𝑝(1 − 𝑝)/𝑁.
• El alto costo computacional que envuelve la validación cruzada N-fold la
vuelve inutilizable para bases de datos grandes. En la práctica, el método
es más útil para bases de datos pequeñas.
Fundamentos de la Minería de Datos
06/10/2021 32
Dr. Christian Salamea Palacios Ph.D
INTRODUCCIÓN A LA MINERÍA DE DATOS
LA PRECISIÓN PREDICTIVA DE UN CLASIFICADOR
• La validación cruzada n-fold (cont.)

Fundamentos de la Minería de Datos


06/10/2021 33
Dr. Christian Salamea Palacios Ph.D
Gracias

Fundamentos de la Minería de Datos


06/10/2021 34
Dr. Christian Salamea Palacios Ph.D

También podría gustarte