Mineria Datos Unidad 1a

MINERÍA DE DATOS
CAPITULO 1
DR. CHRISTIAN SALAMEA PALACIOS PH.D
Fundamentos de la Minería de Datos

06/10/2021 1
Dr. Christian Salamea Palacios Ph.D
QUE VAMOS A ESTUDIAR ?
• FUNDAMENTOS DE LA MINERÍA DE DATOS
• ALGORITMOS DE LA MINERÍA DE DATOS
• EVALUACIÓN DE TÉCNICAS DE MINERÍAS DE DATOS
• FUNDAMENTOS DE PROCESAMIENTO DE LENGUAJE NATURAL
• TÉCNICAS Y APLICACIONES DEL PROCESAMIENTO DE LENGUAJE NATURAL

06/10/2021 2
CAPITULO 1
Fundamentos de la minería de datos
1.1 Introducción a la Minería de Datos
Aprendizaje Aprendizaje No
Datos Supervisado: Supervisado: Validación
La Minería de Descubrimiento etiquetados y no Clasificación, Reglas de La Precisión Cruzada: k-fold
Datos del conocimiento etiquetados Predicción asociación, Predictiva ,n-fold
Numérica Clustering

06/10/2021 3
1.1 INTRODUCCIÓN A LA
MINERÍA DE DATOS
UNIDAD 1

06/10/2021 4
INTRODUCCIÓN A LA MINERÍA DE DATOS
• Los sistemas de computación modernos

cuentan con
• Una casi inimaginable cantidad de datos y de
• Una muy amplia variedad de fuentes
• Y más con todo el volumen creciente de
información disponible en internet
• Ejemplos:
• Transacciones de tarjetas de crédito
• Observación de satélites en el espacio
• Imagen de un agujero negro

06/10/2021 5
• El volumen de los datos • Aunque existe este inmenso volumen de

información
• Los satélites de observación de la NASA
generan terabytes de información cada día. • Eso no significa que esté
• Se estima que existen más de 650 millones de adecuadamente almacenada.
websites, algunos sumamente extensos
• Hay más de 900 millones de usuarios de
• Su análisis se realiza, muchas veces,
Facebook con 3 billiones de posteos al día. de manera superficial
• Se estima que hay alrededor de 150 millones de
usuarios de twitter, enviando 350 millones de
tweets cada día.

06/10/2021 6
“ La tecnología de aprendizaje automático tiene el potencial de
resolver el problema de la inmensa cantidad de datos que
están alrededor y dentro de organizaciones, gobiernos y
demás.
”
Machine Learning
Deep Learning
Natural Language Processing
06/10/2021 7
DESCUBRIMIENTO DEL CONOCIMIENTO
Se define como
“la extracción no trivial de información implícita, previamente
conocida y potencialmente útil a partir de los datos existentes”

06/10/2021 8
• DATOS ETIQUETADOS Y NO ETIQUETADOS
• Normalmente se cuenta con un conjunto de datos de ejemplos
• Cada conjunto se corresponde con una “categoría” o “clase”
• Los valores de cada uno de esos conjuntos, a ellos normalmente se les llama “atributos”
• Al conjunto de ejemplos, donde se conoce la clase o categoría a la que se pertenece cada uno
de los valores de los atributos se les llama “etiquetados”.

06/10/2021 9
• DATOS ETIQUETADOS Y NO ETIQUETADOS (cont.)
• La minería de datos que usa datos etiquetados se conoce como “aprendizaje supervisado”.
• La clase puede ser categórica (bueno, malo) y en este contexto la tarea se denomina
clasificación.
• ”La clase puede ser numérica (el índice de ventas en los últimos 5 años) donde la tarea se
denomina regresión.

06/10/2021 10
• DATOS ETIQUETADOS Y NO ETIQUETADOS (cont.)
• Los datos que no tienen ningún atributo asignado (clase) son llamados no etiquetados.
• La minería de datos de datos no etiquetados se conoce como “aprendizaje no supervisado”.
• La meta es extraer la mayor cantidad de información que se pueda a partir de los datos
disponibles.

06/10/2021 11
• APRENDIZAJE SUPERVISADO: CLASIFICACIÓN
• La clasificación es una de las más comunes aplicaciones de la minería de datos.
• Ejemplos:
• Un hospital quiere clasificar pacientes según el riesgo que puedan tener de adquirir una enfermedad
en: alto, medio o bajo
• Una universidad desea clasificar a sus estudiantes entre aquellos que pasan con mérito, solo pasan o
pierden

06/10/2021 12
APRENDIZAJE SUPERVISADO: CLASIFICACIÓN (CONT.)
Inicial 1 Inicial 2 Medio Avanzado 1 Avanzado 2 Clase
• La siguiente figura muestra una tabla que indica
A B A B B Segunda
• La evaluación de los estudiantes en los cinco años
A B B B B Segunda
de estudio (Inicial 1, Inicial 2, Medio, Avanzado 1 y
Avanzado 2) en dos grupos (A y B). B A A B A Segunda
A A A A B Primera
• Las categorías posibles son (primera y segunda)
A A B B A Primera
• Hay varias maneras para realizar una predicción de B A A B B Segunda
la clasificación de otros estudiantes, entre las
………………… ………………….. ………………….. ………………….. ………………….. …………………..
cuales tenemos: ..
A A B A B Primera

06/10/2021 13
• El vecino más cercano A B A B B Segunda
A B B B B Segunda
B A A B A Segunda
• Este método para la identificación confía en los
ejemplos que están más cerca del elemento sin A A A A B Primera
clasificación. A A B B A Primera
• Si los cinco vecinos más cercanos tienen clases: B A A B B Segunda

Segunda, Primera, Segunda, Segunda y Segunda, ………………… ………………….. ………………….. ………………….. ………………….. …………………..
puede ser muy razonable pensar que el nuevo ..
ejemplo será clasificado como Segunda.
A A B A B Primera

06/10/2021 14
• Reglas de clasificación A B A B B Segunda
• En este caso se buscan reglas que permitan predecir la A B B B B Segunda

clasificación de un ejemplo no visto anteriormente. Por ejemplo: B A A B A Segunda
• SI Inicial 1 = A Y Avanzado 2 = A THEN Clase = Primera A A A A B Primera
• SI Inicial 1 = A Y Avanzado 2 = B Y Inicial 2 = B ENTONCES A A B B A Primera

Clase = Segunda B A A B B Segunda
• SI Inicial 1 = B ENTONCES Clase = Segunda ………………… ………………….. ………………….. ………………….. ………………….. …………………..
..
A A B A B Primera

06/10/2021 15
A B A B B Segunda
A B B B B Segunda
• Árboles de decisión
B A A B A Segunda
A A A A B Primera
• Los árboles de clasificación o árboles de decisión constituyen una A A B B A Primera

vía para generar reglas de clasificación. B A A B B Segunda
………………… ………………….. ………………….. ………………….. ………………….. …………………..

..
A A B A B Primera

06/10/2021 16
APRENDIZAJE SUPERVISADO: PREDICCIÓN NUMÉRICA
• Si bien la clasificación es una forma de predicción, donde el valor que se va a

predecir es una etiqueta,
• La predicción es numérica (normalmente llamada regresión)
• En este caso lo que se pretende predecir es un valor numérico, tal como un precio
de promoción de algún producto.
• Una forma muy popular de llevar a cabo esto es usando una red neuronal
artificial.
• Esta es una técnica de modelamiento compleja basada en un modelo de una
neurona humana.
06/10/2021 17
APRENDIZAJE SUPERVISADO: PREDICCIÓN NUMÉRICA (CONT.)
• Una red neuronal está formada por un conjunto de entradas y es usada para
predecir una o más salidas.
• Se definen como sistemas de mapeo no lineales cuya estructura se basa en
principios observados en los sistemas nerviosos de humanos y animales.
• Constan de un número grande de procesadores simples ligados por conexiones
con pesos.
• Cada unidad recibe entradas de otros nodos y genera una salida simple escalar que
depende de la información local disponible

06/10/2021 18
APRENDIZAJE SUPERVISADO: PREDICCIÓN NUMÉRICA (CONT.)

06/10/2021 19
APRENDIZAJE NO SUPERVISADO: REGLAS DE ASOCIACIÓN
• Hay veces en las que deseamos utilizar un conjunto de entrenamiento para encontrar alguna relación
existente entre los valores de diferentes variables.
• Para ello, generalmente se utilizan reglas que son conocidas como reglas de asociación.
• Las reglas de asociación pueden ser de todo tipo dependiendo del tipo de datos con los que se cuente.
• Ejemplo:
• SI variable_1 > 85 AND switch_6 = open THEN variable_23 < 47.5 AND switch_8 = closed (probabilidad = 0.8)
• Una forma común de este tipo de análisis se denomina “market basket analysis”
• Si es que conocemos el nivel de ventas en una tienda en una semana, podremos encontrar relaciones que ayudarán a
conocer que productos serán más efectivos en el futuro. Por ejemplo: IF queso AND leche THEN pan
(probabilidad = 0.7)
• Indica que el 70% de los clientes quienes compraron queso y leche también compraron pan, con lo cual será
importante colocar el pan cerca del queso y la leche.
06/10/2021 20
APRENDIZAJE NO SUPERVISADO: CLUSTERING
• Los algoritmos de clustering examinan los datos para encontrar grupos
de ítems que sean similares.
• Ejemplos:
• Una compañía START-UP agruparía a sus clientes de acuerdo a sus ingresos, edad, tipo de
membresía, etc.
• En caso de un análisis de fallas en el sistema eléctrico, los datos se podrían agrupar de acuerdo
a ciertas variables claves para encontrar relaciones con las fallas del sistema eléctrico.

06/10/2021 21
LA PRECISIÓN PREDICTIVA DE UN CLASIFICADOR
• Error estándar (S)
• Es importante tener en cuenta que la meta final no es solo clasificar los
ejemplos en el conjunto de evaluación
• Sino estimar la precisión predictiva del clasificador para todos los ejemplos no
vistos posibles
• Si la precisión predictiva calculada para el conjunto de evaluación es P
• Y se usa el clasificador para clasificar los ejemplos en un diferente conjunto de
evaluación, es muy probable que se obtenga un valor diferente de precisión

06/10/2021 22
• Error estándar (S) (cont.)
• Se dice que P es una estimación de la precisión de predicción real del
clasificador para todos los ejemplos no vistos posibles.
• No se puede determinar el valor real sin recolectar todos los ejemplos y
corriéndolos en el clasificador, lo cual es imposible.
• Por ello se utilizan métodos estadísticos para definir un rango de valores en los
que los valores reales de la precisión predictiva funcionen, con un grado de
“confianza aceptable”.
• Para hacer esto se usa el error estándar que está asociado al valor estimado P.
06/10/2021 23
• Si P se calcula usando un conjunto de evaluación de N ejemplos, el valor del
error estándar es 𝑝(1 − 𝑝)/𝑁.
• El error estándar nos permite decir que con una probabilidad específica, la
precisión predictiva real de un clasificador tiene tantos errores estándar sobre o
debajo del valor estimado P.
• La probabilidad se denomina “nivel de confianza” y se la denota como CL y el
número de errores estándar es usualmente escrito como 𝑍𝐶𝐿 .
Nivel de confianza 0,9 0,95 0,99

Dr. Christian Salamea Palacios Ph.D 𝑍𝐶𝐿 1,64 1,96 2,58 06/10/2021 24
• Si la precisión predictiva para un conjunto de evaluación es P, con un error
estándar S
• Entonces al usar esta tabla se puede decir que con probabilidad CL (o con un
nivel de confianza CL) la precisión predictiva real recae en el intervalo 𝑝 ±
𝑍𝐶𝐿 × 𝑆
Nivel de confianza 0,9 0,95 0,99
𝑍𝐶𝐿 1,64 1,96 2,58

06/10/2021 25
• Cualquier algoritmo que asigne una clasificación a ejemplos no vistos se
llama “clasificador”.
• El mejor criterio para estimar el rendimiento de un clasificador es la
“precisión predictiva”.
• Por ejemplo, la proporción de un conjunto de ejemplos no vistos que son
correctamente clasificados.

06/10/2021 26
• En la mayoría de los casos de interés
• El número de posibles ejemplos no vistos es potencialmente muy grande
y no es posible establecer la precisión predictiva.
• En lugar de ello,
• Se suele estimar la precisión predictiva de un clasificador midiendo su precisión
para una muestra de datos no usados en la generación del clasificador.
• Hay tres estrategias comúnmente usadas para esto:
• Dividir los datos en un conjunto de entrenamiento y un conjunto de validación,
Fundamentos k-fold
de la Minería decross-validation
Datos y N-fold (leave one out) cross-validation. 06/10/2021 27
• Separación de conjuntos de entrenamiento y evaluación
• Primero, el conjunto de entrenamiento es usado para construir un clasificador y luego
dicho clasificador es usado para predecir la clasificación para los ejemplos en el
conjunto de evaluación.
• Si el conjunto de evaluación contiene N ejemplos de los cuales C son los
correctamente clasificados, la precisión predictiva del clasificador para el conjunto de
evaluación es 𝑝 = 𝑁𝐶 .
• Esto puede ser usado como una estimación del rendimiento del clasificador.

06/10/2021 28
• La validación cruzada k-fold
• Se utiliza cuando el número de ejemplos es relativamente pequeño.
• Si la base de datos comprende N ejemplos, estos se dividen en k partes iguales, k típicamente
es un valor pequeño como 5 o 10.
• Cada una de esas k partes se usan como un conjunto de evaluación y las otras k-1 partes son
usadas como conjunto de entrenamiento.
• El número total de ejemplos correctamente clasificados (en todas las k combinaciones)
• Se dividen para el número total de ejemplos N para dar un nivel promedio de precisión predictiva P, con
un error estándar 𝑝(1 − 𝑝)/𝑁.
06/10/2021 29
• La validación cruzada k-fold (cont.)

06/10/2021 30
• La validación cruzada n-fold
• La validación cruzada n-fold es un caso extremo de la validación cruzada
K-Fold.
• Frecuentemente es conocida como “leave-one-out”
• Donde el conjunto de datos se divide en tantas partes como ejemplos
existan
• Cada ejemplo forma un conjunto de evaluación de uno.

06/10/2021 31
• La validación cruzada n-fold (cont.)
• Se generan N clasificadores, cada uno a partir de los N-1 ejemplos y cada
uno es usado para clasificar un único ejemplo de evaluación.
• La precisión predictiva p es el número total de clasificaciones correctas
divididas por el número total de ejemplos.
• El error estándar es 𝑝(1 − 𝑝)/𝑁.
• El alto costo computacional que envuelve la validación cruzada N-fold la
vuelve inutilizable para bases de datos grandes. En la práctica, el método
es más útil para bases de datos pequeñas.
06/10/2021 32
• La validación cruzada n-fold (cont.)

06/10/2021 33
Gracias

06/10/2021 34

Mineria Datos Unidad 1a

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Mineria Datos Unidad 1a

Cargado por

Copyright:

Formatos disponibles

MINERÍA DE DATOS

Fundamentos de la Minería de Datos

Fundamentos de la Minería de Datos

Fundamentos de la minería de datos

1.1 Introducción a la Minería de Datos

Fundamentos de la Minería de Datos

Fundamentos de la Minería de Datos

• Los sistemas de computación modernos

Fundamentos de la Minería de Datos

• El volumen de los datos • Aunque existe este inmenso volumen de

Fundamentos de la Minería de Datos

Fundamentos de la Minería de Datos

Fundamentos de la Minería de Datos

Fundamentos de la Minería de Datos

Fundamentos de la Minería de Datos

Fundamentos de la Minería de Datos

Fundamentos de la Minería de Datos

• El vecino más cercano A B A B B Segunda

• Si los cinco vecinos más cercanos tienen clases: B A A B B Segunda

Fundamentos de la Minería de Datos

• Reglas de clasificación A B A B B Segunda

• En este caso se buscan reglas que permitan predecir la A B B B B Segunda

• SI Inicial 1 = A Y Avanzado 2 = A THEN Clase = Primera A A A A B Primera

• SI Inicial 1 = A Y Avanzado 2 = B Y Inicial 2 = B ENTONCES A A B B A Primera

Fundamentos de la Minería de Datos

• Los árboles de clasificación o árboles de decisión constituyen una A A B B A Primera

………………… ………………….. ………………….. ………………….. ………………….. …………………..

Fundamentos de la Minería de Datos

• Si bien la clasificación es una forma de predicción, donde el valor que se va a

Fundamentos de la Minería de Datos

Fundamentos de la Minería de Datos

Fundamentos de la Minería de Datos

Fundamentos de la Minería de Datos

Nivel de confianza 0,9 0,95 0,99

Fundamentos de la Minería de Datos

Fundamentos de la Minería de Datos

Fundamentos de la Minería de Datos

Fundamentos de la Minería de Datos

Fundamentos de la Minería de Datos

Fundamentos de la Minería de Datos

Fundamentos de la Minería de Datos

También podría gustarte