0% encontró este documento útil (0 votos)
211 vistas193 páginas

5 2 2 ProcesodeCienciadeDatos

El documento presenta una introducción al proceso de ciencia de datos, incluyendo conceptos clave como aprendizaje automático, tareas comunes como clasificación y agrupamiento, y el proceso CRISP-DM ampliamente utilizado. Explica que la ciencia de datos extrae valor de los datos a través de técnicas como detección de patrones y construcción de modelos predictivos o descriptivos.

Cargado por

Julio Cruz
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
211 vistas193 páginas

5 2 2 ProcesodeCienciadeDatos

El documento presenta una introducción al proceso de ciencia de datos, incluyendo conceptos clave como aprendizaje automático, tareas comunes como clasificación y agrupamiento, y el proceso CRISP-DM ampliamente utilizado. Explica que la ciencia de datos extrae valor de los datos a través de técnicas como detección de patrones y construcción de modelos predictivos o descriptivos.

Cargado por

Julio Cruz
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

18/04/2022

PROCESO DE CIENCIA
DE DATOS
Recopiló: Dra. María del Pilar Angeles
Libro: Data Science Concepts and Techniques, Jiawei Han, Micheline
Kamber, Jian Pei

AGENDA

 Introducción a la Ciencia de datos


 Aprendizaje automático
 KDD
 Multidisciplinas involucradas en la Ciencia de datos
 Tareas de ciencia de datos
 Algoritmos de aprendizaje
 Proceso de ciencia de datos

1
18/04/2022

AGENDA
 Proceso Ciencia de Datos (CRISP-DM)
○ 1. Conceptos básicos
○ 2. Conocimiento previo- Exploración de datos
■ Tipos de atributos
■ Descripción por estadística
● Tendencia
● Dispersión
● Graficas
● Visualización
● Varianza
● Similitud
● Proximidad
● distancia

AGENDA

3. Preparación de datos
■ Calidad de datos
■ Limpieza
■ Integración
■ Reducción
■ Transformación
■ Correlación
■ discretización

2
18/04/2022

AGENDA

4. Modelado
Patrones
Clasificación
Arboles de decisión
Métodos bayesianos
Reglas
Predicción numérica

AGENDA

5. Evaluación de modelado
Matriz de confusión
Accuracy
Sensitivity
Specificity
Recall
Validación cruzada
Métodos de ensambñe
Análisis de cluster

3
18/04/2022

INTRODUCCIÓN - CIENCIA DE DATOS

● Colección de técnicas utilizadas para extraer valor de los datos.

● Las técnicas se basan en encontrar patrones y relaciones


dentro de los datos.

● El término ciencia de datos comúnmente se uso de manera


intercambiable con descubrimiento de conocimiento,
aprendizaje automático, análisis predictivo y minería de datos.
● Sin embargo, cada término tiene una connotación ligeramente
diferente según el contexto.

INTRODUCCIÓN - CIENCIA DE DATOS

● La ciencia de datos es la aplicación comercial de:


○ Inteligencia artificial (PLN, lingüística, planeación, visión,
robótica, aprendizaje automático, etc.)
○ Estadísticas
○ Visualización
○ Matemáticas
La ciencia de datos es un campo interdisciplinario que extrae
valor de los datos que depende en gran medida del
aprendizaje automático y a veces se llama minería de datos.

10

4
18/04/2022

INTRODUCCIÓN CIENCIA DE DATOS

● Los términos inteligencia artificial, aprendizaje automático y


ciencia de datos a menudo se usan indistintamente.

● Sin embargo, estos tres campos son distintos según el contexto.

● La figura 1.1 muestra la relación entre inteligencia artificial,


aprendizaje automático y Ciencia de los datos.

11

INTRODUCCIÓN - CIENCIA DE DATOS

12

5
18/04/2022

APRENDIZAJE AUTOMÁTICO

● El aprendizaje automático es una subárea de la inteligencia


artificial que proporciona a las máquinas la capacidad de
aprender a través de la experiencia.

● La experiencia en este caso se da a través de los datos.


● Los datos que se usan para enseñar a las máquinas se llama
datos de entrenamiento.

● El aprendizaje de máquina cambió diametralmente el modelo


de programación tradicional .

13

APRENDIZAJE AUTOMÁTICO

● Un programa es un conjunto de instrucciones


donde una computadora transforma las señales de
entrada en señales de salida a través de reglas y
relaciones predeterminadas.

● Los algoritmos de aprendizaje automático


(learners, estudiantes) toman las señales de
entrada y de salida (datos de entrenamiento) para
“descifrar” un modelo para el programa que
convierte la entrada en la salida

14

6
18/04/2022

CIENCIA DE DATOS

Ejemplos de casos de uso de ciencia de datos son:

● Motores de recomendación que pueden recomendar películas


para un determinado usuario

● Modelo de alerta de fraude que detecta transacciones


fraudulentas con tarjeta de crédito

● Modelo que encuentra clientes que probablemente


abandonarán el próximo mes o predecirán ingresos para el
siguiente trimestre

16

CARACTERÍSTICAS DE UN BUEN
PATRÓN
• Fácilmente entendible por humanos

• Válido en datos nuevos o de prueba con cierto grado


de certeza

• Potencialmente útil

• Novedoso

• Representa CONOCIMIENTO

17

7
18/04/2022

CIENCIA DE DATOS - CONSTRUYENDO MODELOS


REPRESENTATIVOS:

● Modelo:
○ Estadística: representación de una relación entre variables en un conjunto
de datos. Un modelo puede describir cómo se relacionan dichas
variables.
○ Una vez que se crea el modelo representativo, se puede utilizar para
predecir el valor de la salida con base en las variables de
entrada(descriptivo) o para comprender la relación entre variable de
salida y todas las variables de entrada (descriptivo).

18

CIENCIA DE DATOS – TAREAS

● Muchos de estos algoritmos se desarrollaron en las


últimas décadas y son parte de aprendizaje
automático e inteligencia artificial.
● Algunos algoritmos se basan en los fundamentos de las
teorías probabilísticas bayesianas y el análisis de
regresión, originario de hace cientos de años. Estos
algoritmos iterativos automatizan el proceso de
búsqueda de una solución óptima para un problema
de datos determinado.
● Según el problema, existen diversas tareas:
○ Clasificación
○ Análisis de asociación
○ Agrupamiento
○ Regresión.

27

8
18/04/2022

PROCESO DE CIENCIA DE DATOS

● Mientras empecemos por el proceso de Ciencia de datos

● Existen diversas propuestas para el proceso de ciencia de datos:

○ CRISP-DM –ya revisado en asignatura anterior-


○ KDD PROCESS
○ SEMMA SAMPLE, EXPLORE, MODIFY MODEL AND ASSESS (SAS INSTITUTE)
○ DMAIC DEFINE MESURE, ANALYZE IMPROVE AND CONROL SIX SIGMA
● El más extendido es CRISP y lo repasaremos a continuación.

29

KDD

Knowledge data
discovery/Knowl
edge discovery
in databases
Proceso no trivial
de identificación
de patrones
válidos,
novedosos,
potencialmente
útiles y en última
instancia
comprensibles
que permite
detectar
relaciones
dentro de los
datos para
tomar decisiones
importantes
5. Escoger tarea de minería de datos
(Fayyad,
6. Escoger técnica de minería de datos Piatetsky-shapiro
7. Aplicar algoritmo y Smyth, 1996).

43

9
18/04/2022

RESUMIENDO EL PROCESO DE CIENCIA DE


DATOS

44

PROCESO DE CIENCIA DE DATOS

● Una vez conocido el proceso de ciencia de datos


veremos a detalle cada uno de estos pasos

○ Terminología utilizada
○ Conocimiento previo del negocio y de los datos  exploración de datos
○ Preparación o preprocesamiento de datos  limpieza, transformación, etc.
○ Modelado
○ Aplicación del modelo
○ Conocimiento posterior

45

10
18/04/2022

CONCEPTOS BÁSICOS

● Terminología relevante:

Conjunto de datos /dataset (conjunto de ejemplos) es una colección de


datos con una estructura definida, a veces a la estructura se le
denominada “dataframe o marco de datos".

Un punto de datos / data point (registro, objeto o ejemplo) es una


instancia única en el conjunto de datos. Cada instancia contiene la
misma estructura que el conjunto de datos.

Un atributo (característica, entrada, dimensión, variable o predictor) es


una sola propiedad del conjunto de datos. Los atributos pueden ser
numéricos, categóricos, fecha-hora, texto o datos booleanos.

46

CONCEPTOS BÁSICOS

Terminología relevante:

Etiqueta (etiqueta de clase, salida, predicción, objetivo o respuesta) es


el atributo a predecir en función de todos los atributos de entrada.

Los identificadores son atributos especiales que se utilizan para localizar


o proporcionar contexto a registros individuales.
Por ejemplo, atributos comunes como nombres, números de
cuenta y números de identificación de empleados son identificadores
atributos.
Los identificadores se usan a menudo como claves de búsqueda
para unir múltiples conjuntos de datos.
Los Ids no contienen información adecuada para construir datos
modelos científicos y, por lo tanto, deben excluirse durante el modelado
real.

47

11
18/04/2022

CONOCIMIENTO PREVIO

● Información que ya se conoce acerca del tema en cuestión.

● Ayuda a definir el problema a resolver, como encaja en el


negocio o investigación

● Ayuda a identificar los datos que se requieren para resolver el


problema

48

CONOCIMIENTO PREVIO

● Objetivo
El proceso empieza por la necesidad de:
Análisis
Una pregunta
Un objetivo de negocio

Dado que es un proceso iterativo, es común regresar a pasos


anteriores, revisar lo asumido, la estrategia, la táctica, pero el
objetivo es lo más importante tener claro antes de empezar.

49

12
18/04/2022

CONOCIMIENTO PREVIO

● Area de conocimiento/aplicación
Dado que la ciencia de datos puede descubrir muchos patrones
y relaciones entre los atributos, el científico debe examinar los
patrones expuestos y aceptar los que sean válidos y relevantes
para la respuesta del objetivo.

Se debe estar familiarizado con el tema, su contexto y con el


proceso de negocio que genera los datos.

50

CONOCIMIENTO PREVIO

● Datos
También se requiere conocimiento sobre los datos.
Entender como son colectados, almacenados, transformados,
reportados y utilizados.
Factores que se deben considerar:
Calidad de los datos
Cantidad de los datos
Disponibilidad de los datos
Datos que no se tienen
Si no hay datos, el científico tendría que cambiar la
pregunta/objetivo.
Al final de este paso es tener los datos que ayudarán a responder la
respuesta o a lograr el objetivo.
Entender que un modelo es tan bueno como los datos que se usaron
para crearlo.

51

13
18/04/2022

CONOCIMIENTO PREVIO

● Causa vs. Correlación

Considere la pregunta:
Si la tasa de interés de prestatarios anteriores con una gama de
puntajes de crédito es conocida, ¿se puede predecir la tasa de
interés para un nuevo prestatario?

Ahora suponga que se invierte la pregunta:

Con base en la Tabla 2.1, ¿Se puede predecir la calificación


crediticia del prestatario en función de la tasa de interés?

52

CONOCIMIENTO PREVIO

La respuesta es sí- pero no tiene sentido comercial.


De la experiencia de dominio existente, se sabe que el puntaje de crédito
influye en la tasa de interés del préstamo.
Predecir puntaje de crédito basado en la tasa de interés invierte la dirección
de la relación causal.
Esta pregunta expone uno de los aspectos clave de la construcción de
modelos.
La correlación entre los atributos de entrada y salida no garantiza la
causalidad.
Por lo tanto es importante estipular correctamente la pregunta de la ciencia
de datos utilizando el conocimiento existente sobre dominio del problema y
los datos.
En este ejemplo de ciencia de datos, la tasa de interés del nuevo prestatario
con una tasa de interés desconocida se predecirá con base en el patrón
aprendido de los datos conocidos en la Tabla.

53

14
18/04/2022

DATA EXPLORACIÓN

Pasos principales:

1. Organizar la fuente de datos


2. Encontrar el punto central de cada atributo
3. Entender y visualizar la distribución de cada atributo
4. Pivotear los datos (p.e. agrupar y sumarizar)
5. Identificar, considerar o ignorar los datos anómalos
6. Entender y visualizar la relación entre los atributos
7. Visualizar fuentes de datos de gran dimensión

54

CONOCIENDO LOS DATOS

Exploración: Mejor entendimiento de los datos, se aplica


caracterización, sumarización de los datos
● Herramientas para exploración de datos

○ Estadística descriptiva:
■ Tendencia central (media, mediana, moda, rango medio)
■ Dispersión (cuantiles, rango intercuartil (IQR),
varianza,desviación estándar, det. anómalos, boxplots, five-
number summary (mínimo, q1, mediana,q3, máximo)

visualización (estructura, distribución, anómalos, relaciones


entre atributos)

55

15
18/04/2022

EXPLORACIÓN DE DATOS

● Tipos de datos y conversiones: Los tipos de datos en una


muestra pueden ser muy variados como numéricos continuos,
numéricos enteros, o categóricos (pobre, bueno, excelente). Los
algoritmos de ciencia de datos requieren tipos específicos de
datos para modelar.

Por ejemplo:
Modelos de regresión lineal - atributos de entrada numéricos
Binning - atributos de entrada categóricos
K-nn - atributos de entrada numéricos

Es por tanto, que se pre-procesan o preparan los datos antes de


aplicar algoritmo de modelado

56

EXPLORACIÓN DE DATOS

● Tipos de atributos y objetos de datos

● Descripción de los datos y estadística básica

● Visualización de los datos

● Medición de similitud y discrepancia

57

16
18/04/2022

TIPOS DE ATRIBUTOS
• Nominales: categorias, estados o “nombres de cosas”
• Color_ojos = {cafes, verdes, azules}
• Estado_civil, ocupación, números identificadores, códigos postales
• Binarios
• Atributo nominal con solo dos estados (0 y1)
• Binarios simétricos: ambas salidas igualmente importantes
• p.e., género
• Binarios asimétricos: salidas con diferente importancia.
• p.e., pruebas de laboratorio (positivo vs. negativo)
• Convención: asignar 1 al mas importante (p.e., VIH positivo)
• Ordinales
• Valores que tienen un orden significativo (ranking) pero las magnitudes entre los
valores sucesivos no se conocen.
• tamaño = {pequeño, mediano, grande}, puntajes, rangos militares

58

ATRIBUTOS NUMÉRICOS
Cantidad (entero o valor real)
• Intervalo
• Medición conforme a una escala de unidades de igual
tamaño
• Valores tienen orden
• p.e., temperatura en C˚, fechas de calendario
• No hay un valor cero verdadero
• Razón
• Tiene un punto de inicio (0) inherente
• Podemos hablar de valores como un orden de magnitud
mayor que la unidad de medida (10 K˚ es el doble de 5 K˚).
• P.e., temperatura in Kelvin, longitud, conteos, cantidades
monetarias

59

17
18/04/2022

ATRIBUTOS DISCRETOS VS. CONTINUOS


• Atributo discreto
• Tiene un conjunto de valores contables finito
• Códigos postales, profesión, palabras en un documento
• En ocasiones son representados como variables de tipo entero
• Nota: los atributos binarios son un caso especial de atributos
discretos
• Atributo continuo
• Tiene valores de atributo numéricos reales
• temperatura, altitud, peso
• Prácticamente, los valores reales pueden solamente ser medidos y
representados usando un número finito de dígitos
• Los atributos continuos están por lo general representados con
variables de punto flotante.

60

DESCRIPCIÓN POR ESTADÍSTICA BÁSICA

61

18
18/04/2022

MEDICIONES DE TENDENCIA CENTRAL ∑𝑥


1 𝜇=
𝑥̄ = 𝑥 𝑁
𝑛
• Media (medición algebraica) (muestra vs. población):
Nota: n tamaño de la muestra; N tamaño de la población. 𝑥̄
∑ 𝑤𝑥
• Media aritmética ponderada: =
∑ 𝑤
• Media truncada: eliminando valores extremos

• Mediana:
• Valor que se encuentra a la mitad de la muestra o 𝑛/2 − (∑ 𝑓𝑟𝑒𝑞)𝑙
𝑚𝑒𝑑𝑖𝑎𝑛 = 𝐿 + ( )𝑤𝑖𝑑𝑡ℎ
población, si el tamaño de la muestra es impar, de lo 𝑓𝑟𝑒𝑞
contrario será el promedio de los dos valores centrales
• Estimada por interpolación (para datos agrupados):

𝑚𝑒𝑎𝑛 − 𝑚𝑜𝑑𝑒 = 3 × (𝑚𝑒𝑎𝑛 − 𝑚𝑒𝑑𝑖𝑎𝑛)


• Moda
• Valor que ocurre más frecuentemente en los datos
• Unimodal, bimodal, trimodal
• Fórmula empírica:

62

DATOS SIMÉTRICOS VS. DATOS SESGADOS


• Mediana, media y moda de
datos simétricos sesgados
positivamente y negativamente

Sesgo negativo

Sesgo positivo Sesgo simétrico

63

19
18/04/2022

ANÁLISIS DE DIAGRAMA DE CAJA


• Resumen de cinco números de una distribución.
• Mínimo, Q1, Mediano, Q3, Máximo
• Diagrama de caja y bigote
• Los datos se representan con un cuadro
• Los extremos de la caja están en el primer y tercer
cuartiles, es decir, la altura de la caja es IQR
• La mediana está marcada por una línea dentro del
cuadro
• Bigotes: dos líneas fuera de la caja extendidas a
Mínimo y Máximo
Valores atípicos: puntos más allá de un umbral de valores
• Los valores atípicos especificados, trazados
individualmente

64

EJERCICIOS EXPLORACIÓN DE DATOS

(a) ¿Cuál es la media de los datos? ¿Cuál es la


mediana?
Suponga que los datos
(b) ¿Cuál es la moda de los datos? Comente
para un análisis incluyen el
la modalidad de los datos (es decir, bimodal,
atributo edad.
trimodal, etc.).
(c) ¿Cuál es el rango medio de los datos?
Los valores de edad para
las tuplas de datos son (en (d) ¿Puede encontrar (aproximadamente) el
orden creciente)13, 15, 16, primer cuartil (Q1) y el tercer cuartil (Q3) de los
16, 19, 20, 20, 21, 22, 22, 25, datos?
25, 25, 25, 30, 33, 33, 35, 35, (e) Proporcione el resumen de cinco números
35, 35, 36, 40, 45, 46, 52, 70. de los datos.
(f) Muestre un diagrama de caja de los datos.
(g) ¿Cuál es la diferencia entre un gráfico
cuantil-cuantil y un gráfico cuantil?

65

20
18/04/2022

MEDICIONES DE DISPERSIÓN
Cuartiles, valores atípicos y diagramas de caja

• Cuartiles: Q1 (percentil 25), Q3 (percentil 75)


• Rango intercuartil: IQR = Q3 - Q1
• Resumen de cinco números: min, Q1, mediana, Q3, max
• Diagrama de caja: los extremos de la caja son los cuartiles; la mediana está marcada;
trazar valores atípicos individualmente

• Atípico, anómalo: generalmente, un valor mayor / menor que 1.5 x IQR


Varianza y desviación estándar (muestra: s, población: σ)

• Varianza: (cálculo algebraico, escalable)


1 1 1 1 1
𝑠 = (𝑥 − 𝑥̄ ) = [ 𝑥 − ( 𝑥) ] 𝜎 = (𝑥 − 𝜇) = 𝑥 −𝜇
𝑛−1 𝑛−1 𝑛 𝑁 𝑁

• Desviación estándar s (o σ) es la raíz cuadrada de la varianza s2 (o σ2)

69

EJERCICIOS EXPLORACIÓN DE DATOS

2. Suponga que un hospital tiene los datos de edad y grasa


corporal de 18 adultos seleccionados al azar con el siguiente
resultado
Edad 23 23 27 27 39 41 47 49 50
%grasa 9.5 26.5 7.8 17.8 31.4 25.9 27.4 27.2 31.2
edad 52 54 54 56 57 58 58 60 61
%grasa 34.6 42.5 28.8 33.4 30.2 34.1 32,9 41.2 35.7

(a) Calcule la media, mediana y desviación estándar de la


edad y el% de grasa.
(b) Dibuje los diagramas de caja para la edad y el% de grasa.
(c) Dibuje un diagrama de dispersión y un diagrama q-q basado
en estas dos variables.

70

21
18/04/2022

VISUALIZACIÓN DE DISPERSIÓN DE DATOS:


DIAGRAMAS DE CAJA 3D

April 18, 2022 Data Mining: Concepts and Techniques

72

PROPIEDADES DE UNA CURVA DE DISTRIBUCIÓN NORMAL

La curva normal (distribución)


(μ: media, σ: desviación estándar)

• De μ – σ a μ + σ: contiene aproximadamente el 68% de las mediciones


• De μ – 2σ a μ + 2σ: contiene aproximadamente el 95%
• De μ – 3σ a μ + 3σ: contiene cerca del 99.7% de ella

73

22
18/04/2022

GRÁFICAS QUE MUESTRAN LA DESCRIPCIÓN


ESTADÍSTICA BÁSICA

• Diagrama de caja: visualización gráfica del resumen de cinco números

• Histograma: el eje x son valores, el eje y representa frecuencias


• Gráfico cuantil: cada valor xi se combina con , fi lo que indica que
aproximadamente el 100% de los datos son <= xi

• Gráfica cuantil-cuantil (q-q): grafica los cuantiles de una distribución


univariante contra los cuantiles correspondientes de otra

• Diagrama de dispersión: cada par de valores es un par de coordenadas


y se traza como puntos en el plano

74

ANÁLISIS POR HISTOGRAMAS

• Histograma: visualización gráfica de frecuencias


tabuladas, mostradas como barras

• Muestra qué proporción de casos se incluye en


cada una de varias categorías.

• Se diferencia de un gráfico de barras en que es


el área de la barra lo que denota el valor, no la
altura como en los gráficos de barras, una
distinción crucial cuando las categorías no
tienen un ancho uniforme

• Las categorías generalmente se especifican


como intervalos no superpuestos de alguna
variable. Las categorías (barras) deben ser
adyacentes.

75

23
18/04/2022

LOS HISTOGRAMAS MUESTRAN MÁS QUE LOS DIAGRAMAS DE CAJAS

Los dos histogramas que se


muestran a la izquierda pueden
tener la misma representación de
diagrama de caja

Los mismos valores para: min, Q1,


mediana, Q3, max

Pero tienen distribuciones de datos


bastante diferentes.

76

CUANTIL
Muestra todos los datos (lo que
permite al usuario evaluar tanto el
comportamiento general como los
sucesos inusuales)

Muestra información sobre los


cuantiles
Para un xi los datos son
ordenados en orden creciente.
fi indica que aproximadamente 100
fi% de los datos están por debajo o
son iguales al valor xi

77

24
18/04/2022

CUANTIL-CUANTIL (Q-Q)
Se grafica los cuantiles de una distribución univariada contra los cuantiles
correspondientes de otra.
Observe y responda: ¿Hay un cambio al pasar de una distribución a otra?
El ejemplo muestra el precio unitario de los artículos vendidos en la sucursal 1
versus la sucursal 2 para cada cuantil. Los precios unitarios de los artículos
vendidos en la Sucursal 1 tienden a ser más bajos que los de la Sucursal 2.

78

GRÁFICO DE DISPERSIÓN
• Proporciona un primer vistazo a los datos bivariados para ver
grupos de puntos, valores atípicos, etc.
• Cada par de valores se trata como un par de coordenadas y
se representa como puntos en el plano.

79

25
18/04/2022

DATOS CORRELACIONADOS POSITIVA Y


NEGATIVAMENTE

• El medio fragmento izquierdo está positivamente


correlacionado

• La mitad derecha está correlacionada negativamente

80

DATOS NO CORRELACIONADOS

81

26
18/04/2022

VISUALIZACIÓN
¿Por qué la visualización de datos?
• Permite obtener información mapeando datos en gráficas
• Proporciona una visión general cualitativa de grandes conjuntos de datos.
• Busca patrones, tendencias, estructura, irregularidades y relaciones entre datos.
• Ayuda a encontrar regiones interesantes y parámetros adecuados para un análisis cuantitativo
adicional
• Proporciona una prueba visual de las representaciones derivadas por computadora
• Categorización de los métodos de visualización:
• Técnicas de visualización orientadas a píxeles.
• Técnicas de visualización de proyección geométrica.
• Técnicas de visualización basadas en íconos
• Técnicas de visualización jerárquica
• Visualizando datos y relaciones complejas

82

TÉCNICAS DE VISUALIZACIÓN ORIENTADAS A


PIXELES
• Para un conjunto de datos de m dimensiones, se crean m ventanas en la pantalla, una
para cada dimensión
• Los valores de dimensión m de un registro se asignan a m píxeles en las posiciones
correspondientes en las ventanas
• Los colores de los píxeles reflejan los valores correspondientes.

(a) Income (b) Credit (c) transaction volume (d) age


Limit 83

83

27
18/04/2022

DISPOSICIÓN DE PÍXELES EN SEGMENTOS CIRCULARES


• Para ahorrar espacio y mostrar las conexiones entre varias
dimensiones, el relleno de espacio a menudo se realiza en un
segmento circular

(a) Representing a data


(b) Laying out pixels in circle
record in circle segment
segment 84

84

TÉCNICAS DE VISUALIZACIÓN POR


PROYECCIONES GEOMÉTRICAS

• Visualización de transformaciones geométricas y proyecciones de los datos.


• Métodos
• Visualización directa
• Diagrama de dispersión y matrices de diagrama de dispersión
• Paisajes
• Técnica de búsqueda de proyección: ayuda a los usuarios a encontrar
proyecciones significativas de datos multidimensionales
• Vistas de prospección
• Hiperslice
• Coordenadas paralelas

85

28
18/04/2022

MATRICES DE DIAGRAMAS DE DISPERSIÓN

Used by ermission of M. Ward, Worcester Polytechnic Institute

Matrix of scatterplots (x-y-diagrams) of the k-dim. data [total of (k2/2-k) scatterplots]

86

MEDICIONES DE SIMILITUD Y NO
SIMILITUD
• Semejanza
• Medida numérica de cuán parecidos son dos objetos de datos
• El valor es mayor cuando los objetos son más parecidos
• A menudo cae en el rango [0,1]
• Disimilitud (por ejemplo, distancia)
• Medida numérica de cuán diferentes son dos objetos de datos
• El valor es pequeño cuando los objetos son más parecidos
• La disimilitud mínima es a menudo 0
• Límite superior varía
• Proximidad se refiere a una similitud o disimilitud.

87

29
18/04/2022

MATRIZ DE DATOS Y
• Matriz de datos MATRIZ DE DISIMILITUD
• n puntos de datos con p 𝑥 ... 𝑥 ... 𝑥
dimensiones ... ... ... ... ...
𝑥 ... 𝑥 ... 𝑥
... ... ... ... ...
𝑥 ... 𝑥 ... 𝑥

• Matriz de disimilitud
• n puntos de datos, pero
0
registra solo la distancia 𝑑(2,1) 0
• Una matriz triangular 𝑑(3,1) 𝑑(3,2) 0
: : :
𝑑(𝑛, 1) 𝑑(𝑛, 2) . . . ... 0

88

MEDICIÓN DE PROXIMIDAD PARA ATRIBUTOS


NOMINALES

• Puede tomar 2 o más estados, por ejemplo, rojo,


amarillo, azul, verde (generalización de un atributo
binario)
• Método 1: coincidencia simple
• m: número de coincidencias, p: número total de
variables 𝑑(𝑖, 𝑗) =
𝑝−𝑚
𝑝

• Método 2: usar una gran cantidad de atributos binarios


• crear un nuevo atributo binario para cada uno de los
estados nominales M

89

30
18/04/2022

MEDIDA DE PROXIMIDAD PARA ATRIBUTOS DE


CLASIFICACIÓN BINARIA
TABLA DE CONTINGENCIA

Conceptos:
En estadística las tablas de contingencia se emplean para
registrar y analizar la asociación entre dos o más variables,
habitualmente de naturaleza cualitativa (nominales u ordinales).
Ejemplo
Suponga que se tienen dos variables, género (Masculino -
Femenino) e individuo (zurdo o diestro).Considere una muestra
aleatoria de 100 individuos. Se puede emplear una tabla de
contingencia para expresar la relación entre estas dos variables,
así se puede resolver cualquier operación de probabilidad o
álgebra :
Object j
Diestro Zurdo TOTAL
Hombre 43 9 52
Object i
Mujer 44 4 48
Total 87 13 100

90

MEDIDA DE PROXIMIDAD PARA ATRIBUTOS BINARIOS


TABLA DE CONTINGENCIA
Las cifras en la columna de la derecha y en la fila inferior reciben
el nombre de frecuencias marginales y la cifra situada en la
esquina inferior derecha es el gran total.
La tabla nos permite ver rápidamente que la proporción de
hombres diestros es aproximadamente igual a la proporción de
mujeres diestras. Sin embargo, ambas proporciones no son
idénticas y la significación estadística de la diferencia entre ellas
puede ser evaluada con la prueba χ² de Pearson, dado que las
cifras de la tabla son una muestra aleatoria de una población. Si
la proporción de individuos en cada columna varía entre las
diversas filas y viceversa, se dice que existe asociación entre las
dos variables. Si no existe asociación se dice que ambas variables
son independientes.
Diestro Zurdo TOTAL
Hombre 43 9 52
Mujer 44 4 48
Total 87 13 100

91

31
18/04/2022

MEDIDA DE PROXIMIDAD PARA ATRIBUTOS


BINARIOS
Object j

• Una tabla de contingencia para datos Object i


binarios.

• Medida de distancia para variables binarias


simétricas:

• Medida de distancia para variables binarias


asimétricas (t:falsos positivos se ignora)

• Coeficiente de Jaccard (medida de similitud


para variables binarias asimétricas):
 Note: El coeficiente de Jaccard es lo mismo que coherencia:

92

DISTANCIA ENTRE VARIABLES


BINARIAS
• Ejemplo
Nombre Genero Fiebre Tos Prueba1 Prueba2 Prueba3 Prueba4
Jack M S N P N N N
Mary F S N P N P N
Jim M S P N N N N Object j

• El género es un atributo simétrico Object i

• Los demás atributos son binarios asimétricos


• Sean los valores S y P =1 y el valor N= 0

0+1
𝑑(𝑗𝑎𝑐𝑘, 𝑚𝑎𝑟𝑦) = = 0.33
2+0+1
1+1
𝑑(𝑗𝑎𝑐𝑘, 𝑗𝑖𝑚) = = 0.67
1+1+1
1+2
𝑑(𝑗𝑖𝑚, 𝑚𝑎𝑟𝑦) = = 0.75
1+1+2

93

32
18/04/2022

ESTANDARIZANDO DATOS NUMÉRICOS


𝑥−𝜇
• Puntuación Z: 𝑧=
𝜎
• X: puntaje bruto a estandarizar, μ: media de la población, σ: desviación estándar
• la distancia entre el puntaje bruto y la media poblacional en unidades de la desviación estándar
• Es negativo cuando el puntaje bruto está por debajo de la media y positivo cuando está arriba

• Una forma alternativa: calcular la desviación media absoluta

1
• dónde 𝑠 =
𝑛
(|𝑥 − 𝑚 | + |𝑥 − 𝑚 |+. . . +|𝑥 − 𝑚 |)

1
𝑚 = (𝑥 + 𝑥 +. . . +𝑥 ).
𝑛
𝑥 −𝑚
• medida estandarizada (puntaje z): 𝑧 =
𝑠

• Usar la desviación media absoluta es más robusto que usar la desviación estándar

94

EJEMPLO DE MATRIZ DE DATOS Y MATRIZ DE


DISIMILITUD

Matriz de datos
point attribute1 attribute2
x2 x4 x1 1 2
x2 3 5
4 x3 2 0
x4 4 5

Matriz de discrepancia por


distancia euclidiana
2 x1 x1 x2 x3 x4
x1 0
x2 3.61 0
x3 5.1 5.1 0
x3 x4 4.24 1 5.39 0
0 2 4

95

33
18/04/2022

DISTANCIA DE VALORES NUMÉRICOS POR


MINKOWSKI

• Distancia de Minkowski: es una medida popular de distancia

• donde i = (xi1, xi2,…, xip) y j = (xj1, xj2,…, xjp) son dos objetos de
datos p-dimensionales, y h es el orden (la distancia así definida
también se llama norma L-h)
• Propiedades
• d (i, j)> 0 si i ≠ j, y d (i, i) = 0 (definición positiva)
• d (i, j) = d (j, i) (simetría)
• d (i, j)  d (i, k) + d (k, j) (Desigualdad triangular)
• Una distancia que satisface estas propiedades es una métrica

96

CASOS ESPECIALES DE LA DISTANCIA


MINKOWSKI
• h= 1: distancia de Manhattan
• Por ejemplo, la distancia de Hamming: el número de bits que son
diferentes entre dos vectores binarios.
𝑑(𝑖, 𝑗) = |𝑥 − 𝑥 | + |𝑥 − 𝑥 |+. . . +|𝑥 − 𝑥 |

• h = 2: (norma L2) Distancia euclidiana

𝑑(𝑖, 𝑗) = (|𝑥 − 𝑥 | + |𝑥 − 𝑥 | +. . . +|𝑥 − 𝑥 | )

• h  ∞: Distancia "supremum" (norma Lmax, norma L).


• Esta es la diferencia máxima entre cualquier componente (atributo)
de los vectores.

97

34
18/04/2022

EJEMPLO DE DISTANCIA
MINKOWSKI
point attribute 1 attribute 2 Manhattan (L1)
x1 1 2
L x1 x2 x3 x4
x2 3 5 x1 0 Matrices de
x3 2 0 x2 5 0
x4 4 5 disimilitud
x3 3 6 0
x4 6 1 7 0

Euclidean (L2)
L2 x1 x2 x3 x4
x1 0
x2 3.61 0
x3 2.24 5.1 0
x4 4.24 1 5.39 0

Supremum
L x1 x2 x3 x4
x1 0
x2 3 0
x3 2 5 0
x4 3 1 5 0

98

EJERCICIOS EXPLORACIÓN DE DATOS

Dados dos objetos representados por las tuplas (22, 1, 42, 10) y (20, 0, 36, 8):

(a) Calcule la distancia euclidiana entre los dos objetos.

(b) Calcule la distancia de Manhattan entre los dos objetos.

(c) Calcule la distancia de Minkowski entre los dos objetos, usando h = 3.

99

35
18/04/2022

VARIABLES ORDINALES

• Una variable ordinal puede ser discreta o continua


• El orden es importante, por ejemplo, rango
• Se puede tratar como escala a intervalos
𝑟 ∈ {1, . . . , 𝑀 }
• reemplazar xif por su rango
• mapee el rango de cada variable en [0, 1] reemplazando el i-ésimo objeto en
la f-ésima variable por
𝑟 −1
𝑧 =
𝑀 −1

• calcule la disimilitud utilizando métodos para variables de escala de intervalo

101

ATRIBUTOS DE TIPO MIXTO

Una base de datos puede contener todos los tipos de atributos.


Nominal, binario simétrico, binario asimétrico, numérico, ordinal
Se puede usar una fórmula ponderada para combinar sus efectos

( ) ( )
Σ 𝛿 𝑑
𝑑(𝑖, 𝑗) = ( )
Σ 𝛿
• Si f es binario o nominal:
dij (f) = 0 si xif = xjf, o dij (f) = 1 de lo contrario

• Si f es numérico: usa la distancia normalizada 𝑟 −1


• Si f es ordinal 𝑧 =
𝑀 −1
Calcular rangos rif y
Tratar zif como escala a intervalos

102

36
18/04/2022

SIMILITUD POR COSENO

• Un documento puede estar representado por miles de atributos, cada uno registrando la
frecuencia de una palabra en particular (como palabras clave) o frase en el documento.

• Otros objetos vectoriales: características genéticas en micro matrices, ...


• Aplicaciones: recuperación de información, taxonomía biológica, mapeo de características
genéticas, ...
• Medida del coseno: si d1 y d2 son dos vectores (por ejemplo, vectores de frecuencia de término),
entonces
cos (d1 , d2) = (d1  d2) / || d1 || || d2 || ,
donde  indica el producto punto vectorial, || d ||: la longitud del vector d

103

EJEMPLO DE SIMILITUD
POR COSENO
• cos(d1, d2) = (d1  d2) /||d1|| ||d2|| ,
donde  indica el producto punto, ||d|: la longitud del vector d

• Ejemplo: Encuentre la semejanza entre los documentos 1 y 2

d1 = (5, 0, 3, 0, 2, 0, 0, 2, 0, 0)
d2 = (3, 0, 2, 0, 1, 1, 0, 1, 0, 1)

d1d2 = 5*3+0*0+3*2+0*0+2*1+0*1+0*1+2*1+0*0+0*1 = 25

||d1||= (5*5+0*0+3*3+0*0+2*2+0*0+0*0+2*2+0*0+0*0)0.5=(42)0.5 = 6.481

||d2||= (3*3+0*0+2*2+0*0+1*1+1*1+0*0+1*1+0*0+1*1)0.5=(17)0.5 = 4.12

cos(d1, d2 ) = 0.94

104

37
18/04/2022

EJERCICIOS EXPLORACIÓN DE DATOS

Es importante definir o seleccionar medidas de similitud en el análisis de datos. Sin


embargo, dado que los resultados pueden variar según las medidas de similitud
utilizadas, no hay una medida de similitud completamente aceptada.
Por otro lado, medidas de similitud aparentemente diferentes pueden ser equivalentes
después de alguna transformación.
Supongamos que tenemos el siguiente conjunto de datos bidimensionales:
(a) Considere los datos como puntos de un plano
A1 A2 bidimensional. Dado un nuevo punto (1.4, 1.6) ,
X1 1.5 1.7 clasifique los puntos de la base de datos en
función de la similitud utilizando la distancia
X2 2 1.9 euclidiana, distancia de Manhattan y similitud de
X3 1.6 1.8 coseno.
X4 1.2 1.5 (b) Calcule la distancia supremum y obtenga dicha
X5 1.5 1.0 distancia.
(c) Normalice el conjunto de datos para que la
norma de cada punto de datos sea igual a 1. Use la
distancia euclidiana en los datos transformados para
clasificar los puntos de datos.
105

EJERCICIOS EXPLORACIÓN DE DATOS


EJERCICIO QUE DEJE DE TAREA

5. Describa brevemente cómo calcular la diferencia (distancia, o


grado de disimilitud) entre los objetos que se describen a
continuación:

(a) Atributos nominales


(b) Atributos binarios asimétricos
(c) Atributos numéricos
(d) Vectores de frecuencia de término

108

38
18/04/2022

PREPARACIÓN DE DATOS

115

PREPARACIÓN DE DATOS

Introducción al pre-procesamiento
Calidad de datos
Principales tareas en el pre-procesamiento
Limpieza de datos
Integración de datos
Reducción de datos
Transformación de datos
Discretización de datos

116

39
18/04/2022

PREPARACIÓN DE LOS DATOS

● Calidad de datos: mantenerla durante la colección, proceso y


almacenamiento. Baja calidad impacta la representatividad del
modelo.
● Las métricas de calidad de los datos involucran una vista
multidimensional
La exactitud indica la, mientras que la precisión indica la.
• Exactitud: proximidad de los resultados de una medición (o consulta) con respecto al
valor verdadero
• Precisión: grado de detalle en el dato, consulta o medición
• Consistencia: El valor de los datos es el mismo en diferentes lugares para la misma
entidad o consulta
• Completitud: Que todos los datos estén registrados...
• Puntualidad: actualización oportuna
• Credibilidad: Grado en que se puede creer que los datos son correctos
• Interpretabilidad: Grado de facilidad con la que se pueden interpretar los datos
RECORDEMOS QUE EL CONCEPTO DE PRECISIÓN/ACCURACY EN ESTADÍSTICA PUEDE
VARIAR CON EL DE MANEJO DE DATOS

117

BAJA CALIDAD DE DATOS  LIMPIEZA DE DATOS

Los datos en el mundo real están sucios: existen muchos datos potencialmente
incorrectos, por ejemplo, falla del instrumento, error humano o de la
computadora, error de transmisión

El dato puede estar/ser:

Incompleto: falta de valores de atributo, falta de ciertos atributos de interés, o


que contiene solo datos agregados
por ejemplo, Ocupación = "" (datos faltantes)

Ruidoso: que contiene ruido, errores o valores atípicos por ejemplo, Salario = "-
10" (un error)

inconsistente: que contiene discrepancias en códigos o nombres, por ej.


Edad = "42", Cumpleaños = "03/07/2010“
Estaba calificado como "1, 2, 3", ahora calificado como "A, B, C"
Extensional: Discrepancia entre registros duplicados

118

40
18/04/2022

PREPARACIÓN DE LOS DATOS

La limpieza de datos involucra de-duplicación, estandarización,


completar datos faltantes, etc.
Redundancias e inconsistencias: Objetos con semántica similar pero
valores diferentes, para el caso de valores numéricos, se identifican
calculando el coeficiente de correlación. Para datos discretos se
identifican calculando chi-square x2. Para el caso de base de datos
relacionales se aplica las tres formas normales.
Valores faltantes: detectar la causa de valores faltantes (puede ser por
proveniencia de datos), se usa ciencia de datos para completarlos por
ejemplo con K-nn, redes neuronales, etc.
Anómalos: Dos posibles causas: excepciones o errores. Dependiendo de
esto se les trata. Por otro lado, El detectar anómalos puede por si solo ser
un objetivo de ciencia de datos, como para identificar riesgos o fraudes.

119

PREPARACIÓN DE LOS DATOS

Limpieza de datos
● Estrategias para valores faltantes:
1. Ignorar la instancia
2. Imputar
i. Llenar el valor manualmente
ii. Uso de constante global para llenar el vacío
iii. Usar una medida de tendencia central para rellenar (media, mediana)
iv. Usar la media o mediana para todas las muestras que pertenezcan a la
misma clase
v. Usar el valor mas probable

120

41
18/04/2022

PREPARACIÓN DE LOS DATOS

Limpieza de datos
Ruido: (datos incorrectos derivados de un error aleatorio o varianza en una variable.
• Estrategias para eliminación de ruido
Suavizado
Binning (representar con datos no ruidosos)
media, mediana, extremos,
Regresión (ajustando los datos a una función)
regresión lineal, lineal múltiple,
Clustering Análisis de anómalos por agrupamiento
Inspección combinada de humano y computadora, detección de valores
sospechosos y checarlos manualmente

121

PREPARACIÓN DE LOS DATOS

• NOTA:

• Existen métodos de suavizado que también se usan para reducción de


datos como discretización y son
• Suavizado
• Arboles de decisión
• Jerarquías de conceptos

122

42
18/04/2022

PREPARACIÓN DE LOS DATOS


INTEGRACIÓN DE DATOS
La integración de datos es la mezcla de datos a partir de
múltiples fuentes hacia un repositorio coherente.
• Integración de esquemas p.e., [Link]  [Link]
• Integrar metadatos de fuentes de datos diferentes
• Problema de identificación de entidades:
• Identificar entidades del mundo real a partir de las diferentes
fuentes como p.e., Lalo Hdez. = Eduardo Hernandez
• Detectar y resolver conflictos en los valores de los datos
• Para la misma entidad del mundo real, los valores cambian de
fuente a fuente
• Razones comunes: representaciones, escalas diferentes

123

PREPARACIÓN DE LOS DATOS


MANEJO DE REDUNDANCIA DURANTE
INTEGRACIÓN DE DATOS

• Los datos redundantes ocurren a menudo con la integración de múltiples bases de datos

• Identificación de objeto: el mismo atributo u objeto puede tener diferentes nombres en


diferentes bases de datos
• Datos derivados: un atributo puede ser un atributo "derivado" en otra tabla, por ejemplo,
ingresos anuales

• Los atributos redundantes pueden ser detectados por análisis de correlación y análisis de
covarianza.

• La integración cuidadosa de los datos de múltiples fuentes puede ayudar a reducir / evitar
redundancias e inconsistencias y mejorar la velocidad y calidad de la minería.

124

43
18/04/2022

ANÁLISIS DE CORRELACIONES

La minería de datos puede descubrir correlaciones entre pares de


atributos/valor.

La correlación indica la intensidad y dirección de una relación


lineal y proporcionalidad entre dos variables estadísticas.
Se considera que dos variables cuantitativas están
correlacionadas cuando los valores de una de ellas varían
sistemáticamente con respecto a los valores homónimos de la
otra.

Sin embargo, la correlación entre dos variables no implica, por sí


misma, ninguna relación de causalidad

125

CORRELACIÓN POR CHI-SQUARE


X2 puede usarse para varias situaciones:
a) probar que tan bien se ajusta (caso una variable)
[Link]

b) probar la homogeneidad (caso dos variables)


[Link]
Se checa si la distribución de las variables son similares o no

c) probar la independencia (dos variables)


[Link]
Se checa si existe alguna relación entre ellas

126

44
18/04/2022

ANÁLISIS DE CORRELACIÓN PRUEBA Χ2 (CHI-


SQUARE)
Recordemos el proceso de significancia de una prueba:
1) Establecer Hipótesis Ho: independientes, no hay asociación; Ha es la negación de Ho:
Existe asociación
2) Checar las condiciones
3) Construir el modelo, asumiendo que H0 es cverdadera
4) Encontrar la estadística de prueba (p.e. t-score para el caso de medias, z-score para
caso de proporciones, chi-square para conteos de categóricas de la muestra)
5) Calcular el valor de p; se pide valor de alfa (p.e. 0.05 como valor de significancia); se
obtiene los grados de libertad (p.e. #var categoricas -1)
4) Establecer la conclusión para aceptar o rechazar H0 con base en p.
Si p-value< prueba se rechaza H0 y decimos que hay evidencia de asociación.
Si p values > prueba no se rechaza Ho y decimos que falta evidencia para soportar
asociación.

127

127

PRUEBA Χ2 (CHI-SQUARE)
(𝑂𝑏𝑠𝑒𝑟𝑣𝑒𝑑 − 𝐸𝑥𝑝𝑒𝑐𝑡𝑒𝑑)
𝜒 =
𝐸𝑥𝑝𝑒𝑐𝑡𝑒𝑑

Bondad de ajuste (una variable): cuando desee decidir si una población con distribución desconocida "se ajusta" a
una distribución conocida. Las hipótesis nulas y alternativas son:
H0: La población se ajusta a la distribución dada.
Ha: La población no se ajusta a la distribución dada.

Independencia: cuando desee decidir si dos variables son independientes o dependientes. En este caso habrá dos
preguntas o experimentos de encuestas cualitativas y se construirá una tabla de contingencia. El objetivo es ver si las
dos variables no están relacionadas (independientes) o relacionadas (dependientes). Las hipótesis nulas y alternativas
son:
H0: las dos variables son independientes.
Ha: las dos variables son dependientes.

Homogeneidad: cuando desee decidir si dos poblaciones con distribución desconocida tienen la misma distribución
entre sí. En este caso, se realizará una sola pregunta o experimento de encuesta cualitativa a dos poblaciones
diferentes. Las hipótesis nulas y alternativas son:
H0: Las dos poblaciones siguen la misma distribución.
Ha: Las dos poblaciones tienen distribuciones diferentes.
[Link]

128

45
18/04/2022

ANÁLISIS DE CORRELACIÓN (ATRIBUTOS


NOMINALES)
• Prueba Χ2 (chi-square)
(𝑂𝑏𝑠𝑒𝑟𝑣𝑒𝑑 − 𝐸𝑥𝑝𝑒𝑐𝑡𝑒𝑑)
𝜒 =
𝐸𝑥𝑝𝑒𝑐𝑡𝑒𝑑
• Cuanto mayor sea el valor de Χ2, más probable es que las
variables estén relacionadas
• Las celdas que más contribuyen al valor de x2 son aquellas cuyo
recuento real es muy diferente del recuento esperado
• Si x2>1 y los valores observados son menores que los esperados,
entonces es una correlación negativa.
• La correlación no implica causalidad
• Por ejemplo:
• El número de hospitales y el robo de automóviles en una
ciudad están correlacionados PERO ambos están causalmente
vinculados a la tercera variable: población

129

129

Valores observados y esperados


• Considere N como el tamaño de la muestra
• Los valores observados son los de la muestra
Los valores esperados para cada celda son calculados de la siguiente
manera:

𝐸 = Total en renglones × (Total en columnas)


Tamaño de la muestra N
.

130

46
18/04/2022

Grados de libertad

• El número de grados de libertad, df, es calculado de la siguiente manera:


df = (𝑅 - 1) ∙ (𝐶 - 1)
donde R es el número de filas y C es el número de columnas en la tabla de
contingencia
(solo las filas y columnas con valores observados se cuentan).

131

EJEMPLO REDUNDANCIA CON CHI-SQUARE


Se realizó una encuesta a 200 trabajadores. con respecto a su
educación (secundaria, preparatoria o licenciatura) y el nivel de
satisfacción laboral (bajo, medio, alto). Estos son los resultados:
Bajo Medio Alto
Secundaria 20 35 25

Preparatoria 17 33 20

Universidad 11 18 21

200 48 86 66

133

47
18/04/2022

EJEMPLO REDUNDANCIA CON CHI-SQUARE


• Se desea probar a un nivel de 2.5 % de significancia, donde el nivel de
satisfacción con su empleo depende del nivel educacional, con el objeto
de poder identificar si ambas variables son redundantes y eliminar una
durante la integración.
• Hipotesis:
• H0: El nivel de satisfacción con el empleo y el nivel educacional son
independientes
• Ha: El nivel de satisfacción con el empleo y el nivel educacional no son
independientes.
Bajo Medio Alto
Secundaria 20 35 25

Preparatoria 17 33 20

Universidad 11 18 21

134

CHI-SQUARE
Calculando los totales y los valores esperados
Los valores en paréntesis son los valores esperados, los restantes son los
observados

Bajo Medio Alto Total(reg)


Secundaria 20(19.2) 35(34.4) 25(26.4) 80

Preparatoria 17(16.8) 33(30.1) 20(23.1) 70

Universidad 11(12) 18(21.5) 21(16.5) 50

Total (Col) 48 86 66 200

135

48
18/04/2022

EJEMPLO DE CHI-SQUARE
(𝑂𝑏𝑠𝑒𝑟𝑣𝑒𝑑 − 𝐸𝑥𝑝𝑒𝑐𝑡𝑒𝑑)
Bajo Medio Alto Total(reg) 𝜒 =
𝐸𝑥𝑝𝑒𝑐𝑡𝑒𝑑
Secundaria 20(19.2) 35(34.4) 25(26.4) 80

Preparatoria 17(16.8) 33(30.1) 20(23.1) 70

Universidad 11(12) 18(21.5) 21(16.5) 50

Total (Col) 48 86 66 200

• Χ2 (cálculo chi-square) (los números en paréntesis son los conteos


esperados calculados con base en la distribución de los datos en
las dos categorias)
( . ) ( . ) ( . ) ( . )
𝜒 = + + + + 0.279 + 0.416 + 0.083 + 0.570 + 1.227 =2.694

• Grados de libertad: df= (3-1)*(3-1)=4

136

EJEMPLO REDUNDANCIA CON


CHI-SQUARE
Probar las hipótesis
• Dado que x2=2.694, 𝛼 = 0.025 y df = 4, el valor de p = 11.14
Valor de p > x2
• También podemos ver en la tabla que el valor p correspondiente a nuestra
estadística de prueba está entre 0.5 y 0.75, y por lo tanto es más grande que
αlfa.
• Por lo tanto, podemos expresar nuestra decisión: No rechazar H0
Lo cual significa que las variables son independientes y por tanto no
podremos eliminar alguna.

137

49
18/04/2022

EJERCICIOS EXPLORACIÓN DE DATOS


SE DEJO DE TAREA

La tabla muestra cuántas transacciones contienen coca cola


y / o cacahuates de entre 10000 transacciones.

CocaCola (CC) NoCocaCola Total

Cacahuates (CH) 50 800 850


NoCacahuates 150 9000 9150
Total 200 9800 10000

(1) calcule χ2
(2) Investigue y calcule lift
(3) Investigue y calcule all-confidence
(4) según su cálculo, ¿cómo concluye la relación entre comprar CocaCola y
comprar cacahuates?

138

EJERCICIOS EXPLORACIÓN DE DATOS


SE DEJO DE TAREA
RESPUESTA

Lift es una variación de ROC que mide el rendimiento de reglas de asociación, para predecir o
clasificar casos.
Se puede calcular como:
Confianza Soporte
P(consecuente) o bien P(antecedente)
Si el valor de lift =1; la ocurrencia del antecedente con el consecuente son independientes
Si lift > 1 la ocurrencia del antecedente con el consecuente es dependiente.

Calculo de P-value:
[Link]

139

50
18/04/2022

EJERCICIOS EXPLORACIÓN DE DATOS


SE DEJO DE TAREA
RESPUESTA
Soporteaij=aij/∑col, reg
CocaCola NoCocaCola ∑reg
Confianza aij=aij/∑reg
(CC)
Confianza(AB)=P(A)P(-B) / P(A,-B) Cacahuates 50 800 850
Formulas a aplicar: (CH)
● χ2 eCC-CH = (200×850)/10000 = 17
NoCacahuates 150 9000 9150
e¬CC,CH = (9800×850)/10000 = 833
eCC,¬CH = (200×9150)/10000 = 183 ∑col 200 9800 10000

e¬CC,¬CH= (9800×9150)/10000 = 8967


χ2 = (50−17)2/17 + (800−833)2/833 + (150−183)2/183 + (8967−9000)2/8967 = 64.06 + 1.31 + 5.95 + 0.12 = 71.44
The two-tailed P value es menor que 0.0001 Por tanto, x2≫ 0 , se rechaza H0. Es posible que estén relacionadas
● lift(CC,CH)
lift(CC,CH) = P(CC,CH)/P(CC)×P(CH)
=(50/10000) / (200/10000)×(850/10000) = 2.94 > 1. Dado que lift > 1 entonces es probable que estén relacionadas

● all confidence(CC∪CH)
all conf(CC∪CH) =sup(CC∪CH) /max(sup(CC), sup(CH))= (50/10000) / max((200/10000), (850/10000) = (.005/.085)
0.059 ≪ 0.5
P-value: [Link]

140

EJERCICIOS EXPLORACIÓN DE DATOS


SE DEJO DE TAREA
RESPUESTA

● Conclusión:
● Los artículos CocaCola y Cacahuates están fuertemente
correlacionados negativamente en función de todos los
análisis realizados: conf (CC∪CH).
● El indicador lift (CC, CH) no es muy efectivo en este caso ya
que hay una gran cantidad de transacciones nulas.
● De manera similar, el análisis de χ2 no es confiable en esta
situación porque afirma que está correlacionado
positivamente pero en realidad no es así.

141

51
18/04/2022

PREPARACIÓN DE DATOS- REDUNDANCIA POR


ANÁLISIS DE CORRELACIÓN
(DATOS NUMÉRICOS)
• El coeficiente de Pearson (también llamado coeficiente de producto-momento de
Pearson)
∑ (𝑎 − 𝐴)(𝑏 − 𝐵) ∑ (𝑎 𝑏 ) − 𝑛𝐴𝐵
𝑟 , = =
(𝑛 − 1)𝜎 𝜎 (𝑛 − 1)𝜎 𝜎
Donde n es el número de tuplas y ,
𝐴 𝐵
son las medias respectivas de A y B.
σA y σB son las desviaciones estándar respectivas de A y B y
Σ(aibi) es la suma del producto cruz de AB.
• Si rA,B > 0, A y B están positivamente correlacionadas (Los valores de A incrementan los
valores de B).
• Entre más alto sea el valor, es más robusta la correlación.
• rA,B = 0: independente; rAB < 0: negativamente correlacionados
[Link] r = 1, existe una correlación positiva perfecta. ...
[Link] 0 < r < 1, existe una correlación positiva.
[Link] r = 0, no existe relación lineal. ...
[Link] -1 < r < 0, existe una correlación negativa.

142

PREPARACIÓN-EXPLORACIÓN DE DATOS-
VISUALMENTE EVALUANDO
LA CORRELACIÓN

Las gráficas de dispersión


muestran la similitud de –1 to 1.

143

52
18/04/2022

PREPARACIÓN DE LOS DATOS


EXPLORACIÓN POR COVARIANZA (DATOS
NUMÉRICOS)
• La covarianza es similar a la correlación

Coeficiente de correlación:

Donde n es el número de tuplas y 𝐴 , 𝐵

son las medias respectivas o los valores esperados de A y B


σA y σB son las desviaciones estándar respectivas de A y B
• Covarianza positiva: Si CovA,B > 0, entonces A y B, ambas tienden a ser mas grandes que sus valores
esperados respectivos.
• Covarianza negativa: Si CovA,B < 0 entonces Si A es mayor que su valor esperado, es probable que B sea
mas pequeño que su valor esperado.
• Independencia: CovA,B = 0 pero lo contrario no es cierto:
Algunos pares de variables aleatorias pueden tener una covarianza de 0 pero no son independientes.
Solo bajo algunos supuestos adicionales (por ejemplo, los datos siguen distribuciones normales
multivariadas) una covarianza de 0 implica independencia

145

EXPLORACIÓN DE DATOS
EJEMPLO DE COVARIANZA

• Puede simplificarse como:

• Suponga que las dos existencias de productos A y B tienen los siguientes valores
en una semana: (2, 5), (3, 8), (5, 10), (4, 11), (6, 14).

• Pregunta: Si las existencias son afectadas por las tendencias de la industria, sus
precios ¿subirán o bajarán juntos?

• E(A) = (2 + 3 + 5 + 4 + 6)/ 5 = 20/5 = 4

• E(B) = (5 + 8 + 10 + 11 + 14) /5 = 48/5 = 9.6

• Cov(A,B) = (2×5+3×8+5×10+4×11+6×14)/5 − 4 × 9.6 = 4

• Por lo tanto, A y B incrementarán juntos , dado que la Cov(A, B) > 0.

146

53
18/04/2022

PREPARACIÓN DE DATOS-
REDUCCIÓN DE DATOS

• Reducción de datos: Obtener una representación reducida del conjunto de datos que
sea mucho mas pequeño en volumen pero que produzca los mismos o casi los mismos
resultados del análisis
• ¿Por qué reducir datos? — Una base de datos/DWH puede almacenar terabytes de
datos. Un análisis complejo de datos podría tardarse mucho tiempo en ejecutarse sobre
sobre la fuente de datos completa.
• Otro ejemplo: En minería de texto, cada palabra es un atributo.
• No todos los atributos tienen la misma relevancia para encontrar el modelo, algunos
atributos pueden tener mal efecto durante el modelado, dado que están altamente
correlacionados entre si, como el salario y los impuestos.
• Muchos atributos incrementan la complejidad del modelo y su rendimiento
computacional.
• La alta dimensionalidad degrada la confiabilidad de los modelos, especialmente para
clasificación y agrupamiento.

147

PREPARACIÓN – REDUCCIÓN
DE LOS DATOS
Herramientas para reducción de datos:

• Agregación de datos (p.e. vistas, avg,[Link], etc)


• Generalización (p.e. uso de jerarquías, rollup)

• Selección de características (p.e. análisis de correlación, muestreo)


• Reducción de dimensiones (p.e. codificación, PCA: principal components
análisis, transformada de wavelet )

• Reducción de numerosidad (p.e. reemplazar los datos por alternativas


mas pequeñas, por agrupamiento o modelos paramétricos)
• Discretización y Generación de Jerarquías (p,e, jerarquías de conceptos)
• Compresión de datos (sin pérdida de información: lossless; con pérdida de
información: lossy

148

54
18/04/2022

PREPARACIÓN: 1. REDUCCIÓN DE
DIMENSIONES
• Maldición de la dimensionalidad
• Cuando la dimensionalidad incrementa, los datos se esparcen
• La densidad y la distancia entre los puntos, que son muy importantes para el
agrupameinto, el análisis de atípicos, se vuelve menos significativo
• Las combinaciones posibles de subespacios crecerán exponencialmente
• Reducción de dimensiones
• Para evitar la maldición de la dimensionalidad
• Ayuda a eliminar características irrelevantes y a reducir ruido
• Reduce el tiempo y el espacio requerido para el minado de datos
• Permite una visualización más fácil
• Técnicas de reducción de dimensiones
• Transformada Wavelet
• Principal Component Analysis
• Técnicas supervisadas y no lineales (p.e., selección de características)

149

PREPARACIÓN: 1. REDUCCIÓN DIMENSIONES POR


MAPEO DE DATOS
A UN NUEVO ESPACIO
 Transformada de Fourier
 Transformada de Wavelet
(ondícula/ondeleta)

Two Sine Waves Two Sine Waves + Noise Frequency

150

150

55
18/04/2022

PREPARACIÓN- REDUCCIÓN DIMENSIONES


¿QUÉ ES LA TRANSFORMADA WAVELET?
• Descompone una señal en sub-bandas
de diferentes frecuencias
• Es aplicable a señales de n-
dimensiones
• Los datos se transforman para preservar la
distancia relativa entre los objetos a
diferentes niveles de resolución.
• Permite que los grupos por su naturaleza
(características) sean mas distinguibles
• Se usa mucho para compresión de
imágenes

151

151

TRANSFORMACIÓN
WAVELET
Haar2 Daubechie4

• La trasformada wavelet discreta (DWT) para procesamiento lineal de señales, análisis de múltiples
resoluciones
• Aproximación comprimida: almacena solamente una pequeña fracción de los coeficientes más
robustos de la ondeleta
• Es similar a la transformada de Fourier discreta (DFT), pero tiene una mejor compresión con pérdida
(lossy) localizada en el espacio.
• Método:
• La longitud L debe ser una potencia entera de 2 (rellenado con 0s, cuando sea
necesario)
• Cada transformada tiene dos funciones : suavizado y diferencia
• Aplica a pares de datos, resultando en dos conjuntos de datos de longitud L/2
• Aplica las dos funciones recursivamente, hasta que se alcance la longitud deseada

152

56
18/04/2022

PREPARACIÓN- REDUCCIÓN DIMENSIONES


DESCOMPOSICIÓN
WAVELET
• Wavelets: Una herramienta matemática para la descomposición jerárquica de
funciones con uso eficiente del espacio
• Por ejemplo, S = [2, 2, 0, 2, 3, 5, 4, 4] puede ser transformada a
S^ = [23/4, -11/4, 1/2, 0, 0, -1, -1, 0]
• Compresión: muchos coeficientes que corresponden a detalles pequeños
pueden ser reemplazados por 0’s, y sólo los coeficientes significativos
permanecerán

153

153

PREPARACIÓN- REDUCCIÓN DIMENSIONES


ONDELETA DE HAAR
Coefficient
“Supports”
Descomposición jerárquica
2.75
2.75 +
de estructura o “error tree”
+
-
-1.25 + -
+ -
1.25
0.5 + -
+
0.5
- +
0
- 0 + -
+
0
- +
-1
- +
-1
- +
0
-
0 + -
- + -
-
2 2 0 2 3 5 4 4
1- +
Distribución de frecuencias original 1
0
+ -

154

57
18/04/2022

¿POR QUÉ LA TRANSFORMADA


WAVELET?
• Usa filtros con forma de sombrero (hat shape)
• Enfatiza la región donde los puntos se agrupan
• Suprime información más débil en sus límites
• Elimina efectivamente valores atípicos
• Es insensible al ruido, insensible al orden de entrada
• Múltiples resoluciones
• Detecta grupos de formas arbitrarias a diferentes escalas.
• Eficiente
• Complejidad O (N)
• Aunque es solo aplicable a datos de baja dimensión
155

155

REDUCCIÓN DE DIMENSIONES
PRINCIPAL COMPONENTS ANALYSIS (PCA)
ANÁLISIS DE COMPONENTES PRINCIPALES

Técnica utilizada para describir un conjunto de datos en términos de


nuevas variables ("componentes") no correlacionadas.

Se en análisis exploratorio, reducción y para construir modelos predictivos

[Link]

156

58
18/04/2022

REDUCCIÓN DE DIMENSIONES
PRINCIPAL COMPONENTS ANALYSIS (PCA)
ANÁLISIS DE COMPONENTES PRINCIPALES

Suponga que los datos a reducir consisten en tuplas o vectores de


datos descritos por n atributos o dimensiones.

El análisis de componentes principales, o PCA (también llamado


método Karhunen-Loeve, o K-L), busca k vectores ortogonales n-
dimensionales que pueden usarse mejor para representar los
datos, donde k≤n.

Los datos originales se proyectan así en un espacio mucho más


pequeño, lo que resulta en una reducción de dimensionalidad.

157

REDUCCIÓN DE DIMENSIONES
PRINCIPAL COMPONENTS ANALYSIS (PCA)
ANÁLISIS DE COMPONENTES PRINCIPALES
El procedimiento básico es el siguiente:
1. Los datos de entrada están normalizados
2. PCA calcula k vectores ortonormales que proporcionan la base para los
datos de entrada normalizados. Estos son vectores unitarios que cada
uno apunta en una dirección perpendicular a los demás. Estos vectores
se denominan componentes principales. Los datos de entrada son una
combinación lineal de los componentes principales.
3. Los componentes principales se clasifican en orden decreciente de
"importancia" o fuerza.
4. Se es decir, aquellos con baja varianza (es decir, utilizando los
componentes principales más fuertes, es posible reconstruir una buena
aproximación de los datos originales)
PCA es computacionalmente económico, y puede aplicarse a atributos
ordenados y no ordenados, también puede manejar datos dispersos y
datos sesgados.

158

59
18/04/2022

REDUCCIÓN DE DIMENSIONES
PRINCIPAL COMPONENTS ANALYSIS (PCA)
ANÁLISIS DE COMPONENTES PRINCIPALES

• Suponga que desea encontrar una


proyección que capture la mayor
cantidad de variación en los datos
x2
• Los datos originales se proyectan en un
espacio mucho más pequeño, lo que
resulta en una reducción de e
dimensionalidad. Encontramos los
vectores propios de la matriz de
covarianza, y estos vectores propios
definen el nuevo espacio

x1

159

EJEMPLO
PRINCIPAL COMPONENTS ANALYSIS (PCA)

● Predecir precios de alquiler de vivienda de cierto sector de mercado.



● Al recopilar información de diversas fuentes tendremos en cuenta
muchísimas variables.
● La ejecución de nuestro algoritmo seleccionado (regresión lineal, redes
neuronales, etc.) empezará a tomar más y más tiempo y recursos.
● Es posible que algunas de las variables sean menos importantes y no
aporten demasiado valor a la predicción. También podríamos
acercarnos peligrosamente a causar overfitting al modelo.
● Si usamos PCA, nuestras nuevas variables son combinaciones de todas
las variables originales, aunque eliminemos algunas, estaremos
manteniendo la información útil de todas las variables iniciales

160

60
18/04/2022

EJEMPLO PCA

Los siguientes pasos deben seguirse para realizar la reducción de


dimensionalidad utilizando PCA:

1.- Estandarización de los datos (para que sean comparables)


2.- Calcular la matriz de covarianza (para identificar correlaciones y
dependencias entre las variables que podrían reducir el rendimiento del
modelo) y para identificar en donde existe hay mas varianza porque esta es la
información que necesitamos conservar.
3.- Cálculo de los vectores propios/eigen vectors y los valores propios/eigen
values que denotan
4.- Calcular los componentes principales, nuevo conjunto de variables
significativas e independientes entre ellas que contienen la mayor cantidad de
información posible, se ordenan descendentemente para calcular la matriz de
características que contienen los componentes principales
5.- Reducción de las dimensiones del conjunto de datos. Se multiplica la
traspuesta de los datos originales por la traspuesta del vector de características

161

PREPARACIÓN-REDUCCIÓN DIMENSIONES POR


SELECCIÓN DE SUBCONJUNTO DE ATRIBUTOS

• Es otra forma de reducir la dimensionalidad de los datos


• Atributos redundantes
• Duplican mucho o toda la información contenida en uno o mas
atributos (p.e. el precio de un producto y el monto del preciocon
impuesto
• Atributos irrelevantes
• No contienen información que sea útil para la tarea de minería de
datos (p.e. la matricula no es relevante con respecto al promedio)

163

61
18/04/2022

PREPARACIÓN-REDUCCIÓN DIMENSIONES
POR BÚSQUEDA HEURÍSTICA PARA LA
SELECCIÓN DE ATRIBUTOS
Hay 2D posibles combinaciones de un número D de atributos

Algunos métodos típicos de selección de atributos heurísticos son:

• Mejor atributo individual bajo el supuesto de independencia del atributo: se


escoge a través de pruebas de significación
• Selección de atributos paso a paso:
• El mejor atributo se elige primero
• Luego, el siguiente mejor atributo, ...
• Eliminación de atributos paso a paso:
• Eliminar repetidamente el peor atributo
• Selección y eliminación de atributos combinados

164

PREPARACIÓN-REDUCCIÓN DIMENSIONES POR


CREACIÓN DE ATRIBUTOS

• Crear nuevos atributos que puedan capturar la información importante en una fuente de
datos de forma mas efectiva que la original
• Tres metodologías generales:
• Extracción de atributos
• Depende del dominio de aplicación
• Mapeo de datos a un nuevo espacio
• Transformadas de Fourier o wavelet
• Construcción de atributos
• Combinación de atributos
• Discretización de datos

165

62
18/04/2022

PREPARACIÓN DE DATOS 2: REDUCCIÓN DE


NUMEROSIDAD

• Reduce el volumen de los datos al escoger formas mas pequeñas de


representación de los datos

• Métodos paramétricos (regresión)


• Suponga que los datos se ajustan a algún modelo, calcule los
parámetros del modelo, almacene solo los parámetros y descarte los
datos (excepto posibles valores atípicos)
• Ej .: Modelos logarítmicos lineales
• Métodos no paramétricos
• No asume modelos
• histogramas, agrupamiento, muestreo,

166

PREPARACIÓN DE DATOS 2: REDUCCIÓN DE


NUMEROSIDAD
REDUCCIÓN PARAMÉTRICA DE DATOS Y
MODELOS LOG-LINEALES

• Regresión lineal
• Datos modelados para ajustarse a una línea recta
• A menudo utiliza el método de mínimos cuadrados para ajustar la
línea.
• Regresión múltiple
• Permite modelar una variable de respuesta Y como una función
lineal del vector de características multidimensionales
• Modelo logarítmico lineal
• Aproximaciones distribuciones de probabilidad multidimensionales
discretas

167

63
18/04/2022

PREPARACIÓN DE DATOS 2: REDUCCIÓN DE


NUMEROSIDAD ANÁLISIS DE REGRESIÓN

y
• Análisis de regresión: un nombre colectivo para
Y1
técnicas para el modelado y análisis de datos
numéricos que consisten en valores de una variable
Y1’
dependiente (también llamada variable de y=x+1
respuesta o medición) y de una o más variables
independientes (también conocidas como variables X1 x
explicativas o predictores) Se utiliza para la predicción
(incluida la predicción de
• Los parámetros se estiman para dar un "mejor ajuste" datos de series
de los datos. temporales), inferencia,
prueba de hipótesis y
• Más comúnmente, el mejor ajuste se evalúa modelado de relaciones
causales
utilizando el método de mínimos cuadrados, pero
también se han utilizado otros criterios

168

PREPARACIÓN DE DATOS 2: REDUCCIÓN DE


NUMEROSIDAD ANÁLISIS DE REGRESIÓN

Regresión lineal: Y = w X + b
• Dos coeficientes de regresión, w y b, especifican la línea y deben estimarse utilizando los datos
disponibles.
• Usando el criterio de mínimos cuadrados para los valores conocidos de Y1, Y2,…, X1, X2,….

Regresión múltiple: Y = b0 + b1 X1 + b2 X2

• Muchas funciones no lineales se pueden transformar en las anteriores


Modelos log-lineales:

• Distribuciones de probabilidad multidimensionales discretas aproximadas


• Estime la probabilidad de cada punto (tupla) en un espacio multidimensional para un conjunto de
atributos discretos, basado en un subconjunto más pequeño de combinaciones dimensionales
169

• Útil para la reducción de dimensionalidad y suavizado de datos

169

64
18/04/2022

PREPARACIÓN DE DATOS 2: REDUCCIÓN DE


NUMEROSIDAD ANÁLISIS DE HISTOGRAMAS

Se dividen los datos en cubos y se


almacena el promedio para
cada cubo

Reglas de partición:
Ancho igual
Frecuencia igual
Profundidad igual

170

PREPARACIÓN-REDUCCIÓN DE
NUMEROSIDAD POR MUESTREO

● Muestreo como técnica de reducción: Proceso de selección de


un subconjunto de registros como una representación de la
fuente de datos original. Debe tener la misma representatividad
que el original con las mismas propiedades, p.e. promedio

● El muestreo reduce la cantidad de datos necesarios para


modelar.

● Por lo general se segmenta la fuente de datos en una muestra


para entrenamiento y otra para prueba.
● El de entrenamiento se puede muestrear aleatoriamente o a
través de alguna etiqueta.

171

65
18/04/2022

PREPARACIÓN-REDUCCIÓN DE
NUMEROSIDAD TIPOS DE MUESTREO

Muestreo aleatorio simple


• Existe la misma probabilidad de seleccionar cualquier artículo en
particular
Muestreo sin reemplazo
• Una vez que se selecciona un objeto, se elimina de la población
Muestreo con reemplazo
• Un objeto seleccionado no se elimina de la población.
Muestreo estratificado:
• Particione el conjunto de datos y extraiga muestras de cada partición
(proporcionalmente, es decir, aproximadamente el mismo porcentaje
de los datos)
• Se utiliza junto con datos segados.

172

PREPARACIÓN-REDUCCIÓN DE
NUMEROSIDAD TIPOS DE MUESTREO
Muestreo con o sin reemplazo

Raw Data
173

173

66
18/04/2022

REDUCCIÓN DE
NUMEROSIDAD TIPOS DE MUESTREO

● Muestreo
El muestreo puede ayudar a identificar los datos anómalos de una
fuente de datos para eliminarlos durante el modelado
La identificación de anómalos por muestreo también puede servir
para predecir transacciones fraudulentas de tarjetas de crédito.
Dado que estos son eventos esporádicos (raros) no se tiene gran
representatividad de estos.
El muestreo estratificado es un proceso donde cada clase se
representa igual, esto permite al modelo enfocarse en las
diferencias entre los patrones de cada clase, lo cual sucede para
el caso de las instancias (registros) anómalos.

174

PREPARACIÓN-REDUCCIÓN DE
NUMEROSIDAD TIPOS DE MUESTREO

● Muestreo estratificado
1. Dividir a todo el universo o población en diferentes estratos o
subgrupos. Generalmente, por individuos que comparten
características similares.

2. Seleccionar al azar los sujetos de cada estrato de forma


proporcional.

El muestreo estratificado es un proceso donde cada clase se


representa igual, esto permite al modelo enfocarse en las
diferencias entre los patrones de cada clase, lo cual sucede para
el caso de las instancias (registros) anómalos.

175

67
18/04/2022

PREPARACIÓN-REDUCCIÓN DE
NUMEROSIDAD POR MUESTREO
AGRUPAMIENTO
O ESTRATIFICADO

Datos originales Muestra /cluster/estratos

176

PREPARACIÓN-REDUCCIÓN POR MUESTREO

● Al preparar los datos, los muestreos se usan para modelos de


clasificación, donde se crean varios modelos base, cada uno
desarrollados usando una muestra de entrenamiento diferente.

● Estos modelos base son usados para construir un meta modelo,


llamado modelo ensamble, donde la razón de error es
mejorado cuando se compara con el error de los modelos
base.

177

68
18/04/2022

PREPARACIÓN DE DATOS 3.
REDUCCIÓN POR COMPRESIÓN DE
Compresión de cadenas DATOS
Existen amplias teorías y algoritmos bien ajustados.
Normalmente sin pérdidas

Compresión de audio / video


Compresión típicamente con pérdida, con refinamiento progresivo
A veces, pequeños fragmentos de señal pueden reconstruirse sin
reconstruir el conjunto

La reducción de dimensionalidad y numerosidad también puede considerarse


como formas de compresión de da

178

PREPARACIÓN DE DATOS 3. REDUCCIÓN POR


COMPRESIÓN DE DATOS

Datos originales Datos


Comprimidos
Sin pérdida

Datos originales
aproximados

179

69
18/04/2022

PREPARACIÓN DE DATOS:
TRANSFORMACIÓN

180

PREPARACIÓN POR
TRANSFORMACIÓN DE DATOS
Función que mapea todo el conjunto de valores de un atributo dado a un nuevo conjunto de valores de reemplazo, cada
valor antiguo se puede identificar con uno de los nuevos valores.
Los datos deben ser transformados para ajustarse a ciertos algoritmos de ciencia de datos como por ejemplo:

Knn requiere dato numérico normalizado. Debido a que calcula las distancias entre éstos. La normalización evita
que un atributo domine los resultados de las distancias
Herramientas para transformación
• Normalización: escalamiento para caer dentro de un rango más pequeño, ayuda a redes neuronales, distancias,
knn, clustering
•normalización min-max
•normalización de puntaje z
•normalización por escala decimal
•Discretización: escalada de jerarquía de conceptos
•Discretización
• Suavizado: para eliminar el ruido de los datos
• Construcción de atributos / características: nuevos atributos construidos a partir de los dados.
• Agregación: resumen, construcción de cubos de datos, sirve para análisis de datos a diferentes niveles de
granularidad (día-mes)
• Generalización para sustituir datos primitivos por conceptos de nivel mas alto (calle-colonia)
•Jerarquización

181

70
18/04/2022

EJERCICIOS TRANSFORMACIÓN
NORMALIZACIÓN
Considere un rango de salarios de $12,000 a $98,000. Normalice los datos a [0.0, 1.0]. Y
mapee el salario 73,000
• Normalización Min-max to [new_minA, new_maxA]

v − min𝐴 73,600 − 12,000


𝑣′ = (new_max𝐴 − new_min𝐴) + 𝑛𝑒𝑤_min𝐴 98,000 − 12,000
(1.0 − 0) + 0 = 0.716
max𝐴 − min𝐴

• Normalización Z-score( sea μ: media, σ: desviación estándar; con μ = 54,000, σ = 16,000.


𝑣 − 𝜇𝐴 73,600 − 54,000
𝑣′ = = 1.225
𝜎𝐴 16,000

• Normalización por escala decimal


𝑣
𝑣′ = Donde j es el enetero mas pequeño tal que Max(|ν’|) < 1
10 Entonces j=4; 73600 = 0.73
104

182

EJERCICIOS DE PREPARACIÓN DE DATOS

Utilice los siguientes métodos para normalizar el siguiente grupo de


datos: 200, 300, 400, 600, 1000

(a) normalización min-max configurando min = 0 y max = 1


(b) normalización del puntaje z
(c) normalización del puntaje z utilizando la desviación media absoluta
en lugar de la desviación estándar
(d) normalización por escala decimal

183

71
18/04/2022

EJERCICIOS DE PREPARACIÓN DE DATOS


RESPUESTA

(a) la normalización min-max con min = 0 y max = 1 obtiene el nuevo valor


calculando
vi’ = vi − 200
1000 – 200 * (1 − 0) + [Link]

Los datos normalizados son: 0, 0.125, 0.25, 0.5, 1

(b) En la normalización de la puntuación z, un valor vi de A se normaliza a vi’


por vi′ =vi − Ã
σA donde à =1/5 (200 + 300 + 400 + 600 + 1000) = 500,
σA =√1/5 (2002 + 3002 + ... + 10002) − Ã2 = 282.8.

Los datos normalizados son:−1.06,−0.707,−0.354, 0.354, 1.77

184

EJERCICIOS DE PREPARACIÓN DE DATOS


RESPUESTA

(c) La normalización del puntaje z usando la desviación absoluta


media en lugar de la desviación estándar reemplaza σA con sA

sA =1/5 (| 200 - 500 | + | 300 - 500 | + ... + | 1000 - 500 |) = 240

Los datos normalizados son: −1.25, −0.833, −0.417, 0.417, 2.08

(d) El entero más pequeño j tal que Max (| vi/10j|) < 1 es 3.

Después de la normalización por escala decimal, los datos se


convierten en: 0.2, 0.3, 0.4, 0.6,1.0

185

72
18/04/2022

PREPARACIÓN DE DATOS:
DISCRETIZACIÓN

186

PREPARACIÓN DE DATOS POR DISCRETIZACIÓN

Divide el rango de un atributo continuo en intervalos, permite reducir el tamaño de


los datos y preparar los datos para posterior análisis. Se puede realizar discretización
supervisada y no supervisada
• Dependerá de los tres tipos de atributos
• Nominal—valores de un conjunto no ordenado como el color o la profesión
• Ordinal—valores de un conjunto ordenado, como rangos académicos
• Numéricos—números reales o enteros

187

73
18/04/2022

PREPARACIÓN DE DATOS POR


DISCRETIZACIÓN
Discretización de arriba hacia abajo

Si el proceso comienza por encontrar primero uno o unos pocos puntos (llamados puntos divididos o
puntos de corte, splits) para dividir todo el rango de atributos, y luego repite esto recursivamente en los
intervalos resultantes, entonces se llama discretización de arriba hacia abajo o división.

Discretización de abajo hacia arriba

Si el proceso comienza considerando todos los valores continuos como posibles puntos de división,
elimina algunos fusionando valores de vecindad para formar intervalos, entonces se llama discretización
de abajo hacia arriba o fusión.

Discretización:
Se pueden usar etiquetas de intervalos para reemplazar los valores
Split (top-down) vs. merge (bottom-up)
Se puede aplicar recursivamente sobre un atributo

.
188

PREPARACIÓN DE DATOS POR


Herramientas para discretización:
DISCRETIZACIÓN
Todos pueden aplicarse recursivamente
• Binning
• Clasificación: Análisis de Árboles de decisión (supervised, top-down split)
• Correlación (p.e. análisis de 2) (no supervisado, bottom-up merge)
• Top-down split, no supervisado
• Análisis de Histogramas
• Top-down split, no supervisado
• Análisis de Clustering (no supervisado, top-down split o bottom-up merge)
La discreción se puede realizar rápidamente en un atributo para proporcionar
una partición jerárquica de los valores de los atributos, conocida como jerarquía
conceptual
189

189

74
18/04/2022

DISCRETIZACIÓN POR BINNING


• Particionamiento de igual-ancho -equal-width (distancia) Divide el rango en N
intervalos de igual ancho
• Si A y B son los valores mínimo y máximo del atributo respectivamente, el ancho de
los intervalos será: W = (B –A)/N.
• Es el método mas sencillo, pero los datos atípicos dominarán la presentación
• Los datos sesados no se manejan bien

• Particionamiento de igual profundidad (frecuencia) Divide el rango [A,B] de la variable


en N intervalos, cada uno conteniendo aproximadamente el mismo numero de
elementos
• Tiene mejor rendimiento cuando se incrementan los datos que el método anterior
• El manejo de los atributos categóricos debe ser cuidadoso

190

190

EJEMPLOS DE DISCRETIZACIÓN
POR BINNING
Considere el siguiente rango de precios en dólares: 4, 8, 9, 15, 21, 21, 24, 25, 26, 28, 29, 34. Realice el
particionado por binning,considerando tres contenedores
* Particionado a contenedores de frecuencias equitativas (4 valores cada uno)(equi-depth):
- Bin 1: 4, 8, 9, 15
- Bin 2: 21, 21, 24, 25
- Bin 3: 26, 28, 29, 34
* Particionado a contenedores con la media de cada conjunto que representa (bin means):
- Bin 1: 9, 9, 9, 9
- Bin 2: 23, 23, 23, 23
- Bin 3: 29, 29, 29, 29
* Particionado a contenedores con valores mínimo y máximo del conjunto representado (bin
boundaries):
- Bin 1: 4, 4, 4, 15
- Bin 2: 21, 21, 25, 25
- Bin 3: 26, 26, 26, 34

191

191

75
18/04/2022

DISCRETIZACIÓN SIN USAR ETIQUETAS DE CLASE


(BINNING VS. CLUSTERING)

Datos originales Intervalos iguales (width binning)

Frecuencia igual (depth binning) K-means clustering leads to better results

192

EJERCICIOS DE PREPARACIÓN DE DATOS


SUAVIZADO, DETECCIÓN DE ANÓMALOS

Dados los siguientes datos (en orden creciente) para el atributo edad: 13,
15, 16, 16, 19, 20,20, 21, 22, 22, 25, 25, 25, 25, 30, 33, 33, 35, 35, 35, 35, 36, 40,
45, 46, 52, 70.

(a) Utilice el método bin para suavizar los datos anteriores, utilizando una
profundidad de bin de 3.
(b) Comente sobre el efecto de esta técnica para los datos dados.

(c) ¿Cómo podría determinar valores atípicos en los datos?

(d) ¿Qué otros métodos existen para el suavizado de datos?

193

76
18/04/2022

EJERCICIOS DE PREPARACIÓN DE DATOS


RESPUESTA

Respuesta:
(a) Los siguientes pasos son necesarios para suavizar los datos anteriores
utilizando el suavizado por bin con una profundidad de bin de 3
Paso 1: ordenar los datos. (para el ejemplo, ya que los datos ya están
ordenados).
• Paso 2: Particionar los datos en contenedores de profundidad 3 para
todos.
Bin 1: 13, 15, 16 Bin 2: 16, 19, 20 Bin 3: 20, 21, 22
Bin 4: 22, 25, 25 Bin 5: 25, 25, 30 Bin 6: 33, 33, 35
Bin 7: 35, 35, 35 Bin 8: 36, 40, 45 Bin 9: 46, 52, 70

• Paso 3: Calcule la media aritmética de cada bin.

194

EJERCICIOS DE PREPARACIÓN DE DATOS


RESPUESTA

Paso 4: Reemplace cada uno de los valores en cada contenedor por la


media aritmética calculada para el contenedor.
Bin 1: 142/3, 142/3, 142/3
Bin 2: 181/3, 181/3, 181/3
Bin 3: 21, 21, 21
Bin 4: 24, 24, 24
Bin 5: 262/3, 262/3, 262/3
Bin 6: 332/3, 332/3, 332/3
Bin 7: 35, 35, 35
Bin 8: 401/3, 401/3, 401/3
Bin 9: 56, 56, 56
Este método suaviza un valor de datos ordenados consultando a su
"vecindario". Se realiza suavizado local

195

77
18/04/2022

EJERCICIOS DE PREPARACIÓN DE DATOS


RESPUESTA

(b) ¿Cómo podría determinar valores atípicos en los datos?


Los valores atípicos en los datos pueden detectarse por agrupación,
donde los valores similares se organizan en grupos, o “segmentos”. Los
valores que quedan fuera de los grupos pueden considerarse valores
atípicos.
Alternativamente, se puede utilizar una combinación de inspección por
computadora y por humanos donde se implementa una distribución
predeterminada para permitir que la computadora identifique posibles
valores atípicos. Estos posibles los valores atípicos se pueden verificar
mediante inspección humana con mucho menos esfuerzo del que se
requeriría para verificar todo el conjunto de datos inicial.

196

EJERCICIOS DE PREPARACIÓN DE DATOS


RESPUESTA

(c) ¿Qué otros métodos existen para el suavizado de datos?


Bin by medias
Bin boundaries
Alternativamente, los contenedores de ancho equivalente (equiwidth) pueden
ser usados para implementar cualquiera de las formas de agrupamiento, donde
el rango de valores de intervalo en cada bin es constante.
En cuanto a métodos distintos al binning:
Técnicas de regresión para suavizar los datos mediante ajustándolo a una
función tal como a través de regresión lineal o múltiple.
Técnicas de clasificación se pueden usar para implementar jerarquías
conceptuales que pueden suavizar los datos al subir el nivel inferior conceptos a
conceptos de nivel superior.

197

78
18/04/2022

DISCRETIZACIÓN POR CLASIFICACIÓN Y ANÁLISIS


DE CORRELACIÓN
• Clasificación (p.e., análisis de árbol de decisión)
• Supervisado: dadas ciertas etiquetas de clase, p.e., canceroso vs. benigno
• Uso de entropía para determinar el punto de división (punto de discretización)
• División recursiva de arriba hacia abajo(top-down)

• Análisis de correlación (p. e, chi merge: basada en χ2)


• Supervisado: se usa información de clase
• Fusión ascendente(bottom-up): encuentra los mejores intervalos adyacentes (aquellos
que tienen distribuciones similares de clases, es decir, valores bajos de χ2) para fusionar
• La fusión se realiza de forma recursiva, hasta que se cumpla la condición de detención
predefinida

198

DISCRETIZACIÓN POR GENERACIÓN DE


JERARQUÍAS DE CONCEPTO
• La formación de jerarquía de conceptos: reduce recursivamente los datos mediante
la recopilación y el reemplazo de conceptos de bajo nivel (como valores numéricos
para la edad) por conceptos de nivel superior (como jóvenes, adultos o adultos
mayores).
• La jerarquía de conceptos se puede formar automáticamente para datos numéricos
y nominales.
• Al generalizar se pierde detalle, pero facilita la interpretación de resultados.
• En el caso de ambientes OLAP: La jerarquía de conceptos organiza los conceptos (es
decir, los valores de los atributos) jerárquicamente y generalmente cuando es el
caso, se asocia con cada dimensión en un almacén de datos (DWH). Facilitan el drill
y el roll en almacenes de datos para ver datos a múltiples granularidades.
• Las jerarquías conceptuales pueden ser especificadas explícitamente por expertos
en dominios y / o diseñadores de data warehouse.

199

79
18/04/2022

DISCRETIZACIÓN
JERARQUÍAS DE CONCEPTOS
PARA DATOS NOMINALES
• Especificación explícita de un orden parcial / total de atributos a nivel de
esquema por usuarios o expertos
• Articulo, Departamento, Tienda
• Especificación de una jerarquía para un conjunto de valores por
agrupación explícita de datos
• {Tacuba,Centro}< CDMX <México
• Especificación de solo un conjunto parcial de atributos
• P.e. solo calle <ciudad, no otras
• Generación automática de jerarquías (o niveles de atributos) mediante
el análisis del número de valores distintos
• P.e. para un conjunto de atributos: empleado, supervisor, gerente,
directorDepto, Presidente, DirGral

200

GENERACIÓN DE JERARQUÍAS DE
CONCEPTOS
1. Ordene los atributos en orden ascendente en función del número de
valores distintos de atributos.

2.- Genere la jerarquía de arriba hacia abajo según el orden dado, con el
primer atributo en el nivel superior y el último atributo en el nivel inferior.

3.- El usuario puede examinar la jerarquía generada y, cuando sea necesario,


modificarla para reflejar las relaciones semánticas deseadas entre los
atributos.

201

80
18/04/2022

EJERCICIO DISCRETIZACIÓN POR JERARQUÍAS DE


CONCEPTO ATRIBUTOS NOMINALES

Supongamos que se tiene el siguiente grupo de atributos y sus cardinalidades:


674339 calles, 3567 ciudades, 365 estados y 194 países.

Establezca la jerarquía de conceptos y reduzca por discretización

202

EJERCICIO DISCRETIZACIÓN POR JERARQUÍAS DE


CONCEPTO PARA ATRIBUTOS NOMINALES
RESPUESTA
Supongamos que se tiene el siguiente grupo de atributos y sus cardinalidades:
674339 calles, 3567 ciudades, 365 estados y 194 país.

1.- Se ordena ascendentemente 194 país; 365 estado; 3567 ciudad; 674339
calle

2. Se establece la jerarquía en ese orden


194 país> 365 estado> 3567 ciudad > 674339 calle

203

81
18/04/2022

EJERCICIO DISCRETIZACIÓN POR JERARQUÍAS DE


CONCEPTO PARA ATRIBUTOS NOMINALES
RESPUESTA
3.- Se puede especificar solo una parte de una jerarquía por agrupación
explícita de datos, dado que en una base de datos grande, no es realista
definir una jerarquía de concepto completa mediante una enumeración
explícita de valores

pais 194 valores distintos

estado 365 valores distintos


Pais 194
Estado 365
ciudad 3567 valores distintos
Ciudad 3567
Calle 674339
calle 674,339 valores distintos

204

GENERACIÓN DE JERARQUÍAS DE
CONCEPTOS
•Especificación de solo un conjunto parcial de atributos:

•Es posible que el usuario solo tenga una idea vaga sobre lo que debe
incluirse en una jerarquía. En consecuencia, el usuario puede haber incluido
solo un pequeño subconjunto de atributos relevantes.
•Por ejemplo, en lugar de incluir todos los atributos jerárquicamente relevantes
para la ubicación, el usuario puede haber especificado solo la calle y la
ciudad.

•Para manejar jerarquías parcialmente especificadas, se debe integrar la


semántica de datos para que posteriormente los atributos con conexiones
semánticas estrechas se puedan unir.

205

82
18/04/2022

EJEMPLO DE JERARQUIZACIÓN DE CONCEPTOS


PARA NUMÉRICOS

En la figura se muestra un ejemplo de una jerarquía conceptual para el atributo precio. Se


puede definir más de una jerarquía conceptual para el mismo atributo a fin de satisfacer las
necesidades de varios usuarios.

206

MODELADO

Introducción

Patrones

Clasificación

Predicción numérica

Evaluación del modelado

207

83
18/04/2022

DIFERENCIA ENTRE MINERÍA DE DATOS Y APRENDIZAJE DE MÁQUINA

● No es raro ver cómo se usan indiferentemente los conceptos minería


de datos y aprendizaje de máquina. Son conceptos similares.
● Desde nuestro punto de vista, la principal diferencia radica en el
objetivo que tiene cada una de las disciplinas.

● La minería de datos descubre patrones anteriormente desconocidos

● El aprendizaje de máquina se usa para reproducir patrones conocidos


y hacer predicciones basadas en los patrones.

● En pocas palabras se podría decir que la minería de datos tiene una


función exploratoria mientras que el aprendizaje de máquina se
focaliza en la predicción.

208

INTRODUCCIÓN-MODELADO

● Un modelo es la representación abstracta de los datos y las relaciones


entre ellos a partir de una fuente de datos.

● En algunos casos, los usuarios no tienen idea de qué tipos de patrones


en sus datos pueden ser interesantes y, por lo tanto, pueden querer
buscar varios tipos diferentes de patrones en paralelo ya sea para
descripción o predicción.

● Un científico de datos debe conocer los algoritmos de aprendizaje,


como trabajan y como determinar que parámetros necesitan ser
configurados con base en el entendimiento del negocio y los datos.

209

84
18/04/2022

INTRODUCCIÓN-MODELADO
MINERÍA DE DATOS

● Las tareas de minería de datos se pueden clasificar en dos


categorías:

● Descriptiva
● Predictiva

Por ejemplo, la clasificación y la regresión son tareas predictivas


porque predicen una variable salida con base en una o mas
variables de entrada.

210

INTRODUCCIÓN-MODELADO

● Los algoritmos predictivos requieren conocimiento previo en


una fuente de datos para aprender el modelo.
● La figura muestra los pasos en la fase de modelado para una
ciencia de datos predictiva

211

85
18/04/2022

INTRODUCCIÓN-MODELADO

● Algoritmos de entrenamiento:
La pregunta u objetivo, así como la disponibilidad de los datos indicará
que tarea de ciencia de datos (asociación, clasificación, regresión,
agrupamiento, etc.) realizar.

Por ejemplo para la tarea de clasificación se tienen las técnicas:


Arboles de decisión
Reglas de inducción
Redes neuronales
Modelos bayesianos
Para la técnica de árboles de decisión se tienen los algoritmos:
CART (clasificación y regresión)
Chi-squared automatic interaction detector (CHAID), etc.

212

INTRODUCCIÓN-MODELADO

● La validez del modelo creado necesitará ser evaluado con otra


fuente de datos conocido como conjunto de prueba o
validación. Por lo general, dos terceras partes son para
entrenamiento y un tercio para la validación.

213

86
18/04/2022

MINERÍA DE DATOS

● Los datos se pueden asociar con clases y conceptos. Por ejemplo


en una tienda de ropa:

● Las clases de artículos pueden ser vestidos y trajes


● Los conceptos de clientes pueden ser ClientePremium,
ClienteEsporádico

Las descripciones de clases y conceptos pueden ser derivadas por:


● A) caracterización de los datos al resumir los datos de una clase
bajo estudio (llamada clase objetivo, o etiqueta)
● B) discriminación de los datos al comparar la clase objetivo con
otras contrastantes.
● C) Ambos: caracterización y discriminación

214

CARACTERIZACIÓN DE DATOS

● Es el resumen de las características de una clase de datos objetivo

● Se basa en mediciones estadísticas y representaciones gráficas

○ Roll-up de OLAP es un medio de resumir datos


○ Puntos en un plano cartesiano, graficas de barras, cubos multidimensionales
Las descripciones resultantes también puedes presentarse como relaciones
generalizadas o reglas, llamadas reglas características

215

87
18/04/2022

DISCRIMINACIÓN DE DATOS

● Los métodos para comparar las características de los datos de


una clase con otras son las mismas que para su resumen o
descripción.

● Se deben incluir mediciones comparativas que ayuden a


distinguir entre la clase objetivo y las contrastantes.

● Un sistema de minería de datos debe ser capaz de poder


comparar sus tipos de clientes, como aquellos clientes que
compran regularmente 2,3 veces al mes de aquellos
esporádicos,

216

MINADO DE
PATRONES,
ASOCIACIONES
Y
CORRELACIONES

217

88
18/04/2022

PATRONES

Recordemos que un patrón es un conjunto de objetos, subsecuencias,


subestructuras, etc. que ocurren frecuentemente en un conjunto de datos.
Existen muchos tipos de patrones incluyendo conjuntos de artículos,
subsecuencias y subestructuras.
● Los artículos frecuentes son aquellos productos que se encuentran
frecuentemente en una transacción. Por ejemplo: camisa y pantalón o
leche y pan, etc.
● Una subsecuencia frecuente es por ejemplo, el patrón de secuencia que se
da al comprar artículos: 1.- Computadora; 2.- Impresora; 3.- tonner; 4.- hojas
● Un patrón de subestructura es cuando se repite constantemente un
subárbol o grafo.
● El minado de patrones requiere del descubrimiento de asociaciones y
correlaciones dentro de los datos.

218

MODELADO

● El análisis de patrones por reglas de asociación sirve para análisis de


canasta de mercado, mercadotecnia, diseño de catálogos,
campañas de venta, análisis de bitácoras Web (click stream), así
como análisis de secuencias de ADN.

● El análisis de asociación y la agrupación son técnicas descriptivas de


ciencia de datos donde no hay una variable objetivo a predecir por
lo tanto, no hay un conjunto de datos de prueba.

● Sin embargo, los modelos tanto predictivos como descriptivos tienen


un paso de evaluación.

219

89
18/04/2022

REGLAS DE ASOCIACION
HTTPS://[Link]/WATCH?V=JO339WPVTXO

220

MÉTODO NO SUPERVISADO
DESCRIPTIVO: REGLAS DE ASOCIACIÓN
Reglas de Asociación y Dependencia:
Se utilizan para descubrir hechos que ocurren en común dentro de un
determinado conjunto de datos.
En el sector salud, se emplean para identificar factores de riesgo en la
aparición o complicación de enfermedades. Para su utilización es necesario
disponer de información de cada uno de los sucesos llevados a cabo por un
mismo individuo o cliente en un determinado período temporal
Un típico escenario de aplicación para asociaciones es el análisis de canasta
de compras (market basket analysis). Allí, una regla como “en el 30 por
ciento de todas las compras, la cerveza y cacahuates han sido comprados
juntos” es un ejemplo típico para una asociación.
Las reglas asociación surgen inicialmente para el análisis de la canasta del súper mercado.

ES NO SUPERVISADO PORQUE SE GENERAN LAS REGLAS, PERO PUEDE SER SUPERVISADO SI EL


EXPERTO PRETENDE PROBAR UN CONJUNTO DE REGLAS Y REDUCIR EL ESPACIO DE BUSQUEDA.

221

90
18/04/2022

ANÁLISIS DE ASOCIACIONES

Una asociación es cuando los datos se relacionan de alguna manera.


Suponiendo artículos, el clásico ejemplo es la determinación de
productos que son frecuentemente vendidos juntos dentro de una
misma transacción.

● El patrón o regla de asociación se representa con atributos o


predicados

Una regla de asociación que contiene un predicado simple se llama


regla de asociación de dimensión simple.

Regla: Antecedente  consecuente

222

EJEMPLO DE REGLAS DE
ASOCIACIÓN
Suponga que se tiene una base de datos de transacciones de una tienda de
abarrotes.
Reglas de Asociación y Dependencia
Los datos se organizan en una sola tabla, las columnas representan los artículos de
venta el supermercado y cada fila representa una canasta del súper. La tabla
contendrá valores binarios;

1 en la posición (i,j) indicará que la canasta i contiene el producto j


0 en la posición (i,j) indicará que en la canasta i no se compró el producto j.

223

91
18/04/2022

EJEMPLO DE REGLAS DE
ASOCIACIÓN
• Considere una tabla con m artículos y j cestas de compra

Si X es un subconjunto de I → X es un conjunto de valores de los atributos de I


(items)

224

EJEMPLO DE REGLAS DE
ASOCIACIÓN

• Entonces X es:

• Una regla de asociación es de la forma α→β, donde α y β son dos conjuntos


disjuntos de artículos, también puede expresarse: SI α ENTONCES β
(Leche, cuernitos)  (café)

225

92
18/04/2022

EJEMPLO DE REGLAS DE
ASOCIACIÓN
Las reglas de asociación son apropiadas si satisfacen el valor del mínimo
soporte (min_sop) y de la mínima confianza (min_conf).

Recuerde, Si X es el numero de veces que la regla predice


correctamente y D es el total de instancias, entonces el soporte (A ⇒ B) =
l X l / l Dl

O dicho de otra forma soporte (A ⇒ B) = P(A ∪ B)

La confianza para la regla (A ⇒ B) está dada por:


El número de veces que se cumple la regla entre el número de veces que
se cumple el antecedente.

confianza(A ⇒ B) = P(B | A) = soporte (A ∪ B ) / soporte(A)

226

EJEMPLO DE REGLAS DE
ASOCIACIÓN
Sea A leche, cuernitos y B=café. Si consideramos la regla (A ⇒ B)
:
(Leche, cuernitos) (café)
Soporte:
La regla se cumple 3 veces.
La regla se cumple en 3 de un total de 7 transacciones.
La regla se cumple en un 43% de las transacciones.
O bien. Si soporte (A ⇒ B) = P(A ∪ B); entonces soporte (A ⇒
B)=3/7

227

93
18/04/2022

EJEMPLO DE REGLAS DE
ASOCIACIÓN

Considerando la regla (Leche, cuernitos) (café) ; obtener su confianza

De 4 transacciones en las que se compró leche y cuernitos (se cumple el


antecedente), en 3 se compró café (se cumple la regla). Es decir, la regla se
cumple en un 75% de las transacciones en las que podía aplicarse.
O bien:
Confianza : soporte (A ∪ B ) / soporte(A) ; 3/4

La regla (Leche, cuernitos) -> (café) Suporte 0.43 y una confianza de 0.75

228

MÉTODOS DE MINADO ESCALABLES

Cualquier subconjunto de un conjunto de elementos frecuente debe ser


frecuente
Si {cerveza, pañal, nueces} es frecuente, también lo es {cerveza, pañal} es decir,
cada transacción que tiene {cerveza, pañal, nueces} también contiene
{cerveza, pañal}

Tres métodos de minería escalables: tres enfoques principales


Apriori
FPgrowth
Enfoque de formato de datos vertical

En esta asignatura se analizarán los dos primeros.

231

94
18/04/2022

ALGORITMO A PRIORI

El algoritmo A priori se basa en las propiedades de cerradura y maximización.

Si existe cualquier conjunto de elementos que es infrecuente, su superconjunto no debe


ser generado ni probado.

Soporte: Porcentaje de que la regla se cumple con respecto al total de transacciones

Confidencia: Porcentaje de que la regla se cumple con respecto al antecedente.

Ej. Suponga X que representa a un cliente, entonces:


Compra(X,pantalón) Compra(X,camisa) support=2.5%, confidence=53%

Las asociaciones también pueden servir para reducción de dimensiones al descartar


características que no tienen suficiente soporte y confidencia

232

ALGORITMO A PRIORI
Para evaluar las reglas se emplean dos medidas:
Soporte(A  B) = P(A U B)
Confianza (A  B) = P(B | A) = P(AU B)
P (A)
Las reglas que interesan son únicamente aquellas que tienen su valor de soporte muy alto. Es decir, se
desea encontrar pares atributo-valor que cubran una gran cantidad de ejemplos.

El soporte y la confianza son dos criterios de medida que reflejan respectivamente, la utilidad y
certeza de la regla.
Un soporte del 2% indica que este porcentaje de todas las entidades bajo análisis muestran que dos
items son comprados conjuntamente (dicho de otra forma, la regla se cumple).
Una confianza del 60% muestra que este porcentaje de instancias los clientes que compran un
articulo adquieren también el otro.

233

95
18/04/2022

ALGORITMO A PRIORI

Principio de poda anticipada: Si hay un conjunto de elementos


(itemset) que no es frecuente, entonces su superconjunto
(superset) no debe ser generado ni probado.

Pasos generales:
• Inicialmente, busca en la fuente de datos una vez para obtener
1-itemset frecuente
• Prueba los candidatos con respecto a la fuente de datos
• Termina cuando no se pueda generar un candidato frecuente

234

ALGORITMO A PRIORI
• A cada par atributo-valor se le denomina item
• A cada conjunto de items se les denomina item-sets.

• Se buscan item-sets con un máximo soporte, para lo que se comienza con item-sets con
un único item.
• Se eliminan los item-sets cuyo valor de soporte sea inferior al mínimo establecido, y se
combinan el resto formando item-sets con dos items.
• A su vez se eliminan aquellos nuevos item-sets que no cumplan con el soporte mínimo.
• Al resto se le añadirá un nuevo item, formando item-sets con tres items.
• El proceso continuará hasta que ya no se puedan formar item-sets con un item más.
• Además, para generar los item-sets de un determinado nivel, sólo es necesario emplear
los item-sets del nivel inferior (con n-1 coincidencias, siendo n el número de items del
nivel).

235

96
18/04/2022

PASOS A PRIORI

Una vez se han obtenido todos los item-sets, se generan las reglas.

Se tomará cada item-set y se formarán reglas que cumplan con la condición


de confianza. Debe tenerse en cuenta que un item-set puede dar lugar a
más de una regla de asociación, al igual que un item-set también puede no
dar lugar a ninguna regla.

236

OBTENCIÓN DE REGLAS DE
ASOCIACIÓN A PRIORI
1. Genera todos los items-sets con un elemento. Usa éstos para generar los
de dos elementos y así sucesivamente. Se toman todos los posibles pares
que cumplen con las medidas mínimas del soporte. Esto permite ir
eliminando posibles combinaciones ya que no todas se tienen que
considerar.

2. Genera las reglas revisando que cumplan con el criterio mínimo de


confianza

237

97
18/04/2022

EJ. A PRIORI
Itemset sup conteoSupmin = 2 ó
Itemset sup
Base de datos TransBD {A} 2 soportemin=50% y
L1 {A} 2
Tid Items C1 {B} 3 confianza=70%
{B} 3
10 A, C, D {C} 3
1er scan {C} 3
20 B, C, E {D} 1
{E} 3
30 A, B, C, E {E} 3
40 B, E
C2 Itemset sup C2 Itemset
{A, B} 1
L2 Itemset sup
{A, C} 2
2do scan {A, B}
{A, C} 2 {A, C}
{A, E} 1
{B, C} 2
{B, C} 2 {A, E}
{B, E} 3
{B, E} 3 {B, C}
{C, E} 2
{C, E} 2 {B, E}
{C, E}

C3 Itemset
3er scan L3 Itemset sup

{B, C, E} {B, C, E} 2

239

confianza= #cumple la regla EJ. A PRIORI


#cumple antecedente
Itemset sup
Itemset sup
{B, C, E} 2 Itemset sup
Con_min= 70% {A} 2
Tid Items
L1 {A} 2
{B} 3
{B} 3
10 A, C, D {C} 3
Generación de las reglas 1er scan {C} 3
20 B, C, E {D} 1
de asociación y calculo {E} 3
30 A, B, C, E {E} 3
de confianza
40 B, E
C2 Itemset sup C2 Itemset
BCE : 2/3=66% L2 Itemset sup
{A, B} 1
2do scan
{A, C} 2 {A, B}
CBE : 2/3 {A, C} 2
{A, E} 1 {A, C}
{B, C} 2
EBC : 2/3 {B, C} 2 {A, E}
{B, E} 3
{B, E} 3 {B, C}
BCE : 2/2=100% {C, E} 2
{C, E} 2 {B, E}
CEB : 2/2 {C, E}

BEC : 2/3 C3 Itemset 3er scan L3 Itemset sup


4to scan L4
{B, C, E} {B, C, E} 2 

240

98
18/04/2022

TAREA: GENERAR LAS REGLAS DE


ASOCIACIÓN POR APRIORI
Tid Items
1 Zumo,limpiador Conteo Supmin = 2
2 Leche,zumo,limpiador Y confianza=70%
3 zumo, detergente
4 Zumo, detergente, gaseosa
5 Limpiador, gaseosa
6 Detergente, gaseosa
7 Zumo, detergente, gaseosa

245

MEJORAS AL ALGORITMO A
PRIORI
• Principales desafíos computacionales
• Múltiples escaneos de la base de datos de transacciones
• Gran cantidad de candidatos
• Carga de trabajo tediosa para el conteo de soporte de los candidatos

• Ideas para mejorar Apriori:


• Reducir los pasos de escaneos de transacciones de bases de datos
• Reducir el número de candidatos
• Facilitar el conteo de soporte de candidatos

252

99
18/04/2022

EJERCICIOS DE ASOCIACIONES

Una base de datos tiene 5 transacciones. Sea min sup = 60% y min conf = 80%.

T100 {M,O,N,K,E,Y}
(a) Encuentre todos los conjuntos de elementos frecuentes utilizando A
T200 {D,O,N,K,E,Y} priori. Recuerde este ejercicio, se retomará y comparará con FP-
T300 {M,A,K,E} Growth
T400 {M,U,C,K,Y}
(b) Enumere todas las reglas de asociación fuertes (con soporte s y
T500 {C,O,O,K,I,E} confianza c) que coincidan con las siguientes meta reglas, donde X es
una variable que representa a los clientes, y articuloi denota variables que
representan elementos (por ejemplo, "A", "B", etc.):

∀x ∈ transacción, compra (X, artículo1) ∧ compra (X, artículo2) ⇒ compra


(X, artículo3) [s, c]

253

ASOCIACIONES: FP-GROWTH
• Problemas con A priori:
• Realiza búsqueda por recorrido a lo ancho (breadth-first)
• Generación de candidatos y prueba
• Por lo general produce un gran número de candidatos

• El algoritmo FP-Growth es una mejora al A priori en el sentido de que


trata de encontrar los patrones frecuentes sin generación de
candidatos

259

100
18/04/2022

ASOCIACIONES: CRECIMIENTO DE
PATRONES FRECUENTES --PATTERN
GROWTH
• Estrategia FPGrowth
• Realiza búsqueda por recorrido a profundidad (Depth-first)
• Evita generación de candidatos explícita

• Filosofía: crece patrones grandes a partir de cortos usando solamente los


elementos frecuentes locales.
• “abc” es un patrón frecuente
• Toma todas las transacciones que tengan abc.
• D es un item frecuente local en D|abc abcd es un patron frecuente

260

PSEUDOCÓDIGO FP-GROWTH
1. Se hace una lista elementos y se calcula su correspondiente conteo de soporte
(numero de veces que se compra el articulo en todas las transacciones). Se
empieza por un elemento, después dos, después tres, sucesivamente.
2. Se eliminan todos los artículos que no cumplen con el conteo mínimo de soporte
3. Se crea una lista con los artículos ordenados descendentemente conforme a su
conteo de soporte
4. Se ordenan los artículos por cada transacción conforme a su conteo de soporte
en la lista L
5. Se crea una tabla con los artículos en el orden del conteo de soporte, esta tabla
apuntará a los nodos del árbol
6. Creación del árbol

261

101
18/04/2022

PSEUDOCÓDIGO FP-GROWTH
6. Creación del árbol:
a. Se crea el nodo raíz (null)
b. Por cada transacción se crea un nodo con el primer elemento y se anota
las veces que ocurre, así sucesivamente, hasta terminar todos los
elementos de cada transacción.
c. Si existe un prefijo común, el conteo de cada nodo se incrementa en uno
(número de veces que esa secuencia se repite). Si no, se comparte el
prefijo, se crea un nodo nuevo y se inicia con valor uno. Se repite paso b y
c para todas las transacciones.

262

PSEUDOCÓDIGO FP-GROWTH
7. Se ordenan en una lista los ítems recorriendo el árbol de las hojas a la raíz para la
primer transacción. Es decir, se empieza por el último articulo
8. Por cada ítem en la lista, se forma la tabla de patrones base, en donde se
agregan las rutas en el árbol(secuencia de ítems) por las que se llega a ese ítem y
se anota el número de veces que esa secuencia aparece hasta terminar con la
lista de ítems(el valor que aparece en el nodo hoja).
9. Se cuentan los ítems frecuentes y comunes de la tabla de patrones base con
respecto a cada articulo de la lista. Es decir, cuantas veces esa secuencia se
repite y se anota en la tabla de patrones condicionales
10. Para encontrar el patrón se obtienen las combinaciones de cada ítem de la tabla
de patrones condicionales y por cada item en la lista se va obteniendo el conteo
de soporte de este articulo.
11. Para generar las reglas de asociación se calcula la confianza mínima

[Link] (6:59-

263

102
18/04/2022

EJERCICIO FP-GROWTH

Considere la siguiente tabla de articulos de alguna tienda. Genere el conjunto de


items frecuentes por FP-Growth. Se desea conteo de Soporte mínimo= 3.

TID Items comprados


T1 {f, a, c, d, g, i, m, p}
T2 {a, b, c, f, l, m, o}
T3 {b, f, h, j, o, w}
T4 {b, c, k, s, p}
T5 {a, f, c, e, l, p, m, n}

264

264

ÁRBOL FP A PARTIR DE BASE DE DATOS


TRANSACCIONAL
TID Items comprados ( items ordenados por frecuencia) Soporte mínimo= 3
T1 {f, a, c, d, g, i, m, p} {f, c, a, m, p}
T2 {a, b, c, f, l, m, o} {f, c, a, b, m} {}
T3 {b, f, h, j, o, w} {f, b}
T4 {b, c, k, s, p} {c, b, p}
T5 {a, f, c, e, l, p, m, n} {f, c, a, m, p} Frecuencia Item f:1,2,3,4
f 4

1. Escanee la base de datos una c 4 c:1,2,3 c:1


vez, encuentre conjuntos
frecuentes de 1 ítem (patrón de a 3
a:1,2,3
ítem único)
b 3 b:1
2. Ordenar descendentemente los b:1 b:1
elementos frecuentes con base a m 3
frecuencia en lista f m:1,2 m:1
listaF = f-c-a-b-m-p p 3
3. Escanear base de datos p:1,2 p:1
nuevamente, construir FP-tree

265

103
18/04/2022

Se cuentan los ítems frecuentes en todos


los sets por cada ítem, empezando por p

ITEMSET Patrones
{} ITEMS Patrones base ITEMS
ORDENADO condicionales
f,c,a,m,p {p} {f,c,a,m:2},{c,b:1} {p}
F,c,a,b,m
f:1,2,3,4 f.b {m} {f,c,a:2},{f,c,a,b:1} F,c,a:3 {m}
C,b,p {b} {f,c,a:1},{f:1},{c:1} {b}
F,c,a,m,p
c:1,2,3 c:1 {a} {f.c:3} F,c:3 {a}
{c} F:3 {c}
{f:3} {:1}
a:1,2,3 {f} f:4 {f}
{:4}
b:1 b:1 b:1
Se obtienen las combinaciones de Las reglas de asociación si consideramos
m:1,2 m:1 cada ítem con el conditional fp tree %confianza= 80% quedan:
El patrón queda: F,c,am:3/3
p:1,2 p:1 p <>: 0 F,cam:3/3
m <f,c,a.m>:3; fcam;fcam;fcam.. Fc,am:3/3
b <>:0 Fca:3/3
a <f,c,a>:3; fca;fca; Fca:3/4
c<f,c>:3fc fc:3/4

266

EJERCICIOS DE ASOCIACIONES

Una base de datos tiene 5 transacciones. Sea min sup = 60% y min conf = 80%.

T100 {M,O,N,K,E,Y}
(a) Encuentre todos los conjuntos de elementos frecuentes utilizando FP-
T200 {D,O,N,K,E,Y} growth, respectivamente. Compare la eficiencia de los dos procesos.
T300 {M,A,K,E}
T400 {M,U,C,K,Y}
(b) Enumere todas las reglas de asociación fuertes (con soporte s y
T500 {C,O,O,K,I,E} confianza c) que coincidan con las siguientes meta reglas, donde X es
una variable que representa a los clientes, y articuloi denota variables que
representan elementos (por ejemplo, "A", "B", etc.):

∀x ∈ transacción, compra (X, artículo1) ∧ compra (X, artículo2) ⇒ compra


(X, artículo3) [s, c]

267

104
18/04/2022

TAREA: GENERAR LAS REGLAS DE


ASOCIACIÓN POR FP-GROWTH
Tid Items
1 Zumo,limpiador Conteo Sopmin = 2 o sopmin=50%
2 Leche,zumo,limpiador Y confianza=70%
3 zumo, detergente
4 Zumo, detergente, gaseosa
5 Limpiador, gaseosa
6 Detergente, gaseosa
7 Zumo, detergente, gaseosa

270

Es importante recalcar en este caso que FP-growth es más


eficiente porque puede minar en los patrones condicionales
base, que pueden reducir sustancialmente los tamaños de
los conjuntos de datos a buscar.

Sin embargo, cuando se trabaja con pequeños conjuntos


de datos como el dado (especialmente cuando se trabaja
a mano) el científico de datos puede sentir que Apriori es
más "eficiente".

271

105
18/04/2022

ASOCIACIONES Y CORRELACIONES

Dada una tabla de contingencia.


Donde
soporte = aij/∑col,row
confianza = aij/ ∑row
confianza(AB)=P(A)P(-B) / P(A,-B)

Valores esperados son ∑col * ∑ row


∑col,row

Proporcione un breve ejemplo para mostrar que los elementos en


una regla de asociación fuerte pueden estar negativamente
correlacionados. NO USAR EL DE LAS NOTAS

272

ASOCIACIONES Y CORRELACIONES
EJEMPLO

Proporcione un breve ejemplo para mostrar que los elementos en una regla de
asociación fuerte pueden estar negativamente correlacionados.
A -A ∑row
B 65 35 100
-B 40 10 50
∑col 105 45 150
Considere la siguiente tabla:
Considere soporte mínimo= 40% y confianza mínima= 60%.

A⇒B es una regla fuerte porque satisface los valores mínimos de soporte con
s= 65/150 = 43.3% y confianza con c= 65/100 = 61.9%.

273

106
18/04/2022

A -A ∑row
B 65(70) 35(30) 100
-B 40(35) 10(15) 50
∑col 105 45 150

Ae=(100*105)/150=70; -Ae=(100*45)/150=30; Be=(50*105)/150=35;


-Be=(50*45)/150=15

X2= (65-70)2 + (35-30)2+ (40-35)2 + (10-15)2 = 3.57


70 30 35 15

Sin embargo, la correlación entre A y B es


corrA,B = P(A,B)/P(A)P(B); (65/150)/(105/150) (100/150)
corrA,B = 0.433/(0.700 × 0. 667) = 0.928,

que es menor que 1, lo que significa que la aparición de A está correlacionada


negativamente con ocurrencia de B.

274

EJERCICIOS DE ASOCIACIONES Y CORRELACIONES


RESPUESTA

La siguiente tabla de contingencia resume los datos de transacciones de


supermercado que se refieren a las ventas de hotdogs y hamburguesas, cuando
las transacciones no contienen hamburguesas o hotdogs, las palabras
presentan negación.

(a) Suponga que se extrae la regla de asociación "hotdogs ⇒ hamburgers".


Dado un mínimo soporte de 25% y una confianza mínima de 50%, ¿es robusta la
regla de asociación?
(b) Según los datos proporcionados, ¿la compra de hot dogs es independiente
de la compra de hamburguesas?Si no, ¿qué tipo de correlación existe entre las
dos?

275

107
18/04/2022

EJERCICIOS DE ASOCIACIONES Y CORRELACIONES


RESPUESTA

(a) ¿es robusta la regla de asociación "hotdogs ⇒ hamburgers“ ?.soporte de 25% y


confianza de 50%,
Para la regla, soporte = 2000/5000 = 40% y confianza = 2000/3000 = 66.7%. Por lo tanto,
la regla de asociación es robusta.

(b) ¿la compra de hotdogs es independiente de la compra de hamburguesas? Si no,


¿qué tipo de correlación existe entre los dos?

corr {hotdog; hamburger} = P ({hot dog, hamburger}) / (P ({hotdog}) P ({hamburger}))


= 0.4 / (0.5 × 0.6) = 1.33 > 1.
Entonces, la compra de hotdogs NO es independiente de la compra de
hamburguesas.
Existe una correlación POSITIVA entre los dos.

276

CLASIFICACIÓN
• Clasificación: conceptos básicos

• Inducción con árboles de decisión

• Métodos de clasificación bayesianos

• Clasificación basada en reglas

• Selección y evaluación del modelo

• Tecnicas para mejorar la precision/exactitud de la clasificación: Métodos


de ensamble

277

108
18/04/2022

CLASIFICACIÓN Y PREDICCIÓN NUMÉRICA

Predicción: Saber un valor en anticipación con base a un modelo ó


identificar tendencias de distribución con base en los datos disponibles. Dos
tipos de predicción:

Clasificación;
Predice etiquetas categóricas (discretas o nominales).
Clasifica datos (construye un modelo) con base en un conjunto de
entrenamiento y los valores (etiquetas de clase) en los atributos de
clasificación y las usa para clasificar nuevos datos.

La predicción numérica modela funciones de valores continuos, predice


valores numéricos faltantes o no disponibles. El análisis de regresión es el
más utilizado para predicción numérica, aunque no es el único, hay
literatura que usa el término regresión para indicar predicción numérica.

278

CLASIFICACIÓN Y PREDICCIÓN NUMÉRICA

● Tanto la clasificación como la predicción numérica necesitan ir


precedidos de un análisis de relevancia o lo que hemos visto
como selección de atributos, reducción de dimensiones, etc.
Que también se conoce como feature engineering .

279

109
18/04/2022

PROCESO DE CLASIFICACIÓN
•Construcción del modelo: describir un conjunto de predeterminadas clases
•Cada tupla/muestra se assume que pertenece a una clase predefinida, como lo indica
el atributo de etiqueta de clase
•El conjunto de tuplas usadas para el modelo de construcción es el conjunto
entrenamiento
•El modelo es representado como reglas de clasificación, arboles de decision o formulas
matemáticas
•Uso del modelo: para clasificar objetos futuros o desconocidos
•Estimar accuracy del modelo
•La etiqueta conocida de la muestra de prueba se compara con los resultados de
clasificación del modelo.
•Accuracy es el porcentaje de muestras de prueba que fueron correctamente
clasificados por el modelo
•Test set es independiente de la muestra de entrenamiento (de lo contrario se sobre
ajusta el modelo)
•Isi el accuracy es aceptable, se usa el modelo para clasificar nuevos datos
•Nota: Si el conjunto de prueba se usa para seleccionar modelos, se le llama conjunto de
validación

280

PASO 1: CONSTRUCCIÓN DEL MODELO


Algoritmos de
clasificación
Datos
Entrenamiento

NombreCategoria Años Titular Clasificador


Miguel Técnico Acad. 3 no (modelo)
Maria Técnico Acad. 7 si
Benito Profesor 2 si
Jose Técnico Acad. 7 si
IF Categoria = ‘Profesor’
David Técnico Acad. 6 no
Ana Técnico Acad. 3 no
OR Años > 6
THEN Titular = ‘si’

281

110
18/04/2022

PASO 2: USANDO EL MODELO PARA


PREDECIR

Clasificador

Datos Datos
Prueba desconocidos

(Jesus Profesor, 4)
NombreCategoria Años Titular
Tomas Técnico Acad 2 no ¿Titular?
Merlisa Profesor Asoc 7 no
Jorge Profesor 5 si
Jose Técnico Acad 7 si si

282

CLASIFICACIÓN

Los modelos de clasificación se presentan como:


Reglas de clasificación (if-then)
Arboles de decisión
Fórmulas matemáticas
Redes neuronales
Clasificación bayesiana
Máquinas de vectores de soporte
Vecinos mas cercanos

283

111
18/04/2022

CLASIFICACIÓN POR ÁRBOL DE DECISIÓN

● Método de aprendizaje supervisado.

● Es una representación del conocimiento relativamente simple.

● Es uno de los procedimientos más sencillos en su aprendizaje

● El aprendizaje de árboles de decisión suele ser más robusto


frente al ruido.

284

CLASIFICACIÓN

En un árbol de decisión:
Nodo denota una prueba sobre el valor de un atributo
Rama representa la salida de la prueba
Hojas representan las clases o distribuciones de clases.
Los árboles de decisión se pueden convertir a reglas de clasificación
fácilmente.

Una red neuronal cuando se usa para clasificación es una colección


de unidades de procesamiento con conexiones pesadas entre dichas
unidades (neuronas).

La clasificación predice etiquetas categóricas (discretas, sin orden).


La predicción modela funciones de valores continuos

285

112
18/04/2022

EJEMPLO DE CLASIFICACIÓN

● Suponga que un gerente de ventas de una tienda de ropa


desea clasificar un conjunto amplio de artículos en la
tienda en tres tipos de respuesta a una campaña
publicitaria: buena, leve, nula.
● Las características descriptivas de los artículos son: precio,
sucursal, departamento, tipo y categoría.
● Este es un ejemplo de clasificación porque no importa el
orden y desea obtener las características de cada clase
de respuesta.
● Si la clasificación se realiza por un árbol de decisión la raíz
corresponderá al atributo que mayormente distingue entre
las clases. Este árbol te puede ayudar a entender el
impacto de la campaña de ventas y diseñar una mejor
campaña para el futuro.

286

ALGORITMO PARA INDUCCIÓN ÁRBOL


DECISIÓN
• Algoritmo básico (algoritmo codicioso)
• El árbol es construido de forma recursiva con divide y vencerás
• Al inicio, todas las muestras de entrenamiento están a nivel raíz
• Los atributos son categóricos (si son valores continuos, se
discretizan antes)
• Las muestras se particionan recursivamente con base en atributos
seleccionados
• Los atributos de prueba son seleccionados con base heurística o
medición estadística (p.e. ganancia de información)
• Condiciones de paro de particionamiento
• Todas las muestras para un nodo dado pertenecen a la misma
clase
• Ya no hay atributos para particionamiento –para clasificar la hoja
se usa votación por mayoría
• Ya no quedan muestras

288

113
18/04/2022

RECORDEMOS CONCEPTO DE
ENTROPÍA
• Entropía (teoría de información Shannon)
• Medición de incertidumbre de una variable
• Calculo: Para una variable aleatoria discreta Y se toman m valores distintos
{Y1,…,Ym}; Sea pi la probabilidad de que una variable i pertenezca a una clase y.

• Interpretación
• Entropía alta  incertidumbre alta
• Entropía baja  incertidumbre baja
• Entropía condicional
m=2

289

Medición de la selección de atributos: Ganancia de


información (ID3)
 Selecciona el atributo con la mayor ganancia de información
 Sea pi la probabilidad de que una tupla arbitraria en D pertenezca a la clase Ci,= |Ci, D|/|D|
 Entropia de la muestra D:
Entropia(D) = − ∑ 𝑝 log ( 𝑝 )

 Entropia de cada atributo A: EntropiaA (𝐷) = ∑


| |
× 𝐸𝑛𝑡𝑟𝑜𝑝𝑖𝑎(𝐷 )
| |

 La ganancia de información de un conjunto de muestras D para un atributo A, es


la entropía de la muestra D menos la suma de todas las entropías de cada atributo
y sus correspondientes valores, se define como: 𝐺𝑎𝑛𝑎𝑛𝑐𝑖𝑎 𝐴 = 𝐸𝑛𝑡𝑟𝑜𝑝𝑖𝑎 𝐷 − 𝐸𝑛𝑡𝑟𝑜𝑝𝑖𝑎𝐴 (𝐷)
 o bien:
| |
𝐺𝑎𝑛𝑎𝑛𝑐𝑖𝑎 𝐴 = 𝐸𝑛𝑡𝑟𝑜𝑝𝑖𝑎 𝐷 − ∑ × 𝐸𝑛𝑡𝑟𝑜𝑝𝑖𝑎(𝐷 )
| |

290

114
18/04/2022

PSEUDOCÓDIGO ALGORITMO ID3


1. Calcular la entropía de la muestra Entropia(D) = − ∑ 𝑝 log ( 𝑝 )
2. Calcular la entropía de cada atributo Entropia (𝐷) = ∑ | | × 𝐸𝑛𝑡𝑟𝑜𝑝𝑖𝑎(𝐷 )
A | |
3. Calcular la ganancia de cada atributo
𝐺𝑎𝑛𝑎𝑛𝑐𝑖𝑎 𝐴 = 𝐸𝑛𝑡𝑟𝑜𝑝𝑖𝑎 𝐷 − 𝐸𝑛𝑡𝑟𝑜𝑝𝑖𝑎𝐴 (𝐷)

4. Seleccionar el atributo Ai que maximice la ganancia Ganancia(Ai).


5. Crear un nodo para ese atributo con tantos sucesores como valores
tenga.
6. Introducir los ejemplos en los sucesores según el valor que tenga el atributo Ai.

7. Por cada sucesor:

Si sólo hay ejemplos de una clase, Ck, entonces etiquetarlo con Ck.

Si no, llamar a ID3 con una tabla formada por los ejemplos de ese nodo,
eliminando la columna del atributo Ai.

291

EJERCICIO ID3

edad ingreso estudiante cal crediticia comp-compu Sea S la muestra de 14 clientes y su


<=30 alto no justo no condiciones para comprar computadora.
<=30 alto no excelente no Se desea obtener las reglas que
31…40 alto no justo si describan el patrón de compra.
>40 medio no justo si Variable objetivo, clase: comp_compu
>40 bajo si justo si
>40 bajo si excelente no
31…40 bajo si excelente si Obtener Entropia(D): 9 si, 5 no
<=30 medio no justo no Ganancia(edad)
<=30 bajo si justo si
>40 medio si justo si Ganancia(ingreso)
<=30 medio si excelente si Ganancia(cal_crediticia)
31…40 medio no excelente si
31…40 alto si justo si
>40 medio no excelente no Finalmente el árbol de decisión

292

115
18/04/2022

Comprar_pc tiene 9 si, 5 no de un total de 14 registros


Entropía(S) = -(9/14)*log2(9/14)-(5/14)*log2(5/14) = 0.940
Para el atributo edad,
pi: aquellas ocurrencias donde comprar_computadora es si.
ni aquellas ocurrencias donde comprar_computadora es no
edad pi ni E(pi, ni)
<=30 2 3 0.971
31…40 4 0 0
>40 3 2 0.971
edad,<=30; E(2,3) = -(2/5)*log2(2/5)-(3/5)*log2(3/5) = -(2/5)*-1.3219-(3/5)*-0.7369 =0.9709
30<edad,<=40; E(4,0) = -(4/4)*log2(4/4)-(0)*log2(0/4) = -(4/4)*0-(0)*0 =0
edad,<=30; E(3,2) = -(3/5)*log2(3/5)-(2/5)*log2(2/5) = -(3/5)*-.7369-(2/5)*-1.3219 =0.9709
Ganancia(S, edad) = E(S) – (5/14) * E(2,3) - (4/14)*E(4,0) – (5/14)* E(3,2)
= 0.940 – (5/14) *(0.9709) - (4/14) (0) – (5/14)* 0.9709)
= .940 - (.3571) *(0.9709) - (0.2857)* (0) – (.3571)* 0.9709)
= 940 - (.3467) - (0) – (.3467)
= 0.2466

293

Para el atributo ingreso

ingreso pi ni E(pi, ni)


alto 2 2 1
medio 4 2 0.9176
bajo 3 1 0.8112

ingreso,alto; E(2,2) = -(2/4)*log2(2/4)-(2/4)*log2(2/4) = -.5(-1)-.5(-1) =1


ingreso,medio; E(4,2) = -(4/6)*log2(4/6)-(2/6)*log2(2/6) = -.66(-.5849)-.33(-1.5849) = .9176
Ingreso,bajo; E(3,1) = -(3/4)*log2(3/4)-(1/4)*log2(1/4) = .75(-.4150)-.25(-2)= .81121

Ganancia(S, ingreso) = E(S) - (4/14) * E(2,2) - (6/14)*E(4,2) – (4/14)* E(3,1)


= 0.940 - (.2857)(1) - (.42851) (.9176) – (.2857)(.81121)
= 0.940 - (.2857) - (.3932)– (.23176)
= 0.0294

294

116
18/04/2022

Para el atributo estudiante

estudiante pi ni E(p i , n i)
no 3 4 1.255
si 6 1 0.2103

estudiante,no; E(3,4) = -(3/7)*log2(3/7)-(4/7)*log2(4/7) =(.42857)(-1.2223) - .5714(-


.80735)=1.2550
estudiante,si; E(6,1) = -(6/7)*log2(6/7)-(1/7)*log2(1/7) = (.7937)(.4613) – (-.1428)(-2.807)
= (.3661) – (.40083) = -.03473
Ganancia(S, estudiante) = E(S) - (7/14) * E(3,4) - (7/14)*E(6,1)
= 0.940 - (.5)(1.2550) - (.5) (-.03473)
= 0.940 – (.6275) – (-.01736) = 0.329
= 0.151

295

Para el atributo escala crediticia,


pi: aquellas ocurrencias donde comprar_computadora es si.
ni aquellas ocurrencias donde comprar_computadora es no

escala_crediticia pi ni E(p i, n i )
media 6 2 0.811
excelente 3 3 1

escala_crediticia= media; E(6,2) = -(6/8)*log2(6/8)-(2/8)*log2(2/8) = 0.811


escala_crediticia= excelente; E(3,3) = -(3/6)*log2(3/6)-(3/6)*log2(3/6) = 1.0

Ganancia(S, escala_crediticia) = E(S) - (8/14) * E(6,2) - (6/14)*E(3,3)


= 0.940 - (8/14)(0.811) - (6/14) (1.0)
= 0.048

296

117
18/04/2022

• Por lo tanto, la jerarquía de los atributos es la siguiente:

• Edad
• Estudiante
• Cal_crediticia

297

ÁRBOL DE DECISIÓN RESULTANTE

¿edad?

<=30 overcast
31..40 >40

¿estudiante? si ¿cal. crediticia?

no si excelente justo

no si si

298

118
18/04/2022

OBTENCIÓN DE REGLAS
Cualquier árbol de decisión se puede convertir en reglas de clasificación,
entendiendo como tal una estructura del tipo Si <Condición> Entonces
<Clase>.
El algoritmo de generación de reglas consiste básicamente en que
por cada rama del árbol de decisión, las preguntas y sus valores
estarán en la parte izquierda de las reglas
la etiqueta del nodo hoja correspondiente en la parte derecha
(clasificación).
Sin embargo, este procedimiento puede generar un sistema de reglas con
mayor complejidad de la necesaria. Se verá una mejora de este a través de
poda con el algoritmo C4.5

299

OBTENCIÓN DE REGLAS
Si edad<=30 y no es estudiante no compra pc
Si edad<30 y es estudiante si compra pc
Si edad es entre 31 y 40 si compra pc
¿edad?
Si edad es mayor de 40 y tiene crédito excelente  no compra pc
Si es mayor de 40 y tiene crédito justo  si compra pc
<=30 overcast
31..40 >40

¿estudiante? si ¿cal. crediticia?

no si excelente justo

no si si

300

119
18/04/2022

C4.5

El ID3 es capaz de tratar con atributos cuyos valores sean discretos o


continuos. En el primer caso, el árbol de decisión generado tendrá
tantas ramas como valores posibles tome el atributo. Si los valores del
atributo son continuos, el ID3 no clasifica correctamente los ejemplos
dados. Por ello, Quinlan [QUIN93] propuso el C4.5, como extensión del
ID3, que permite:

1. Empleo del concepto razón de ganancia (GR, [Gain Ratio])


2. Construir árboles de decisión cuando algunos de los ejemplos
presentan valores desconocidos para algunos de los atributos.
3. Trabajar con atributos que presenten valores continuos.
4. La poda de los árboles de decisión [QUIN87, QR89].

301

ATRIBUTOS Y C4.5
• Atributos de valores continuos: incorporar atributos con valores continuos, al
dividir estos valores en intervalos discretos, de forma que el atributo tendrá
siempre valores comprendidos en uno de estos intervalos.
• Medidas alternativas en la selección de atributos: Al utilizar la ganancia de
información estamos introduciendo involuntariamente un sesgo que
favorece a los atributos con muchos valores distintos. Una medida
alternativa que se ha usado con éxito es la "gain ratio".

302

120
18/04/2022

ATRIBUTOS EN C4.5
• Atributos con valores faltantes: Normalmente se fija la atención en los
demás ejemplos de ese mismo nodo. Así, al ejemplo de valor desconocido
se le da el valor que más aparezca en los demás ejemplos.

• Atributos con pesos diferentes: En algunas tareas de aprendizaje los


atributos pueden tener costos asociados. Por ejemplo, en una aplicación
médica para diagnosticar enfermedades podemos tener atributos como
temperatura, resultado de la biopsia, pulso, análisis de sangre, etc., que
varían significativamente en su coste, monetario y relativo a molestias para
el paciente. Ventajas respecto al algoritmo ID3

303

CÁLCULO DE GANANCIA DE INFORMACIÓN PARA


ATRIBUTOS CON VALORES CONTINUOS
• Sea el atributo A un atributo con valores continuos
• Se debe determinar el mejor punto de corte para A
• Ordenar los valores de A en orden creciente
• Típicamente, el punto medio entre cada par de valores adyacentes
se considera como un posible punto de corte
• (ai+ai+1)/2 es el punto medio entre los valores ai y ai+1
• El punto de corte seleccionado para A será aquel con el mínimo
requerimiento de información esperada para A
• Corte:
• D1 es el conjunto de tuplas en D que satisfacen A ≤ punto de corte,
y D2 es el conjunto de tuplas en D que satisfacen A > punto de corte

304

121
18/04/2022

MEDIDA DE SELECCION DE ATRIBUTOS:


RAZÓN DE GANANCIA (C4.5)
La medida de ganancia de información (en ID3) está sesgada hacia los atributos
con una gran cantidad de valores
C4.5 (el succesor de ID3) usa la razón de ganancia para solventar este problema
(normalización a la ganancia de información)
|𝐷 | |𝐷 |
𝑃𝑢𝑛𝑡𝑜𝑑𝑒𝑃𝑎𝑟𝑡𝑖𝑐𝑖𝑜𝑛 (𝐷) = − × log ( )
|𝐷| |𝐷|
Ej. Para ingreso tenemos:
ingreso pi ni 4 4 6 6 4 4
𝑃𝑢𝑛𝑡𝑜𝑑𝑒𝑃𝑎𝑟𝑡𝑖𝑐𝑖𝑜𝑛𝐴(𝑆) = − × log ( ) − × log ( ) − × log ( ) = 0.926
alto 2 2 14 14 14 14 14 14
medio 4 2
bajo 3 1 RazonGanancia(A) = Ganancia(A)/PuntodeParticion(A)

Ej. Para ingreso tenemos:


RazonGanancia(salario) = 0.029/0.926 = 0.031
El atributo con la máxima razón de ganancia es seleccionado como el atributo de
corte

305

ESTIMACIÓN DE LA PROPORCIÓN DE
ERRORES PARA LOS ÁRBOLES DE DECISIÓN

• El algoritmo C4.5 puede analizar los errores predichos en cada uno de los
subárboles y ramas del árbol generado para analizar si es conveniente
simplificarlo.
• Una vez podados, las hojas de los árboles de decisión generados por el C4.5
tendrán dos números asociados: N y E.
• N es la cantidad de casos de entrenamiento cubiertos por la hoja
• E es la cantidad de errores predichos si un conjunto de N nuevos casos fuera
clasificados por el árbol.

• La suma de los errores predichos en las hojas, dividido entre el número de


casos de entrenamiento, es un estimador inmediato del error de un árbol
podado sobre nuevos casos.

306

122
18/04/2022

ESTIMACIÓN DE LA PROPORCIÓN DE
ERRORES PARA LOS ÁRBOLES DE DECISIÓN

Calcular para un nivel de confianza CF, el límite superior de la razón de error


predicha, UCF(E,N)
– Para simplificar los cálculos, la estimación del error para las hojas y subárboles se
calculan suponiendo que se usa para clasificación un conjunto de casos no vistos
del mismo tamaño que el conjunto de entrenamiento.

– Así una hoja que cubra N casos de entrenamiento con una razón de error
predicha de UCF(E,N) tendría N x UCF(E,N) errores predichos
– El número de errores predichos asociados con un (sub)árbol es la suma de los
errores predichos de sus ramas

307

EJ. C4.5
Panorama Temperatura humedad
Tiene_
restaurante • Sea la base de datos de los atributos que
carro
contribuyen a que las personas acudan o no a
soleado 85 85 no no
comer a un restaurant. Obtener las reglas que
soleado 80 90 si no
reflejen este patrón de comportamiento.
nublado 83 78 no si
lluvioso 70 96 no si
lluvioso 68 80 no si
lluvioso 65 70 si no
nublado 64 65 si si
soleado 72 95 no no
soleado 69 70 no si
lluvioso 75 80 no si
soleado 75 70 si si
nublado 72 90 si si
nublado 81 75 no si
lluvioso 71 80 si no

308

123
18/04/2022

Tiene_
carro
restaurante
EJEMPLO C4.5,
no
si
no
no DATOS CONTINUOS
no si
1.- Entropía de la muestra:
no si
no si Entropia(D) = – p(Si) . log2p(Si) – p(No) . log2p(No) = – (9/14) . log2(9/14) –
si no (5/14) . log2(5/14) = 0.940
si si
no no
2. Calcular el punto de partición y la razón de ganancia por cada atributo:
no si PuntoParticíon(A) = -∑ |Dj|/|D| x log2|Dj|/|D|
no si
si si RazonGanancia(A) = Ganancia (A) / PuntoParticion(A)
si si
no si
si no
Atributo tiene_carro, posibles valores (8no, 6si )
Carro,no E(2,6) = – (2/8) . log2(2/8) – (6/8) . log2(6/8) = 0.811
Carro,si E(3,3)– (3/6) . log2(3/6) – (3/6) . log2(3/6) = 1
Ganancia (tiene_carro) = 0.940 – (8/14).(0.811) – (6/14).(1) = 0.940 – 0.463 – 0.428 = 0.049
PuntoParticion(tiene_carro) = -(8/14).log2(8/14) – (6/14).log2(6/14) = 0.461 + 0.524 = 0.985
RazonGanancia(tiene_carro) = 0.049 / 0.985 = 0.049

309

Atributo panorama posibles valores (5soleado, 4nublado, 5lluvioso)

Panorama restaurante
panorama,soleado E(3,2) = -(3/5).log2(3/5) – (2/5).log2(2/5) = 0.441 + 0.528 = 0.970

panorama,nublado E(0,4)= -(0/4).log2(0/4) – (4/4).log2(4/4) = 0


soleado no
humedad restaurante
soleado no Panorama,lluvioso E(2,3), -(2/5).log2(2/5) – (3/5).log2(3/5) = 0.528 + 0.441 = 0.970
65 Si
nublado si
Ganancia(panorama) = 0.940 – (5/14).(0.970) – (4/14).(0) – (5/14).(0.970) – (5/14).(0.970) = 0.246 70 No
lluvioso si
PuntoParticion(panorama) = -(5/14).log2(5/14) -(4/14).log2(4/14) -(5/14).log2(5/14) = 1.577 70 Si
lluvioso si
70 Si
lluvioso no RazonGanancia(panorama) = 0.246/1.577 = 0.155
nublado si 75 Si
Atributo humedad atributo CONTINUO 78 Si
soleado no
soleado si Convertir valores continuos a valores nominales. C4.5 propone realizar una división binaria 80 Si

lluvioso si basada en un valor umbral. El umbral debe ser un valor que ofrezca la ganancia máxima para 80 Si
ese atributo. Centrémonos en el atributo de humedad. En primer lugar, debemos clasificar los
soleado si valores de humedad de menor a mayor. 80 No
nublado si 85 No
Ahora, necesitamos iterar en todos los valores de humedad y separar el conjunto de datos en
nublado si
dos partes como instancias menores o iguales al valor actual, e instancias mayores que el valor 90 No
lluvioso no actual. Calcularíamos la ganancia o la razón de ganancia para cada paso. En nuestro caso 90 Si
usaremos el valor que maximiza la ganancia para el umbral.
95 No
Humedad<= 65 1si, 0no ; humedad >6 5 5no, 8si 96 si

310

124
18/04/2022

…..
Resumen de resultados para humedad:

Ganancia (Humedad <> 78) = 0.090,


Evaluar 65 como posible umbral para humedad RazónGanancia (Humedad <> 78) = 0.090
Humedad<= 65 1si, 0no ; humedad >6 5 5no, 8si Ganancia (humedad <> 80) = 0.101
Entropia(humedad<=65) = -(0/1).log2(0/1) – (1/1).log2(1/1) = 0 RazonGanancia (humedad <> 80) = 0.107
Entropia(humedad>65) = -(5/13).log2(5/13) – (8/13).log2(8/13) =0.530 + 0.431 = 0.961 Ganancia (Humedad <> 85) = 0.024,
Ganancia(humedad<> 65) = 0.940 – (1/14).0 – (13/14).(0.961) = 0.048 RazonGanancia (Humedad <> 85) = 0.027
Lo anterior serían las ganancias proporcionadas por cada rama del árbol para los Ganancia (Humedad <> 90) = 0.010,
rangos de humedad
PuntoParticion(humedad<> 65) = -(1/14).log2(1/14) -(13/14).log2(13/14) = 0.371
RazonGanancia (Humedad <> 90) = 0.016
RazonGanancia(humedad<> 65) = 0.126 Ganancia (Humedad <> 95) = 0.048,
Evaluar 70 como umbral de humedad RazonGanancia (Humedad <> 95) = 0.128
Entropía (Humedad <= 70) = - (1/4) .log2 (1/4) - (3/4) .log2 (3/4) = 0.811
Entropía (Humedad> 70) = - (4/10) .log2 (4/10) - (6/10) .log2 (6/10) = 0.970
Ganancia (Humedad <> 70) = 0.940 - (4/14). (0.811) - (10/14). (0.970) = 0.940 - 0.231 -
0.692 = 0.014
PuntoParticion (Humedad <> 70) = - (4/14) .log2 (4/14) - (10/14) .log2 (10/14) = 0.863
RazonGanancia(Humedad <> 70) = 0.016
Evaluar 75 como umbral de humedad
Entropía (Humedad <= 75) = - (1/5) .log2 (1/5) - (4/5) .log2 (4/5) = 0.721
Entropía (Humedad> 75) = - (4/9) .log2 (4/9) - (5/9) .log2 (5/9) = 0.991
Ganancia (Humedad <> 75) = 0.940 - (5/14). (0.721) - (9/14). (0.991) = 0.940 - 0.2575 -
0.637 = 0.045
PuntoParticion(Humedad <> 75) = - (5/14) .log2 (4/14) - (9/14) .log2 (10/14) = 0.940
RazonGanancia(Humedad <> 75) = 0.047
……….

311

Temperatura restaurante

• Temperatura también es continua. Cuando se aplica la 64 si


65 no
división binaria a la temperatura para todos los puntos de 68 si
división posibles, la siguiente regla de decisión maximiza tanto 69 si
la ganancia como la Razón de ganancia. 70 si
71 no
Ganancia (Temperatura <> 83) = 0.113, 72 no
72 si
Razón de Ganancia (Temperatura <> 83) = 0.305 75 si
75 si
80 no
81 si
83 si
85 no

312

125
18/04/2022

RESUMIENDO LA GANANCIA Y LAS


RAZONES DE GANANCIA:
Razón
Atributo Ganancia
En este punto se tiene la opción de usar la razón de Ganancia
ganancia o la ganancia para seleccionar el atributo. Tiene_carro 0.049 0.049
Por lo tanto se tienen dos casos:
Panorama 0.246 0.155
1.-Uso razón de ganancia selecciona temperatura
Humedad <> 80 0.101 0.107

2.- Uso ganancia selecciona panorama Temperatura <>


0.113 0.305
83

LO CUAL NOS LLEVA A ARBOLES


DIFERENTES

313

CASO 1 RAZÓN DE GANANCIA


• Se toma aquel atributo con razón de ganancia máxima.

• Tarea: escoger temperatura como nodo raíz y desarrolle considerando razón de


ganancia tanto para nominales como para continuos

314

126
18/04/2022

CASO 2, GANANCIA
• Si consideramos ganancia para la selección de atributos en este caso,
panorama sería la raíz del árbol.
• Posteriormente, la ganancia se maximiza cuando el umbral es igual a 80 en
el atributo humedad. Esto significa que necesitamos comparar otros
atributos nominales y la comparación de la humedad con 80 para crear
una rama en nuestro árbol.

316

CASO 2, GANANCIA
• Tomando panorama como raíz, se toman sus valores y se calculan las
razones de ganancia para los demás atributos:
• Dividiendo conforme a humedad > 80, y humedad >= 80.
Sorprendentemente, las decisiones no serían válidas si la humedad es mayor
de 80 cuando las perspectivas son soleadas. Del mismo modo, la decisión
sería afirmativa si la humedad es menor o igual a 80 para una perspectiva
soleada.
Temperatur
trx panorama Hum. > 80 Tiene_carro restaurante
a

1 soleado 85 Si No No

2 soleado 80 Si si No

8 soleado 72 Si No No

9 soleado 69 Si No Si

11 soleado 75 si si si

317

127
18/04/2022

trx panorama Temp Hum. > 80 Tiene_carro restaurante CASO 2, GANANCIA


3 nublado 83 No No si

7 Nublado 64 No Si si
panorama = nublado, no importa la temperatura, la
humedad o si se tiene carro, la decisión siempre
si
12 Nublado 72 si Si será afirmativa.
si
13 nublado 81 No no

Panorama= lluvioso. Como se ve, la decisión sería sí


trx panorama Temp Hum. > 80 Tiene_carro restaurante
acudir a restaurante cuando no se tiene carro y sería
4 lluvioso 70 si No si no ir a restaurante si se tiene carro.
5 Lluvioso 68 No No si

6 Lluvioso 65 No Si No

10 Lluvioso 75 No No si

14 lluvioso 71 No Si No

318

• Árbol generado CASO 2, GANANCIA


• Reglas:
Si el panorama es soleado, la humedad > 80 entonces no vamos al restaurante
Si el panorama es soleado y la humedad <=80 entonces si vamos a al restaurante
Si el panorama es nublado, entonces si vamos al restaurante
Si el panorama es lluvioso, tenemos carro entonces no vamos al restaurante
Si el panorama es lluvioso y no tenemos carro entonces si vamos al restaurante

319

128
18/04/2022

MANEJO DE DATOS FALTANTES


• Supongamos que tenemos la siguiente fuente
de datos.
Panorama Humedad Viento Juego tenis • En este caso, la distribución de datos para el
¿
Soleado
Alta
Alta
Leve
Fuerte
No
No
atributo panorama es:
Desconocido Soleado Nublado Lluvia
Nublado Alta Leve Si
No 1 2 0 1
Lluvia Alta Leve Si
Lluvia Normal Leve Si
Si 0 2 4 4
Lluvia Normal Fuerte No Totales 1 4 4 5
Nublado Normal Fuerte Si • Dado que tenemos atributos con valores
Soleado Alta Leve No faltantes tenemos varias opciones:
Soleado Normal Leve Si

Lluvia Normal Leve Si


• A) Completar como parte de
Soleado Normal Fuerte Si preprocesamiento (media,moda, etc.)
Nublado Alta Fuerte Si
• B) ignorar los ejemplos de la muestra con
Nublado Normal Leve Si
faltantes. Calcular considerando 13 ejemplos
Lluvia Alta Fuerte Si

320

FALTANTES: CASO B
1.- Entropía del conjunto. Recordemos que, no debemos tener en cuenta los atributos
desconocidos. Entonces, trabajamos sobre un total de 13 casos, de los cuales 3 son
positivos. Tendremos,

2.- Entropía que tendrían los conjuntos resultantes de la división de datos según este
atributo.

3.- Ganancia resultante de dividir al subconjunto según el atributo panorama,


tendremos: Ganancia(panorama)=(13/14)(0.7793-0.58536)=0.180

4.- Punto de partición, debemos tener en cuenta una categoría extra para el
valor desconocido para el atributo.

Finalmente la razón de ganancia:


RazonGanancia(panorama)= 0.18/1.83=0.98

321

129
18/04/2022

FALTANTES: CASO B
Calculando ganancias y razones de ganancia para humedad, viento y comparando
Ganancia(humedad)=0.0746702
RazonGanancia(humedad) =0.0746702
Ganancia(viento)=0.00597769
RazónGanancia(viento) =0.0060687
Ganancia(panorama)=0.180
RazonGanancia(panorama)= 0.98

En este caso, el atributo panorama es seleccionado, tanto si se considera ganancia


como si se considera razón de ganancia.

322

FALTANTES: CASO B
• Al dividir los 14 casos para continuar con la construcción del árbol, los
13 casos para los que el valor de panorama es conocido, no
presentan problemas y se reparten según el valor de Panorama.

• Mientras que el caso en que no se conoce el valor de panorama, se


reparte entre los conjuntos que tienen Soleado, Nublado y Lluvia con
los pesos 4/13, 4/13 y 5/13 respectivamente.
Juego Panorama Humedad Viento Juego Peso Panorama Humedad Viento
Juego
Peso
Panorama Humedad Viento Peso tenis
tenis tenis
? Alta Leve No 5/13
? 4/13 ¿ Alta Leve No 4-13
Lluvia Alta Leve Si 1
Soleado Alta Fuerte No 1 Nublado Alta Leve Si 1
Lluvia Normal Leve Si 1
Soleado Alta Leve No 1 Nublado Normal Fuerte Si 1 Lluvia Normal Fuerte No 1
Soleado Normal Leve Si 1 Nublado Alta Fuerte Si 1 Lluvia Normal Leve Si 1

Soleado Normal Fuerte Si 1 Nublado Normal Leve Si 1 Lluvia Alta Fuerte Si 1

323

130
18/04/2022

FALTANTES: CASO B
Considerando el atributo panorama = nublado y humedad, la distribución de los datos
sería:
Panorama Humedad Viento Juego Peso Desconocido Alta Normal
tenis No 0 0.3 0
¿ Alta Leve No 4/13
Si 0 2 2
Nublado Alta Leve Si 1 Totales 0 2.3 2
Nublado Normal Fuerte Si 1
Nublado Alta Fuerte Si 1
Nublado Normal Leve Si 1 Con estos datos obtenemos para la Humedad los
siguientes valores:
Ganancia(humedad) =0.068 RazonGanancia(humedad= =0.068
Calculando ganancia y razón de ganancia para viento se tiene:
Ganancia(viento)=0.068 bits RazonGanancia(viento) =0.068 bits
En este caso, vemos que la división del conjunto de datos para panorama nublado
con viento y humedad no ofrece ninguna mejora, por lo tanto, ya no se expande esa
rama, se colapsa el árbol a la hoja Si, que es la que mayor peso tiene.

324

La figura muestra un
esquema de todos los
pasos para la construcción
del árbol de decisión en
este caso.
325

131
18/04/2022

CALCULO DE ERROR
C4.5 puede analizar los errores predichos en cada uno de los subárboles y ramas del árbol
generado para analizar si es conveniente simplificarlo. En nuestro caso, dado que no se
colapsó una rama, se debe calcular el error, consideramos un nivel de confianza de 25%.
Se debe tener en cuenta:
• La cantidad de casos cubiertos por la hoja en el caso de Panorama =nublado y
humedad sería N=1+1+1+1+(4/13); N=4.3
• la cantidad de casos cubiertos incorrectamente, es decir el error asociado a la hoja
derivado del valor desconocido. En el caso de Panorama =nublado y humedad sería
E=0.3.
• El límite superior de la razón de error predicha, UCF(E,N), nivel de confianza obtenido por
estadística, como x2
• Una hoja que cubra N casos de entrenamiento con una razón de error predicha de
UCF(E,N) tendría N x UCF(E,N) errores predichos
• El número de errores predichos asociados con un (sub)árbol es la suma de los errores
predichos de sus ramas

326

La figura muestra los valores de N y E


para el cálculo del error.
• Panorama = Nublado: Si (4.3/0.3)
• Panorama = Lluvia: Si (5.4/1.4)
• Panorama = Soleado:
• Humedad = Alta: No (2.3)
• Humedad = Normal: Si (2.0)
327

132
18/04/2022

CALCULO DE ERROR

El error total predicho para el árbol estará dado por

ErrorPredicho(árbol) = 4.3*Ucf(0.3,4.3)+5.4*Ucf(1.4,5.4)+2.3* Ucf(0.2.3)+2*(Ucf(0,2)

Ahora, calculamos el error total predicho de simplificar el árbol por la hoja “Si”:
ErrorPredicho(árbol_simplificado) = 14*Ucf(4,14)=5.76

El error predicho para el árbol simplificado es menor que el error predicho para el
árbol generado.

328

• El algoritmo C4.5 resuelve la mayoría de los problemas en ID3.


• El algoritmo usa razón de ganancia en lugar de ganancias. De esta manera,
crea árboles más generalizados y no cae en el sobreajuste.
• Además, el algoritmo transforma los atributos continuos en valores
nominales basados en la maximización de ganancia
• Además, puede ignorar instancias que incluyen datos faltantes y manejar
conjuntos de datos faltantes.
• Por otro lado, tanto ID3 como C4.5 requieren una alta demanda de CPU y
memoria.

329

133
18/04/2022

COMPARANDO MEDICIONES DE SELECCIÓN DE ATRIBUTOS


• Las tres mediciones, en general, regresan buenos resultados. Sin
embargo,
• Ganancia de información:
• Sesgada con respecto a atributos con multiples valores
• Razón de ganancia:
• Tiende a preferer cortes desbalanceados en el cual una partición es mucho mas
pequeña que las otras
• Indice Gini:
• Sesgado para atributos con multiples valores
• Tiene dificultad cuando el número de clases es grande
• Tiende a favorecer pruebas que resultan en particiones de igual tamaño y purifica en
ambas particiones

332

332

OTRAS MEDICIONES PARA


SELECCIÓN DE ATRIBUTOS
• CHAID: un algoritmo popular de árboles de decisión, con medición basada en
prueba χ2 para checar independencia

• C-SEP: su rendimiento es major que la ganancia de información y el indice gini en


ciertos casos

• G-statistic: tiene una aproximación cercana a la distribución χ2

• MDL (Minimal Description Length) principle (p.e. se prefiere la solución mas simple):
• El mejor árbol será aquel que requerirá el mayor número de bits para (1)
codificar el árbol y (2) codificar las excepciones del árbol

• Cortes multivariados (partición basada en combinaciones de múltiples variables)


• CART: encuentra cortes multivariados con base en una combinación lineal de
atributos

• ¿Cuál selección de atributos es la mejor?


• La mayoría da buenos resultados, ninguno es significativamente mejor que otro

333

333

134
18/04/2022

SOBREAJUSTE Y PODADO DE ÁRBOL

• Sobreajuste: Un árbol inducido puede sobreajustarse a los datos de


entrenamiento
• Muchas ramas, algunas pueden reflejar anomalías derivadas de
ruido o outliers
• Bajo rendimiento para muestras no conocidas
• Existe dos formas de evitar sobreajuste
• Prepodado: Detener tempranamente la construcción del árbol –
no parte un nodo si este puede resultar en que una buena
medición caiga por debajo de un umbral
• Dificultad para escoger un umbral que sea apropiado
• Postpodado: Remover las ramas de un árbol completo –obtener
una secuencia de arboles progresivamente podados
• Usar un conjunto de datos diferente a aquel del entrenamiento para decidir cual es
el mejor podado
334

334

PSEUDOCÓDIGO DE PODADO EN C4.5


Podar (raíz) {
Si raíz No es HOJA Entonces
Para cada hijo H de raíz Hacer
Podar (H)
Obtener Brazo más largo (B) de raíz // raising
ErrorBrazo = EstimarErrorArbol (B, raí[Link])
ErrorHoja = EstimarError (raíz, raí[Link]) // replacement
ErrorÁrbol = EstimarErrorArbol (raíz, raí[Link])
Si ErrorHoja <= ErrorÁrbol Entonces // replacement
raíz es Hoja
Fin Poda
Si ErrorBrazo <= ErrorÁrbol Entonces // raising
raíz = B
Podar (raíz) }
EstimarErrorArbol (raíz, ejemplos) {
Si raíz es HOJA Entonces
EstimarError (raíz, ejemplos)
Si no
Distribuir los ejemplos (ej[]) en los brazos
Para cada brazo (B)
error = error + EstimarErrorArbol (B, ej[B])

}
335

135
18/04/2022

OBTENCIÓN DE REGLAS
Cualquier árbol de decisión se puede convertir en reglas de clasificación,
entendiendo como tal una estructura del tipo Si <Condición> Entonces
<Clase>.
El algoritmo de generación de reglas consiste básicamente en que
por cada rama del árbol de decisión, las preguntas y sus valores
estarán en la parte izquierda de las reglas
la etiqueta del nodo hoja correspondiente en la parte derecha
(clasificación).
Sin embargo, este procedimiento generaría un sistema de reglas con mayor
complejidad de la necesaria. Por ello, el sistema C4.5 [QUIN93] realiza un
podado de las reglas obtenidas. En la siguiente figura se muestra el algoritmo
completo de obtención de reglas.

336

OBTENCIÓN REGLAS C4.5


• ObtenerReglas (árbol) {
• Convertir el árbol de decisión (árbol) a un conjunto de
reglas, R error = error de clasificación con R
• Para cada regla Ri de R Hacer
• Para cada precondición pj de Ri Hacer nuevoError
= error al eliminar pj de Ri Si nuevoError <=
error Entonces
• Eliminar pj de Ri error = nuevoError
• Si Ri no tiene precondiciones Entonces
Eliminar Ri
• }

337

136
18/04/2022

MEJORAS A ÁRBOLES DE DECISIÓN BÁSICOS


• Permitir atributos con valores continuos
• Definir dinámicamente atributos con valores discretos que
particionen los valores continuos en un conjunto discreto de
intervalos
• Manejo de valores faltantes en los atributos
• Asignar el valor más común
• Asignar probabilidad a cada uno de los valores posibles
• Construcción de atributos
• Crear nuevos atributos que están escasamente representados
con base en los existentes
• Esto reduce fragmentación, repetición y replicación

338

CLASIFICACIÓN BASADA EN REGLAS

343

137
18/04/2022

USO DE REGLAS TIPO IF-THEN


PARA CLASIFICACIÓN
• Representar el conocimiento como reglas de forma IF-THEN
R: Si edad = joven AND estudiante = si THEN compra_computadora = si
• Evaluación de una regla: covertura (coverage) y exactitud (accuracy )
• ncovers = # de tuplas cubiertaspor R
• ncorrect = # of tuplas correctamente clasificadas por R
coverage(R) = ncovers /|S| /* S: datos de entrenamiento*/
accuracy(R) = ncorrect / ncovers
• Si mas de una regla es disparada, se necesita resolución de conflictos
• Ordenamiento por tamaño: Asignar la mas alta prioridad a las reglas disparadas que
tienen el requerimiento mas “dificil” (toughest) (p.e., aquella con mas atributos)
• Ordenamiento basado en clases: p.e. Orden decreciente de costos o por mala
clasificación
• Ordenamiento basado en reglas (lista de decisión): las reglas son organizadas en
una lista grande de prioridades, de acuerdo a algunas mediciones de calidad de
reglas o bien por expertos

344

EXTRACCIÓN DE REGLAS A
PARTIR DE UN ÁRBOL DE DECISIÓN
¿edad?
Las reglas son mas fáciles de entender que los árboles grandes
<=30 31..40 >40
Una regla es creada por cada ruta a partir de la raiz hacia la
estudiante? Rango_crediticio?
hoja si

no yes excelente medio


Cada par de valores de atributo a lo largo de una ruta forman
no si si
una conjunción: la hoja contiene la predicción de la clase
Las reglas son mutuamente exclusivas y exhaustivas
Ejemplo: Suponiendo que se establecen categorías con base a los rangos obtenidos en el
ejemplo anterior, la extracción de reglas a partir del árbol de decisión compra
computadora quedaría así:
IF edad = joven AND estudiante = no THEN compra_computadora = no
IF edad = joven AND estudiante = si THEN compra_computadora = si
IF edad = media THEN compra_computadora = si
IF edad = vieja AND rango_crediticio = excelente THEN compra_computadora = si
IF edad = joven AND rango_crediticio = media THEN compra_computadora = no
345

138
18/04/2022

TEOREMA DE BAYES

355

APRENDIZAJE SUPERVISADO
PREDICTIVO: CLASIFICACIÓN
PROBABILÍSTICA POR NAIVE BAYES
• Los métodos bayesianos se llaman eager learners, porque cuando se le da
un conjunto de entrenamiento, ellos analizan inmediatamente a los datos y
construyen un modelo.

• Cuando se requiere clasificar a una instancia utilizan este modelo interno.


Por tanto, los eager learners tienden a clasificar los casos más rápidamente
que los lazy learners.

• La capacidad de hacer clasificaciones probabilísticas, y el hecho de que


son eager learners son dos ventajas de los métodos bayesianos.

356

139
18/04/2022

PROBABILIDAD, NAIVE BAYES


Esta sección asume un conocimiento básico de probabilidad. Es decir, puede
responder a preguntas como:
Si se lanza una moneda una moneda al aire; ¿Cuál es la probabilidad de que caigan
“caras”?
Si lanzo un dado equilibrado, ¿cuál es la probabilidad de que caiga un '1’?
Si se escoge al azar a un joven de 19 años de edad ¿Cuál es la probabilidad de esa
persona sea mujer?.
Sin hacer ninguna investigación, podría decir el 50%.
Todos estos ejemplos son llamados probabilidad a priori y se denota P (h): la
probabilidad de la hipótesis h.
Caso de la moneda: P(caras) = 0.5
Caso del dado: P(1) = 1/6
Caso de la persona: P(mujer) = 0.5

357

MARCO TEÓRICO: TEOREMA DE BAYES


El teorema de Bayes se utiliza para revisar probabilidades previamente
calculadas cuando se posee nueva información. En otras palabras el
teorema permite inferir la probabilidad de un suceso con base en el
conocimiento que se tiene de sucesos relacionados.

358

140
18/04/2022

EJERCICIO NAIVE BAYES


¿Cuál es la probabilidad de que una persona seleccionada
al azar use un iPhone?

¿Cuál es la probabilidad de que una persona tenga un


iphone dado usa una laptop Mac?
P(iPhone | mac) = P(mac∩iPhone)
P(mac)
Primero, hay 4 personas que usan ambos, Mac y iPhone:
P(mac∩iPhone) = 4/10 = 0.4
Y la probabilidad de que una persona al azar use una mac
es:P(mac) = 6/10= 0.6

Entonces, la probabilidad de que alguna persona use un


iPhone, dado que esa persona usa una Mac es:
P(iPhone | mac) = 0.4/0.6 = 0.667

359

EJERCICIO:
• ¿Cuál es la probabilidad de que una persona que tenga una
mac, dado que esa persona tiene un iPhone?

361

141
18/04/2022

EJERCICIO:
¿Cuál es la probabilidad de que una persona que tenga
una mac, dado que esa persona tiene un iPhone?

P(mac|iPhone)?
P(mac | iPhone) = P(iPhone∩mac)
P(iPhone)
= 0.4/0.5
= 0.8

362

DETERMINAR SI UN PACIENTE TIENE


CÁNCER POR NAIVE BAYES
• Sabemos que sólo el 0.8% de las personas en los Estados Unidos
tienen esta forma de cáncer.
• La prueba presente un resultado binario, es decir da POS o NEG.
• Cuando la enfermedad está presente la prueba devuelve un
resultado correcto POS en el 98% de las veces, o devuelve un
resultado correcto NEG el 97% del tiempo en los casos cuando
la enfermedad no está presente.

Hipótesis: El paciente tiene un tipo de


cáncer en particular o bien, El paciente no
tiene ningún tipo de cáncer.

363

142
18/04/2022

Nuestra hipótesis:
El paciente tiene cáncer
Primero debemos obtener las probabilidades correspondientes:

364

CÁLCULO DE PROBABILIDADES

365

143
18/04/2022

Suponga que Bertha fue al doctor, le hicieron una prueba de sangre para saber
si tenía cáncer. Y ésta arrojo un resultado Positivo (POS).
Dado que la prueba es 98% efectiva. Use el Teorema de Bayes para determinar
que tan probable es que Bertha tenga cáncer.
Recuerde que:
P(cancer) = 0.008
P(¬cancer) = 0.992
P(POS|cancer) = 0.98
P(POS|¬cancer) = 0.03
P(NEG|cancer) = 0.02
P(NEG|¬cancer) = 0.97

366

BUSCANDO LA MÁXIMA
PROBABILIDAD A POSTERIORI:
P(cancer) P(POS | cancer) = (.008) .98= .0078
P(POS | ¬ cancer) P(¬ cancer) = .03(.992) = .0298

Si queremos saber la probabilidad exacta, podemos normalizar estos valores haciéndolos que
sumen 1:
P(cáncer | POS) = P(cancer) P(POS | cancer)_______________
P(cancer) P(POS | cancer) + P(¬ cancer) P(POS | ¬ cancer)
P(cancer | POS) = 0.0078__________
0.0078 + 0.0298 ; = 0.21
Bertha tiene un 21% de probabilidad de tener cáncer.

367

144
18/04/2022

EJERCICIO
• Dada la siguiente tabla que representa condiciones para decidir si ir a ver
una película. Determine por Teorema de Bayes, si habrá asistencia a una
película si ésta es de estreno o de cartelera y el clima es frio.

368

CLASIFICADOR NAÏVE BAYES: CONJUNTO


ENTRENAMIENTO

Clases: edad ingresoestudiante cal crediticia comp-compu


<=30 alto no justo no
C1:comp_compu= ‘si’ <=30 alto no excelente no
C2: comp_compu = ‘no’ 31…40 alto no justo si
>40 medio no justo si
>40 bajo si justo si
Datos a ser clasificados: >40 bajo si excelente no
X = (edad <=30, 31…40 bajo si excelente si
<=30 medio no justo no
Ingreso= medio, <=30 bajo si justo si
estudiante= si >40 medio si justo si
<=30 medio si excelente si
Cal_crediticia = justo)
31…40 medio no excelente si
31…40 alto si justo si
>40 medio no excelente no

369

145
18/04/2022

EJEMPLO
edad ingresoestudiantecal crediticia comp-compu
• P(Ci): P(comp_compu = “si”) = 9/14 = 0.643 <=30 alto no justo no
P(comp_compu = “no”) = 5/14= 0.357 <=30 alto no excelente no
31…40 alto no justo si
• Compute P(X|Ci) para cada clase
>40 medio no justo si
P(edad = “<=30” | comp_compu = “si”) = 2/9 = 0.222 >40 bajo si justo si
P(edad = “<= 30” | comp_compu = “no”) = 3/5 = 0.6 >40 bajo si excelente no
P(ingreso = “medio” |comp_compu = “si”) = 4/9 = 0.444 31…40 bajo si excelente si
P(ingreso = “medio| comp_compu = “no”) = 2/5 = 0.4 <=30 medio no justo no
P(estudiante = “si” | comp_compu= “si) = 6/9 = 0.667 <=30 bajo si justo si
P(estudiante = “si” | comp_compu = “no”) = 1/5 = 0.2 >40 medio si justo si
P(cal_crediticia = “justo” | comp_compu= “si”) = 6/9 = 0.667 <=30 medio si excelente si
P(cal_crediticia= “justo” | comp_compu = “no”) = 2/5 = 0.4 31…40 medio no excelente si
• X = (edad <= 30 , ingreso = medio, estudiante = si, cal_crediticia = justo) 31…40 alto si justo si
>40 medio no excelente no
P(X|Ci) : P(X|comp_compu = “si”) = 0.222 x 0.444 x 0.667 x 0.667 = 0.044
P(X|comp_compu = “no”) = 0.6 x 0.4 x 0.2 x 0.4 = 0.019
P(X|Ci)*P(Ci) : P(X|comp_compu = “yes”) * P(comp_compu = “si”) = 0.044*0.643=0.028
P(X|comp_compu = “no”) * P(comp_compu = “no”) = 0.019*0.357=0.007
Entonces, X pertenece a la clase (“comp_compu= si”)
370

EVITANDO EL PROBLEMA DE LA
PROBABILIDAD CERO
La predicción por Naïve Bayes require que cada probabilidad
condicional sea diferente de cero. De otra forma, la probabilidad
predicha sería cero.
n
P ( X | C i)   P ( x k | C i)
k 1
Por ejemplo, suponga una fuente de datos con 1000 tuplas, ingreso=bajo
(0), ingreso= medio (990), ingreso = alto (10)
Se puede usar una corrección de Laplace (o estimador Laplaciano)
Agregando 1 a cada caso
Prob(ingreso = bajo) = 1/1003
Prob(ingreso = medio) = 991/1003
Prob(ingreso = alto) = 11/1003

Las probabilidades estimadas corregidas son parecidas a sus


contrapartes no corregidas

371

146
18/04/2022

CLASIFICADOR NAÏVE BAYES: VENTAJAS Y


DESVENTAJAS
• Ventajas
• Facil de implementar
• Se obtienen Buenos resultados en la mayoria de los casos
• Desventajas
• Asunción: independencia condicional de clase, por lo tanto,
pérdida de precisión
• En la práctica, existen dependencias entre las variables
• P.e. hospitales en pacientes, pacientes en edad, historial familiar, etc.
• Las dependencias entre las clases no pueden ser modeladas por el
clasificador bayesiano
• ¿Cómo se puede lidiar con estas dependencias? Redes de
creencias bayesianas.

372

CLASIFICACIÓN BASADA EN REGLAS

373

147
18/04/2022

USO DE REGLAS PARA CLASIFICACIÓN


• Representación de conocimiento en la forma de reglas IF-THEN
• R: IF edad = joven AND estudent = si THEN compra_compu = si

• Evaluación de una regla: coverage y accuracy


• ncovers = # de tplas cubiertas por la regla R
• ncorrect = # de tuplas correctamente clasificadas por la regla R
coverage(R) = ncovers /|D| /* D: conjunto de entrenamiento*/
accuracy(R) = ncorrect / ncovers
• Si mas de una regla se active/dispara se require resolución de conflictos.
• Ordenamiento por tamaño: se asigna la mayor prioridad a la regla que
tiene mas condiciones acumplir, es decir mayor número de atributos a
probar.
• Ordenamiento con base en clases: se ordena decrecientemente
conforme a prevalencia o costo de clasificación errónea por clase
• Ordenamiento basado en regla(lista de decisión): las reglas se organizan
en una larga lista de prioridades, de acuerdo a alguna medición que
evalúe la regla o por un experto
374

374

EXTRACCIÓN DE REGLAS A
PARTIR DE UN ÁRBOL DE DECISIÓN
¿edad?
Las reglas son mas fáciles de entender que los árboles grandes
<=30 31..40 >40
Una regla es creada por cada ruta a partir de la raiz hacia la
estudiante? Rango_crediticio?
hoja si

no yes excelente medio


Cada par de valores de atributo a lo largo de una ruta forman
no si si
una conjunción: la hoja contiene la predicción de la clase
Las reglas son mutuamente exclusivas y exhaustivas
Ejemplo: Suponiendo que se establecen categorías con base a los rangos obtenidos en el
ejemplo anterior, la extracción de reglas a partir del árbol de decisión compra
computadora quedaría así:
IF edad = joven AND estudiante = no THEN compra_computadora = no
IF edad = joven AND estudiante = si THEN compra_computadora = si
IF edad = media THEN compra_computadora = si
IF edad = vieja AND rango_crediticio = excelente THEN compra_computadora = si
IF edad = joven AND rango_crediticio = media THEN compra_computadora = no
375

148
18/04/2022

INDUCCIÓN DE REGLAS:
MÉTODO DE COBERTURA SECUENCIAL
• Algoritmo de cobertura (covering) secuencial: Extrae las reglas
directamente de los datos de entrenamiento
• Algoritmos de cobertura secuencial típicos: FOIL, AQ, CN2, RIPPER
• Las reglas se aprenden secuencialmente, para una clase dada Ci
cada regla cubrirá muchas tuplas de Ci pero ninguna o muy
pocas de las tuplas de otras clases
• Pasos:
• Las reglas se aprenden una a un tiempo
• Cada vez que una regla se aprende, las tuplas cubiertas por
esa regla se remueven
• Repetir el proceso sobre las tuplas remanentes
• hasta que la condición de paro se cumpla, por ej. Cuando no
haya mas ejemplos en el conjunto de entrenamiento o cuando
la calidad de la regla regresada sea menor a algún umbral
especificado por el usuario.

376

ALGORITMO DE COBERTURA
while (existan tuplas/ejemplos) SECUENCIAL
genera una regla
borrar las tuplas que satisfagan la regla

Ejemplos
Ejemplos cubiertos por regla
cubiertos por regla R2
Ejemplos
R1 cubiertos por regla
R3
Ejemplos
positivos

377

149
18/04/2022

GENERACIÓN DE
• Para generar una regla LA REGLA
while(true)
encuentra el major predicado p
if foil-gain(p) > threshold then agrega p a la regla actual
else break

A3=1&&A1=2
A3=1&&A1=2
&&A8=5A3=1

Ejemplos Ejemplos
negativos
positivos

378

¿CÓMO APRENDER UNA REGLA?


1. Empezar por la regla más general posible: condición = vacio
2. Agregar nuevos atributos usando estrategia codiciosa de profundidad primero (greedy depth-first)
Escoger aquella con mayor calidad
Mediciones de calidad de regla: cobertura y precisión (coverage, accuracy)
Foil-gain (en FOIL & RIPPER): evalúa la ganancia de información extendiendo l a condición
𝑝𝑜𝑠′ 𝑝𝑜𝑠
𝐹𝑂𝐼𝐿_𝐺𝑎𝑖𝑛 = 𝑝𝑜𝑠′ × (log − log )
𝑝𝑜𝑠′ + 𝑛𝑒𝑔′ 𝑝𝑜𝑠 + 𝑛𝑒𝑔

Favorece las reglas que tienen precision alta y cubren la mayoría de las tuplas positivas
Podado de reglas con base en un conjunto independiente de tuplas de prueba
𝑝𝑜𝑠 − 𝑛𝑒𝑔
𝐹𝑂𝐼𝐿_𝑃𝑟𝑢𝑛𝑒(𝑅) =
𝑝𝑜𝑠 + 𝑛𝑒𝑔

Pos/neg: # de tuplas positivas/negativas cubiertas por R.


Si FOIL_Prune es mayor para la version podada de R, entonces podar R

379

150
18/04/2022

TÉCNICAS DE MEJORA DE
RENDIMIENTO DE CLASIFICACIÓN
POR MÉTODOS DE ENSAMBLE

380

MODELO DE EVALUACIÓN Y
SELECCIÓN
• Métricas de evaluación: ¿Cómo medir la precision (accuracy)? ¿Qué otras
métricas se pueden considerar?
• Usar un conjunto de validación de prueba de tuplas etiquetadas de clase en lugar
de un conjunto de entrenamiento cuando se evalúa accuracy
• Métodos para estimar el rendimiento de un clasificador:
• Método de espera, submuestreo aleatorio
• Validación cruzada
• Bootstrap
• Comparando clasificadores:
• Intervalos de confianza
• Análisis de costo-beneficio y curvas ROC

381

381

151
18/04/2022

MÉTRICAS DE EVALUACIÓN DE
CLASIFICADOR: MATRIZ DE CONFUSIÓN
Matrix de confusión:
Clase real\Clase predicha C1 ¬ C1
C1 True Positives (TP) False Negatives (FN)
¬ C1 False Positives (FP) True Negatives (TN)

Ejemplo de matrix de confusión: :


clase real\clase Comp_compu comp_compu Total
predicha = si = no
comp_compu = yes 6954 46 7000
com_compu = no 412 2588 3000
Total 7366 2634 10000

• Dadas m clases, una entrada, CMi,j en una matriz de confusión indica # de tuplas en una clase i
que fueron etiquetados como clase j
• Puede tener renglones/columnas extra para proporcionar totales

382

METRICAS DE EVALUACIÓN DE
CLASIFICADORES: ACCURACY, ERROR
RATE, SENSITIVITY,SPECIFICITY
A\P C ¬C
 Problema de clases no balanceadas:
C TP FN P
 Una clase puede ser rara p.e. fraude, or
¬C FP TN N HIV-positivo
P’ N’ Todos  Una mayoría significativa de clase

negativa y una minoría de clase positiva


• Accuracy, o razón de  Sensitividad: Tasa de reconocimiento
reconocimiento: porcentaje de de TP
tuplas de prueba correctamente
 Sensitivity = TP/P
clasificadas
Accuracy = (TP + TN)/Todos  Especificidad: Tasa de reconocimiento

• Tasa de Error: 1 – accuracy, o de TN


 Specificity = TN/N
Tasa de error = (FP + FN)/Todos

383

152
18/04/2022

MÉTRICAS DE EVALUACIÓN DE CLASIFICADORES:


PRECISION, RECALL, F-MEASURE
Precisión: exactitud: qué porcentaje de tuplas que el
clasificador etiquetó como positivas son realmente positivas

Recall: completitud, ¿qué porcentaje de tuplas positivas


etiquetó el clasificador como positivo?
El puntaje perfecto es 1.0
Relación inversa entre precisión y recall:
Medida F (F-score, puntuación F1 o F): media armónica de
precisión y recuperación,
Fß: medida ponderada de precisión y recuperación
asigna ß veces más peso para recall y para precisión

384

EJEMPLO

Clase Real\Clase predicha cancer = si cancer = no Total (%)Reconocimiento


cancer = si 90 210 300 30.00 (sensitivity)
cancer = no 140 9560 9700 98.56 (specificity)
Total 230 9770 10000 96.40 (accuracy)

• Precision = 90/230 = 39.13%

• Recall = 90/300 = 30.00%

385

153
18/04/2022

EVALUACIÓN DE LA PRECISIÓN DEL


CLASIFICADOR: MÉTODOS DE RETENCIÓN Y
VALIDACIÓN CRUZADA
Método Holdout (espera, retención)
Los datos se particionan aleatoriamente en dos conjuntos independientes
Conjunto entrenamiento (p.e., 2/3) para construcción de modelo
Conjunto de prueba (p.e., 1/3) para estimación de precisión
Muestreo aleatorio: una variación del holdout
Repetir holdout k veces, accuracy = promedio de los valores de accuracy obtenidos
Cross-validation (Validación cruzada)(k-fold, donde k = 10, se usa frecuentemente 10 iteraciones)
Particionar aleatoriamente los datos en k subconjuntos mutuamente exclusivos de
aproximadamente el mismo tamaño
En la iteración i, usar Di como conjunto de prueba y los demás como conjunto de entrenamiento
Leave-one-out (Dejar uno afuera) : k folds donde k = # de tuplas , para conjuntos pequeños de
datos
*Stratified cross-validation (validación cruzada estratificada)*: Los folds son estratificados de modo que
el valor medio de respuesta sea aproximadamente igual en todos los pliegues. Es decir que cada fold
represente todos los estratos de los datos.
386

EVALUANDO LA PRECISION (ACCURACY) DE LOS


CLASIFICADORES CON BOOTSTRAP
Bootstrap funciona bien con conjuntos pequeños de datos.
Muestrea las tuplas de entrenamiento proporcionadas de manera uniforme con
reemplazo, es decir, cada vez que se selecciona una tupla, es igualmente probable
que se seleccione nuevamente y se vuelva a agregar al conjunto de
entrenamiento.
Existen varios métodos bootstrap, y uno común es .632 boostrap
Un conjunto de datos con d tuplas se muestrea d veces, con reemplazo, lo que
resulta en un conjunto de entrenamiento de d muestras. Las tuplas de datos que no
llegaron al conjunto de entrenamiento terminan formando el conjunto de prueba.
Alrededor del 63.2% de los datos originales terminan en el bootstrap, y el 36.8%
restante forma el conjunto de prueba (ya que (1 - 1 / d) d ≈ e-1 = 0.368)
Repita el procedimiento de muestreo k veces, la precisión general del modelo:

387

154
18/04/2022

ESTIMANDO INTERVALOS DE
CONFIANZA:
MODELOS M1 VS. M2
• Suponga que temenos dos clasificadores, M1 and M2, ¿cuál es major?

• Usar 10-fold cross-validation para obtener y

• Estas tazas de error promedio son solo estimaciones de error sobre la población
verdadera de futuros casos de datos

¿Qué hacer si la diferencia entre las dos tasas de error son solo atribuidos al azar?
• Usar una prueba de significancia estadística
• Obtener los liímites de confianza para las estimaciones de error

388

388

ESTIMANDO INTERVALOS DE CONFIANZA: LA


HIPÓTESIS NULA

Realizar validación cruzada con k=10


Suponga que las muestras siguen una distribución t con k – 1 grados de
libertad (aquí, k = 10)
Utilice la prueba t (o la prueba t de Student)
Hipótesis nula: M1 y M2 son lo mismo
Si podemos rechazar la hipótesis nula, entonces
Concluimos que la diferencia entre M1 y M2 es estadísticamente significativa
Elija el modelo con una tasa de error más baja

389

389

155
18/04/2022

ESTIMANDO INTERVALOS DE CONFIANZA: T-TEST

Si solo se cuenta con un conjunto de prueba: realice comparación por pares


Para la ronda ith de valización cruzada con k=10, se usa el mismo
particionamiento cruzado para obtener err(M1)i and err(M2)i
Se obtiene el promedio sobre las 10 rondas para obtener y

t-test calcula t-statistic con k-1 grados de libertad: donde

Y si se tienen dos conjuntos de pruebalable:realice t-test no emparejada donde

k1 & k2 son el # de muestras cross-validation usadas


para M1 & M2, respectivamente

390

ESTIMANDO INTERVALOS DE CONFIANZA: TABLA DE


DISTRIBUCIÓN T

Simétrica
Nivel de significancia p.e., sig
= 0.05 or 5% significa que M1
& M2 son significativamente
diferentes para el 95% de la
población
Limite de confianza, z = sig/2

391

156
18/04/2022

ESTIMANDO INTERVALOS DE CONFIANZA:


SIGNIFICANCIA ESTADÍSTICA

• Son M1 & M2 significativamente diferentes?


• Calcule t. Seleccione el nivel de significancia (p.e. sig = 5%)
• Consulte la tabla de distribution t: Encuentre el valor t que
corresponda con k-1 grados de libertad (en este caso,9)
• t-distribution es simétrica: típicamente % de puntos de distribución
superiores mostrados → buscar valor para límite de confianza z =
sig / 2 (en nuestro caso, 0.025)
• Si t > z o t < -z, entonces el valor t cae en la región de rechazo:
• Rechazo de hipótesis nula que significa que las tasas de error medias de M1 & M2 son
iguales
• Concluya: Existe una diferencia estadísticamente significativa entre M1 & M2
• De otra forma, concluya que cualquier diferencia es casual

392

392

SELECCIÓN DEL
MODELO: CURVAS
ROC
Curvas ROC (características de
funcionamiento del receptor): se usan para
comparar visualmente modelos de
clasificación.
Originado de la teoría de detección de señal
Muestra la compensación entre la tasa
positiva verdadera y la tasa positiva falsa
El área bajo la curva ROC es una medida de El eje vertical representa la
la precisión del modelo. verdadera tasa positiva
Clasifique las tuplas de prueba en orden Eje horizontal representa la tasa
decreciente: la que es más probable que de falsos positivos
pertenezca a la clase positiva aparece en la La trama también muestra una
parte superior de la lista línea diagonal.
Cuanto más cerca de la línea diagonal (es Un modelo con una precisión
decir, cuanto más cerca esté el área de 0.5), perfecta tendrá un área de 1.0
menos preciso será el modelo

393

157
18/04/2022

PROBLEMAS QUE AFECTAN


• Accuracy:
LA SELECCIÓN DEL MODELO
• precisión del clasificador: predicción de la etiqueta de clase.
• Speed:
• tiempo para construir el modelo (tiempo de entrenamiento)
• tiempo para usar el modelo (tiempo de clasificación /
predicción)
• Robustez: manejo del ruido y valores perdidos
• Escalabilidad: eficiencia en bases de datos residentes en disco
• Interpretabilidad
• Comprensión y conocimiento proporcionados por el modelo
• Otras medidas, por ejemplo, la bondad de las reglas, como el
tamaño del árbol de decisión o la compacidad de las reglas de
clasificación.

394

394

TÉCNICAS PARA MEJORAR LA


PRECISIÓN DE LA CLASIFICACIÓN:
MÉTODOS DE CONJUNTO

395

158
18/04/2022

MEJORA DE MODELO:
MÉTODOS DE ENSAMBLE

• Métodos de ensamble/métodos combinados


• Combina una serie de k modelos de aprendizaje
M1, M2, …, Mk, para poder crear un modelo
mejorado M*
• Métodos de ensamble poluares:
• Bagging: se promedia la predicción sobre un
conjunto de clasificadores
• Boosting: Votación ponderada
• Ensemble: combina un conjunto de clasificadores
heterogéneos 396

396

BAGGING
•Como analogia se establece un diagnóstico con base la votación mayoritaria de varios
doctores
•Entrenamiento
•Dado un conjunto D de d tuplas, a cada iteración i, un ocnjunto de entrenamiento Di de d
tuplas se muestrea con reemplazo a partir de D (por ejemplo: bootstrap)
•Se aprende un modelo clasificador Mi por cada conjunto de entrenamiento Di
•Clasificación: clasificar una muestra desconocida X
•Cada clasificador Mi regresa su predicción de clase
•El clasificador en el saco (bagged) M* cuenta los votos y asigna la clase con la mayoria de
votos a X
•Predicción: puede ser aplicada a la predicción de valores continuos al tomar el promedio de
cada predicción para una tuple de prueba dada
•Accuracy
•Por lo general significativamente major que un solo clasificador generado a partir de D
•Datos con ruido: mas robusto
•Se ha probado que mejora la precision de la predicción

397

159
18/04/2022

BOOSTING
• Como analogía se consultan varios doctores, con base en una combinación
de diagnósticos ponderados (la ponderación puede asignarse con base en
la precisión de diagnósticos anteriores)
• ¿Cómo trabaja boosting?
• Pesos se asignan a cada tuple de entrenamiento
• Se aprende iterativamente una serie de k clasificadores
• Después de que un clasificador Mi se aprende, los pesos se actualizan
para permitir que los clasificadores subsecuentes, Mi+1, prestar mas
atención a las tuplas de entrenamiento que no fueron bien clasificadas
por Mi
• EL modelo final M* combina los votos de cada clasificador individual,
donde el peso de cada voto para clasificador es una función de su
precisión/accuracy
• Algoritmo Boosting puede ser extendido para una predicción numérica
• Comparando con el método bagging: El Boosting tiende a tener mayor
precisión, pero existe el riesgo de sobreentrenar el modelo a los datos mal
clasificados

398

ADABOOST
•Dado un conjunto D de d tuplas etiquetadas con clase, (X1, y1), …, (Xd, yd)
•Inicialmente, tdos los pesos de las tuplas son el mismo (1/d)
•Generar k clasificadores en K iteraciones. En la iteración i,
•Las tuplas de D se muestrean (con reemplazo) para formar un conjunto de
entrenamiento Di de el mismo tamaño
•La oportunidad de cada tuple de ser seleccionada es con base en su peso
•Usando Di como conjunto de prueba, se deriva un modelo de clasificación Mi a
partir de su tasa de error
•Si la tupla no se clasifica correctamente, su peso se incrementa, de otra forma se
decrementa
•Tasa de Error: err(Xj) es el error de clasificar mal a una tupla Xj. La tasa de erro del
clasificador Mi es la suma de los pesos de las tuplas mal clasificadas:

𝑒𝑟𝑟𝑜𝑟(𝑀 ) = 𝑤 × 𝑒𝑟𝑟(𝐗 𝐣 )
1 − 𝑒𝑟𝑟𝑜𝑟(𝑀 )
•El peso del voto del clasificador Mi’ es log
𝑒𝑟𝑟𝑜𝑟(𝑀 )

399

160
18/04/2022

RANDOM
FOREST
• Random Forest:
• Cada clasificador en el ensamble es un clasificador de arbol de decision y es
generado usando una selección aleatoria de cada nodo para determiner la
división
• Durante la clasificación, cada árbol vota y la clase mayoritaria es la que se
obtiene
• Existen dos métodos para construir el Random Forest:
• Forest-RI (random input selection): Se seleccionan aleatoriamente F atributos en
cada nodo como candidatos para la división del nodo. El algoritmo CART se usa
para crecer los arboles a su tamaño máximo
• Forest-RC (random linear combinations): Crea nuevos atributos o características
a partir de la combinación líneal de los atributos existentes (reduce la
correlación entre los clasificadores individuales)
• La precisión es comparable a la de Adaboost, pero es mas robusto en el caso de
errores y anómalos
• No es sensible al numero de atributos seleccionados para ser considerados en cada
división y es mas rápido que bagging o boosting
400

400

CLASIFICACIÓN DE CONJUNTOS DE DATOS NO


BALANCEADOS EN SU CLASE

• Problema de balance en la clase: Pocas muestras positivas y muchas muestras


negativas, por ejemplo: diagnóstico medico, fraudes, fallas, etc.
• Los métodos tradicionales asumen una distribución balanceada de clases y
costos de error equitativos, esto no es el caso cuando se tienen datos no
balanceados
• Los métodos típicos para datos no balanceados en clasificación binaria son:
• Oversampling: re-muestreo de datos a partir de clase positiva
• Under-sampling: eliminación aleatoria de tuplas pertenecientes a la clase
negativa
• Threshold-moving: mueve el umbral de decisión t, de tal forma que las
tuplas de la clase minoritaria sean más fácil de clasificar y por tanto, menos
oportunidad de tener costosos errores de falsos negativos
• Técnicas de ensamble: Se pueden usar los anteriormente vistos
• Sin embargo, persiste la dificultad de las muestras no balanceadas en
problemas de múltiples clases.

401

161
18/04/2022

ANÁLISIS DE CLUSTER (AGRUPAMIENTO)

• Conceptos básicos de análisis de cluster

• Métodos de particionamiento

• Métodos jerárquicos

• Métodos basados en densidad

• Metodos basados en malla(grid)

• Evaluación del agrupamiento

404

ANÁLISIS DE CLUSTER (AGRUPAMIENTO)

● Analiza los datos sin consultar una etiqueta de clase conocida.


● Por lo general las etiquetas de clases no están presentes en los datos de
entrenamiento debido a que no se conocen. Cuando esto sucede el
agrupamiento puede generar tales etiquetas.
● Los objetos se agrupan con base en el principio de maximización de la
similitud dentro de la clase y minimizando la similitud de los elementos entre las
clases.
● Cada cluster/grupo es una clase de objetos a partir del cual se pueden
derivar las reglas.
El agrupamiento puede facilitar la formación de taxonomías, es decir, la
organización de observaciones en una jerarquía de clases que agrupan eventos
similares

405

162
18/04/2022

EJEMPLO DE ANÁLISIS DE CLUSTER O AGRUPAMIENTO

● Suponga que el gerente de ventas, desea crear una campaña


de mercadotecnia, pero necesita identificar conjuntos de
clientes con características comunes (segmentos de mercado)
a los cuales se les pueda dirigir cierta campaña de mercadeo.

406

¿EN QUE CONSISTE EL ANÁLISIS


DE CLUSTER?
• Un cluster/grupo: Es una colección de objetos de datos
• similares (o relacionados) a aquellos que pertenecen al mismo grupo
• diferentes (o no relacionados) a aquellos objetos contenidos en los otros
grupos
• Análisis de Clusters (grupos o segmentación de datos, …)
• Encontrar las similitudes entre los datos de acuerdo a las características
encontradas en los datos y agruparlos en conjuntos que contengan
objetos similares
• Aprendizaje no supervisado: No existe clase predefinida (aprendizaje por
observaciones vs. aprendizaje por muestras: supervisado)
• Aplicaciones tipicas
• Como una herramienta stand-alone para obtener una idea de la
distribución de los datos
• Como un paso de preprocesamiento para otros algoritmos

407

163
18/04/2022

USO DE CLUSTERS PARA


EXPLORACIÓN Y MODELADOS
• Biologia: taxonomía de seres vivos (reino, filo, clase, orden, familia, género y especie)
• Recuperación de la información (Information retrieval): agrupamiento de
documentos
• Uso de la tierra: identificación de áreas de uso similar de la tierra en una base de
datos de observación de la tierra
• Marketing: ayuda a los especialistas en marketing a descubrir distintos grupos en sus
bases de clientes y luego se usa este conocimiento para desarrollar programas de
marketing específicos
• Planificación urbana: identificación de grupos de casas según su tipo de casa, valor
y ubicación geográfica
• Estudios sobre terremotos: los epicentros del terremoto observado deben agruparse
a lo largo de las fallas continentales
• Clima: comprender el clima de la tierra, encontrar patrones atmosféricos y
oceánicos
• Ciencia económica: investigación de mercado

408

AGRUPAMIENTO COMO HERRAMIENTA DE


PREPROCESAMIENTO
• Resumen(Summarization):
• Preprocesamiento para analisis de regresion, PCA, clasificación, y
asociación
• Compresión:
• Procesamiento de imágenes: cuantización vectorial
• Encontrar los k vecinos mas cercanos
• Búsqueda de localización en uno o un pequeño número de grupos
• Detección de valores atípicos
• Los valores atípicos a menudo se ven como aquellos “mas lejanos" de
cualquier grupo

409

164
18/04/2022

CALIDAD: ¿CUAL ES UN BUEN 410

AGRUPAMIENTO?

• Un método de buen agrupamiento producirá grupos de alta calidad


• Similitud alta entre los miembros del mismo grupo: cohesion entre
clusters
• Similitud baja entre los elementos de diferentes grupos: distinción
entre clases
• La calidad de un método de agrupamiento depende de:
• La métrica de similitud usada por el método
• Su implementación y
• Su habilidad para descubrir patrones ocultos

410

MÉTRICAS DE CALIDAD DE
AGRUPAMIENTO

• Métrica similitude/no similitud


• La similitud se expresa en términos de una función de distancia: d(i,
j)
• Las definiciones de funciones de distancia son usualmente
diferentes para variables de intervalos de escala, booleanas,
categóricas, ordinales y vectoriales
• Los pesos deben ser asociados con las diferentes variables con
base en su aplicación y semántica
• Calidad de agrupamiento(clustering):
• Por lo general existe una función de calidad separada que mide
que tan bueno es un cluster.
• Es difícil definir que lo suficientemente similar o lo suficientemente
bueno
• El concepto es altamente subjetivo

411

165
18/04/2022

CONSIDERACIONES PARA EL ANÁLISIS DE


CLUSTER
•Criterios de partición
•Particionamiento jerárquico de nivel único (a menudo, es deseable el particionamiento
jerárquico de niveles múltiples)

•Separación de racimos
•Exclusivo (un cliente pertenece a una sola región)
•no exclusivo (un documento puede pertenecer a más de una clase)

•Medida de similitud
•Basado en la distancia (p. Ej., Euclidiano, red de carreteras, vector)
•conectividad (p. Ej., Densidad o contigüidad)

•Espacio de agrupamiento
•Espacio completo (a menudo cuando es de baja dimensión)
•subespacios (a menudo en agrupación de alta dimensión)

412

REQUERIMIENTOS
Y RETOS
• Escalabilidad
• Agrupando todos los datos en lugar de solo en muestras
• Capacidad para manejar diferentes tipos de atributos.
• Numéricos, binarios, categóricos, ordinales, vinculados y mezcla de estos
• Agrupación basada en restricciones
• El usuario puede dar restricciones
• Usar el conocimiento del dominio para determinar los parámetros de entrada
• Interpretabilidad y usabilidad
• Otros
• Descubrimiento de racimos con forma arbitraria
• Capacidad para manejar datos ruidosos
• Agrupamiento incremental e insensibilidad al orden de entrada
• Alta dimensionalid

413

166
18/04/2022

ENFOQUES PRINCIPALES DE
AGRUPAMIENTO
• Particionamiento:
• Construir varias particiones y luego evaluarlas usando un criterio como mínimos
cuadrados
• k-means, k-medoids, CLARANS
• Jerárquico:
• Descomposición jerárquica de un conjunto de datos usando algún criterio
• Diana, Agnes, BIRCH, CAMELEON
• Con base en densidad:
• Uso de funciones de conectividad y densidad
• DBSACN, OPTICS, DenClue
• Malla(Grid):
• Con base en una estructura de varios niveles de granularidad
• STING, WaveCluster, CLIQUE

414

ENFOQUES PRINCIPALES DE
AGRUPAMIENTO
• Basado en el modelo:
• Se hipotetiza un modelo para cada uno de los grupos e intenta
encontrar el mejor ajuste de ese modelo entre sí
• Métodos típicos: EM, SOM, COBWEB
• Frecuente basado en patrones:
• Basado en el análisis de patrones frecuentes
• p-Cluster
• Guiado por el usuario o basado en restricciones:
• Agrupación al considerar restricciones especificadas por el usuario o
específicas de la aplicación
• DQO (obstáculos), agrupamiento restringido
• Agrupación basada en enlaces:
• Los objetos a menudo están unidos entre sí de varias maneras.
• Se pueden usar enlaces masivos para agrupar objetos: SimRank,
LinkClus

415

167
18/04/2022

MÉTODOS DE PARTICIONAMIENTO

416

ALGORITMOS DE PARTICIONAMIENTO

• Método de partición: Particionar una base de datos D de n objetos en un conjunto


de k grupos, de modo que la suma de las distancias al cuadrado se minimice
(donde ci es el centroide o medoide del grupo Ci)

𝐸=Σ Σ ∈ (𝑝 − 𝑐 )

• Dado k, encuentre una partición de k clústeres que optimice el criterio de partición


elegido
• Óptimo global: enumere exhaustivamente todas las particiones
• Métodos heurísticos: algoritmos k-means y k-medoids
• k-means (MacQueen’67, Lloyd’57 / ’82): cada grupo está representado por el centro
del grupo
• k-medoides o PAM (Partición alrededor de medoides) (Kaufman & Rousseeuw’87):
cada grupo está representado por uno de los objetos en el grupo

417

168
18/04/2022

K-MEANS

• Dado k, el algoritmo k-means se implementa en cuatro pasos:


1. Particionar objetos en k subconjuntos no vacíos
2. Calcule los puntos semilla como los centroides de los grupos de la
partición actual (el centroide es el centro, es decir, el punto medio
del grupo)
3. Asigne cada objeto al grupo con el punto inicial más cercano
4. Regrese al Paso 2, deténgase cuando la tarea no cambie

418

EJEMPLO

K=2

Se particiona Actualiza los


arbitrariamente centroides
en k grupos de los
clusteres
Conjunto de datos Loop if
inicial Reasigna objetos
needed
 Particionar objetos en k subconjuntos no vacíos
 Repetir
 Calcular centroide (es decir, punto medio) para
cada partición Actualiza los
centroides de
 Asigne cada objeto al grupo de su centroide más los objetos
cercano
 Hasta que no haya cambio

419

169
18/04/2022

p1

K-MEANS

• Robustez: Eficiencia: O (tkn), donde n es # objetos, k es # grupos y t es # iteraciones.


Normalmente, k, t << n.
• Comparando: PAM: O (k (n-k) 2), CLARA: O (ks2 + k (n-k))
• Comentario: a menudo termina en un óptimo local.
• Debilidades
• Aplicable solo a objetos en un espacio continuo n-dimensional
• Usando el método k-modes para datos categóricos
• En comparación, los k-medoides se pueden aplicar a una amplia gama de datos.
• Es necesario especificar k, el número de grupos, de antemano (hay formas de determinar
automáticamente la mejor k (ver Hastie et al., 2009)
• Sensible a datos ruidosos y valores atípicos
• No es adecuado para descubrir grupos con formas no convexas.

420

VARIACIONES DE K-MEANS

• La mayoría de las variantes de k-medias difieren en


• La selección de la k inicial

• Cálculos de disimilitud

• Estrategias para calcular medias de clúster

• Manejo de datos categóricos: modos k


• Sustitución de medias por modos

• Uso de nuevas medidas de disimilitud para tratar objetos categóricos

• Usar un método basado en frecuencia para actualizar modos de clústeres

• Una mezcla de datos categóricos y numéricos: método del prototipo k

421

170
Diapositiva 420

p1 pilarang, 29/05/2020
18/04/2022

DESVENTAJAS K-MEANS

• ¡El algoritmo k-means es sensible a los valores atípicos!


• Dado que un objeto con un valor extremadamente grande puede distorsionar
sustancialmente la distribución de los datos

• K-medoides: en lugar de tomar el valor medio del objeto en un grupo como punto
de referencia, se pueden usar medoides, que es el objeto más centralmente
ubicado en un grupo

10 10
9 9
8 8
7 7
6 6
5 5
4 4
3 3
2 2
1 1
0 0
0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10

422

PAM: TÍPICO K-MEDOIDS


Costo total = 20
10 10 10

9 9 9

8 8 8

Arbitraria Asigna
7 7 7

6 6 6

5
mente 5 cada 5

4 escoge 4 medoide 4

3
un k 3
remanen 3

2
objeto 2
te al 2

como medoide
1 1 1

0 0 0
0 1 2 3 4 5 6 7 8 9 10
medoide 0 1 2 3 4 5 6 7 8 9 10
mas 0 1 2 3 4 5 6 7 8 9 10

inicial cercano
K=2 Aleatoriamente selecciona un objeto
Costo total = 26 no medoide,Oramdom
10 10

Repite hasta 9

8
Calcula el
9

que no Itercambia O 7 costo total 7

Oramdom del
cambie
6 6

intercambio
5 5

Si su calidad es 4 4

mejor 3 3

2 2

1 1

0 0
0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10

423

423

171
18/04/2022

K-MEDOIDE

• Agrupación de K-Medoides: busque objetos representativos (medoides) en agrupaciones


• PAM (Particionamiento en torno a Medoids, Kaufmann y Rousseeuw 1987)
• Comienza a partir de un conjunto inicial de medoides y reemplaza iterativamente uno de los
medoides por uno de los no medoides si mejora la distancia total de la agrupación resultante

• PAM funciona eficazmente para conjuntos de datos pequeños, pero no escala bien para
conjuntos de datos grandes (debido a la complejidad computacional)

• Mejora de eficiencia en PAM


• CLARA (Kaufmann y Rousseeuw, 1990): PAM en muestras

• CLARANS (Ng y Han, 1994): Muestreo aleatorio

424

INTRODUCCIÓN A
ALGORITMOS GENÉTICOS
Recopiló: Dra. María del Pilar Angeles.

484

172
18/04/2022

ALGORITMOS GENÉTICOS:
Los principios básicos de los Algoritmos Genéticos fueron establecidos por Holland
(1975). Descritos también en – Goldberg (1989), Davis (1991), Michalewicz (1992), Reeves
(1993)
Son métodos adaptativos que pueden usarse para resolver problemas de búsqueda y
optimización.
Están basados en el proceso genético de los organismos vivos:
Poblaciones evolucionan a lo largo de las generaciones
Conforme a los principios de la selección natural
Supervivencia de los más fuertes Darwin (1859).

Los Algoritmos Genéticos imitan ese proceso para poder generar soluciones a problemas
del mundo real.

La evolución de dichas soluciones depende en buena medida de una adecuada


codificación de las mismas.

485

ALGORITMOS GENÉTICOS
• Los individuos de una población compiten entre sí
• búsqueda de recursos tales como comida, agua y refugio.
• búsqueda de un compañero.

• Aquellos individuos que tienen más éxito en sobrevivir y en atraer


compañeros tienen mayor probabilidad de generar un gran número
de descendientes.

486

173
18/04/2022

ALGORITMOS GENÉTICOS:
• Los descendientes al combinar buenas características de sus ancestros
• Se adaptan mucho mejor que cualquiera de sus ancestros.

• De esta manera, las especies evolucionan logrando unas características


cada vez mejor adaptadas al entorno en el que viven.

487

ALGORITMOS GENÉTICOS:
Los Algoritmos Genéticos usan una analogía directa con el comportamiento natural.

1. Trabajan con una población de individuos, cada uno de los cuales representa una
solución factible a un problema dado.
2. A cada individuo se le asigna un valor ó puntuación, relacionada con la
solución. En la naturaleza esto equivaldría al grado de efectividad de un organismo
para competir por unos determinados recursos. (Cuanto mayor sea la adaptación de
un individuo al problema, mayor será la probabilidad de que el mismo sea
seleccionado para reproducirse).
3. Se cruza su material genético con el de otro individuo seleccionado de igual
forma. Este cruce producirá nuevos individuos – descendientes de los anteriores – los
cuales comparten algunas de las características de sus padres.

488

174
18/04/2022

ALGORITMOS GENÉTICOS:
4. La una nueva población de posibles soluciones reemplaza a la anterior.
5. Se verifica que contenga una mayor proporción de buenas características
en comparación con la población anterior.
6. Se repite el proceso. (A lo largo de las generaciones se propagan las
buenas características a través de la población).
7. Se exploran las áreas más prometedoras del espacio de búsqueda.

Si el Algoritmo Genético ha sido bien diseñado, la población convergerá


hacia una solución óptima del problema.

489

ALGORITMO GENÉTICO
SIMPLE/CANÓNICO
BEGIN /* Algoritmo Genético Simple */
Generar una población inicial.
Calcular la función de evaluación/adaptación de cada individuo.
WHILE NOT Terminado DO
BEGIN /* Producir nueva generación */
FOR Tamaño población/2 DO
BEGIN /*Ciclo Reproductivo */
(Obtener probabilidad de selección proporcional a la función de evaluación del individuo).
Seleccionar dos individuos de la anterior generación para el cruce
Cruzar con cierta probabilidad los dos individuos obteniendo dos descendientes.
Mutar los dos descendientes con cierta probabilidad.
Calcular la función de evaluación/adaptación de los dos descendientes mutados.
Insertar los dos descendientes mutados en la nueva generación.
END
IF la población ha convergido THEN
Terminado := TRUE
END
END

490

175
18/04/2022

CODIFICACIÓN
• Los individuos (posibles soluciones del problema), pueden representarse
como un conjunto de parámetros (genes)

• Los genes agrupados forman un conjunto de valores (cromosoma).

• El código binario es el más utilizado para representar los individuos.

491

FUNCIÓN DE ADAPTACIÓN
• Fenotipo: conjunto de parámetros representando un cromosoma que
contiene la información requerida para construir un organismo.
• Genotipo: organismo.
• La adaptación al problema de un individuo depende de la
evaluación del genotipo. Esta última puede inferirse a partir del fenotipo,
es decir puede ser calculada a partir del cromosoma, usando la función de
evaluación.
• La función de adaptación asigna un numero real que refleja el nivel de
adaptación al problema del individuo representado por el cromosoma.

492

176
18/04/2022

FASE REPRODUCTIVA
• Se seleccionan los individuos de la población para cruzarse y producir
descendientes, que constituirán, una vez mutados, la siguiente
generación de individuos.

• La selección de padres se efectuará al azar usando un procedimiento


que favorezca a los individuos mejor adaptados, ya que a cada individuo
se le asigna una probabilidad de ser seleccionado que es proporcional a su
función de adaptación.

493

FASE REPRODUCTIVA
• Una vez seleccionados dos padres, sus cromosomas se combinan,
utilizando habitualmente los operadores de cruce y mutación. Las
formas básicas de dichos operadores se describen a continuación:

El operador de cruce:
1. Selecciona a dos padres
2. Corta sus conjuntos de cromosomas en una posición escogida al azar.
3. Produce dos subconjuntos iniciales y dos finales.
4. Intercambia los subconjuntos finales, produciéndose dos nuevos
cromosomas completos.

494

177
18/04/2022

FASE REPRODUCTIVA
Ambos descendientes heredan genes de cada uno de los padres. Este
operador se conoce como operador de cruce basado en un punto.
Habitualmente el operador de cruce no se aplica a todos los pares de
individuos que han sido seleccionados para emparejarse, sino que se aplica
de manera aleatoria, normalmente con una probabilidad comprendida entre
0.5 y 1.0. En el caso en que el operador de cruce no se aplique, la
descendencia se obtiene simplemente duplicando los padres.

495

FASE REPRODUCTIVA

El operador de mutación se aplica a cada hijo de manera individual.


1. Altera de forma aleatoria cada gen componente del cromosoma,
(normalmente con probabilidad pequeña). La sig. figura muestra mutación
del quinto gen del cromosoma.

2. Asegura que ningún punto del espacio de búsqueda tenga probabilidad


cero de ser examinado, esto permite asegurar la convergencia de los
Algoritmos Genéticos.

496

178
18/04/2022

CONVERGENCIA

• Si el Algoritmo Genético ha sido correctamente implementado, la


población evolucionará a lo largo de las generaciones sucesivas de
tal manera que:

• La adaptación media extendida a todos los individuos de la población y

• La adaptación del mejor individuo

Se irán incrementando hacia el óptimo global.

497

CONVERGENCIA

• El concepto de convergencia está relacionado con la progresión


hacia la uniformidad: un gen ha convergido cuando al menos el 95 %
de los individuos de la población comparten el mismo valor para dicho
gen.

• Se dice que la población converge cuando todos los genes han


convergido. Se puede generalizar dicha definición al caso en
que al menos cierto % de los individuos de la población hayan
convergido.

498

179
18/04/2022

• La Figura muestra como varía la adaptación media y la mejor


adaptación en un Algoritmo Genético Simple típico. A medida que el
número de generaciones aumenta, es más probable que la adaptación
media se aproxime a la del mejor individuo.

499

EJEMPLO

Encontrar el máximo de la función f (x) = x2 sobre los enteros {1, 2, . . . , 32}.


(ejemplo de Goldberg,1989, donde bastaría actuar por búsqueda exhaustiva,
dada la baja cardinalidad del espacio de búsqueda, pero se pretende mostrar
un ejemplo sencillo).

500

180
18/04/2022

POBLACIÓN INICIAL EN T0
1. Determinar el tamaño y muestra de la población inicial:
Suponiendo que la codificación de los individuos esté constituido por {0,1} ,
necesitaremos series de longitud 5 para representar los 32 puntos del espacio de
búsqueda.

Obtener dicha población al azar. En la siguiente tabla hemos representado


los 4 individuos que constituyen la población inicial.

501

FUNCIÓN DE ADAPTACIÓN AL PROBLEMA

2. Calcular la función de evaluación/adaptación de cada uno de sus


individuos.

Recordemos que antes de establecer la nueva generación se debe


seleccionar con base a probabilidad los individuos padres.

502

181
18/04/2022

PROBABILIDAD PARA SELECCIÓN


DE ANCESTROS
• 3. La probabilidad de que cada uno de dichos individuos sea seleccionado (según
el modelo de ruleta sesgada, que se explicará mas tarde) para emparejarse.
Cada elemento de la función de
adaptación debe
proporcionalmente ser
representado en un rango de 0-1.
Es decir, cada uno de los
elementos de la función de
adaptación, se divide entre la
suma. Es decir, 169/1170= 0.14
para el primer caso.
Posteriormente compararlos con
la probabilidad de selección
acumulada (última columna de
la población en t0).

503

ITERACIÓN 1…SELECCIÓN
4. Esto significa que los individuos seleccionados para el cruce han sido:
• Individuo 2 junto con el individuo 4
• Individuo 1 junto con el individuo 2.

• Supongamos que se fije una probabilidad de cruce (pc) en pc = 0.8.


Admitamos, por ejemplo, que los dos números extraídos sean menores que
0.8, decidiéndose por tanto efectuar el cruce entre las dos parejas.
• P(2,4):(0.49+0.31)= .80; P(1,2):(0.14+.49)= .63

504

182
18/04/2022

ITERACIÓN 1… SELECCIÓN DE
INDIVIDUOS

• Pareja(2,4):576, 361
Pareja(1,2): 169,576

Tabla de población en el t0

505

ITERACIÓN 1… CRUCE
5. Se escoge un número al azar entre 1 y l (siendo l la longitud de la serie
utilizada para representar el individuo). Es decir, un número entre 1 y 5
• Supongamos, que los puntos de cruce resulten ser 2 y 3.

• Población en t1 , proveniente de efectuar operador de cruce

506

183
18/04/2022

ITERACIÓN 1… MUTACIÓN
6. Mutar con una probabilidad (pm), cercana a cero, cada uno de los bit de las
cuatro series. En este caso suponemos que el único bit mutado corresponde al
primer gen del tercer individuo.
Población en t1 , proveniente de efectuar operador de mutación

507

FUNCIONES DE
EVALUACIÓN/ADAPTACIÓN
DESCENDENCIA

• 7. Se calcula la función de adaptación/adaptación para los nuevos individuos


Como puede observarse, tanto el mejor individuo como la función de
adaptación media han mejorado sustancialmente al compararlos con los
resultados de la Tabla en t0.

508

184
18/04/2022

GENERACIÓN DE LA POBLACIÓN
INICIAL
• Habitualmente la población inicial se escoge generando series al azar.

• Por otro lado, la inicialización no aleatoria de la población inicial (a través


de técnica heurística o de optimización local), puede acelerar la
convergencia del Algoritmo Genético.

• Sin embargo, en algunos casos la desventaja resulta ser la prematura


convergencia del algoritmo, queriendo indicar con ésto la convergencia
hacia óptimos locales

510

FUNCIÓN OBJETIVO

• Una buena función objetivo debe reflejar el valor del individuo de una manera
“real”, pero cuando existen gran cantidad de restricciones, buena parte de los
puntos del espacio de búsqueda representan individuos no válidos.

• Formas de generar la función objetivo con muchas restricciones:


• Absolutista: Aquellos individuos que no verifican las restricciones, no son
considerados como tales, y se siguen efectuando cruces y mutaciones hasta obtener
individuos válidos, o bien a dichos individuos se les asigna una función objetivo igual
a cero.
• Reparador: Reconstruir aquellos individuos que no verifican las restricciones. Dicha
reconstrucción suele llevarse a cabo por medio de un nuevo operador que se
acostumbra a denominar reparador.

512

185
18/04/2022

FUNCIÓN OBJETIVO
• Penalización de la función objetivo: dividir la función objetivo del individuo por
una cantidad (la penalización) que guarda relación con las restricciones que
dicho individuo viola. Dicha cantidad puede simplemente tener en cuenta el
número de restricciones violadas ó bien el denominado costo esperado de
reconstrucción, es decir el coste asociado a la conversión de dicho individuo en
otro que no viole ninguna restricción.

• Evaluación aproximada de la función objetivo. En algunos casos la obtención


de n funciones objetivo aproximadas puede resultar mejor que la evaluación
exacta de una única función objetivo (supuesto el caso de que la evaluación
aproximada resulta como mínimo n veces más rápida que la evaluación
exacta).

513

VELOCIDAD DE LA
CONVERGENCIA

• Cuando la convergencia es muy rápida, lo que suele denominarse


convergencia prematura, en la cual el algoritmo converge hacia óptimos
locales

• La solución posible a la convergencia lenta o rápida es efectuar


transformaciones en la función objetivo.
• El problema de la convergencia prematura, surge a menudo cuando la
selección de individuos se realiza de manera proporcional a su función objetivo.
En tal caso, pueden existir individuos con una adaptación al problema muy
superior al resto, que a medida que avanza el algoritmo “dominan” a la
población.
• Por medio de una transformación de la función objetivo, en este caso una
comprensión del rango de variación de la función objetivo, se pretende que
dichos “superindividuos” no lleguen a dominar a la población.

514

186
18/04/2022

COMO SABER SI ES POSIBLE USAR


UN ALGORITMO GENÉTICO
• Solución de problemas de optimización (eficientes y confiables)
• Recomendaciones a tomar en cuenta antes de intentar usar A.G.:
• Su espacio de búsqueda (i.e., sus posibles soluciones) debe estar delimitado
dentro de un cierto rango.
• Debe poderse definir una función de aptitud que nos indique qué tan buena o
mala es una cierta respuesta.
• Las soluciones deben codificarse de una forma que resulte relativamente fácil
de implementar en la computadora.
• El primer punto es muy importante, y lo más recomendable es intentar
resolver problemas que tengan espacios de búsqueda discretos aunque
éstos sean muy grandes. Sin embargo, también podrá intentarse usar la
técnica con espacios de búsqueda continuos, pero preferentemente
cuando exista un rango de soluciones relativamente pequeño.

526

USO DE ALGORITMOS GENÉTICOS EN


CALIDAD Y PREPROCESAMIENTO:
• Los algoritmos genéticos pueden usarse en el feature engineering, en
particular en la selección de atributos
• [Link]
tion

528

187
18/04/2022

EVALUACIÓN DE MODELOS

529

MODELADO - EVALUACIÓN

● La estimación dada a partir de un modelo puede que no sea exactamente


igual a la de la muestra de entrenamiento.

● Un modelo no debe memorizar y entregar los mismos valores. De lo


contrario, el modelo esta sobre-entrenado (overfitting)

● Un modelo sobre-entrenado no responderá adecuadamente ante nuevos


datos.

● El modelo debe generalizar o aprender la relación entre la entrada y la


salida.

● Para evaluar esta relación, se utiliza la muestra de prueba.

530

188
18/04/2022

MODELADO - EVALUACIÓN

● El valor de la variable de salida que predice el modelo


usando la muestra de validación se compara con el valor real
de salida para obtener el error de predicción.

● Si este error es “aceptable” entonces el modelo puede ser


liberado a producción y usado con datos desconocidos.

● Si el error no es aceptable, éste se usa para comparar este


modelo con otros generados con diferentes algoritmos de
aprendizaje.

531

MODELADO – MÉTODOS COMBINADOS


DE APRENDIZAJE (ENSEMBLE MODELING)

● El modelado por métodos de “ensemble” utiliza múltiples


algoritmos de aprendizaje para obtener un rendimiento predictivo
que mejore el que podría obtenerse por medio de cualquiera de
los algoritmos de aprendizaje individuales que lo constituyen.
● El objetivo es reducir el error de generalización de la predicción.
● El enfoque busca la sabiduría de las multitudes para hacer una
predicción.
● Aunque se tiene múltiples modelos base, el modelo, actúa y
funciona como uno solo.

532

189
18/04/2022

MODELADO
Al terminar el modelado dentro del proceso de ciencia de datos
se han realizado los siguientes pasos:
1. Analizado la pregunta de negocios;
2. Se obtuvieron los datos relevantes para responder pregunta;
3. Se seleccionó una técnica de ciencia de datos para responder
la pregunta;
4. Se escogió un algoritmo de ciencia de datos y preparó los
datos para adaptarse al algoritmo;
5. Se dividieron los datos en conjuntos de datos de entrenamiento
y prueba;
6. Se construyó un modelo generalizado a partir del conjunto de
datos de entrenamiento;
7. Se validó el modelo contra el conjunto de datos de prueba.

533

APLICACIÓN DEL MODELO

● La liberación (deployment) es la etapa en la cual el modelo está listo


para producción. En aplicaciones de negocio, los resultados del
proceso de ciencia de datos tienen que ser asimilados dentro del
proceso de negocio. Por lo general en aplicaciones de software.

● La liberación a producción del modelo se encarga de verificar que el


modelo este listo, se integre, que tenga buen tiempo de respuesta, que
sea mantenible, etc.

534

190
18/04/2022

CONOCIMIENTO

● El proceso de ciencia de datos proporciona un marco para extraer


información no trivial de los datos.

● Para extraer conocimiento de estos activos de datos masivos, deben


emplearse enfoques avanzados, como algoritmos de ciencia de
datos, además de informes de inteligencia empresarial o análisis
estadístico.

● Aunque muchos de estos algoritmos pueden proporcionar un


conocimiento valioso, depende del profesional para transformar
hábilmente un problema comercial en un problema de datos y
aplicar el algoritmo correcto.

535

CONOCIMIENTO

● La Ciencia de datos, como cualquier otra tecnología, proporciona


varias opciones en términos de algoritmos y parámetros dentro del
algoritmos, El usar estas opciones para extraer la información correcta
de los datos es un poco de arte y se puede desarrollar con práctica.
● El proceso de ciencia de datos comienza con conocimiento previo y
termina con conocimiento posterior, lo cual es el conocimiento
incremental obtenido.
● Como con cualquier técnica cuantitativa, el proceso de ciencia de
datos puede mostrar patrones irrelevantes, dado que no todos los
patrones descubiertos conducen a un conocimiento incremental.
Nuevamente, corresponde al científico de datos invalidar los patrones
irrelevantes e
● identificar la información significativa.

536

191
18/04/2022

CONOCIMIENTO

● El impacto de la información obtenida a través de la ciencia de


datos se puede medir en una aplicación. Es la diferencia entre
obtener la información a través del proceso de ciencia de datos y
el ideas obtenidas a partir del análisis básico de datos.

● Finalmente, todo el proceso de ciencia de datos es un marco para


invocar las preguntas correctas (Chapman et al., 2000) y
proporcionar orientación, a través de los enfoques correctos, para
resolver un problema. No es para ser utilizado como un conjunto de
reglas rígidas, pero como un conjunto de pasos iterativos y distintos
que ayuda en el descubrimiento del conocimiento.

537

192

También podría gustarte