Data Mining

1.
3 APLICACIONES DE CAMPO
Los ejemplos que abrimos son proyectos de investigación especulativa, no sistemas de

producción. Y las cifras anteriores son problemas con los juguetes: se eligen deliberadamente
para que sean pequeñas, de modo que podamos usarlas para trabajar con algoritmos más
adelante en el libro. ¿Dónde está la carne? Aquí hay algunas aplicaciones de aprendizaje
automático que realmente se han puesto en uso.
Al tratarse de aplicaciones de campo, los ejemplos que siguen tienden a enfatizar el uso del
aprendizaje en situaciones de rendimiento, en el que el énfasis está en la capacidad de
desempeñarse bien en nuevos ejemplos. Este libro también describe el uso de los sistemas de
aprendizaje para obtener conocimiento de las estructuras de decisión que se deducen de los
datos. Creemos que esto es tan importante, probablemente incluso más importante a largo
plazo, para el uso de la tecnología como para hacer predicciones de alto rendimiento. Aun así,
tenderá a estar sub representado en las aplicaciones de campo porque cuando las técnicas de
aprendizaje se utilizan para obtener información, el resultado no es normalmente un sistema
que se pone en funcionamiento como una aplicación por derecho propio. Sin embargo, en tres
de los siguientes ejemplos, el hecho de que la estructura de decisión es comprensible es una
característica clave en la adopción exitosa de la aplicación.
Web Mining
La información minera en la World Wide Web es un área de crecimiento explosivo. Las

compañías de motores de búsqueda examinan los hipervínculos en las páginas web para
obtener una medida de "prestigio" para cada página web y sitio web. Los diccionarios definen
el prestigio como "alto prestigio logrado a través del éxito o la influencia". Una métrica llamada
PageRank, introducida por los fundadores de Google y también utilizada en varios aspectos por
otros desarrolladores de motores de búsqueda, intenta medir el prestigio de una página web.
Cuantas más páginas enlazan a su sitio web, mayor es su prestigio, especialmente si las páginas
que enlazan tienen un alto prestigio. La definición suena circular, pero puede hacerse
funcionar. Los motores de búsqueda utilizan PageRank (entre otras cosas) para ordenar las
páginas web en orden antes de mostrar los resultados de su búsqueda.
Otra forma en la que los motores de búsqueda abordan el problema de cómo clasificar las
páginas web es usar el aprendizaje automático basado en un conjunto de ejemplos de
consultas: documentos que contienen los términos de la consulta y juicios humanos acerca de
qué tan relevantes son los documentos para esa consulta. Luego, un algoritmo de aprendizaje
analiza estos datos de entrenamiento y encuentra una manera de predecir el juicio de
relevancia para cualquier documento y consulta. Para cada documento, se calcula un conjunto
de valores de características que dependen del término de la consulta, por ejemplo, si aparece
en la etiqueta del título, si aparece en la URL del documento, con qué frecuencia aparece en el
propio documento y con qué frecuencia. Aparece en el texto de anclaje de los hipervínculos
que apuntan al documento. Para consultas multiterm, las características incluyen la frecuencia
con la que dos términos diferentes aparecen cerca en el documento, y así sucesivamente. Hay
muchas características posibles: los algoritmos típicos para los rangos de aprendizaje utilizan
cientos o miles de ellos.
Los buscadores minan el contenido de la web. También extraen el contenido de sus consultas,
los términos que busca, para seleccionar anuncios que le puedan interesar. Tienen un fuerte
incentivo para hacerlo con precisión porque los anunciantes les pagan solo cuando los usuarios
hacen clic en sus enlaces. Las compañías de motores de búsqueda extraen sus clics porque la
próxima vez podrá utilizar el conocimiento de los resultados en los que hace clic para mejorar
la búsqueda. Los libreros en línea extraen la base de datos de compras para hacer
recomendaciones como "los usuarios que compraron este libro también compraron estos";
una vez más, tienen un fuerte incentivo para presentarle opciones atractivas y personalizadas.
Los sitios de películas recomiendan películas basadas en sus elecciones anteriores y las de
otras personas: ganan si hacen recomendaciones que hagan que los clientes regresen a su sitio
web.
Y luego están las redes sociales y otros datos personales. Vivimos en la era de la auto-
revelación: las personas comparten sus pensamientos más íntimos en blogs y tweets; sus
fotografías, sus gustos musicales y cinematográficos, sus opiniones sobre libros, software,
aparatos y hoteles; Su vida social. Es posible que crean que lo están haciendo de forma
anónima o pseudónima, pero a menudo son incorrectos. Existe un gran interés comercial en
ganar dinero mediante la minería de la Web.
Decisiones que involucran juicio (Decisions Involving Judgment)
Cuando solicita un préstamo, debe completar un cuestionario solicitando información

financiera y personal relevante. Esta información es utilizada por la compañía de préstamos
como base para su decisión de prestarle dinero. Tales decisiones se toman típicamente en dos
etapas. Primero, los métodos estadísticos se utilizan para determinar los casos claros de
"aceptar" y "rechazar". Los casos limítrofes restantes son más difíciles y requieren un juicio
humano.
Por ejemplo, una compañía de préstamos utiliza un procedimiento de decisión estadística para
calcular un parámetro numérico basado en la información suministrada en su cuestionario. Se
aceptan solicitantes si este parámetro excede un umbral preestablecido y se rechaza si cae por
debajo de un segundo umbral. Esto representa el 90% de los casos, y el 10% restante se refiere
a los oficiales de préstamo para una decisión. Sin embargo, al examinar los datos históricos
sobre si los solicitantes efectivamente reembolsaron sus préstamos, resultó que la mitad de los
solicitantes en el límite que recibieron préstamos realmente incumplieron. Si bien sería
tentador simplemente negar el crédito a los clientes que se encuentran en la frontera, los
profesionales de la industria crediticia señalan que, si solo se pudiera determinar de manera
confiable su futuro de reembolso, son precisamente estos clientes cuyo negocio debe ser
cortejado; Tienden a ser clientes activos de una entidad de crédito porque sus finanzas
permanecen en una condición de volatilidad crónica. Se debe alcanzar un compromiso
adecuado entre el punto de vista de un contador de la empresa, a quien no le gustan las
deudas incobrables, y el de un ejecutivo de ventas, a quien no le gusta rechazar el negocio.
Introduzca aprendizaje automático. El aporte fue de 1000 ejemplos de capacitación de casos

límite para los cuales se había realizado un préstamo que especificaba si el prestatario
finalmente había pagado o incumplido. Para cada ejemplo de capacitación, se extrajeron
aproximadamente 20 atributos del cuestionario, como edad, años con el empleador actual,
años en la dirección actual, años con el banco y otras tarjetas de crédito que posee. Se usó un
procedimiento de aprendizaje automático para producir un pequeño conjunto de reglas de
clasificación que hicieron predicciones correctas en dos tercios de los casos límite en un
conjunto de pruebas elegido independientemente. Estas reglas no solo mejoraron la tasa de
éxito de las decisiones de préstamo, sino que la compañía también las encontró atractivas
porque podrían usarse para explicar a los solicitantes las razones detrás de la decisión. Aunque
el proyecto era exploratorio y requería solo un pequeño esfuerzo de desarrollo, la compañía
de préstamos estaba aparentemente tan complacida con el resultado que las reglas se
pusieron en uso de inmediato.
Imágenes de proyección (Screening Images)
Desde los primeros días de la tecnología satelital, los científicos ambientales han estado
tratando de detectar las manchas de petróleo de las imágenes satelitales para advertir sobre
desastres ecológicos y evitar el vertido ilegal. Los satélites de radar proporcionan una
oportunidad para monitorear las aguas costeras día y noche, independientemente de las
condiciones climáticas. Las manchas de aceite aparecen como regiones oscuras en la imagen,
cuyo tamaño y forma evolucionan según el clima y las condiciones del mar. Sin embargo, otras
regiones oscuras de aspecto similar pueden ser causadas por condiciones climáticas locales,
como vientos fuertes. La detección de manchas de aceite es un proceso manual costoso que
requiere personal altamente capacitado que evalúa cada región en la imagen.
Se ha desarrollado un sistema de detección de peligros para visualizar imágenes para su

posterior procesamiento manual. Diseñado para ser comercializado en todo el mundo para
una amplia variedad de usuarios, agencias gubernamentales y empresas, con diferentes
objetivos, aplicaciones y áreas geográficas, este sistema debe ser altamente adaptable a las
circunstancias individuales. El aprendizaje automático permite que el sistema reciba
capacitación sobre ejemplos de derrames y no derrames suministrados por el usuario y
permite que el usuario controle la compensación entre derrames no detectados y falsas
alarmas. A diferencia de otras aplicaciones de aprendizaje automático, que generan un
clasificador que luego se implementa en el campo, aquí es el esquema de aprendizaje que se
implementará.
La entrada es un conjunto de imágenes de píxeles sin procesar de un satélite de radar, y la

salida es un conjunto de imágenes mucho más pequeño con supuestas manchas de aceite
marcadas con un borde de color. Primero, las operaciones estándar de procesamiento de
imágenes se aplican para normalizar la imagen. Luego se identifican las regiones oscuras
sospechosas. Se extraen varias docenas de atributos de cada región, caracterizando su
tamaño, forma, área, intensidad, nitidez y irregularidad de los límites, proximidad a otras
regiones e información sobre el fondo en las cercanías de la región. Finalmente, las técnicas de
aprendizaje estándar se aplican a los vectores de atributos resultantes.
Se encontraron varios problemas interesantes. Uno fue la escasez de datos de entrenamiento.

Las manchas de aceite son (afortunadamente) muy raras, y la clasificación manual es
extremadamente costosa. Otra fue la naturaleza desequilibrada del problema: de las muchas
regiones oscuras en los datos de entrenamiento, solo una fracción muy pequeña eran manchas
de aceite reales. Un tercero es que los ejemplos se agrupan naturalmente en lotes, con
regiones dibujadas de cada imagen que forman un solo lote, y las características de fondo
varían de un lote a otro. Finalmente, la tarea de rendimiento era servir como un filtro, y el
usuario tenía que proporcionar un medio conveniente para variar la tasa de falsas alarmas.
Pronóstico de carga (Load Forecasting)
En la industria del suministro de electricidad, es importante determinar la demanda futura de

energía con la mayor antelación posible. Si se pueden realizar estimaciones precisas para la
carga máxima y mínima para cada hora, día, mes, temporada y año, las empresas de servicios
públicos pueden hacer economías importantes en áreas como la configuración de la reserva
operativa, la programación de mantenimiento y la gestión del inventario de combustible.
Un asistente de pronóstico de carga automatizado ha estado operando en un importante
proveedor de servicios públicos durante más de una década para generar pronósticos por hora
con dos días de anticipación. El primer paso fue utilizar los datos recopilados durante los 15
años anteriores para crear un modelo de carga sofisticado manualmente. Este modelo tenía
tres componentes: carga base para el año, periodicidad de la carga durante el año y el efecto
de las vacaciones. Para normalizar la carga base, los datos de cada año anterior se
estandarizaron restando la carga promedio de ese año de cada lectura por hora y dividiendo
por la desviación estándar a lo largo del año.
La carga eléctrica muestra la periodicidad en tres frecuencias fundamentales: diurno, donde el

uso tiene un mínimo temprano en la mañana y un máximo de mediodía y tarde; semanal,
donde la demanda es menor los fines de semana; y estacional, donde la mayor demanda
durante el invierno y el verano de calefacción y refrigeración, respectivamente, crea un ciclo
anual. Los principales días festivos, como el Día de Acción de Gracias, Navidad y Año Nuevo,
muestran una variación significativa con respecto a la carga normal y se modelan por separado
promediando las cargas por hora de ese día en los últimos 15 años. Los días feriados oficiales
menores, como el Día de Colón, se agrupan como vacaciones escolares y se tratan como una
compensación al patrón diurno normal. Todos estos efectos se incorporan reconstruyendo la
carga de un año como una secuencia de días típicos, ajustando los días festivos en su posición
correcta y des normalizando la carga para tener en cuenta el crecimiento general.
Hasta ahora, el modelo de carga es estático, construido manualmente a partir de datos

históricos, y asume implícitamente condiciones climáticas "normales" a lo largo del año. El
paso final fue tener en cuenta las condiciones climáticas al ubicar el día anterior más similar a
las circunstancias actuales y usar la información histórica de ese día como predictor. La
predicción se trata como una corrección aditiva al modelo de carga estática. Para protegerse
contra los valores atípicos, se ubican los ocho días más similares y se promedian sus
correcciones aditivas. Se construyó una base de datos de temperatura, humedad, velocidad
del viento y cubierta de nubes en tres centros meteorológicos locales por cada hora del
registro histórico de 15 años, junto con la diferencia entre la carga real y la predicha por el
modelo estático. Se realizó un análisis de regresión lineal para determinar los efectos relativos
de estos parámetros sobre la carga, y los coeficientes se utilizaron para ponderar la función de
distancia utilizada para ubicar los días más similares. El sistema resultante produjo el mismo
rendimiento que los pronosticadores humanos capacitados, pero fue mucho más rápido,
demorando segundos en lugar de horas para generar un pronóstico diario. Los operadores
humanos pueden analizar la sensibilidad del pronóstico a los cambios simulados en el clima y
mostrar los días "más similares" que el sistema utilizó para el ajuste del clima.
Diagnóstico (Diagnosis)
El diagnóstico es una de las principales áreas de aplicación de los sistemas expertos. Aunque
las reglas hechas a mano que se usan en sistemas expertos a menudo tienen un buen
desempeño, el aprendizaje automático puede ser útil en situaciones en las que la producción
manual de reglas requiere demasiado trabajo.
El mantenimiento preventivo de dispositivos electromecánicos como motores y generadores

puede prevenir fallas que interrumpan los procesos industriales. Los técnicos inspeccionan
regularmente cada dispositivo y miden las vibraciones en varios puntos para determinar si el
dispositivo necesita mantenimiento. Las fallas típicas incluyen desalineación del eje,
aflojamiento mecánico, rodamientos defectuosos y bombas desequilibradas. Una planta
química particular utiliza más de 1000 dispositivos diferentes, que van desde bombas
pequeñas a turbo-alternadores muy grandes, que hasta hace poco fueron diagnosticados por
un experto humano con 20 años o más de experiencia. Las fallas se identifican midiendo las
vibraciones en diferentes lugares en el montaje del dispositivo y utilizando el análisis de
Fourier para verificar la energía presente en tres direcciones diferentes en cada armónica de la
velocidad de rotación básica. El experto estudia esta información, que es muy ruidosa debido a
las limitaciones en el procedimiento de medición y registro, para llegar a un diagnóstico.
Aunque las reglas del sistema experto hechas a mano se habían desarrollado para algunas
situaciones, el proceso de obtención tendría que repetirse varias veces para diferentes tipos de
maquinaria; por lo que se investigó un enfoque de aprendizaje.
Se dispone de seiscientas fallas, cada una de las cuales incluye un conjunto de mediciones
junto con el diagnóstico del experto, lo que representa 20 años de experiencia. Alrededor de la
mitad eran insatisfactorios por varias razones y tuvieron que ser descartados; el resto se
utilizaron como ejemplos de entrenamiento. El objetivo no era determinar si existía o no un
fallo, sino diagnosticar el tipo de fallo, dado que uno estaba allí. Por lo tanto, no era necesario
incluir casos libres de fallas en el conjunto de capacitación. Los atributos medidos tenían un
nivel bastante bajo y debían aumentarse con conceptos intermedios, es decir, funciones de los
atributos básicos, que se definieron en consulta con el experto e incorporaban algún
conocimiento del dominio causal. Los atributos derivados se ejecutaron a través de un
algoritmo de inducción para producir un conjunto de reglas de diagnóstico. Inicialmente, el
experto no estaba satisfecho con las reglas porque no podía relacionarlas con su propio
conocimiento y experiencia. Para él, la mera evidencia estadística no era, por sí misma, una
explicación adecuada. Se debían utilizar más conocimientos de fondo antes de generar reglas
satisfactorias. Aunque las reglas resultantes eran bastante complejas, al experto le gustaron
porque podía justificarlas a la luz de su conocimiento mecánico. Estaba complacido de que un
tercio de las reglas coincidiera con las que él mismo usaba y estaba encantado de obtener una
nueva perspectiva de algunos de los demás.
Las pruebas de rendimiento indicaron que las reglas aprendidas eran ligeramente superiores a
las artesanales que previamente se habían obtenido del experto, y este resultado fue
confirmado por el uso posterior en la fábrica química. Es interesante observar, sin embargo,
que el sistema se puso en uso no debido a su buen desempeño, sino porque el experto en
dominios aprobó las reglas que se habían aprendido.
Marketing y ventas (Marketing and Sales)
Algunas de las aplicaciones más activas de la minería de datos han sido en el área de marketing
y ventas. Estos son dominios en los que las empresas poseen volúmenes masivos de datos
grabados con precisión, lo que, recientemente se ha realizado, es potencialmente
extremadamente valioso. En estas aplicaciones, las predicciones en sí mismas son el interés
principal: la estructura de cómo se toman las decisiones a menudo es completamente
irrelevante.
Ya hemos mencionado el problema de la falta de fidelidad de los clientes y el desafío de

detectar a los clientes que probablemente deserten para que puedan volver a caer en el redil
dándoles un tratamiento especial. Los bancos fueron los primeros en adoptar la tecnología de
minería de datos debido a sus éxitos en el uso del aprendizaje automático para la evaluación
de crédito. La minería de datos ahora se está utilizando para reducir el desgaste de los clientes
al detectar cambios en los patrones bancarios individuales que pueden anunciar un cambio en
el banco, o incluso cambios en la vida, como un traslado a otra ciudad, que puede resultar en
la elección de un banco diferente. Puede revelar, por ejemplo, un grupo de clientes con una
tasa de deserción de cobertura superior que realizan la mayoría de sus operaciones bancarias
por teléfono después de las horas cuando la respuesta telefónica es lenta. La minería de datos
puede determinar los grupos para los cuales los nuevos servicios son apropiados, como un
grupo de clientes confiables y rentables que rara vez obtienen adelantos en efectivo de sus
tarjetas de crédito, excepto en noviembre y diciembre, cuando están preparados para pagar
tasas de interés exorbitantes para verlos a través de temporada de vacaciones.
En otro dominio, las compañías de teléfonos celulares luchan contra la pérdida de clientes al
detectar patrones de comportamiento que podrían beneficiarse de los nuevos servicios y luego
publicitan dichos servicios para conservar su base de clientes. Los incentivos proporcionados
específicamente para retener a los clientes existentes pueden ser costosos, y la minería de
datos exitosa les permite dirigirse de manera precisa a aquellos clientes que probablemente
obtengan el máximo beneficio.
El análisis de la canasta de mercado es el uso de técnicas de asociación para encontrar grupos

de artículos que tienden a ocurrir juntos en las transacciones, por lo general, datos de pago en
supermercados. Para muchos minoristas, esta es la única fuente de información de ventas que
está disponible para la extracción de datos. Por ejemplo, el análisis automatizado de los datos
de pago puede revelar el hecho de que los clientes que compran cerveza también compran
chips, un descubrimiento que podría ser significativo desde el punto de vista del operador del
supermercado (aunque es bastante obvio y probablemente no necesite un ejercicio de minería
de datos para descubrir). O el análisis puede llegar al hecho de que los jueves los clientes a
menudo compran pañales y cerveza juntos, un resultado inicialmente sorprendente que, al
reflexionar, tiene sentido cuando los padres jóvenes se abastecen para un fin de semana en
casa. Dicha información podría usarse para muchos propósitos: planificar diseños de tiendas,
limitar descuentos especiales a solo uno de un conjunto de artículos que tienden a comprarse
juntos, ofrecer cupones para un producto que coincida cuando uno de ellos se vende solo, y así
sucesivamente.
Existe un enorme valor agregado al poder identificar los historiales de ventas de clientes
individuales. Las tarjetas de descuento o de "fidelidad" permiten a los minoristas identificar
todas las compras que hace cada cliente individual. Estos datos personales son mucho más
valiosos que el valor en efectivo del descuento. La identificación de clientes individuales no
solo permite el análisis histórico de los patrones de compra, sino que también permite que se
envíen a los clientes potenciales ofertas especiales dirigidas con precisión, o quizás se puedan
imprimir cupones personalizados en tiempo real en la caja para su uso durante la próxima
compra. Los supermercados quieren que usted sienta que, aunque vivamos en un mundo de
precios que aumentan de manera inexorable, no aumentan tanto para usted porque las
ofertas que ofrecen los cupones personalizados lo hacen atractivo para que pueda abastecerse
de cosas que normalmente no disfrutaría. Ha comprado.
El marketing directo es otro dominio popular para la minería de datos. Las ofertas
promocionales de correo masivo son caras y tienen una tasa de respuesta baja, pero
altamente rentable. Cualquier cosa que ayude a enfocar las promociones, logrando la misma o
casi la misma respuesta de una muestra más pequeña, es valiosa. Las bases de datos
disponibles comercialmente que contienen información demográfica que caracteriza a los
vecindarios basados en códigos postales se pueden correlacionar con la información sobre los
clientes existentes para predecir qué tipo de personas podrían comprar qué artículos. Este
modelo puede probarse con la información obtenida en respuesta a un envío inicial, donde las
personas envían una tarjeta de respuesta o llaman a un número 800 para obtener más
información, para predecir posibles clientes futuros. A diferencia de los minoristas de centros
comerciales, las compañías de correo directo tienen historiales de compras completos para
cada cliente individual y pueden usar la minería de datos para determinar las probabilidades
de responder a ofertas especiales. Las campañas dirigidas ahorran dinero al dirigir las ofertas
solo a aquellos que probablemente quieran el producto.
Otras aplicaciones
Existen innumerables otras aplicaciones de aprendizaje automático. Mencionamos

brevemente algunas áreas más para ilustrar la amplitud de lo que se ha hecho.
Los procesos de fabricación sofisticados a menudo implican ajustar los parámetros de control.
Separar el petróleo crudo del gas natural es un requisito previo esencial para el refinamiento
del petróleo, y controlar el proceso de separación es un trabajo difícil. British Petroleum utilizó
el aprendizaje automático para crear reglas para establecer los parámetros. Esto ahora toma
solo 10 minutos, mientras que los expertos humanos tomaron más de un día. Westinghouse
enfrentó problemas en su proceso para fabricar pellets de combustible nuclear y usó el
aprendizaje automático para crear reglas para controlar el proceso. Se informó que esto les
había ahorrado más de $ 10 millones por año (en 1984). La empresa de impresión de
Tennessee R. R. Donnelly aplicó la misma idea para controlar las impresoras de huecograbado
para reducir los artefactos causados por ajustes de parámetros inapropiados, reduciendo la
cantidad de artefactos de más de 500 cada año a menos de 30.
En el ámbito de la atención al cliente y el servicio, ya hemos descrito la adjudicación de

préstamos y aplicaciones de marketing y ventas. Otro ejemplo surge cuando un cliente informa
un problema telefónico y la empresa debe decidir qué tipo de técnico asignar al trabajo. Un
sistema experto desarrollado por Bell Atlantic en 1991 para tomar esta decisión fue
reemplazado en 1999 por una serie de reglas desarrolladas utilizando el aprendizaje
automático, que ahorraron más de $ 10 millones por año al tomar menos decisiones
incorrectas.
Hay muchas aplicaciones científicas. En biología, el aprendizaje automático se utiliza para

ayudar a identificar los miles de genes dentro de cada nuevo genoma. En biomedicina, se usa
para predecir la actividad del fármaco mediante el análisis no solo de las propiedades químicas
de los fármacos, sino también de su estructura tridimensional. Esto acelera el descubrimiento
de fármacos y reduce su costo. En astronomía, el aprendizaje automático se ha utilizado para
desarrollar un sistema de catalogación completamente automático para objetos celestes que
son demasiado débiles para ser vistos por inspección visual. En química, se ha utilizado para
predecir la estructura de ciertos compuestos orgánicos a partir de espectros de resonancia
magnética. En todas estas aplicaciones, las técnicas de aprendizaje automático han alcanzado
niveles de rendimiento (¿o deberíamos decir habilidad?) Que rivalizan o superan a los de los
expertos humanos.
La automatización es especialmente bienvenida en situaciones que involucran monitoreo

continuo, un trabajo que consume mucho tiempo y es excepcionalmente tedioso para los
humanos. Las aplicaciones ecológicas incluyen el monitoreo de derrames de petróleo descrito
anteriormente. Otras aplicaciones tienen menos consecuencias: por ejemplo, el aprendizaje
automático se utiliza para predecir las preferencias de los programas de TV según las
elecciones anteriores y para asesorar a los espectadores sobre los canales disponibles. Otras
aplicaciones pueden salvar vidas. Los pacientes de cuidados intensivos pueden ser
monitoreados para detectar cambios en las variables que no pueden explicarse por el ritmo
circadiano, la medicación, etc., lo que genera una alarma cuando corresponde. Finalmente, en
un mundo que se basa en sistemas informáticos en red vulnerables y está cada vez más
preocupado por la ciberseguridad, el aprendizaje automático se utiliza para detectar
intrusiones al reconocer patrones de operación inusuales.
Aprendizaje de máquinas y estadísticas

¿Cuál es la diferencia entre aprendizaje automático y estadística? Los cínicos,
observando con ironía la explosión del interés comercial (y la publicidad) en esta área,
equiparan la extracción de datos con las estadísticas más el marketing. En verdad, no
debe buscar una línea divisoria entre el aprendizaje automático y las estadísticas, ya que
existe un continuo, y otro multidimensional, de técnicas de análisis de datos. Algunos se
derivan de las habilidades que se enseñan en los cursos de estadística estándar, y otros
están más estrechamente relacionados con el tipo de aprendizaje automático que ha
surgido de la informática. Históricamente, las dos partes han tenido tradiciones bastante
diferentes. Si se le obliga a señalar una única diferencia de énfasis, podría ser que las
estadísticas se hayan preocupado más por probar las hipótesis, mientras que el
aprendizaje automático se ha preocupado más por formular el proceso de generalización
como una búsqueda de posibles hipótesis. Pero esto es una gran simplificación: las
estadísticas son mucho más que simples pruebas de hipótesis, y muchas técnicas de
aprendizaje automático no implican ninguna búsqueda.
En el pasado, se han desarrollado esquemas muy similares en paralelo en aprendizaje
automático y estadísticas. Una es la inducción del árbol de decisión. Cuatro estadísticos
(Breiman et al., 1984) publicaron un libro, Clasificación y árboles de regresión, a
mediados de los años 80, y durante los años 70 y principios de los 80 un destacado
investigador del aprendizaje automático, J. Ross Quinlan, estaba desarrollando un
sistema para inferir la clasificación. árboles de ejemplos. Estos dos proyectos
independientes produjeron esquemas bastante similares para generar árboles a partir de
ejemplos, y los investigadores solo se dieron cuenta del trabajo de los demás mucho
más tarde.
Una segunda área donde han surgido métodos similares implica el uso de métodos más
cercanos para la clasificación. Estas son técnicas estadísticas estándar que han sido
ampliamente adaptadas por los investigadores de aprendizaje automático, tanto para
mejorar el rendimiento de clasificación como para hacer que el procedimiento sea más
eficiente computacionalmente. Examinaremos los métodos de inducción del árbol de
decisión y los métodos del vecino más cercano en el Capítulo 4.
Pero ahora las dos perspectivas han convergido. Las técnicas que examinaremos en este
libro incorporan una gran cantidad de pensamiento estadístico. Desde el principio, al
construir y refinar el conjunto de ejemplos inicial, se aplican los métodos estadísticos
estándar: visualización de datos, selección de atributos, descarte de valores atípicos, etc.
La mayoría de los algoritmos de aprendizaje utilizan pruebas estadísticas al construir
reglas o árboles y para corregir los modelos que están "sobre adaptados", ya que
dependen demasiado de los detalles de los ejemplos particulares utilizados para
producirlos (ya hemos visto un ejemplo de esto en los dos árboles de decisión en la
Figura 1.3 para el problema de las negociaciones laborales). Las pruebas estadísticas se
utilizan para validar los modelos de aprendizaje automático y para evaluar los
algoritmos de aprendizaje automático. En nuestro estudio de técnicas prácticas para la
minería de datos, aprenderemos mucho sobre estadísticas.
La generalización como búsqueda

Una forma de visualizar el problema del aprendizaje, y otra que lo distingue de los
enfoques estadísticos, es imaginar una búsqueda a través de un espacio de posibles
descripciones de conceptos para una que se ajuste a los datos. Si bien la idea de
generalización como búsqueda es una poderosa herramienta conceptual para pensar
sobre el aprendizaje automático, no es esencial para comprender los esquemas prácticos
descritos en este libro. Es por eso que esta sección está separada (en un recuadro), lo
que sugiere que es opcional.
Supongamos, en definitiva, que las descripciones de los conceptos — el resultado del
aprendizaje — se expresan como reglas como las que se dan para el problema del clima
en la Sección 1.2 (aunque otros lenguajes de descripción de los conceptos lo harían
también). Supongamos que enumeramos todos los conjuntos posibles de reglas y luego
buscamos las que satisfacen un conjunto dado de ejemplos. ¿Un gran trabajo? Sí. ¿Un
trabajo infinito? A primera vista parece que sí, porque no hay límite en el número de
reglas que puede haber. Pero en realidad el número de posibles conjuntos de reglas es
finito. En primer lugar, tenga en cuenta que cada regla no es mayor que un tamaño
máximo fijo, con un máximo de un término para cada atributo: Para los datos
meteorológicos de la Tabla 1.2, esto implica cuatro términos en total.
Debido a que el número de reglas posibles es finito, el número de conjuntos de reglas
posibles también es finito, aunque extremadamente grande. Sin embargo, difícilmente
nos interesarían los conjuntos que contenían una gran cantidad de reglas. De hecho,
difícilmente nos interesarían los conjuntos que tenían más reglas que ejemplos, porque
es difícil imaginar que se necesite más de una regla para cada ejemplo. Entonces, si
tuviéramos que restringir la consideración a conjuntos de reglas más pequeños, el
problema se reduciría sustancialmente, aunque aún sería muy grande.
La amenaza de un número infinito de descripciones de conceptos posibles parece más
grave para la segunda versión del problema del clima en la Tabla 1.3 porque estas reglas
contienen números. Si son números reales, no puedes enumerarlos, ni siquiera en
principio. Sin embargo, al reflexionar, el problema vuelve a desaparecer porque los
números realmente solo representan puntos de interrupción en los valores numéricos
que aparecen en los ejemplos. Por ejemplo, considere el atributo de temperatura en la
Tabla 1.3. Se trata de los números 64, 65, 68, 69, 70, 71, 72, 75, 80, 81, 83 y 85 —12
números diferentes. Hay 13 lugares posibles en los que podríamos querer poner un
punto de interrupción para una regla relacionada con la temperatura. El problema no es
infinito después de todo.
Por lo tanto, el proceso de generalización puede considerarse como una búsqueda a
través de un espacio de búsqueda enorme, pero finito. En principio, el problema se
puede resolver enumerando las descripciones y eliminando las que no se ajustan a los
ejemplos presentados. Un ejemplo positivo elimina todas las descripciones con las que
no coincide, y una negativa elimina aquellas con las que sí coincide. Con cada ejemplo,
el conjunto de descripciones restantes se reduce (o permanece igual). Si solo queda uno,
es la descripción del objetivo, el concepto del objetivo. Si se dejan varias descripciones,
todavía se pueden usar para clasificar objetos desconocidos. Un objeto desconocido que
coincida con todas las descripciones restantes debe clasificarse como coincidente con el
objetivo; si no coincide con ninguna descripción, debe clasificarse como fuera del
concepto objetivo. Solo cuando coincide con algunas descripciones, pero no con otras
hay ambigüedad. En este caso, si la clasificación del objeto desconocido fuera revelada,
causaría el conjunto de descripciones restantes se reducirá porque los conjuntos de
reglas que clasificaron el objeto de forma incorrecta serían rechazados.
Enumerar el espacio conceptual

Considerarlo como una búsqueda es una buena manera de ver el proceso de aprendizaje.
Sin embargo, el espacio de búsqueda, aunque finito, es extremadamente grande, y en
general no es práctico enumerar todas las descripciones posibles y luego ver cuáles
encajan. En el problema del clima hay 4 × 4 × 3 × 3 × 2 = 288 posibilidades para cada
regla. Hay cuatro posibilidades para el atributo de perspectiva: soleado, cubierto,
lluvioso, o puede que no participe en la regla en absoluto. De manera similar, hay cuatro
para la temperatura, tres para el viento y la humedad y dos para la clase. Si restringimos
el conjunto de reglas para que no contenga más de 14 reglas (porque hay 14 ejemplos en
el conjunto de entrenamiento), hay alrededor de 2.7 × 1034 posibles conjuntos de reglas
diferentes. Eso es mucho para enumerar, especialmente para un problema tan trivial.
Si bien hay maneras de hacer que el procedimiento de enumeración sea más factible,
sigue existiendo un problema grave: en la práctica, es raro que el proceso converja en
una descripción única aceptable. O bien muchas descripciones aún se están ejecutando
después de que se procesen los ejemplos o se eliminen todos los descriptores. El primer
caso surge cuando los ejemplos no son lo suficientemente completos como para
eliminar todas las descripciones posibles, excepto la "correcta". En la práctica, las
personas a menudo desean una única "mejor" descripción, y es necesario aplicar
algunos otros criterios para seleccionar el mejor del conjunto de descripciones restantes.
El segundo problema surge porque el lenguaje de descripción no es lo suficientemente
expresivo como para captar el concepto real o por el ruido en los ejemplos. Si llega un
ejemplo con la clasificación "incorrecta" debido a un error en algunos de los valores de
atributo o en la clase que se le asigna, esto probablemente eliminará la descripción
correcta del espacio. El resultado es que el conjunto de descripciones restantes se vuelve
vacío. Esta situación es muy probable que ocurra si los ejemplos contienen algún ruido,
lo que inevitablemente lo hacen, excepto en situaciones artificiales.
Otra forma de ver la generalización como búsqueda es imaginarla no como un proceso
de enumeración de descripciones y tachado de aquellas que no se aplican, sino como
una especie de escalada en el espacio de descripción para encontrar la descripción que
mejor coincida con el conjunto de ejemplos de acuerdo con a algún criterio de
coincidencia pre especificado. Esta es la forma en que funcionan los métodos de
aprendizaje automático más prácticos. Sin embargo, excepto en los casos más triviales,
no es práctico buscar exhaustivamente en todo el espacio; la mayoría de los algoritmos
prácticos implican la búsqueda heurística y no pueden garantizar encontrar la
descripción óptima.
Parcialidad
• El lenguaje de descripción del concepto.
• El orden en que se busca el espacio.
• La forma en que se evita el exceso de ajuste a los datos de entrenamiento particulares
Estas tres propiedades generalmente se denominan sesgo de la búsqueda y se
denominan sesgo de idioma, sesgo de búsqueda y sesgo de evitación de
sobrealimentación. Usted sesga el esquema de aprendizaje al elegir un lenguaje en el
que expresar conceptos, al buscar de manera particular una descripción aceptable y al
decidir cuándo el concepto se ha vuelto tan complejo que debe simplificarse.
Lenguaje de sesgo
La pregunta más importante para el sesgo del lenguaje es si el lenguaje de descripción
de conceptos es universal o si impone restricciones sobre qué conceptos se pueden
aprender. Si considera el conjunto de todos los ejemplos posibles, un concepto es
realmente una división de ese conjunto en subconjuntos. En el ejemplo del clima, si
tuviera que enumerar todas las condiciones climáticas posibles, el concepto de juego es
un subconjunto de las posibles condiciones climáticas. Un lenguaje "universal" es uno
que es capaz de expresar cada posible subconjunto de ejemplos. En la práctica, el
conjunto de posibles ejemplos es generalmente enorme, y en este sentido nuestra
perspectiva es teórica, no práctica.
Si el lenguaje de descripción de conceptos permite sentencias que involucran lógicas o,
es decir, disyunciones, entonces se puede representar cualquier subconjunto. Si el
lenguaje de descripción está basado en reglas, la disyunción se puede lograr usando
reglas separadas. Por ejemplo, una posible representación de concepto es simplemente
enumerar los ejemplos:
Si perspectiva = nublado y temperatura = calor y humedad = alto
Y ventoso = falso entonces juega = sí
Si perspectiva = lluvioso y temperatura = suave y humedad = alto
Si perspectiva = lluvioso y temperatura = fresco y humedad = normal
Si perspectiva = nublado y temperatura = fresco y humedad = normal
Y ventoso = cierto entonces juega = sí
...
Si ninguno de los anteriores entonces juega = no
Esta no es una descripción del concepto particularmente esclarecedor: simplemente
registra los ejemplos positivos que se han observado y supone que todos los demás son
negativos. Cada ejemplo positivo recibe su propia regla, y el concepto es la separación
de las reglas. Alternativamente, también puede imaginar tener reglas individuales para
cada uno de los ejemplos negativos, un concepto igualmente interesante. En cualquier
caso, la descripción del concepto no realiza ninguna generalización; simplemente
registra los datos originales.
Por otro lado, si la disyunción no está permitida, es posible que algunos conceptos
posibles (conjuntos de ejemplos) no puedan representarse en absoluto. En ese caso, un
esquema de aprendizaje automático puede ser simplemente incapaz de lograr un buen
rendimiento.
Otro tipo de sesgo de lenguaje es el que se obtiene del conocimiento del dominio
particular que se está utilizando. Por ejemplo, puede ser que algunas combinaciones de
valores de atributos nunca puedan suceder. Este sería el caso si un atributo implicara
otro. Vimos un ejemplo de esto al considerar las reglas para el problema de la soja que
se describen en la Sección 1.2. Entonces, sería inútil incluso considerar conceptos que
involucren combinaciones redundantes o imposibles de valores de atributo. El
conocimiento del dominio se puede utilizar para reducir el espacio de búsqueda. El
conocimiento es poder: un poco va muy lejos, e incluso un pequeño indicio puede
reducir el espacio de búsqueda dramáticamente.
Sesgo de búsqueda
En los problemas de minería de datos realistas, hay muchas descripciones de conceptos
alternativos que se ajustan a los datos, y el problema es encontrar la "mejor" según un
criterio, generalmente la simplicidad. Utilizamos el término ajuste en un sentido
estadístico; Buscamos la mejor descripción que se ajuste a los datos razonablemente
bien. Además, a menudo es computacionalmente imposible buscar en todo el espacio y
garantizar que la descripción encontrada sea realmente la mejor. En consecuencia, el
procedimiento de búsqueda es heurístico, y no se pueden ofrecer garantías sobre la
óptima calidad del resultado final. Esto deja mucho margen para el sesgo: diferentes
heurísticas de búsqueda sesgan la búsqueda de diferentes maneras.
Por ejemplo, un algoritmo de aprendizaje podría adoptar una búsqueda "codiciosa" de
reglas al tratar de encontrar la mejor regla en cada etapa y agregarla al conjunto de
reglas. Sin embargo, puede ser que el mejor par de reglas no sean solo las dos reglas que
mejor se encuentran individualmente. O al crear un árbol de decisión, un compromiso
de dividirse temprano usando un atributo en particular puede resultar poco considerado
a la luz de cómo se desarrolla el árbol debajo de ese nodo. Para solucionar estos
problemas, se puede utilizar una búsqueda de haz donde no se realizan compromisos
irrevocables, sino que en lugar de ello se realiza un conjunto de varias alternativas
activas, cuyo número es el ancho del haz, se realizan en paralelo. Esto complicará
considerablemente el algoritmo de aprendizaje, pero tiene el potencial de evitar la
miopía asociada con una búsqueda codiciosa. Por supuesto, si el ancho del haz no es lo
suficientemente grande, todavía puede ocurrir la miopía. Existen estrategias de
búsqueda más complejas que ayudan a superar este problema.
Un tipo de sesgo de búsqueda más general y de mayor nivel se refiere a si la búsqueda
se realiza comenzando con una descripción general y refinándola o comenzando con un
ejemplo específico y generalizándolo. El primero se denomina sesgo de búsqueda
general a específico; este último, uno específico-a-general. Muchos algoritmos de
aprendizaje adoptan la política anterior, comenzando con un árbol de decisiones vacío o
una regla muy general, y especializándolo para que se ajuste a los ejemplos. Sin
embargo, es perfectamente posible trabajar en la otra dirección. Los métodos basados en
instancias comienzan con un ejemplo particular y ven cómo se puede generalizar para
cubrir otros ejemplos cercanos en la misma clase.
Sesgo de sobreajuste y evitación

El sesgo de evitación de sobrealimentación es a menudo simplemente otro tipo de sesgo
de búsqueda. Sin embargo, debido a que aborda un problema bastante especial, lo
tratamos por separado. Recuerde el problema de disyunción descrito anteriormente. El
problema es que, si se permite la disyunción, las descripciones inútiles de los conceptos
que simplemente resumen los datos se vuelven posibles, mientras que, si están
prohibidas, algunos conceptos no se pueden aprender. Para solucionar este problema, es
común buscar en el espacio de conceptos comenzando con las descripciones de
conceptos más simples y procediendo a otras más complejas: la ordenación más simple
primero. Esto sesga la búsqueda a favor de descripciones de conceptos simples.
Utilizar una búsqueda simple y detenerse primero cuando se encuentra una descripción
de concepto suficientemente compleja es una buena forma de evitar el sobreajuste. A
veces se le llama poda hacia adelante porque las descripciones complejas se eliminan
antes de alcanzarlas. La alternativa, poda hacia atrás o post-poda, también es viable.
Aquí, primero encontramos una descripción que se ajusta bien a los datos y luego la
recortamos a una descripción más simple que también se ajusta a los datos. Esto no es
tan redundante como parece: a menudo, la mejor manera de llegar a una teoría simple es
encontrar una compleja y luego simplificarla. Las podas hacia adelante y hacia atrás son
a la vez un tipo de sesgo de evitación de sobrealimentación.
En resumen, aunque la generalización como búsqueda es una buena forma de pensar
sobre el problema de aprendizaje, el sesgo es la única forma de hacerlo posible en la
práctica. Diferentes algoritmos de aprendizaje corresponden a diferentes espacios de
descripción de conceptos buscados con diferentes sesgos. Esto es lo que lo hace
interesante: los diferentes lenguajes de descripción y sesgos sirven bien para algunos
problemas y para otros. No existe un "mejor" método de aprendizaje universal, ¡como
todos los maestros saben!
Minería de datos y ética

El uso de datos, en particular datos sobre personas, para la extracción de datos tiene
serias implicaciones éticas, y los profesionales de las técnicas de extracción de datos
deben actuar de manera responsable al tomar conciencia de los problemas éticos que
rodean a su aplicación particular.
Cuando se aplica a las personas, la extracción de datos se utiliza con frecuencia para
discriminar: quién obtiene el préstamo, quién recibe la oferta especial, etc. Ciertos tipos
de discriminación (racial, sexual, religiosa, etc.) no solo son poco éticas sino también
ilegales. Sin embargo, la situación es compleja: todo depende de la aplicación. El uso de
información sexual y racial para el diagnóstico médico es ciertamente ético, pero el uso
de la misma información cuando el comportamiento de pago de un préstamo minero no
lo es. Incluso cuando se descarta información confidencial, existe el riesgo de que se
construyan modelos que se basen en variables que pueden demostrarse que sustituyen
las características raciales o sexuales. Por ejemplo, las personas con frecuencia viven en
áreas que están asociadas con identidades étnicas particulares y, por lo tanto, el uso de
un código postal en un estudio de minería de datos corre el riesgo de construir modelos
basados en la raza, aunque la información racial se haya excluido explícitamente de los
datos.
Re identificación
El trabajo reciente en lo que se denominan técnicas de re identificación ha brindado
ideas aleccionadoras sobre la dificultad de anonimizar datos. Resulta, por ejemplo, que
más del 85% de los estadounidenses pueden identificarse a partir de registros
disponibles públicamente con solo tres datos: el código postal de cinco dígitos, la fecha
de nacimiento (incluido el año) y el sexo. ¿No conoce el código postal? - más de la
mitad de los estadounidenses se pueden identificar solo por ciudad, fecha de nacimiento
y sexo. Cuando el Commonwealth de Massachusetts publicó registros médicos que
resumían el registro del hospital de todos los empleados estatales a mediados de los
años 90, el gobernador dio una garantía pública de que había sido anonimizado al
eliminar toda la información de identificación, como el nombre, la dirección y el
número de seguro social. Se sorprendió al recibir sus propios registros de salud (que
incluían diagnósticos y recetas) por correo.
Abundan las historias de compañías que publican datos supuestamente anónimos de
buena fe, solo para descubrir que muchas personas son fácilmente identificables. En
2006, una empresa de servicios de Internet lanzó a la comunidad de investigación los
registros de 20 millones de búsquedas de usuarios.
Los registros se anonimizaron al eliminar toda la información personal, o eso pensaba la
compañía. Pero muy pronto los periodistas de The New York Times pudieron
identificar a la persona real correspondiente al número de usuario 4417749 (buscaron su
permiso antes de exponerla). Lo hicieron al analizar los términos de búsqueda que
usaba, que incluían consultas para los paisajistas en su ciudad natal y para varias
personas con el mismo apellido que los suyos, que los periodistas relacionaban con las
bases de datos públicas.
Dos meses después, Netflix, un servicio de alquiler de películas en línea, publicó 100
millones de registros de calificaciones de películas (de 1 a 5) con sus fechas. Para su
sorpresa, resultó bastante fácil identificar a las personas en la base de datos y así
descubrir todas las películas que habían calificado. Por ejemplo, si sabe
aproximadamente cuándo (da o demora dos semanas) una persona en la base de datos
calificó seis películas y conoce las calificaciones, puede identificar al 99% de las
personas en la base de datos. Al conocer solo dos películas con sus calificaciones y
fechas, más o menos tres días, se puede identificar a casi el 70% de las personas. Con
solo un poco de información sobre tus amigos (o enemigos) puedes determinar todas las
películas que han calificado en Netflix.
La moraleja es que, si realmente elimina toda la información de identificación posible
de una base de datos, probablemente no se le dejará nada útil.
Uso de información personal

Se acepta ampliamente que antes de que las personas tomen la decisión de proporcionar
información personal, necesitan saber cómo se utilizará y para qué se utilizará, qué
medidas se tomarán para proteger su confidencialidad e integridad, cuáles serán las
consecuencias de proporcionar o retener. La información es, y cualquier derecho de
reparación que puedan tener. Cada vez que se recopila dicha información, se debe
informar a las personas sobre estas cosas, no en letra pequeña legalista, sino en un
lenguaje sencillo que puedan entender.
El uso potencial de las técnicas de extracción de datos significa que las formas en que se
puede usar un repositorio de datos pueden extenderse mucho más allá de lo que se
concibió cuando los datos se recopilaron originalmente. Esto crea un problema grave: es
necesario determinar las condiciones bajo las cuales se recopilaron los datos y con qué
fines se pueden utilizar. ¿La propiedad de los datos otorga el derecho a usarlos de una
forma distinta a la que se presume cuando se grabó originalmente? Claramente, en el
caso de datos personales recogidos explícitamente, no lo hace. Pero en general la
situación es compleja.
Las cosas sorprendentes surgen de la minería de datos. Por ejemplo, se ha informado
que uno de los principales grupos de consumidores en Francia ha descubierto que las
personas con automóviles rojos tienen más probabilidades de incumplir con sus
préstamos. ¿Cuál es el estado de tal "descubrimiento"? ¿En qué información se basa?
¿Bajo qué condiciones se recopiló esa información? ¿De qué manera es ético usarlo?
Claramente, las compañías de seguros están en el negocio de discriminar entre personas
basadas en estereotipos (los hombres jóvenes pagan mucho por el seguro de
automóviles), pero tales estereotipos no se basan únicamente en las correlaciones
estadísticas; también se basan en el conocimiento del sentido común sobre el mundo. Si
el hallazgo anterior dice algo sobre el tipo de persona que elige un auto rojo, o si debe
ser descartado como una irrelevancia, es una cuestión de juicio humano basada en el
conocimiento del mundo en lugar de criterios puramente estadísticos.
Cuando se le presentan datos, debe preguntar a quién se le permite tener acceso a ellos,
para qué propósito se recopiló y qué tipo de conclusiones son legítimas sacar de ellos.
La dimensión ética plantea preguntas difíciles para quienes participan en la minería de
datos práctica. Es necesario tener en cuenta las normas de la comunidad que se utilizan
para tratar el tipo de datos involucrados, estándares que pueden haber evolucionado
durante décadas o siglos, pero que el especialista en información puede desconocer. Por
ejemplo, ¿sabía que en la comunidad de bibliotecas se da por sentado que la privacidad
de los lectores es un derecho que está celosamente protegido? Si llama a la biblioteca de
su universidad y pregunta quién tiene prestado tal libro, no se lo dirán. Esto evita que un
estudiante sea sometido a la presión de un profesor iracundo para que le permita acceder
a un libro que ella necesita desesperadamente para su última solicitud de subvención.
También prohíbe la investigación de los dudosos gustos de lectura recreativa del
presidente del comité de ética de la universidad. Los que crean, digamos, las bibliotecas
digitales pueden no estar conscientes de estas sensibilidades y pueden incorporar
sistemas de minería de datos que analizan y comparan los hábitos de lectura de las
personas para recomendar nuevos libros, ¡tal vez incluso vendiendo los resultados a los
editores!
Problemas más amplios

Además de los diversos estándares de la comunidad para el uso de datos, se deben
cumplir los estándares lógicos y científicos al extraer conclusiones de los mismos. Si
llega a conclusiones (por ejemplo, los propietarios de automóviles rojos son mayores
riesgos de crédito), debe agregarles advertencias y respaldarlas con argumentos que no
sean puramente estadísticos. El punto es que la minería de datos es solo una herramienta
en todo el proceso. Son las personas las que toman los resultados, junto con otros
conocimientos, y deciden qué acción aplicar.
La minería de datos genera otra pregunta, que es realmente una cuestión política con
respecto al uso que se le da a los recursos de la sociedad. Anteriormente mencionamos
la aplicación de la minería de datos al análisis de cestas, donde se analizan los registros
de los supermercados para detectar asociaciones entre los artículos que las personas
compran. ¿Qué uso debe hacerse de la información resultante? ¿Debería el gerente del
supermercado colocar la cerveza y las papas fritas juntas, para que a los compradores
les resulte más fácil, o más alejadas para que les resulte menos conveniente, maximizar
su tiempo en la tienda y, por lo tanto, su probabilidad de ser atraídos a nuevas compras?
¿Debería el gerente mover los pañales más caros y rentables cerca de la cerveza,
aumentar las ventas a los padres acosados de un artículo de alto margen y agregar más
productos de lujo para bebés cerca?
Por supuesto, cualquier persona que use tecnologías avanzadas debe considerar la
sabiduría de lo que está haciendo. Si los datos se caracterizan como hechos registrados,
entonces la información es el conjunto de patrones o expectativas que subyacen a los
datos. Podría continuar definiendo el conocimiento como la acumulación de su conjunto
de expectativas y sabiduría como el valor asociado al conocimiento. A pesar de que no
lo continuaremos aquí, vale la pena considerar este tema.
Como vimos al comienzo de este capítulo, las técnicas descritas en este libro pueden ser
utilizadas para ayudar a tomar algunas de las decisiones más profundas e íntimas que
presenta la vida. La minería de datos es una tecnología que debemos tomar en serio.
Otras lecturas
Para evitar dividir el flujo del texto principal, todas las referencias se recopilan en una
sección al final de cada capítulo. Esta sección describe documentos, libros y otros
recursos relevantes para el material cubierto en este capítulo. La investigación sobre
fertilización humana in vitro mencionada en la apertura fue realizada por el Laboratorio
de Computación de la Universidad de Oxford, y la investigación sobre el sacrificio de
vacas se realizó en el Departamento de Ciencias de la Computación de la Universidad
de Waikato, Nueva Zelanda.
El problema del clima es de Quinlan (1986) y se ha utilizado ampliamente para explicar
los esquemas de aprendizaje automático. El corpus de problemas de ejemplo
mencionados en la introducción a la Sección 1.2 está disponible en Asunción y Newman
(2007). El ejemplo de lentes de contacto es de Cendrowska (1987), quien introdujo el
aprendizaje de reglas PRISM. Algoritmo que encontraremos en el Capítulo 4. El
conjunto de datos sobre el iris se describió en un artículo clásico anterior sobre
inferencia estadística (Fisher, 1936). Los datos de las negociaciones laborales provienen
de la Revisión de Negociación Colectiva, una publicación de Labor Canadá publicada
por el Servicio de Información de Relaciones Industriales (BLI 1988), y el problema de
la soja fue descrito por primera vez por Michalski y Chilausky (1980).
Algunas de las aplicaciones en la Sección 1.3 están cubiertas en un excelente artículo
que ofrece muchas otras aplicaciones de aprendizaje automático e inducción de reglas
(Langley y Simon, 1995); Otra fuente de aplicaciones de campo es un número especial
de Machine Learning Journal (Kohavi y Provost, 1998). Chakrabarti (2003) ha escrito
un excelente y completo libro sobre técnicas de minería web; Otro libro, más reciente,
es la minería de datos web de Liu (2009). La solicitud de la compañía de préstamos se
describe con más detalle por Michie (1989), el detector de manchas de aceite es de
Kubat et al. (1998), el trabajo de pronóstico de carga eléctrica es de Jabbour et al.
(1988), y la aplicación para el mantenimiento preventivo de dispositivos
electromecánicos es de Saitta y Neri (1998). Las descripciones más completas de
algunos de los otros proyectos mencionados en la Sección 1.3 (incluidas las cifras de
montos en dólares ahorrados y las referencias bibliográficas relacionadas) aparecen en
el sitio web del Centro para el Aprendizaje Automático de Alberta. Luan (2002)
describe aplicaciones para la minería de datos en la educación superior. Dasu et al.
(2006) tiene algunas recomendaciones para la minería de datos exitosa. Otro número
especial de Machine Learning Journal aborda las lecciones aprendidas de las
aplicaciones de minería de datos y la resolución colaborativa de problemas (Lavrac et
al., 2004).
La historia de "pañales y cerveza" es legendaria. Según un artículo en el Financial
Times de Londres (7 de febrero de 1996),
El ejemplo a menudo citado de lo que puede lograr la extracción de datos es el caso de
una gran cadena de supermercados de los EE. UU. Que descubrió una fuerte asociación
para muchos clientes. 1.7 entre una marca de pañales para bebés (pañales) y una marca
de cerveza. La mayoría de los clientes que compraron los pañales también compraron la
cerveza. A los mejores expertos en hipótesis del mundo les resultaría difícil proponer
esta combinación, pero la minería de datos demostró que existía, y la tienda minorista
pudo explotarla al acercar los productos a los estantes.
El primer libro sobre minería de datos fue escrito por Piatetsky-Shapiro y Frawley
(1991), una colección de documentos presentados en un taller sobre descubrimiento de
conocimiento en bases de datos a fines de los años ochenta. Otro libro del mismo
establo ha aparecido desde (Fayyad et al., 1996) en un taller de 1994. Siguieron una
serie de libros orientados a los negocios sobre minería de datos, que se centran
principalmente en aspectos prácticos de cómo se puede poner en práctica con
descripciones más bien superficiales de la tecnología que subyace a los métodos
utilizados. Son fuentes valiosas de aplicaciones e inspiración. Por ejemplo, Adriaans y
Zantige (1996) de Syllogic, una consultoría de bases de datos y sistemas europeos, es
una introducción temprana a la minería de datos. Berry y Linoff (1997), de una firma
con sede en Pensilvania que se especializa en almacenamiento de datos y extracción de
datos, ofrecen una excelente revisión de técnicas de extracción de datos para marketing,
ventas y atención al cliente. Cabena et al. (1998), escrito por personas de cinco
laboratorios internacionales de IBM, contiene una descripción general del proceso de
extracción de datos con muchos ejemplos de aplicaciones del mundo real.
Los libros sobre aprendizaje automático, por otro lado, tienden a ser textos académicos
adecuados para su uso en cursos universitarios, en lugar de guías prácticas. Mitchell
(1997) escribió un excelente libro que cubre muchas técnicas de aprendizaje automático,
incluidas algunas, especialmente los algoritmos genéticos y el aprendizaje por refuerzo,
que no se tratan aquí. Langley (1996) ofrece otro buen texto. Aunque el libro
mencionado anteriormente por Quinlan (1993) se concentra en un algoritmo de
aprendizaje particular, C4.5, que cubriremos en detalle en los Capítulos 4 y 6, es una
buena introducción a algunos de los problemas y técnicas del aprendizaje automático.
Un libro absolutamente excelente sobre aprendizaje automático desde una perspectiva
estadística es Hastie et al. (2009). Este es un trabajo bastante orientado a la teoría, y está
bellamente producido con figuras aptas y reveladoras. La inteligencia artificial de
Russell y Norvig: un enfoque moderno (2009) es la tercera edición de un texto clásico
que incluye una gran cantidad de información sobre aprendizaje automático y minería
de datos.
El reconocimiento de patrones es un tema que está estrechamente relacionado con el
aprendizaje automático, y se aplican muchas de las mismas técnicas. Duda et al. (2001)
es la segunda edición de un libro clásico y exitoso sobre reconocimiento de patrones
(Duda y Hart, 1973). Ripley (1996) y Bishop (1995) describen el uso de redes
neuronales para el reconocimiento de patrones; Bishop tiene un libro más reciente,
Reconocimiento de patrones y aprendizaje automático (2006). La minería de datos con
redes neuronales es el tema de un libro de 1996 de Bigus of IBM, que presenta el
producto de IBM Neural Network Utility que desarrolló.
Existe un gran interés actual en las máquinas de vectores de soporte. Cristianini y
Shawe-Taylor (2000) ofrecen una buena introducción, y un trabajo de seguimiento lo
generaliza para abarcar algoritmos, núcleos y soluciones adicionales con aplicaciones
para problemas de descubrimiento de patrones en campos como la bioinformática, el
análisis de texto y el análisis de imágenes (Shawe -Taylor y cristianini, 2004).
Schölkopf y Smola (2002) proporcionan una introducción completa para respaldar las
máquinas de vectores y los métodos relacionados con el kernel por dos jóvenes
investigadores que hicieron su Ph.D. Investigación en esta área de rápido desarrollo.
Ohm (2009) explora el área emergente de las técnicas de re identificación, junto con sus
implicaciones para la anonimizarían

Data Mining

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Data Mining

Cargado por

Copyright:

Formatos disponibles

1.

Los ejemplos que abrimos son proyectos de investigación especulativa, no sistemas de

La información minera en la World Wide Web es un área de crecimiento explosivo. Las

Decisiones que involucran juicio (Decisions Involving Judgment)

Cuando solicita un préstamo, debe completar un cuestionario solicitando información

Introduzca aprendizaje automático. El aporte fue de 1000 ejemplos de capacitación de casos

Imágenes de proyección (Screening Images)

Se ha desarrollado un sistema de detección de peligros para visualizar imágenes para su

La entrada es un conjunto de imágenes de píxeles sin procesar de un satélite de radar, y la

Se encontraron varios problemas interesantes. Uno fue la escasez de datos de entrenamiento.

Pronóstico de carga (Load Forecasting)

En la industria del suministro de electricidad, es importante determinar la demanda futura de

La carga eléctrica muestra la periodicidad en tres frecuencias fundamentales: diurno, donde el

Hasta ahora, el modelo de carga es estático, construido manualmente a partir de datos

El mantenimiento preventivo de dispositivos electromecánicos como motores y generadores

Marketing y ventas (Marketing and Sales)

Ya hemos mencionado el problema de la falta de fidelidad de los clientes y el desafío de

El análisis de la canasta de mercado es el uso de técnicas de asociación para encontrar grupos

Existen innumerables otras aplicaciones de aprendizaje automático. Mencionamos

En el ámbito de la atención al cliente y el servicio, ya hemos descrito la adjudicación de

Hay muchas aplicaciones científicas. En biología, el aprendizaje automático se utiliza para

La automatización es especialmente bienvenida en situaciones que involucran monitoreo

Aprendizaje de máquinas y estadísticas

La generalización como búsqueda

Enumerar el espacio conceptual

Sesgo de sobreajuste y evitación

Minería de datos y ética

Uso de información personal

Problemas más amplios

También podría gustarte