Documentos de Académico
Documentos de Profesional
Documentos de Cultura
3 APLICACIONES DE CAMPO
Al tratarse de aplicaciones de campo, los ejemplos que siguen tienden a enfatizar el uso del
aprendizaje en situaciones de rendimiento, en el que el énfasis está en la capacidad de
desempeñarse bien en nuevos ejemplos. Este libro también describe el uso de los sistemas de
aprendizaje para obtener conocimiento de las estructuras de decisión que se deducen de los
datos. Creemos que esto es tan importante, probablemente incluso más importante a largo
plazo, para el uso de la tecnología como para hacer predicciones de alto rendimiento. Aun así,
tenderá a estar sub representado en las aplicaciones de campo porque cuando las técnicas de
aprendizaje se utilizan para obtener información, el resultado no es normalmente un sistema
que se pone en funcionamiento como una aplicación por derecho propio. Sin embargo, en tres
de los siguientes ejemplos, el hecho de que la estructura de decisión es comprensible es una
característica clave en la adopción exitosa de la aplicación.
Web Mining
Otra forma en la que los motores de búsqueda abordan el problema de cómo clasificar las
páginas web es usar el aprendizaje automático basado en un conjunto de ejemplos de
consultas: documentos que contienen los términos de la consulta y juicios humanos acerca de
qué tan relevantes son los documentos para esa consulta. Luego, un algoritmo de aprendizaje
analiza estos datos de entrenamiento y encuentra una manera de predecir el juicio de
relevancia para cualquier documento y consulta. Para cada documento, se calcula un conjunto
de valores de características que dependen del término de la consulta, por ejemplo, si aparece
en la etiqueta del título, si aparece en la URL del documento, con qué frecuencia aparece en el
propio documento y con qué frecuencia. Aparece en el texto de anclaje de los hipervínculos
que apuntan al documento. Para consultas multiterm, las características incluyen la frecuencia
con la que dos términos diferentes aparecen cerca en el documento, y así sucesivamente. Hay
muchas características posibles: los algoritmos típicos para los rangos de aprendizaje utilizan
cientos o miles de ellos.
Los buscadores minan el contenido de la web. También extraen el contenido de sus consultas,
los términos que busca, para seleccionar anuncios que le puedan interesar. Tienen un fuerte
incentivo para hacerlo con precisión porque los anunciantes les pagan solo cuando los usuarios
hacen clic en sus enlaces. Las compañías de motores de búsqueda extraen sus clics porque la
próxima vez podrá utilizar el conocimiento de los resultados en los que hace clic para mejorar
la búsqueda. Los libreros en línea extraen la base de datos de compras para hacer
recomendaciones como "los usuarios que compraron este libro también compraron estos";
una vez más, tienen un fuerte incentivo para presentarle opciones atractivas y personalizadas.
Los sitios de películas recomiendan películas basadas en sus elecciones anteriores y las de
otras personas: ganan si hacen recomendaciones que hagan que los clientes regresen a su sitio
web.
Y luego están las redes sociales y otros datos personales. Vivimos en la era de la auto-
revelación: las personas comparten sus pensamientos más íntimos en blogs y tweets; sus
fotografías, sus gustos musicales y cinematográficos, sus opiniones sobre libros, software,
aparatos y hoteles; Su vida social. Es posible que crean que lo están haciendo de forma
anónima o pseudónima, pero a menudo son incorrectos. Existe un gran interés comercial en
ganar dinero mediante la minería de la Web.
Por ejemplo, una compañía de préstamos utiliza un procedimiento de decisión estadística para
calcular un parámetro numérico basado en la información suministrada en su cuestionario. Se
aceptan solicitantes si este parámetro excede un umbral preestablecido y se rechaza si cae por
debajo de un segundo umbral. Esto representa el 90% de los casos, y el 10% restante se refiere
a los oficiales de préstamo para una decisión. Sin embargo, al examinar los datos históricos
sobre si los solicitantes efectivamente reembolsaron sus préstamos, resultó que la mitad de los
solicitantes en el límite que recibieron préstamos realmente incumplieron. Si bien sería
tentador simplemente negar el crédito a los clientes que se encuentran en la frontera, los
profesionales de la industria crediticia señalan que, si solo se pudiera determinar de manera
confiable su futuro de reembolso, son precisamente estos clientes cuyo negocio debe ser
cortejado; Tienden a ser clientes activos de una entidad de crédito porque sus finanzas
permanecen en una condición de volatilidad crónica. Se debe alcanzar un compromiso
adecuado entre el punto de vista de un contador de la empresa, a quien no le gustan las
deudas incobrables, y el de un ejecutivo de ventas, a quien no le gusta rechazar el negocio.
Desde los primeros días de la tecnología satelital, los científicos ambientales han estado
tratando de detectar las manchas de petróleo de las imágenes satelitales para advertir sobre
desastres ecológicos y evitar el vertido ilegal. Los satélites de radar proporcionan una
oportunidad para monitorear las aguas costeras día y noche, independientemente de las
condiciones climáticas. Las manchas de aceite aparecen como regiones oscuras en la imagen,
cuyo tamaño y forma evolucionan según el clima y las condiciones del mar. Sin embargo, otras
regiones oscuras de aspecto similar pueden ser causadas por condiciones climáticas locales,
como vientos fuertes. La detección de manchas de aceite es un proceso manual costoso que
requiere personal altamente capacitado que evalúa cada región en la imagen.
Diagnóstico (Diagnosis)
El diagnóstico es una de las principales áreas de aplicación de los sistemas expertos. Aunque
las reglas hechas a mano que se usan en sistemas expertos a menudo tienen un buen
desempeño, el aprendizaje automático puede ser útil en situaciones en las que la producción
manual de reglas requiere demasiado trabajo.
Se dispone de seiscientas fallas, cada una de las cuales incluye un conjunto de mediciones
junto con el diagnóstico del experto, lo que representa 20 años de experiencia. Alrededor de la
mitad eran insatisfactorios por varias razones y tuvieron que ser descartados; el resto se
utilizaron como ejemplos de entrenamiento. El objetivo no era determinar si existía o no un
fallo, sino diagnosticar el tipo de fallo, dado que uno estaba allí. Por lo tanto, no era necesario
incluir casos libres de fallas en el conjunto de capacitación. Los atributos medidos tenían un
nivel bastante bajo y debían aumentarse con conceptos intermedios, es decir, funciones de los
atributos básicos, que se definieron en consulta con el experto e incorporaban algún
conocimiento del dominio causal. Los atributos derivados se ejecutaron a través de un
algoritmo de inducción para producir un conjunto de reglas de diagnóstico. Inicialmente, el
experto no estaba satisfecho con las reglas porque no podía relacionarlas con su propio
conocimiento y experiencia. Para él, la mera evidencia estadística no era, por sí misma, una
explicación adecuada. Se debían utilizar más conocimientos de fondo antes de generar reglas
satisfactorias. Aunque las reglas resultantes eran bastante complejas, al experto le gustaron
porque podía justificarlas a la luz de su conocimiento mecánico. Estaba complacido de que un
tercio de las reglas coincidiera con las que él mismo usaba y estaba encantado de obtener una
nueva perspectiva de algunos de los demás.
Las pruebas de rendimiento indicaron que las reglas aprendidas eran ligeramente superiores a
las artesanales que previamente se habían obtenido del experto, y este resultado fue
confirmado por el uso posterior en la fábrica química. Es interesante observar, sin embargo,
que el sistema se puso en uso no debido a su buen desempeño, sino porque el experto en
dominios aprobó las reglas que se habían aprendido.
Algunas de las aplicaciones más activas de la minería de datos han sido en el área de marketing
y ventas. Estos son dominios en los que las empresas poseen volúmenes masivos de datos
grabados con precisión, lo que, recientemente se ha realizado, es potencialmente
extremadamente valioso. En estas aplicaciones, las predicciones en sí mismas son el interés
principal: la estructura de cómo se toman las decisiones a menudo es completamente
irrelevante.
En otro dominio, las compañías de teléfonos celulares luchan contra la pérdida de clientes al
detectar patrones de comportamiento que podrían beneficiarse de los nuevos servicios y luego
publicitan dichos servicios para conservar su base de clientes. Los incentivos proporcionados
específicamente para retener a los clientes existentes pueden ser costosos, y la minería de
datos exitosa les permite dirigirse de manera precisa a aquellos clientes que probablemente
obtengan el máximo beneficio.
Existe un enorme valor agregado al poder identificar los historiales de ventas de clientes
individuales. Las tarjetas de descuento o de "fidelidad" permiten a los minoristas identificar
todas las compras que hace cada cliente individual. Estos datos personales son mucho más
valiosos que el valor en efectivo del descuento. La identificación de clientes individuales no
solo permite el análisis histórico de los patrones de compra, sino que también permite que se
envíen a los clientes potenciales ofertas especiales dirigidas con precisión, o quizás se puedan
imprimir cupones personalizados en tiempo real en la caja para su uso durante la próxima
compra. Los supermercados quieren que usted sienta que, aunque vivamos en un mundo de
precios que aumentan de manera inexorable, no aumentan tanto para usted porque las
ofertas que ofrecen los cupones personalizados lo hacen atractivo para que pueda abastecerse
de cosas que normalmente no disfrutaría. Ha comprado.
El marketing directo es otro dominio popular para la minería de datos. Las ofertas
promocionales de correo masivo son caras y tienen una tasa de respuesta baja, pero
altamente rentable. Cualquier cosa que ayude a enfocar las promociones, logrando la misma o
casi la misma respuesta de una muestra más pequeña, es valiosa. Las bases de datos
disponibles comercialmente que contienen información demográfica que caracteriza a los
vecindarios basados en códigos postales se pueden correlacionar con la información sobre los
clientes existentes para predecir qué tipo de personas podrían comprar qué artículos. Este
modelo puede probarse con la información obtenida en respuesta a un envío inicial, donde las
personas envían una tarjeta de respuesta o llaman a un número 800 para obtener más
información, para predecir posibles clientes futuros. A diferencia de los minoristas de centros
comerciales, las compañías de correo directo tienen historiales de compras completos para
cada cliente individual y pueden usar la minería de datos para determinar las probabilidades
de responder a ofertas especiales. Las campañas dirigidas ahorran dinero al dirigir las ofertas
solo a aquellos que probablemente quieran el producto.
Otras aplicaciones
Los procesos de fabricación sofisticados a menudo implican ajustar los parámetros de control.
Separar el petróleo crudo del gas natural es un requisito previo esencial para el refinamiento
del petróleo, y controlar el proceso de separación es un trabajo difícil. British Petroleum utilizó
el aprendizaje automático para crear reglas para establecer los parámetros. Esto ahora toma
solo 10 minutos, mientras que los expertos humanos tomaron más de un día. Westinghouse
enfrentó problemas en su proceso para fabricar pellets de combustible nuclear y usó el
aprendizaje automático para crear reglas para controlar el proceso. Se informó que esto les
había ahorrado más de $ 10 millones por año (en 1984). La empresa de impresión de
Tennessee R. R. Donnelly aplicó la misma idea para controlar las impresoras de huecograbado
para reducir los artefactos causados por ajustes de parámetros inapropiados, reduciendo la
cantidad de artefactos de más de 500 cada año a menos de 30.
Parcialidad
• El lenguaje de descripción del concepto.
• El orden en que se busca el espacio.
• La forma en que se evita el exceso de ajuste a los datos de entrenamiento particulares
Estas tres propiedades generalmente se denominan sesgo de la búsqueda y se
denominan sesgo de idioma, sesgo de búsqueda y sesgo de evitación de
sobrealimentación. Usted sesga el esquema de aprendizaje al elegir un lenguaje en el
que expresar conceptos, al buscar de manera particular una descripción aceptable y al
decidir cuándo el concepto se ha vuelto tan complejo que debe simplificarse.
Lenguaje de sesgo
La pregunta más importante para el sesgo del lenguaje es si el lenguaje de descripción
de conceptos es universal o si impone restricciones sobre qué conceptos se pueden
aprender. Si considera el conjunto de todos los ejemplos posibles, un concepto es
realmente una división de ese conjunto en subconjuntos. En el ejemplo del clima, si
tuviera que enumerar todas las condiciones climáticas posibles, el concepto de juego es
un subconjunto de las posibles condiciones climáticas. Un lenguaje "universal" es uno
que es capaz de expresar cada posible subconjunto de ejemplos. En la práctica, el
conjunto de posibles ejemplos es generalmente enorme, y en este sentido nuestra
perspectiva es teórica, no práctica.
Si el lenguaje de descripción de conceptos permite sentencias que involucran lógicas o,
es decir, disyunciones, entonces se puede representar cualquier subconjunto. Si el
lenguaje de descripción está basado en reglas, la disyunción se puede lograr usando
reglas separadas. Por ejemplo, una posible representación de concepto es simplemente
enumerar los ejemplos:
Si perspectiva = nublado y temperatura = calor y humedad = alto
Y ventoso = falso entonces juega = sí
Si perspectiva = lluvioso y temperatura = suave y humedad = alto
Y ventoso = falso entonces juega = sí
Si perspectiva = lluvioso y temperatura = fresco y humedad = normal
Y ventoso = falso entonces juega = sí
Si perspectiva = nublado y temperatura = fresco y humedad = normal
Y ventoso = cierto entonces juega = sí
...
Si ninguno de los anteriores entonces juega = no
Esta no es una descripción del concepto particularmente esclarecedor: simplemente
registra los ejemplos positivos que se han observado y supone que todos los demás son
negativos. Cada ejemplo positivo recibe su propia regla, y el concepto es la separación
de las reglas. Alternativamente, también puede imaginar tener reglas individuales para
cada uno de los ejemplos negativos, un concepto igualmente interesante. En cualquier
caso, la descripción del concepto no realiza ninguna generalización; simplemente
registra los datos originales.
Por otro lado, si la disyunción no está permitida, es posible que algunos conceptos
posibles (conjuntos de ejemplos) no puedan representarse en absoluto. En ese caso, un
esquema de aprendizaje automático puede ser simplemente incapaz de lograr un buen
rendimiento.
Otro tipo de sesgo de lenguaje es el que se obtiene del conocimiento del dominio
particular que se está utilizando. Por ejemplo, puede ser que algunas combinaciones de
valores de atributos nunca puedan suceder. Este sería el caso si un atributo implicara
otro. Vimos un ejemplo de esto al considerar las reglas para el problema de la soja que
se describen en la Sección 1.2. Entonces, sería inútil incluso considerar conceptos que
involucren combinaciones redundantes o imposibles de valores de atributo. El
conocimiento del dominio se puede utilizar para reducir el espacio de búsqueda. El
conocimiento es poder: un poco va muy lejos, e incluso un pequeño indicio puede
reducir el espacio de búsqueda dramáticamente.
Sesgo de búsqueda
En los problemas de minería de datos realistas, hay muchas descripciones de conceptos
alternativos que se ajustan a los datos, y el problema es encontrar la "mejor" según un
criterio, generalmente la simplicidad. Utilizamos el término ajuste en un sentido
estadístico; Buscamos la mejor descripción que se ajuste a los datos razonablemente
bien. Además, a menudo es computacionalmente imposible buscar en todo el espacio y
garantizar que la descripción encontrada sea realmente la mejor. En consecuencia, el
procedimiento de búsqueda es heurístico, y no se pueden ofrecer garantías sobre la
óptima calidad del resultado final. Esto deja mucho margen para el sesgo: diferentes
heurísticas de búsqueda sesgan la búsqueda de diferentes maneras.
Por ejemplo, un algoritmo de aprendizaje podría adoptar una búsqueda "codiciosa" de
reglas al tratar de encontrar la mejor regla en cada etapa y agregarla al conjunto de
reglas. Sin embargo, puede ser que el mejor par de reglas no sean solo las dos reglas que
mejor se encuentran individualmente. O al crear un árbol de decisión, un compromiso
de dividirse temprano usando un atributo en particular puede resultar poco considerado
a la luz de cómo se desarrolla el árbol debajo de ese nodo. Para solucionar estos
problemas, se puede utilizar una búsqueda de haz donde no se realizan compromisos
irrevocables, sino que en lugar de ello se realiza un conjunto de varias alternativas
activas, cuyo número es el ancho del haz, se realizan en paralelo. Esto complicará
considerablemente el algoritmo de aprendizaje, pero tiene el potencial de evitar la
miopía asociada con una búsqueda codiciosa. Por supuesto, si el ancho del haz no es lo
suficientemente grande, todavía puede ocurrir la miopía. Existen estrategias de
búsqueda más complejas que ayudan a superar este problema.
Un tipo de sesgo de búsqueda más general y de mayor nivel se refiere a si la búsqueda
se realiza comenzando con una descripción general y refinándola o comenzando con un
ejemplo específico y generalizándolo. El primero se denomina sesgo de búsqueda
general a específico; este último, uno específico-a-general. Muchos algoritmos de
aprendizaje adoptan la política anterior, comenzando con un árbol de decisiones vacío o
una regla muy general, y especializándolo para que se ajuste a los ejemplos. Sin
embargo, es perfectamente posible trabajar en la otra dirección. Los métodos basados en
instancias comienzan con un ejemplo particular y ven cómo se puede generalizar para
cubrir otros ejemplos cercanos en la misma clase.
Re identificación
El trabajo reciente en lo que se denominan técnicas de re identificación ha brindado
ideas aleccionadoras sobre la dificultad de anonimizar datos. Resulta, por ejemplo, que
más del 85% de los estadounidenses pueden identificarse a partir de registros
disponibles públicamente con solo tres datos: el código postal de cinco dígitos, la fecha
de nacimiento (incluido el año) y el sexo. ¿No conoce el código postal? - más de la
mitad de los estadounidenses se pueden identificar solo por ciudad, fecha de nacimiento
y sexo. Cuando el Commonwealth de Massachusetts publicó registros médicos que
resumían el registro del hospital de todos los empleados estatales a mediados de los
años 90, el gobernador dio una garantía pública de que había sido anonimizado al
eliminar toda la información de identificación, como el nombre, la dirección y el
número de seguro social. Se sorprendió al recibir sus propios registros de salud (que
incluían diagnósticos y recetas) por correo.
Abundan las historias de compañías que publican datos supuestamente anónimos de
buena fe, solo para descubrir que muchas personas son fácilmente identificables. En
2006, una empresa de servicios de Internet lanzó a la comunidad de investigación los
registros de 20 millones de búsquedas de usuarios.
Los registros se anonimizaron al eliminar toda la información personal, o eso pensaba la
compañía. Pero muy pronto los periodistas de The New York Times pudieron
identificar a la persona real correspondiente al número de usuario 4417749 (buscaron su
permiso antes de exponerla). Lo hicieron al analizar los términos de búsqueda que
usaba, que incluían consultas para los paisajistas en su ciudad natal y para varias
personas con el mismo apellido que los suyos, que los periodistas relacionaban con las
bases de datos públicas.
Dos meses después, Netflix, un servicio de alquiler de películas en línea, publicó 100
millones de registros de calificaciones de películas (de 1 a 5) con sus fechas. Para su
sorpresa, resultó bastante fácil identificar a las personas en la base de datos y así
descubrir todas las películas que habían calificado. Por ejemplo, si sabe
aproximadamente cuándo (da o demora dos semanas) una persona en la base de datos
calificó seis películas y conoce las calificaciones, puede identificar al 99% de las
personas en la base de datos. Al conocer solo dos películas con sus calificaciones y
fechas, más o menos tres días, se puede identificar a casi el 70% de las personas. Con
solo un poco de información sobre tus amigos (o enemigos) puedes determinar todas las
películas que han calificado en Netflix.
La moraleja es que, si realmente elimina toda la información de identificación posible
de una base de datos, probablemente no se le dejará nada útil.