Está en la página 1de 10

6.

El análisis del big data

El seguimiento y la detección de anomalías en el big data

El big data puede servir para saber cuándo ocurren hechos inusuales o cuándo
están a punto de ocurrir. 
Este tipo de notificaciones pueden recaer en dos categorías generales (aunque
hay otros sistemas para describir las notificaciones). 
Son el seguimiento y la detección de anomalías. Aun a riesgo de hacer que
las diferencias entre estos dos procedimientos parezcan más grandes de lo que
son, así describiría cada una de ellas. 
El seguimiento puede ser muy útil cuando sabes lo que buscas y
necesitas una notificación cuando pasa. Detecta cuándo sucede un hecho
específico, entonces tienes que poder especificar los criterios por
adelantado. Por ejemplo, un fabricante debe saber cuándo una de sus máquinas
necesita mantenimiento, así que se fija en la temperatura o en los niveles de
vibraciones. También analiza los factores que le indican que la máquina se va a
romper, para solventarlos. 
Los médicos deben saber cuándo los pacientes están enfermos, así que
supervisan la temperatura y el pulso, y si es posible, el número de glóbulos
blancos que alertan de una infección. 
Una empresa de tarjetas de crédito debe saber cuándo un cargo
es potencialmente fraudulento. 
En estos casos, para un usuario puede ser posible especificar los criterios
particulares que necesitan para desencadenar el evento, y el seguimiento es
interesante, porque puede ser muy específico, y a veces es posible establecer
una respuesta automática que diga «si X ocurre, resultará Y», y se resuelve
automáticamente. 
El seguimiento es una tarea específica. Sabes lo que buscas, esperas que
ocurra, y si es posible, se da una respuesta automática. 
La detección de anomalías, por otro lado, puede describir una situación en
la que el usuario quiere saber si pasa algo inusual. Busca una notificación
de actividad inusual sin tener que determinar por adelantado cuál
será. Como resultado, necesita basarse en criterios flexibles. «Hazme saber
cuándo ocurra algo fuera algo de lo normal». No tiene por qué ser un solo
factor, sino que también puede ser una combinación de varios factores
diferentes. Y los criterios flexibles suelen existir para atraer la atención hacia
algo. 
Por ejemplo, las cámaras de seguridad determinan que está pasando algo fuera
de lo normal, aunque no sepan qué es. 
En una situación de compraventa de acciones, se puede determinar «no
sabemos qué ocurre, pero se debería examinar», así que no desencadena una
respuesta automática, sino que invita a una inspección. 
Una detección de anomalías puede percibir patrones que, por ejemplo, están
muy separados en big data o que son demasiado finos para que un humano los
detecte. 

Lo que el big data permite no es saber que algo pueda ocurrir, ya que siempre
hemos tenido procesos de seguimiento y detección de anomalías; ambos
enfoques son prácticas comunes no solo del big data, sino también en
informática. 
Lo que el big data aporta es la posibilidad de buscar eventos o combinaciones
de factores extremadamente raros. Por ejemplo, un evento que ocurre una vez
en un millón, que ocurre una vez en un millón de observaciones, sería muy
difícil de observar si lo hicieras a mano o si tuvieras cientos de casos a la
vez, pero si tienes diez mil millones de casos que estás analizando, este evento
que ocurre una vez entre un millón lo vas a tener 10 000 veces. De repente ya
no es una cifra tan pequeña, ya no es un caso raro. De hecho, 10 000 es un
número elevado, y te permite hacer modelización estadística, te permite crear
subcategorías, descubrir qué se asocia con ese evento y qué lo provoca. 
En la detección de anomalías, la ventaja del big data es similar, sobre todo
cuando buscas combinaciones raras; es posible medir miles de cosas distintas
de una vez, en vez de 10 o 12. Permite que el algoritmo de aprendizaje
automático que detecta casos anómalos se vuelva más específico y tenga más
probabilidades de evitar falsos positivos y falsos negativos. 
Para usar un ejemplo trivial de esto, vamos a considerar los filtros de spam en el
email. El spam es una situación delicada, porque es un mecanismo parecido a
un virus, que evoluciona rápidamente y nunca es igual. Va cambiando y
tenemos una carrera armamentística entre el spam y los filtros de spam. 
No puedes escribir una regla que determine «esto es spam», porque el spam se
adaptará para evitarla y evoluciona rápidamente, así que no tenemos reglas
claras y es difícil determinarlas. 
Con un filtro de spam en tu email donde digas «esto es spam» y «esto no es
spam», obtienes muchos resultados falsos, falsos positivos y falsos
negativos. Fue mi caso cuando empecé a usar el correo electrónico. Utilizaba un
cliente de email y tenía que indicarle lo que era spam, y tengo que admitir que
no servía de mucho. No funcionaba muy bien. 
Por otro lado, cuando te conectas a una colección de big data, cuando no
categorizas el spam tú solo, sino que combinas los datos de millones o cientos
de millones de usuarios, si utilizas Gmail, Hotmail o Yahoo!, se combina la
sabiduría colectiva para determinar lo que es spam y lo que no. 
Tengo que decir que mi filtro de Gmail funciona bien a la hora de identificar el
spam, y es porque se basa en big data y miles de millones de emails que se
envían todos los días. 
El big data hace posible llevar a cabo estos dos tipos de supervisión: un
seguimiento más específico y una detección de anomalías más flexible, con
mucho más poder, ya que analiza conjuntos de datos de mayor magnitud y
busca síntomas de diagnóstico en cada punto.

La minería de datos y el análisis de texto en el big data

Una de las aplicaciones más poderosas y comunes del big data es la minería de


datos, que es prima del análisis de textos. La minería de datos abarca muchos
campos de actividades diferentes, pero la idea básica es utilizar
procedimientos estadísticos para encontrar patrones inesperados en los
datos. Pueden ser asociaciones inesperadas entre variables o personas que
se agrupan de manera imprevista. Quizás los gerentes de un supermercado
descubren que, en una región concreta, los clientes que los visitan una noche
particular de la semana son distintos de los clientes que van a los
supermercados de otra área y otro día. Entonces, si el supermercado daba
cupones de descuento, puede cambiar ciertos artículos dependiendo del día,
según esas diferencias. 
O una empresa de inversiones descubre que cuando ciertas acciones suben a la
vez que otras bajan, otras las siguen, así que decide invertir en esas esperando
obtener un beneficio. 
Otro ejemplo es un investigador que descubre que los pacientes que muestran
ciertos síntomas, aunque no cumplan los criterios de una enfermedad, es
probable que ingresen en el hospital dentro de las próximas seis semanas.
Quizás la aplicación más común de este tipo de minería de datos es la
publicidad online, porque la base de datos es amplia y porque es fácil adaptar
los resultados para cada persona. 
Esta es una de las mayores promesas de la minería de datos, la capacidad de
adaptar los servicios a las preferencias y la conducta de cada individuo, una vez
recopilados los datos suficientes. 
La analítica de textos está relacionada con la minería de datos, que lidia
exclusivamente con números. 
Sin embargo, difiere lo suficiente como para ser un campo
independiente. Consiste en encontrar significado y patrones en las palabras del
contenido real de los textos (tuits, reseñas de clientes…). 
Difiere de la investigación de los metadatos porque, aunque esa investigación
puede ser muy informativa, solo se utilizó la información numérica que las
computadoras crearon solas, y no necesitaron tratar el contenido informativo. 
Cuando los investigadores se fijan en el texto en sí, los problemas
interpretativos e informáticos se vuelven enormes, porque el lenguaje humano
es flexible y sutil. 
Hay frases ambiguas, como «eso suena muy bien» o «el pez está listo para
comer». Necesitamos un tiempo para determinar su significado, y por eso el
procesamiento de lenguajes naturales tiene tantos problemas que subsanar y es
una área activa de investigación. 
Quizás en el análisis de textos, la tarea más común es lo que se llama el análisis
de opiniones, o determinar lo que la gente cree sobre algo. Tiene sentido en la
publicidad o desde el punto de vista del marketing. Te interesa saber si la gente
tiene una opinión negativa o positiva sobre tu producto. 
La tarea más básica del análisis de opiniones es determinar si lo que siente
alguien es positivo o negativo. 
En el ámbito del análisis de textos recibe el nombre de polaridad. En mi campo,
la psicología social, se llama valencia. 
Como esta distinción es una tarea común, se han desarrollado muchos
programas y paquetes que puedes utilizar en lenguajes familiares como Python
o R. El análisis de opiniones y el análisis de textos es mucho más sofisticado que
determinar lo bueno o lo malo, pero ya tienes una idea básica. Estos temas
abarcan mucho más, pero espero que ahora tengas claro que la minería de
datos y el análisis de textos funcionan mejor cuando disponen de un gran
conjunto de datos diversos con los que trabajar. 
A medida que los investigadores desarrollen y perfeccionen los métodos de la
minería de datos y el análisis de textos, la capacidad de encontrar patrones en
los datos numéricos y significado en los datos textuales será más rápida, sencilla
y matizada.

Los análisis predictivos en el big data

El análisis predictivo es la bola de cristal del big data. Representa las


técnicas que se adaptan para trabajar con big data e intentar predecir
eventos futuros sobre la base de observaciones del pasado. 
Aunque los humanos siempre han intentado predecir el futuro, la materia prima
del big data y la complejidad del modelo predictivo moderno han cambiado la
forma en la que percibimos el futuro. 
Existen varios ejemplos conocidos del análisis predictivo. 
El primero es en el contexto del béisbol, como se refleja en el libro y la película
«Moneyball», donde, con análisis estadístico, se identifica la capacidad
de anotación de un jugador atacante. El criterio estándar que se ha utilizado en
béisbol durante cien años consistía en fijarse en el promedio de bateo, carreras
impulsadas, robos de bases… El béisbol tiene un conjunto de datos enorme,
porque es muy fácil acceder a eventos diferentes en el ámbito de los
deportes. Los investigadores descubrieron que los promedios de bateo y las
carreras impulsadas no eran tan buenos indicadores como los porcentajes de
llegadas a base (OBP), que tienen en cuenta los hits y otros factores, y el
porcentaje de bateo, que se relaciona con las bases conseguidas. 
El segundo ejemplo que veremos es el de la notable precisión de Nate Silver
con los resultados de cada estado en las elecciones presidenciales de Estados
Unidos en 2012. Nate creó un blog llamado FiveThirtyEight, el número de
representantes en el Congreso. Extrajo y combinó datos de un gran número de
encuestas, los valoró según su fiabilidad, y fue capaz de hacer una
predicción precisa para cada uno de los estados de Estados Unidos. Fue muy
sorprendente. Quiero enseñarte su página, FiveThirtyEight. Nate Silver también
hace estadísticas deportivas. De hecho, la gente lo conoce por las estadísticas
de béisbol, como en «Moneyball». Su página era política, pero la compró el
grupo mediático ESPN, y esta es su página actual (puedes ver a Nate abajo a la
derecha). Se dedica a hacer todo tipo de predicciones. 
Su página también es conocida cuando se hacen las predicciones del
baloncesto universitario. 
El tercer ejemplo es el premio de Netflix. Fue hace unos años, cuando Netflix
ofreció un premio de un millón de dólares a quien mejorara la calidad de sus
recomendaciones un 10 por ciento, utilizando un conjunto de datos
anónimos. A partir de esto, se obtuvieron análisis estadísticos singulares. 
Quizás lo más interesante del Netflix Prize fue la eficacia de lo que se llaman
modelos de conjunto. La idea es que no creas un único modelo
predictivo. No intentas determinar una ecuación de regresión y un modelo
random forest para predecir, sino que creas tantos modelos predictivos
como puedas, y después calculas la media de los resultados. 
Cuando se trata de predicciones, el promedio de las predicciones suele ser más
preciso que una predicción individual. Es como intentar acertar el número de
gominolas que hay en un tarro. 
Si haces una media de las predicciones de todo el mundo, vas a estar más
cerca del número real que el número que diga una sola persona. 
El Netflix Prize fue hace unos años, pero existe una página llamada
kaggle.com donde puedes encontrar todo tipo de competiciones de análisis
predictivo. 
Vamos a verla. 

Aquí tenemos que ahora mismo tienen un desafío sobre aprendizaje automático


para identificar el bosón de Higgs. Asombroso.
Vamos al apartado de competiciones,
donde vemos que varias empresas que tienen datos tienen abiertas
competiciones para encontrar buenos modelos predictivos, y pagan premios
que van hasta los 25 000 dólares. Ya han tenido algún premio de medio millón
de dólares, y también hay competiciones gratis que están aquí para enseñarte a
hacer análisis predictivos. Por ejemplo, esta de aquí abajo, Titanic,

es una competición educativa sobre el aprendizaje automático en Python y


R. Kaggle es una fuente fabulosa. El análisis predictivo es un área de interés
porque, especialmente si estás en el ámbito empresarial, predecir lo que va a
ocurrir y tener conocimiento de antemano te va a dar una gran ventaja
competitiva. 
Es un área de increíble crecimiento y uno de los campos más fascinantes de la
estadística, porque los criterios siempre están muy claros, cualidad que escasea. 

Con solo esperar un poco, puedes saber si tu modelo es bueno o si no lo es, y el


progreso en este campo hace posible ir aprendiendo cada vez más; sobre todo
con la materia prima del big data, tenemos la oportunidad de crear modelos
nuevos y más perfeccionados, y de conseguir una capacidad predictiva mejor
para obtener más ventaja competitiva.

La visualización en el big data

Sabemos que las computadoras pueden hacer muchas cosas por nosotros. 
Por otro lado, sigue habiendo tareas en las que somos mejores que las
máquinas, y la visualización es una de ellas. 
Los humanos somos animales visuales. Interpretamos y obtenemos mucha
información mediante la vista. 
Las computadoras son buenas identificando patrones. También destacan a la
hora de calcular modelos predictivos y hacer minería de datos. A los humanos
nos costaría miles de vidas. 
Sin embargo, los humanos percibimos e interpretamos patrones mucho mejor
que las computadoras, por lo que la visión humana juega un papel importante
en el big data. 
Vemos los patrones y podemos captar las excepciones y las anomalías
rápidamente. También distinguimos los patrones en variables múltiples y
grupos. Interpretando el contenido de las imágenes somos mejores que las
máquinas. 
Aquí tenemos algunos ejemplos de patrones Gestalt, una palabra alemana que
significa «patrón» o «forma». Arriba a la izquierda tenemos tres círculos o arcos
que juntos sugieren un triángulo en el medio. 
El triángulo no está ahí. Se crea por la ausencia. Los humanos lo vemos
fácilmente, porque lo sugiere el espacio negativo. A una computadora le
costaría más verlo. También, en el siguiente ejemplo, podemos distinguir la
disposición de los círculos y cuadrados. Abajo a la izquierda, distinguimos los
cuadrados por separado. Luego tenemos los cuadrados en pares y todos juntos
en una línea. Los humanos lo percibimos e interpretamos fácilmente. A las
máquinas les resultaría difícil. En el último ejemplo, vemos filas de puntos, y
luego columnas, porque estamos hechos con este tipo de procesamiento
visual. Es muy difícil describir cómo lo vería una máquina. 
Quiero enseñarte un ejemplo interesante de la Fundación Nacional para la
ciencia (de Estados Unidos). 
En su página tienen visualizaciones magníficas que también son muy
informativas. Voy a bajar, y fíjate en la de la derecha, que es sobre
video. Tenemos los ganadores de 2013. Voy a clicar en el primero. Este es un
frame de una visualización en video.

Nos muestra datos del tiempo desde satélites que se encuentran sobre la
Tierra. Aquí tenemos patrones obvios de la circulación del océano y el
viento. Nos resulta fácil distinguir las formas arremolinadas que conforman un
flujo continuo, y también los círculos. Podemos verlo fácilmente. Está basado en
un conjunto enorme de datos. Aquí se representa el big data. Pero las
computadoras no lo ven. Tengo que hacer un aparte. 
La visualización es importante, y no podemos asumir que todo vale. Hay
algunos factores que no funcionan. Algunas representaciones gráficas que hay
en internet son imágenes estéticamente fascinantes, pero no son muy
informativas. 
Es importante tener en cuenta que un gráfico bonito no siempre es lo mejor. 
¿Conoces las reglas de Excel? Nunca utilices una tercera dimensión falsa. No
separes los datos de los ejes. Tienes que interpretarlos de manera
clara. Además, en muchas situaciones, los gráficos animados o
interactivos pueden ser más informativos, pero a veces distraen y confunden, en
vez de mostrar el mensaje de manera clara. antes de decantarte por ellos, evalúa
si los necesitas. 

El objetivo de la visualización y la representación de los datos en gráficos


es informar. Queremos interpretar la información de manera rápida y clara, y
cualquier factor que nos distraiga o (esperemos que no) nos dé una impresión
equivocada es un error y debería eliminarse. 
La visualización de datos sigue siendo un área donde los humanos contribuimos
en el análisis del big data, y las computadoras aportan todos los modelos que
conocemos. 
A la hora de planificar un proyecto de big data, es importante recordar el
elemento humano y que seguimos necesitando la percepción e interpretación
humana para que los datos tengan sentido, además de lo que aportan las
computadoras.

El papel de Excel en el big data

Me gustaría hablar brevemente del papel de Excel en el análisis del big data. 
Es importante, ya que mucha gente piensa que para hacer big data, tienes que
utilizar un equipamiento de ciencia espacial, y como Excel viene instalado en
muchas computadoras, no es lo suficientemente sofisticado y no cumple los
requisitos necesarios. 
Esto no es cierto. Excel tiene muchos beneficios. Primero, siempre te convendrá
ir a la par que los usuarios. El análisis está ahí para servir a un propósito, que es
informar a los demás. Incluso aunque tengas que guardar datos, hacer trampa y
utilizar otros programas para acceder a ellos, Excel sigue siendo una buena
forma de compartirlos, porque es con lo que la gente sabe trabajar. Es la
herramienta de datos más común. 
En el mundo hay cientos o incluso miles de millones de copias de Excel, y
millones de personas lo utilizan diariamente, incluso los mineros profesionales
de datos. 
Una encuesta sobre la utilización de software de minería de datos concluía que
la tercera aplicación que se usaba era Excel. 
Además, el big data y la ciencia de datos tienen una conexión interesante con
Excel. Excel por sí solo, solo la aplicación, es capaz de hacer ciencia de
datos. Donde mejor se explica esto es en el libro Data Smart: Using Data Science
to Transform Information into Insight, de John W. Foreman, que menciona las
prestaciones avanzadas de Excel, que hacen posible explorar y manipular datos
de manera que nunca habías imaginado. Y es interesante que al utilizar lo que
se llama «interfaces de conectividad de bases de datos abierta» puedes
conectar Excel directamente con Hadoop y hacer las queries y los análisis desde
la interfaz de Excel. 
Vamos a abrir Excel brevemente. Estoy en Excel, con una hoja en blanco. 

Si vamos al menú «De otras fuentes», lo primero que aparece es «Desde SQL
Server», que es una base de datos relacional, donde tendremos mucha
información, pero también puedes ir a Microsoft Azure Marketplace, que va a
conectarte con Hadoop. El Wizard, las queries y OData son métodos para
conectarte al big data.
Ahora Microsoft tiene sus propias soluciones, y otros proveedores tienen otras
formas de vincular Excel al big data y a Hadoop para hacer posible el control del
análisis, o al menos para hacer queries y clasificaciones desde la interfaz
más familiar para trabajar con los datos. 
Por último, quiero mencionar que Excel también es una gran forma
de compartir los resultados del análisis. Puedes hacer tablas dinámicas
interactivas (una gran forma de explorar las complejidades de los datos y muy
conocida para los usuarios). 
Las hojas de cálculo clasificables y los gráficos y diagramas son familiares y
comunican la información de forma clara. Diría que representar en Excel los
resultados, que supone un nivel de exploración y manipulación para el
público, probablemente sea la forma más democrática de compartir los
resultados de un análisis de big data. 
El objetivo de cualquier análisis es proporcionar información con la que la
gente pueda trabajar para mejorar sus negocios y sus proyectos.

También podría gustarte