Documentos de Académico
Documentos de Profesional
Documentos de Cultura
La variedad de cosas que se pueden hacer por medio del enfoque de la Ciencia de
datos, tanto aprovechando la masiva cantidad de datos disponibles como las
técnicas de aprendizaje automático, es muy grande. Con todo, pueden mencionarse
algunas variantes fundamentales que se organizan por niveles de profundidad y
complejidad. Establecer con qué tipo de aplicación está relacionado un trabajo es
importante para tomar decisiones en la práctica concreta a la hora de encarar un
proyecto de Ciencia de datos. Concretamente, tiene impacto tanto en los recursos
necesarios como en la relevancia de distintos antecedentes.
Hasta ahora hemos visto ejemplos donde un científico de datos trabajaba en una de
las tareas más difíciles que hay: predecir un evento. Como jocosa pero agudamente
decía el físico Niels Bohr, “predecir es algo muy difícil, especialmente si se trata del
futuro”. En un caso, se trataba de predecir la evolución de una epidemia, tanto en
términos espaciales como temporales. En el segundo caso, de establecer cuáles
serían las características más probables de un agresor, a partir de las características
de la víctima y de la escena del crimen. Ahora bien, podríamos preguntarnos: ¿es
este el único tipo de cosas que se pueden hacer en ciencia de datos? Consideremos
los siguientes casos, por ejemplo:
☰ I-Phones lentos
Hace algunos años existía el rumor de que cada vez que un nuevo modelo de
iPhone estaba por salir al mercado, el modelo anterior se volvía sospechosa pero
irremediablemente más lento. Esto daba lugar a especular con una posible
estrategia comercial desleal por parte de Apple, consistente en empeorar el
rendimiento de un dispositivo para obligar a los usuarios a adquirir el nuevo modelo.
Sin embargo, hay varios puntos a considerar en ese planteo. Primero, es necesario
verificar que el enlentecimiento sea un fenómeno real y no una mera “sensación”.
Segundo, si es un fenómeno generalizado entre los usuarios o una situación casual
que afecta solo a unos pocos de ellos. Tercero, si la lentificación es un fenómeno
asociado exclusivamente con los teléfonos de Apple u ocurre también con otras
marcas (Sosa Escudero, 2019).
2. Sistematización de datos
Por otra parte, al margen de la potencia que por sí sola puede tener una buena
representación de los datos, es siempre un requisito necesario para cualquier
análisis ulterior. La sistematización está íntimamente asociada al filtrado, como
tendremos ocasión de ver más detalladamente en el módulo 2. Por ejemplo, tanto en
el trabajo de Laura Trucco con los iPhones lentos como en el de los investigadores
de Google y el CDC, respecto de la predicción de la evolución de una epidemia, el
trabajo analítico que se realizó requirió la recolección de datos y su sistematización.
El hecho de segmentar las búsquedas y analizar sus frecuencias, para luego
ordenarlas es parte de un proceso típico de sistematización de datos.
En términos más precisos, lo que hizo Laura Trucco fue detectar la existencia de un
fenómeno y describirlo. La potencia de la Ciencia de datos consistió en permitir la
detección de una relación aparentemente oculta entre variables a partir de
procedimientos sistemáticos. El análisis realizado no explica si el fenómeno se debe
a una estrategia comercial desleal para con los clientes o a algún tipo de falla de
software. De hecho, en algún momento posterior, Apple se pronunció respecto del
enlentecimiento y afirmó que la causa del fenómeno era un problema de las baterías
(Sosa Escudero, 2019). Sea como fuere, la detección del fenómeno, aunque no
permitía explicarlo, abría la puerta a posibles investigaciones posteriores. Este es un
punto muy importante que comparten lo que en la ciencia en general se denominan
“investigaciones descriptivas”: son un paso previo necesario para la explicación y
predicción de fenómenos allí donde es posible.
Existen otras formas de análisis descriptivo que pueden realizarse por medio de
técnicas de Ciencia de datos. Un ejemplo de particular importancia para el ámbito de
la Criminología y Seguridad Pública es lo que en análisis delictivo se denomina
Vinculación de casos. La idea de este procedimiento consiste en encontrar casos
similares entre sí, tales que sea factible que correspondan a crímenes cometidos por
un mismo agresor. A partir de un conjunto de datos asociados con distintos casos
criminales, se aplica un algoritmo que se encarga de agrupar casos tales que sean lo
más parecidos posibles entre sí y, a la vez, lo más distintos posibles de los demás.
Exactamente el mismo tipo de enfoque puede aplicarse para la segmentación de
clientes. Como hemos visto en la unidad anterior, una de las aplicaciones
transversales a todo el sector comercial y financiero es la división de clientes por
grupos homogéneos tales que consuman los mismos productos, o presenten
similares niveles de riesgo frente a determinadas situaciones, etc. Una vez más, el
análisis es meramente descriptivo. El nombre técnico general que recibe esta forma
de análisis es la de agrupamiento o clustering. Hablaremos mucho más sobre ella
en el módulo 3.
Un detalle llamó la atención del director del servicio forense, sin embargo. Muchos
de los criminales identificados para los casos de violación no figuraban como
convictos por delitos de violación, sino por delitos de robo, de modo que la comisión
previa de un robo parecía ser un antecedente más relevante para identificar
tempranamente a un violador, que la comisión previa de alguna violación. Entonces,
se analizaron estos robos para tratar de entender qué sucedía con ellos. El resultado
fue el descubrimiento de comportamientos que se apartaban de lo considerado
“normal” para un robo. Se trataba, en su mayoría, de irrupciones en viviendas que no
se encontraban vacías, donde había mujeres solas o con niños, y los criminales no
tomaban nada de valor sino, a lo sumo, alguna chuchería, que recordaba más a un
“suvenir por la visita” que otra cosa. Es decir, eran conductas que implicaban un
riesgo muy grande, para obtener una recompensa económica muy menor. Sin
embargo, tenían, desde el punto de vista criminológico, otra interpretación posible:
más que robos, podían pensarse como experimentos donde el criminal estaba
desarrollando un método de aproximación a sus víctimas (McCue, 2015). Así, por
medio del análisis de casos desviados se pueden detectar criminales que tienen más
probabilidades de escalar en la gravedad de los crímenes que cometen.
Sin embargo, no en todas las ciencias es posible realizar experimentos, tanto por
razones éticas como de implementación. Por ejemplo, imaginen que un psicólogo
pretendiera estudiar el duelo de una persona frente a la pérdida de un familiar,
matando a propósito a los familiares de un grupo de personas y no a los de otro
grupo. No solo constituiría un accionar delictivo, sino que sería imposible encontrar
voluntarios para semejante experimento. En tales situaciones—algunas grotescas
como la propuesta y otras no tanto—lo mejor a lo que se puede aspirar es a trabajar
con los datos que hay disponibles sobre un determinado fenómeno, aunque no
provengan de un experimento controlado.
Ahora bien, al momento de seleccionar datos relevantes hay que tener en cuenta
algunas precauciones. La razón por la cual un experimento controlado permite
determinar la relación causal entre A y B es que separa claramente las causas de los
efectos. En términos prácticos, para determinar si A es causa de B, se debe
introducir la presunta causa A de manera tal que varíe de manera independiente del
efecto B que se trata de medir. En términos técnicos, se diría que la variable se
mueve exógenamente con relación al resultado del experimento (Sosa Escudero,
2019).
Por ejemplo, en el caso del experimento con ibuprofeno, la razón por la cual el
experimento funciona es que la única diferencia entre un grupo y otro es que uno de
los grupos recibió la droga y el otro no. Cualesquiera otras diferencias que pudieran
existir de una persona a otra se neutralizan debido a la selección al azar de un
número suficientemente grande de personas. Así, se puede estar estadísticamente
seguro de que cualquier variación en el resultado se deberá a la única cosa que ha
cambiado estadísticamente: el hecho de que a un grupo se le ha administrado el
medicamento y al otro no. Esto es lo que se conoce como condición ceteris paribus:
una sola cosa cambia, mientras todo el resto permanece igual. Por el contrario, si la
droga se le diera a gente que tiene fiebre y el placebo a gente que no, entonces
habría una diferencia inicial de temperatura, que se confundiría luego con lo que
queremos medir. Como resultado, no sabríamos si las diferencias de temperatura
están asociadas con las diferencias iniciales o con la administración de la droga.
Por el contrario, tomar una base de datos y comparar, en un momento dado, a las
personas que hacen dieta con las que no, no nos serviría en absoluto, ya que los
que hacen dieta son aquellos que ya están excedidos de peso. Como resultado, el
efecto—el peso de las personas—está influyendo en cómo la causa se distribuye
sobre los sujetos del estudio. Así, podríamos llegar a la conclusión de que hacer
dieta genera sobrepeso, puesto que los que hacen dieta están gordos y los otros no.
Resumiendo, la causa se mueve de manera exógena cuando se distribuye entre
los sujetos del experimento de una manera que no tiene relación alguna con el
efecto a medir: la distribución aleatoria garantiza precisamente esto. Lo mismo
ocurriría con datos de consumo de ibuprofeno, porque quienes consumen ibuprofeno
no lo hacen porque se le ha asignado al azar, sino porque tienen fiebre y confían en
que les ayudará a bajarla.
Por último, solo encontrar una correlación entre variables a través de los datos, no
termina de despejar cuál de ellas es la causa y cuál es el efecto (Sosa Escudero,
2019). Solamente dice que las variables “se mueven juntas”. Por ejemplo, si existiera
una correlación entre religiosidad y actitudes sociales, la correlación no aportaría
información respecto de si las actividades religiosas hacen mejores a las personas o
si las personas que son mejores tienen una mayor inclinación a participar en
actividades religiosas. Una vez más, las causas no están adecuadamente separadas
de los efectos.
En resumen, para que los datos no experimentales—entre ellos los de “Big data”—
sirvan como si hubieran sido generados por un experimento, necesitamos que la
causa se distribuya exógenamente sobre el conjunto en que la vamos a estudiar. Por
ejemplo, en nuestro caso, dado un conjunto de personas respecto de las cuáles
quisiéramos medir el impacto de la religiosidad, necesitaríamos hacer que la mitad
de las personas elegidas al azar practiquen actividades religiosas y las demás no. Lo
esencial es que, estadísticamente hablando, esa debería ser la única diferencia
entre ambos grupos, de manera que cualquier diferencia de resultados entre ellos
solamente pudiera atribuirse a ella. Solamente cuando la causa se mueve de
manera exógena es posible atribuir causalidad a la correlación. En caso contrario,
una mera correlación puede ser accidental o sugerir una dirección causal absurda
(por ejemplo, que el ibuprofeno hace subir la fiebre porque todos los que lo toman
tienen fiebre o que hacer dieta engorda porque solo los gordos hacen dieta).
Entonces, la cuestión es esta: dada una población, no podemos hacer que la mitad
de sus miembros escogidos al azar practiquen una religión y el resto no, para ver
qué resultados se obtienen en términos de actitudes prosociales. Sin embargo, si
hubiera algún fenómeno que, sin haber sido generado por los investigadores, se
manifestara al azar y generará, a su vez, una caída en las prácticas religiosas,
entonces, sería como si (indirectamente) se hubiera generado un experimento.
Entonces, las variaciones en las actitudes sociales entre ambos grupos podrían
atribuirse, estadísticamente, a los cambios en la religiosidad de las personas.
A partir de una consulta basada en distintas fuentes, incluyendo diarios online, datos
administrativos y otros recursos, construyeron una base de datos compuesta por
3024 escándalos de abuso sexual por parte de clérigos de la iglesia católica, entre
los años 1980 y 2010 (Bottan & Pérez-Truglia, 2015). Aquí hay un punto importante.
Lo que los investigadores analizaron no fueron los abusos, sino los escándalos
asociados con los abusos: es decir, la difusión al público de la denuncia del abuso.
En efecto, varios abusos se convirtieron en escándalos muchos años después de
cometidos. Más aún, ni siquiera era importante que el abuso fuera real o una falsa
acusación, porque lo esencial era el escándalo en sí mismo (Bottan & Pérez-Truglia,
2015). Un análisis preliminar de los datos no arrojaba ningún patrón temporal obvio
en la distribución, es decir, parecían distribuidos al azar. Desde el punto de vista
espacial, parecía haber más escándalos en aquellos estados que eran más
católicos, pero había una considerable variabilidad geográfica a lo ancho del país
(Bottan & Pérez-Truglia, 2015). Por ende, las perspectivas parecían prometedoras,
pero se requería un análisis más riguroso para estar seguros.
Verdadero.
Falso.
Justificación
3. Predicción de fenómenos
A diferencia de lo que ocurría con el caso del monitoreo de una epidemia, donde la
FBRI y la intensidad de la influenza, medida como la fracción de visitas médicas por
influenza (FVMI), eran cantidades numéricas, el caso de la caracterización
estratégica de sospechosos relaciona cantidades que no tienen valores numéricos.
En efecto, las características de la víctima y de la escena del crimen, que
proponíamos usar para predecir las características más probables de un agresor, no
son números. Son palabras tales como “mujer”, “traslada el cuerpo”,
“comportamiento ritual”, etc. En estos casos, donde los fenómenos cuya relación se
necesita predecir no se miden numéricamente, el modelo no asume la forma de una
función matemática, sino alguna otra, que tendremos ocasión de desarrollar más
tranquilamente en el módulo 3. Por ahora, basta saber que estos procesos donde se
intentan predecir cualidades que no se representan numéricamente se denominan
procesos de clasificación (Han et. al., 2012).
4.¿Qué variante necesito?
Consideremos algunos casos que pueden servir como ejemplos de esto. La segunda
parte del resumen del artículo de Ginsberg et.al. (2008) se puede traducir como
Hemos subrayado algunas frases y conceptos que pueden ser útiles. En primer
lugar, el trabajo presenta un método y no solamente conocimientos generados por
medio de un estudio. En segundo término, habla de “estimar”, que en un sentido
estricto es determinar el valor de algo, pero que en la jerga de la ciencia de datos
puede ser usado como sinónimo de “predecir”. En este caso, pereciera ser usado en
el segundo sentido, pero habrá que leer más para determinarlo. Finalmente, propone
que el método puede ser aplicado para detectar epidemias (una situación
desconocida), a partir de búsquedas web (conocidas). Estos datos ya sugieren
fuertemente la vocación por aplicar en la práctica un método para determinar un
fenómeno desconocido, lo cual es típico de las aplicaciones de predicción. Al
continuar leyendo, se pueden encontrar otros pasajes elocuentes, como el que
traduzco a continuación:
Buscamos desarrollar un modelo simple que calcule la probabilidad de
que una visita al médico al azar en una región en particular esté
relacionada con una enfermedad de tipo influenza (ETI); esto es
equivalente al porcentaje de visitas al médico relacionadas con ETI. Se
utilizó una única variable explicativa: la probabilidad de que una
búsqueda aleatoria enviada desde la misma región esté relacionada con
una ETI, según lo determinado por un método automatizado que se
describe a continuación. Ajustamos un modelo lineal utilizando el logit
de una visita al médico por ETI y el logit de una consulta de búsqueda
relacionada con ETI. (Ginsberg et. al., 2008, p. 1012)
Por otro lado, en otro tramo del artículo se da un detalle clave respecto del método
empleado en el estudio. El texto en cuestión puede traducirse como: Este artículo
estudia los escándalos de abuso del clero católico de EE. UU. como una forma de
experimento natural. (Bottan & Pérez-Truglia, 2015, p. 106). La idea clave del
“experimento natural” termina de mostrar claramente cuál es el enfoque
metodológico del trabajo. De todas maneras, siempre es una buena idea hacer una
lectura global del trabajo para estar seguros de que hemos dado con la
interpretación correcta.
5. Observaciones finales
Para concluir, resta dar algunas pautas para trabajar con la bibliografía y demás
recursos propuestos para esta lectura. La base conceptual del proceso es el capítulo
2 del libro de Sosa Escudero, que menciona estas distintas variantes a través de
ejemplos, varios de los cuáles están incluidos en lo que acaban de leer. A
continuación, sugiero ver la charla TED de Manuel Aristarán, que resulta muy
instructiva como experiencia práctica de las dificultades externas que pueden afectar
el trabajo de un científico de datos. Luego, revisar las secciones sugeridas del
artículo de Bottan y Pérez-Truglia, donde es importante que empiecen a ver el nivel
de detalle con que se analizan los datos en un trabajo académico. Finalmente, si
bien no es obligatorio para esta lectura, sugiero que revisen los artículos
mencionados en la bibliografía y los usen para ganar práctica en determinar qué tipo
de aplicación interviene en cada uno de ellos.
Referencias
García, J., Molina, J., Berlanga, A., Patricio, M., Bustamante, A. & Padilla, W.
(2018). Ciencia de Datos: Técnicas analíticas y aprendizaje estadístico en un
enfoque práctico. Bogotá: Alfaguara.
Ginsberg, J., Mohebbi, M., Patel, R., Brammer, L., Smolinski, M. & Brilliant, L.
(2009). Detecting influenza epidemics using search engine query data. Nature, 457,
1012-14, doi:10.1038/nature07634.
Han, J., Kamber, M. & Pei, J. (2012). Data Mining: Concepts and techniques (3rd
ed.). Waltham: Morgan Kaufmann.
McCue, C. (2015). Data Mining and Predictive Analysis: Intelligence Gathering and
Crime Analysis (2nd ed.). Oxford: Butterworth-Heinemann.
Sosa Escudero, W. (2019). Big data: breve manual para conocer la ciencia de datos
que ya invadió nuestras vidas. Buenos Aires: Sigo XXI editores.