Está en la página 1de 26

IntroducciónBloque 1Bloque 2Bloque 3Bloque 4Bloque 5Referencias

Variantes fundamentales del


análisis de datos
Introducción

La variedad de cosas que se pueden hacer por medio del enfoque de la Ciencia de
datos, tanto aprovechando la masiva cantidad de datos disponibles como las
técnicas de aprendizaje automático, es muy grande. Con todo, pueden mencionarse
algunas variantes fundamentales que se organizan por niveles de profundidad y
complejidad. Establecer con qué tipo de aplicación está relacionado un trabajo es
importante para tomar decisiones en la práctica concreta a la hora de encarar un
proyecto de Ciencia de datos. Concretamente, tiene impacto tanto en los recursos
necesarios como en la relevancia de distintos antecedentes.

1. Variantes fundamentales del análisis de datos

Hasta ahora hemos visto ejemplos donde un científico de datos trabajaba en una de
las tareas más difíciles que hay: predecir un evento. Como jocosa pero agudamente
decía el físico Niels Bohr, “predecir es algo muy difícil, especialmente si se trata del
futuro”. En un caso, se trataba de predecir la evolución de una epidemia, tanto en
términos espaciales como temporales. En el segundo caso, de establecer cuáles
serían las características más probables de un agresor, a partir de las características
de la víctima y de la escena del crimen. Ahora bien, podríamos preguntarnos: ¿es
este el único tipo de cosas que se pueden hacer en ciencia de datos? Consideremos
los siguientes casos, por ejemplo:

☰ I-Phones lentos
Hace algunos años existía el rumor de que cada vez que un nuevo modelo de
iPhone estaba por salir al mercado, el modelo anterior se volvía sospechosa pero
irremediablemente más lento. Esto daba lugar a especular con una posible
estrategia comercial desleal por parte de Apple, consistente en empeorar el
rendimiento de un dispositivo para obligar a los usuarios a adquirir el nuevo modelo.
Sin embargo, hay varios puntos a considerar en ese planteo. Primero, es necesario
verificar que el enlentecimiento sea un fenómeno real y no una mera “sensación”.
Segundo, si es un fenómeno generalizado entre los usuarios o una situación casual
que afecta solo a unos pocos de ellos. Tercero, si la lentificación es un fenómeno
asociado exclusivamente con los teléfonos de Apple u ocurre también con otras
marcas (Sosa Escudero, 2019).

Una estrategia tradicional hubiera requerido tomar una muestra de teléfonos de


Apple al azar, con un tamaño estadísticamente suficiente, monitorear parámetros de
rendimiento del dispositivo y luego comparar la velocidad del dispositivo en función
del tiempo para verificar si este disminuía en los momentos en que aparecía un
modelo de teléfono nuevo. En cambio, una economista argentina, Laura Trucco, optó
por un enfoque distinto. Seguramente consciente de la dificultad del abordaje
tradicional, conjeturó que, si era verdad que los usuarios percibían un
enlentecimiento, entonces, en la era de Google, deberían aparecer consultas en el
buscador, respecto del fenómeno mencionado (Sosa Escudero, 2019).

Por consiguiente, la investigadora realizó un análisis de las búsquedas en Google
asociadas con el enlentecimiento de los teléfonos de la manzanita y luego hizo un
gráfico de la cantidad de búsquedas en función del tiempo. A continuación,
superpuso este gráfico temporal con las fechas en las que salían los nuevos
modelos de iPhone. Esta comparación permitió evidenciar clarísimos picos de
búsqueda cada vez que aparecía un nuevo modelo en el mercado. Por otra parte, al
repetir la estrategia con otras marcas, como por ejemplo Samsung, se hizo evidente
que el fenómeno era privativo de Apple. Por lo tanto, el estudio de Trucco permitió
mostrar que la percepción de enlentecimiento era un fenómeno que afectaba a un
considerable número de personas, exclusivamente respecto de teléfonos de la
marca Apple. El carácter notablemente generalizado de la percepción de lentitud de
estos teléfonos constituye evidencia indirecta de su enlentecimiento real (Sosa
Escudero, 2019).
☰ Gasto público bahiense
La transparencia en la ejecución del presupuesto público es siempre un problema
delicado ya que, al fin y al cabo, se trata de cómo y en qué se gasta nuestro dinero.
Con el advenimiento de la internet, algunas reparticiones públicas comenzaron a
publicar distintos tipos de datos, relativos a sus funciones y también, en algunos
casos, relativos a sus gastos y a la administración de los fondos públicos. Un
ejemplo es el municipio de Bahía Blanca, en la provincia de Buenos Aires. Corría el
año 2010 y la municipalidad local disponía de un sitio online donde tenía cargada
una gran cantidad de información, disponible para el público en general, sobre los
gastos realizados por el municipio. Sin embargo, el programador Manuel Aristarán
notó que la información estaba organizada de tal manera que tornaba casi imposible
hacer un uso productivo de los datos contenidos en el sitio. Consultas tan simples
como “cuánto dinero se gastó en publicidad el mes pasado” eran imposibles de
realizar para un internauta promedio, en un tiempo razonable (Sosa Escudero,
2019).

Por consiguiente, el protagonista de esta historia creó una aplicación, denominada


Gasto Público Bahiense (GPB), que permitía realizar distintos tipos de consultas de
una manera rápida. La aplicación tenía un formato más amigable para el usuario
común y permitía un mejor aprovechamiento de la información pública. Lo único que
Aristarán necesitaba hacer era, mediante un algoritmo adecuado, recolectar la
información presente en el sitio oficial del municipio y reorganizarla de una mejor
manera. Este ejemplo muestra algo muy importante y es que en el reino de los datos
en general, y en el de los datos masivos en particular, no basta simplemente con
tener los datos. La manera como están organizados es un aspecto esencial que
puede volverlos muy poderosos o completamente inútiles (Sosa Escudero, 2019).
Dados estos dos ejemplos: ¿En qué sentido se puede decir que son semejantes
entre sí y respecto de los casos estudiados en las lecturas anteriores y en qué
sentido son diferentes? Fuera de cuestiones obvias—como el hecho de que en
todos los casos se trabaja con datos y que, salvo en el caso de la segunda lectura
(donde no hemos especificado de dónde vienen los datos), la información fue
tomada de internet—los objetivos en estos dos últimos casos parecen ser distintos
de aquellos asociados con el estudio de una epidemia. En efecto, en el caso de la
predicción de la epidemia, el objetivo consistía en monitorear su evolución espacio-
temporal a partir de datos de búsquedas asociadas con la influenza, de amplia
disponibilidad en internet. En el caso de los iPhones lentos, el objetivo era verificar
si, como se desprendía de una especie de leyenda urbana, era verdad que los
iPhones se volvían más lentos en la previa de la salida al mercado de un nuevo
modelo. Finalmente, el objetivo de la aplicación Gasto Público Bahiense era hacer
una reorganización de los datos crudos del sitio oficial del municipio para agilizar la
consulta de información relevante sobre el uso del dinero público.

Esto muestra que, efectivamente, el enfoque de la Ciencia de datos se puede usar


para distintas cosas y no siempre un problema se resuelve formulando predicciones.
Enumerar completamente todos los tipos de problemas que se pueden resolver con
dicho enfoque resultaría un tanto pretencioso. En todo caso, podemos indicar
algunos de los tipos de trabajos fundamentales que se pueden hacer por su
intermedio y dar algunas indicaciones acerca de cómo reconocerlos en trabajos
concretos.

2. Sistematización de datos

Como lo demuestra el caso de la aplicación Gasto Público Bahiense, a veces se


puede extraer mucho valor de un conjunto de datos—especialmente si se trata de
datos de Big data—con una buena organización y sistematización. Los datos
masivos no son prolijos, justamente debido a la naturaleza anárquica y espontánea
de la que hemos hablado sobradamente en nuestra primera lectura de este módulo.
Creer que solamente con tener los datos es suficiente, es un típico error de
principiante. De hecho, cualquiera que quiera negarse a compartir información con
otros, enfrentado a la necesidad legal (o de otro tipo) de tener que compartirlos
contra su voluntad, podría cometer la picardía de “esconder” la información solicitada
ahogando al destinatario en un mar de otros datos superfluos.
La aplicación Gasto Público Bahiense (GPB), por ejemplo, no pasó desapercibida y
no gustó a las autoridades municipales de la época, quienes rediseñaron el sitio web
oficial para incluir un CAPTCHA. Un CAPTCHA, que es el acrónimo de Prueba de
Turing automática para diferenciar computadoras de seres humanos (por sus siglas
en inglés), es un conjunto de instrucciones de verificación que son extremadamente
simples para un humano, pero prácticamente imposibles para una computadora. Por
ejemplo, indicar, dado un conjunto de fotografías, en cuáles aparecen partes de
automóviles. La inclusión del CAPTCHA era un veneno mortal para la aplicación
GPB, ya que esta tenía un algoritmo que levantaba los datos del sitio oficial a gran
velocidad. Con la inclusión del CAPTCHA, sería necesaria la participación de un ser
humano, lo cual echaba por tierra las grandes ventajas de la aplicación. Finalmente,
Aristarán encontró la manera de sortear la dificultad impuesta en la extracción de
datos, pero la misma inclusión del CAPTCHA no deja de ser sugestiva. Al respecto,
vale la pena ver la charla TED del creador de GPB, que sirve para reflexionar acerca
de estas cuestiones. El video se titula Cambiando el mundo de a una línea de código
por vez de TEDx Talks (2013).

La sistematización es un proceso usual en la gestión de datos y nos encontramos


frecuentemente con sus resultados en nuestra vida cotidiana. Por ejemplo, los
diarios digitales y otros sitios de internet nos tienen acostumbrados a las infografías,
mapas y otros productos que despliegan información importante. Ejemplos clásicos
son los datos de resultados electorales que los diarios publican a medida que las
fuentes oficiales los ponen a disposición. Simplemente existe un algoritmo, similar a
GPB, que levanta información de un sitio oficial y la reorganiza para que sea más
interesante y/o útil para el usuario final. Exactamente lo mismo ocurrió con el monitor
de contagios y de vacunación, que un diario tradicional argentino publicaba en su
portal a propósito de la pandemia de Covid-19. Una visualización adecuada es tan
importante, que incluso puede que no sea luego necesario ningún análisis
sofisticado adicional.

Por otra parte, al margen de la potencia que por sí sola puede tener una buena
representación de los datos, es siempre un requisito necesario para cualquier
análisis ulterior. La sistematización está íntimamente asociada al filtrado, como
tendremos ocasión de ver más detalladamente en el módulo 2. Por ejemplo, tanto en
el trabajo de Laura Trucco con los iPhones lentos como en el de los investigadores
de Google y el CDC, respecto de la predicción de la evolución de una epidemia, el
trabajo analítico que se realizó requirió la recolección de datos y su sistematización.
El hecho de segmentar las búsquedas y analizar sus frecuencias, para luego
ordenarlas es parte de un proceso típico de sistematización de datos.

Detección de patrones y asociación de variables

Como ya hemos mencionado, el análisis de Laura Trucco sobre la aparente


lentificación de los teléfonos iPhone de la marca Apple, previo a la salida de un
nuevo modelo, requirió la sistematización de datos, pero no se detuvo ahí. Por el
contrario, implicó relacionar dos parámetros o situaciones diferentes a partir de los
datos ya organizados. Por un lado, la evolución en el tiempo de la frecuencia de
búsquedas en Google asociadas con la eventual lentificación de los teléfonos y, por
el otro, los datos relacionados con la fecha de salida de los distintos modelos de
iPhone en el período que la investigadora hubiera seleccionado. Ahora bien, nótese
que el tipo de relación que se estableció no es una función matemática destinada a
predecir la salida de un nuevo modelo a partir de la frecuencia de búsquedas en
Google, sino más bien, una asociación cualitativa entre dos fenómenos
aparentemente desconectados.

En términos más precisos, lo que hizo Laura Trucco fue detectar la existencia de un
fenómeno y describirlo. La potencia de la Ciencia de datos consistió en permitir la
detección de una relación aparentemente oculta entre variables a partir de
procedimientos sistemáticos. El análisis realizado no explica si el fenómeno se debe
a una estrategia comercial desleal para con los clientes o a algún tipo de falla de
software. De hecho, en algún momento posterior, Apple se pronunció respecto del
enlentecimiento y afirmó que la causa del fenómeno era un problema de las baterías
(Sosa Escudero, 2019). Sea como fuere, la detección del fenómeno, aunque no
permitía explicarlo, abría la puerta a posibles investigaciones posteriores. Este es un
punto muy importante que comparten lo que en la ciencia en general se denominan
“investigaciones descriptivas”: son un paso previo necesario para la explicación y
predicción de fenómenos allí donde es posible.

En algunos textos, el tipo de asociación que hizo Trucco suele denominarse


detección de patrones frecuentes (Han, Kamber & Pei, 2012) y consiste en la
detección de ciertas asociaciones que se producen con alguna regularidad. Un
ejemplo típico de esto, en el ámbito comercial es la detección de productos que se
compran juntos de una manera frecuente. Noten la semejanza: en lugar de ser dos
procesos que se dan juntos (pico de consultas por lentificación de iPhones y salida al
mercado de un nuevo modelo), se trata de dos productos que se compran juntos. A
partir de una base de datos de transacciones, un algoritmo se encarga de analizar la
frecuencia de las distintas combinaciones de productos y determina aquellos
conjuntos de productos que más frecuentemente son comprados juntos. Esto
permite a un supermercado, por ejemplo, colocar estos productos en góndolas
aledañas o, inclusive, realizar ofertas de productos combinados. Es importante
advertir que este análisis no suministra, como tampoco lo hacía el de Laura Trucco,
ninguna explicación para la conducta observada; se limita meramente a describirla.
Estos patrones frecuentes suelen subdividirse en correlaciones (cuando los
fenómenos se describen a partir de propiedades numéricas continuas) y reglas de
asociación (cuando las características los fenómenos se describen a partir de
propiedades no numéricas o numéricas discretas) (García, Molina, Berlanga,
Patricio, Bustamante & Padilla, 2018).

Existen otras formas de análisis descriptivo que pueden realizarse por medio de
técnicas de Ciencia de datos. Un ejemplo de particular importancia para el ámbito de
la Criminología y Seguridad Pública es lo que en análisis delictivo se denomina
Vinculación de casos. La idea de este procedimiento consiste en encontrar casos
similares entre sí, tales que sea factible que correspondan a crímenes cometidos por
un mismo agresor. A partir de un conjunto de datos asociados con distintos casos
criminales, se aplica un algoritmo que se encarga de agrupar casos tales que sean lo
más parecidos posibles entre sí y, a la vez, lo más distintos posibles de los demás.
Exactamente el mismo tipo de enfoque puede aplicarse para la segmentación de
clientes. Como hemos visto en la unidad anterior, una de las aplicaciones
transversales a todo el sector comercial y financiero es la división de clientes por
grupos homogéneos tales que consuman los mismos productos, o presenten
similares niveles de riesgo frente a determinadas situaciones, etc. Una vez más, el
análisis es meramente descriptivo. El nombre técnico general que recibe esta forma
de análisis es la de agrupamiento o clustering. Hablaremos mucho más sobre ella
en el módulo 3.

Otro ejemplo relevante de un proceso descriptivo, pero diametralmente opuesto a la


detección de patrones frecuentes, es la detección de desviados. En este caso, de
lo que se trata es de detectar aquellas situaciones que se apartan de un esquema
prefijado o considerado “normal”. La manera de definir lo “normal” puede preexistir a
la conformación del conjunto de datos cuyos desviados se detectan o puede ser
obtenido a partir de un análisis de los registros mismos (es decir, lo normal puede
perfectamente ser un patrón frecuente). Este tipo de análisis es muy utilizado en los
procesos de detección de fraudes y en la detección de criminales cuyos delitos son
susceptibles de escalar hacia delitos más graves.

En el primer caso, las operaciones fraudulentas o sospechosas, tienden a tener


algunas diferencias con aquellas que se consideran normales. Por ejemplo,
transferencias por cantidades redondas y muy pequeñas, pero con una frecuencia
inusualmente alta pueden estar asociadas con comportamientos fraudulentos, tales
como el lavado de dinero por tráfico hormiga. Es que, en el caso de los delitos,
aunque parezca extraño, también hay un comportamiento criminal que se considera
“normal” y otro que se considera desviado. Por ejemplo, en un robo típico, teniendo
en cuenta que el objetivo es una ventaja económica, lo normal es que el delincuente
trate de maximizar el valor esperado del robo a la vez que minimiza todo lo posible el
riesgo. En este sentido, un robo que entrañara un riesgo inmenso para obtener una
recompensa muy pequeña podría considerarse “anormal”. La definición de lo que es
normal y lo que no, puede depender de la época y del lugar. Por ende, la cuestión
debe ser tratada con cuidado.
Vale la pena mencionar un caso importante, asociado con la conducta criminal
“anormal”, relatado por McCue (2015). Hace varios años, luego de la aparición del
ADN, el estado de Virginia en los Estados Unidos comenzó a realizar estudios para
tratar de resolver los llamados cold cases (casos con muchos años de antigüedad,
pero no resueltos). Para eso, elaboró una base de datos de ADN de distintos
criminales convictos, organizados según los delitos que habían cometido. Entonces,
se cruzaron los datos de la base con los análisis de ADN de los casos no resueltos,
a fin de determinar si algunos de los convictos podían ser los criminales buscados en
dichos casos. El proceso tuvo cierto éxito y varios criminales fueron exitosamente
identificados.

Un detalle llamó la atención del director del servicio forense, sin embargo. Muchos
de los criminales identificados para los casos de violación no figuraban como
convictos por delitos de violación, sino por delitos de robo, de modo que la comisión
previa de un robo parecía ser un antecedente más relevante para identificar
tempranamente a un violador, que la comisión previa de alguna violación. Entonces,
se analizaron estos robos para tratar de entender qué sucedía con ellos. El resultado
fue el descubrimiento de comportamientos que se apartaban de lo considerado
“normal” para un robo. Se trataba, en su mayoría, de irrupciones en viviendas que no
se encontraban vacías, donde había mujeres solas o con niños, y los criminales no
tomaban nada de valor sino, a lo sumo, alguna chuchería, que recordaba más a un
“suvenir por la visita” que otra cosa. Es decir, eran conductas que implicaban un
riesgo muy grande, para obtener una recompensa económica muy menor. Sin
embargo, tenían, desde el punto de vista criminológico, otra interpretación posible:
más que robos, podían pensarse como experimentos donde el criminal estaba
desarrollando un método de aproximación a sus víctimas (McCue, 2015). Así, por
medio del análisis de casos desviados se pueden detectar criminales que tienen más
probabilidades de escalar en la gravedad de los crímenes que cometen.

Explicación causal y pseudo-experimentación

La experimentación es la nota característica de algunas de las ciencias más


valoradas. De hecho, si ponemos “científico” en Google y miramos las imágenes que
aparecen, veremos personas vestidas con guardapolvos blancos, que manipulan
tubos de ensayo, microscopios y otros elementos por el estilo. La idea de un
experimento es estudiar, en forma controlada, cómo algunos aspectos de la realidad
inciden sobre otros. Por ejemplo, cómo la fuerza aplicada sobre un cuerpo incide en
su aceleración, o cómo la presencia de ciertas proteínas inhibe o cataliza
determinadas reacciones químicas. Esto implica la búsqueda de relaciones de
causalidad, donde un fenómeno es la causa de otro.

Supongamos que el objetivo de un estudio fuera determinar si el ibuprofeno altera de


alguna forma la temperatura corporal. La estrategia experimental consistiría en
seleccionar una muestra aleatoria de personas, luego dividir ese conjunto a la mitad,
también al azar y administrar a una de las mitades el ibuprofeno y a la otra un
placebo (es decir, una píldora indistinguible del ibuprofeno, pero compuesta de algo
que no produce ningún efecto). Una variación estadísticamente significativa de la
temperatura en el grupo que recibió el ibuprofeno, luego de la administración de la
medicina, comparado con el observado en el grupo que recibió el placebo, mostraría
la relación causal entre la ingesta de ibuprofeno y la variación de la temperatura.

Vale la pena hacer dos observaciones al respecto. En primer lugar, el ejemplo es un


tanto artificial. En la práctica, un laboratorio no querría saber si el ibuprofeno altera la
temperatura de una población en general, sino si baja la temperatura de una
persona con fiebre. Bajo estas condiciones, el grupo de trabajo sería un grupo de
personas con fiebre, a la mitad de las cuáles se daría la medicación y a la otra mitad
no. De esa manera, cualquier variación significativa de temperatura entre ambos
grupos se debería a la administración de la droga, que es lo único que habría
cambiado entre un sub-grupo y otro. Segundo, este tipo de procedimiento,
denominado ensayo controlado aleatorizado, es el que se usa en los ensayos
clínicos de rutina como, por ejemplo, los aplicados para el testeo de las vacunas
contra el Covid-19, de las que hemos oído hablar en los medios de comunicación.

Sin embargo, no en todas las ciencias es posible realizar experimentos, tanto por
razones éticas como de implementación. Por ejemplo, imaginen que un psicólogo
pretendiera estudiar el duelo de una persona frente a la pérdida de un familiar,
matando a propósito a los familiares de un grupo de personas y no a los de otro
grupo. No solo constituiría un accionar delictivo, sino que sería imposible encontrar
voluntarios para semejante experimento. En tales situaciones—algunas grotescas
como la propuesta y otras no tanto—lo mejor a lo que se puede aspirar es a trabajar
con los datos que hay disponibles sobre un determinado fenómeno, aunque no
provengan de un experimento controlado.

Consideremos, por ejemplo, la siguiente pregunta: ¿es cierto que la práctica o


ejercicio de una religión hace mejores a las personas? Un experimentalista
tradicional inmediatamente pensaría en seleccionar un grupo de personas al azar,
obligar a la mitad de ellos a participar en actividades religiosas y a la otra mitad a no
hacerlo. Luego compararía la conducta de ambos grupos para determinar si hay
diferencias significativas entre ellos. Pues bien, resulta evidentemente absurdo
pensar que un grupo significativo de personas se prestara para una cosa así. La
única opción posible es aprovechar datos ya existentes y ver si nos dicen algo útil.
En este sentido, la apuesta consiste en ver si, en la era del Big data, esa enorme y
caótica masa de datos generados espontáneamente nos permite decir algo acerca
de la relación causal entre religiosidad y conductas sociales.

Ahora bien, al momento de seleccionar datos relevantes hay que tener en cuenta
algunas precauciones. La razón por la cual un experimento controlado permite
determinar la relación causal entre A y B es que separa claramente las causas de los
efectos. En términos prácticos, para determinar si A es causa de B, se debe
introducir la presunta causa A de manera tal que varíe de manera independiente del
efecto B que se trata de medir. En términos técnicos, se diría que la variable se
mueve exógenamente con relación al resultado del experimento (Sosa Escudero,
2019).

Por ejemplo, en el caso del experimento con ibuprofeno, la razón por la cual el
experimento funciona es que la única diferencia entre un grupo y otro es que uno de
los grupos recibió la droga y el otro no. Cualesquiera otras diferencias que pudieran
existir de una persona a otra se neutralizan debido a la selección al azar de un
número suficientemente grande de personas. Así, se puede estar estadísticamente
seguro de que cualquier variación en el resultado se deberá a la única cosa que ha
cambiado estadísticamente: el hecho de que a un grupo se le ha administrado el
medicamento y al otro no. Esto es lo que se conoce como condición ceteris paribus:
una sola cosa cambia, mientras todo el resto permanece igual. Por el contrario, si la
droga se le diera a gente que tiene fiebre y el placebo a gente que no, entonces
habría una diferencia inicial de temperatura, que se confundiría luego con lo que
queremos medir. Como resultado, no sabríamos si las diferencias de temperatura
están asociadas con las diferencias iniciales o con la administración de la droga.

Teniendo en cuenta lo anterior, los datos seleccionados deben comportarse de modo


tal que la propiedad que queremos estudiar se comporte exógenamente respecto del
resultado. Por ejemplo, supongamos que quisiéramos estudiar si hacer dieta ayuda a
bajar de peso. En un experimento tomaríamos un grupo de personas seleccionadas
al azar y pondríamos a la mitad de ellos a hacer dieta y a la otra no y luego
compararíamos los resultados antes y después. De esa manera, nos aseguraríamos
de que la decisión de hacer dieta por parte de los sujetos no se deba a una
preocupación por su peso, que es exactamente el efecto que queremos medir.

Por el contrario, tomar una base de datos y comparar, en un momento dado, a las
personas que hacen dieta con las que no, no nos serviría en absoluto, ya que los
que hacen dieta son aquellos que ya están excedidos de peso. Como resultado, el
efecto—el peso de las personas—está influyendo en cómo la causa se distribuye
sobre los sujetos del estudio. Así, podríamos llegar a la conclusión de que hacer
dieta genera sobrepeso, puesto que los que hacen dieta están gordos y los otros no.
Resumiendo, la causa se mueve de manera exógena cuando se distribuye entre
los sujetos del experimento de una manera que no tiene relación alguna con el
efecto a medir: la distribución aleatoria garantiza precisamente esto. Lo mismo
ocurriría con datos de consumo de ibuprofeno, porque quienes consumen ibuprofeno
no lo hacen porque se le ha asignado al azar, sino porque tienen fiebre y confían en
que les ayudará a bajarla.

Tampoco sirve comparar a personas antes y después de un hecho de manera


aislada, porque no podemos saber si no hay otras razones por las cuáles la situación
no ha funcionado (Sosa Escudero, 2019). Por ejemplo, comparar el resultado de una
única persona antes y después de hacer dieta nos expone al riesgo de que algún
otro factor oculto (por ejemplo, una enfermedad) sea responsable de la variación de
peso. Desde el punto de vista estadístico, esto se resuelve generando una muestra
suficientemente grande de individuos tomados al azar. Este proceso de muestreo
hace que terceros factores que afectan solo a individuos concretos tiendan a
cancelarse entre sí, de modo que el único factor neto interviniente sea la causa que
nos interesa.

Por último, solo encontrar una correlación entre variables a través de los datos, no
termina de despejar cuál de ellas es la causa y cuál es el efecto (Sosa Escudero,
2019). Solamente dice que las variables “se mueven juntas”. Por ejemplo, si existiera
una correlación entre religiosidad y actitudes sociales, la correlación no aportaría
información respecto de si las actividades religiosas hacen mejores a las personas o
si las personas que son mejores tienen una mayor inclinación a participar en
actividades religiosas. Una vez más, las causas no están adecuadamente separadas
de los efectos.

En resumen, para que los datos no experimentales—entre ellos los de “Big data”—
sirvan como si hubieran sido generados por un experimento, necesitamos que la
causa se distribuya exógenamente sobre el conjunto en que la vamos a estudiar. Por
ejemplo, en nuestro caso, dado un conjunto de personas respecto de las cuáles
quisiéramos medir el impacto de la religiosidad, necesitaríamos hacer que la mitad
de las personas elegidas al azar practiquen actividades religiosas y las demás no. Lo
esencial es que, estadísticamente hablando, esa debería ser la única diferencia
entre ambos grupos, de manera que cualquier diferencia de resultados entre ellos
solamente pudiera atribuirse a ella. Solamente cuando la causa se mueve de
manera exógena es posible atribuir causalidad a la correlación. En caso contrario,
una mera correlación puede ser accidental o sugerir una dirección causal absurda
(por ejemplo, que el ibuprofeno hace subir la fiebre porque todos los que lo toman
tienen fiebre o que hacer dieta engorda porque solo los gordos hacen dieta).

Esto es precisamente lo que hicieron los investigadores Nicolás Bottan y Ricardo


Pérez-Truglia. Trabajos anteriores sugerían que había una correlación
estadísticamente significativa entre religiosidad y actividades prosociales, es decir,
actividades que generalmente consideramos “solidarias” o de preocupación por la
comunidad (Bottan & Pérez-Truglia, 2015). Sin embargo, no estaba claro cuál de
ellas era la causa de la otra. Buscaron en el océano de datos, a ver si podían
encontrar conjuntos de datos sobre religiosidad y actitudes sociales que se
comportaran de la misma manera que se comportaría un experimento, aunque no se
lo hubiera realizado. Es lo que a veces se denomina un experimento natural.

Entonces, la cuestión es esta: dada una población, no podemos hacer que la mitad
de sus miembros escogidos al azar practiquen una religión y el resto no, para ver
qué resultados se obtienen en términos de actitudes prosociales. Sin embargo, si
hubiera algún fenómeno que, sin haber sido generado por los investigadores, se
manifestara al azar y generará, a su vez, una caída en las prácticas religiosas,
entonces, sería como si (indirectamente) se hubiera generado un experimento.
Entonces, las variaciones en las actitudes sociales entre ambos grupos podrían
atribuirse, estadísticamente, a los cambios en la religiosidad de las personas.

Finalmente, los investigadores encontraron lo que buscaban. Uno de los temas


socialmente más delicados que existen en relación con los cultos religiosos, es el
abuso sexual por parte de sus representantes, sobre todo el abuso infantil. Los
investigadores conjeturaron que los escándalos de abuso sexual por parte de
clérigos de la iglesia podrían tener un impacto muy negativo sobre las prácticas
religiosas de sus feligreses. Concretamente, supusieron que la difusión de los
escándalos podría hacer que el nivel de religiosidad de las personas de la zona en
que hubiese tenido lugar el abuso, medida de alguna manera específica, se
redujese. Si ese fuera el caso, entonces los escándalos operarían,
metodológicamente hablando, como si un investigador hubiera ordenado, a un grupo
de individuos que participaran de un experimento, dejar de hacer actividades
religiosas. Si la conjetura anterior fuese correcta, para tener una situación
completamente equivalente a la de un experimento restaría determinar si los
escándalos estaban distribuidos al azar o no.

A partir de una consulta basada en distintas fuentes, incluyendo diarios online, datos
administrativos y otros recursos, construyeron una base de datos compuesta por
3024 escándalos de abuso sexual por parte de clérigos de la iglesia católica, entre
los años 1980 y 2010 (Bottan & Pérez-Truglia, 2015). Aquí hay un punto importante.
Lo que los investigadores analizaron no fueron los abusos, sino los escándalos
asociados con los abusos: es decir, la difusión al público de la denuncia del abuso.
En efecto, varios abusos se convirtieron en escándalos muchos años después de
cometidos. Más aún, ni siquiera era importante que el abuso fuera real o una falsa
acusación, porque lo esencial era el escándalo en sí mismo (Bottan & Pérez-Truglia,
2015). Un análisis preliminar de los datos no arrojaba ningún patrón temporal obvio
en la distribución, es decir, parecían distribuidos al azar. Desde el punto de vista
espacial, parecía haber más escándalos en aquellos estados que eran más
católicos, pero había una considerable variabilidad geográfica a lo ancho del país
(Bottan & Pérez-Truglia, 2015). Por ende, las perspectivas parecían prometedoras,
pero se requería un análisis más riguroso para estar seguros.

Entonces, los autores procuraron medir los niveles de participación religiosa,


actitudes prosociales y estabilidad de las creencias religiosas, de las comunidades
donde habían ocurrido los abusos, antes y después de que estallaran los respectivos
escándalos, para poder comparar el efecto de estos últimos sobre aquellos
parámetros. En primer lugar, esto requirió medir de manera precisa cada uno de
esos tres aspectos que parecen conceptualmente abstractos. La participación
religiosa se midió utilizando como indicadores el número de escuelas religiosas y el
número de empleados trabajando en establecimientos religiosos. La medición de
actitudes prosociales y de convicciones religiosas se realizó por medio de datos de
encuestas que miden estas variables en forma estandarizada.

El procedimiento consistió en analizar la relación entre los escándalos y cada una de


las otras variables, evaluando al mismo tiempo si la causa se mantenía exógena o
no. Para determinar esto último, se realizó un sofisticado análisis de regresión en el
cual los valores de los tres parámetros de interés se analizaron antes y después de
cada uno de los escándalos tanto en distritos donde hubo escándalos como en
distritos donde no. Los resultados mostraron que las variables de interés tenían
valores homogéneos antes de los escándalos pero que, luego de ellos, los valores
de los lugares donde habían ocurrido se apartaban significativamente de los del
resto de los lugares. Esto permitió corroborar el carácter exógeno de la causa, desde
el punto de vista de su distribución temporal.

En cuanto al comportamiento de las variables de interés, los resultados obtenidos


resultan muy interesantes. El estudio muestra que la explosión de los escándalos
sexuales tiene un impacto notorio y sostenido en la reducción de las prácticas
religiosas de las personas del área postal correspondiente, lo cual corrobora la
conjetura planteada al inicio. A su vez, esto tiene un impacto directo en las
contribuciones económicas a la iglesia, lo que sugiere que estas se dan mayormente
en contextos de participación religiosa. Sin embargo, dentro de los límites de
precisión estadística que el trabajo pudo lograr, los escándalos no tienen ningún
impacto significativo ni en las actitudes prosociales ni en las convicciones religiosas
de las personas. Por lo tanto, la variación en la religiosidad no tiene impacto en las
prácticas prosociales de las personas, de modo que la respuesta a la pregunta inicial
es que la práctica religiosa no nos hace mejores personas. En efecto, si así fuera, la
pérdida de religiosidad debería impactar negativamente sobre nuestras actitudes
prosociales.

La lectura del artículo de Bottan y Pérez-Truglia es muy instructiva para entender el


nivel de precisión y detalle con que trabajaron. Por ende, les dejo la siguiente lectura
obligatoria:
A modo de cierre de esta historia, es importante notar que la idea de utilizar datos
disponibles como reemplazo de un experimento es un cambio de enfoque análogo al
que realizaron Google y el CDC respecto de la medición de la epidemia: Es pasar de
un enfoque de investigación tradicional a un enfoque basado en Big data. En un
caso, porque el nuevo enfoque permite mediciones más rápidas. En el otro, porque
la investigación misma solo se vuelve viable a partir de él. De hecho, es un ejemplo
de lo mencionado en la primera lectura, respecto de que la irrupción de los datos
masivos permitió abordar problemas que antes no se podían tratar. Dentro del
enfoque de Big data, a su vez, es posible realizar distintas cosas, como estamos
viendo en esta lectura.

Un experimento natural es aquel en el que los datos no se han


construido de manera controlada, pero se comportan como si de
hecho lo hubieran sido.

Verdadero.

Falso.

Justificación

3. Predicción de fenómenos

Finalmente, la última variante que mencionaremos es la predicción de fenómenos.


Esta requiere tanto de la sistematización de datos como de su adecuada
descripción. En este sentido, puede considerarse como una estación más avanzada
en una ruta que comienza con la sistematización y continúa con la descripción. En lo
que va de este módulo hemos visto dos ejemplos muy nítidos de análisis predictivo.
El primero y más evidente es el monitoreo de la evolución espacio-temporal de la
influenza a través de búsquedas en Google. El otro procedimiento, estudiado en la
segunda lectura (aunque con menos detalle), es la caracterización estratégica de
sospechosos. Aunque su nombre lo disfraza un poco, veremos que se puede
interpretar como un proceso predictivo.

La idea esencial de un proceso predictivo consiste en inferir, a partir de las


características de un cierto fenómeno conocido, las de otro, desconocido. Por
ejemplo, en el caso de la predicción de una epidemia, era posible establecer
fácilmente a partir de la base de datos de Google, la fracción de búsquedas
relacionadas con la influenza (FBRI) realizadas en un determinado período de
tiempo en un determinado lugar en el espacio, con la granularidad que se deseare.
Lo que se pretendía era, a partir de ese dato conocido, inferir la intensidad de la
influenza en esa localización geográfica y período de tiempo. Para hacer este tipo de
inferencias, es necesario hallar una relación más general, aunque oculta, entre los
datos conocidos y los desconocidos. Es decir, es necesario construir y validar un
modelo. Esto es lo que hace la Ciencia de datos, a partir del uso de algoritmos de
aprendizaje automático y datos masivos. Una vez que se ha conseguido encontrar y
validar la conexión general entre los valores de FBRI y la intensidad de la influenza,
a partir de datos conocidos, el modelo puede usarse para predecir su intensidad en
otros lugares y momentos.

A diferencia de lo que ocurría con el caso del monitoreo de una epidemia, donde la
FBRI y la intensidad de la influenza, medida como la fracción de visitas médicas por
influenza (FVMI), eran cantidades numéricas, el caso de la caracterización
estratégica de sospechosos relaciona cantidades que no tienen valores numéricos.
En efecto, las características de la víctima y de la escena del crimen, que
proponíamos usar para predecir las características más probables de un agresor, no
son números. Son palabras tales como “mujer”, “traslada el cuerpo”,
“comportamiento ritual”, etc. En estos casos, donde los fenómenos cuya relación se
necesita predecir no se miden numéricamente, el modelo no asume la forma de una
función matemática, sino alguna otra, que tendremos ocasión de desarrollar más
tranquilamente en el módulo 3. Por ahora, basta saber que estos procesos donde se
intentan predecir cualidades que no se representan numéricamente se denominan
procesos de clasificación (Han et. al., 2012).
4.¿Qué variante necesito?

En la sección anterior, propusimos una serie de aplicaciones distintas del enfoque


propio de la Ciencia de datos. Ahora es importante que notemos que hay una cierta
progresión en ellas. La más simple de todas es la de sistematización de datos, la
cual es necesaria para todas las demás. Luego viene la mera generación de
relaciones en general a través de la asociación de variables. Después, tenemos la
explicación causal basada en la experimentación natural (o pseudo-experimentación)
que consiste en seleccionar un subgrupo de datos que satisfacen determinadas
relaciones o características respecto de otros. Finalmente, tenemos las tareas de
predicción que presuponen tareas de sistematización y descripción.

Estas distintas aplicaciones combinan distintas tareas dentro de la ciencia de datos,


algunas de las cuáles son descriptivas mientras que otras son predictivas.
Determinar a qué tipo de aplicación corresponde un problema concreto es muy
importante, porque permite orientar la planificación y la toma de decisiones de un
proyecto. En primer lugar, el tipo de aplicación impone requisitos sobre los recursos
disponibles. Por ejemplo, las aplicaciones de predicción requieren disponer de datos
específicos que permitan generar un modelo predictivo, incluyendo muestras de
entrenamiento. En cambio, la mera sistematización simplemente parte de los datos
que existen y no demanda datos adicionales. Segundo, el tipo de aplicación ayuda a
restringir la búsqueda de antecedentes y procedimientos especializados necesarios.
Como veremos más adelante, los procesos predictivos y los procesos descriptivos
trabajan con distintos tipos de algoritmos.

Irónicamente, no existe una fórmula, a modo de receta de cocina, para determinar


qué variante es la que tenemos enfrente. A veces, eso se puede determinar
simplemente leyendo los objetivos del artículo en que se han publicado los
resultados del proyecto. En otras ocasiones, es necesario leer con detalle el caso y
generar, a partir de un proceso de abstracción, la conclusión que corresponda. Con
todo, hay algunas palabras o frases clave que pueden resultar útiles y algunos
lugares especiales en los cuáles buscarlas. Por ejemplo, en un artículo, el resumen,
las conclusiones o incluso el título, pueden ser la manera más rápida de establecer
con qué variante estamos lidiando. Esto tiene sentido, ya que lo que distingue a
estas distintas aplicaciones no son tanto los métodos, que suelen ser distintos, como
los objetivos del proyecto.

Consideremos algunos casos que pueden servir como ejemplos de esto. La segunda
parte del resumen del artículo de Ginsberg et.al. (2008) se puede traducir como

Aquí presentamos un método para analizar un gran número de


consultas de búsqueda de Google para rastrear enfermedades similares
a la influenza en una población. Debido a que la frecuencia relativa de
ciertas consultas está altamente correlacionada con el porcentaje de
visitas al médico en las que un paciente presenta síntomas similares a los
de la influenza, podemos estimar con precisión el nivel actual de actividad
semanal de la influenza en cada región de los Estados Unidos, con un
retraso en los informes de aproximadamente un día. Este enfoque
puede hacer posible el uso de consultas de búsqueda para detectar
epidemias de influenza en áreas con una gran población de usuarios
de búsquedas web. (Ginsberg et. al., 2008, p.1012)

Hemos subrayado algunas frases y conceptos que pueden ser útiles. En primer
lugar, el trabajo presenta un método y no solamente conocimientos generados por
medio de un estudio. En segundo término, habla de “estimar”, que en un sentido
estricto es determinar el valor de algo, pero que en la jerga de la ciencia de datos
puede ser usado como sinónimo de “predecir”. En este caso, pereciera ser usado en
el segundo sentido, pero habrá que leer más para determinarlo. Finalmente, propone
que el método puede ser aplicado para detectar epidemias (una situación
desconocida), a partir de búsquedas web (conocidas). Estos datos ya sugieren
fuertemente la vocación por aplicar en la práctica un método para determinar un
fenómeno desconocido, lo cual es típico de las aplicaciones de predicción. Al
continuar leyendo, se pueden encontrar otros pasajes elocuentes, como el que
traduzco a continuación:
Buscamos desarrollar un modelo simple que calcule la probabilidad de
que una visita al médico al azar en una región en particular esté
relacionada con una enfermedad de tipo influenza (ETI); esto es
equivalente al porcentaje de visitas al médico relacionadas con ETI. Se
utilizó una única variable explicativa: la probabilidad de que una
búsqueda aleatoria enviada desde la misma región esté relacionada con
una ETI, según lo determinado por un método automatizado que se
describe a continuación. Ajustamos un modelo lineal utilizando el logit
de una visita al médico por ETI y el logit de una consulta de búsqueda
relacionada con ETI. (Ginsberg et. al., 2008, p. 1012)

La idea del ajuste de un modelo lineal habla de la generación de una función


matemática con capacidad predictiva y la mención de una variable explicativa
ajustada luego por medio del modelo lineal termina de confirmar la idea. Si bien el
artículo tiene muchas otras indicaciones que evaluadas en conjunto e interpretadas
apropiadamente terminan de indicar que el artículo trabaja con una aplicación de
predicción, mencionaremos un último pasaje, que habla de la vocación aplicada del
estudio, el cual se traduce como:

Durante la temporada de influenza 2007-08 utilizamos versiones


preliminares de nuestro modelo para generar estimaciones de ILI y
compartimos nuestros resultados cada semana con la División de
Epidemiología y Prevención de la División de Influenza de los CDC para
evaluar la puntualidad y la precisión. (Ginsberg et. al., 2008, p. 1012)

Nótese que nuevamente se habla de generar estimaciones de influenza a partir de


datos conocidos y de corroborar la precisión y puntualidad del modelo propuesto.
Otro ejemplo es el del estudio sobre los escándalos de abuso sexual en la Iglesia
Católica de los Estados Unidos y su relación con la práctica religiosa, las
convicciones religiosas y las conductas prosociales. Una lectura atenta del resumen
del artículo da algunas pistas respecto de sus objetivos y enfoque. El resumen se
traduce a continuación:
Estudiamos cómo los escándalos de abuso del clero católico de EE.UU.
afectaron la participación religiosa, las creencias religiosas y el
comportamiento prosocial. Para estimar los efectos causales de los
escándalos en varios resultados, realizamos un análisis de estudio de
eventos que explota la fina distribución de los escándalos en el
espacio y el tiempo. Primero, un escándalo provoca una disminución
significativa y duradera de la participación religiosa en el código postal
donde ocurre. En segundo lugar, la disminución de la participación
religiosa no genera una disminución estadísticamente significativa de las
creencias religiosas, creencias prosociales y algunas medidas de
comportamiento prosocial de uso común. Esta evidencia es consistente
con la opinión de que los cambios en la participación religiosa durante la
edad adulta pueden tener un efecto limitado o nulo sobre creencias y
valores profundos. En tercer lugar, los escándalos provocan una
disminución duradera de las contribuciones caritativas. De hecho, la
disminución de las donaciones caritativas es un orden de magnitud mayor
que los costos directos de los escándalos para las iglesias católicas (por
ejemplo, demandas). Si asumimos que los escándalos afectan las
donaciones caritativas solo a través de la disminución de la participación
religiosa, nuestras estimaciones sugerirían que la fuerte correlación
transversal entre la participación religiosa y las donaciones caritativas
tiene la dirección de causalidad asumida. (Bottan & Pérez-Truglia,
2015, p. 106)

Una vez más, hemos subrayado algunas palabras y expresiones sugestivas. El


resumen menciona que el trabajo se propone estudiar los efectos causales de los
escándalos sexuales en distintos aspectos de la vida religiosa y social de las
personas de la zona, lo cual resulta posible dada la distribución espacio temporal de
los escándalos. Luego el texto enumera los principales hallazgos del estudio y
concluye indicando cual es la dirección hallada de causalidad sobre la base de una
dada correlación. Nótese que, a diferencia del caso anterior, aquí no se presenta un
método que pueda tener una proyección práctica, sino que se presenta un conjunto
de conocimientos que incluyen una explicación causal de un fenómeno.

Por otro lado, en otro tramo del artículo se da un detalle clave respecto del método
empleado en el estudio. El texto en cuestión puede traducirse como: Este artículo
estudia los escándalos de abuso del clero católico de EE. UU. como una forma de
experimento natural. (Bottan & Pérez-Truglia, 2015, p. 106). La idea clave del
“experimento natural” termina de mostrar claramente cuál es el enfoque
metodológico del trabajo. De todas maneras, siempre es una buena idea hacer una
lectura global del trabajo para estar seguros de que hemos dado con la
interpretación correcta.

5. Observaciones finales

En esta lectura hemos estudiado distintas aplicaciones del análisis de datos.


Fundamentalmente, hemos visto cuatro variantes que presentan una cierta
progresión en cuanto a profundidad y complejidad. El primer estadio es la
sistematización de datos. Si bien en general es el primer paso de cualquier estudio,
a veces puede ser un fin en sí mismo. Tener los datos, especialmente cuando se
trata de grandes volúmenes, no resuelve nada si no se los organiza de una manera
adecuada. En contrapartida, una buena organización puede ser lo bastante
esclarecedora como para no requerir tareas ulteriores. Por ejemplo, es lo que ocurre
con ejemplos tales como los mapas e infografías de resultados electorales o con la
aplicación Gasto Público Bahiense de Manuel Aristarán, a la cual nos hemos referido
en esta lectura.

La segunda variante es el análisis descriptivo de patrones y otras relaciones útiles.


Se trata de encontrar relaciones ocultas entre los datos, pero sin ofrecer
explicaciones respecto de las razones por las cuáles ellas se producen. Reviste
distintas formas, tales como la determinación de patrones frecuentes (como en el
caso de los iPhones lentos) o el agrupamiento de elementos que presentan
características similares entre sí, pero distintas de las que presentan aquellos que
pertenecen a otros grupos (como en los procesos de segmentación de clientes) o la
determinación de desviados, es decir, datos o entidades que se apartan de lo que se
considera normal dentro de su clase de pertenencia (como ocurre con determinados
delitos cometidos por criminales que tienen más probabilidades de escalar en sus
niveles de violencia).

El tercer nivel es el de las explicaciones causales a partir de la realización de


experimentos naturales (a lo que podemos denominar pseudo-experimentación). La
idea del experimento natural consiste en hallar un conjunto de datos empíricos, no
construidos a partir de un experimento, tales que se comporten estadísticamente
como si hubieran sido generados a través de un experimento. En concreto, aquel
fenómeno que se considere la causa cuyo efecto se quiere estudiar, debe distribuirse
dentro de la población objetivo de una manera exógena, independiente del resultado
esperado. Un caso notable de esto es el uso de datos sobre escándalos de abuso
por parte de clérigos de la Iglesia católica de los Estados Unidos entre 1980 y 2010,
estudiados por Bottan y Pérez-Truglia (Bottan & Pérez-Truglia, 2015).

Finalmente, el último nivel es el de la predicción de fenómenos, que consiste en


establecer un dato o fenómeno desconocido a partir de un conjunto de datos
conocidos, tanto del fenómeno conocido como de aquel que se pretende predecir.
Un ejemplo de esto es la predicción de la intensidad de la influenza en una región en
un determinado momento (fenómeno desconocido) a partir de la intensidad de
búsquedas web relacionadas con la influenza (fenómeno conocido). Otro caso
análogo es la predicción de las características más probables de un agresor a partir
de las características de las víctimas y de la escena del crimen. Esta variante
requiere de la construcción y validación de un modelo predictivo, que puede adoptar
la forma de una función matemática, si los fenómenos se pueden caracterizar por
medio de valores numéricos continuos, o alguna otra modalidad en caso contrario.

Ser capaz de interpretar cuál es la variante que resuelve un determinado tipo de


problema es importante para la toma de decisiones prácticas. Por un lado, el tipo de
aplicación determina en buena medida el tipo de recursos necesarios (cantidad y
variedad de datos, infraestructura, capital humano, etc.). Por otra parte, restringe la
búsqueda de antecedentes relevantes. La lectura de trabajos especializados es un
buen ejercicio para entrenar esta habilidad. Normalmente, es necesario leer e
interpretar todo el contenido para estar seguros, pero es una buena idea buscar
primeramente en el título, el resumen, las conclusiones y la introducción, en ese
orden. En ocasiones, algunas palabras o expresiones clave nos dan una idea muy
precisa de la variante en que se encuadra el trabajo.

Para concluir, resta dar algunas pautas para trabajar con la bibliografía y demás
recursos propuestos para esta lectura. La base conceptual del proceso es el capítulo
2 del libro de Sosa Escudero, que menciona estas distintas variantes a través de
ejemplos, varios de los cuáles están incluidos en lo que acaban de leer. A
continuación, sugiero ver la charla TED de Manuel Aristarán, que resulta muy
instructiva como experiencia práctica de las dificultades externas que pueden afectar
el trabajo de un científico de datos. Luego, revisar las secciones sugeridas del
artículo de Bottan y Pérez-Truglia, donde es importante que empiecen a ver el nivel
de detalle con que se analizan los datos en un trabajo académico. Finalmente, si
bien no es obligatorio para esta lectura, sugiero que revisen los artículos
mencionados en la bibliografía y los usen para ganar práctica en determinar qué tipo
de aplicación interviene en cada uno de ellos.

Referencias

Bottan, N & Pérez-Truglia, R. (2015). Losing my religion: The effects of religious


scandals on religious participation and charitable giving. Journal of Public
Economics, 129, 106-19, https:// doi.org/10.1016/j.jpubeco.2015.07.008

García, J., Molina, J., Berlanga, A., Patricio, M., Bustamante, A. & Padilla, W.
(2018). Ciencia de Datos: Técnicas analíticas y aprendizaje estadístico en un
enfoque práctico. Bogotá: Alfaguara.

Ginsberg, J., Mohebbi, M., Patel, R., Brammer, L., Smolinski, M. & Brilliant, L.
(2009). Detecting influenza epidemics using search engine query data. Nature, 457,
1012-14, doi:10.1038/nature07634.
Han, J., Kamber, M. & Pei, J. (2012). Data Mining: Concepts and techniques (3rd
ed.). Waltham: Morgan Kaufmann.

McCue, C. (2015). Data Mining and Predictive Analysis: Intelligence Gathering and
Crime Analysis (2nd ed.). Oxford: Butterworth-Heinemann.

Sosa Escudero, W. (2019). Big data: breve manual para conocer la ciencia de datos
que ya invadió nuestras vidas. Buenos Aires: Sigo XXI editores.

También podría gustarte