Está en la página 1de 24

Big Data: Nuevos Trucos para la Econometría

Hal R. Varian

Hal Varian es economista jefe de Google Inc., Mountain View, California, y profesor emérito de
economía de la Universidad de California, Berkeley, California.

Las computadoras ahora están involucradas en muchas transacciones económicas y


pueden capturar datos asociados con estas transacciones, que luego pueden manipularse y
analizarse. Las técnicas estadísticas y econométricas convencionales, como la regresión, a menudo
funcionan bien, pero hay problemas exclusivos de los grandes conjuntos de datos que pueden
requerir diferentes herramientas.

Primero, el gran tamaño de los datos involucrados puede requerir herramientas de


manipulación de datos más poderosas. En segundo lugar, es posible que tengamos más
predictores potenciales de los apropiados para la estimación, por lo que necesitamos hacer algún
tipo de selección de variables. En tercer lugar, los grandes conjuntos de datos pueden permitir
relaciones más flexibles que los modelos lineales simples. Las técnicas de aprendizaje automático
como árboles de decisión, máquinas de vectores de soporte, redes neuronales, aprendizaje
profundo, etc. pueden permitir formas más efectivas de modelar relaciones complejas.

En este ensayo, describiré algunas de estas herramientas para manipular y analizar big
data. Creo que estos métodos tienen mucho que ofrecer y deberían ser más conocidos y utilizados
por los economistas. De hecho, mi consejo estándar para los estudiantes de posgrado en estos
días es ir al departamento de informática y tomar una clase de aprendizaje automático. Ha habido
colaboraciones muy fructíferas entre informáticos y estadísticos en la última década, y espero que
las colaboraciones entre informáticos y econometristas también sean productivas en el futuro.

Herramientas para manipular Big Data

Históricamente, los economistas se han ocupado de datos que encajan en una hoja de
cálculo, pero eso está cambiando a medida que se dispone de nuevos datos más detallados (ver
Einav y Levin 2013, para varios ejemplos y discusión). Si tiene más de un millón de filas en una hoja
de cálculo, probablemente desee almacenarla en una base de datos relacional, como MySQL. Las
bases de datos relacionales ofrecen una forma flexible de almacenar, manipular y recuperar datos
mediante un “Lenguaje de Consulta Estructurado” (SQL = Structured Query Language), que es fácil
de aprender y muy útil para tratar con conjuntos de datos de tamaño mediano.

Sin embargo, si tiene varios gigabytes de datos o varios millones de observaciones, las
bases de datos relacionales estándar se vuelven difíciles de manejar. Las bases de datos para
administrar datos de este tamaño se conocen genéricamente como bases de datos “NoSQL”. El
término se usa de manera bastante vaga, pero a veces se interpreta en el sentido de "no solo
SQL". Las bases de datos NoSQL son más primitivas que las bases de datos SQL en términos de
capacidades de manipulación de datos, pero pueden manejar grandes cantidades de datos.

Debido al aumento de las transacciones mediadas por computadora, muchas empresas


han considerado necesario desarrollar sistemas para procesar miles de millones de transacciones
por día. Por ejemplo, según Sullivan (2012), Google ha visto 30 billones de URL, rastrea más de 20
mil millones de ellas al día y responde 100 mil millones de consultas de búsqueda al mes. Analizar
incluso los datos de un día de este tamaño es prácticamente imposible con las bases de datos
convencionales. El desafío de lidiar con conjuntos de datos de este tamaño llevó al desarrollo de
varias herramientas para administrar y analizar big data.

Varias de estas herramientas son propiedad de Google, pero se han descrito en


publicaciones académicas con suficiente detalle como para que se hayan desarrollado
implementaciones de código abierto. La Tabla 1 contiene tanto el nombre de Google como el
nombre de las herramientas de código abierto relacionadas. Se pueden encontrar más detalles en
las entradas de Wikipedia asociadas con los nombres de las herramientas.

Aunque estas herramientas se pueden ejecutar en una sola computadora con fines de
aprendizaje, las aplicaciones reales utilizan grandes grupos de computadoras, como las
proporcionadas por Amazon, Google, Microsoft y otros proveedores de computación en la nube.
La capacidad de alquilar en lugar de comprar almacenamiento y procesamiento de datos ha
convertido lo que antes era un costo fijo de computación en un costo variable y ha reducido las
barreras de entrada para trabajar con big data.

Tabla 1

Herramientas para Manipular Big Data

Nombre de Google Término Análogo Descripción


Sistema de archivos Sistema de Este sistema admite archivos tan grandes que deben
de Google archivos Hadoop distribuirse en cientos o incluso miles de computadoras.
Bigtable Cassandra Esta es una tabla de datos que vive en el archivo de
Google
Sistema. También puede extenderse a muchas
computadoras.
MapReduce Hadoop Este es un sistema para acceder y manipular datos en
grandes estructuras de datos como Bigtables.
MapReduce le permite acceder a los datos en paralelo,
utilizando cientos o miles de máquinas para extraer los
datos que le interesan. La consulta se "asigna" a las
máquinas y luego se aplica en paralelo a diferentes
fragmentos de datos. Luego, los cálculos parciales se
combinan ("reducen") para crear la tabla de resumen
que le interesa.
Sawzall Pig Este es un lenguaje para crear trabajos MapReduce.
Go None Go es un lenguaje informático flexible de código abierto
y de uso general que facilita el procesamiento de datos
en paralelo.
Dremel, BigQuery Hive, Drill, Impala Esta es una herramienta que permite escribir consultas
de datos en una forma simplificada de Lenguaje de
consulta estructurado (SQL). Con Dremel es posible
ejecutar una consulta SQL en un petabtye de datos
(1,000 terabytes) en unos pocos segundos.
Herramientas para Analizar Datos

El resultado del procesamiento de big data descrito anteriormente es a menudo una


“pequeña” tabla de datos que puede ser directamente legible por humanos o puede cargarse en
una base de datos SQL, un paquete de estadísticas o una hoja de cálculo. Si los datos extraídos
siguen siendo demasiado grandes, a menudo es posible seleccionar una submuestra para el
análisis estadístico. En Google, por ejemplo, he descubierto que las muestras aleatorias del orden
del 0,1 por ciento funcionan bien para el análisis de datos comerciales.

Una vez que se ha extraído un conjunto de datos, a menudo es necesario realizar un


análisis de datos exploratorio junto con tareas de limpieza de datos y coherencia. Esto es una
especie de arte, que solo se puede aprender con la práctica, pero las herramientas de limpieza de
datos como OpenRefine y DataWrangler se pueden utilizar para ayudar en la limpieza de datos.

El análisis de datos en estadística y econometría se puede dividir en cuatro categorías: 1)


predicción, 2) resumen, 3) estimación y 4) prueba de hipótesis. El aprendizaje automático se ocupa
principalmente de la predicción; el campo estrechamente relacionado de la minería de datos
también se ocupa del resumen y, en particular, de encontrar patrones interesantes en los datos.
Los econometristas, estadísticos y especialistas en minería de datos generalmente buscan
información que pueda extraerse de los datos. Los especialistas en aprendizaje automático a
menudo se preocupan principalmente por desarrollar sistemas informáticos de alto rendimiento
que puedan proporcionar predicciones útiles en presencia de limitaciones computacionales
desafiantes. La ciencia de datos, un término algo más nuevo, se ocupa tanto de la predicción como
del resumen, pero también de la manipulación de datos, la visualización y otras tareas similares.
Tenga en cuenta que la terminología no está estandarizada en estas áreas, por lo que estas
descripciones reflejan el uso general, no definiciones estrictas. Otros términos utilizados para
describir el análisis de datos asistido por computadora incluyen extracción de conocimiento,
descubrimiento de información, recolección de información, arqueología de datos, procesamiento
de patrones de datos y análisis de datos exploratorios.

Gran parte de la econometría aplicada se ocupa de detectar y resumir relaciones en los


datos. La herramienta más común utilizada para el resumen es el análisis de regresión (lineal).
Como veremos, el aprendizaje automático ofrece un conjunto de herramientas que pueden
resumir de manera útil varios tipos de relaciones no lineales en los datos. Nos centraremos en
estas herramientas de regresión porque son las más naturales para aplicaciones económicas.

En la formulación más general de un problema de predicción estadística, nos interesa


comprender la distribución condicional de alguna variable y dadas algunas otras variables x = (x1,
…, xp). Si queremos una predicción puntual, podemos usar la media o mediana de la distribución
condicional.

En el aprendizaje automático, las variables x generalmente se denominan "predictores" o


"características". El enfoque del aprendizaje automático es encontrar alguna función que
proporcione una buena predicción de y como función de x. Históricamente, la mayor parte del
trabajo en el aprendizaje automático ha involucrado datos de sección transversal donde es natural
pensar que los datos son independientes e idénticamente distribuidos (IID) o al menos distribuidos
de forma independiente. Los datos pueden ser "gordos", lo que significa muchos predictores en
relación con el número de observaciones, o "altos", que significa muchas observaciones en
relación con el número de predictores.

Por lo general, tenemos algunos datos observados sobre y y x, y queremos calcular una
"buena" predicción de y dados los nuevos valores de x. Por lo general, "bueno" significa que
minimiza alguna función de pérdida, como la suma de los residuos al cuadrado, la media del valor
absoluto de los residuos, etc. Por supuesto, la pérdida relevante es la asociada con las nuevas
observaciones fuera de la muestra de x, no las observaciones utilizadas para ajustar el modelo.

Cuando se enfrenta a un problema de predicción de este tipo, un economista pensaría


inmediatamente en una regresión lineal o logística. Sin embargo, puede haber mejores opciones,
especialmente si hay muchos datos disponibles. Estos incluyen métodos no lineales como 1)
árboles de clasificación y regresión (CART = Classification and Regression Trees); 2) bosques
aleatorios; y 3) regresión penalizada como LASSO, LARS y mallas elásticas. (También hay otras
técnicas, como redes neuronales, aprendizaje profundo y máquinas de vectores de soporte, que
no cubro en esta revisión). Se pueden encontrar muchos más detalles sobre estos métodos en los
textos de aprendizaje automático; un excelente tratamiento está disponible en Hastie, Tibshirani y
Friedman (2009), que se puede descargar gratuitamente. Al final de este artículo se ofrecen
sugerencias adicionales para lecturas adicionales.

Consideraciones Generales para la Predicción

Nuestro objetivo con la predicción suele ser obtener buenas predicciones fuera de la
muestra. La mayoría de nosotros sabemos por experiencia que es muy fácil construir un predictor
que funcione bien dentro de la muestra pero que falla miserablemente fuera de la muestra. Para
tomar un ejemplo trivial, n regresores linealmente independientes se ajustarán perfectamente a n
observaciones, pero generalmente tendrán un desempeño pobre fuera de la muestra. Los
especialistas en aprendizaje automático se refieren a este fenómeno como el "problema de
sobreajuste" y han ideado varias formas de abordarlo.

Primero, dado que los modelos más simples tienden a funcionar mejor para pronósticos
fuera de la muestra, los expertos en aprendizaje automático han ideado varias formas de penalizar
los modelos por una complejidad excesiva. En el mundo del aprendizaje automático, esto se
conoce como "regularización" y describiremos algunos ejemplos a continuación. Los economistas
tienden a preferir modelos más simples por la misma razón, pero no han sido tan explícitos sobre
la cuantificación de los costos de complejidad.

En segundo lugar, es convencional dividir los datos en conjuntos separados con el


propósito de capacitarlos, probarlos y validarlos. Utiliza los datos de entrenamiento para estimar
un modelo, los datos de validación para elegir su modelo y los datos de prueba para evaluar qué
tan bien se desempeña su modelo elegido. (A menudo, los conjuntos de validación y prueba se
combinan).

En tercer lugar, si tenemos una medida numérica explícita de la complejidad del modelo,
podemos verla como un parámetro que se puede "ajustar" para producir las mejores predicciones
de la muestra. La forma estándar de elegir un buen valor para dicho parámetro de ajuste es utilizar
la validación cruzada de k veces (k-fold cross-validation).

1. Divida los datos en k subconjuntos aproximadamente iguales (pliegues) y etiquételos


como s = 1, …, k. Comience con el subconjunto s = 1.

2. Elija un valor para el parámetro de ajuste.

3. Ajuste su modelo utilizando los subconjuntos k - 1 distintos del subconjunto s.

4. Predecir el subconjunto s y medir la pérdida asociada.

5. Deténgase si s = k; de lo contrario, incremente s en 1 y vaya al paso 2.

Las opciones comunes para k son 10, 5 y el tamaño de la muestra menos 1 (“dejar uno”).
Después de la validación cruzada, termina con k valores del parámetro de ajuste y la pérdida
asociada que luego puede examinar para elegir un valor apropiado para el parámetro de ajuste.
Incluso si no hay un parámetro de ajuste, es prudente utilizar la validación cruzada para informar
las medidas de bondad de ajuste, ya que mide el rendimiento fuera de la muestra, que
generalmente es más significativo que el rendimiento de la muestra.

El ciclo del tren de pruebas (test-train cycle ) y la validación cruzada (cross-validation) se


usan con mucha frecuencia en el aprendizaje automático y, en mi opinión, deberían usarse mucho
más en economía, particularmente cuando se trabaja con grandes conjuntos de datos. Durante
muchos años, los economistas han informado medidas de bondad de ajuste dentro de la muestra
con la excusa de que teníamos pequeños conjuntos de datos. Pero ahora que se dispone de
conjuntos de datos más grandes, no hay razón para no utilizar conjuntos de prueba y
entrenamiento separados. La validación cruzada también resulta ser una técnica muy útil,
particularmente cuando se trabaja con datos razonablemente grandes. También es una medida
mucho más realista del rendimiento de la predicción que las medidas comúnmente utilizadas en
economía.

Árboles de Clasificación y Regresión

Comencemos por considerar una regresión de variables discretas donde nuestro objetivo
es predecir un resultado 0 –1 basado en algún conjunto de características (lo que los economistas
llamarían variables explicativas o predictores). En el aprendizaje automático, esto se conoce como
problema de clasificación. Un ejemplo común sería clasificar el correo electrónico como "spam" o
"no spam" según las características del correo electrónico. Los economistas suelen utilizar un
modelo lineal generalizado como logit o probit para un problema de clasificación.

Una forma bastante diferente de construir un clasificador es usar un árbol de decisiones.


La mayoría de los economistas están familiarizados con los árboles de decisiones que describen
una secuencia de decisiones que dan como resultado algún resultado. Un clasificador de árbol
tiene la misma forma general, pero la decisión al final del proceso es una elección sobre cómo
clasificar la observación. El objetivo es construir (o "hacer crecer") un árbol de decisiones que
conduzca a buenas predicciones fuera de la muestra.
Irónicamente, uno de los primeros artículos sobre la construcción automática de árboles
de decisión (Morgan y Sonquist 1963) fue coautor de un economista. Sin embargo, la técnica no
ganó mucha tracción hasta 20 años después en el trabajo de Breiman, Friedman, Olshen y Stone
(1984). Hoy en día esta técnica de predicción se conoce como "árboles de clasificación y regresión"
o "CART" (Classification and Regression Trees).

Para ilustrar el uso de modelos de árbol, utilicé el paquete R rpart para encontrar un árbol
que predice a los sobrevivientes del Titanic usando solo dos variables: edad y clase de viaje. 1 El
árbol resultante se muestra en la Figura 1, y las reglas representadas en el árbol se muestran en la
Tabla 2. Las reglas se ajustan razonablemente bien a los datos, clasificando erróneamente
alrededor del 30 por ciento de las observaciones en el conjunto de pruebas.

Figura 1

Un Árbol de Clasificación para los Supervivientes del Titanic

Nota: Ver texto para interpretación.

Tabla 2

Modelo de Árbol en Forma de Regla

Características Predicho Real / Total


Clase 3 Murió 370/501
Clase 1-2, menor de 16 años Vivió 34/36
Clase 2, mayor de 16 años Murió 145/233
Clase 1, mayores de 16 años Vivió 174/276

Esta clasificación también se puede representar en el “diagrama de partición” (Figura 2),


que muestra cómo el árbol divide el espacio de pares de edades y clases en regiones
rectangulares. Por supuesto, la gráfica de partición solo se puede usar para dos variables, mientras
que una representación de árbol puede manejar un número arbitrariamente grande.
1
Todos los datos y códigos utilizados en este documento se pueden encontrar en el Apéndice en línea
disponible en http://e-jep.org.

Figura 2

El Modelo de Árbol Simple Predice la Muerte en la Región Sombreada

(los círculos vacíos indican supervivencia; los círculos con x indican muerte)

Resulta que existen formas computacionalmente eficientes de construir árboles de


clasificación de este tipo. Estos métodos generalmente están restringidos a árboles binarios (dos
ramas en cada nodo). Se pueden utilizar para la clasificación con múltiples resultados ("árboles de
clasificación") o con variables dependientes continuas ("árboles de regresión").

Los árboles tienden a funcionar bien para problemas en los que existen importantes
interacciones y no linealidades. Como ejemplo, continuemos con los datos del Titanic y creemos
un árbol que relacione la supervivencia con la edad. En este caso, la regla generada por el árbol es
muy simple: predecir “sobrevivir” si la edad es < 8.5 años. Podemos examinar los mismos datos
con una regresión logística para estimar la probabilidad de supervivencia en función de la edad,
con los resultados presentados en la Tabla 3.

Tabla 3

Regresión Logística de Supervivencia Versus Edad

Coeficiente Estimador Error estándar valor t valor p


Intercepción 0.465 0.0350 13.291 0.000
Edad - 0.002 0.001 - 1,796 0,072
Nota: Regresión logística que relaciona la supervivencia (0 o 1) con la edad en años.
El modelo de árbol sugiere que la edad es un predictor importante de supervivencia,
mientras que el modelo logístico dice que apenas es importante. Esta discrepancia se explica en la
Figura 3, donde graficamos las tasas de supervivencia por intervalos de edad. Aquí vemos que las
tasas de supervivencia de los pasajeros más jóvenes eran relativamente altas y las tasas de
supervivencia de los pasajeros mayores eran relativamente bajas. Para los pasajeros entre estos
dos extremos, la edad no importaba mucho. Entonces, lo que importaba para la supervivencia no
es tanto la edad, sino si el pasajero era un niño o un anciano. Sería difícil descubrir este patrón a
partir de una regresión logística únicamente. 2

Figura 3

Tasas de Supervivencia del Titanic por Grupo de Edad

(Fracción sobrevivió VS Contenedor de edad)

Notas: La figura muestra las tasas de supervivencia medias para diferentes grupos de edad junto
con los intervalos de confianza. El grupo de edad 10 significa "10 años o menos", el siguiente
grupo de edad es "mayores de 10 a 20", y así sucesivamente.

Los árboles también manejan bien los datos faltantes. Perlich, Provost y Simonoff (2003)
examinaron varios conjuntos de datos estándar y encontraron que "la regresión logística es mejor
para conjuntos de datos más pequeños y la inducción de árboles para conjuntos de datos más
grandes". Curiosamente, los árboles tienden a no funcionar muy bien si la relación subyacente
realmente es lineal, pero existen modelos híbridos como RuleFit (Friedman y Popescu 2005) que
pueden incorporar relaciones lineales y de árbol entre variables. Sin embargo, incluso si los árboles
pueden no mejorar la precisión predictiva en comparación con los modelos lineales, el ejemplo de
la edad muestra que pueden revelar aspectos de los datos que no son evidentes en un enfoque de
modelado lineal tradicional.
2
Es cierto que si supiera que existe una no linealidad en la edad, podría utilizar variables ficticias de edad en
el modelo logit para capturar este efecto. Sin embargo, la formulación del árbol hizo evidente esta no
linealidad.

Poda de Árboles

Un problema con los árboles es que tienden a sobreajustarse a los datos. Así como una
regresión con n observaciones y n variables le dará un buen ajuste en la muestra, un árbol con
muchas ramas también se ajustará bien a los datos de entrenamiento. En cualquier caso, las
predicciones que utilizan datos nuevos, como el conjunto de pruebas, pueden ser muy deficientes.

…………………………………………………………………………………………………………………………………………………………

La solución más común a este problema es "podar" el árbol imponiendo un costo por
complejidad. Hay varias medidas de complejidad, pero una común es el número de nodos
terminales (también conocidos como "hojas"). El costo de la complejidad es un parámetro de
ajuste que se elige para proporcionar las mejores predicciones fuera de la muestra, que
generalmente se mide utilizando el procedimiento de validación cruzada de 10 veces mencionado
anteriormente.

Una sesión típica de estimación de árboles podría implicar dividir sus datos en diez
pliegues, usar nueve de los pliegues para hacer crecer un árbol con una complejidad particular y
luego predecir en el pliegue excluido. Repita la estimación con diferentes valores del parámetro de
complejidad utilizando otros pliegues y elija el valor del parámetro de complejidad que minimice el
error de clasificación fuera de la muestra. (Algunos investigadores recomiendan ser un poco más
agresivos y abogan por elegir el parámetro de complejidad que sea una desviación estándar más
baja que el valor de minimización de pérdidas).

Por supuesto, en la práctica, el programa de computadora maneja la mayoría de estos


detalles por usted. En los ejemplos de este documento, utilizo principalmente opciones
predeterminadas para simplificar las cosas, pero en la práctica, el analista suele ajustar estos
valores predeterminados. Al igual que con cualquier otro procedimiento estadístico, la habilidad,
la experiencia y la intuición son útiles para dar una buena respuesta. El diagnóstico, la exploración
y la experimentación son tan útiles con estos métodos como con las técnicas de regresión.

Figura 4
Un Árbol para los Supervivientes del Titanic
(las barras negras indican la fracción del grupo que sobrevivió)
Hay muchos otros enfoques para la creación de árboles, incluidos algunos que son
explícitamente de naturaleza estadística. Por ejemplo, un "árbol de inferencia condicional", o árbol
para abreviar, elige la estructura del árbol usando una secuencia de pruebas de hipótesis. Los
árboles resultantes tienden a necesitar muy poca poda (Hothorn, Hornik y Zeileis 2006). En la
Figura 4 se muestra un ejemplo de los datos del Titanic.

El primer nodo se divide por género. El segundo nodo luego se divide por clase. En las ramas de la
derecha, el tercer nodo se divide por edad y un cuarto nodo se divide por el número de hermanos
más el cónyuge a bordo. Los contenedores en la parte inferior de la figura muestran el número
total de personas en esa hoja y una representación gráfica de su tasa de supervivencia. Se podría
resumir este árbol con el siguiente principio: “mujeres y niños en primer lugar. . . especialmente si
viajaban en quinta clase ". Este simple ejemplo ilustra nuevamente que los árboles de clasificación
pueden ser útiles para resumir las relaciones en los datos, así como para predecir los resultados.
(3)

Un Ejemplo Económico Utilizando Datos de la Ley de Divulgación de Hipotecas Para Viviendas

Munnell, Tootell, Browne y McEneaney (1996) examinaron los préstamos hipotecarios en


Boston para ver si la raza jugó un papel significativo en la determinación de quién fue aprobado
para una hipoteca. La técnica econométrica primaria fue una regresión logística en la que la raza
se incluyó como uno de los predictores. El coeficiente de raza mostró un impacto negativo
estadísticamente significativo en la probabilidad de obtener una hipoteca para los solicitantes
negros. Este hallazgo provocó un considerable debate y discusión posteriores; ver Ladd (1998)
para una descripción general.

Figura 5
Árbol de Datos de la Ley de Divulgación de Hipotecas para Viviendas (HMDA)
Notas: La Figura 5 muestra un árbol condicional estimado utilizando la parte del paquete R. Las barras negras indican la fracción de cada
grupo a la que se le negaron las hipotecas. El determinante más importante de esto es la variable "dmi" o "seguro hipotecario
denegado". Otras variables son: "dir", relación entre pagos de la deuda y el ingreso total; “Hir”, relación entre gastos de vivienda e
ingresos; “Lvr”, relación entre el tamaño del préstamo y el valor tasado de la propiedad; “Ccs”, puntaje de crédito del consumidor;
“Mcs”, puntaje de crédito hipotecario; “Pbcr”, historial de crédito público malo; "Dmi", negó el seguro hipotecario; "Autónomo",
autónomo; "Soltero", el solicitante es soltero; "Uria", industria del solicitante de la tasa de desempleo de 1989 de Massachusetts;
“Condominio”, unidad es condominio; “Negro”, raza del solicitante negro; y “negar”, solicitud de hipoteca negada.

Aquí examino esta pregunta utilizando los estimadores basados en árboles descritos en la
sección anterior. Los datos constan de 2.380 observaciones de 12 predictores, uno de los cuales
fue la raza. La Figura 5 muestra un árbol condicional estimado usando el paquete de partes R.

El árbol encaja bastante bien, clasifica erróneamente 228 de las 2.380 observaciones para
una tasa de error del 9,6 por ciento. En comparación, una regresión logística simple funciona un
poco mejor, clasificando erróneamente 225 de las 2.380 observaciones, lo que lleva a una tasa de
error del 9,5 por ciento. Como puede ver en la Figura 5, la variable más importante es "dmi" =
"seguro hipotecario denegado". Esta variable por sí sola explica gran parte de la variación de los
datos. La variable de raza ("negra") aparece muy abajo en el árbol y parece ser relativamente poco
importante.

Una forma de evaluar si una variable es importante es excluirla de la predicción y ver qué sucede.
Cuando se hace esto, resulta que la precisión del modelo basado en árboles no cambia en
absoluto: exactamente los mismos casos están mal clasificados. Por supuesto, es perfectamente
posible que haya discriminación racial en otras partes del proceso hipotecario, o que algunas de
las variables incluidas estén altamente correlacionadas con la raza. Pero es de destacar que el
modelo de árbol producido por procedimientos estándar que omite la raza se ajusta a los datos
observados tan bien como un modelo que incluye la raza.

Impulso, embolsado, Bootstrap

Hay varias formas útiles de mejorar el rendimiento del clasificador. Curiosamente, algunos
de estos métodos funcionan agregando aleatoriedad a los datos. Esto parece paradójico al
principio, pero agregar aleatoriedad resulta ser una forma útil de lidiar con el problema del
sobreajuste.
Bootstrap implica elegir (con reemplazo) una muestra de tamaño n de un conjunto de
datos
de tamaño n para estimar la distribución muestral de alguna estadística. Una variación es la
“M de n bootstrap” que extrae una muestra de tamaño m de un conjunto de datos de tamaño n>
m.

El ensacado implica promediar entre los modelos estimados con varios bootstrap
diferentes
muestras para mejorar el rendimiento de un estimador.

El impulso implica una estimación repetida donde las observaciones mal clasificadas
reciben un peso creciente en cada repetición. La estimación final es entonces un voto o un
promedio de las estimaciones repetidas.

Los economistas están familiarizados con el bootstrap, pero rara vez utilizan los otros dos
métodos. El ensacado es principalmente útil para modelos no lineales como árboles (Friedman y
Hall 2007). El impulso tiende a mejorar el rendimiento predictivo de un estimador de manera
significativa y se puede utilizar para prácticamente cualquier tipo de clasificador o modelo de
regresión, incluidos logits, probits, árboles, etc.

También es posible combinar estos técnicos y crear un "bosque" de árboles que a menudo
puede mejorar significativamente los métodos de un solo árbol. Aquí hay una descripción
aproximada de cómo funcionan estos "bosques aleatorios".

Bosques al azar

Los bosques aleatorios es una técnica que utiliza varios árboles. Un procedimiento típico
utiliza los siguientes pasos.

1. Elija una muestra de arranque de las observaciones y comience a hacer crecer un árbol.
2. En cada nodo del árbol, elija una muestra aleatoria de los predictores para tomar la siguiente
decisión. No podes los árboles.
3. Repita este proceso muchas veces para hacer crecer un bosque de árboles.
4. Para determinar la clasificación de una nueva observación, haga que cada árbol haga una
clasificación y use un voto mayoritario para la predicción final.

Este método produce ajustes fuera de muestra sorprendentemente buenos,


particularmente con datos altamente no lineales. De hecho, Howard y Bowles (2012) afirman que
"los conjuntos de árboles de decisión (a menudo conocidos como 'Bosques aleatorios') han sido el
algoritmo de propósito general más exitoso en los tiempos modernos". Continúan indicando que
"el algoritmo es muy simple de entender, rápido y fácil de aplicar". Ver también Caruana y
Niculescu-Mitzil (2006) que comparan varios algoritmos de aprendizaje automático diferentes y
encuentran que los conjuntos de árboles funcionan bastante bien. Hay una serie de variaciones y
extensiones del modelo básico de "conjunto de árboles", como el "Impulso de gradiente
estocástico" de Friedman (Friedman 2002).
Un defecto de los bosques aleatorios es que son una especie de caja negra: no ofrecen
resúmenes simples de las relaciones en los datos. Como hemos visto anteriormente, un solo árbol
puede ofrecer información sobre cómo interactúan los predictores. Pero un bosque de mil árboles
no se puede interpretar fácilmente. Sin embargo, los bosques aleatorios pueden determinar qué
variables son "importantes" en las predicciones en el sentido de contribuir a las mayores mejoras
en la precisión de las predicciones.

Tenga en cuenta que los bosques aleatorios implican bastante aleatorización; Si desea
probarlos con algunos datos, le sugiero que elija una semilla en particular para el generador de
números aleatorios para que sus resultados puedan reproducirse. (Consulte el suplemento en
línea para ver ejemplos).

Ejecuté el método de bosque aleatorio en los datos de HMDA y descubrí que clasificaba
erróneamente 223 de los 2,380 casos, una pequeña mejora con respecto al logit y el ctree.
También utilicé la opción de importancia en bosques aleatorios para ver cómo se comparan los
predictores. Resultó que "dmi" fue el predictor más importante y la carrera fue la segunda desde
abajo, lo que es consistente con el análisis de ctree.

Selección de Variable

Regresemos al mundo familiar de la regresión lineal y consideremos el problema de la selección de


variables. Hay muchos métodos de este tipo disponibles, incluida la regresión por pasos, la
regresión de componentes principales, mínimos cuadrados parciales, el criterio de información de
Akaike (AIC) y las medidas de complejidad del criterio de información bayesiano (BIC), etc. Castle,
Qin y Reed (2009) describen y comparan 21 métodos diferentes.

LASSO and Friends

Aquí consideramos una clase de estimadores que involucra regresión penalizada.


Considere un modelo de regresión multivariante estándar en el que predecimos y t como una
función lineal de una constante, b 0 y variables predictoras P. Suponemos que hemos
estandarizado todos los predictores (no constantes) para que tengan media cero y varianza uno.

Considere elegir los coeficientes (b 1 , … , b p ) para estas variables predictoras minimizando


la suma de los residuos cuadrados más un término de penalización de la forma

P
2
[
λ ∑ (1−α )|b p|+α |b p|
p=1
]
Este método de estimación se denomina regresión neta elástica; contiene otros tres
métodos como casos especiales. Si no hay término de penalización (λ = 0), se trata de mínimos
cuadrados ordinarios. Si α = 1, de modo que solo existe la restricción cuadrática, esto es regresión
de cresta.
Si α = 0, esto se llama LASSO, un acrónimo de "operador de selección y contracción
mínima absoluta".

Estas regresiones penalizadas son ejemplos clásicos de regularización. En este caso, la


complejidad es el número y el tamaño de los predictores en el modelo. Todos estos métodos
tienden a reducir los coeficientes de regresión de mínimos cuadrados hacia cero. El LASSO y la red
elástica normalmente producen regresiones en las que algunas de las variables se establecen en
exactamente cero. Por lo tanto, esta es una forma relativamente sencilla de realizar la selección de
variables.

Resulta que estos estimadores se pueden calcular de manera bastante eficiente, por lo que hacer
una selección de variables en problemas razonablemente grandes es computacionalmente
factible. También parecen proporcionar buenas predicciones en la práctica.

Regresión de Picos y Losas

Otro enfoque de la selección de variables que es novedoso para la mayoría de los


economistas es la regresión de picos y bloques, una técnica bayesiana. Suponga que tiene P
posibles predictores en algún modelo lineal. Sea γ un vector de longitud P compuesto por ceros y
unos que indican si una variable en particular está incluida o no en la regresión.

Comenzamos con una distribución previa de Bernoulli en γ; por ejemplo, inicialmente


podríamos pensar que todas las variables tienen la misma probabilidad de estar en la regresión.
Condicional a que una variable esté en la regresión, especificamos una distribución previa para el
coeficiente de regresión asociado con esa variable. Por ejemplo, podríamos usar un previo Normal
con media 0 y una gran varianza. Estos dos a priori son la fuente del nombre del método: el "pico"
es la probabilidad de que un coeficiente sea distinto de cero; la “losa” es el (difuso) previo a
describir los valores que puede tomar el coeficiente.

Ahora extraemos γ de su distribución anterior, que será solo una lista de variables en la regresión.
Condicional a esta lista de variables incluidas, extraemos la distribución previa para los
coeficientes. Combinamos estos dos valores con la probabilidad de la forma habitual, lo que nos
da un valor de la distribución posterior tanto en la probabilidad de inclusión como en los
coeficientes. Repetimos este proceso miles de veces utilizando una técnica de Markov Chain
Monte Carlo (MCMC) que nos da una tabla que resume la distribución posterior para γ (que indica
la inclusión de variables), β (los coeficientes) y la predicción asociada de y. Podemos resumir esta
tabla de varias formas. Por ejemplo, podemos calcular el valor promedio de γp que muestra la
probabilidad posterior de que la variable p esté incluida en las regresiones.
Un Ejemplo Económico: Regresiones de Crecimiento

Ilustramos estos diferentes métodos de selección de variables utilizando datos de Sala-i-


Martín (1997). Este ejercicio implicó examinar un conjunto de datos de 72 condados y 42 variables
para ver qué variables parecían ser importantes predictores del crecimiento económico. Sala-i-
Martín (1997) calculó todos los posibles subconjuntos de regresores de tamaño manejable y utilizó
los resultados para construir una medida de importancia que llamó CDF (0). Ley y Steel (2009)
investigaron la misma pregunta utilizando el modelo de promediado bayesiano, una técnica
relacionada con, pero no idéntica, con púas y losas. Hendry y Krolzig (2004) examinaron un
método iterativo de selección de pruebas de significación.

Tabla 4
Comparación de algoritmos de selección de variables: ¿Qué variables aparecieron como
predictores importantes del crecimiento económico?

Fuente: El cuadro se basa en el de Ley y Steel (2009); los datos analizados son de Sala-i-Martín (1997).
Notas: Ilustramos diferentes métodos de selección de variables. Este ejercicio implicó examinar un conjunto de datos de 72 condados y
42 variables para ver qué variables parecían ser importantes predictores del crecimiento económico. La tabla muestra diez predictores
que fueron elegidos por Sala-i-Martín (1997) utilizando una medida CDF (0) definida en el artículo de 1997; Ley y Steel (2009) utilizando
promedios de modelos bayesianos, LASSO y regresiones de picos y losas. Las métricas utilizadas no son estrictamente comparables
entre los distintos modelos. Las columnas “Promedio del modelo bayesiano” y “Picos y losa” son probabilidades posteriores de
inclusión; la columna “LASSO” solo muestra la importancia ordinal de la variable o un guion que indica que no se incluyó en el modelo
elegido; y la medida CDF (0) se define en Sala-i-Martín (1997).

La Tabla 4 muestra diez predictores que fueron elegidos por Sala-i-Martín (1997) utilizando
sus dos millones de regresiones, Ley y Steel (2009) utilizando el modelo bayesiano promediado,
LASSO y spike-and-slab. La tabla se basa en la de Ley y Steel (2009), pero las métricas utilizadas no
son estrictamente comparables entre los distintos modelos. Las columnas de "promediado del
modelo bayesiano" y "losa de punta" muestran probabilidades posteriores de inclusión; la
columna “LASSO” solo muestra la importancia ordinal de la variable o un guión que indica que no
se incluyó en el modelo elegido; y la medida CDF (0) se define en Sala-i-Martín (1997).

LASSO y las técnicas bayesianas son muy eficientes desde el punto de vista computacional y
probablemente se preferirían a la búsqueda exhaustiva. Los cuatro métodos de selección de
variables dan resultados similares para las cinco o cinco variables, después de las cuales divergen.
En este caso particular, el conjunto de datos parece ser demasiado pequeño para resolver la
cuestión de qué es "importante" para el crecimiento económico.
Selección Variable en Aplicaciones de Series Temporales

Las técnicas de aprendizaje automático descritas hasta ahora son generalmente aplicadas
a datos transversales donde los datos distribuidos de forma independiente son una suposición
plausible. Sin embargo, también existen técnicas que funcionan con series de tiempo. Aquí
describimos un método de estimación que llamamos Serie de Tiempo Estructural Bayesiano (BSTS)
que parece funcionar bien para problemas de selección de variables en aplicaciones de series de
tiempo.

Nuestra investigación en esta área fue motivada por los datos de Google Trends, que
proporcionan un índice del volumen de consultas de Google en términos específicos. Se podría
esperar que las consultas en el "archivo de desempleo" pudieran predecir la tasa real de
solicitudes de reclamos iniciales, o que las consultas sobre "vacaciones en Orlando" pudieran
predecir las visitas reales a Orlando. De hecho, en Choi y Varian (2009, 2012), Goel, Hofman,
Lahaie, Pennock y Watts (2010), Carrière Swallow y Labbé (2011), McLaren y Shanbhoge (2011),
Artola y Galan (2012), Hellerstein y Middeldorp (2012) y otros artículos, muchos investigadores
han demostrado que las consultas de Google tienen un poder predictivo significativo a corto plazo
para diversas métricas económicas.

El desafío es que hay miles de millones de consultas, por lo que es difícil determinar
exactamente qué consultas son las más predictivas para un propósito en particular. Google Trends
clasifica las consultas en categorías, lo que ayuda un poco, pero incluso entonces tenemos cientos
de categorías como posibles predictores, por lo que la correlación excesiva y falsa son una
preocupación seria. La serie temporal estructural bayesiana está diseñada para abordar estos
problemas. Ofrecemos una descripción muy breve aquí; más detalles están disponibles en Scott y
Varian (2013a, 2013b).

Considere un modelo de serie de tiempo clásico con nivel constante, tendencia de tiempo
lineal y componentes regresores:

yt=μ+by + βxt +et


La “tendencia lineal local” es una generalización estocástica de este modelo donde el nivel
y la tendencia temporal pueden variar a lo largo del tiempo.
Es fácil agregar una variable de estado adicional para la estacionalidad si es apropiado.
Los parámetros a estimar son los coeficientes de regresión β y las varianzas de (e it) para i
= 1,… 3. Luego podemos usar estas estimaciones para construir el pronóstico óptimo basado en
técnicas extraídas de la literatura sobre filtros de Kalman.

Para la regresión, utilizamos el mecanismo de elección de variable de pico y losa descrito


anteriormente. Una extracción de la distribución posterior ahora implica una extracción de las
varianzas de (e 1t, e 2t, e 3t) una extracción del vector γ que indica qué variables están en la
regresión, y una extracción de los coeficientes de regresión β para los valores incluidos. variables.
Las extracciones de t, b t y β se pueden utilizar para construir estimaciones de y t y pronósticos
para yt +1. Terminamos con una distribución posterior (estimada) para cada parámetro de interés.
Si buscamos una predicción puntual, podemos promediar estos sorteos, que es esencialmente una
forma de promediado del modelo bayesiano.
…………………………………………………………………………………………………………………………………………………………

Figura 6

Un ejemplo usando series de tiempo estructurales bayesianas (BSTS)

(encontrar consultas de Google que predicen las ventas de viviendas nuevas)

Fuente: Autor con datos HSN1FNSA de los datos económicos de la Reserva Federal de St. Louis.

Notas: Considere los datos no ajustados estacionalmente para las casas nuevas vendidas en los
Estados Unidos, que es (HSN1FNSA) de los datos económicos de la Reserva Federal de St. Louis.
Esta serie de tiempo se puede enviar a Google Correlate, que luego devuelve las 100 consultas que
están más correlacionadas con la serie. Introducimos esos datos en el sistema BSTS, que identifica
los predictores con las mayores probabilidades posteriores de aparecer en la regresión de
vivienda; estos se muestran en la Figura 6A. En estas cifras, las barras negras indican una relación
negativa y las barras blancas indican una relación positiva. Dos predictores, "letras antiguas" y
"www.mail2web" parecen ser falsos, por lo que los eliminamos y volvemos a estimar, obteniendo
los resultados de la Figura 6B.

Como ejemplo, considere los datos no ajustados estacionalmente para las casas nuevas
vendidas en los Estados Unidos, que es (HSN1FNSA) de los datos económicos de la Reserva Federal
de St. Louis. Esta serie de tiempo se puede enviar a Google Correlate, que luego devuelve las 100
consultas que están más correlacionadas con la serie. Introducimos esos datos en el sistema BSTS,
que identifica los predictores con las mayores probabilidades posteriores de aparecer en la
regresión de vivienda; estos se muestran en la Figura 6A. En estas fi guras, las barras negras
indican una relación negativa y las barras blancas indican una relación positiva. Dos predictores,
"letras antiguas" y "www.mail2web" parecen ser falsos, por lo que los eliminamos y volvemos a
estimar, obteniendo los resultados de la Figura 6B.

El ajuste se muestra en la Figura 7, que muestra la contribución incremental de la


tendencia, estacional y dos de los regresores. Incluso con solo dos predictores, consultas sobre
"tasa de apreciación" y consultas sobre "irs 1031", obtenemos un buen resultado. 5
5
La sección 1031 del IRS tiene que ver con diferir las ganancias de capital en ciertos tipos de
intercambio de propiedades.

Figura 7

Ajuste para la regresión de vivienda: contribución incremental de tendencia, estacional y dos


regresores

1) Tendencia (mae = 0,51911) 2) Agregar estacional (mae = 0.5168)

3) Agregue la tasa de apreciación (mae = 0.24805) 4) Agregue irs.1031 (mae = 0.1529)


Fuente: Autor con datos (HSN1FNSA) de la Reserva Federal de St. Louis.

Notas: Los gráficos muestran el impacto de la tendencia, estacional y algunos regresores


individuales. Los datos se han estandarizado para tener una media cero y una varianza 1. Los
residuos se muestran en la parte inferior. La abreviatura "mae" significa "error absoluto medio".

Econometría y Aprendizaje Automático

Hay una serie de áreas en las que habría oportunidades para una colaboración fructífera
entre la econometría y el aprendizaje automático. Mencioné anteriormente que la mayoría del
aprendizaje automático usa datos independientes y distribuidos de manera idéntica. Sin embargo,
el modelo Bayesiano de Series de Tiempo Estructural muestra que algunas de estas técnicas se
pueden adoptar para modelos de series de tiempo. También es posible utilizar técnicas de
aprendizaje automático para ver los datos del panel, y se ha trabajado en esta dirección.

Sin embargo, el área más importante para la colaboración es la inferencia causal. Los
econometrías han desarrollado varias herramientas para la inferencia causal, tales como variables
instrumentales, discontinuidad de regresión, diferencias en diferencias y varias formas de
experimentos naturales y diseñados (Anglista y Krueger 2001). El trabajo de aprendizaje
automático, en su mayor parte, se ha ocupado de la predicción pura. En cierto modo, esto es
irónico, ya que los informáticos teóricos, como Pearl (2009a, b) han hecho contribuciones
significativas al modelado causal. Sin embargo, parece que estos avances teóricos aún no se han
incorporado en la práctica del aprendizaje automático en un grado significativo.

Causalidad y Predicción

Como bien saben los economistas, existe una gran diferencia entre correlación y
causalidad. Un ejemplo clásico: a menudo hay más policías en distritos con alta criminalidad, pero
eso no implica que aumentar el número de policías en un precinto aumentaría la criminalidad.

Los modelos de aprendizaje automático que hemos descrito hasta ahora se han centrado
exclusivamente en la predicción. Si nuestros datos fueron generados por legisladores que
asignaron policías a áreas con alta criminalidad, entonces la relación observada entre la policía y
las tasas de criminalidad podría ser altamente predictiva para los datos históricos, pero no sería
útil para predecir el impacto causal de asignar explícitamente policías adicionales a un precinto.

Para ampliar este punto, consideremos un experimento (natural o diseñado) que intenta
estimar el impacto de alguna política, como agregar policías a los precintos. Hay dos cuestiones
fundamentales.

1) ¿Cómo se asignará la policía a los recintos tanto en el experimento como en la


implementación de la política? Las posibles reglas de asignación podrían ser 1) aleatorias, 2)
basadas en la necesidad percibida, 3) basadas en el costo de brindar el servicio, 4) basadas en las
solicitudes de los residentes, 5) basadas en una fórmula o conjunto de reglas, 6) basadas en la
solicitud de voluntarios, y así. Idealmente, el procedimiento de asignación en el experimento será
similar al utilizado en la política. El desarrollo de predicciones precisas sobre qué distritos recibirán
policías adicionales bajo la política propuesta basada en los datos experimentales claramente
puede ser útil para predecir el impacto esperado de la política.

2) ¿Cuál será el impacto de esta policía adicional tanto en el experimento como en la


política? Como han enfatizado Rubin (1974) y muchos autores posteriores, cuando queremos
estimar el impacto causal de algún tratamiento, necesitamos comparar el resultado con la
intervención con lo que habría sucedido sin la intervención. Pero este contrafactual no se puede
observar, por lo que debe ser predicho por algún modelo. Cuanto mejor modelo predictivo tenga
para el contra fáctico, mejor podrá estimar el efecto causal, una regla que es cierta tanto para los
experimentos puros como para los experimentos naturales.

Entonces, aunque un modelo predictivo no necesariamente le permitirá a uno concluir nada sobre
la causalidad por sí mismo, tales modelos pueden ayudar a estimar el impacto causal de una
intervención cuando ocurre.

Para afirmar esto de una manera un poco más formal, considere la identidad de Angrist y
Pischke (2009, p. 11):

diferencia observada en el resultado = efecto promedio del tratamiento sobre el sesgo de


selección tratado.

Si desea modelar el efecto promedio del tratamiento como una función de otras variables,
normalmente necesitará modelar tanto la diferencia observada en el resultado como el sesgo de
selección. Cuanto mejor sea su modelo predictivo para esos componentes, mejor será su
estimación del efecto promedio del tratamiento. Por supuesto, si tiene un experimento de
tratamiento-control verdaderamente aleatorio, el sesgo de selección desaparece y los tratados
son una muestra aleatoria imparcial de la población.

Para ilustrar estos puntos, consideremos el espinoso problema de estimar el efecto causal
de la publicidad en las ventas (Lewis y Rao 2013). La dificultad es que hay muchas variables de
confusión, como la estacionalidad o el clima, que causan tanto una mayor exposición a los
anuncios como un aumento en las compras de los consumidores. Por ejemplo, considere la
historia (probablemente apócrifa) sobre un gerente de publicidad a quien le preguntaron por qué
pensaba que sus anuncios eran efectivos. “Mira este gráfico”, dijo. "Cada diciembre aumento mi
inversión publicitaria y, efectivamente, las compras aumentan". Por supuesto, en este caso, la
estacionalidad se puede incluir en el modelo. Sin embargo, en general, habrá otras variables de
confusión que afectan tanto la exposición a los anuncios como la propensión a la compra, lo que
hace que las interpretaciones causales de las relaciones observadas sean problemáticas.

La forma ideal de estimar la efectividad de la publicidad es, por supuesto, realizar un


experimento controlado. En este caso, el grupo de control proporciona una estimación del
contrafactual: qué habría sucedido sin exposiciones publicitarias. Pero este enfoque ideal puede
ser bastante costoso, por lo que vale la pena buscar formas alternativas de predecir el
contrafactual. Una forma de hacer esto es utilizar el método Bayesian Structural Time Series (BSTS)
descrito anteriormente.

Suponga que una empresa determinada desea determinar el impacto de una campaña
publicitaria en las visitas a su sitio web. En primer lugar, utiliza BSTS (o alguna otra técnica) para
construir un modelo que predice la serie temporal de visitas en función de su historial pasado,
efectos estacionales y otros posibles predictores, como consultas de Google sobre el nombre de su
empresa, los nombres de sus competidores, o productos que produce. Dado que hay muchas
opciones posibles para los predictores, es importante utilizar algún mecanismo de selección de
variables como los descritos anteriormente.

A continuación, ejecuta una campaña publicitaria durante algunas semanas y registra las
visitas durante este período. Finalmente, realiza una previsión de cuáles habrían sido las visitas en
ausencia de la campaña publicitaria utilizando el modelo desarrollado en la quinta etapa. La
comparación de las visitas reales con las visitas contrafácticas nos da una estimación del efecto
causal de la publicidad.

La Figura 8 muestra el resultado de tal procedimiento. Se basa en el enfoque propuesto en


Brodersen, Gallusser, Koehler, Remy y Scott (2013), pero las covariables se eligen
automáticamente de las categorías de Tendencias de Google utilizando Bayesian Structural Time
Series (BSTS). El panel A muestra las visitas reales y la predicción de lo que habrían sido las visitas
sin la campaña basada en el modelo de previsión BSTS. El panel B muestra la diferencia entre
visitas reales y previstas, y el panel C muestra la diferencia acumulativa. De esta figura se
desprende claramente que hubo un impacto causal significativo de la publicidad, que luego puede
compararse con el costo de la publicidad para evaluar la campaña.

Figura 8

Visitas al sitio web reales y previstas

Aumento acumulado durante 55 días: 107.1K (88K ... 126K) Aumento relativo: 27% (23% ... 32%)
Fuente: Este ejemplo se basa en el enfoque propuesto en Brodersen, Gallusser, Koehler, Remy y
Scott (2013), pero las covariables se eligen automáticamente a partir de las categorías de Google
Trends utilizando Bayesian Structural Time Series (BSTS).

Notas: Suponga que una empresa determinada desea determinar el impacto de una campaña
publicitaria en las visitas a su sitio web. El panel A muestra las visitas reales y la predicción de lo
que habrían sido las visitas sin la campaña basada en el modelo de previsión BSTS. El panel B
muestra la diferencia entre visitas reales y previstas, y el panel C muestra la diferencia
acumulativa.

Este procedimiento no utiliza un grupo de control en el sentido convencional. En su lugar,


utiliza un modelo de serie temporal general basado en la extrapolación de tendencias, los efectos
estacionales y las covariables relevantes para pronosticar lo que habría sucedido sin la campaña
publicitaria.

Un buen modelo predictivo puede ser mejor que un grupo de control elegido al azar, que
generalmente se considera el estándar de oro. Para ver esto, suponga que ejecuta una campaña
publicitaria en 100 ciudades y retiene 100 ciudades como control. Una vez finalizado el
experimento, descubres que el clima fue dramáticamente diferente en las ciudades del estudio.
¿Debería agregar el clima como un predictor del contrafactual? ¡Por supuesto! Si el clima afecta
las ventas (lo cual es cierto), obtendrá una predicción más precisa del contrafactual y, por lo tanto,
una mejor estimación del efecto causal de la publicidad.

Incertidumbre del Modelo

Una idea importante del aprendizaje automático es que promediar muchos modelos
pequeños tiende a brindar una mejor predicción fuera de la muestra que elegir un solo modelo.

En 2006, Netflix ofreció un premio de un millón de dólares a los investigadores que


pudieran proporcionar la mayor mejora a su sistema de recomendación de películas existente. La
presentación ganadora involucró una "combinación compleja de no menos de 800 modelos",
aunque también señalan que "generalmente se pueden obtener predicciones de buena calidad
combinando una pequeña cantidad de métodos elegidos con criterio" (Feuerverger, He y Khatri
2012). También resultó que una combinación de las mejores y las segundas mejores
presentaciones superó a cualquiera de ellas.

Irónicamente, hace muchos años se reconoció que los promedios de los pronósticos de
modelos macroeconómicos superaban a los modelos individuales, pero de alguna manera esta
idea rara vez se explotaba en la econometría tradicional. La excepción es la literatura sobre
promedios del modelo bayesiano, que ha experimentado un flujo constante de trabajo; ver Steel
(2011) para una encuesta.

Sin embargo, creo que la incertidumbre del modelo se ha infiltrado en la econometría


aplicada por la puerta trasera. Muchos artículos de econometría aplicada presentan los resultados
de regresión en una tabla con varias especificaciones diferentes: qué variables se incluyen en los
controles, qué variables se utilizan como instrumentos, etc. El objetivo suele ser mostrar que la
estimación de algún parámetro interesante no es muy sensible a la especificación exacta utilizada.

Una forma de pensarlo es que estas tablas ilustran una forma simple de incertidumbre del
modelo: cómo varía un parámetro estimado a medida que se utilizan diferentes modelos. En estos
artículos, los autores tienden a examinar solo unas pocas especificaciones representativas, pero no
hay ninguna razón por la que no pudieran examinar muchas más si los datos estuvieran
disponibles.

En este período de "big data", parece extraño centrarse en la incertidumbre del muestreo, que
tiende a ser pequeña con grandes conjuntos de datos, mientras se ignora por completo la
incertidumbre del modelo, que puede ser bastante grande. Una forma de abordar esto es ser
explícito acerca de examinar cómo varían las estimaciones de los parámetros con respecto a las
opciones de instrumentos y variables de control.

Resumen y Lectura Adicional

Dado que las computadoras ahora están involucradas en muchas transacciones


económicas, los macrodatos solo crecerán. Las herramientas y técnicas de manipulación de datos
desarrolladas para pequeños conjuntos de datos serán cada vez más inadecuadas para abordar
nuevos problemas. Los investigadores en aprendizaje automático han desarrollado formas de
lidiar con grandes conjuntos de datos y los economistas interesados en lidiar con estos datos
deberían invertir en aprender estas técnicas.

Ya he mencionado a Hastie, Tibshirani y Friedman (2009), que proporcionan descripciones


detalladas de todos los métodos discutidos aquí, pero a un nivel relativamente avanzado. James,
Witten, Hastie y Tibshirani (2013) describen muchos de los mismos temas a nivel de pregrado,
junto con el código R y muchos ejemplos. (Hay varios ejemplos económicos en el libro donde la
tensión entre el modelado predictivo y la inferencia causal es evidente.) Murphy (2012) examina el
aprendizaje automático desde un punto de vista bayesiano.

Venables y Ripley (2002) ofrecen buenas discusiones sobre estos temas con énfasis en
ejemplos aplicados. Leek (2013) presenta una serie de videos de YouTube con introducciones
suaves y accesibles a varias herramientas de análisis de datos. Howe (2013) proporciona una
introducción algo más avanzada a la ciencia de datos que también incluye discusiones sobre bases
de datos SQL y NoSQL. Wu y Kumar (2009) ofrecen descripciones detalladas y ejemplos de los
principales algoritmos de la minería de datos, mientras que Williams (2011) proporciona un
conjunto de herramientas unificado. Domingos (2012) resume algunas lecciones importantes que
incluyen "escollos que se deben evitar, problemas importantes en los que enfocarse y respuestas a
preguntas comunes".

■ Gracias a Jeffrey Oldham, Tom Zhang, Rob On, Pierre Grinspan, Jerry Friedman, Art
Owen, Steve Scott, Bo Cowgill, Brock Noland, Daniel Stonehill, Robert Snedegar, Gary King, Fabien
Curto-Millet y los editores de esta revista para obtener comentarios útiles sobre versiones
anteriores de este documento. El autor trabaja para Google y Google tenía derecho a revisar este
artículo antes de su publicación.

También podría gustarte