Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Hal R. Varian
Hal Varian es economista jefe de Google Inc., Mountain View, California, y profesor emérito de
economía de la Universidad de California, Berkeley, California.
En este ensayo, describiré algunas de estas herramientas para manipular y analizar big
data. Creo que estos métodos tienen mucho que ofrecer y deberían ser más conocidos y utilizados
por los economistas. De hecho, mi consejo estándar para los estudiantes de posgrado en estos
días es ir al departamento de informática y tomar una clase de aprendizaje automático. Ha habido
colaboraciones muy fructíferas entre informáticos y estadísticos en la última década, y espero que
las colaboraciones entre informáticos y econometristas también sean productivas en el futuro.
Históricamente, los economistas se han ocupado de datos que encajan en una hoja de
cálculo, pero eso está cambiando a medida que se dispone de nuevos datos más detallados (ver
Einav y Levin 2013, para varios ejemplos y discusión). Si tiene más de un millón de filas en una hoja
de cálculo, probablemente desee almacenarla en una base de datos relacional, como MySQL. Las
bases de datos relacionales ofrecen una forma flexible de almacenar, manipular y recuperar datos
mediante un “Lenguaje de Consulta Estructurado” (SQL = Structured Query Language), que es fácil
de aprender y muy útil para tratar con conjuntos de datos de tamaño mediano.
Sin embargo, si tiene varios gigabytes de datos o varios millones de observaciones, las
bases de datos relacionales estándar se vuelven difíciles de manejar. Las bases de datos para
administrar datos de este tamaño se conocen genéricamente como bases de datos “NoSQL”. El
término se usa de manera bastante vaga, pero a veces se interpreta en el sentido de "no solo
SQL". Las bases de datos NoSQL son más primitivas que las bases de datos SQL en términos de
capacidades de manipulación de datos, pero pueden manejar grandes cantidades de datos.
Aunque estas herramientas se pueden ejecutar en una sola computadora con fines de
aprendizaje, las aplicaciones reales utilizan grandes grupos de computadoras, como las
proporcionadas por Amazon, Google, Microsoft y otros proveedores de computación en la nube.
La capacidad de alquilar en lugar de comprar almacenamiento y procesamiento de datos ha
convertido lo que antes era un costo fijo de computación en un costo variable y ha reducido las
barreras de entrada para trabajar con big data.
Tabla 1
Por lo general, tenemos algunos datos observados sobre y y x, y queremos calcular una
"buena" predicción de y dados los nuevos valores de x. Por lo general, "bueno" significa que
minimiza alguna función de pérdida, como la suma de los residuos al cuadrado, la media del valor
absoluto de los residuos, etc. Por supuesto, la pérdida relevante es la asociada con las nuevas
observaciones fuera de la muestra de x, no las observaciones utilizadas para ajustar el modelo.
Nuestro objetivo con la predicción suele ser obtener buenas predicciones fuera de la
muestra. La mayoría de nosotros sabemos por experiencia que es muy fácil construir un predictor
que funcione bien dentro de la muestra pero que falla miserablemente fuera de la muestra. Para
tomar un ejemplo trivial, n regresores linealmente independientes se ajustarán perfectamente a n
observaciones, pero generalmente tendrán un desempeño pobre fuera de la muestra. Los
especialistas en aprendizaje automático se refieren a este fenómeno como el "problema de
sobreajuste" y han ideado varias formas de abordarlo.
Primero, dado que los modelos más simples tienden a funcionar mejor para pronósticos
fuera de la muestra, los expertos en aprendizaje automático han ideado varias formas de penalizar
los modelos por una complejidad excesiva. En el mundo del aprendizaje automático, esto se
conoce como "regularización" y describiremos algunos ejemplos a continuación. Los economistas
tienden a preferir modelos más simples por la misma razón, pero no han sido tan explícitos sobre
la cuantificación de los costos de complejidad.
En tercer lugar, si tenemos una medida numérica explícita de la complejidad del modelo,
podemos verla como un parámetro que se puede "ajustar" para producir las mejores predicciones
de la muestra. La forma estándar de elegir un buen valor para dicho parámetro de ajuste es utilizar
la validación cruzada de k veces (k-fold cross-validation).
Las opciones comunes para k son 10, 5 y el tamaño de la muestra menos 1 (“dejar uno”).
Después de la validación cruzada, termina con k valores del parámetro de ajuste y la pérdida
asociada que luego puede examinar para elegir un valor apropiado para el parámetro de ajuste.
Incluso si no hay un parámetro de ajuste, es prudente utilizar la validación cruzada para informar
las medidas de bondad de ajuste, ya que mide el rendimiento fuera de la muestra, que
generalmente es más significativo que el rendimiento de la muestra.
Comencemos por considerar una regresión de variables discretas donde nuestro objetivo
es predecir un resultado 0 –1 basado en algún conjunto de características (lo que los economistas
llamarían variables explicativas o predictores). En el aprendizaje automático, esto se conoce como
problema de clasificación. Un ejemplo común sería clasificar el correo electrónico como "spam" o
"no spam" según las características del correo electrónico. Los economistas suelen utilizar un
modelo lineal generalizado como logit o probit para un problema de clasificación.
Para ilustrar el uso de modelos de árbol, utilicé el paquete R rpart para encontrar un árbol
que predice a los sobrevivientes del Titanic usando solo dos variables: edad y clase de viaje. 1 El
árbol resultante se muestra en la Figura 1, y las reglas representadas en el árbol se muestran en la
Tabla 2. Las reglas se ajustan razonablemente bien a los datos, clasificando erróneamente
alrededor del 30 por ciento de las observaciones en el conjunto de pruebas.
Figura 1
Tabla 2
Figura 2
(los círculos vacíos indican supervivencia; los círculos con x indican muerte)
Los árboles tienden a funcionar bien para problemas en los que existen importantes
interacciones y no linealidades. Como ejemplo, continuemos con los datos del Titanic y creemos
un árbol que relacione la supervivencia con la edad. En este caso, la regla generada por el árbol es
muy simple: predecir “sobrevivir” si la edad es < 8.5 años. Podemos examinar los mismos datos
con una regresión logística para estimar la probabilidad de supervivencia en función de la edad,
con los resultados presentados en la Tabla 3.
Tabla 3
Figura 3
Notas: La figura muestra las tasas de supervivencia medias para diferentes grupos de edad junto
con los intervalos de confianza. El grupo de edad 10 significa "10 años o menos", el siguiente
grupo de edad es "mayores de 10 a 20", y así sucesivamente.
Los árboles también manejan bien los datos faltantes. Perlich, Provost y Simonoff (2003)
examinaron varios conjuntos de datos estándar y encontraron que "la regresión logística es mejor
para conjuntos de datos más pequeños y la inducción de árboles para conjuntos de datos más
grandes". Curiosamente, los árboles tienden a no funcionar muy bien si la relación subyacente
realmente es lineal, pero existen modelos híbridos como RuleFit (Friedman y Popescu 2005) que
pueden incorporar relaciones lineales y de árbol entre variables. Sin embargo, incluso si los árboles
pueden no mejorar la precisión predictiva en comparación con los modelos lineales, el ejemplo de
la edad muestra que pueden revelar aspectos de los datos que no son evidentes en un enfoque de
modelado lineal tradicional.
2
Es cierto que si supiera que existe una no linealidad en la edad, podría utilizar variables ficticias de edad en
el modelo logit para capturar este efecto. Sin embargo, la formulación del árbol hizo evidente esta no
linealidad.
Poda de Árboles
Un problema con los árboles es que tienden a sobreajustarse a los datos. Así como una
regresión con n observaciones y n variables le dará un buen ajuste en la muestra, un árbol con
muchas ramas también se ajustará bien a los datos de entrenamiento. En cualquier caso, las
predicciones que utilizan datos nuevos, como el conjunto de pruebas, pueden ser muy deficientes.
…………………………………………………………………………………………………………………………………………………………
La solución más común a este problema es "podar" el árbol imponiendo un costo por
complejidad. Hay varias medidas de complejidad, pero una común es el número de nodos
terminales (también conocidos como "hojas"). El costo de la complejidad es un parámetro de
ajuste que se elige para proporcionar las mejores predicciones fuera de la muestra, que
generalmente se mide utilizando el procedimiento de validación cruzada de 10 veces mencionado
anteriormente.
Una sesión típica de estimación de árboles podría implicar dividir sus datos en diez
pliegues, usar nueve de los pliegues para hacer crecer un árbol con una complejidad particular y
luego predecir en el pliegue excluido. Repita la estimación con diferentes valores del parámetro de
complejidad utilizando otros pliegues y elija el valor del parámetro de complejidad que minimice el
error de clasificación fuera de la muestra. (Algunos investigadores recomiendan ser un poco más
agresivos y abogan por elegir el parámetro de complejidad que sea una desviación estándar más
baja que el valor de minimización de pérdidas).
Figura 4
Un Árbol para los Supervivientes del Titanic
(las barras negras indican la fracción del grupo que sobrevivió)
Hay muchos otros enfoques para la creación de árboles, incluidos algunos que son
explícitamente de naturaleza estadística. Por ejemplo, un "árbol de inferencia condicional", o árbol
para abreviar, elige la estructura del árbol usando una secuencia de pruebas de hipótesis. Los
árboles resultantes tienden a necesitar muy poca poda (Hothorn, Hornik y Zeileis 2006). En la
Figura 4 se muestra un ejemplo de los datos del Titanic.
El primer nodo se divide por género. El segundo nodo luego se divide por clase. En las ramas de la
derecha, el tercer nodo se divide por edad y un cuarto nodo se divide por el número de hermanos
más el cónyuge a bordo. Los contenedores en la parte inferior de la figura muestran el número
total de personas en esa hoja y una representación gráfica de su tasa de supervivencia. Se podría
resumir este árbol con el siguiente principio: “mujeres y niños en primer lugar. . . especialmente si
viajaban en quinta clase ". Este simple ejemplo ilustra nuevamente que los árboles de clasificación
pueden ser útiles para resumir las relaciones en los datos, así como para predecir los resultados.
(3)
Figura 5
Árbol de Datos de la Ley de Divulgación de Hipotecas para Viviendas (HMDA)
Notas: La Figura 5 muestra un árbol condicional estimado utilizando la parte del paquete R. Las barras negras indican la fracción de cada
grupo a la que se le negaron las hipotecas. El determinante más importante de esto es la variable "dmi" o "seguro hipotecario
denegado". Otras variables son: "dir", relación entre pagos de la deuda y el ingreso total; “Hir”, relación entre gastos de vivienda e
ingresos; “Lvr”, relación entre el tamaño del préstamo y el valor tasado de la propiedad; “Ccs”, puntaje de crédito del consumidor;
“Mcs”, puntaje de crédito hipotecario; “Pbcr”, historial de crédito público malo; "Dmi", negó el seguro hipotecario; "Autónomo",
autónomo; "Soltero", el solicitante es soltero; "Uria", industria del solicitante de la tasa de desempleo de 1989 de Massachusetts;
“Condominio”, unidad es condominio; “Negro”, raza del solicitante negro; y “negar”, solicitud de hipoteca negada.
Aquí examino esta pregunta utilizando los estimadores basados en árboles descritos en la
sección anterior. Los datos constan de 2.380 observaciones de 12 predictores, uno de los cuales
fue la raza. La Figura 5 muestra un árbol condicional estimado usando el paquete de partes R.
El árbol encaja bastante bien, clasifica erróneamente 228 de las 2.380 observaciones para
una tasa de error del 9,6 por ciento. En comparación, una regresión logística simple funciona un
poco mejor, clasificando erróneamente 225 de las 2.380 observaciones, lo que lleva a una tasa de
error del 9,5 por ciento. Como puede ver en la Figura 5, la variable más importante es "dmi" =
"seguro hipotecario denegado". Esta variable por sí sola explica gran parte de la variación de los
datos. La variable de raza ("negra") aparece muy abajo en el árbol y parece ser relativamente poco
importante.
Una forma de evaluar si una variable es importante es excluirla de la predicción y ver qué sucede.
Cuando se hace esto, resulta que la precisión del modelo basado en árboles no cambia en
absoluto: exactamente los mismos casos están mal clasificados. Por supuesto, es perfectamente
posible que haya discriminación racial en otras partes del proceso hipotecario, o que algunas de
las variables incluidas estén altamente correlacionadas con la raza. Pero es de destacar que el
modelo de árbol producido por procedimientos estándar que omite la raza se ajusta a los datos
observados tan bien como un modelo que incluye la raza.
Hay varias formas útiles de mejorar el rendimiento del clasificador. Curiosamente, algunos
de estos métodos funcionan agregando aleatoriedad a los datos. Esto parece paradójico al
principio, pero agregar aleatoriedad resulta ser una forma útil de lidiar con el problema del
sobreajuste.
Bootstrap implica elegir (con reemplazo) una muestra de tamaño n de un conjunto de
datos
de tamaño n para estimar la distribución muestral de alguna estadística. Una variación es la
“M de n bootstrap” que extrae una muestra de tamaño m de un conjunto de datos de tamaño n>
m.
El ensacado implica promediar entre los modelos estimados con varios bootstrap
diferentes
muestras para mejorar el rendimiento de un estimador.
El impulso implica una estimación repetida donde las observaciones mal clasificadas
reciben un peso creciente en cada repetición. La estimación final es entonces un voto o un
promedio de las estimaciones repetidas.
Los economistas están familiarizados con el bootstrap, pero rara vez utilizan los otros dos
métodos. El ensacado es principalmente útil para modelos no lineales como árboles (Friedman y
Hall 2007). El impulso tiende a mejorar el rendimiento predictivo de un estimador de manera
significativa y se puede utilizar para prácticamente cualquier tipo de clasificador o modelo de
regresión, incluidos logits, probits, árboles, etc.
También es posible combinar estos técnicos y crear un "bosque" de árboles que a menudo
puede mejorar significativamente los métodos de un solo árbol. Aquí hay una descripción
aproximada de cómo funcionan estos "bosques aleatorios".
Bosques al azar
Los bosques aleatorios es una técnica que utiliza varios árboles. Un procedimiento típico
utiliza los siguientes pasos.
1. Elija una muestra de arranque de las observaciones y comience a hacer crecer un árbol.
2. En cada nodo del árbol, elija una muestra aleatoria de los predictores para tomar la siguiente
decisión. No podes los árboles.
3. Repita este proceso muchas veces para hacer crecer un bosque de árboles.
4. Para determinar la clasificación de una nueva observación, haga que cada árbol haga una
clasificación y use un voto mayoritario para la predicción final.
Tenga en cuenta que los bosques aleatorios implican bastante aleatorización; Si desea
probarlos con algunos datos, le sugiero que elija una semilla en particular para el generador de
números aleatorios para que sus resultados puedan reproducirse. (Consulte el suplemento en
línea para ver ejemplos).
Ejecuté el método de bosque aleatorio en los datos de HMDA y descubrí que clasificaba
erróneamente 223 de los 2,380 casos, una pequeña mejora con respecto al logit y el ctree.
También utilicé la opción de importancia en bosques aleatorios para ver cómo se comparan los
predictores. Resultó que "dmi" fue el predictor más importante y la carrera fue la segunda desde
abajo, lo que es consistente con el análisis de ctree.
Selección de Variable
P
2
[
λ ∑ (1−α )|b p|+α |b p|
p=1
]
Este método de estimación se denomina regresión neta elástica; contiene otros tres
métodos como casos especiales. Si no hay término de penalización (λ = 0), se trata de mínimos
cuadrados ordinarios. Si α = 1, de modo que solo existe la restricción cuadrática, esto es regresión
de cresta.
Si α = 0, esto se llama LASSO, un acrónimo de "operador de selección y contracción
mínima absoluta".
Resulta que estos estimadores se pueden calcular de manera bastante eficiente, por lo que hacer
una selección de variables en problemas razonablemente grandes es computacionalmente
factible. También parecen proporcionar buenas predicciones en la práctica.
Ahora extraemos γ de su distribución anterior, que será solo una lista de variables en la regresión.
Condicional a esta lista de variables incluidas, extraemos la distribución previa para los
coeficientes. Combinamos estos dos valores con la probabilidad de la forma habitual, lo que nos
da un valor de la distribución posterior tanto en la probabilidad de inclusión como en los
coeficientes. Repetimos este proceso miles de veces utilizando una técnica de Markov Chain
Monte Carlo (MCMC) que nos da una tabla que resume la distribución posterior para γ (que indica
la inclusión de variables), β (los coeficientes) y la predicción asociada de y. Podemos resumir esta
tabla de varias formas. Por ejemplo, podemos calcular el valor promedio de γp que muestra la
probabilidad posterior de que la variable p esté incluida en las regresiones.
Un Ejemplo Económico: Regresiones de Crecimiento
Tabla 4
Comparación de algoritmos de selección de variables: ¿Qué variables aparecieron como
predictores importantes del crecimiento económico?
Fuente: El cuadro se basa en el de Ley y Steel (2009); los datos analizados son de Sala-i-Martín (1997).
Notas: Ilustramos diferentes métodos de selección de variables. Este ejercicio implicó examinar un conjunto de datos de 72 condados y
42 variables para ver qué variables parecían ser importantes predictores del crecimiento económico. La tabla muestra diez predictores
que fueron elegidos por Sala-i-Martín (1997) utilizando una medida CDF (0) definida en el artículo de 1997; Ley y Steel (2009) utilizando
promedios de modelos bayesianos, LASSO y regresiones de picos y losas. Las métricas utilizadas no son estrictamente comparables
entre los distintos modelos. Las columnas “Promedio del modelo bayesiano” y “Picos y losa” son probabilidades posteriores de
inclusión; la columna “LASSO” solo muestra la importancia ordinal de la variable o un guion que indica que no se incluyó en el modelo
elegido; y la medida CDF (0) se define en Sala-i-Martín (1997).
La Tabla 4 muestra diez predictores que fueron elegidos por Sala-i-Martín (1997) utilizando
sus dos millones de regresiones, Ley y Steel (2009) utilizando el modelo bayesiano promediado,
LASSO y spike-and-slab. La tabla se basa en la de Ley y Steel (2009), pero las métricas utilizadas no
son estrictamente comparables entre los distintos modelos. Las columnas de "promediado del
modelo bayesiano" y "losa de punta" muestran probabilidades posteriores de inclusión; la
columna “LASSO” solo muestra la importancia ordinal de la variable o un guión que indica que no
se incluyó en el modelo elegido; y la medida CDF (0) se define en Sala-i-Martín (1997).
LASSO y las técnicas bayesianas son muy eficientes desde el punto de vista computacional y
probablemente se preferirían a la búsqueda exhaustiva. Los cuatro métodos de selección de
variables dan resultados similares para las cinco o cinco variables, después de las cuales divergen.
En este caso particular, el conjunto de datos parece ser demasiado pequeño para resolver la
cuestión de qué es "importante" para el crecimiento económico.
Selección Variable en Aplicaciones de Series Temporales
Las técnicas de aprendizaje automático descritas hasta ahora son generalmente aplicadas
a datos transversales donde los datos distribuidos de forma independiente son una suposición
plausible. Sin embargo, también existen técnicas que funcionan con series de tiempo. Aquí
describimos un método de estimación que llamamos Serie de Tiempo Estructural Bayesiano (BSTS)
que parece funcionar bien para problemas de selección de variables en aplicaciones de series de
tiempo.
Nuestra investigación en esta área fue motivada por los datos de Google Trends, que
proporcionan un índice del volumen de consultas de Google en términos específicos. Se podría
esperar que las consultas en el "archivo de desempleo" pudieran predecir la tasa real de
solicitudes de reclamos iniciales, o que las consultas sobre "vacaciones en Orlando" pudieran
predecir las visitas reales a Orlando. De hecho, en Choi y Varian (2009, 2012), Goel, Hofman,
Lahaie, Pennock y Watts (2010), Carrière Swallow y Labbé (2011), McLaren y Shanbhoge (2011),
Artola y Galan (2012), Hellerstein y Middeldorp (2012) y otros artículos, muchos investigadores
han demostrado que las consultas de Google tienen un poder predictivo significativo a corto plazo
para diversas métricas económicas.
El desafío es que hay miles de millones de consultas, por lo que es difícil determinar
exactamente qué consultas son las más predictivas para un propósito en particular. Google Trends
clasifica las consultas en categorías, lo que ayuda un poco, pero incluso entonces tenemos cientos
de categorías como posibles predictores, por lo que la correlación excesiva y falsa son una
preocupación seria. La serie temporal estructural bayesiana está diseñada para abordar estos
problemas. Ofrecemos una descripción muy breve aquí; más detalles están disponibles en Scott y
Varian (2013a, 2013b).
Considere un modelo de serie de tiempo clásico con nivel constante, tendencia de tiempo
lineal y componentes regresores:
Figura 6
Fuente: Autor con datos HSN1FNSA de los datos económicos de la Reserva Federal de St. Louis.
Notas: Considere los datos no ajustados estacionalmente para las casas nuevas vendidas en los
Estados Unidos, que es (HSN1FNSA) de los datos económicos de la Reserva Federal de St. Louis.
Esta serie de tiempo se puede enviar a Google Correlate, que luego devuelve las 100 consultas que
están más correlacionadas con la serie. Introducimos esos datos en el sistema BSTS, que identifica
los predictores con las mayores probabilidades posteriores de aparecer en la regresión de
vivienda; estos se muestran en la Figura 6A. En estas cifras, las barras negras indican una relación
negativa y las barras blancas indican una relación positiva. Dos predictores, "letras antiguas" y
"www.mail2web" parecen ser falsos, por lo que los eliminamos y volvemos a estimar, obteniendo
los resultados de la Figura 6B.
Como ejemplo, considere los datos no ajustados estacionalmente para las casas nuevas
vendidas en los Estados Unidos, que es (HSN1FNSA) de los datos económicos de la Reserva Federal
de St. Louis. Esta serie de tiempo se puede enviar a Google Correlate, que luego devuelve las 100
consultas que están más correlacionadas con la serie. Introducimos esos datos en el sistema BSTS,
que identifica los predictores con las mayores probabilidades posteriores de aparecer en la
regresión de vivienda; estos se muestran en la Figura 6A. En estas fi guras, las barras negras
indican una relación negativa y las barras blancas indican una relación positiva. Dos predictores,
"letras antiguas" y "www.mail2web" parecen ser falsos, por lo que los eliminamos y volvemos a
estimar, obteniendo los resultados de la Figura 6B.
Figura 7
Hay una serie de áreas en las que habría oportunidades para una colaboración fructífera
entre la econometría y el aprendizaje automático. Mencioné anteriormente que la mayoría del
aprendizaje automático usa datos independientes y distribuidos de manera idéntica. Sin embargo,
el modelo Bayesiano de Series de Tiempo Estructural muestra que algunas de estas técnicas se
pueden adoptar para modelos de series de tiempo. También es posible utilizar técnicas de
aprendizaje automático para ver los datos del panel, y se ha trabajado en esta dirección.
Sin embargo, el área más importante para la colaboración es la inferencia causal. Los
econometrías han desarrollado varias herramientas para la inferencia causal, tales como variables
instrumentales, discontinuidad de regresión, diferencias en diferencias y varias formas de
experimentos naturales y diseñados (Anglista y Krueger 2001). El trabajo de aprendizaje
automático, en su mayor parte, se ha ocupado de la predicción pura. En cierto modo, esto es
irónico, ya que los informáticos teóricos, como Pearl (2009a, b) han hecho contribuciones
significativas al modelado causal. Sin embargo, parece que estos avances teóricos aún no se han
incorporado en la práctica del aprendizaje automático en un grado significativo.
Causalidad y Predicción
Como bien saben los economistas, existe una gran diferencia entre correlación y
causalidad. Un ejemplo clásico: a menudo hay más policías en distritos con alta criminalidad, pero
eso no implica que aumentar el número de policías en un precinto aumentaría la criminalidad.
Los modelos de aprendizaje automático que hemos descrito hasta ahora se han centrado
exclusivamente en la predicción. Si nuestros datos fueron generados por legisladores que
asignaron policías a áreas con alta criminalidad, entonces la relación observada entre la policía y
las tasas de criminalidad podría ser altamente predictiva para los datos históricos, pero no sería
útil para predecir el impacto causal de asignar explícitamente policías adicionales a un precinto.
Para ampliar este punto, consideremos un experimento (natural o diseñado) que intenta
estimar el impacto de alguna política, como agregar policías a los precintos. Hay dos cuestiones
fundamentales.
Entonces, aunque un modelo predictivo no necesariamente le permitirá a uno concluir nada sobre
la causalidad por sí mismo, tales modelos pueden ayudar a estimar el impacto causal de una
intervención cuando ocurre.
Para afirmar esto de una manera un poco más formal, considere la identidad de Angrist y
Pischke (2009, p. 11):
Si desea modelar el efecto promedio del tratamiento como una función de otras variables,
normalmente necesitará modelar tanto la diferencia observada en el resultado como el sesgo de
selección. Cuanto mejor sea su modelo predictivo para esos componentes, mejor será su
estimación del efecto promedio del tratamiento. Por supuesto, si tiene un experimento de
tratamiento-control verdaderamente aleatorio, el sesgo de selección desaparece y los tratados
son una muestra aleatoria imparcial de la población.
Para ilustrar estos puntos, consideremos el espinoso problema de estimar el efecto causal
de la publicidad en las ventas (Lewis y Rao 2013). La dificultad es que hay muchas variables de
confusión, como la estacionalidad o el clima, que causan tanto una mayor exposición a los
anuncios como un aumento en las compras de los consumidores. Por ejemplo, considere la
historia (probablemente apócrifa) sobre un gerente de publicidad a quien le preguntaron por qué
pensaba que sus anuncios eran efectivos. “Mira este gráfico”, dijo. "Cada diciembre aumento mi
inversión publicitaria y, efectivamente, las compras aumentan". Por supuesto, en este caso, la
estacionalidad se puede incluir en el modelo. Sin embargo, en general, habrá otras variables de
confusión que afectan tanto la exposición a los anuncios como la propensión a la compra, lo que
hace que las interpretaciones causales de las relaciones observadas sean problemáticas.
Suponga que una empresa determinada desea determinar el impacto de una campaña
publicitaria en las visitas a su sitio web. En primer lugar, utiliza BSTS (o alguna otra técnica) para
construir un modelo que predice la serie temporal de visitas en función de su historial pasado,
efectos estacionales y otros posibles predictores, como consultas de Google sobre el nombre de su
empresa, los nombres de sus competidores, o productos que produce. Dado que hay muchas
opciones posibles para los predictores, es importante utilizar algún mecanismo de selección de
variables como los descritos anteriormente.
A continuación, ejecuta una campaña publicitaria durante algunas semanas y registra las
visitas durante este período. Finalmente, realiza una previsión de cuáles habrían sido las visitas en
ausencia de la campaña publicitaria utilizando el modelo desarrollado en la quinta etapa. La
comparación de las visitas reales con las visitas contrafácticas nos da una estimación del efecto
causal de la publicidad.
Figura 8
Aumento acumulado durante 55 días: 107.1K (88K ... 126K) Aumento relativo: 27% (23% ... 32%)
Fuente: Este ejemplo se basa en el enfoque propuesto en Brodersen, Gallusser, Koehler, Remy y
Scott (2013), pero las covariables se eligen automáticamente a partir de las categorías de Google
Trends utilizando Bayesian Structural Time Series (BSTS).
Notas: Suponga que una empresa determinada desea determinar el impacto de una campaña
publicitaria en las visitas a su sitio web. El panel A muestra las visitas reales y la predicción de lo
que habrían sido las visitas sin la campaña basada en el modelo de previsión BSTS. El panel B
muestra la diferencia entre visitas reales y previstas, y el panel C muestra la diferencia
acumulativa.
Un buen modelo predictivo puede ser mejor que un grupo de control elegido al azar, que
generalmente se considera el estándar de oro. Para ver esto, suponga que ejecuta una campaña
publicitaria en 100 ciudades y retiene 100 ciudades como control. Una vez finalizado el
experimento, descubres que el clima fue dramáticamente diferente en las ciudades del estudio.
¿Debería agregar el clima como un predictor del contrafactual? ¡Por supuesto! Si el clima afecta
las ventas (lo cual es cierto), obtendrá una predicción más precisa del contrafactual y, por lo tanto,
una mejor estimación del efecto causal de la publicidad.
Una idea importante del aprendizaje automático es que promediar muchos modelos
pequeños tiende a brindar una mejor predicción fuera de la muestra que elegir un solo modelo.
Irónicamente, hace muchos años se reconoció que los promedios de los pronósticos de
modelos macroeconómicos superaban a los modelos individuales, pero de alguna manera esta
idea rara vez se explotaba en la econometría tradicional. La excepción es la literatura sobre
promedios del modelo bayesiano, que ha experimentado un flujo constante de trabajo; ver Steel
(2011) para una encuesta.
Una forma de pensarlo es que estas tablas ilustran una forma simple de incertidumbre del
modelo: cómo varía un parámetro estimado a medida que se utilizan diferentes modelos. En estos
artículos, los autores tienden a examinar solo unas pocas especificaciones representativas, pero no
hay ninguna razón por la que no pudieran examinar muchas más si los datos estuvieran
disponibles.
En este período de "big data", parece extraño centrarse en la incertidumbre del muestreo, que
tiende a ser pequeña con grandes conjuntos de datos, mientras se ignora por completo la
incertidumbre del modelo, que puede ser bastante grande. Una forma de abordar esto es ser
explícito acerca de examinar cómo varían las estimaciones de los parámetros con respecto a las
opciones de instrumentos y variables de control.
Venables y Ripley (2002) ofrecen buenas discusiones sobre estos temas con énfasis en
ejemplos aplicados. Leek (2013) presenta una serie de videos de YouTube con introducciones
suaves y accesibles a varias herramientas de análisis de datos. Howe (2013) proporciona una
introducción algo más avanzada a la ciencia de datos que también incluye discusiones sobre bases
de datos SQL y NoSQL. Wu y Kumar (2009) ofrecen descripciones detalladas y ejemplos de los
principales algoritmos de la minería de datos, mientras que Williams (2011) proporciona un
conjunto de herramientas unificado. Domingos (2012) resume algunas lecciones importantes que
incluyen "escollos que se deben evitar, problemas importantes en los que enfocarse y respuestas a
preguntas comunes".
■ Gracias a Jeffrey Oldham, Tom Zhang, Rob On, Pierre Grinspan, Jerry Friedman, Art
Owen, Steve Scott, Bo Cowgill, Brock Noland, Daniel Stonehill, Robert Snedegar, Gary King, Fabien
Curto-Millet y los editores de esta revista para obtener comentarios útiles sobre versiones
anteriores de este documento. El autor trabaja para Google y Google tenía derecho a revisar este
artículo antes de su publicación.