XDXDXD

4.
IMPLICACIONES, CONCLUSIONES Y SUGERENCIAS
4.1 "El Costo de la Indiscriminación para la Inves gación Cien fica":
En muchos campos actuales, el modelado estadís co se u liza casi exclusivamente para la

explicación causal. La omisión de incluir el modelado y la prueba predic vos junto con el
modelado explica vo implica perder la capacidad de probar la relevancia de las teorías
existentes y descubrir nuevos mecanismos causales.
La rápida tasa de cambios sociales, ambientales y tecnológicos actuales genera una necesidad
apremiante de nuevas teorías y de examinar las an guas a la luz de las nuevas realidades.
Un problema común debido a la indiscriminación entre explicación y predicción es inferir

erróneamente el poder predic vo a par r del poder explica vo, lo que puede conducir a
conclusiones cien ficas y prác cas incorrectas. Esto se evidencia en ejemplos de diversas
disciplinas, como ecología, economía, epidemiología e informá ca, donde se malinterpreta el
poder predic vo.
La omisión del modelado predic vo también resulta en una brecha entre la inves gación y la
prác ca. En campos como las finanzas, donde la prác ca se centra en la predicción mientras
que la inves gación académica se enfoca en la explicación, se ha confiado en modelos
considerados pilares de inves gación pero que han demostrado tener un rendimiento
deficiente en la prác ca.
En resumen, la falta de modelado predic vo en el desarrollo teórico no solo hace que el

trabajo académico sea irrelevante para la prác ca, sino que también crea una barrera para
lograr un progreso cien fico significa vo, especialmente en un entorno donde la recopilación y
el acceso a datos son más fáciles.
En campos que se centran en el modelado predic vo, la omisión del modelado explica vo
debe ser examinada. Los campos cien ficos suelen definirse por un cuerpo cohesivo de
conocimientos teóricos que pueden ser probados, por lo que algún po de prueba, ya sea
empírica o no, debe ser un componente esencial del campo. En áreas como la bioinformá ca,
donde hay poca teoría pero abundancia de datos, los modelos predic vos son fundamentales
para generar vías para el desarrollo teórico causal.
4.2 "Poder Explica vo y Predic vo: Dos Dimensiones":
En este ar culo, he polarizado la explicación y la predicción en un esfuerzo por resaltar sus

diferencias fundamentales. Sin embargo, en lugar de considerarlas como extremos en algún
con nuo, las veo como dos dimensiones. La capacidad explica va y la precisión predic va son
cualidades diferentes; un modelo poseerá algún nivel de cada una.
Surge una pregunta relacionada y controver da: ¿debe tener un modelo explica vo algún nivel
de poder predic vo para considerarse cien ficamente ú l? Y de manera igual, ¿debe tener un
modelo predic vo suficiente poder explica vo para ser cien ficamente ú l? Por ejemplo,
algunos modelos explica vos que no pueden ser probados en cuanto a precisión predic va
pero que cons tuyen avances cien ficos son la teoría de la evolución darwiniana y la teoría de
cuerdas en la sica, esta úl ma produce predicciones actualmente inverificables. Del mismo
modo, existen modelos predic vos que no "explican" adecuadamente pero que son
cien ficamente valiosos. Galileo, en su libro "Dos Nuevas Ciencias", propuso una demostración
para determinar si la luz era instantánea, y aunque sus explicaciones fueron cri cadas, la
u lidad prác ca y cien fica de su modelo persiste.
Si consideramos la precisión predic va y el poder explica vo como dos ejes en un gráfico

bidimensional, colocaríamos diferentes modelos (f), orientados hacia la explicación o la
predicción, en diferentes áreas del gráfico. Este enfoque bidimensional implica que: (1) En
términos de modelado, el obje vo de un estudio cien fico debe especificarse de antemano
para op mizar el criterio de interés; y (2) En términos de evaluación del modelo e informes
cien ficos, los inves gadores deben informar tanto las cualidades explica vas como las
predic vas de sus modelos. Incluso si la predicción no es el obje vo, las cualidades predic vas
de un modelo deben informarse junto con su poder explica vo para que pueda evaluarse de
manera justa en términos de sus capacidades y compararse con otros modelos. De manera
similar, un modelo predic vo puede no requerir una explicación causal para ser cien ficamente
ú l; sin embargo, informar sobre su relación con la teoría causal es importante para construir
teoría. La disponibilidad de información sobre una variedad de modelos predic vos y
explica vos a lo largo de estos dos ejes puede arrojar luz tanto sobre aspectos predic vos
como causales de los fenómenos cien ficos. El proceso de modelado estadís co, como se
muestra en la Figura 2, debería incluir el "rendimiento general del modelo" en términos de
ambas cualidades predic vas y explica vas.
4.3 El Costo de la Indiscriminación para el Campo de la Estadís ca
Disolver la ambigüedad en torno a la modelización explica va versus predic va es importante

para avanzar en nuestro propio campo. Reconocer que la metodología estadís ca se ha
centrado principalmente en la inferencia indica una brecha importante por llenar. Si bien
nuestra literatura con ene metodología predic va para la selección de modelos e inferencia
predic va, hay escasa metodología estadís ca predic va para otras etapas del modelado,
como el diseño del estudio, la recopilación de datos, la preparación de datos y el Análisis
Exploratorio de Datos (EDA, por sus siglas en inglés), lo cual presenta oportunidades para
nuevas inves gaciones. Actualmente, el vacío predic vo ha sido ocupado por el campo del
aprendizaje automá co y la minería de datos. De hecho, las diferencias, y algunos dirían
rivalidad, entre los campos de la estadís ca y la minería de datos se pueden atribuir más a sus
obje vos diferentes de explicar versus predecir que a factores como el tamaño de los datos.
Mientras que la teoría estadís ca se ha centrado en la es mación del modelo, la inferencia y el
ajuste, el aprendizaje automá co y la minería de datos se han concentrado en el desarrollo de
algoritmos predic vos computacionalmente eficientes y en abordar el compromiso sesgo-
varianza para lograr una alta precisión predic va.
Acentuar la dis nción entre la modelización explica va y predic va puede generar una nueva
conciencia sobre las fortalezas y limitaciones de los métodos y prác cas existentes, y podría
arrojar luz sobre controversias actuales dentro de nuestro campo. Un ejemplo es el desacuerdo
en la metodología de encuestas con respecto al uso de pesos de muestreo en el análisis de
datos de encuestas (Li le, 2007). Mientras que algunos inves gadores defienden el uso de
pesos para reducir el sesgo a expensas de aumentar la varianza, y otros no están de acuerdo,
¿no podría la respuesta estar relacionada con el obje vo final?
Otra ambigüedad que puede beneficiarse de una dis nción entre explica vo y predic vo es la
definición de parsimonia. Algunos sos enen que los modelos predic vos deben ser más
simples que los modelos explica vos: "La simplicidad es relevante porque las familias
complejas a menudo enen un mal desempeño en la predicción de nuevos datos, aunque
pueden ajustarse muy bien a los datos an guos" (Sober, 2002). El mismo argumento fue
presentado por Has e, Tibshirani y Friedman (2009): "Típicamente, cuanto más complejo
hacemos el modelo, menor es el sesgo pero mayor es la varianza". En contraste, algunos
modelos predic vos en la prác ca son muy complejos, y de hecho, Breiman (2001b) comentó:
"en algunos casos, los modelos predic vos son más complejos para capturar pequeños ma ces
que mejoran la precisión predic va". Zellner (2001) u lizó el término "sofis cadamente
simple" para definir la calidad de un modelo "bueno". Sugeriría que las definiciones de
parsimonia y complejidad dependen de la tarea: predic va o explica va. Por ejemplo, un
modelo "demasiado complicado" en términos explica vos podría resultar "sofis cadamente
simple" para fines predic vos.
4.4 Observaciones Finales y Sugerencias
Las consecuencias derivadas de la dis nción entre modelización explica va y predic va

conducen a dos acciones propuestas:
Es nuestra responsabilidad ser conscientes de cómo se u lizan los modelos estadís cos en la
inves gación fuera de la estadís ca, por qué se u lizan de esa manera y, en respuesta,
desarrollar métodos que respalden una inves gación cien fica sólida. Este conocimiento se
puede adquirir dentro de nuestro campo invitando a cien ficos de diferentes disciplinas a dar
charlas en conferencias y seminarios de estadís ca, y al requerir que los estudiantes de
posgrado en estadís ca lean y presenten trabajos de inves gación de otras disciplinas.
Como disciplina, debemos reconocer la diferencia entre la modelización explica va, predic va
y descrip va, e integrarla en la educación estadís ca tanto para estadís cos como para no
estadís cos, lo antes posible, pero especialmente en cursos de "métodos de inves gación".
Esto requiere la creación de materiales escritos que sean fácilmente accesibles y comprensibles
para los no estadís cos. Deberíamos abogar tanto por la modelización explica va como por la
predic va, aclarar sus diferencias y usos cien ficos y prác cos dis n vos, y difundir
herramientas y conocimientos para implementar ambas. Un aspecto par cular a considerar es
abogar por un uso más cuidadoso de términos como "predictores", "predicciones" y "poder
predic vo", para reducir los efectos de la terminología en conclusiones cien ficas incorrectas.
La conciencia de la dis nción entre modelización explica va y predic va, y de las diferentes
funciones cien ficas que cada una cumple, es esencial para el progreso del
conocimiento cien fico.
APÉNDICE: ¿ES EL MODELO "VERDADERO" EL MEJOR MODELO PREDICTIVO? UN EJEMPLO DE
REGRESIÓN LINEAL
Considera que F es la verdadera función que relaciona las construcciones X e Y y supongamos

que f es una operacionalización válida de F. Elegir una función intencionalmente sesgada f ∗ en
lugar de f es claramente indeseable desde un punto de vista teórico-explica vo. Sin embargo,
mostraremos que f ∗ puede ser preferible a f desde un punto de vista predic vo.
Para ilustrar esto, considera el modelo estadís co f (x) = β1x1 + β2x2 + ε que se asume
correctamente especificado con respecto a F. U lizando datos, obtenemos el modelo es mado
fˆ, que ene las propiedades
donde x es el vector x = [x1, x2], y X es la matriz de diseño basada en ambos predictores.

Combinar el sesgo al cuadrado con la varianza proporciona
En comparación, considera la forma es mada insuficientemente especificada fˆ∗(x) = ˆγ1x1. El

sesgo y la varianza aquí se proporcionan según Montgomery, Peck y Vining (2001, páginas 292–
296):
Combinando el cuadrado bias con las variables dadas
Aunque el sesgo del modelo insuficientemente especificado f ∗(x) es mayor que el de f (x), su
varianza puede ser menor, y en algunos casos tan pequeña que el EPE total será menor para el
modelo insuficientemente especificado. Wu, Harris y McAuley (2007) mostraron el resultado
general para un modelo de regresión lineal insuficientemente especificado con múl ples
predictores. En par cular, demostraron que el modelo insuficientemente especificado que
excluye q predictores ene un EPE más bajo cuando se cumple la siguiente desigualdad:
Esto significa que el modelo insuficientemente especificado produce predicciones más
precisas, en términos de un EPE más bajo, en las siguientes situaciones:
cuando los datos son muy ruidosos (σ grande);
cuando los valores absolutos reales de los parámetros omi dos (en nuestro ejemplo, β2) son
pequeños;
cuando los predictores están altamente correlacionados; y
cuando el tamaño de la muestra es pequeño o el rango de las variables omi das es pequeño.
La conclusión se resume bien en las palabras de Hagerty y Srinivasan (1991): "Notamos que la
prác ca en la inves gación aplicada de concluir que un modelo con una validez predic va más
alta es 'más verdadero', no es una inferencia válida. Este ar culo muestra que un modelo más
parsimonioso pero menos verdadero puede tener una validez predic va más alta que un
modelo más verdadero pero menos parsimonioso".
AGRADECIMIENTOS
Agradezco a dos revisores anónimos, al editor asociado y al editor por sus sugerencias y
comentarios que mejoraron este manuscrito. Expreso mi gra tud a muchos colegas por sus
valiosos comentarios y discusiones fruc feras que me han ayudado a desarrollar el argumento
explica vo/predic vo presentado en este ar culo. Estoy agradecido con O o Koppius
(Erasmus) y Ravi Bapna (U Minnesota) por familiarizarme con la modelización explica va en
Sistemas de Información, por perseguir colabora vamente la predicción en este campo y por
las incansables discusiones sobre este trabajo. Agradezco a Ayala Cohen (Technion), Ralph
Snyder (Monash), Rob Hyndman (Monash) y Bill Langford (RMIT) por sus detallados
comentarios sobre borradores anteriores de este ar culo. Un agradecimiento especial a Boaz
Shmueli y Raquelle Azran por su minuciosa lectura y discusiones sobre el manuscrito. Y un
agradecimiento especial por comentarios y sugerencias invaluables a Murray Aitkin (U
Melbourne), Yoav Benjamini (Tel Aviv U), Smarajit Bose (ISI), Saibal Cha opadhyay (IIMC), Ram
Chellapah (Emory), E Doveh (Technion), Paul Feigin (Technion), Paulo Goes (U Arizona), Avi
Goldfarb (Toronto U), Norma Hubele (ASU), Ron Kene (KPA Inc.), Paul Lajbcygier (Monash),
Thomas Lumley (U Washington), David Madigan (Columbia U), Isaac Meilejson (Tel Aviv U),
Douglas Montgomery (ASU), Amita Pal (ISI), Don Poski (Monash), Foster Provost (NYU),
Saharon Rosset (Tel Aviv U), Jeffrey Simonoff (NYU) y David Steinberg (Tel Aviv U).

XDXDXD

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

XDXDXD

Cargado por

Copyright:

Formatos disponibles

4.

IMPLICACIONES, CONCLUSIONES Y SUGERENCIAS

4.1 "El Costo de la Indiscriminación para la Inves gación Cien ﬁca":

En muchos campos actuales, el modelado estadís co se u liza casi exclusivamente para la

Un problema común debido a la indiscriminación entre explicación y predicción es inferir

En resumen, la falta de modelado predic vo en el desarrollo teórico no solo hace que el

4.2 "Poder Explica vo y Predic vo: Dos Dimensiones":

En este ar culo, he polarizado la explicación y la predicción en un esfuerzo por resaltar sus

Si consideramos la precisión predic va y el poder explica vo como dos ejes en un gráﬁco

4.3 El Costo de la Indiscriminación para el Campo de la Estadís ca

Disolver la ambigüedad en torno a la modelización explica va versus predic va es importante

4.4 Observaciones Finales y Sugerencias

Las consecuencias derivadas de la dis nción entre modelización explica va y predic va

Considera que F es la verdadera función que relaciona las construcciones X e Y y supongamos

donde x es el vector x = [x1, x2], y X es la matriz de diseño basada en ambos predictores.

En comparación, considera la forma es mada insuﬁcientemente especiﬁcada fˆ∗(x) = ˆγ1x1. El

Combinando el cuadrado bias con las variables dadas

cuando los datos son muy ruidosos (σ grande);

cuando los predictores están altamente correlacionados; y

También podría gustarte