Metodología de Las Ciencias Sociales. Un Marco Unificado - John Gerring - 2014 - Alianza Editorial - 9788420689807 - Anna's Archive

John Gerring
METODOLOGÍA
di us CIENCIAS
I
John Gerring
METODOLOGÍA OE LAS CIENCIAS SOCIALES
UN MARCO UNIFICADO
Este excepcional manual de John Gerring ofrece en un
solo volumen una introducción a la metodología de las
ciencias sociales que se puede utilizar para las disciplinas
de la antropología, la economía, la historia, la ciencia
política, la psicología y la sociología. Será de gran utili
dad para estudiantes, profesionales y metodólogos, y
trata tanto de los métodos cuantitativos como de los
cualitativos, prestando especial atención a elementos
esenciales como la conceptüa|ización, la medición, la
causalidad y el diseño de la investigación. Sintetiza el
amplio y diverso campo de la metodología de una mane
ra clara, concisa y exhaustiva, por lo que presenta al lec
tor una imprescindible visión general de la materia. La
reflexión sobre la metodología a través de está-lente pro
porciona un nuevo marco para comprender el mundo
en las ciencias sociales.
John Gerring es catedrático de Ciencia Política en la

Universidad de Boston, donde impane cursos sobre meto
dología y política comparada.
í
•5
J ISBN: 978-84-206-8980-7
í
8
llllllllllp
9ll788420“689807ll
I Alianza Editorial
Metodología de las
ciencias sociales
John Gerring
Metodología de las
ciencias sociales
Un marco unificado
Segunda edición
Traducción de M.a Teresa Casado Rodríguez
Alianza Editorial
Titulo original: Social Science Methodology. A Unijted Framework
Reseñados todos los derechos. El contenido de esta obra está protegido por la Ley, que esta
blece penas de prisión y/o multas, además de las correspondientes indemnizaciones por daños
y peijukios. para quienes reprodujeren, plagiaren, distribuyeren o comunicaren públicamente,
en todo o en parte, una obra literaria, artística o científica, o su transformación, interpretación
o ejecución artística fijada en cualquier tipo de soporte o comunicada a través de cualquier
medio, sin la preceptiva autorización.
£ Cambridge University Press, 2012

C de la traducción: María Teresa Casado Rodríguez, 2014
ó .Alianza Editorial. S. A., Madrid 2014
Calle Juan Ignacio Lúea de Tena, 15; 28027 Madrid; teléf. 91 393 88 88
www.alianzaeditorial.es
ISBN: 978-84-206-8980-7
Depósito legal: M. 15.789-2014
Printed in Spain
SIOLIERE RECIBIR INFORMACIÓN PERIÓDICA SOBRE LAS NOVEDADES DE ALIANZA EDITORIAL,

ENVÍE UN CORREO ELECTRÓNICO A LA DIRECCIÓN:
alianzaeditorialf0janaya.es
«En la ciencia no hay caminos reales, y sólo tendrán esperanzas de acceder a
sus cumbres luminosas aquellos que no teman fatigarse al escalar por senderos
escarpados.»
Karl Marx, «Prefacio a la edición francesa». El capital (299),

citado en Levi (1999: 171)
«Haber dominado el “método” y la “teoría” es haber llegado a ser un pensa

dor consciente de sí mismo, un hombre que trabaja y conoce los supuestos y las
complicaciones de lo que está haciendo. Ser dominado por el “método” o por la
“teoría” es sencillamente verse impedido para trabajar, para tantear, es decir, para
averiguar lo que está sucediendo en el mundo. Sin penetrar el modo como se lleva
a cabo el trabajo, los resultados del estudio son poco sólidos; sin la determinación
de que el estudio llegue a resultados significativos, todo método es pretensión
insignificante.»
C. Wright Mills, La imaginación sociológica (1959: 120-21)
«Ciertamente, en un mundo que se encuentra en el umbral de la química del áto

mo, que sólo acaba de empezar a descifrar el misterio del espacio interestelar, en
este nuestro pobre mundo que, a pesar de estar orgulloso de su ciencia, ha creado
tan poca felicidad para sí mismo, las tediosas minucias de la erudición histórica,
capaces de consumir toda una vida, merecerían ser condenadas por ser un gasto
absurdo de energía que raya en lo criminal si al final terminaran cubriendo mera
mente una de nuestras diversiones con un fino velo de verdad. O hay que disuadir
de la práctica de la historia a todas las mentes con capacidad de emplearse en algo
mejor, o la historia debe demostrar su legitimidad como forma de conocimiento.
Pero aquí surge una nueva pregunta. ¿Qué es, exactamente, lo que constituye la
legitimidad de un esfuerzo intelectual?»
Marc Bloch, Apología para la historia o el oficio de historiador ([1941] 1953: 9)

.j " ■' '•• •
•í’j;
txi . ■ rrj -'jf

j.. j
índice
Lista de figuras 15
Lista de tablas 17
Prefacio. 19
Este volumen 21
Agradecimientos 23
1. Un marco unificado 25
El problema del pluralismo 27
Un marco unificado 34
Clarificaciones . 37
Exclusiones ..... 40
Terminología 41
Ejemplos 43
Democracia 44
Cupones 44
Consejo al lector 45
Parte I General
2 Principios 49
Descubrimiento ...................................... 50
Apreciación 52
Compensaciones 54
Encontrar una pregunta de investigación 58
9
Metodología de las ciencias sociales
Estudie la tradición 59
Comience donde esté 61
Aléjese del terruño 63
Juegue con las ideas 64
Practique la descreencia 67
Observe empáticamente 69
Teorice salvajemente 69
Prevea 72
Haga análisis exploratorios 73
Conclusiones sobre los principios. 75
3 Argumentos . 79
Verdad 81
Precisión 82
Generalidad 83
Delimitación 85
Parsimonia 87
Coherencia 89
Conmensurabilidad 89
Relevancia 91
4 Análisis ......................................... 95
Definiciones 96
Diseño de investigación frente a análisis de datos. 99
Criterios 102
Exactitud 103
Validez, precisión, incertidumbre 103
Validez intema/extema 105
Muestreo 107
Representatividad 108
Tamaño (A1) 109
Nivel de análisis 111
Acumulación 112
Estandarización 113
Replicación 114
Transparencia 116
Ajuste teórico 117
Validez deconstructo 117
Severidad 118
Partición 122
Parte II Descripción
5 Conceptos 127
La disyuntiva de la descripción.. 129
Conceptos 131
Criterios de la conceptualización 135
10
índice
Resonancia 136
Dominio 138
Consistencia 140
Fecundidad 142
Diferenciación 145
Utilidad causal 148
Estrategias de conceptualización 149
Examen de conceptos plausibles 150
Clasificación de atributos 151
Definición: tipos de conceptos 152
Mínimos 154
Máximos 154
Acumulativos 155
Análisis 157
6 Argumentos descriptivos 159
Indicadores 160
Síntesis 162
Tipologías 163
Tipología simple 163
Tipología temporal 163
Tipología de matriz 164
Taxonomía 165
Tipología de configuración 165
Tipología secuencial 168
Asociaciones 169
Tendencia 169
Red 169
Correlación 171
Conclusiones ........... 171
7 Mediciones 173
Criterios 176
Estrategias 180
Niveles de abstracción 182
Estructura 183
Agregación 184
Escalas 185
Objetivos 189
Enfoques: deductivo e inductivo.... 190
Etnografía 192
Encuestas y experimentos 195
Referencias cruzadas . 196
Relaciones causales 198
Corrupción: un ejemplo detallado 201
Test de validez ex post 208
11
Parte III Causación

8. Argumentos causales 213
Definiciones 215
Criterios causales 218
Claridad 220
Manipulabiliad.... 223
Separación 228
Independencia 229
Impacto 230
Mecanismo 231
9. .Análisis causales 235
Efectos causales 236
Variedades de efectos del tratamiento 237
Variedades de relaciones causales 242
Desviaciones de los efectos de tratamiento 243
Un gráfico causal elaborado 245
Criterios 248
Tratamiento 250
Exogeneidad 250
Variación 251
Simplicidad 251
Discreción 252
Uniformidad 253
Distribución uniforme 254
Fuerza 255
Proximidad 256
Escalabilidad 257
Resultado 257
Variación 257
Muestra 259
Independencia 260
Comparabilidad 263
10. Estrategias causales: X e Y . 275
Diseños aleatorizados . 277
Ejemplos . 281
Ejemplo I: discriminación en el empleo 281
Ejemplo 2: control de la corrupción 282
Ejemplo 3: campañas electorales históricas. 283
Ejemplo 4: género y liderazgo 284
Ejemplo 5: promoción de la democracia 286
Obstáculos 287
Validez intema 287
Validez externa 290
Conclusiones 292
Diseños xo aleatorizados....................... 292
12
índice
Diseños de regresión discontinua (RD) 293

Diseños de panel 298
Diseños transversales 301
Diseños longitudinales 303
11. Estrategias causales: más allá de Xe Y 309
Condicionamiento y confusión: lo básico 310
Confundidores 312
Estrategias de inferencia causal que van más allá de X e Y. 317
Condicionamiento de los confundidores 317
Variables instrumentales 322
Mecanismos 324
Resultados alternos 328
Heterogeneidad causal 333
Hipótesis rivales 334
Test de robustez 337
Razonamiento causal 339
Revisión del problema de la asignación 341
Más allá de la aleatorización 343
12. Diferentes aproximaciones a la inferencia causal 345
Observaciones del proceso causal 346
Causas de los efectos 351
Argumentos causales necesarios/suficientes 353
Análisis 355
Análisis comparado cualitativo (ACC) 360
ACC-cc 361
ACC-cd 365
Análisis 370
Parte IV Conclusiones
13. Unidad y pluralidad 381
Cualitativo frente a cuantitativo 382
Culturalismo frente a racionalismo 386
Modelos de causalidad 388
El modelo de la ley de cobertura 388
El modelo de resultados potenciales 389
Pluralismo y monismo 392
Una explicación unificada 395
14. Establecer los estándares 397
Beneficios 399
La investigación con múltiples métodos 400
Establecer los estándares 404
Los test de umbral 404
El mejor posible, una vez que consideramos todo. 407
13
Epilogo: Justificaciones 413

La práctica de la ciencia social 417
Apéndice: Algunas palabras sobre el estilo 421
Glosario 427
Notas 459
Bibliografía 501
índice analítico 555
14
I
Lista de figuras
4.1 Conjunto de datos transversales de series temporales 98

4.2 Fiabilidad (precisión) y validez 104
5.1 Intensión y extensión: compensaciones 141
6.1 Una taxonomía en formato de diagrama de árbol 167
7.1 Un diagrama de la medición 178
7.2 Histograma de la escala de democracia de «Polity» 189
8.1 Un gráfico causal simple 216
9.1 Un gráfico causal elaborado 246
9.2 Comparabilidad causal: dos ilustraciones simples 265
10.1 Ilustración: el diseño de regresión discontinua 294
11.1 Ilustración de los principios básicos de condicionamiento, 311
11.2 Una tipología de confundidores usando gráficos causales 313
11.3 Ilustración de un PGD complejo 319
11.4 El problema intratable de los colisionadores 321
11.5 Estrategia de la variable instrumental 323
11.6 Estrategias de mecanismos . 325
11.7 Resultados alternos 328
15
1 l.S Estrategia de heterogeneidad causal 332

11.9 Estrategia de hipótesis rivales 335
12.1 Relación entre las configuraciones y los resultados con ACC-cd 367
16
Lista de tablas
¡1
I
1.1 Esquematización del marco 38
2.1 Objetivos generales de la ciencia social 50
3.1 Argumentos: criterios generales 81
4.1 Análisis: criterios generales 102
5.1 Criterios de la conceptualización 136
5.2 Estrategias de conceptualización 149
5.3 Una clasificación de los atributos fundamentales: «Democracia» 153
5.4 Definición acumulativa: «Democracia» 156
6.1 Argumentos descriptivos 160
6.2 Una tipología de matriz: tipos de régimen 165
6.3 Una taxonomía en formato tabular 166
6.4 Una tipología de configuración: tipo ideal y categorías radiales 168
7.1 Estrategias de medición 181
7.2 Tipos de escalas 186
7.3 Una escala única con múltiples interpretaciones: «Competencia electo
ral» 188
8.1 Argumentos causales: criterios 219
17
9.1 Electos del tratamiento: una taxonomía no exhaustiva 241

9.2 Relaciones causales: una lista parcial. 243
9.3 Análisis causal: criterios 249
9.4 Violaciones de la comparabilidad causal: una lista parcial de confundi
dores 269
10.1 Estrategias de la inferencia causal 276
10.2 Una tipología de diseños aleatorizados 278
10.3 Una tipología de diseños de investigación longitudinales 304
12.1 Pautas causales necesarias y suficientes 357
12.2 Tabla de verdad ACC-cc 362
12.3 Codificación de pertenencia a factores causales y configuraciones
con ACC-cd 366
12.4 Tabla de verdad ACC-cd con puntuaciones de consistencia. 368
18
Prefacio
«Las ciencias naturales hablan de sus resultados. Las ciencias sociales hablan de
sus métodos.»
Henri Poincaré1
«En rigor, no hay metodología sin logos, sin un pensamiento habituado a pen
sar. Y en el momento en que se distingue claramente la metodología de la técni
ca, no se puede sustituir una por la otra. Se puede ser un maravilloso investiga
dor y manipulador de datos, y sin embargo seguir siendo un pensador
inconsciente... la disciplina en su conjunto está gravemente debilitada por la in
consciencia metodológica. Mientras más avanzamos técnicamente, más vasto e
inexplorado es el territorio que dejamos atrás.»
Giovanni Sartori2
El campo de la metodología de la ciencia social ha sido hiperactivo en las

últimas décadas. Los métodos, los modelos y los paradigmas se han multi
plicado y transformado a una velocidad vertiginosa, provocando muchísi
mo interés por un campo que antes estaba moribundo. Un signo del
aumento del estatus de este campo es la vituperación académica que inspi
ra. Términos como interpretacionismo, elección racional, postestructuralis-
mo, constructivismo, aleatorización, positivismo y naturalismo, han dejado
de ser denominaciones de lo que hacemos; ahora son palabras belicosas.
19
Mientras tanto, los venerables debates sobre el poder, la clase y el es

tatus parecen haberse debilitado. No es que ya no hablemos de estos te
mas o que ya no nos preocupen. Parece que hay más consenso en la aca
demia sobre los problemas políticos normativos del que había, por
ejemplo, en las décadas de los sesenta y los setenta. Ahora todos somos
socialdemócratas, para bien o para mal. Siguen existiendo debates, espe
cialmente sobre el papel de la raza, el género y la identidad. Sin embargo,
no parecen acompañados de una gran carga de rencor. Así, en las últi
mas décadas las desavenencias metodológicas han desplazado en gran
medida a los desacuerdos sobre cuestiones sustantivas como focos de
conflicto en las conferencias, las reuniones de profesores y los consejos
editoriales. La metodología, no la ideología, parece definir las divisiones
más importantes dentro de las ciencias sociales hoy día.3
Puede que los lectores molestos con este desarrollo también perciban
que hay demasiada metodología morando en las ciencias sociales hoy día
—demasiada discusión sobre cómo abordar una cuestión y demasiada
poca discusión sobre qué abordar. Tal vez apoyan la admonición de
C. Wright Mills: «¡Metodólogos, a trabajar!». Esto es coherente con la
demanda de una ciencia social centrada en los problemas, orientada a la
resolución de problemas de interés público más que a la aplicación de
métodos particulares.4
Y, naturalmente, surge la pregunta: ¿cómo se debe trabajar? Es poco
probable que esta pregunta se pueda responder de una manera puramen
te inductiva. V. 0. Key señala que «el método sin sustancia puede ser es
téril, pero la sustancia sin método es sólo fortuitamente sustancial»5. Po
dría decirse que la mejor manera de asegurar que la ciencia social se
oriente hacia los problemas es cultivar un profundo conocimiento de la
metodología y disponer de una gran caja de herramientas con muchos
métodos. Sólo de esta manera podemos asegurar que son problemas sus
tantivos de interés teórico y relevancia cotidiana los que guían nuestras
agendas en lugar de un búsqueda de temas para aplicar el método du
jour.
Las apuestas en nuestro actual Methodenstreit son realmente altas. Lo
que está en juego no es sólo quién progresa en las revistas de primer or
den y quién conseguirá puestos permanentes en las universidades, sino
también la forma y el enfoque de las ciencias sociales del siglo xxi. Los
que ganen nuestras guerras metodológicas actuales determinarán el tipo
de formación que se ofrecerá a los estudiantes, el tipo de asesoramiento
que se dará a los diseñadores de políticas y la clase de guía que se ofrece
rá al público lego. La ciencia social importa —quizás no tanto como qui
siéramos, pero sí que importa, y mucho. Y debido al lugar prominente
que ocupa en la determinación del curso de la ciencia social, la metodo
logía preocupa.
20
Prefacio
Este volumen
Este libro es una edición profundamente revisada y ampliada de un libro

que se publicó hace una década.6 El argumento principal sigue siendo
exactamente el mismo. Sin embargo, he reformulado el subtítulo y mu
chos argumentos de segundo orden, he añadido una buena cantidad de
material nuevo y he reescrito virtualmente todos los párrafos. Por todas
estas razones probablemente deba considerarse un libro nuevo. En cual
quier caso, espero que el lector encuentre en él una versión mejorada de
Social Science Methodology.
Antes de entrar en materia podría ser útil esbozar algunas diferencias
generales entre este volumen y otros que se encuentran en el mercado.
Primera, para mí la ciencia social es mi unidad principal de análisis.
En mi opinión, la ciencia social no es simplemente una rama de las cien
cias naturales o de las humanidades. Antes bien, es un campo de investi
gación distintivo que contiene una serie de normas y prácticas en cierto
modo distintivas. Así, más que centrarse en una disciplina particular, o 1
en la ciencia en general, este libro aborda todos los campos cuyo enfoque |
principal es la acción humana y las instituciones sociales. Entre estos
campos están la antropología, la arqueología, los negocios, las comuni
caciones, la demografía, la economía, la educación, el diseño medioam
biental, la geografía, el derecho, la ciencia política, la psicología, la admi
nistración pública, la sanidad pública, las políticas públicas, el trabajo
social, la sociología y la planificación urbana. Desde mi perspectiva, las
cuestiones metodológicas que afrontan estos campos son tan parecidas
que merecen un tratamiento unificado. Si este libro logra su cometido,
puede contribuir a restaurar un sentimiento de propósito común en estos
campos tan a menudo distanciados.
Segunda, intento hacerme oír entre las divisiones metodológicas, epis
temológicas y ontológicas actuales —interpretativista frente a positivista
frente a realista, cuantitativo frente a cualitativo, etc . Reconozco la per
sistencia de estas divisiones, pero no es mi intención cosificarlas. En ver
dad suelen ser difíciles de definir, y en este sentido son poco informati
vas.7 Por ejemplo, decir que un diseño de investigación es «cualitativo» o
«cuantitativo» es decir muy poco, porque muchas de las cuestiones sobre
la idoneidad metodológica no se refieren al mero número de observacio
nes (capítulo 13). Aquí, como en todas partes, las discusiones filosóficas A
abstractas suelen tener el efecto de oscurecer las cuestiones metodológi
cas, que devienen claras sólo cuando se enmarcan de una manera muy
específica y centrada (y luego no siempre encajan con exactitud en mar
cos más amplios).
Tercera, el libro aborda la metodología de la ciencia social sirviéndose
de la prosa más que de los números. Aunque el tema atañe tanto a la in-
21
vestigación cualitativa como a la cuantitativa, el lenguaje del libro es en

gran medida cualitativo. Un enfoque narrativo tiene ciertas ventajas en la
medida en que uno puede tratar mucho material de una manera relativa
mente concisa y exhaustiva. Es más, muchas cuestiones metodológicas
no son de naturaleza matemática; descansan en conceptos, teorías, dise
ños de investigación y otras cuestiones cuya mejor articulación es por
medio del lenguaje natural. Aun asi, me parece importante referirme a
procedimientos estadísticos cuando son relevantes para facilitar el tránsi
to entre el mundo de los números y el mundo de la prosa. Es de esperar
que el libro sea informativo y del agrado tanto de los que se han formado
en métodos cuantitativos como de quienes están más familiarizados con
la investigación cualitativa.8
Cuarta, el libro aborda el tema de la metodología de la ciencia social
de forma que sea útil para los que la practican. Debemos recordarnos a
nosotros mismos que tiene poco sentido estudiar metodología si los des
cubrimientos en este campo se comparten sólo con metodólogos. Más
que destacar las disputas con la literatura pertinente, he intentado situar
las en notas al pie de página o en apéndices, o las he omitido completa
mente. Los capítulos, los apartados y las tablas se organizan de modo
que permitan un fácil acceso y referencia. Los términos especializados se
evitan en la medida de lo posible, y se incluye un glosario muy completo
que trata de poner en orden el léxico.
Por último, el libro enmarca el tema de la metodología de la ciencia
social en un contexto intelectual e histórico general. Es útil recordar que
la mayoría de las cuestiones que hoy tienen interés para nosotros son ite
raciones de debates metodológicos clásicos. Muchas se abordaron ya en
1843. cuando J. S. Mili publicó la primera edición de su innovador Siste
ma de Lógica. Algunas se remontan incluso a Aristóteles. Podría decirse
que la introducción de nuevos métodos ha tenido relativamente poco im
pacto en la lógica fundamental del análisis de la ciencia social. Estas difi
cultades surgen también en diferentes circunstancias. Esto puede provo
car desaliento o alegría en función de nuestra orientación. Desde mi
perspectiva es otra muestra de que hay algo en el núcleo de las ciencias
sociales que distingue nuestra empresa de otras. En muy buena medida,
nuestros dilemas metodológicos nos definen.
«Dios —señalan Charles Lave y James March— ha decidido dejar los
problemas fáciles a los físicos».9 Lo que los autores quieren decir con
este provocador comentario no es que sea fácil practicar la física, sino
que los resultados en este campo enseguida se reconocen. Las implica
ciones de este hecho son trascendentales. El científico natural puede per
mitirse cultivar un método seguro de que sus resultados, si son significa
tivos. serán reconocidos. En cambio, el científico social tiene que
/
I justificar no sólo sus hallazgos, sino también su método.
22
Prefacio
Nuestra maldición y nuestra bendición están ambas implicadas en los

temas que estudiamos y en estudiar temas que son sujetos, en el más
completo sentido kantiano. Por consiguiente, los que trabajan en ciencias
sociales tienen problemas metodológicos más graves. Disentimos en más
puntos y en puntos más básicos y dedicamos mucho más tiempo a deba
tir estos puntos que nuestros primos de las ciencias naturales. En efecto,
la metodología es central para las disciplinas de las ciencias sociales en
un sentido en el que no lo es para las naturales. (En física o biología no
existe el campo de la «metodología».) Clark Glymour señala: «Es preci
samente en aquellos campos en los que no es frecuente obtener resulta
dos impresionantes y dominantes donde las consideraciones metodológi
cas tienden a ser más explícitas y las innovaciones en los métodos
tienden a producirse con más frecuencia».10
Últimamente hay ya datos disponibles sobre una amplia serie de te
mas, y las técnicas cuantitativas son más sofisticadas y están más accesi
bles para los investigadores legos (por medio de paquetes de datos fáciles
de manejar para el usuario). Sin embargo, el abismo entre lo que hace
mos y lo que queremos hacer no ha disminuido. Aún hay mucha distan
cia entre los «métodos»^y la «ontología».11
Creo que hacer un buen trabajo en ciencias sociales requiere algo más
que dominar una serie de técnicas. Requiere comprender por qué sirven
esas técnicas, por qué un enfoque dado puede ser más apropiado que
otro para una tarea determinada, y cómo un determinado enfoque puede
adaptarse a diferentes situaciones de investigación. El buen trabajo en las
ciencias sociales es necesariamente un trabajo creativo, y el trabajo crea
tivo requiere una formación amplia y sólida.12
El objetivo de este libro es, por lo tanto, explorar la lógica de la inves
tigación que guía el trabajo en las ciencias sociales, así como las razones
pragmáticas que, en mi opinión, fundamentan estas normas. Los méto
dos son inseparables de la metodología; difícilmente podríamos decir
que entendemos los primeros sin profundizar en la segunda. Así, este li
bro se ocupa de qué hacen los científicos sociales, de qué dicen que hacen
y de qué deberían estar haciendo. Estas tres cuestiones, juntas, constitu
yen la metodología de la ciencia social.
Agradecimientos
Arnab Acharya, Paul Dragos Aligica, Julián Arevalo, Neil Beck, Ste-
phen Bird, Taylor Boas, Bob Bullock, Tom Burke, Dave Campbell, Dino
Christenson, David Collier, Michael Coppedge, Pearson Cross, Pierre-
Marc Daigneault, Thad Dunning, Colin Elman, Tulia Falleti, Jon Far-
ney, Marshall Ganz, Gary Goertz, Kristin Goss, Steve Hanson, Andy
23
Harris. David Hart. Daniel Hidalgo, Peter Houtzager, Alan Jacobs, Mi-
chael Johnston. Elizabeth Kaknes, Orit Kedar, Markus Kreuzer, Doug
Kriner. Dan Kryder, Marcus Kurtz. David Lyons, Jim Mahoney, Mi-
chael Martin. Amy Mazur, Patrick Mello, Rob Mickey, Doug Mock, Jai
ra Nicolau. Nathan Nunn, Betsy Paluck, Paul Pierson, Howard Reiter,
Neal Richardson. Benoit Rihoux, Ingo Rohlfmg, Kate Sanger, Carsten
Schneider. Jay Seawright, Rudy Sil, Svend-Erik Skaaning, Theda
Skocpol. Drawn Skorczewski, Laurel Smith-Doerr, Craig Thomas,
John Williamson y Joshua Yesnowitz, expresaron generosamente comen
tarios y sugerencias a varias versiones de este manuscrito. Más informa
les. pero no menos útiles, fueron las conversaciones y los intercambios de
correos electrónicos con Nik Blevins, Ben Campbell, Russ Faeges, Garrett
Glasgow, Lincoln Greenhill, Cathy Harris, Samantha Luks, Jeff Mirón,
Jim Schmidt. Laura Stoker, Strom Thacker, Ned Wingreen y Chris
Winship.
He sido también afortunado al disponer de la intervención de los par
ticipantes en varias charlas de presentación de algunas partes de este ma
nuscrito: en la Universidad de Connnecticut, la Universidad de Boston,
la Universidad de California en Berkeley, la Universidad de Massachu-
setts Amherst. la Universidad de Virginia y en el Institute for Qualitative
and Multimethod Research (actualmente ubicado en la Maxwell School,
Universidad de Siracusa). El libro se ha visto muy mejorado por los co
mentarios de los revisores de Cambridge University Press y de las dife
rentes generaciones de estudiantes graduados que asistieron a mi curso
de métodos en la Universidad de Boston.
Debo una ronda especial de agradecimientos a Bear Braumoeller, Pa
trick Johnston, Evan Lieberman y David Waldner, por honrar el manus
crito con sus sensatas críticas. Su entusiasmo por los métodos y su am
plitud de intereses suscitaron muchas discusiones y más de una revisión.
Mi deuda con David Collier no sorprenderá a nadie.
Tardíamente, Adam Glynn y yo empezamos a trabajar juntos en enfo
ques alternativos a la inferencia causal, entendida a través de gráficos
causales. Su contribución a los temas que se abordan en el capítulo 11
merece un crédito especial. Le agradezco mucho su creatividad y sus vas
tos conocimientos.
Un último reconocimiento es para todas las obras de metodología pu
blicadas que me han inspirado. Como sería tedioso enumerar a todos los
autores por su nombre, la larga bibliografía y las extensas notas sirven de
expresión de mi gratitud.
24
1 Un marco unificado
«Aquellas ciencias, creadas casi en nuestros propios días, cuyo objeto de estudio
es el hombre mismo, cuya meta es directamente la felicidad del hombre, experi
mentarán un progreso no menos certero que el de las ciencias físicas, y esta idea
tan agradable, la de que nuestros descendientes nos sobrepasarán tanto en sabi
duría como en ilustración, ha dejado de ser una ilusión. Cuando meditamos so
bre la naturaleza de las ciencias sociales no podemos evitar ver que se basan,
igual que las ciencias físicas, en la observación_del hecho, por lo que deben se
guir el mismo método, adquirir un lenguaje igual de exacto y preciso, y lograr el
mismo grado dé”certidumbre.»
Nicolás de Condorcet1
«Hay... progreso en las ciencias sociales, pero es mucho más lento [que en las
ciencias naturales], y no está, en modo alguno, impulsado por el mismo flujo de
información y espíritu optimista. La cooperación es, en el mejor de los casos, es
casa; hasta los descubrimientos genuinos son a menudo oscurecidos por amar
gas disputas ideológicas. La mayoría de los antropólogos, economistas, sociólo
gos y politólogos ni se entiendenjii se animan unos a otros... Se dividen en
diferentes especialidades, defienden la precisión en laT’palabras dentro de su
propia especialidad, pero raramente hablan todos el mismo lenguaje técnico.
Una enorme cantidad incluso disfruta de la atmósfera de caos resultante, que
confunden con el fermento creativo.»
Edward O. Wilson2
25
El tema de este libro es el conjunto de disciplinas conocidas como cien

cias sociales (anteriormente llamadas ciencias morales o humanas). Por
ciencias sociales entendemos el estudio científico de la acción humana
centrada en los elementos de pensamiento y comportamiento que son, en
cierto modo, sociales (no biológicos). «El objeto de las ciencias sociales
—escribe Hans Morgenthau— es el hombre, no como producto de la na
turaleza. sino a la vez como la criatura y el creador de la historia y el
pensamiento mediante los que se expresan su individualidad y su liber
tad de elección»? Cuando la cultura importa más que la naturaleza, o
cuando algún elemento clave relativo a la decisión se tiene en considera
ción. estamos en el territorio de la ciencia social. (Esto no significa elimi
nar la consideración de las disposiciones genéticas; en realidad, forman
una activa agenda de investigación en las ciencias sociales hoy.4 Sin em
bargo. se presume que cualquier resultado de interés para las ciencias so
ciales no está totalmente determinado biológicamente; implica necesaria
mente un componente significativo de elección.5)
Al mismo tiempo, y claramente a diferencia de las humanidades, la
mayoría de los investigadores en las ciencias sociales se toman su nom
bre muy en serio. Aspiran a la ciencia, es decir, intentan estudiar la ac-
•* ción humana de una forma sistemática, rigurosa, fundamentada en la
í evidencia, refutable, replicable, generalizable, no subjetiva, transparen
te. escéptica, racional, frecuentemente causal y acumulativa.6 Una de
las premisas fundamentales de este libro es que el mundo social se pue
de estudiar de una manera científica (con la lista anterior de atributos).
Esto no significa que los instrumentos de la ciencia proporcionen el
único método de conocer el comportamiento humano. Antes bien, el
supuesto es que la ciencia ofrece una aproximación válida a la explica
ción y la comprensión y que el lugar adecuado de esta aproximación es
dentro de las disciplinas académicas conocidas como ciencias sociales
(capítulo 14).
Así, la ciencia social sigue la pauta que sugieren las dos palabras de su
nombre: ciencia y social. Aunque a menudo pueda parecer que estos dos
términos están en tensión, me gustaría proponer que esta tensión puede
ser productiva y generar comprensiones en nuestro campo que pueden
no ser perceptibles para un observador lego.
Así definida, la ciencia social abarca las disciplinas de la antropología,
la arqueología, los negocios, las comunicaciones, la demografía, la edu
cación, el diseño medioambiental, la geografía, el derecho, la ciencia po
lítica, la psicología, la administración pública, la sanidad pública, las po
líticas públicas, el trabajo social, la sociología y la planificación urbana,
junto a otras ramas de estas disciplinas. Sin duda, la etiqueta de ciencia
social no aúna a todos los que practican todas las disciplinas que acabo
de mencionar, porque algunos investigadores se ocupan de estudiar as-
26
pecios del comportamiento humano que son fundamentalmente biológi

cos (por ej. la psicología cognitiva) y otros no aceptan la finalidad de la
ciencia o tienen una idea diferente de la que aquí se sostiene. (Por ejem
plo, pueden cuestionar la posibilidad, o el rendimiento, de la generaliza
ción de la conducta humana.7)
Más adelante diré algo más sobre las objeciones a la ciencia social
(véase el capítulo 14). Por ahora hay que subrayar que mi comprensión
de la ciencia social no agradará a todo el mundo, y que los que no estén
satisfechos con el punto de partida probablemente no lo estarán con la
conclusión. Algunos pueden considerar mi perspectiva sobre la empresa
científica-social indebidamente positivista. Para otros puede no ser lo su
ficientemente positivista. (Mucho depende de la definición que se tenga
de ese vilipendiado término, positivismo, que se examina brevemente en
el glosario.)
El problema del pluralismo

Todo libro que se proponga abordar la amplia área de la ciencia social
debe afrontar las numerosas divisiones que abundan en estos campos y
las repercusiones de esas divisiones. Ya en 1938, John Dewey se lamenta
ba de que: «Uno de los principales obstáculos prácticos al desarrollo de
la investigación social es la división existente de los fenómenos sociales
en una serie de campos sin interacción entre sí, compartimentados y su
puestamente independientes».8 Puede afirmarse que la ciencia social no
es un único esfuerzo, sino muchos esfuerzos diferentes, cada uno con sus
propias peculiaridades, como asevera E. O. Wilson en el epígrafe de este
capítulo.
Las ciencias sociales están divididas, en primer lugar, en disciplinas se
paradas: la antropología, la arqueología, etc., aunque los académicos
cruzan ocasionalmente estas fronteras, estos cruces son arduos y, con fre
cuencia, problemáticos. Así, no sorprende que, en su mayor parte, los
antropólogos se asocien con otros antropólogos y los economistas con
otros economistas. Aunque sustentados en diferencias metodológicas, en
incentivos organizativos o en la simple inercia, losjicadémicos tienden a
agruparse con su propia tribu.
En segundo Tugar, las ciencias sociales están divididas en campos sub
disciplinarios. La American Political Science Association reconoce "ac
tualmente cuarenta y tantas secciones (por ej., federalismo y relaciones
intergubernámentalés,Teyes y tribunales, estudios legislativos, etc). Y la
American Economics Association, varios centenares. Encontramos por
todas partes divisiones parecidas. Esta compartimentación define los
cursos, los puestos de trabajo, las conferencias, las revistas especializadas
27
y la actividad académica en general. Establecen de facto las fronteras en

la vida académica en general.9
En tercer lugar, las ciencias sociales se dividen entre problemas funda
mentales específicos. Algunos estudian el Estado de bienestar, otros el
conflicto étnico y otros el comportamiento del mercado. La ciencia so
cial enfocada a los problemas presume que, como hay muchos proble
mas. cada uno con sus propios obstáculos y oportunidades y con su me
todología específica, hay muchas maneras de abordarlos.10
En cuarto lugar, las ciencias sociales se dividen en marcos teóricos,
cada uno con su propia metodología, implícita o explícita. ETcondúctis-
mo. la teoría del conflicto, la etnometodología, la teoría del intercambio,
i el institucionalismo, el interpretativismo, el lenguaje común, la elección
racional, el funcionalismo-estructuralismo, el interaccionismo simbólico,
la teoría de sistemas (la cibernética) y las escuelas de investigación aso
ciadas a Freud, Marx y Weber, ofrecen sus propios paradigmas de inves-
■ ligación.11
Finalmente y quizás más importante aún, las ciencias sociales se divi
den por sus métodos. La herramienta metodológica que uno emplea,
como, por ejemplo, los experimentos, el análisis de series temporales, el
análisis factorial, los modelos formales, la investigación por encuesta, la
investigación de archivos, la etnografía, el análisis comparado cualitati
vo. etc., sirve para definirnos en la academia y probablemente también
influye en cómo vemos el mundo social.12
Más allá de estas claras divisiones hay una división general entre los
«cuanti» y los «cuali», es decir, entre los que confían en el análisis esta
dístico y los modelos matemáticos y los que prefieren los métodos tradi
cionales de la lógica informal y el lenguaje natural. Esta división, apre
ciable durante más de un siglo, sigue provocando y desafiando. Como sin
duda sabe el lector, los cuantitativistas y los cualitativistas han desarro
llado diferentes lenguajes y diferentes enfoques sobre sus temas. Se han
acostumbrado a discutir entre ellos o a ignorarse.13
Las divisiones en las ciencias sociales contemporáneas son, por lo tan
to. profjindarycomplejas, e implican divisiones disciplinares, subdisci-
plinares y• las basadas enjosi problemas, JasleoríaTy los métodos? Débi-
do a la obvia fragmentación actual de las ciencias sociales, se ha
avanzado poco hacia una metodología pluralista de la ciencia social. Se
acepta lo que es, a todas luces, un hecho irrevocable en este campo. Ri
chard Miller afirma:
No hay ningún marco de principios empíricos que determine lo que cuenta

como explicación en las ciencias sociales. Antes bien, hay marcos específicos
para campos específicos. Cada marco específico es, a su vez,-muy“complejo, y
con componentes que sirven para muchas funciones. Si una hipótesis verdadera
28
explica, o si debe aceptarse como explicativa, a la luz de determinados datos,

viene determinado por los hechos específicos de, por ejemplo, el estudio de las
estructuras de poder o las decisiones de inversión.14
El pluralismo metodológico tiene un aire atractivo porque sugiere toleran

cia para con los enfoques que emplean otros estudiosos y pragmatismo a
la hora de seleccionar el propio enfoque sobre un tema. Para ser un buen
artesano intelectual, C. Wright Mills nos aconseja en un famoso pasaje:
Huid de todo procedimiento rígido. Sobre todo, desarrollad y usad la imagina
ción sociológica. Evitad el fetichismo del método y la técnica. Impulsad la reha
bilitación del artesano intelectual sin pretensiones y esforzaos en llegar a serlo
vosotros mismos. Que cada individuo sea su propio metodólogo; que cada indi
viduo sea su propio teórico; que la teoría y el método vuelvan a ser parte del
ejercicio de un oficio.15
Hay, evidentemente, muchas maneras de hacer ciencia social de calidad.

Los métodos pueden ser estadísticos o no estadísticos, de N elevado o N
pequeño, históricos o no históricos, y así sucesivamente. Las teorías pue
den ser útiles para un proyecto específico e inútiles para otro. Mucho de-
peñdé”de^la naturaleza de la evidencia disponible y de la naturaleza del
asunto que se investiga. Por lo tanto, no sería sensato proponer un méto
do o un marco teórico uniformes para toda la ciencia social, y ni siquiera
para una única disciplina. En todo caso, la especialización es necesaria
para que la ciencia social prospere. Así, la fragmentación actual de la
ciencia social es quizás una consecuencia feliz del hecho de que los dife
rentes académicos hagan lo que mejor saben hacer individualmente. Tal
vez debemos considerar la diversidad como un signo de madurez disci
plinar más que como un signo de confusión y desorden.
Para abordar esta cuestión voy a invocar la distinción entre los meto- >
dos y la metodología.16 Los primeros se refieren a un procedimiento espe- /
cífico para recoger y/o analizar datos. La segunda se refiere a las tareas,
las estrategias y los criterios que gobiernan la investigación científica, in
cluidas todas las facetas de la empresa investigadora. Mientras el método
se refiere a las elecciones particulares que se hacen en un estudio dado, la
metodología hace referencia a los rasgos más generales y persistentes de ¡
la empresa científica.
El pluralismo de métodos es fácil de justificar e imposible de evitar.
Sin embargo, hay razones para dudar de los beneficios del pluralismo
metodológico. Detrás de la diversidad de los métodos hay —o al menos
debería haber— un consenso metodológico.17
Consideremos algunas cuestiones prácticas que afrontamos en el tra
bajo cotidiano de la ciencia social. Por ejemplo, ¿cómo debemos elegir
nuestros métodos y marcos teóricos y, al mismo tiempo, cómo podemos
29
juzgar el producto de nuestras elecciones? Es evidente que estas cuestio

nes no están claras para muchos científicos sociales, ni siquiera para
aquellos que trabajan en el mismo subcampo. Charles Lindblom refiere
los hallazgos de una reciente revisión de la literatura en un subcampo pe
queño de la ciencia política. El progreso ha sido notable, dice el autor.
Pero Lindblorníéscübfeqíie:
esta pretensión no se expresa detallando los descubrimientos, sino alegando que
los científicos de la política habían «iluminado», «estaban preocupados por»,
«habían puesto un énfasis especial en», «desarrollado ideas, hipótesis y catego
rías analíticas», habían «codificado», «acentuado la importancia de», «examina
do el significado de», «situado en el contexto de», «tratado variables teórica
mente». «producido trabajo de calidad», «fructífero», «habían aplicado
conceptos y modelos a», «mejorado grandemente nuestra comprensión de»,
«habían abordado» y «aumentado el nivel de rigor».18
Las dificultades metodológicas del revisor son características de las ciencias

sociales en general. En muchas disciplinas —y, a fortiori, entre las discipli
nas-parece que no tenemos una manera clara de determinar el progreso.
Algunos estándares son aplicables sólo a campos o temas particulares,
pero tiene que haber también estándares que se puedan aplicar a la cien
cia social en general. Si no existiesen no podríamos tomar decisiones en
tre los diferentes métodos y marcos teóricos disponibles. ¿En qué se basa
el pluralista para elegir su método? No tiene sentido argüir que las nor
mas de la verdad deben ser específicas de un campo o que pertenecen a
una tradición particular. Porque si los estándares de la verdad fuesen
comprensibles sólo en el contexto de campos o tradiciones teóricas espe
cíficas. no habría modo alguno de decidir entre perspectivas rivales.
Cuando se considera que las tradiciones son inconmensurables, lo que
los estudiosos de un subcampo deciden creer se convierte, en virtud de
ese hecho, en verdad (siempre que los estudiosos no violen sus propias
normas). Esta forma de relativismo epistemológico no es lo que Miller,
Mills y otros pretendían, pero sí parece ser una conclusión necesaria si
queremos aceptar la afirmación de que las normas metodológicas son es
pecíficas de los campos.
Mientras cultivar una diversidad de herramientas es un hecho razona
ble, cultivar uñTdwersidaTdé-éstahdares metodológicos no lo es.19 Un
descubrimiento en sociología tiene que ser comprensible y apreciable
para aquellos que no son sociólogos; si no es así, no se puede aspirar al
estatus de verdad tal y como en general se entiende este término. «El ob
jetivo teórico de una disciplina genuina, científica o humanista, es alcan
zar la verdad», escribe E. D. Hirsch, «y su objetivo práctico es el consen
so de que probablemente se ha alcanzado la verdad. Así, el objetivo
práctico de toda disciplina genuina es el consenso —el logro de un con-
—————
30
senso firmemente fundamentado de que un conjunto de conclusiones es

más probable que.otros-conjunt.os>>.20 ~
Tampoco bastará concluir que las metodologías tienen que ser apro
piadas para el «contexto».21 ¿Qué y cuántos contextos se privilegiarán? Y
¿cómo puede uno justificar las elecciones que hacemos de las herramien
tas y los argumentos en un contexto dado? Es fácil decir, como tienden a
afirmar los investigadores inflexibles, que por la muestra se conoce el
paño (es decir, que podemos juzgar un trabajo de ciencia social sólo por
su producto, no por su método). Pero si la muestra está en el paño, ¿con
qué criterios debemos juzgar el paño?
No hay manera de eludir los estándares interdisciplinares generales si
la empresa'cie la ciencia social se demuestra útil para la humanidad. En
efecto, la razón de ser de una casta profesional de estudiosos, financia
dos públicamente, se desmorona si negamos los estándares transdiscipli
nares. Lógicamente, el consenso académico no siempre es posible. Pero
seguramente hay algunas cosas —la craneología (la frenología), por
ejemplo— que se pueden excluir sin problemas de la consideración. Pero
si la craneología es rechazada, para hacerlo hay que evocar algunos es
tándares transdisciplinares. Adviértase que si el conocimiento entre disci
plinas es verdaderamente inconmensurable, nos vemos obligados a dejar
la cuestión de la craneología a los craneólogos. Desde esta perspectiva, la
ciencia social se define simplemente por lo que hacen los científicos; el
hecho de ser un craneólogo se justifica por sí mismo.
Si bien podemos ignorar la metodología, no podemos decidir prescin
dir de ella. En la enseñanza, la investigación y el análisis del trabajo de
los colegas, los estudiosos deben separar el bien del mal, lo bello de lo
feo. Para hacerlo, los criterios generales del bien, de lo verdadero y de lo
bello entran necesariamente en juego. La ciencia social es un esfuerzo
normativo. Al igual que los miembros de cüaTquier otra comunidad, los
científicos sociales crean y aplican las normas, recompensando el buen
comportamiento y penalizando —o simplemente ignorando— el mal
comportamiento. Las funciones de vigilancia que hace la academia no se
pueden abolir invocando melancólicamente la diversidad. La ciencia so
cial tiene una oferta limitada de bienes —como trabajos, financiación,
revistas, libros y atención pública— que se pueden asignar de acuerdo
con cierta razón de ser, con la que esperamos estar todos de acuerdo.
Por último, en aras de una buena práctica, los autores de ciencias so- \
cíales tienen que ser capaces_de.coiiYersar entre sí.22 Los economistas in
teresados por la economía política deben estar al tanto —e intentar in
corporarlo en la medida de lo posible— del trabajo realizado en la
ciencia política. Y viceversa. '
Si bien la investigación interdisciplinar es una de las áreas de investi
gación más fértiles en las ciencias sociales hoy día, no es tan común
31
como debería ser. El problema que plantea el provincianismo académico

se deriva del hecho de que el mundo del esfuerzo humano, cuyo estudio
es la empresa de los científicos sociales, está notablemente interconecta
do. «El dominio de la verdad», señala Abraham Kaplan, «carece de fron
teras delirñitáda'sií^^^sdificil, por ejemplo, entender las características
déun sistemapolítico sin entender algo del sistema económico. Si los po-
litólogos y los economistas realizan su trabajo con un lenguaje diferente
y se guían por una concepción restrictiva del método, no tendrán el equi
pamiento intelectual para compartir sus ideas y hallazgos. Pueden no ha
ber leído las obras de los demás, y si lo han hecho, pueden no haberlas
entendido, incluso cuando trabajan con temas relacionados entre sí.
Los diferentes métodos y teorías que pueblan las ciencias sociales no
están actualmente unificados en una única metodología, lo que impide la
acumulación de conocimiento. Es obvio que el conocimiento no puede
progresar si no hay una base compartida sobre la que pueda descansar el
conocimiento.24 Las discusiones claras" requieren un marco de referencia
común; sin esta base compartida, son meramente enunciados de posi
ción. En esta última circunstancia, la ciencia degenera en un coro de afir
maciones y negaciones que recuerda la célebre clínica de la discusión de
Monty Python (referida al comienzo del capítulo 3).
Este libro no profundiza en los aspectos sociológicos de la ciencia so
cial. Aun así, merece la pena reflexionar brevemente sobre la ciencia
social como una actividad profesional con normas, hábitos, recompensas
y sanciones distintivas. Vale la pena citar literalmente los comentarios de
DoñáldCampbell en los que sintetiza la obra temprana de Robert Mer-
ton. La ciencia, escribe Campbell,
requiere una comunidad polemista de «buscadores de la verdad» Las normas

de la ciencia son explícitamente antiautoritarias, añtitradicionales, antirrevela-
cionistas y proindividualistas. La verdad aún no se ha descubierto. Las viejas
creenciasiejleben-cuestíonar sistemáticamente hasta que se reconfirmen con los
métodos de la nueva ciencia. La persuasióñ~debe limitarse a medios igualitarios
potencialmente accesibles para todos: demostraciones visuales y demostraciones
lógicas. La comunidad de científicos debe mantenerse unida centrándose en la
discusión, prestando atención a los argumentos y ejemplos de los demás, contro
lándose mutuamente y «manteniendo la honestidad de unos con otros», hasta
que surja un consenso operativo (sin embargo, la mutua aquiescencia para con
la creencia per se es rechazadacomo meta aceptable).25
Campbell señala que se trata de una acción difícil que requiere un equili
brio entre el individualismo (todos deben pensar por sí mismos y negarse
al comportamiento gregario) y el colectivismo (todos los miembros de la
comunidad deben centrarse en proBlémas~similares con el fin de hallar
un consenso).
32
Para que se entiendan los defensores de los diferentes métodos y teo

rías tenemos que proporcionarles un marco común en el que se puedan
evaluar los argumentos y la evidencia y se puedan comprender los dife
rentes métodos. Si todos tienen algo que aportar (como sostiene el di
cho), entonces deberíamos ser capaces de explicar cuáles son esas aporta
ciones. El asunto que se aborda en los siguientes capítulos es si existen de
hecho normas que puedan proporcionar una fundamentación a los jui
cios de idoñei3ad~eh“láFcíencías sociales. Por el momento es suficiente
señáláf~qüe~erargumeñto normativo en defensa de las normas es fuerte.
La inconmensurabilidádno'e's'feñtable.26 Én la medida en que los acadé
micos emplean marcos teóricos idiosincrásicos o específicos, somos
como isjasên un archipiélago sin barcos. El conocimiento no se acumu
lará y él progreso,'comoquiera que se defina, no avanzará.
A buen seguro, la necesidad de consenso varía en función de los te
mas. Los temas firmemente^ímb'ricádos en el pasado —es decir, temas
con pocas ramificaciones contemporáneas— quizás admiten más pers
pectivas. Pero, en general, los científicos sociales se deben esforzar por
llegar a un acuerdo en todos los temas, y cuanto mejor sea el acuerdo al
que lleguen —ceterís paribus— más útil tenderá a ser ese campo de estu
dio. Se trate de una declaración de guerra o de un impuesto sobre plus
valías, los ciudadanos y los diseñadores de políticas siempre buscan un
consenso académico. Un desacuerdo académico profundo sobre estas
cuestiones obstaculiza la acción pública. ¿Cómo podemos justificar el
gasto de millones de dólares de fondos públicos si una política en la que
se invierten esos fondos es cuestionada abierta y repetidamente por los
expertos? De hecho, el apoyo a los programas de bienestar social ha mer
mado debido a las sugerencias de destacados expertos políticos afirman
do que esos programas no lograban sus propósitos.27 De modo similar, el
apoyo a los sistemas de defensa antimisiles ha sido socavado por los tes
timonios de expertos cuestionando la viabilidad tecnológica de esas ar
mas visionarias.28 Los ciudadanos se resisten, con razón, a que su dinero
se utilice para pagar programas que se demuestran inútiles, un juicio
para el que confiamos en los expertos.
En estas circunstancias no resulta muy útil que la comunidad científi
ca social genere catorce perspectivas diferentes sobre los cupones o la de
mocracia (dos ejemplos clave que presentaremos más adelante y guiaran
en buena medida el análisis de este libro). Si este es el resultado final del
esfuerzo académico, no hemos ido mucho más allá de la mera intuición.
Quizás hayamos aumentado nuestra «comprensión» de estas cuestiones
al mirarlas desde tantas perspectivas diferentes. Sin embargo, si no tene
mos manera de decidir entre visiones rivales —si el disenso reina entre
los académicos que estudian estas cuestiones—, entonces poco tenemos
que ofrecer a los diseñadores de políticas o al público en general.
33
Metodología de las riendas sociales
Sin duda, el disenso académico puede ser también un reflejo de la na

turaleza incierta de los fenómenos. El consenso es útil sólo si está garan
tizado por la evidencia. Aun así, no hay ventaja alguna en cultivar la di
versidad per se. Se puede aplaudir la différance (un neologismo
derridiano) en las humanidades, pero, en mi opinión, no en las ciencias
sociales.29 Los especialistas en antropología, arqueología, negocios, co
municaciones, demografía, economía, educación, diseño medioambien
tal. geografía, derecho, ciencia política, psicología, administración públi
ca, sanidad pública, políticas públicas, trabajo social, sociología y
planificación urbana tienen que esforzarse por alcanzar un acuerdo.
Un marco unificado
Si hay buenas razones para buscar el consenso metodológico entre los di
ferentes campos, problemas y teorías de la ciencia social, ¿cómo cons
truir ese consenso? Y más concretamente, ¿cómo podemos elaborar un
marco útil para los investigadores que están aprendiendo su oficio?
Este libro es un esfuerzo muy sintético que se fundamenta consciente
mente en una abundante literatura sobre filosofía de la ciencia y en tex
tos de métodos de los últimos dos siglos. Su propósito es integrar las re
glas y normasmetodológicas existentes en un marco unificado-que es
conciso, preciso y completo. En la medida en que lo consiga, la narrativa
debefá”apárécer como un compendio de sentido común. Pero también
quiero hacer algunas puntualizaciones.Al igual qué todos los textos de
metodología, este libro es una reflexión y una argumentación sobre el
objeto de estudio.30 "
La investigación de naturaleza científica debe ser, a mi modo de ver,
acumulativa, basada en la evidencia (empírica), verificable, generalizable,
no subjetiva, replicable, rigurosa, escéptica, sistemática, transparente y
fundada en la argumentación racional. Hay diferencias de opinión sobre
si la ciencia cumple estos altos ideales o en qué medida lo hace. Aun así,
: son esos ideales a lo que en general aspiran los científicos naturales y so
ciales y los que contribuyen a definir la empresa de forma general y a dis-
' tinguirla de otros reinos.
Pero estos ideales son también muy vagos. ¿Qué significa exactamen
te ser «riguroso» o ser «racional»? El desafío que se nos plantea es re
formular estos ideales abstractos para hacerlos operativos. Esto requie
re cierta desagregación. Pero como el objetivo es proporcionar un
esquema unificador, la desagregación no puede ir demasiado lejos. Este
libro se enmarca, por lo tanto, en un nivel medio, entre las abstraccio
nes de la filosofía de la ciencia y las reglas específicas que definen va
rios métodos.
34
Mi enfoque se centra en la identificación de las tareas básicas de la

ciencia social, en una serie de estrategias para realizar esas tareas y en los
criterios asociados a cada tarea y estrategia. Todo esto se expresa siste
máticamente en la tabla 1.1 (las tareas están en negrita y las estrategias y
los criterios se etiquetan como tales). Adviértase que cada estrategia se
define también por un conjunto de criterios, aunque por lo general estos
criterios no se especifican en la tabla 1.1 por razones de espacio. En los
capítulos y tablas posteriores se ofrece una explicación más extensa,
como se indica en la última columna de la tabla.
El objetivo del libro es identificar las normas comunes que —implícita
o explícitamente— gobiernan la actividad de la comunidad de científicos
sociales. ¿Qué es lo que hace que una obra~de ciencia social sea verdade- )
ra, útil o convincente («científica»)? ¿Por qué preferimos un tratamiento
determinado de un tema y no otro? ¿Qué razones damos para aceptar o \
rechazar la publicación de un manuscrito? Estos son el tipo de juicios
fundamentales que definen la actividad de la metodología. Con estos jui- I
cios, espero identificar los hilos que tejen nuestras intuiciones metodoló
gicas en un marco relativamente unificado entre las diversas disciplinas
de la ciencia social.31
Siguiendo la organización de la tabla 1.1, voy a intentar resumir a
grandes rasgos los principales argumentos del libro. (Los lectores no de
ben inquietarse si la prosa no es tan clara como esperaban, porque todos
los conceptos aquí enumerados se explicarán mejor más adelante.)
Parte I: la primera parte del libro presenta elementos de la empresa de
la ciencia social que son de alcancé general.
El capítulo 2 empieza con un análisis de dos criterios que informan
toda investigación científica: (a) el descubrimiento y (b) la apreciación.
Luego doy algunos consejos para realizar la investigación de forma ex
ploratoria, en la que el objetivo es descubrir la pregunta y la hipótesis de
investigación. (Éste es el único apartado del libro que se aleja del marco
presentado en la tabla 1.1.)
El capítulo 3 esboza criterios que, en mi opinión, atañen a todos los
argumentos en las ciencias sociales: (a) la verdad; (b) la precisión; (c) la
generalidad; (d) la delimitación; (e) la parsimonia; (f) la coherencia; (g)
la conmensurabilidad; y (h) la relevancia.
El capítulo 4 se ocupa de los criterios relativos a la fase de la investi
gación correspondiente a la comprobación, es decir, al diseño de la inves
tigación y el análisis de los datos. Estos criterios se dividen en cuatro ca
tegorías: (a) la precisión; (b) el muestreo; (c) la acumulación; y (d) el
ajuste teórico.
Parte II: la segunda parte del libro se centra en la descripción, es decir,
en las proposiciones empíricas que responden a las preguntas qué, cómo,
cuándo, a quién o de qué modo.
35
El capitulo 5 se ocupa de los conceptos, los contenedores lingüísticos

con los que damos sentido al mundo. Arguyo que los conceptos empíri
cos en las ciencias sociales intentan lograr: (a) resonancia; (b) dominio;
(c) fertilidad; (d) diferenciación; (e) utilidad causal; y (f) operacionaliza-
ción (un tema que se pospone hasta el capítulo 7). Para lograr estos obje
tivos se desarrolla una estrategia general de conceptualización que parte
de un análisis de los posibles conceptos, continúa con una clasificación
de atributos para cada concepto elegido y termina con una de las tres
aproximaciones a la definición: mínima, máxima o acumulativa.
El capítulo 6 esboza varias estrategias de generalización descriptiva.
Arguyo que estos tipos de argumentos, en aras de su utilidad, se pueden
categorizar como: (a) indicadores; (b) síntesis; (c) tipologías; o (d) aso
ciaciones, cada uno de ellos con varios subtipos.
El capítulo 7 se centra en la tarea de la medición. Se pueden emplear
varias estrategias para realizarla. Defiendo que todas las estrategias
afrontan las siguientes elecciones y desafios: (a) niveles de abstracción
(alto, medio, bajo); (b) estructuras de medición/conceptos (teoría de con
juntos, aditiva, conjuntos difusos); (c) técnicas de agregación (lógica
booleana, ponderaciones); (d) escalas (nominal, ordinal, intervalo, ra
zón): (e) objetivos (agrupamiento, discriminación); (f) enfoques (deducti
vos, inductivos); (g) referencias cruzadas; (h) etnografía; (i) encuestas y
experimentos; y (j) relaciones causales.
Parte III: la tercera parte del libro se centra en la causación, es decir,
en los argumentos empíricos que responden a las preguntas por qué. (Las
preguntas cómo se sitúan en algún lugar entre la descripción y la causa
ción.) Este tipo de argumento plantea una relación generativa entre un
factor causal (X) y un resultado (Y).
El capítulo 8 empieza por introducir una definición de la causalidad y
examina la diversidad de argumentos causales. No obstante la diversidad,
arguyo que todos los argumentos de la ciencia social procuran cumplir cri
terios comunes, incluyendo: (a) la claridad, (b) la manipulabilidad, (c) la
separación, (d) la independencia, (e) el impacto y (f) el mecanismo.
El capítulo 9 aborda la cuestión del análisis causal. Sus aspectos se
pueden dividir en tres categorías: (a) el tratamiento, (b) el resultado y (c)
la muestra, cada una con múltiples criterios que se aplican a esa tarea.
Los capítulos 10 y 11 exploran varias estrategias específicas del análi
sis causal. Se dividen en tres títulos generales: (a) diseños aleatorizados,
(b) diseños no aleatorizados y (c) métodos que van más allá de X e Y,
cada uno con múltiples opciones. Los dos primeros se analizan en el ca
pítulo 10 y el último en el 11.
El capítulo 12, el último capítulo de la parte III, intenta mostrar cómo
el marco desarrollado en los capítulos precedentes integra diversas
aproximaciones a la inferencia causal.
36
Parte IV: la cuarta parte del libro elabora y defiende este marco. El ca
pítulo 13 regresa al problema de la unidad y la diversidad revisando el
debate cualitativo-cuantitativo, el debate culturalista-racionalista y el de
bate entre los paradigmas causales en liza.
El capítulo 14 reconsidera varias de las grandes preocupaciones:
cómo afronta el marco los conflictos entre las diferentes tareas, estrate
gias y criterios; cómo establece estándares razonables para la investiga
ción; y cómo pueden justificarse. Arguyo que las tareas, las estrategias y
los criterios resumidos en la tabla 1.1 son los que: (a) mejor cumplen los
objetivos expresados de la ciencia social (comprender la acción social de
forma científica) y (b) mejor guian el trabajo en la ciencia social de for
ma que tienda a ser útil para los diseñadores de la política y el público
lego.
Clarificaciones
Antes de seguir es necesario hacer algunas aclaraciones.
En primer lugar está el asunto de la extensión y el detalle. A algunos,
la tabla 1.1 les parecerá una lista de la compra indebidamente larga y
complicada. A otros les parecerá sin duda corta y reduccionista. De he
cho, se han escrito libros enteros sobre algunos temas a los que yo dedico
(puede parecer que bastante despreocupadamente) sólo una o dos pági
nas. No pretendo cerrar la discusión sobre estos temas. Lo que sí afirmo
es simplemente haber tratado este territorio lo más rigurosamente posi
ble en este nivel de análisis. Si se ha elegido un nivel intermedio de análi
sis es para disfrutar de los beneficios de la amplitud y la parsimonia, con
cierto sacrificio de la profundidad. Animo a los lectores interesados en
profundizar en los distintos temas a que sigan las pistas de las citas al fi
nal del libro.
En segundo lugar está la cuestión de cómo entender cada elemento de
la taxonomía. Los textos de metodología tradicionales han procurado
identificar las reglas categóricas que definen la buena investigación. En
cambio, yo considero que cada tarea y criterio es una cuestión de grado.
Hacer un descubrimiento, por ejemplo, no es una cuestión binaria (o se
descubre algo nuevo o no se descubre nada). Antes bien, toda investiga
ción —si merece la pena— tiene un elemento de novedad: dice algo nue
vo. Lo mismo podría decirse de las demás tareas yántenos que mencio
no en la tabla 1.1 (las estrategias tienden a ser categóricas por naturaleza,
aunque incluso aquí hay diferencias de grado).
37
Tabla 1.1 Esquematización del marco
I. GENERAL Tabla
Genérico
Criterios Descubrimiento; apreciación 2.1
Argumentos
Verdad: precisión; generalidad; delimitación; parsimonia; cohe
Criterios rencia; conmensurabilidad; relevancia 3.1
Análisis
Exactitud (validez, precisión, incertidumbre, validez externa/
interna); muestreo (representatividad, tamaño, nivel de análi
Criterios
sis): acumulación (estandarización, replicación, transparencia);
ajuste teórico (validez de constructo, severidad, partición)
4.1
II. DESCRIPCIÓN
Conceptos
Resonancia; dominio; consistencia; fertilidad; diferenciación;
Criterios
utilidad causal; operacionalización 5.1
Investigación de conceptos; clasificación de atributos; definición
Estrategias 5.2
(mínima, máxima, acumulativa)
Argumentos
Indicadores; síntesis; tipologías (simple, temporal, matriz, taxo
Estrategias nómica, configuracional, secuencial); asociaciones (tendencia,
red, correlación) 6.1
Mediciones
Criterios Fiabilidad (precisión); validez
Niveles de abstracción (alto, medio, bajo); estructura (de teoría

de conjuntos, aditiva, conjuntos difusos); agregación (lógica
boleana, ponderaciones); escalas (nominales, ordinales, de
Estrategias
intervalos, de razón); objetivos (discriminación, agolpamien
to); enfoque (deductivo, inductivo); etnografía; encuestas/
experimentos; referencias cruzadas; relaciones causales
7.1
DI. CAUSACIÓN
Argumentos
Criterios Claridad; manipulabilidad; separación; independencia; impacto;

mecanismo 8.1
Análisis
Tratamiento (exogeneidad, variación, simplicidad, discreción,
uniformidad, distribución uniforme, fuerza, proximidad, esca-
Criterios
¡abilidad); resultado (variación); muestra (independencia, com-
parabilidad) 9.3
38
Tabla 1.1 Esquematización del marco (continuación)
Diseños aleatorizados (pre-test/post-test, sólo post-test, post-test

múltiples, extensión, híbridos, cuatro grupos de Solomon, fac
torial); diseños no aleatorizados (discontinuidad de regresión,
Estrategias de panel, transversal, longitudinal); más allá de X e Y (condi
cionamiento en los confundidores, variables instrumentales,
mecanismos, resultados alternos, heterogeneidad causal, hipó
tesis rivales, test de robustez, razonamiento causal)
En tercer lugar está el problema de los conflictos entre las tarea.s, las_
estrategias y los criterios. Lograr idoneidad~en una dimensión puede im
plicar un sacrificio en otra dimensión: las compensaciones son ubicuas.
Esto significa que toda tarea, estrategia o criterio ha de comprenderse
con la advertencia ceteris paribtts. La parsimonia es deseable, permane
ciendo el resto constante. La coherencia es deseable, permaneciendo el
resto constante. Y así sucesivamente. Esto no significa que «todo vale»;
implica que varios enfoques sobre un tema dado suelen ser metodológi
camente justificables, lo que, a su vez, ofrece un fuerte argumento prima
facie a favor de la investigación con múltiples métodos. En cualquier
caso, la tarea del metodólogo es llegar a la mejor resolución posible del
conflicto entre las tareas, las estrategias y los criterios (capítulo 14).
En resumen, el propósito del marco es ofrecer una revisión relativa
mente parsimoniosa y comprensiva de las cuestiones que surgen en el pro
ceso del diseño y la evaluación de la investigación en ciencia social, de
forma tal que se afinen las intuiciones metodológicas, el trabajo sea más
reflexivo y la acumulación se logre con más facilidad. Todo posible acuer
do metodológico en ciencias sociales debe ser proporcionado por unas
bases en las que todos podamos (en mayor o menor grado) coincidir. En
mTopiñióñ,“éste marco ya está presente en nuestros juicios cotidianos so
bre el trabajo de calidad, íos argumentos fuertes y la evidencia sólida.
EiTcambio, río es probable que se llegue a un consenso por medio de
nuestra conversión a un único paradigma o método que inauguraría ese
estado paradisíaco conocido como «ciencia normal». No es probable que
nos despertemos una mañana haciendo todos teoría de juegos o herme
néutica. Por suerte, el acuerdo sobre teorías, modelos y métodos no es
necesario. De hecho, seguramente sena una insensatez Tjue todos los
científicos sociales persiguiéramos las mismas cuestiones o las persiguié
ramos de la misma manera.
Sin embargo, el conocimiento recogido con diversas herramientas se
podrá acumular si somos capaces de poner diversas evidencias juntas en
un marco común. El progreso es una meta realista en la medida en que
' comprendemos~que el progreso duradero suele hacerse más en pequeños
39
pasos que mediante saltos revolucionarios («paradigmáticos»). Si un

marco unificado no resolverá todas nuestras cuitas, al menos puede
apuntar el camino hacia un estilo de debate más productivo: donde los
argumentos se encuentren en un terreno común, donde las ventajas y
desventajas de los diferentes enfoques sobre un problema se puedan es
pecificar y valorar y donde se pueda apreciar la acumulación.
Exclusiones
Aunque general en relación con otros enfoques sobre el tema, el marco
presente no abarca todos los aspectos de la ciencia social. Permítaseme
mencionar varias omisiones.
Primero, las tareas, estrategias y criterios incluidos en la tabla 1.1 no
prestan una atención explícita a la inferencia^rerúc/íva. Por predicción
entendemos el pronóstico sobre el futuro y/o las predicciones específicas
en casos particulares (en el pasado, el presente o el futuro) derivadas de
modelos causales generales. Por supuesto, en la medida en que cualquie
ra de estas clases de inferencia se basa en modelos causales o descriptivos
generales, se podría afirmar que son ampliaciones de temas analizados
en este libro. Sin embargo, no voy a decir nada explícito sobre cómo ha
cemos inferencias predictivas.
Segundo, el marco se ocupa sólo periféricamente de los argumentos
centrados estrictamente en eventos o resultados simples (calificados, oca
sionalmente, de ideográficos, puramente descriptivos, de causa única o de
causa en el nivel del caso). Esto se deriva de la definición inicial de ciencia,
entendida como una actividad generalizadora.32 Es indudable que el cono
cimiento de eventos específicos puede ayudar a extraer conclusiones sobre
una población mayor de casos. Igual que una muestra grande de unidades
refleja una gran población, así podría hacerlo una muestra pequeña de una
sola unidad estudiada intensivamente. Como tal, la investigación mediante
v el estudio de caso se incluye en el ámbito de una ciencia generalizadora y, u
por lo tanto, en él ámbito de este volumen. Dicho esto, este volumen no I
profundiza demasiado en los estilos de inferencia causal y descriptiva basa-1
dos en casos, un tema que se aborda en otras publicaciones.33
Tercero, el marco no cubre preocupaciones pragmáticas, logísticas o
éticas. Con bastante frecuencia elegimoTun diseñcTde investigación por
que nos conviene más que otro o quizás porque es imposible hacerlo de
otro modo. Por ejemplo, podemos carecer de las habilidades lingüísticas
para estudiar otra cosa. Las barreras culturales o políticas pueden impe
dirle a uno reunir información adicional. La evidencia en sí puede ser es
casa. Las oportunidades de financiación pueden ser limitadas. Y, sin lu
gar a dudas, el tiempo siempre es limitado.
40
Las consideraciones éticas también pueden limitar nuestra capacidad

para desarrollar una solución a las dificultades metodológicas. Recorde
mos que la investigación social está sujeta a las mismas normas éticas
que gobiernan la vida cotidiana (por muy vagas que éstas sean). Ade
más, hay consideraciones que pertenecen específicamente a la investiga
ción realizada sobre sujetos humanos. Aquí, el efecto inmediato de una
investigación debe confrontarse con el efecto anticipado en el largo plazo
de esa misma investigación sobre el público general y en el curso de las
políticas públicas. En algunas ocasiones los beneficios en el largo plazo
superan los costes en el corto, pero en otras no es así. Por desgracia no
hay fórmulas claras para estos asuntos; esto explica el desasosiego que
acompaña al cometido de las Institucional Review Boards (IRB), encar
gadas de la difícil tarea de aprobar investigaciones sobre sujetos huma
nos en las universidades de todo el mundo.34
Este tipo de consideraciones prácticas no son metodológicas en el sen
tido más usual del término. Por ejemplo, difícilmente podemos argüir
que un diseño de investigación dado tiene más posibilidades de llegar a
la verdad porque es más barato, fácil o más ético. Ésta puede haber sido
la razón del éxito o el fracaso de un estudio, pero no el fundamento por
el que aceptamos o rechazamos una teoría. Si aparece otro investigador
con más tiempo y dinero, con más habilidades lingüísticas, con más acce
so a casos clave o con una solución para superar un obstáculo ético per
sistente, él o ella será capaz de construir un diseño mejor de investiga
ción. Esto último —la cglidad del diseño de investigación— es el asunto
del que primordialmente se ocupa este libro.
Sin embargo, el hecho de que la calidad del diseño de la investigación
está condicionada por realidades políticas, sociales, éticas y pecuniarias,
tiene que contar en último término a la hora de juzgar la contribución de
un estudio al conocimiento. Si no lo entendemos así nos encontraremos
estudiando sólo aquellos temas que son convenientes, poco éticos o ricos
en datos. Así, no es mi deseo menospreciar la importancia de las conside
raciones prácticas en la realización de la investigación social. Se desatien
den en este texto sólo porque apenas se puede decir nada sobre ellas en
un sentido general, y porque este tipo de constricciones son, en general,
obvias para el investigador.35 (Para otras reflexiones sobre este asunto,
véase el capítulo 14.)
Terminología
Es preocupante que el vocabulario asociado al tema de la metodología
esté lleno de ambigüedad. Términos clave como «positivismo», «cualita- \
tivo», «mecanismo», «experimento», «causalidad», «exogeneidad», «he- '
41
terogeneidad», «validez» e «identificación» significan diferentes cosas en

las diferentes tradiciones de investigación y en los diferentes contextos de
investigación. E incluso dentro de la misma tradición y el mismo contex
to pueden significar cosas diferentes parajistintas personas.36
Es más. debido al alto grado desolapamiento connotativo entre sinó
nimos próximos, casi siempre hay más de una manera de expresar un
pensamiento. La cuestión de la generalidad puede también articularse
como el alcance, la extensión, el dominión la amplitud, la validez externa,
la población, el rango, la escala o la importancia. Una variable puede
también ser un concepto, una condición, una dimensión, un factor, un
indicador, una medida, una métrica o una descripción unidimensional. Y
asi sucesivamente. Cada uno de estos términos tiene connotaciones lige
ramente diferentes y, en algunos contextos, muy distintas.
Un buen ejemplo de abundancia léxica nos lo ofrecen los trabajos re
cientes sobre la injerencia causal, entendida desde la perspectiva de la fi
losofía de la ciencia (por ejemplo, por David Lewis, John Mackie y Wes-
ley Salmón), desde la perspectiva del diseño de la investigación (por
ejemplo, por experimentalistas como Donald Campbell y sus colabora
dores). desde la perspectiva de la estadística (por ejemplo, por Donald
Rubin y sus colaboradores) y desde la perspectiva de los grafos causales
(por ejemplo, en Judea Pearl y sus colaboradores). Cada una de estas tra
diciones ha desarrollado un vocabulario muy especializado. Sin embargo,
todas se ocupan de un conjunto similar de cuestiones, de manera que po
demos encontrar una equiyalencia_general entre los principios de estas
tradiciones (que he intentado captar de la manera más parsimoniosa po
sible en la tercera parte del libro).
Más allá de estas cuestiones de terminología, hay que señalar que las
cuestiones metodológicas raramente son independientes y discretas. La
incorregible naturaleza de nuestro tema es su holismo: todo está entre
mezclado con todo. Así, aunque una tarea, una estrategia o un criterio se
puedan definir estrictamente en el texto, enseguida debe quedar claro al
lector que ninguna cuestión se entiende totalmente por sí sola. Su com
prensión adecuada nos demanda situar cada elemento en el ámbito gene
ral de la metodología de la ciencia social. Éste es, en sí, un sólido argu
mento a favor de un análisis integral y muy amplio y detallado que
permita espacio suficiente para analizar las interconexiones entre los te
mas. Sin embargo, se debe también alertar al lector del hecho de que,
igual que la masa para galletas, nuestro tema se puede subdividir de mu
chas formas. Es decir, las tareas, las estrategias y los criterios de la tabla 1.1
se podrían nombrar y organizar de otras formas.
Los que escriben sobre temas metodológicos están obligados a hacer
elecciones sobre qué términos subrayar y cuáles ignorar, y sobre cómo
definir los términos elegidos. Ningún léxico es sacrosanto.37 En mis elec-
42
ciones he dado preferencia a los términos y definiciones con potencial

para cruzar fronteras metodológicas y disciplinares y que dividen el tema
de forma coherente con las metas del marco propuesto. En ocasiones,
esto implica la adopción de un término desarrollado originalmente en un
campo especializado. (A veces me he visto obligado a acuñar un término
nuevo que no es moneda común.) En todo caso, he hecho todo lo posible
por establecer conexiones entre los diferentes léxicos. Cuando hay sinóni
mos próximos o definiciones rivales, he intentado clarificar estas simili
tudes y diferencias. Los términos importantes están en cursiva cuando se
definen en el texto. Y un glosario proporciona las definiciones de todos
los términos clave, advirtiendo de los sinónimos próximos.
A modo de conclusión hay que subrayar que la aparente arbitrariedad
de nuestro léxico metodológico no significa que las discusiones termino
lógicas carezcan de importancia. Al contrario, son indispensables, por
que la alternativa —un léxico puramente matemático para todas las
cuestiones metodológicas— no existe, y probablemente nunca sería ade
cuada para la tarea que nos ocupa. Confío en que las pequeñas discusio
nes sobre la terminología o la clasificación no impugnen la utilidad de
este marco.
Ejemplos
Debido a la opacidad de nuestro léxico metodológico, cualquier discu
sión sobre cuestiones metodológicas depende crucialmente de una provi
sión abundante de ejemplos específicos. Son estos ejemplos —del trabajo
que se ha realizado sobre un tema o del que podría realizarse sobre ese
tema— los que suelen servir para clarificar un tema.
Con los ejemplos que he elegido he intentado cruzar las fronteras dis
ciplinares para ilustrar la persistencia de varias cuestiones metodológicas
en las ciencias sociales. Por supuesto, las limitaciones de espacio impiden
la discusión de muchos ejemplos para cada argumento, de forma que los
lectores tendrán que intuir la relación del argumento con la obra en su
propio campo o subcampo. Con frecuencia he elegido antiguos estudios
«clásicos» que los lectores tienden a conocer, aunque hayan sido desban
cados por otros más recientes. La discusión sobre una obra particular no
implica suscribir sus hallazgos o métodos. Los ejemplos han sido elegi
dos para ilustrar cuestiones metodológicas específicas; eso es todo.
Para mantener la coherencia suelo regresar a dos ejemplos centrales:
la democracia y Xo^cupones. Estos temas son relevantes en muchas disci-
plinaTdefíáEiéncia social y han suscitado una buena cantidad de contro
versia académica. El primero ejemplifica el trabajo en el que la unidad de
análisis es muy grande (por ej. los estados nacionales) y el marco teórico
43
es igualmente grande. El segundo ejemplifica el trabajo sobre interven

ciones políticas discretas en las que las unidades de análisis son indivi
duos o pequeños grupos y el marco teórico es correspondientemente pe
queño. Estos dos temas, juntos, proporcionan suficiente alimento para la
ilustración metodológica. Lo que sigue es un análisis breve de estos com
plejos temas (para una explicación más exhaustiva el lector puede con
sultar las obras citadas abajo y el análisis a lo largo de todo el texto).
Democracia
La democracia es un tema familiar, pero también desconcertante. Los

académicos tienen dificultades para definir este concepto, e incluso tras
renunciar a dirimir los problemas de definición, persisten problemas de
medición. Así, hay cuestiones descriptivas que apenas se han resuelto: es
tamos seguros al identificar países que son muy autocráticos (por ejem
plo, Corea del Norte) y otros que son muy democráticos (por ejemplo,
Suecia): pero hay muchas discusiones sobre cómo conceptualizar mu
chos de los países que se sitúan entre estos dos extremos (por ejemplo,
Rusia, Turquía o Irán).38 Así las cosas, no sorprende que haya académi
cos que todavía lidien con las causas de la democracia (¿por qué algunos
países se democratizan y consolidan su democracia y otros siguen siendo
autocráticos o son sólo intermitentemente democráticos?)39 y con los
efectos causales de la democracia (¿el tipo de régimen afecta a los resul
tados políticos y los resultados de las políticas?).40
En relación con los efectos causales de la democracia, en varios luga
res del libro veremos una teoría conocida como la «paz democrática».
Esta hipótesis, que se remonta al ensayo de Immanuel Kant «La paz per
petua» (1795), propone que las democracias nunca libran guerras entre sí
(la versión determinista) o tienden mucho menos a hacerlo (la versión
probabilistica). Se han propuesto varias razones para esta supuesta «ley»
de las relaciones internacionales. No sólo su efecto causal sigue siendo
objeto de debate, también lo son los mecanismos que operan en él. Pero
hay una fuerte regularidad empírica y una serie de mecanismos posibles
que podrían dar cuenta de ella. Lógicamente, esta hipótesis ha suscitado
mucho interés entre los académicos y diseñadores de políticas.41
Cupones n X
La cuestión de los cupones es un fenómeno mucho más específico que el

tipo de régimen. Como tal, es más fácil de definir y medir, aunque es me
nos importante en términos teóricos (un toma y daca común en el traba-
44
jo de la ciencia social). Aun así, hay cuestiones descriptivas pendientes.

Varios estudios que proclaman ocuparse de los «cupones», a veces en
mascaran intervenciones políticas divergentes. Y la cuestión del impacto
político no se ha resuelto en absoluto.42
Los cupones suelen analizarse más en el contexto de la política educa
tiva, aunque son aplicables también a otras áreas políticas (por ejemplo,
la vivienda, la comida y la asistencia médica). Las teorías de los cupones
se centran generalmente en un modelo mercantil de provisión de servi
cios. Los defensores de los cupones escolares, empezando por Milton
Friedman43, creen que la mejor manera de mejorar la calidad de la edu
cación primaria y secundaria es introducir la competencia en el sistema
escolar, normalmente dominado por un único proveedor público. De ese
modo, la educación se sometería a los rigores del mercado y los padres (y
sus hijos) podrían elegir entre escuelas. Se afirma además que se puede
tener un mercado educativo sin sacrificar el ideal de la educación univer
sal a través de la mediación de los «cupones» proporcionados por el go
bierno que los estudiantes pueden canjear por la enseñanza en las escue
las de un distrito, sean públicas o privadas (aunque generalmente con
algunas condiciones y requisitos). Los defensores afirman que este siste
ma, si se instituye correctamente, mejorará la calidad de las escuelas,
aumentará el rendimiento educativo (medido, por ejemplo, con pruebas
normalizadas) y quizás también proporcione beneficios adicionales (por
ejemplo, satisfacción de padres y estudiantes, menores diferencias entre
las calificaciones de estudiantes blancos y negros, etc.). Los críticos lo
dudan.
Consejo al lector
Ante este libro un tanto extenso, quizás el lector quiera leerlo de forma
selectiva. Esto es aconsejable para aquellos que tienen una amplia y sóli
da formación y están más familiarizados con unos temas que con otros.
Estos lectores pueden hojear el índice detallado de contenidos para iden
tificar así los temas que les interesan.
La lectura selectiva también es adecuada para los aprendices de meto
dología de la ciencia social que tal vez deseen familiarizarse primero con
los elementos básicos y dejar para más tarde otras cuestiones más com
plejas, incluyendo las discusiones sobre la literatura. Así, espero que el li
bro sea accesible para todos los lectores: principiantes, intermedios y
avanzados.
Sin duda, la lectura atenta de sólo algunas partes del libro puede pro
vocar confusiones. En las partes II y III los temas están muy entremez
clados, por lo que es mejor abordarlos como un conjunto, no capítulo a
45
capítulo. Por lo demás, las cuatro partes del libro son acumulativas, apo
yándose cada una en las otras. Los criterios generales que se presentan
en la parte I se aplican tanto a las tareas descriptivas como a las causales.
Y, puesto que los argumentos causales se construyen sobre los argumen
tos descriptivos, los criterios expuestos en la parte II se aplican también a
la parte III.
Recuerden que la ciencia social es una empresa holística y que el obje
tivo de este libro es abarcar esa actividad de una manera razonablemente
integral. Los fragmentos y retazos de la metodología de la ciencia social
pueden no tener sentido —y pueden incluso confundirnos— separados
del contexto más amplio en el que se sitúan. Aquellos que decidan hacer
una lectura selectiva del libro deberán tener en cuenta esta advertencia.
Recursos adicionales para los lectores y profesores se encuentran en
linea en Cambridge University Press www.cambridge.org/gerring. Esto
incluye: (ajlas tablas y figuras del libro (en ficheros separados, para des
cargarlas e imprimirlas fácilmente); (b) una presentación en powerpoint
(para su uso en las clases); (c) preguntas, ejercicios, trabajos de clase y
consejos (para los profesores que quieran incorporar el texto a sus cursos
de metodología); y (d) programas para los profesores que han usado este
libro en sus cursos.
46
Parte I
General
2 Principios
«En mi carrera científica, que en breve cumplirá medio siglo de duración, he

sido cada vez más consciente de que el éxito en la ciencia, como el éxito en la
mayoría de las profesiones, no les llega tanto a los más talentosos, ni a los más
capacitados, ni a los más cultos, ni al más acaudalado de los científicos, sino al
mejor estratega y táctico. El individuo que es capaz de maniobrar con propiedad
en el mundo de la ciencia sin apartarse de un camino que regularmente le ofrece
la posibilidad de hacer descubrimientos, suele ser el que sobresale.»
Jack Oliver’
En términos generales, el objetivo de la ciencia es descubrir cosas nuevas 1

sobre el mundo y apreciar el valor de verdad de las proposiciones exis- '
tentes sobre el mundo. Consideremos los ejemplos del capitulo 1: la de
mocracia y los cupones. Queremos descubrir cosas nuevas sobre el proce
so de democratización y el impacto de los cupones en el rendimiento
escolar. Al mismo tiempo, queremos comprobar las teorías existentes so
bre estos dos asuntos. Así, la ciencia social podría entenderse como una
búsqueda doble: el descubrimiento y la apreciación, como se ha expresado
esquemáticamente en la tabla 2.1.2
Este capítulo empieza presentando estos objetivos para luego anali
zar sus implicaciones en las tareas metodológicas más específicas. El si
guiente apartado aborda el objetivo del descubrimiento mediante la ta-
49
i
!
¡
rea concreta de buscar una pregunta de investigación. Puesto que los

demás capítulos del libro suponen que se ha hallado una pregunta de in
vestigación —e incluso que probablemente se ha expresado una hipóte
sis especifica— el presente capítulo funciona como prólogo para el resto
del libro.
Tabla 2.1 Objetivos generales de la ciencia social ____

1. Descubrimiento (conjetura, exploración, innovación, formación de la teoría)
¿Es nuevo?
2. Apreciación (valoración, demostración, evaluación, justificación, pruebas,
comprobación, verificación/falsación)
¿Es falsable?
__ u
Descubrimiento
«Será poco valorado», dice Hume con su estilo característicamente afila-

o, «un autor que sólo nos diga lo que podemos aprender de las conver
saciones cotidianas en los cafés».3 Debemos apreciar un argumento y su
correspondiente análisis empírico que aporten algo nuevo a nuestra com
prensión de un tema. Una buena investigación es aquella que es innova
dora. que contribuye con algo nuevo —entendido normalmente con res
pecto a la hipótesis clave o a una teoría en general.
Sin duda, algunos «descubrimientos» no son verdaderamente nuevos,
o no son tan innovadores como pretenden serlo. En algunas ocasiones
os autores menosprecian los logros de otros, formulan su argumento
rente a una hipótesis nula ridicula (la falacia del «hombre de paja»),
exageran sus propios logros, o adoptan neologismos embotellando así un
vino viejo en botellas nuevas. Nuestro desprecio hacia varios tipos de
seu oinnovación confirma el meollo de la cuestión: la buena investiga-
r cion debe hacer avanzar las fronteras del conocimiento.
■ n esta búsqueda, los investigadores suelen verse obligados a adoptar
¿ un en oque exploratorio sobre el mundo. Se entra en un territorio nuevo o
se uscan en territorios establecidos nuevas pautas inesperadas (anóma
las). Se comprueban nuevas explicaciones o se inventan de la nada. El des
cu nmiento requiere una implicación crítica y agresiva con el statu quo.
* tv'° 7 caractenst*co las fases iniciales de la investigación. Pero es
. m jen a meta a la que aspiran los mejores investigadores, porque to-
; os quieren situarse en las fronteras del conocimiento. En palabras de un
cienti ico, «los únicos campos de la ciencia interesantes son aquellos
on e no sabemos todavía de qué se está hablando».4 En este sentido, to
dos somos siempre— principiantes.
50
2 Principios
Consideremos la cuestión de la democratización planteada en el capí

tulo 1. ¿Cómo y por qué se democratizan algunos estados y otros no lo
hacen (o son incapaces de sostener sus logros)? He aquí una pregunta
que no es fácil de responder —algunos podrían afirmar que no es trata
ble por una teoría general, pero es, indudablemente, una cuestión impor
tante.5
La innovación en el nivel descriptivo concierne a las maneras en las
que el tema general de la democratización podría conceptualizarse y
medirse de forma productiva. ¿Existe un momento crítico de transición
en el que se logra el proceso de la democratización? ¿Existe un punto de
consolidación más allá del cual la vuelta atrás es poco probable? ¿Hay
secuencias distintivas por las que discurre la democratización? ¿Cómo
definir la democracia y sus diferentes calificativos (democracia iliberal,
democracia electoral, autoritarismo competitivo)? Éstas son sólo algu
nas preguntas descriptivas que han preocupado últimamente a los aca
démicos.
En el nivel causal, los académicos se han centrado en las posibles pre
condiciones para lograr una democratización exitosa. ¿Son ciertos tipos
de regímenes autoritarios más propensos a democratizarse que otros?
¿La existencia de riqueza mineral (por ejemplo, petróleo o diamantes) en
un país hace menos probable la democracia? ¿En qué medida la expe
riencia colonial de un país determina su propensión al logro y manteni
miento de una forma democrática de gobierno? ¿Cuánto influye (si influ
ye) el desarrollo económico en los resultados democráticos/autoritarios?
En un sentido más general, podemos identificar algunos tipos caracte
rísticos específicos de innovación causal. En algunas ocasiones, un nuevo
factor, X, se propone como causa que contribuye a un resultado bien es
tudiado, añadiendo una nueva variable a los modelos existentes. Esto
describe la mayoría de los ejemplos enumerados en el párrafo anterior.
Menos común es el eclipse teórico de las teorías existentes sobre Y con
un marco causal nuevo. Así, Daron Acemoglu y James Robinson propo
nen entender la democratización como una lucha distributiva entre los-
que-tienen y los-que-no-tienen.6 Un tercer tipo de reformulación causal
es remontarse desde un factor causal establecido, X, a alguna causa pre
via (X}~) que explica X, y por lo tanto Y (reformulando X como mecanis
mo causal). Así, se podría argüir que las circunstancias geográficas (por
ejemplo, el clima, la calidad del suelo, los vectores de las enfermedades,
el acceso a puertos de aguas profundas y los ríos navegables) afectaron a .
las pautas de la colonización y la extracción de recursos, con efectos du
raderos en la distribución de la riqueza y el poder y, en última instancia,
en la propensión de un país a democratizarse.7 El cuarto tipo de innova
ción se centra en los mecanismos causales que hay en una relación con
solidada X/Y. Así, se ha dedicado mucho trabajo a los vínculos causales
51
Metodología de (as riendas sociales
entre la riqueza de recursos y el gobierno autoritario. Michael Ross lo re

sume así:
El «efecto del rentista»... sugiere que los gobiernos ricos en recursos usan tipos
impositivos bajos y relaciones de patronazgo para reducir la presión hacia una
mayor rendición de cuentas; el «efecto represión».... implica que la riqueza de
recursos retarda la democratización al permitir a los gobiernos incrementar los
fondos para la seguridad interna; y el «efecto modernización».... implica que el
crecimiento basado en la exportación de petróleo y minerales no provoca los
cambios culturales y sociales que tiende a producir el gobierno democrático.8
Un estudio que se centra en los mecanismos causales culmina típicamen

te en una nueva explicación de por qué X causa Y (en este caso, por qué
existe «la maldición de los recursos»). Aunque no logre descubrir ningún
mecanismo causal verosímil, ese estudio puede servir también para inva
lidar la hipótesis entera. El quinto tipo de innovación se centra en la po
blación de una inferencia (su amplitud o alcance). Se podría argüir que
la conexión entre la riqueza de recursos y el autoritarismo es aplicable
sólo al mundo en vías de desarrollo y no a los países industriales avanza
dos (por ejemplo, a Noruega). O se podría intentar extender el ámbito de
la teoría para aplicarla a periodos de tiempo diferentes (por ejemplo, las
ciudades-estado griegas) o a fenómenos diferentes (la gobemanza corpo
rativa).
Obviamente, hay muchas maneras de innovar, lo que equivale a decir
que hay muchos tipos de descubrimientos. Esto se debe a que hay mu
chos tipos de teorías, y cada teoría tiene múltiples partes —una cuestión
que intentaremos explicar en los siguientes capítulos.
Apreciación
El segundo objetivo general de la ciencia es asegurar que el valor de ver
dad de las proposiciones sobre el mundo se puede comprobar con rigor.
«El criterio para otorgar estatus científico a una teoría es su falsabilidad,
su refutabilidad o verificabilidad», afirma Karl Popper.9 Este proceso, a
diferencia del objetivo del descubrimiento, ha de realizarse conforme a
varias reglas. De lo contrario nunca seremos capaces de lograr un con
senso sobre nada, y el objetivo de la verdad (que presume la posibilidad
de alcanzar un consenso) desaparecerá. Afortunadamente, el proceso de
la apreciación se presta más a seguir principios generales que el proceso
del descubrimiento. Y esto, a su vez, contribuye a explicar por qué ha
sido una preocupación constante de los metodólogos. (Constituye vir
tualmente todo el campo de la metodología tal y como se concibe tradi
cionalmente.)
52
2 Principios
Al respecto de la construcción de argumentos, puede ser apropiado

empezar repitiendo una vieja historia (quizás apócrifa) sobre la defensa
de una tesis doctoral en física. Al final del proceso, uno de los examina
dores censuró al desdichado doctorando con la siguiente puntualización:
«Ésta es la peor tesis que he leído. Ni siquiera está equivocada».
La señal de una proposición no falsable, señala Popper, es que vir
tualmente «cualquier conclusión que nos guste se puede derivar de
ella».10 Puede ser verdadera por definición, pero no es verdadera de
acuerdo con los criterios que se pueden someter a comprobación empí
rica. Popper expresó la crítica de que una serie de teorías harto influ
yentes, incluyendo el marxismo y el freudianismo, padecían de esta in
suficiencia fatal. No podían ni probarse ni desaprobarse. No eran ni
acertadas ni equivocadas.
En realidad, el marxismo y el freudianismo siguen aún con nosotros,
junto al weberianismo, el realismo (una teoría de las relaciones interna
cionales), la elección racional y muchos otros marcos teóricos dificiles-
de-apreciar. Igualmente, en las ciencias naturales persisten explicaciones
como la teoría de cuerdas, a pesar de su aparente no falsabilidad. Podría
parecer que los marcos ambiguos y amplios son útiles en algunas ocasio
nes, incluso cuando no se pueden apreciar claramente. De hecho, la apre
ciación no es en modo alguno el único criterio de un buen argumento.
Dicho esto, existe el reconocimiento casi universal de que la falsabilidad
es un ideal virtuoso, un ideal por el que luchar incluso cuando las condi
ciones no parecen ser propicias.
Popper también reconoció que la falsabilidad no es una cuestión dico-
tómica (una cosa u otra), sino una cuestión de grado. Algunas teorías
son más falsables que otras. De hecho, ninguno de los ejemplos mencio
nados antes son totalmente resistentes a la refutación empírica. E incluso
las teorías más fáciles de tratar ofrecen cierta resistencia.
En general, un argumento es más falsable que otro en la medida en
que es operacional, parsimonioso, de alcance general (ofrece un campo
extenso para la comprobación empírica), está delimitado (de forma que
la población de una inferencia sea clara y defendible), es coherente (in
ternamente consistente), es claro respecto de los contrafácticos y las
comparaciones, y se basa en tan pocos supuestos como es posible. Sur
gen cuestiones adicionales durante la fase investigadora de la comproba
ción de la teoría. Por ejemplo, uno tiende más a creer en un resultado si
se ha mantenido una sólida «partición» entre la construcción del argu
mento y su comprobación subsiguiente; esto asegura que hay poco espa
cio de maniobra para ajustar el argumento de modo que encaje en los re
sultados de una comprobación o para ajustar la comprobación de modo
que encaje en la hipótesis. Las comprobaciones buenas son «rigurosas»;
las malas son permisivas. Con respecto al análisis causal, las comproba-
53
ciones más rigurosas son normalmente de naturaleza experimental. Y así

sucesivamente.
Una gran riqueza de factores —muchos más de los que Popper consi
deró explícitamente— contribuye al rigor con el que se aprecia una hipó
tesis. Exploraremos este asunto en capítulos posteriores. Algunos de es
tos criterios son intrínsecos a la estructura formal del argumento; otros
están relacionados con los procedimientos usados para comprobar ese
argumento.
Compensaciones
Se podría decir que todas las tareas, estrategias y criterios presentados en

los capítulos restantes son maneras de lograr o evidenciar ya un descu
brimiento. ya una apreciación. Estos objetivos primordiales informan
toda nuestra empresa metodológica.
Sin embargo, lo que complica la situación es que estos objetivos me
todológicos suelen estar en tensión unos con otros. Por un lado, a os
investigadores se les anima a buscar lo desconocido. Esto requiere una
aproximación exploratoria al mundo empírico, porque no hay ningún
procedimiento sistemático para descubrir cosas nuevas. Y cuanto mas
nueva es la cosa (cuanto más revolucionaria), menos sujeto a reglas esta
ráel procedimiento. Paul Feyerabend lo explica muy convincentemente.
La idea de un método que contenga principios firmes, inalterables y absoluta

mente obligatorios que rijan el quehacer científico tropieza con dificulta es con
siderables al ser confrontada con los resultados de la investigación histórica.
Descubrimos entonces que no hay una sola regla, por plausible que sea, y por
firmemente basada que esté en la epistemología, que no sea infringida en una
ocasión u otra. Resulta evidente que esas infracciones no son sucesos acci en a
les, que no son consecuencia de una falta de conocimiento o de atención que pu
diera haberse evitado. Por el contrario, vemos que son necesarias para e progre
so. En realidad, uno de los rasgos más llamativos de las recientes discusiones en
historia y filosofía de la ciencia consiste en la toma de conciencia de que sucesos
y desarrollos, tales como el descubrimiento del atomismo en la antigüe a , a
revolución copemicana, el surgimiento del atomismo moderno (teoría cinética,
teoría de la dispersión, estereoquímica, teoría cuántica) o la emergencia gra ua
de la teoría ondulatoria de la luz, sólo ocurrieron o bien porque algunos pensa
dores decidieron no someterse a ciertas reglas «obvias» o porque las violaron m
voluntariamente."
El proceso del descubrimiento es inherentemente antinomotético —o,

como diría Feyerabend, anárquico.12 Desde esta perspectiva, la metodo
logía científica tradicional respeta demasiado los constructos y métodos
54
2 Principios
existentes. Los científicos necesitan salir de la jaula de hierro de la cien

cia normal —a un lugar donde los procesos de exploración y de compro
bación están mutuamente imbricados y son difíciles de separar. Aquí, las
teorías no son siempre limpia y adecuadamente falsables.
Por otro lado, a los investigadores se les anima acertadamente a desa
rrollar proposiciones arriesgadas y comprobaciones difíciles, a fin de fa
cilitar la tarea de la apreciación. He aquí el momento conservador de la
ciencia, personificado por Karl Popper. Hay aquí un montón de reglas (o
al menos de tareas, estrategias y criterios generales) que guían nuestra in
vestigación.
Para el falsacionista, los mayores pecados de la ciencia social son los
relacionados con la comisión, no con la omisión. La virtud de la ciencia
de calidad es guardar silencio cuando la verdad es ambigua —no decir
más de lo que sabemos con un nivel razonable de certidumbre. (De he
cho, Popper aconseja no usar el término «verdad» en todas las circuns
tancias.) Sólo de esta manera se distinguirán los productos de la ciencia
de las conjeturas, del repertorio de los políticos, periodistas y pronostica-
dores de café. Sólo si el terreno está limpio de sinsentidos podrá darse el
lento y largo proceso de la acumulación científica.
Muchos científicos sociales han adoptado (al menos retóricamente)
esta idea austera y taciturna de la ciencia. Aquí, el trabajo primordial del
metodólogo es guardar vigilante las puertas de la ciencia, asegurándose
de que no se admite a nadie sin autorización. Contra la ortodoxia, yo in
sisto en que al menos la mitad de la batalla de la ciencia reside en identi
ficar problemas interesantes que resolver. En efecto, encontrar la pregun
ta correcta puede ser más importante a la larga que encontrar la
respuesta correcta a hipótesis menos interesantes. Desde esta perspecti
va, la ciencia de calidad no es sólo una cuestión de rigor, sino también de
perspicacia (o, si prefieren una metáfora más religiosa, una cuestión de
inspiración). Adviértase que el desarrollo teórico podría no ocurrir, u
ocurrir sólo muy lenta y detenidamente, si los investigadores no se quitan
sus anteojeras popperianas —limitándose a hipótesis previas y compro
baciones empíricas de sí/no. Una metodología constructiva debe capaci
tar a los investigadores para reflexionar sobre los problemas de formas
nuevas; no debe enfocarse estricta y obsesivamente a la comprobación.
A buen seguro, hay mucha munición para el protagonismo en ambos
campos. Están los que perciben que hay demasiada comprobación y que
no hay suficiente teoría (o no demasiada teoría de calidad), y que nues
tros esfuerzos deben centrarse, por lo tanto, en esta última. Y están tam
bién los que perciben que hay demasiada teoría (o demasiadas teorías) y
que no hay suficiente comprobación, y que nuestros esfuerzos se deben
concentrar en esta última. El lado en el que nos situemos en este debate
depende de nuestra confianza en cada aventura. Si confiamos en nuestra
55
capacidad para construir teorías mejores y somos correspondientemente

escépticos acerca de nuestra capacidad para comprobarlas, nos adscribi
mos al campo del descubrimiento. Si, en cambio, no nos creemos capaces
de lograr avances teóricos duraderos y somos relativamente optimistas
para idear nuevas y mejores comprobaciones, nos hallamos en el campo
de la apreciación. Este no es un debate que haya que resolver; simple
mente lo comento para que el lector lo tenga en cuenta.
La pregunta más difícil y seguramente la más importante es en qué
medida debemos ser innovadores a la hora de elegir el tema. Una vez
más, hay dos posiciones con sus argumentos a favor y en contra. Algu
nos se lamentan de la falta de ambición teórica de la generación actual
de académicos, presumiblemente en comparación con la generación an
terior de «grandes pensadores». Adam Przeworski escribe lo siguiente:
La entera estructura de incentivos de la academia en los Estados Unidos va en
contra de que asumamos grandes riesgos políticos e intelectuales. Los estudian
tes graduados y los profesores ayudantes aprenden a empaquetar sus ambicio
nes intelectuales en artículos publicables por un puñado de revistas y a evitar
todo lo que podría parecerse a una postura política. Este profesionalismo sí
hace avanzar el conocimiento de preguntas formuladas de forma estrecha, pero
no tenemos foros para divulgar nuestro conocimiento fuera de la academia.13
Probablemente es cierto que los miembros de la generación actual son

más propensos a aceptar las normas y las teorías existentes de la discipli
na que la generación de la década de los sesenta, lo que quizás los califi
ca como menos ambiciosos en términos de la teoría. Probablemente es
tán menos implicados políticamente, aunque esto no está necesariamente
relacionado con la curiosidad intelectual. Por otra parte, podríamos ar
güir que esta generación ha concentrado sus energías de forma más pro
ductiva que las generaciones anteriores. En efecto, muchas de las «Gran
des Teorías» propuestas en las ciencias sociales —entonces y ahora— son
difíciles de asimilar. Si una teoría no es falsable, o no combina bien con
otras teorías (ya subsumiéndolas, ya ocupando su lugar junto a ellas),
tiene pocas probabilidades de hacer progresar un campo.
En suma, la pregunta de en qué medida debemos ser ambiciosos teóri
camente es difícil de responder en sentido general. Uno debe ser exacta
mente tan ambicioso como pueda ser, sin desconectarse de la realidad
empírica que está investigando. Los objetivos de la innovación teórica
deben estar en equilibrio con la búsqueda de la apreciación teórica.
De hecho, desde la perspectiva de Popper, los objetivos del descubri
miento y la apreciación son totalmente compatibles. Las «conjeturas
atrevidas» se pueden combinar con los esfuerzos extenuantes de la «refu
tación».14 En algunas ocasiones esto es posible, y en la medida en que lo
es, define el summum bonum de la ciencia.
56
2 Principios
Aun así, la tensión entre el descubrimiento y la apreciación parece

bastante más intrínseca e irresoluble de lo que Popper estaba dispuesto a
admitir. Consideremos que si nuestra motivación principal es el descubri
miento de nuevas teorías, los investigadores deben tener la libertad de
proponer teorías generales y abstractas sin hipótesis claramente compro
bables. En la medida en que se generan y comprueban las hipótesis, este
proceso de comprobación debe ser abierto —con numerosas hipótesis y
un proceso continuo de adaptación entre la teoría y la evidencia— antes,
durante y después de la realización de la investigación. No sorprende que
la investigación del tipo «estilo casero» no sea muy convincente, aunque
pueda ser muy provocativa y pueda conducir, a los que la sigan, a de
mostraciones más convincentes de la verdad.
En la medida en que nuestra motivación primordial es comprobar el
valor de verdad de una teoría existente, nuestro modo de proceder debe
ser diferente. Aquí, una teoría debe enmarcarse de la forma más precisa
posible para que produzca predicciones específicas y comprobables. Los
procesos del descubrimiento y la apreciación de la teoría deben separarse
todo lo posible, de forma que haya poco espacio para intervenciones
subjetivas en el proceso de comprobación, o para alteraciones post hoc
de la teoría. En todos los sentidos, el diseño de la investigación y la teo
ría debe ser «arriesgado», lo que proporciona a la teoría muchas opor
tunidades de fracasar. El problema con este estilo de investigación es
igualmente obvio. Si se toman seriamente las instrucciones de Popper
constreñirán severamente el tipo de teorías admisible para el canon de la
ciencia social. Además de sobre el marxismo y el freudianismo, condena
dos explícitamente por Popper, este estilo de investigación hace que sur
jan dudas sobre las teorías weberianas, la teoría del capital social, los
modelos basados en la evolución, las teorías de las relaciones internacio
nales (por ejemplo, el realismo, el liberalismo, el idealismo/constructivis-
mo), los modelos de la elección racional, así como sobre muchas otras.
En las ciencias naturales (el territorio de Popper), la demanda de falsabi-
lidad presumiblemente nos obliga a rechazar la teoría de cuerdas y otros
componentes altamente abstractos y difícilmente comprobables de la físi
ca moderna.
Los popperianos podrían responder que, cualquiera que sea el desor
den del proceso del descubrimiento, las teorías, en algún momento, deben
expresarse de forma falsable. Esto sugiere directamente la pregunta: ¿en
qué momento? Adviértase que la mayoría de los marcos teóricos mencio
nados anteriormente han existido durante un siglo o más y no parece
que estén cerca de una comprobación empírica definitiva. De hecho, las
teorías generales raramente se hunden cuando fracasan sus comproba
ciones empíricas. Estos fracasos, en contra del pensamiento de Popper,
normalmente se pueden explicar convincentemente (quizás por los ajus-
57
tes ad hoc de la teoría), o se pueden tratar como parte del término de

error.15
Digámoslo con una frase de Douglas MacArthur: las viejas teorías
nunca mueren, pero, en ocasiones, desaparecen. Específicamente, en
cuentran su muerte cuando se propone una teoría más convincente que
atrae a los investigadores que estaban comprometidos con la teoría con
solidada. Gradualmente, la teoría B eclipsa a la teoría A. El proceso es
lakatosiano (se refiere a grandes marcos teóricos) más que popperiano
(implica proposiciones de alcance medio). A este respecto, el progreso en
el nivel teórico y en el empírico es inseparable. Y a ese respecto también,
puede parecer que es preferible que nuestras energías se concentren más
en el componente generador de la ciencia que en el de la falsabilidad-
verificabilidad. Marx, Freud y Weber, no los miles de científicos sociales
que dedican sus vidas a comprobar como trabajadores de una cadena
teorías de alcance medio, deberían ser nuestros avatares.
Concluiré regresando a la cuestión central: la ciencia de calidad debe
comprometerse con el objetivo del descubrimiento y con el objetivo de la
apreciación. El uno sin el otro no vale para nada. En efecto, la ciencia
avanza mediante la dialéctica entre estos dos objetivos generales de la in
vestigación.
En el lenguaje de las pruebas estadísticas, el énfasis del análisis explo
ratorio está en evitar los errores de tipo II (aceptar una hipótesis nula fal
sa), mientras el énfasis de la falsación está en evitar los errores de tipo I
(rechazar incorrectamente una hipótesis nula verdadera).
En términos de Kuhn, el conflicto entre el desarrollo de la teoría y la
comprobación de la teoría se puede entender como el contraste entre la
ciencia «revolucionaria» (ruptura de paradigmas) y la ciencia «normal»
(constreñida por los paradigmas). Aunque los términos son quizás inapro
piadamente apocalípticos, el contraste subraya la tensión recurrente en el
campo de la ciencia, donde algunos trabajan para inventar nuevas teo
rías mientras otros trabajan para comprobar esas teorías.16
Encontrar una pregunta de investigación
La mayor parte de este libro está dedicada a los problemas de la aprecia

ción una vez que se ha identificado una hipótesis concreta. Este proceder
es la práctica estándar de los textos de metodología. Sin embargo, primero
es menester decir algunas palabras sobre el problema del desarrollo de la
teoría. ¿Cómo proceder para identificar una buena pregunta de investiga
ción y, en última instancia, una hipótesis concreta de investigación? Ésta
es la primerísima fase exploratoria, cuando no sabemos a ciencia cierta
58
2 Principios
qué buscamos o exploramos. Podría decirse que es la fase más crucial de

todas. Nada interesante puede surgir de la investigación sobre temas que
son triviales, redundantes o teóricamente no interesantes, con indepen
dencia de lo fuerte que sea la investigación desde un punto de vista falsa-
cionista.
Por lo general, los metodólogos relegan esta tarea al reino de la metáfo
ra —cascabeles, tormentas de ideas, sueños, flashes, impregnaciones, reve
laciones, malabarismos, chispas y demás. La razón de esta falta de atención
debe buscarse quizás en el hecho de que los comienzos no se atienen a fór
mulas. Hay pocas reglas o criterios para descubrir nuevas preguntas o nue
vas hipótesis. Los metodólogos perciben tal vez que no hay nada —en todo
caso, nada científico— que ellos pueden decir sobre este proceso. Karl
Popper lo expresa franca y explícitamente, como siempre: «No hay tal cosa
como un método lógico para tener ideas nuevas» escribe. «El descubri
miento contiene “un elemento irracional” o una “intuición creativa”».17
Sin embargo, no decir absolutamente nada puede ser peor que decir
algo no sistemático. El resto de este capítulo arranca, por tanto, con el
formato que se adopta en otros lugares. Lo que tengo que ofrecer tiene
más un tono de homilía que de marco de trabajo. Se parece a una colum
na de consejos. Animo al lector a que estudie la tradición, a que empiece
por dónde está, a que salga de su terruño, a que juegue con las ideas, a
que practique la descreencia, a que observe empáticamente, a que teorice
salvajemente y a que realice análisis exploratorios. Por lo tanto, el capítu
lo está lleno de debes y de no-debes. Me disculpo por adelantado por el
tono tan didáctico.18
Mi consejo es, en buena medida, de sentido común, y en modo alguno
es aplicable a todo. Tan sólo reflejará mis propias ideas y experiencias,
aunque me he inspirado mucho en los escritos de otros especialistas.19
No obstante, puede contribuir a orientar a aquellos que están preparán
dose para su primer viaje o desean volver a empezar.
Estudie la tradición
La cuestión de la innovación depende necesariamente de la tradición de

trabajos que ya existen sobre un tema. No se trata de una condición pre
via subjetiva; ha sido establecida por los especialistas de un campo que
han trabajado sobre un tema durante muchos años, y ello debe apreciar
se claramente en la obra publicada que han producido. (Si no es así, la
pregunta surgirá de la comunicación personal con especialistas consoli
dados en un campo).
Considérese el estado de nuestros conocimientos sobre un tema. ¿Cuá
les son sus fronteras? ¿Qué sabemos —colectivamente, como disciplina— y
59
qué no sabemos? Consideremos también la ubicación probable de esas

fronteras una década antes examinando las tendencias académicas ac
tuales. ¿Qué será entonces lo más vanguardista? No olvidemos que las
fronteras de la investigación activa normalmente son fronteras que se
mueven; la tradición tal y como existe hoy puede ser muy diferente cuan
do usted termine su investigación. Por lo tanto, una pregunta mejor
(aunque más difícil) es; ¿qué será vanguardista dentro de una década?
Dudo que alguien haya encontrado un tema de investigación verdade
ramente interesante simplemente haciendo una revisión de la literatura
existente. Sin embargo, éste es un método eficiente para determinar dón
de está el campo y dónde debería estar. Seamos conscientes de que debi
do al tiempo que requiere el proceso de publicación, la obra más reciente
sobre un tema suele encontrarse en las ponencias de las conferencias o
los artículos colgados en sitios personales de internet. En nuestros días se
encuentran fácilmente por medio de buscadores. Su primer recurso será
Google más que JSTOR (Journal Storage).
Si nos exponemos a la literatura sobre un tema, debemos guardamos
de dos reacciones frecuentes. La primera es venerar a aquellos que ya
han trabajado sobre el tema; la segunda es desestimarlos de manera ful
minante. Respete usted la tradición —no hay que vituperar a nuestros
antecesores. No hay nada tan inmaduro como invertir la jerarquía
(«Ellos se equivocan y yo estoy en lo cierto»). Pero tampoco se deje des
lumbrar por la tradición. Intente salir de las categorías usadas conven
cionalmente para describir y explicar un tema. Con esto me refiero a que
no sólo arguya en contra de lo sabido, sino a que reflexione sobre nuevas
preguntas, nuevos problemas que no han sido adecuadamente explora
dos. En la medida en que los paradigmas teóricos son «revolucionarios»,
consisten en esto.
Cuando examine la literatura pertinente, sea consciente de qué es lo
que le anima y qué es lo que le aburre. ¿Qué problemas han sido poco ex
plorados o han sido entendidos inadecuadamente? ¿En qué cree usted
que se han equivocado las autoridades de un campo de investigación?
¿Qué preguntas cree usted que han dejado sin respuesta? ¿Qué preguntas
está dispuesto a responder una vez terminada la lectura? ¿Adonde con
duce esa línea de investigación? En algunas ocasiones, y sobre todo en
una conclusión o en un artículo de revista, los especialistas reflexionan
conscientemente sobre la dirección futura de la investigación; esto tam
bién puede ser útil.
En todo caso, no debe usted limitar su lectura definitiva de la literatu
ra a las publicaciones más recientes. Le interesan no sólo las fronteras de
un tema, sino también su historia. Así, una estrategia complementaria es
indagar en los «clásicos» —los textos fundadores de un campo o sub
campo de investigación.20 Esto es útil (particularmente si nunca lo ha he-
60
2 Principios
cho), porque a veces nos lleva a pensar sobre temas conocidos de formas
nuevas, porque las obras clásicas tienden a ser sugerentes (y, por lo tanto,
plantean preguntas), porque a menudo se emplea un vocabulario diferen
te, y, en realidad, porque se nos recuerda todo lo que se ha hecho ante
riormente. Este último punto es instructivo en dos sentidos: nos alerta de
que estamos reinventando la proverbial rueda y nos informa de las ma
neras en que, con el correr del tiempo, han cambiado en una disciplina (y
dentro de la sociedad en su conjunto) las percepciones y las conclusiones
sobre temas conocidos. Cada tema tiene una historia intelectual y merece
la pena familiarizarse con esa historia, no simplemente para encontrar
un sucinto epígrafe sino también para que informe nuestro análisis de un
problema.
Cuando C. Wright Mills empezó su estudio de las élites, consultó las
obras de Lasswell, Marx, Michels, Mosca, Pareto, Schumpeter, Veblen y
Weber.21 Comentando su experiencia, Mills escribe lo siguiente:
Al mirar algunas notas sobre esos autores, encuentro que ofrecen tres tipos de
enunciados: a) de unos aprendemos directamente, re-enunciando sistemática
mente lo que dicen sobre puntos dados o en conjunto; b) otros los aceptamos o
rechazamos, dando razones y argumentos; c) y otros los usamos como fuentes
de sugestiones para nuestras propias elaboraciones y proyectos. Esto supone
comprender un punto y preguntarse después: ¿cómo puedo dar a esto forma de
mostrable, y cómo puedo demostrarlo? ¿Cómo puedo usarlo como centro de
trabajo, como perspectiva de la cual emerjan con sentido detalles descriptivos?
No todos los temas han sido bendecidos con esa rica herencia; pero algu
nos sí y merece la pena detenerse a leer y a reflexionar.
Comience donde esté

Refiriéndose al método, Charles Sanders Peirce señala: «Hay sólo un lu
gar desde donde siempre podemos empezar. Y ese lugar es donde esta
mos».22 La manera más fácil e intuitiva de abordar un tema nuevo es
construir sobre lo que uno sabe y sobre quién es. Esto incluye las propias
capacidades (lenguas, habilidades técnicas), las conexiones personales,
nuestras experiencias vitales e intereses.23
Cabe esperar que el tema elegido armonice con su vida de alguna ma
nera. Esto suele ser una fuente de inspiración e ideas, así como la fuente
que nutre y renueva un firme compromiso mientras dura un proyecto.
C. Wright Mills escribe:
Debéis aprender a usar vuestra experiencia de la vida en vuestro trabajo intelec

tual, examinándola e interpretándola sin cesar. En este sentido la artesanía es
61
vuestro propio centro y estáis personalmente implicados en todo producto inte

lectual sobre el cual podáis trabajar. Decir que podéis «tener experiencia» signi
fica. entre otras cosas, que vuestro pasado influye en vuestro presente y lo afec
ta. y que él define vuestra capacidad para futuras experiencias. Como
investigadores sociales, tenéis que dirigir esa complicada acción recíproca, cap
tar lo que experimentáis y seleccionarlo; sólo de esa manera podéis esperar usar
lo para guiar y poner a prueba vuestro pensamiento, y en ese proceso formaros
como trabajadores intelectuales.24
Como la empresa de la ciencia social es investigar las actividades de la

gente, las conexiones personales que podamos tener con esa gente pue
den ser puntos útiles de apoyo. El acto hermenéutico resulta más fácil si
podemos establecer algunas conexiones personales —ya sean distantes o
imaginadas— con el grupo en cuestión.25
En algunas ocasiones, nuestra relación con un tema está más motiva
da por ideas que por conexiones personales. Naturalmente nos sentimos
atraídos por temas que son horripilantes o edificantes (o ambas cosas).
De hecho, muchos proyectos de investigación empiezan con cierta no
ción —quizás sólo vagamente formulada— de lo que va mal en el mun
do. Todos tenemos obsesiones, y esta motivación normativa puede ser vi
tal para nuestra comprensión del tema. ¿Qué problema de la vida real,
relevante para su disciplina, le preocupa?26
El deseo de remediar males también contribuye a mantener la relevan
cia de la ciencia social para las preocupaciones de los ciudadanos legos.
Digamos que todos empezamos como ciudadanos, con preocupaciones
cotidianas («legas»). Con el tiempo, llegamos a lograr un grado de dis
tancia con nuestro tema qua especialistas. Así, los roles de ciudadano y
estudioso se implican en un diálogo entre sí (capítulo 14).
Por supuesto, al final de un proyecto, uno debe tener algo que decir
sobre un tema que vaya más allá de establecer lo correcto y denunciar lo
incorrecto. El tema debe ser susceptible de investigación científica; si no
es así, no tiene sentido abordarlo como empresa científica. Si percibimos
que el tema está demasiado cerca de nuestro corazón como para reflexio
nar sobre él desapasionadamente, entonces probablemente no es un buen
candidato para que lo estudiemos. A modo de prueba, pregúntese si está
usted preparado para publicar los resultados de un estudio en el que su
hipótesis principal se demuestra equivocada. Si dudara usted a la hora
de responder a esta pregunta debido a compromisos previos normativos,
probablemente deberá elegir otro tema.
Por regla general, es importante abordar cuestiones que uno percibe
que son importantes, y no proyectos en los que tenemos predilecciones
morales o psicológicas especialmente fuertes para aceptar o rechazar la
hipótesis nula.-7 Así, estaremos motivados para estudiar el papel de los
cupones escolares porque nos preocupa la calidad de la educación. Pero
62
I
2 Principios
probablemente no debemos emprender el estudio de los cupones con el

propósito de demostrar que son una cosa buena o mala.
Aléjese del terruño

Los apartados anteriores acentúan la importancia de construir a partir
de nuestro perfil personal (habilidades, conexiones, preferencias), pero
también es vital para los estudiosos desviarse de lo que es seguro, cómo
do y familiar: su propio terruño.
Considere que la academia no es, ni probablemente será nunca, una se
lección representativa de la humanidad. Hoy día los practicantes de la
ciencia social son desproporcionadamente blancos, angloeuropeos y (toda
vía, aunque cada vez menos) varones. Probablemente serán siempre unos
privilegiados en términos de su clase de origen. Es obvio que si los miem
bros de estas disciplinas se limitan a estudiar temas inspirados en sus expe
riencias personales, prestarán poca atención a temas que son relevantes
para los grupos excluidos, especialmente para los menos privilegiados.
La cuestión más importante es que los progresos del conocimiento
suelen hacerse transgrediendo los contextos conocidos. Después de todo,
el conocimiento local es familiar para los que lo viven. Cualquier valor
que pueda añadirse vendrá de transportar las categorías, las teorías y los
modos de pensar entre contextos, con la esperanza de que aparezcan
nuevas perspectivas sobre lo conocido. Con frecuencia se comenta que
una buena etnografía convierte lo exótico en familiar o lo familiar en
exótico. Lo mismo puede decirse de la ciencia social en general. Intente
usted pensar como un extraño cuando aborda un tema que parece obvio
(desde la perspectiva de nuestro «terruño»). Asimismo, no tema exportar
categorías desde su terruño a un territorio extraño, no deliberadamente y
desatendiendo la evidencia en contrario, sino más bien como una hipóte
sis operativa. En algunas ocasiones, lo extranjero encaja.
De hecho, suelen surgir inferencias causales y descriptivas nuevas
cuando un concepto o teoría existente se trasplanta de un área a otra.
Por ejemplo, el concepto de corporativismo surgió inicialmente en el con
texto de la teoría social católica como una alternativa al socialismo de
Estado. Más tarde lo adoptaron los regímenes fascistas como forma de
legitimar su control sobre importantes actores sociales y económicos. Y
recientemente se ha considerado como un término clave para explicar las
trayectorias divergentes de los Estados de bienestar de la OCDE, y para
explicar la persistencia y la resiliencia del gobierno autoritario en el mun
do en vías de desarrollo.28 Hay infinitas maneras de adaptar las viejas
teorías a contextos nuevos. En algunas ocasiones estos trasplantes son
provechosos, pero en otras no lo son.
63
Lo más importante es que intente usted mantener una conversación

con las diferentes perspectivas sobre su tema. ¿Qué diría fulanito sobre
A"? Si este proceder no le trastorna, puede servir como forma útil de
triangular su tema.
Otro cruce de fronteras es el que se da entre las disciplinas, las teorías
y los métodos. La tendencia de la era contemporánea parece ser hacia
una especialización creciente y, a buen seguro, la especialización es útil.
Es difícil dominar más de un área de trabajo, dada la creciente sofistica
ción y especialización de la técnica y la terminología desarrolladas en
cada subcampo en las últimas décadas. Para hacer una contribución en
un campo hay que tener un conocimiento profundo de ese campo, y esto
requiere centrarse en un tema durante muchos años.
Pero merece la pena reflexionar sobre el hecho de que muchas de las
obras que hoy consideramos rompedoras han sido el producto de encuen
tros exóticos entre campos y subcampos. En efecto, todos los campos y
subcampos fueron el producto de transgresiones de hace tiempo. Alguien
se movió de su zona de confort, y otros le siguieron. Adviértase también
que las ciencias sociales no están divididas entre campos discretos y bien
definidos Por lo tanto, intente leer dentro y fuera de su área de formación.
Hable con gente de campos distantes Vea cómo responden cuando les des
cribe sus preguntas y su proyecto de investigación. Cuídese de cultivar una
especialización estricta, porque esto le conducirá a trabajos circunscritos
en términos de la teoría o prosaicos. Si todo trabajo académico es de una u
otra forma un hurto, es aconsejable que robe de fuentes distantes. Creativi
dad es otra palabra para expresar esta suerte de robo.
Juegue con las ideas

La literatura sobre la invención y el descubrimiento —escrita por cientí
ficos, filósofos de la ciencia y los propios inventores— refleja un consen
so. Los descubrimientos originales no suelen ser producto de una mayor
capacidad intelectual (por ejemplo, la capacidad de calcular o razonar).
Robert Root-Bernstein es rotundo al respecto:
Los científicos famosos no son más inteligentes que los que no lo son. [Además,]
estoy convencido también de que los que han tenido éxito no están en lo cierto
con más frecuencia que sus colegas. Creo que los arquitectos de la ciencia son
simplemente más curiosos, más iconoclastas, más persistentes, más dispuestos a
dar rodeos y a resolver problemas más complicados y fundamentales. Y lo que
es más importante aún, poseen coraje y valentía intelectual. Trabajan al filo de
su competencia; su atrevimiento va más allá de su entendimiento... Así, no sólo
tienen éxito con más frecuencia y fuera de toda proporción; también fracasan
con más frecuencia y en el mismo grado. Sus fracasos, sin embargo, definen me-
64
2 Principios
jor los límites de la ciencia que los éxitos de los científicos más convencionales y
seguros, por lo que son los pioneros los más valiosos para la ciencia.29
La cuestión clave, expresada en las palabras de Root-Bernstein, es ¿cuál

es la mejor manera de sobrevivir al filo de la ignorancia?30
Richard Hofstadter, quien describe la vida intelectual como un con
trapunto de piedad y jugueteo —la primera sería la obstinada búsqueda
de la verdad y el segundo aquello que nos impide caer en el dogmatismo
y que puede ser menos obvio: la capacidad intelectual de especular—,
responde así a esta pregunta:
En términos ideales, se dice que la persecución de la verdad está en el núcleo de
la empresa del intelectual, pero esto acredita su empresa mucho y poco. Al igual
que la búsqueda de la felicidad, la búsqueda de la verdad es en sí gratificante,
pero conseguirla suele ser difícil. La verdad, una vez conseguida, pierde su en
canto; las verdades consolidadas y aceptadas ampliamente pueden convertirse
en falsas con el tiempo; las verdades fáciles son un aburrimiento, y buena parte
de ellas pasan a ser medio-verdades. Cuando el intelectual está demasiado segu
ro de algo, si es juguetón empieza a sentirse insatisfecho. El significado de su
vida intelectual no reside en la posesión de la verdad, sino en la búsqueda de
nuevas incertidumbres. Harold Rosenberg resumió este lado de la vida del pen
samiento sumamente bien cuando dijo que el intelectual es aquel que convierte
las respuestas en preguntas.
Haciéndonos eco de la descripción de Hofstadter, podríamos afirmar

que hay dos momentos distintos en cualquier proyecto de investigación.
El primero es abierto, lúdico; aquí se genera y se tantea una amplia varie
dad de ideas diferentes. El segundo está lleno de celo y piedad; aquí uno
se agarra firmemente a una idea con la intención de desarrollarla en una
teoría sólida y contrastarla con alguna realidad empírica. Esto concuer
da con la distinción entre el descubrimiento y la apreciación mencionada
anteriormente. Cualesquiera que sean las insuficiencias de esta dicoto
mía, no hay duda de que el esfuerzo académico requiere un giro crucial
de actitud en algún momento de la empresa. Como aquí nos preocupa la
fase inicial, insistiremos en las técnicas del regocijo.
Si bien el arte del descubrimiento no se puede enseñar (al menos no
como se enseñan las técnicas de regresión múltiple), podría ser útil re
flexionar sobre el pensamiento. El acto creativo es misterioso; pero pare
ce tener algunos rasgos persistentes. Arthur Koestler, sintetizando la
obra de muchos escritores, insiste en que los descubrimientos suelen «es
tar ahí ya» en el sentido de que están presentes en alguna obra —aunque
quizás no en aquella con la que han sido asociados anteriormente. Des
cubrir es, por lo tanto, conectar cosas que antes se consideraban separa
das. Descubrir es pensar analógicamente'.
65
Esto conduce a la paradoja de que cuanto más original es un descubrimiento,

más obvio parece después. El acto creativo no es un acto de creación en el senti
do del Antiguo Testamento, no crea algo de la nada; descubre, selecciona, reor
ganiza. combina, sintetiza hechos, ideas, facultades y habilidades que ya existen.
Cuanto más conocidas son las partes, más sorprendente será el todo nuevo. El
conocimiento del hombre de los cambios de las mareas y las fases de la luna es
tan antiguo como su observación de que las manzanas se desprenden del árbol
cuando están maduras. Pero la combinación de estos datos y otros datos igual
mente conocidos en la teoría de la gravedad de Newton cambiaron la perspecti
va que la humanidad tiene del mundo.31
¿Qué actitud mental requiere esto? ¿Cómo se puede pensar analógica

mente? Esta habilidad parece tener algo que ver con la capacidad de «re
nunciar a los controles conscientes», para bloquear el superego académi
co que inhibe las nuevas ideas al castigar las transgresiones contra la
tradición.32 Sobre todo, debemos sentirnos libres de cometer errores:
Igual que los códigos del razonamiento lógico quedan suspendidos durante el sue
ño. «pensar al margen» es una liberación temporal de la tiranía de los conceptos
verbales demasiado precisos, de los axiomas y prejuicios engranados en la textura
de los modos de pensamiento especializados. Permite a la mente deshacerse de la
camisa de fuerza del hábito, ignorar las contradicciones evidentes, desaprender y
olvidar—y adquirir, a cambio, una mayor fluidez, versatilidad y credibilidad. Esta
rebelión contra las constricciones que son necesarias para mantener el orden y la
disciplina del pensamiento convencional, pero que son también un impedimento
para el paso creativo, es sintomática del genio y del loco; lo que les distingue es la
intuición de la que disfruta el primero.33
Habría que añadir que lo que también distingue al genio del loco es que
el primero domina la tradición del trabajo hecho sobre un tema. Los mo
mentos preliminares del genio son creativos porque se producen sobre la
base del conocimiento. Para olvidar, y recombinar rasgos de un proble
ma, primero hay que saber.
Puede que la analogía del descubrimiento con el trance del sueño,
aunque raya en el sinsentido, no se aleje de la realidad. Koestler escribe
lo siguiente:
El soñador bisocia constantemente —digamos que de forma inocente— marcos

de referencia que se consideran incompatibles en el estado de vigilia; va de ma
triz en matriz sin ser consciente de hacerlo; en su paisaje interior, las técnicas bi-
sociativas del humor y el descubrimiento se reflejan al revés, como árboles en un
pantano. La región más fértil parece ser la orilla del pantano, la tierra fronteriza
entre el sueño y la vigilia total —donde las matrices del pensamiento disciplina
do siguen operando pero no pesan tanto como para obstruir la fluidez de la
imaginación durante el sueño.34
66
2 Principios
Se ha sugerido que la mente trabaja de forma semi-inconsciente sobre

los problemas una vez que éstos han sido identificados y cuando hay
suficiente motivación. En esta fase uno llega a estar poseído por una
pregunta.
Practique la descreencia
No podemos pensar sin palabras, pero en algunas ocasiones ocurre

también que no pensamos adecuadamente con ellas. A veces, el lengua
je común sirve para constreñir las pautas de pensamiento, reificando
fenómenos que apenas están ahí. Edmund Burke comentó que cuando
definimos «parece que nos arriesgamos a circunscribir la naturaleza a
los límites de nuestras propias nociones».35 El lenguaje sugiere, por
ejemplo, que cuando hay un término de referencia, hay también una
clase coherente de entidades, y cuando hay dos términos de referencia,
hay también dos clases empíricamente distinguibles de entidades. Esto
es, en algunas ocasiones, cierto y, en otras, no lo es. El hecho de que
tengamos una palabra para «movimiento social» no significa que real
mente haya otros fenómenos que sean similares entre sí y sean fácil
mente distinguibles de otros fenómenos. Lo mismo ocurre con «capital
social», «grupo de interés» y prácticamente con todos los conceptos
clave en el léxico de las ciencias sociales. Las palabras no siempre cince
lan la naturaleza en sus articulaciones. En algunas ocasiones son muy
arbitrarias (están arbitrariamente «construidas»). A fortiori, el hecho
de tener una palabra para un fenómeno no significa precisamente que
todos los casos de ese fenómeno se deben a la misma causa o al mismo
conjunto de causas. Ni siquiera está claro que unos mismos factores
causales sean relevantes para todos los miembros del susodicho conjun
to de fenómenos.
El lector podría responder que, ciertamente, los conceptos se definen
tal y como se definen porque son útiles para determinados propósitos.
Exacto. Pero de ello se sigue que esos mismos conceptos pueden no ser
útiles para otros propósitos. Y como nuestro objetivo en esta fase del jue
go investigador es reflexionar de forma no convencional, es importante
poner en cuestión la terminología convencional. A efectos heurísticos, in
tente adoptar una perspectiva nominalista: las palabras son contenedo
res léxicos simplemente arbitrarios. Como ejercicio, ponga entre parénte
sis todos sus términos clave («movimiento social»). Intente adoptar
puntos de vista diferentes; considere si alguno de ellos es convincente.
(Esto es un buen ejemplo a propósito de los diferentes criterios aplicables
a los momentos del descubrimiento y la apreciación científicos. Una
perspectiva nominalista de conceptos es problemática cuando el escritor
67
se pone a la tarea de formalizar su investigación. Aquí, el consejo suele

ser evitar los neologismos a menos que sean absolutamente necesarios
[capitulo 6].) Otra técnica para pensar novedosamente sobre un tema es
considerar cómo se denominan esos mismos conceptos en otras lenguas
o lenguas antiguas; con frecuencia tienen diferentes connotaciones o su
gieren diferentes distinciones entre los fenómenos.
Un escepticismo paralelo se debe tener con respecto a los números,
que también naturalizan fenómenos que pueden o no ir juntos de la ma
nera sugerida. Aquí la cuestión se complica más. Primero, el uso de un
número está explícitamente vinculado con una dimensión —por ejemplo,
la temperatura, el PIB, el número de accidentes de tráfico— que se consi
dera, de uno u otro modo, relevante. Además, imponer una escala numé
rica presupone un tipo particular de relación entre fenómenos con dife
rentes valores en una variable —nominal, ordinal, de intervalo o de
razón (capitulo 7). Pero ¿es esa realmente! En términos más generales,
¿es esa dimensión la que importa (para entender el tema en cuestión)? ¿O
hay otras dimensiones, quizás menos fácilmente cuantificadas, que pro
porcionan una información más precisa y sugerente?
Otro tipo de sabiduría convencional son los casos paradigmáticos.
Hay casos que, en virtud de su prominencia cotidiana y teórica, ayudan
a definir un fenómeno: Italia define el fascismo; el Holocausto define el
genocidio; Estados Unidos define el individualismo; Suecia define el
Estado de bienestar; y (durante muchos años) la Unión Soviética defi
nió el socialismo. Los casos paradigmáticos existen prácticamente en
todos los campos de la investigación en las ciencias sociales. Suelen
proporcionar buenas maneras de entrar en contacto con un tema por
que están cargados de atributos; funcionan, a este respecto, como tipos-
ideales (capitulo 6). Pero igual que anclan nuestra reflexión sobre esos
temas, también constriñen nuestro pensamiento. Y, además, como tien
den a ser en cierto modo ejemplos inusuales —por ejemplo, extremos
del fenómeno en cuestión, pueden presentar descripciones equivocadas
de ese fenómeno.
Con las palabras, los números y los casos paradigmáticos —-por no
mencionar las grandes teorías— es importante mantener una actitud es
céptica. Quizá son verdaderos y útiles, quizá lo son sólo parcialmente o
sólo para ciertos propósitos. Para comprobar su utilidad, intente ponerse
el disfraz socrático de la ignorancia total (quizás sería mejor decir practi
car un profundo escepticismo). Cuando haya adoptado esta postura po
drá entonces formular preguntas ingenuas sobre fuentes, expertos e in
formantes. Es una estrategia hábil y puede ser extraordinariamente
reveladora —sobre todo cuando no es fácil responder a preguntas «ob
vias» o se responden de formas inesperadas.
68
2 Principios
Observe empáticamente
Una de las técnicas del descubrimiento es la empatia o (por decirlo en len
guaje filosófico) la hermenéutica.36 Aquí empleamos técnicas de observa
ción para entrar en el mundo de los actores implicados en alguna actividad
de interés —jugar al balón, hacer un proyecto de ley, matar al adversario,
votar, etc. — con el fin de comprender su perspectiva sobre el fenómeno.
Sin duda, esto es más fácil cuando los actores son contemporáneos nues
tros y se pueden estudiar directamente (por ejemplo, etnográficamente). Es
más difícil y, en algunas ocasiones, más revelador, cuando las acciones ocu
rrieron hace mucho tiempo o ya no están disponibles para ser observadas
directamente y hay que reconstruirlas. En cualquier caso, las percepciones
no obvias requieren interpretación y esta interpretación se debe basar en
una valoración del modo en que los actores ven sus propias acciones.
Considere que el proceso de comprensión empieza con una capacidad
para recrear o reimaginar las experiencias de esos actores a cuyas ideas y
comportamiento deseamos dar sentido. De alguna manera se debe esta
blecer un vinculo entre nuestros horizontes de experiencia y los horizon
tes del grupo que queremos estudiar. Esto implica una suerte de juego de
rol (¿qué haría yo en la situación X si fuera Y?). Probablemente es esen
cial cierto grado de empatia con nuestros sujetos para comprender un fe
nómeno. Esto puede ser difícil de conseguir si el sujeto es grotesco. Nadie
quiere empatizar con los nazis. Pero el desafío hermenéutico no deja de
estar ahí; se debe hallar alguna manera de entrar en la vida y las percep
ciones de estos importantes actores históricos con el fin de explicar sus
acciones, por muy extrañas y repelentes que sean.
Aunque los que se identifican a sí mismos como interpretativistas no
siempre son propensos a la teoría, concedamos que muchos de los que se
identifican como «teóricos» han empleado en algún momento técnicas in
terpretativas (a hurtadillas). En cualquier caso, esta técnica no debería mo
nopolizarla un puñado de practicantes especialistas («interpretativistas»,
«etnógrafos», etc.). Es un juego al que podemos jugar todos —y, de hecho,
al que tenemos que jugar si queremos tener éxito como científicos sociales.
Teorice salvajemente
En lugar de trabajar exclusivamente sobre Una Gran Idea, podría usted
considerar los beneficios de trabajar simultáneamente siguiendo varios
caminos. Así evitará usted comprometerse abiertamente y demasiado
pronto con un único tema. Puede usted también comparar diferentes te
mas y evaluar sus fuerzas y sus debilidades. «Tener simplemente muchas
ideas y descartar las malas», aconseja Linus Pauling.37
69
Al mismo tiempo, debe usted esforzarse por mantener un registro de

sus ideas a medida que avanza.38 Ojee con frecuencia ese diario de ideas y
observe los proyectos a los que vuelve constantemente, que le inquietan y
le obsesionan. El objetivo debe ser mantener su mente todo lo abierta posi
ble durante el mayor tiempo posible (dados los quehaceres de la vida y los
plazos académicos). «Deje que su mente sea un prisma en movimiento
captando la luz procedente de tantos ángulos como sea posible».39
Los historiadores de las ciencias naturales identifican los momentos
productivos de la ciencia con la resolución de anomalías —rasgos del
mundo que no concuerdan bien con las teorías existentes.40 Si esas ano
malías se pueden resolver de una manera más ad hoc, las fronteras del
conocimiento avanzan. Quizás se llegue a crear un nuevo «paradigma»
de conocimiento.
Podemos preguntarnos si la ciencia social está plagada de anomalías
tratables teóricamente. Algunos dirán que existe completamente llena de
anomalías; no hay intersticios no resueltos que rellenar, sólo un profun
do abismo de comportamiento sumamente fortuito que es resistente a
cualquier suerte de teorización. Parece claro que la mayoría de los cam
pos de las ciencias sociales no pertenecen —o no pertenecen todavía— al
reino de la ciencia normal kuhniana. Pero concentramos nuestras ener
gías, bastante acertadamente, en áreas que se consideran insuficiente o
inadecuadamente estudiadas. Que esas áreas se entiendan como anoma
lías o como «áreas de ignorancia más-profunda-de-lo-normal», apenas
importa para nuestros fines.
Otra técnica para teorizar salvajemente es yuxtaponer cosas que apa
rentemente no encajan. Teorizar suele consistir en disociar y volver a aso
ciar. Una versión de esta técnica es examinar un terreno conocido y pensar
a qué se parece. ¿De qué es un ejemplo «Y»? Charles Ragin se refiere a esta
técnica como «particularizar» un tema.41 Otra táctica es examinar varios
campos diferentes con el fin de percibir sus semejanzas. (El colonialismo,
el federalismo y el corporativismo, ¿se pueden conceptualizar los tres como
sistemas de «gobierno indirecto»?42) Una tercera versión es examinar un
terreno conocido con el fin de identificar un nuevo principio de organiza
ción. Linneo sugirió célebremente que los animales debían clasificarse so
bre la base de sus estructuras óseas, un nuevo principio de clasificación
que resultó sumamente productivo.43 En el reino de las ciencias sociales,
los estudiosos han proporcionado esquemas organizativos para los parti
dos políticos, las burocracias, los Estados de bienestar y otros fenómenos
sociales —aunque hay que señalar que sólo unos pocos han demostrado
ser tan provechosos o duraderos como el de Linneo. Es claro que una reor
ganización del conocimiento por medio de la clasificación no tiene por qué
ser eterna o ubicua para que resulte útil para determinados propósitos.
Cada reclasificación puede tener diferentes usos.
70
2 Principios
Una tercera técnica para dejar que giren las ruedas de la teoría es lle
var una idea convencional a su extremo lógico. Es decir, considere una
explicación que parece funcionar para un evento particular o en un con
texto particular. (Puede ser su idea o la idea de otro.) Ahora lleve esa
idea a otros contextos o eventos. ¿Sigue funcionando? ¿Qué ajustes nece
sita para que funcione? O considere las ramificaciones lógicas de una
teoría si se aplicara enteramente. ¿Qué parece requerir la teoría?
Las teorías se comprueban cuando se llevan a sus límites, cuando se
prueban en contextos muy diferentes. Root-Bernstein observa que esta
estrategia conduce, como mínimo, a la investigación de las fronteras de
una idea, algo útil de saber. Por otra parte, nos puede ayudar a reformu
lar una teoría de formas que se puedan trasladar con más éxito, es decir,
de forma que su alcance aumente. Una tercera posibilidad, quizás la más
atractiva, es que puede conducir a una nueva teoría que explique un nue
vo reino empírico.44
Para teorizar salvajemente es importante tener una lista de todas las
explicaciones posibles que se han intuido o leído en la literatura. Como
parte integral de este proceder, podríamos considerar algunos de los mo
delos más generales del comportamiento humano, por ejemplo, la elec
ción individual (conocida como racional), el intercambio, la adaptación
(conocida como evolución), la difusión, etc.45 En algunas ocasiones estos
modelos abstractos tienen aplicaciones a problemas muy específicos que
podrían no ser inmediatamente obvios. (¿Cómo se entiende el tema del
romance si se lo considera como un intercambio? ¿Y como una adapta
ción? ¿Y como un producto de la difusión?)
Una vez hecha, esta lista de posibles explicaciones para el fenómeno
Y se puede reorganizar y recomponer (quizás algunas proposiciones son
subconjuntos de otras). Recuerde que el trabajo de teorización suele im
plicar una recombinación nueva de explicaciones que ya existen. Su lista
de explicaciones potenciales incluirá también el conjunto de hipótesis ri
vales que usted tendrá que refutar, mitigar y/o controlar (empíricamente)
en su trabajo. Así, es importante que sea lo más larga posible.
Para hacerse una idea de cómo modelar correctamente las interrela
ciones complejas suele ser útil hacer esquemas. (Si se es avezado en dise
ño gráfico, se pueden hacer en el ordenador. Para los demás probable
mente los mejores instrumentos son el lápiz y el papel.) Poner las idas en
cajas y con flechas o quizás en diagramas de Venn o árboles de decisión
nos permite ilustrar las relaciones potenciales con más libertad que con
palabras o números. Así, es posible «pensar» abstractamente sobre el pa
pel sin padecer las constricciones de las palabras y los números. Es tam
bién un formato muy sinóptico que nos permite encajar toda una argu
mentación, en toda (o la mayor parte de) su complejidad, en una única
hoja o una pizarra.
71
Prevea
Todos los elementos del proceso de la investigación están estrechamente
conectados. Esto significa que un tema no es bueno si no se conjuga con
una buena teoría y un diseño de investigación viable. Por lo tanto, la elec
ción del «tema» resulta más complicada de lo que parece a primera vista.
Por supuesto, todos los elementos que cuentan para una investigación exi
tosa no suelen encajar de forma automática. Y nos vemos obligados a li
diar con ellos, y podría decirse que, especialmente, en esta primera fase.
Tener presentes los elementos de nuestro tema —una teoría, un con
junto de fenómenos y un posible diseño de investigación— es vital para
mantener un grado de fluidez entre todas estas partes hasta que llegue el
momento en que se convenza de que ha hecho el mejor encaje posible en
tre ellas. Guárdese de terminarla prematuramente. Pero evitar también
caer en un círculo vicioso puede serle útil para identificar el elemento de
su tema con el que se siente más comprometido, es decir, con el que pue
de hacer una mayor contribución académica. Si lo identifica, le propor
cionará un anclaje en ese proceso de constante reajuste.
Considere la decisión inicial de un tema como una inversión de futu
ro. Como ocurre con todas las inversiones, el rendimiento dependerá de
que muchas cosas encajen durante los años posteriores. Nunca se pueden
anticipar todas las dificultades potenciales. Pero cuanto más se pueda
«jugar» en este proceso, más posibilidades tendrá de recibir compensa
ción cuando termine la investigación. Y más posibilidades de terminar
completamente su investigación. (Las ideas verdaderamente malas difí
cilmente llegan a buen término; cuanto más avanzan, más obstáculos en
cuentran.)
Aunque la perspectiva pueda parecer sobrecogedora, uno está obliga
do a pensar en el futuro ya en la fase «inicial» de la investigación. Intente
imaginarse cómo podría funcionar su idea: qué tipo de teoría, qué diseño
de investigación resultará, etc. Si todo funciona como tenía previsto,
¿cómo será la tesis/el libro/el artículo resultante? (Esto nos lleva a los
asuntos tratados en el resto del libro, es decir a cuáles son los conceptos,
inferencias descriptivas, inferencias causales y diseños de investigación
adecuados.)
Una pregunta obvia que hay que considerar es qué «resultados» gene
rará probablemente un estudio. Con independencia del tipo de estudio
emprendido, presumiblemente habrá alguna confrontación con el mundo
empírico y se harán algunos descubrimientos. ¿Dispondremos de la evi
dencia necesaria para generar o comprobar una teoría? ¿Se podrá corro
borar la hipótesis principal?
En algunas ocasiones, no conseguir rechazar una hipótesis nula impli
ca que el investigador tiene poco que mostrar en su investigación. La sa-
72
2 Principios
biduría convencional prevalece. En otras ocasiones, el fracaso a la hora

de demostrar una hipótesis puede ser bastante instructivo.46 A veces un
tema es tan nuevo —o un diseño de investigación es mucho más convin
cente que otros previos— que cualquier hallazgo es instructivo. Esto es
ideal desde la perspectiva de la inversión de tiempo y energía que hace el
estudioso, porque siempre le compensa.
En todo caso, puede ser útil preguntar a los que conocen profunda
mente el tema (expertos, informantes clave) qué es lo que creen que va a
descubrir usted con su línea de investigación. ¿Cuáles son sus mejores
presentimientos? ¿Y cómo reaccionarán si fracasa a la hora de rechazar
la hipótesis nula? ¿Será publicable? ¿Será publicable el rechazo de su hi
pótesis nula? Ésta es una cuestión aún más importante, y no siempre es
obvia para el investigador principiante. Lo que parece novedoso para us
ted puede parecer menos novedoso para los que han trabajado en ese
campo durante décadas. Y, por la misma regla, lo que parece obvio para
usted puede ser sorprendente para los demás. Así, un buen consejo es so
meter los hallazgos a una prueba de mercado. Considere cómo se enmar
carían sus descubrimientos previstos en la literatura de un tema. ¿Cómo
se percibirán? ¿Cuál será su valor añadido? ¿Se considerarán más convin
centes que otros trabajos existentes sobre el tema? ¿Superarán la com
probación de los estudiosos del momento y los del futuro («la prueba del
tiempo»)?
Durante el proceso de comprobación de su idea, vigílese a sí mismo.
Vea si su presentación oral del proyecto cambia cuando se la explica a
sus amigos y colegas. ¿Sobre qué asunto se siente usted más seguro o más
inseguro? ¿Cuándo siente usted que está diciendo tonterías? Son indica
ciones de las fuerzas y las debilidades de su propuesta. De hecho, el pro
ceso de presentación —aparte de las opiniones concretas que reciba—
puede llevarle a reconsiderar cuestiones que no eran evidentes al
principio.
Haga análisis exploratorios
En el momento adecuado considere la posibilidad de realizar una prueba

exploratoria. Ésta debe hacerse de la manera más eficiente posible —con
el menor gasto de tiempo, energía y dinero. Tiene que familiarizarse con
su tema, y con lo que sugieren los datos; no pretenda extraer conclusio
nes firmes. En algunas ocasiones, la mejor manera de pensar en una pro
puesta es desarrollar la idea de forma esquemática.
Una de las técnicas tradicionales es el estudio exploratorio de casos
que nos permite conocer mejor uno o varios casos que supuestamente
ejemplifican rasgos clave de un tema. Hay varios tipos (más o menos
73
Metodología de las tiendas sociales
conocidos).47 Un caso típico es aquel que presenta rasgos que supuesta

mente son muy representativos del fenómeno en cuestión. Puede ser
útil como indicación de lo que ocurre en otros casos similares. Un caso
extremo es el que presenta un valor extremo (o infrecuente) en un pará
metro relevante (JV o K). Cuando se compara con los casos «normales»
(los que rayan con la media), un caso extremo presenta la variación
máxima en el parámetro de interés; éste puede proporcionar una idea
de lo que está pasando en el resto de la población. Una muestra de ca
sos diversos se compone de aquellos que presentan un rango de varia
ción en uno o más parámetros relevantes (X, Y o XI Y). Con sólo un
pequeño conjunto de datos, aquella nos ofrece un modo de explorar
toda la variación disponible en una población más amplia. Un caso
desviado es aquel que, de acuerdo con algún conjunto de supuestos
fundamentales, exhibe un resultado inesperado. Este tipo suele usarse
para abrir nuevas líneas de investigación, como manera de identificar
anomalías. Una muestra de casos más-similares tiene características
fundamentales semejantes, pero presenta resultados diferentes en algún
parámetro de interés teórico. Éstos permiten al investigador generar
hipótesis sobre las posibles causas de un resultado que varía en otros
casos parecidos.48
Hay otra técnica exploratoria que nos permite comprobar una mues
tra mayor de casos de una manera más superficial. El investigador po
dría empezar con un conjunto de datos existente (al que se pueden aña
dir variables de interés). O el investigador podría intentar construir su
propia «tabla-de-verdad», centrándose en una cantidad pequeña de ca
sos y variables de interés. Supongamos que estamos intentando determi
nar por qué algunos países del África subsahariana se han democratiza
do mientras otros no lo han hecho en las décadas posteriores a la
independencia. Empezaríamos por codificar la variable dependiente
(autocracia/democracia), y procederíamos a añadir posibles factores cau
sales relevantes —el desarrollo económico, la urbanización, el acceso al
mar, la historia colonial, etc. Algunos de estos factores pueden ser bina
rios, mientras otros se pueden codificar de forma continua o reducir a un
formato binario (por ejemplo, alto/bajo). Algunos de estos factores tien
den a ser más fáciles de codificar (los «objetivos»), mientras otros pue
den implicar un juicio por parte del codificador (los «subjetivos»). En
todo caso, esta simple técnica de reducción de datos nos permite incor
porar un elevado número de hipótesis y tantear su ajuste basándonos en
la evidencia de una muestra de tamaño pequeño o medio.
La cuestión clave de estas aventuras de exploración de datos es descu
brir nuevas hipótesis y exponer nuestras intuiciones a comprobaciones pre
liminares lo más rápido posible. No le tenga miedo a negociar con hechos
estilizados —cálculos estimados aproximados sobre la realidad que se está
74
2 Principios
considerando. Los procedimientos de comprobación más sistemáticos pue

den esperar a una fase posterior de la investigación. La exploración de los
datos debe comprenderse como una serie de pruebas de posibilidad.49
Por supuesto, el momento justo en que la exploración teórica se con
vierte en la comprobación de la teoría nunca se puede determinar con
exactitud. Todo método de exploración es, en cierta medida, un método
de comprobación, y viceversa. La expectativa es, en todo caso, que una
vez identificada la hipótesis clave, ésta ha de someterse a pruebas más ri
gurosas que las que se emplearon en el descubrimiento. El énfasis de la
investigación gira sutil, pero significativamente, desde la evitación de erro
res tipo II (no rechazar una hipótesis nula falsa) hacia la evitación de
errores tipo I (rechazar incorrectamente una hipótesis nula verdadera),
como se ha mencionado antes.
Conclusiones sobre los principios
Los trabajos que se publican en ciencias sociales presentan una aparien

cia de orden y predictibilidad que induce a error. El autor empieza por
subrayar un tema o pregunta de investigación general, luego enuncia una
teoría general, y desde ahí expresa las hipótesis específicas que se some
terán a comprobación y el diseño de investigación que ha elegido. Por úl
timo, presenta y discute la evidencia disponible y sus conclusiones. •
Esto en nada se parece al progreso en la mayoría de las investigacio
nes, que es, en cambio, tortuoso e impredecible —casi nunca procede
paso a paso desde la abstracción. Una razón que lo explica es que el co
nocimiento en las ciencias sociales no está claramente parcelado en áreas
de investigación distintivas, cada una de ellas con preguntas, teorías y
métodos específicos y estables. Se caracteriza, en cambio, por un grado
alto de apertura respecto de las preguntas, las teorías y los métodos.
Otro factor es la circularidad de la empresa. Cada elemento de la cien
cia social —la búsqueda de la pregunta, la teoría, la hipótesis, los con
ceptos clave y el diseño de investigación— es interdependiente. Esto se
debe a que cada elemento se define en términos de los demás. Así, cual
quier ajuste en un elemento suele requerir el ajuste en los demás. En
cuanto cambio mi teoría debo cambiar también mi diseño de investiga
ción, y viceversa. No existe un punto de apoyo de Arquímedes.
Esto significa que hay muchos puntos de entrada. Podríamos empezar
con un tema general, una pregunta de investigación, un concepto clave,
una teoría general, una hipótesis específica, una anomalía convincente,
un evento, una fuente de información (por ejemplo, un emplazamiento,
un archivo o una base de datos), un método de análisis, etc. Por consi
guiente, algunas investigaciones se guían por el problema o la pregunta,
75
otras se conducen por la teoría y otras por los fenómenos (motivadas

por el deseo de emprender el estudio de un evento particular o un con
junto de eventos determinado). Son estilos de investigación obviamente
diferentes, aunque, al fin y al cabo, cada estudio responde a los mismos
criterios metodológicos (resumidos en la tabla 1.1).
Una vez que se empieza, el proceder correcto es difícil de esquemati
zar en una serie de pasos temporalmente discretos —a menos que nos
imaginemos avanzando y retrocediendo, yendo y viniendo frenéticamen
te. La investigación empírica depende necesariamente de conceptos pre
formados así como de nuestras nociones generales del mundo; pero una
investigación más profunda puede alterar esas nociones de forma impre
visible. Al hacerlo, revisamos la idea que nos hemos hecho sobre qué es
tamos estudiando. A este respecto, la ciencia social es un buen ejemplo
del llamado círculo hermenéutico.50
Permítaseme reiterar que no existe tal cosa como el lugar correcto o
incorrecto desde el que empezar. Lo único que importa es dónde termina
usted. Pero dónde termina usted tiene mucho que ver con dónde empie
za. por lo tanto no es algo fortuito. Con razón, los estudiosos son preca
vidos ante las consecuencias de elegir un tema malo —digamos que uno
que apenas prometa hallazgos interesantes, que tenga poca importancia
teórica o práctica, o que ofrezca insuficiente evidencia para demostrar
una proposición sobre el mundo. Por muy bien que se haya realizado la
investigación, poco se puede esperar de ella.
Además, cambiar los temas a mitad de camino es costoso. Una vez
que usted ha desarrollado experiencia en un área, volver a organizarse es
difícil. La investigación, como muchas cosas en la vida, depende mucho
del camino seguido. Por esta razón uno debe hacerse a la idea de que va
a vivir mucho tiempo con la elección del tema que ha hecho. Una diser
tación no sólo absorberá su vida mientras la realiza, sino también, con
toda probabilidad, durante décadas —y quizás el resto de su vida. En
efecto, muchos estudiosos siguen siendo identificados, para bien o para
mal, con su primer trabajo publicado. Así, la cuestión de elegir un tema
no es, en modo alguno, trivial. Hay mucho en juego.
Como la elección de un buen tema es difícil, hay que pensarla deteni
damente. Adviértase que la dificultad de la elección del tema se debe al
hecho de que todo el mundo busca lo mismo: temas fructíferos que in
vestigar, temas rompedores. Esto significa que el fruto que está a punto
de caer del árbol ya ha sido recogido. Por consiguiente, no se debe espe
rar que un gran tema no explorado hasta ahora caiga en nuestras manos.
Incluso si ocurriese que nuestra primera intuición resulta correcta, pasa
rá mucho tiempo antes de que la promesa sea completamente evidente.
Tendrán que hacerse muchas comprobaciones iniciales y revisar mucha
literatura para confirmar que el tema es verdaderamente innovador.
76
2 Principios
En este arduo proceso se agradecen los consejos de los amigos, la fa

milia, los supervisores y los expertos en el campo. Solicite todas las opi
niones posibles. Debe asegurarse de que, al final, se sienta a gusto con la
elección que ha hecho. Deberá representar una elección ponderada.
Esto probablemente requiere algún tiempo. Cuánto, es difícil determi
narlo. Encontrar un tema es un proceso, no un evento. No ocurre de re
pente. Empieza en el momento en que uno acepta una beca y se va me
tiendo gradualmente en la investigación. No se establece claramente una
fecha de inicio y fin. Aunque posiblemente se pida al candidato que haga
una propuesta o proyecto formal para solicitar la ayuda, esta propuesta
normalmente será después, vista en forma retrospectiva, un marcador ar
bitrario en la vida activa del proyecto.
Muchos estudiosos no están preparados para la agotadora y larga ta
rea de rascarse la cabeza (estrujarse la mollera o comerse el coco, elija su
metáfora preferida), que parece contravenir el mandato de publicar, pu
blicar y publicar (deprisa, deprisa, deprisa). Antaño, la vida en la acade
mia era ensalzada como vida contemplativa. Hoy día somos plenamente
conscientes del hecho de que hay mucho publicado, pero muy poca cog
nición sostenida. La mayor parte de nuestro tiempo lo dedicamos a la
realización de proyectos. Nos aseguramos la financiación, supervisamos
el personal, construimos encuestas, diseñamos experimentos, examina
mos detalladamente la evidencia, redactamos los resultados, todo ello
manteniendo una correspondencia electrónica frenética. Sólo brevemen
te nos permitimos el lujo de detenernos a pensar profundamente sobre
un tema. Me refiero a que la reflexión sin límites podría conducir a nue
vas ideas.
¿En qué momento debemos comprometernos con una pregunta de in
vestigación y una hipótesis determinada? ¿Cómo sabemos cuándo poner
fin? Evidentemente, las decisiones precipitadas y las que se prolongan
demasiado tienen riesgos.
Consideremos este conocido escenario relatado por Kristin Luker. Un
estudiante («usted») entra en el despacho de su supervisor con una idea
vaga de lo que le gustaría estudiar. El supervisor le pregunta cuál es su
hipótesis.
Si usted vacila intentando contestar a esta pregunta, él le preguntará cuáles son

sus variables dependientes e independientes. Y lo que es más importante aún, le
pedirá que le diga cuál es su pregunta de investigación. Usted se queda en blan
co, sintiéndose como un conejo atrapado en la carretera, deslumbrado por los
faros, mientras intenta desesperadamente explicar el gran interés que tiene, por
ejemplo, la privatización del agua, las tasas crecientes de encarcelamiento en Es
tados Unidos o la sexualidad de los adolescentes. Cuando usted y su supervisor
se separan al final del tiempo que le ha sido concedido, lo más probable es que
ambos sientan cierta frustración.51
77
En este contexto, probablemente el estudiante no esté preparado para

identificar una pregunta de investigación, y menos aún una hipótesis. Es
un requisito relevante y el supervisor está obligado a preguntárselo. Sin
embargo, al apresurarse a responder a esta pregunta satisfactoriamente
—y salir de la tesitura con la autoestima intacta— el estudiante podría
comprometerse con una pregunta que en el largo plazo puede resultar no
muy fructífera. Lo mismo ocurre con los plazos arbitrarios que impone
el calendario académico —el compromiso de hacer una presentación en
un seminario, la fecha de la defensa del proyecto, etc. Esta es la Escila de
terminar prematuramente.
Por otro lado, afrontamos los peligros de prolongar demasiado el fin.
Luker sigue diciendo:
Supongamos en cambio que tiene usted un supervisor acomodadizo y se le permi
te «entrar en el campo»... sin necesidad de responder a sus preguntas. Quizas e
espere a usted un destino aún más temible, peor que si su consejero le hubiera tor
turado preguntándole por las variables dependientes e independientes... Es ecir,
puede usted caer en la Maldición de las Diez Mil Fichas o de las Diez Mil Entra
das en su sistema informático de notas. La Maldición de los Diez Mil Lo-que-sea
cae sobre los estudiantes graduados incautos que han dedicado muchos años... a
recopilar datos sin saber exactamente qué es lo que buscaban la primera vez que
entraron en esa riquísima fuente de información (o biblioteca). Allí están senta
dos, destinados al fracaso y condenados, frente a sus pantallas de ordenador, pre
guntándose cómo encajar las diez mil entradas. O, peor todavía, finalmente em
piezan a escribir mientras vuelven una y otra vez a estudiar detenidamente las rez
mil entradas, pero la información (o el cuerpo de datos) que realmente necesitan
para dar en el clavo salvando las pequeñas objeciones está en el fondo del campo y
no sabían que iban a necesitarla, o desapareció, o no pueden permitirse vo ver a
buscarla. O la encuentran y se percatan de que el 80 por ciento de los datos que
han recopilado es irrelevante... Un resultado intermedio... es que realmente en
cuentre usted la pregunta de investigación, tenga los datos que necesita para tratar
el caso, y tenga algo convincente y bien escrito que decir. El único problema es
que le han sobrado dieciocho cajas de datos, y la empresa que emprendió le ha lle
vado al menos cuatro años más de lo que debería.52
Para describir este desastre, Luker cita una sola frase de Pauline Bar
«Datos, datos por todas partes, y ni una sola idea».53 . . tamos
En nuestra propia investigación —y con independencia de S1
empezando como estudiosos de la ciencia social o hemos dedica ° e
das a esta empresa— debemos evitar tanto el Escila del fin prema ur
como el Caribdis de prolongar demasiado el fin de nuestro proyec o.
Ninguno servirá a la causa de la ciencia ni será beneficioso para núes ra
carrera. Esfuércese por encontrar una pregunta de investigación lo an es
posible, pero no se detenga en algo que no le parezca a usted muy sigm i
cativo o muy relevante para la audiencia a la que pretende cautivar.
78
3 Argumentos
A: (Llaman a la puerta)
B: Adelante.
A: ¿Es aquí donde se discute?
B: Ya se lo he dicho.
A: No, no me lo ha dicho.
B: Sí, sí se lo he dicho.
A: ¿Cuándo?
B: Ahora mismo.
A: No me lo ha dicho, no.
B: Sí se lo he dicho, sí.
A: No me lo ha dicho.
B: Sí se lo he dicho.
A: ¡No me lo ha dicho!
B: ¡Le estoy diciendo que sí!
A: ¡Que no!
B: Oh, lo siento, espere un momento ¿ésta es una discusión de cinco minutos o
de media hora?
Monty Python, «La clínica de la discusión»
La argumentación en la ciencia social tiene su origen en el antiguo arte

de la retórica y en la también antigua ciencia de la lógica. Un argumento
completo está compuesto por un conjunto de conceptos clave, hipótesis
79
comprobables (llamémoslas proposiciones) y quizás un modelo formal o

un marco teórico general. Un argumento causa/ debe contener también
una explicación de los mecanismos causales (capítulo 8) Un argumento
es lo que especulamos que podría ser verdadero sobre e mun o, se e
marca en el reino de la teorización. j-fArpn-
A veces es importante distinguir entre los argumentos en os i
tes niveles de abstracción. En el nivel más abstracto están las teoiias
nivel macro, los inarcos teóricos o los paradigmas. Entre otros ejem
están el funcionalismo estructural, la teoría de la modernización, a
ría del intercambio, el interaccionismo simbólico o la teona e c0” ,
En un nivel ligeramente menos abstracto encontramos las teoi tas e n
medio o los modelos. Y en el nivel más concreto hablamos de luPotes ’
inferencias, teorías de nivel micro o proposiciones, que supuestamente s
directamente comprobables. (Las explicaciones se pueden inc uir en c
quier nivel.) Así, por ejemplo, el trabajo sobre el tema de los ,on?Siernn_
lares podría incluir una teoría general sobre por qué la elección e
sumidor mejora el proceso educativo, un modelo formal que tenga v
elementos de esa teoría, y una hipótesis o conjunto de hipótesis con
tas sobre el efecto de una intervención basada en cupones en e
Se admite que no siempre es fácil distinguir los diversos niveles d

abstracción. Una abstracción para una persona es algo concre o p
otra. Los sociólogos de la historia y los demógrafos entienden a as
ción de formas muy diferentes. Además, los términos antes definíaos n
se aplican de manera estricta. En el ejemplo de los bonos mención
antes, por ejemplo, la teoría general podría ser un modelo, as ip
podrían ir acompañadas de modelos adicionales (que explican e u
namiento de cada una), y virtualmente todos los elementos po rían
una teoría. . , .
Adviértase que el término teoría puede implicar un nivel a to e a
tracción o indicar simplemente que hay un grado de especulación aso
do con un argumento. En este último sentido, teoría es sinónimo e pi
posición o hipótesis. Las teorías se asocian típicamente con a in eren
causal, pero no siempre es así. , .•
Obviamente hay mucha fluidez terminológica en este campo seman
co. Por consiguiente, no voy a insistir en distinciones claras, y términos
como explicación, hipótesis, inferencia, modelo, proposición y teoría se
emplearán en el texto de forma intercambiable. Todos son argumentos, es
decir, asertos sobre la naturaleza de alguna realidad empírica.
Nuestro interés por los argumentos en la ciencia social reside no en su
sustancia, sino en sus propiedades metodológicas. ¿Qué hace que un ar
gumento sea útil para la ciencia social? ¿Qué es un buen argumento. ¿
uno malo (inútil)? Estas preguntas se tratan fugazmente en la mayoría e
80
3 Argumentos
los textos de metodología. Con frecuencia se desestiman por considerar

que atañen a la filosofía.1 Y, sin embargo, resulta que representan un pa
pel crucial para la investigación en las ciencias sociales.
Voy a intentar mostrar aquí que todos los argumentos en las ciencias
sociales pugnan por la verdad, la precisión, la generalidad, la delimitación,
la parsimonia, la coherencia, la conmensurabilidad y la relevancia, como
indica la tabla 3.1. Es natural que estos desiderata signifiquen cosas lige
ramente diferentes cuando se aplican en el contexto de argumentos des
criptivos y de argumentos causales. Sin embargo, son lo suficientemente
semejantes como para presentarlos juntos. En otros apartados del libro
exploraremos las características distintivas de estos dos estilos de argu
mentación (véanse las partes II y III).
Tabla 3.1 Argumentos: criterios generales_____________________

1. Verdad (precisión, validez, veracidad)
¿Es verdadero?
2. Precisión (especificidad)
¿Es preciso?
3. Generalidad (extensión, dominio, población, rango, amplitud)
¿Cuán amplio es su rango? ¿Cuántos fenómenos describe/explica una
teoría?
4. Delimitación (condiciones de alcance)
¿Cuán acotado está?
5. Parsimonia (concisión, economía, la navaja de Ockham, reducción,
simplicidad)
¿Cuán parsimonioso es? ¿Cuántos supuestos se requieren?
6. Coherencia (claridad, consistencia; antónimo: ambigüedad)
¿Cuán coherente es?
7. Conmensurabilidad (consiliencia, armonía, economía lógica, utilidad
teórica; que no sea ad hoc)
¿Cómo se combina con otras inferencias? ¿Promueve la economía lógica en
un campo?
7. Relevancia (importancia cotidiana, significación)
¿Cuán relevante es para cuestiones que preocupan a los ciudadanos y los
diseñadores de políticas?
Verdad
Los argumentos pugnan por ser verdaderos. Ésta es la virtud más impor
tante de una proposición de ciencia social, porque los argumentos verda
deros suelen ser más útiles que los falsos. Se admite que, en algunas oca
siones, las inferencias falsas logran cosas interesantes, pero creemos que
81
la ciencia social no tiene ningún valor salvo cuando sus inferencias son,
en general, verdaderas. Si la ciencia no es verdadera, la empresa carece
de sentido.
Pero el problema de la verdad no es tan simple como puede parecer a
primera vista. Primero, debemos tener en mente que la verdad de un ar
gumento suele entenderse en referencia al argumento en sí: al enunciado
o conjunto de enunciados que se hacen sobre el mundo. Los estudiosos
escogen cuestiones concretas para discutirlas. No pretenden representar
toda la verdad sobre ningún tema y menos aún sobre todos los temas.
El argumento elegido por el estudioso puede ser «positivo» o «negati
vo». El argumento «la teoría A está equivocada» es un argumento nega
tivo que puede ser verdadero o falso. Es el autor del argumento el que
decide los términos en los que va a argüir, es decir, la base o hipótesis
nula en la que se enmarca el argumento.
Hay también dimensiones periféricas de un argumento que implican
cuáles son los límites de una inferencia (su alcance o población), los me
canismos de una teoría causal, y otras cuestiones relacionadas con los es
tilos concretos de argumentación descriptiva y argumentación causal
(como se verá más adelante y en los siguientes capítulos). Cada uno de
ellos se puede juzgar verdadero o falso. De esto se sigue que un argumen
to puede ser verdadero en algunos aspectos y falso en otros.
Precisión
Una segunda propiedad de todo argumento es su grado de precisión.

Cuanto más precisa es una afirmación, más útil será en el sentido de que
proporciona más información sobre un posible fenómeno. No es casuali
dad que la precisión haga también que el argumento sea más falsable.2 Si
esto no le convence, consideremos un enunciado sobre el mundo que es
totalmente impreciso como, por ejemplo, «los gobiernos municipales de
Africa son democráticos, autocráticos o algo intermedio». Este tipo de
enunciados no excluye ninguna posibilidad lógica, porque todas las polí
ticas se pueden clasificar en algún lugar del espectro político. Llevado al
límite, un enunciado que carece totalmente de precisión no dice absoluta
mente nada sobre el mundo y por lo tanto es completamente no falsable.
Por supuesto, imponer una mayor precisión puede suponer costes en
otras dimensiones. En particular, la precisión varía inversamente con la
exactitud probable de un argumento. Cuanto mayor es la precisión, me
nor probabilidad hay de que un argumento sea verdad. Así, modificando
nuestro ejemplo hipotético y señalando que «el 65 por ciento de los go
biernos municipales de África es democrático», tendemos a equivocarnos
más. Hay muchas oportunidades de no acertar.
82
3 Argumentos
La precisión o imprecisión relativa de un argumento se puede expresar

de varias maneras. Se puede cualificar la precisión (por ejemplo, «exacta
mente») o la imprecisión («usualmente», «alrededor de», «poco más o
menos», «generalmente», «posiblemente», «aproximadamente», «tiende
a») en la formulación de un argumento. Por otra parte, un enunciado
puede cuantificarse («el 65 por ciento»), y el número con el que se cuan-
tifica puede incluso llevar varios decimales («el 65,000 por ciento) que se
corresponden con el grado de precisión dado a la estimación. Otra técni
ca es el intervalo de confianza, el intervalo alrededor de una estimación
que indica el rango de valores que la estimación puede adoptar (en un ni
vel dado de certidumbre, digamos el 95 por ciento).
Generalidad
Si el propósito fundamental de la ciencia social es decirnos cosas sobre
el mundo, entonces no hay razón alguna para que una inferencia que
nos informa sobre muchos fenómenos sea, en virtud de este hecho,
más útil que una inferencia que sólo nos informa sobre un puñado de
fenómenos. Me referiré a este desiderátum como generalidad (también
se le puede llamar amplitud, capacidad de generalización o alcance).
Queremos que una teoría abarque tantos fenómenos como sea posible.
Cuanto más podamos explicar con un argumento dado (ceteris parí-
bus), más poderoso será el argumento. Las teorías de gran alcance nos
dicen más sobre el mundo porque explican porciones mayores de ese
mundo. Así, una teoría de la democracia que describe o explica satis
factoriamente los tipos de régimen de los Estados nacionales es supe
rior a una que sólo atañe a una única región del mundo o una única
época histórica. Y una teoría o marco teórico que describe o explica
diferentes tipos de fenómenos es más útil que otra que se refiere a un
único resultado.
Adviértase que el poder del marxismo se deriva de su aplicación a una
amplia variedad de comportamientos sociales; no es sólo una teoría de la
revolución o una teoría del comportamiento económico. El hecho de que
los miembros de cada tribu de las ciencias sociales puedan recurrir a al
guna versión de la teoría marxista certifica la extraordinaria amplitud de
este marco teórico. En cambio, Malinowski señala en su clásico de la an
tropología Los argonautas del Pacífico Occidental-.
Los hechos aislados carecen de valor para la ciencia, por muy sorprendentes y
novedosos que sean. La investigación científica genuina difiere de la mera bús
queda-curiosidad en que esta última persigue lo pintoresco, lo singular y lo raro
—el afán de lo sensacional y la manía de coleccionar suministran un estímulo
doble. La ciencia, en cambio, tiene que analizar y clasificar los hechos con el fin
83
de situarlos en un todo orgánico, de incorporarlos en uno de los sistemas en los

que intenta agrupar los diferentes aspectos de la realidad?
Aunque quizás es demasiado radical (ciertamente, en algunas ocasiones

nos interesan los resultados particulares), debe admitirse que la amplitud
es superior, ceteris paribus, a la estrechez.
Se admite que no todos los investigadores están igual de enamorados de
la generalidad como objetivo analítico. Algunas obras de ciencias sociales,
normalmente con un tema histórico, se centran en eventos particulares,
por ejemplo en el declive de la aristocracia inglesa, la Revolución France
sa, la Primera Guerra Mundial o la caída de la Unión Soviética. Aun así,
este tipo de trabajos no está totalmente exento de generalidad. Primero,
todos estos eventos pueden tener implicaciones generales para el posterior
desarrollo de países concretos y/o para el mundo en general. Al explicar X,
podemos, por extensión, estar explicando otros fenómenos. Segundo, to
dos estos eventos se pueden considerar un caso de un fenómeno más gene
ral. De nuevo, uno está también arrojando luz sobre una población mucho
mayor.4 Y, finalmente, eventos macrosociales como las revoluciones pue
den incluir cientos, si no miles, de microeventos. Se requiere una reducción
considerable con el fin de extraer alguna conclusión sobre una guerra, una
revolución o un cambio en la estructura de clases. Generalizar sobre la Re
volución Francesa es generalizar sobre una porción grande de realidad. A
estos respectos, hasta el historiador más ideográfico no desearía eximirse a
sí mismo de la demanda de generalidad.
Pero lo más importante es que mientras la generalidad es un objetivo
preconocido de la ciencia, el particularismo no lo es. De hecho, lo que los
escritores propensos a la ideografía rechazan de los trabajos de gran al
cance no es el gran alcance per se sino el sacrificio de otras virtudes
como, por ejemplo, la verdad o la precisión. Así, mi defensa de la genera-
idad, si se formula en términos ceteris paribus (como es el caso de todos
os criterios), se puede considerar una norma consensuada en las discipli
nas de ciencias sociales (con la posible excepción de la antropología, que
en as últimas décadas se ha aproximado a las humanidades).
Aunque consideremos que la generalidad es un ideal normativo, siem
pre se verá como una cuestión de grado. Ningún argumento es ilimitado
en su alcance. (Las condiciones de los límites están implícitas en los tér
minos de cualquier hipótesis, sea descriptiva o causal.) De igual modo,
como se ha señalado antes, pocos argumentos en ciencias sociales se re
fieren a un solo evento (independientemente de cómo se defina).
Consideremos las siguientes tres preguntas de investigación: (1) ¿Por
que ocurrió la Revolución Francesa?; (2) ¿Qué es lo que explica las revo
luciones que han ocurrido en la era moderna (1789-2000)? Y (3) ¿Por qué
ocurren las revoluciones? La primera manera de formular la pregunta es
84
3 Argumentos
ia más específica y la última la más general. Pero incluso en este último

caso podemos identificar límites a la población. Por ejemplo, una revolu
ción (tal y como se entiende usualmente el término) presume la existen
cia de una entidad política más compleja que una banda o tribu, como
un imperio o un Estado nacional. Esto limita el alcance de cualquier ar
gumento que se formule.
Para los propósitos de este libro los argumentos que más me preocu
pan son los que se refieren a poblaciones más grandes que las de cual
quier muestra de observaciones. Sin duda, la validez externa depende de
la validez interna (términos que se definirán en el capítulo 4). Si estamos
estudiando la Revolución Francesa para aprender sobre las revoluciones
en general, entonces tenemos que estar de acuerdo en la causa de la Re
volución Francesa. Sin embargo, si nuestro objetivo definitivo es explicar
las revoluciones, y no sólo la francesa, hay varios rasgos en el proceso de
inferencia que son diferentes.
Nótese que incluso tratándose de una muestra exhaustiva de población
—es decir, cuando se estudian todos los casos de una población (como a
menudo sucede en los estudios globales de Estados nacionales)—, hay
una diferencia entre las inferencias generalizadoras y las particularizado-
ras. Una inferencia generalizadora considera la muestra elegida como un
subconjunto de una población mayor (quizás difícil de definir) que se ex
tiende hacia atrás y hacia delante en el tiempo —más allá del tiempo ele
gido de análisis. También puede considerar la muestra como una posible
muestra de un conjunto de «mundos alternativos» —un ejercicio mental
contrafáctico.5 En cambio, una inferencia particularizadora se centra úni
camente en explicar qué sucedió con los casos seleccionados sólo durante
el periodo de tiempo elegido de estudio. Al respecto de la inferencia cau
sal, los argumentos particularizadores atañen a las «causas de hecho»
(llamémoslas causas reales) más que a las causas en general.
Delimitación
Por lo que se refiere al alcance de un argumento, cuanto mayor sea, me
jor, pero evidentemente sólo hasta cierto punto. En efecto, suele ocurrir
que a medida que aumenta el alcance de un argumento, disminuyen su
veracidad, precisión o coherencia. He aquí el punto en el que el criterio
de la generalidad entra en conflicto con otros criterios científicos especí
ficos (incluidos los de fecundidad e impacto que se tratarán en capítulos
posteriores, cuando hablemos de las inferencias descriptivas y causales
respectivamente).
Cuando el investigador formula un argumento, su objetivo es identifi
car aquellos fenómenos que se enmarcan adecuadamente dentro del al
85
canee de una teoría y excluir a los que no lo hacen. Las inferencias deben
estar clara y adecuadamente acotadas —no deben ser ni muy grandes ni
muy pequeñas.
En contextos empíricos, la población de una inferencia suele ser la po
blación de la que se elige la muestra en cuestión. Si una muestra se extrae
aleatoriamente de individuos que viven en los Estados Unidos, entonces
la población supuesta es Estados Unidos. Aquí, sin embargo, me refiero
al alcance de un argumento más que a la representatividad de la muestra.
Esto tiene un significado especial para las inferencias causales. El al
cance debe extenderse a todos los casos en los que la relación causal es
perada es la misma, dados los factores contextúales. En notación formal,
para todos los N, E( Es decir, para todos los casos posibles dentro
del alcance de un argumento, los valores esperados de un resultado, dado
un factor (factores) causal de interés, deben ser los mismos.
Desafortunadamente, identificar este punto de equilibrio no siempre
es fácil. En algunas ocasiones ocurre simplemente que las condiciones de
alcance de una teoría no se pueden demostrar empíricamente. En otras,
la evidencia empírica es comprobable, pero los resultados son ambivalen
tes: el argumento se esfuma lentamente a medida que el alcance de la in
ferencia aumenta, carente de puntos de corte definitivos. E incluso cuan
do la evidencia es comprobable y tiene puntos de corte aparentemente
concluyentes, nunca podemos resolver el problema de la delimitación
acudiendo únicamente a la evidencia. Las condiciones del alcance de un
argumento descansan en los supuestos subyacentes sobre el alcance lógi
co de una teoría.
Veamos el siguiente ejemplo: a los votantes les preocupa más la políti
ca nacional que la exterior. Y nos preguntamos: ¿cuál es el alcance apro
piado de esta proposición? ¿Cuáles son sus límites? El enfoque empírico
consistiría en testar a todos los votantes, en todas partes. Pero hay límites
prácticos para hacerlo. Y no se puede encuestar a los votantes históricos,
los que existían antes de iniciar la investigación por encuesta. Por lo tan
to, nos vemos obligados a considerar la lógica del argumento. ¿En qué
circunstancias es razonablemente adecuada esta proposición?
La especificación de una inferencia clara y adecuadamente acotada
es esencial para su falsabilidad. De hecho, una proposición que carece
totalmente de límites no se puede comprobar, pues no es evidente dón
de se aplica la teoría. En efecto, no especificar los límites de una teoría
equivale a decir: «El alcance consiste en aquellos lugares donde la teo
ría es verdad, y el área fuera del alcance consiste en los lugares donde
la teoría es falsa». Ésa es una pregunta de investigación, pero no es un
argumento. Si los casos en los que una teoría fracasa se excluyen de los
límites de una inferencia, realmente hemos dejado fuera todos los casos
que no se ajustan a la teoría. Se ha acusado a los estudios realizados en
86
3 Argumentos
el marco de la elección racional de esta suerte de manipulación, a la

que Don Green e lan Shapiro se refieren como la «restricción del domi
nio arbitrario».6
Para nuestros propósitos aquí no es importante si los estudiosos de la
elección racional son culpables o no de cometer este pecado. Lo que no
hay que olvidar es que la especificación del alcance es simplemente el pri
mer paso para formular un argumento con sentido. También tenemos
que asegurarnos de que los límites elegidos tengan sentido. Una inferen
cia arbitrariamente acotada, una que aparentemente no sigue ninguna ló
gica, no es convincente. El lector seguramente encontrará ejemplos de
teorías cuyo alcance es demasiado ambicioso, o no lo suficientemente, o
es simplemente ambiguo (quizás implícito). Toda inferencia puede exten
derse y convertirse en un sinsentido debido a que su alcance es arbitra
riamente grande. Por la misma regla, una inferencia puede convertirse en
un sinsentido si adopta un alcance arbitrariamente pequeño.
Lo que significa «dar sentido» varía en función del contexto, y se ana
lizará en los próximos capítulos. Ahora sólo serán necesarios unos breves
comentarios. Tenga en cuenta que algunas condiciones de alcance son
patentemente absurdas. Por ejemplo, hay autores que en ocasiones pro
claman que su inferencia pretende explicar el pasado y el presente, pero
no el futuro. Aunque es razonable suponer que en algún momento del fu
turo las realidades sociales habrán cambiando tanto que las condiciones
de alcance de las teorías del momento ya no servirán, parece improbable
que ese momento vaya a llegar el día en que un libro o artículo se publi
ca. Los límites temporales son justificables sólo si se pueden conectar
con los fenómenos del mundo que pueden influir en el funcionamiento
de una teoría dada. Lo mismo puede decirse de los límites espaciales
como, por ejemplo, «Latinoamérica», «Oswego Norte» o «los colegios
con violencia juvenil». Decir que un argumento está adecuadamente li
mitado equivale a decir que se han especificado límites claros y, lo que es
más oportuno, que esos límites tienen mucho sentido teórico.
Parsimonia
El séptimo objetivo general de la ciencia es la reducción, es decir, la re

ducción de la infinita plenitud de la realidad en un argumento cuidado
samente formulado en el que se ha eliminado todo lo que es superficial e
innecesario. Si se logra este objetivo, el argumento es parsimonioso. Igual
que una palanca, levanta pesos pesados aplicando una cantidad de fuer
za moderada. Es eficiente, y su eficiencia se deriva de su capacidad para
explicar mucho con un gasto mínimo de energía. Si, por otra parte, una
inferencia no es resumible en algo compacto, su impacto disminuye. (Los
87
lectores se percatarán de que el objetivo de la parsimonia está relaciona

do con el de la generalidad, y viceversa.7)
El objetivo de la parsimonia no necesariamente entra en conflicto con
la extensión de un estudio. En realidad, puede que se necesiten extensos
análisis para suministrar la evidencia de un argumento enjundioso. Con
sideremos por ejemplo la obra de Charles Darwin, Karl Marx, Adam
Smith, Herbert Spencer y Oswald Spengler. Ninguna de ellas es conocida
por su corto alcance. En cambio, todas son célebres por sus teorías parsi
moniosas. La parsimonia no impide la larga extensión, aunque sí requie
re enunciar de forma concisa sus proposiciones claves.8
Nótese que el criterio de la parsimonia, en ocasiones expresado como
la navaja de Ockharn, atañe en igual medida tanto a los argumentos desa
rrollados en prosa como a los expresados en símbolos matemáticos. En
los primeros, la parsimonia es equivalente a la concisión. En los segun
dos, la parsimonia se refleja en el número de parámetros en un modelo o
en la complejidad y extensión de una demostración.
La parsimonia es valiosa no porque supongamos que la simplicidad
armoniza con el orden natural de las cosas. Este supuesto puede soste
nerse para los fenómenos naturales; pero es de dudosa aplicación en el
ámbito de la acción humana y las instituciones creadas por el hombre,
donde el supuesto de la complejidad reclama una mayor validez aparen
te. Es por razones más pragmáticas que ontológicas por lo que preferi
mos una inferencia parsimoniosa a una prolija. Tenemos que reunir el
conocimiento de forma razonablemente compacta para poder utilizarlo
provechosamente.9
Es más, un argumento parsimonioso requiere menos supuestos sobre
el mundo. Nótese que una proposición científica resulta comprensible
sólo a la luz de un lenguaje (técnico o común) y un cuerpo de conoci
miento existente. Las inferencias parten de lo que sabemos ya —o de lo
que creemos que sabemos— sobre el mundo. Nada empieza desde cero.
Un buen argumento casi nunca se aleja del sentido común, requiere po
cos actos de fe, pocas estipulaciones, pocos supuestos a priori. Descansa,
a estos respectos, sobre fundamentos más sólidos. Una teoría pobremen
te construida, en cambio, le pide al lector que acepte muchísimo sobre el
mundo en nombre de la superioridad del autor. Esta suerte de inferencia
no parte de fundamentos sólidos. Es estipulativa.
Desde luego, todos los argumentos se basan en supuestos, y es aconse
jable hacer que estos supuestos sean lo más transparentes posibles a efec
tos de que el argumento se pueda evaluar con facilidad. (Es uno de los
beneficios de un modelo formal bien construido.) Dicho esto, cuantas
menos suposiciones necesite una proposición, más sólida será y menos
trabajo empírico se requerirá para probar su veracidad. Podemos conce
bir cada proposición de un argumento como un eslabón de una cadena
88
3 Argumentos
lógica. Podemos evaluar prima facie la fuerza de todo el argumento por

el número de supuestos que éste requiere y por su certeza e incerteza rela
tivas. El argumento ideal sólo contiene una cuestión empírica en liza —la
hipótesis principal—; todo lo demás se ha de considerar como firmemen
te fundamentado o ya establecido.
El razonamiento que hay detrás de la navaja de Ockham apunta a una
verdad mayor sobre el comportamiento de la ciencia, a saber: la innova
ción no ocurre en todos los aspectos de un problema a la vez. En la muy
citada analogía de Otto Neurath, la reconstrucción científica ocurre
mientras el barco está en el mar. Cada bao se puede sustituir inmediata
mente por otro de la misma embarcación, pero quizás con otra función,
de forma que con el tiempo el efecto es que se transforma el propósito
original del buque más allá de su reconocimiento.10 La cuestión es que si
se quitan demasiados baos a la vez el barco (y, por extensión, el argu
mento) se hunde. Tenemos que trabajar de forma gradual. Efectivamen
te, el significado se rompe cuando el lenguaje se extiende demasiado. Los
argumentos dejan de tener sentido. Así, cuantos menos supuestos requie
ra una teoría, más falsable y más creíble es. Encaja en lo que damos por
supuesto sobre el mundo.
Coherencia
Para que sea significativo, un argumento debe mostrar cierto grado de

coherencia (consistencia interna). Si contiene muchos elementos móviles,
como ocurre en una teoría amplia y abstracta, éstos deben poder mante
nerse unidos. Una teoría compleja debe girar en torno a un único núcleo,
y sus preceptos estar vinculados lógicamente. Una faceta debe implicar
las demás. De hecho, si las partes de un argumento no son coherentes, el
argumento en sí carece virtualmente de sentido y no es comprobable.
(Para algunos escritores, la parsimonia equivale a la coherencia. Pero
como estos términos tienen implicaciones un poco diferentes, las mencio
no por separado.)
Conmensurabilidad
Hemos dicho que los argumentos tienen significado dentro de un campo

de conceptos y teorías preexistentes; en efecto, apenas son comprensibles
en sus propios términos exclusivamente. (¿Qué términos serían éstos?)
Como los hechos, las teorías no se mantienen solas. Están relacionadas
con un conjunto más amplio de teorías que pertenecen, típicamente, a un
campo o subcampo de estudio.
89
¿Dónde se acomoda mejor una teoría, dentro, por encima o al lado de

otras teorías? ¿Promueve la economía lógica en un campo al subsumir
quizás otras teorías vecinas? Si es así, entonces podemos decir que una
teoría contribuye a la acumulación de conocimiento sobre el tema. Es
una teoría conmensurable. En caso contrario, si está aislada y no se rela
ciona productivamente con otras teorías, entonces es probable que sea
calificada y descartada por «ad hoc» e «idiosincrásica». No encaja con la
comprensión presente del mundo. Tiene poca utilidad conceptual o teó
rica.
Por supuesto, las teorías desviadas y los neologismos (conceptos nue
vos) pueden ser sumamente útiles en el largo plazo. De hecho, el primer
signo de ruptura de una gran teoría o paradigma es la existencia de ha
llazgos que no se pueden explicar fácilmente. Pero hasta que no se pueda
construir una nueva teoría o paradigma (uno que reúna los nuevos ha
llazgos y los antiguos en un único marco teórico integral), esa proposi
ción desviada es ad hoc, idiosincrásica y candidata a ser ignorada.
La conmensurabilidad reconsidera la demanda de parsimonia a una es
cala mayor. Más que referirnos a las propiedades de las teorías individua
les, nos preocupa ahora la parsimonia en un campo, en una disciplina, en
tre las ciencias sociales, y quizás entre las ciencias en general. Ernst Mach
¡ concibe el proyecto fundamental de la ciencia como un esfuerzo para pro-
I ducir «la presentación más completa posible de los hechos con el menor
I gasto posible de pensamiento».11 Varias décadas después, Einstein suscri
bió «el esfuerzo de reducir todos los conceptos y correlaciones a la menor
cantidad posible de conceptos básicos y axiomas lógicamente indepen
dientes».12 Y hace menos tiempo aún, Edward O. Wilson señaló que «hay
sólo una clase de explicación. Atraviesa el espacio, el tiempo y la compleji
dad para unir hechos separados de las disciplinas por medio de la consi-
liencia, la percepción de una red continua de causa y efecto».13 Los argu
mentos a favor de la unidad de la ciencia son muchos y variados.
Por descontado, en las ciencias sociales estos esfuerzos tienden a expe
rimentar mucho menos éxito que el que previeron March, Einstein y Wil
son en las ciencias naturales. La conmensurabilidad es una cuestión de
grado. Pero esto no nos debe cegar ante la necesidad de la economía lógi
ca y su utilidad tal y como la experimentamos ya. Nos hemos acostum
brado, por ejemplo, a categorizar las obras en varias tradiciones —la
durkheimiana, la weberiana, la marxista, la freudiana, la elección racio
nal, la conductista— y en pequeños nichos definidos por subcampos
concretos. Esta suerte de agrupamientos hace que la empresa académica
sea manejable, hasta el punto de que lo es enteramente. (Imagínese lo
que pasaría si no tuviéramos esos nichos.) Quizás, con el tiempo, lo hare
mos mejor. Esto es a lo que aspira la teoría de la elección racional y
otros grandes marcos teóricos.
90
3 Argumentos
Relevancia
La ciencia social es una especie del conocimiento práctico. «Cualquier
problema de investigación científica no derivado de condiciones sociales
reales (o “prácticas”) es facticio», como señala Dewey:
Todas las técnicas de observación que se emplean en las ciencias avanzadas pue
den ser adecuadas, incluido el uso de los mejores métodos estadísticos para cal
cular errores probables, etc., y, sin embargo, el material comprobado puede estar
científicamente «muerto», es decir, puede ser irrelevante para un problema ge
nuino, de tal forma que esa preocupación puede equivaler a poco más que a un
gran esfuerzo intelectual improductivo.15
Si los científicos sociales no nos pueden decir algo útil sobre el mundo,
entonces ellos (nosotros) apenas aportan (aportamos) algo (un asunto
que veremos con más detalle en el capítulo 14). Uno de los criterios de
utilidad social —podríamos incluso considerarlo una condición necesa
ria— es la relevancia}6
Por relevancia entiendo que algo sea significativo para los ciudadanos
legos del mundo. Desafortunadamente, entre los autores de trabajos aca
démicos hay algunos que confunden la noción de lo estadísticamente sig
nificativo con lo significativo para la vida real. McCloskey y Ziliak revi
saron los estudios económicos y se refirieron a este hecho como el «error
típico de las regresiones».17 Ésta es la razón de por qué debo insistir en
un asunto que puede parecer obvio.
El criterio de relevancia no implica una ciencia social compuesta de
defensores celosos, un campo donde los autores apoyan políticas particu
lares o sacan conclusiones morales/éticas sobre los actores y las acciones
históricas: donde el pasado, expresado en una acertada frase de Michael
Oakeshott, se convierte «en un campo en el que ejercemos nuestras opi
niones morales y políticas, como galgos en un prado un domingo por la
tarde».18
Por la misma razón, parece inútil insistir en que la ciencia social debe
evitar descartar totalmente las opiniones, pues suele ser difícil eludir las
preocupaciones «normativas». Imagínese escribiendo sobre el Holocaus
to o la esclavitud de forma totalmente desapasionada. ¿Cómo se percibi
ría un tratamiento imparcial de estas cuestiones? Por lo general, el len
guaje común no es moralmente neutral, y la ciencia social debe aceptar el
vocabulario con carga afectiva como una condición de la empresa.19 De
jando a un lado estos ejemplos extremos, es difícil concebir enunciados
importantes sobre las acciones y las instituciones humanas que no ten
gan carga normativa. Como mínimo, la elección que hacemos del tema
tiende a guiarse por cierto sentido de lo correcto y lo incorrecto. «En
teoría», escribe E. H. Carr,
91
se puede distinguir... entre el papel del investigador que establece los hechos y el
papel del profesional que considera el curso de acción correcto. En la práctica,
un papel ensombrece imperceptiblemente al otro. Propósito y análisis son parte
y todo de un mismo proceso.20
Me resulta imposible entender por qué alguien elige invertir años (típica
mente décadas) investigando un tema si no tiene alguna importancia
normativa para él. Podría decirse que la pretensión a la verdad es más in
tensa cuando un autor proclama francamente sus preferencias al iniciar
su trabajo. De esta manera, las posibles inexactitudes en la evidencia o la
presentación son fáciles de detectar y evaluar. Los prejuicios ocultos pro
bablemente perjudican más que los que se reconocen abiertamente. Pero
debe acentuarse de nuevo que el valor de un trabajo de ciencia social se
deriva de su valor añadido, no de su punto de vista normativo. Decir «X
es bueno» o «debemos hacer X» es decir sumamente poco. A pocos con
vencerá este enunciado salvo por la superioridad del autor. ¿Y qué supe
rioridad tienen los miembros de la casta de las ciencias sociales aparte de
la sola superioridad que concede la ciencia social?
La ciencia social es típicamente más poderosa cuando el ángulo nor
mativo de un trabajo se maneja con delicadeza. Los argumentos más
convincentes a favor del Estado de bienestar son aquellos que demues
tran relaciones causales como, por ejemplo, que determinados progra
mas ayudan a paliar las condiciones de pobreza y carecen de externalida-
es negativas. Estos estudios no proclaman abiertamente que «la pobreza
es mala» o que «debemos aumentar el gasto en bienestar social», aunque
sin duda son ideas que guían la mayoría de las investigaciones sobre la
po reza y las políticas sociales. Si la investigación del autor está bien he-
c a, no nos debe importar su posición normativa sobre el asunto que ‘
Por decirlo de otra manera: la fuerza persuasiva de cualquier argu

mento normativo es en sí dependiente de la fuerza persuasiva de las pro
posiciones descriptivas y causales que componen ese argumento. Las
proposiciones descriptivas y causales son la sustancia de cualquier enun
cia o prescriptivo. De modo similar, el hecho de que el investigador esté
motivado por su idea de una sociedad mejor o sólo por intereses perso
na es o materiales, es totalmente irrelevante para juzgar la calidad de su
tra ajo. Hay idiotas y genios entre los que están convencidos de una u
o ra cosa, referimos leer a los genios y dejar a los idiotas a un lado, al
margen de sus ideas personales o códigos éticos.
Por último, parece oportuno observar que la inmensa mayoría de los
análisis de ciencia social tienen poco que ver con lo que es bueno o malo.
Jnguno 0 casi ninguno— discute las virtudes de la paz, la prosperi
dad, la democracia y la autorrealización. Lo que sí es relevante (en un
92
3 Argumentos
sentido general) es cualquier conocimiento que nos ayude a cumplir es

tos desiderata.21 Aquí es donde la ciencia social importa, o debe importar.
No quiero dar la impresión de que creo que la ciencia social sólo deba
preocuparse por la relevancia de las políticas. Podemos sentirnos muy
preocupados, por ejemplo, por descubrir una sola prescripción política
en la obra de David Brion Davis, Edmund Morgan y Orlando Patterson
sobre la institución de la esclavitud humana.22 Pero podría decirse que
nadie que no conozca la obra de estos autores puede comprender pro
fundamente ningún debate contemporáneo de política social en los Esta
dos Unidos. De modo similar, aunque los trabajos sobre la Revolución
Americana, la Constitución, la Guerra Civil y otros temas históricos son
indudablemente importantes para comprender dónde estamos hoy, sería
difícil derivar implicaciones políticas de cada uno de estos sucesos. Lo
mismo puede decirse de muchos temas de estudio en los diversos campos
de las ciencias sociales. La cuestión no es, por lo tanto, que todos los es
tudios deben contener una lección política, sino que todos los estudios
deben reflejar algo que preocupa o debería preocupar a los ciudadanos y
a los diseñadores de políticas.
El propósito de la relevancia atañe, por lo tanto, a la historia, la an
tropología y otros campos interpretativos cuyo impacto en las cuestiones
públicas es seguramente más difuso. En efecto, uno de los argumentos
más fuertes en contra de un modelo naturalista para las ciencias sociales
es que ese modelo nos impediría escribir sobre cosas que importan. De
masiado preocupado por su estatus como ciencia, Barrington Moore
opina lo siguiente:
...la ciencia social desatiende tareas más importantes y urgentes. Los principales
rasgos de cómo será la sociedad en la próxima generación nos los proporcionan
las tendencias que operan hoy día. La libertad de maniobra de la humanidad
descansa en el marco creado por la historia. Los científicos sociales y sus estu
diosos aliados pueden ayudar a ampliar el área de elección analizando las ten
dencias históricas que ahora la limitan. Podrían mostrar imparcial y honesta
mente y con libertad respecto a las demandas especiales de los gobiernos y los
intereses creados, el rango de posibles alternativas y las posibilidades para la ac
ción efectiva. Éste ha sido, después de todo, el objetivo de la investigación sobre
los asuntos humanos en las sociedades libres desde los griegos.23
Con independencia de cuán virtuosa pueda ser una teoría al respecto de

otros criterios, si no puede superar la prueba del ¿y qué? no tendrá mu
cho valor. Las inferencias, grandes o pequeñas, tienen varios niveles de
relevancia. Hay algunas cosas que pueden no preocuparnos, por mucho
que simpaticemos con el autor. Por lo tanto, la relevancia representa un
papel vital a la hora de identificar los problemas en ciencias sociales que
merecen la pena estudiarse.
93
En el análisis causal la relevancia también representa un papel para identi

ficar los factores que merece la pena analizar. Considérese la reflexión que
hace Patrick Gardiner sobre la cuestión clásica de la guerra:
Cuando se investigan las causas de la guerra, puede determinarse que tanto los
factores económicos como la psicología humana son relevantes para que la gue
rra estalle; pero como nos consideramos con la capacidad de alterar o influir en
el sistema económico de una sociedad, y el control de la psicología humana pa
rece estar, al menos hoy día, más allá de nuestra capacidad, tendemos a conside
rar que la economía, más que los factores psicológicos, son la «causa» de la gue
rra.24
De modo similar, en los análisis de políticas sociales, los argumentos ba

sados en factores político-culturales muy enraizados son en algunos as
pectos menos interesantes que los argumentos que se basan en el diseño
de las políticas. Estos últimos se pueden rediseñar, mientras los primeros
son presumiblemente de larga duración, y por lo tanto menos relevantes
para las discusiones políticas contemporáneas (salvo como condiciones
límite). Las causas relevantes tienden a ser manipuladles.25
A modo de conclusión, parece justo juzgar que las teorías (o los facto
res causales) que poseen una fuerte presunción de relevancia (ceteris pa-
ribus) son superiores a las que no la tienen. Y parece justo también pedir
a los autores que justifiquen la dedicación potencial de tiempo, esfuerzo
y dinero del lector con alguna compensación. Esto se trata tradicional
mente en el prefacio de un libro o artículo, donde el autor intenta ericon-
trar un gancho (un punto de interés general) en el que colgar su argu
mento, o en la conclusión, donde el autor reflexiona sobre las
ramificaciones de su estudio. Probablemente los lectores no se dejarán
atrapar por la fuerza del método o la prosa de un autor si no perciben
que hay algo importante en juego en la investigación. Han de preocupar
les los resultados.
94
4 Análisis
«¿Pero es verdad?»
Aaron Wildavsky1
Una vez analizados los criterios formales de un buen argumento, pasa

mos ahora a la parte empírica de la investigación en ciencias sociales, el
ansiado encuentro con la realidad.2 Nos podemos referir a esta fase de
diversas maneras: el análisis, la valoración, la corroboración, la demos
tración, la fase empírica, la evaluación, los métodos, las pruebas o la
comprobación. (Aunque hay sutiles diferencias entre estos términos, los
trataré como parte de la misma empresa general.)
Desde luego, la distinción entre la formación de la teoría y su compro
bación nunca es clara y evidente. Como ocurre en todas las áreas de las
ciencias sociales, las tareas se entremezclan. No podemos construir un
argumento sin considerar el problema empírico de su apreciación y vice
versa. Es más, la tarea de (des)confirmar teorías está estrechamente uni
da a la tarea de formar teorías. Como Paul Samuelson señala: «Para des
bancar una teoría se necesita otra teoría».3
Pero para abordar el complicado proceso de la ciencia social es esen
cial distinguir entre las propiedades formales de un argumento y los mé
todos por medio de los que se puede valorar ese argumento. Las pregun-
95
tas ¿qué es lo que está usted arguyendo? y ¿es verdad? son lógicamente
distintas, porque implican criterios diferentes de adecuación.4 Es más,
hay buenas razones metodológicas para respetar la separación entre la
teoría y el análisis (véase el apartado «Partición» más adelante). Proce
demos ahora de la primera al segundo.
Sin duda, no todas las hipótesis requieren una atención explícita a los
métodos de apreciación. Muchas hipótesis no necesitan en absoluto ser
comprobadas formalmente, porque son evidentes por sí mismas (por
ejemplo, «la guerra civil es disruptiva»), o no son suficientemente impor
tantes como para justificar la dedicación de tiempo y energía que un
análisis formal requiere (por ejemplo, «los programas de formación de
socorristas tienen efectos positivos en la probabilidad de matrimonio y
crianza de los hijos entre los participantes del programa»). Nuestra moti
vación aquí se centra en los argumentos que son lo suficientemente im
portantes como para realizar un procedimiento formal de comprobación
y lo suficientemente complejos, en términos de las amenazas potenciales
a su validez, como para preocuparse por las minucias del diseño de in
vestigación. La metodología falla cuando el sentido común escasea.
Definiciones
n análisis empírico estándar implica una serie de componentes que debe
mos clarificar antes de continuar. Buena parte de esta terminología proce-
e de la investigación por encuesta; no obstante, los conceptos son útiles
para todos los estilos de investigación, bien cuantitativos o cualitativos.
tina población es el universo de fenómenos que una hipótesis pretende
escribir o explicar. No se la estudia, o sólo se la estudia de una forma
muy informal, por ejemplo, en la literatura secundaria. En algunas oca
siones, es importante distinguir entre la población de la que se extrae una
muestra (que presumiblemente la representa) y una población hipotética,
mayor, que la muestra puede representar o no hacerlo, pero que, aun así,
efine las condiciones de alcance del argumento.
La muestra remite a la evidencia que se someterá a un examen directo,
s a ormada por unidades o casos: entidades limitadas como individuos
(sujetos), organizaciones, comunidades o Estados nacionales, que pue-
en ser observadas en el espacio y/o en el tiempo. (Los términos unidad y
caso son mas o menos equivalentes. La única diferencia entre ellos es que
una uní ad está limitada espacialmente, mientras un caso puede tener
también limites temporales implícitos o explícitos.5)
Normalmente, la muestra es menor que la población; de ahí la noción
de muestreo de una población. (Nótese, sin embargo, que el uso que hago
e termino muestra no necesariamente implica que los casos estudiados
96 .
4 Análisis
—la muestra— hayan sido elegidos aleatoriamente de entre una pobla

ción conocida.) En algunas ocasiones podemos incluir a toda la pobla
ción en una muestra: un censo.
Las observaciones que se hacen de las unidades en momentos (o perio
dos) de tiempo determinados son las piezas de evidencia que supuesta
mente son relevantes para una proposición descriptiva o causal. En con
junto, las observaciones de un estudio componen la muestra de un
estudio. Cada observación debe registrar valores en todas las variables
relevantes de cada unidad en un momento (o periodo) determinado de
tiempo. En el análisis causal, éstas incluyen X (el factor causal de interés
teórico) e Y (el resultado de interés), junto a otras variables consideradas
esenciales para el análisis.
En un formato de matriz, una observación suele representarse en una
fila y el número total de observaciones (filas) en una muestra es «N». En
algunas ocasiones, N se refiere de forma confusa al número de unidades
o casos, que puede ser muy diferente del número de observaciones. Los
diversos usos se aclaran normalmente a partir del contexto.
El último concepto, la celda de datos, es útil cuando queremos referir
nos a los datos pertenecientes a una unidad particular en un momento
del tiempo sólo al respecto de una dimensión. Aunque el término no se
usa comúnmente, a veces es esencial. Consideremos una observación que
consiste en al menos dos celdas en cualquier análisis causal: la celda que
representa el valor para X y la que representa el valor para Y. En algunas
ocasiones es necesario distinguirlas.
Estos conceptos interrelacionados se ilustran en la figura 4.1, donde
podemos ver un diseño de investigación transversal de series temporales
en una base de datos con formato (una matriz) rectangular. Aquí las ob
servaciones están en las filas, las variables en las columnas y las celdas
contienen la intersección de las dos. Nótese que las celdas están inserta
das en las unidades (los casos), las unidades en la muestra, y la muestra
en la población.
Supongamos que la población de una inferencia incluye todas las es
cuelas de Estados Unidos y la muestra está formada por ocho escuelas
observadas anualmente durante cinco años, lo que produce una muestra
de cuarenta observaciones (A = 40). Las unidades de análisis (el tipo de
fenómenos tratados como observaciones en un análisis) en este ejemplo
hipotético son los años de educación.
Si el diseño de la investigación fuese puramente transversal, sólo una
observación se tomaría de cada unidad, y las unidades de análisis serían
las escuelas más que los años escolares, y el número total de observacio
nes sería ocho (A = 8). En este contexto, el número de unidades es igual
al número de observaciones y la distinción entre unidad y observación se
pierde.
97
Y
CObslA (7’,)
Ofe 1.2 (T2)
Caso 1 Ôfel.3(T3)
Ofe 1.4 (T4) .........................
lOfe 1.5 (T5)
Ofe 2.1(7’,) ......... ...
Obs 2.2 (7’2)
Caso 2 Obs 2.3 (T3)
Obs 2.4 (T4) ............
Obs 2.5 (Tj) ............
Obs3A(T}) ...........
Obs 3.2 (Tp ............
Caso 3 Obs 3.3 (7’3) ............
Obs 3.4 (7’4) .............
Obs 3.5 (T5) .............
Obs 4.1(7’,) ..............
Ofe 4.2 (Tp ............ _... . .....
Caso 4 Obs 4.3 (T’P .................
Obs 4.4 (T’j ...................
Población - Muestra < Obs 4.5 (7’5) ...................
Obs 5.1 (T’,) .....................
Ofe 5.2 (7^) ...................
Caso 5 Obs 5.3 (7’3) .....................
Obs 5.4 (T’J ............ .....
Obs 5.5 (T’j) ......... ......
Obs 6.1(7’,) ................ .....
Ofe 6.2 (T2) ...................
Caso 6 Obs 6.3 (T3) .................
Obs 6.4 (Tj ....................
Obs 6.5 (T5) ......................
Obs 7.1 (7’,) ....................
Ofe 7.2 (7;) .....................
Caso 7 Obs 7.3 (7’¡) ................... .
Obs 7.4 ....................
K. Obs 7.5 (T5) .........................
Ofe 8.1 (T,) ....................
Obs 8.2 (T’P ........................
Caso 8 Ofe 8.3 (T’j) ...............
Obs 8.4 (T¿ ..................
Obs 8.5 (7’5) ..........................
Población = indeterminada; Casos/unidades = 8; Muestra/observaciones = 40;

Celdas = 120; Tiempo (7) = 1-5; Variables = 3.
Figura 4.1 Conjunto de datos transversales de series temporales
98
4 Análisis
Si el diseño de la investigación es puramente temporal, la muestra estaría

formada por una unidad observada en el tiempo. Si el periodo de muestra
es cinco años y las observaciones se han hecho anualmente, el número total
de observaciones es cinco (N = 5). Aquí, las unidades de análisis son tam
bién los años de educación, como en el primer ejemplo.
Todos estos términos son resbaladizos porque dependen de su significado
en una proposición particular y en su correspondiente diseño de investiga
ción. Cualquier cambio en esa proposición puede afectar al tipo de fenóme
nos que se clasifican como observaciones y unidades, por no mencionar la
composición de la muestra y la población. Así, una investigación sobre los
cupones escolares podría empezar por identificar las escuelas como unidad
principal de análisis, para luego cambiar a un nivel inferior de análisis (por
ejemplo, los estudiantes), o a un nivel superior de análisis (por ejemplo, los
distritos escolares) en diferentes momentos del estudio. En algunas ocasio
nes, se combinan diferentes niveles de análisis (por ejemplo, estudiantes, es
cuelas y distritos escolares). Esto es frecuente en el trabajo de estudios de ca
sos y es el rasgo que define los modelos estadísticos jerárquicos (multinivel).
Para complicar más las cosas, los límites exactos de un diseño de investi
gación suelen ser ambiguos. Esto se debe a que se suele plantear un tema de
diferentes maneras en el transcurso de un estudio. Por ejemplo, pueden
cambiar las variables clave (quizás para captar una dimensión diferente o
una operacionalización alternativa de un concepto complejo), las unidades
de análisis (ascendiendo o descendiendo en los niveles de anáfisis) y el enfo
que (a partir de la hipótesis principal para añadir hipótesis o mecanismos
causales); la muestra también puede cambiar para incluir diferentes tipos
de observaciones. Estas variaciones en el método son sólo unas de las pocas
que típicamente cohabitan en un solo estudio. Cada una de estas alteracio
nes se puede considerar un diseño de investigación distinto o una variación
de un diseño de investigación. De igual modo, se pueden describir como re-
plicaciones, comprobaciones del grado de robustez o como investigación
multimétodo (como veremos en capítulos posteriores). Así, resulta bastante
difícil determinar cuál es el diseño de investigación de un estudio dado, o
cuántos hay, sin tomar algunas decisiones bastante arbitrarias sobre lo que
está dentro o fuera del alcance de este concepto contextual. Dejo esta cues
tión abierta porque creo que no es fácil de determinar. Quizás no es esen
cial. Mi recomendación es que los autores aclaren lo que para ellos es el
«diseño de investigación» en un contexto dado.
Diseño de investigación frente a análisis de datos
Distinguimos tradicionalmente entre dos fases en el proceso de compro

bación. El diseño de la investigación se refiere a la selección y la organiza-
99
ción de la evidencia.6 El análisis de los datos remite al análisis de los da

tos una vez acopiados.
En un experimento estas fases se diferencian claramente: el diseño de
la investigación precede al análisis de los datos. Uno es ex ante y el otro
es ex post. (Desde luego, en los sucesivos ciclos de la investigación esta lí
nea se hace borrosa.) En la investigación observacional, estas dos fases
suelen entremezclarse. Como buena parte de este libro se centra en las
técnicas observacionales, el lector debe estar preparado para encontrar
cierto solapamiento entre estos dos conceptos. Pero la distinción tiene
sus consecuencias.
Una antigua tradición en la metodología de las ciencias sociales se
centra en hacer inferencias sobre un fenómeno basadas en cualesquiera
datos que estén disponibles. El trabajo del metodólogo empieza una vez
que hay evidencia. Éste es el «análisis de datos» que fundamenta la ma
yoría de los textos econométricos. Los libros de texto de este género in
cluyen análisis de la inferencia estadística y de las diversas clases de esti
madores empleados para la inferencia causal y descriptiva (por ejemplo,
la correlación, la diferencia de medias, la regresión, el ajuste, la inferen
cia por aleatorización, los enfoques bayesianos frente a los frecuentistas),
junto a los supuestos de cada método.7
Aunque estas técnicas son útiles, es importante recordar que la contri
bución de protocolos estadísticos avanzados se centra principalmente en
las insuficiencias del diseño. La econometria es el deas ex machina al que
se recurre en la fase de rectificar problemas de error de medida, factores
causales ambiguos, insuficiente variación de los parámetros clave, obser
vaciones insuficientes, imposibilidad de comparar entre los casos compa
rados, muestras sesgadas y otras cuestiones que veremos próximamente.
Desde esta perspectiva, parece apropiado concluir que las cuestiones de
diseño son primordiales, y las referidas al análisis de datos, secundarias
—tanto secuencial como metodológicamente—. «El diseño triunfa sobre
el análisis», en palabras de Donald Rubin.8 Y de esto se sigue que el tra
bajo del metodólogo empieza en la parte frontal: en la fase del diseño de
investigación de un proyecto.
En efecto, normalmente no podemos hacer mucho para rectificar los
problemas de diseño una vez que tenemos los datos. Para aquellos a los
que les gustan las analogías médicas, el diseño de investigación en meto
dología podría compararse con la medicina preventiva, es decir, cómo
evitar contraer enfermedades, mientras el análisis de datos en metodolo
gía es parecido a la medicina de urgencias, es decir, cómo reconstituir a
un paciente que está grave.
En algunas ocasiones se pueden usar con éxito ingeniosos ajustes es
tadísticos. Pero hay un creciente escepticismo sobre nuestra capacidad
para corregir fallos del diseño de investigación en la fase posterior a la
100
ú Análisis
investigación. El viejo dicho «si metes basura, sacas basura» sigue siendo
cierto, a pesar de los muchos progresos que se han hecho en el campo de
la estadística. Richard Berk comenta:
No podemos reparar un diseño de investigación débil con un análisis de datos

fuerte. Casi inevitablemente ocurre que parece demasiado bueno para ser ver
dad, y sencillamente estamos sustituyendo la información de la que no dispone
mos por supuestos no comprobables.9
De hecho, lo más preocupante de todo es que normalmente no podemos

decir si las correcciones estadísticas han logrado su propósito, por ejem
plo, si un enfoque de dos fases para modelar el sesgo de selección ha pro
porcionado realmente una estimación correcta y no sesgada del efecto de
X en Y. Como Berk señala, esto se debe a que los supuestos requeridos
para realizar protocolos estadísticos suelen no ser directamente compro
bables; dependen de supuestos a priori («ontológicos») sobre la naturale
za del proceso generador de los datos. Revisando el campo de inferencias
causales basadas en la regresión, David Freeman dice claramente: «No
encuentro ningún caso en el que las ecuaciones de regresión, y no diga
mos los métodos más complejos, hayan tenido éxito como motores para
descubrir relaciones causales.»10 Aunque esta conclusión parece un poco
radical, debemos ser cautos y mirar con escepticismo las inferencias cau
sales basadas en la estadística. Siempre se apoyan en supuestos sobre el
proceso de generación de los datos, es decir, en cuestiones del diseño de
investigación.
Así, aunque no quiero menospreciar la importancia del análisis de da
tos, sí me gustaría defender la primacía del diseño —especialmente en los
análisis causales, pero también en los descriptivos. Los componentes del
diseño de la investigación son importantes para todo; en cualquier inten
to de esclarecer relaciones empíricas hay que lidiar con ellos. Es más, esta
perspectiva de la metodología es a menudo eficaz. Clarifica los obstácu
los que afrontan las ciencias sociales y dilucida algunas soluciones posi
bles.
Por último, en las ciencias sociales se subestiman los aspectos del dise
ño de la investigación. De hecho, los únicos campos de la ciencia social
donde las cuestiones de diseño reciben primacía son aquellos en los que
se utilizan métodos experimentales. A la luz de esto, parece que se puede
afirmar que el progreso en la ciencia social está en unos diseños de inves
tigación bien hechos más que en el desarrollo de nuevos estimadores. Pa
rafraseando a Paul Rosenbaum, nuestro eslogan debe ser «la elección
como alternativa al control [estadístico]».11
Por lo tanto, los siguientes capítulos apenas se ocuparán de temas esta
dísticos excepto cuando estos últimos afectan al diseño de la investigación.
101
Esto significa que se analizarán (en el capítulo 10) los métodos estadísticos
muy asociados a diseños de investigación específicos, como la regresión
discontinua y las variables instrumentales, pero no los métodos estadísti
cos que son de uso general, como la regresión y la correspondencia.
Criterios
Una vez clarificados estos términos y perspectivas, podemos proceder a

tratar lo que nos interesa ahora. ¿Cómo tiene que ser un diseño de inves
tigación (y su correspondiente análisis de datos) para calificarlo de satis
factorio? ¿Cómo es un buen análisis empírico?
Yo diría que los criterios aplicables a los análisis de ciencias sociales se
pueden dividir provechosamente en cuatro áreas fundamentales: exactitud
(validez, precisión e incertidumbre); maestreo (representatividad, tamaño
de la muestra, nivel de análisis); acumulación (estandarización, replica-
ción, transparencia); y ajuste teórico (partición, validez de constructo, di
ficultad).
Tabla 4.1 Análisis: criterios generales _

i. Exactitud
¿Son los resultados (a) válidos, (b) precisos (fiables) y (c) van acompañados
de una estimación de la incertidumbre (confianza, probabilidad) al
respecto de (d) la muestra elegida (validez interna) y (e) la población de
interés (validez extema, es decir, capacidad de generalizar)?
2. Muestren
¿Son las observaciones elegidas (a) representativas de la población de
interés, (b) suficientemente numerosas y (c) se sitúan en el nivel principal
de análisis?
3. Acumulación
(a) ¿Está el diseño de investigación normalizado respecto a otra
investigación similar sobre el mismo tema? (b) ¿Replica los hallazgos
existentes y facilita futuras replicaciones a otros estudiosos? (c) ¿Son
transparentes los procedimientos?
4. Ajuste teórico
(a) ¿Proporciona el diseño de investigación una comprobación apropiada
para la inferencia (validez de constructo)? (b) ¿La comprobación es fácil o
difícil (severidad)? (c) ¿Está el test separado del argumento que se está
investigando (partición)?
Estos criterios, resumidos en la tabla 4.1, se consideran genéricos, lo que

significa que atañen a todos los enfoques. Ningún método —sea descrip-
102
4 Análisis
tivo o causal, cualitativo o cuantitativo, experimental u observacional—

queda exento. A buen seguro, todos los estudios tienden a priorizar unos
criterios sobre otros. Y, en algunas ocasiones, los criterios pueden ser ig
norados legítimamente si han sido eficazmente establecidos por otros es
tudios. A este respecto, es difícil evaluar un trabajo dado al margen del
campo de estudio en el que se enmarca. Pero la aseveración general y
más importante se mantiene: los criterios enumerados en la tabla 4.1 han
de aplicarse siempre que hay en juego cuestiones empíricas de ciencia so
cial.
Exactitud
El objetivo general de la investigación empírica es comprobar con exacti

tud un argumento. La exactitud se puede entender en dos dimensiones: la
validez y la precisión, cada uno de ellos con su nivel de incertidumbre aso
ciado.
Estas nociones se aplican típicamente a la estimación resultante de un
análisis empírico (es decir, a los hallazgos). Sin embargo, también pue
den aplicarse al diseño de la investigación y a la técnica del análisis de
datos con la que se obtiene la estimación. De hecho, las diversas fases de
la investigación están todas sujetas a la demanda de validez y precisión,
cada una de ellas con un nivel asociado de incertidumbre. Así, cuando
nos referimos a estos objetivos lo estamos haciendo en tanto en cuanto
se aplican a diversas tareas asociadas a la labor general de la apreciación
de la teoría.
Otros criterios que se analizan en otros apartados de este capítulo y
en capítulos posteriores suelen apuntar de una u otra manera a reforzar
la exactitud de un análisis y a este respecto se pueden considerar como
auxiliares de los objetivos fundamentales de la validez y la precisión.
Por último hacemos una distinción entre la muestra elegida y la po
blación general de interés teórico. La primera se concibe como una cues
tión de validez interna y la segunda como una cuestión de validez externa.
Validez, precisión, incertidumbre
Los estudiosos suelen distinguir entre la validez de una comprobación y

su precisión (fiabilidad). Si una inferencia es probada repetidamente, la
aproximación de sus resultados (en promedio) al valor verdadero captará
la validez de la comprobación. La aproximación de cada uno de estos
resultados de comprobación entre sí captará la precisión de la comproba
ción.
103
Este contraste se aclara mejor con una ilustración. Representemos el

objeto de interés (en su realidad verdadera, ontológica) con un círculo
negro, y los diversos intentos de medir ese objeto con puntos. En el dibu
jo de la figura 4.2 se comparan tres intentos de comprobación. El prime
ro es fiable, pero no válido, porque los puntos están cerca unos de otros
pero están distantes del centro verdadero. El segundo es válido, pero no
fiable, porque los puntos están dispersos entre ellos pero se agrupan en
tomo al centro verdadero. El tercero es tanto fiable como válido.
Fiable pero no válido Válido pero no fiable Válido y fiable
Figura 4.2 Fiabilidad (precisión) y validez
Estos conceptos se aplican por igual a la tarea descriptiva de a_me i

ción (capítulo 7) y a la estimación de efectos causales (capítulos , y
11). Hay una ligera alteración terminológica, porque la precisión eîna
medición suele ser una cuestión de fiabilidad (más que de precisión). vero
las ideas básicas son las mismas en todos los contextos.
Nótese que la precisión es también un criterio argumental (capitu o
Aquí, sin embargo, nos preocupa la precisión de una comprobación, no
la precisión de la proposición que se está comprobando.
Exploremos ahora estas cuestiones con más detalle.
Un problema de validez se puede expresar como un problema e eiioi
sistemático o sesgo. Desde luego, depende de los supuestos sobre la rea i
dad verdadera, que puede no ser directamente aprehensible. En algunas
circunstancias, es posible estimar la validez de un modelo estadístico me
diante las simulaciones de Monte Cariof Pero los problemas noima es
de validez se valoran de una manera más especulativa. Si hay un sesgo
reconocible, o un sesgo potencial, en algunos aspectos del diseño de in
vestigación decimos que se trata de un problema de validez, aunque no
lo sepamos con seguridad.
La precisión, hemos afirmado, se refiere a la consistencia de un ha
llazgo en sucesivas comprobaciones, por lo que es una propiedad de una
muestra grande. Si reiteradas comprobaciones demuestran el mismo re
sultado (más o menos), el procedimiento se considera preciso. La varían-
za entre los resultados proporciona una medida empírica del grado de
104
4 Análisis
precisión logrado. Si no hay oportunidad de comparar las múltiples ite

raciones de un diseño de investigación (si la investigación es cualitativa
por naturaleza), entonces la varianza es una propiedad teórica, aunque
no menos importante por serlo. Hay muchos factores que pueden afectar
i
a la precisión relativa de una comprobación, entre ellos el error de medi
ción, la variabilidad de los fenómenos que se estudian y el tamaño de la
muestra. Como la precisión atañe a la varianza, no a la validez, todos es
tos errores se consideran estocásticos (aleatorios), es decir, ruido.
El concepto de incertidumbre está implícito en la noción de validez. A
todo aserto sobre el mundo le corresponde un nivel de confianza, o pro
babilidad; porque todo conocimiento empírico es, en cierta medida, in
cierto. Hay siempre un problema de inferencia, incluso cuando el grado
de incertidumbre se juzga pequeño. Esta incertidumbre puede derivarse
de problemas relacionados con la formación del concepto (capítulo 5), la
medición (capítulo 7), el muestreo (que se analiza más adelante), y/o va
rios problemas asociados con la inferencia causal (parte III). Depende,
evidentemente, del argumento en cuestión.
Se ha afirmado que «quizás el problema más grave de la investigación
cualitativa... es el persistente fracaso a la hora de proporcionar estimacio
nes razonables de la incertidumbre de las inferencias del investigador».13
Estoy seguro de que hay algo de verdad en este aserto, aunque los estu
diosos cualitativos han trabajado mucho para resolver este problema.
Por contra, los métodos cuantitativos generan estimaciones de incerti
dumbre como un elemento rutinario del análisis. Ciertos aspectos de la in
certidumbre se pueden captar con un estadístico, como el intervalo de con
fianza y el correspondiente valor p, que mide la probabilidad de una
hipótesis en relación con alguna hipótesis nula. Aquí los conceptos de pre
cisión e incertidumbre se combinan en un solo estadístico. A buen seguro,
estos estadísticos se basan en la variabilidad de la muestra y por lo tanto no
tienen en cuenta otras amenazas a la inferencia. Los enfoques bayesianos
tienen mucho alcance porque incorporan el conocimiento subjetivo sobre
el tema. Es con este espíritu con el que propongo un enfoque integral sobre
la estimación de la incertidumbre que combine la información extraída de
métodos de inferencia para muestras grandes (cuando las muestras son lo
suficientemente grandes para permitirlos) con conocimientos cualitativos
sobre amenazas adicionales a la inferencia. La estimación de la incertidum
bre de un hallazgo determinado no es fácil. Pero es esencial.
Validez interna/externa
Por lo general, analizamos las cuestiones de la validez, la precisión y la

incertidumbre en dos niveles. En primer lugar se plantea el problema de
105
si un hallazgo es verdadero para la muestra elegida —la cuestión de la

validez interna— y en segundo lugar está el problema de cómo este ha
llazgo se podría generalizar a una población mayor de casos la cues
tión de la validez externa. Adviértase que aunque lo expresamos en tér
minos de la validez, se plantean los mismos problemas al respecto de la
precisión; presumiré por tanto que ambos están implicados cuando nos
referimos a la «validez interna» o a la «validez externa».
Un estudio puede ser válido internamente y no serlo externamente
(más allá de la muestra elegida o del lugar de la investigación). De
igual forma, la validez interna de un estudio puede ser cuestiona e,
mientras su pretensión a la validez externa —si es verdad para la mues
tra— es fuerte. Desde luego, el problema de la validez externa descansa
de forma importante en la validez interna de un estudio. Cuanto mayor
es nuestra confianza sobre un hallazgo en el contexto A (el lugar de in
vestigación elegido), mayor es nuestra confianza en ese hallazgo en e
contexto B (algún otro lugar en la población mayor de interés). Por a
misma regla, si no confiamos en un resultado dentro de un dominio es
tudiado, confiamos aún menos en generalizar ese resultado a un domi
nio mayor.
La distinción entre la validez interna y la validez externa es crucia en
virtualmente todos los análisis metodológicos, aunque la dicotomía no
siempre es nítida. Consideremos por ejemplo un estudio hipotético so re
un distrito escolar del estado de Nueva York que se basa en una muestra
de estudiantes extraída de ese distrito y pretende identificar rasgos gene-
rales de todas las escuelas del estado. Esto presenta tres niveles de valí ez
potencial: (1) la muestra de estudiantes; (2) el distrito escolar; y (3) las es
cuelas del estado (de varios distritos). La validez interna puede referirse
a (1) o (2), mientras la validez externa puede referirse a (2) o a (3).
A la luz de lo anterior, la cuestión de la validez interna/externa se pue
de expresar más correctamente como grados de generalización. Igual que
los argumentos aspiran a la generalización, también lo hacen los diseños
de investigación. Algunos lo hacen con más éxito y más capacidad de ex
tenderse (a una población mayor) que otros. En esta línea, en ocasiones
es útil identificar círculos concéntricos alrededor de la muestra que se ha
estudiado. Típicamente, la confianza con la que extrapolamos los resul
tados obtenidos de una muestra dada disminuye a medida que el tamaño
del círculo aumenta. Retomemos el ejemplo de antes y consideremos seis
posibles niveles de validez: (1) la muestra de estudiantes; (2) el distrito es
colar; (3) las escuelas del estado (en muchos distritos); (4) las escuelas en
otros estados; (5) las escuelas en otros países de la OCDE; y (6) las es
cuelas en otros lugares del mundo. La pretensión de validez parece me
nos probable a medida que avanzan los círculos, pero ninguna es por
completo implausible. Y desde esta perspectiva no hay una demarcación
106
4 Análisis
clara entre la validez interna y la externa. O quizás sí que hay una de
marcación bastante clara entre la validez interna y la externa, pero hay
múltiples esferas de validez externa.
A efectos heurísticos supondremos que hay un contexto del estudio
que calificaremos correctamente de «interno» y otro que etiquetaremos
acertadamente como «externo». Pero los lectores deben tener en mente
las complicaciones que esto comporta.
En algunos casos excepcionales la distinción entre validez interna y
validez externa desaparece debido a que se estudia directamente la po
blación total de una inferencia. Aquí, la muestra es la población. Aun
así, hay espacio para el escepticismo sobre los procedimientos de mues
treo exhaustivo (un censo). Como la mayoría de las teorías de ciencias
sociales no se limitan al pasado, el futuro proporciona una fuente poten
cial para la comprobación fuera-de-la-muestra. Esto significa que aun
que se estudien todos los ejemplos disponibles que se enmarcan en el do
minio de un tema, podemos seguir estando teóricamente interesados en
comprenderlo en una población mucho mayor y, por lo tanto, inconmen
surable.
Conceptualmente podemos también reconocer una distinción entre
casos que realmente existen y casos que podrían haber existido (en el pa
sado). Así, si estamos estudiando la relación entre el desarrollo económi
co y la democracia en los Estados nacionales en la era moderna podría
mos incluso concebir que una muestra grande —que incluyera a todos
los Estados nacionales desde 1800— sería una muestra de todos los Esta
dos nacionales que podrían haber existido durante ese periodo de tiem
po. Desde esta perspectiva, hay siempre una población mayor que no se
puede estudiar directamente.
Nótese que la distinción entre la validez interna y la externa se basa
en una distinción entre lo que se ha estudiado directamente y lo que no
se ha estudiado directamente. Esto significa que, por definición, la cues
tión de la validez externa no se puede probar. Descansa en niveles de su
posición. (Por supuesto, puede comprobarse en algún estudio futuro.)
Pero se plantea entonces la cuestión de sobre qué base (especulativa) juz
gamos la validez externa de un estudio.
El criterio más obvio es la representatividad de la muestra, como vamos
a ver ahora. Una cuestión más sutil —relevante sólo para el análisis cau
sal— es la escalabilidad del tratamiento, como veremos en el capítulo 9.
Muestreo
La selección de las unidades y observaciones para el análisis es crucial
para cualquier análisis causal o descriptivo. Hay tres objetivos generales
107
que atañen a esta tarea: la representatividad, el tamaño y el nivel de análi

sis. Para construir una muestra debemos aspirar a que sea representativa
de una población mayor, a que incluya suficientes observaciones de for
ma que se garantice la precisión y la capacidad de análisis, y a que use
casos situados en el mismo nivel de análisis que la inferencia primaria.
Representatividad
El criterio más importante para extraer conclusiones sobre la validez ex

terna de una proposición es la representatividad de la muestra e egi a.
¿Es similar la muestra a la población respecto de la hipótesis que se esta
probando? Si, por ejemplo, la hipótesis es causal, entonces la pregun a es
si la relación de y con Y es similar en la muestra y en la población, ¿es
tamos capacitados para generalizar desde una muestra dada acia un
universo mayor de casos?
En el caso de la investigación sobre los cupones, podemos pregun a
nos si los estudiantes, las escuelas y los distritos de las escuelas (jen o a
otros rasgos adicionales del lugar de investigación que pueden ser re evan-
tes para la inferencia) elegidos para el análisis son representativos e un
población mayor de estudiantes, escuelas y distritos. Y, si es asi, ¿como e
esa población mayor? ¿Se compone de todos los estudiantes y las escue a
de Estados Unidos o del mundo? Se compone de una población menor e
estudiantes que están dispuestos a participar en esos programas, s a
preguntas son cruciales. Desafortunadamente suelen ser difíciles e res
ponder de forma definitiva por razones que ya hemos visto.
La mejor manera de obtener una muestra representativa es extraer una
muestra aleatoria de la población mayor. Hay muchas técnicas para acer
lo (mucho depende del carácter de esa población mayor, de los meto o
disponibles para extraer la muestra y de la inferencia que queremos es i
mar). Pero la idea básica es que cada unidad u observación de la po acioi
debe tener la misma oportunidad de ser elegida para la muestra. Una ven
taja de este enfoque es que podemos estimar la variabilidad del muestre^
(de una muestra a otra) y proporcionar así unas estimaciones de la preci
sión que acompañen a cualesquiera inferencias que obtengamos.
Por desgracia no es posible aplicar métodos de muestreo aleatorio a mu
chos problemas de investigación. Los estudios sobre los cupones, por ejem
plo, dependen de la disposición de los distritos a aplicar sus protocolos, un
suceso raro. Así, la muestra de los distritos escolares que estudian los inves
tigadores no se suele extraer aleatoriamente de la población general.
Incluso cuando los procedimientos de muestreo aleatorio son facti
bles, no siempre son defendibles metodológicamente. Si la muestra en es
tudio es muy pequeña —por ejemplo, un único caso o un puñado de ca-
108
4 Análisis
sos— no tiene sentido alguno extraerla aleatoriamente de una población

grande. Mientras que las muestras elegidas serán en promedio representa
tivas de la población, cualquier muestra dada (de uno o varios casos) es
probable que se aleje mucho de la media (en cualquier dimensión rele
vante para la cuestión estudiada). Por consiguiente, la investigación ba
sada en estudios de casos generalmente utiliza estrategias de selección in
tencional (no probabilística) de los casos que se analizan en otro texto.15
Cuando las técnicas de muestreo aleatorio no se puedan aplicar, los
investigadores tienen que esforzarse por definir la representatividad de la
muestra y, por lo tanto, la capacidad plausible de generalización de los
resultados basados en esa muestra. Esto es así con independencia de si la
muestra es muy pequeña (por ejemplo, un formato de estudio de caso) o
muy grande.
Antes de terminar este apartado es importante recordar que el objeti
vo que guía la selección de un conjunto de casos no es simplemente ase
gurar la representatividad (y, por tanto, la validez externa). Quizás sea
más importante obtener también validez interna. Con frecuencia estos
dos objetivos entran en conflicto. Por ejemplo, los investigadores suelen
encontrarse en situaciones en las que pueden organizar un experimento
con una muestra no aleatoria o realizar un estudio no experimental con
una muestra aleatoria. Normalmente, optan por el primer proceder, lo
que significa que dan más prioridad a la validez interna que a la externa.
Pero en algunas situaciones nos imaginamos eligiendo lo opuesto.
Tamaño (N)
Muchas observaciones son mejores que pocas; por lo tanto, un «N» (ta
maño de la muestra) grande es superior a un «N» pequeño, en igualdad
de circunstancias. (N se puede concebir como las observaciones estanda
rizadas de una «base de datos» o como las observaciones de un «proceso
causal» irregular, una distinción que analizaremos en el capítulo 11.)
Esto es de sentido común. Lo que estamos diciendo es, en efecto, que
cuanta más evidencia podamos reunir para una proposición dada, más
fuerte será la inferencia. De hecho, la misma lógica que nos obliga a pro
porcionar apoyo empírico a nuestras creencias nos motiva para acumular
múltiples observaciones. Como dice el viejo refrán, el plural de «anécdo
ta» es «datos».
Supongamos que estamos intentando identificar el efecto de los cupo
nes en el rendimiento escolar, pero sólo tenemos información disponible
para un solo estudiante o una sola escuela. En estas circunstancias, pro
bablemente será difícil llegar a conclusiones firmes sobre la inferencia
causal en cuestión. Desde luego, una observación es mucho mejor que
109
ninguna. En efecto, es un salto cuantitativo, porque la ausencia de obser

vaciones implica que no hay en absoluto apoyo empírico para una pro
posición. Pero la investigación empírica con una sola observación es
también muy indeterminada, y tiende a concordar con una amplia varie
dad de hipótesis rivales. Consideremos un gráfico de dispersión de X e Y
con un solo punto de datos. Harry Eckstein señala que a través de este
punto «se pueden trazar un número infinito de curvas o líneas».16 En
otras palabras, no podemos saber a partir de esa sola información cuál
podría ser la verdadera pendiente de la relación entre X e Y, y si esa rela
ción es, de hecho, causal (una pendiente diferente a 0). Cuantas más ob
servaciones tengamos, menos indeterminación y más precisión habrá res
pecto de la relación probable de X con Y. Nótese que con una muestra
pequeña, los resultados son necesariamente dependientes de las caracte
rísticas (quizás peculiares) de las diversas observaciones elegidas. Las
conclusiones sobre una población mayor son azarosas cuando considera
mos las muchas oportunidades de error y la naturaleza sumamente esto-
cástica de la mayoría de los fenómenos sociales.
Una muestra grande de observaciones también ayuda a realizar otras
tareas implicadas en la valoración causal. Puede facilitar la formulación
de ima hipótesis —clarificando un resultado positivo y uno negativo, un
conjunto de casos que la proposición intenta explicar (la población) y las
efiniciones operacionales de esa proposición. Todas estas cuestiones se
evidencian en el proceso de codificar las observaciones, en el caso de ha-
er múltiples observaciones. Pero si hay sólo una observación, o múltiples
o sensaciones derivadas de una sola unidad, esas tareas seguirán siendo
am iguas. El problema es que con un ámbito empírico reducido el investi
ga or se enfrenta a una excesiva abundancia de maneras de operacionali-
zar una hipótesis dada. El rendimiento de la educación —el resultado
principal que se cuestiona en nuestro ejemplo de los cupones— puede me-
irse por medio de cualquier rasgo observable de una escuela dada. Por el
contrario, cuando se observan múltiples escuelas, la gama de posibles re-
su ta os de las medidas se reduce inevitablemente (en virtud de la escasez
e os datos o del coste de controlar miles de indicadores). De igual
mo o, será necesario estipular en términos más firmes cómo se define el
«éxito» —porque la comparación entre las escuelas debe ser explícita. El
proceso de medición entre múltiples observaciones nos obliga a reconocer
pro emas que de otro modo permanecerían latentes y ambiguos.
na excepción al criterio del N grande concierne al estudio empírico
cuya meta es invalidar una ley descriptiva o causal (una proposición in
variante, « eterminista»). Si la pauta observada contradice la hipótesis,
una ey puede quedar invalidada con una única observación.17
n todos los demás contextos se aconseja una muestra grande, con la
usual advertencia del ceteris paribus. Así, si aumentar el tamaño de una
110
4 Análisis
muestra reduce su representatividad podríamos decidir que no merece la

pena el sacrificio: una muestra más pequeña y más representativa es su
perior. Si nos vemos limitados por el tiempo o por constricciones logísti
cas a estudiar o bien una muestra grande de observaciones de varios ca
I sos o bien una muestra más pequeña de observaciones dentro de los
casos, debemos decidir que la última ofrece razones más sólidas para la
inferencia causal (por cualquiera de las razones que veremos en la parte
I III). En suma, hay muchas situaciones en las que se prefiere una muestra
pequeña a una grande. Sin embargo, las razones de esta preferencia se
derivan de otros criterios. He aquí por qué sigue siendo acertado consi
derar el tamaño de la muestra como un criterio fundamental (ceteris pa-
ribus) en las ciencias sociales.
Antes de terminar este apartado debo mencionar brevemente el pro
blema de los datos perdidos, porque afectan tanto a la representatividad
de la muestra como al tamaño de la muestra. Normalmente, lo que im
plican los datos perdidos es que una muestra carece de observaciones
para algunas unidades que deberían incluirse (mediante algún principio
de selección, sea la aleatoriedad u otro). Si la pauta de la falta de datos
es sistemática, entonces la muestra estará sesgada. Si, por otro lado, se
puede determinar que la pauta de la pérdida es aleatoria, entonces la
muestra será menor de lo que debería ser, pero seguirá siendo representa
tiva (o al menos tan representativa como hubiera sido sin los datos perdi
dos). Una solución potencial, si las pautas de la pérdida son predecibles
(usando puntos de datos conocidos) y el número de pérdidas (en relación
con la muestra total) no es demasiado grande, es imputar los datos que
faltan.18 En otras situaciones puede ser factible generar una simple regla
de decisión que establezca la «mejor solución» para los puntos de datos
perdidos, sin un modelo estadístico formal. En cualquier caso, la pauta
de la carencia de datos se debe prever. Una muestra de 1.000 casos con
datos perdidos no es lo mismo que una muestra de 1.000 sin ellos. Cuan
do consideramos el problema del tamaño de la muestra debemos lidiar
con la totalidad de las observaciones que componen la muestra.
Nivel de análisis
Las observaciones son de la mayor utilidad para dilucidar las relaciones

siempre que se sitúen en el mismo nivel de análisis que la hipótesis prin
cipal.19 Si la hipótesis central concierne al comportamiento de las escue
las, entonces las escuelas deben constituir, idealmente, la unidad princi
pal de análisis en el diseño de la investigación. Si la hipótesis se centra en
el comportamiento de los individuos, entonces los individuos deben ser
la unidad principal de análisis. Y así sucesivamente.
111
Con frecuencia tenemos dificultades cuando intentamos explicar la acti

vidad de un tipo particular de unidad examinando las unidades en un nivel
superior o inferior de análisis. Supongamos, por ejemplo, que nos interesa
explicar el comportamiento de las escuelas, pero sólo tenemos datos en el
nivel del distrito (una agregación de escuelas). He aquí una situación muy
común, pero no envidiable, porque tenemos que inferir el comportamiento
de las escuelas a partir del comportamiento de los distritos escolaies (lo que
plantea un problema de estimación conocido como inferencia ecológica).
Si, en cambio, tenemos datos en un nivel inferior de análisis (por ejem
plo, el de los estudiantes), entonces nos enfrentamos a un problema simi
lar. pero debemos proceder a la inversa: tenemos que inferir de abajo arri
ba, es decir, desde los estudiantes hasta las escuelas. Este tipo de
inferencia es también problemático. En algunas ocasiones, los fenómenos
de nivel macro no reflejan fenómenos observables de nivel micro, plan
teándose así un problema de reduccionisino (es decir, la falacia de la no
equivalencia). Se admite que conocer la respuesta de los estudiantes a un
estímulo puede ser extremadamente útil para comprender la respuesta de
las escuelas. En efecto, puede ser crucial para demostrar cuál es el meca
nismo causal (o mecanismos causales) operativo. Ésta es la razón por la
que suele emplearse la investigación mediante estudio de casos, que recu
ne de forma característica a datos en un nivel de análisis inferior. Sin em
bargo, para probar la existencia de un efecto causal es importante tam
bién reunir evidencia de la unidad principal de análisis (tal y como la
define la proposición). En este contexto, los datos en el nivel de los estu
diantes serán más útiles si se les añaden datos de las escuelas. Y para esti
mar el tamaño de un efecto causal, con cierto nivel de precisiónlinceiti-
dumbre, las observaciones en el nivel principal de análisis son esenciales.
Aunque el problema del nivel-de-análisis suele concebirse en referen
cia a la inferencia causal, es igual de problemático cuando el objetivo de
la investigación es descriptivo. Por ejemplo, cuando abordamos la cues
tión de la desigualdad global, la información que tiene importancia teó
rica y sustantiva concierne a los individuos. Pero los datos de los indivi
duos anteriores a la década de 1980 son escasos en el mundo en
desarrollo. Así, los analistas intentan inferir el nivel de renta a partir de
datos agregados de nivel nacional (PIB) —el problema de la inferencia
ecológica mencionado antes.
Acumulación
La ciencia no es una aventura solitaria; se concibe mejor como un pro

yecto colaborativo entre investigadores que trabajan en un área determi
nada de estudio. Esto significa que la utilidad de un diseño de investiga-
112
4 Análisis
ción es en parte un producto de su ajuste metodológico al trabajo ya

existente. Hay tres elementos que facilitan la acumulación: la estandari
zación de los procedimientos de los estudios; la replicación de los resulta
dos; y la transparencia de los procedimientos.
Estandarización
Uno de las principales vías de colaboración es la estandarización de los

procedimientos entre diferentes diseños de investigación. Si hay una ma
nera principal de investigar un problema determinado, ésta debe ser ser
vilmente imitada, al menos como punto de partida, para que la estanda
rización de los enfoques proporcione un punto de referencia con el que
juzgar los nuevos hallazgos.
Esto puede parecer una recomendación para hacer ejercicios teórica
mente modestos que meramente vuelven a comprobar viejas ideas. No lo
es. Recordemos que en este apartado nos ocupamos de los criterios rele
vantes para la apreciación de teorías, no para la construcción de teorías.
Suponemos que ya disponemos de una teoría (y una hipótesis o conjunto
de hipótesis determinadas). Dada esta teoría —sea atrevida y original o
dócilmente derivada— lo aconsejable es normalizar el diseño de investi
gación lo más posible, por lo menos al principio.
La estandarización de los diseños de investigación permite que se acu
mulen los hallazgos procedentes de diversos estudios. Consideremos que
si cada nueva investigación sobre los cupones utiliza indicadores de en
trada y salida, controles de contexto y otros rasgos del diseño de investi
gación idiosincrásicos, habrá pocas probabilidades de que nuestro cono
cimiento sobre este tema avance. Los miles de estudios sobre un mismo
tema —con independencia de su grado de validez interna— contribui
rán poco a nuestro conocimiento sobre los cupones si se han diseñado ad
hoc (y, por lo tanto, son inconmensurables). Las novedades deben distin
guirse de las contribuciones originales, y la cuestión es valorable sólo en
la medida en que se puede medir con criterios proporcionados por el tra
bajo ya existente sobre un tema.
La llamada a la estandarización es una apelación a un enfoque más
organizado sobre el acopio del conocimiento. Richard Berk advierte de
las enormes ganancias potenciales que se podrían obtener de «suites de
estudios cuidadosamente diseñadas de forma que se comprueben [se pue
dan comprobar] las variantes en las intervenciones con diferentes mez
clas de temas, en diferentes contextos y con resultados conexos, todas
ellas seleccionadas con el fin de documentar objetivos de generalización
útiles».21 Así organizadas, las posibilidades para el meta-análisis aumen
tan enormemente, y con ello la perspectiva de un avance teórico.
113
Por desgracia, en el mundo actual de la investigación social, tan indi

vidualizado, es virtualmente imposible agregar resultados derivados de
estudios separados sobre el mismo tema general, porque cada estudio
tiende a adoptar un conjunto idiosincrásico de procedimientos.22 A dife
rencia de lo que ocurre en las ciencias naturales, parece que en las socia
les se da muy poca importancia a la estandarización. Pero el argumento
a favor de la estandarización es fuerte. Igual que las teorías deben enca
jar en marcos teóricos amplios —el criterio de la conmensurabilidad ana
lizado en el capítulo 3— los diseños de investigación deben ajustarse al
marco general en el que un problema determinado ha sido abordado.
Replicación
Otra manera importante en que se relacionan la actividad científica y la

comunidad de estudiosos es la replicación de los resultados. Este proyec
to de replicación tiene lugar en dos fases: (a) al principio del estu 10,
como modo de verificar los hallazgos existentes en un lugar nuevo, y (
al final del estudio, como modo de verificar la validez interna y externa
de ese estudio. (Si la replicación se realiza en el transcurso del estu 10
será probablemente una comprobación de su robustez, de la que nos
ocuparemos en el capítulo 10.23) .
La investigación sobre un tema normalmente empieza replican o os
hallazgos clave relacionados con esa investigación. A buen seguro, no to
dos los temas contienen «hallazgos» en el sentido que les dan las ciencias
naturales. Pero la mayoría de los campos reconocen una serie de proposi
ciones que son ampliamente aceptadas como ciertas; las llamaremos a
llazgos aunque se aproximen a las creencias de sentido común. Al mar
gen de la terminología, es útil que las nuevas investigaciones so un
tema empiecen por explorar estas hipótesis sobradamente conocí as.
¿Son ciertas aquí (en este contexto)? Esto contribuirá a clarificar a va i
dez del diseño de investigación elegido, por no mencionar la validez e
los hallazgos previos. Ésta es la replicación inicial.
La otra fase de la replicación se produce una vez que ha concluido e
estudio, antes o después de publicarlo. (Éste es el empleo más habitúa
del término.24) Para facilitar la replicación, un diseño de investigación
debe realizarse de tal manera que los futuros estudiosos puedan reprodu
cir sus resultados. Piense que los hallazgos son sospechosos hasta que se
pueden replicar —quizás muchas veces. Sabemos que una gran cantidad
de factores puede haber afectado a la validez de cualquier estudio deter
minado, incluyendo (entre otras cosas) el error de medición y la errónea
presentación que voluntariamente se hace de los datos. La verificación
implica repetición; las pretensiones de verdad implican, por ende, garan-
114
4 Análisis
tías de capacidad de replicación. Si un hallazgo se ha obtenido en cir

cunstancias que son esencialmente irrepetibles, entonces tendremos lógi
camente dudas sobre su veracidad. Esto concuerda con la concepción
estricta de la replicación —la capacidad de futuros investigadores para
replicar los hallazgos de un estudio siguiendo minuciosamente los méto
dos de procedimiento y las fuentes de datos que se emplearon original
mente.
Pero la replicación no se refiere sólo a la reiteración estricta de un es
tudio, en circunstancias casi idénticas. Se refiere también a las variaciones
que se han podido y debido introducir en el estudio original. Paul Ro-
senbaum comenta lo siguiente:
La mera reaparición de una asociación entre el tratamiento y la respuesta no

nos convence de que la asociación es causal —lo que haya producido la asocia
ción antes la ha producido de nuevo. Es la tenacidad de la asociación —su capa
cidad para resistir determinados desafios— lo que es convincente en última ins
tancia.25
Un descubrimiento que persiste frente a alteraciones radicales en el con

texto (condiciones de entorno), en los instrumentos de medida, en la es
pecificación y en la fuerza del tratamiento es un descubrimiento que que
da sólidamente corroborado. Tiene muchas más probabilidades de ser
verdad que un descubrimiento que se ha replicado sólo en aspectos se
cundarios. En este sentido, es importante advertir que las replicaciones
ofrecen no sólo un modo de comprobar la validez interna de un estudio,
sino también un medio de comprobar —y en caso necesario, de reeva
luar— su validez externa. ¿Cuáles son los límites de una teoría?
Se admite que algunos estilos de investigación son más fáciles de repli
car que otros. Los experimentos y estudios observacionales con un N
grande son replicables en mayor medida que los trabajos cualitativos. Sin
embargo, en el caso de los estudios observacionales de un N elevado, «re
plicación» se entiende usualmente de una manera muy específica, es de
cir, significa tomar la base de datos del autor (u otra similar) y replicar
sus resultados. Esto es un procedimiento bastante mecánico. Por ejem
plo, para repetir un estudio estadístico transnacional sobre el desarrollo
económico y la democracia, un estudioso podría intentar replicar los ha
llazgos existentes y luego proceder a introducir pequeñas alteraciones
—añadiendo países (con datos imputados), añadiendo años o usando
medidas diferentes de democracia.
En cambio, la replicación de un trabajo cualitativo suele incluir la fase
investigadora del acopio de datos, que pueden ser de archivo, etnográfi
cos o discursivos. Por ejemplo, un intento serio de replicar el trabajo his
tórico de la democratización de Centroamérica realizado por James
115
Mahoney implicaría presumiblemente una revisión de la larga lista de

fuentes primarias y secundarias del autor, y quizás de fuentes adicionales
también.26 Esto supone meses de investigación y no es en modo alguno
un procedimiento mecánico.27
La replicación equivalente del acopio de datos en un contexto de N
grande sería recodificar todos los datos para una variable clave. En nues
tro ejemplo anterior esto significaría recodificar la variable democracia
para todos los países y todos los años. Esto no es lo que se pretende nor
malmente con la replicación en un contexto cuantitativo. Pero no hay ra
zón alguna para no aplicar el concepto de replicación a este encomiable
cotejo de hallazgos.
Cualesquiera que sean las dificultades y las ambigüedades, la capaci
dad de replicación es un ideal por el que toda investigación debe luchar.
Podría decirse que es incluso más importante para el trabajo cualitativo
que para el cuantitativo, dado el grado de intromisión del autor que sue
le implicar el primero (y, por lo tanto, la mayor posibilidad de sesgo de
investigador). Los historiadores deben incluir citas al pie detalladas y es
crupulosas para que los investigadores futuros puedan seguir sus mismos
pasos. El trabajo basado en entrevistas debe incluir anotaciones sobre los
informantes con el fin de que los futuros investigadores puedan identi i-
car a esas personas. Pueden incluso archivar sus notas y las transcripcio
nes (o registros) de las entrevistas —todo lo que pueda ser útil para la re
plicación (sin comprometer el secreto acordado sobre la identidad de as
fuentes).28
Transparencia
Obviamente, la estandarización y la replicación son posi es so

medida en que los procedimientos empleados en los ana isis emp
son transparentes para los estudiosos. No podemos estandarizar o
car lo que es ambiguo. Así, en el llamamiento a la acumu ación es
plícita la exigencia de transparencia. «El camino entre los datos y as
clusiones debe estar... claro».29 Porque, sin transparencia, no se p
evaluar bien ningún descubrimiento. . .
En las ciencias naturales los investigadores suelen llevar un diario ae
laboratorio en el que registran detalladamente el desarrollo de un ana
sis empírico. Aunque a veces no es necesario registrar absolutamente o
das las pruebas de especificación, al menos sí debe ser posible que os u
turos investigadores sepan qué pruebas se realizaron, en qué orden y con
qué implicaciones para la teoría. Por el contrario, si los investiga ores
conocen sólo el producto final de una investigación (que posiblemen e
duró muchos años) es más difícil emitir un juicio sobre su valor de ver
116
4 Análisis
dad. Lo que sobre todo tememos es que las tablas de datos finales pue
dan contener el conjunto de pruebas que culminaron en resultados «po
sitivos» (es decir, significativos teóricamente) y que se hayan ignorado así
cientos de pruebas anteriores donde no se podía rechazar la hipótesis
nula.
Sí, alcanzar la transparencia total impone costes a los investigadores,
sobre todo en tiempo y esfuerzo (pues ir haciendo anotaciones cuesta
mucho menos). Y no resuelve completamente los problemas relativos a
la rendición de cuentas. Alguien tiene que leer los protocolos, que es una
inversión de tiempo. Aun así, nunca sabremos si todos los procedimien
tos y resultados se registraron de forma fiable. Sin embargo, la institu
ción de un régimen de transparencia es una precondición para una ma
yor rendición de cuentas, y, con el tiempo, puede aumentar la validez y la
precisión del análisis empírico en ciencias sociales.
Ajuste teórico
Recordemos que el propósito de un análisis empírico es arrojar luz sobre

un argumento o una teoría. La relación entre la comprobación y el argu
mento es, por lo tanto, una cuestión particularmente sensible. Estas cues
tiones tienen que ver con el ajuste teórico de un diseño de investigación:
la validez de constructo, la severidad y la partición. Todas ellas se pueden
considerar aspectos de un ideal científico general conocido como test
crucial (o crítico).30
Validez de constructo
La validez de constructo hace referencia a la fidelidad de un diseño de in

vestigación con la teoría que se está investigando.31 Esto incluye la vali
dez de concepto: la operacionalización de un concepto clave con un con
junto de indicadores. Pero también incluye supuestos básicos o
interpretaciones de la teoría. Si un diseño de investigación se desvía de
forma significativa de la teoría —lo que implica, por ejemplo, supuestos
cuestionables sobre esa teoría o que se basa en elementos periféricos—,
entonces difícilmente se podrá confirmar o refutar esa teoría, porque el
diseño de investigación no apunta al centro de la misma. Por lo mismo, si
un investigador elige una hipótesis que reside en el centro de una teoría,
el diseño de investigación tendrá mucha más relevancia.
En este contexto, podríamos contemplar el abundante trabajo sobre la
política educativa que versa de una u otra manera sobre los cupones edu
cativos.32 Una buena cantidad de esta investigación se basa en la periferia
117
de la hipótesis central sobre los cupones escolares y el rendimiento edu

cativo; es en cierto modo relevante, pero no primordial. Por ejemplo, si
un estudio revela que los cupones carecen de efecto sobre la armonía ra
cial en las escuelas, aunque este descubrimiento es interesante, lo más
probable es que no se considere central para la teoría. A la teoría como
tal no le afecta el hallazgo. Si, por el contrario, un estudio revela que los
cupones carecen de efecto en el rendimiento educativo, esto tiene conse
cuencias devastadoras para la teoría precisamente porque el diseño de in
vestigación y la teoría concuerdan en tan gran medida.
Concedamos que hay muchas grandes teorías que no se basan en una
única hipótesis central (como los cupones y el rendimiento educativo).
Consideremos la teoría general de la competencia del libre mercado que
informa la idea de los cupones. Esta teoría, desarrollada por Milton
Friedman, Friedrich von Hayek o Adam Smith, no se presta a ninguna
prueba de refutación de las que yo conozco. El capitalismo, al igual que
el socialismo, se resiste a la falsación. Obviamente, cuanto más abstracta
es la teoría más difícil es someterla a una prueba empírica viable.33 Aun
así, los investigadores deben trabajar duro para asegurarse de que as
comprobaciones empíricas no sean teóricamente triviales. Un nivel a to
de validez interna y de validez externa no salva a un estudio teóricamente
irrelevante, para el que reservamos el epíteto de «subterfugio».
Severidad
Algunas pruebas empíricas son fáciles, porque necesitan poca teoría

superar los obstáculos. Ceteris paribus, tendemos más a creer
teoría es verdad cuando ha superado un prueba empírica severa Qsie
que esa prueba tenga cierto grado de validez de constructo). « as con
maciones deben contar», insiste Popper,
sólo cuando son el resultado de predicciones arriesgadas; es decir, si, êsas’St*li

por la teoría en cuestión, hubiéramos previsto un suceso que era mcompa
con la teoría—un suceso que hubiera refutado la teoría.
Estos mismos factores operan a la inversa si intentamos refutar (o a sar

una teoría. Si la teoría no supera una prueba muy dura, no debemos en
der a concluir que es errónea. Si, por otra parte, no supera una prue a a
cil —una prueba que, de acuerdo con las premisas de la teoría, debería su
perar—, entonces nuestra actitud hacia la teoría deberá ser más esceptica.
Una analogía en el atletismo puede ilustrar esta cuestión. Suponga
mos, por ejemplo, que queremos probar la capacidad relativa de los at e-
tas en el salto de altura, una prueba que se remonta a la antigua Grecia.
118
k Análisis
En la primera prueba, colocamos la barra a 10 pies (3 metros) —una

meta absurda, dado que el récord máximo del salto libre apenas supera
los 8 pies (2,5 metros). Cabe esperar que ningún atleta supere esta prueba
tan difícil. En la segunda prueba colocamos la barra a 3 pies (un metro)
y lo previsible es que todos los atletas superen esta prueba menos difícil.
Obviamente, al final de las dos pruebas no habremos descubierto nada
de nada sobre la capacidad relativa de este grupo de atletas. Pero, a buen
seguro, si alguno de esos atletas hubiera superado la prueba difícil (o no
superara la fácil) sí sabríamos más allá de toda duda que ese atleta en
concreto es un atleta extraordinariamente bueno (o malo). Ésta es la pa
radoja del criterio de la severidad: depende del resultado de la prueba.
Expresado de otra manera, nuestra intención es colocar la barra lo sufi
cientemente alta para que pueda ser superada por algunos atletas (no
más alta), o lo suficientemente baja para que algunos atletas no puedan
superarla (no más baja).
Una solución posible de este problema es evitar colocar arbitraria
mente los umbrales. Así, se podría pedir a los atletas que salten todo lo
que puedan y simplemente medir su capacidad relativa: una métrica con
tinua. O, si las circunstancias lo requieren (por ejemplo, si es necesario
establecer una barra con el fin de medir la altura de un salto), hacer nu
merosas pruebas con varios umbrales. Estos dos procederes apuntan a lo
mismo, pero el último requiere múltiples iteraciones, por lo que es menos
eficiente.
En numerosos contextos el enfoque flexible sobre la comprobación
está justificado. Sin embargo, el sacrificio que hacemos al adoptar un es
tándar flexible debe estar claro. Cuando los criterios del éxito y el fraca
so no se describen claramente por adelantado, la investigación resultante
es menos falsable, es decir, más expuesta a diversas interpretaciones de
éxito y fracaso.
Es más, aunque elimináramos un umbral a priori para el éxito o el fra
caso, probablemente habrá muchos factores que contribuyan a estructu
rar el grado de dificultad de una prueba. Si retomamos nuestro ejemplo
del atletismo vemos que el rendimiento de los atletas depende de muchí
simos factores «contextúales» —la altitud, si la prueba se realiza en el in
terior o el exterior, la naturaleza del terreno, el público que hay, etc. El
rendimiento relativo varía con todos estos factores (y quizás con otros
muchos más). En los contextos de la ciencia social, la lista de factores
contextúales es también bastante larga. En ellos debemos considerar fac
tores del diseño de investigación que «cargan los dados» a favor (o en
contra) de un estudio sobre los cupones escolares. Supongamos, por
ejemplo, que se realiza un estudio sobre los cupones en una comunidad
donde los profesores y administradores, así como muchos de los partici
pantes del programa, son escépticos —e incluso abiertamente hostiles—
119
respecto a la reforma. O supongamos que los profesores que trabajan en

escuelas con cupones (escuelas donde asisten niños con cupones) tienen
menos experiencia o formación que los profesores que trabajan en escue
las públicas. Supongamos, por último, que el valor monetario del cupón
que reciben los estudiantes es mínimo —menor del valor que la teoría y
los trabajos realizados consideran necesario para provocar cambios sig
nificativos en el rendimiento del estudiante. Al parecer todos estos facto
res podrían cargar los dados en contra de un descubrimiento positivo. Si,
en estas circunstancias, ese estudio descubre que los cupones inducen un
efecto positivo (y estadísticamente significativo) en el rendimiento del es
tudiante, probablemente estaremos especialmente impresionados por el
descubrimiento. Por otra parte, si se invierten los factores anteriores, y el
sesgo en un estudio parece favorecer la hipótesis de los cupones, un des
cubrimiento positivo tendrá escasa credibilidad. De hecho, tenderá a ser
bastante espurio.
Los supuestos sobre la dirección de un sesgo probable pueden repre
sentar un papel importante para evaluar los descubrimientos empíricos
de un estudio (expost), así como para diseñar un estudio (ex ante). Ro-
senbaum señala que:
a veces un diseño de estudio convincente explota una pretensión a saber que el
sesgo más plausible va en contra de los efectos proclamados del tratamiento. En
este diseño se comparan dos grupos considerados incomparables, pero incompa
rables en una dirección que tiende a enmascarar un efecto real más que a crear
uno espurio. La lógica que gobierna este diseño es válida: si el sesgo va en con
tra del efecto anticipado, y se ignora el sesgo, las inferencias sobre el efecto se
rán conservadoras, de forma que el sesgo no conducirá a un rechazo espurio de
ningún efecto en favor del efecto anticipado.35
Concretamente, el grado de dificultad que impone un diseño de investi

gación respecto a una hipótesis determinada es una parte intrínseca de
cualquier estudio. Con independencia de que el propósito de la investiga
ción sea positivo (probar una proposición causal) o negativo (refutar una
proposición causal), el valor de un diseño de investigación depende en
parte de su «crucial-idad». Surge así la siguiente pregunta sobre cual
quier estudio: ¿qué probabilidad tiene la teoría A de ser verdadera (o fal
sa) con la evidencia dada? Cuanto más dura (fácil) es la prueba, más ten
deremos a acepar la conclusión —si la prueba se ha superado (o no se ha
superado).
Aunque prescindamos de umbrales arbitrarios para juzgar el éxito y el
fracaso, seguirá habiendo factores contextúales en un diseño de investi
gación que califican la prueba de «fácil» o «difícil» respecto de una hipó
tesis determinada. Estos factores, que van más allá de las cuestiones es
trictas que se abordan con las medidas cuantitativas de la significación o
120
4 Análisis
la capacidad estadística, deben tenerse en cuenta a la hora de emitir un

juicio sobre el valor de verdad general de un descubrimiento. Para valo
rar la contribución de un estudio, los investigadores tienen que conside
rar estas cuestiones ex ante, durante el diseño de un estudio, y ex post.
La elección de un diseño de investigación que propenda hacia una
mayor o una menor dificultad depende de muchos factores. Las pruebas
fáciles suelen ser apropiadas para las primeras fases de la comprobación
de una hipótesis, cuando un proyecto aún es principalmente exploratorio
y apenas se han realizado estudios sobre un tema. Las pruebas difíciles
son apropiadas cuando la hipótesis se ha consolidado y se multiplican
los estudios existentes sobre el tema en cuestión.
Sin duda, las pruebas difíciles son mejores si se pueden idear de forma
que sean imparciales para la teoría que se está investigando —en otras
palabras, si mantienen la validez de constructo. Muchas investigaciones
en las ciencias naturales parecen seguir este modelo. Consideremos esta
lista de predicciones arriesgadas que contribuyeron a confirmar o refutar
teorías importantes en física:
La predicción de Newton sobre las órbitas elípticas de los planetas a partir de la

ley cuadrática inversa de la gravitación; los diversos experimentos que confir
man la teoría ondulatoria de la luz; la predicción de Maxwell de las ondas elec
tromagnéticas a partir de un modelo matemático; el experimento de Michelson-
Morley que descartó la teoría del éter y confirmó la velocidad constante de la
luz; la predicción de Kelvin del cero absoluto de temperatura; las derivaciones
de la teoría matemática del calor de Poisson y Fourier; las inferencias basadas
en la teoría cinética de los gases y en la mecánica estadística; la predicción de
varias partículas subatómicas; la predicción de Gamow de que el Big Bang dejó
su huella en la radiación en el borde del universo; y, la más famosa, las predic
ciones de Einstein que condujeron a la confirmación de su teoría especial y ge
neral de la relatividad, como la inclinación de la luz de una estrella debido a la
atracción de la gravedad.36
El autor de este compendio, Stephen Coleman, identifica conveniente

mente varios rasgos de estas predicciones teóricas que han demostrado
ser útiles para establecer un test crucial. Entre ellos están:
• La predicción de una constante o una invariante (como la velocidad de la luz o

el punto de congelación). • La predicción de un número específico.* La predic
ción de una simetría, normalmente derivada de un modelo matemático. • La pre
dicción de un límite o una constante, o de ciclos límite dinámicos. • La predicción
de una pauta de comportamiento dinámica inusual o específica. • La predicción
de una pauta espacial (geográfica) específica. • La predicción de una distribución
estadística, posiblemente una distribución inusual. • La predicción de que los da
tos tendrán una «signatura», una forma matemática única (como la usada para
detectar arritmias del corazón, pruebas nucleares, tsunamis o submarinos).37
121
Hay ejemplos y sugerencias útiles. Es especialmente importante apreciar

que existen muchos modos de construir una prueba para una hipótesis
dada, y que sólo uno de ellos adopta la forma de un modelo aditivo y li
neal clásico. Un proceder común es especificar (o examinar para buscar
indicios, ex post) una relación dosis-respuesta, es decir, el modo en que Y
responde a un cambio en Jf.38 Muchas de estas alternativas ofrecen un
grado alto de falsabilidad porque ofrecen predicciones muy específicas,
derivadas directamente de la teoría —predicciones que tienden a no ser
ciertas si la teoría no es verdadera— frente a la predicción común y co
rriente en las ciencias sociales de que «un incremento en X provocará un
incremento en y».
Podemos ser escépticos sobre la utilidad de este consejo, por supues
to.39 ¿En qué medida se pueden hacer a priori predicciones precisas sobre
los fenómenos sociales? ¿A cuántos se les puede aplicar el tipo de mode
los matemáticos que produce predicciones precisas a prioríl Los modelos
formales que se usan actualmente en la mayoría de las disciplinas de las
ciencias sociales intentan superar los test cruciales de la física, pero les
queda aún mucho camino por recorrer para lograr esa meta.
No necesitamos resolver esta cuestión. Para nuestros propósitos ac
tuales, es suficiente observar que la precisión de una teoría es esencial
para la severidad de una prueba. Ambas son cuestiones de grado, y am
bas son un componente clave de la falsabilidad de esa teoría.
Partición
La falsabilidad aumenta también en la medida en que un argumen o se

puede aislar de o separar del análisis empírico. Esto reduce la posi 1i a
de que una teoría se ajuste, post hoc, de forma que acomode los descu n
mientos negativos. También reduce la tentación de construir argumentos
modelados de acuerdo con un contexto empírico particular («ajuste e
curva») o diseños de investigación cuyo propósito es probar (mas que
comprobar) un argumento dado. En términos ideales al menos con i-
nes de apreciación— la construcción de un argumento debe considerarse
una fase separada de la comprobación de ese argumento.
Otra suerte de partición se puede hacer en algunas ocasiones entre a
fase del diseño de investigación y la fase del análisis de datos de un estu
dio. Esta distinción —entre el diseño prospectivo y el análisis retrospecti
vo— es una característica clave del método experimental y una de las ra
zones de por qué se considera que los experimentos aumentan la
falsabilidad de un estudio.41 Hay menos oportunidades para hacer ajus
tes ex post fado en el diseño que rectifiquen resultados empíricos no con
venientes.
122
4 Análisis
Admitamos que la meta de la partición es siempre una cuestión de

grado. No está claro cómo podría avanzar el cocimiento si las particio
nes no fueran definitivas y finales. (¿Qué quiere decir «finales»?) Ad
viértase que tras toda prueba no superada (por no mencionar las supe
radas) se deben hacer más, y estas pruebas adicionales deben tener en
cuenta los fracasos y los éxitos anteriores. En este sentido, toda investi
gación es un proceso iterativo, que va y viene entre la teoría y la evi
dencia.
El criterio de la partición podría concebirse, en primer lugar, en tanto
en cuanto se refiere a la cantidad de tiempo que transcurre entre la com
probación inicial y la reformulación y re-comprobación siguientes. Si la
duración es pequeña —por ejemplo, pruebas de especificación estadística
realizadas en intervalos de varios segundos mediante una rutina automá
tica— entonces tenderemos a llamar al procedimiento ajuste de curva.
En realidad no estamos comprobando un modelo; estamos buscando el
mejor ajuste entre un conjunto de variables (que representan un conjunto
de hipótesis vagas) y una muestra de datos. Si, en cambio, la duración es
larga —por ejemplo, un año o más—, entonces tenderemos más a perci
bir que se ha alcanzado el objetivo de la partición. La formación de la
teoría ha sido segregada de la comprobación de la teoría.
Segundo, la partición se refiere a los datos empleados para la compro
bación. En términos ideales, los argumentos deben comprobarse con una
muestra de observaciones diferente de la empleada para generar la teo
ría. Esto proporciona pruebas fuera-de-la-muestra. A buen seguro, si las
muestras son grandes y representativas no son muy necesarias; se obten
drán los mismos resultados. Pero si las muestras son pequeñas y/o no re
presentativas hay razón más que suficiente para combinar todos los da
tos disponibles en una única muestra —maximizando así el tamaño y la
representatividad de la muestra. Por lo tanto, podemos ser escépticos so
bre el grado en que las pruebas fuera-de-la-muestra son prácticas. No
obstante, si se pueden hacer, son ciertamente deseables.
Por último y, en mi opinión, lo más importante, la partición hace refe
rencia a la disposición del investigador. En la medida en que teorizar y
comprobar se pueden segregar, lo más importante de esta separación no
es la duración del tiempo entre una fase y otra o la diferencia entre las
muestras, sino la actitud del investigador.
La partición mental requiere una personalidad múltiple. En la fase de
la generación de la teoría el investigador debe nutrirse —con el alimento
que requiere la teoría que ha sido concebida. Todos sus esfuerzos se cen
tran de forma única en la creación y el mantenimiento de esa idea nueva
y aún frágil. Las especulaciones a priori sobre el mundo son de rigueur,
porque debemos presuponer mucho para construir el fundamento de
una teoría. Los argumentos son polémicos.
123
En cambio, en la fase de la comprobación de la teoría, se debe adop

tar otra actitud. Esta personalidad no es partidaria o quizás es incluso
abiertamente escéptica respecto de la hipótesis principal que se está exa
minando. El niño ha nacido, ha mamado y ahora es lo suficientemente
fuerte para afrontar los rigores del mundo (es decir, la comprobación
empírica). Para seguir con la metáfora, la buena investigación requiere
matar a los propios hijos de vez en cuando.
Ésta es la suerte de partición mental que requiere la investigación. Po
dría decirse que sólo se alcanza completamente cuando las dos fases de
la investigación —la formación de la teoría y la comprobación de la teo
ría— las realizan diferentes personas, es decir, cuando el que la comprue
ba carece de incentivos para refutar la hipótesis nula. Pero en el mundo
real de la investigación, especialmente en el campo de las ciencias socia
les (donde la financiación y el personal están limitados en función del
número de preguntas de investigación que se están considerando), rara
mente es posible. Así, debemos hacer un llamamiento al buen juicio del
investigador y a su capacidad de adoptar una mentalidad diferente en la
teorización y la nutrición y en el análisis y la realización de pruebas seve
ras. es decir, en el descubrimiento y en la apreciación (capítulo 2).
Es vital que el público interesado en una investigación confíe en la im
parcialidad del investigador durante la fase de la comprobación. El sesgo
del investigador hace acto de presencia sigilosamente de muchas formas,
y el público interesado no tiene modo de controlar la situación cuando
son los investigadores los que se encargan de comprobar sus propias hi
pótesis. Las complicaciones entre el principal y el agente son demasiado
grandes. Esto requiere la confianza del público, y el investigador debe
trabajar duro para ganarse su confianza.
Una de las técnicas es declarar nuestro sesgo desde el principio, de
forma que le quede claro al lector de un artículo el punto de partida del
investigador (esto preserva la distinción entre teorización y comproba
ción, al menos retóricamente). Si ocurriese que un descubrimiento de in
vestigación contradijese la hipótesis original, el público interesado tende
rá quizás a creer en ese resultado, en el supuesto de que haya superado
un obstáculo especialmente difícil (o, como mínimo, que el sesgo del in
vestigador no haya infectado el resultado). En situaciones de supervisión
deficiente, la disposición del investigador es muy relevante para un análi
sis ex post de los descubrimientos.
124
Parte II
Descripción
5 Conceptos
«La historia de las ciencias sociales es y seguirá siendo un proceso continuo que
parte del intento de ordenar la realidad analíticamente mediante la construcción
de conceptos —la disolución de constructos analíticos que se han construido
por medio de la expansión y el cambio del horizonte científico— y la reformula
ción constante de conceptos sobre los fundamentos transformados así.... Los
mayores avances en la esfera de las ciencias sociales están sustancialmente liga
dos al cambio de problemas culturales prácticos y adoptan la forma de una crí
tica de la construcción de conceptos.»
Max Weber1
«Puesto que somos... prisioneros de las palabras que elegimos, mejor las elegi
mos bien.»
Giovanni Sartori2
En este libro entendemos como descriptivo todo argumento empírico

(una hipótesis, una teoría, etc.) sobre el mundo que pretende responder a
una pregunta descriptiva (por ejemplo, cómo, cuándo, a quién, o de qué
modo). Por el contrario, cuando contiene una pretensión explícita o im
plícita de que un factor genera variación en un resultado, el argumento
se considerará causal. La distinción entre estos dos conceptos clave de
pende entonces de la naturaleza de la pretensión de verdad, no de la cali-
127
dad de la evidencia disponible, que puede ser fuerte o débil.3 La descrip

ción es el tema de la parte II y la causación es el de la parte III. Primero
tratamos la descripción: tenemos que describir antes con el fin de exp i-
car después (en términos causales). Sin embargo, el lector hallará mu
chas comparaciones y contrastes entre los dos temas a lo largo del libro.
Como este libro se centra en la generalización de enunciados sobre el
mundo (capítulo 1), no me preocupan las descripciones que sólo tratan
de casos o eventos individuales (que no pretenden ejemplificar pautas
más amplias).4 Por consiguiente, en este libro la descripción será siempre
un acto inferencial. Generalizar es inferir lo que no sabemos desde lo que
ya sabemos (o creemos que sabemos).5 Un tipo de salto inferencial es e
que se hace desde las observaciones de una muestra que se consideran
ciertas hacia aquellas que son inciertas o faltan (problemas de «error e
medición» o de «datos perdidos») y hacia las dimensiones que son inhe
rentemente inobservables («características latentes»). Otro tipo de sa to
inferencial es desde un caso o muestra estudiado a una población mayor
(no estudiada). En ambos casos, los modelos descriptivos ofrecen una
«teoría» sobre el mundo,6 «una “fórmula” con la que poder repro ucir
los datos».7 . ,
En los últimos años, en las ciencias sociales se ha equiparado la us-
queda de la comprensión científica con la búsqueda de una comprensión
causal del mundo. En cambio, la tarea de la descripción se identifica con
el relato idiosincrásico —las narrativas impresionistas que relatan eta
lies sobre tiempos y lugares particulares— o con los problemas de me i
ción. El propio término descripción ha llegado a emplearse como un eu e
mismo para una inferencia causal fallida o no comprobada aún. os
estudios que no se implican en cuestiones causales o predictivas se consi
deran «meramente» descriptivos.8 Asimismo, la evidencia de una propo
sición causal considerada especialmente débil tiende a caracterizarse
como «descriptiva». En términos más generales, la idea de la descripción
que prevalece en las ciencias sociales (y sobre todo en la economía y a
ciencia política) es la de una tarea trivial —necesaria, a buen seguro,
pero de poco valor científico intrínseco.
La subordinación de la descripción a la causación es problemática
desde varias perspectivas. Primero y principal, una categoría amplia de
temas descriptivos es intrínsecamente importante. En esta categoría se
incluyen temas como la democracia, los derechos humanos, la guerra, la
revolución, los niveles de vida, la mortalidad, el conflicto étnico, la felici-
dad/utilidad y la desigualdad. Estos temas (y muchos otros) merecen ser
explorados descriptivamente. Tenemos que saber cuánta democracia hay
en el mundo, cómo varía esa cantidad —o sus atributos— con el tiempo
y en los diferentes países o regiones. Esto es importante al margen de qué
causa la democracia o qué efectos causales tiene la democracia.9
128
5 Conceptos
Lo que preocupa es que si la conceptualización y medición de la de

mocracia persigue sólo la inferencia causal, quizás no logremos el mismo
nivel de exactitud, precisión y comprensión del tema. Una agenda de in
vestigación motivada sólo por una hipótesis causal tiende a tomar atajos
cuando se trata de describir las variables del lado izquierdo y del derecho
de la ecuación. Es más, la que uno elige para describir puede estar influi
da por la relación XIY que uno espera descubrir, y esto puede introducir
sesgos en cómo describimos el fenómeno. A buen seguro, no hay nada
malo en la descripción causalmente orientada. Pero puede plantear pro
blemas si éste es el medio principal de abordar un tema en un campo de
terminado durante muchos años.10
Una segunda razón para liberar a la descripción de hipótesis causales
específicas es, por naturaleza, práctica. Suele ser más eficiente recoger evi
dencia cuando el objetivo de la investigación es más descriptivo que cau
sal. Consideremos que se recogen datos de personas, gobiernos, archivos y
otras organizaciones. La recogida sistemática de evidencia de estas fuentes
requiere mucha energía y recursos durante varios años. Cuando el esfuerzo
de recogida de datos se construye en tomo a una única hipótesis o teoría
causal, el alcance del estudioso se verá muy limitado; sólo se recogerán
aquellos factores que tienen influencia directa en la hipótesis. Esto puede
ser eficiente en el corto plazo, pero tiende a no serlo en el largo plazo. Las
expediciones en busca de datos estrictamente focalizadas requieren escalar
peligrosas laderas para luego regresar al campo base con sólo una pequeña
muestra de lo que se ha encontrado en la cima. Las expediciones posterio
res, centradas en hipótesis diferentes, requerirán volver a escalar ese pico,
un esfuerzo dilapidador. En cambio, si una misión de recogida de eviden
cia se conceptualiza como descriptiva en lugar de causal (lo que equivale a
decir que ninguna teoría causal guía la investigación), se producirá proba
blemente un conjunto de evidencias que se podrá aplicar a una variada se
rie de cuestiones, tanto descriptivas como causales.11
En suma, hay buenas razones para considerar la descripción como
una tarea distintiva y esencial de la ciencia social. Este es el objetivo de la
parte II del libro. Este capítulo se centra en los conceptos de la ciencia
social, los contenedores lingüísticos que usamos para cincelar el mundo —
empírico. El capítulo 6 ofrece una tipología de argumentos descriptivos y
el capítulo 7 se centra en la tarea de la medición, el «análisis» de proposi
ciones descriptivas.
La disyuntiva de la descripción
El sentido común presume que la inferencia casual es metodológicamen
te más difícil. Las preguntas que atañen al qué son, en general, más fáci-
129
les de responder que las que atañen al por qué, señala Glenn Firebaugh.12
«Los datos empíricos nos dicen qué está sucediendo más rápidamente
que por qué está sucediendo el fenómeno en cuestión», afirma Stanley
Lieberson.13 Leyendo literatura metodológica inferimos que la descrip
ción es un acto perceptivo simple e intuitivo.
Pero hay muchas preguntas descriptivas en las disciplinas de las cien
cias sociales que son recalcitrantes. Consideremos las siguientes:
(1) ¿Los votantes conceptualizan la política en términos ideológicos14

o en términos no ideológicos?15
(2) ¿La desigualdad mundial está aumentando16 o se mantiene más o
menos en el mismo nivel?17
(3) ¿La cultura política estadounidense es liberal/igualitaria,18 repu
blicana,19 o una combinación de las dos, junto a varias identida
des adscritas?20
Son preguntas esencialmente descriptivas sobre el mundo socia (aunque,

sin lugar a dudas, contienen implicaciones causales). También an resu
tado ser cuestiones muy controvertidas. Y no son infrecuentes, na
muestra aleatoria de argumentos descriptivos (no triviales) reve ara pro
bablemente un nivel elevado de incertidumbre. En efecto, hay muc
consternación sobre la poca y la mala calidad de la evidencia con a qu
intentamos dar sentido al mundo social.21 Las descripciones e enome
nos de nivel medio como la corrupción, la financiación de las campanas,
el servicio de protección civil, la independencia judicial y la uerza e
partido suelen ser muy problemáticas o se limitan a contextos muy espe
cíñeos (y, por lo tanto, se resisten a la generalización). Y los gran es con
ceptos de la ciencia social —como la democracia y la gobernanza care
cen de un significado y una medida estándares y precisos.2* Entretan o,
hay ámbitos enteros de actividad política y social que son virtua rnen e
térra incógnita.23 Por lo tanto, los fenómenos empíricos en los lados dere
cho e izquierdo del modelo causal típico son muy inciertos. Para rasean
do a Giovanni Sartori, cuanto más avanzamos en el modelo causa , mas
. territorio inexplorado dejamos a nuestras espaldas.24
Para hacernos una idea de los problemas metodológicos que afronta
mos cuando hacemos inferencias descriptivas, comparemos estas os
preguntas:
(1) ¿Qué es la democracia y cómo puede operacionalizarse?

(2) ¿Mejora la democracia las perspectivas de coexistencia pacifica.
Nótese que la pregunta causal (2) presume una respuesta a la pregunta des
criptiva (1). Para estimar el efecto causal de la democracia, primero debe-
130
5 Conceptos
mos establecer la definición y medición de este complicado concepto. La

lógica sugiere que si la proposición 2 se basa en la proposición 1, ésta será
tan difícil de comprobar como la proposición 1. Pero, a todas luces, hay
más consenso académico sobre la respuesta a la pregunta (2) que sobre la
respuesta a la pregunta (1). Los estudiosos de las relaciones internacionales
están de acuerdo en general en que el tipo de régimen tiene un efecto causal
en la paz y la guerra, de modo que, a igualdad de condiciones, las demo
cracias tienen menos probabilidades de librar guerras entre sí. El hecho de
que la democracia sea o no una condición suficiente para la paz nunca po
drá determinarse, y los estudiosos siguen debatiendo los mecanismos cau
sales que hay en esta relación. Sin embargo, hay mucho consenso sobre la
paz democrática como —por lo menos— una regularidad causal probabi-
lística.25 A igualdad de condiciones, dos países democráticos tienden me
nos a librar una guerra que dos países de los que uno de ellos no es demo
crático. En cambio, no existe un consenso así sobre cómo conceptualizar y
medir la democracia. La proposición causal es bastante certera, mientras la
proposición descriptiva que la fundamenta no lo es en absoluto.
He aquí la pauta paradójica de muchas inferencias descriptivas. A pe
sar del hecho de que las inferencias causales se basan en inferencias des
criptivas, las primeras suelen ser más certeras y falsables. Las razones
que explican esto son en parte intrínsecas a la propia empresa. Por ejem
plo, las descripciones suelen centrarse en cuestiones de definición, por lo
que no son tan susceptibles de ser contrastadas con evidencia. Las des
cripciones suelen ser también exploratorias por naturaleza, y por lo tan
to se construyen en estrecho contacto con la evidencia (un problema de
partición insuficiente [capítulo 4]).
Dicho todo esto, algunos de los problemas metodológicos que afronta
la inferencia descriptiva son remediables. Digamos que son un producto
de la falta general de conciencia metodológica que prevalece en esta em
presa. Espero que clarificando los criterios comunes de los argumentos
descriptivos, y clasificando la inmensa variedad de argumentos descripti
vos, mejoremos la calidad de la inferencia descriptiva y, quizás, con el
tiempo, mejoremos su reputación en las ciencias sociales.
Conceptos
La formación de conceptos es central para todo esfuerzo en ciencia so- —f)

cial.26 Es imposible trabajar sin usar conceptos. Es también imposible
conceptualizar un tema, como sugiere el propio término, sin llamarlo de
alguna manera. Los conceptos forman parte de todo argumento, porque
abordan la cuestión más básica de la investigación en ciencias sociales:
¿de qué estamos hablando?
131
Si los conceptos nos permiten conceptualizar, el trabajo creativo sobre

un tema implicará cierta ¿econceptualización de ese tema. Si es convin
cente, un estudio sobre la democracia probablemente alterará nuestra
comprensión de la «democracia», al menos en cierto grado.27 Ningún uso
del lenguaje es semánticamente neutral. Los autores hacen elecciones
léxicas y semánticas a medida que escriben y, por lo tanto, participan asi,
consciente o inconscientemente, en una batalla interpretativa continua.
Esto es así porque el lenguaje es la caja de herramientas con la que tra a
jamos, así como la sustancia sobre la que trabajamos. El progreso en as
ciencias sociales se da cambiando los términos y las definiciones. Asi es
como cartografiamos el terreno (o nuestras percepciones cambiantes e
terreno).
Desafortunadamente, no todo va bien en el ámbito de los concep os.
El hecho de que la terminología de las ciencias sociales carezca de a c a
ridad y la constancia del léxico de las ciencias naturales se ha convertí o
ya en una denuncia frecuente. Los conceptos se emplean de di erentes
maneras en los distintos campos y subcampos, en las distintas tradiciones
intelectuales, entre diferentes autores y, en algunas ocasiones lo que es
más alarmante—, en un único trabajo. De forma rutinaria, los conceptos
se extienden para tratar casos de tal forma que quedan completamen e
fuera de su ámbito normal de uso.28 O se comprimen excesivamente para
sólo unos pocos casos —ignorando otros en los que podrían usarse ruc
tíferamente con la misma rúbrica. Los viejos conceptos se redefinen, e
jando flecos etimológicos que confunden al inconsciente lector. Se crean
nuevas palabras para casos que quizás estaban insuficientemente articu
lados con los conceptos existentes, creando un campo léxico muy com
piejo (dado que los viejos conceptos siguen circulando). Palabras con sig
niñeados parecidos se amontonan, rivalizando por ganar atención y
robándose entre ellas sus atributos. Así, parafraseando la memorab e sen
tencia de Sartori, jugamos a las sillas musicales con palabras.-
Un resultado de estas patologías es que hay estudios que tratan e mis
mo tema y que parecen hablar de diferentes cosas, y estudios que tratan
temas distintos que parecen hablar de lo mismo. Así se obstaculiza a
acumulación y se fomenta la fragmentación metodológica. Parece que
los conceptos atraviesan una etapa de clara incomprensión.
Una posible solución a nuestra confusión conceptual aparentemente
infinita es eludir las disputas conceptuales, centrándonos en los fenóme
nos más que las etiquetas y las definiciones que les damos. Si, como Ga-
lileo observó, todas las definiciones son arbitrarias, entonces podríamos
empezar por reconocer este hecho.30 Por ejemplo, se ha dicho con fre
cuencia que podemos comprobar prácticamente cualquier cosa tan sólo
definiendo los términos a nuestra conveniencia. Esto es lo que ha impul
sado a algunos comentaristas a decir que debemos prestar menos aten-
132
5 Conceptos
ción a los términos que usamos, y más atención a las cosas que hay ahí
fuera de las que hablamos. «No se sienta nunca urgido a tratar seriamen
te los problemas sobre las palabras y sus significados», advierte Karl Po-
pper. «Lo que se debe considerar seriamente son cuestiones de hecho o
asertos sobre los hechos, las teorías y las hipótesis; los problemas que re
suelven y los problemas que plantean.»31
Tal y como están las cosas, la perspectiva empirista parece razonable.
Pero somos incapaces de hablar sobre cuestiones de hecho sin quedar
atrapados en el lenguaje que usamos para describir esos hechos. A buen
seguro, las cosas del mundo están separadas del lenguaje que usamos
para describirlas. Sin embargo, no podemos hablar de ellas si no introdu
cimos símbolos lingüísticos. Toda acumulación del conocimiento depende
de lograr un comprensión sobre cómo llamar a algo y cómo definir ese -0
algo. Esto va en contra de un nominalismo despreocupado («llámalo
como quieras»).
Un segundo enfoque para resolver las dificultades conceptuales en las
ciencias sociales sugiere que la formación de conceptos es irreductible
mente una cuestión de contexto. En general, hay poco que decir sobre la —
formación de conceptos, porque hay conceptos diferentes que son apro
piados para diferentes tareas y objetos de investigación. Esta manida
pizca de sentido común es absolutamente cierta, pero también muy am
bigua. ¿Qué significa el contexto y cómo puede ayudar a guiar el proceso
de la formación de conceptos? Sospecho que cada autor tiene su propio
contexto preferido, lo que significa que las disputas conceptuales simple
mente pasan del «concepto» al «contexto». Desde luego, no defiendo
que la elección de los términos y las definiciones permanezcan insensi
bles a los contextos de investigación. Antes bien, lo que estoy planteando
es precisamente la cuestión de cómo los contextos guían o deben guiar la
formación de conceptos.
Un tercer enfoque sobre la desambiguación conceptual nos aconseja
evitar los conceptos de orden superior y preferir los menos abstractos
(más «concretos»). Como la mayoría de las ambigüedades conceptuales
en ciencias sociales implican contenedores conceptuales amplios como
la cultura, la democracia, la ideología, la legitimidad, el poder, los bie
nes públicos, la racionalidad y el Estado, quizás debemos reducir nues
tra aspiraciones conceptuales en favor de unidades manejables como
muertes, votos y poder adquisitivo. Esto parece también razonable. Sin
embargo, esta estrategia (conocida por los filósofos como fisicalismo)
tiene repercusiones importantes. Lo más obvio es que nos tenemos que
limitar a aquello de lo que podemos hablar. Podemos tratar los votos,
pero no la democracia. Y aunque este léxico concreto puede provocar
un mayor consenso entre los científicos sociales, tendríamos que pre
guntarnos sobre la utilidad general de una ciencia social reconstruida
133
de acuerdo con este criterio. ¿Es importante el acto de votar fuera del
marco de una democracia? ¿Es significativo? Podría decirse que una
ciencia social limitada a entidades directamente observables tendría
muy poco que decir. Es más, no tendría modo de agrupar estas ideas de
orden inferior en un todo coherente. Los conceptos de orden superior
forman el armazón donde ponemos lo observable. Sin conceptos gene
rales, la ciencia no puede generalizar, y sin la capacidad de genera izar,
la ciencia no puede teorizar.32 Una ciencia social constituida solo por
conceptos concretos sería una serie de hechos y micromecamsmos des-
conectados *
El último enfoque sobre la desambiguación que vamos a tratar aquí
apunta a una reconstrucción taxonómica de los conceptos cientí icos, un
enfoque denominado «clásico» inspirado en la obra de Aristote es y
otros lógicos posteriores de la tradición aristotélica.33 Es un idea atrae i
vo, porque la taxonomía tiene muchas cualidades deseables (las vimos en
el capítulo anterior). Pero mientras puede ser viable en algunas areas
las ciencias naturales como la biología, el enfoque taxonómico no paree
ser aplicable a todo en las ciencias sociales. Las taxonomías tienen sus
usos, pero estos usos suelen limitarse a contextos especializados, a es u
dios individuales o a terrenos muy concretos. Es una herramienta par
usos específicos, no una herramienta de uso general.
El empleo general de los conceptos de la ciencia social no se pue e re
ducir a un conjunto de taxonomías, y menos aún a una única taxonomi
general. Los significados desbordan los límites definidos y nítidos e a
taxonomías de la ciencia social; raramente son conceptos reduci es
atributos necesarios y suficientes. Y aunque los científicos socia es acep
taran esta reconstrucción, nos preguntaríamos sobre la utihda e un
léxico rígidamente taxonómico. Nótese que el mundo de la con ucta e
cisional que las ciencias sociales intentan describir y explicar se caracten
za por una cantidad grande de desorden y ausencia de discreciona i a
Los fenómenos de esta naturaleza no se agrupan fácilmente en conjun os
con límites definidos e interrelaciones jerárquicas. Así, mientras es cier o
que un lenguaje taxonómico simplificado reduciría la confusión semánti
ca, también reduciría nuestra capacidad para comprender acertadamen e
el mundo social. Podemos estar de acuerdo en muchas cosas (si to os
acordamos usar los símbolos de la misma manera), pero apenas podría
mos decir cosas interesantes.
En este capítulo ofrezco un enfoque en cierto modo nuevo sobre la ta
rea de la conceptualización. El capítulo empieza con el análisis de varios
criterios clave de todo concepto empírico. Luego propone un conjunto
de estrategias que pueden servir para estructurar la tarea de la formación
de conceptos en los contextos de las ciencias sociales.
134
5 Conceptos
Criterios de la conceptualización
Distinguimos convencionalmente cuatro elementos en un concepto empí
rico: (a) el término (una designación lingüística consistente en una o unas
pocas palabras); (b) los atributos que definen esos fenómenos (la defini
ción, la intensión, la connotación o las propiedades de un concepto); (c)
los indicadores que sirven para ubicar el concepto en el espacio empírico
(la medición u operacionalización de un concepto); y (d) el fenómeno a
definir (los referentes, la extensión o la denotación de un concepto).
Consideremos por ejemplo el concepto de democracia. El término es
«democracia». Un atributo muy citado de ella son las «elecciones com
petitivas». Un indicador podría ser «un país que ha celebrado reciente
mente elecciones competitivas». Y el fenómeno de interés son, sin lugar a
dudas, las entidades que hay ahí fuera en el mundo que se corresponden
con el concepto tal y como se ha definido.
Cuando se ha formulado (o reformulado) un concepto, significa que
uno o todos sus rasgos se han ajustado. Nótese que estos están tan mez
clados que es difícil cambiar un rasgo sin cambiar otro. El proceso de la
formación de conceptos es, por lo tanto, un proceso de ajuste mutuo.
Para lograr un grado alto de adecuación conceptual podemos: (a) elegir •—0
un término diferente, (b) alterar los atributos definitorios contenidos en
la intensión, (c) ajustar los indicadores mediante los que se operacionali-
za el concepto, o (d) volver a trazar las fronteras fenoménicas de la ex
tensión.
De esto se sigue que un cambio en cualquier aspecto de un concepto
afectará probablemente a los otros tres elementos.34 Y, por esta razón,
nuestro tema debe contemplarse holísticamente. Es difícil que separemos
las tareas que pertenecen exclusivamente al reino fenoménico de las que
pertenecen al reino lingüístico/semántico o teórico. La ciencia social,
desde esta perspectiva, es un intento de mediar entre el mundo del len
guaje (el término y sus atributos) y el mundo de las cosas (más allá del
lenguaje). Ninguno es temporal o causalmente anterior; ambos están
siempre presentes en un concepto.
Con esta comprensión de nuestra tarea, se considerarán cruciales siete
criterios para la formación de conceptos empíricos en las ciencias socia
les: (1) la resonancia, (2) el dominio, (3) la consistencia, (4) la fecundidad,
(5) la diferenciación, (6) la utilidad causal y (7) la operacionalización (es
decir, la medición). Este último criterio es el tema del capítulo 7, por lo
que en este capítulo trataremos sólo los primeros seis criterios. Por co
modidad, la tabla 5.1 resume los siete desiderata.
135
de acuerdo con este criterio. ¿Es importante el acto de votar fuera del
marco de una democracia? ¿Es significativo? Podría decirse que una
ciencia social limitada a entidades directamente observables tendría
muy poco que decir. Es más, no tendría modo de agrupar estas ideas de
orden inferior en un todo coherente. Los conceptos de orden superior
forman el armazón donde ponemos lo observable. Sin conceptos gene
rales, la ciencia no puede generalizar, y sin la capacidad de generalizar,
la ciencia no puede teorizar.32 Una ciencia social constituida sólo por
conceptos concretos sería una serie de hechos y micromecanismos des
conectados.
El último enfoque sobre la desambiguación que vamos a tratar aquí
apunta a una reconstrucción taxonómica de los conceptos científicos, un
enfoque denominado «clásico» inspirado en la obra de Aristóteles y
otros lógicos posteriores de la tradición aristotélica.33 Es un ideal atracti
vo, porque la taxonomía tiene muchas cualidades deseables (las vimos en
el capítulo anterior). Pero mientras puede ser viable en algunas áreas de
las ciencias naturales como la biología, el enfoque taxonómico no parece
ser aplicable a todo en las ciencias sociales. Las taxonomías tienen sus
usos, pero estos usos suelen limitarse a contextos especializados: a estu
dios individuales o a terrenos muy concretos. Es una herramienta para
usos específicos, no una herramienta de uso general.
El empleo general de los conceptos de la ciencia social no se puede re
ducir a un conjunto de taxonomías, y menos aún a una única taxonomía
general. Los significados desbordan los límites definidos y nítidos de las
taxonomías de la ciencia social; raramente son conceptos reducibles a
atributos necesarios y suficientes. Y aunque los científicos sociales acep
taran esta reconstrucción, nos preguntaríamos sobre la utilidad de un
léxico rígidamente taxonómico. Nótese que el mundo de la conducta de-
cisional que las ciencias sociales intentan describir y explicar se caracteri
za por una cantidad grande de desorden y ausencia de discrecionalidad.
Los fenómenos de esta naturaleza no se agrupan fácilmente en conjuntos
con límites definidos e interrelaciones jerárquicas. Así, mientras es cierto
que un lenguaje taxonómico simplificado reduciría la confusión semánti
ca, también reduciría nuestra capacidad para comprender acertadamente
el mundo social. Podemos estar de acuerdo en muchas cosas (si todos
acordamos usar los símbolos de la misma manera), pero apenas podría
mos decir cosas interesantes.
En este capítulo ofrezco un enfoque en cierto modo nuevo sobre la ta
rea de la conceptualización. El capítulo empieza con el análisis de varios
criterios clave de todo concepto empírico. Luego propone un conjunto
de estrategias que pueden servir para estructurar la tarea de la formación
de conceptos en los contextos de las ciencias sociales.
134
5 Conceptos
Criterios de la conceptualización
Distinguimos convencionalmente cuatro elementos en un concepto empí
rico: (a) el término (una designación lingüística consistente en una o unas
pocas palabras); (b) los atributos que definen esos fenómenos (la defini
ción, la intensión, la connotación o las propiedades de un concepto); (c)
los indicadores que sirven para ubicar el concepto en el espacio empírico
(la medición u operacionalización de un concepto); y (d) el fenómeno a
definir (los referentes, la extensión o la denotación de un concepto).
Consideremos por ejemplo el concepto de democracia. El término es
«democracia». Un atributo muy citado de ella son las «elecciones com
petitivas». Un indicador podría ser «un país que ha celebrado reciente
mente elecciones competitivas». Y el fenómeno de interés son, sin lugar a
dudas, las entidades que hay ahí fuera en el mundo que se corresponden
con el concepto tal y como se ha definido.
Cuando se ha formulado (o reformulado) un concepto, significa que
uno o todos sus rasgos se han ajustado. Nótese que estos están tan mez
clados que es difícil cambiar un rasgo sin cambiar otro. El proceso de la
formación de conceptos es, por lo tanto, un proceso de ajuste mutuo.
Para lograr un grado alto de adecuación conceptual podemos: (a) elegir —0
un término diferente, (b) alterar los atributos definitorios contenidos en
la intensión, (c) ajustar los indicadores mediante los que se operacionali-
za el concepto, o (d) volver a trazar las fronteras fenoménicas de la ex
tensión.
De esto se sigue que un cambio en cualquier aspecto de un concepto
afectará probablemente a los otros tres elementos.34 Y, por esta razón,
nuestro tema debe contemplarse holísticamente. Es difícil que separemos
las tareas que pertenecen exclusivamente al reino fenoménico de las que
pertenecen al reino lingüístico/semántico o teórico. La ciencia social,
desde esta perspectiva, es un intento de mediar entre el mundo del len
guaje (el término y sus atributos) y el mundo de las cosas (más allá del
lenguaje). Ninguno es temporal o causalmente anterior; ambos están
siempre presentes en un concepto.
Con esta comprensión de nuestra tarea, se considerarán cruciales siete
criterios para la formación de conceptos empíricos en las ciencias socia
les: (1) la resonancia, (2) el dominio, (3) la consistencia, (4) la fecundidad,
(5) la diferenciación, (6) la utilidad causal y (7) la operacionalización (es
decir, la medición). Este último criterio es el tema del capítulo 7, por lo
que en este capítulo trataremos sólo los primeros seis criterios. Por co
modidad, la tabla 5.1 resume los siete desiderata.
135
I
Tabla 5.1 Criterios de la conceptualización______________________

1. Resonancia (familiaridad, uso normal; antónimos', idiosincrasia,
neologismo, estipulación).
¿En qué medida es fiable el concepto para las definiciones existentes y
el uso establecido?
2. Dominio (alcance)
¿Cuán clara(s) y lógica(s) es(son) (a) la(s) comunidad(es) lingüística(s)
y el terreno empírico que abarca un concepto?
3. Consistencia (antónimo'. inconsistencia)
¿Es consistente en toda una obra el significado de un concepto?
4. Fecundidad (coherencia, profundidad, esencia, feracidad, tipos
naturales, capacidad, real, riqueza, robustez)
¿Cuántos atributos comparten los referentes de un concepto?
5. Diferenciación (contexto, espacio de contraste, perspectiva, punto de
referencia, campo semántico)
¿Cuán diferente es un concepto de los conceptos próximos? ¿Cuál es el
espacio de contraste contra el que un concepto se define a si mismo?
6. Utilidad causal (utilidad empírica, utilidad teórica)
¿Qué utilidad tiene un concepto en el marco de una teoría causal y un
diseño de investigación?
7. Operacionalización (medición)
¿Cómo identificamos (el concepto) cuando lo vemos? ¿Puede un
concepto ser fácilmente medido sin problemas, por ejemplo, sin
sesgos? (capítulo 7)
Resonancia
El grado en que un término o definición tiene sentido o es intuitivamen e

claro depende crucialmente de cuánto se ajusta o choca con el uso es a
blecido. Es poco probable que se comprenda bien un término definí o e
una forma muy idiosincrásica. En el límite —es decir, con pala ras ca
rentes de sentido— no se comprende en absoluto. La comumcacion im
plica, por lo tanto, lograr la resonancia con el uso establecido.
Los que tienden a menospreciar la importancia de la resonancia en a
formación de conceptos podrían contemplar la siguiente definición e
democracia: un animal peludo con cuatro patas. Esto, obviamente, carece
de sentido. Lo importante, para nuestros propósitos aquí, es que el sin-
sentido de esta definición reside en su total falta de resonancia. Viola as
normas de uso al definir «democracia» con atributos que se asocian nor
malmente a un «perro». Éste es el problema de las definiciones que son
puramente estipulativas (que dependen de la autoridad de quien las pro
pone). Los conceptos parecen arbitrarios si no se ajustan a la compren
sión establecida de un término o un fenómeno.
136
i
5 Conceptos
La resonancia en la definición de un término dado se logra incorpo

rando significados normalizados y evitando los que no lo son. La reso
nancia en la elección de un término se consigue identificando en el léxico
existente la palabra que describe con más precisión el fenómeno de inte
rés. Cuando hay varios términos que captan el fenómeno en cuestión con
la misma facilidad —como, por ejemplo, los cuasi sinónimos «visión del
mundo» y «Weltanschauung»—, lograr la resonancia pasa a depender de
que se identifique el término de mayor uso común. Los términos ingleses
simples son más familiares que los términos procedentes de lenguas
muertas, extranjeras o de léxicos muy especializados.
Cuando ningún término del léxico existente describe adecuadamente
el fenómeno en cuestión, el autor se encuentra obviamente obligado a
inventar un término nuevo. En algunas ocasiones, el neologismo es inevi
table y, por lo tanto, deseable. En efecto, en su día, todas las palabras
fueron neologismos, por lo que no podemos quejarnos mucho de la
fuerza de la innovación. En algunas ocasiones se puede revocar la tradi
ción. Dicho esto, debemos justificar cuidadosamente todo neologismo,
todo alejamiento del uso común. «La regla máxima de la estipulación»,
escribe Richard Robinson, «es ciertamente estipular lo menos posible.
No cambie las definiciones recibidas si no tiene quejas fundadas contra
ellas».36
Un ejemplo de neologismo bastante redundante lo encontramos en la
obra de Robert Dahl sobre (yo diría que) la democracia. Percatándose de
las dificultades semánticas de este término y con la idea de evitar su «ele
vada carga de ambigüedad y significado añadido», Dahl propone una
distinción entre la democracia entendida como un ideal inalcanzable y la
«poliarquía» (término derivado del griego: el gobierno de muchos), que
debe entenderse como los estados existentes que presentan algunas de las
cualidades de la democracia y que comúnmente se califican de democra
cias. Esto, pensaba Dahl, resolvería la tensión recurrente entre el «es» y
el «debe ser» que complica el término democracia en el discurso popular
y académico.37 Los motivos de Dahl son plausibles, pero no podemos de
cir que su neologismo haya sido fructífero, a pesar de la prominencia de
este autor en el campo. El problema es que los significados de ambos tér
minos son tan próximos que cuando escuchamos hablar de poliarquía
inevitablemente pensamos en democracia. Podemos también observar
que el intento de liberar a las palabras científico-sociales de su carga nor
mativa tiende a ser inútil, porque la ciencia social se ocupa generalmente
de cosas sobre las que la gente se siente muy afectada, y ese sentimiento
está arraigado en el lenguaje común. Es más, aunque esta distinción en
tre lo normativo y lo descriptivo resultase útil, tendría el efecto desafor
tunado de privar a la obra académica de relevancia popular (capítulo 3).
En todo caso, lo importante es que todo alejamiento llamativo del uso
137
normal impone un coste al lector. Las más de las veces, este coste es de
masiado elevado y por ello el término queda descartado.
Asimismo, incluso la invención de nuevos términos nunca está com
pletamente ausente del léxico existente. Los neologismos, aunque se re
sisten al uso común, luchan por reincorporarse al universo de la inteligi
bilidad. Raramente son palabras sin sentido; son, en cambio, nuevas
combinaciones de palabras que ya existen (como, por ejemplo, autorita
rismo burocrático) o raices lingüísticas (poliarquía, herestética), o térmi
nos prestados de otros tiempos (corporatismo), de otras regiones lingüís
ticas (equilibrio) u otras lenguas (laíssez-faire).3S Con diferencia, el
terreno más fértil para el neologismo han sido las lenguas clásicas (por
ejemplo, ego, communitas, polis, hermenéutica) y los epónimos (marxis
mo. reaganismo). En todos estos casos, las palabras, o las raíces de las
palabras, se importan de sus contextos normales a contextos diferentes,
donde adoptan nuevos significados o sentidos adicionales. Por muy seve
ra que sea la extensión semántica, algunas propiedades originales perma
necen intactas.39
Resumiendo, los términos y las definiciones elegidas en las ciencias
sociales deben resonar lo más posible con el uso establecido. Las incon
sistencias con el uso ordinario normalmente generan ambigüedad en una
palabra o campo, a pesar de las buenas intenciones del autor. Los con
ceptos que menos resuenan con el uso común se denominarán neologis
mos o definiciones estipulativas; están justificados sólo cuando no se dis
pone de un concepto que resuene más.
Dominio
Admitamos que todo esto depende del terreno lingüístico en el que su
puestamente un concepto tiene resonancia. Un concepto, al igual que un
argumento, puede evaluarse sólo en la medida en que se comprende su
dominio de uso. A igualdad de condiciones, siempre es deseable un ma
yor alcance de comprensión y uso. «Democracia» se entiende de forma
algo diferente en las distintas partes del mundo.40 Hay otros términos,
como «cupones», que pueden tener poca o ninguna resonancia para los
ciudadanos legos del mundo. En las ciencias sociales hay diferencias ter
minológicas importantes entre los distintos campos y subcampos y los
diferentes periodos de tiempo. Los economistas hablan un lenguaje que
difiere en cierto modo del que hablan los antropólogos. Por consiguiente,
no sólo nos debe preocupar cuán resonante es un concepto, sino también
cuántas comunidades lingüísticas lojncluyen. Siempre habrá alguien, en
algún lugar, que comprende un término de forma diferente y para quien
una definición propuesta no tiene resonancia.
138
5 Conceptos
Así, es importante que los autores especifiquen —siempre que haya

ambigüedad— qué regiones lingüísticas se espera que incluya un concep
to dado. Lo más importante es la distinción entre audiencias legas y aca
démicas. Como se ha mencionado antes, es deseable que todos los cientí
ficos sociales eviten términos especializados («jerga») y se inclinen por el
lenguaje natural con el fin de ampliar su audiencia. Pero debemos reco
nocer que las ciencias sociales, al igual que todas las regiones lingüísticas
(por ejemplo, la medicina, el derecho, las pandillas callejeras, el balon
cesto), requieren un vocabulario especializado.41 La ciencia social no
puede aceptar las palabras del lenguaje corriente tal y como son. El in
vestigador tiene que trastear un poco con las palabras y las definiciones,
aunque sólo sea porque su uso corriente es variable. Durkheim señala
que, en general, los conceptos de ciencia social:
no siempre coinciden con los del hombre lego. No es nuestra intención descubrir
un método simplemente para identificar con suficiente precisión los hechos a los
que se refieren las palabras del lenguaje común y las ideas que transmiten. Antes
bien, necesitamos formular conceptos totalmente nuevos apropiados para los re
quisitos de la ciencia y expresados en una terminología adecuada.42
Los límites del lenguaje común como fundamento definitorio en las cien
cias sociales se manifiestan en el hecho de que los términos más comple
jos —por ejemplo, democracia, justicia, bienes públicos— tienen múlti
ples significados. En la medida en que los científicos sociales necesitan
construir conceptos especializados con más coherencia y capacidad de
operacionalización, están obligados a alejarse del uso corriente.
Establecer el dominio de un concepto depende de los objetivos de la in
vestigación. En algunas ocasiones se requiere una definición general, que
se pueda mover libremente entre ámbitos académicos y no académicos. Si
intentamos atraer a los diseñadores de las políticas y/o al público general,
entonces debemos fijarnos cuánto resuena un concepto dado con el uso
común. Si intentamos ir más allá de una cultura o lenguaje particular, en
tonces debemos considerar también los usos en otras culturas y lenguajes.
En otras ocasiones, puede no ser necesario viajar tan lejos o conseguir un
consenso universal. Esto vale para muchos contextos de la ciencia social,
donde los conceptos se moldean para usarlos en proyectos específicos. Lo
que se requiere es un enfoque más especializado sobre la formación de
conceptos, lo que normalmente se conoce como definición estipulativa, de
finición al uso, definición contextual o concepto sistematizado f
Para ilustrar la noción de dominio conceptual consideremos el concep
to de democracia. Digamos que el dominio de este concepto varía desde
un único subcampo (por ejemplo, el de la democratización en ciencia po
lítica), hasta una disciplina entera (la ciencia política), un conjunto de
139
disciplinas (las ciencias sociales), un lenguaje natural (por ejemplo, el in

glés) o todas las lenguas naturales. Cada dominio requiere una amplia
ción de las comunidades lingüísticas, y por tanto (probablemente) una
gama más amplia de definiciones y usos. Para que el concepto funcione
adecuadamente en su dominio, debe comprenderse (es decir, debe reso
nar) en ese dominio. Esto es cierto con independencia de cuán grande o
pequeño sea el dominio.
Exactamente igual que todo concepto tiene un dominio lingüístico (es
decir, la región lingüística donde supuestamente resuena), también tiene
un dominio empírico (fenoménico). Consideremos cuatro contextos ac
tuales en los que el concepto de democracia se emplea frecuentemente:
(1) comunidades locales; (2) Estados nacionales; (3) grupos de apoyo
transnacionales y (4) modos de vestir y de comportamiento. Obviamente,
en algunos contextos unos atributos son más válidos que otros. Por ejem
plo. «competencia» parece pertenecer a (2) y en modo alguno a (4).
A la luz de todo esto, las numerosas definiciones de democracia que se
han propuesto últimamente no son equivocadas, pero sí bastante parcia
les. Exploran el significado de democracia en algunos contextos e igno
ran o no dan importancia a otros contextos. Son, en este sentido, defini
ciones estipulativas y arbitrarias, pero sólo si se conciben como
definiciones multiusos. Si, en cambio, consideramos que estas definicio
nes se limitan a un dominio, es posible entonces restaurar una mínima
claridad a la controvertida empresa de la formación de conceptos.
Consistencia
El criterio de dominio implica el de consistencia. Un concepto debe tener

(más o menos) el mismo significado en todos los contextos empíricos en
los que se aplica. La gama de conceptos que hay en una población de
conceptos no debe sugerir connotaciones diferentes.44
La violación de la consistencia —cuando un término no significa lo
mismo en distintos contextos— crea el problema conceptual de la «ex
tensión».45 Así, si el corporatismo se define como una institución de alta
negociación entre unidades relativamente autónomas de la sociedad civil,
una extensión de este concepto implicaría incluir casos latinoamericanos,
donde los sindicatos y otros actores de la sociedad civil solían estar ma
nipulados (y en algunos casos siguen estándolo) por el Estado. Desde
luego, si el corporatismo se define más ampliamente —para incluir, por
ejemplo, cualquier negociación formal entre sectores organizados de la
sociedad civil (con o sin el control del Estado)— entonces esa ampliación
no afecta a la integridad del concepto y se puede aplicar al contexto lati
noamericano.
140
5 Conceptos
La manera usual de ajustar el alcance de un concepto es añadiéndole

o restándole atributos definitorios. Normalmente vemos que hay una co
rrelación inversa entre la intensión y la extensión de un concepto. En
concreto, cuando los atributos se conciben como necesarios, necesarios-
y-suficientes, o aditivos-y-continuos, añadir atributos a una definición re
duce el número de fenómenos que satisfacen la definición. Las definicio
nes más focalizadas abarcan menos fenómenos. Así, como muestra
gráficamente la línea continua de la figura 5.1, hay una relación inversa
entre la intensión y la extensión.46
Supongamos, por ejemplo, que empezamos con una definición de
democracia que sólo incluye el criterio de «elecciones libres y justas». Su
pongamos ahora que decidimos añadir un segundo atributo, «libertades
civiles». Si estos atributos se conciben como necesarios o necesarios-y-
suficientes, la adición de cualquier rasgo definitorio tiende a reducir el
número de Estados que reúnen los requisitos para ser democráticos, limi
tándose así la extensión del concepto. Si estos atributos se consideran
aditivos y cuestiones de grado (las elecciones son más o menos libres, las
libertades civiles son más o menos respetadas), la adición de atributos
atenuará el ajuste empírico entre la intensión y la extensión, reduciéndo
se así las fronteras empíricas del concepto. (El mismo conjunto de enti
dades será considerado menos democrático). En cualquiera de ambas si
tuaciones, la adición de atributos no puede incrementar la extensión de
un concepto, porque uno está añadiendo requisitos definitorios.
Alta
/ Atributos
condición-suficiente
Extensión
(Número de referentes)
Atributos
Baja condición-necesaria
Baja Intensión Alta

(Número de atributos)
Figura 5.1 Intensión y extensión: compensaciones
141
La utilidad de este esquema es que permite al que conceptualiza ajus

tar el alcance de un concepto para satisfacer las necesidades de un análisis
de forma que se evite violar la consistencia. Un concepto debe definirse
de forma que «viaje» tanto como se necesite, pero no más. Si queremos
formar un concepto de democracia que valga tanto para la antigua Ate
nas como para la era contemporánea, necesitamos un concepto más gene
ral que si queremos describir la democracia en una de las dos. Ampliar un
concepto implica elegir una definición que tiene menos atributos y, por lo
tanto, un mayor ámbito de aplicabilidad.
Sin duda, esta relación no funciona igual cuando los atributos defini-
torios se conciben como condiciones suficientes. Aquí, cualquier añadido
de atributos incrementa el espacio potencial de la entidad, porque cada
atributo es sustituible por cualquier otro atributo.47 Si «competencia» es
de por sí suficiente para calificar un Estado como democrático, entonces
la adición de una segunda condición suficiente (por ejemplo, la «partici
pación») sólo puede incrementar la población de democracias.48 Aquí en
contramos una correlación directa entre la intensión y la extensión, ilus
trada con la línea discontinua de la figura 5.1.
Sin embargo, debemos reconocer que los atributos conceptuales rara
mente se conciben como suficientes. Suelen considerarse como necesa-
rios-y-suficientes, necesarios, o continuos (una cuestión de grado). Esto
significa que la relación ilustrada con la línea continua es más frecuente
en los trabajos de ciencias sociales que la relación ilustrada con la línea
discontinua. (En el capítulo 6 volveremos a tratar la estructura de los
conceptos.)
Fecundidad
Por lo general, los científicos sociales asocian la explicación a los argu

mentos causales, y la comprensión a los argumentos descriptivos. Sin
embargo, hay un sentido en el que los conceptos descriptivos también ex
plican. Lo hacen al reducir la infinita complejidad de la realidad a con
ceptos parsimoniosos que captan algo importante —algo «real»— sobre
esa realidad. Llamaré a este criterio fecundidad, aunque también hace re
ferencia a la coherencia, profundidad, feracidad, iluminación, capacidad
de información, percepción, tipos naturales, capacidad, productividad,
riqueza o densidad. En cualquier caso, parece claro que una apuesta por
los conceptos es una apuesta por que nos digan lo más posible sobre una
porción del mundo empírico.
Los conceptos que desarrollan los investigadores que trabajan en la
tradición intrepretativista suelen dar prioridad a la fecundidad. Los inter-
pretativistas insisten en que la ciencia social no puede sustraerse del aná-
142
5 Conceptos
lisis rico y sugerente. Las descripciones densas tienen ventajas sobre las
ligeras y las teorías densas sobre las ligeras: nos dicen más sobre un con
junto de casos. Sin embargo, debemos apreciar que el análisis de narrati
vas no garantiza la fecundidad en sí y por sí mismo, del mismo modo
que el trabajo estadístico no conduce inexorablemente al análisis ligero o
reductor. Nos vienen a la mente muchos artistas de la prosa cuyo punto
fuerte es la generalización excesiva, que ni es informativa ni sugerente.
También hay un número equivalente de estudios estadísticos que descri
ben o explican mucho sobre su tema.49
En efecto, los métodos cualitativos y cuantitativos para la formación
de conceptos persiguen el mismo objetivo por medios diferentes. Así,
cuando los sistemas de clasificación biológica empezaron a usar modelos
informáticos en la década de 1960, las clasificaciones que se obtuvieron
eran sorprendentemente similares a las categorías existentes (en muy
buena medida heredadas de Linneo).50 Asimismo, las exploraciones
cuantitativas de la cultura política han tendido a seguir la estructura de
los argumentos desarrollados en el pasado por Tocqueville, Hartz y otros
autores en tiempos en los que no se usaba rutinariamente el análisis
cuantitativo para las cuestiones sociales.51 Notemos que el propósito de
todas las rutinas estadísticas descriptivas (como, por ejemplo, el r de
Pearson, el análisis factorial, el análisis de componentes principales, el
análisis de conglomerados y la metodología Q) es dilucidar semejanzas y
diferencias entre las entidades, con el objeto común de clasificarlas entre
las más similares y las más diferentes. (Este mismo objetivo se persigue
cuando se clasifican casos o rasgos.)
Más allá del nivel de medición, el propósito general de un concepto se
puede especificar así: focalizar nuestra atención en un aspecto de la reali
dad —apartándolo de la ubicuidad de los datos existentes. Lo que hace
que el concepto sea o no sea convincente es el grado en que «cincela la
naturaleza en sus articulaciones» (parafraseando la metáfora de Platón)
o identifica «tipos naturales» (en términos aristotélicos). Los conceptos
luchan por identificar cosas parecidas, agruparlas y contrastarlas con
otras que son diferentes. Las manzanas con las manzanas, y las naranjas
con las naranjas.
Sin duda, todos los conceptos son, en cierto grado elemental, conven
cionales. (La gente nace con la capacidad del lenguaje, pero no nace con
el conocimiento de un lenguaje específico.) Sin embargo, los conceptos
sólidos van más allá de lo que es meramente convencional. Revelan una
estructura dentro de las realidades que intentan describir. En la medida
en que un concepto logra identificar semejanzas y diferencias reales, ha
logrado identificar tipos naturales. Es ontológicamente cierto.
Consideremos tres conceptualizaciones del tipo de régimen. La prime
ra distingue entre democracias y autocracias;52 la segunda, entre demo-
143
cracias puras, estados autoritarios competitivos y autocracias puras, y la

tercera establece un índice de veintiún puntos cuyo objetivo es servir
como una escala de intervalo.54 ¿Cuál de ellas es la más satisfactoria?
viamente, todas son satisfactorias para propósitos causales diferentes
(véase más adelante). Sin embargo, con fines descriptivos, la utilidad de
un esquema depende mucho de su fecundidad. En el ejemplo que teñe
mos, esto equivale a preguntar: ¿qué esquema describe mejor el objeto e
estudio? Más concretamente, ¿cuál agrupa mejor las características de un
régimen diferenciándolo de otros grupos? ¿Es posible identificar un Pun[°
de separación natural entre las autocracias y las democracias (una clasifi
cación en dos grupos)? ¿Y entre las democracias puras, las autocracias
competitivas y las autocracias puras? ¿O es posible identificar un conti-
nuum de características sin «conjuntos» claros, que justifica un espacio i-
mensional continuo? Naturalmente se pueden considerar muchas otras
opciones. Algunos dirán que los tipos de régimen son multidimensiona es
y que son, por lo tanto, inapropiados para una escala ordinal o deînter
valo.55 Pero todos estos argumentos remiten al ideal de fecundidad.
Como la noción de fecundidad es crucial para la formación de con
ceptos —y en general para la inferencia descriptiva— es importante que
la estudiemos con más detalle.
Los conceptos no tienen sentido a menos que los atributos que los e-
finen se pertenezcan mutuamente de alguna forma funcional o lógica.
Deben ser coherentes. En los Estados Unidos, por ejemplo, el concepto
«el Oeste» podría ser acusado de frágil porque los estados del oeste no
comparten muchos rasgos en común (aparte de la contigüidad). Asi,
aunque podemos estipular un conjunto preciso de fronteras (por ejem
pío, los siete estados más occidentales), es inevitable percibir que esas
fronteras son un tanto artificiales. Esto no hace que el concepto sea erro-
neo, pero ciertamente lo hace menos significativo —menos fértil y, por
lo tanto, presumiblemente menos útil en muchos contextos. Cuanto mas
profundo o rico es un concepto, más convincente es su pretensión de de i-
nir una clase de entidades que merecen ser llamadas igual. Un término
coherente tiene más pegada: es, en términos descriptivos, más poderoso,
pues nos permite inferir muchas cosas (las características comunes del
concepto) con una sola cosa (el nombre del concepto). Según muchos
historiadores, el concepto «el Sur» es más coherente que «el Oeste», por
que se puede hacer una lista mucho más larga de sus atributos y las dife
rencias entre las regiones son más evidentes.
Las definiciones más coherentes son aquellas que identifican un nú
cleo o significado «esencial».57 En su influyente obra sobre el poder, Ro-
bert Dahl se propone descubrir «el significado central e intuitivamente
comprendido de la palabra», «la noción primitiva [de poder] que parece
subyacer tras todos los conceptos [anteriores]».58 Esta aproximación des-
144
i
5 Conceptos
de la esencia a la definición es común (y, de hecho, está justificada). Por

ejemplo, el significado esencial de democracia suele ser el gobierno del
pueblo. En la medida en que este esfuerzo reduccionista es exitoso —es
decir, en la medida en que un único principio puede subsumir varios usos
y casos del concepto—, se ha logrado el nivel más alto de coherencia en
ese concepto. (Nótese que las definiciones esencialistas suelen adoptar la
forma de definiciones mínimas, un asunto que trataremos más adelante.)
Diferenciación
Un concepto no puede ser internamente coherente a menos que sea dis

tinguible de otros conceptos. Asi, la diferenciación externa está implícita
en la noción de fecundidad. La fecundidad se refiere al grado en que un
conjunto de fenómenos es similar a otro, mientras la diferenciación hace
referencia al grado en que esos fenómenos son diferentes de los que les
rodean. Son las dos caras de una moneda. Si las manzanas son indistin
guibles de las naranjas, la coherencia de «manzana» queda en tela de
juicio.59
La importancia de la diferenciación está implícita en las palabras defi
nición y término. La definición es «el acto o el producto de marcar o deli
mitar los rasgos o las características de cualquier concepción o cosa».60
Término tiene connotaciones semejantes, señala John Dewey. Se «deriva
del latín “terminus”, que significa tanto frontera como límite terminal».61
Hanna Pitkin explica que «el significado de una expresión está delimita
do por lo que podría haberse dicho en su lugar pero no se ha dicho. El
verde se acaba donde el amarillo y el azul empiezan, de forma que el sig
nificado de “verde” está delimitado por los significados de “amarillo” y
“azul” ».62 Un concepto sólido es, por lo tanto, aquel que demarca clara
mente las fronteras.
¿Cómo establece un concepto, entonces, fronteras claramente demar
cadas? Un elemento clave es especificar cuidadosamente cómo encaja un
concepto en un campo semántico mayor compuesto de conceptos y refe
rentes próximos. Nos referiremos a esto como el contexto de fondo o es
pacio de contraste de un concepto.
Hemos señalado antes que los conceptos se definen en relación con
otros conceptos —los chicos en relación con las chicas, los Estados na
cionales en relación con los imperios, los partidos en relación con los
grupos de interés. Estos términos próximos (sinónimos, cuasi sinónimos,
antónimos y conceptos supraordinados-subordinados) dan significado a
un concepto. Debido precisamente a la interconexión lingüística, la rede-
fmición de un término implica necesariamente cierto restablecimiento de
su campo semántico. Es imposible redefmir un término sin redefinir
145
Metodología de las tiendas sociales
otros. Toda redefinición del corporatismo cambia nuestra comprensión

del pluralismo, igual que la redefinición de la democracia cambia nuestra
comprensión del autoritarismo.
De esto se sigue que. si se quiere mantener el significado lingüístico,
un nuevo concepto debe restablecer el campo semántico lo menos posi
ble. dejando otros conceptos (más o menos) como estaban.63 En efecto,
un término nuevo o una redefinición que toma atributos de conceptos
próximos está sentando las bases para una futura anarquía conceptual.
Puede resonar en un primer momento, pero en el largo plazo tenderá a
generar confusión en el campo o subcampo. Los campos semánticos
«abarrotados» son un ejemplo de esto. Consideremos los muchísimos
términos que se han desarrollado en las últimas décadas para hacer refe
rencia a grupos formados por los ciudadanos, como asociaciones cívicas,
asociaciones voluntarias, organizaciones de la sociedad civil (OSC), or
ganizaciones ciudadanas, organizaciones no gubernamentales (ONG),
grupos de interés y organizaciones populares. Si bien se pueden identifi
car diferencias sutiles entre estos términos, es difícil aceptar que la pro
pagación infinita del término sea buena para el campo. Con frecuencia,
los neologismos son una señal de desorden conceptual más que de fecun
didad teorética.
En cualquier caso, incumbe a los autores clarificar cómo difieren su
concepto o conceptos de esos conceptos próximos que comparten el mis
mo espacio semántico y fenoménico. Esto requiere establecer claros con
trastes con lo que queda fuera de las fronteras de un concepto.
Consideremos conceptos rivales que pretenden explicar la cultura po
lítica de Estados Unidos, que pueden resumirse en liberalismo (Louis
Hartz, Alexis de Tocqueville),64 republicanismo (J. G. A. Pocock, Gordon
Wood)65 y una combinación de liberalismo, republicanismo e identidades
adscritas (Rogers Smith).66 Lo que aquí interesa es que estas distintas
perspectivas suelen basarse en contrastes espaciales ylo temporales dife
rentes. Los partidarios de la tesis liberal aluden a una comparación im
plícita entre Estados Unidos y Europa. Los partidarios de la tesis repu
blicana evocan comparaciones entre los siglos xvm y xix —el primero
más republicano y el segundo más liberal. Los partidarios de la tesis de
las identidades adscritas recurren a comparaciones con ideales y prácti
cas contemporáneas consideradas más igualitarias. Todas las escuelas de
pensamiento están probablemente en lo cierto. Sin embargo, son correc
tas respecto de diferentes comparaciones. La cultura política estadouni
dense parece diferente cuando se invocan contrastes espaciales y tempo
rales diferentes.
En muchos otros debates conceptuales encontramos el mismo pro
blema de rivalidad de espacios de contraste. Por ejemplo, los autores
discuten vehementemente sobre las bases del conflicto político en la
146
5 Conceptos
política estadounidense contemporánea: mientras unos acentúan la

preeminencia del estatus, la raza y la moralidad,67 otros hacen hincapié
en la preeminencia de la clase social.68 (Por el momento estos argumen
tos se considerarán como fundamentalmente descriptivos más que cau
sales.) De nuevo, este debate tiene muchas aristas. Dicho esto, parece
que una parte del desacuerdo se puede explicar por los marcos de com
paración rivales. Los que defienden el argumento del estatus/los valores
pueden plausiblemente aducir: (a) una comparación espacial con Euro
pa (como hicieron los partidarios de la tesis liberal), (b) una compara
ción temporal con la era del New Deal, y (c) el comportamiento en el
nivel de la élite. Los que defienden la interpretación socioeconómica
generalmente tienen en mente: (a) una comparación temporal que
abarca la última mitad de siglo (pero no Europa ni un periodo mayor
de tiempo histórico), (b) el comportamiento político en el nivel de las
masas y (c) comparaciones contemporáneas entre la fuerza relativa de
las cuestiones del estatus/los valores y las de la clase en la estructura
ción del voto. Una vez más, ambas escuelas tienen razones para estar
en lo cierto. Pero no son las mismas razones.
Ocurre algo similar con los argumentos recientes sobre la desigualdad
global. Los que acentúan la creciente brecha mundial en la distribución
de la renta tienden a basar sus argumentos en la evidencia procedente de
las últimas décadas, un periodo para el que disponemos de datos de nivel
individual.69 Los que ponen énfasis en la relativa constancia de la des
igualdad generalmente se refieren a un periodo mayor de tiempo que se
remonta a mediados del siglo xx y quizás más atrás.70 Una vez más,
nuestras conclusiones dependen crucialmente del contexto histórico que
elegimos.
Sin duda, los argumentos causales también se inscriben en sus espa
cios de contraste y eso puede asimismo plantear problemas, como vere
mos en el capítulo 8.71 Sin embargo, tienden a crear menos confusión,
porque los argumentos contrafácticos suelen ser más explícitos. Decir
que «X causa Y» es decir, implícitamente, que cuando X cambia su valor,
también lo hará Y (al menos probabilísticamente). Esto se entiende ense
guida y se formaliza en la hipótesis nula. Pero decir que « Y es X» (es de
cir, X, un adjetivo, describe Y) es evocar un espacio de contraste mucho
más ambiguo. «No Y» puede referirse a cualquier contraste espacial o
temporal o al significado (no empírico) del término «X» (como en el ar
gumento de Rogers Smith sobre la cultura política estadounidense). Es
tamos perdidos, porque la hipótesis nula —frente a la que puede juzgarse
nuestra hipótesis— no es evidente.
No obstante, el problema del contexto pasa a ser tratable en la medida
en que los autores son capaces de abordar una variedad de puntos de re
ferencia rivales, explícita y empíricamente. Hay tres dimensiones posibles
147
en ellos: espacial, temporal y conceptual. Esta última se refiere sin duda a

los atributos definitorios de un concepto y de los conceptos próximos.
Sacando a la luz estas comparaciones, se pueden ensamblar argumentos
encontrados, incluso sobre asuntos muy abstractos como la cultura polí
tica y la igualdad, que quizás se resuelvan con el tiempo. Ésta es la virtud
de la comparación explícita, que representa un papel más importante en
la inferencia descriptiva que en la inferencia causal.
Utilidad causal
Los conceptos funcionan tanto causal como descriptivamente. Es ecir,

sirven de componentes en un argumento causal mayor. En esta última a
ceta, afrontan desiderata que en algunas ocasiones determinan el mo o
en que se forman.
Por ejemplo, supongamos que estamos examinando el papel de os sis
temas electorales en la estructuración del conflicto político. Aquí pro a
blemente queremos limitar el ámbito de estudio a las entidades po iticas
que son razonablemente, o al menos mínimamente, democráticas, or
consiguiente, necesitamos un concepto de democracia que logre este o
jetivo. Una definición de tipo-ideal (véase más adelante) no bastara, se
requieren fronteras claras entre los regímenes democráticos y los no e
mocráticos. En este caso las preocupaciones causales dirigen claramen e
la formación del concepto. ,
En el ejemplo anterior los conceptos de democracia demarcan as
fronteras de una inferencia causal. Asimismo, los conceptos identi ican
también factores causales (variables independientes) o resultados (vana
bles dependientes). Una variable en un argumento causal puede unció
nar también como concepto; no existe tal cosa como una variable caren
te de concepto (y si existiera, no tendría significado).
De forma típica, los conceptos diseñados para usarse com® Ví*ria es
dependientes agrupan muchos atributos. Aquí una definición de tipo
ideal puede ser muy fructífera. En cambio, los conceptos diseña os
para usarse como variables independientes suelen ser más restringí os
y parsimoniosos. Esto concuerda con el objetivo de la argumentación
causal: explicar mucho con poco. También concuerda con el objetivo
de la argumentación causal de tener «un tratamiento» discreto y clara
mente definido, lo suficientemente específico como para poder ser ma
nipulado (al menos en principio) y diferenciarse claramente de otros
factores (confundidores potenciales). Además, la formación de concep
tos en los modelos causales puede recurrir cuidadosamente a conceptos
que diferencian una causa de su efecto, de forma tal que se evite la cir-
cularidad argumental.
148
5 Conceptos
Los conceptos que se definen para usarse en un análisis causal especí

fico son conceptos especializados, no son conceptos que se proponen cu
brir todas las circunstancias y contextos. Su alcance no es general. En al
gunas ocasiones, este tipo de definición especializada choca con el uso
establecido e incurre así en un coste en su resonancia conceptual. Hay
que tener en cuenta este coste. Los modelos causales son confusos y re
sulta imposible generalizar con ellos si sus conceptos clave se definen de
forma idiosincrásica.
En suma, la causalidad es sólo un factor entre otros muchos que afec
ta directamente a la formación de conceptos (véase la tabla 5.1). Aun en
el caso en que las necesidades de un modelo causal sean preeminentes,
un concepto nunca pierde totalmente su propósito descriptivo. Si lo pier
de, el argumento causal del que forma parte pierde la conexión con la
realidad. Obviamente ésta es la verdadera razón de las críticas frecuentes
a los modelos causales abstractos.72
Estrategias de conceptualización
Una vez analizados los criterios generales de la formación de conceptos,

pasamos ahora a las estrategias que nos ayudarán a alcanzar esa meta.
La formación de conceptos empieza por lo general con un examen for
mal o informal de los posibles conceptos. Luego se clasifican los atribu
tos de cada concepto de forma tal que se obtenga una visión conjunta de
cada concepto (relevante). Por lo tanto, se recomiendan tres estrategias
de definición: mínima, máxima y acumulativa. La tabla 5.2 resume estas
estrategias secuenciales. El capítulo concluye con una breve discusión so
bre la utilidad potencial de este enfoque con el fin de conferir el mayor
orden y claridad posibles al léxico de las ciencias sociales.
Tabla 5.2 Estrategias de conceptualización

1. Examen de conceptos plausibles
2. Clasificación de atributos
3. Definición
(a) Mínima Condición necesaria (y quizás suficiente) de
pertenencia, entendida como el establecimiento de un umbral
mínimo de pertenencia.
(b) Máxima Todas las características (no idiosincrásicas) que
definen un concepto en su forma más pura e «ideal».
(c) Acumulativa Una serie de atributos binarios (0/1) organizados
de forma ordinal.
149
Examen de conceptos plausibles

Muchas investigaciones empiezan de un modo abiertamente inductivo.
Interesa un terreno empírico —una comunidad, una institución o una
política— que es el tema de la investigación, pero sin una pregunta de in
vestigación o una hipótesis claras. Aquí, el investigador se acerca lenta
mente a un concepto o conjunto de conceptos para comprender la cues
tión. Ésta es la conceptualización en su sentido más general. En esta
situación, el investigador debe sondear el término o términos clave antes
de elegirlos definitivamente. Una determinación prematura puede inte
rrumpir el proceso deliberativo con el que se procesa y comprende un
tema. Por supuesto, siempre se necesitarán conceptos preliminares; sin
ellos no podemos ni empezar a deliberar. Sin embargo, el sondeo de tér
minos posibles —tratando con cautela uno por uno, como si fuese una
hipótesis— es lo que permite a un investigador comprobar maneras al
ternativas de pensar sobre el tema. ¿Qué información contiene el lugar de
investigación elegido (el archivo, la base de datos, el escenario etnográfi
co)? ¿Cuál es la más interesante? Cada información sugiere una etiqueta
diferente para el proyecto. Éste es el proceso exploratorio que vimos en el
capitulo 2.
Una vez que el investigador se ha decidido por un concepto prelimi
nar. su labor es examinar brevemente las alternativas posibles —es decir,
la familia de cuasi sinónimos que más encaja en la circunstancia—, y re
currir a un neologismo sólo cuando es estrictamente necesario (como se
ñalamos antes). Como cada término existente comporta una cantidad
determinada de carga semántica, la elección entre los términos —así
como la elección de cómo definir el término elegido— implica directa
mente un sondeo de los posibles atributos. Esta fase tiene precedentes en
prácticamente todas las tradiciones del análisis conceptual. Es el equiva
lente conceptual de la «revisión de las fuentes bibliográficas».
Desde luego hay temas que son tan simples que no requieren un son
deo exhaustivo. Aquí es suficiente recurrir a un diccionario de lenguaje
natural o a un diccionario técnico especializado. Otra posibilidad es que
el autor confie en artículos o libros que proporcionen un examen más ex
tenso del significado de un término y sus pautas de uso, y quizás su eti
mología. Sin embargo, cuando el autor no dispone de estos recursos rá
pidos se verá obligado a emprender su propia investigación conceptual.
Un sondeo semántico concienzudo empieza con una muestra repre
sentativa de las definiciones formales y pautas de uso de un término ele
gido, extraída de campos científicos relevantes, del lenguaje natural y de
la historia (la etimología). Nótese que las pautas de uso pueden esclare
cer significados que no están en las definiciones formales (quizás porque
son muy obvios), y ayudar a clarificar significados cuando las definicio-
150
5 Conceptos
nes formales son vagas. El uso también implica considerar los referentes
de un concepto (los fenómenos de ahí fuera a los que se refiere el concep
to: su extensión).
En las situaciones en las que una misma palabra tiene acepciones ra
dicalmente diferentes —por ejemplo, «cola» (pegamento) y «cola»
(rabo)—, debemos escoger un solo significado del término. La homoni-
mia (dos palabras iguales con significados diferentes, como en el caso an
terior) y la polisemia (cuando una palabra evoca varios significados muy
similares) suele ser una cuestión de grado. En casos límite, el analista
tendrá que juzgar qué acepción debe apartarse (debe considerarse otro
concepto) y qué acepción debe conservarse con el fin de crear un concep
to relativamente coherente.
La representatividad en el proceso de muestreo se logra identificando
cualquier variación que haya en el uso y la definición formal dentro de
una región lingüística y rastreando la frecuencia aproximada de esos di
ferentes usos y definiciones. En el futuro podremos confiar en bibliotecas
digitalizadas que se puedan muestrear aleatoriamente, permitiéndonos
lograr una estimación más precisa de la frecuencia de uso y de las varia
ciones definitorias. Aun así, el muestreo mecánico probablemente no al
terará significativamente nuestra comprensión de los términos clave, por
que las pautas de uso en una región lingüística tienden a mostrar mucha
regularidad. Es más, nuestro propósito es descartar sólo los usos y defi
niciones que son muy idiosincrásicos. Si la muestra es lo suficientemente
grande, tenderemos a escoger los usos más comunes (no idiosincrásicos).
El principio de la redundancia puede servirnos de indicador de suficien
cia: cuando alcanzamos un punto en el que los atributos definitorios y
usos empiezan a repetirse, tenemos razón más que suficiente para poner
fin a nuestra expedición. Uno ya ha muestreado lo suficiente.
La cuestión del dominio lingüístico —cuántas regiones lingüísticas
deben explorarse— es también crucial. La mejor muestra es la que más
regiones lingüísticas representa. Pero si esta búsqueda revela diferencias
de significado importantes, entonces el analista debe restringir el alcance
de la investigación con el fin de preservar la consistencia y la coherencia.
El muestreo suele hacerse en el propio campo —quizás uno de ciencias
sociales—, que es exhaustivamente explorado, y las demás áreas se ex
ploran más superficialmente. En todo caso, el dominio de la exploración
servirá para establecer el dominio de la definición resultante.
Clasificación de atributos
La siguiente tarea es esquematizar todos los significados de un término en
una única tabla. La construcción de esta tabla se basa en el supuesto de
151
que, aunque las definiciones de un término dado son, en principio, infini

tas (un número pequeño de atributos se puede combinar de muchísimas
maneras, y siempre hay muchas maneras diferentes de transmitir un mis
mo significado), la mayoría de las definiciones y usos hacen malabarismos
con el mismo conjunto básico de atributos. Combinando cuasi sinónimos
y organizándolos en diferentes dimensiones podremos esquematizar las
muchas definiciones de cualquier concepto, hasta las de los más comple
jos. en una tabla de atributos relativamente parsimoniosa. Esta tabla será
la definición léxica del término clave, porque informa sobre los numerosos
significados del término que existen en un dominio lingüístico dado.
Por ejemplo, exploremos los atributos definitorios de «democracia».
Nuestra exploración de las definiciones y usos se basa en una serie de es
tudios recientes que intentan determinar el significado de este término
clave centrándose principalmente en la tradición occidental (histórica y
contemporánea).73 Así, éste será el dominio principal del concepto. En
términos empíricos, elijo centrarme en las aplicaciones de este concepto
en contextos políticos y especialmente en grandes sistemas de gobierno
como los Estados nacionales (más que en organizaciones pequeñas y lo
cales). Éste será el dominio empírico del concepto. Desde este compen
dio de definiciones y usos, podemos hacer una lista de atributos comu
nes, como refleja la tabla 5.3. Obviamente, esta lista se sitúa en un nivel
bastante abstracto; podemos ampliarlo para incluir rasgos mucho más
específicos del paisaje político. Pero esto requeriría una tabla mucho ma
yor, lo que es innecesario para nuestro propósito aquí.
Con un tema complejo como la democracia es útil organizar los atri
butos de una manera taxonómica (capítulo 6). Desde luego, esto no
siempre es posible, y se pueden identificar rápidamente bastantes viola
ciones de los principios taxonómicos (por ejemplo, componentes que
atraviesan varias categorías). Pero este ejercicio de reducción semántica
es útil siempre que se pueda hacer.
Definición: tipos de conceptos

Con estas salvedades, parece adecuado considerar la tabla 5.3 como una
definición léxica bastante completa, en la que se incluyen la mayoría de
los atributos normalmente asociados al término en la tradición occiden
tal. Aun así, debido a la cantidad y diversidad de estos atributos, la tabla
5.3 no nos proporciona en modo alguno una definición definitiva. Para
crear un concepto empírico más tratable, debemos ir más lejos. El si
guiente paso —de la definición léxica a la definición especializada— es
crucial. Para darlo con éxito, debemos analizar tres tipos de conceptos:
mínimos, máximos y acumulativos.
152
5 Conceptos
Tabla 5.3 Una clasificación de los atributos fundamentales: «Democracia»

Principio central: gobierno del pueblo
I Electoral II Liberal
(también conocido como élite, (también conocido como consenso,
mínimo, realista, schumpeteriano) pluralista)
Principios: concurso, competencia. Principios: gobierno limitado,
Pregunta: ¿se forma el gobierno múltiples puntos de veto,
mediante elecciones rendición de cuentas horizontal,
multipartidistas libres y justas? derechos individuales, libertades
Instituciones: elecciones, partidos civiles, transparencia.
políticos, competencia Pregunta: ¿Está el poder político
y participación. descentralizado y limitado?
Instituciones: múltiples,
independientes y descentralizadas,
con un énfasis especial en el papel
de los medios, los grupos de
interés, la judicatura, y una
constitución escrita con garantías
explícitas.
III Mayoritaria IV Participativa
(también conocida como gobierno Principio: gobierno del pueblo.
responsable de partido) Pregunta: ¿participan los ciudadanos
Principios-, regla de la mayoría, corrientes en la política?
centralización, rendición de Instituciones: ley electoral, sociedad
cuentas vertical. civil, gobierno local, democracia
Pregunta- ¿gobierna la mayoría (o directa.
una pluralidad)?
Instituciones: consolidadas y
centralizadas, con un enfoque
especial en el papel de los partidos
políticos.
V Deliberativa VI Igualitaria
Principio: gobierno de la razón. Principio: igualdad política.
Pregunta: ¿son las decisiones Pregunta: ¿tienen derechos todos los
políticas el producto de la ciudadanos?
deliberación pública? Instituciones: diseñadas para
Instituciones: medios, audiencias, garantizar la igualdad de
paneles, otros organismos participación, representación,
deliberativos. protección y recursos
políticamente relevantes.
Instituciones: tanto gubernamentales como no gubernamentales (por ejemplo, grupos de interés,
partidos, asociaciones cívicas).
Fuente: Coppedge y Gerring (2011).
153
Mínimos
Una estrategia definitoria muy antigua es identificar los elementos esen

ciales de un concepto en grado suficiente para diferenciarlo extensional-
mente sin excluir ninguno de los fenómenos que en general se entiende
que forman parte de su extensión. La definición resultante deberá enca
jar en todos los usos (no idiosincrásicos) del término sin perder demasia
do significado. Esto significa claramente que no debe entrar en conflicto
con ningún uso (no idiosincrásico). Cada atributo que define mínima
mente un concepto se considera una condición necesaria: todas las enti
dades deben poseer este atributo para poder ser consideradas miembros
del conjunto. Colectivamente, estos atributos son suficientes para limitar
el concepto extensionalmente. Las definiciones mínimas aspiran a tener
fronteras definidas que permiten la clasificación de las entidades entre
las que quedan «dentro» y las que quedan «fuera». Sin duda, no siempre
logran su objetivo, pero aspiran a él.74
En algunas ocasiones se forman conceptos mínimos en torno a un
principio central abstracto como «gobierno del pueblo». En este caso, el
significado central satisface el criterio de resonancia, porque toda invo
cación de democracia gira en cierto modo en torno a esta idea. Sin em
bargo, tan abstracta definición carece de un concepto con fronteras defi
nidas; e incluso de fronteras. A este respecto, es problemática.
Un proceder más común es identificar un componente específico del
término con el que todo el mundo (o casi todo el mundo) está de acuer
do. Si nos limitamos a las entidades políticas representativas (excluyendo
las democracias directas), se podría argüir que las elecciones libres y lim
pias constituyen una condición necesaria de la democracia. Este atributo
es suficiente como definición mínima, porque delimita la entidad empíri
camente. Es decir, celebrar elecciones libres y limpias convierte a una en
tidad política en democrática sin necesidad de tener otros atributos. Al
menos se podría argüir esto.
Sin duda, estamos definiendo la democracia mínimamente, dejando de
lado otros atributos que suelen asociarse al concepto. Esto impone costes a
su resonancia. El significado mínimo del término puede parecer insuficiente
para aquellos familiarizados con los numerosos matices de la democracia.
Máximos
Las definiciones máximas, a diferencia de las mínimas, aspiran a la inclu

sión de todos los atributos (no idiosincrásicos), describiendo así un con
cepto en su forma más pura e «ideal». Esto incluiría, por supuesto, el
atributo o atributos que definen el concepto mínimamente; su condición
154
1
5 Conceptos
o condiciones necesarias. Weber señala: «un tipo ideal está constituido

por... la síntesis de muchísimos fenómenos individuales concretos que
son difusos, discretos, que están más o menos presentes y, en algunas
ocasiones, ausentes, y que se organizan en un constructo analítico unifi
cado de acuerdo a puntos de vista unilateralmente acentuados».75
De acuerdo con esta perspectiva, podríamos crear un tipo ideal de defi
nición de democracia que incluyera todas o casi todas las dimensiones de
la tabla 5.3. Pero algunas podrían excluirse si consideramos que reducen
significativamente la coherencia del concepto general. Los elementos que
son abiertamente contradictorios se deben evitar.
Como el término sugiere, el tipo ideal no necesita un referente empíri
co y real específico. Quizás ningún gobierno existente sea completamente
democrático. Sin embargo, para que sea útil, el tipo ideal debe reflejar lo
mejor posible cómo son las entidades existentes reales, que son entonces
puntuadas de acuerdo al grado en que tienen los atributos del tipo ideal.
Los tipos ideales son siempre una cuestión de grado, y por eso se suelen
operacionalizar con escalas de intervalo (capítulo 6).
Acumulativos
Una tercera estrategia para formar conceptos es intentar reconciliar los

enfoques mínimo y máximo ordenando los atributos (binarios) común
mente asociados a un concepto de forma acumulativa, es decir, como
más o menos esenciales para un concepto.76 Esto da lugar a una escala
ordinal (capítulo 6).
De acuerdo con estos principios, podemos concebir un indicador de
escala acumulativo de la democracia que empiece con elecciones libres’y
limpias —la definición mínima— y proceda pasando por ocho criterios
adicionales ordenados en función de su centralidad para el concepto en
cuestión, como refleja la tabla 5.4. Si se acepta este orden de atributos
—es decir, si se acuerda que 1 es más esencial que 2 y que 2 es más esen
cial que 3— entonces podemos lograr una definición aceptable de demo
cracia que incorpora muchos de los atributos normalmente asociados al
término, sin dejar de reconocer la relativa importancia de cada uno de
estos atributos. Esto tiene la ventaja adicional de permitirnos ordenar to
das las entidades políticas que existen de acuerdo con su grado de demo
cracia: cuantos más atributos tiene una entidad política, más democráti
ca es.77 (Esto resuelve el problema de agregación, una cuestión de
medición que analizaremos en el capítulo 6.)
Naturalmente no podremos determinar cuánto más democrática es
una entidad política que otra, porque no podemos presumir que cada ni
vel es equidistante del siguiente (la diferencia entre una escala ordinal y
155
una escala de intervalo). Otra insuficiencia de esta definición acumulati

va es que la escala ordinal de atributos puede no ser totalmente inclusiva;
algunos atributos pueden ser difíciles de ordenar en términos de su cen-
Tabla 5.4 Definición acumulativa: «Democracia»

Escala ordinal
Atributos 1 2 3 4 5 6 7 8 9
(a) Elecciones libres y justas X X X x X X X X x
(b) Autogobierno (nacional) X X x X X X X X
(c) Autogobierno (completo) X X X X X X X
(d) Ejecutivo electo y superior X X X X X X
(e) Sufragio universal masculino X X X X X
(f) Sufragio universal X X X X
(g) Constitucionalidad del ejecutivo X X X
(h) Limites del ejecutivo X X
(i) Libertad civil_____________ X
(a) Elecciones libres y limpias: se celebran regularmente elecciones nacionales,

abiertas a los principales partidos y candidatos (incluidos todos los partidos
de oposición y personajes que pueden plantear un desafío signi tea ivo
grupo dirigente), y que en general parecen reflejar la voluntad del elector -
do (cualesquiera irregularidades que puedan existir).
(b) Autogobierno (nacional): soberanía sobre las políticas naciona es.
(c) Autogobierno (completo): soberanía sobre las políticas naciona es e in ern
dónales. . , . .
(d) Ejecutivo electo y superior: el ejecutivo es elegido y es superior (es ecir,
fado superior a otros líderes e instituciones).
(e) Sufragio universal masculino: todos los ciudadanos varones a u tos pue
votar y ningún grupo de ciudadanos es selectivamente desanimado a votar.
Presunción: la ciudadanía está formada por una mayoría de resi entes per
manentes en un territorio. . ,
(f) Sufragio universal: todos los ciudadanos adultos pueden votar y ningún
grupo de ciudadanos es selectivamente desanimado a votar. Presunción, a
ciudadanía está formada por una mayoría de residentes permanentes en un
territorio.
(g) Constitucionalidad del ejecutivo: el ejecutivo actúa de acuerdo con la ons
titución, y no cambia la Constitución para satisfacer sus necesidades po iti
cas (aunque lo intente).
(h) Límites del ejecutivo: el ejecutivo, aunque es superior, está efectivamente
constreñido por otras instituciones políticas que actúan según su papel insti
tucional (por ejemplo, los jueces, los legisladores, el monarca y las agencias
independientes).
(i) Libertad civil: los ciudadanos disfrutan de libertad de expresión y están li
bres de persecución política por parte del gobierno.
156
5 Conceptos
tralidad para el concepto. En realidad, es fácil apreciar que no todos los

atributos léxicos de democracia (la tabla 5.3) se incluyen en el concepto
acumulativo de la tabla 5.4.
Análisis
Una vez esbozadas las tres estrategias para la definición de conceptos

—mínima, máxima y acumulativa—, el lector se preguntará si aquí se
acaba todo. Naturalmente que no. Los conceptos cumplen muchas fun
ciones empíricas y teóricas, y estas funciones condicionan directamente
cómo están formados en el ámbito de una obra dada. Sin embargo, las
definiciones generales de un concepto —las que viajan libremente—
tienden a adoptar los enfoques mínimo o máximo de la definición. (En
algunas ocasiones emplean uno acumulativo). He aquí por qué estos
enfoques tienden a lograr resonancia, consistencia y coherencia en un
dominio amplio. (Las cuestiones que atañen a la medición suelen ser
secundarias cuando un concepto tiene que viajar ampliamente.). En
otras palabras, las definiciones mínimas y máximas ofrecen una solu
ción mejor para los desafíos que todos los conceptos afrontan (véase la
tabla 5.1).
A buen seguro, algunos conceptos se resisten al esfuerzo de la reduc
ción semántica. Se alega que algunos conceptos tienen atributos del tipo
«aire de familia», es decir, los diferentes usos carecen de características
comunes y, por lo tanto, no tienen un significado central. Un ejemplo
muy discutido es «madre», que se puede definir como (a) un hecho bioló
gico, (b) la persona que representa un papel principal en la crianza de un
hijo, o (c) según las reglas y normas de dominios especializados (por
ejemplo, madre superiora en la jerarquía católica). Estas definiciones no
comparten ningún elemento en común. Son completamente diferentes.78
En el contexto de las ciencias sociales, sin embargo, tendemos menos
a ver conceptos con un aire de familia. La democracia es un concepto
esencialmente controvertido. Aun así, todos los comentaristas parecen
acordar que, aplicado en los contextos políticos, este concepto gira en
tomo a un único atributo central: el gobierno del pueblo. «Justicia», otro
concepto controvertido, también tiene un significado central: a cada uno,
lo suyo. (Ambos significados centrales se remontan a la Antigua Grecia.)
Más concretamente, incluso en situaciones donde se podría decir que hay
parecidos familiares no es muy rentable subrayar la naturaleza dispar de las
definiciones de un término. Así, aunque «corporatismo» se considera un
concepto con aire de familia,79 podría admitir también una definición míni
ma y una máxima. Yo diría que nos sería más útil la segunda que la primera
precisamente porque las definiciones máximas y mínimas crean conceptos
157
más coherentes y más fáciles de ubicar en el espacio empírico (por ejemplo,

para medirlo), aunque con cierta pérdida de resonancia. Es preferible una
definición mínima, máxima o acumulativa imperfecta —como ocurre en
cierto modo con todas las definiciones en ciencias sociales— que una defini
ción con aire de familia que produce un concepto incoherente.
Antes de concluir hay que tomar nota del hecho de que nos hemos
centrado hasta ahora en casos «duros» —democracia, justicia, etc. Hay
otros conceptos en el léxico de las ciencias sociales que raramente son
problemáticos. Desde esta perspectiva, el problema de la conceptualiza-
ción es quizás algo menos grave de lo que puede parecer tras una lectura
rápida de este capítulo.
A modo de comparación, examinemos rápidamente un concepto más
fácil y concreto. «Partido político» se podría definir mínimamente como
una organización que nomina a individuos para cargos. Esta definición
impone fronteras claras y puede sustituir a todos ios usos existentes que
conozco. Sin duda, una definición máxima incluiría otros atributos nor
malmente asociados al funcionamiento de los partidos políticos, como
una ideología compartida, un aparato organizativo, una pertenencia cla
ramente definida y cierta duración en el tiempo. Estos atributos descri
ben a los partidos en su sentido más ideal y fuerte, y son cuestiones de
grado. Una definición acumulativa ordenaría estos mismos atributos (o
un conjunto de ellos) en función de su centralidad para el concepto.80
Cualquiera que sea la estrategia elegida, es más fácil definir «partido po
lítico» que «democracia». Y lo mismo ocurre con otros conceptos que
están más cerca de la realidad empírica.
Incluso en el caso de conceptos sumamente complejos, las definicio
nes mínimas, máximas y acumulativas cuidadosamente construidas ofre
cen un armazón razonablemente sólido y estable para el trabajo en cien
cias sociales. Sin duda, los significados cambian con el tiempo, pero estos
cambios se producen lentamente. Los términos nuevos o los significados
nuevos para viejos términos siempre parecen idiosincrásicos al principio.
Con el tiempo, si el neologismo gana adeptos, se consolida. Sin embargo,
en cualquier momento, se pueden hacer definiciones razonablemente fide
dignas —con la advertencia de que suelen poderse justificar los diferen
tes enfoques sobre el mismo concepto (mínimo, máximo y acumulati
vo).81 Así, es a los autores a quienes incumbe clarificar el estilo de
definición que están adoptando.
Es importante advertir también que la construcción de definiciones
mínimas y máximas establece fronteras semánticas en tomo a un concep
to. Especifica los atributos mínimos y los máximos y las correspondien
tes extensiones mínimas y máximas. Este tipo de ejercicio —equivalente
al análisis de «limites extremos»— es especialmente útil cuando se trata
de vastos conceptos como el de democracia.
158
6 Argumentos descriptivos
«Obviamente no hay ninguna clasificación del universo que no sea arbitraria y

esté llena de conjeturas. La razón es muy simple: no sabemos qué es el universo.»
Jorge Luis Borges1
«¿Qué diablos ocurre aquí?»

Abraham Kaplan2
¿Cómo describimos los científicos sociales la realidad? ¿Qué argumentos

empleamos en nuestros intentos de conferir orden a la desbordante y rui
dosa confusión del mundo?3 Podríamos suponer que la construcción de
una inferencia descriptiva está limitada sólo por el fenómeno social que
intentamos describir, los modelos (cognitivos, lingüísticos, matemáticos y
visuales) de los que disponemos y nuestra imaginación. Sin embargo, en
la práctica las inferencias descriptivas siguen un itinerario estándar de
tropos.
Yo diría que la mayoría de las afirmaciones descriptivas se pueden
clasificar en indicadores, sintesis, tipologías y asociaciones, y sus diferen
tes subtipos que se ilustran en la tabla 6.1. Así es cómo cincelan la natu
raleza los científicos sociales en el nivel descriptivo. Son pautas que bus
camos cuando intentamos describir clases de eventos del mundo social.
159
Cada una de esas maneras de describir el mundo tiene una larga his
toria. En realidad, son casi una «segunda naturaleza». Pero raramente
reciben la atención que merecen. Su misma familiaridad parece haber fo
mentado cierto grado de despreocupación. El objetivo del tratamiento
formal que doy a estos temas informales es concienciar al público de la
importancia del acto de la descripción y, al mismo tiempo, resaltar la re
levancia del análisis descriptivo en las disciplinas de las ciencias sociales.
Naturalmente, estos géneros de descripciones se pueden identificar
también en la inferencia causal. En realidad, suele ocurrir que una mis
ma pauta de datos se interpreta como descriptiva o como causal. Esto
depende de la comprensión del autor del proceso de generación de los
datos; es una inferencia, no un hecho del mundo evidente por sí mismo.4
Tabla 6.1 Argumentos descriptivos

Indicadores • Unidimensionales (conocidos como atributos, dimensiones,
factores, medidas, parámetros, propiedades, escalas,
variables).
Síntesis • Una única categoría multidimensional en la que los diversos
atributos giran en tomo a un tema central.
Tipologías • Categorías multidimensionales que son mutuamente
exclusivas, exhaustivas y definidas por principios uniformes.
Simple • (No criterios adicionales)
Temporal • Categorías correspondientes a periodos de tiempo discretos.
Matriz • Categorías derivadas de la intersección de varios factores.
Taxonómica • Categorías organizadas en una jerarquía de gemís et
differentüim.
Coníigurativa • Categorías definidas restando atributos de un concepto
central.
Secuencia! • Categorías organizadas en una secuencia temporal, con
consecuencias para cada categoría.
Asociaciones • Multidimensionales con un componente probabilístico
fuerte.
Tendencia • Correlaciones entre fenómeno y tiempo.
Red • Interrelaciones entre unidades: espaciales, temporales o
funcionales.
Correlaciona! • Correlación entre indicadores y/o conjuntos.
Indicadores
Un indicador sirve para describir una característica de una población, y
también puede llamarse atributo, dimensión, factor, medida, parámetro,
propiedad, variable o descripción unidimensional. Puede ser directamente
160
observable (por ejemplo, las puntuaciones de un test) o puede ser obser

vable sólo mediante proxies (por ejemplo, la inteligencia). Puede consti
tuir un solo fenómeno (por ejemplo, la respuesta a una pregunta deter
minada de una encuesta) o múltiples fenómenos (por ejemplo, la
respuesta a varias preguntas de una encuesta). Sin embargo, si en un in
dicador confluyen múltiples componentes, pueden reducirse, con una
pérdida considerable de información, a una única dimensión, es decir, a
un índice. Esto es lo que lo describe como perteneciente a la especie de
los indicadores. (La cuestión de si esta reducción del espacio de propie
dades es útil constituye una cuestión empírica. Por ahora, lo que nos in
teresa es la calidad a priori del argumento.) Asimismo, los indicadores
pueden calibrarse de acuerdo a cualquier tipo de escala excepto la nomi
nal con más de dos categorías, que sería, por supuesto, multidimensional
(capítulo 7).
Algunos indicadores están cerca de la realidad empírica y requieren
poca o ninguna interpretación. Una medida de la mortalidad infantil ba
sada en el número de fallecidos antes del primer año de edad por cada
1.000 nacidos vivos es bastante evidente por sí misma. Aquí, el indicador
es la tasa de mortalidad infantil (TMI). Si, por otra parte, esta variable
se emplea como indicador de algún concepto más abstracto, como el
bienestar de la población, este uso es más controvertido: entran en juego
cuestiones de validez conceptual, como veremos en el capítulo 7. A los
presentes efectos, el ámbito de los indicadores se entiende de forma in
clusiva, incluyendo tanto los hechos «evidentes por sí mismos» como
otras pretensiones más elaboradas.
Advierta que para que un indicador tenga significado debe estar aso
ciado a un concepto (lingüístico). Los indicadores más conocidos son cé
lebres en virtud de la carga conceptual que se les exige. Entre ellos figu
ran los indicadores de la democracia (por ejemplo, Polity IV5 y Freedom
House6), el conflicto interestatal (por ejemplo, Correlates of War7), la
buena gobernanza (por ejemplo, los indicadores de World Bank Gover-
nance8), las malas prácticas electorales9, y la ideología de partido.10
Asimismo, todo estudio empírico se basa en al menos un indicador.
No hay estudios «sin indicadores», porque los indicadores son las propo
siciones empíricas básicas que fundamentan las demás proposiciones,
sean descriptivas o causales. Es decir, los más complejos argumentos
multidimensionales están formados por indicadores.
Desde luego, no todos los indicadores se miden explícitamente para
un número elevado de casos. La investigación cualitativa suele basarse en
factores inconmensurables o en factores medidos para sólo un puñado
de casos. Pero esto no reduce su importancia o dificultad. Si un estudio
de caso sobre Angola afirma que este país tiene una tasa de mortalidad
«alta», se trata de un juicio cualitativo basado en muchos puntos de refe-
161
rencia comparados (presumiblemente otros países de la región y del

mundo). Para nuestros propósitos aquí, esto es también un indicador, a
pesar del hecho de que no se lo asocia con una medición precisa.
Síntesis
Una síntesis es una categoría multidimensional en la que varios atributos
giran supuestamente en torno a un tema central. El tema, normalmente
expresado en un único concepto, unifica los atributos, dando así cohe
rencia a lo que de otro modo sería un conjunto diverso de fenómenos.
Un argumento sintético ofrece así una explicación de los fenómenos,
pero no de naturaleza causal: no intenta distinguir explícitamente entre
causa y efecto. La síntesis incluye todo lo que contiene su dominio (o al
menos mucho de lo que contiene su dominio). La síntesis es, por lo tan
to, un esfuerzo holista que acentúa las semejanzas más que las diferen
cias en la muestra elegida de casos. Este paraguas conceptual suele ser
tan abstracto que requiere un gran esfuerzo de definición y operacionali-
zación.
Bastarán unos cuantos ejemplos para ilustrar este tipo de argumento
descriptivo. Consideremos, primero, la variedad de argumentos rivales
sobre la cultura política estadounidense que ya hemos mencionado: in
dividualistas-liberales-igualitarios;11 republicanos;12 o una combinación
de varias tradiciones, incluyendo la que Smith describe como adscripti-
va.13 Consideremos, en segundo lugar, el papel del presidente estadouni
dense como «vendedor» según Richard Neustadt, ya que su poder resi
de principalmente en la persuasión más que en el mando.14 Pensemos, en
tercer lugar, en el tema del nacionalismo, que para Benedict Anderson
se basa en comunidades imaginadas.15 Recordemos, en cuarto lugar, la
idea (adjudicada a James Scott) de que los campesinos en entornos con
recursos amenazados están imbuidos de una idea moral, no sólo instru
mental, del comportamiento del mercado.16 Y, por último, consideremos
el argumento de Orlando Patterson de que la esclavitud es una forma de
muerte social.17
Se trata en todos estos casos de síntesis descriptivas. Son sintéticas en
la medida en que intentan resumir numerosos atributos y fenómenos en
un único concepto o expresión. Desde luego, el intento de sintetizar es
también un intento de diferenciar. Por ejemplo, el liberalismo de la cultu
ra estadounidense (de acuerdo con Tocqueville y Hartz) contrasta con
las culturas no liberales de Europa. Cuando estas distinciones son explí
citas y facilitan el análisis empírico amplio, una síntesis empieza a pare
cerse más a una tipología (el próximo apartado). (En efecto, en un estu
dio posterior, Hartz aplica su tesis de la «fragmentación» a las
162
sociedades que se establecieron en Estados Unidos, Canadá, Australia y

Sudáfrica.18 Aquí, las comparaciones entre los casos son explícitas, por
lo que este estudio se podría clasificar acertadamente como tipológico.)
Tipologías
Las tipologías convierten los casos en categorías discretas que son mu
tuamente exclusivas y exhaustivas sobre la base de un principio o princi
pios de categorización uniforme.19 La tipología puede ser: (a) simple, (b)
temporal (periodización), (c) de matriz, (d) taxonomía, (e) de configura
ción y (f) secuencial.
Tipología simple
La tipología simple sigue simplemente las reglas generales de una tipolo

gía, como hemos visto antes. Exploremos algunos ejemplos. Las entida
des políticas pueden clasificarse en términos aristotélicos en monarquías
(el gobierno de uno solo), oligarquías (el gobierno de unos pocos) y de
mocracias (el gobierno de muchos). Según Samuel Finer, las entidades
políticas se pueden clasificar en función de sus dirigentes en palacio, igle
sia, nobleza o foro.20 Albert Hirschman afirma que la influencia de los
componentes de las organizaciones se puede apreciar por medio de la sa
lida y/o la voz.21 Max Weber afirma que la autoridad se apoya en tres
formas de legitimidad: tradicional, carismática y racional-legal.22 Gosta
Esping-Andersen divide el mundo de los regímenes de bienestar en tres
tipos: liberal, corporatista o socialdemócrata.23 Para Theodore Lowi las
políticas públicas siguen una de las cuatro lógicas siguientes: distributiva,
constitutiva, regulatoria y redistributiva.24
Tome nota de que aunque la mayoría de las tipologías adopta la for
ma de una escala nominal, algunas revelan un ranking implícito o explí
cito entre categorías, lo que cualifica la tipología como una escala ordi
nal (capítulo 7). Por ejemplo, se puede considerar que la clasificación de
Aristóteles de las entidades políticas establece una escala ordinal de la
menor o mayor implicación popular en la política.
Tipología temporal
Las tipologías temporales (conocidas como periodizaciones) son tipolo

gías simples ordenadas temporalmente. Por ejemplo, se afirma que en el
transcurso de los dos últimos siglos se han producido diversas olas de
163
Metodología de las ciencias seriales
democratización, cada una de ellas con rasgos diferentes.25 Un intento de

periodización histórica más amplio es la afirmación de Tocqueville de
que la era democrática empezó en algún momento a finales del siglo
xvii. y que se puede comparar con los periodos anteriores feudal y aris
tocrático. En esta línea, Marx propuso dividir tipológicamente la historia
humana registrada en tres fases: feudal, capitalista y comunista.
Hay otros esquemas de periodización sobre un solo país. Por ejemplo,
muchos estudiosos de la historia política estadounidense están convenci
dos de que los cambios políticos fundamentales se han producido siem
pre de forma episódica durante periodos de «realineamiento».26 Otros
defienden una vieja tradición que divide la historia política estadouni
dense en «eras» (revolucionaria, jacksoniana, Guerra Civil, reconstruc
ción, etc). Y otros afirman que el tema se aborda mejor con una periodi
zación aún más diferenciada que se corresponde con las presidencias.27
Todos los intentos de establecer una tipología temporal apelan a los
mismos desiderata, es decir, identificar los momentos clave de cambio de
un tema histórico de modo tal que los periodos sean mutuamente exclu
sivos y exhaustivos (de acuerdo con cualesquiera dimensiones que se
quieran estudiar).
Tipología de matriz
Las tipologías de matriz siguen criterios similares, pero su forma es más

complicada. Aquí, las categorías de una tipología se derivan de la inter
sección de varias variables categóricas. Supongamos, por ejemplo, que
empezamos con dos componentes de la democracia, la competencia y la
participación, que supuestamente varían de forma independiente y que
se pueden codificar dicotómicamente sin demasiada pérdida de informa
ción. La intersección de estos dos factores produce cuatro tipos, que para
Robert Dahl son: (a) hegemonía cerrada, (b) hegemonía inclusiva, (c)
oligarquía competitiva y (d) poliarquía, como ilustra la tabla 6.2.28
Tome nota de que las tipologías de matriz, igual que las tipologías
simples, suelen producir categorías ordenadas, por lo que son escalas or
dinales. En este ejemplo, la poliarquía es la más democrática, y la hege
monía cerrada, la menos democrática. Pero la matriz, por sí misma, no
confiere orden alguno a las otras dos celdas.29
Adviértase también que las tipologías de matriz pueden tener un nú
mero determinado de factores que genera una cantidad determinada de
tipos compuestos (celdas). Sin embargo, las matrices dos por dos siguen
siendo las más normales, porque añadir una tercera (o cuarta) dimensión
no nos proporciona tipos reconocibles y discretos.
164
Tabla 6.2 Una tipología de matriz: tipos de régimen

Participación
Baja Alta
Baja Hegemonía cerrada Hegemonía inclusiva
Competencia
Alta Oligarquía competitiva Poliarquía
Taxonomía
Las taxonomías son tipologías que se extienden jerárquicamente entre

varios niveles de análisis. Así, podemos estipular que hay dos tipos fun
damentales de entidad política: autocracia y democracia. Entre las de
mocracias, algunas son directas y otras representativas. Entre las demo
cracias representativas, distinguimos entre electorales, liberales,
mayoritarias, participativas e igualitarias. La naturaleza jerárquica de
esta familia de términos se puede ilustrar de forma tabular (véase la tabla
6.3) o en un diagrama de árbol (figura 6.1).30
Téngase en cuenta que cada nivel subordinado de la taxonomía tiene
todos los atributos de su categoría supraordinada más uno (o varios).
Cada concepto en una taxonomía puede por tanto definirse describiendo
su categoría de orden superior más el atributo o atributos que lo diferen
cian, su genus et differentium. (Los conceptos así definidos suelen califi
carse de «clásicos» por su origen aristotélico y por el venerado lugar que
ocupan en el campo de la lógica).
Tipología de configuración
Al igual que las taxonomías, las tipologías de configuración forman sub

tipos a partir de una única categoría. Sin embargo, los subtipos se crean
a partir de una categoría supraordinada restando atributos en lugar de
añadiéndolos. Esto genera subtipos reducidos —llamados en algunas
ocasiones categorías radiales— en lugar de subtipos aumentados (como
en la taxonomia). Estos subtipos irradian hacia afuera a partir de la cate
goría supraordinada, que adopta la forma de tipo ideal (capítulo 5).31
Así, en ocasiones se ha afirmado que la democracia se concibe mejor
como un conjunto de modelos relativamente diferentes —electoral, libe
ral, mayoritaria, participativa, deliberativa e igualitaria (o social)—,
acentuando cada uno un aspecto diferente del término clave.32 Como
tipo ideal, la categoría supraordinada contiene todos los atributos de los
subtipos. Sin embargo, los subtipos tienen sólo uno (o varios) de los atri
butos del tipo ideal, como puede apreciarse en la tabla 6.4.
165
a
ri CN en m
£
I X
IT X
H
ti X
P
1!6 I X
T’ -s
w
O I¡i X
h
□ffl i.
§ X
C¿ $
<
I X X X X X X X
1 X
It X X X X X X X X X
1 J3_
E
O
d
lh
' ; *•
<0 -S 1
X
<2
■§ 2
S X
X X X X X X X X X X
d
E
ií
o
C
O
> .2 >
□
d
d
v¡
p
L
a
O
is
.s‘u
3
o E 8
o
.2
a d
•Z
o
a
5(A u
w
Is es
••c
iQ
.S
OS
i
Q c3 Bjd
en z fi.
'O o s o .E u
w
Q O
z^s
js u ís >
I
N
M
166
•É
i
s
"áJ
I
’C
o
%
s:
E
-Q
<u
T3
cú
s
s&
•■6
u
•O
O
e
<2
‘S
S
w
2
o Eo
-M
a
< o
5
cd
C
□
2
§d
£
167
Tabla 6.4 Una tipología de configuración: tipo ideal y categorías radiales

_______
Elecciones Estado de Gobierno Participación Entidades

CONCEPTOS Igualdad Total
competitivas derecho mayoritario popular consultivas
Democracia X X X X X X 6
Electoral X 1
Liberal X 1
Mayoritaria X 1
Participativa X 1
Deliberativa X 1
Igualitaria X 1
Tipología secuencial
Al igual que las periodizaciones simples (tipologías temporales), las tipo

logías secuenciales (también conocidas como procedimentales 33), se orga
nizan de acuerdo a un eje temporal: el tiempo es importante. Sin embar
go, mientras la periodización afirma simplemente que los periodos de
tiempo son diferentes (de formas definidas por la tipología), una tipolo
gía secuencial afirma que la secuencia temporal es importante para los
eventos posteriores.
Como las taxonomías, la tipología secuencial se puede esquematizar
en forma de árbol. Pero aquí las ramas representan secuencias tempora
les (que pueden tener o no rasgos taxonómicos). El ejemplo clásico es el
método «cladístico» de clasificación biológica, donde cada rama («cla-
dodio») del árbol se considera distintiva de tal manera que las especies
que comparten el mismo punto de origen también comparten caracterís
ticas biológicas significativas (una presunción que se ha discutido poste
riormente).34
En las ciencias sociales, las pretensiones asociadas a las tipologías se
cuenciales suelen ser en general más modestas, y las tipologías, menos
elaboradas. Pero muchos autores afirman que la secuencia de eventos es
importante y que estos efectos secuenciales se pueden teorizar de una
forma general.35 Por ejemplo, T. H. Marshall afirma que el desarrollo
democrático se caracteriza por tres fases: civil, política y social.36 W. W.
Rostow concibe la modernización como un proceso de cinco fases: «la
sociedad tradicional, las precondiciones para el despegue, el despegue, el
camino hacia la madurez y la era de un elevado consumo de masas».37
Aquí los métodos del autor son cualitativos. Cuando se dispone de
muestras grandes, los rasgos de la tipología secuencial se pueden discer-
168
nir con varias técnicas estadísticas, como las ideadas por Andrew Abott
y otros.38
Asociaciones
Las descripciones asociativas son comparaciones multidimensionales

probabilisticas entre indicadores o unidades. En otras palabras, no se pre
tende identificar claramente los rasgos distintivos de una tipología. Pue
den distinguirse tres grandes subtipos.
Tendencia
Una tendencia es una asociación entre un fenómeno y el tiempo. Si la di

mensión de interés correlaciona de alguna manera con el tiempo (por
ejemplo, linealmente o no linealmente, monotónicamente o no monotó-
nicamente, cíclicamente o no cíclicamente), decimos que los datos siguen
una tendencia. Para determinar esta cuestión nos podemos ayudar de va
rias técnicas de modelación con series temporales, así como de gráficos
visuales.39
Aparte de su obvia utilidad para la inferencia causal, las tendencias
nos dan una idea de la naturaleza de los procesos y, en algunas ocasio
nes, nos permiten extrapolar hacia el futuro. No es extraño que en las
ciencias sociales haya muchos trabajos de investigación dedicados al des
cubrimiento de tendencias. Ya hemos mencionado el debate sobre la des
igualdad mundial.40 Algunos ven signos de un declive secular del capital
social en los Estados Unidos,41 mientras otros consideran que esta su
puesta tendencia es un artefacto producido por un error de medida y/o
por un punto inusual de comparación inicial.42 Otros afirman que las
tendencias en el diseño de las políticas se alinean en un modelo de pun
tos de equilibrio, con periodos largos de inmovilismo o de cambio incre
menta! seguidos de breves explosiones de cambio relativamente «revolu
cionario».43 Y otros más conciben el diseño de las políticas como
incrementa!44 o estocástico y por lo tanto carente de tendencias claras y
persistentes.45
Red
Una red implica una asociación de múltiples unidades en la que lo que

interesa es su interrelación. Se puede concebir de forma espacial, tempo
ral o funcional. Un análisis de red se puede centrar en la distancia entre
169
varias unidades (la distancia puede ser media, total, la más corta, etc.).
Puede intentar estimar el tiempo transcurrido entre eventos separados
(medio, total, más corto, más largo, etc.). O puede centrarse en relacio
nes funcionales como, por ejemplo, el comercio, la difusión de ideas y
prácticas, el conflicto, etc.
David Knoke y Song Yang proporcionan una tipología más diferen
ciada. Categorizan las relaciones reticulares en transacciones («ios acto
res intercambian control sobre medios físicos o simbólicos, como por
ejemplo el intercambio de regalos o la compraventa económica»); comu
nicaciones («las vinculaciones entre actores son canales por los que se
pueden transmitir mensajes»); cruce de fronteras («los lazos consisten en
la pertenencia a dos o más formaciones sociales, como por ejemplo el en
trelazamiento de juntas directivas»); instrumentales («los actores están en
contacto para garantizar bienes, servicios o información valorada, como
un puesto de trabajo, el aborto, el asesoramiento político o el recluta
miento para un movimiento social»; sentimentales («los actores expresan
sus sentimientos o afectos, admiración, deferencia, aversión u hostilidad
entre sí»); o parentesco («lazos de sangre y maritales»).45
Un tipo de red importante es la de naturaleza geográfica centrada en
relaciones espaciales entre unidades. Los historiadores suelen encontrarlo
útil para identificar y situar los cambios en el tiempo, es decir, porque pro
porcionan una representación espacial de la historia.47 Los científicos so
ciales tienden a representar las desigualdades espaciales de renta, riqueza,
innovación, tecnología y salud en países y regiones.48 Las redes comercia
les reciben mucha atención.49 Los científicos sociales y los politólogos sue
len estar interesados en las pautas espaciales de hegemonía global.50 Los
sociólogos han examinado la difusión de la religión en el tiempo y el espa
cio.51 Los procesos de cambio ordenados espacialmente suelen describirse
como difusión (un mecanismo que se sitúa en la línea divisoria descriptivo/
causal).52 La difusión de la democracia ha inspirado muchos trabajos.53
Cuando la ubicación precisa es importante, el componente empírico
de una red espacial se puede representar en el formato del Sistema de In
formación Geográfica (SIG). Este ofrece un método estandarizado para
registrar las ubicaciones de unidades y eventos y está ganando prominen
cia en la obra de los científicos sociales.54
Las redes, al igual que otros patrones empíricos, se pueden probar
cualitativa o cuantitativamente. Los modelos estadísticos son aconseja
bles cuando los datos son tan numerosos y complejos que las pautas de
interacción exceden las que se pueden analizar por medio de métodos in
formales.55 Como ejemplo, consideremos la cuestión de las redes políti
cas. Sabemos que en el transcurso de las deliberaciones políticas se con
sulta a muchas personas, especialmente en las democracias de masas.
Pero sabemos muy poco sobre la naturaleza y la forma exacta de estas
170
redes (a pesar de la abundante teorización). Hay un estudio de Heinz et

al. que intenta arrojar luz sobre este importante asunto. Tras un análisis
de redes relativamente exhaustivo de cuatro áreas temáticas en los Esta
dos Unidos contemporáneos, los autores concluyen que las redes políti
cas carecen de un centro consistente. Antes bien, son muy dispersas y
mucho más aleatorias de lo que habían supuesto los estudiosos del tema:
son un «centro vacío» más que un «triángulo de acero».56
Correlación
Este tipo de argumento se centra en toda asociación multidimensional

que no se da en tendencias o redes. Admitamos que es una categoría resi
dual grande. Sin embargo, define correctamente una cantidad considera
ble de trabajos descriptivos en las ciencias sociales, y parece que no hay
mejor manera de definirlos.
Un argumento correlaciona! podría explorar, por ejemplo, si las de
mocracias tienden menos que las autocracias a perseguir a las minorías.
O podría centrarse en las características de una política concreta. ¿Están
correlacionados el apoyo a la democracia y la renta? ¿Se inclina la estruc
tura de los intereses organizados —en cuanto a pertenencia, personal y
misión— a las clases medias y altas? En otras palabras ¿varía la posición
política con la clase social?57 ¿Son las élites más «ideológicas» que «los
votantes de a pie» por lo que respecta a su visión de la política?58 Éstos
son argumentos correlaciónales en la medida en que el esfuerzo es de
mostrar una pauta asociativa multidimensional sin supuestos causales.
Es decir, la asociación puede ser el producto de algún factor o factores
causales subyacentes, pero el autor no apuesta por ninguna pretensión de
este tipo debido a que la correlación es interesante e importante por sí
misma (y puede ser dificultoso descubrir las fuerzas causales operativas).
Conclusiones
Hay infinitas maneras de describir una realidad dada. Sin embargo, si el

propósito del autor es generalizar sobre una población, su descripción
tiende a adoptar la forma de un indicador, una síntesis, una tipología o
una asociación, y cada uno presupone un conjunto diferente de criterios.
De este modo la descripción se unifica con varios criterios comunes (que
aparecen en la tabla 6.1) y se diferencia con los criterios específicos de cada
estrategia descriptiva (tal y como resume la tabla 6.1). Los criterios adicio
nales se refieren a cada elemento del argumento descriptivo —los conceptos
empleados (cap. 5) y las estrategias de medición enunciadas (capítulo 7).
171
M".
!' <;
••j <: i
/‘i j.”. 1
>l ti'L’ LÚ t j>e<.

.■ ■> .
'■ ■• T . j- ;v.
. ■ >•„ 1
i t ó •J ¡ .
r.,i
ri
i
7 Mediciones
«Las personas mayores aman las cifras. Cuando les habláis de un nuevo amigo,
no os preguntan jamás sobre lo esencial. Jamás os dicen: “¿Cómo es su tono de
voz? ¿Cuáles son sus juegos preferidos? ¿Colecciona mariposas?” En cambio, os
preguntan: “¿Qué edad tiene? ¿Cuántos hermanos tiene? ¿Cuánto pesa? ¿Cuán
to dinero gana su padre?”. Sólo con estas cifras creen conocerle.
Si decís a las personas mayores: “He visto una preciosa casa de ladrillos rojos
con geranios en las ventanas y palomas en el techo...”, no podrán hacerse una
idea de cómo es la casa. Pero si les hubieras dicho: “He visto una casa que cues
ta 20.000 dólares”, entonces exclaman: “¡Qué hermosa es!”
Si les decís: “La prueba de que el principito existió es que era encantador,
que reía, y que quería un cordero. Querer un cordero es prueba de que existe”,
se encogerán de hombros y os tratarán como se trata a un niño. Pero si les decís:
“El planeta de donde venía es el asteroide B 612”, entonces quedarán convenci
dos y os dejarán tranquilos sin preguntaros más.
Son así. Y no hay que reprocharles nada. Los niños deben ser muy indulgen
tes con las personas mayores.
Pero, claro está, nosotros, que comprendemos la vida, nos burlamos de los
números. Hubiera deseado comenzar esta historia como en los cuentos de ha
das. Hubiera deseado decir: “Había una vez un principito que habitaba un pla
neta apenas más grande que él y que tenía necesidad de un cordero...”
Para quienes comprenden la vida habría parecido mucho más cierto.»
Antoine de Saint-Exupéry1
173
El principito pone de manifiesto el odioso elemento deshumanizador in

herente en todo intento de medir y, por ende, comparar, seres humanos.
«Tratarlos como números», como dice más adelante. Por muy aborreci
ble que resulte (y, ciertamente, la medición de asuntos íntimos y estados
emocionales es un acto de suma arrogancia), posiblemente hay también
buenas razones para medir, por ejemplo, las rentas de las familias de una
comunidad.
La medición podría considerarse como la fase de análisis de la des
cripción. Es en esta fase donde el investigador toma contacto con la rea
lidad empírica (eso esperamos). Es en esta fase donde se operacionalizan
los conceptos (capítulo 5) y los más amplios argumentos descriptivos que
los acogen (capitulo 6).
No hay duda de que la argumentación, la conceptualización y la medi
ción se mezclan entre sí, y esto significa que hay un solapamiento conside
rable entre los temas de la parte II del presente libro. Este capítulo debe
considerarse, por lo tanto, como una continuación de temas mencionados
en otros capítulos. Los capítulos 5 y 6 tienen un tono deductivo, mientras
que el de este capítulo es más bien inductivo. Pero lo más importante
es que estos temas no se pueden separar nítidamente. Las investigacio
nes siempre contienen una mezcla de componentes inductivos y deduc
tivos —normalmente hay un continuo vaivén ente ambos. Es imposible
definir un concepto sin tener una mínima comprensión del terreno empí
rico, y es imposible operacionalizar un concepto sin entender de algún
modo cómo se define ese concepto. Conceptos y preceptos son insepara
bles; difícilmente podremos considerar unos sin considerar los otros.
La tarea de la medición se puede definir concretamente como «la asig
nación de números a objetos o eventos de acuerdo con unas reglas deter
minadas»2 o, en términos más generales, como «el proceso de vincular
conceptos abstractos con indicadores empíricos».3 Para nuestros propó
sitos nos basta una definición general. En efecto, no está claro lo que sig
nificaría asignar números a objetos si no están relacionados con concep
tos identificables (¿a qué se asignan los números?). En todo caso, la
cuestión crítica es cómo reconocer un concepto cuando lo vemos. ¿Se
puede distinguir la democracia de la autocracia?-¿Y el poder de la falta
de poder? ¿Qué significan estos conceptos empíricamente!
La medición está muy relacionada con la recogida de datos. Cuando
uno recoge datos de forma sistemática —es decir, datos organizados en
tomo a los conceptos de interés teórico elegidos— afrontamos el desafio
de la medición. La medición y la recogida sistemática de datos son, por
lo tanto, virtualmente sinónimos. (Y desde luego se diferencian mucho
de la recogida adhoc de datos.)
Así definido, el tema de la medición es vasto y ambiguo y abarca to
dos los campos de las ciencias sociales. Cada campo y subcampo plantea
174
7 Mediciones
sus propios desafíos, y cada uno ha generado su propia literatura. Podría

decirse que la medición es la tarea más dependiente del contexto de to
das las que analizamos en este libro.
Dicho esto, hay algunos desafíos comunes. El problema de la medi
ción se deriva del hecho de que la mayoría de los conceptos importantes
en ciencias sociales (si no todos) no son directamente observables. Están
latentes. Todos los conceptos abstractos se incluyen en esta categoría. No
podemos «ver» la justicia, la democracia, la gobernanza o el poder. En
relación con este último, Robert Dahl escribe: «La diferencia entre el
concepto y la definición operativa es, en general, enorme, tan grande que
no siempre es posible ver qué relación hay entre las operaciones y la defi
nición abstracta».4 Incluso algo tan concreto como el programa de cupo
nes no se puede observar directamente. Muchos términos del léxico de
las ciencias sociales tienen este problema. Alienación, anomia, carisma,
sociedad civil, conciencia colectiva, crisis, cultura, democracia, dogmatis
mo, igualdad, falsa conciencia, hegemonía, ideología, legitimidad, socie
dad de masas, carácter nacional, variable pauta, pequeña burguesía, ra
cionalización, soberanía, Estado y ansiedad por el estatus son conceptos
«vagos». Podemos definirlos de un modo general, pero tendremos mu
chísimas dificultades para identificar sus referentes en el espacio empíri
co.5 Éstos son los tipos de problemas de medición con los que lidia la
ciencia social y los que intenta resolver.6
La dificultad de la medición en las ciencias sociales también se deriva
de la naturaleza recalcitrante de nuestro objeto de estudio. Recordemos
que hemos definido la ciencia social como el estudio de la acción humana:
un comportamiento que es en cierta medida decisional (capítulo 1). La ac
ción humana está por lo tanto imbuida de significados y motivaciones de
finidas por el actor, y esto plantea una serie de desafíos de medición que
son característicos de las ciencias sociales. En términos concretos, nuestro
objeto de estudio es un conjunto de fenómenos que son sensibles y/o difíci
les de interpretar. El doble efecto es oscurecer una cantidad considerable
de ideas y acciones de interés en la ciencia social a la mirada curiosa y a las
categorías clasificatorias abstractas de los investigadores. Me referiré a este
desafío de la medición como hermenéutica o de interpretación.''
Por ejemplo, cuando investigamos el tema de la corrupción tenemos el
problema de que los que se implican en actividades de corrupción inten
tan a toda costa ocultar sus actos y, lo que quizás es igual de importante,
tienen a menudo diferentes definiciones de corrupción. Esto último es re
levante porque influye crucialmente en nuestra interpretación del com
portamiento «corrupto». Es muy diferente que un acto de mecenazgo se
considere una obligación moral (por ejemplo, ayudar a familiares y pa
rientes) o un acto de promoción personal. Puesto que las cuestiones del
significado y la intencionalidad suelen ser cruciales para comprender un
175
fenómeno, son también centrales para el problema de la medición.8 (Con

esto no quiero decir que la comprensión de los actores sea siempre cru
cial para los problemas de medición. En algunas ocasiones, basta saber si
una acción se ha realizado o no al margen de los significados que se asig
nen a esa acción.)
Afrontamos estas mismas dificultades cuando tratamos muchos otros
temas de ciencias sociales como, por ejemplo, el clientelismo, el crimen,
la democracia, la discriminación, la producción económica, la felicidad,
los derechos humanos, la identidad, la ideología, la inteligencia, el nacio
nalismo, los prejuicios, la opinión pública, la utilidad y el bienestar.9 Hay
problemas a la hora de medir estas cosas porque los actores tienen fuer
tes incentivos para representarse a sí mismos erróneamente y porque esos
actores suelen tener comprensiones diferentes de sus propias acciones o
experiencias. Estos problemas se complican debido a que la duplicidad y
la perspectiva suelen ser difíciles de desentrañar. Es difícil determinar
cuándo alguien (a) está mintiendo o (b) diciendo la verdad desde un pun
to de vista diferente.
Empiezo por examinar los criterios generales que todas las medicio
nes intentan observar. Luego analizo varias estrategias de medición y,
por último, ofrezco una breve exposición de los test de validez ex post
(modos de juzgar la validez de los indicadores una vez que se tienen).
Criterios
En la tarea de la medición se deben perseguir dos objetivos ubicuos y

primordiales: la fiabilidad (también conocida como precisión) y la vali
dez. Estos criterios se examinaron inicialmente en el capítulo 4. Aquí nos
dedicaremos exclusivamente a su aplicación al problema de la medición.
La precisión —entendida normalmente como fiabilidad en los contex
tos de la medición— se refiere al nivel de error estocástico (o aleatorio),
o ruido, que encontramos cuando intentamos operacionalizar un con
cepto. Este nivel suele valorarse con test de fiabilidad. Si múltiples aplica
ciones de un instrumento de medición revelan un nivel alto de consisten
cia, podemos considerar que la medida elegida es fiable (precisa). Los
niveles de fiabilidad se calculan típicamente con la inversa de la varianza
(es decir, la dispersión en tomo a la media) de las mediciones. Una ma
yor varianza implica una menor fiabilidad.
Indudablemente, el test depende del instrumento específico con el que
se hace la medición. Si, por ejemplo, el instrumento implica codificación,
entonces las pruebas pueden consistir en test de fiabilidad entre codifica
dores realizados sobre el mismo material. Sorprende que los que desarro
llan y usan indicadores transnacionales de la democracia no apliquen
176
7 Mediciones
normalmente tales test, a pesar de que esos índices se basan en muy bue
na medida en decisiones de codificación.10
Si no se tiene oportunidad de testar múltiples iteraciones de un indica
dor, entonces la fiabilidad permanecerá en el nivel de una suposición.
Pero aun así, es crucial. Una probabilidad alta de error aleatorio puede
arruinar incluso la generalización más simple sobre el mundo. Además,
si el concepto es el fundamento de un análisis causal posterior, entonces
los errores asociados a un factor causal (X) tienden a introducir un ses
go en el análisis resultante, atenuando, por lo general, el efecto verdade
ramente causal de y en 7.11
La validez se refiere al error de medición sistemático, un error que,
por definición, introduce un sesgo en el concepto resultante (y presumi
blemente en todo análisis causal que se fundamente en ese concepto). Ve
mos con frecuencia que el nivel de precisión con el que se mide un indi
cador varía directamente con algún factor de interés teórico. Por
ejemplo, posiblemente las escuelas de más calidad son también más con
cienzudas en sus registros, lo que significa que dispondremos de más da
tos y de datos más fiables de determinadas escuelas, y esta característica
de los datos estará correlacionada con el resultado de interés (el rendi
miento escolar). Podría ser también que la utilización de unas herra
mientas de medición malas informen erróneamente de esos resultados
sesgados para las escuelas de la muestra, de forma que las escuelas malas
(con registros descuidados) reporten un rendimiento escolar inflado. Este
es el tipo de error de medición sistemático contra el que deben precaverse
los investigadores, y para el que no suele haber un ajuste fácil.
Para aclarar estas ideas puede ser útil considerar el problema de la
medición en un diagrama. En la figura 7.1 el concepto de interés funda
mental es L (es decir, el término, sus atributos definitorios y los fenóme
nos que intenta describir), y aparece entre corchetes para indicar su esta
do latente. La traza observable de L es /, el indicador o indicadores
elegidos. Las fuentes de ruido de fondo que no correlacionan con L están
representadas por B, una covariable ortogonal (es decir, un error de me
dición aleatorio). Los confundidores potenciales, es decir, los factores
que están correlacionados con L y con I, que por consiguiente introdu
cen un sesgo sistemático en la medición, están representados por C. En
este esquema simplificado, la tarea de un instrumento de medición es
identificar un indicador (I) que esté correlacionado con L, pero no con
los confundidores (C), y que minimice el ruido (B).
Tome nota de que las amenazas potenciales a la inferencia son virtual
mente ilimitadas, y se extienden a todo lo que puede tener un efecto cau
sal en I que también esté correlacionado con L. Como el factor de interés
teórico, L, es (por definición) no medible, no se puede verificar directa
mente. He aquí por qué es tan difícil escribir un tratado general sobre la
177
[L] = Concepto latente de interés.

I = Indicador.
B = Covariable (fuente de ruido, es decir, no fiabilidad).
C = Confundidor (fuente de sesgo, es decir, invalidez).
Características generales
-> Relaciones causales.
— Covariación (posiblemente causal).
Figura 7.1 Un diagrama de la medición
medición; hay mucho que se basa en suposiciones. Pero consideremos

brevemente algunos de los obstáculos.
La medición es una aventura inherentemente comparativa. Presume
una escala: es decir, una métrica estándar por medio de la cual se pueden
comparar sistemáticamente y con precisión cosas heterogéneas. Por con
siguiente, todo intento de medir afronta un problema de equivalencia o
de consistencia entre contextos. Una medida elegida puede significar lo
mismo, y puede representar adecuadamente el concepto de interés teóri
co, en todos los contextos en los que se aplica. El desafío es, por lo tanto,
encontrar un modo de comparar cosas en diversos contextos sin dema
siada pérdida de información o distorsión.
Consideremos el concepto de corrupción. Este concepto abstracto es
más fácil de operacionalizar si nos centramos en determinados tipos de
corrupción, como por ejemplo los sobornos de hombres de negocios a
funcionarios públicos con el fin de obtener una licencia comercial. Aun
así, tendremos dificultades si lo que queremos es comparar este indica
dor en diferentes países a escala mundial. Primero, los actos de corrup
ción probablemente no serán directamente observables y se basarán por
tanto en encuestas a los empresarios. Esto, a su vez, introduce múltiples
fuentes potenciales de sesgo (error sistemático). Los empresarios de un
país tal vez tienden más que los de otro a responder más directamente a
preguntas sobre sobornos, aunque el nivel real de sobornos sea idéntico.
(Por ejemplo, en los países democráticos puede manifestarse una mayor
franqueza que en los países autoritarios.) Segundo, el signifícado y el
propósito de esos sobornos puede variar en función del contexto, como
178
7 Mediciones
se ha mencionado ya. Por ejemplo, en un país un soborno puede indicar

un regalo más o menos voluntario, una señal de respeto en las culturas
en las que se practica el regalo. En otro país, un funcionario puede impo
ner el soborno. Obviamente, son eventos bastante diferentes, aunque la
cuantía de la transacción sea la misma. Por último, puede ser problemá
tico generalizar desde un indicador específico de corrupción hacia el
concepto más amplio de interés teórico. Es decir, los sobornos para obte
ner una licencia comercial pueden no ser indicativos de la escala general
de corrupción en un país: la corrupción puede abundar en diferentes sec
tores. (Más adelante exploraremos algunas soluciones posibles a estos
problemas.)
Adviértase que la cuestión de la validez en la medición hace referencia
a la correspondencia entre la definición de un concepto (sus atributos) y
los indicadores elegidos (representados por /). Como tal, nunca es un
problema puramente empírico. Consideremos que todo concepto se pue
de operacionalizar simplemente estipulando un indicador medible. Pro
clamemos que «L será operacionalizado por Z». Si I es medible, podemos
afirmar que L ha sido operacionalizado. Y si múltiples medidas de L son
consistentes, se puede afirmar que la medida tiene una fiabilidad alta.
Sin embargo, otra cosa es probar que / es una medida válida de L. Qui
zás I capta sólo una dimensión de L (un concepto multifacético) exclu
yendo otras. Quizás I mide otra cosa completamente distinta (otro con
cepto que no es £). En estas circunstancias, tenemos un problema de
validez conceptual.
La mayoría de los grandes conceptos de la ciencia social tienen pro
blemas de validez conceptual. Consideremos nuestro ejemplo, democra
cia. Un equipo influyente de investigadores dirigido por Adam Przewor-
ski (formado por Michael Alvarez, José Antonio Cheibub, Jennifer
Gandhi y Fernando Limongi) adopta una definición mínima de demo
cracia centrada en las elecciones competitivas.12 Para operacionalizar
esta definición se plantean tres condiciones necesarias: (1) el ejecutivo y
el legislativo tienen que ser electos; (2) tiene que haber más de un partido
que compita en las elecciones; y (3) debe existir al menos una alternancia
en el poder con reglas electorales idénticas.13 Nótese que estas reglas de
decisión facilitan la medición. Anticipamos escaso desacuerdo sobre la
codificación de los casos. Así, puede afirmarse que la medición es muy
fiable.
Sin embargo, se plantean dos problemas de validez conceptual. El pri
mero se refiere al ajuste entre la operacionalización y la definición elegi
da. En particular, este conjunto de reglas codificadoras no hace distin
ción alguna entre: (a) una entidad política donde un único partido gana
unas elecciones tras otras con reglas electorales libres y justas y está dis
puesto a ceder el poder a un competidor (si pierde las elecciones) y (b)
179
una entidad política donde un único partido gana unas elecciones tras
otras con reglas electorales libres y justas y no está dispuesto a ceder el
poder. Este problema ha venido a llamarse el problema de «Botsuana».13
La razón por la que esto plantea un problema de validez es que conside
ramos generalmente que la democracia se fundamenta en elecciones li
bres y justas (una concepción que suscriben Przeworski et al.), lo que sig
nifica que al partido que gana las elecciones se le permite acceder al
poder. Pero no tenemos información empírica sobre esto, y las reglas co
dificadoras tratan como idénticas las situaciones (a) y (b), aunque parece
bastante obvio que no lo son. (Hay algunos países donde la victoria con
tinua de un partido es un indicativo de que el gobierno es autoritario y
otros en los que no es así.)
Un segundo problema de validez conceptual se refiere al modo en que
el indicador elegido encaja con el concepto general de democracia. Mu
chas concepciones de la democracia van más allá de los rasgos electora
les de una entidad política, o tienen un concepto de la democracia electo
ral más amplio que el suscrito por Przeworski y sus colegas, como vimos
en el capítulo anterior. A este respecto, el problema de la validez es prin
cipalmente de naturaleza conceptual. Depende de cómo decidamos defi
nir un término clave. Así, podemos objetar que Przeworski y sus colegas
han operacionalizado exitosamente un aspecto de la democracia, pero
desatendiendo otros, por lo que han adoptado una medida inválida o
parcialmente válida. Przeworski et al. podrían defenderse aludiendo que
representan sólo una faceta de la democracia, captada en el concepto ra
dial de democracia electoral. O podrían proclamar que adoptan una defi
nición mínima del tema. En todo caso, los debates sobre la validez de la
medición suelen depender de cómo se etiqueta y define el concepto de in
terés (¿); son conceptuales más que puramente empíricos.
Aquí nos encontramos con el problema fundamental de la medición:
las cuestiones de validez conceptual (a diferencia de las cuestiones de fia
bilidad) no se suelen poder testar empíricamente, al menos no en el caso
de la mayoría de los conceptos clave de las ciencias sociales, porque están
latentes más que ser directamente observables. En efecto, si la validez pu
diera medirse no habría problema alguno de medición, porque sabría
mos qué es exactamente lo que queremos saber. El problema de la medi
ción reside en el hecho de que la correlación entre L e I de la figura 7.1
no deja de ser—y así debe ser—, en cierta medida, hipotética.
Estrategias
Hemos señalado que el problema de la medición en las ciencias sociales

se deriva del hecho de que la mayoría de los conceptos de interés teórico
180
7 Mediciones
no son directamente observables. Conceptos como clientelismo, crimen,

democracia, discriminación, producción económica y felicidad no se
pueden contar como si fueran bicicletas. Sin duda, hay rasgos observa
bles que presumimos que guardan relación con estos conceptos; si no
fuese así, no podrían investigarse de ninguna manera. A partir de estos
rasgos observables construimos los indicadores.
En este apartado revisamos varias estrategias para hacerlo, junto a los
desafíos que plantea cada estrategia. Estas estrategias implican: (a) nive
les de abstracción; (b) estructura; (c) técnicas de agregación; (d) escalas;
(e) objetivos básicos; (f) deducción frente a inducción; (g) etnografía;
(h) encuestas y experimentos; (i) referencias cruzadas y (j) relaciones cau
sales, como vemos en la tabla 7.1.
Tabla 7.1 Estrategias de medición

Niveles de abstracción Alto, medio y bajo.
Estructura Teoría de conjuntos (necesaria, suficiente, necesaria y
suficiente); aditiva; conjuntos difusos
Agregación Lógica booleana; ponderaciones
Escalas Categórica (nominal, ordinal); numérica (intervalo,
razón)
Objetivos Discriminación; agrupamiento
Enfoques Deductivo; inductivo
Etnografía Observación participante
Encuestas/experimentos Encuestas estandarizadas y tratamientos aleatorizados
Referencias cruzadas Establecimiento de equivalencia entre diversos

contextos
Relaciones causales Causas y efectos del fenómeno de interés
El lector debe tener en mente que se trata de temas amplios y que mi

tratamiento aquí se centrará en las implicaciones de estas estrategias
para la tarea de la medición. El lector debe también tener en cuenta que
como la medición es un arte sumamente contextual, las estrategias para
operacionalizar los conceptos difieren en función del campo y el tema.
Este capítulo se sitúa en un nivel muy general (a pesar del hecho de que
tratamos algunos ejemplos concretos), y deja a un lado las técnicas espe
cíficas de medición estadística, de las cuales hay bastantes (por ejemplo,
el análisis de contenido, el análisis de conglomerados, el análisis discri
minante, etc.).
181
Niveles de abstracción
Para superar el problema de la medición es útil reconocer que todos los
conceptos empíricos de interés para las ciencias sociales implican múlti
ples niveles de abstracción. Como mínimo, uno puede por lo general dis
tinguir entre los atributos que definen un concepto y los indicadores que
lo operacionalizan, lo que genera dos niveles: (1) conceptualización y (2)
medición. Esto es probablemente suficiente para un concepto de orden
inferior como los cupones.
Para conceptos más abstractos como democracia, posiblemente se ne
cesiten múltiples niveles con el fin de representar adecuadamente todos
los niveles de análisis implícitos en el concepto y con el fin de poder ope-
racionalizarlo satisfactoriamente, es decir, para, por así decir, bajarlo a
ras de tierra. Consideremos la siguiente jerarquía:
Democracia (el concepto latente de interés)

Electoral (una concepción de la democracia)
Elecciones libres y justas (un componente clave de la democracia
electoral)
Validación de unas elecciones por medio de observadores internacio
nales (un indicador de elecciones libres y justas)
He aquí cuatro niveles de un concepto. Desde luego, podríamos añadir

más niveles como, por ejemplo, una definición más específica y operacio-
nal de cómo pueden validarse la libertad y la justicia en las elecciones.
Evidentemente, uno se enfrenta a una regresión potencialmente infinita.
La operacionalización se refería originalmente (en 1927, en el libro de
texto de física de P. W. Bridgman) a las operaciones físicas reales que po
día hacer una persona para localizar un fenómeno. Para construir un es
tándar razonable debemos recurrir a lo necesario para lograr un grado
alto de fiabilidad (precisión). Una vez logrado, no necesitamos más. En
todo caso, el nivel más bajo de abstracción suele ser un indicador, con in
dependencia de lo preciso que sea.
Los problemas de fiabilidad (precisión) normalmente se pueden resol
ver, o al menos mitigar, descendiendo en la escala. En el caso de democra
cia, las concepciones son más fáciles de medir que el significado central,
sus componentes son más fáciles de medir que sus concepciones, y los in
dicadores es lo más fácil de todo. Las cosas pequeñas y concretas suelen
ser más fáciles de medir que las cosas grandes y abstractas.
Naturalmente, llega un punto en el que los fenómenos de nivel micro
se hacen menos observables y más difíciles de medir. Esto ocurre en los
campos de la biología y la física, donde las células, las moléculas y las
partículas subatómicas constituyen las fronteras de la medición. Sin em-
182
1
7 Mediciones
bargo, en las ciencias sociales, el individuo (es decir, el ser humano en su

totalidad) suele considerarse la unidad de análisis más desagregada.
Aquí, los problemas de medición son por lo general producto de la abs
tracción, no de la especifidad.
También hay que recordar que el problema de la medición afecta tan
to a la fiabilidad como a la validez conceptual. A medida que descende
mos desde «democracia» hacia los indicadores de nivel inferior descubri
mos que la conexión entre el concepto de interés y el fenómeno que
estamos midiendo es cada vez más débil. Un indicador elegido puede ser
muy preciso, pero de validez cuestionable respecto a un concepto de inte
rés teórico de orden superior. He aquí lo que ocurre cuando nos move
mos en una escala de abstracción: la precisión suele aumentar a medida
que descendemos en la escala, mientras la validez conceptual aumenta a
medida que ascendemos en ella.
Estructura
Los conceptos y sus indicadores están estructurados de forma diferente.

Esto se debe a que la pertenencia al concepto viene determinada no sólo
por la elección de los atributos e indicadores, sino también por la defini
ción del papel de cada atributo o indicador. Aunque no podemos permi
tirnos aquí un tratamiento extenso sobre este tema, es importante que
exploremos algunas de las elecciones que determinan cómo se estructu
ran los conceptos y los indicadores.15
Los atributos y los indicadores se pueden entender desde el punto de
vista de la teoría de conjuntos (necesarios/suficientes) o como si fueran
aditivos. Consideremos el componente de la democracia «elecciones li
bres y justas».
Si se concibe como una condición necesaria y suficiente de la democra
cia, esta característica es la única que importa. Una entidad política con
elecciones libres y justas es una democracia; si carece de ellas, es una au
tocracia. Nótese que una condición necesaria y suficiente puede ser el
producto de varias condiciones necesarias que son consideradas, en con
junto, suficientes (por ejemplo, elecciones libres y justas, libertades civiles
y alternancia en el poder). No necesariamente tiene que ser un solo factor.
Si las elecciones libres y justas se conciben como condición necesaria,
entonces una entidad política debe tener este atributo, aunque haya otras
condiciones de pertenencia también. Las definiciones mínimas —las que
definen un concepto por sus elementos esenciales— se basan en atributos
de condición necesaria (capítulo 5).
Si las elecciones libres y justas se conciben como una condición sufi
ciente, entonces son en sí suficientes para calificar a una entidad política
183
de democrática, aunque haya otras condiciones que también la califi

quen de democrática. Se pueden sustituir. Esta es, sin duda, una manera
inusual de definir un concepto clave, pero es también la más común en el
nivel délos indicadores.16
Si. en cambio, las elecciones libres y justas se consideran de forma adi
tiva, entonces una entidad política se considera más democrática si posee
este atributo. Asi es cómo se manejan los atributos en las definiciones
máximas (capitulo 5).
La elección entre la estructura de la teoría de conjuntos y la aditiva es,
por lo tanto, trascendental. De hecho, el mismo conjunto de atributos o
de indicadores puede generar un concepto muy diferente en función de la
elección sobre la estructura del concepto.
Otra aproximación al papel de un atributo o de un indicador es a par
tir de los conjuntos difusos, que pueden considerarse a medio camino en
tre la estructura de la teoría de conjuntos y la aditiva.17 Adviértase que
en el mundo real los fenómenos suelen agruparse en categorias, pero su
pertenencia a estas categorias no es perfecta. Los conjuntos difusos per
miten a quien conceptúa asignar una puntuación a cada entidad que re
fleja su pertenencia parcial (o completa), basándose en cualesquiera con
diciones de pertenencia que haya definido. Las fronteras son 0
(completamente ausente) y 1 (totalmente presente). Desde luego, el uso
de conjuntos difusos puede complicar la interpretación y el uso de un es
quema de categorización, porque éste ya no comporta su habitual signi
ficado «nítido» o «continuo». Pero para algunos propósitos puede ser
útil saber qué entidades son un 30 por ciento o un 40 por ciento miem
bros de un conjunto dado. De hecho, a algunos efectos puede ser impor
tante poder definir las fronteras de las categorías en términos no exclu-
yentes (por ejemplo, miembro en un 51 por ciento en lugar de miembro
en un 100 por cien). A otros efectos, la integración de estas complicacio
nes puede distraer y confundir. Al igual que otras muchas cosas, las elec
ciones relacionadas con la conceptualización y la medición se basan en el
propósito esperado de un concepto.
Agregación
El investigador deberá también considerar cómo agregar (poner juntos)

todos los atributos e indicadores asignados a un concepto.
Las condiciones de la teoría de conjuntos son fáciles. Se agregan de
una manera explícita y clara siguiendo la lógica booleana. Cualquier nú
mero de condiciones necesarias o suficientes se puede acomodar en una
sola definición, y cualquier número de condiciones se puede considerar,
en conjunto, necesario y suficiente.18
184
7 Mediciones
Sin embargo, en muchos conceptos de ciencia social los atributos e in

dicadores se consideran desde un punto de vista aditivo. Esto implica
que la tarea de la agregación no es por sí misma evidente y que se debe
adoptar un principio o principios de agregación explícitos. Por ejemplo,
se puede dar un mismo peso a todos los atributos (o indicadores) (el en
foque adoptado por muchos índices de democracia). Por otra parte, se
puede aplicar un esquema de ponderación diferencial de acuerdo con su
puestos a priori sobre la importancia de los diferentes componentes para
el concepto general. Si creemos que algunas dimensiones de la democra
cia (por ejemplo, la electoral y la participativa) son más importantes que
otras (por ejemplo, la deliberación o la igualdad), entonces las primeras
deben tener más peso en el concepto agregado. Las ponderaciones tam
bién se pueden obtener inductivamente, como veremos más adelante.
Cualquiera que sea la solución elegida para la estructura y la agrega
ción, debe ser clara, explícita y replicadle. Es decir, otro investigador debe
poder seguir las opciones por las que se decidió el investigador original y
elegir otras con los mismos datos, es decir, debe poder reconstruir el con
cepto. Esto permite la realización de pruebas de sensibilidad (¿en qué
medida es robusto un análisis frente a las diferentes opciones de agrega
ción?) y la desagregación, lo que puede ser útil para determinados pro
pósitos en diferentes contextos.
Desafortunadamente, aunque la mayoría de los índices existentes de la
democracia tienen reglas de agregación bastante explícitas, en algunas oca
siones éstos son difíciles de comprender y, por lo tanto, de aplicar (por
ejemplo, Polity). Pueden también incluir elementos «comodín», lo que da
al investigador rienda suelta para asignar libremente una puntuación final
acorde con su impresión del país en cuestión (por ejemplo, Freedom
House). Esto viola el ideal de un enfoque sistemático sobre la agregación.
Escalas
Para operacionalizar un concepto debemos elegir una escala o un con

junto de escalas (si el concepto es multidimensional).19 Algunas escalas
son categóricas (conocidas como «cualitativas»), porque la distancia en
tre las categorías no está definida. Otras escalas son numéricas (conoci
das como «cuantitativas»), porque la distancia entre las categorías está
definida y medida con una gradación numérica. Entre estos dos tipos de
escala hay varios subtipos, como indica la tabla 7.2. Tome nota de que
esta clasificación tiene implicaciones para el tipo de análisis estadístico
que se puede realizar del indicador resultante. En principio se utilizan
test paramétricos sólo con datos propiamente numéricos (aunque se pue
den tolerar algunas excepciones en determinadas circunstancias).20
185
Tabla 7.2 Tipos de escalas

Distancia entre
Diferentes Categorías categorías Cero real
categorías ordenadas medidas
Nominal X
Categórica
Ordinal X X
Intervalo X X X
Numérica X X
Razón X X
Entre las escalas categóricas, las nominales definen miembros de la mis

ma clase (son ejemplos de algo), pero no están ordenadas. Por ejemplo,
las manzanas, las naranjas y las uvas no son algo en mayor o en men
grado en relación unas con otras, aunque todas son frutas.
Las escalas ordinales contienen miembros de la misma clase, P®r0
tán ordenadas: muy dulce es más dulce que sólo dulce. Pero no sa e
la distancia que separa cada nivel en la escala. Por ejemplo, no es a c
en qué medida más dulce es «más dulce» que sólo «dulce».
Entre las escalas numéricas, las de intervalo se caracterizan por
medida consistente de la distancia entre categorías. Por ejemplo, ia
tancia entre 3 y 4 en una escala de temperatura (Celsius o a ren
la misma que la distancia entre 25 y 26, y se define con una reg a
que se aplica sistemáticamente en toda la escala.
Las escalas de razón son escalas de intervalo con un cero rea ,
dica la ausencia de cualquier cantidad que se esté midiendo (un co
nulo). En el caso del dinero, 0 implica nada de dinero. En e caso .
temperatura en la escala Kelvin, 0 indica la ausencia total e energ
Con frecuencia, las escalas de intervalo y razón cumplen los re<û^.
de una escala numérica sólo dentro de ciertos límites. Por ejemp ’ e
cío de la vida está limitado en 0, el extremo más bajo (podría a irma
que también está limitado por el extremo más alto, aunque este im
más difícil de definir). La situación se complica cuando una esca a n
rica tiene la característica de la «equidistancia» sólo dentro e cier os
mites: es decir, las distancias entre puntos adyacentes de la esca a s
equidistantes, pero sólo por encima y/o por debajo de un um ra e
minado. Más adelante analizaremos un ejemplo con el concepto e emo
cracia, donde las escalas parecen fallar en los extremos.
Como las escalas se definen para diferentes propósitos, unos mismos
fenómenos pueden clasificarse de forma diferente dependiendo del o je
tivo del investigador. Para algunos propósitos podría ser inteligente con
siderar las variedades de fruta como categorías nominales. Para otros
propósitos podría ser mejor considerarlas como parte de una escala ordi-
186
7 Mediciones
nal (mayor o menor acidez) o una escala de razón (utilizando una razón
de acidez).
Para muchos temas es correcto considerar las escalas de nivel superior
como más informativas. Así, normalmente interpretamos una escala or
dinal para la temperatura («caliente», «mediana», «fría») como menos
precisa (y por lo tanto, menos informativa) que una escala de razón o de
intervalo. Sin embargo, esto es así sólo en el caso de fenómenos particu
lares. Por ejemplo, no sería así en el caso del sexo, porque esta dimensión
sólo admite dos categorías. Aquí, una escala de intervalo se reduce a una
escala nominal.
Adviértase también que aunque los indicadores más precisos prome
ten más, también exigen más. En concreto, requieren muchos supuestos
sobre la naturaleza de los datos fundamentales. Si alguno de esos supues
tos es falso, o sólo parcialmente verdadero, cualquier inferencia que se
base en ese indicador se cuestionará.
La utilidad de cada tipo de escala para subsecuentes análisis es otra
cuestión que hay que considerar. En los análisis bivariados o multivaria-
dos en los que nos interesa la relación entre dos o más factores, puede ser
importante cambiar la escala con la que se mide un factor o factores.
Con frecuencia, las escalas ordinales se tratan como si fuesen de interva
lo. En otras ocasiones, una variable de intervalo o escalar se registra
como nominal u ordinal. Lo que hay que recordar siempre es que estos
cambios de tipo de escala, si bien pueden ser analíticamente convenien
tes, suelen implicar una pérdida de información y/o la introducción de
un sesgo en la variable de interés. No hay escalas «naturales», pero algu
nas interpretaciones de la realidad son más plausibles que otras.
Para muchos propósitos es esencial distinguir las entidades políticas
de forma binaria, como democráticas o autoritarias (autocráticas).21
Esto produce una escala nominal con dos categorías o, quizás con más
precisión, una escala ordinal con dos categorías (porque están ordena
das). Cualesquiera desacuerdos que existan en tomo a cómo operaciona-
lizar este concepto, la mayoría de los enfoques binarios sobre la demo
cracia incluyen el componente clave, las elecciones libres y justas, que ya
hemos mencionado en el contexto de la definición mínima (capítulo 5).
Debido a que las definiciones mínimas tienden a imponer límites (opera-
cionales) nítidos a un concepto, hay una afinidad natural entre esta es
trategia de definición y la escala nominal (u ordinal) de dos categorías.
Para otros propósitos quizás necesitamos un indicador de la democra
cia de grano más fino. Un concepto acumulativo se construye con catego
rías que se pueden ordenar de forma unidimensional, como, por ejemplo,
en grados de centralidad para el concepto de democracia. Limitándose al
concepto de competencia electoral (una dimensión del concepto general de
democracia), Gerardo Munck define una escala nominal de cuatro partes
187
que incluye las categorías de autoritarismo, semiautoritarismo, semidemo-

cracia y democracia.22 Aquí, cada categoría es distinguible y está clara
mente ordenada en relación con el concepto de interés teórico. La tabla 7.3
ilustra la definición de atributos para cada categoría.
Tabla 7.3 Una escala única con múltiples interpretaciones: «Competencia elec
toral»
Autoritarismo: no se celebran elecciones o se celebran con un único partido
0
o candidato.
Semiautoritarismo: se celebran elecciones en las que compite más de un
1 partido o candidato, pero no todos los partidos o candidatos tienen la
posibilidad de perderlas.
Semidemocracia: se celebran elecciones en las que compiten más de un
2 partido o candidato y todos los partidos y candidatos tienen la posibilidad
de perder, pero no todos los partidos o candidatos pueden participar.
Democracia: se celebran elecciones en las que sólo a los grupos extremistas
3 antisistema no se les permite participar y todos los partidos y candidatos
tienen la posibilidad de perder.
Fuente. Munck (2009:45).
La ventaja de este enfoque es que nos permite incorporar una amplia se
rie de atributos y no necesitamos separar cada atributo en una categoría
diferente. Un indicador no restringido basado en una escala nominal
tiende más a tener las virtudes de una escala de intervalo, donde las cate
gorías vecinas son equidistantes entre sí.
En efecto, a medida que el número de categorías aumenta, los estudio
sos pueden tender a tratar las escalas nominales como escalas de interva
lo. El índice de Derechos Políticos de Freedom House, así como el de Po-
lity, son tratados ambos como escalas de intervalo, aunque tienden a no
cumplir satisfactoriamente el criterio de equidistancia entre las categorías.
Consideremos la escala de democracia de Polity, que va de -10 a +10 en
intervalos enteros, creando así un índice de 21 puntos.23 Aunque se la sue
le considerar y tratar como una escala de intervalo, las propiedades empí
ricas contradicen esta interpretación. La figura 7.2 ofrece un histograma
de las puntuaciones de Polity para todos los países y todos los años
(1800-2006). Obsérvese que los datos «se amontonan» en dos puntos, en
-7 y +10. Esto podría ser una propiedad empírica del mundo. Sin embar
go, parece más probable que sea un artefacto de la propia escala. Una
ojeada al complejo libro de codificación de Polity sugiere que hay muchas
maneras en las que un país puede lograr una puntuación de —7. Y el he
cho de que +10 esté en un extremo de la escala (la democracia perfecta)
188
7 Mediciones
0,3-
0,2.
1
5 l!
Q
0,1-
_
0
-10 -5 0 5 10
Figura 7.2. Histograma de la escala de democracia de «Polity».
sugiere que los miembros de esta categoría grande pueden ser relativa
mente heterogéneos (unos pueden ser más democráticos que otros, a pe
sar de tener la misma puntuación).24 Las escalas limitadas (las que tienen
un mínimo o un máximo impuesto) suelen tener este problema. Por estas
razones tal vez es más apropiado considerar la escala de Polity como ordi
nal más que de intervalo. Pero, una vez más, depende de nuestros propósi
tos. En algunas ocasiones es absolutamente necesario reducir las dimen
siones de un concepto para que sea empíricamente manejable.
Podemos pensar en una última opción de la escala de cuatro puntos de
la tabla 7.3. Si la primera categoría comprende un cero real —no existe
competencia alguna—, la dimensión clave de la competencia electoral se
puede redefinir como escala de razón (una opción que Munck suscribe).
Este ejemplo ilustra bien el hecho de que un mismo conjunto de cate
gorías puede interpretarse de forma diferente dependiendo de los supues
tos sobre el fenómeno empírico de interés y los diferentes usos que se le
dan a un mismo indicador.
Objetivos
La construcción de un indicador tiene el objetivo de lograr la máxima

discriminación entre unas entidades o la agrupación óptima de entidades.
(Para el primer objetivo se utilizarán las escalas numéricas y para el se
gundo las escalas categóricas mencionadas anteriormente). Al parecer,
uno u otro de estos objetivos fundamentales gobierna en todos los ins-
189
trunientos de medición. Huelga decir que es poco probable que un ins

trumento dado valga para los dos objetivos a la vez.
La discriminación hace referencia a la capacidad de un instrumento
para revelar finas diferencias de grado —normalmente unidimensionales,
pero, en algunas ocasiones, multidimensionales— en un rasgo latente de
una muestra de personas, objetos o eventos. Éste es el objetivo tradicio
nal de la medición en la psicometría y, especialmente, en la teoría de res
puesta al ítem (TRI).25 Por consiguiente, un test de logro educativo debe
proporcionar la base para construir una escala máximamente sensible
(que mida las diferencias de conocimiento, o la capacidad en una mate
ria, entre los que hacen el test) con el mínimo número de preguntas es
tándar. Esto requiere que todas las preguntas del test sean independien
tes entre sí y que cada una refleje diferentes niveles del rasgo latente de
interés (conocimiento/capacidad en alguna materia), añadiendo informa
ción a la que proporcionan las otras preguntas. Si dos individuos con ni
veles diferentes de conocimiento/capacidad dan la misma respuesta a
una misma pregunta, esta pregunta no ayuda a discriminar entre ellos; es
redundante. De igual forma, si dos preguntas son interdependientes —de
tal forma que la respuesta a la pregunta 2 depende (de alguna manera ló
gica) de la respuesta dada a la pregunta 1— entonces no obtendremos de
la pregunta 2 ninguna información. El resultado de una herramienta de
medición bien hecha (construida para el propósito de la máxima discri
minación) es una escala finamente graduada que carezca de amontona
mientos, es decir, en la que las puntuaciones se distribuyan uniforme
mente entre la muestra de respondedores.
La agrupación, por otra parte, se refiere a la capacidad de un instru
mento para dividir ítems en categorías discretas sobre la base de las simi
litudes y diferencias en un rasgo o rasgos latentes. Entre las técnicas más
comunes están el análisis factorial, el análisis de componentes principa
les, el análisis de conglomerados y el análisis Q. Tome nota de que el ob
jetivo de las categorías nítidas puede no alcanzarse siempre. El éxito de
una técnica es su capacidad de dividir ítems en categorías discretas, man
zanas con manzanas y naranjas con naranjas. Si los fenómenos no se
agrupan entre categorías por su naturaleza («manzanas», «naranjas»,
etc.), entonces la tarea del instrumento de medición es discernir puntos
de ruptura en las escalas numéricas. Esto se puede conseguir de forma in
ductiva o deductiva, lo que nos lleva al siguiente apartado.
Enfoques: deductivo e inductivo

En general, hay dos maneras de sacarle provecho a un concepto que no
es directamente observable (y, por ende, no es directamente medible).
190
7 Mediciones
Los enfoques deductivos sobre la medición construyen indicadores de

acuerdo con reglas a priori de decisión. Pueden ser bastante simples,
como en el conjunto de condiciones necesarias adoptado por Adam
Przeworski y sus colaboradores (mencionado anteriormente). O pueden
ser muy complejos, como los múltiples componentes probabilísticos de
los índices de Polity y de Freedom House. En cualquier caso, una
aproximación deductiva a la medición deriva los indicadores a partir de
la definición de los atributos de un concepto (capítulo 5) o de un argu
mento descriptivo más extenso (capítulo 6). La tarea de la medición es
probar cómo un aspecto del mundo empírico corresponde al concepto
particularmente definido.
Un enfoque inductivo sobre la medición parte de un conjunto de medi
das empíricas que supuestamente captan elementos de un concepto (esta
parte del proceso es deductiva), para lograr luego un indicador o indica
dores últimos analizando las pautas observadas de los datos. Por lo gene
ral, los investigadores buscan descubrir si las medidas múltiples de un
concepto correlacionan entre sí y, si es así, si las correlaciones son unidi
mensionales o multidimensionales. Una vez resuelta esta cuestión, les in
teresa saber si las pautas reveladas son interpretables, es decir, si se co
rresponden con los componentes reconocibles del concepto. Entre las
técnicas para examinar pautas empíricas en una muestra de datos —y re
estructurarlas con el fin de formar nuevos indicadores— están el análisis
factorial, el análisis de componentes principales, los modelos de ecuacio
nes estructurales, las regresiones, los modelos de máxima verosimilitud y
laTRI.26
En esta línea, Michael Coppedge, Ángel Álvarez y Claudia Maldona-
do exploran las pautas empíricas en quince medidas de la democracia,
incluyendo los conocidos índices de Freedom House y Polity.27 Estos
autores descubren que cerca del 75 por ciento de la varianza en estas me
didas se puede reducir a dos componentes relativamente distintos: la
competencia (elecciones competitivas y sus correspondientes institucio
nes) y la inclusión (por ejemplo, sufragio amplio y alta participación).
Como estos componentes tienen una base muy sólida en la teoría demo
crática (especialmente en la obra de Robert Dahl),28 hay buenas razones
para considerarlos algo más que artefactos empíricos. Satisfacen tanto la
lógica inductiva como la deductiva del concepto de la medición.
Desde luego, es importante tener en mente que un enfoque inductivo
sobre la medición no es inmune a los errores de los datos empleados para
la construcción del indicador. Aunque los posibles errores aleatorios en
la medición se reducen cuando combinamos múltiples medidas en un nú
mero menor de indicadores, seguirán reproduciéndose errores sistemáti
cos. Así, aunque las medidas proxy29 captan sólo ciertos componentes de
un concepto fundamental, son estos componentes los que se reflejarán
191
en el nuevo indicador. Así, las medidas existentes de la democracia

(como la de Freedom House y Polity) probablemente acentúan las di
mensiones electoral y participativa de este fenómeno excluyendo otras
dimensiones como la deliberación, la sensibilidad, la rendición de cuen
tas y la igualdad social. Por consiguiente, los enfoques inductivos sobre
la medición de la democracia (incluyendo el de Coppedge, Alvarez y
Maldonado) reflejan este sesgo.30
El aspecto problemático de una medida inductiva de cualquier cosa
no suele ser la cuestión técnica de qué método estadístico emplear para
analizar las proxies elegidas. Antes bien, es la identificación de variables
proxy adecuadas, así como la cuestión de qué interpretación dar a la di
mensión o dimensiones resultantes. Por ejemplo, podemos resolver pro
blemas de validez conceptual redefiniendo un concepto de forma que se
alinee adecuadamente con sus indicadores, en este ejemplo, llamando de
mocracia electoral al indicador resultante en lugar de sólo democracia.
Pero esto no resuelve el problema en cuestión si nuestro objetivo es medir
la democracia (a secas). Las técnicas inductivas no pueden hacer alqui
mia.
En general, merece la pena reiterar una cuestión importante: todos los
enfoques deductivos sobre la medición contienen un componente induc
tivo, y todos los enfoques inductivos sobre la medición contienen un
componente deductivo. Conceptos y preceptos son inseparables. No obs
tante, puede ser útil a veces distinguir los enfoques que se inclinan hacia
un lado u otro del espectro: son predominantemente deductivos o predo
minantemente inductivos, como se ha explicado ya.
Etnografía
Los problemas de la medición a veces se abordan mejor de forma etno

gráfica, especialmente cuando se plantea un enigma (por ejemplo, cuan
do se sospecha que hay problemas de duplicidad y ambigüedad). Si usted
quiere saber qué pasa, observe las acciones de las personas más cercanas
a la acción. Para comprender el crimen hable con la policía, con los cri
minales, con las familias de los autores del crimen y con los miembros de
la comunidad afectada.31 (Con esto no quiero decir que la etnografía sea
equivalente a la medición; obviamente, hay muchos otros usos importan
tes de esta técnica, algunos de los cuales guardan relación con la inferen
cia causal, como veremos en la parte III.)
Naturalmente, los informantes suelen ser reservados. Y sacarles la ver
dad —o cualquier otra cosa— puede requerir meterse de hoz y coz en
sus asuntos. También puede requerir un grado de confianza y familiari
dad. Los informantes que se juegan mucho en un asunto tienden a no di-
192
7 Mediciones
vulgar sus secretos a un extraño. Además, un extraño puede malinterpre-

tar las sutiles señales de un informante, introduciendo asi un error de
medición.
La práctica de la etnografía se centra en obtener un conocimiento lo
cal, y esto tal vez requiere «ir de local». En algunas ocasiones los investi
gadores nacen en el mismo entorno que estudian o ya pertenecen a él
cuando empiezan su investigación. Algunas de nuestras mejores com
prensiones de la acción social nos las proporcionan los nativos de esa
cultura o clase.32 De igual modo, algunas de nuestras mejores impresio
nes de la conducta de los medios proceden de corresponsales actuales y
anteriores,33 y algunas de nuestras mejores percepciones de la política
proceden de funcionarios públicos actuales o anteriores.34
Por otra parte, los investigadores pueden adoptar posiciones en una
cultura u organización como participantes provisionales: por ejemplo,
ingresando en un club o implicándose en alguna actividad de interés.
Martin Sánchez Jankowski se vio obligado a participar en los ritos de
iniciación cuando investigó las pandillas de Los Angeles, Chicago y Nue
va York con el fin de poder acceder a los informantes.35 Podría decirse
que la mejor manera de comprender una actividad y las ideas e incenti
vos que la motivan es que el investigador se implique en esa actividad.
Esto no siempre es posible o aconsejable, claro. Aun así, podemos
comprender una actividad observándola de cerca, con entrevistas abier
tas en profundidad y relaciones frecuentes. Para entender el significado
adscrito a la mortalidad infantil en una comunidad pobre, Nancy Sche-
per-Hughes pasó varios años en una barriada de chabolas del noreste de
Brasil. Todo lo que descubrió mientras residía allí (primero como volun
taria de los Cuerpos de Paz y luego como antropóloga profesional) fue
extraordinario, y probablemente no lo habrían conseguido observadores
distantes examinando hojas de datos o fuentes secundarias.36
En su estudio sobre el comportamiento de los miembros del Congre
so, Richard Fenno (uno de los intérpretes más influyentes de esta institu
ción tan documentada y, sin embargo, tan hermética) siguió de cerca sus
actividades —yendo con los miembros a sus reuniones y estando con
ellos mientras realizaban funciones públicas, trataban con recaudadores
de fondos y hacían tratos.37 Hay una larga tradición de politólogos esta
dounidenses que trabajaron inicialmente como asistentes en el Congreso
o formaron parte del personal del Capitolio antes de entrar en la acade
mia. De igual modo, los académicos de numerosos campos a menudo se
dan cuenta de que su entorno personal y conexiones les ayudan a pene
trar en la actividad que están estudiando.
Todas las formas de conocimiento local son buenas, incluyendo las
que son completamente fortuitas. Scott Palmer estuvo como voluntario
de los Cuerpos de Paz en la comunidad peruana de Ayacucho, donde na-
193
ció Sendero Luminoso en los años sesenta. De hecho, conoció personal

mente a Abimael Guzmán, el fundador de Sendero. Más tarde, una vez
en la academia. Palmer pudo aportar información sobre su relación per
sonal con la cultura y las personalidades de Sendero, proporcionando
una comprensión extraordinaria de un movimiento político violento y
cerrado.'8 En algunas ocasiones, la serendipia es la mejor estrategia de in
vestigación.
Hay temas muy sensibles que a veces sólo se pueden abordar si el in
vestigador logra entrar en una comunidad como observador fiable. De
hecho, en algunas ocasiones, a los sujetos de la investigación les gusta
desahogarse y pueden llegar a ser muy habladores cuando un observador
interesado y aparentemente simpático les hace preguntas una vez les ha
garantizado el anonimato. Cuando Kathryn Kirschenman y Joleen Nec-
kerman entrevistaron a empleadores blancos de Chicago sobre sus prác
ticas de contratación, se sorprendieron de la franqueza que mostraron.
Los empleadores hablaron abiertamente de por qué preferían los miem
bros de un grupo racial a otros de otros grupos, dando ejemplos de sus
propias decisiones y experiencias. También hablaron con franqueza de
sus ideas sobre el racismo y la discriminación, los dos conceptos de inte
rés teórico.39 Adquirir una «sensación» rica y contextual sobre una acti
vidad ayuda al investigador a juzgar la sagacidad y la sinceridad de sus
informantes.
Si bien los enfoques etnográficos son frecuentes en muchos campos,
no se practican mucho en economía. Pero parece probable que lleguen a
ser prometedores, incluso en esta ciencia «lúgubre». Un estudio reciente
sobre la relación entre la recesión y los salarios se basa fundamentalmen
te en entrevistas abiertas a quienes más influyen en la política salarial: je
fes de recursos humanos, representantes sindicales, abogados laboralistas
y consejeros laborales. El método de Traman Bewley es cualitativo, pero
sus resultados son muy informativos y hasta ahora podemos juzgar que
igual de precisos y tradicionales que los enfoques sobre la medición de N
elevados.40 (Mi sensación es que los economistas están más influidos por
sus experiencias personales en el sector público y privado de lo que están
dispuestos a revelar.)
En todo caso, claramente hay mucho que decir a favor del valor de los
métodos etnográficos. Ciertamente, estos enfoques no siempre llegan al
fondo de las cosas, es decir, no siempre proporcionan una interpretación
autorizada de una actividad. Son propensos a tener problemas de infra-
representatividad y sesgo del observador, y suelen ser difíciles de replicar.
Además, los sujetos pueden ocultar información. Sin embargo, es difícil
imaginar un tema no trivial que no se beneficie de la observación de cer
ca. Donde quiera que se sospeche el error de medición en algún campo
de la acción humana, la etnografía es aconsejable.
194
7 Mediciones
Encuestas y experimentos
En el contexto de la investigación por encuesta —donde normalmente
no hay oportunidad alguna de ganarse la confianza de los entrevistados
o de juzgar sus respuestas de forma contextual— hay, sin embargo, for
mas de abordar temas sensibles.41
Para preservar el anonimato debemos omitir en la encuesta el nombre
del individuo. También podemos adoptar un procedimiento anónimo para
la encuesta, que puede distribuirse por correo postal o electrónico. Otra op
ción es construir un instrumento de encuesta en el que los temas sensibles se
expresen como preguntas sobre otras personas, por ejemplo: «¿Cree usted
que otros empleadores utilizan la raza como criterio para tomar decisiones
de contratación?». El supuesto aquí es que los que participan en actividades
denigradas por la sociedad (por ejemplo, la discriminación o la corrupción)
tenderán a creer que esas actividades están muy extendidas, mitigando así
sus sentimientos de culpa o vergüenza. (Desde luego, puede ocurrir tam
bién que los que evitan esas actividades vean a los demás especialmente ac
tivos, como un manera de explicar su falta de éxito o popularidad.)
Podemos también incluir un diseño de encuesta experimental para en
mascarar las identidades individuales.42 El experimento a una lista parte di
vidiendo aleatoriamente a los respondedores en dos grupos a los que se les
da un pequeño conjunto de preguntas para que las ponderen. Los cuestio
narios son idénticos salvo que al grupo de tratamiento se le hace una pre
gunta adicional de naturaleza sensible (por ejemplo, sobre el racismo o la
corrupción). Se pide entonces a los respondedores que digan el número to
tal de preguntas con las que están de acuerdo (o en desacuerdo), pero no
sus respuestas específicas a las preguntas. Como los grupos de control y de
tratamiento son supuestamente comparables en todos los aspectos salvo en
la pregunta adicional formulada al grupo de tratamiento, cualquier diferen
cia en las respuestas (por ejemplo, en los porcentajes de respuestas «de
acuerdo») puede atribuirse a esa pregunta. La innovación del método es
obtener resultados precisos de nivel agregado, evitando al mismo tiempo
toda posibilidad de vincular a un individuo con una respuesta específica.43
Otra técnica experimental de investigación por encuesta consiste en
introducir pequeñas variaciones a las preguntas de un cuestionario de
forma tal que se pueda medir el efecto de un tratamiento cuidadosamen
te elegido. Por ejemplo, para investigar el racismo oculto, Paul Snider-
man y sus colegas diseñaron encuestas que preguntaban sobre las ideas
de los respondedores sobre la responsabilidad del gobierno en la ayuda a
los necesitados. En una versión de la encuesta a una muestra dividida, el
escenario implica a un trabajador negro desempleado, mientras que en
otra versión el trabajador desempleado es blanco. Los escenarios (es de
cir, las preguntas) son idénticos, salvo la raza del trabajador, y por ende
195
lo son los dos grupos (que han sido elegidos aleatoriamente). Así, las di
ferencias encontradas en las respuestas de los dos grupos se pueden in
terpretar como un producto del tratamiento.44
Podemos adoptar también un experimento de campo con el fin de
determinar valores y creencias sobe temas sensibles. Por ejemplo, para
estimar el grado de racismo entre los empleadores podemos diseñar ex
perimentos en los que los solicitantes de empleo —idénticos en todos los
aspectos salvo en su raza— solicitan el mismo puesto. La tasa de éxito
entre los solicitantes con características comunes salvo la raza puede in
terpretarse como una medida de racismo entre los empleadores.45
Sin duda, al pasar de las articulaciones a las acciones podemos perder
de vista las motivaciones de los participantes. Con el experimento descri
to antes podemos saber qué empleadores eligen al solicitante blanco y
quienes eligen el negro, pero puede ser difícil inferir de esta información
por qué hacen esas elecciones. Por esta razón, los experimentos cuyo pro
pósito es estimar las cuestiones del significado y la motivación suelen
acompañarse de una investigación etnográfica. Por otra parte, el experi
mento puede alterarse de formas sutiles para ajustarse, por ejemplo, al
origen social de los solicitantes, su educación y su lugar de residencia y
sus costumbres. Si alguna de estas alteraciones afecta la variable de inte
rés teórico, la raza, entonces podemos llegar a conclusiones provisionales
sobre las motivaciones que hay detrás de las acciones de los empleadores.
En suma, los experimentos pueden arrojar luz sobre las motivaciones,
pero suelen requerir múltiples iteraciones.
Puede parecer extraño emplear un marco experimental para resolver
problemas de medición, porque el experimento parece presuponer una pre
gunta causal (implicada en el tratamiento). Sin embargo, la técnica experi
mental tiene muchos usos, y los usos para los que se emplea dependen del
propósito de la investigación. Si nuestra investigación es causal, nos interesa
estimar el impacto causal de un tratamiento como la raza en las decisiones
del empleador. Si nuestra investigación es descriptiva, podemos emplear el
mismo procedimiento para arrojar luz sobre cuestiones de medición como,
por ejemplo, el grado de racismo entre los empleadores. Aquí, el tratamien
to es meramente un estímulo que proporciona una ocasión para observar
las respuestas. En los términos de nuestro diagrama de medición (figura
7.1), es una manera de controlar los confundidores (C) de modo que el
concepto de interés (L) se pueda observar con precisión y exactitud.
Referencias cruzadas
Cuando tenemos problemas de medición recalcitrantes, en ocasiones es

posible avanzar examinando un contexto adyacente en el que se mide el
196
7 Mediciones
concepto de interés teórico de forma convincente. Me referiré a este pro

ceder como la estrategia de las referencias cruzadas.
El problema del «sesgo de los medios» es un buen ejemplo. Existe la
sensación general de que los medios de comunicación ofrecen perspecti
vas ideológicas diferentes de las noticias. Algunos se consideran más li
berales o más conservadores que otros. Pero al parecer no somos capaces
de medir con precisión ese sesgo, lo que provoca mucha controversia (la
mayoría de los medios de comunicación se oponen a la idea de que la in
formación que dan no es «imparcial, no sesgada» y está contaminada de
partidismo).
Tim Groseclose y Jeffrey Milyo abordan este asunto con referencias
cruzadas en tres contextos. Parten de las puntuaciones que asigna ADA
(Americans for Democratic Action, un grupo liberal) a los miembros del
Congreso como medida de su liberalismo/conservadurismo. Luego cuen
tan la frecuencia con la que los miembros del Congreso citan a diversos
think tanks en sus discursos en la Cámara y el Senado. Esto permite co
dificar todos los think tanks en un espectro liberal/conservador. Y en ter
cer lugar cuentan la frecuencia con la que los diversos medios de comu
nicación citan a estos mismos think tanks. Esto les permite juzgar dónde
se sitúa cada medio en el espectro ideológico. Siguiendo esta estrategia,
juzgan que la mayoría de los medios de comunicación estadounidenses se
sitúa a la izquierda de la media del Congreso. En palabras de los autores:
Nuestros resultados revelan un fuerte sesgo liberal: todos los medios de noticias
que examinamos, excepto el Informativo Especial de Fox News y el Washington
Times, recibieron puntuaciones a la izquierda del miembro medio del Congreso.
En consonancia con las reivindicaciones de los críticos conservadores, CBS Eve-
ning News y el New York Times recibieron puntuaciones que los sitúan muy a la
izquierda del centro. Los medios más centristas resultaron ser PBS NewsHour,
Newsnight de CNN y Good Morning America de ABC y, entre los medios escri
tos, USA Today se erigió como el más cercano al centro.46
Los hallazgos son controvertidos y censurables. Por ejemplo, podría ser

que los think tanks en el extremo liberal del espectro ofrecieran un análi
sis más exhaustivo y académico de los problemas políticos que los que
están en otro extremo del espectro. Si esto fuese así, entonces el predomi
nio de los think tanks liberales en la prensa podría ser más un reflejo de
su mejor información que un indicativo de sesgo ideológico en los me
dios de noticias: es decir, tanto los miembros del Congreso como los
periodistas del New York Times podrían ser más propensos a citar a la
Brookings Institution (centro-derecha) que a Liberty Fund (derecha)
porque el primero ofrece un análisis más detallado y fiable de un proble
ma de interés del momento. Si esto fuese así, el instrumento de medición
propuesto es deficiente. (Hay más objeciones al estudio.47)
197
1
La cuestión es que Groseclose y Milyo ofrecen una solución curiosa

para un problema pertinaz de medición, un problema con repercusiones
prácticas y teóricas importantes. Además, es un buen ejemplo de una téc
nica que se puede aplicar en muchos campos. Cuando una medida base
de una cantidad de interés se puede situar en un campo y transportar a
otro —mediante alguna medida de equivalencia—, los problemas inicia
les de medición se pueden superar, siempre que los confundidores poten
ciales (como los mencionados antes) no sean demasiado graves.
Relaciones causales
Una última estrategia para el problema de los fenómenos no observables

es considerar las relaciones causales implícitas en el concepto de interés.
¿Cuál es la causa de L (el concepto de interés) y qué es lo que T- causa?
En algunas ocasiones, los factores que tienen presuntamente un efecto
causal en un fenómeno son más fáciles de medir que el fenómeno en sí.
Si. por ejemplo, podemos medir el grado de educación de un individuo
con mayor facilidad que el nivel de inteligencia real de un individuo, y si
podemos suponer que la educación es el factor causal principal tras la in
teligencia, entonces puede tener sentido operacionalizar la inteligencia
(L) con un indicador de entrada compuesto de atributos educativos (I).
Aquí la flecha causal va de I a L.
Alternativamente, podemos considerar también los efectos causales de
un concepto inobservable. Supongamos, por ejemplo, que estamos estu
diando un ámbito organizativo donde la inteligencia es el principal crite
rio de promoción. En este entorno meritocrático puede ser factible consi
derar el puesto de un individuo en la jerarquía como un indicador de
entrada (?) de su inteligencia (L), bajo el supuesto de que su nivel de in
teligencia le proporcionó su puesto. Aquí la flecha causal va de L a I.
En la mayoría de los campos de las ciencias sociales, las estrategias de
medición basadas en los resultados son más prometedoras que las estra
tegias basadas en indicadores de entrada. De hecho, muchos de los ejem-
p os analizados en este capítulo se podrían considerar estrategias basa
das en resultados.
Consideremos el problema de la ideología como un ejemplo adicional,
n concreto, ¿cuál es el «punto ideal» verdadero (sincero, auténtico) de
un ciudadano, un legislador o un partido? Esta pregunta viene desespe
ran o a los politólogos cien años o más. Es un problema hermenéutico
c asico, porque los sujetos —especialmente los que ocupan puestos de
e ite suelen tener razones muy sólidas para camuflar sus verdaderas
preferencias políticas. Además, la pregunta en sí es difícil de enunciar y,
por ende, está abierta a múltiples interpretaciones. En estas circunstan-
198
7 Mediciones
cías, no es extraño que los estudiosos hayan recurrido a medidas de com

portamiento como el voto. Para analizar los puntos ideales de los miem
bros del Congreso de EE.UU., por ejemplo, los investigadores examinan
las pautas de correspondencia en los registros de voto bajo el supuesto
de que los que votan juntos comparten la misma ideología. Este es el
fundamento de la muy utilizada escala «NOMINATE» (acrónimo de
Nominal Three-Step Estimation) ideada por Keith Poole y Howard
Rosenthal.48
Esta medición de resultados no sólo es objetiva, también tiene conse
cuencias —y por lo tanto, es, en definitiva, defendible como medida mejor
de las verdaderas preferencias de un individuo. Las mediciones de resulta
dos siguen el viejo proverbio sobre los políticos: «Mira lo que hacen, no lo
que dicen». Sin duda, el investigador tiene que interpretar el significado de
estas acciones, que no siempre son evidentes por sí mismas. Las medidas
«objetivas» pueden requerir juicios «subjetivos» para que sean útiles. Éste
es el caso, por ejemplo, cuando se intenta determinar el significado de dife
rentes dimensiones en los registros de voto proporcionados por el proyecto
NOMINATE. Y más importante aún, podríamos preguntarnos por la
presencia de confundidores —otros factores diferentes de la ideología que
influyen en el registro de voto de un legislador. Presumiblemente, los legis
ladores están también influidos por las presiones de su electorado, por los
grupos de presión y por los líderes de partidos. Estas presiones fuerzan la
interpretación de la puntuación NOMINATE de un legislador como una
expresión de su ideología personal.
Muy relacionada con este asunto está la cuestión de cómo medir la
calidad de la gobernanza en los países. Tenemos poca información sobre
los inputs de la gobernanza que nos podrían permitir juzgar la actuación
de los gobiernos en el mundo. Por supuesto, sabemos cuánto recaudan y
gastan los gobiernos, y sabemos algo sobre las categorías de gasto (cuán
to se dedica a los diferentes programas). Pero apenas podemos inferir
nada sobre la calidad de la gobernanza a partir de cuánto gastan los go
biernos y en qué gastan su dinero. Un aparato estatal de gran tamaño no
tiene por qué ser mejor o peor que un Estado mínimo.
Un enfoque sobre la gobernanza basado en los resultados podría par
tir de resultados como el crecimiento, la inflación, el desempleo, la sani
dad, la mortalidad, la educación o la infraestructura. Suponemos que es
tos resultados están influidos por la acción del gobierno —aunque
también lo estén por muchos otros factores, que se pueden clasificar
como aleatorios (B) o no aleatorios (C). Así, si los niveles de mortali
dad infantil son más altos en el País 1 que en el País 2, podríamos inferir
que, a igualdad de condiciones, el País 2 disfruta de una gobernanza de
más calidad que el País 1,49 El escollo aquí es la cláusula ceteris paribus
(a igualdad de condiciones).
199
En algunas ocasiones se puede ajustar un indicador basado en resul

tados controlando por los confundidores potenciales y las fuentes poten
ciales de ruido, de forma tal que el índice resultante capte con más preci
sión lo que se pretende captar: es decir, la calidad de la gobemanza en un
área política determinada. Así, si lo que queremos medir es la calidad de
la gobemanza en salud pública mediante la tasa de mortalidad infantil,
podríamos controlar por el impacto de los factores económicos e incluir
una medida del desarrollo económico (por ejemplo, el PIB per cápita) y
podemos controlar por el efecto de factores geográficos e incluir una se
rie de controles geográficos y climáticos que supuestamente influyen en
la salud de las poblaciones. Cuando el resultado de interés y los confun
didores potenciales son medióles, la operacionalización basada en un
modelo resulta informativa.50
Una aproximación más simple es la identificación de comparaciones
adecuadas con punto de referencia. Así, para medir el número de mujeres
cuyas muertes son una consecuencia de la discriminación de género (como
algo distinto a la pobreza y otros factores), Amartya Sen identifica el Áfri
ca Subsahariana (ASS) como un punto de referencia. Los países que están
al sur del Sahara son la región más pobre del mundo, pero constituyen
también un área del mundo en desarrollo donde la razón entre mujeres y
hombres es relativamente favorable a las primeras, aproximadamente 1,05
en los años ochenta. Sen sostiene que las ratios por debajo de ese nivel en
países que tienen un nivel igual o superior de desarrollo económico deben
ser el resultado de políticas y prácticas discriminatorias. Según ese cómpu
to, Sen reconoce que se habrían «perdido» más de 100 millones de mujeres
en el mundo (un número que probablemente ha aumentado considerable
mente en las décadas posteriores).51 Una vez más, el enfoque es causal aun
que no haya un modelo causal explícito.
Se podría afirmar que, desde cierta perspectiva, todas las técnicas de
medición (salvo cuando el fenómeno de interés se puede observar directa
mente) son causales. Sabemos que algo latente existe en la medida en que
ese algo provoca otra cosa, o en la medida en que se puede presumir que
ese algo ha sido causado por otra cosa. Así, dado que la corrupción es una
abstracción (y por lo tanto inherentemente inobservable), todos los indica
dores del concepto podrían considerarse bien como causas o bien como
efectos. Ésta es la perspectiva de muchas técnicas estadísticas (por ejemplo,
de los modelos basados en la regresión o en ecuaciones estructurales) que
distinguen entre variables «independientes» y variables «dependientes».
Desde otras perspectivas, los modelos causales empleados para pro
pósitos de medición no satisfacen los desiderata del análisis causal. Los
basados en los resultados plantean intervenciones causales (L) que no se
pueden observar, y mucho menos manipular. Los basados en inputs plan
tean conexiones causales (de I&L) que no se pueden comprobar. Esto no
200
7 Mediciont
es muy satisfactorio si queremos establecer relaciones casuales por razo

nes que examinaremos detalladamente en la parte III. De hecho, la inca
pacidad de medir directamente L, el concepto de interés, significa que
cualquier relación causal potencial que implique L será siempre hipotéti
ca. La evidencia empírica es útil —al menos, para descartar teorías falsas
sobre L. Pero esa evidencia nunca es concluyente, salvo si podemos idear
formas de observar L más directamente.
Consideremos la cuestión de las emociones, un elemento importante
de cualquier teoría que no se base únicamente en motivaciones raciona
les. Las emociones como el odio, el amor y la aflicción presuntamente
motivan muchos comportamientos humanos, y pueden tener vastas ra
mificaciones para resultados de interés en la ciencia social.52 Podemos
medir los «resultados» de las emociones, como por ejemplo la violencia,
el llanto, la información que uno da sobre los propios estados emociona
les (I), y considerarlos como una evidencia de la vida interior de nues
tros sujetos (L). Desde luego, no sabemos en realidad si nuestra impre
sión es correcta, es decir, si un comportamiento emocional interno está
haciendo que los sujetos manifiesten determinadas pautas de comporta
miento o que den testimonio de que están enfadados, enamorados o tris
tes. Sin embargo, si somos capaces de medir los procesos químicos aso
ciados a las emociones (tal y como se revelan, por ejemplo, en los
propios testimonios), entonces se puede afirmar que nos acercamos a
una medición directa del fenómeno de interés. Así, cuando los psicólogos
miden las emociones emplean normalmente indicadores fisiológicos tales
como la presión sanguínea, la respuesta galvánica de la piel (RGP), el rit
mo cardíaco, la dilatación de la pupila y el parpadeo de los ojos (respues
ta de sobresalto), además de la propia información que dan los sujetos.53
Estas estrategias de medición se pueden considerar causales sólo si los
procesos químicos contribuyen realmente a generar la experiencia vivida
que conocemos como odio, amor o aflicción, o si son subproductos de
esa experiencia. Son correlativos en la medida en que son síntomas de
esas emociones. Sin embargo, para propósitos de medición la distinción
no es importante. No nos preocupa si I causa L, es una causa de L o es
simplemente una traza de L. Lo que cuenta es el alineamiento (es decir, la
correlación) entre el concepto y el indicador. Esto es lo que nos ocupa
cuando el propósito del análisis es validar un instrumento de medición.54
Corrupción: un ejemplo detallado

Las amenazas a la fiabilidad y la validez de la medición se pueden descri
bir en términos generales, como hemos hecho anteriormente. Sin embar
go, muchos de los problemas y las soluciones se pueden explorar con un
201
En algunas ocasiones se puede ajustar un indicador basado en resul

tados controlando por los confundidores potenciales y las fuentes poten
ciales de ruido, de forma tal que el índice resultante capte con más preci
sión lo que se pretende captar: es decir, la calidad de la gobemanza en un
área política determinada. Así, si lo que queremos medir es la calidad de
la gobernanza en salud pública mediante la tasa de mortalidad infantil,
podríamos controlar por el impacto de los factores económicos e incluir
una medida del desarrollo económico (por ejemplo, el PIB per cápita) y
podemos controlar por el efecto de factores geográficos e incluir una se
rie de controles geográficos y climáticos que supuestamente influyen en
la salud de las poblaciones. Cuando el resultado de interés y los confun
didores potenciales son medióles, la operacionalización basada en un
modelo resulta informativa.50
Una aproximación más simple es la identificación de comparaciones
adecuadas con punto de referencia. Así, para medir el número de mujeres
cuyas muertes son una consecuencia de la discriminación de género (como
algo distinto a la pobreza y otros factores), Amartya Sen identifica el Áfri
ca Subsahariana (ASS) como un punto de referencia. Los países que están
al sur del Sáhara son la región más pobre del mundo, pero constituyen
también un área del mundo en desarrollo donde la razón entre mujeres y
hombres es relativamente favorable a las primeras, aproximadamente 1,05
en los años ochenta. Sen sostiene que las ratios por debajo de ese nivel en
países que tienen un nivel igual o superior de desarrollo económico deben
ser el resultado de políticas y prácticas discriminatorias. Según ese cómpu
to, Sen reconoce que se habrían «perdido» más de 100 millones de mujeres
en el mundo (un número que probablemente ha aumentado considerable
mente en las décadas posteriores).51 Una vez más, el enfoque es causal aun
que no haya un modelo causal explícito.
Se podría afirmar que, desde cierta perspectiva, todas las técnicas de
medición (salvo cuando el fenómeno de interés se puede observar directa
mente) son causales. Sabemos que algo latente existe en la medida en que
ese algo provoca otra cosa, o en la medida en que se puede presumir que
ese algo ha sido causado por otra cosa. Así, dado que la corrupción es una
abstracción (y por lo tanto inherentemente inobservable), todos los indica
dores del concepto podrían considerarse bien como causas o bien como
efectos. Ésta es la perspectiva de muchas técnicas estadísticas (por ejemplo,
de los modelos basados en la regresión o en ecuaciones estructurales) que
distinguen entre variables «independientes» y variables «dependientes».
Desde otras perspectivas, los modelos causales empleados para pro
pósitos de medición no satisfacen los desiderata del análisis causal. Los
basados en los resultados plantean intervenciones causales (L) que no se
pueden observar, y mucho menos manipular. Los basados en inputs plan
tean conexiones causales (de Ia.L) que no se pueden comprobar. Esto no
200
7 Mediciones
es muy satisfactorio si queremos establecer relaciones casuales por razo

nes que examinaremos detalladamente en la parte III. De hecho, la inca
pacidad de medir directamente L, el concepto de interés, significa que
cualquier relación causal potencial que implique L será siempre hipotéti
ca. La evidencia empírica es útil —al menos, para descartar teorías falsas
sobre L. Pero esa evidencia nunca es concluyente, salvo si podemos idear
formas de observar L más directamente.
Consideremos la cuestión de las emociones, un elemento importante
de cualquier teoría que no se base únicamente en motivaciones raciona
les. Las emociones como el odio, el amor y la aflicción presuntamente
motivan muchos comportamientos humanos, y pueden tener vastas ra
mificaciones para resultados de interés en la ciencia social.52 Podemos
medir los «resultados» de las emociones, como por ejemplo la violencia,
el llanto, la información que uno da sobre los propios estados emociona
les (I), y considerarlos como una evidencia de la vida interior de nues
tros sujetos (L). Desde luego, no sabemos en realidad si nuestra impre
sión es correcta, es decir, si un comportamiento emocional interno está
haciendo que los sujetos manifiesten determinadas pautas de comporta
miento o que den testimonio de que están enfadados, enamorados o tris
tes. Sin embargo, si somos capaces de medir los procesos químicos aso
ciados a las emociones (tal y como se revelan, por ejemplo, en los
propios testimonios), entonces se puede afirmar que nos acercamos a
una medición directa del fenómeno de interés. Así, cuando los psicólogos
miden las emociones emplean normalmente indicadores fisiológicos tales
como la presión sanguínea, la respuesta galvánica de la piel (RGP), el rit
mo cardíaco, la dilatación de la pupila y el parpadeo de los ojos (respues
ta de sobresalto), además de la propia información que dan los sujetos.53
Estas estrategias de medición se pueden considerar causales sólo si los
procesos químicos contribuyen realmente a generar la experiencia vivida
que conocemos como odio, amor o aflicción, o si son subproductos de
esa experiencia. Son correlativos en la medida en que son síntomas de
esas emociones. Sin embargo, para propósitos de medición la distinción
no es importante. No nos preocupa si I causa L, es una causa de L o es
simplemente una traza de L. Lo que cuenta es el alineamiento (es decir, la
correlación) entre el concepto y el indicador. Esto es lo que nos ocupa
cuando el propósito del análisis es validar un instrumento de medición.54
Corrupción: un ejemplo detallado
Las amenazas a la fiabilidad y la validez de la medición se pueden descri

bir en términos generales, como hemos hecho anteriormente. Sin embar
go, muchos de los problemas y las soluciones se pueden explorar con un
201
ejemplo, porque son muy contextúales. No hay una solución general

para los problemas de medición equiparable al diseño de investigación
experimental para cuestiones causales. Sólo hay soluciones particulares.
Así, cerramos este capítulo con el análisis de un tema de importancia
central para las ciencias sociales, un tema que plantea problemas recalci
trantes de medición: la corrupción política, entendida como el uso del
cargo público para obtener beneficios privados.55 ¿Cómo podemos saber
en qué momento ocurren actividades de corrupción y en qué medida es
tán generalizadas? ¿Cómo podemos comparar de forma sistemática esas
ocurrencias en el tiempo y en distintas entidades políticas de tal forma
que se pueda generalizar el instrumento de medición?
Los indicadores de corrupción basados en encuestas transnacionales
han cobrado prominencia en los últimos años, tanto entre los académi
cos como entre los públicos legos. De estos indicadores destacan el Indi
ce de Percepción de la Corrupción (IPC) desarrollado por Transparencia
Internacional (TI) y el índice de Control de la Corrupción desarrollado
por Daniel Kaufmann y sus colaboradores en el Banco Mundial (BM).56
Para cada índice se compilan varias preguntas que buscan estimar la sen
sación de un informante sobre cuán generalizadas están las prácticas de
corrupción en un país, especialmente las prácticas de corrupción como
los sobornos que afectan directamente a los inversores. En la actualidad
hay datos disponibles para muchos países del mundo, lo que permite
comparar países con niveles de corrupción muy altos (por ejemplo, Nige
ria) y niveles de corrupción muy bajos (por ejemplo, Noruega). La prin
cipal ventaja de una medida basada en encuesta, en preguntas generales
sobre la corrupción percibida, es que podemos pergeñar una medida ge
neralizada de este concepto circunstancial.
Sin embargo, se han hecho muchas críticas a estas medidas.57 Los ín
dices de TI y del BM agregan encuestas hechas por diferentes equipos, la
mayoría consultoras comerciales con una amplia variedad de objetivos.
Normalmente, el propósito se adapta a las necesidades de los inversores.
Podría decirse que los índices de TI y del BM se deben considerar más
bien como índices del pago de sobornos más que de la corrupción en ge
neral. La combinación de múltiples encuestas en un único índice propor
ciona múltiples medidas, que deberían aumentar la precisión y facilitar la
estimación de un intervalo de confianza. Sin embargo, crea también am
bigüedad interpretativa porque cada pregunta y cada encuesta es dife
rente. Además, no está claro en qué medida las respuestas en las múlti
ples encuestas son realmente independientes entre sí, ya que tal vez
reflejen simplemente supuestos comunes sobre cuán corrupto o limpio es
un país. Las preguntas normalmente prueban las percepciones de la co
rrupción, o de los sobornos, y por tanto pueden reflejar incorrectamente
la realidad de fondo.58 Los respondedores pueden no ser francos en sus
<
202
*
7 Mediciones
respuestas; y lo que es peor, el grado de franqueza puede variar en países

y regiones, lo que impide hacer comparaciones sistemáticas. Como las
muestras varían de año en año y son normalizadas a cero cada año, las
comparaciones en el tiempo no son posibles; es difícil decir, por ejemplo,
si la gobernanza de un país está mejorando o empeorando. Los respon
dedores suelen concentrarse en residentes urbanos y empresarios, que
con frecuencia no son nativos del país, lo que cuestiona la representativi-
dad. En algunas preguntas se pide al respondedor que compare un país
con una lista de otros países, en otras se pide una comparación global.
Otras inducen la conclusión de que allí donde hay problemas económi
cos graves, la corrupción abunda.
A pesar de estas deficiencias, estos índices siguen empleándose en una
amplia variedad de entornos, lo que sugiere que están realizando una
función importante. Algunas deficiencias son inherentes al instrumento
de medición (las encuestas de masas); otras se pueden rectificar fácilmen
te. Ciertamente, es posible construir muestras más representativas, estan
darizar las preguntas y los formatos de las encuestas, distinguir cuidado
samente entre los diferentes tipos de respondedores (por ejemplo, entre
nativos y extranjeros, entre élite y masa, empresarios y no empresarios,
urbanos y rurales), distinguir entre los diferentes tipos de corrupción
(por ejemplo, sobornos, fraudes, compra de votos, etc.), emplear técnicas
de encuesta que den cierta garantía de anonimato al respondedor (como
se ha visto antes) y centrarse en experiencias reales de corrupción más
que simplemente en percepciones generales.
El principal obstáculo para este tipo de mejoras no es metodológico,
sino más bien organizativo. Debemos tener en mente que las consultoras
que encargan la mayoría de las encuestas que se incluyen en los índices
de TI y del BM tienen objetivos específicos y determinados centrados en
su clientela. Además, estos equipos no están en posición de unir sus re-
* cursos para diseñar encuestas regulares y estandarizadas de corrupción
en todo el mundo. Las fuerzas del mercado no suelen crear este tipo de
bienes públicos. Así, los ciudadanos, los diseñadores de las políticas y los
académicos que claman por un instrumento de encuesta más preciso y
sistemático no lo tendrán si siguen parasitando al sector privado. Esto
requiere una organización internacional y una financiación adecuada,
semejante a la Encuesta Mundial de Valores (aunque mejor realizada y
con una periodicidad anual o semestral). La buena medición de temas
difíciles suele implicar un gasto considerable.
En los últimos años se percibe un alejamiento de las «macro» encues
tas como las que incluyen los índices de TI y el BM que intentan medir
la calidad general de la gobernanza de un país. En cambio, los investiga
dores están desarrollando «micro» encuestas, que se centran en: (a) un
conjunto pequeño y minuciosamente identificado de respondedores que
203
están en situación de saber sobre una forma particular de corrupción;

(b) una industria, sector o región determinada; y (c) unas preguntas muy
especificas, la mayoría sobre eventos o hechos objetivos que el responde
dor puede evaluar con su experiencia personal.59 Por ejemplo, la Encues
ta Mundial del Entorno Empresarial, financiada conjuntamente por va
rias instituciones financieras internacionales, pregunta a los
respondedores sobre las experiencias de «compañías como las suyas»
con los sobornos a funcionarios del gobierno.60
En algunas ocasiones, es posible medir el grado de corrupción de una
manera más o menos directa y «objetiva» (por ejemplo, sin usar las inter
pretaciones subjetivas de los respondedores). En un estudio sobre la co
rrupción en Indonesia, Ben Olken logra medir los inputs y los outputs de
un proyecto de carreteras que se llevó a cabo bajo contratación pública.
Olken explica:
Una vez terminadas las carreteras del proyecto, reuní a un equipo de ingenieros e
investigadores que recogieron muestras representativas de las carreteras para esti
mar la cantidad de material que se había utilizado, entrevistar a proveedores loca
les para estimar los precios de esos materiales y entrevistar a los aldeanos para de
terminar los salarios que se pagaron bajo el proyecto. Con sus datos hice una
estimación independiente de la cantidad real que había costado construir cada ca
rretera para comparar luego esa estimación con lo que informó el municipio que
gastó en cada partida del proyecto. La diferencia entre lo que dijo el municipio
que costó construir la carretera y lo que estimaron los ingenieros que costó real
mente fue mi medida objetiva de la corrupción, a la que llamé «gastos perdidos».61
Esta estrategia de medición sigue los pasos de los procedimientos norma

les de auditoría de los gobiernos (con algunos elementos accesorios adi
cionales).62 Por ejemplo, las auditorías de seguimiento del gasto público
siguen el rastro burocrático de los proyectos públicos con el fin de deter
minar si el registro que proporcionan las agencias y subcontratistas equi
vale al dinero gastado.63 Cuandoquiera que el gasto público culmina en
un servicio o producto determinado, este elemento puede ser directamen
te observado (¿se ha recogido la basura regularmente?). El absentismo
entre los trabajadores es también fácil de observar. Si las clases de un co
legio están vacías en el horario oficial de clases, o los médicos no están
presentes en sus consultas médicas, esto es un signo de que algo va mal.64
Naturalmente, es difícil distinguir entre la corrupción intencionada y
la ineficiencia involuntaria. (Para algunos propósitos esta distinción pue
de ser importante, mientras para otros puede no serlo.) Además, los pro
cedimientos de supervisión exhaustiva son a veces bastante caros —un
coste indirecto que puede equivaler al coste de la corrupción que se pre
tende impedir. Finalmente, debemos contar con la posibilidad de que las
estrategias de medición muy específicas puedan generar estrategias de
204
7 Mediciones
corrupción más sofisticadas (muchos instrumentos de medición pueden

ser burlados) que invaliden el instrumento de medición. Por ejemplo, en
respuesta a la medición de resultados de Olken, los líderes comunitarios
podrían haber inflado las cantidades de lo que se gastó en la construc
ción de carreteras. Los instrumentos de medición con objetivos muy defi
nidos son difíciles de generalizar por la simple razón de que los actores
tienen fuertes incentivos para esquivar el régimen de control. Por el con
trario, las preguntas de encuesta generales sobre el grado de corrupción
en un sector son un instrumento más robusto para las cambiantes prácti
cas de corrupción y, en este sentido, se prestan más a comparaciones en
tre diferentes contextos y momentos (aunque tienen problemas de ambi
güedad, como se ha mencionado antes).
El fraude también se puede inferir (pero no observar directamente) a
partir de pautas de actividad inusuales. Malcolm Sparrow desarrolló una
técnica de este tipo para estimar el fraude en el programa médico guber
namental Medicaid de Estados Unidos. Sparrow se centra en las redes
entre proveedores. Las redes típicas suelen ser muy extensas, y en virtud
de ese hecho son menos propensas a la corrupción porque hay más pro
veedores que tienen que compincharse. Las redes más pequeñas, en cam
bio, son más propensas a corromperse. Analizando la estructura de las
redes médicas y controlando por algunos confundidores potenciales,
Sparrow proporciona una estimación del fraude total en el sistema de
Medicaid, así como un indicio de su localización exacta.65
Otro enfoque inferencial sobre la corrupción se centra en las relacio
nes entre las compañías conectadas políticamente y los precios de las ac
ciones. Se sospecha ampliamente que las compañías en países corruptos
reciben un trato preferencial en virtud de sus conexiones políticas. Pero,
como ocurre con muchas prácticas corruptas, el capitalismo de compa
dreo resulta difícil de investigar y, menos aún, de medir con precisión.
Raymond Fisman aplica un diseño cuasi experimental a este problema
persistente de medición. En concreto, este autor compara los cambios en
los precios de las acciones de las compañías que están políticamente co
nectadas con las que no lo están mientras circulan rumores acerca de la
mala salud de un líder. El supuesto es que el valor de una conexión polí
tica peligra cuando el jugador político corre algún riesgo, y esta inseguri
dad influye en el comportamiento del mercado de valores. Fisman aplica
esta técnica de medición a Indonesia (las conexiones con Suharto)66 y a
los Estados Unidos (conexiones con el vicepresidente Dick Cheney)67 y
descubre que las conexiones eran muy importantes para los precios de la
acción de determinadas compañías con conexiones políticas en el primer
caso, pero no en el segundo.68
Por supuesto, este tipo de instrumento de medición tiene sus limita
ciones. Primero, se basa en percepciones subjetivas de los inversores: si
205
las conexiones se consideran importantes, una compañía «conectada»

responderá a los cambios de salud o de estatus político de su patrón, con
independencia de si la compañía recibe o no un trato preferente por par
te del gobierno. Segundo, supone que las conexiones con un individuo
determinado, más que con un grupo o institución, son las que afectan al
destino de una compañía. Y por último, a partir de esta técnica, es difícil
construir un instrumento de medida para la comparación en el tiempo y
entre naciones, porque los rumores sobre la salud son diferentes (unos
son más serios que otros, unos son más dramáticos e inesperados que
otros), y porque las compañías ligadas a un político influyente son dife
rentes (lo que introduce un conjunto de confundidores potenciales).
Raymon Fisman y Ted Miguel explotan otro entorno cuasi experi
mental para medir la propensión nacional a implicarse en un comporta
miento corrupto. La ocasión viene dada por el escasísimo espacio para
aparcar en la ciudad de Nueva York, la ubicación de la sede de la Orga
nización de Naciones Unidas en esta abarrotada ciudad y la inmunidad
diplomática que permitía al personal de las misiones y sus familias evitar
el pago de multas de aparcamiento (antes de 2002). Nótese que estas cir
cunstancias sitúan a los diplomáticos de todo el mundo en una situación
en la que tienen idénticos incentivos para violar la ley, es decir, para
aparcar ilegalmente. De esto se sigue que la variación en las multas de
aparcamiento puede proporcionar un indicador de las normas contra las
prácticas de corrupción en todo el mundo. La verificación independiente
de la validez de esta medida la proporcionan los índices transnacionales
basados en encuestas como los construidos por TI y el BM, que están
muy correlacionados con el instrumento de medición de Fisman y Mi
guel. Desde luego, podemos poner en tela de juicio la posibilidad de ge
neralizar estos hallazgos: ¿se comportan igual los diplomáticos en Nueva
York y en sus propios países? ¿Son representativos los diplomáticos de la
clase política? Aun así, el instrumento de medida es muy sugerente, por
que mantiene constantes muchos confundidores y fuentes de ruido que
normalmente oscurecen nuestras estimaciones de este concepto latente.69
El tema de la corrupción ha sido estudiado en un marco experimental.
Cameron, Chaudhuri, Erkal y Gangadharan han realizado recientemen
te una serie de experimentos de laboratorio paralelos en Australia, India,
Indonesia y Singapur con el fin de determinar si las prácticas de corrup
ción o de anticorrupción son similares o diferentes en diversas culturas.
El escenario se basa en experimentos con bienes públicos, salvo que aquí
las diversas acciones se expresan explícitamente con términos fuertes
como «sobornos». A los participantes (estudiantes universitarios) se les
asignó uno de estos tres papeles: miembro de una compañía, funcionario
público o ciudadano. A la compañía se le da la oportunidad de ofrecer
un soborno al funcionario público, que puede aceptarlo o rechazarlo.
206
7 Mediciones
Ambos se beneficiarán con el ofrecimiento y la aceptación del soborno.

Al ciudadano se le da entonces la oportunidad de sancionar a la compa
ñía y a la administración pública, pero este proceder implica un sacrificio
(para el ciudadano) equivalente al coste del soborno (los incentivos mo
netarios se ajustan a la paridad de poder adquisitivo en los cuatro paí
ses). Los investigadores descubrieron que hay mayor variación transna
cional en la disposición a castigar que en la disposición a participar en el
soborno.70
Si bien el propósito principal de la investigación es valorar el efecto de
la cultura en las prácticas de corrupción, dejaremos a un lado la pregun
ta de la atribución causal y nos centraremos en la viabilidad del instru
mento de medición. ¿Es ésta una buena manera de medir las prácticas de
corrupción en diversos entornos? Como la cuestión verbal es importante
en el tratamiento, debemos preocuparnos por la traducción de las pala
bras clave (por ejemplo, soborno). Si los sujetos del experimento respon
den a indicaciones verbales más que a situaciones comunes, los resulta
dos pueden no ser generalizables. Debemos preocuparnos también por
la generalización a partir del comportamiento de los estudiantes, una
preocupación significativa en las sociedades pobres donde muy pocos
habitantes obtienen educación universitaria. Incluso si estos problemas
se alivian, no está claro que el comportamiento registrado en estos ex
perimentos se pueda traducir siempre a las diferencias de comportamien
to en el mundo real —o se pueda traducir en un mapa del comporta
miento en el mundo real en estos cuatro entornos. Dicho esto, hay
mucho que aprender estudiando la corrupción en entornos cuidadosa
mente controlados.
Por último, hay un enfoque sobre la medición de la corrupción que es
por naturaleza etnográfico y se basa en la observación de cerca y en las
relaciones íntimas en un entorno específico. Un ejemplo clásico es el es
tudio de Robert Wade sobre los sistemas de irrigación en doce pueblos
del sur de la India a finales de la década de 1970.71 Wade señala:
Sólo gradualmente, después de conversar con docenas de ingenieros, con funcio

narios públicos de otros departamentos y con agricultores, se hizo evidente que
existía un «sistema» que probablemente influía bastante en cómo funcionaban y
se mantenían los canales. En particular, una vez logrado cierto grado de con
fianza, los agricultores ofrecían voluntariamente información sobre cuánto te
nían que pagar al Departamento de Riego; y aunque tuvimos que reducir sus
cantidades en uno, dos o tres casos, la regularidad en las declaraciones en mu
chos pueblos sugirió que había algo más que pura exageración o generaliza
ción... Esto condujo a sondear cautamente, aunque siempre de forma informal,
a funcionarios de otros departamentos y al personal de riego en conversaciones
generales sobre el tipo de dificultades que afrontaban para hacer bien su trabajo.
Hay que añadir que se mantuvieron conversaciones con personal de riego de
207
fuera del área específica del trabajo de campo, así como con personas que ser
vían dentro de ella, y que en estas conversaciones se habló del modo en que «el
departamento» y «el gobierno» trabajaban tanto en el Estado en su conjunto
como en el distrito específico. Algunos ingenieros estaban profundamente des
contentos con la situación en la que se encontraban, y como la gente desconten
ta tiende a exagerar las razones de su descontento, tenemos que ser cautos a la
hora de aceptar los detalles de las personas sin profundizar. Una vez más, como
en el caso de los agricultores, son las regularidades en los comentarios e inciden
tes de los individuos, y la coherencia en el orden de magnitud (como, por ejem
plo. entre lo que me dijo un colector de distrito acerca de lo que le había comen
tado un ingeniero superintendente sobre lo que él había tenido que pagar por
una prórroga de un año, y lo que un ayudante de ingeniero en una división —en
otro distrito diferente al anterior— dijo en confianza a su ingeniero ejecutivo
que había tenido que pagar para obtener esa misma prórroga), lo que nos hace
confiar en la veracidad de la situación general.
La narrativa detallada de la investigación de Wade proporciona una cla

ra descripción de este enfoque para medir la corrupción, sus promesas y
escollos. Obviamente, las investigaciones etnográficas son posibles sólo
cuando se asegura el anonimato a los informantes, lo que (en ocasiones)
es posible con el trabajo de naturaleza académica. Si el organismo inves
tigador es el gobierno, las bocas suelen estar selladas. Y si las informa
ciones tienen repercusiones, probablemente no se podrá acceder más al
sitio investigado. Y, lo que es más importante, este meterse de hoz y coz
no facilita las comparaciones sistemáticas en el tiempo y el espacio, o en
tre sectores. Aunque las mediciones pueden ser bastante precisas -—Wade
ofrece estimaciones de cuán grande puede ser el soborno típico en varios
entornos específicos relacionados con la irrigación en los pueblos investi
gados— no podemos derivar un instrumento de medición generalizadle.
Aun así, podemos aprender mucho de las sucesivas conversaciones
cuando nos hemos ganado la confianza de los informantes y con cierto
conocimiento del tema que estamos investigando. Además, el significado
de las acciones que se están estudiando tiende a ser más interpretable
cuando se obtiene mediante un estilo de investigación etnográfica que
cuando se consigue con los otros enfoques que hemos analizado.
Test de validez ex post

Una vez analizadas las diferentes estrategias de medición, concluimos
este capitulo con un breve examen de los test ex post que nos ayudan a
arrojar luz sobre la validez de un indicador elegido.
La validez aparente no es realmente un test propiamente dicho. Se re
fiere a un recurso obvio o intuitivo —un indicador que parece estar rela-
208
7 Mediciones
cionado con un concepto de forma que obvia una comprobación empíri

ca sistemática. Podríamos decir que las elecciones son un indicador
(aunque no necesariamente el indicador) de la democracia con un grado
alto de validez aparente.
Las estrategias convergentes intentan validar un indicador, I, compa
rándolo con otras medidas que se consideran válidas del mismo concep
to, /2. Una correlación alta demuestra validez convergente. Los estudios
sobre la validez convergente muestran que los indicadores principales
como el de Freedom House y Polity tienen una correlación alta, con una
correlación de Pearson r de 0,88 en todos los países en las últimas déca
das, y esto se ha interpretado como evidencia de que todos estos indica
dores son válidos.72 Desde luego, el supuesto subyacente es que los indi
cadores adicionales de un concepto son de por sí válidos. Si las medidas
de un test de validez convergente están sometidas a sesgo, la técnica es
poco prometedora.
Las estrategias discriminantes intentan distinguir las entidades perte
necientes al concepto de interés, medidas por /, de las que presumible
mente pertenecen a conceptos próximos, C. Una correlación baja entre I
y C muestra una validez divergente. Esta estrategia es menos común, al
menos respecto de la democracia (quizás debido a lo difíciles que son de
identificar los límites de este concepto ambiental).
Las estrategias causales intentan validar una medida centrándose en su
relación (presuntamente causal) con un input o un output con el que está
supuestamente muy relacionada. Se puede considerar que una relación
fuerte (en la dirección predicha) nos confirma una medida. Los autores
han intentado estimar la validez de los indicadores transnacionales de de
mocracia examinando si responden a factores que supuestamente no están
relacionados con la democracia, como los cambios en la política exterior
de Estados Unidos (que funciona aquí como un confundidor). Si la políti
ca exterior de Estados Unidos parece predecir cambios en la codificación
del índice de Derechos Políticos de Freedom House, podemos presumir
que el índice está midiendo otra cosa diferente de lo que pretende medir.
Las estrategias basadas en casos examinan casos clave para compro
bar si la codificación de estos casos se corresponde con la pauta espera
da.73 Por ejemplo, algunos estudiosos de Centroamérica han mostrado
que las puntuaciones de estos casos suelen ser patentemente erróneas, y
no se pueden tener en cuenta debido al error aleatorio. Este tipo de in
vestigaciones se basa en una explotación de fuentes primarias y secunda
rias para los países en cuestión, incluyendo periódicos, documentos gu
bernamentales y correspondencia diplomática estadounidense, así como
en entrevistas a informantes locales —un análisis mucho más extenso de
lo que es normal en la mayoría de las operaciones de codificación trans
nacionales.74
209
1
Indudablemente, la construcción ex ante de una medida y los test ex

post de esa variable no están completamente separados. Muchos méto
dos de validación se pueden emplear también como medidas de cons
trucción de la variable. De hecho, los test de validación del concepto de
democracia suelen realizarse como preludio para la construcción de un
índice nuevo. Y con esto cerramos el círculo.
210
Parte III
Causación
8 Argumentos causales
«Ciertamente, si hay una relación entre objetos que nos importa conocer perfec
tamente, es la de la causa y el efecto. Sobre ella se fundan todos nuestros razo
namientos sobre cuestiones de hecho o existencia. Sólo por medio de ella obte
nemos alguna seguridad sobre objetos alejados del testimonio presente de
nuestra memoria y nuestros sentidos. La única utilidad inmediata de todas las
ciencias es enseñarnos cómo controlar y regular los eventos futuros por sus cau
sas. Por lo tanto, nuestros pensamientos e investigaciones se centran, en todo
momento, en esta relación: sin embargo, tan imperfectas son las ideas que for
mamos sobre ella, que resulta imposible dar alguna definición exacta de causa.»
David Hume1
En la parte II abogué por resucitar la inferencia descriptiva en las cien

cias sociales como un tema de metodología y como un asunto de investi
gación sustantiva. Sin embargo, no presupongo que la descripción llegue
a desbancar a la causación como objetivo predominante de las ciencias
sociales. Lo que nos interesa saber no es sólo lo que ha sucedido, sino
también, crucialmente, por qué ha sucedido.
La causación es el mecanismo central explicativo por el que se estable
cen las relaciones entre las personas y las cosas, el cemento del universo,
expresado en las muy citadas palabras de Hume.2 Sin comprender de al
gún modo quién hace qué a quién no podemos dar sentido al mundo en
213
el que vivimos, no podemos considerar a las personas y las instituciones

responsables de sus acciones y no podemos actuar eficazmente en el
mundo. Sin comprender el mundo en términos causales es poco probable
que podamos navegar incluso por los detalles más mundanos de nuestra
vida, y menos aún por las cuestiones políticas de más alcance. Esto es
obvio en el mundo de la política, donde la comprensión causal es la base
fundamental de toda intervención racional. Y es obvio en otras áreas de
la política como, por ejemplo, en los movimientos sociales, los grupos de
presión, el voto y el cambio revolucionario. Cualquiera que se implique
en estas actividades debe ser consciente de sí mismo como un actor cau
sal en el mundo y, por ende, debe hacer suposiciones (implícitas o explíci
tas) sobre el resultado que nuestras acciones pueden tener: si apoyamos
el statu quo o si queremos socavarlo. A Lenin, igual que a Metternich, le
preocupaban vitalmente las causas de la revolución. Aun en el caso de
que la comprensión causal no conduzca al cambio social (porque no
todo análisis causal es directamente relevante para la política pública y,
más concretamente, no todas las propuestas políticas se llevan a cabo),
suele tranquilizarnos el poder ordenar los eventos que nos rodean en re
laciones causa-y-efecto. «Cuando lo comprendemos así», señala Judea
Pearl, «percibimos que tenemos el control aun si no tenemos una manera
práctica de controlar las cosas».3
Un propósito importante de la inferencia causal es ofrecer ideas sobre
lo que puede pasar en el futuro. Si bien existe una tendencia desafortuna
da a separar el conocimiento causal del predictivo, la distinción raramen
te es concreta e inmediata. Consideremos que hay pocos argumentos
causales que se limitan por completo al pasado. Afirmar que X causa Y
implica (usualmente) que seguirá siendo así en un futuro, quizás no inde
finidamente, pero sí mañana o el año que viene. Así, aunque la predic
ción no es en modo alguno idéntica a la causación, el pronóstico (un tipo
de predicción) está implícito en la mayoría de los argumentos causales,
que tienden a centrarse en fenómenos contemporáneos o fenómenos del
pasado con relevancia contemporánea. Adviértase que toda intervención
política —toda variación en los tipos de un banco central, todos los pro
gramas sociales y todas las reformas fiscales— implican una predicción
sobre los efectos causales de esa intervención. Muchos de estos pronósti
cos resultan sustancialmente correctos. Todos se basan fundamentalmen
te en modelos causales, formales o informales. En todo caso, los que se
lamentan de la incapacidad de los modelos de las ciencias sociales para
ofrecer pronósticos fiables de futuro normalmente no están abogando
por abandonar esos modelos sociales. Por lo que yo veo, no hay alterna
tiva viable.
Los problemas de la causalidad se pueden dividir en cuatro áreas. Este
capítulo define la causalidad y expone los criterios de todo argumento
214
causal. En el capítulo 9 se analizan los criterios generales de la inferen

cia causal (es decir, el análisis). En los capítulos 10 y 11 se exploran va
rios enfoques sobre el análisis causal. El capítulo 12 es como una coda de
la parte III del libro e incorpora varios enfoques sobre la causalidad que
parecen caer fuera del marco de este libro.
Definiciones
Las teorías causales contienen al menos dos elementos: un factor causal
y un resultado. En algunas ocasiones, se combinan varios factores y/o re
sultados en una teoría abstracta. Sin embargo, esa teoría debe ser tradu
cible a hipótesis específicas con factores causales individuales y un resul
tado. Formalizar estos elementos implica transformar una teoría en un
modelo causal.
Para complicar más las cosas, estos términos tienen varios sinónimos.
Una causa puede nombrarse como un factor causal, una condición, una
covariable, una variable exógena, una variable explicativa, un explanans,
una variable independiente, un input, una intervención, un antecedente,
un predictor, una variable del lado derecho, un tratamiento o simplemen
te una «Á>>. Podemos referimos a un resultado como una variable depen
diente, un consecuente, un efecto, una variable endógena, un explanan-
dum, una variable del lado izquierdo, un output, una respuesta o
simplemente una « F». (Por supuesto, se pueden hacer distinciones sutiles
entre estos términos. Sin embargo, para nuestros propósitos, las semejan
zas son más importantes que las diferencias.)
Cualquiera que sea la terminología empleada, decir que un factor, X,
es una causa de un resultado, Y, es decir que un cambio en X genera un
cambio en Y en comparación con lo que sería Y sin la intervención de X
(un condicional contrafáctico), dadas determinadas condiciones de fon
do (supuestos ceteris paribus) y condiciones de alcance (la población de
inferencia). Ésta es la definición mínima de causalidad.
Dada la importancia de la variación en X y en Y, puede ser útil conce
bir X como &X («delta X») e Y como AF («delta F»). Si la relación entre
X e F es causal, un cambio en X genera algún cambio en Y: AX->A F (al
menos probabilísticamente).
Cuando un resultado es continuo, hX afecta al valor de F en una es
cala determinada, que puede ser limitada o ilimitada. Cuando un resul
tado es binario (F = 0, F = 1) o multicotómico (por ejemplo, F = 1,2,
3,4 o 5), AX afecta a la probabilidad (P) de F de tener alguno de esos
resultados.
Cualquiera que sea la naturaleza de X e F, siempre está implicado un
contrafáctico'. si X varía, F también variará de alguna manera (al menos
215
probabilísticamente). Una teoría causal debe explicar por qué ha ocurri

do (u ocurre) una cosa y no ha ocurrido (ocurre) otra cosa diferente.
Otra manera de expresar esta cuestión es afirmar que una causa au
menta la probabilidad previa de que ocurra un resultado. Supongamos
dos factores, X e Y, que adoptan uno de dos valores posibles, 0 y 1. De
notaremos X = 1 como Xy X- 0 como x, Y = 1 como Y e Y = 0 como y.
En la notación de la teoría de la probabilidad, X causa Y si, y sólo si,
P( K | A7) > P( f | .y),4 supuesto un conjunto de condiciones de fondo.5
Aunque esta definición de un efecto causal puede parecer perjudicial
para las causas probabilísticas, se puede observar que las causas según la
teoría de conjuntos también encajan en la rúbrica. Si X es una condición
necesaria para Y, entonces P( Y | .v) = 0 mientras que P( Y | X) > 0. Es de
cir. el cambio de ,v a X aumenta la probabilidad de Y desde 0 a alguna
probabilidad indefinida mayor que 0, siempre que X sea una condición
necesaria no trivial. Si Xes una condición suficiente de Y, entonces P(Y|
.v) <1 mientras que P(Y| X) = 1. Es decir, el cambio de x a Xaumenta la
probabilidad de Y desde algo menos de 1 a 1, siempre que X sea una
condición suficiente no trivial. Posponemos el análisis de las causas se
gún la teoría de conjuntos al capítulo 12.
Es importante señalar que cuando afirmamos que X causa Y estamos
aseverando que X aumenta la probabilidad real (ontológica) de un even
to, y no nos referimos sólo a la capacidad predictiva de una teoría. Esto
es lo que distingue un argumento casual de una descripción o predicción.
Para ser causal, el factor en cuestión debe generar, crear o producir un
efecto. Por supuesto, no siempre es posible especificar con precisión por
qué X genera Y. Pero al identificar X como una causa de Y estamos pre
sumiendo la existencia de algún mecanismo causal —entendido aquí
como la trayectoria, el proceso o la cadena de variables intermedias por
ios que Xafecta a Y, a la que llamaremos M en la figura 8.1.
Las relaciones causales ocurren en un contexto de otros factores. Es
tos factores son las condiciones que hacen posible toda relación causal.
Advierta que incluso en un experimento realizado en un vacío perfecto
se presume un contexto que proporciona las condiciones para el experi
mento —en este caso, el vacío. Los factores de fondo incluyen todos los
A -> X M +-Y
X = factor causal Y = resultado

M = mecanismo A = antecedente
Figura 8.1 Un gráfico causal simple
216
factores diferentes de X (el factor de interés teórico) que pueden influir

en el resultado, directa o indirectamente.
Hay un tipo de factor de fondo, llamado A en la figura 8.1, que es un
antecedente del factor causal de interés. Afecta a Y indirectamente a tra
vés de X.
Si no se especifica otra cosa, las condiciones de fondo se presumen
constantes: no varían. Esto se conoce como el supuesto ceteris paribus (a
igualdad de condiciones) y está implícito en todos los argumentos causa
les. Por ejemplo, cuando construimos un argumento sobre el impacto
causal del desarrollo económico en la democratización, debemos supo
ner que hay otros factores que afectan a la democratización, como por
ejemplo los recursos naturales, la religión, la cultura política y las in
fluencias internacionales, y que son constantes. Esto no es simplemente
un problema de comprobación empírica: es inherente en el acto mismo
de hacer un argumento causal. Sin la condición ceteris paribus (implícita
o explícita), los argumentos causales son imposibles. Por supuesto, pode
mos cambiar las condiciones ceteris paribus de un argumento causal es
pecificando cómo interactúan los factores de fondo con X o alterando
las condiciones de alcance del argumento. Volveremos a este asunto en
los siguientes capítulos.
Los factores causales suelen clasificarse en función de su distancia re
lativa con el resultado de interés. Los factores cercanos a Y se llamarán
próximos. Los factores alejados de Y se llamarán distantes (es decir, re
motos, estructurales'). En la figura 8.1, M es el más próximo y A es el más
distante. Desde luego, la regresión causal es potencialmente infinita. Po
demos imaginar causas de A, causas de las causas de A y así sucesiva
mente. De igual modo, podemos insertar mecanismos causales en medio
de M e Y que se considerarán más próximos a Y. La noción de una cau
sa distante o próxima siempre depende de otros factores causales supues
tos. En general, las causas distantes son aquellas en las que varios facto
res intermedios separan a X (la variable de interés teórico) de Y y donde
X e Y están separadas por un periodo de tiempo.
Asimismo, suele ser importante distinguir entre los factores que son
independientes o exógenos (causales por naturaleza) y los factores que
son dependientes o endógenos (resultados). En la figura 8.1, A es exógeno
a X, M e Y; X es exógeno a M e 7; M es exógeno a Y. De igual modo, Y
es endógeno a A, X y M es endógeno a A y X; X es endógeno a A. La
endogeneidad/exogeneidad es también una cuestión relativa.
Todos los factores de la figura 8.1 se pueden tratar como variables. Con
esto me refiero a que, supuestamente, varían, aunque sea sólo hipotética
mente (como en un experimento mental contrafáctico).6 En el escenario
más simple, X asume dos valores posibles (XIx) e Y asume dos valores po
sibles ( Y/y). La variación de Xe Y puede ser también multicategórica (por
217
ejemplo, católico/protestante/judio/musulmán), ordinal (por ejemplo, una

escala de Likert) o numérica (una escala de intervalo o ratio). En suma, X
e K junto a las otras variables incluidas en la figura 8.1, pueden expresar
se en cualquiera de las escalas que vimos en el capítulo 7. Pueden represen
tar eventos (dinámico, de cambio y discreto) o procesos (dinámicos y len
tos). Pueden también adoptar la forma de condiciones estáticas, aunque,
en principio, existe la posibilidad de que cambien. Así, decir que un factor
geográfico como la altitud o la distancia al ecuador ejerce una fuerza cau
sal en algún resultado es reconocer implícitamente la posibilidad de que
pudo haber sido diferente en el pasado o podrá cambiar en el futuro.
Cierto es que algunos factores son difíciles de medir y de conceptuali-
zar contrafácticamente y, por lo tanto, no se ajustan a nuestra concep
ción tradicional de «variable». Pero tiene que ser posible conceptualizar
un proceso como algo que varía; si esto no es posible, no funcionará de
forma causal. Si algo no puede ser diferente de lo que es, entonces no
puede servir de causa. Al tratar los factores de la figura 8.1 como varia
bles, estamos diciendo que varían, al menos potencialmente. Esto no im
plica que sean fáciles de conceptualizar y medir, o que puedan ser mani
pulados directamente.
Añadiendo complejidad a la figura 8.1, cada uno de los factores se
concibe como una variable concreta o como un vector (conjunto) de va
riables. En efecto, nos interesan las combinaciones de factores causales,
las combinaciones de trayectorias causales, las combinaciones de antece
dentes causales. En algunas ocasiones, nos pueden interesar resultados
múltiples.7 La mayoría de nuestros ejemplos implicarán factores concre
tos, pero estos ejemplos normalmente se podrán generalizar tratando la
variable como un vector.
Por último hay que aclarar que al emplear la terminología de las «va
riables» no suponemos que todos los modelos causales sean estadísticos
por naturaleza. Nada de los párrafos anteriores requiere una muestra
grande o un modelo probabilístico. Creo que el lenguaje de las variables
es un recurso conveniente para simplificar y unificar nuestra compren
sión de la causación. No se pretende imponer un método uniforme de
análisis causal (un tema que se abordará en los próximos capítulos).
Tampoco se pretende eliminar el uso de otros cuasi sinónimos (por ejem
plo, causas, condiciones, factores, influencias) que se emplearán esporá
dicamente en los próximos capítulos.
Criterios causales
Una vez definida la causación mínimamente, pasamos al tipo ideal. ¿Qué
es un buen argumento causal? En el capítulo 3 vimos que todos los argu-
218
Tabla 8.1 Argumentos causales: criterios

ARGUMENTOS
( Capítulo 3)
1. Verdad (precisión, validez, veracidad)
¿Es verdadero?
2. Precisión (especificidad)
¿Es preciso?
3. Generalidad (extensión, dominio, población, rango, amplitud)
¿Cuán amplio es su rango? ¿Cuántos fenómenos describe/explica una
teoría?
4. Delimitación (condiciones de alcance)
¿Cuán acotado está?
5. Parsimonia (concisión, economía, la navaja de Ockham, reducción,
simplicidad)
¿Cuán parsimonioso es? ¿Cuántos supuestos se requieren?
6. Coherencia (claridad, consistencia; antónimo: ambigüedad)
¿Cuán coherente es?
7. Conmensurabilidad (consiliencia, armonía, economía lógica, utilidad
teórica; que no sea ad hoc)
¿Cómo se combina con otras inferencias? ¿Promueve la economía lógica
en un campo?
8. Relevancia (importancia cotidiana, significación)
¿Cuán relevante es para cuestiones que preocupan a los ciudadanos y los
diseñadores de políticas?
ARGUMENTOS CAUSALES
{Este capitulo)
9. Claridad {antónimo: ambigüedad)
¿Cuál es la variación esperada en Ye Y, las condiciones de fondo y las
condiciones de alcance del argumento? ¿Se pueden operacionalizar X e Yl
10. Manipulabilidad
¿Es el factor causal manipuladle (o, al menos, potencialmente
manipuladle)?
11. Separación (diferenciación; antónimo: tautología)
¿En qué medida es separable X respecto de Yl
12. Independencia (fundacional, original, principal, previa, estructural, motor
inmóvil)
¿Es X independiente de otras causas de Y!
13. Impacto (tamaño del efecto, magnitud, poder, significación, fuerza)
¿Cuánta variación en Y puede explicar XI ¿Es significativo el efecto causal
(en términos teóricos o políticos?
14. Mecanismo (intermediario, mediador, trayectoria, proceso)
¿Cómo X genera Y? ¿Cuáles son los mecanismos causales (A/)?
219
mentos se esfuerzan por la verdad, la precisión, la generalidad, los límites,

la parsimonia, la coherencia, la conmensurabilidad y la relevancia. Añadiré
aquí que las explanaciones causales en las ciencias sociales se esfuerzan
también por la claridad, la manipulabilidad, la diferenciación, la génesis, el
impacto y el mecanismo. Por comodidad, la tabla 8.1 resume los catorce
criterios aplicables a las teorías causales. Sin embargo, los que nos inte
resan en este capítulo son los factores que distinguen las proposiciones
causales de las descriptivas (del 9 al 14).8
Claridad
Hemos definido la causalidad como una situación en la que un cambio

en X (el factor causal de interés teórico) genera un cambio en Y (el resul
tado de interés) en comparación con lo que Y hubiera sido sin la inter
vención de X, dadas determinadas condiciones de fondo y determinadas
condiciones de alcance. De esto se sigue que un buen argumento causal
debe proporcionar claridad en cada una de estas dimensiones. La clarifi
cación (también conocida como especificación, operacionalización) de
las teorías causales las hace más útiles, así como más fáciles de compro
bar. De hecho, una teoría que es muy ambigua es imposible de verificar o
falsar; no es ni verdadera ni falsa.
Debemos lidiar desde el principio con las ambigüedades terminológi
cas, porque hay muchísimas maneras de articular un enunciado causal.
Los autores pueden establecer que un factor causal, X, conduce a un re
sultado, Y, está relacionado con Y, está asociado a Y, influye en Y, tiene
como resultado Y, etc. De éstos, sólo los dos últimos son claramente cau
sales en el sentido en que hemos definido el término. Pero todos pueden
ser causales dependiendo del contexto. Una simple sugerencia para los
autores es que aclaren si un argumento pretende ser causal o no. La in
tuición del lector no debería ser necesaria.
Una segunda cuestión es la especificación de Y. Para evaluar un argu
mento necesitamos conocer la variación en Y que se concibe como el resul
tado de interés. Normalmente esto es evidente; pero a veces es ambiguo. La
historia cómica (presumiblemente apócrifa) que se cuenta sobre esto es la
del sacerdote que le pregunta al famoso ladrón de bancos, Willie Sutton,
por qué roba bancos. A esta pregunta, el malhechor le explica con pacien
cia que es ahí donde está el dinero. Evidentemente, el sacerdote y el ladrón
de bancos tienen diferentes ideas sobre la variación en Y. Para el sacerdote,
se trata de robar (Y= 1) frente a no robar (Y = 0). Para Sutton, se trata de
robar en bancos (7=1) frente a robar en otros establecimientos (7=0).
Una confusión análoga se da en algunos argumentos históricos sobre
resultados específicos, como por ejemplo una revolución, una guerra o la
220
aprobación de una ley. Para algunos autores, el resultado de interés se

puede concebir de forma dicotómica (revolución/no revolución) y duran
te un periodo de muchos años. Por ejemplo, ¿por qué Francia experimen
tó una revolución y Suecia no? Para otros autores, el resultado de interés
puede concebirse en términos mucho más específicos. Por ejemplo, ¿por
qué la Revolución Francesa ocurrió en 1789 y ocurrió precisamente tal y
como ocurrió? Es fácil apreciar cómo dos estudios de un mismo fenóme
no (la Revolución Francesa) pueden terminar construyendo argumentos
muy diferentes. Como en este libro nos preocupan las clases de eventos,
más que los eventos singulares, este tipo de problema es, de algún modo,
menos relevante. Aun así, un tipo de resultados puede interpretarse de
varias formas y si esto no se clarifica careceremos de claridad sobre el
conjunto general de afirmaciones.
Una tercera cuestión es la especificación de X, es decir, el cambio en X
que se concibe como factor causal o tratamiento. Éste es el contrafáctico
causal y hay que especificarlo, aunque no se pueda observar directamen
te o manipular (cuestión que analizaremos en el siguiente apartado).
Un problema análogo lo plantean los inputs y outputs que son difíciles
de operacionalizar (es decir, difíciles de medir). En esta situación, puede
estar conceptualmente claro el significado de un cambio en X o Y, pero
puede ser también ambiguo en términos empíricos. Un concepto que no
se puede medir, no se puede poner a prueba, al menos no con precisión.
De igual modo, si un concepto se puede operacionalizar con varios indi
cadores (escasamente interrelacionados), entonces esta ambigüedad per
judica a su capacidad de ser falsado. Por ejemplo, es en cierto modo pro
blemático que la democracia se pueda medir dicotómicamente o de
forma continua, y que cada medida elegida ofrezca un número determi
nado de indicadores (no tan correlacionados), como vimos en el capí
tulo 7. Los cupones escolares, aunque son aparentemente más específi
cos, se pueden construir de muchas maneras (por ejemplo variando el
valor monetario de los cupones o las regulaciones en un programa de cu
pones). Los cupones se pueden aplicar a la elección entre escuelas «con
certadas» (escuelas públicas donde la inscripción no está limitada a un
vecindario particular) o a escuelas públicas y privadas. Cada una de estas
decisiones sobre X tiene implicaciones diferentes en Y. Para lograr clari
dad en un argumento causal simplemente debe ser posible ubicar X e Y
en términos empíricos. La operacionalización es esencial.9
En cuarto lugar hay que tener en cuenta las condiciones de fondo de
un argumento. En circunstancias normales no es necesario especificar
las. Así, si estamos arguyendo que los países tienden más a democrati
zarse cuando están más desarrollados económicamente, estamos supo
niendo que los demás factores que influyen en X y/o en Y se mantienen
constantes. Esto incluiría condiciones como la riqueza mineral, que
221
para muchos observadores constituye un impedimento para la democra

cia.10 Si no se mencionan, estos factores se pueden considerar ceteris pa-
ribus: es decir, el desarrollo económico fomenta la democratización en
países con una dotación de recursos naturales similar. En algunas oca
siones, sin embargo, las condiciones de fondo de un argumento son lo
suficientemente importantes y lo suficientemente ambiguas como para
mencionarlas explícitamente. Esto clarificará más la naturaleza del ar
gumento e indica al lector que el autor ha considerado un factor poten
cialmente confundidor.
En quinto lugar, y muy relacionada con la anterior, está la cuestión de
las condiciones de alcance, o población, de la inferencia. Como hemos se
ñalado ya, todo argumento causal incluye condiciones de alcance, aun
que estén implícitas. De forma característica, las condiciones de alcance
están integradas en los conceptos clave que articulan un argumento cau
sal. Así, cualquier argumento sobre el desarrollo económico y la demo
cracia presume ciertas cosas sobre las unidades de análisis —que son
unidades políticas grandes, por ejemplo. Supongamos que alguien hace
la objeción de que cuando las familias se enriquecen no necesariamente
se hacen más democráticas. Aunque esto puede ser verdad, no es real
mente un contraargumento, porque el tema está fuera del alcance su
puesto de la proposición original.
La distinción entre una condición de fondo y una condición de alcan
ce no siempre es clara, y por lo tanto merece cierta discusión. Suponga
mos, por ejemplo, que el desarrollo económico tiene diferentes efectos en
la democracia cuando es estimulado por la riqueza de recursos naturales
en lugar de por otros fundamentos económicos. Esta cuestión se puede
tratar como una condición de fondo, en cuyo caso se comprende como
un supuesto ceteris paribus: en países con niveles similares de riqueza de
recursos naturales, el desarrollo económico tendrá efectos económicos si
milares en la democratización. O se puede tratar como una condición de
alcance, en cuyo caso el autor puede establecer que la supuesta relación
entre el desarrollo económico y la democracia sólo se mantiene para paí
ses con niveles bajos de riqueza de recursos naturales: los países ricos en
recursos caen fuera del alcance (la población) del argumento. (Una terce
ra opción es teorizar explícitamente la relación entre la riqueza de recur
sos, el desarrollo económico y la democratización. Sin embargo, esto
cambia el argumento causal —ampliándolo para que incluya tres facto
res en lugar de dos factores— que ya no se refiere a las condiciones de al
cance o de fondo.)
Los lectores podrán apreciar enseguida la compensación que implica
esta relación: mantener un amplio alcance y aceptar mucho ruido de fondo
o disminuir el alcance para así reducir el ruido. En concreto, hay que elegir
entre la generalidad, por un lado, y la precisión y el impacto, por otro.
222
Sin duda, hay a menudo un cierto grado de ambigüedad en torno a la

condición de alcance de un argumento causal en las ciencias sociales. Por
ejemplo, se entiende que las teorías de la democratización se aplican a
Estados nacionales soberanos. Sin embargo, el argumento podría apli
carse también a unidades subnacionales (gobiernos regionales y munici
pales), o a colonias semisoberanas y protectorados, e incluso a otros ti
pos de organizaciones (por ejemplo, movimientos sociales, grupos de
interés, etc.). Los límites de este argumento, como los de otros muchos,
no están totalmente definidos. De forma característica, hay un ámbito
donde el argumento se debe aplicar realmente: el mejor escenario posible
para que X afecte a Y. En ese caso, probablemente es el Estado nacional
soberano. Más allá de este ámbito, podemos encontrar una serie de círcu
los concéntricos donde la lógica del argumento parece atenuarse, aunque
no deja de ser plausible.
También hay que considerar el alcance temporal de un argumento. Tí
picamente, los autores aplican la tesis desarrollo/democratización a la
era contemporánea (siglos xx/xxi). Pero también podría aplicarse a pe
riodos anteriores, incluso a periodos tan lejanos como la Grecia Anti
gua. Tampoco está claro cuánto tiempo se mantendrá esta relación en el
futuro. ¿Fomentará el desarrollo la democracia en el siglo xxn? Por regla
general, los límites temporales de los argumentos en ciencias sociales son
menos claros que sus límites espaciales, precisamente debido a la ambi
güedad del porvenir y la naturaleza continua del tiempo (que se extiende
hacia atrás en un arco infinito, sin puntos de corte claros). En el capítulo
3 analizamos por extenso las condiciones de alcance apropiadas (véase
«Delimitación»).
Manipulabilidad
En términos ideales, el tratamiento de principal interés teórico debe ser

susceptible de manipulación, es decir, de un cambio deliberado por parte
del investigador (u otra persona). Si no es así, el argumento será difícil de
evaluar (y no digamos de comprobar). La manipulación es a los argu
mentos causales lo que la operacionalización es a los argumentos con
ceptuales (véase la tabla 5.1). Clarifica de qué estamos hablando. Esta
idea está implícita en la comprensión común de una causa como algo
que cambia. Preguntarse por la manipulabilidad implica preguntarse, en
realidad, por una clarificación de qué aspecto del mundo cambia y cuál
permanece constante (las condiciones de fondo de un argumento).
Regresemos a nuestros ejemplos para ilustrar esta cuestión. Los cupo
nes son manipuladles en principio y de hecho. Como tales, todo argu
mento sobre ellos es lo suficientemente claro al respecto de X. Sólo tene-
223
mos que especificar en qué consiste un régimen de cupones (^=1) y en

qué consiste un régimen que no los tiene (y=0). Esto define el tratamien
to y el control, y por lo tanto clarifica el argumento.
Con la democracia, sin embargo, persiste bastante ambigüedad sobre
el tratamiento, y esto a su vez es un producto del hecho de que la demo
cracia es difícil de imaginar como un tratamiento manipulable. ¿Qué se
ría manipulable (que podría cambiarse) en la democracia? Advierta que
algunos elementos del concepto son directamente modificables, como la
ley electoral. Se pueden volver a redactar las provisiones de la constitu
ción y las leyes. Otros elementos, como las elecciones competitivas, no
son directamente manipulabas. Podemos crear las condiciones para la
contienda electoral, pero la competición depende de muchos factores que
están fuera de nuestra capacidad de control directo. Si la gente sigue apo
yando el partido dominante (por propia voluntad), un experimentador
apenas puede hacer algo para alterar este hecho. En todo caso, las cosas
que podríamos alterar directamente —como la ley electoral— son las co
sas que son fáciles de conceptualizar como causas. Podemos concebir X
como causa si podemos concebir que X puede cambiar, dejando lo de
más tal y como está (las condiciones ceteris paribus del argumento cau
sal). Si es necesario cambiar otras cosas para que X cambie (tenga la po
sibilidad de cambiar), entonces el argumento causal es ambiguo.
Los impedimentos a la manipulabilidad se derivan en parte del libre
albedrío de los actores sociales. Recordemos que la ciencia social se dis
tingue de otras ciencias por su enfoque sobre el comportamiento decisio-
nal, es decir, sobre las acciones que incluyen un elemento de elección.
Esto plantea un dilema a la explicación: que hay algo importante situado
entre las cosas que podemos manipular y los resultados que queremos
explicar. Ese algo son los estados emocionales y cognitivos de la mente,
que no podemos manipular directamente porque dependen del libre al
bedrío. Podemos hacer cosas para facilitar los sentimientos de enfado,
amor o deseo, pero no podemos manipular directamente estos estados
psicológicos. Asimismo, podemos hacer cosas para promover u obstacu
lizar el desarrollo de la inteligencia, pero no podemos manipular la inte
ligencia directamente. Por consiguiente, hay una cualidad inefable en las
explicaciones que se basan en estados o condiciones mentales. Entre
otros ejemplos están la confianza, la legitimidad, la disonancia cognitiva,
las preferencias adaptativas o (el viejo repuesto de) la racionalidad.
Otra categoría de explicaciones se basa en el comportamiento voliti
vo de grupos de gente. Conceptos como la competencia, el equilibrio,
la profecía que se cumple a sí misma, la difusión, el comportamiento
basado en umbrales o los grupos de referencia se incluyen en esta cate
goría. El problema es, una vez más, que los estados mentales del indivi
duo no se pueden manipular. El comportamiento grupal, como se fun-
224
damenta en estados mentales del individuo, no se puede manipular

directamente.11
Hay otros impedimentos a la manipulabilidad que se derivan de facto
res causales que son procesuales por naturaleza. Los demógrafos subra
yan la importancia causal de la transición demográfica, un fenómeno
con varias fases. En la fase de la pretransición, los nacimientos y las
muertes están en equilibrio; la población se reproduce sin crecer debido a
las constricciones malthusianas (tierra, alimento, asistencia sanitaria,
etc.). En la segunda fase, la tasa de mortalidad cae mientras la de fecun
didad se mantiene constante, lo que propicia el crecimiento de la pobla
ción. En la fase final, la tasa de fecundidad cae, devolviendo la población
a un nuevo equilibrio. Supuestamente, muchos fenómenos son conse
cuencia de la transición demográfica, entre ellos (de acuerdo con Tim
Dyson), la urbanización, la expansión del gobierno y los sistemas de ad
ministración, la división del trabajo, el crecimiento de la sociedad civil, el
aumento de la independencia de las mujeres y la reducción de las diferen
cias de género y una mayor distribución del poder político.12 El proble
ma, desde el punto de vista de la viabilidad explicativa, es que el proceso
de la transición es continuo; no podemos intervenir directamente para
observar el contrafáctico. Naturalmente, se pueden manipular algunos
de los factores que supuestamente producen la transición demográfica
como, por ejemplo, las provisiones de alimento y la asistencia sanitaria,
etc. Esta situación es parecida a la de los estados mentales: podemos ma
nipular factores que supuestamente producen los estados mentales, pero
no podemos manipular directamente el estado mental en sí.
Un tercer impedimento a la manipulabilidad se da en situaciones don
de la manipulación es posible, pero plantea problemas de interpretación
o validez externa. Consideremos el ejemplo de la democracia. ¿Qué su
pondría cambiar una característica básica de la constitución de un país?
Se trata de un cambio importante e inevitablemente conflictivo que pro
bablemente no se puede replicar en un laboratorio. Así, debemos imagi
nar cómo se produciría este tipo de intervención en una sociedad real.
Podría ser impuesto desde fuera y recurriendo a la fuerza, como intenta
ron los Estados Unidos en Irak. Pero la invasión por parte de una poten
cia extranjera introduce toda suerte de confundidores que complican
cualquier argumento causal sobre la democracia. ¿Quién es la potencia
invasora y en qué circunstancias ha invadido el país? ¿La conquista duró
mucho o fue rápida? ¿Logró la potencia invasora vencer a los adversarios
y establecer el orden? ¿Se consideró libertadora u opresora? Las respues
tas a todas estas preguntas (y a muchas otras) complicarán todo intento
de conceptualizar el impacto de X en Y.
Alternativamente, supongamos una transición interna hacia la demo
cracia (o algo similar) como la que ocurrió en Rusia en 1991. Ésta puede
225
parecer más fácil de explicar, pero es más difícil en otros respectos. Pen
semos que una sociedad dispuesta a cambiar los rasgos más básicos de
su política presumiblemente estará también experimentando cambios
fundamentales en otros muchos niveles. De hecho, la transición desde la
autocracia a la democracia en Rusia se acompañó de un cambio igual
mente transformador del comunismo al capitalismo. ¿Cómo podemos se
parar los dos cambios para poder construir un argumento sobre la de
mocratización manteniendo las condiciones ceteris paribus! Si no
podemos establecer con claridad cuáles son las condiciones ceteris parí-
bus de un argumento causal, no podremos establecer claramente cuál es
el argumento. Y en situaciones en las que un tratamiento no se puede
manipular sin perturbar las condiciones ceteris paribus, no está claro de
qué estamos hablando.
Déjenme ponerles más ejemplos para ilustrar la ubicuidad de este tipo
de ambigüedad en las ciencias sociales. Consideremos un factor causal
como la desigualdad. Las sociedades desiguales se consideran propensas
al conflicto político, la autocracia y el subdesarrollo (en comparación
con las sociedades con una distribución de la riqueza más igualitaria).
Por supuesto, podemos manipular directamente la riqueza, al menos en
principio. Podemos confiscar la riqueza de los ricos y dársela a los po
bres. O podemos quedarnos con la riqueza de todos, dejando a todos los
ciudadanos con un nivel de vida muy bajo. Asimismo, podemos interve
nir para distribuir la riqueza ¿feigualmente. Se pueden imaginar cientos
de intervenciones. Sin embargo, todas provocarán grandes turbulencias.
Por lo tanto, es difícil imaginar cómo se podrían mantener las condicio
nes ceteris paribus.
También podemos imaginar una situación en la que los miembros ri
cos de una sociedad dan voluntariamente dinero a los pobres reduciendo
así su riqueza hasta situarla en el nivel del salario medio. Aquí hay un
mecanismo de transferencia que no se basa en la coerción. Sin embargo,
esto nos sugiere que se trata de un tipo muy diferente de personas, es de
cir, altruistas que se preocupan más por la igualdad que por sus posesio
nes personales. Esta alteración drástica de las circunstancias ceteris pari
bus cambia las condiciones de alcance del argumento, que ha dejado de
versar sobre el mundo en que vivimos y se refiere a una sociedad imagi
naria, quizás del futuro.
En suma, no podemos preguntarnos cómo serían los Estados Unidos
si la riqueza se distribuyera más igualitariamente sin antes formularnos
otra pregunta: ¿cómo estaría distribuida la riqueza y cómo afectaría ese
mecanismo a las condiciones ceteris paribus del argumento causal?
Cuando tratamos con causas no manipulables estamos tratando invaria
blemente con las causas de esas causas, es decir, con las diferentes cosas
que producen la (des)igualdad o la democracia.
226
Un cuarto tipo de obstáculo son los factores causales no manipulabas

que funcionan como proxy. Consideremos el papel de la raza en el logro
educativo en los Estados Unidos. Sabemos que hay una brecha persisten
te entre los estudiantes blancos y los negros en las puntuaciones de sus
exámenes,13 y tendemos a suponer que la raza tiene un fuerte impacto
causal en el logro educativo. Pocos discutirán esta suposición. Pero es, sin
embargo, ambigua, y la razón de su ambigüedad es que no sabemos (sin
una clarificación adicional) cuál podría ser el rasgo manipulable del ar
gumento causal.
Podría ser la raza en sí, posible de manipular mediante la genética,
bien en el momento de la concepción o en algún momento posterior en el
desarrollo. (A efectos heurísticos, dejaré a un lado las consideraciones
éticas.) Este tipo de manipulación prevé el siguiente contrafáctico: un
niño negro (o blanco) nace de padres blancos (o negros). Ese niño tiene
todos los genes de sus padres salvo el que determina el color de piel. Y
esos padres son similares a los demás padres blancos (o negros) en todos
los respectos salvo en el tratamiento, es decir, la raza de su hijo (no son
más «progresistas» que otros padres).
Otro tipo de manipulación apunta a un rasgo que presumiblemente se
deriva del estatus minoritario: es decir, la discriminación. Un contrafácti
co en esta situación sería que un niño negro es trasladado desde una co
munidad en la que afronta mucha hostilidad (racial) a otra semejante en
todos los respectos salvo en que no es hostil a personas diferentes. Este
tipo de argumento es muy diferente del anterior.
Podemos imaginar muchas otras manipulaciones: por ejemplo, las ba
sadas en la socioeconomía, el origen educativo de los padres, la estructu
ra familiar, etc. La cuestión es que el concepto de «raza» —como está
abierto a muchas manipulaciones posibles— es muy ambiguo. No está
claro qué queremos decir cuando afirmamos que la raza causa algún re
sultado. No sólo es ambigua la condición contrafáctica, también lo es el
mecanismo. (Si no sabemos lo que implica un cambio real en X, cierta
mente no sabremos apenas nada sobre los procesos por los que X afecta
rá a Y.)
Algunos metodólogos consideran la manipulabilidad como una con
dición necesaria de todo argumento causal.14 Según esta interpretación,
los argumentos sobre el efecto de la democracia, la desigualdad, la raza y
otros factores abstractos no son realmente causales por naturaleza. Esto
parece un tanto extremista. Para mí la manipulabilidad es un rasgo de
seable, entre otros, que debe considerarse como una cuestión de grado.
Como hemos visto, los factores causales que parecen no manipulables sí
se pueden manipular en algunas ocasiones, aunque hacerlo comporta
cierta ingenuidad y la manipulación puede no ser ética o viable en la
práctica o generalizable a situaciones del mundo real. Podemos manipu-
227
lar también las causas antecedentes de un factor de interés teórico. Aun

que estas manipulaciones pueden ser imposibles de ejecutar en el mundo
real, no obstante ayudan a clarificar la naturaleza de una afirmación
causal. Sabemos lo que significa que «X causa Y» si podemos describir la
manipulación de X que logrará el cambio previsto en Y. Por eso la mani-
pulabilidad se entiende aquí como un elemento formal de un argumento
causal más que simplemente como una cuestión relativa al diseño de in
vestigación.15
Separación
Una causa se debe poder separar del efecto que se propone explicar; si
no se puede separar, el argumento es tautológico. Esto parece obvio.
Pero, si lo pensamos más, se verá que la separación es una cuestión de
grado. Para empezar, las Xy las Y son siempre diferentes en cierto modo.
Una tautología perfecta (por ejemplo, «la causa de la Guerra Civil fue la
Guerra Civil») carece simplemente de sentido y, en realidad, no solemos
encontrarlas. En algunas ocasiones escuchamos el siguiente tipo de argu
mento: «la Guerra Civil la causó el ataque del Sur contra el Fuerte
Sumter». Este argumento es más satisfactorio. Aun asi, lo más seguro es
que no sorprenda a los lectores como una explicación particularmente
aguda. En efecto, este argumento contiene poca explicación, porque X
apenas se diferencia de Y (el ataque contra el Fuerte Sumter fue, por su
puesto, parte de la Guerra Civil). Un argumento igual de problemático
es el que vincula la Guerra Civil a la relación belicosa entre el Norte y el
Sur, que persistió desde la década de 1850 hasta el estallido del conflicto
en 1861. Una vez más, tenemos dificultades para distinguir entre la causa
y el efecto.
Consideremos un segundo ejemplo, clásico desde su origen. Decir que
un hombre determinado (X) es el padre de un niño determinado (Y) es
in enr que el padre causó la existencia del niño; él es una causa necesaria
(por supuesto, no suficiente) del niño. (Podríamos especular que las no
ciones actuales de la causación están arraigadas en la cuestión primer
ia de la legitimidad.) Nos sentimos menos impresionados, sin embargo,
por e argumento de que un feto es la causa de un niño o de que un niño
es a causa de un adulto. Hay algo erróneo en estas formulaciones, aun
que es claramente necesaria para Y (anterior a Y). Lo que es erróneo
es que hay poca separación entre X e Y; son el mismo objeto observado
esde diferentes puntos del tiempo. En suma, hemos tratado un «proceso
continuo que se mantiene a sí mismo» como un factor causal, y esto vio-
a e precepto de la separación.16 Por el contrario, podríamos aceptar el
argumento de que un adulto es el producto de su infancia, precisamente
228
i
porque la noción de infancia es separable de la madurez. (Aun así, el ar

gumento carece de claridad.)
Independencia
Además de la separación, un buen factor causal se caracteriza por su in

dependencia respecto de otras causas de un resultado. Si una causa pro
puesta de un resultado se explica por otra cosa, esta última cosa tiene
más derecho a que se le reconozca el estatus de «causa». De forma típica,
describimos la causa independiente como estructural, y el factor intervi-
niente como superestructura!, endógeno o epifenoménico. Una causa sa
tisfactoria implica la búsqueda aristotélica de un «motor inmóvil», un
factor que afecta a otras cosas pero que no se explica, o se explica sólo
parcialmente, por una sola causa.
No cabe duda de que todo factor causal general ha sido afectado por
algo. No hay motores inmóviles. Pero algunos factores se explican total
mente (o casi totalmente) por alguna otra cosa. Aquí dudamos si poner al
factor superestructura! la etiqueta de causa. No cumple nuestras expectati
vas de una buena causa porque carece de independencia. Es totalmente en
dógeno a algo más. En cambio, el factor etiquetado como causa tiende a
ser un factor que carece de una sola explicación. Le afectan muchas cosas,
y algunas de estas cosas pueden ser puramente estocásticas. Aunque no es
un motor inmóvil, es un motor no explicado (o difícil de explicar).
Consideremos la figura 8.1. Si X se explica en buena medida por A (si la
mayoría de la variación en X se debe a la variación en A), y ambas son
causas de Y, entonces probablemente será más correcto considerar a A
«la» causa de Y. X queda integrada en A. Una vez que sabemos el estatus
de A podemos predecir el estatus de X, M, e Y. X y M no añaden informa
ción adicional sobre el efecto causal. (Por supuesto, sí proporcionan infor
mación sobre los mecanismos causales, como veremos más adelante.)
Si, por otro lado, A explica sólo una porción pequeña de X —que en
tonces es un producto de muchos factores, algunos de los cuales pueden
ser puramente estocásticos—, entonces es correcto considerar X como
causa de Y. X no está integrada en A.
Hablando en términos generales (y con la advertencia usual de ceteris
paribus), cuanto más fundamental es un factor, más alta será su posición
entre las diversas causas de un resultado. De hecho, los debates sobre las
cuestiones causales suelen girar en torno a qué factor causal se ha juzga
do correctamente como el más fundamental. ¿Qué X explica todos los
demás X? Consideremos los diversos factores que se han propuesto
como explicaciones del desarrollo económico en el largo plazo, es decir,
para explicar por qué algunas naciones son ricas y otras son pobres. Una
229
lista corta de estos factores causales incluiría la geografía, el colonialis

mo. las instituciones políticas nacionales, la tecnología, el capital huma
no. la cultura, la población y las transiciones demográficas.17 Advierta
que los argumentos de los partidarios de las diferentes escuelas no se pre
guntan simplemente si un solo factor —por ejemplo, la demografía— tie
ne a la larga una gran influencia en el desarrollo económico. También se
plantean —lo que quizá es más importante— las relaciones entre los di
versos factores causales, es decir, dilucidan cuáles son independientes y
cuáles son dependientes. En este tipo de argumento, la geografía tiene
una ventaja importante: no se explica fácilmente. En efecto, la geografía
se aproxima al motor inmóvil de Aristóteles. Por supuesto, tenemos ex
plicaciones geológicas de por qué se formaron las masas de tierra de dife
rentes formas, por qué aparecieron los ríos y por qué algunos son nave
gables y otros no lo son, etc. Sin embargo, estas explicaciones son muy
complejas e implican un grado muy considerable de contingencia. Las
explicaciones geográficas son difíciles de descartar. En cambio, las expli
caciones culturales parecen muy vulnerables, porque suelen ser endóge
nas a otros factores. Quienes deseen dar un papel privilegiado a la expli
cación cultural tienen que mostrar que el conjunto de valores y prácticas
que influyó en el desarrollo económico no es superestructura! y ha tenido
siempre independencia causal a lo largo de la historia.
Los investigadores acostumbrados a los entornos experimentales pue
den no percatarse de la relevancia de estas consideraciones. Cuando el
tratamiento de interés se manipula es, por definición, independiente en
relación con todo lo demás. Sin embargo, nuestro tema aquí son las pro
piedades formales de la argumentación causal, no el diseño de la investi
gación. La cuestión es que cuando construimos argumentos causales de
bemos estar atentos al modo en que funcionan las cosas en el mundo (a
diferencia de cómo funcionan en el laboratorio). Apenas tiene sentido di
señar un experimento para un factor causal que en el mundo real está
controlado por otro factor previo. Esto serviría para elucidar los meca
nismos causales, pero para poco más. Sin duda, si el factor causal de in
terés puede ser manipulado por experimentadores, entonces probable
mente también podrá ser manipulado por diseñadores de las políticas, lo
que significa que puede tener cierta relevancia para el mundo real. En
este caso, puede atribuirse independencia causal: no es simplemente el
producto de algo más.
Impacto
Los argumentos causales intentan explicar la variación en un resultado.

Cuanta más variación explica el factor causal —cuanto mayor es el en
230
pacto de X en Y— más significativo tenderá a ser el argumento. Esto

también se puede expresar como una cuestión de tamaño, magnitud, po
der o fuerza del efecto.
Los argumentos causales necesarios-y-suficientes (que se estudiarán
en el capítulo 12) son convincentes porque explican toda la variación en
Y siendo admirablemente concisos. No es de extrañar por ello que, en el
lenguaje común, sigan siendo los argumentos causales ideales. En cam
bio, cuando hay excepciones al argumento causal, o cuando algún factor
diferente de X da cuenta de la variación en Y, el argumento se debilita:
ya no es suficiente para dar cuenta de K18
Hay varias maneras de captar la cuestión del impacto relativo. En una
regresión, donde la relación entre X e Y es supuestamente probabilística,
el impacto se mide con el coeficiente (la pendiente) de lo con un esta
dístico de ajuste del modelo como R2 para X, un vector de variables inde
pendientes.
Claro está que las estimaciones del impacto causal a partir de un mo
delo empírico dependen de las características de la muestra y del modelo,
y pueden corresponder o no con el impacto en el mundo real. Si el mode
lo no es realista a este respecto, entonces posiblemente se requiera una
evaluación separada del impacto, quizás de un modo más especulativo.
Suele ser de ayuda considerar el impacto de X en Y en términos prácti
cos, por ejemplo, como una cuestión de política pública. ¿Se podría lo
grar un cambio significativo en Y manipulando A? ¿A costa de qué y con
qué costes de oportunidad?
El impacto de X en Y también se puede captar comparando su impac
to en otros factores. Si el impacto de esos otros factores se capta bien,
puede proporcionar una métrica útil de la significación (es decir, del im
pacto relativo).
Cualquiera que sea la métrica de la evaluación, el impacto de y en Y
es una medida clave de éxito. Uno de los criterios de un buen argumento
causal es que explique mucho sobre el fenómeno de interés. No debe ser
trivial.
Mecanismo
Hemos dicho que las causas generan —alteran, cambian, condicionan,

crean, efectúan— resultados. De esto se sigue que tiene que haber un me
canismo o mecanismos causales que funcionen. El mecanismo es «la ac
ción o medio por el que se produce un efecto o se consigue un propósi
to».19 En la terminología de los modelos, el mecanismo se puede
entender como la trayectoria causal, el proceso, el mediador o la variable
intermedia por la que se cree que un factor causal de interés teórico afec-
231
ta a un resultado: M en la figura 8.1. (Por el contrario, un moderador es

una variable interviniente que altera la naturaleza de una relación XI Y.20)
Es importante aclarar que el uso que hago del término mecanismo en
este libro abarca todo factor que se considera parte del proceso genera
dor por el que X afecta a Y, que consiste en una serie de pasos discretos
(por ejemplo, fichas de dominó que van cayendo consecutivamente unas
encima de otras en una mesa) o en un proceso continuo (por ejemplo,
una bola de billar que mientras rueda alrededor de la mesa golpea otra
bola).
El único requisito es que el mecanismo pueda variar de algún modo,
aunque la variación sea sólo hipotética. Así, en el ejemplo de las fichas
de dominó, si falta una ficha la cadena se puede romper y no producirse
el resultado normal —que todas las fichas caigan. De modo similar, si el
efecto de un tratamiento de cupones en el logro educativo funciona me
diante un mecanismo causal centrado en la calidad del profesor, y este
último factor es minimizado, esperamos que la relación XIY se altere (los
cupones pueden tener menos impacto en el logro educativo o no tener
ningún impacto). Esto es lo que justifica nuestra comprensión de los me
canismos causales como variables. Varían igual que X e Y.
En algunas ocasiones, el funcionamiento de un mecanismo causal es
obvio y se puede intuir de lo que sabemos sobre el mundo. Éste tiende a
ser el caso cuando la relación XIY es por naturaleza próxima. Suponga
mos que un experimento altera los incentivos monetarios de los profe
sores y descubre (utilizando varias métricas) que tienen un impacto sig
nificativo en el rendimiento del profesor. Puede no ser necesario
proporcionar una explicación prolija de M ya que se puede suponer con
seguridad que el mecanismo operativo es el incentivo monetario. Es sufi
ciente.
Pero M puede ser confuso. Suele ser así cuando la relación XIY es dis
tante y/o cuando las trayectorias causales que conectan X e Y son com
plejas: implican largas cadenas causales, diferentes rutas desde X hasta Y
(equifinalidad) o el efecto combinado pero simultáneo de múltiples fac
tores. Aquí, los mecanismos causales de una teoría requieren un análisis
exhaustivo aunque realizado de una manera especulativa (como procesos
que pueden conectar plausiblemente X con Y). El impacto del desarrollo
económico en la democratización, o el de la democracia en la paz, son
dos ejemplos de este tipo.
Aunque este capítulo se centra en las propiedades formales de un ar
gumento causal, es importante decir algunas palabras sobre las propie
dades empíricas de un mecanismo causal. En algunas ocasiones, el meca
nismo causal en una teoría se puede medir directamente, lo que permite
la comprobación empírica. En otras ocasiones no se puede medir direc
tamente y sólo se puede hacer por medio de proxies. Y en otras más los
232
modos cualitativos son suficientes, o son todo lo que se puede manejar

dadas las limitaciones de los datos. Estas cuestiones se analizan deteni
damente en los capítulos posteriores. Las menciono sucintamente ahora
sólo porque ayudan a clarificar nuestra definición operativa de un meca
nismo, que en modo alguno se inclina por los estilos cualitativos o los
cuantitativos de análisis ni por los supuestos sobre la posibilidad o impo
sibilidad de comprobarlos. Lo que quiero señalar es que un mecanismo
es una trayectoria que va de X a Y.
Hay que señalar también que algunas teorías causales se centran en
una relación central XI Y, mientras otras se centran en un mecanismo
causal (M). La teoría de Duverger sobre el papel de los sistemas electo
rales en el conflicto de partidos sigue una hipótesis sobre la relación XI Y:
que el tamaño del distrito influye en el tamaño del sistema de partidos.
El marxismo, en cambio, se guía por un mecanismo causal: la lucha de
clases. Advierta que cada tipo de teoría genera sus propias confusiones.
Una teoría centrada en una predicción central XIY puede no especificar
una serie determinada de mecanismos causales (en efecto, una buena
cantidad de los trabajos sobre la teoría de Duverger realizados durante
décadas se ha centrado en las posibles trayectorias por las que las reglas
de los sistemas electorales afectan al comportamiento de los votantes y
las élites).21 Una teoría centrada en un mecanismo causal puede no gene
rar un conjunto de predicciones específicas y comprobables sobre cómo
X varía con Y. En el caso del marxismo las predicciones fluyen desde el
mecanismo causal central de la lucha de clases hacia todas las direccio
nes, y ninguna predicción es crucial para la teoría, lo que ha llevado a al
gunos críticos a acusar a la teoría de no ser falsable.
Para nuestros propósitos aquí, lo importante es que los tres elementos
—X, Y y M— son relevantes en la argumentación causal. Una hipótesis
XIY sin un mecanismo causal claro es un argumento que necesita expli
cación. Puede ser cierto, pero no será muy significativo, será difícil de ge
neralizar y puede también ser difícil de comprobar de forma convincente.
Así, corresponde al autor clarificar el mecanismo o mecanismos causales
operativos en un argumento causal, a no ser que se pueda intuir a partir
del contexto.22 Esto puede lograrse con prosa, diagramas y/o modelos
matemáticos, y está implícito en el acto mismo de la teorización.23
233
:u
, I
. . >1 . •
< . i.
j
9 Análisis causales
«Cuando miramos los objetos externos en nuestro entorno y examinamos la

operación de las causas, nunca somos capaces de descubrir, en ningún caso, al
guna fuerza o conexión necesaria, alguna cualidad que ligue el efecto a la causa
y haga a uno consecuencia indefectible de la otra. Sólo encontramos que, de he
cho, el uno sigue realmente a la otra. El impulso de una bola de billar se acom
paña del movimiento de la otra. Esto es todo lo que aparece a los sentidos exter
nos. La mente no percibe ningún sentimiento o impresión interna de esta
sucesión de objetos. Consecuentemente, no existe, en ningún caso particular de
causa y efecto, ninguna cosa que pueda sugerir la idea de fuerza o conexión ne
cesaria.»
David Hume'
Desde Hume, los autores son conscientes de que la valoración de las re
laciones causales es bastante etérea. Nunca podemos saber con absoluta
certeza si un factor causó un resultado, porque no podemos volver atrás
en el tiempo y hacer que sucedan los mismos eventos exactamente igual
que sucedieron, cambiando sólo el factor de interés y observando el re
sultado bajo esta condición alterada. El contrafáctico causal nunca se
puede observar directamente porque no existe la máquina del tiempo. A
veces nos referimos a esto como el problema fundamental de la inferen
cia causal.2
235
I
En los últimos años los científicos sociales han llegado a ser plena
mente conscientes de la naturaleza insustancial de la evidencia que típi
camente fundamenta las proposiciones causales en la antropología, la
economía, la ciencia política, la sociología y las diversas ramificaciones
de estas disciplinas. Los metodólogos apenas confían en las inferencias
derivadas de los datos de observación, y no parece probable que algún
procedimiento estadístico les puedan proporcionar fundamentos sólidos.
Algunos han insinuado que vivimos una «crisis de la causalidad»?
Aunque es posible que la causalidad esté en crisis, ciertamente no ha
muerto. En efecto, las ciencias sociales están hoy más orientadas que
nunca a las cuestiones causales. Afortunadamente, aunque la atribución
causal es siempre una apuesta, hay maneras de maximizar la validez y la
precisión, dadas las limitaciones de la evidencia.4 Este libro se ha escrito
con ese espíritu: hacerlo lo mejor que podamos.
Antes de adentrarnos en el tema que nos ocupa es importante que de
finamos el problema del análisis causal con más precisión. Empiezo por
analizar la noción de efecto causal para presentar más adelante un gráfi
co causal con los componentes esenciales del diseño de investigación re
lacionados con las cuestiones de la validez interna. Luego procedo a exa
minar el objetivo principal del capítulo: la revisión de los criterios
metodológicos que en general se aplican a los diseños de investigación
cuyo propósito es comprobar una proposición causal.
Efectos causales
En el capítulo 8 propuse una definición general de la causalidad. Una par

te clave de esta definición es el efecto causal (conocido como tratamiento):
el efecto que tiene un cambio en un factor causal (X) en un resultado (Y),
en comparación con lo que hubiera sido ese resultado sin la intervención
del cambio en X. Así se ha definido la causalidad en las ciencias sociales y
tal definición es central para el modelo de causación de «resultados poten
ciales» (que veremos en el capítulo 12). (Sin duda, ésta no es la única ma
nera de comprender la causación. Para algunos propósitos, como por
ejemplo en los entornos legales, es importante definir la causalidad en refe
rencia a la causa de hecho, como veremos más adelante.)
Digamos que X es un cupón escolar e Y el rendimiento escolar, me
dido por un test de logro. Aquí, el efecto causal es el impacto (en el
rendimiento escolar) de tener un cupón (X = 1) en comparación con no
tenerlo (X = 0). Adviértase que un efecto casual se comprende contra-
fácticamente: ¿qué efecto tendría en Y un cambio en X? El efecto cau
sal o efecto del tratamiento es, por lo tanto, el cambio en Y correspon
diente a un cambio dado en X.
236
1
Empezamos por presentar la variedad de los diferentes efectos del tra

tamiento. En el siguiente apartado procedemos a analizar varias relacio
nes que podrían darse entre X e Y\ son las variedades de relaciones cau
sales. En el tercer apartado, presento un diagrama causal elaborado que
se basa en la figura 8.1.
Variedades de efectos del tratamiento
Los efectos (causales) del tratamiento se pueden entender de varias ma

neras, y las diferencias pueden ser en algunas ocasiones muy importantes
cuando se interpretan los resultados de un estudio.5 Así, quizás esté justi
ficada una corta digresión sobre este asunto (quienes quieran saltarse
ahora esta discusión algo técnica, pueden retomarla más adelante).
Tome nota de que aunque los siguientes términos suelen definirse por su
aplicación a los diseños de investigación experimentales, sus aplicaciones
más importantes suelen hacerse en entornos en los que los investigadores
no pueden aleatorizar el tratamiento de interés. Aquí, como siempre, los
experimentos desempeñan un papel heurístico.
El efecto individual del tratamiento (EIT) es el impacto de unas condi
ciones de tratamiento (X = 1) en una única unidad en comparación con
la condición de control (X = 0). En nuestro ejemplo de los cupones, una
única unidad puede ser un único estudiante. Así, el EIT para ese estu
diante es su rendimiento en las condiciones del tratamiento (tener un cu
pón) frente a su rendimiento en las condiciones de control (sin cupón es
colar). En concreto, toda estimación del EIT debe adoptar la forma de
un experimento mental contrafáctico, porque no podemos observar di
rectamente las condiciones del tratamiento y las de control para una úni
ca unidad. He aquí el problema fundamental de la inferencia causal que
mencionamos al principio de este capítulo. Sin embargo, sí podemos ob
servar un único pretratamiento y postratamiento individual (sin cupón y
con cupón), y hacer las inferencias correspondientes. Por otra parte, po
demos inferir el EIT a partir de las propiedades de una muestra mayor,
como veremos luego. En cualquier caso, el EIT no suele ser la propiedad
más interesante de un análisis causal, especialmente si nuestra meta es
elucidar propiedades de una población mayor.
El efecto promedio del tratamiento (EPT) es el impacto medio de un
cambio en X sobre Y para una población, es decir, el EIT promedio. Se
intuye que los efectos del tratamiento individual tienden a ser diferentes
de una unidad a otra. De hecho, la heterogeneidad abunda en los fenóme
nos de las ciencias sociales. Por ejemplo, parece probable que unos estu
diantes respondan al estímulo de los cupones más positivamente que
otros. Algunos pueden incluso no responder en absoluto o responder ne-
237
gativamente. El EPT representa el valor promedio de estos efectos hetero

géneos. Suele ser el objetivo de un análisis con muestras grandes. En un
experimento, el EPT se estima comparando un grupo de unidades aleato
riamente elegidas para recibir el tratamiento (el grupo de tratamiento)
con un grupo de unidades aleatoriamente elegidas para la condición de
control (carencia de cupones). Desafortunadamente, la estimación correc
ta del EPT no siempre es posible, lo que explica el desarrollo de una serie
de efectos del tratamiento alternativos que vamos a ver ahora.
En algunas ocasiones, el efecto promedio del tratamiento se refiere
sólo a las relaciones identificadas en una muestra elegida, no en una po
blación mayor. Este efecto es el efecto promedio del tratamiento en una
muestra (EPTM).
El efecto del intento de tratar (EINT) es una forma de enmarcar el
efecto promedio del tratamiento en situaciones en las que se sospecha
que algunas unidades asignadas al grupo de tratamiento no están real
mente expuestas al tratamiento: se trata de un problema de incumpli
miento (que analizaremos más adelante). Se puede interpretar como un
«efecto promedio de tratamiento con incumplimiento probable», es decir,
que el grupo de tratamiento incluye unidades que no están siendo real
mente tratadas. Imaginemos un experimento en el que a algunos estu
diantes se les ofrecen cupones, pero no todos se aprovechan de esta opor
tunidad; siguen asistiendo a su escuela local (sin cupones). Aun así,
podemos comparar el rendimiento entre los estudiantes que reciben los
cupones (el grupo de tratamiento, incluyendo a los que no cumplen la
condición) y los estudiantes que no los reciben (el grupo de control),
pero la comparación tiene una interpretación diferente. Mide el EIT. Ad
vierta que para algunos propósitos el EIT puede ser más relevante políti
camente que el EPT, porque suele haber cierto grado de incumplimiento
asociado a las iniciativas políticas. En todo caso, estos dos efectos causa
les basados en una muestra sugieren diferentes interpretaciones sobre el
efecto de X en Y. Cuando son improbables las inferencias para una po
blación mayor, lo llamaremos un efecto de la intención de tratar a una
muestra (EINTM).
El efecto promedio del tratamiento en los tratados (EPTT) se centra
también en el problema de la asignación no aleatoria y/o del incumpli
miento. El EPTT es el efecto de X en Y para todas las unidades que son
realmente tratadas —frente a todas las unidades que son asignadas, o
podrían serlo, al grupo del tratamiento. Así, si a los estudiantes se les
permite seleccionarse a sí mismos para un programa de cupones, proba
blemente podremos suponer con seguridad que tienen características so
ciales diferentes de las de los estudiantes que no se han autoseleccionado
para el tratamiento. Pueden ser más ambiciosos, más inteligentes, con
padres más cultos, etc. Estos rasgos tenderán a afectar a su rendimiento
238
de acuerdo con cualquier medida de logro educativo que se emplee como

postest. En estas circunstancias hay varios procederes para poder emitir
un juicio sobre el EPTT. Podemos comparar las puntuaciones de estos
estudiantes con otros que no recibieron el tratamiento, pero parecen se
mejantes por sus características y antecedentes sociales. Podríamos com
parar también las puntuaciones de los estudiantes antes y después de re
cibir el tratamiento. En cada uno de estos análisis, el efecto causal de
interés debe considerarse más un EPTT que un EPT, porque estamos es
tudiando un subconjunto especial de la población de interés: los que son
tratados (quizás debido a que ellos mismos eligieron ser tratados).
Si bien un EPTT suele ser correctamente considerado como una co
rrupción del EPT ideal, en algunas circunstancias puede ser más relevan
te que el EPT. Consideremos la cuestión de si los profesores universita
rios enseñan a sus alumnos a adoptar puntos de vista determinados: por
ejemplo, ¿un profesorado liberal hace que los estudiantes se hagan más
liberales?6 En esta situación, supongamos que hay una serie de universi
dades disponibles para la mayoría de los estudiantes —algunas de orien
tación liberal y otras de orientación conservadora. Los estudiantes pue
den elegir en qué ambiente ideológico quieren estudiar. Supongamos
también que ningún programa o regulación gubernamental tiende a inhi
bir esa libertad de elección. Aquí quizás nos interese más el efecto pro
medio del tratamiento (asistir a clases de profesores liberales o conserva
dores) en los sujetos tratados (EPTT) que el efecto promedio del
tratamiento en la población (EPT), donde los sujetos son asignados alea
toriamente a instituciones liberales o conservadoras. Porque este último
es poco probable que suceda. El EPT puede seguir teniendo interés teóri
co, pero carece de importancia práctica. Cuando el EPTT se refiere sólo
a una muestra en lugar de a toda una población, es útil descubrir el efec
to promedio del tratamiento en los tratados de una muestra (EPTTM).
El efecto promedio del tratamiento local (EPTL) es un término más es
pecializado que se utiliza en el contexto del análisis de variables instru
mentales (que explicaremos en el capítulo 10). En concreto, se refiere al
efecto de A' en Y para las unidades cuya condición de tratamiento (trata-
dos/no tratados) se ve afectada por el instrumento elegido. Éste excluye
explícitamente a las unidades que estarían expuestas a la condición del
tratamiento independientemente del instrumento (los que lo experimen
tan siempre) y a las unidades que estarían expuestas a la condición de
control independientemente del instrumento (los que nunca lo experi
mentan). Recordemos que el EPTL define el efecto del tratamiento sólo
para las unidades dentro de la población cuya asignación al tratamiento
es un producto del instrumento identificado. Este efecto debería llamarse
el efecto promedio del tratamiento en el que cumple los requisitos (EPTR);
sin embargo, este término raramente se encuentra en la literatura, por lo
239
que seguiremos llamándolo EPTL. Aunque no suele reconocerse, pode

mos apreciar la utilidad ocasional de otro tipo de efecto de tratamiento
que es local y se limita también a la muestra estudiada más que a la po
blación en conjunto, es decir, el efecto promedio del tratamiento local en
una muestra (EPTLM).7
La sopa de letras de estos acrónimos es ciertamente confusa. Se acon
seja a los lectores que desconocen esta literatura que se fijen no tanto en
las etiquetas como en los conceptos. Sin embargo, como esta terminolo
gía se usa cada vez más, y los conceptos que representan son importan
tes, se recomienda tener cierta familiaridad con el EPT y sus variantes.
Afortunadamente, las distinciones entre estos términos se pueden resu
mir taxonómicamente, como puede verse en la tabla 9.1.
A buen seguro, ninguna taxonomía de este tipo puede ser omnicom-
prensiva. En efecto, no hay límite para definir lo que podría designarse
un efecto del tratamiento mientras respete el criterio definitorio de des
cribir una diferencia en Y cuando X varía. Siguiendo una aproximación
bayesiana a la inferencia causal, podemos imaginar toda una distribu
ción de los efectos del tratamiento (DET) que describe la diferencia en Y
a lo largo de toda su distribución (por medio de una función de densi
dad) —frente a un punto estimado que representa los valores medios de
Y. Con el mismo espíritu, podemos imaginar un cuartil de efectos del
tratamiento (CET), una doble frontera de efectos del tratamiento
(DFET),8 una varianza de efectos del tratamiento (VET),9 y así sucesiva
mente —cada uno con variantes basadas en la muestra y la población.
No he incluido estas variantes en la tabla 9.1 porque aún no son moneda
común.
Hay otro tipo de efecto causal que evita las estimaciones precisas del
impacto de áf en Y a favor de un juicio sobre la dirección general del im
pacto causal (positivo o negativo). He aquí una interpretación plausible
de muchos estudios cualitativos y cuantitativos donde existe un error de
medición potencial, donde la intervención de interés no se aleatoriza y
donde el diseño de investigación apenas se parece a un experimento na
tural.
Esto nos lleva a una última cuestión. A efectos prácticos y teóricos, el
EPT suele ser el efecto más elegido para estructurar el resultado. Esto no
significa que siempre se pueda calcular. Sin embargo, los otros tipos de
efectos del tratamiento se pueden considerar variantes del EPT en la me
dida en que el EPT es el que preferimos estimar en el mejor de los dise
ños de investigación posible. Ésta es la razón de por qué el EPT es el pri
mero de la lista de la tabla 9.1. Allí donde el lector encuentre los
términos efecto del tratamiento y efecto causal sin mayores adornos, in
ferirá normalmente que el autor está interesado en los efectos promedio
del tratamiento.
240
i
•o
*2
’c X
□
g
4 &
oc
X
I ■I 2
=J
i!r ■I
X
1 3
<£
4 E
é
s X
5 ■§ S
£ S :2
X
£ 3
£
E
S - 2 00
o
=J
X
s
i-H I
111 <£ 3
X
E
C/i
o X
1
3
i s
s
X 1
CÚ
X
Q 3
O <£
c
cú 5
6o c O
«Q
a
o
5
5 C
o so O
8 .2
■2 2
S S
cú
e
□
2 S
C ■=
s o 5
E
2
S
5
E
•- £ 5 5 E - 5
(D 2
E 2
£ 1B
E o
E
E
E 5
cú
2 15
E E
5
E
CÚ
ts 13 *§ — -o E
s —. ~o -S 2 "5 o •S o T>
s o
T3 .2 2 S •o
o
"¿3<D_ wu .2 ”3 T5
73
T>
.2 ”u
•3 g
S .g
.£ "o
<L>
E
H -s i
2 2 S 2
P
E 2 —. -o o. E o ex
o
2 3 2 e& 2 « el 2
>
o. 2o
*■*
TJ
Q c C
£
w O 0
o2 c2 2S¿ £O £H
§ <2 £ ¿i- 2
O\ « AS g ¿i
í H sÉzshts ,H H'd
j j E
r
-
h
sÉiKaa.'SCUrt XX
CU cu
£ « M EMMEWMMí: 3
W W! z> 2
241
Variedades de relaciones causales
Hemos visto ya que un efecto del tratamiento (causal) puede adoptar di
ferentes formas. Asimismo, hay una enorme variedad de relaciones dife
rentes que pueden calificarse de causales (por ejemplo, cuando un cam
bio en X genera un cambio en Y). Aunque algunos de los siguientes
términos son bastante arcanos, será de ayuda revisarlos someramente
porque ilustran posibilidades ontológicas (lo que puede estar pasando
«ahí fuera» en el mundo) y estrategias de modelado comunes.
La causalidad coyuntura! se refiere a una situación en la que una
combinación particular de causas opera en conjunto para producir un
efecto. La equifinalidad causal se da cuando varias causas operan inde
pendientemente entre sí para producir un efecto particular. La causali
dad monotónica se da cuando un incremento (o disminución) en el va
lor de X causa un incremento (o disminución) o ningún cambio en Y.
En otras palabras, la relación entre X e Y es siempre positiva o nula o
siempre negativa o nula. La causalidad no lineal se da cuando el impac
to de Xen Y varía con el valor de X (pero puede seguir siendo monotó
nica). Las causas irreversibles (por ejemplo, los efectos trinquete) son
aquellas cuyo impacto en Y es irreversible. Las causas constantes ope
ran continuamente sobre un resultado más que por medio de interven
ciones discretas. Las causas próximas operan inmediatamente en un re
sultado. Las causas distantes, en cambio, tienen efectos en el largo
plazo en un resultado. Las causas secuenciales tienen efectos diferentes
en Y dependiendo de su secuencia. Una cadena causal describe una si
tuación en la que hay muchas causas intermedias entre X e Y. La de
pendencia de la trayectoria se refiere a una situación en la que una úni
ca intervención causal tiene efectos duraderos y quizás crecientes en el
tiempo en un resultado. Las leyes causales normalmente se refieren a
relaciones perfectas (sin excepciones) entre X e Y, observables en una
población grande. Las causas probabilísticas no están perfectamente re
lacionadas con Y (hay excepciones, que pueden representarse con una
condición de error) aunque X sea una causa de Y. Las causas según la
teoría de conjuntos (deterministas) son necesarias ylo suficientes para
producir un resultado. Esta clase de causas incluye la técnica conocida
como análisis comparado cualitativo (ACC), que se centra en coyuntu
ras de factores que, en conjunto, constituyen una causa suficiente de un
resultado (capítulo 12).
Obviamente hay muchas maneras de reflexionar sobre la causación. El
concepto unitario de causación que presentamos en el capítulo 8 abarca
una pluralidad de relaciones causales potenciales. De hecho, una vez que
tomamos este camino analítico no está claro dónde debemos parar. Siem
pre hay potencialmente alguna manera nueva en la que dos factores pue-
242
den covariar o algún nuevo conjunto de mecanismos causales que podría

explicar su covariación. Los términos mencionados antes, resumidos en la
tabla 9.2, son una pequeña porción de la variedad infinita de relaciones
causales que puede existir en el universo. (Advierta que la tabla 9.2 es una
lista más que una tipología, porque no identifica categorías ni exhaustivas
ni mutuamente excluyentes.) No obstante, esta lista es útil a modo de re
sumen rápido e informal del campo. La inmensa mayoría de los argumen
tos causales esgrimidos en la ciencia social contemporánea implican una
de estas relaciones.
Desviaciones de los efectos del tratamiento

Una vez exploradas las variedades de los efectos del tratamiento, y las
variedades de las relaciones causales, es momento de analizar algunas
desviaciones. Las mencionaremos brevemente.
Tabla 9.2 Relaciones causales: una lista parcial

Coyunturas (conocidas como causa compuesta, causa configurativa, causa
combinada, pluralidad conjuntiva de causas): cuando una combinación
determinada de causas opera en conjunto para producir un efecto.
Equijinalidad (conocida como causas múltiples, trayectorias causales múltiples,
pluralidad disyuntiva de causas, redundancia): cuando varias causas operan
independientemente unas de otras para producir, cada una por sí misma, un
efecto determinado.
Monotonicidad: cuando un incremento (o disminución) en X siempre causa un
incremento (o disminución) o ningún cambio en Y.
Linealidadl no linealidad: si el impacto de X en Y cambia de acuerdo con los
diferentes valores de X, la relación es no lineal.
Irreversibilidad: X afecta a Y cuando X aumenta, pero no cuando disminuye, o
viceversa.
Constancia/ delimitación: una causa constante opera continuamente sobre un
resultado; una causa delimitada opera sólo brevemente (aunque puede tener
efectos duraderos).
Próxima!distante: una causa próxima opera inmediatamente en un resultado;
una causa distante tiene efectos a largo plazo.
Secuencia: el efecto de Xl 3 en Y depende de la secuencia en la que Xv X, y X3
intervienen.
Cadena causal: múltiples mecanismos (M) forman una cadena desde X hasta Y.
Dependencia de la trayectoria (también llamada coyuntura crítica): una única
intervención causal tiene efectos duraderos y quizás crecientes con el tiempo.
Leyes causales: relaciones sin excepciones entre X e Y.
Causas probabilisticas: con errores, es decir, con excepciones.
Causas según la teoría de conjuntos: cuando X es necesaria y/o suficiente para Y.
243
En algunas ocasiones, las investigaciones sobre la causalidad se cen

tran en los mecanismos causales que examinamos en el capítulo 8 y vol
veremos a ver en el 11. Tome nota de que las investigaciones sobre los
mecanismos pueden estar orientadas a la estimación de los efectos causa
les, en cuyo caso no se alejan del objetivo tradicional del EPT. Pero tam
bién comprenden una agenda de investigación diferente. Queremos saber
por qué X causa Y, no simplemente el efecto del tratamiento de X en Y.
En otras ocasiones, la investigación sobre la causalidad se centra en
asegurar los límites de una inferencia. La pregunta no es qué efecto cau
sal tiene Xen Y, sino dónde (en qué clase de unidades) tiene este efecto y
cuál es la verdadera población de la inferencia.
En otras más, a los investigadores les interesa calcular la probabilidad
de un resultado basándose en un modelo causal. Es decir, dado que una
unidad tiene un valor determinado para X, ¿cuál es la probabilidad de Y!
Esto puede llamarse predicción (si nos interesan los casos fuera de la
muestra) o descripción (si nos interesan sólo los rasgos de la muestra).
Esto es central para las relaciones causales según la teoría de conjuntos:
cuándo X es necesaria, suficiente o necesaria-y-suficiente para Y (capítu
lo 12).
Otro tipo de argumentos causales se centran en establecer la causa de
hecho, conocida como causa real, causa única, causa de evento único, o
causa en el nivel del caso.'0 Este punto suele ilustrarse con una estilizada
historia sobre un hombre que vaga por el desierto con una pequeña can
timplora de agua. La cantimplora tiene un agujero, pierde agua y el hom
bre muere. Cuando se investiga el caso se descubre que el agua estaba en
venenada. Ahora bien, el EIT de (a) el agujero de la cantimplora y (b) el
agua envenenada es el mismo si se supone que ambos son fatales. La esti
mación de este EIT depende de los supuestos sobre la condición del hom
bre con y sin los tratamientos, y de si los tratamientos se administraron
simultánea o independientemente. A nuestros efectos, lo que nos importa
es que si ambos factores causales son fatales, y si las condiciones de fon
do son las mismas, sus EIT son los mismos. Sin embargo, hay sólo una
causa de hecho. Esta podría ser el agujero de la cantimplora (si el hom
bre murió realmente de sed) o podría ser el agua envenenada (si el hombre
murió realmente envenenado). Podrían ser ambas, si se ha determinado
que estos factores interactuaron para causar su muerte. La cuestión clave
es que este tipo de causalidad no está definida por un contrafáctico y por
lo tanto no se ajusta a las comprensión tradicional de un efecto causal.
Sin duda, la causa de hecho podría articularse de forma contrafáctica
si el contrafáctico se entiende en términos extremadamente concretos (es
decir, si el hombre muere de una forma determinada o en un momento
dado) o si es posible representar los diversos elementos de la historia
causal en un diagrama causal (como afirma Pearl).11 Sin embargo, el ob-
244
jetivo de la causa de hecho suele ser asignar responsabilidad moral y le

gal, no arrojar luz sobre una clase de eventos. Si nos interesan los argu
mentos generalizables, —un punto de partida clave para la mayoría de
las investigaciones científicas, como vimos en el capítulo 3—, la causa de
hecho tiende a desempeñar un papel poco significativo. Si queremos ge
neralizar a partir del caso que aquí describimos —es decir, a otros hom
bres que vagan por el desierto—, probablemente nos interesará más la
conclusión de que tanto el agujero de la cantimplora como el agua enve
nenada aumentan la probabilidad de morir. Tendrá menos importancia
qué es exactamente lo que causó la muerte de una manera determinada y
en un momento dado.
En suma, una investigación de las relaciones causales requiere restrin
girse a preguntas sobre ios efectos causales. Algunas características inte
resantes e importantes quedan fuera del EPT y sus variantes.12 Esto no
significa que estén en contradicción con el modelo de resultados poten
ciales (capítulo 12), pero sí da cuenta de los diversos significados y pro
pósitos del concepto de causación. En todo caso, el efecto del tratamien
to sigue teniendo una posición central en las investigaciones causales en
las ciencias sociales. Por consiguiente, la mayor parte del análisis de este
capítulo y el siguiente se centran en este objetivo tradicional.
Un gráfico causal elaborado
El análisis causal no es un procedimiento mecánico, porque los datos

nunca hablan por sí solos. Hay que interpretarlos y se requieren muchas
suposiciones. Con el fin de clarificar cuáles son estas suposiciones suele
ser útil construir una representación visual de lo que nosotros creemos
que pasa en el mundo. Un gráfico causal debe replicar el proceso genera
dor de datos (PGD), es decir, el proceso real mediante el cual se crearon
los datos que examinamos.13 Desde luego, no podemos saber en realidad
cuál es el verdadero PGD, porque un diagrama causal se considera acer
tadamente como una presentación de los supuestos del autor, algunos
comprobables y otros tal vez no. Un diagrama causal es la mejor apuesta
del autor sobre la naturaleza de alguna realidad.
Hacer gráficos es útil con independencia de si la muestra es grande o
pequeña, de si los datos se generaron experimentalmente o por medio de la
observación, y de si el análisis de los datos es cualitativo o es cuantitativo.
Todas estas situaciones pueden ser bastante complejas; todas requieren su
puestos; y todas están sujetas a parecidas amenazas a la inferencia.
Nuestro primer gráfico causal, la figura 8.1, incluía la causa de interés
teórico (X), el resultado ( Y), el mecanismo (M) y un factor anteceden
te (A). La figura 9.1 incluye estos elementos y añade otros dos.
245
Cada letra de la figura 9.1 (y en otros diagramas del libro) representa

una única variable o un vector de variables. (Así, X podría referirse a una
sola causa o a un conjunto de causas.) Una variable (conocida como
condición, factor, etc.) se refiere a cualquier rasgo que tenga el potencial
de variar, sea medible o no medibie, cualitativo o cuantitativo, continuo o
categórico. Las variables están causalmente relacionadas si hay una fle
cha dirigida apuntando desde una hasta otra. Se entiende que son corre
lativas (asociativas) si están conectadas por una línea sin flechas. Una re
lación correlativa entre A y B puede significar que A causa B, que B
causa A, que un tercer factor, C, causa ambas, o que no hay una relación
causal discernible entre Ay B (están accidentalmente correlacionadas).
Extendámonos ahora sobre los elementos de este gráfico causal.
Un mecanismo causal se definió en el capítulo 8 como la trayectoria o
trayectorias que conectan Xcon Y, llamado M en la figura 9.1.14 Un meca
nismo media entre ellas, y en este sentido explica la relación de X con Y.
Supongamos que los cupones tienen un impacto positivo en el rendimiento
escolar; así, los estudiantes que reciben cupones puntúan mejor en alguna
medida de rendimiento que los que no reciben el tratamiento (en igualdad
de condiciones). Los mecanismos para este efecto causal podrían incluir:
(a) una enseñanza de mejor calidad, (b) unas clases menos numerosas o (c)
más motivación por parte de los profesores y/o los estudiantes.
De interés teórico Factores de fondo

X = Factor causal A = Antecedente
Y = Resultado B = Covariante
Af = Mecanismo C = Confundidor
Características generales
-> = Relaciones causales
— = Covariación (posiblemente causal)
Figura 9.1 Un gráfico causal elaborado
Recordemos que todos estos argumentos causales se articulan en un

trasfondo que se presume constante, de tal forma que se pueda observar
el verdadero efecto de X en Y. Éste es el «ruido» contextual frente al que
tenemos que valorar la «señal» (el efecto de X en Y). Hay tres tipos de
factores de fondo que debemos mencionar.
246
El primero es la causa antecedente de X, A en la figura 9.1. En gene

ral, una causa antecedente es cualquier factor que es (causalmente) pre
vio a otro factor. M es antecedente de Y, X es antecedente de M, y A es
antecedente de X en la figura 9.1. En este sentido, el antecedente es sinó
nimo de «previo», «origen de» o «exógeno a». En la figura 9.1, el factor
llamado antecedente, A, tiene un efecto directo en X, y un efecto indirec
to en M e K15 En el contexto de la investigación sobre los cupones, las
causas antecedentes incluirían los factores que influyen en qué estudian
tes reciben cupones y cuáles no. Puesto que —como se aprecia en la figu
ra 9.1— la causa antecedente (A) no tiene un efecto directo en el resulta
do salvo a través de la causa designada de interés teórico (X), la
adopción de un programa de cupones puede influir en el rendimiento es
colar, pero sólo a través del funcionamiento del programa de cupones.
El segundo factor de fondo adopta la forma de una covariable orto
gonal (B). Este tipo de factor causal tiene un efecto en Y, pero es inde
pendiente de X. Esto significa que B es ortogonal (estocástica, aleato
ria, no correlacionada) al tratamiento, incluso aunque condicione a
otros factores del modelo (un problema cuya importancia veremos en
el capítulo 10). En un estudio experimental sobre los cupones (donde el
tratamiento, los cupones, se aleatoriza entre un grupo de tratamiento y
otro de control), las covariables podrían incluir factores de nivel indivi
dual relacionados con el rendimiento en el test escolar como la edad, la
raza, el sexo, el origen social y los años de escolarización. También po
drían incluir factores verdaderamente aleatorios que no podemos ni
identificar ni medir.
El último factor de fondo, con diferencia el más importante, es el con
fundidor (C). En general, un confundidor es cualquier factor que dificul
te una estimación verdadera (no sesgada) del efecto de X en Y y que
constituya una amenaza para la inferencia causal. Por lo tanto, un con
fundidor covaría con X, un hecho que lo distingue de una covariable or
togonal (B). (Para profundizar sobre este asunto, véase el capítulo ll.16)
La estrategia más simple y común de la inferencia causal se funda
menta en la covariación de X e Y. Si el problema de los confundidores se
puede resolver, o al menos mitigar, la pauta de la covariación entre XeY
debe proporcionar la base de una estimación válida (no sesgada) del
efecto causal. Si, además, el ruido que procede de las covariables (B) es
limitado —controlado por el condicionamiento de estos factores o com
pensado por una cantidad enorme de observaciones en una muestra—,
entonces la estimación del impacto causal será relativamente precisa (es
table, fiable). Todos los problemas asociados con la estimación se divi
den, por lo tanto, en dos categorías: validez (ausencia de confundidores)
y precisión (ruido procedente de las covariables), representados por Cy B
en la figura 9.1.
247
Esto es, sin duda, un breve análisis que omite elementos de gran im
portancia para la inferencia causal. Hay que reconocer que los gráficos
representan una descripción muy simplificada de lo que puede ser una
realidad extremadamente compleja. No todos los factores causales se in
cluyen siempre y claramente en una de estas categorías (A, B, C, X, Y o
Af). Por ejemplo, un factor puede tener elementos de M y de C; es decir,
puede ser en parte endógeno a X (un mecanismo causal, M) y ejercer
también un efecto causal independiente en Y (un confundidor de causa
común, Q. Sin embargo, la simplificación de la figura 9.1 es heurística
mente útil. Hay otros problemas de la inferencia causal que requieren
gráficos causales más complejos, como veremos en el capítulo 11,
Criterios
Una vez aclarado el problema de la valoración causal y la naturaleza de

las amenazas potenciales a la inferencia (en referencia sobre todo a las
cuestiones de validez interna), regresamos a los criterios generales del
análisis causal. Cuando se comprueban los argumentos causales, ¿qué
desiderata intentan cumplir los diseños de investigación y los correspon
dientes análisis de datos?
En el capítulo 4 afirmé que un buen diseño de investigación cumple
cuatro criterios generales: exactitud, selección de la muestra, acumulación,
ajuste teórico, y sus correspondientes componentes. Ahora voy a introdu
cir las dimensiones de la inferencia que pertenecen únicamente a la causa
lidad. Divido este tema en tres categorías generales: el tratamiento, el re
sultado y la muestra, cada una de ellas con sus correspondientes criterios.
En ellos se basa nuestro análisis. Por comodidad, la tabla 9.3 enumera las
siete dimensiones del diseño de investigación en el análisis causal.17
Es vital tener presente que tanto aquí como a lo largo del libro todos
los criterios presuponen la condición ceteris paribus. Todos son buenos,
en igualdad de condiciones. Cuando lo demás no permanece igual el in
vestigador debe esforzarse para ajustarse lo más posible a los criterios
con el fin de que el resultado neto maximice la utilidad de estos diferen
tes desiderata.
Antes de empezar debo alertar al lector acerca de una división estilís
tica en los siguientes apartados. Este capítulo aborda el tema del diseño
de investigación desde la perspectiva del tipo ideal (máximo): ¿cuáles son
las características de un diseño de investigación canónico, arquetípico? Si
pudiéramos agitar una varita mágica metodológica sobre nuestro proble
ma de inferencia causal elegido, ¿qué características del diseño de investi
gación desearíamos que tuviera? En capítulos posteriores del libro admi
to la realidad de que no existen varitas mágicas o hadas metodológicas;
248
el diseño de investigación canónico es, por lo tanto, raramente alcanzable

en la práctica —al menos sin sacrificar rasgos importantes de la agenda
teórica de un investigador. Sería deseable que estos capítulos se leyeran
juntos. Los investigadores necesitan saber en qué se esfuerzan, pero tam
bién necesitan saber cómo y cuándo hacer concesiones. El idealismo es
importante, pero también lo es el pragmatismo. Así, comenzamos por
adoptar una perspectiva utópica.
Tabla 9.3 Análisis causal: criterios

ANÁLISIS
( Capitulo 4)
1. Exactitud
¿Son los resultados (a) válidos, (b) precisos (fiables) y (c) van acompañados
de una estimación de la incertidumbre (confianza, probabilidad) al respecto
de (d) la muestra elegida (validez interna) y (e) la población de interés
(validez externa, es decir, capacidad de generalizar)?
2. Selección de la muestra
¿Son las observaciones elegidas (a) representativas de la población de
interés, (b) suficientemente numerosas y (c) se sitúan en el nivel principal de
análisis?
3. Acumulación
(a) ¿Está el diseño de investigación normalizado respecto a otra
investigación similar sobre el mismo tema? (b) ¿Replica los hallazgos
existentes y facilita futuras replicaciones a otros estudiosos? (c) ¿Son
transparentes los procedimientos?
4. Ajuste teórico
(a) ¿Proporciona el diseño de investigación una comprobación apropiada
para la inferencia (validez de constructo)? (b) ¿La comprobación es fácil o
difícil (severidad)? (c) ¿Está el test separado del argumento que se está
investigando (partición)?
ANÁLISIS CAUSAL
( Este capitulo)
5. Tratamiento
¿Es X (a) exógena (a T), (b) variable, (c) simple, (d) discreta, (e) uniforme,
(f) distribuida uniformemente, (g) fuerte, (h) próxima (a Y), y (i) escalable?
6. Resultado
¿Varía Y o al menos puede variar?
7. Muestra
¿Son las observaciones elegidas (a) independientes (entre sí) y (b)
causalmente comparables?
249
Tratamiento
El contrafáctico asociado a toda pregunta causal es ¿qué hubiera pasado

con un resultado (Y) si el tratamiento (X) hubiese sido diferente? A
efectos de la comprobación, un buen tratamiento debe ser: (a) exógeno (a
K); (b) variante; (c) simple, (d) discreto; (e) uniforme; (f) uniformemente
distribuido; (g) fuerte; y (h) próximo (a Y).
Exogeneidad
Un buen tratamiento es exógeno en relación con el resultado que se está

investigando. X no debe estar afectado por Y. Esto está implícito en los
calificativos de las variables «independiente» (X) y «dependiente» (f).
(En algunas ocasiones la exogeneidad tiene un significado más amplio e
implica que el tratamiento se asigna aleatoriamente o de forma parecida,
lo que significa que X no está correlacionada con posibles confundido
res. Empleo el término de una manera estricta y me refiero sólo a la rela
ción entre X e K)
Por supuesto, sabemos que muchas relaciones causales en el mundo
real son probablemente recíprocas. Se presume que el desarrollo econó
mico afecta a la salud de la población, y que la salud de la población
afecta al desarrollo económico. Se presume que la clase social afecta a la
educación y que la educación afecta a la clase social. Sin embargo, cuan
do formulamos una hipótesis causal generalmente identificamos un fac
tor como Xy el otro como Y. Así, un investigador impone una conjetura
específica sobre las múltiples y complejas realidades del mundo. A igual
dad de condiciones, nos preguntamos qué efecto podría tener en Y un
cambio de X (en caso de que cambie).18
Para comprobar esta hipótesis, es esencial que X sea independiente
(exógena) respecto a Y —o que cualquier endogeneidad que haya se pue
da corregir por medio de prestidigitación estadística (correcciones que
suelen ser cuestionables). Otra manera de expresar este problema es en
términos de la endogeneidad entre Y y X, como veremos en el capítulo 11.
La precedencia temporal es un test empírico de exogeneidad.19 Sin em
bargo, este test no es en modo alguno suficiente y, de hecho, suele inducir
a error. La simple medición de X durante un periodo de tiempo determi
nado antes que Y no proporciona un método infalible de «exogeneizar»
X, y los test de causalidad que se basan sólo en la prioridad temporal
(por ejemplo, la causalidad de Granger), si bien son informativos, en ab
soluto son definitivos. Por esta razón, considero la temporalidad como
una cuestión secundaria, uno de las muchos indicativos posibles de exo
geneidad.
250
Variación
La evidencia empírica de las relaciones causales es en gran medida cova-

riacional por naturaleza. Cuando se observa la colisión entre dos bolas
de billar, vemos que X e Y están asociadas; cuando X colisiona con K, Y
responde moviéndose. Antes de la llegada de X, Y estaba parada y des
pués de la partida de X, Y vuelve a pararse. Esto indica (aunque no prue
ba) que X es una causa de Y, y siempre nos dice algo sobre la naturaleza
de la relación.
La covariación puede adoptar muchas formas, incluyendo las que se
enumeran en la tabla 9.2. Y hay muchísimos cuasi sinónimos para esta
idea básica, como por ejemplo asociación, correlación, conjunción cons
tante (Hume), variación concomitante (Mili), y congruencia. A veces, la
covariación sigue una pauta perfecta (sin excepciones, invariante, «deter
minista»), es decir, X es necesaria y/o suficiente para Y. En otras ocasio
nes es probabilística por naturaleza.20
Cualquiera que sea la naturaleza de la relación, X e Y deben mostrar
alguna pauta de covariación —al menos hipotéticamente. Sin ella, la
causación no puede funcionar. Así, la covariación empírica se considera
apropiadamente como la condición necesaria (aunque de ningún modo
suficiente) de una relación causal.
La variación de X —la variable explicativa de interés— es de impor
tancia crucial. Un estudio experimental asegura la variación de X mani
pulando el tratamiento. Un estudio observacional busca casos que exhi
ben una variación natural de X. Por ejemplo, un estudio sobre los
cupones podría incorporar la variación en este parámetro clave compa
rando las escuelas con cupones con las escuelas que carecen de ellos, o
comparando los estudiantes con cupones con los que no los tienen (cam
biando la unidad de análisis de las escuelas a los individuos). O podría
adoptar la forma de una comparación temporal entre escuelas (o estu
diantes) antes y después de establecer los cupones. Si no tenemos esta
variación, nuestro análisis se parecerá a un experimento mental contra-
fáctico en el que esta variación será imaginaria —un diseño de investiga
ción mucho más débil.21
Simplicidad
Los tratamientos simples son más fáciles de comprobar que los complejos.
Esto es de sentido común. Sin embargo, los costes que imponen los trata
mientos más complejos merecen atención. En los casos en los que el inves
tigador no puede simplificar el tratamiento (quizás la teoría exige un trata
miento más complejo), siempre tendrá que contar con estos costes.
251
1
El tratamiento más simple implica sólo dos condiciones: una condición

de tratamiento (X = 1) y una condición de control (X = 0). Normalmente
es fácil identificar cuál es cuál, es decir, qué condición ejemplifica el statu
quo o la hipótesis «nula» y qué condición ejemplifica el tratamiento. Sin
embargo, ocasionalmente se comparan dos condiciones de tratamiento sin
control puro. Por ejemplo, una investigación sobre los sistemas electorales
debe comparar los diferentes sistemas electorales; aquí no hay una condi
ción de «ausencia de tratamiento» (control puro). En todo caso, estas dis
tinciones son fundamentalmente semánticas. Los problemas metodológi
cos cuando se compara X = 0 con X = 1 son los mismos que cuando se
compara X = 1 con X = 2. Ambos son tratamientos simples.
La complejidad puede significar muchas cosas. Puede referirse a unos
grupos de tratamiento múltiple organizados en una escala ordinal (0, 1,
2, 3, 4...). Puede implicar distinciones categóricas que son nominales
más que ordinales (por ejemplo, católico, protestante, judío y musul
mán). También puede implicar interacciones entre varias variables cate
góricas (por ejemplo, católico y varón, católico y mujer, protestante y va
rón, protestante y mujer). Aquí el número de tratamientos equivale al
número de combinaciones.
Otro tipo de complejidad se refiere a tratamientos continuos, donde X
varía a lo largo de algún intervalo. Aquí, los tratamientos son esencial
mente infinitos, porque habrá un número infinito de puntos en cada in
tervalo. En general, los tratamientos continuos se modelan matemática
mente para reducir su complejidad. Así, un tratamiento continuo se
podría modelar como una función lineal (Y = X + e) o como alguna fun
ción no lineal (por ejemplo, Y = X + X2 + e). Sin duda hay, en principio,
un número infinito de funciones no lineales, por lo que los tratamientos
continuos son inherentemente complejos, incluso si la matemática es par
simoniosa.
Lo importante es esto: la complejidad implica un mayor número de
tratamientos. Esto significa que el investigador tendrá que incorporar
una muestra mayor con el fin de comprobar las múltiples hipótesis o re
ducir el número de hipótesis por medio de alguna fórmula matemática.
El coste de este enfoque es que tenemos que introducir suposiciones que
no siempre se pueden comprobar del todo, especialmente si la composi
ción de X en la muestra no está uniformemente distribuida (como vere
mos a continuación).
Discreción
La discreción de un tratamiento determina en parte la facilidad con la que

se observarán las relaciones causales. Un tratamiento discreto es abrupto,
252
i
es decir, breve en términos de duración. Se puede describir como una dosis.

Por consiguiente, es fácil comparar unidades antes y después del trata
miento, o entre los grupos de tratamiento y de control, sin que intervenga
una cantidad excesiva de confundidores.22 Si el tratamiento de un estudio
es un cupón, sólo tenemos que registrar el periodo durante el que se admi
nistró ese tratamiento y los objetivos que recibieron el cupón (presumimos
que no hay efectos anticipatorios importantes).
Si, en cambio, el tratamiento no es discreto, tal vez no haya una refe
rencia con la que poder comparar el efecto del tratamiento. Considere
mos un programa de cupones que facilita dinero a los estudiantes men
sualmente, con diferentes desembolsos en diferentes momentos, y sin un
punto de comienzo o terminación claro. Aquí, el análisis tendrá que de
pender de la simplificación de los datos como, por ejemplo, una relación
lineal entre el dinero desembolsado (a un estudiante o escuela) y los re
sultados logrados.
Si bien este ejemplo puede parecer bastante artificial, sí ejemplifica un
rasgo común de muchos marcos observacionales. Como el experimenta
dor no controla el tratamiento, tiende a introducirse de forma fortuita un
tratamiento natural. La «dificultad» de los datos de observación no es
simplemente la asignación no aleatorizada del tratamiento (como vere
mos después), sino también la naturaleza del tratamiento en sí.
Uniformidad
Para comprobar el impacto de un factor causal es esencial que la inter

vención sea relativamente uniforme entre las unidades elegidas. Si el tra
tamiento es binario (0/1) o multicotómico (0/1/2/...), entonces lograr la
uniformidad es simplemente cuestión de asegurarse de que las dosis son
correctas. Si el tratamiento es continuo, se mantendrán los requisitos de
una escala de intervalo.
En algunos aspectos la cuestión de la uniformidad es un problema de
medición, es decir, de la construcción de indicadores (capítulo 7). Como
los argumentos causales se fundamentan en conceptos e indicadores, to
dos los criterios relativos a los conceptos e indicadores atañen necesaria
mente al análisis causal. A este respecto, el examen que hacemos aquí es
redundante.
Sin embargo, el problema de los tratamientos no uniformes merece
mencionarse de nuevo, porque cuando un tratamiento es heterogéneo
por naturaleza —o se administra heterogéneamente— su efecto cau
sal será difícil, si no imposible, de interpretar. Consideremos qué pasa
si contemplamos una medición binaria de la democracia (como la de
Przeworki y sus colegas) como factor causal que explica un resultado
253
(por ejemplo, el crecimiento económico). Al codificar todos los países

como 0 = autocráticos o 1 = democráticos, estamos suponiendo que todos
los países codificados con 1 reciben el mismo tratamiento, y todos los paí
ses codificados con 0 comparten el mismo estatus como grupo de «con
trol». Puesto que el tratamiento es observacional, y puesto que es difícil
imaginar qué manipulación de la realidad lograría ese tratamiento, ésta es
una cuestión difícil de evaluar. Baste decir que hay una alta probabilidad
de que todos los países codificados con 1 no sean iguales en la dimensión
de interés teórico (la democracia) y todos los países codificados con 0 no
sean iguales en la correspondiente dimensión de interés (la autocracia).
A este respecto, las mediciones de la democracia con intervalos pare
cen preferibles. Pero aquí también debemos preocuparnos por la unifor
midad del tratamiento. Tengamos en cuenta que un indicador compues
to, como el tipo de entidad política, que se construye con una compleja
regla de agregación a partir de varios componentes, puede no ser verda
deramente unidimensional. En concreto, una codificación de «3» puede
significar algo diferente en distintos casos: es decir, las diferentes mane
ras de lograr un «3» pueden no ser verdaderamente intercambiables en
términos de sus efectos causales. Si es así, el impacto de este tratamiento
es fundamentalmente ambiguo.23 Una vez más, la importancia de un tra
tamiento uniforme es primordial para interpretar un efecto causal.
Distribución uniforme
Además de la variación, la simplicidad y la uniformidad, es deseable

también que el factor de interés teórico implique una distribución unifor
me entre cualesquiera que sean los valores considerados teóricamente
significativos. Esta cuestión puede expresarse también como el problema
de los «valores perdidos».24
Supongamos que estamos examinando el efecto de los cupones en el
rendimiento escolar y tenemos una distribución sesgada de los valores
para X. Digamos que sólo dos estudiantes han recibido cupones {X = 1),
mientras que a los otros 10.000 estudiantes de nuestra muestra se les asig
na la condición de control (X = 0). Esto no es un marco ideal para resol
ver cuestiones de causalidad, porque cualquier resultado del análisis se
basa en la disposición de los dos casos positivos. El N del estudio es gran
de, pero no es muy informativo y apenas puede aspirar a la generalidad.
Asimismo, con un tratamiento continuo podríamos interesarnos por
los niveles de dosis en todos los niveles de X —alta, media y baja, por
ejemplo. Sin embargo, si las aspiraciones teóricas de la teoría exceden la
variación real de X, entonces podemos intuir valores de Y para los que
no hay un valor correspondiente de X (un experimento mental contrafác-
254
tico). Si X varía sólo de 0 a 5, tenemos que ser cautos a la hora de hacer

predicciones sobre Y para los valores de X que excedan 5.25 De igual
modo, si los valores de X incluyen sólo el punto máximo y el mínimo de
una supuesta distribución (por ejemplo, X = 0 o X = 10), hay que ser
prudente a la hora de hacer predicciones sobre Y cuando 0 < X < 10.
Todos estos problemas se refieren a la distribución para los valores de
la variable de interés teórico. En pocas palabras, si no hay observación
para un valor dado de X, entonces no sabemos realmente —al menos no
a partir de ningún conocimiento empírico directo— qué valor tendrá Y
si a y se le asignara, contrafácticamente, ese valor perdido.
Fuerza
Es más fácil detectar una señal fuerte que una débil. Así, es de mucha
ayuda que el tratamiento elegido para la comprobación empírica tenga
un efecto (supuestamente) fuerte en Y. Los efectos causales minúsculos
tienden a producir incapacidad para rechazar la hipótesis nula, aun en el
caso de que (alguna forma de) la hipótesis sea verdadera.
Consideremos que nos proponemos comprobar el efecto de los cupones
en el rendimiento escolar en un sistema de cupones de sólo 500 dólares
anuales por estudiante (que podrían asignarse a la matrícula en una escue
la privada). Este pequeño estipendio no cubrirá más que una pequeña
fracción de la enseñanza en la mayoría de las academias privadas de los
Estados Unidos. Así, su efecto agregado en el grupo tratado tenderá a ser
pequeño, quizás hasta el punto de desvanecerse. Poco sirve un diseño de
investigación de esta naturaleza —a menos que el investigador tenga algu
na razón para suponer que la señal será lo suficientemente fuerte para de
tectarla. (Quizás imagina que una pequeña suma de dinero extra introduci
rá alguna diferencia en una categoría medible de estudiantes de clase
media-baja.) No sabemos, a príori, el verdadero efecto causal de un cam
bio dado de X en Y; éste es el objetivo de la investigación. Sin embargo,
comprobar una hipótesis requiere que hagamos supuestos sobre la fuerza
probable de esta relación. Así, cuando decimos que una señal es fuerte, lo
que estamos afirmando es que es supuestamente fuerte —lo suficientemen
te fuerte como para esperar que quede registrada en el diseño de investiga
ción que se está empleando, si la hipótesis es correcta.26
Cierto que en algunas ocasiones una señal débil se puede compensar
con otras virtudes del diseño de investigación, como por ejemplo una
instrumentación sensible (que nos proporciona una precisión mayor y un
error de medición menor), con pocos confundidores y con una muestra
mayor de observaciones. Pero, ceteris paribus, preferiremos siempre una
señal fuerte.
255
1
Proximidad
Para observar el efecto de X en Y es bueno que el tratamiento y el re

sultado elegidos sean bastante próximos (en términos de distancia cau
sal y temporal). De este modo se limita el número de posibles confundi
dores, así como el alcance temporal de la investigación. Tenga en
cuenta que un periodo de espera largo entre el inicio del tratamiento y
el resultado de interés implica que, salvo cuando las unidades investiga
das se pueden aislar durante largos periodos, estarán sujetas a todo
tipo de amenazas postratamiento a la inferencia, como veremos más
adelante. Además, una proximidad alta entre X e Y significa que el me
canismo o mecanismos causales que van de X a Y serán más fáciles de
observar e identificar.
Consideremos el caso de los cupones. Los efectos a corto plazo en el
logro educativo, por ejemplo, son bastante fáciles de comprobar. Los
efectos a largo plazo en los ingresos obtenidos y el estatus ocupacional a
lo largo de la vida, por ejemplo, son más difíciles de comprobar. Por lo
general, la logística de un diseño de investigación se complica cuanta ma
yor es la duración de la comprobación. Seguir a los individuos durante
un periodo de cuarenta años es más difícil que hacerlo durante dos. La
no-respuesta (quizás debido a la mortalidad o la movilidad) es un pro
blema grave. Además, la probabilidad de que intervengan numerosos
confundidores potenciales es alta durante este periodo tan largo; después
de todo, hay muchas cosas que pueden afectar a los ingresos de una per
sona durante su vida que no afectan al rendimiento educativo en un pe
riodo de dos años. Para controlar estos factores, aunque sean aleatorios,
se necesitará una muestra mucho mayor. Por las mismas razones, costará
mucho más identificar los mecanismos causales.
Por supuesto, a menudo nos interesan las causas distantes por razones
sustantivas o teóricas. De hecho, podríamos argüir que los efectos a cor
to plazo de los cupones —y de otros muchos otros tratamientos políti
cos— son triviales. Si todo lo que logra un programa de cupones es un
aumento de dos años en el rendimiento escolar, ciertamente no merece la
pena preocuparse. Esto ilustra una tensión recurrente entre los desidera-
ta formales de una buena teoría y los desiderata de un buen diseño de in
vestigación. Las causas distantes suelen ser más interesantes e importan
tes, pero también son más difíciles de comprobar.
En algunas ocasiones, la solución de este dilema pasa por aplicar una
medida próxima que sirva de proxy para los resultados distantes de inte
rés teórico. Por ejemplo, en el caso de los cupones podríamos intentar
medir los niveles de motivación o la identidad propia —cosas que pue
den traducirse a cambios en el rendimiento a largo plazo. ¿Desarrollan
los estudiantes incluidos en el programa de cupones aspiraciones más
256
elevadas, más autoestima o mejores hábitos laborales que los estudiantes

que están en el grupo de control? Sin embargo, las proxies para los resul
tados a largo plazo son siempre sospechosas. No hay razones para supo
ner que las ganancias en motivación e identidad propia persistirán du
rante muchas décadas.
Escalabilidad
Algunas intervenciones son más generalizables que otras. Supongamos

que el número de sujetos tratados en un experimento es limitado —algo
normal en el trabajo experimental, en el que suele ser imposible ampliar
un tratamiento para incluir a toda la población de interés.
El problema de una comprobación limitada es que puede no ser posi
ble generalizar un efecto causal desde una muestra a la población de in
terés. ¿Un programa de cupones con 1.000 receptores funcionará igual
que con 10.000? ¿Un plan de deducciones fiscales proporcionará los mis
mos incentivos cuando su valor aumenta de 1.000 dólares a 10.000?
El riesgo de extrapolar efectos causales a partir de una comprobación
limitada es obvio. Lo que quizás no es tan obvio es la frecuencia con la
que la ampliación afecta a la naturaleza de la relación causal.27 Téngase
en cuenta que cuando un programa de cupones se amplia desde una
comprobación limitada a todo un distrito escolar tiende a comportar
efectos compuestos que no son fáciles de anticipar. Los profesores de ese
distrito pueden entrar o dejar el sistema, cambiando asi la composición
de su personal docente. Pueden también ocurrir movimientos considera
bles de estudiantes que entran o salen del sistema. Los efectos de la com
petición que introducen los cupones serán presumiblemente compuestos.
Estos son los tipos de problemas que querríamos identificar —y, en la
medida de lo posible, superar— cuando construimos o identificamos un
tratamiento. Los tratamientos escaladles son preferibles a los tratamien
tos cuyo impacto no se puede generalizar en una escala diferente (nor
malmente mayor).
Resultado
Variación
Respecto al resultado de una hipótesis —la variable dependiente—, ape

nas hay requisitos que cumplir salvo que debe dejarse que Y varíe. Por
supuesto, podríamos decir que éste es precisamente el sentido de la com
probación de una hipótesis, por lo que apenas merece mencionarse.
257
El problema es que incluso en los diseños de investigación experimen

tales cuidadosamente construidos debemos ser siempre cautelosos con los
moderadores ocultos que suprimen el efecto de X en Y, o que constriñen
totalmente el movimiento de Y. Si estos factores están fuera de los pará
metros teóricos de una teoría, obstaculizarán el proceso de la comproba
ción. Debemos también tener cuidado con los problemas de la instrumen
tación y la medición. Por estas razones probablemente nos sentiremos
más seguros con un diseño de investigación que revele cierta variación,
aunque sea pequeña y aun si es debida a factores estocásticos. Considere
mos una comprobación experimental de los cupones al término de la cual
descubrimos que no hay variación en el tiempo o entre los estudiantes en
su logro educativo: todos los estudiantes logran la misma puntuación en
el postest. Se trata de un ejemplo absurdo, pero ilustra un problema po
tencial. Sospechamos que hay alguna constricción sobre Y diferente de X,
en cuyo caso la comprobación no es válida: en virtud de alguna condición
de fondo, Y no ha podido responder a X bajo ninguna circunstancia.
Dicho esto, el problema de la «variación en X» es mucho más relevan
te en los marcos observacionales que en los experimentales. En los con
textos observacionales, cuando nos referimos a la variación de Y nos es
tamos refiriendo normalmente al rango de variación (de mínima a
máxima) en un resultado así como a la dispersión máxima en torno a la
media. Estos dos conceptos gemelos se incluyen en el concepto estadísti
co de varianza.
En el trabajo observacional es altamente deseable la identificación de
los contextos en los que Y varía realmente (más que simplemente de
aquellos en los que Y es libre de variar, desde alguna perspectiva hipoté
tica). Aquí, no podemos manipular X y quizás tenemos menor seguridad
sobre la capacidad de Y de responder a un cambio dado en X. Los facto
res confundidores son legión, y un resultado estable podría por tanto
atribuirse a muchas cosas. Nos tranquiliza observar cierta variación en
7, esté o no causada por X. Esto no significa que no aprendamos nada
de una situación en la que X cambia, pero Y no. Significa que aprendere
mos más —mucho más— de un contexto en el que hay variación de am
bas, X e Y. Así, si realizáramos un estudio observacional centrado en
una causa (o en múltiples causas) de la democracia no querríamos elegir
una muestra de países en los que apenas hay variación en el resultado
(autocracia/democracia).
El problema de la variación de Y se hace más evidente cuando prácti
camente no existe, como ocurre con algunos resultados como la guerra,
la revolución o los tiroteos en centros escolares, que suceden muy rara
mente. Los eventos raros plantean un problema para el análisis causal
precisamente porque toda valoración de sus causas se basa en los pocos
casos en los que la variación de Y es observable. Y si no hay variación en
258
absoluto en Y en la muestra será difícil decir algo sobre X, aparte de la

eliminación de las causas suficientes. El primer objetivo de un diseño de
investigación para eventos raros debe ser captar en la muestra tantos ca
sos raros como sea posible, a pesar del hecho de que esto tiende a sesgar
la representatividad de esa muestra. Afortunadamente, se han desarrolla
do métodos para proporcionar estimaciones no sesgadas a partir de
muestras con un sesgo estimable (lo que se conoce con diferentes expre
siones: muestreo de casos y controles, muestreo basado en la respuesta o
muestreo basado en la elección).28 Debe tenerse en cuenta también que el
supuesto pecado de «seleccionar sobre la base de la variable dependien
te» se suele usar erróneamente para etiquetar los diseños de estudios de
controles y casos o los estudios de casos.29
Una cuestión que hay que mencionar antes de dejar este tema es que
la variación de Y importa más en los estudios exploratorios de Y (en los
que no hay una hipótesis específica que comprobar) que en los estudios
centrados explícitamente en una causa específica de Y. En el primer
caso, lo que queremos explicar es la variación de Y al margen de sus cau
sas, por lo que tiene sentido identificar una muestra que maximice la va
riación (la varianza) de Y. En el segundo caso, es justificable muestrear
sobre la base de X siempre que haya alguna variación en Y. (Para un exa
men más profundo de la distinción entre los efectos de las causas y las
causas de los efectos en las investigaciones, véase el capítulo 12.)
Muestra
En el capítulo 4 analizamos el problema de la selección de la muestra que

atañe generalmente a todo análisis en ciencias sociales. Aquí nos centra
remos en los elementos que son específicos para el análisis causal.
Estos problemas se pueden resumir con dos criterios generales: la in
dependencia y la comparabilidad. Las unidades y las observaciones (de
esas unidades) deben ser independientes entre sí y comparables unas con
otras de forma que sean relevantes para la hipótesis XI Y.
Advierta que en algunas ocasiones es apropiado considerar la muestra
en función de las características de las unidades, mientras que en otras es
más oportuno considerar las características de las observaciones. La dis
tinción no es crucial para nuestros propósitos ahora.
Cuando se violan los supuestos de independencia o comparabilidad
dentro de la muestra, se plantea un problema de ruido (covariantes orto
gonales) o de sesgo (confundidores), como ilustra la tabla 9.1. Como el
sesgo es un problema más importante, nos vamos a centrar principal
mente en él. Igual que antes, aquí nos preocupan principalmente los pro
blemas de la validez interna más que los de la validez externa.
259
Independencia
Si queremos proporcionar evidencia sobre una proposición causal, las

condiciones de tratamiento y de control deben ser independientes entre sí.
Esto hace referencia a la capacidad de separación de las observaciones, de
forma tal que se pueda considerar que cada observación proporciona evi
dencia nueva de una proposición causal. Expresado de otro modo, la va
riación en / debe ser el producto del tratamiento, no de la interacción en
tre las unidades o entre las condiciones de tratamiento y control.
De forma típica, el problema de la independencia afecta a las unida
des, como cuando un grupo de tratamiento es comparado con un grupo
de control, o varios miembros de un grupo de tratamiento son compara
dos unos con otros. Sin embargo, también pueden surgir problemas de
independencia dentro de una unidad dada, como ocurre en un diseño
longitudinal, donde una sola unidad es comparada en T\ y T2 (capítulo
10), o en un diseño de resultados alternados (capítulo 11).
Un ejemplo de independencia entre ensayos es el lanzamiento de una
moneda al aire. En el ejercicio de tirar la moneda el resultado de una ti
rada no afecta al resultado de las demás. Son independientes. Saber que
la moneda cae cara o cruz en una tirada no nos ayuda a predecir el resul
tado de la siguiente tirada. Y esto significa que aprendemos del resultado
de interés —la probabilidad de la cara o la cruz— en cada tirada.
Un ejemplo de no independencia entre ensayos sería un test que com
prueba secuencialmente el conocimiento de los estudiantes sobre un
tema con el mismo examen (cada persona, una a una, hace el mismo exa
men). Entre las convocatorias de los exámenes, se permite que los estu
diantes se comuniquen entre sí. Es obvio que el resultado de un examen
puede no ser independiente de los resultados de exámenes previos. Los
estudiantes probablemente compartieron información sobre las pregun
tas y las respuestas del examen.
La violación de la independencia, es decir, la dependencia, puede de
berse a la autocorrelación serial (temporal), en la que una observación de
una unidad dada depende de otra observación previa de esa unidad, o a
la correlación espacial, donde la observación obtenida de una unidad de
pende de las observaciones obtenidas de otra unidad.
Las violaciones de la independencia pueden ocurrir antes o después
del tratamiento. Antes del tratamiento los elementos comunes entre las
unidades pueden crear un agrupamiento de atributos (conocido como
grupos correlacionados) que viola la independencia de cada unidad. Tras
la administración del tratamiento nos solemos encontrar con un proble
ma de interferencia, donde las unidades se «contaminan» entre sí.30 (Am
bos problemas violan el importante supuesto estadístico de los errores
independientes e idénticamente distribuidos [errores i.i.d].)
260
k
Veamos un ejemplo de ciencias sociales. Para comprobar una relación

entre el desarrollo económico y la democratización podríamos decidir
hacer una muestra global de países y observarla durante un periodo de
tiempo. Desafortunadamente estos países no se pueden considerar total
mente independientes entre sí en relación a esta hipótesis. Lo que ocurre
en Bélgica no es independiente de lo que ocurre en Francia, por ejemplo
—sobre todo después de crearse el Mercado Común/Unión Europea. In
cluso antes de esta confederación continental, los Estados europeos
aprendieron unos de otros. Podría decirse que la democratización fue un
fenómeno que ocurrió a escala continental más que nacional. A este res
pecto, todo análisis que considere que los países son iguales está tenien
do en cuenta observaciones que no son verdaderamente independientes
entre sí, un ejemplo de dependencia espacial o de agrupamiento.
Con frecuencia se viola la independencia cuando un tratamiento tiene
efectos de desbordamiento, es decir, efectos de las unidades tratadas que
afectan a las unidades no tratadas (interferencia o contaminación). Su
pongamos, por ejemplo, que el desarrollo económico promueve la demo
cratización en el país que está desarrollándose, pero tiene consecuencias
también en la democratización de los países vecinos (de forma no rela
cionada con el desarrollo económico). En un experimento con los cupo
nes, supongamos que un programa de cupones tiene efectos de desborda
miento en los estudiantes, las familias o las escuelas que no participan en
el programa (el grupo de control). Esto planteará problemas en el análi
sis, porque las unidades interactúan entre sí y por ende dejan de ser inde
pendientes al respecto de la hipótesis causal. (Plantea también problemas
de comparabilidad causal, como veremos luego.)
Si observamos las unidades durante un periodo de tiempo hay que te
ner en cuenta los problemas de independencia temporal. Supongamos
que un estudio sobre el desarrollo y la democracia se considera cada año
como una observación independiente, un enfoque típico en un análisis
transnacional de datos de panel. Podría afirmarse que estamos sobreva
lorando el grado de independencia causal en el tiempo, porque el tipo de
régimen de un país en un año es presumiblemente dependiente de su tipo
de régimen en el año anterior. Si tenemos dudas sobre esto, considere
mos lo absurdo que sería observar los resultados de tipo de régimen en
intervalos diarios o de horas. Llega un punto en el que este esfuerzo es
vano. Nada (o casi nada) aprenderemos observando cada hora un panel
de países que no hubiéramos aprendido ya de ese mismo panel observán
dolo diaria o mensualmente.
Sin duda esto depende de lo que estemos midiendo. Para algunos pro
pósitos, un panel horario podría ser extremadamente útil. Que sea útil o
no depende de la naturaleza de la interacción XI Y. Los cambios en los
inputs y los outputs deben ser proporcionales a la unidad de tiempo elegí-
261
1
Metodología de las ciencias sociales I
da. Los cambios súbitos pueden ser medidos productivamente en milise-

gundos. Los cambios lentos deben medirse en unidades temporales más
largas.
Para entenderlo mejor, tenga en cuenta que las violaciones de la inde
pendencia raramente son completas o totales. Si lo fuesen, entonces no
aprenderíamos absolutamente nada observando a Bélgica después de ha
ber observado a Francia, o nada observando a Francia en T, después de
haber observado a Francia en Tv Éste claramente no es el caso. Pero es
evidente que aprenderemos más de unas observaciones que de otras. Ve
nezuela es probablemente más independiente de Francia que Bélgica. A
este respecto, una vez que sabemos algo sobre Francia aprenderemos
más sobre la hipótesis observando a Venezuela que observando a Bélgi
ca. Asimismo, Francia en T20 es probablemente más independiente de
Francia en T\ que Francia en Tr Los problemas de independencia suelen
ser una cuestión de grado; en raras ocasiones las observaciones son ente
ramente dependientes entre sí.
Las violaciones de la independencia pueden tener dos efectos distor-
sionadores en un análisis empírico. Pueden procurar una falsa percep
ción de precisión en los resultados al inflar artificialmente el número de
observaciones (que no son totalmente independientes entre sí). Y lo
que es más preocupante aún es que tienden a introducir un sesgo en el
análisis debido a que las observaciones son diferentemente independien-
tes/dependientes unas de otras, de forma tal que tienden a estar corre
lacionadas con el tratamiento. Es aquí donde se mezclan los problemas
de la independencia y la comparabilidad (que veremos en el siguiente
apartado).
En algunas ocasiones, las violaciones de la independencia se pueden
corregir con procedimientos muéstrales o de modelación. Supongamos,
en nuestro ejemplo anterior, que hacemos una muestra de continentes
más que de países, siguiendo la evolución de los tipos de régimen entre
estas enormes —y presumiblemente más independientes causalmente—
entidades. Escoger unidades de orden mayor normalmente implica sacri
ficar el número de observaciones; en este caso, el coste podría ser incluso
prohibitivo. Sin embargo, mitiga nuestras preocupaciones sobre la no in
dependencia y en algunos contextos pueden ser práctico hacer esto. Si un
estudio sobre los cupones sufre problemas de no independencia entre los
estudiantes o clases, el investigador puede elegir observar escuelas o dis
tritos escolares. Superamos un problema de agrupamiento si contempla
mos grupos de individuos en lugar de individuos como unidad apropiada
de análisis. Así, escoger una unidad mayor de análisis suele mitigar nues
tras preocupaciones sobre la no independencia.
Otro enfoque es intentar modelar las violaciones de la independencia
de forma que estas violaciones se puedan controlar ex post en el análisis
262
empírico. Por ejemplo, supongamos que el tipo de régimen de un país

está positivamente influido por otros países vecinos: si son democráticos,
ese país tiene más probabilidades de convertirse en democrático, y así su
cesivamente. Si éste es el caso, entonces podemos modelar el proceso de
difusión con una única variable que mida los tipos de régimen de todos
los países y su distancia relativa entre cada país (siendo la distancia una
proxy del proceso de difusión). El procedimiento de modelado es simple.
Sin duda, otra cosa diferente es determinar si este modelo ha dado cuen
ta correcta y totalmente de todas las violaciones de la independencia.
Los modelos de difusión son notoriamente difíciles de comprobar.
Naturalmente, el significado de independencia/dependencia varia se
gún lo que estemos estudiando. En algunas ocasiones la hipótesis causal
se centra explícitamente en un proceso de dependencia entre casos. Así,
podríamos proponernos descubrir cómo funciona el proceso de difusión
y la fuerza de sus efectos en el tipo de régimen. En este contexto, la varia
ble de control antes descrita se convierte en la variable de interés teórico.
Sin embargo, hay también otros problemas de independencia de los que
preocuparse. En concreto, debemos preocuparnos por cualquier interfe
rencia no captada por nuestra variable clave, y por los casos agrupados y
la autocorrelación temporal, como vimos antes. El problema de la inde
pendencia nunca llega a desaparecer del diseño de investigación: simple
mente adopta otra forma.
Desafortunadamente, la independencia de las observaciones en una
muestra no siempre se puede comprobar. Por supuesto, podemos medir
los grados de asociación (correlación) entre las observaciones, lo que a
menudo nos da pistas importantes sobre la autocorrelación potencial.
Sin embargo, el hecho de que haya una asociación en un grupo de obser
vaciones no significa que se haya violado el criterio de independencia, y
el hecho de que no haya asociación no significa que se haya cumplido.
Que los países pertenecientes a la misma región del mundo tiendan a
compartir características similares de su tipo de régimen no significa que
sean casos no independientes, aunque ciertamente se plantean dudas.
Comparabilidad
En el criterio de la independencia se inmiscuye el problema de la compa-

rabilidad. Este problema implica que el valor esperado de Y para un va
lor dado de X debe ser el mismo en las observaciones estudiadas y du
rante todo el periodo de análisis. Si lo son, podemos decir que un grupo
de observaciones es causalmente comparable (equivalente) respecto de
una hipótesis dada.31 Si, por ejemplo, un conjunto de estudiantes es com
parable causalmente con respecto a los cupones, entonces esperamos que
263
todos experimenten el mismo cambio en los resultados educativos una

vez se les aplica el mismo tratamiento de cupones.
Naturalmente, la comparabilidad causal difiere dependiendo del tra
tamiento que se ha previsto. Dos grupos de estudiantes pueden ser com
parables causalmente en relación con los cupones (Á'1) y los resultados
escolares (K,), pero no en relación con los programas para evitar el ab
sentismo escolar (X,) y la conducta criminal (K,). Las personas son
iguales en algunos aspectos y diferentes en otros. Así, la evaluación de la
comparabilidad causal en una muestra depende del argumento de inte
rés teórico.
Una comprensión mínima de la comparabilidad causal requiere sim
plemente que las unidades sean comparables entre sí en promedio, lo que
equivale a decir que una tasa de error elevada en las unidades es satisfac
toria mientras su distribución se centre en la media verdadera (es decir,
mientras el error sea aleatorio). Una comprensión máxima de la compa
rabilidad causal (en ocasiones expresada como homogeneidad de la uni
dad) requiere que las unidades manifiesten respuestas idénticas de Y a un
valor dado de X entre las unidades. Este último ideal raramente se hace
realidad en el mundo de las ciencias sociales, y quizás tampoco en el de
las ciencias naturales. Sin embargo, la definición mínima parece demasia
do mínima. Después de todo, las incomparabilidades son siempre un
tanto problemáticas: como poco, introducen problemas de ruido (error
aleatorio). También pueden ocultar efectos causales heterogéneos en la
muestra elegida (cuando unidades diferentes responden de forma dife
rente al mismo tratamiento). Así, consideraremos este desiderátum como
una cuestión de grado. A igualdad de condiciones, siempre será deseable
una mayor comparabilidad causal.32
Para entenderlo mejor, las incomparabilidades aleatoriamente distri
buidas en las unidades introducen ruido (error estocástico) en el análisis.
No están correlacionadas con el tratamiento; son, por lo tanto, covaria-
bles ortogonales representadas por el vector B en la figura 9.1. No son
preocupantes si hay suficientes observaciones en la muestra como para
superar la amenaza a la inferencia que plantean los eventos estocásticos.
Un segundo tipo de incomparabilidad guarda relación con el tratamien
to y por ende es considerado una fuente de error sistemático o sesgo, re
presentada como un confundidor, C, en la figura 9.1. Éste es el tipo de
problema que más preocupa cuando consideramos las cuestiones de
comparabilidad causal.
Una manera directa de clarificar el problema de la comparabilidad
causal es imaginando los diseños de investigación más simples posibles,
ilustrados en la figura 9.2. Digamos que un grupo de unidades recibe un
tratamiento (X= 1) y otro no lo recibe (X = 0), y se distribuye un postest
para captar el impacto del tratamiento, como se ilustra en el panel (a) de
264
la figura mencionada. Ahora, supongamos que hay algún factor de fon

do distribuido en la muestra que tiende a afectar la respuesta de cada
unidad al tratamiento. Si estas heterogeneidades son aleatorias —es de
cir, están distribuidas aleatoriamente en los grupos de tratamiento y con
trol— entonces el error que introducen las incomparabilidades causales
es aleatorio. No es probable que esté correlacionado con el tratamiento;
así, los grupos de tratamiento y control están equilibrados respecto de
los confundidores potenciales. Si, por otra parte, los elementos heterogé
neos de la muestra están desigualmente distribuidos, entonces el grupo
de tratamiento y de control no son comparables causalmente y será muy
probable que el análisis acuse un error sistemático.
Se mantiene la misma lógica si el análisis causal es temporal (longitu
dinal) en lugar de espacial, ilustrado en el panel (b) de la figura 9.2. Su
pongamos que se administra un tratamiento a todas las unidades de la
muestra. Para captar el impacto causal, se administran test antes y des
pués del resultado. Esto significa que el pretest funciona como grupo de
«control» y el postest como grupo de «tratamiento». Una vez más, nos
preocupan menos las heterogeneidades aleatoriamente distribuidas du
rante el periodo muestreado. Pero lo que nos debe preocupar extremada
mente es la incomparabilidad causal antes y después del tratamiento. La
muestra debe ser la misma en 1\ y T, en todos los aspectos que pueden
afectar al resultado salvo, naturalmente, en el tratamiento en sí.
(a) Análisis espacial:

Grupo de control Grupo de tratamiento
X= O
(b) Análisis longitudinal:
X= O
Comparabilidad: E{Y/X) es la misma para los grupos de tratamiento y de control (análisis

espacial) o para el grupo de tratamiento en Tt y T2 (análisis longitudinal)
Figura 9.2 Comparabilidad causal: dos ilustraciones simples
265
Desde luego, se trata de diseños de investigación muy simples. El pro

blema de la comparabilidad también atañe a situaciones más complejas,
como por ejemplo cuando no hay una demarcación clara entre los gru
pos de tratamiento y de control o no están claramente demarcados los
periodos «pre» y «post». Se afronta otra situación cuando las condicio
nes de control y de tratamiento son experimentadas por las mismas uni
dades y al mismo tiempo, un diseño de investigación de «resultados al
ternos» (capítulo 11). Para nuestros propósitos aquí, simplificaremos el
análisis suponiendo que la mayoría de los problemas de comparabilidad
atañen a las diferentes unidades o en el transcurso del tiempo, como se
ilustra en la figura 9.2.
La comparabilidad causal se puede lograr al principio de un análisis
por medio de la asignación aleatoria, es decir, asignando aleatoriamente
un tratamiento a la muestra de casos. Esto genera grupos de tratamiento
y de control que son (en promedio) similares en todos los respectos salvo
en el factor causal de interés (el tratamiento), lo que asegura que X es or
togonal a todas las covariables. En el diagrama de la figura 9.1, los con
fundidores potenciales (C) se convierten en covariables ortogonales (B),
y por lo tanto están «controlados».
Otra manera de expresar esta cuestión es afirmar que cuando un tra
tamiento se aleatoriza la asignación al tratamiento es independiente (o
aleatoria respecto) de los resultados que se están estudiando. Saber si
una unidad ha sido asignada al grupo de tratamiento o al de control no
nos dice nada sobre si la unidad exhibirá un resultado (salvo lo que pue
de intuirse del tratamiento en sí). La asignación es ignorable (no tenemos
que preocuparnos por ella); se ha logrado así la independencia condicio
nal)3 Una versión más débil de esta idea es que la asignación de un trata
miento sea independiente de los resultados condicional a los factores de
fondo —que cabe esperar que puedan ser adecuadamente medidos y con
trolados mediante algún protocolo estadístico (por ejemplo, empareja
miento o regresión). Aquí, se puede afirmar que la «selección se ha he
cho sobre los observables». Esta versión más débil de la ignorabilidad es
un supuesto necesario de la mayoría de los análisis no experimentales,
donde el tratamiento no se aleatoriza. Es, por supuesto, más fácil enun
ciar que demostrar, como veremos en el capítulo 11.
Cuando quiera que los tratamientos no se aleatorizan, los supuestos
de comparabilidad causal tienden a sostenerse menos y tienden a apare
cer los confundidores. En algunas ocasiones esto se ha llamado sesgo de
selección (conocido también como efectos de selección), es decir, un ses
go en la asignación de X en la muestra. Tome nota, sin embargo, que el
sesgo de selección también puede significar otra cosa bastante diferente:
sesgos en la muestra introducidos por un procedimiento sesgado de se
lección de casos, que ya lo tratamos cuando examinamos la representad-
266
vidad de la muestra (en el capítulo 4). Otro término que se emplea para
este tipo de confundidor es el sesgo pretratamiento, porque ocurre antes
(o al mismo tiempo) de la asignación del tratamiento. Pero esto, por sí
mismo, parece muy vago. Por lo que a mí respecta, prefiero el término
problema de asignación o sesgo de asignación, porque pone énfasis direc
tamente en el problema de cómo se asigna el tratamiento. En todo caso,
los lectores deben ser conscientes de la multiplicidad de términos que se
usan para caracterizar este importante concepto.
Un problema de asignación se plantea cuando se permite a los sujetos
autoseleccionarse en la condición del tratamiento. Consideremos lo que
podría pasar si los cupones estuvieran disponibles para todos los solici
tantes de un distrito escolar. Podemos imaginar que las familias más mo
tivadas por mejorar la educación de sus hijos tenderían más a aprove
charse de este programa. Si así fuese, los grupos de tratamiento y de
control reflejarán no sólo el impacto del tratamiento, sino también el im
pacto del factor confundidor de la motivación familiar. Sin más ajustes,
la pregunta causal del impacto de los cupones en el rendimiento escolar
será imposible de responder, porque no tenemos manera de distinguir en
tre el efecto de X en Y y el efecto de C (los confundidores) en Y. De he
cho, la fuente más común de sesgo de asignación es la autoselección de
las unidades para la condición del tratamiento. Es un problema en la ma
yoría de los contextos de las ciencias sociales, porque los sujetos de inte
rés tienen capacidad decisional, porque por lo general tienen interés per
sonal en los mismos resultados que intentan examinar los científicos
sociales (por ejemplo, la calidad educativa), y porque solemos no querer
o ser incapaces de restringir la libertad de nuestros sujetos para ejercer su
voluntad.
Otra forma de sesgo de asignación se deriva de la endogeneidad (cono
cida también como retroalimentación, circularidad, bidireccionalidad, de
pendencia o simetría) entre X e X.34 Supongamos, por ejemplo, que los es
tudiantes de alto rendimiento tienden más a ser elegidos (por parte de los
administradores de la escuela) para un programa de cupones. Aquí Y
afecta al valor de X, por lo que será difícil de valorar el verdadero efecto
deXen X.35
Lo fundamental es que cuando la asignación de un tratamiento no es
aleatoria, el supuesto de comparabilidad causal tiende a violarse, lo que
equivale a decir que el valor esperado de Y dado X no suele ser el mismo
en los grupos de tratamiento y de control. En cambio, cuando el trata
miento se ha aleatorizado sí se logra la comparabilidad causal, al menos
inicialmente.
En el análisis más simple, cuando las medidas del resultado se toman
inmediatamente después de la administración del tratamiento, no surgen
otros problemas adicionales de comparabilidad. Sin embargo, la mayoría
267
de los factores causales en las ciencias sociales deben observarse durante

un periodo de tiempo con el fin de conferir precisión y exactitud al vere
dicto de sus posibles efectos causales. En algunas ocasiones, el tratamien
to en sí se administra continuamente durante un periodo de tiempo. En
estas circunstancias debemos considerar confundidores adicionales, es
decir, violaciones potenciales de la comparabilidad, hasta el postest final.
En un estudio sobre los cupones, por ejemplo, los estudiantes (o las es
cuelas) que reciben cupones deben ser siempre comparables con los estu
diantes (o las escuelas) que no los reciben hasta el momento en el que se
les dan las notas o los resultados de los test que determinan su nivel de
logro (el postest). Esto significa que la asignación aleatoria (o como si
fuera aleatoria) es una condición necesaria pero no suficiente para la vali
dez de una inferencia causal.
Las violaciones de la comparabilidad postratamiento pueden deberse
a varias amenazas, para las que se ha desarrollado una terminología es
pecializada (tabla 9.4).36 Advierta que aunque la mayoría de estos térmi
nos se desarrollaron originalmente para usarse en contextos experimen
tales, suelen tener análogos en los diseños no experimentales. Así, los
consideraremos como parte de una clase general de confundidores que
amenazan la equivalencia entre las unidades.
El desgaste se refiere a la pérdida de sujetos durante el tiempo que
dura el estudio. Supongamos que un número significativo de familias
abandona el sistema escolar —quizás debido a que cierra una fábrica
grande en ese distrito— durante el periodo en el que se está realizando
un estudio sobre los cupones escolares. O supongamos que los sujetos
inicialmente elegidos para un estudio no se pueden localizar para hacer
les encuestas de seguimiento (por ejemplo, el postest). Esto afectará a la
composición de los grupos de tratamiento y de control y, por ende, a la
interpretación de los resultados. La mortalidad (de los sujetos de un estu
dio) es una causa específica de desgaste, por lo general más problemática
en los estudios médicos que en los estudios de ciencias sociales.
El incumplimiento se refiere a la amenaza a la inferencia que se plan
tea cuando los sujetos incumplen sus instrucciones: o se niegan a ser tra
tados (a pesar de haber sido incluidos en el grupo de tratamiento) o in
sisten en recibir el tratamiento (a pesar de haber sido incluidos en el
grupo de control). Este problema lo hemos analizado ya en el contexto
de los cupones escolares.
La contaminación (conocida como desbordamiento o interferencia),
que ya vimos en el contexto de la independencia, se refiere a la situación
en la que los grupos de control y de tratamiento no son aislados eficaz
mente uno de otro, dando lugar a la posibilidad de que los miembros de
un grupo afecten a los miembros del otro grupo de formas relevantes
para el resultado estudiado. Supongamos que unos hermanos son aleato-
268
Tabla 9.4 Violaciones de la comparabilidad causal: una lista parcial de confun

didores
Sesgo de pretratamiento (también conocido como de asignación)
Autoselección: cuando la asignación del tratamiento está gobernada por los
sujetos que se están estudiando.
Sesgo postratamiento
Desgaste: la pérdida de sujetos durante el transcurso de un estudio (por
ejemplo, por fallecimiento).
Incumplimiento: cuando los sujetos no cumplen las instrucciones, es decir,
cuando los miembros asignados al grupo de tratamiento no son tratados o
los miembros del grupo de control reciben el tratamiento.
Contaminación (también conocida como desbordamiento o interferencia):
cuando los grupos de tratamiento y de control no se han aislado eficazmente
uno de otro, lo que da lugar a la posibilidad de que los miembros de un
grupo afecten a los miembros del otro de formas relevantes para el resultado
estudiado.
Efectos de reputación: cuando la reputación del tratamiento para los sujetos,
más que la condición del tratamiento en sí (definida por el investigador),
afecta al resultado.
Efectos del investigador (también conocidos como del experimentador o
Hawthorné): cuando la condición de ser examinado u objeto de
comprobación, en lugar del tratamiento de interés teórico, afecta al resultado.
Efectos de comprobación: cuando las respuestas en un test están influidas por
un test previo, o por las expectativas derivadas de experiencias en test
anteriores, más que por el tratamiento en si.
Sesgo pre/postratamiento en los estudios longitudinales
Historia (también conocido como tendencias): cuando el tratamiento está
correlacionado con algún otro factor que afecta al resultado de interés, o lo
que es lo mismo, cuando la variación en el tiempo observada se produce por
un factor diferente del tratamiento.
Regresión a la media: cuando un cambio observado en el tiempo es un producto
de la variación estocástica más que del tratamiento de interés.
Efectos de instrumentación: cuando se produce un cambio en la medición de un
resultado (u ocasionalmente un estímulo) durante el transcurso de un estudio
de formas que podrían alterar el efecto estimado de X en Y.
rizados para escuelas con cupones y escuelas sin ellos en un estudio ex
perimental. Este tipo de emparejamiento-comparación maximiza la
equivalencia pretratamiento, pero a expensas de la contaminación pos
tratamiento, porque los hermanos tienden a compartir experiencias y
se ayudan entre ellos con sus deberes, confundiendo así las condiciones
que definen el tratamiento y el control. Otro tipo de contaminación pue
de darse de resultas de la comunicación entre los profesores y directores
que trabajan en escuelas con cupones y escuelas sin ellos. Si esta comuni-
269
cación redunda en cambios conductuales que afectan al rendimiento es

colar. entonces tenemos razones para pensar que las comparaciones en
tre los grupos de tratamiento y de control no son el producto del sistema
de cupones en sí, sino más bien de canales de comunicación que quedan
al margen de los parámetros de la teoría.
Los efectos de reputación se refieren en este contexto a los factores re-
putacionales —no conectados con la teoría que se está comprobando—
que introducen un confundidor en el análisis. Supongamos, por ejemplo,
que las escuelas con cupones adquieren mejor reputación educativa que
las escuelas tradicionales (sin cupones), y que esta reputación redunda en
un éxodo de profesores competentes desde las escuelas tradicionales a las
escuelas alternativas (elegibles para recibirlos). Y, supongamos, además,
que la reputación inicial de mejor rendimiento educativo en las escuelas
con cupones es falsa. Así, con el tiempo, después de la transferencia de
profesores competentes desde las escuelas tradicionales a las escuelas con
cupones, esto pasa a ser verdad. En estas condiciones, cualquier diferen
cia en el logro educativo que aparece con el tiempo entre las escuelas con
cupones y las escuelas sin ellos tiende a ser producto de las condiciones
cambiantes en estas escuelas más que del sistema de cupones per se. El
efecto neto de los cupones en el sistema de cupones es nulo, aunque apa
rezcan diferencias demostrables en el rendimiento escolar tras haberse
iniciado el tratamiento.
Los efectos del investigador (también conocidos como del experimen
tador) son un efecto confundidor derivado de los efectos no queridos del
tratamiento. Un famoso ejemplo de estos efectos es lo que ocurrió en
una serie de estudios sobre los trabajadores de una fábrica de General
Electric en Hawthorne, Illinois. Allí resultó que los trabajadores del gru
po de tratamiento se aplicaban con más diligencia que los del grupo de
control, con independencia de en qué consistía el tratamiento. Se deter
minó finalmente (correcta o incorrectamente) que los trabajadores res
pondían no al tratamiento en sí sino a la situación de ser controlados in
tensivamente.37 Desde entonces, los efectos del experimentador, debidos
a la condición de ser estudiado, se conocen como «efectos Hawthorne».
Es fácil imaginar cómo podrían funcionar estos efectos Hawthorne en
los experimentos sobre los cupones, porque los profesores de las escuelas
con cupones pueden percibir que su actuación se está controlando más
que la de los profesores de escuelas sin ellos (que pueden no ser conscien
tes de su estatus como parte de un experimento). Otra forma de efectos
del experimentador se da cuando los sujetos están influidos por caracte
rísticas demográficas o la personalidad de un entrevistador, de formas
tales que afectan el resultado de un experimento o de un estudio obser-
vacional. Por ejemplo, los respondedores blancos suelen reaccionar de
forma diferente cuando son entrevistados por investigadores blancos o
270
negros, lo que introduce así un factor confundidor importante en cual

quier estudio en el que las actitudes raciales constituyen el resultado de
interés. (Tome nota: el efecto del investigador no es un confundidor en el
sentido clásico del término porque no afecta a la vez a X y a Y, como ve
remos en el capítulo 11.)
Los efectos de comprobación surgen cuando las respuestas están influi
das por un test previo o por expectativas derivadas de experiencias de
comprobación previas, más que por el tratamiento en sí. Un tipo de efec
tos de la comprobación es la fatiga, por la que las respuestas de los suje
tos cambian con el tiempo simplemente debido a que están cansados. Su
pongamos que se administran test normalizados a estudiantes en un
estudio sobre cupones cada mes o durante el transcurso de varios años.
Aquí, podemos anticipar varios tipos de efectos de comprobación (qui
zás combinados): una aceleración del rendimiento, debido al aumento de
la práctica, y una fatiga generalizada con el proceso en sí. En dichas cir
cunstancias, los resultados pueden ser difíciles de interpretar.
Este tipo de confundidores aparece normalmente en las comparacio
nes entre grupos, es decir, en las comparaciones espaciales, ilustradas en
el panel (a) de la figura 9.2. Ahora consideremos el problema de compa-
rabilidad que surge en una comparación dentro de un grupo (longitudi
nal), ilustrada en el panel (b) de la figura 9.2. Volviendo a nuestro ejem
plo de siempre, supongamos que la principal evidencia disponible para la
efectividad de los cupones en el rendimiento escolar no está en las unida
des de control y de tratamiento, sino en el transcurso del tiempo, es decir,
en nuestra comparación de las notas de los estudiantes y/o los resultados
de los test antes de la implantación de un programa de cupones, con las
notas y los resultados obtenidos después del tratamiento. En este contex
to, nos deberán preocupar virtualmente todos los confundidores anterio
res, porque tienden a estar correlacionados con el calendario de la inter
vención, haciendo que nuestra comparación pre y post sea espuria.
Además, nos deben preocupar las amenazas que plantea la historia.
Podemos sospechar, por ejemplo, que una medida política bastante radi
cal como los cupones va acompañada de otras reformas educativas: un
gasto mayor, tamaños más pequeños de las clases, un nuevo plan de estu
dios, etc. Si es así, entonces la condición de estas escuelas ya no es equi
valente (de formas tales que podrían afectar al resultado de interés) antes
y después del tratamiento. La comparabilidad está amenazada. De he
cho, es muy común descubrir que en contextos naturalistas el tratamien
to de interés correlaciona con posibles confundidores. El cambio suele
adoptar la forma de equilibrio puntuado. Por consiguiente, el inicio de
las intervenciones humanas está correlacionado con otros factores que
podrían tener también su efecto en el resultado de interés, creando con
fundidores.
271
Otro obstáculo importante es el calendario de las intervenciones, que

suele coincidir con un rendimiento inusual en un área determinada. De
forma típica, se implantan nuevos programas para abordar alguna nece
sidad urgente, y esa necesidad se refleja en un rendimiento especialmente
bajo en esa área. Así, un programa de cupones nuevo podría coincidir
con unos resultados inusualmente malos en los test de los estudiantes du
rante los años previos. En este contexto, cualquier mejora aparente del
rendimiento de los estudiantes puede no tener nada que ver con el trata
miento en sí, pero sí con el regreso de un fenómeno a su posición de
equilibrio, lo que conocemos como regresión a ¡a media.
Una tercera amenaza a la comparabilidad temporal son las tendencias
subyacentes —no relacionadas con el tratamiento— que puede exhibir
una unidad. En la situación más simple posible, una unidad es estable;
no acusa ningún cambio en el transcurso del tiempo respecto del resulta
do de interés y por lo tanto no hay tendencia alguna que dé cuenta de ese
cambio. Si estamos estudiando el efecto de los cupones en el rendimiento
educativo, un sencillo postest será suficiente para juzgar si la interven
ción tiene un efecto causal. La situación se complica ligeramente cuando
la tendencia es constante: por ejemplo, un aumento o una disminución
constantes en el tiempo de las notas de los test. Aquí necesitaremos va
rias mediciones del resultado, previas a la intervención, para juzgar la
pendiente de esa tendencia. Una vez medida esa pendiente, todo cambio
en ella después de la intervención se puede atribuir al programa de cupo
nes. Por supuesto, a menudo las tendencias son mucho más complicadas.
Pueden combinar una tendencia constante, ciclos regulares, uno o más
cambios en la tendencia, así como una variación aleatoria (ruido). Para
solucionar estos problemas (si es que se pueden solucionar), necesitamos
hacer múltiples pretest y postest. Los entresijos de los análisis de series
temporales siguen siendo difíciles de aprehender.38
Una cuarta amenaza a la comparabilidad temporal se deriva de la
naturaleza misma de la herramienta de medición. Supongamos que los
pretest y postest empleados en un estudio sobre los cupones consisten en
test normalizados de logro que se hacen una vez al año durante una dé
cada. Y supongamos, además, que esos test se van volviendo más fáciles
con el paso del tiempo. En tales circunstancias, los verdaderos efectos
causales serán difíciles de calibrar. El término efectos de instrumentación
se refiere a cualquier cambio en la medición de un resultado (u, ocasio
nalmente, de un estímulo) que se produce en el transcurso de un estudio
y que puede alterar la estimación del efecto de X en Y.
Por lo general, cuando la evidencia de interés concierne a cambios en
el transcurso del tiempo dentro de un grupo, nos debe preocupar mucho
cualquier variación posible en el transcurso del tiempo que afecte a la
comparabilidad dentro de la unidad. Aunque unas series temporales lar-
272
gas (con muchos pretest y postest) ayudarán a construir un contrafáctico

plausible, todas esa construcción exige hacer supuestos sobre la verdadera
forma de los datos que no son, en principio, comprobables. Escuetamente,
la dificultad reside en que «la evolución de Y antes del tratamiento puede
no ser un predictor suficientemente bueno de cómo evolucionaría Y sin el
tratamiento.» 39 He aquí el contrafáctico no observable que desafia el su
t
puesto de comparabilidad en los análisis causales centrados en compara
ciones antes y después.
En resumen, hay muchas fuentes potenciales de incomparabilidad es
pacial y temporal. Los consumidores de la investigación en ciencias so
ciales deben ser cautelosos con los problemas de atribución que acechan
bajo la superficie de unas pulcras tablas de regresión y/o unas refinadas
narrativas. No se trata de un problema «cualitativo» o «cuantitativo»; es
un problema flagrante en todos los estilos de la investigación no experi
mental, así como en muchos estudios experimentales.40
273
10 Estrategias causales: X e Y
«Quizás no hay otra práctica más controvertida en la investigación social y bio-

médica que la de hacer inferencias causales a partir de datos de observación.
Cuando se asignan intervenciones a sujetos por medio de procedimientos que
escapan al control del investigador, existe siempre la posibilidad real de que los
grupos de tratamiento no sean comparables inicialmente. Así, cualquier inferen
cia sobre el papel de las intervenciones es sospechosa; lo que para nosotros son
efectos causales de las intervenciones quizás se debe a diferencias “preexisten
tes” entre los grupos de tratamiento. A pesar de estos problemas, los datos de
observación están generalmente disponibles en muchos campos científicos y se
usan rutinariamente para hacer inferencias sobre el impacto causal de las inter
venciones. Por lo tanto, la cuestión no es si estos estudios deben realizarse, sino
cómo se pueden realizar adecuadamente.»
Richard Berk1
En el capítulo 9 examinamos los criterios generales que atañen a los dise

ños de investigación cuyo propósito es valorar relaciones causales. En
este capítulo y en el 11 expondré las estrategias específicas de la inferen
cia causal. A buen seguro, hay un alto grado de solapamiento entre estos
temas. En efecto, es posible analizar cada estrategia según los criterios
que cumple (o no cumple). Pero el paso de los criterios a las estrategias
es importante. Mientras el capítulo 9 trata de los principios, los capítulos
275
10 y 11 son casi una guía práctica de «cómo hacer», completada con

análisis detallados de estudios específicos.2
Dividimos las estrategias de la inferencia causal en tres categorías:
(1) diseños aleatorizados; (2) diseños no aleatorizados; y (3) estrategias
que van más allá de X e Y, como ilustra la tabla 10.1.3 Como estas cate
gorías cubren un campo muy amplio, dividimos su análisis en dos capí
tulos. En éste nos centramos en las dos primeras y en el capítulo 11 nos
ocuparemos de la tercera.
Tabla 10.1 Estrategias de la inferencia causal

1. Diseños aleatorizados (conocidos como experimentales)
Pretest/postest, (b) sólo postest, (c) múltiples postest, (d) despliegue,
(e) diseños cruzados, (f) cuatro grupos de Solomon, (g) factorial.
2. Diseños no aleatorizados (conocidos como no experimentales,
observacionales)
Regresión discontinua, (b) panel, (c) transversal, (d) longitudinal.
3. Más allá de X e Y (factores diferentes de la covariación de X e Y)
(capítulo 11)
Confundidores condicionantes, (b) variables instrumentales,
(c) mecanismos, (d) resultados alternativos, (e) heterogeneidad causal,
(f) hipótesis rivales, (g) test de robustez, (g) razonamiento causal.
Tome nota de que algunas de estas estrategias son practicables sólo

cuando la muestra es grande; otras lo son en contextos cualitativos y
cuantitativos; y algunas son en general de naturaleza cualitativa. (Pospo
nemos al capítulo 13 un análisis más extenso de la diferencia entre cuan
titativo y cualitativo.)
El argumento general de los dos capítulos no sorprenderá a la mayo
ría de los lectores. Las estrategias de inferencia causal son satisfactorias
(en términos de validez interna) en la medida en que se aproximan al
ideal experimental. A este respecto, hay claramente una jerarquía entre
los métodos.
En otros aspectos, la noción de una jerarquía única de métodos debe
tomarse con precaución. Advierta que la utilidad del método elegido re
side en su ajuste a la pregunta y los datos que disponemos. Si bien es fá
cil identificar jerarquías metodológicas en abstracto, lo que verdadera
mente importa no es si hemos elegido un método superior, sino si el
método es el adecuado para nuestra tarea. Un buen estudio observacio-
nal puede ser superior a un experimento malo, como por ejemplo un ex
perimento plagado de incumplimientos o contaminación, con escasa va
lidez externa o que no arroja luz sobre el asunto de relevancia teórica o
política. Esto significa que no podemos llegar a conclusiones sobre la va
lidez de un estudio describiendo sólo su método. Debemos examinar con
276
detenimiento el supuesto proceso generador de los datos para ver cómo

encaja en el método elegido, por no mencionar los objetivos teóricos de
la investigación.
Lo más importante es que las diversas estrategias de inferencia causal
que se exponen en este capítulo y en el 11 no se excluyen mutualmente.
Con frecuencia se usan en tándem. Lo que importa en última instancia
es si la constelación de métodos empleados en un estudio proporciona
una base sólida para la inferencia causal. Así, más que considerarlas ri
vales debemos considerarlas como complementarias. A efectos heurísti
cos, presentamos estas estrategias de una en una. Pero los investigadores
que sopesan qué método emplear harán bien en considerar cómo combi
narlas de forma productiva. (Para más reflexiones sobre la investigación
multimétodo, véase el capítulo 14.)
Diseños aleatorizados
El recurso más seguro para resolver el problema de asignación es alea-

torizar el tratamiento entre las unidades, creando múltiples grupos —
como poco, un grupo de «tratamiento» (donde X = 1) y un grupo de
«control» (donde X = 0). Ésta es una de las maneras de definir el dise
ño experimental. Sin embargo, se puede definir de muchas otras formas
(véase su entrada en el Glosario), lo que provoca confusión. Por consi
guiente, el término más preciso para el asunto que estamos tratando
aquí es aleatorización.
La utilidad de los diseños aleatorizados la descubrió Ronald Fisher
hace un siglo en un trabajo que hoy día es ampliamente conocido.4 Des
de luego existen muchas maneras de aleatorizar. Para ilustrar esta inmen
sa variedad, la tabla 10.2 enumera siete protocolos conocidos. Aquí X se
refiere a la condición de tratamiento y x a la condición de control. Las
observaciones (pretest y postest) son O y los grupos se representan con
números romanos (I, II,...).
El número de unidades asignadas a cada grupo no queda definido. Sin
embargo, el procedimiento de aleatorización se fundamenta en la exis
tencia de un número suficiente de observaciones para superar las amena
zas estocásticas a la inferencia. Cuanto mayor es el número de unidades,
más seguros estaremos de que los resultados obtenidos en un diseño
aleatorizado no son simplemente el producto de la casualidad. Así, las
virtudes atribuidas a la técnica de la aleatorización se logran sólo si se
eleva el número de unidades. Y esto, a su vez, significa que el método ex
perimental es implícitamente un método de análisis de Ñ elevado.
El número de grupos incluido en un único diseño aleatorizado tampo
co queda definido. Esto significa que un único experimento puede pro
277
bar múltiples hipótesis, ejemplificadas por múltiples grupos de trata

miento (I, II, III, IV,...). Por razones expositivas, los siguientes ejemplos
incluyen sólo la versión más simple posible de cada diseño experimental,
con uno o dos factores causales y sólo algunas «dosis» para cada factor
causal.
Tabla 10.2 Una tipología de diseños aleatorizados

1. Pretestlpostest I O, X O2
II x O2
2. Sólo postest I x Ot
II x Ox
3. Múltiples postest I Ot X O. O3
II Ot x °1 O3
4. Despliegue I X o2 X o3
II X °2 X o3
5. Diseños cruzados I X}x2 O2
II O\ '^'1'^2
°2 *.*2 o3
6. Cuatro grupos de I O. X O2
Solomon
II O, X O.
III X O2
IV X O2
7. Factorial I ot X1X2 O2
II ox x'iA^ O2
III O' jr,x2 O2
IV O2
I-IV = grupos; Ol n = observaciones; x = condición de control; X — tratamiento;
= variables de tratamiento.
Supondré que se adopta un test estadístico apropiado para evaluar el im

pacto de una intervención. Esto puede ser tan simple como un r-test que
mide la diferencia de las medias entre dos grupos. Podría implicar un
modelo multivariado que incorpore factores adicionales para reducir el
ruido de fondo. O podría ser algo más complicado.5 Normalmente se re
quieren modelos más complejos cuando los desiderata de un buen diseño
de investigación (como se detalla en el capítulo 9) se violan. En todo
278
caso, seguiremos centrándonos en los diseños de investigación más que

en los modelos estadísticos.
El tipo más frecuente de experimento implica un solo tratamiento que
se asigna aleatoriamente en la muestra creando dos grupos: el grupo de
tratamiento (el que recibe el tratamiento) y el grupo de control (el que no
recibe el tratamiento). 6 Si se administra adecuadamente, sólo un rasgo
—la ausencia o la presencia del tratamiento— diferencia a los dos gru
pos. Todas las características de fondo relevantes deben ser similares, en
promedio, entre los grupos. Las observaciones se suelen tomar antes y
después de la intervención, lo que nos proporciona pretest y postest (n° 1
de la tabla 10.2). El efecto potencial del tratamiento se calcula compa
rando los diferentes valores, es decir, las diferencias en el resultado medi
do entre el primer conjunto de observaciones (pretest) y el segundo con
junto de observaciones (postest) para cada grupo. Si el cambio en los
valores del resultado durante este periodo de tiempo para el grupo I es
diferente, en promedio, del cambio en los valores del segundo grupo II, si
esta diferencia sobrepasa el umbral convencional de significación esta
dística, y si se mantienen otros supuestos (como vimos en el capítulo 9),
se puede suponer que ha funcionado una relación causal.
Las variaciones de este diseño arquetípico son legión.
En algunas ocasiones, es imposible o innecesario medir el resultado de
interés antes de la intervención. Aquí se emplea un diseño de sólo postest
(n° 2 en la tabla 10.2). Este diseño es suficiente si la ratio señal/ruido es
alta (esto es, hay pocos efectos de unidad, y el efecto de X en Y es bas
tante fuerte) y/o hay muchas unidades disponibles para superar el ruido
de fondo (amenazas estocásticas a la inferencia).
A veces se sospecha que el efecto de un tratamiento puede variar con
el tiempo (después de la iniciación del tratamiento), y esto requiere ha
cer múltiples postest (n° 3 de la tabla 10.2) para hacer un seguimiento
de esas variaciones. En efecto, cuando nos interesan efectos causales en
el largo plazo, se aconseja hacer múltiples postest a intervalos regulares
para poder captar la resistencia o la atenuación de un efecto de trata
miento.
Otras veces es deseable planificar una intervención en varias secuen
cias de tal forma que un mismo tratamiento se administra a todos los
grupos en diferentes momentos. Variando el calendario de una interven
ción, el diseño de despliegue (n° 4 de la tabla 10.2) supera los confundi
dores potenciales que coinciden con la primera intervención. Además,
podemos ofrecer el tratamiento a todos los grupos, lo que puede ser im
portante por razones políticas o éticas.
Se puede emplear un diseño cruzado (n° 5 de la tabla 10.2) si nos inte
resa comprobar los efectos de secuenciación. ¿Es importante que Xt se
introduzca antes de Áí, o al contrario? A veces sí lo es, y un diseño cruza-
279
1
do nos permite comprobar esa posibilidad construyendo grupos que es

tén sujetos a diferentes secuencias de tratamientos.
El diseño de cuatro grupos de Solomon (n° 6 de la tabla 10.2) sirve para
comprobar posibles efectos del investigador (capítulo 9). En determina
das circunstancias, el pretest —por sí mismo (es decir, sin ninguna condi
ción de tratamiento explícita)— puede moldear la conducta de los sujetos,
lo que confunde los resultados de un experimento. Es posible comprobar
lo distinguiendo los grupos sometidos al pretest (I, II) de los grupos que
no lo están (III, IV). Si los resultados para el grupo I son diferentes de los
resultados para el grupo III, o si los resultados del grupo II son diferentes
de los resultados del grupo IV, entonces hay presentes efectos «de com
probación». El diseño de cuatro grupos de Solomon nos permite identifi
car estos confundidores y estimar sus efectos causales.
El diseño factorial comprueba los efectos interactivos de varias varia
bles de tratamiento categóricas (n° 7 de la tabla 10.2). En la versión más
simple posible, dos factores causales binarios se combinan en cuatro tra
tamientos posibles. Si, por ejemplo, los tratamientos consisten en =
cupones (-/+) y X, = aumento de los salarios de los profesores (-/+), és
tos se pueden combinar en cuatro grupos aleatorizando en dos dimensio
nes: I (x,x2), II (Ajx2), III (x,JQ y IV (JVjáf,). (X indica una condición y x
indica una segunda condición.)
Con esto concluimos nuestro análisis de los diseños de investigación alea-
torizados. Tome nota de que sólo algunos nombres de estos protocolos están
consolidados. En otros casos se pueden emplear diferentes nombres (usual
mente bastante largos y complicados) como, por ejemplo, un «diseño de dos
grupos con postest y pretest) (n° 1 de la tabla 10.2). A pesar de que no existe
una terminología estándar, la construcción de estos diseños es notablemente
coherente en los diversos contextos de investigación. De hecho, la mayoría
de los diseños aleatorizados se consideran variantes de los clásicos.
Si se anticipa un desbordamiento (contaminación) entre los grupos,
un experimento puede ser rediseñado para que los grupos estén más ais
lados entre sí. Esto podría implicar ampliar el experimento a múltiples
comunidades para evitar el contacto entre los participantes de los grupos
de tratamiento y control.
Los diseños aleatorizados pueden realizarse en una amplia variedad
de contextos. Si el contexto es construido y controlado por el investiga
dor, el experimento se llamará experimento de laboratorio. Si el contexto
es natural (es decir, más realista) se llamará un experimento de campo.
Pero no se puede hacer una distinción rápida y clara entre estos dos tipos
de contextos, porque es, después de todo, una cuestión de grado (¿qué
significa exactamente «de laboratorio»?).
Por lo que respecta al procedimiento de la aleatorización, éste se pue
de realizar en toda la muestra o en estratos preseleccionados. En este úl-
280
timo caso, conocido como formación de bloques (o, en algunas ocasio

nes, como emparejamiento), las unidades elegidas para el análisis se
estratifican primero de acuerdo a algún rasgo o rasgos de fondo relevan
tes para el resultado de interés. Así, en un experimento sobre los cupones
podríamos estratificar una muestra de estudiantes por raza, sexo, edad y
logro educativo de los padres. En cada estrato, el tratamiento (por ejem
plo, el cupón) se aleatoriza. Si los estratos constan de sólo dos unidades
cada uno (por ejemplo, dos estudiantes), entonces estamos trabajando
con bloques de pares (es decir, bloques de dos). Ésta es una técnica co
mún para limitar el ruido de fondo cuando la heterogeneidad de las uni
dades es alta y el tamaño de la muestra va de moderado a pequeño.
Ejemplos
Nos queda ver en qué medida es aplicable la aleatorización a la agenda
de investigación en las ciencias sociales. En efecto, la pregunta metodoló
gica más difícil no es si los experimentos funcionan (apenas se duda de
que sí funcionan), sino para qué funcionan. Para empezar, examinamos
cinco ejemplos de estudios aleatorizados procedentes de diferentes cam
pos: (1) la discriminación en el empleo, (2) el control de la corrupción,
(3) las campañas electorales históricas, (4) el género y el liderazgo, y
(5) la promoción de la democracia.
Ejemplo 1: discriminación en el empleo
La discriminación laboral es una cuestión política de importancia obvia

y persistente. Desde luego, pocos empleadores admitirán prácticas de
contratación basadas en la raza.7 Esto debe inferirse. Por ejemplo, po
dríamos comparar la composición racial de un sector con la composi
ción racial de un grupo de trabajadores elegibles de ese sector. O podría
mos usar una muestra representativa de la población adulta para
comprobar (por medio de un análisis de regresión) la relación entre la
renta y la raza, manteniendo constantes los demás factores. Deben tener
se en cuenta muchas advertencias en ambos enfoques. ¿Se han definido
adecuadamente el sector y el grupo? ¿Se puede acusar a los empleadores
de las diferencias salariales entre blancos y negros (o entre el conjunto
real de empleados en un sector y el grupo de trabajo elegible)?8
Un tipo de experimentos implica hacer la misma entrevista de trabajo
a candidatos blancos y negros (o varones y mujeres) —emparejados en
todos los respectos y preparados para responder de un modo similar.9 Si
los candidatos blancos tienen tasas de éxito más altas, este hecho puede
281
atribuirse a la discriminación basada en la raza. Sin embargo, este proce

dimiento —conocido generalmente como estudio de auditoría— es vul
nerable al sesgo del experimentador. En particular, los que realizan los
experimentos pueden responder a las preguntas de formas que afectan a
la decisión del empleador que nada tienen que ver con la raza per se.10
Para mitigar este sesgo potencial, Bertrand y Mullainathan elimina
ron totalmente a los experimentadores de la realización del experimento.
En su lugar, enviaron por correo cientos de currículos a solicitudes de
trabajo de las zonas de Chicago y Boston.11 Estas solicitudes diferían
sólo en un aspecto: algunos de los nombres de los currículos eran carac
terísticamente africano-estadounidenses y otros claramente de blancos.
(Había otras diferencias, como el vecindario del candidato, pero no eran
primordiales para el descubrimiento principal.) Los investigadores des
cubrieron que los solicitantes con nombres «blancos» como Emily y
Greg tenían más probabilidades de ser llamados por los empleadores
para hacerles una entrevista que los solicitantes con nombres reconoci
blemente negros, como Lakisha y Jamal. He aquí una de las evidencias
más sólidas de discriminación en el empleo hasta la fecha.
Ejemplo 2: control de la corrupción
Las causas de la corrupción son una preocupación central para los ciu
dadanos y los académicos del mundo. Pero las causas siguen siendo des
esperadamente imprecisas. Por lo general, los estudios se basan en análi
sis transversales de países (o estados de un país), cuyos diferentes niveles
de corrupción se miden por medio de encuestas al público o por expertos
del país (por ejemplo los índices de corrupción de Transparencia Interna
cional y del Banco Mundial). Si se halla que una institución correlaciona
con un nivel alto de corrupción (teniendo en cuenta los demás factores
relevantes y medibles), entonces se puede interpretar como una relación
causal.12 Obviamente, este tipo de trabajos está sujeto a la misma y ya fa
miliar objeción: quizás es simplemente una correlación, explicable por al
guna causa común no medida.
Para proporcionar evidencia experimental a la cuestión de la corrup
ción, Ben Olken observó los niveles de corrupción en proyectos viales en
más de 600 pueblos de Indonesia. La corrupción se midió por medio de
varios métodos directos —el más interesante fue muestreando determi
nadas carreteras con el fin de determinar si los materiales usados eran
los normales o estaban por debajo de la norma (capítulo 5).13 Se compro
baron dos teorías. La primera se refería al efecto de una auditoría públi
ca inminente, un enfoque sobre el control de la corrupción de arriba aba
jo. La segunda concernía a la participación de base en el control del
282
proyecto vial, un enfoque sobre el control de la corrupción de abajo arri

ba. Cada uno de estos tratamientos se aleatorizó en 600 pueblos. Olken
descubrió que la amenaza de una auditoría tenía mucho más efecto en la
reducción de la corrupción que la implantación de un control a escala lo
cal (aunque ambas tenían algún efecto).
Ejemplo 3: campañas electorales históricas
Tradicionalmente, el uso de métodos experimentales se concibe como un

ejercicio prospectivo más que retrospectivo. Como la investigación la di
seña el experimentador, nos puede ayudar a arrojar luz sobre fenómenos
generales que pertenecen ai pasado, pero no puede arrojar luz sobre
eventos determinados del pasado. Aunque esto es verdad en general, hay
excepciones a la regla.
El papel del tristemente célebre anuncio publicitario «Willie Horton»
en la campaña presidencial estadounidense de 1988 ha preocupado a
académicos y especialistas desde el día que se emitió.14 En este anuncio
político, patrocinado por un grupo leal a la campaña de George Bush,
aparece un hombre negro, Willie Horton, y una voz explica que el gober
nador de Massachusetts George Dukakis le concedió un permiso carce
lario de fin de semana, tras el cual violó a una mujer y golpeó salvaje
mente a su novio. ¿Era un anuncio que «lanzaba el anzuelo del racismo»
o trataba sólo de la delincuencia? ¿Qué tipo de efecto pudo tener en el
público en general? Y, en términos más generales, ¿cuál es el efecto de los
anuncios que pretenden sacar partido del miedo?
El ingenioso enfoque de Mendelberg sobre estos asuntos fue someter a
una muestra de estudiantes universitarios blancos a un experimento de la
boratorio en el que el tratamiento consistía en exponerles al anuncio de
Horton insertado en un reportaje de noticias.15 (Los estudiantes elegidos
para el experimento no conocían o conocían poco el anuncio, por lo que
no eran conscientes de su notoriedad.) El control consistió en un reporta
je similar de noticias sin el anuncio de Horton. Mendelberg descubrió que
el anuncio aumentaba la prominencia de la raza, más que la delincuencia,
e interactuaba con prejuicios existentes de forma que afectaba en térmi
nos conservadores a las ideas de los sujetos sobre varias cuestiones.
Desde luego, este estudio no puede determinar (ni estimar) la dura
ción de este efecto, ni a cuántos votantes alcanzó, ni cuántos votos cam
bió (si cambió alguno). Estos resultados históricos tan específicos están
fuera del alcance exploratorio de los métodos experimentales. (Un estu
dio posterior de Gregory Huber y John Lapinski analiza más cuestiones
relativas a la validez interna y externa.16) Aun así, el influyente estudio de
Mendelberg nos anima a considerar los modos en los que podrían utili-
283
zarse protocolos experimentales para arrojar luz sobre eventos pasados,

un ámbito relativamente nuevo de la venerable técnica del experimento.
Ejemplo 4: género y liderazgo
¿Afecta el sexo de un político a sus decisiones políticas? Esta cuestión ha

sido muy estudiada y debatida.17 Sin embargo, hay poca evidencia sólida
sobre si el género tiene efectos en la naturaleza de las decisiones políticas,
principalmente porque los datos de observación están llenos de confun
didores potenciales. Si comparamos simplemente la conducta de los le
gisladores y las legisladoras corremos el riesgo de confundir los efectos
del género con otros factores que covarían con el género de un legislador
como, por ejemplo, la identificación partidaria, las características de las
elecciones o las características del distrito. Y si las comparaciones empí
ricas son entre países, el número de confundidores potenciales es aún ma
yor. Un estudio reciente de Dollar, Fisman y Gatti registra una correla
ción negativa entre la elección de mujeres para los parlamentos y la
corrupción.18 La pregunta causal, formulada explícitamente por Chatta-
padhyay y Duflo, es si esto significa que las mujeres son menos corruptas
(como Dollar et al. señalan), o que «los países que son menos corruptos
tienden a elegir más mujeres para el parlamento».19 Esto nos lleva al
meollo de nuestro asunto.
Para arrojar luz sobre esta cuestión, Chattapadhayay y Duflo se sir
ven de una ley federal aprobada en India en 1993 que establece que un
tercio de los alcaldes de todos los pueblos (un puesto electo) se reserve a
mujeres. Como la asignación de mujeres a puestos de autoridad se alea-
toriza (aunque no por parte de los investigadores), es posible interpretar
las decisiones políticas de los ayuntamientos que están bajo la dirección
de hombres y mujeres como un indicador del efecto causal del género.
Por supuesto, antes es necesario determinar en qué pueden consistir las
diferentes preferencias de hombres y mujeres en Bengala Occidental y
Rajastán, los dos estados estudiados. Esto se logra examinado los tipos
de peticiones formales presentadas al ayuntamiento por los ciudadanos y
por las ciudadanas.
En Bengala Occidental, las mujeres se quejan más que los hombres del agua po
table y las carreteras, y hay más inversiones en agua potable y carreteras en los
ayuntamientos de las mujeres. En Rajastán, las mujeres se quejan más que los
hombres del agua potable pero menos de las carreteras, y hay más inversiones en
agua y menos inversiones en carreteras en los ayuntamientos de las mujeres.20
Los autores descubren que estas preferencias se reflejan en el tipo de

bienes públicos proporcionado por los gobiernos en pueblos dirigidos
284
por alcaldesas —en relación con los pueblos del grupo de control, que
por lo general tenían alcaldes hombres. En pocas palabras, el sexo de los
líderes políticos influía. Los bienes valorados más por las mujeres ten
dían a proporcionarse más en pueblos donde las mujeres ocupaban pues
tos de liderazgo importantes.
Las características del diseño de esta aleatorización natural rozan el
ideal. Se estudian muchas unidades, el proceso de aleatorización parece
haberse realizado adecuadamente y hay indicadores de resultados viables
para juzgar el impacto del tratamiento. En resumen, la configuración de
este experimento es tan buena como la esperada en un experimento con
trolado por el investigador.
Sin duda, los mecanismos causales exactos que operan en este contex
to están de algún modo abiertos a interpretación. ¿La diferencia de resul
tados políticos entre los pueblos con cuota femenina y los pueblos sin
cuota femenina es un producto del deseo de las líderes de representar los
intereses de las mujeres de su electorado o es un producto de los atribu
tos personales y las experiencias vitales de las líderes elegidas? (¿Se com
portan las mujeres líderes acomodadas y con autoridad política de forma
diferente?) Los autores intentan abordar esta cuestión haciendo análisis
estadísticos que controlan por varias características de las líderes y no
encuentran ningún efecto. Aun así, podemos sospechar que hay una va
riación insuficiente en estas características como para proporcionar una
comprobación adecuada. Lo que ocurre es que cuando nos movemos
desde el efecto causal principal (que se aleatoriza) hacia los mecanismos
causales (que, en este y otros muchos casos no se aleatorizan), mengua la
precisión y la confianza en el análisis. (Esto nos ofrece también un buen
ejemplo de estudio en el que coinciden los estilos de análisis experimen
tal y no experimental.)
Hay que aclarar un último punto. Chattapadhyay y Dudo tienen la
cautela de presentar su investigación como una comprobación de las
cuotas de género, no como una comprobación del género per se. Tome
nota de que es la cuota de género lo que se aleatoriza, no el género de los
líderes políticos o el género de los electores de las comunidades estudia
das (por supuesto). Lo que podemos concluir razonablemente de este ex
perimento es que las cuotas de género influyen en los resultados de las
políticas públicas allí donde las preferencias de género son diferentes (los
hombres y las mujeres de una comunidad quieren cosas diferentes) y
donde un grupo está en desventaja política. Pero no aprendemos nada
sobre qué rasgos del género influyen en las preferencias políticas, ni de
las élites ni de las masas. ¿Qué hay en el «género» que afecta a las políti
cas públicas?
285
Ejemplo 5: promoción de la democracia
Recientemente la promoción de la democracia ha pasado ser un objetivo

principal de la ayuda exterior. Sin embargo, hay bastante debate sobre en
qué medida esta ayuda marca alguna diferencia en el mundo en desarro
llo. En concreto, ¿los países que reciben ayuda tienden más a celebrar
elecciones democráticas? Un enfoque sobre este asunto es examinar la
correlación global entre la democracia (medida, por ejemplo, por Free-
dom House) y la cantidad de ayuda exterior que recibe un país, con las
variables de control apropiadas.21 Sin embargo, este enfoque afronta la
dificultad usual asociada al problema de la asignación. En concreto, pa
rece probable que la asignación de ayuda exterior pudiera estar relacio
nada con las perspectivas de democratización de un país: los donantes
no quieren malgastar sus escasos recursos en casos «desesperados». Si
esto es así, las estimaciones a las que se puede llegar de esa intención
para medir el efecto causal independiente de la ayuda exterior en la de
mocratización son propensas a un fracaso fatídico.
Sin embargo, si examinamos resultados relacionados con la democrati
zación más próximos y de menor envergadura, los desafíos metodológicos
serán algo más tratables. Susan Hyde se centra en el efecto de la ayuda ex
terior en el desarrollo de las elecciones. En particular, se pregunta si los
observadores electorales reducen la incidencia del fraude electoral en paí
ses donde éste constituye un obstáculo principal para la competencia elec
toral. Las elecciones presidenciales de 2003 en Armenia ofrecieron un
tema de análisis ideal, porque en estas elecciones la asignación de obser
vadores internacionales se hizo de tal forma que, en su opinión, podría
servir de experimento aleatorizado verdadero. Hyde explica:
En estas elecciones particulares, los líderes de las delegaciones [de varios grupos
de vigilancia internacionales] dieron a cada equipo de observadores de corto
plazo una lista preasignada de colegios electorales para que los visitaran duran
te el día de las elecciones. Estas listas se hicieron con dos objetivos en mente: (1)
distribuir los observadores por todo el país.... y (2) dar a cada equipo de obser
vadores una lista de colegios que no coincidieran con los colegios de otros equi
pos.22
Estos objetivos eran de naturaleza pragmática y no tendían a estar corre

lacionados con confundidores; es decir, los colegios visitados por los mo
nitores internacionales eran similares, en todos los aspectos importantes,
a los colegios que quedaron sin controlar.
Para medir el impacto de estos observadores en la incidencia del frau
de, Hyde comparó el voto al partido en el poder en los distritos con ob
servadores y en los distritos sin observadores. El supuesto es que el parti
do en el poder es el principal instigador de la compra de votos y la
286
intimidación. Sobre la base de este análisis, que sigue un diseño de sólo

postest (n° 2 de la tabla 10.2), Hyde concluyó que el efecto disuasorio de
los observadores internacionales fue importante en las dos rondas de
esas elecciones.
Regresemos por un momento al método de la asignación. Aunque no
se usaron generadores de números aleatorios, Hyde afirma que la elec
ción de los sitios fue ortogonal a todo confundidor posible. En estas cir
cunstancias, parece justo considerarla una aleatorización natural con las
características deseables de un experimento clásico. Sigue habiendo un
elemento de duda: como la experimentadora no controló el proceso de
asignación, ella nunca sabrá con certeza si fue verdaderamente aleato
rio, o sólo aparentemente aleatorio. Desde luego, eso también ocurre en
un tratamiento deliberadamente manipulado; en algunas ocasiones, la
realidad escapa a nuestro entendimiento, aunque controlemos comple
tamente el tratamiento. Pero cuanto mayor sea la implicación del inves
tigador en la asignación del tratamiento, y más control tenga sobre este
proceso, más fundado tenderá a ser su juicio. Aunque en este capitulo
consideramos las aleatorizaciones naturales como experimentos, es im
portante no olvidar que típicamente implican un grado de ambigüedad
sobre el verdadero principio de asignación, que debe reconstruirse des
pués del hecho.
Obstáculos
Nuestro análisis parecerá descuidado si no abordamos también algunas
de las limitaciones de los diseños aleatorizados. Algunas de estas limita
ciones conciernen a la validez interna y otras a la validez externa (una
distinción que vimos en el capítulo 4).23
Validez interna
Hemos definido el experimento como un estudio con un tratamiento

aleatorizado. Esto significa que, con una cantidad suficiente de unidades,
los grupos de tratamiento y de control deben ser comparables causal
mente entre sí (sin confundidores). Queda así resuelto el problema de la
asignación. Sin embargo, sigue habiendo importantes amenazas a la infe
rencia.
Lo primero que hay que señalar es que los supuestos de independen
cia de las unidades y la comparabilidad causal no siempre se satisfacen
totalmente en los experimentos de campo en las ciencias sociales —o,
por decirlo de otra manera, el número de observaciones verdaderas (in-
287
dependientes y comparables) es, en algunas ocasiones, menor de lo que

parece, lo que implica un posible error estocástico. Tengamos en cuenta
que la mayoría de los experimentos de campo no pueden aleatorizar efi
cazmente un tratamiento en el nivel individual. En el experimento de
Olken sobre los métodos de controlar la corrupción, ambos tratamientos
de interés se asignan en el nivel de la comunidad: la sugerencia de una
auditoría gubernamental inminente y la de la participación del pueblo
para controlar los proyectos viales. Por consiguiente, la aleatorización se
produce entre los pueblos más que entre individuos. Asimismo, el experi
mento de campo de Chattapadhyay y Duflo sobre el papel que represen
ta el género en el liderazgo se realiza en el nivel de los pueblos, y el expe
rimento de campo de Hyde sobre el efecto del control de las elecciones se
realiza en el nivel de los distritos. Esto no es un problema si hay suficien
tes unidades de comunidades para hacer el análisis, como hemos com
probado en estos ejemplos cuidadosamente elegidos.
Sin embargo, no todos los experimentos de campo cuentan con cien
tos de unidades a escala comunitaria entre las que poder aleatorizar los
tratamientos. A veces sólo se dispone de algunas. Cierto que el resultado
del experimento se puede medir en el nivel individual (por medio de en
cuestas), lo que puede producir una muestra de cientos o miles. Sin em
bargo, lo que hay que recordar es que si el tratamiento se ha aleatorizado
entre comunidades (más que entre individuos), los individuos de una co
munidad tienden a tener muchas características comunes —un problema
de agrupamiento (conocido también como de no independencia). Algunas
de estas características comunes pueden afectar a la respuesta al trata
miento. Además, los individuos de una comunidad dada tienden a estar
en contacto entre sí, lo que plantea la amenaza de contaminación postra
tamiento. Si se da alguna de estas circunstancias, el número de indivi
duos de un estudio se convierte en una medida errónea del verdadero ta
maño de la muestra, que probablemente será el número de comunidades.
Los problemas de incumplimiento abundan en los experimentos de
campo. Esto se debe a que aunque la exposición al tratamiento se puede
manipular, muchos experimentos requieren la participación activa de los
sujetos. Tienen que usar el cupón educativo que se les ha asignado, to
mar la píldora que se les ha dado o seguir algún otro tipo de régimen. Si
se negaran a hacerlo (o se olvidaran, desaparecieran, etc.), los grupos de
tratamiento y de control dejarían de ser comparables causalmente.
La heterogeneidad extrema de la muestra elegida puede comprometer
también los resultados, especialmente si el tamaño de la muestra es mo
desto o se caracteriza por mucho agrupamiento. Consideremos que algu
nos tratamientos pueden tener diferentes efectos según las características
de las unidades que se están tratando. Por ejemplo, un programa de cu
pones puede aumentar el rendimiento educativo de los estudiantes moti-
288
/
vados y disminuir el rendimiento de los estudiantes no motivados. Si am

bos tipos de estudiantes forman parte de la misma muestra, el efecto
causal medido será verdadero en el sentido de que nos da una estimación
no sesgada del impacto de X en Y en la muestra elegida. Sin embargo,
dará una impresión errónea del verdadero efecto causal del tratamiento
en el nivel de la unidad. Los resultados de un experimento así pueden in
dicar que no hay efecto alguno en la muestra, cuando el impacto causal
en el nivel de la unidad es realmente muy profundo (aunque en diferentes
direcciones para diferentes tipos de participantes).
Por último, los experimentos con seres humanos están sujetos a varios
efectos del experimentador, como vimos en el capítulo 9. Muchos experi
mentos sociales no son verdaderamente ciegos (los sujetos no saben si es
tán en el grupo de tratamiento o en el de control), y mucho menos doble
mente ciegos (ni los sujetos ni los investigadores saben cuál es el grupo
de tratamiento y cuál el de control). E incluso cuando los sujetos ignoran
su estatus, pueden responder a aspectos del tratamiento que no son de
interés teórico, introduciendo así confundidores en el análisis. Por consi
guiente, los efectos del investigador son difíciles de evitar y, lo que es
peor, no son siempre evidentes cuando aparecen.
Así, la magia de la aleatorización no resuelve en modo alguno todas
las amenazas a la inferencia. No reduce el ruido de fondo, por ejemplo.24
Asimismo, no resuelve las amenazas a la inferencia que surgen después
de que el tratamiento se haya asignado (por ejemplo, el incumplimiento,
la contaminación, el desgaste, los efectos de comprobación, etc.). Debe
mos tener en mente que la independencia de la unidad y la comparabili-
dad causal deben mantenerse durante todo el experimento. Es en el inter
valo entre el primer pretest y el último postest cuando aparecen las
numerosas amenazas a la validez interna.
Eliminar estos confundidores requiere, ante todo, una atención máxi
ma a los detalles del diseño de investigación y la observación esmerada
de la investigación a medida que progresa en el tiempo real. A este res
pecto, construir un experimento bien fundado implica un conjunto etno
gráfico de capacidades y recursos. Debemos conocer nuestros sujetos y
debemos anticipar considerablemente cuál será la reacción al tratamien
to con el fin de idear una comprobación adecuada de ese tratamiento.
Los experimentos no se pueden construir siguiendo mecánicamente un
manual de instrucciones. El conocimiento local, incluyendo la evidencia
cualitativa, suele ser esencial.25
En cualquier caso, algunas amenazas a la inferencia pretratamiento y
postratamiento pueden ser inevitables. Esto no significa que todo esté
perdido. Con frecuencia, se puede hacer correcciones adecuadas ex post
(capítulo 11). Sin embargo, estas intervenciones a menudo implican in
troducir supuestos causales (por ejemplo, sobre la naturaleza de los
289
incumplidores) que son difíciles de comprobar empíricamente y que, por

lo tanto, comprometen la fiabilidad con la que contemplamos un hallaz
go experimental. Cuando un experimento depende de correcciones «esta
dísticas», empieza a parecerse a una investigación observacional con to
das sus ambigüedades.
Validez externa
Los estudios aleatorizados suelen ser criticados por su falta de validez

externa, es decir, por su escasa capacidad de generalización. Una razón
a menudo citada es que los estudios experimentales se hacen en contex
tos artificiales construidos por el investigador y no reflejan en absoluto
los contextos de la vida real que son de máximo interés teórico. Ésta es
la visión de «laboratorio» de un experimento, y es cierta dentro de lo
que cabe. Sin embargo, no todos los experimentos de laboratorio son ar
tificiales en este sentido, porque en algunas ocasiones las condiciones
del laboratorio pueden replicar dimensiones relevantes de la realidad.
Recordemos que el propósito de todo análisis empírico de relaciones
causales no es reproducir todas las características de un contexto del
mundo real, sino abordar aquellas características que son necesarias
para llegar a conclusiones sobre el efecto de X en Y. Ocasionalmente,
los experimentos de laboratorio pueden jugar esta baza. El problema es
que no siempre sabemos cuándo se ha hecho una verdadera simulación
de la realidad.
En todo caso, hoy día se realizan muchos estudios experimentales en
contextos naturalistas, como sugiere la creciente popularidad de los ex
perimentos emprendidos «en el campo». Mientras la imagen estereotipa
da de la investigación experimental sigue siendo la del científico con bata
de laboratorio, la técnica de la aleatorización no se limita en absoluto a
entornos artificialmente controlados. A este respecto, el talón de Aquiles
del experimento puede ser menos vulnerable de lo que hemos creído
siempre.
Desgraciadamente sigue existiendo una segunda constricción estruc
tural de la validez externa. Se trata de la selección de las unidades que se
van a estudiar. Los procedimientos de muestreo aleatorio se emplean
muy raramente. Como tales, las muestras experimentales no son, por lo
general, muestras representativas, al menos en el sentido estricto del tér
mino. Esto no es casual. Como el trabajo experimental implica una ma
nipulación intencionada —los sujetos son «tratados»—, es necesario te
ner su consentimiento. Muchos participantes potenciales tienden a poner
reparos, dejando así al investigador con algo menos que una muestra
aleatoria (aunque se empleen procedimientos de muestreo aleatorio para
290
identificar a los participantes potenciales). Además, como hay que man

tener las condiciones ceteris paribus para observar el efecto del trata
miento, suele ser necesario elegir sujetos que se parezcan entre sí en as
pectos relevantes. Esta muestra elegida de sujetos homogéneos tiende a
no ser representativa de la población de interés. Por último, muchos ex
perimentos implican un tratamiento muy específico en el sentido de que
se realizan en un tiempo y lugar determinados. No hace falta decir que si
alteramos una característica institucional del contexto, como el tipo de
sistema electoral, los sujetos objeto de estudio vivirán por fuerza todos
ellos dentro de los confines de una única entidad política. Esto también
limita la capacidad de generalización de los experimentos, incluso la de
aquellos que se realizan en contextos naturalistas.
Hay una excepción: los experimentos insertos en instrumentos de en
cuesta. Se construye una encuesta «con una muestra dividida» especial
mente diseñada de forma que sea idéntica para todos los respondedores
salvo en un aspecto, el tratamiento.26 Esta diferencia entre las muestras
podría implicar la reformulación de una pregunta, el reordenamiento de
las preguntas o una estructuración diferente. En este contexto, el mues-
treo aleatorio de una población es fácil (o, en cualquier caso, igual de fá
cil que en la investigación tradicional por encuesta). Sin embargo, la en
cuesta con muestra dividida constituye una herramienta bastante
limitada, porque la intervención es inadecuada en el caso de muchas
cuestiones teóricas de interés.
En resumen, el rasgo definitorio de los diseños de investigación expe
rimentales también tiende a limitar la capacidad de generalización de los
experimentos. Esto implica que el típico experimento quizás debe abor
darse como un «estudio de caso» de algún tema más general. Son estu
dios de casos con mucha validez interna (recuerden las advertencias que
se han señalado), pero con una validez externa cuestionable.
Esto no condena el método experimental por trivial. Como su validez
interna suele ser en general alta, los estudios de caso experimentales tie
nen el potencial de la acumulación —si los protocolos empleados en es
tos estudios son estándares y por ende replicables en diversos contextos
(capítulo 4). La realización de múltiples experimentos sobre el mismo
tema en diferentes contextos puede ayudar, en última instancia, a situar
en el foco una imagen más amplia si las características clave de esos ex
perimentos individuales son conmensurables. Así, a partir de la repeti
ción de experimentos de campo hemos aprendido cuáles son los efectos
de una variedad de tratamientos diferentes en la participación electoral
(al menos en los Estados Unidos).27 La replicación puede contribuir, con
el tiempo, a la acumulación de conocimiento sobre otros temas de interés
para las ciencias sociales. Sin duda, esto no se puede hacer rápidamente
o con pocos costes y requiere un ajuste importante de los incentivos aca-
291
démicos (que, en general, no recompensan la replicación). También im

plicará un coste en conocimiento sobre otros temas (porque tanto el
tiempo como el dinero es limitado), lo que evoca la ya conocida dificul
tad de optar entre descubrimiento y apreciación (capítulo 2).
Conclusiones
El rasgo más sorprendente de los trabajos experimentales recientes de

economistas, politólogos y sociólogos ha sido quizás la diversidad de te
mas que han explorado por medio de los tratamientos aleatorizados.28
Prima facie, los experimentos son —en contra de las expectativas comu
nes— una forma muy flexible de análisis que se puede adaptar a una
enorme variedad de temas.
Hasta dónde se puede extender un protocolo de aleatorización sigue
siendo una cuestión especulativa. Respecto a muchas cuestiones de polí
tica pública, en las que el tratamiento, por definición, es manipulado (to
das las intervenciones políticas son intentos de manipular algún rasgo de
la realidad social), podría parecer que hay mucho espacio para hacer en
sayos aleatorizados. Pero esto, a su vez, depende de un cambio de actitud
entre los políticos, los expertos en políticas públicas y el público en gene
ral, quienes deben ser, después de todo, los que aprueban esa experimen
tación. Si vamos a convertirnos en una sociedad de la experimentación,
como Donald Campbell recomendaba hace muchos años, esto requerirá
el compromiso del público con un método que ha sido considerado, has
ta la fecha, con recelo desde muchos frentes.29
Diseños no aleatorizados
Cuando un tratamiento no se puede aleatorizar entre las unidades (por

razones prácticas o éticas) o cuando hacerlo implica una pérdida de vali
dez externa, la solución es identificar (o idear) circunstancias en el mun
do natural que se aproximen a las características de un experimento. En
la medida en que los datos generados por medio de procesos naturales
son «como si» se hubieran aleatorizado (tan buenos como, o casi tan
buenos como, los de un estudio en el que el tratamiento se hubiera alea
torizado explícitamente), el estudio resultante se puede describir como
un cuasi experimento o un experimento natural.30
Desde luego, ésta es una cuestión de grado. Todos los estudios no ex
perimentales intentan tener un estatus cuasi experimental y el grado en
que este objetivo se logra es una cuestión de opinión (y de no poca discu
sión). Por consiguiente, más que intentar distinguir entre los experimen-
292
tes que se pueden considerar cuasi experimentales y los que no se pueden

considerar así, agruparemos a todos los experimentos no experimentales
en la misma categoría general: no aleatorizados.
Por lo general, los diseños no aleatorizados implican la evaluación ex
post de los datos generados «naturalmente», es decir, sin la manipulación
o el control del investigador. He aquí por qué los diseños no aleatoriza
dos suelen calificarse de observacionales, a diferencia de los diseños expe
rimentales. Sin embargo, hay circunstancias en las que el investigador
puede manipular un tratamiento no aleatorizado. Supongamos, por
ejemplo, que podemos diseñar un estudio en el que ciertos aspectos del
tratamiento se controlan —por ejemplo, la construcción del tratamiento
y su calendario—, pero no se aleatoriza el tratamiento (quizás debido a
que no hay manera alguna de establecer un grupo de control adecuado).
Esto es un diseño ex ante —y, en algunas terminologías, un «experimen
to» (aunque yo me adhiero a nuestra definición original de experimento
como diseño aleatorizado). En todo caso, el lector debe ser consciente de
que normalmente, pero no siempre, «no aleatorizado» implica «observa-
cional». Por consiguiente, estos dos conceptos se usarán indistintamente
en el siguiente análisis.
Por desgracia, no existe una tipología clara y parsimoniosa para los
diseños de investigación no aleatorizados. Una vez que prescindimos de
los tratamientos aleatorizados, el tipo de datos relevantes para la inferen
cia causal es infinitamente variado. No obstante, muchos de estos estu
dios se pueden provechosamente clasificar como: (1) diseños de regresión
discontinua (RD), (2) diseños de panel, (3) diseños transversales o (4) di
seños longitudinales (de un único grupo).
Estos arquetipos incluyen la mayor parte de la investigación no expe
rimental. Por ejemplo, los estudios de control de casos se pueden conside
rar un tipo de análisis transversal. Los modelos de diferencia en diferen
cia (DD) y los de efecto fijo adoptan un diseño de panel. Los modelos
jerárquicos (multinivel) combinan análisis realizados en diferentes niveles
dentro del mismo diseño de investigación. Los análisis de estudio de caso
se pueden concebir como una versión con N pequeño de los diseños de
panel, transversales o longitudinales, como veremos en el capítulo 12.31
Y así sucesivamente.
Diseños de regresión discontinua (RD)
El diseño de regresión discontinua (RD) se puede diagramar como un

experimento pretest y postest o uno de sólo postest (opciones 1 y 2 de la
tabla 10.2). Hay dos grupos, uno recibe el tratamiento (X = 1) y el otro
sirve de control (X = 0). Puede hacerse o no un pretest que mide el resul
293
tado antes del tratamiento. Sin embargo, en este contexto el tratamiento

no se ha aleatorizado, por lo que persistirá un problema de asignación.32
i
Hay varias características más que son distintivas del diseño RD y sir
ven para mitigar las preocupaciones sobre el problema de la asignación.
Primera, se conoce el principio de asignación. Segunda, es medible antes
del tratamiento para todas las unidades de la muestra. Tercera, consiste
en una variable de intervalo en la que una división o discontinuidad defi i
ne la asignación de los sujetos, produciendo una variable de tratamiento

binaria. (Puede consistir en múltiples variables de asignación, aunque
esto es más raro y complica el análisis.) Cuarta, idealmente muchas uni
dades caen en uno u otro lado de esta línea de corte situada en medio de
la distribución. Y, finalmente, se mantiene el principio de la asignación
(sin excepciones). Si las unidades caen por encima (o por debajo) de la lí
nea de corte, son tratadas; si caen por debajo (o por encima) de la línea,
no son elegibles para el tratamiento.
Z
Unidades no tratadas Línea de corte Unidades tratadas
(X-O) (x = i)
Figura 10.1 Ilustración: el diseño de regresión discontinua
El diseño de RD se aplica, así, a un conjunto de circunstancias muy es

pecíficas y exigentes. Sin embargo, si se cumplen todos los requisitos an
tes señalados se pueden resolver los problemas de asignación aunque el
tratamiento no se aleatorice y los grupos de control y de tratamiento
sean evidentemente bastante heterogéneos (de formas que presumible
mente afectan al resultado de interés).
294
A
(En algunas ocasiones, las desviaciones mínimas de estos exigentes

I
criterios pueden superarse con otros análisis. Por ejemplo, si el principio
de asignación no se sigue estrictamente —si algunos sujetos que caen por
encima (o por debajo) de la línea de corte son tratados (o no tratados)—
esto se puede corregir usando instrumentos en un análisis de dos fases.33
A efectos heurísticos, trataremos exclusivamente el caso más simple posi
ble en el que se cumplen todos los requisitos.)
Consideremos el modelo Y = X + Z, donde X es una variable dicotó-
mica que indica el tratamiento (X = 1) o el control (X = 0) y Z es la va
riable de asignación (continua). La figura 10.1 ilustra datos muéstrales
I en los que X tiene un efecto fuerte en el resultado. Aquí se puede apreciar
que con la inclusión de la variable de asignación Z, la variable de trata
miento (X) modelará correctamente la discontinuidad de la superficie de
la regresión, de aquí el término «regresión discontinua».
A la regresión discontinua se la llama «diseño» porque se puede im
plantar tanto prospectiva como retrospectivamente. De hecho, cuando la
aleatorización de un tratamiento se considera no ética o desagradable, y
cuando, sin embargo, alguna restricción del tratamiento (quizás basada
en las necesidades) es aceptable, un diseño de RD puede proporcionar
una buena alternativa a un diseño aleatorizado.
Consideremos, por ejemplo, el estudio de Richard Berk y David
Rauma sobre el sistema penal de California. En 1978, California am
plió el seguro de desempleo a presos recientemente liberados con la es
peranza de facilitar su rehabilitación civil y reducir las tasas de reinci
dencia. Los presos excarcelados eran elegibles sólo si habían trabajado
un número determinado de horas en la cárcel, estableciendo así un
punto de corte que proporcionaba la base para un diseño de RD. Los
sujetos llegaban a formar parte de la muestra si habían solicitado real
mente la ayuda al desempleo, lo que significa que el análisis comparaba
aquellos que la habían solicitado y eran elegibles y aquellos que la ha
bían solicitado pero no eran elegibles (supuestamente porque no sabían
que no eran elegibles). El modelo de datos adopta la siguiente y simple
forma:
Y: fracaso (reingreso en prisión) =

X: beneficios (la variable de tratamiento binaria) +
Z: horas trabajadas (el criterio de asignación) +
C: variables de control (características de fondo que podrían afectar a
la reincidencia) (10.1)
De este modo Berk y Rauma pudieron concluir que los miembros del
grupo de tratamiento habían tenido tasas de reingreso en prisión un 13
por ciento menores que los que pertenecían al grupo de control (es decir,
295
1
aquellos inelegibles para el programa), lo que sugería que la concesión de

ayudas tras la prisión reducía considerablemente la reincidencia.
Un segundo ejemplo de diseño de RD es un estudio reciente sobre los
sindicatos. En ocasiones se alega que la creación de sindicatos provoca que
las empresas fracasen al imponer costes extra que no pueden recuperarse
ni aumentando las ventas o la productividad ni cambiando la estructura
de precios de una empresa. Con el fin de comprobar esta proposición,
John DiNardo y David Lee examinan el destino de casi 27.000 empresas
estadounidenses durante quince años. Señalando que la sindicalización se
produce como producto parcial de las elecciones con voto secreto (cuyos
resultados están disponibles para el público), los autores usan esta línea de
corte para realizar un diseño de RD en el que comparan las empresas en
las que el voto sindical gana por poco margen con las empresas en las que
el voto sindical pierde por poco margen. Descubrieron que el éxito de los
sindicatos en las elecciones apenas afectaba a la tasa de supervivencia de
esas empresas; además, descubrieron poca evidencia de un efecto causal en
los niveles de desempleo, producción y productividad. (Consideraron tam
bién la posibilidad de que la amenaza de una campaña sindical exitosa pu
diera alterar la estructura salarial, y por ende las oportunidades de super
vivencia de la empresa, antes del voto.)
Los lectores deben saber que se pueden emplear varios métodos es
tadísticos para calcular los efectos causales con un diseño de regresión
discontinua. Nuestro primer ejemplo presume un simple formato trans
versal de mínimos cuadrados ordinarios. Berk y Rauma emplean la re
gresión logit, porque su resultado es dicotómico. DiNardo y Lee combi
nan las técnicas de asignación usuales —en este caso, el porcentaje de
voto a favor de la sindicalización— con datos temporales de fracaso de
empresas para ver si el calendario del voto sindical está asociado con una
tasa más alta de fracaso. Eso implica combinar la evidencia sobre el por
centaje de voto con un análisis de historia de los acontecimientos. La
tendencia entre los estudios recientes es ponderar aquellas observaciones
que están más próximas a la línea de corte, para lo que se han ideado va
rias técnicas.34
Cuando la regla de asignación es más complicada, los investigadores
pueden decidir tratarla como un instrumento en un análisis de dos fases,
una técnica que describiremos en el capítulo 11. Éste es el enfoque del es
tudio de Angrist y Lavy sobre el efecto del tamaño de las clases en el lo
gro educativo. Aquí, los límites impuestos por los gobiernos al tamaño
de la clase (derivados de la tradición hebraica) proporcionan una discon
tinuidad en el tratamiento que sirve de instrumento para la variable teó
rica de interés: el tamaño de la clase.35
Los metodólogos han sido partidarios de los diseños de regresión dis
continua desde que se descubrieron hace cincuenta años. Sin embargo,
296
hasta hace muy poco tiempo, se han hecho pocas aplicaciones prácticas
de ellos. Es así un tanto sorprendente el renacimiento de este diseño de
investigación en los últimos años (véanse las fuentes citadas antes). El
tiempo nos dirá si este entusiasmo reciente está justificado, pero por aho
ra las señales son propicias.
A buen seguro, hay algunas dificultades potenciales con el análisis de
datos procedentes de un diseño de RD. Las comparaciones son más fáci
les en cualquier lado de la línea de corte; podría decirse que las observa
ciones que están lejos de la línea de corte son bastante desiguales al res
pecto de las características de fondo, por lo que no son adecuadas para
este diseño de investigación no aleatorizado. Así, deben tomarse decisio
nes sobre el tamaño de la «anchura de banda» en torno a la discontinui
dad, o sobre qué principio de ponderación debe aplicarse a las observa
ciones que caen muy lejos de la línea de corte.36
No deja de percibirse cierta inseguridad respecto del carácter aleato
rio de las comparaciones entre lo que está sobre la línea de corte y lo que
está bajo ésta, porque el tratamiento no se ha aleatorizado verdadera
mente. En particular, debemos ser cautelosos cuando los participantes en
una muestra son conscientes de las consecuencias de un umbral y pueden
autoseleccionarse. Por ejemplo, en el diseño de RD de DiNardo y Lee
para comprobar el efecto de la sindicalización en la supervivencia de la
empresa, el empleo, la producción, la productividad y los salarios, hay
que tener en cuenta la posibilidad de que el fracaso/éxito de la campaña
de sindicalización no sean aleatorios respecto de los resultados de interés.
Consideremos que en unas elecciones representativas sindicales los traba
jadores pueden ser conscientes del efecto potencial de su voto en la salud
financiera de la empresa. Los directivos suelen argüir que un sindicato
pondrá a la empresa en desventaja competitiva y generará, en última ins
tancia, una pérdida de puestos de trabajo. En estas circunstancias, los
trabajadores pueden ser más propensos a apoyar la sindicalización si es
tán convencidos de la fuerza de una empresa, y menos propensos si per
ciben que la empresa está en una posición vulnerable. Si hay suficientes
trabajadores que votan estratégicamente sobre esta base, y sus presenti
mientos son fundados (presumiblemente conocen la posición de su em
presa en el mercado), entonces los resultados de este diseño de RD sólo
nos dicen algo sobre los efectos promedio del tratamiento local (EPTL).
Es decir, podemos estar dispuestos a creer que las empresas que estaban/
están sindicadas no tienden más a quebrar que las empresas que siguen
sin estarlo, pero de esto no debemos inferir que la sindicalización —si se
asigna aleatoriamente entre el universo de empresas— no tendrá ningún
efecto causal en la probabilidad del fracaso de la empresa. (DiNardo y
Lee tienen la cautela de no generalizar en exceso a partir de los escasos
datos disponibles.)
297
En efecto, los tratamientos no aleatorizados suelen tener un alcance

más reducido (una capacidad menor de generalización) que los trata
mientos aleatorizados, porque el contrafáctico al margen de la muestra
(lo que hubiera pasado con el rendimiento de la empresa si más campa
ñas de sindicalización hubieran tenido éxito) no puede simularse. Por
otra parte, podemos argüir que es más importante, en términos políticos,
el efecto que realmente tienen las campañas de sindicalización que el que
hubieran tenido en condiciones contrafácticas muy diferentes y posible
mente no realistas.
Diseños de panel
Entendemos aquí por diseño de panel todo diseño de investigación no

aleatorizado en el que se toman varias observaciones de cada unidad y
hay cierta variación en X en el tiempo y entre las unidades. Como tal,
puede adoptar la forma de cualquiera de los diseños experimentales de la
tabla 10.2 salvo la del diseño de sólo postest (opción 2). Desde luego, la
ausencia de un tratamiento manipulable implica que los diseños más
complejos de este tipo apenas tienden a ocurrir naturalmente (por pura
casualidad). De hecho, la mayoría de los diseños de panel son imposibles
de diagramar de forma clara y ordenada. Es decir, X no varía de forma
regular (puede ser continua más que binaria), o las observaciones no se
toman a intervalos regulares. En algunas ocasiones, el peso del análisis
descansa en la variación en el tiempo (como ocurre, por ejemplo, con los
diseños de efecto fijo). En otras ocasiones, el peso del análisis descansa
en la variación entre las unidades (aproximándolo así a los diseños trans
versales que analizaremos más adelante). En pocas palabras, hay una
gran cantidad de variabilidad en el alcance de un diseño de «panel».
Para centrar nuestro análisis trataremos una variedad de diseño de
panel muy simple conocida como diseño de diferencia en la diferencia
(DD). Este diseño replica el contexto clásico de experimento con pretest
y postest (n° 1 de la tabla 10.2). Un grupo recibe el tratamiento y el otro
no. Los resultados se miden antes y después de la intervención.
Debemos recordar que, a diferencia del verdadero experimento, el tra
tamiento no ha sido aleatorizado entre los grupos. Y las características
del proceso de asignación tampoco cumplen los requisitos de un diseño
de RD. Por lo tanto, el problema de asignación es bastante preocupante:
puede haber confundidores (Cde la figura 9.1).
Para tratar este tipo de datos se ideó un enfoque econométrico están
dar: el estimador de la diferencia en la diferencia. Este estimador compa
ra la diferencia en un resultado dentro del grupo de tratamiento antes y
después de la intervención de interés teórico (Y en T, menos Y en f para
298
el grupo I) con la diferencia en el mismo resultado dentro del grupo de

control durante el mismo periodo (Y en T2 menos Y en T} para el grupo
II). Si el cambio desde 7\ hasta T2 es mayor para el grupo I que para el
grupo II (y es estadísticamente significativo), entonces hay razones para
la atribución causal. Esta técnica de estimación calcula, por lo tanto, una
«diferencia de diferencias» o la diferencia en la diferencia.
Para aquellos que se interesen por el modelo de regresión correspon
diente, el estimador usual DD adopta la siguiente forma:
Y=B+ T+ X+ T*X (10.2)
donde Y es el resultado, B es una serie de variables de control (opciona

les), T es una variable ficticia del tiempo (T = 0 para el pretest, T = 1
para el postest), X es el tratamiento (X = 0 para el grupo de control, X = 1
para el grupo de tratamiento), y el producto de T*X es la DD, el valor de
interés.37
Este estimador particular no es apropiado para todas las estimaciones
de la DD. Cuando se analizan resultados binarios (digamos que la mor
talidad), por ejemplo, debemos incluir un estimador no lineal (por ejem
plo, la regresión logística).38 Además, cuando se analizan muestras muy
pequeñas, es obviamente imposible aplicar la lógica probabilística basa
da en la conducta de las grandes muestras. Por lo tanto, el análisis esta
dístico es imposible. Esto sería así, por ejemplo, en los análisis de «los ca
sos más similares» con un N pequeño.39 Por el momento supondremos
que se dan todos los requisitos de un estimador de la DD.
Un ejemplo nos ayudará a afianzar estas ideas. El efecto económico
del establecimiento de salarios mínimos por decreto ha sido un asunto
primordial en la economía del trabajo durante décadas. Pero a pesar de
los múltiples estudios realizados y los numerosos modelos construidos, la
cuestión empírica sigue siendo difícil de aprehender. Igual que otras
cuestiones de ciencias sociales, un obstáculo metodológico clave es el ca
rácter endógeno del tratamiento en la mayoría de los estudios que hay.
Los Estados (o países) que establecen salarios mínimos altos tienden a
ser diferentes también en otros aspectos de los Estados (o países) que es
tablecen salarios mínimos bajos (o que ni siquiera los establecen). Estos
factores heterogéneos, relacionados con otras regulaciones del mercado
laboral, con la política fiscal o con el carácter de las sociedades y la orga
nización laboral, sirven de confundidores potenciales. La implantación
de reformas en el mercado laboral puede ser también una respuesta a
otros rasgos de la actuación en el ámbito macroeconómico, lo que intro
duce efectos de retroalimentación potenciales.
En un muy citado trabajo, David Card y Alan Krueger enfocan este
problema centrándose en un episodio de cambio político: el aumento de
299
los salarios mínimos en Nueva Jersey en 1992. Su estrategia de acopio de

datos se centró en un sector —los restaurantes de comida rápida— que
tiende a ser sensible a los cambios en los salarios mínimos. Se examina
ron varios cientos de restaurantes en Nueva Jersey y en un estado vecino,
Pennsylvania, para determinar si los niveles de empleo, salarios y precios
habían experimentado algún cambio antes y después de que entrara en
vigor este cambio legislativo. Los restaurantes de Pennsylvania sirvieron
de grupo de control espacial. (Se hicieron también comparaciones entre
establecimientos de Nueva Jersey que pagaban más y menos que el sala
rio mínimo recientemente establecido. Como a los primeros no les afectó
el aumento de salarios mínimos, este grupo formó un segundo grupo de
control.)
El enfoque de Card y Krueger se ajusta al diseño pretest y postest (n° 1
de la tabla 10.2), porque las mediciones se tomaron antes y después de la
intervención tanto en el grupo de tratamiento como en el de control.
Esto se analiza mediante un modelo de la DD, permitiendo la inclusión
de numerosas variables de control, con el fin de determinar si se podían
descubrir efectos estadísticamente significativos. Se determinó que no se
produjeron diferencias en los niveles de empleo tras el aumento de los sa
larios mínimos en Nueva Jersey.
Es un estudio impresionante, pero, como todos los estudios, no está
exento de problemas. Se puede cuestionar, por ejemplo, la representativi-
dad del sector elegido (¿el efecto de una ley sobre el salario mínimo en
toda la economía se puede juzgar por el comportamiento de una sola in
dustria?). También podemos cuestionar el corto periodo de tiempo entre
el pretest y el postest (¿se pueden apreciar los efectos económicos de un
aumento de los salarios mínimos en el corto espacio de tiempo de ocho
meses, el tiempo entre los pretest y los postest?). Y también podemos du
dar sobre si las condiciones económicas de los dos estados eran suficien
temente similares como para ser comparables, y si las diferencias restan
tes fueron adecuadamente modeladas en el análisis estadístico. Otra
pregunta que se nos puede plantear es si el diseño de investigación incor
pora el suficiente poder como para constituir una buena comprobación
de la hipótesis nula. ¿Se le ha dado una clara oportunidad de éxito a la
hipótesis positiva —que los salarios mínimos afectan al comportamiento
del mercado laboral? Por lo menos un comentarista ha cuestionado si el
aumento de los salarios mínimos representa realmente el factor de inte
rés teórico o si debe considerarse como un instrumento para este otro
factor subyacente (no medido): los salarios realmente pagados a los tra
bajadores.40 Finalmente, hay que señalar que el argumento causal de
Card y Krueger es negativo (un aumento del salario mínimo no aumenta
el desempleo). Con frecuencia, los argumentos negativos son más difíci
les de comprobar de forma definitiva que los argumentos positivos, por-
300
que son más ambiguos y de mayor alcance: mostrar que una hipótesis
positiva fracasa en un contexto puede ser insuficiente para comprobar
que fracasaría en otros contextos posibles.41
Algunos de estos problemas se podrían haber superado alterando lige
ramente el diseño de investigación; otros son inherentes en virtud del he
cho de que el tratamiento no se puede manipular directamente, y otros se
deben al problema de los argumentos negativos 42 El problema de la asig
nación no aleatoria es frecuente en todos los diseños de la DD (como
también lo es en los demás diseños no experimentales). No podemos es
tar totalmente seguros, por ejemplo, de que las empresas de Pennsylvania
(el grupo de control) responderán a un aumento de los salarios mínimos
igual que las de Nueva Jersey. Si no lo hacen, entonces la capacidad de
generalización del descubrimiento se pone en tela de juicio. Nuestras du
das sobre la causalidad aumentan si el tratamiento se asigna de forma no
aleatoria porque nos preocupa que haya algo en la asignación del trata
miento —algún factor no medido— que sea diferente en el grupo de tra
tamiento y en el de control y dé cuenta de sus respuestas. En concreto,
nos preocupa que la tasa de cambio en el resultado pueda ser diferente
en el grupo de tratamiento y en el de control. Si éste es el caso, entonces
el caso elegido para la comparación (en esta ocasión, Pennsylvania) no
sirve de verdadero control (o sólo sirve de forma pobre y conduce a esti
maciones sesgadas).
Diseños transversales
El diseño transversal es similar al diseño experimental de sólo postest (n° 2

de la tabla 10.2), salvo en que el tratamiento no ha sido aleatorizado, por
lo que está abierto al tipo de confundidores propios de los diseños de in
vestigación no experimentales. Los diseños transversales se pueden apli
car a muestras grandes (analizadas con modelos cuantitativos) o a mues
tras pequeñas (analizadas cualitativamente). Un diseño transversal de
muestra pequeña podría adoptar la forma de una comparación de casos
«muy similares», entre dos o más casos. Si se puede contar con una
muestra grande, se pueden emplear varios estimadores para analizar las
diferencias entre los grupos de tratamiento y de control, o entre múltiples
grupos de tratamiento. Como siempre, la elección de un estimador apro
piado depende de la naturaleza de los datos y del presunto proceso de ge
neración de los datos.
A modo de introducción a esta clase de diseños de investigación anali
zaremos el estudio de Daniel Posner sobre la politización de la etnicidad.43
Hay grupos étnicos en todas partes, pero sólo en algunos casos llegan a ser
pasto de la política, es decir, líneas de división entre agrupaciones de parti-
301
dos. He aquí una cuestión clásica concerniente a la construcción de las

identidades políticas. Posner supone que la importancia de las fronteras ét
nicas tiene mucho que ver con el tamaño de los grupos étnicos relativo al
tamaño de la entidad política. En concreto, «Si [una] división cultural defi
ne grupos lo suficientemente grandes como para constituir una coalición
viable y competir por el poder político, entonces los políticos movilizarán
estos grupos y la división que los separa será importante políticamente».44
Para defender esta hipótesis, Posner se aprovecha de la naturaleza arbi
traria de las fronteras políticas en África, donde las fronteras nacionales
son principalmente el resultado de las luchas coloniales intraeuropeas más
que de la construcción nacional autóctona.45 Esto implica que, a diferencia
de las fronteras políticas en Europa, las fronteras africanas se pueden con
siderar elementos aleatorios del universo político. El problema de la asig
nación está presumiblemente (o, al menos, plausiblemente) resuelto. En
particular, Posner se centra en la frontera entre Zambia y Malawi, que ha
separado desde 1891 a miembros de dos tribus, los chewas y los tumbukas,
cuando estos territorios eran de los británicos (Rhodesia del Noreste y del
Noroeste). De resultas del ejercicio de trazado de la frontera (realizado con
un propósito puramente administrativo, según Posner), los chewas y los
tumbukas se convirtieron en minorías muy pequeñas en la entidad política
de Zambia (7 y 4 por ciento respectivamente de la población nacional) y
en minorías grandes en la más pequeña entidad política de Malawi (28 y
12 por ciento respectivamente de la población nacional). Posner señala que
esta diferencia de tamaño relativo explica la construcción de las relaciones
de los grupos étnicos en los dos países. En Zambia, los chewas y los tum
bukas son aliados, mientras en Malawi son adversarios. Esto se confirma
en las encuestas que Posner administró a los habitantes de cada grupo ét
nico de ambos lados de la frontera, y es ya acervo común de académicos y
especialistas.
Desde luego, en este caso transcurre muchísimo tiempo entre el trata
miento (cuyo efecto causal presumiblemente empieza con la partición
inicial del territorio en 1891 y se acelera tras la independencia de ambos
países en 1964) y el postest (a principios del siglo xxi). Típicamente, los
factores institucionales ejercen una influencia causal pequeña pero conti
nuada durante muchos años, por lo que ésta es una manera razonable de
comprobar la teoría de interés teórico. Pero cuando transcurre mucho
tiempo entre un tratamiento y un resultado de interés es difícil llegar a
conclusiones firmes sobre la causalidad. Y cuando no hay pretest, como
ocurre (por definición) en todos los diseños transversales, las dificultades
de la inferencia se complican. En este sentido, los diseños transversales
(sólo postest) son mucho más débiles que los diseños de panel.
Si bien el problema de asignación está solucionado en el estudio de
Posner, hay una cantidad considerable de confundidores potenciales que
302
amenazan con introducirse en el diseño de investigación tras (o al mismo

tiempo que) el establecimiento de las fronteras nacionales. En concreto,
cualquier factor correlacionado con el tratamiento —«el país»— es un
confundidor potencial. Bien podría suceder, por ejemplo, que la etnici-
dad se tratara de forma diferente en Zambia y en Malawi por razones di
ferentes a la del tamaño de los grupos étnicos. Posner examina detenida
mente varias de las explicaciones alternativas, incluyendo la intervención
de la potencia colonial, los misioneros, los empresarios étnicos y diversas
trayectorias nacionales. Esta parte del estudio se basa en evidencia com
plementaria basada en observaciones del proceso causal (capítulo 12).
Posner hizo un buen trabajo abordando la evidencia histórica. Aun
así, esos confundidores son difíciles de manejar, y las amenazas estocásti-
cas a la inferencia (factores que no se pueden identificar o teorizar fácil
mente) son igual de problemáticas. En tales circunstancias, podría ser útil
comparar la politización de la etnicidad entre los grupos pequeños y los
grandes de cada país, estudiar un grupo étnico que se encuentre en mu
chos países (por ejemplo, los chinos han) u observar los cambios en la
politización de la etnicidad a medida que una comunidad inmigrante
aumenta de tamaño con el tiempo dentro de un único país (un diseño
longitudinal). Hay muchas maneras de desollar a un gato. En cualquier
caso, Posner ofrece una solución ingeniosa para un asunto difícil.
i
Diseños longitudinales
Aunque el componente espacial de un diseño de investigación —la varia

ción entre los grupos de tratamiento y de control— es importante, no
siempre es posible encontrar casos apropiados para comparar, es decir,
unidades que son similares a la unidad (unidades) de tratamiento en to
dos o la mayoría de sus aspectos excepto en el tratamiento en sí. Huelga
decir que los controles deficientes no controlan. En estas circunstancias,
puede ser preferible resituar el análisis desde las comparaciones transver
sales entre los grupos a las comparaciones dentro de los grupos en el
transcurso del tiempo, es decir, desde un diseño de investigación latitudi
nal a uno longitudinal (dentro del grupo). En lugar de comparar los gru
pos de tratamiento y de control, aquí observamos un grupo de trata
miento en el transcurso del tiempo para descubrir indicios de relaciones
causales. (Otra manera de conceptualizar el diseño de investigación lon
gitudinal es señalando que el estado previo, no tratado, de la unidad pro
porciona la condición de control, como se sugiere en la figura 9.2.)
Como los diseños de investigación longitudinales se centran en un único
grupo, el término «longitudinal», «un solo grupo» y «dentro de un gru
po» se usan como sinónimos.46 (El lector debe ser consciente de que el
303
término «longitudinal» también tiene un significado más general: cual

quier diseño en el que se dispone de más de una observación a lo largo
del tiempo para las unidades estudiadas.)
Tabla 10.3 Una tipología de diseños de investigación longitudinales

1. Un solo grupo prel
postest I °i X o2
2. Series temporales
interrumpidas
3. Observaciones
I • °\ o2 O, O4 X Os O6 O,
I
repetidas I • o. X o2 X oy
x x
X oA X
I- Un grupo <\N = Observaciones X - Condiciones de tratamiento
Recordemos que un único grupo puede contener cualquier número de

unidades. Y que cada unidad puede incluir cualquier número de observa
ciones. Esto significa que los diseños longitudinales se pueden analizar
cuantitativamente (con una muestra grande de unidades y/o series tem
porales muy largas para una o varias unidades) o cualitativamente
(cuando no se da ninguna de estas condiciones).
La tabla 10.3 distingue tres tipos arquetípicos de diseño de investiga
ción longitudinal. El más simple implica un único tratamiento con pre
test y postest. El segundo tipo de estos diseños dentro del grupo implica
un único tratamiento acompañado de múltiples pretest y postest. A este
tipo se le suele llamar series temporales interrumpidas. El tercer tipo de
diseño de un único grupo implica la iteración múltiple de un único trata
miento. Esto se conoce como diseño de observaciones repetidas (o de me
didas repetidas). Como estos esquemas son similares, los trataremos
como variedades de la misma familia de diseños de investigación.
Tome nota de que la ilustración que suministra la tabla 10.3 nos da la
impresión de que las intervenciones ocurren exactamente al mismo tiem
po en todos los casos dentro del grupo (de tratamiento); cada caso tiene
rasgos temporales idénticos. Esto puede ser o no ser verdad. En algunas
ocasiones, las intervenciones ocurren en serie o repetidamente dentro de
un caso y episódicamente (o no ocurren en absoluto) en otro. Todas estas
circunstancias se incluyen en el marco longitudinal (tal y como yo uso el
término aquí) siempre que la variación de interés empírico se produzca
dentro de cada caso más que entre los casos (debido a la heterogeneidad
de la muestra o a otra amenaza a la inferencia). Otra manera de enten
derlo es señalar que cada caso constituye un «grupo» y que no hay com
paración entre grupos; simplemente estamos iterando el análisis para
cada grupo.
304
Un criterio clave para los diseños longitudinales es que el tratamiento

no esté asociado con confundidores potenciales. Desgraciadamente,
como no hay ningún control espacial suele ser difícil confirmar si este
criterio se cumple. Supongamos que el tratamiento de interés es un siste
ma de cupones y que existe el confundidor sospechoso de una amenaza
de recortes salariales y el despido de profesores con bajo rendimiento. Si
estos rasgos se dan al mismo tiempo, no podemos distinguir empírica
mente entre la variable teórica de interés y el confundidor porque coin
ciden.
Además, tenemos que lidiar con otros confundidores posibles, espe
cialmente con las tendencias preexistentes que afectan a todas las unida
des observadas en común. Supongamos, por ejemplo, que 100 escuelas
implantan al mismo tiempo programas de cupones y que se realizan pre
test y postest para varias medidas del logro educativo de los estudiantes.
En todas (o la mayoría de) las escuelas, estos test revelan que el rendi
miento mejora tras iniciarse el programa de cupones. Si bien este estudio
ofrece evidencia algo más sólida que un estudio centrado en una única
escuela (podemos excluir la variación puramente estocástica), no es ni
mucho menos tan sólida como un estudio que incorpora un control fuer
te (una escuela que es similar en aspectos relevantes pero no implementa
un programa de cupones). Esto es debido a que el estudio longitudinal
de 100 escuelas puede reflejar simplemente tendencias a escala de la so
ciedad (por ejemplo, el aumento del rendimiento escolar, unos test de lo
gro más fáciles o una población cambiante de estudiantes) que no tienen
nada que ver con el tratamiento.
En cambio, la incorporación de un control espacial permite al investi
gador comprobar directamente la hipótesis nula —cómo sería el rendi
miento de los estudiantes a falta de un programa de cupones. Hay que
recalcar que no siempre es posible encontrar controles puros —en este
caso, escuelas que sean similares en todos los aspectos relevantes a las es
cuelas que implantan el programa de cupones. En estas circunstancias,
un estudio longitudinal puede proporcionar la mejor opción disponible.
Si es así, hay visos de poder resolver el problema de las tendencias
preexistentes (pero no el de las variables omitidas coincidentes con el tra
tamiento). Esto se puede lograr con un examen minucioso de la línea de
tendencia para luego proceder a realizar una acción correctora. Por su
puesto, cualquier corrección de las propiedades temporales de una serie
temporal requiere una cantidad considerable de datos temporales. Unos
simples pretest y postest son insuficientes. Cuando los datos son abun
dantes existe una serie de operaciones para «eliminar tendencias» en los
datos de las series temporales con el fin de poder estimar correctamente
el contrafáctico —el verdadero efecto de X en Y. Hay que reconocer que
todas estas operaciones implican supuestos importantes y difíciles de
305
1
comprobar sobre el proceso generador de los datos.47 La econometría de

las series temporales, incluso en las manos más sofisticadas, está llena de
ambigüedad. Si la tendencia es compleja —por ejemplo, una tendencia
no lineal de largo plazo, una tendencia cíclica de corto plazo y mucha va
riación estocástica— tendremos dificultades para estimar el verdadero
efecto causal de X en Y.
A primera vista, el enfoque de medidas repetidas sobre el análisis lon
gitudinal parece resolver estos problemas. A buen seguro, si la unidad re
gresa al equilibrio después de cada intervención, entonces cada interven
ción deberá entenderse como una comprobación independiente de una
proposición dada. Un solo caso observado longitudinalmente cumple la
función de un número de casos de tratamiento y de control, observados
latitudinalmente. En efecto, comprobamos y volvemos a comprobar una
única unidad.
En algunos casos, estos supuestos se pueden cumplir. Por ejemplo,
Milton Friedman y Anna Schwartz exploran la interrelación de la políti
ca monetaria y las fluctuaciones económicas analizando la política mo
netaria en la historia de Estados Unidos.48 La base empírica de este estu
dio son cuatro ocasiones históricas en las que la masa de dinero en la
economía cambió debido a elecciones políticas en buena medida no rela
cionadas con el comportamiento de la economía (y por lo tanto eran
exógenas a la pregunta de investigación). Estas cuatro intervenciones
fueron «el incremento de la tasa de descuento en la primera mitad de
1920, el incremento de la tasa de descuento en octubre de 1931, el au
mento de los coeficientes de caja en 1936-1937 y el fracaso de la Reserva
Federal a la hora de frenar la depreciación de la moneda en 1929-
1931».49 Después de todas ellas se produjo un cambio de comportamien
to considerable en la cantidad de dinero disponible, lo que validaba un
pilar central de la teoría monetarista.
En muchas otras situaciones propias de la ciencia social hay efectos
del test persistentes. El efecto de una intervención suele ser cambiar la
unidad que experimenta la intervención. Si es así, la tabula deja de ser
rasa. Aunque la unidad siga siendo la misma, hay otros elementos con
textúales que varían de T\ a T„ de forma que la segunda comprobación
no es equivalente a la primera. He aquí por qué el diseño de medidas re
petidas suele ser un sustituto pobre de un grupo de control espacial.
No quisiera dar la impresión de que pienso que los diseños longitudi
nales son inherentemente problemáticos. De hecho, en algunas ocasiones
son muy sólidos, especialmente si el factor de interés teórico se somete a
múltiples comprobaciones independientes. Un ejemplo de este procedi
miento lo hallamos en el reciente estudio sobre la discriminación en el
empleo realizado por Claudia Goldin y Cecilia Rouse.50 Hemos mostra
do ya el potencial de los experimentos aleatorizados para analizar los
306
efectos de la discriminación laboral en los puestos de trabajo de baja

cualificación. Los trabajos de alta cualificación constituyen un obstáculo
especial para la valoración causal, porque hay menos puestos, están me
nos estandarizados (y por lo tanto son menos comparables entre sí) y el
proceso de selección se basa en técnicas que son difíciles de manipular
artificialmente (por ejemplo, por medio de experimentos de auditoría o
currículum). Pero persiste la sospecha de que hay un «techo de cristal»
que impide el movimiento de las mujeres y las minorías hacia la parte
más alta de las ocupaciones de alta cualificación.51
Recientemente surgió una oportunidad para comprobar esta hipótesis
cuando una serie de orquestas establecieron procedimientos de audición
ciega. Antes de proceder a los detalles específicos de este estudio, hay
que tener en cuenta que una orquesta clásica es quizás el prototipo ideal
de una ocupación basada en la capacidad. Todo lo que importa, o debe
importar, es cómo se toca un instrumento. Además, hay criterios com
partidos sobre lo que constituye una buena ejecución en el campo de la
música clásica. (Es concebible que la estética esté basada en la raza o el
género, pero no se tiene esta impresión en general.) Así, desde cierta
perspectiva, los productores de música clásica forman parte de un sector
de ocupaciones de alta cualificación que tiende menos a exhibir prácticas
discriminatorias.
Goldin y Rouse explotaron el cambio de las audiciones no ciegas a las
ciegas para determinar si este cambio en las prácticas de contratación
tuvo algún efecto en la propensión de las mujeres a obtener puestos en
orquestas profesionales —donde estaban y están sumamente infrarrepre-
sentadas en relación con su presencia en la población general. El estudio
aborda con ventaja el problema examinando detenidamente la variación
antes y después del inicio del tratamiento, un punto en el tiempo que va
ría entre las orquestas. En concreto, compararon la probabilidad que tie
ne una candidata a la orquesta de superar las diversas fases del proceso
de selección (desde la primera audición hasta la última y la oferta de tra
bajo) antes y después de que se establecieran las audiciones ciegas. Los
datos se acopiaron varias décadas antes del cambio en el protocolo de
contratación y después. Así, se compararon grupos: (a) años antes del
cambio (el «control») y (b) años después del cambio (el «tratamiento»).
Como las experiencias de las múltiples orquestas se analizaron separada
mente, en nuestros términos este estudio tiene un diseño de series tempo
rales interrumpidas, iteradas para cada orquesta que se estudió.
Los autores descubrieron que la existencia de una pantalla que sepa
raba al artista de los que tomaban las decisiones en la orquesta (ocultan
do el género del candidato) aumentaba varias veces la probabilidad de
que una mujer fuese contratada. Esto parece demostrar la tesis de que las
mujeres afrontan obstáculos en su movilidad ascendente que se deben ex-
307
elusivamente a su género, no a características relevantes para el puesto

de trabajo. En efecto, es difícil identificar algún posible confundidor en
este diseño de investigación. Sin duda, el análisis no aclara exactamente
por qué persiste esta forma de discriminación de género. Pero sí muestra
el gran poder de los diseños longitudinales para estimar los efectos cau
sales, al menos en algunas circunstancias.
A buen seguro, los diseños longitudinales son por lo general más débi
les que el diseño correspondiente de grupos cruzados —si se puede dis
poner de un grupo de control. Sin embargo, como hemos recalcado, la
identificación de un grupo de control adecuado no siempre es posible.
En estos contextos, un diseño longitudinal suele ofrecer la mejor alterna
tiva disponible. Ciertamente es más viable que un mal control.
308
11 Estrategias causales:
más allá de X e Y
«Uno de los errores que se cometen con frecuencia en la investigación social

contemporánea es suponer la existencia de estándares o procederes que son apli
cables de forma mecánica para evaluar los datos (como, por ejemplo, la varianza
explicada, la capacidad predictiva, los test de significación, etc.). La metodolo
gía de las ciencias sociales no debe considerarse como el desarrollo de un siste
ma infalible en el que los datos se conectan en un extremo y se genera la mejor
respuesta en el otro. Como ocurre en todas las áreas donde se recoge evidencia
para evaluar una teoría, el éxito suele caracterizarse por la realización de esfuer
zos imaginativos y creativos. Es, al menos en parte, lo que podría llamarse un
“arte”.»
Stanley Lieberson y Joel Horwich1
Hemos visto hasta ahora las aproximaciones aleatorizadas y no aleatori-

zadas al problema de la asignación y, en términos más generales, al análi
sis causal. Nuestro análisis se ha centrado en los modos en que estas es
trategias intentan aislar la pauta de la covarianza entre un factor causal,
X, y un resultado, Y. Esta pauta puede ser de muchos tipos: positiva o
negativa, próxima o distante, etc. Hay muchos tipos de relaciones causa
les (resumidas en la tabla 9.2), y cada uno presupone una pauta de cova
rianza en algún sentido diferente. La cuestión clave es que la covarianza
XIY es una condición necesaria de la causalidad. Si Y no varía con X, al
309
menos durante algún tiempo y en alguna muestra real o imaginaria, en

tonces X no puede ser una causa de Y. Por consiguiente, el descubrimien
to de la covarianza XIY puede proporcionar una evidencia sólida de cau
salidad, en caso de que se mantengan varios supuestos.
Sin embargo, el problema de los confundidores es ubicuo cuando tra
tamos con datos no experimentales. (Además, los factores de fondo que
son ortogonales al factor de interés teórico pueden presentar un obstácu
lo a la inferencia causal si la señal se diluye en el ruido estocástico.) Por
consiguiente, con frecuencia nos vemos obligados a ir más allá y a no
centrarnos exclusivamente en X e Y. Hay que medir o condicionar otros
factores, si la covarianza entre X e Y debe interpretarse como evidencia
de una relación causal.
Como preludio a esta aventura, examinaremos el significado de «con
dicionamiento» y varias reglas del condicionamiento. Lo haremos utili
zando las herramientas visuales de los gráficos causales —una herra
mienta clave de la inferencia causal, sintetizada recientemente por Judea
Pearl.2 Con estos diagramas elucidamos una tipología de confundidores
que pueden perjudicar la inferencia causal. Con este equipamiento, pro
cedemos al tema central de este capítulo: esclarecer estrategias para su
perar los problemas de los confundidores.
Condicionamiento y confusión: lo básico
En el escenario más simple, la comprobación de una relación empírica

entre dos factores, X e Y, implica un condicionamiento (conocido tam
bién como descomposición, estratificación, subclasificación, análisis de
subgrupos) a sólo X e Y, como se ilustra en el panel (a) de la figura 11.1.
Cuando ambos factores son binarios (0/1), miramos a ver si X = 0 está
asociado ay=0oay=lysiJf=l está asociado a Y= 0 o a 7=1. Si
X está asociado a (covaría con) Y, podríamos tener cierta base para cali
ficar la relación de causal y alguna conjetura sobre el impacto causal de
Xen Y.
Cuando se condiciona a más de dos factores a la vez, la naturaleza del
condicionamiento se complica, como puede apreciarse en los diagramas
de la figura 11.1.
Si dos factores, X e Y, están relacionados por medio de Z (sólo), el
condicionamiento a Z rompe la conexión entre X e Y, convirtiéndolos en
independientes uno de otro. Consideremos el panel (b) de la figura 11.1.
Supongamos que X es un cupón educativo (sí/no), Z es la calidad del
profesor (alta/baja), e Y es el logro educativo (alto/bajo). Aquí, Z sirve
de camino causal entre X e Y. Supongamos además que Z es el único
factor por el que X afecta a Y. En esta situación, el condicionamiento a
310
11 Estrategias causales: más allá de X e Y
Z nos permite analizar la relación XIY por separado para aquellos estu
diantes con profesores de alta calidad y de baja calidad. En los estratos
de estudiantes que reciben enseñanza de alta (baja) calidad, cabe esperar
no encontrar ninguna asociación entre X e Y —en el caso de que Z sea el
único factor que provoca la asociación entre X e Y. (Si hay otros facto
res, estos también deberán ser condicionados con el fin de que X sea in
dependiente de Y.) Así, el condicionamiento ha bloqueado una asocia
ción previa.
X Y
(a)
X z Y
(b)
X z •> Y
(c)
X z Y
(d)
Figura 11.1 Ilustración de los principios básicos de condicionamiento
Asimismo, si ambos X e Y están causados por Z, el condicionamiento

a Z rompe esa conexión particular entre X e Y. Consideremos ahora el
panel (c) de la figura 11.1. Supongamos que Z es un cupón educativo (sí/
no), X es la calidad del profesor (alta/baja), e Y es el logro educativo
(alto/bajo). Aquí, Z es una causa común que afecta tanto a X como a Y.
El condicionamiento a Z nos permite analizar la relación XIY por sepa
rado para aquellos estudiantes que tienen cupones y para los que no los
311
tienen. En el estrato de estudiantes que reciben cupones, cabe esperar no

encontrar asociación alguna entre X e Y. (Si hay otros factores, estos
también deberán ser condicionados con el fin de que X sea independiente
de K) Así, el condicionamiento ha bloqueado una asociación previa.
La excepción es una situación en la que una variable intermedia fun
ciona como colisionador. En el panel (d) de la figura 11.1, X e y son
causas de Z. Supongamos que X es un cupón educativo, Z es el logro
educativo e y es la calidad del profesor. Supongamos además que X c
y carecen de asociación entre ellas (son independientes), antes de con
dicionar a Z. La probabilidad de que uno reciba un cupón es estocásti-
ca respecto de la probabilidad de que uno reciba enseñanza de alta cali
dad. Sin embargo, ambos factores afectan al rendimiento educativo.
Asi, si condicionamos al segundo, induciremos una relación entre los
cupones y los resultados educativos. Es decir, en el estrato de estudian
tes que rinden bien (Z = logro educativo alto) hallaremos una asocia
ción entre X e Y. Así, se ha creado una asociación mediante el condi
cionamiento.
Confundidores
Con este equipamiento procedemos a estudiar los confundidores. Tal y

como lo concebimos aquí, un confundidor es cualquier factor que puede
interferir en la atribución de la causalidad derivada de la evidencia de co-
varianza, es decir, cualquier cosa que produzca una asociación espuria o
sesgada entre X e Y.
Los lectores deben tomar nota de que se trata de una definición am
plia del término. En algunos círculos metodológicos, la noción de con
fundidor se limita a problemas específicos de inferencia causal (por ejem
plo, la causa común). Sin embargo, en este contexto, como estamos
intentando abarcar una amplia serie de problemas de inferencia, tiene
sentido adoptar un significado más general.
Con este significado amplio se pueden distinguir siete tipos de confun
didores: (1) causa común; (2) incidental; (3) tratamiento compuesto; (4) me
canismo; (5) colisionador; (6) antecedente; y (7) endógeno. Varios de ellos
deben resultar ya familiares al lector, pues se examinaron en los capítulos 9
y 10. Cada uno se ilustra en un gráfico causal en la figura 11.2. Aquí es im
portante distinguir factores que son medidos y condicionados de aquellos
que no lo son, que se indican mediante corchetes. La confusión puede sur
gir o bien de condicionar a un factor que no debería ser condicionado, o
bien de no condicionar a un factor al que debería condicionarse.
Advierta que la mayoría de estos confundidores adoptan la forma de
rutas de «puerta trasera» (secuencias causalmente ordenadas) desde Jfhas-
312
ta Y. Con la presencia de estas puertas traseras, la variación de Y no puede

atribuirse sólo a X\ hay otros factores operando? Todos los confundidores
están asociados con X; esto es lo que distingue un confundidor (C) del
ruido de fondo (B), en las condiciones conocidas de la figura 9.1.
El primer tipo de confundidor es el confundidor de causa común (o
clásico), que tiene un efecto causal tanto en Xcomo en Y, y se representa
en el panel (a) de la figura 11.2. Por ejemplo, cualquier estudio sobre los
cupones debe contar con el fuerte impacto del contexto familiar de los
estudiantes (renta y educación de los padres) en su rendimiento escolar.
Si este factor condiciona quién recibe el tratamiento (los cupones), en
tonces constituye una causa común, porque también afecta al resultado
de interés.4
Aunque en principio todos los confundidores son igual de problemáti
cos, la causa común suele ser el más problemático en la práctica: es decir,
el más ubicuo y el más difícil de neutralizar por medio de estrategias de
condicionamiento, como hemos visto antes. Por esta razón, nuestro aná
lisis aquí y en los capítulos previos privilegia la causa común sobre otros
confundidores.
[C]
X -> Y X * Y
(f) (g)
Antecedente Endogeneidad
X = Factor causal C = Confundidor

Y = Resultado Z = Tratamiento compuesto
-►= Causal — = Covariación (no causal)
[] = No condicionado
Figura 11.2 Una tipología de confundidores usando gráficos causales
313
El segundo tipo de confundidor es incidental. Está correlacionado con

X pero no debido a un vínculo causal identificable, como se ilustra en el
panel (b) de la figura 11.2. Es un factor de confusión porque normal
mente asociamos una asignación aleatoria al tratamiento —es decir, un
experimento— con la ausencia de confundidores. Sin embargo, es impor
tante recordar que con muestras pequeñas (o con muestras grandes ca
racterizadas por agrupamiento), la probabilidad de error estocástico es
muy real. Cuando los experimentos se realizan en un entorno de N pe
queño pueden aparecer confundidores imprevistos aun en el caso de que
el proceso de aleatorización se haya controlado minuciosamente (por
ejemplo, por medio de la composición por bloques).
En los contextos no aleatorizados los confundidores incidentales son
endémicos. Consideremos un estudio sobre los cupones en el que hay
contaminación entre los estudiantes y las escuelas, y se requiere enton
ces un análisis centrado en los distritos escolares de un Estado. Esto, a
su vez, limita el número de unidades de la muestra. La asignación de un
sistema de cupones a los distritos escolares no se rige por ningún factor
que aparentemente pudiera afectar al resultado, por lo que no hay un
confundidor de causa común. Sin embargo, debido al modo en que en el
Estado se anuncia la oportunidad de los cupones, estos son más comu
nes en los distritos escolares del norte que en los del sur. Resulta que el
norte tiene distritos escolares con mejor rendimiento, por lo que hay
desequilibrio entre los grupos de tratamiento y de control respecto de
un factor que podría afectar al resultado de interés (el rendimiento de la
escuela).5
Consideremos otro ejemplo, esta vez procedente de la literatura sobre
la democratización. Supongamos que nos interesa examinar el efecto de
la colonización británica en la democratización. Resulta que la mayoría
de los lugares que los británicos eligieron colonizar carecían de los recur
sos minerales fáciles de explotar (por ejemplo, el petróleo) que se valora
ron en el siglo xx. Por consiguiente, las antiguas colonias británicas no
padecieron la «maldición de los recursos» en la misma medida que las
antiguas colonias portuguesas, españolas, francesas y holandesas. Su
pongamos que la maldición de los recursos constituye un obstáculo para
la democratización. En este contexto, también, el confundidor es inci
dental. La presencia de petróleo no influye en la decisión de colonizar,
pero tiene un fuerte impacto en el resultado de interés.
Cierto, en algunas ocasiones los confundidores que parecen coinci
dentes realmente tienen una causa previa, y por lo tanto son proxies para
una causa común no medida. Podríamos decir que esto es un problema
filosófico, porque no tiene solución empírica. Sin embargo, para los pro
pósitos de la inferencia causal, apenas importa si C es una proxy para al
gún otro confundidor o un confundidor en sí.
314
El tercer tipo de confundidor lo genera un tratamiento compuesto.

Aquí, una intervención (Z) tiene múltiples componentes, uno de interés
teórico (X) y los demás superfinos (C), como se ilustra en el panel (c)
de la figura 11.2. Nótese que aunque la intervención Z es medible, no po
demos distinguir X de C, porque ninguno es directamente medible. Por
consiguiente, tenemos un problema serio de confusión. El cambio en Y
puede ser un producto de X, C o de una combinación de ambos.
En los contextos experimentales encontramos este tipo de confundi
dor cuando se producen efectos del experimentador, es decir, cuando un
tratamiento de interés teórico se acompaña de una fuerza causal adicio
nal (no deseada) estimulada por el conocimiento de los sujetos de que es
tán siendo comprobados. Así, un estudio experimental sobre los cupones
podrá tener dificultades para distinguir entre los efectos de los cupones y
los efectos de formar parte del grupo de tratamiento (si los estudiantes
son conscientes de él). Más adelante analizaremos el problema de los tra
tamientos compuestos en la investigación no experimental, donde este
confundidor es más frecuente.
El cuarto tipo de confundidor surge de la inclusión de un mecanismo,
es decir, un factor que es endógeno a X y exógeno a Y, como ilustra el
panel (d) de la figura 11.2. En el contexto de los cupones, un mecanismo
podría ser la calidad de la instrucción en el aula —que, por ejemplo, es
superior en las escuelas con cupones en comparación con las escuelas sin
ellos y es un producto del sistema de cupones. Desde luego, la evidencia
sobre los mecanismos proporciona información relevante sobre una rela
ción causal, tal y como veremos más adelante en este capítulo. Sin em
bargo, cuando un mecanismo es condicionado en un análisis simple de
covarianza en una sola fase, opera como un confundidor.
Tome nota de que si todos los factores condicionados son medidos
antes del tratamiento, este tipo de problema no se plantea. Sin embargo,
no siempre es posible identificar qué factores son previos al tratamiento
y cuáles son posteriores, sobre todo cuando los factores causales parecen
ser en parte exógenos y en parte endógenos en relación con el factor de
interés teórico. Esto es lo que da lugar al problema de los mecanismos
confundidores.
El quinto tipo de confundidor es el colisionador, analizado ya en el
apartado anterior e ilustrado en el panel (e) de la figura 11.2. En el con
texto de los cupones, un colisionador potencial podría ser la medida del
logro ocupacional, un factor que presumiblemente está afectado por la
experiencia de los cupones (X) así como por el nivel de logro educativo
alcanzado por un individuo (Y). (Esto, también, podría plantearse
como un problema de condicionamiento a las variables postratamiento.)
El sexto tipo de confundidor es antecedente a X, y carece de efecto en
Y salvo a través de X, como se ilustra en el panel (f) de la figura 11.2. El
315
lector recordará que las causas antecedentes se denominaron A en la fi

gura 9.1. Aquí, adoptamos la denominación C debido a su amenaza a la
inferencia. Como ejemplo, consideremos la posibilidad de que la ubica
ción de una familia influya en su decisión sobre si participar o no en un
programa de cupones. En concreto, si vive cerca de una escuela elegible
para el programa podría sentirse más inclinada a participar en el progra
ma, y por lo tanto a convertirse en parte del grupo de tratamiento. Aho
ra, supongamos además que la «distancia desde una escuela con cupo
nes» no es una proxy de otros factores que podrían influir en el logro
educativo, el resultado de interés teórico; es únicamente un factor que
afecta a la asignación del tratamiento. En otras palabras, la «distancia»
afecta a Y sólo a través de X. Aquí, un factor antecedente puede operar
de confundidor si se condiciona en un análisis simple de covarianza con
un tamaño muestral limitado.
A buen seguro, en las muestras infinitas el problema del condiciona
miento a un factor antecedente deja de confundir el análisis. En efecto,
registramos el efecto de y en Y para cada valor de C, unas estimaciones
que luego se pueden combinar para llegar a una estimación general pre
cisa del impacto de X en Y. Con esta estimación y la definición de Pearl
de la confusión de la puerta trasera, el factor C en el panel (f) de la figu
ra 11.2 no se concebirá como un confundidor. Sin embargo, la investiga
ción del mundo real se lleva a cabo con muestras limitadas. Aquí los pro
blemas de colinealidad deben tenerse en cuenta y evitarse en la medida de
lo posible. Es en este sentido práctico en el que decimos que el condicio
namiento a causas antecedentes plantea un problema de confusión.
El último tipo de confundidor se deriva de la endogeneidad entre Y y
X, también conocido como circularidad, retroalimentación, simetría o
tautología Como se ve claramente en el panel (g) de la figura 11.2, este
tipo de confundidor es diferente de los tipos anteriores porque no hay
ningún nodo identificable, C, que confunda la relación entre Xe Y. El re
sultado, Y, es el confundidor. Si Y afecta a X (causalmente), entonces
confundirá cualquier intento de estimar el impacto causal de X en Y.
Consideremos el siguiente problema clásico. Supongamos que, como
muchos especialistas creen, el tipo de régimen (X) afecta al nivel de de
sarrollo (Y) y el nivel de desarrollo (Y) afecta al tipo de régimen (X).
En estas circunstancias será muy difícil llegar a una estimación válida del
efecto de X en Y, o del efecto de Y en X.6
Una vez presentada una tipología bastante comprehensiva de los con
fundidores usando la herramienta de los gráficos causales, regresemos
ahora a las virtudes de la aleatorización. Cuando un tratamiento es asig
nado aleatoriamente, la mayoría de estos confundidores se pueden evitar,
al menos inicialmente. (A menudo se cuelan en un experimento después
del inicio del tratamiento.) X será independiente de C y de Y. Natural-
316
mente, se introducirán confundidores en el análisis si C es endógena a X

o C es una causa antecedente y el investigador comete el error de condi
cionar a C; pero este tipo de error usualmente es fácil de identificar y evi
tar. El problema del confundidor del tratamiento compuesto, en cambio,
no se resuelve con métodos experimentales a menos que el investigador
idee una manera de medir C con independencia de X, o X con indepen
dencia de C, como se diagrama en el panel (c) de la figura 11.2. En todo
caso, buena parte del análisis de este capítulo se basa en la premisa de
que no son posibles los métodos experimentales —contextos en los que,
por cualquier razón, X no se puede aleatorizar.
Antes de dejar este tema, es importante reconocer su complejidad, es
pecialmente para aquellos que no están familiarizados con los gráficos
causales. Sin embargo, debemos recordar que la complejidad de los gráfi
cos causales es un reflejo de la complejidad de la inferencia causal. Los
diagramas sirven para clarificar lo más posible algo que ya es una situa
ción extraordinariamente confusa, no para complicar más la situación.
Si un proceso generador de los datos (PGD) no se puede diagramar, cier
tamente no se puede modelar exitosamente en formato estadístico. Sin
duda, podemos ignorar factores que tengan sólo un impacto mínimo en
X o Y. Pero ignorar confundidores significativos violentará en exceso el
análisis. Podemos estar seguro de ello.
Estrategias de inferencia causal que van más allá de X e Y
Con la ayuda de gráficos causales hemos sentado los principios básicos

del condicionamiento (resumidos en la figura 11.1) y hecho una tipología
de confundidores (resumidos en la figura 11.2). Pasamos ahora a las es
trategias específicas que podrían usarse para superar estos obstáculos a
la inferencia causal. Son ocho: (1) condicionamiento de los confundido
res; (2) variables instrumentales; (3) mecanismos; (4) resultados alternos;
(5) heterogeneidad causal; (6) hipótesis rivales; (7) test de robustez; y (8)
razonamiento causal (véase la tabla 10.1).7
Condicionamiento de los confundidores
La tipología de confundidores que se ilustra en la figura 11.2 sugiere una

estrategia simple para la inferencia causal: eliminar caminos de puerta
trasera desde Y hasta X y evitar el condicionamiento a causas anteceden
tes. En otras palabras, condicionar a [Q y rtescondicionar a C. Esto eli
minará todos los confundidores salvo aquellos causados por los trata
mientos complejos o la endogeneidad XIY.
317
Veamos cómo funciona esto en el caso de la causa común (panel (a)

de la figura 11.2). Al condicionar a C, descomponemos C en sus compo
nentes, lo que nos permite observar la relación XI Y dentro de cada estra
to por separado. Por ejemplo, si la variable confundidora en un análisis
sobre cupones es la formación educativa de la familia, condicionar a este
factor implicará descomponer este último en sus componentes: por ejem
plo, niveles bajo, medio y alto de educación familiar. La covariación en
tre los cupones y el rendimiento escolar se observará por lo tanto para
estudiantes que pertenecen a cada uno de estos estratos, «controlando»
asi por el efecto confundidor. Esto restaura el principio de la comparabi-
lidad causal (capítulo 9). Controlando por C, el valor esperado de Y es
ahora el mismo para todos los valores de X.
Debemos sin duda presumir que la relación entre X e Y (cupones y lo
gro) es similar dentro de cada estrato designado de logro educativo; si es
tas categorías son grandes y heterogéneas, se necesitará una estratifica
ción mayor. El lector advertirá que la estratificación es más fácil de hacer
cuando los confundidores se pueden descomponer en categorías «natura
les» simples —frente a categorías artificiales como alta/media/baja, que
pueden ocultar mucha heterogeneidad causal. Los confundidores que
son continuos por naturaleza, como la renta, se pueden representar me
diante una única variable continua; sin embargo, esto presupone lo que
quizás sea un supuesto incluso más problemático: que el efecto causal de
C en Y está correctamente modelado con una función continua (lineal,
loglineal o de otro tipo). Tome nota que el principio de simplicidad se
aplica al condicionamiento a confundidores igual que a la construcción
de un tratamiento (capítulo 9).
Condicionar directamente a un confundidor se puede lograr de mu
chas maneras. En un marco bivariado simple, registramos la asociación
entre X e Y por separado para cada valor de C, quizás con un test de la
diferencia de medias (comparación de valores de Y para X = 0 y X = 1
manteniendo C constante). En el marco de la regresión, regresamos Y
contra Adjunto a C. En el marco del emparejamiento, usamos la informa
ción sobre confundidores observables para establecer emparejamientos
adecuados entre casos «tratados» y «no tratados» (X = 1 y X = 0), para
compararlos y revelar así el efecto del tratamiento (bien directamente
mediante el emparejamiento exacto o indirectamente mediante puntua
ciones de propensión).8 La lógica, en todo caso, es mantener los factores
Cj v constantes para poder así observar el efecto verdadero (no sesgado)
de X en Y.
Una segunda aproximación al confundidor de la causa común se cen
tra en hacer bloquear la conexión entre X y C, más que condicionar di
rectamente a C. Esta solución es plausible siempre que sea imposible me
dir (y, por lo tanto, condicionar) a C o a los progenitores de C. En el
318
contexto de la figura 11.3. podemos condicionar a los progenitores de X:

es decir, a D y A. Una vez hecho esto, Xes ahora más independiente de E
(y de su progenie, Q, de forma que la covarianza con Y puede conside
rarse que proporciona una estimación válida (no sesgada) del efecto cau
sal (dejando a un lado los problemas potenciales de colinealidad, como
vimos en la sección anterior).
X = Factor causal F, D, A = Antecedentes

Y - Resultado B = Covariable
M = Mecanismo C, E = Confundidores
Figura 11.3 Ilustración de un PGD complejo
El lector se preguntará quizás por qué es necesario condicionar a D y

A —y no sólo a D. Recordemos de nuestro anterior análisis que el condi
cionamiento en un camino causal rompe la relación entre dos factores en
cualquiera de los lados del factor condicionado a menos que el factor
condicionado sea un colisionador. En la figura 11.3, D es un colisiona-
dor, porque tanto F como E son causas de D. Esto implica que al condi
cionar a D abrimos un camino de puerta trasera desde X hasta Y a través
de A-F-D-C-Y. Y esta puerta trasera operará de confundidor en cual
quier intento de medir el impacto de X en Y a menos que también condi
cionemos a A, lo que bloquea el camino.
¿En qué medida es eficaz la estrategia de condicionar a confundidores
(también conocida como covarianza condicional o evitación de caminos
de puerta trasera)? En principio, los ajustes estadísticos pueden resolver
el problema de la atribución causal al neutralizar los confundidores blo
queando los caminos de puerta trasera desde X hasta Y. En estas cir
cunstancias, la covarianza observada de X e Y debe ofrecer una estima
ción válida y quizás relativamente precisa del efecto causal. Sin embargo,
hay muchas razones para dudarlo.
Tenga en cuenta que los gráficos causales representan supuestos sobre
el mundo, supuestos que pueden o no representar el verdadero PGD con
precisión. He aquí la clave del problema. No sabemos qué está pasando
319
realmente, y ante la ausencia de esta información no podemos idear una

estrategia correcta de modelado (concretamente, no podemos saber si la
hemos encontrado).
Recordemos que en un experimento adecuadamente diseñado y ejecu
tado no hay confundidores, porque todos los confundidores potenciales
se han distribuido uniformemente entre los grupos de tratamiento y de
control. Están equilibrados, por lo que en la figura 9.1 se representan
como B (covariables ortogonales) en lugar de C (confundidores). Esto es
un tanto engañoso, dado que el análisis de datos experimentales incluye
las covariables (5). Lo determinante es que esas covariables se incluyen
en el modelo con el fin de mejorar el ajuste del modelo, es decir, de
aumentar la precisión, más que para lograr validez (aliviando el sesgo).
Éste es un papel relativamente modesto. En principio, la inclusión o ex
clusión de covariables en un análisis de datos experimentales no debe te
ner impacto alguno en el efecto causal medido de X en Y—precisamente
porque estas covariables son independientes de (no están correlacionadas
con) X. Esto, a su vez, implica que los problemas de especificación son
de importancia secundaria en los estudios experimentales. La carga que
debe soportar el análisis estadístico es comparativamente ligera y relati
vamente simple cuando el tratamiento se aleatoriza (suponiendo, como
siempre, que no se han colado más confundidores en el análisis postrata
miento).
En cambio, con un tratamiento no aleatorizado, cabe esperar que las
variables de control representen un papel mucho más importante y,
para algunos, heroico: purgar el análisis de lo que podrían ser influen
cias confundidoras. Como hemos recalcado varias veces, hay muchísi
ma diferencia entre las covariables que son ortogonales a X (B) y. las
que están correlacionadas con X (C). Fuera del marco de un experi
mento adecuadamente realizado no tendremos modo alguno de verificar
que hemos identificado, medido y modelado (condicionado a) adecuada
mente todos los confundidores. El problema de especificación es enorme.
Sin duda, en realidad no es necesario que midamos cada confundidor;
es suficiente haber condicionado a proxies o a variables intermedias que
están en un camino dado hacia Y. Por ejemplo, en la figura 11.3 podemos
condicionar a E o a C. Por otra parte, podemos condicionar a proxies
para estos factores —siempre que la asociación entre la proxy y la varia
ble no observada sea bastante fuerte.
Pero no tenemos manera de asegurarnos de que hemos condicionado
correctamente a todos los confundidores o a sus proxies. Tome nota de
que los factores que no se pueden medir, como la implicación de los pa
dres, no se pueden condicionar, por lo que no dejan de ser una suposi
ción. Los factores motivacionales son quizás los confundidores más in
corregibles precisamente porque se resisten a la medición y suelen ser
320
importantísimos tanto para la asignación de X como para el resultado de

interés Y.
Incluso en el caso de factores que se pueden medir no hay manera de
comprobar que son, de hecho, confundidores. Por supuesto, podemos
medir su correlación con X. Pero demostrar su impacto causal en Y es un
problema de atribución causal en sí y por sí mismo, que implica todos los
problemas usuales de la valoración causal. En estas circunstancias, no te
nemos recursos salvo hacer suposiciones sobre cómo funciona el mundo.
Podríamos suponer que en la tarea de neutralizar confundidores potencia
les, más es mejor. Es decir, cuantos más factores podamos condicionar en
un modelo estadístico, más probabilidades tendremos de lograr neutrali
zar exitosamente (bloquear) los confundidores, logrando así una estima
ción válida del impacto de X en Y. Sin embargo, hay poca seguridad en los
números (es decir, en los «paquetes estadísticos»).9
Consideremos la situación que se describe en el panel (a) de la figura
11.4, donde encontramos una causa antecedente. A, y una covariable or
togonal B. Ninguna de ellas es medible (quizás debido a que no se han
identificado claramente). Sin embargo, su ausencia del modelo no causa
un problema para la inferencia válida porque no existen caminos de
puerta trasera desde X hasta Y. Pero supongamos que el investigador
avezado sospecha que puede haber caminos de puerta trasera, quizás
desde A hasta Y (en cuyo caso A es un confundidor de causa común, C,
más que una causa antecedente). Con el fin de paliar este problema per-
[fi]
▼
MI ■*- X Y
(a)
(b)
X = Factor causal A = Causa antecedente
Y = Resultado B = Covariable ortogonal
Z = Colisionador [] = No condicionado
Figura 11.4 El problema intratable de los colisionadores
321
Metodología de tas ciencias sociales
cibido, el investigador introduce una variable de control, Z, que supues

tamente bloqueará el camino del confundidor no medido. Sin embargo,
resulta que Z funciona de colisionador —es afectada por ambas A y B—
e introduce por tanto un camino de puerta trasera desde X hasta Y,
como se ilustra en el panel (b) de la figura 11.4. Así, se ha creado una
puerta trasera donde no debía haber ninguna en el proceso generador de
los datos.10
Advierta que el problema persiste incluso si la intuición del investiga
dor es correcta: A es un confundidor (C) en lugar de una covariable orto
gonal. En este escenario, se ha resuelto un problema introduciendo Z (el
camino de puerta trasera de C hasta X), pero se ha creado otro (el cami
no de puerta trasera desde B hasta Y). Este problema suele surgir cuando
se introducen variables dependientes retardadas para modelar así la
autocorrelación temporal. Si tanto C como B afectan a X retardada, he
mos introducido una puerta trasera.11
Variables instrumentales
En muchas situaciones es imposible neutralizar los confundidores sim

plemente bloqueando los caminos de puerta trasera desde Y hasta X.
Puede ser difícil identificar o medir (tan importante es lo primero como
lo segundo) confundidores de causa común sospechosos. Esto conduce a
una discusión de amplio alcance sobre las estrategias alternativas de infe
rencia causal que van más allá de X, Y y C. Si bien estos enfoques alter
nativos no son en absoluto simples, en algunas ocasiones ofrecen el me
jor camino posible para la inferencia causal.
Se puede superar un confundidor de causa común identificando una
proxy o instrumento adecuado para X. En la figura 11.5 el factor de cau
sa antecedente, A, podría contemplarse como instrumento para X si: (a)
A está fuertemente correlacionada con X (porque es una causa directa de
X o porque está asociada con alguna causa no medida de Z),(b) A (y
cualquier causa no medida con la que se asocie) carece de impacto causal
en Y salvo a través de X (la restricción de exclusión)', y (c) no hay confun
didores no incondicionados asociados con la relación entre A e X.12 En
pocas palabras, un buen instrumento es aquel en el que la relación Al Y
compensa los defectos que exhibe la relación X! Y.
¿Cómo funciona esto en la práctica? Consideremos un ejemplo simple
basado en el análisis de mínimos cuadrados ordinarios —en concreto, en
el de mínimos cuadrados en dos fases.
En la primera fase X se regresa contra el instrumento, A, junto a cual
quier covariable relevante (predictores adicionales de X). Recordemos
que A puede representar una única variable o un vector de variables. En
322
X = Factor causal A = Antecedentes

Y = Resultado C = Confundidor
Figura 11.5 Estrategia de la variable instrumental
la segunda fase, Y se regresa contra los valores ajustados procedentes de

ese modelo, que supuestamente representan X purgada de sesgo, junto a
las covariables. Se evitan así, al menos al principio, los problemas provo
cados por los confundidores (C). Y como este procedimiento asigna im
perfectamente unidades al tratamiento —hay algo de incumplimiento,
quizás mucho— el efecto causal se concebirá como un efecto promedio
del tratamiento local (EPTL) más que como un efecto promedio del tra
tamiento (EPT). (En el principio del capítulo 9 vimos estos términos téc
nicos.) Éste nos permite estimar el efecto causal para unidades que son
introducidas en el tratamiento a través del instrumento elegido.
Una influyente aplicación reciente de las variables instrumentales (VI)
aborda la clásica cuestión del desarrollo económico en el largo plazo.
¿Por qué hoy día unos países son mucho más ricos que otros? Acemoglu,
Johnson y Robinson (a partir de ahora AJR) sugieren que la calidad de
las instituciones, es decir, la fuerza de los derechos de propiedad, fue un
factor principal que influyó en las tasas de crecimiento históricas secula
res?13 El obstáculo metodológico es que no disponemos de ninguna me
dida de la calidad institucional que se haya asignado de manera aleatoria
respecto del desarrollo económico. La riqueza y las instituciones de bue
na calidad van juntas. Con el fin de superar esta dificultad, AJR constru
yeron el siguiente relato causal. En el transcurso de los últimos siglos, las
potencias coloniales europeas establecieron una rigurosa protección de
los derechos de propiedad en algunas partes del mundo (por ejemplo,
Norteamérica), y no lo hicieron en otras (por ejemplo, la mayor parte de
África y Latinoamérica). Esquemáticamente, protegieron los derechos de
propiedad en áreas donde se habían asentado muchos europeos, e insti
tuyeron regímenes «extractivos» en zonas donde las poblaciones autócto
nas sobrepasaban en número a los europeos. Esto, a su vez, fue un resul
tado de las circunstancias geográficas, como la prevalencia de las
enfermedades tropicales, que determinaban las probabilidades de super
vivencia europea en África, Asia y el Nuevo Mundo. Los europeos se
323
asentaron y prosperaron allí donde sus tasas de supervivencia eran altas.

Las estimaciones de la variación de las tasas de mortalidad de los colo
nos europeos en el transcurso del siglo xix proporcionan un instrumento
adecuado para valorar las pautas de asentamiento colonial y, en última
instancia, la calidad de las instituciones, de las que según AJR los colo
nos son responsables. Esto permite un análisis en dos fases, que se puede
simplificar así:
X=A + B+U} (H.l)
Y=X + B+ U2 (H.2)
donde X equivale a los derechos de propiedad medidos a finales del siglo

xx (riesgo de expropiación), A es igual al instrumento (mortalidad de los
colonos europeos), B son covariables (otras causas de Y), Y es PIB per
cápita, X son los valores ajustados de la ecuación (1) y U = los términos
de error para las dos ecuaciones. (Se omiten las intersecciones).
Al igual que otras correcciones en los tratamientos no aleatorizados,
la técnica de las VI tiene sus dificultades. En efecto, parece que en el tra
bajo empírico raramente se satisfacen los tres supuestos señalados an
tes.14 El instrumento elegido, A, puede estar correlacionado débilmente
con la variable de interés teórico, X; A puede tener un efecto en el resul
tado, K, diferente de por medio de X; o puede haber una causa común
operando en A y en Y (un confundidor no condicionado). Igual que ocu
rre con muchos de los supuestos de la modelación, estas violaciones po
tenciales son difíciles de comprobar,15 y quizás sería preferible conside
rarlas como a priori teóricos. Por ejemplo, en relación con el estudio
mencionado anteriormente, los críticos han sugerido que hay una causa
común —la geografía— que afecta tanto a la mortalidad de los colonos
como a los niveles actuales de desarrollo económico de formas en las que
los derechos de propiedad no intervienen.16 Si esta argumentación sobre
el proceso generador de los datos es verdadera, entonces el instrumento
elegido no es válido. Aun así, para este problema en concreto, el análisis
en dos fases es probablemente más convincente que cualquier análisis
concebible de una sola fase; a este respecto y en esta medida, la aproxi
mación de la VI es útil.
Mecanismos
En el capítulo 8 analizamos el papel que desempeñan los mecanismos en

la teorización causal. Aquí nos centraremos en la función de los meca
nismos (M) en el análisis causal, descrito de varias formas como rastreo
324
(a) (b)
Puerta frontal Supuestos de puerta no frontal
X - Factor causal C - Confundidor
Y - Resultado M = Mecanismo causal
Figura 11.6 Estrategias de mecanismos
de procesos, análisis de procesos, narrativa causal, coligación, congruen

cia, contigüidad, discernimiento, procesos intermedios o microfunda-
mentos.17 Como estos términos tienen connotaciones adicionales, que
pueden o no ser apropiadas para el presente contexto, voy a evitarlos.
En algunos escenarios, M puede permitir una estimación no sesgada
de los efectos causales (al menos en el sentido limitado del EPTL) cuan
do un tratamiento de interés teórico está plagado de confundidores po
tenciales. Judea Pearl lo denomina la aproximación de la puerta frontal,
como se ilustra en el panel (a) de la figura 11.6. Esta estrategia es practi
cable si: (a) el vector M sirve de camino(s) exclusivos(s) y exahustivos(s)
entre XeY; (b) los componentes de M (si los hubiera) están aislados uno
de otro (no tienen ningún impacto causal recíproco) y son medibles inde
pendientemente; y (c) los confundidores (C) que afectan a % no afectan
directamente a Af.18
Por ejemplo, imaginemos que queremos determinar si fumar provoca
cáncer, una cuestión muy debatida hasta hace poco tiempo.19 Aunque la
correlación entre estos dos factores es alta, hay, por supuesto, muchos
confundidores posibles. Quizás la gente que fuma es también propensa a
realizar otras actividades peligrosas que aumentan el riesgo de contraer
cáncer. O tal vez la misma predisposición genética a la adicción les hace
contraer cáncer a una edad posterior. La relación no está demostrada, y
quizás es indemostrable, porque actualmente somos incapaces de medir
las predisposiciones genéticas, o las pautas de comportamiento perjudi
ciales para la salud que aumentarían el riesgo de contraer cáncer (inde
pendientemente del tabaco). Y, por razones obvias, no podemos aleatori-
zar el tratamiento (fumar). Ahora bien, siendo el caso que fumar deja un
poso de alquitrán en los pulmones, que no hay otras causas de ese poso
de alquitrán y que el alquitrán es una causa próxima de cáncer, podemos
estimar, a través de este mecanismo causal, que el riesgo de contraer cán-
325
1
cer aumenta si se fuma. Esto implica un análisis simple de dos fases que
nos permite desatender cualquier efecto confundidor (procedente de los
genes y/o de las pautas de comportamiento): (1) fumar -> alquitrán y (2)
alquitrán -> cáncer.
Desafortunadamente, los escenarios de puerta frontal buenos son re
lativamente raros. Esto es especialmente así en las ciencias sociales, don
de sospechamos que las violaciones de estos exigentes criterios ((a) - (c),
enumerados antes) son la regla más que la excepción. Supongamos que
el confundidor sospechado afecta a X e Y, y también a M, como se
diagrama en el panel (b) de la figura 11.6. Aquí nos topamos con un es
cenario empírico aún más complejo. Pero incluso aquí la evidencia del
mecanismo puede servir de complemento (pero no de sustituto) de la evi
dencia de covariación de X e Y.
Ésta es la aproximación general que sugieren Adam Glynn y Kevin
Quinn.20 A modo de ejemplo, exploran la siguiente cuestión: ¿qué impac
to tiene (si tiene alguno) la disponibilidad del registro en el mismo día (la
opción de registrarse para votar cualquier día antes o el mismo día de las
elecciones) en las tasas de participación electoral de los africano-estado
unidenses? En los últimos años algunos estados de Estados Unidos han
instituido el registro en el mismo día, mientras otros siguen requiriendo
el registro por adelantado (normalmente uno o dos meses antes) del día
de las elecciones. La intención de la reforma de la ley electoral era aumen
tar la participación. Pero hay un debate considerable sobre si estas refor
mas han sido efectivas o, si lo han sido, en qué medida.21
El enfoque estándar sobre este problema utiliza información sobre las le
yes de registro (el mismo día o por anticipado) y la participación (votó o no
votó), junto a algunos confundidores potenciales que se pueden medir fácil
y rápidamente. De este modo se puede inferir una relación entre X (leyes de
registro) e Y (participación). Aunque no hay nada necesariamente erróneo
en la idea de condicionar a confundidores, ésta pasa por alto la informa
ción sobre el proceso causal que está operando. Tome nota de que para po
der votar, un individuo tiene que haberse registrado antes. El registro es,
por lo tanto, condición necesaria para votar. Para que Y = 1 (voto), M debe
ser igual a 1 (registrado). Pero el registro no es una condición suficiente del
voto. Algunos votantes registrados no votan, a pesar de tener derecho a ha
cerlo. Estos abstencionistas evidentemente no han sido disuadidos por las
leyes de registro. Esta información se ignora en el modelo estándar del con
dicionamiento a confundidores; examinamos sólo el tratamiento (si uno
vive en un estado donde hay que registrarse con tiempo o en un estado con
registro en el mismo día de las elecciones) y el resultado (votar o no votar).
Glynn y Quinn proponen un marco bayesiano de resultados potenciales
por el que se puede incorporar al análisis la información sobre esta variable
intermedia potenciando así la evidencia usual sobre X e Y.
326
A menudo, la información sobre los mecanismos causales se incorpo

ra de una manera menos formal —quizás porque M no es fácil de medir,
o se puede medir sólo para una submuestra pequeña y quizás no repre
sentativa de la población de interés. Aun asi, este tipo de información no
es intrascendente. En la medida en que nos da una idea sobre la caja ne
gra de la causación —lo que pasa entre X e Y— tendemos más a conven
cernos de que X sí causa (o no causa) Y. Consideremos el asunto de los
cupones en una situación en la que los métodos covariacionales tradicio
nales son infructuosos (incluso con ajustes estadísticos). Supongamos
que no hay ningún mecanismo causal como el «alquitrán» que exhiba las
condiciones necesarias para una estimación precisa de los efectos causa
les. Y supongamos también que hay varias implicaciones observables de
la teoría que deben ser ciertas si la teoría es cierta, y que es improbable
que sean producto de causas comunes. Por ejemplo, podemos descubrir
que los receptores de cupones asisten más a clase, hacen más deberes en
casa y han comunicado tener niveles más altos de ambición y entusias
mo. También podemos descubrir que los profesores que tienen experien
cia laboral en instituciones con cupones y sin cupones informan que las
primeras son mejores vehículos de enseñanza. En la medida en que estos
descubrimientos no se pueden atribuir a algún otro factor (por ejemplo,
la autoselección de estudiantes y profesores), tendemos a considerar que
proporcionan una evidencia fuerte a la proposición de que los cupones
mejoran la calidad de la educación. Asimismo, si esta evidencia de meca
nismo no existe (no hallamos diferencia en estos factores entre estudian
tes y profesores en instituciones con cupones y sin cupones), estaremos
menos inclinados a aceptar esta proposición.
Es importante también constatar que la información sobre los meca
nismos contribuye a la construcción de la teoría. De hecho, la investiga
ción sobre los mecanismos causales es virtualmente inseparable de la ex
plicación causal, como vimos en el capítulo 8. Consideremos otra vez los
cupones. Supongamos que una serie de estudios bien hechos (por ejem
plo, pruebas de campo aleatorizadas) han mostrado una relación positi
va entre las escuelas con cupones y el logro estudiantil, y la opinión en
los círculos académicos ha cambiado: los cupones funcionan. Aun así, es
importante saber por qué los cupones han mejorado el rendimiento estu
diantil o los test de logro, no sólo el hecho de que los han mejorado. La
identificación del mecanismo causal es crucial para comprender mejor el
logro educativo, así como para introducir innovaciones futuras en las po
líticas educativas. Los diseñadores de las políticas necesitan saber, en este
caso, qué tienen los cupones que mejora la calidad de las escuelas refleja
da en los test con el fin de diseñar reformas educativas eficaces. El com
ponente operativo de un programa de cupones podría ser: (a) la intro
ducción de competencia en el sistema escolar, (b) la mayor flexibilidad
327
1
permitida a los profesores en escuelas no tradicionales, (c) la mayor res

ponsabilidad que perciben tener los padres respecto de la educación de
sus hijos o (d) otros factores adicionales. Cada elemento sugiere políticas
de cupones diferentes, o quizás incluso una reforma no centrada en los
cupones. Un hallazgo que no se puede explicar no suele impulsar el pro
greso de su área ni mejorar la calidad de las políticas públicas. Tiene me
nos capacidad de generalización. Es más, los escépticos respecto de los
programas de cupones tienden a dudar del hallazgo en sí —tanto de su
validez interna como de su validez externa— hasta que se explique ade
cuadamente.22
Así, las investigaciones sobre los mecanismos causales cumplen varias
funciones. Nos pueden ayudar a identificar el efecto causal e indudable
mente nos ayudan a identificar la razón de ese efecto causal, la fuerza ge
neradora que opera en la causalidad.
Resultados alternos
Hay un enfoque bastante diferente sobre el confundidor de causa común
que implica alterar la comparación elegida —pasar de la variación entre
las unidades o en el tiempo a la variación entre resultados alternos. (Ese
enfoque podría describirse como un diseño de variables dependientes no
equivalentes o dentro de la unidad.')23 Hay tres variedades, como puede
apreciarse en los paneles de la figura 11.7.
Supongamos que nos interesa estudiar el impacto de un nuevo progra
ma de perfeccionamiento de lengua extranjera centrado en una lengua
(a) (c)
Test placebo Dentro de la
confundidores unidad
X= Factor causal C = Confundidor
Y = Resultado de interés teórico K, = Resultado secundario
Figura 11.7 Resultados alternos
328
concreta, el ruso por ejemplo, y medido por medio de test de competen

cia lingüística estandarizados. El programa se lleva a cabo en paralelo al
currículum normal de las clases de cada escuela, lo que significa que los
estudiantes del programa estudian ruso en un contexto escolar normal y
también siguen el programa de perfeccionamiento. El diseño de investi
gación convencional compara el grupo de tratamiento (los que asisten al
programa de perfeccionamiento y a las clases normales de ruso) con el
grupo de control (los que asisten sólo a las clases normales de ruso). Esta
investigación «covariacional» es, sin duda, vulnerable a los confundido
res de causa común. Los estudiantes seleccionados para el tratamiento
tienden a estar más motivados y/o a ser más inteligentes que los estu
diantes que permanecen en el grupo de control, como se ilustra en el pa
nel (a) de la figura 11.7 (ignorando T,).
Para poder captar la presencia del confundidor y estimar su posible
impacto, cambiemos nuestro enfoque hacia un resultado alterno presu
miblemente afectado también por C. En el contexto de nuestro ejemplo,
ese resultado podría ser otro programa lingüístico centrado en otra len
gua, por ejemplo el húngaro, administrado en el currículum regular. Los
estudiantes que asisten al programa de perfeccionamiento del ruso, a las
clases normales de ruso y a las clases normales de húngaro son vulnera
bles a los mismos confundidores (por ejemplo, la inteligencia de naci
miento y/o la motivación). Por consiguiente, cualquier diferencia que se
encuentre en la tasa de mejora de ambas lenguas será atribuible sólo al
programa de perfeccionamiento en sí, más que al confundidor. Si estas
diferencias concuerdan con las diferencias halladas en la comparación
convencional entre el tratamiento y el grupo de control, entonces pode
mos concluir que el programa de perfeccionamiento ha tenido el efecto
deseado, entendido como un EPT. Si, en cambio, no hay diferencias en
tre la tasa de mejora de los estudiantes del grupo de tratamiento en las
dos lenguas, entonces presumiblemente cualquier diferencia que se en
cuentre entre el grupo de control y el de tratamiento es espuria —es pro
ducto de los confundidores más que del tratamiento en sí. En algunas
ocasiones esta estrategia recibe la denominación de test placebo, y se ilus
tra en el panel (a) de la figura 11.7.
Un estudio de salud pública reciente sobre la terapia antirretroviral al
tamente activa (TAAA) nos proporciona un ejemplo práctico. Como ex
plican los autores, «la TAAA detiene la réplica del VIH de manera soste
nida de forma que las concentraciones en plasma de VIH-1 RNA (...la
carga viral) llegan a ser típicamente indetectables. Este cambio permite
que se reconstituya la inmunidad, lo que conduce a la remisión de la en
fermedad a largo plazo y la evitación de un desenlace fatal».24 El objeto
de este estudio particular era medir el impacto de la TAAA en la trans
misión del sida en la población de la Columbia Británica. Las encuestas
329
representativas de esta provincia indican que entre 1996 y 2009, el núme

ro de individuos que recibieron la TAAA aumentó de 837 a 5.413, mien
tras el número de diagnósticos de VIH cayó de 702 a 338 (anualmente).
Esta correlación fuerte entre XIY está no obstante sujeta a varios con
fundidores, incluyendo la posibilidad muy real de que la marcada dismi
nución de nuevos casos de VIH fuese atribuible a cambios comporta-
mentales —un posible efecto secundario de la campaña TAAA— más
que al impacto fisiológico de la TAAA en la tasa de transmisión. En su
comentario sobre esta amenaza a la inferencia causal, los autores seña
lan que las «tasas de infección por transmisión sexual aumentaron duran
te los últimos 15 años de nuestro estudio, lo que implica que nuestros
descubrimientos no pueden explicarse por la disminución del comporta
miento de riesgo de infección de VIH por vía sexual».25 Aquí, las infec
ciones que se transmiten por vía sexual cumplen la función de test place
bo, un resultado secundario (K,) que nos permite indagar sobre la
probabilidad de la intervención de confundidores en la relación de inte
rés teórico XI Y.
La segunda variedad de diseño de resultados alternos que vamos a ver
aquí intenta identificar un resultado alterno, T2, que supuestamente co
rrelaciona con Yv pero está libre de confundidores. Imaginemos un pro
grama educativo en Estados Unidos de enseñanza del inglés como segun
da lengua (ESL). Para valorar el impacto de este programa el investigador
adoptará un diseño longitudinal, porque es difícil identificar un grupo de
control adecuado. Así, los participantes del programa hacen un test de
competencia lingüística al principio y al final del curso, un diseño simple
de pretest y postest. Un posible confundidor sería la presencia de otros
canales por los que los estudiantes podrían aprender a hablar inglés. Des
pués de todo, están viviendo en un país angloparlante y están diariamente
expuestos a ese idioma por diferentes vías como la televisión, la radio, el
trabajo y cualesquiera relaciones que tengan con angloparlantes. Si el di
seño de pretest y postest revela un efecto del tratamiento, podría ser un
resultado del curso y/o de varios confundidores (de los que los sujetos no
se pueden aislar). Supongamos ahora que sabemos algo sobre los meca
nismos de la competencia lingüística, a saber: que una persona aprende a
hablar con un acento que imita aquel al que está más expuesto. Y supon
gamos que los acentos de los profesores de inglés de este curso son dife
rentes de los acentos generales de la sociedad en general. En concreto, su
pongamos que los profesores son ingleses y que tienen acento británico,
mientras las otras fuentes de inglés (la televisión, la radio, la conversación
casual) tienen una inflexión estadounidense. En estas circunstancias, los
acentos con los que hablan inglés los estudiantes delimitan los verdaderos
efectos del tratamiento de los efectos de los confundidores. Si aprenden
inglés con acento británico, presumiblemente lo han aprendido debido al
330
11 Estrategias causales: más allá de X e V
curso; si aprenden inglés con acento estadounidense, lo aprenden por

otros canales. El acento cumple la función de resultado alterno sin con
fundidores, K,, del panel (b) de la figura 11.7.
La tercera variedad de estrategia de resultados alternos deja totalmen
te a un lado el grupo de control, centrándose sólo en los resultados alter
nos de los sujetos del grupo de tratamiento. Para ejemplificar esta estra
tegia retomemos nuestro anterior ejemplo del aprendizaje del ruso. En
este escenario, podríamos decidir medir el cambio en el tiempo del nivel
de competencia de los estudiantes entre dos resultados, uno concebido
como la condición de tratamiento (el ruso) y el otro como la condición
de control (el húngaro), como se ilustra en el panel (c) de la figura 11.7.
Tome nota de que se trata de condiciones, no de grupos, como ocurre en
el diseño de investigación estándar. Advierta también que el efecto cau
sal resultante atañe ahora sólo a los estudiantes que han sido selecciona
dos en el grupo de tratamiento, no a la población en general: un EPTT
más que un EPT.
El contexto perfecto para esta última estrategia seria aquel en el que
los sujetos están en el mismo año de instrucción en ambas lenguas —ruso
y húngaro— y comparamos sus tasas de mejora en las dos lenguas a lo
largo del tiempo. Aquí, el estimador de la diferencia en la diferencia
(DD) que vimos en el capítulo 10 podría ser apropiado para medir el im
pacto del programa en la competencia lingüística. Sin embargo, si los es
tudiantes están en diferentes fases de instrucción en las dos lenguas, o se
teme que esas lenguas no son causalmente comparables (una podría res
ponder más a la instrucción fuera del aula que la otra), entonces podría
mos incluir la competencia media en el aula (en el caso de los estudiantes
que no están en el programa de perfeccionamiento) como referencia con
i
Ja que medir el cambio en la competencia del estudiante entre el pretest y
el postest. Este tipo de estimador se describirá como la DD para las uni
dades tratadas en relación con la DD para las unidades no tratadas, o la
diferencia en la diferencia en las diferencias (DDD).26
La clave es que si A Y (competencia en los test de lengua rusa) es dife
rente de A 7, (competencia en los test de húngaro), esta diferencia proba
blemente no será el producto de un confundidor de causa común, porque
la mayoría de estos confundidores afectan a las unidades en general (per
sonas) y no cabe esperar que tengan un impacto diferencial en los dife
rentes resultados experimentados por la misma persona al mismo tiem
po, es decir, Y e Y2.
Repitamos: el diseño de investigación dentro de la unidad recurre a
una única unidad que experimenta ambas condiciones: la de control y la
de tratamiento. Sin embargo, a diferencia del diseño longitudinal que
analizamos en el capítulo 10, las condiciones de tratamiento y de control
se administran simultáneamente, obviando así las amenazas históricas
331
(factores correlacionados con X en un determinado momento que po

drían afectar también a Y).
Un supuesto clave es que X afecte a Y pero no a Y,. Si, en el ejemplo
anterior, la participación en un programa de ruso mejora la motivación o
los hábitos de estudio de los estudiantes, con efectos de desbordamiento
en el logro educativo en otras áreas (por ejemplo, el húngaro), entonces
el análisis se viene abajo. El efecto de A" en Y debe ser separado de Y2,
como se diagrama en el panel (c) de la figura 11.7.
Judith Huber Minton utiliza este enfoque para comprobar el impacto
de Barrio Sésamo, la famosa producción de Children's Televisión Works-
hop para la alfabetización. Concretamente, entre los niños de preescolar
estudiados, compara los progresos en la comprensión del alfabeto en el
caso de las letras enseñadas en Barrio Sésamo (Y) y los progresos en el
caso de las letras no enseñadas en Barrio Sésamo ( YJ. Se descubrió que
el progreso en las letras enseñadas en Barrio Sésamo era considerable
mente mayor que el progreso en las letras no enseñadas en el programa.
Esto elimina con eficacia muchos confundidores potenciales, como por
ejemplo los asociados con los padres, los hermanos, los programas esco
lares y las características individuales de cada niño (todos dieron presu
miblemente un peso igual a todas las letras).27
Desde luego, tenemos que suponer que las letras elegidas como trata
miento (las que destaca Barrio Sésamo) son comparables causalmente
con las letras que constituyen el control. Aprender la letra A puede no
ser igual que aprender la Q. Esto sugiere la posibilidad de aleatorizar las
condiciones de tratamiento y de control, es decir, seleccionar las letras al
azar para que los grupos sean equivalentes. En este caso, debido a la mo
desta cantidad de condiciones de tratamiento que ofrece el inglés, se
aconseja hacer de algún modo bloques pretratamiento (en función de la
dificultad) antes de la aleatorización. También se podrían aplicar diseños
de aleatorización más complejos, como los diagramados en la tabla 10.2,
X = Factor causal B = Covariable

Y = Resultado C = Confundidor
Z = Moderador [] = No condicionado
Figura 11.8 Estrategia de heterogeneidad causal
332
aunque dudamos si son prácticos en los diseños de resultados altemos.

Lo importante es advertir que no se trata de una aleatorización en el sen
tido estándar del término, porque estamos manipulando la asignación de
condiciones a las mismas unidades más que manipulando la asignación
de unidades entre las condiciones de tratamiento y de control.
Heterogeneidad causal
La heterogeneidad causal, es decir, el impacto variable de un factor cau
sal, X, en las unidades de una misma muestra, suele considerarse ruido
(B).28 Sin embargo, en determinadas situaciones puede proporcionar pis
tas para la inferencia. Esto ocurre en situaciones en las que la heteroge
neidad causal no es estocástica (aleatoria), los moderadores relevantes
(Z) se pueden medir, y el efecto de interacción de X* Z en Y no está suje
to a confundidores. La figura 11.8 presenta el diagrama causal de esta es
trategia. Lo que aprendemos de esta suerte de análisis puede: (a) aumen
tar (o disminuir) nuestra confianza en el efecto causal medido y/o (b)
arrojar luz sobre los mecanismos causales que operan en un efecto cau
sal.
Consideremos un programa de cupones extraescolar con estudiantes
procedentes de muchos entornos lingüísticos dirigido a los estudiantes
cuya lengua nativa es el español. Todos los estudiantes del curso reciben
el mismo tratamiento. Sin embargo, en virtud de las características fijas
(hispano-no hispano), cabe esperar que los sujetos respondan de forma
diferente. En particular, esperamos que los estudiantes hispanos progre
sen más deprisa que los estudiantes no hispanos si el programa de cupo
nes funciona como se pretende.
Naturalmente, podemos comprobar la proposición anterior de forma
experimental aleatorizando los tratamientos de interés (1 = programa de
cupones dirigido a hispanos, 0 = programa de cupones sin preferencia
por determinados hablantes). Sin embargo, no en todas las situaciones es
posible la aleatorización. Además, es poco probable que la aleatorización
pueda incluir al moderador, una característica fija (hispano/no hispano),
y en este sentido es incompleta, lo que fuerza al investigador a inferir la
causalidad de determinadas características fijas de los sujetos. Cualquie
ra que sea el diseño de investigación, siempre encontraremos algún grado
de heterogeneidad causal. Si se satisfacen varios supuestos (especificados
antes), siempre podemos aprender algo sobre los efectos causales hetero
géneos.
Para ver cómo la heterogeneidad anticipada nos puede ayudar a tratar
los confundidores en este caso, consideremos los dos escenarios siguien
tes. Primero, supongamos que creemos que cualquier confundidor no
333
medido afectará por igual tanto a los estudiantes hispanos como a los no
hispanos. Si descubrimos que los efectos estimados del programa de cu
pones son los mismos para los estudiantes hispanos y no hispanos, en
tonces concluiremos que el efecto estimado se debe a un confundidor y
no al programa.
En el segundo escenario, supongamos que creemos además que el pro
grama tendrá un efecto nulo en los estudiantes no hispanos (quizás el
curso se enseña en español). Si descubrimos un efecto en los estudiantes
no hispanos, entonces tendrá que deberse a un confundidor. Si supone
mos además que este confundidor será similar entre los estudiantes his
panos, entonces podemos sustraer el sesgo producido por el confundidor
de la estimación del efecto entre los estudiantes hispanos. Esto es funcio
nalmente equivalente al diseño de la diferencia en la diferencia que vimos
en el capítulo 10.29
Hipótesis rivales
La información sobre hipótesis rivales es un rasgo persistente de la infe
rencia causal, aunque no siempre se reconoce explícitamente. Tome nota
de que todo experimento (incluso un experimento de laboratorio) requie
re tener en cuenta los confundidores potenciales. Estos factores son, en
efecto, hipótesis rivales sobre el resultado (¿de qué otra manera se puede
explicar la variación de L?). E incluso los experimentos mejor construidos
dejan un espacio considerable a la interpretación sobre los mecanismos
operativos. Aquí, la lógica de la inferencia se suele basar fuertemente en la
valoración de hipótesis rivales (que pueden ser o no empíricamente com
probables).
La lógica de la «eliminación» tiene también una base sólida en la filo
sofía de la ciencia. Es la base del «método de la concordancia» (conocido
también como el método del caso más diferente) de J. S. Mili; una carac
terística central de la tradición peirceana de la inferencia causal conocida
como «abducción» o «inferencia de la mejor explicación»; y a menudo se
cita en otros influyentes estudios.30 Incluso ha recibido cierto reconoci
miento entre los metodólogos.31
Entonces, ¿cómo podemos integrar el conocimiento sobre otras cau
sas de T en un análisis de la relación de X con y?32
Supongamos que hay problemas de medición, de confundidores, de
representatividad de la muestra u otros rasgos del diseño de investigación
que impiden una inferencia causal fuerte sobre la relación de X e Y. Por
alguna razón tenemos cierto grado de incertidumbre sobre el asunto. El
rasgo distintivo de la estrategia de las hipótesis rivales es que se explora
la relación de Xe Y examinando factores causales diferentes de X—Z en
334
X = Factor causal
Y = Resultado
Z = Hipótesis rival
Figura 11.9 Estrategia de hipótesis rivales
la figura 11.9. El factor causal de interés teórico no está implicado en el

análisis, ni siquiera como proxy. Naturalmente, la investigación de hipó
tesis rivales podría realizarse en tándem con una investigación centrada
en X (y así suele hacerse), como hemos visto en apartados anteriores. Sin
embargo, la estrategia de las hipótesis rivales no se basa en X en ningún
sentido empírico. Lo único que se requiere es una hipótesis de que X es
una causa de algún resultado, Y, que tiene que ser medible (o medible
por medio de una proxy).
Consideremos como ejemplo el argumento de Philip Keefer de que las
democracias jóvenes son más corruptas y proporcionan menos bienes
públicos que las democracias viejas, debido a la «incapacidad de los
competidores políticos de las jóvenes democracias para hacer promesas
electorales creíbles a los votantes». Keefer reconoce que no es posible
comprobar directamente la proposición (porque es virtualmente imposi
ble medir el mecanismo de interés). Sin embargo, para verificar su argu
mento, recurre a la lógica de las hipótesis rivales —«si las explicaciones
alternativas basadas en la falta de credibilidad pueden dar cuenta del
funcionamiento de las democracias jóvenes»— para verificar su argu
mento.33
Para investigar la relación de Z con Y se puede emplear cualquiera de
las estrategias analizadas en este capítulo y en el anterior. Comoquiera
que se lleve a cabo, la viabilidad de la estrategia de las hipótesis rivales
depende de cinco factores.
Primero, tenemos que suponer que el resultado de interés, Y, no es to
talmente estocástico. Que hay un componente sistemático de Y que se
puede explicar. Podemos esperar esto de los fenómenos que están exten
didos (ocurren repetidamente) y reciben una denominación concreta (en
el lenguaje común o en uno especializado). Sin embargo, merece la pena
335
establecerla de forma explícita porque —a diferencia de otras estrategias

desarrolladas en este capítulo y el anterior— un fenómeno puramente es-
tocástico supuestamente carece de hipótesis nula desde el principio.
Segundo, la viabilidad de la estrategia de las hipótesis rivales depende
de los supuestos sobre cuántos factores causales influyen en Y. En algu
nos contextos, puede ser razonable suponer que hay sólo una causa de Y.
Esto ocurre con síntomas médicos muy específicos. La estrategia de las
hipótesis rivales es fácil de aplicar en este contexto: si Z es la causa de Y,
X no puede ser la causa de Y. Se elimina. En otros contextos es obvio
que puede haber otras muchas causas de Y (equifinalidad extrema). Este
sería el caso si Y se definiera de forma general, como, por ejemplo, la
muerte. Pero, si las causas de Y son finitas, se puede emplear esta estrate
gia para reducir la incertidumbre sobre la hipótesis de interés, XI Y. Saber
si Z causa (causó) Y, influye en nuestra creencia de si X causa (causó) Y
—aunque sea mínimamente.34
Tercero, la viabilidad de la estrategia depende del supuesto de cuán
tas hipótesis posibles hay sobre Z. Aunque se considere que hay una
sola causa de Y, puede haber muchas hipótesis posibles sobre en qué
consiste esa causa. Si hay sólo dos hipótesis viables sobre lo que causa Y
—X y Z—, entonces aprenderemos mucho sobre la relación XIY exami
nando Z/ Y.
Cuarto, nuestras conclusiones sobre XIY a partir de Z/ Y están influi
das por el éxito de Z para explicar Y. Si Z parece explicar buena parte de
la variación en Y, quizás nos inclinemos menos a pensar que X es impor
tante. Si, por otra parte, Z muestra sólo una relación débil con Y (la rela
ción con Y no deja de ser estocástica, es decir, no explicada), entonces se
remos más optimistas sobre el papel potencial que representa X.
Por último, cualquier información que obtengamos sobre XIY a partir
de Z/T depende de la fuerza de las inferencias que saquemos sobre ZIY.
Esta última es naturalmente vulnerable a todos los problemas usuales de
la inferencia causal, como ya vimos. En algunas ocasiones, las inferencias
ZIYson sólidas —o porque la evidencia empírica es muy fuerte y/o por
que nuestros supuestos fundamentales sobre el mundo nos permiten lle
gar a conclusiones firmes. En estos casos, las opiniones previas sobre
XIY pueden cambiar fundamentalmente. A veces las conclusiones sobre
las hipótesis alternativas se basan en una evidencia endeble o en supues
tos débiles sobre el mundo, por lo que apenas influyen en nuestros su
puestos previos sobre XI Y.
El examen de hipótesis rivales no es una estrategia formal como lo
son las estrategias analizadas anteriormente. Sin embargo, esta estrategia
es bastante común como complemento informal de los diseños de inves
tigación. Suele emplearse especialmente en los estudios basados en datos
no experimentales, o en estudios experimentales en los que el investiga-
336
dor quiere hacer puntualizaciones sobre la validez externa de un hallazgo

procedente de una muestra no aleatoria (y muy posiblemente no repre
sentativa).
Test de robustez
En los diseños no aleatorizados y en los experimentos que implican con
fundidores postratameinto (por ejemplo, el incumplimiento), suele haber
muchas maneras de modelar los datos, ex post. Puede haber una serie de
estimadores aceptables, una serie de especificaciones razonables para
cada modelo estadístico, etc. Además, afrontamos problemas de concep-
tualización y de medición, problemas de muestreo y relativos al diseño
que son diferentes del problema de asignación.
Estas elecciones tienden a influir de algún modo en las estimaciones
del efecto causal. Algunas decisiones pueden afectar sólo a la magnitud
del coeficiente. Otras a la dirección (positiva/negativa) del efecto obser
vado o a la aceptación/rechazo de la hipótesis nula.
Por desgracia, recurrir a la «teoría» no suele resolver estos problemas.
Tome nota de que si la teoría es fuerte no tiene mucho sentido la com
probación; ya sabemos lo que hay ahí fuera. Si la teoría es débil, en reali
dad no fortalecemos nuestra fe en los supuestos recurriendo a ella.
Sin embargo, hay algo que nos puede salvar: la posibilidad de com
probar la robustez (sensibilidad) de un resultado alterando varios ele
mentos del análisis —lo que nos proporciona un test rudimentario de va
rios supuestos. Para ser claro, el propósito del test de robustez no es
b
llegar a una estimación precisa de los efectos causales. De hecho, la téc
nica de los test de robustez presupone más o menos que una estimación
precisa del impacto de A" en Y es imposible. Antes bien, el propósito es
comprobar en qué medida es precisa una estimación dada (derivada de la
mejor apuesta del investigador o de un modelo de referencia) frente a di
ferentes supuestos. Por otro lado, podríamos señalar que el propósito es
comprobar si una relación planteada —conceptualizada vagamente
como «positiva» o «negativa»— es verdadera o no. Haciendo una serie
de test de robustez —por ejemplo, operacionalizaciones alternativas para
variables clave, muestras alternativas o estrategias alternativas de mues
treo (selección de casos), estrategias alternativas para medir un efecto
causal, estimadores alternativos y especificaciones alternativas— pode
mos descubrir qué supuestos (si hay alguno) son importantes y cuánto
I varía el efecto causal estimado en los diferentes test.35
Los test de robustez ayudan al investigador a alcanzar un nivel de in
certidumbre general que resulta apropiado a la luz de la evidencia obte
nida, llevándole más allá de los test superficiales y dependientes del mo-
337
délo de los que normalmente se informa en los análisis estadísticos. Si

todos los test de robustez recomendables tienen poco impacto en un des
cubrimiento, entonces puede estar justificado un nivel alto de certidum
bre. Si, por otra parte, el descubrimiento es sensible a la introducción de
pequeños cambios en el modelo, eso es ya otra historia. En todo caso,
hacer múltiples test es más revelador que hacer uno sólo cuando es difícil
identificar un único test, como suele ocurrir en los estudios no aleatori-
zados (o en los estudios experimentales donde se sospecha que hay cierta
desviación entre el diseño y su aplicación).
En gran medida, los test de robustez es lo que los científicos sociales
hacen cuando afrontan problemas de identificación intratables —aunque
lo hagan de forma no sistemática, con gran apuro y poca transparencia.
Esta aproximación al trabajo produce la desafortunada sensación de un
ajuste a la curva expost (cambiar un modelo hasta que se ajusta a los da
tos). Y es así si el proceso es chapucero y no se presta la suficiente aten
ción. En los últimos años, sin embargo, se han propuesto una serie de
procedimientos para estandarizar este proceso de comprobación del mo
delo, de forma que se pueda presentar correctamente y permita distin
guir la distinta fuerza de los diferentes resultados —lo que nos propor
ciona una estimación mejor del verdadero efecto de X en Y, dados los
diferentes supuestos (aceptables) del modelo. La amenaza común es el
movimiento hacia una concepción más general de la probabilidad de la
que es usual en la estadística frecuentista que incluya la verosimilitud de
las estrategias correctas de modelado para estimar el efecto probable de
Yen Y.
Supongamos, por ejemplo, que se puede comprobar una amplia serie
de operacionalizaciones (para X e Y), estimadores y especificaciones
aceptables de una hipótesis causal determinada. Y supongamos además
que hay un factor causal determinado, X, que tiene direccionalidad (po
sitiva o negativa) y significación estadística en todos estos test. En estas
circunstancias podemos ser algo optimistas. Aunque seguramente no
otorgaremos mucha importancia a una estimación determinada, puede
ser razonable concluir que X tiene algún efecto en Y. De igual modo, si
varios intentos repetidos de explicar la relación de X e Y descubren que
prácticamente ninguna especificación aceptable del modelo exhibe una
relación significativa entre las dos variables, podemos concluir con cierta
confianza que la hipótesis nula es verdadera. X no tiene impacto en Y.
Esto puede parecer que no es muy científico, al menos no de acuerdo
con el modelo científico experimental. Pero sí representa un enfoque ra
zonable de la inferencia causal cuando el tratamiento no se aleatoriza y
cuando no se aprecian con claridad estrategias de modelado causal co
rrectas. Mientras el investigador sea honesto e informe de los procedi
mientos que ha usado para llegar a sus conclusiones, al menos el proble-
338
ma del ajuste a la curva se hace transparente y se le asigna un nivel

apropiado de incertidumbre.
Razonamiento causal
La evidencia no habla por sí misma. La causalidad es una inferencia, y
no se deduce apodícticamente de un diseño de investigación y el subsi
guiente análisis de los datos. Esto es así en los estudios cualitativos y en
los cuantitativos, en los estudios que se basan en datos no experimentales
y en los que se fundamentan en tratamientos aleatorizados.
A buen seguro, los supuestos necesarios para lograr la inferencia causal
en los trabajos experimentales son pocos y, por lo general, menos proble
máticos. Pero son, no obstante, esenciales. Advierta que la configuración
de un diseño aleatorizado requiere muchos supuestos a priori sobre qué
tipo de confundidores pueden amenazar el resultado y, por ende, qué tipo
de precauciones deben tomarse para preservar la validez del diseño de in
vestigación. ¿La contaminación entre el tratamiento y los grupos de con
trol es una posibilidad real? ¿Ha quedado preservada la independencia de
las unidades? ¿Son vulnerables las unidades del grupo de tratamiento a los
efectos del experimentador? (Y otros problemas similares.) Asimismo, una
vez terminado el experimento, los revisores pueden formular las mismas
preguntas para determinar su validez (ex post). Además, tanto el investi
gador como ios revisores tendrán que especular sobre el mecanismo o me
canismos que podrían operar si se ha mostrado que X tiene una relación
causal con Y. Los mecanismos en las ciencias sociales raramente se mani
fiestan por si mismos y suelen resistirse a la comprobación empírica.
Claramente, no son sólo las reglas y los métodos explícitos lo que pre
ocupa en la inferencia causal. Esto es cierto, a fortiori, en los estudios no
experimentales. Tal como lo expresa Donald Rubín:
La inferencia causal es imposible sin hacer supuestos, y ellos son las hebras que
vinculan la estadística y la ciencia. Es la calidad científica de esos supuestos, no
su existencia, lo importante. Siempre hay un elemento de compensación entre
los supuestos y los datos, pero los dos proporcionan información. Con datos de
mejor calidad se necesitan menos supuestos. Pero en el contexto de la inferencia
causal, los supuestos se necesitan siempre, y es imperativo explicarlos y justifi
carlos. Una de las razones para proporcionar estos detalles es que los lectores
puedan comprender el fundamento de las conclusiones. Otra razón relacionada
con la anterior es que esa comprensión debe conducir al escrutinio de los su
puestos, a la investigación sobre ellos e, idealmente, a su mejora. Lamentable
mente, esta especificación de los supuestos no suele hacerse en muchos análisis
que pretenden ser causales y en su lugar se especifican los programas informáti
cos que se han aplicado.36
339
¿En qué consiste, entonces, la «calidad científica» de un supuesto? Esto

nos lleva a la cuestión del razonamiento causal.
Hay que tener en mente que, hablando estrictamente, lo único que co
nocemos es la pauta de los datos que hemos observado y el hecho de
que, en alguna parte, hay un proceso generador de los datos (PGD) (en
pocas ocasiones directamente observable) que da cuenta de los datos.
Nuestra teoría causal es sólo una posible explicación de los datos, y qui
zás no la mejor. La reflexión minuciosa sobre la teoría y su relación con
el PGD sirve para centrar nuestra atención de forma productiva.
También sirve para ampliar nuestra manera habitual de pensar sobre
la causación. Más que empezar con una teoría, la noción de un PGD nos
obliga a empezar con los datos para remontarnos a la explicación. Igual
que un detective investiga un crimen, nosotros debemos reconstruir el
proceso que generó los datos, explorando todas las posibles causas.
El razonamiento causal suele adoptar la forma de un experimento
mental contrafáctico, en el que el investigador considera un resultado de
interés bajo diferentes escenarios hipotéticos (¿qué hubiera pasado si?).
Si los resultados resisten la prueba de la razón, entonces el descubrimien
to recibirá mucho peso.37
En esta investigación se ha de considerar toda forma de evidencia,
esté o no incluida en el diseño de investigación formal. Se han de consi
derar también los resultados puramente estocásticos. Podría ser que no
hubiera ninguna explicación (generalizable) de Y. Podría ser también que
Y no fuese un resultado coherente, sino un conjunto diverso de cosas di
ferentes amontonadas en un concepto compuesto. El razonamiento cau
sal debe dejar espacio a un escrutinio de la causalidad de mayor alcance
del que es típico cuando se siguen diseños de investigación formularios.
El razonamiento causal también debe atender al «ajuste» relativo en
tre la teoría y los datos, como vimos en el capítulo 4. En algunas ocasio
nes, una teoría contiene predicciones muy específicas sobre la pauta de
los datos esperados. Ésta podría estar relacionada con la distribución del
resultado (exactamente cómo varía Y con X), el mecanismo u otros re
sultados que no son de interés teórico (variables dependientes no equiva
lentes). Aunque ya hemos presentado estas estrategias de forma general,
me gustaría recalcar aquí el papel de la teoría y del razonamiento causal
en el uso de estas estrategias. Si, por ejemplo, una teoría presume que de
terminados mecanismos causales, M, se evidenciarán y se podrá asegurar
que esos mecanismos causales están presentes, habremos ofrecido un
tipo importante de evidencia a la teoría. El peso que estemos dispuestos
a dar a esta información dependerá de la probabilidad de que M esté
presente si X no causara Y. En pocas palabras, descansa en los supuestos
teóricos sobre la teoría y sobre la naturaleza de la realidad objeto de es
tudio. Este método de análisis recibe en ocasiones la descripción de ajas-
340
te de pautas o pautas guiadas por la teoría, porque ajusta una pauta de

datos a un conjunto de predicciones teóricas.38
La cuestión, por lo tanto, no es negar el papel de los supuestos o ale
jarlos de la inferencia causal (o jugar con palabras que implican causali
dad pero no evocan realmente la raíz de la palabra). Antes bien, propon
go una estrategia en seis fases. Primero, intente limitar el número y la
fragilidad de los supuestos necesarios para hacer una inferencia causal.
El mejor diseño de investigación requiere el menor número posible de su
puestos sobre el mundo y, cuanto menos problemáticos sean, mejor.
(Esto nos recuerda el criterio de parsimonia que vimos en el capítulo 3.)
Segundo, exponga al lector explícitamente todos estos supuestos, quizás
con la ayuda de un modelo formal y/o gráfico causal. Tercero, someta
esos supuestos a test de robustez siempre que le sea posible. Cuarto, ex-
plicite la evidencia suplementaria para demostrar la viabilidad de los su
puestos siempre que sea posible. Quinto, consulte a expertos en el tema
que está tratando, es decir, a aquellos que conocen el problema teórico
que usted está intentando resolver y el proceso generador de datos que
usted está intentando interpretar. Debemos reconocer la importancia de
la experiencia y la sabiduría a la hora de ejercer la destreza y practicar el
análisis minucioso en los estudios de las ciencias sociales. En algunas
ocasiones, los expertos saben más y sus ideas se deben tener siempre en
cuenta. Finalmente, siempre que sea posible (y sensato), consulte a los
I sujetos que está usted estudiando. Vea si el análisis que usted hace tiene
sentido para ellos. Si no lo tiene, escuche qué objeciones plantean. Podría
sorprenderse.
Por último, no podemos dejar de reconocer el papel que desempeña el
razonamiento causal en la investigación científica. Como Karl Polanyi
señaló hace muchos años, «hay un residuo de juicios personales necesa
rio para decidir —lo que en última instancia debe hacer el científico—
qué importancia hay que dar a un conjunto determinado de evidencia al
respecto de la validez de una proposición determinada».39
Revisión del problema de la asignación
En los círculos metodológicos actuales, el problema de la asignación es el

más crucial y relevante.40 La primera pregunta que tendemos a formular
sobre un diseño de investigación es si una hipótesis se puede comprobar
de forma experimental, es decir, con un tratamiento aleatorizado. La se
gunda pregunta es si se puede identificar un marco no aleatorizado en el
que el tratamiento (asignado normalmente de forma natural, es decir, sin
la intervención del investigador) sea aleatorio respecto del resultado de
interés. Este experimento por serendipia (de forma casual) viene a cono-
341
cerse como cuasi experimento o experimento natural. Debido a la ambi

güedad de estos términos, yo uso el calificativo de no aleatorizado. Es el
caso, sin embargo, de que todos los diseños de investigación aspiran a re
plicar las virtudes de un verdadero experimento. En la medida en que el
proceso generador de los datos se aleja de un tratamiento aleatorizado,
nos vemos obligados a hacer ajustes ex post fació, es decir, a movernos
«más allá de X e L», como hemos visto en este capítulo.
La moraleja es simple. El único método fiable para resolver el proble
ma de la asignación es el tratamiento aleatorizado entre múltiples unida
des, permitiendo la comparación entre los grupos de tratamiento y de
control. Los demás enfoques, si bien pueden ser ocasionalmente adecua
dos para la tarea, casi nunca serán tan seguros o precisos.
Desde luego no estoy cuestionando que todos los métodos no aleato-
rizados analizados en este capítulo y el anterior puedan funcionar, es de
cir, puedan proporcionar una estimación válida y precisa del impacto de
X en Y. El problema es que no podemos saber con seguridad si las cir
cunstancias del caso justifican el método elegido, por ejemplo, si unos
datos no aleatorizados replican las características de un verdadero expe
rimento o si hemos condicionado a todos los confundidores (y no hemos
introducido otros). Recordemos que las características de todo gráfico
causal diferentes de X e Y (que, a nuestros efectos aquí, están correcta
mente medidas) son especulativas. Son la mejor apuesta del investigador
sobre el proceso generador de los datos que afronta. Si sus suposiciones
son verdaderas, entonces se justifica la estrategia de análisis que ha elegi
do. Pero si no lo son, nadie puede prever qué pasará. Y las suposiciones,
por lo general, no suelen estar sujetas a verificación empírica.
Pero un experimento requiere, por lo general, menos supuestos sobre
el mundo. X es controlada por el investigador, Y es observada. Si no in
tervienen confundidores en el análisis después de iniciarse el tratamiento
y antes del postest final (por ejemplo, el incumplimiento o la contamina
ción entre los grupos), el resultado deberá considerarse sólido. Además,
el método del análisis de datos tras un experimento puede ser muy sim
ple, como por ejemplo la comparación entre las medias de los grupos ob
viando los modelos estadísticos complejos que requieren supuestos adi
cionales y posiblemente problemáticos.
Esto sugiere que no sabemos nunca realmente cuán verdadero es un
resultado no experimental hasta que realizamos un experimento sobre
esa misma cuestión —una conclusión bastante mala para aquellos de no
sotros que nadamos en el proceloso mar de los datos observacionales. De
aquí se sigue que los métodos no experimentales son metodológicamente
justificables sólo cuando, por razones prácticas o éticas, no es posible
idear un procedimiento de aleatorización o cuando un método no experi
mental promete más validez de constructo o validez externa. De aquí se
342
sigue también que la investigación que implica una asignación no aleato

ria debe complementarse con evidencia adicional que compense las insu
ficiencias del diseño de investigación. Aunque una muestra de tamaño
modesto y una única medición postest de un solo rasgo de la muestra (el
resultado de interés) puede ser suficiente para determinar el efecto causal
de una intervención aleatorizada (opción n° 2 de la tabla 10.2), si la in
tervención no es aleatorizada, cabría esperar de una muestra mayor, y
múltiples pretest y postest (una serie temporal), bastante información so
bre las unidades observadas (como para modelar el proceso de selección
y medir los confundidores potenciales) y la utilización de una serie de
técnicas no covariacionales (más allá de X e Y), incluyendo información
contextual sobre el marco de investigación que puede ser necesaria para
proporcionar una interpretación plausible del efecto causal. Así, la mul
tiplicación del número de rasgos observables de un fenómeno causal pue
de contribuir a compensar los problemas inherentes de un diseño de in
vestigación no experimental.
A buen seguro, estos factores que se acaban de señalar pueden tam
bién demostrarse útiles en el escenario experimental por excelencia. La
cuestión es que resultan incluso más esenciales cuando se viola el ideal
de la aleatorízación. Cuando el diseño de investigación principal es pro
blemático se debe aumentar el número y la sofisticación de las herra
mientas metodológicas.
I
Más allá de la aleatorízación
Celebramos aquí los logros del método experimental, pero no deseamos
perder de vista sus limitaciones. La aleatorízación asegura que hay varia
ción en X, que el tratamiento es discreto (o puede hacerse discreto), que
se distribuye uniformemente entre la muestra, que el tratamiento es exó-
geno al resultado y que existe comparabilidad causal entre los grupos de
tratamiento y de control en el momento en el que se asigna el tratamien
to. Implica que la muestra es grande, lo que reduce las amenazas a la in
ferencia derivadas de factores estocásticos.
Sin embargo, en el capítulo 9 repasamos otras amenazas a la inferen
cia contra las que no estamos protegidos. En particular, los experimentos
suelen ser vulnerables a los posibles confundidores que se cuelan en el
análisis después de la asignación del tratamiento, entre ellos los efectos
del investigador, los efectos de desgaste y la contaminación. Por varias
razones la comparabilidad causal suele ser difícil de mantener durante
todo el experimento. Y la aleatorízación afronta sólo problemas de vali
dez interna, no de validez externa. Si los resultados de un estudio aleato-
rizado se pueden o no generalizar a una población mayor es otra cues-
343
tión. Finalmente, no siempre es posible construir experimentos fuertes

para comprobar cuestiones de significación práctica o teórica (capítulo
3). Un experimento puede ser válido interna y externamente al tiempo
que trivial.
Nos queda por examinar si los métodos experimentales se pueden
adaptar para abordar satisfactoriamente todas las cuestiones que pre
ocupan a las ciencias sociales.41 Con toda probabilidad, las técnicas no
experimentales seguirán siendo en un futuro próximo el caballo de bata
lla de estas disciplinas. Esto significa que el problema de la asignación se
guirá siendo un obstáculo.
Esto no debe provocar la desesperación del investigador y hacerle su
poner que todo está perdido. En toda situación de investigación algunos
medios suelen ser claramente más útiles que otros. Una consideración
cuidadosa de las opciones disponibles, resumidas en la tabla 10.1, contri
buirá a elegir el mejor método o combinación de métodos disponible.
(Para más ideas sobre los mejores métodos posibles, véase el capítulo 14.)
344
12 Diferentes aproximaciones
a la inferencia causal
«Detrás de muchas disputas aparentemente teóricas en ciencia política están las

desavenencias sobre la naturaleza de las explicaciones válidas. Las confrontacio
nes entre los defensores de las aproximaciones realistas, constructivistas e insti-
tucionalistas a las relaciones internacionales, por ejemplo, atañen a las estrate
gias explicativas más que directamente a las proposiciones sobre cómo
interactúan las naciones. Asimismo, los virulentos debates sobre el nacionalismo
suelen girar más en torno a la especificación de qué analistas deben explicarlo y
cómo, que a la validez relativa de las teorías rivales. Los debates recientes sobre
la democratización tratan no sólo de la elección de las variables explicativas,
sino también de la lógica misma de la explicación.»
Charles Tilly1
Mi enfoque sobre el tema de la causalidad es conscientemente sincrético

y se inspira en muchas corrientes académicas. Pero los lectores se pregun
tarán si he tratado este campo de una forma verdaderamente integral.
De hecho, en los capítulos anteriores se han tratado esquemáticamente, o
no se han tratado en absoluto, varios temas de interés actual.
En este capítulo, que funciona como una coda de la tercera parte del li
bro, repaso brevemente las aproximaciones a la inferencia causal que, en
resumidas cuentas, parecen anómalas. Son las observaciones del proceso
causal, las causas de los efectos, los argumentos causales necesarioslsuficien-
345
tes, y el análisis comparado cualitativo (ACC). Como muchos de estos te

mas se solapan, cada apartado de los siguientes se basa en el anterior.
Intentaré mostrar que estas aproximaciones pueden acomodarse —
con algunas modificaciones menores— al marco presentado en los capí
tulos anteriores. A pesar de la diversificación de las formas de pensar so
bre la causalidad en los últimos años comentada por Charles Tilly (véase
la cita anterior), existe un núcleo de consenso identificable en el nivel de
las tareas, las estrategias y los criterios.
Observaciones del proceso causal
La unidad más elemental de evidencia es una observación. En consonan

cia con la práctica habitual he tratado las observaciones como miembros
potenciales de una muestra grande. Se presupone que todos los elemen
tos de evidencia son causalmente comparables con otros miembros de la
muestra. Esto está implícito en el formato de la matriz de una base de
datos (ilustrada en la figura 4.1). A buen seguro, el simple hecho de que
las observaciones se puedan organizar en una matriz no significa que
sean totalmente comparables (capítulo 9). Pero, en todo caso, cabe espe
rar que lo sean.
Otra forma algo diferente de evidencia es la observación del proceso
causal.2 Lo que define esta suerte de evidencia es, desde mi punto de vis
ta, que no todos los datos son causalmente comparables con los demás
datos empleados en el estudio. Como ejemplo podríamos considerar un
trabajo reciente de un equipo de geólogos para demostrar la teoría del
meteorito que extinguió los dinosaurios. King, Keohane y Verba explican:
Una de las hipótesis que explica la extinción de los dinosaurios, que desarrolla
ron Luis Alvarez y sus colaboradores en Berkeley a finales de la década de 1970,
postula que hubo una colisión cósmica: un meteorito chocó contra la tierra a
unos 72.000 kilómetros por hora, lo cual generó una explosión mayor que la de
una guerra nuclear a gran escala. Si esta hipótesis fuera correcta, su consecuen
cia observable seria que el iridio (un elemento habitual en los meteoritos, pero
escaso en la Tierra) se encontraría en una determinada capa de la corteza terres
tre que corresponde a los sedimentos depositados hace sesenta y cinco millones
de años; de hecho, el descubrimiento de este metal en las capas que se había pro
nosticado se ha considerado una prueba que confirma parcialmente esta teoría.
Aunque este acontecimiento es sin duda único, hay otras muchas consecuencias
observables. Por ejemplo, tendría que ser posible encontrar el cráter del meteori
to en algún lugar de la Tierra?
Alvarez y sus colegas identifican dos tipos posibles de evidencia: (1) el

iridio (presente en una capa particular de la corteza terrestre) y (2) el crá-
346
12 Diferentes aproximaciones a la inferencia causal
ter del meteorito. Estas observaciones no son comparables por la luz que
arrojan sobre los diferentes aspectos (subhipótesis) de la teoría. Ambas
son relevantes, pero son «manzanas y peras», como se suele decir. En
efecto, proceden de diferentes poblaciones. Y como no son comparables
no pueden manejarse con un formato de matriz estándar. Deben consi
derarse como dos elementos de evidencia en los que N = 1. Las observa
ciones del proceso causal son, por lo tanto, cualitativas por naturaleza.4
Este tipo de evidencia es especialmente valioso cuando intentamos ha
cer inferencias causales sobre eventos únicos (y quizás muy singulares),
como la extinción de los dinosaurios. Una aglomeración de evidencia
4
dispar requiere observaciones no comparables, cada una de las cuales
puede arrojar luz sobre ese único evento (aunque las ramificaciones de la
respuesta pueden ser generalizables). ¿Por qué un distrito escolar adoptó
cupones? ¿Por qué una escuela cambió su currículum después de adoptar
los cupones? ¿Por qué un estudiante decidió implicarse en un programa
de cupones y cómo influyó su elección en sus hábitos de trabajo? He aquí
unos pocos ejemplos del tipo de preguntas que debe abordar un estudio
sobre los cupones con observaciones del proceso causal, que tal vez pro
ceden de las entrevistas o de la observación participante.
Advierta que como cada observación que influye en la respuesta a es
tas preguntas es cualitativamente diferente de la siguiente, el número to
tal de observaciones del proceso causal en un estudio es indeterminado y
puede ser muy elevado. Las observaciones no comparables son, por defi
nición, difíciles de contar. Para contarlas podemos recurrir a listas de ele
mentos discretos de evidencia. Así, podemos decir que dos observaciones
del proceso causal se generaron para confirmar la teoría del meteorito
sobre la extinción del dinosaurio. Esto nos aproxima a los sistemas de
numeración empleados en los documentos legales (por ejemplo, «hay
quince razones que indican que Smith mató a Jones»). Pero las listas se
pueden hacer de muchas maneras, y cada observación individual del pro
ceso causal (y el correspondiente argumento) tiende a recibir diferente
peso en la valoración general del investigador. Por lo tanto, el número to
tal de observaciones sigue sin determinarse. No nos satisface la idea de
que Alvarez et al. tengan un «N» de dos. Las observaciones del proceso
causal no son, por naturaleza, cuantitativas. No sabemos y no podemos
saber con precisión cuántas observaciones del proceso causal contienen
algunos conocidos estudios cualitativos como Implementation de Jeífrey
Pressman y Aaron Wildavsky, States and Social Revolutions de Theda
Skocpol, Home Style de Richard Fenno, The Forest Ranger de Hebert
Kaufman o Negara de Clifford Geertz.5
Una vez más: las observaciones no comparables no son ejemplos dife
rentes de la misma cosa (como sí lo son las observaciones en una base de
datos). Son cosas diferentes. En consecuencia, no está claro dónde termi-
347
na una observación y empieza otra. Discurren sin interrupciones. No po

demos reinterpretar los estudios anteriores con la ayuda de un contador
para determinar el número total de observaciones; y tampoco obtendre
mos ningún beneficio analítico haciéndolo.
Los investigadores cuantitativos pueden estar dispuestos a suponer
que si las observaciones no se pueden contar, no deben estar presentes o
no se les debe asignar demasiado peso. Los investigadores cualitativos
pueden insistir en que tienen muchas observaciones «ricas» a su disposi
ción. Pero no pueden afirmar, precisamente, cuántas observaciones tie
nen, o cuántas observaciones se requieren para lo que a veces se ha califi
cado de descripción densa, análisis contextual o seguimiento del proceso.
De hecho, las observaciones permanecen un tanto indefinidas.
Aunque las observaciones del proceso causal son especialmente útiles
para hacer inferencias sobre eventos únicos, también suelen servir de he
rramienta complementaria en el contexto de los diseños de investigación
de N elevado. Con frecuencia, los estudios cuantitativos señalan entre
paréntesis que la explicación es coherente con la evidencia «anecdótica»
o «narrativa», es decir, con la evidencia que se sitúa fuera del diseño de
investigación formal (A elevado). Esto tiene sentido en el caso de las de
claraciones de los actores, sus posibles motivaciones, etc. Pero se trata de
evidencia probatoria sumamente importante que merece un calificativo
más respetuoso e informativo que «anecdótica» o «narrativa» (¿cuál es el
estatus de la evidencia de una narrativa?). Calificar un método de infor
mal o no normalizado no es afirmar que la evidencia derivada de ese mé
todo es débil o periférica. Es señalar, simplemente, que la información no
puede someterse a métodos de análisis basados en muestras.
Un buen ejemplo de observaciones no comparables como elementos
complementarios del análisis causal lo encontramos en un artículo re
ciente sobre la conducta de la Reserva Federal de Estados Unidos duran
te la Gran Depresión. La pregunta central de interés teórico es si la Re
serva Federal se vio obligada a adoptar políticas monetarias restrictivas
debido a que cualquier desviación de este estándar generaría una pérdida
de confianza en el compromiso de la nación con el patrón oro (es decir,
una expectativa de devaluación general), lo que hubiera provocado un
pánico generalizado.6 (La proposición es prometedora para la teoría mo
netaria, y por esta razón también proporciona un buen ejemplo de cómo
el análisis basado en casos puede apoyar una teoría general.) Para com
probar esta proposición, Chang-Tai Hsieh y Christina Romer examinan
un incidente de la política monetaria en la primavera de 1932, cuando la
Reserva Federal se embarcó en un programa de expansión monetaria rá
pida. «En sólo catorce semanas», señalan los autores, «la Reserva Fede
ral compró títulos de deuda pública de EE.UU. por valor de 936 millo
nes de dólares, más del doble de sus títulos de deuda pública».7 Para
348
determinar si las acciones de la Reserva Federal fomentaron la inseguri

dad de los inversores, Hsieh y Romer hacen un seguimiento del tipo de
cambio a plazo del dólar durante la primavera de 1932 y lo comparan
con el tipo de cambio al contado, usando «una medida de la devaluación
de dólar esperada en relación con las monedas de cuatro países que se
mantuvieron firmemente ancladas al patrón oro durante ese periodo».8
Como no pudieron encontrar esa devaluación, concluyeron que la teoría
reinante era falsa: la confianza de los inversores no constriñó las accio
nes de la Reserva Federal durante la Gran Depresión.
Esta conclusión sería cuestionable si no estuviera apoyada por eviden
cia adicional sobre las posibles motivaciones de los funcionarios de la
Reserva Federal en aquel momento. Para arrojar luz sobre este asunto,
los autores revisaron la Commercial and Financial Chronicle (una revista
profesional muy leída que presuntamente era representativa de la comu
nidad bancaria) y otras fuentes documentales. Hallaron que «los líderes
de la Reserva Federal... apenas expresaron preocupación por la pérdida
de credibilidad. De hecho, interpretaron los flujos de salida de oro como
un indicio de que se requerían operaciones expansionistas en el mercado
abierto, no como una señal de preocupación».9 Así, la evidencia comple
mentaria que proporcionaron las observaciones no comparables ayudó
instrumentalmente a los autores a refutar la teoría. Además, esta eviden
cia también arroja luz sobre una nueva teoría sobre el comportamiento
de la Reserva Federal durante aquel periodo crítico:
Nuestra interpretación de los registros de la Reserva Federal sugiere que un mo

delo de economía equivocado, junto a las luchas internas entre los doce bancos
de la Reserva Federal, dan cuenta del fin de la acción concertada. La Reserva
Federal se detuvo principalmente porque pensaba que había logrado su objetivo
y porque era difícil lograr un consenso entre los doce bancos de la Reserva Fe
deral.10
Esta interpretación no sería posible (o por lo menos sería muy sospecho

sa) sin la evidencia complementaria que proporcionan las observaciones
del proceso causal.
Esto nos lleva a una última característica de las observaciones del pro
ceso causal: se apoyan fuertemente en supuestos generales sobre el mun
do, a los que ya he llamado razonamiento causal (capítulo 11). Precisa
mente debido a la poca evidencia que proporciona una observación no
comparable, el investigador tiene que suponer mucho sobre cómo funcio
na el mundo. La observación no comparable funciona si encaja cómoda
mente en un universo comprensible de relaciones causales. No estoy di
ciendo que la evidencia no comparable sea débil; gran parte de ella es
una pura cuestión de hecho bastante terrenal. Lo que quiero destacar
349
simplemente es que estos hechos son comprensibles sólo cuando se pue

den observar, categorizar, «narrativizar», y esto, a su vez, descansa en
una serie de supuestos sobre el mundo. Si estos supuestos proporcionan
aprioris con los que poder evaluar las subsiguientes evidencias, el análisis
de las observaciones no comparables adoptará entonces un tono bayesia-
no.“ A buen seguro, el conocimiento de fondo de este tipo informa todo
análisis causal. Aun así, normalmente se revela más importante cuando
alguna evidencia se deriva de observaciones no comparables, porque
cada observación ha de evaluarse por separado.
Una vez acentuada la distinción entre una base de datos y las obser
vaciones del proceso causal me gustaría subrayar cuál es su semejanza
esencial. La cuestión clave es la siguiente: nada hay en la observación del
proceso causal que impida su reconstrucción en una observación de una
base de datos. En el ejemplo anterior, los autores podrían haber realiza
do un análisis de contenido de la Commercial and Financial Chronicle y/o
de los registros de la Reserva Federal. Para hacerlo hubieran tenido que
codificar las proposiciones (o alguna otra unidad lingüística) para regis
trar y evaluar la preocupación sobre la pérdida de credibilidad. Aquí la
proposición se convierte en la unidad de análisis, y el número de proposi
ciones en el N total (el número de observaciones comparables) en un di
seño de investigación de N elevado. Así, un diseño de investigación cuali
tativo se amplía para convertirse en uno cuantitativo.
En principio, es posible convertir cualquier observación no compara-
ble en múltiples observaciones comparables («una base de datos») inclu
yendo más observaciones de la misma población. Sin embargo, en ¡a
práctica no siempre es posible hacerlo. Es más, quizás no nos resulte muy
ventajoso. En el ejemplo anterior, no está claro que se hubiera obtenido
algún beneficio de este tipo de ampliación de las observaciones. Si, como
proclaman los autores, no hay ninguna evidencia de problemas de credi
bilidad en los documentos, entonces un ejercicio contable más elaborado
(codificado como 0, 0, 0, 0, 0, ...) probablemente no convencerá más al
lector. Creeremos más útiles los ejemplos concretos de lo que dijeron
realmente los líderes de la Reserva Federal tal y como nos los proporcio
nan los autores del estudio.
En algunas ocasiones los datos estandarizados son útiles, pero en
otras no lo son. Si un argumento derivado de una observación es obvio,
será redundante recoger más observaciones. Si múltiples observaciones
no comparables se pueden integrar en una sola proposición sumaria
—por ejemplo, «los líderes de la Reserva Federal... manifestaron poca
preocupación por una pérdida de credibilidad»— sin un análisis formal,
no tiene sentido hacerlo. Las muestras grandes de observaciones compa
rables son superfinas si hay observaciones no comparables que cumplen
la función requerida.
350
Para concluir, algunas veces se emplean observaciones del proceso

causal como elemento complementario que nos ayuda a demostrar una
inferencia causal para la que existe un diseño de investigación formal
(dentro del mismo estudio). Estos tipos de observaciones del proceso
causal se califican a veces más correctamente de descriptivas en lugar de &
causales. Tienen por objeto establecer algún aspecto de X, M, o de Y,
más que la relación entre X e Y. Por otra parte, pueden también intentar
establecer una relación causal que es secundaria para el argumento prin
cipal, pero que, no obstante, apoya el argumento principal XI Y. Así, se
pueden incluir observaciones del proceso causal para demostrar que un
instrumento elegido es, de hecho, una causa de X, pero no de Y, y por lo
tanto una herramienta útil para el análisis de variables instrumentales.
Ocasionalmente, las observaciones del proceso causal soportan el peso
de la inferencia causal principal.
En cualquier caso, las observaciones del proceso causal desempeñan
un papel ubicuo en la inferencia causal. Podría decirse que son más va
liosas que las observaciones de las bases de datos porque corresponden a
aspectos diferentes de una relación causal, con lo que proporcionan un
tipo de triangulación. No son simplemente más de la misma cosa; son
cosas diferentes —y se presume que todas influyen de alguna manera en
la inferencia causal de interés teórico.
Pero yo no considero este tipo de observaciones como un género dife
rente de diseño de investigación o de inferencia causal. Retomamos así
una cuestión que ya hemos visto: todas las observaciones del proceso
causal pueden, en principio, ampliarse hasta convertirse en observacio
nes de bases de datos. De aquí se sigue que todas las observaciones del
proceso causal podrían formalizarse en un diseño de investigación están
dar siguiendo una de las estrategias de los capítulos anteriores (resumi
das en la tabla 10.1). He aquí por qué este tema se incluye en el capítulo
12 en lugar de en el 10 o el 11.
Causas de los efectos
Normalmente, los argumentos se centran en una única hipótesis XIY o

en un pequeño conjunto de hipótesis XIY relacionadas. Este enfoque se
describe en algunas ocasiones como los efectos de las causas, y es el que
se ha supuesto principalmente en los capítulos anteriores.
Sin embargo, en algunas ocasiones los argumentos causales son de
mayor alcance e incluyen todos los factores causales sistemáticos (es de
cir, no estocásticos) que supuestamente contribuyen a un resultado de
terminado (Y) —el enfoque de las causas de los efectos)1 Aquí, X se re
fiere a un vector de causas más que a un único factor causal. Así, en
351
lugar de intentar estimar el efecto de los cupones en el rendimiento edu

cativo podríamos intentar evaluar todas las causas (y las combinaciones
de causas) del rendimiento educativo: las causas socioeconómicas, la fa
milia, el vecindario, el grupo de pares, el currículum escolar, el tamaño
de la clase, el profesor, el género, la edad, la personalidad, junto a los
cupones.
Este estilo de análisis es típico de los estudios de casos con un solo re
sultado,13 el análisis histórico comparado (AHC),14 y el análisis compa
rado cualitativo (más adelante examinaremos el ACC). En algunas oca
siones lo adoptan los estudios basados en la regresión, en los que la
atención se centra en un ajuste total del modelo más que en un único fac
tor de interés teórico.15 Está implícito en muchos modelos formales, espe
cialmente en los modelos económicos de equilibrio, en los que los investi
gadores intentan representar todos los inputs significativos en el
rendimiento económico. Y es de rigueur siempre que los investigadores
intentan predecir un resultado basado en un modelo que es, al menos en
parte, causal. En este contexto, es esencial identificar y comprobar todas
las causas (no triviales).
Sin duda, las dificultades analíticas implicadas en la valoración de
múltiples factores causales son grandes. Primero, la búsqueda de las cau
sas de los efectos presume que la evidencia de la que se dispone es obser-
vacional (expost) más que manipulada (ex ante). Estamos explicando
un resultado que ocurre de forma natural, y para tratar adecuadamente
esta pauta de datos debemos observar un contexto natural. Desde luego,
un grupo de experimentos podría identificar, en conjunto, el impacto
causal de múltiples factores en un solo resultado. Pero para identificar
cuáles son estas causas, en primer lugar tenemos que basamos en eviden
cia observacional. Todo contexto que se limite en gran medida a evi
dencia observacional tiende a resistirse a las inferencias causales fuertes.
Segundo, cada factor causal dentro del vector, X, debe evaluarse por
separado. Digamos que hay diez causas posibles de Y. Aquí, un análisis
de las causas de los efectos de XIY equivale a diez análisis de los efectos
de las causas (XIY). Desde esta perspectiva, el estudio de las causas de
los efectos en Y es diez veces más difícil que el estudio de los efectos de
las causas de Y —y de un orden de magnitud todavía más difícil si se tie
ne en cuenta cada efecto de interacción potencial (de ios diez factores).
Tercero, se debe elegir qué nivel o niveles de proximidad causal quere
mos explorar. Consideremos que un resultado como el rendimiento edu
cativo depende de causas próximas (por ejemplo, el número de personas
en la clase durante el periodo de comprobación) y de causas distantes
(por ejemplo, el grado en el que las diferentes tradiciones étnicas y reli
giosas valoran el logro educativo). Como la regresión causal es potencial
mente infinita, un estudio de las causas de los efectos debe limitar el aná-
352
tisis a un punto determinado de la cadena causal. Esto da al análisis un

grado de arbitrariedad en la medida en que otros que estudian la misma
cuestión podrían empezar en un punto diferente del embudo causal. Dos
estudios de las causas de los efectos del mismo resultado pueden llegar a
conclusiones muy diferentes (aunque no contradictorias), en función de
las elecciones del autor sobre dónde cortar el flujo causal.
Por último, ninguno de estos esfuerzos suele ser verdaderamente inte
gral, sobre todo cuando se trata de un resultado como el rendimiento
educativo. Como cualquier alteración en la personalidad o el entorno de
un estudiante puede afectar a su rendimiento, en principio no hay límite
para las causas potenciales de Y. Me temo que esto es así en el caso de la
I mayoría de los resultados de interés teórico en las ciencias sociales.
En suma, los estudios de las causas de los efectos son mucho más am
biciosos que los estudios de los efectos de las causas. Intentan informar
nos de todo sobre Y más que de un único aspecto de Y. Por lo tanto, no
es sorprendente que sean más difíciles de lograr, y posiblemente imposi
bles de hacer con el nivel de certidumbre que asociamos a cualquier estu
dio bien hecho sobre los efectos de las causas. Esto no significa que de
bamos renunciar a esta forma de inferencia causal. En algunas ocasiones
nos interesa saber lo más posible sobre Y, como lo atestigua la larga lista
de estilos de investigación que usan esta forma de análisis.
En cualquier caso, las evaluaciones causales integrales de Y no cam
bian el problema básico de la valoración causal. En cada factor causal
individual, X, se afrontan los mismos problemas de valoración, como he
mos visto en los capítulos anteriores. Desde esta perspectiva, el enfoque
de las causas de los efectos sobre la causalidad puede ser considerado
como una ampliación del enfoque de los efectos de las causas.16
Argumentos causales necesarios/suficientes
En algunas ocasiones, las causas se entienden como necesarias y/o sufi

cientes para lograr un resultado.17 Esta forma de conceptualizar las rela
ciones causales se basa en la teoría de conjuntos en la medida en que orga
niza los fenómenos en conjuntos y subconjuntos, como describiremos más
adelante. También se deriva de la vieja tradición de la lógica, que implica
relaciones que se pueden describir con operadores lógicos (Y, O).18
De forma típica, las condiciones y el resultado son binarios (0/1) por
naturaleza, aunque este supuesto se puede relajar (mediante conjuntos
difusos). -J-
En algunas ocasiones, los argumentos necesarios/suficientes se califi
can de «deterministas», porque las relaciones previstas son, en el extremo,
perfectas (sin excepciones). Sin embargo, yo consideraré la perfección
353
como una condición límite, que permite una interpretación probabilística

de la necesidad y de la suficiencia.
Llámense como se quieran llamar, estos tipos de relaciones causales
parecen plantear un desafío a la definición de causalidad (capítulo 8) y
de los efectos causales (capítulo 9) que hemos adoptado en este libro. Me
gustaría decir, sin embargo, que el desafío no es tan grave como algunos
han proclamado, es decir, que los argumentos necesarios/suficientes pre
sumen también efectos causales en sentido tradicional, pero, al mismo
tiempo, llaman la atención sobre aspectos de una relación causal que el
EPT (y sus variantes) no trata, y por lo tanto son añadidos útiles a nues
tro vocabulario de la causalidad.
Revisemos rápidamente los conceptos de necesidad/suficiencia. Por
comodidad, en los siguientes apartados, cuando X o Y = 0 usaré letras
minúsculas (x, y). Y cuando X o Y = 1 usaré letras mayúsculas (X, Y).
Esto implica que x se interpretará como la condición de control y X
como la condición de tratamiento.
El lector debe recordar que aquí, como en todas partes, empleo los
términos condición, factor y variable como cuasi sinónimos. En concre
to, una condición causal es una variable independiente binaria (X, x).
Una causa es necesaria y suficiente si su presencia es tanto necesaria
como suficiente para un resultado: X siempre causa Y y es además la
única causa de Y. Esto significa que X e Y van siempre juntas, como x e
y. En términos de la teoría de conjuntos, el conjunto de unidades que
contiene X coincide con el conjunto que contiene Y.
Este tipo de argumento describe una visión típico-ideal de la argumen
tación casual —una causa que lo explica todo sobre un resultado (y, por
lo tanto, se incluye en la categoría explicativa de las causas de los efectos)
y lo hace perfectamente (sin excepciones). Podría decirse que es el objeti
vo de toda teoría causal. Asimismo, en el ámbito de las causas desde la
perspectiva de la teoría de conjuntos, las causas necesarias son más im
portantes (son menos triviales) si se aproximan a la suficiencia y las cau
sas suficientes son más importantes (son menos triviales) si se aproximan
ala necesidad.19
No obstante, como las teorías necesarias y suficientes son tan raras en
el mundo real de la ciencia social (o se limitan a eventos únicos), el si
guiente análisis se centrará principalmente en argumentos construidos en
términos de la necesidad o de la suficiencia. Se tratarán en tanto en
cuanto generalizan proposiciones sobre el mundo —como leyes/generali-
zaciones/regularidades—, no como explicaciones de eventos específicos.20
Una causa es necesaria si su presencia se requiere para que un resulta
do ocurra: X es necesaria para Y, pero X no siempre causa Y (al menos
no por sí misma). Esto significa que podemos encontrar X sin Y, pero no
Y sin X. En términos de la teoría de conjuntos, el conjunto de unidades
354
que contiene Y es un subconjunto del conjunto de unidades que contiene

A'.21 Los argumentos de condición necesaria del tipo que se pueden gene
ralizar incluyen la hipótesis de la paz entre democracias (comentada en
el capítulo 1): la presencia de al menos una no democracia es una condi
ción necesaria para la guerra entre dos Estados.
Una causa es suficiente si su presencia garantiza la ocurrencia de un
resultado: X siempre causa Y, aunque Y tenga otras causas. Esto signifi
ca que podemos encontrar Y sin X, pero nunca X sin Y. En términos de
la teoría de conjuntos, el conjunto de unidades que contiene X es un sub
conjunto del conjunto de unidades que contiene Y. Las causas suficien
tes son la especialidad del análisis comparado cualitativo (ACC) que ve
remos en el siguiente apartado.22
Advierta que cuando sólo se identifica un único factor causal, la ne
cesidad y la suficiencia son imágenes especulares entre sí. Podemos re
convertir cualquier argumento de necesidad en términos de la suficien
cia simplemente cambiando la terminología (y viceversa). Asi, en lugar
de decir que una no democracia (una autocracia) es una condición ne
cesaria para la guerra entre dos Estados (la formulación usual), podría
mos expresar que la democracia es una causa suficiente para la paz. La
elección entre estos términos depende de la conceptualización del resul
tado que haga el investigador: ¿qué queremos explicar, la guerra o la
paz? Por otra parte, cuando hay múltiples caminos hacia el mismo re
sultado (como ocurre en el ACC), se prefiere la terminología de la sufi
ciencia.
Análisis
Mi tesis es que los argumentos causales necesarios/suficientes son con
gruentes con la definición general de causalidad adoptada en el capítulo
8: los factores causales (para que sean considerados verdaderamente cau
sales) tienen que incrementar la probabilidad previa de un resultado. Ex
presado en la notación de la probabilidad, P( Y\X) > P(Y\x). Esto quie
re decir que X aumenta la probabilidad real de que ocurra Y —mediante
algún mecanismo generador—, no simplemente nuestra capacidad de
predecir Y. Es causal, no simplemente correlativa.
Asimismo, para cualquier argumento necesario/suficiente es necesa
rio poder calcular un efecto causal, entendido como EPT o alguna de
sus variaciones (capítulo 9). Por lo tanto, si una causa es necesaria o su
ficiente, cabe esperar encontrar una diferencia en los resultados de los
grupos de tratamiento (X) y de control (x). En concreto, si X es una
condición necesaria de Y, entonces P(Y]xJ = 0, mientras P(Y]XJ = 1.
Es decir, el cambio de x a X aumenta la probabilidad de Y desde 0 a
355
1
cualquier otra probabilidad mayor que 0. Si X es una condición suficien

te de Y, entonces P( fjxj < 1, mientras P( Y]X) = 1. Es decir, el cambio
de x a X incrementa la probabilidad de Y desde algo menos que 1 hasta
exactamente 1.
Todo esto presupone que la condición o condiciones causales son ne
cesarias o suficientes de forma no trivial. Una causa necesaria trivial no
identifica ninguna diferencia (o ninguna perceptible) entre los grupos de
tratamiento y de control. No son los tipos de causas que los académicos,
y quizás los legos, identifican como necesarias. Cuando decimos que X es
necesaria para Y presuponemos que hay una diferencia sistemática en el
valor de Y entre las unidades con x y las unidades con X. Esto es igual
para la suficiencia.23
En algunas ocasiones, la evidencia disponible no satisface estos su
puestos. Por ejemplo, una muestra puede carecer de variación en el fac
tor causal de interés. Digamos que todos los casos son X y ninguno es
x. Suponiendo que hay alguna variación en el resultado ( Y/y), podría
mos interpretarla como evidencia para un argumento de condición ne
cesaria: X podría ser necesaria para Y. Sin embargo, alcanzar esta infe
rencia causal depende de un experimento mental contrafáctico más que
de la evidencia empírica. Tenemos que presumir, basándonos en nues
tro conocimiento de un contexto particular, el valor de un resultado
cuando un caso adopta el valor de x. En concreto, tenemos que supo
ner que la combinación x/ Y es menos probable que la combinación
XI Y. Y esto, a su vez, cumple los supuestos de un efecto causal tradi
cional.
Dicho esto, al medir una diferencia de medias —los efectos causales
en el sentido del EPT— quizás no lleguemos a la formulación más útil de
un impacto causal. Para una causa necesaria, el resultado importante es
que en todos los casos con x encontremos también y. Los casos que
ejemplifican X son menos útiles, porque el valor del resultado es incohe
rente (en algunas ocasiones Y, en otras y). Asimismo, para una causa su
ficiente, el resultado importante es que en todos los casos con X también
encontremos Y. Los casos con x son menos útiles, porque el valor del re
sultado es incoherente (en algunas ocasiones Y y en otras j>)-
Consideremos el ejemplo de una pastilla para prevenir ataques de co
razón entre los que tienen el colesterol alto. Un consumidor potencial de
esta pastilla contra el colesterol alto probablemente estará menos intere
sado en el efecto promedio del tratamiento: es decir, la disminución de la
probabilidad de sufrir un ataque al corazón con la pastilla (X) frente a
sin la pastilla (x). En cambio, al consumidor le interesará probablemen
te la eficacia de la pastilla, tout court. Es decir, si toma la pastilla (X),
¿cuáles son sus probabilidades de sufrir un ataque al corazón? ¿En qué
medida es suficiente esa pastilla para prevenir ataques al corazón?
356
He aquí un enunciado de probabilidad basado en una presunta rela

ción causal. No es un efecto causal (al menos no en los términos contra-
fácticos usuales). Pero presume un efecto causal, y también (en la termi
nología de la teoría de conjuntos) la no trivialidad. (La no trivialidad se
da cuando los efectos causales cumplen las relaciones de teoría de con
juntos.) Si tomar esa pastilla es suficiente para prevenir un ataque al co
razón y no tomarla es también (por cualquier otra razón) suficiente para
prevenir un ataque al corazón, la pastilla contra el colesterol es trivial
mente suficiente —y el efecto causal es nulo. Nadie debe preocuparse de
tomar esa medicación pues carece de efecto en el resultado; es trivial
mente suficiente.
La cuestión se ilustra con más facilidad en un experimento con un tra
tamiento binario (X/x) y un resultado binario (Yly). El panel (a) de la
tabla 12.1 muestra los resultados de un estudio hipotético en el que el
tratamiento (como la pastilla contra el colesterol alto) se aleatoriza en
los dos grupos, cada uno con 500 unidades). La primera columna ilustra
la distribución de los resultados en la condición de control (x). Aquí, los
500 casos se agrupan en la última celda. La segunda columna ilustra la
distribución de resultados en la condición de tratamiento (X). Aquí los
casos se dividen uniformemente entre ambas celdas. El EPT se puede
calcular comparando la probabilidad de Y para el grupo de control (0)
con la probabilidad de Y para el grupo de tratamiento (0,5). Un test de
diferencia de medias lo identifica como un resultado altamente significa
tivo. Sin embargo, si al investigador le interesa la necesidad, los datos re
levantes están en la columna 1, la condición de control. Ésta contiene el
siguiente hallazgo: ninguna unidad sujeta a la condición de control logra
el resultado ( L|a' es un conjunto vacío). En cambio, la columna 2 es irre-
Tabla 12.1 Pautas causales necesarias y suficientes

(a) Necesidad
Y 0 [250]
y 500 [250]
x X
(b) Suficiencia
Y [250] 500
y [250] 0
x X
Los valores en las celdas indican el número (N) de unidades que adoptan un valor
particular para el resultado en las condiciones de control (x) y de tratamiento (X).
357
levante en la medida en que no es idéntica a la columna 1 (es decir, hay

algún EPT medible si se consideran los dos grupos).
La misma pauta de relevancia/irrelevancia la descubrimos en la medi
ción de la suficiencia, pero a la inversa, como se ilustra en el panel (b) de
la tabla 12.1. Aquí, el grupo de tratamiento (la columna 2) contiene el
hallazgo, mientras el grupo de control (la columna 1) es irrelevante —su
poniendo, de nuevo, que haya un efecto promedio del tratamiento consi
derando los dos grupos.
La conceptualización de los argumentos necesarios/suficientes como
enunciados de probabilidades puede parecer heterodoxa al principio, es
pecialmente porque esas relaciones se suelen calificar de «deterministas».
Y la pretensión determinista es, sin duda, una constatación de la proba
bilidad. Para una causa necesaria P( F|x) = 0. Para una causa suficiente
P(Y\X) = \.
Un aspecto útil de esta interpretación es que puede incorporar excep
ciones, es decir, grados de necesidad o de suficiencia. Recordemos que en
el contexto de muchos escenarios reales, como el de la pastilla que retra
sa los ataques al corazón, las cuestiones de grado suelen ser cruciales.
Queremos saber el grado en que un resultado es necesario o es suficiente
en caso de administrarse un tratamiento dado, aunque no sea una ley
causal perfecta. ¿Cuál es la probabilidad de que yo tenga un ataque al
corazón si me tomo la pastilla para el colesterol alto? Sin duda, se trata
de algo totalmente diferente al EPT, porque no se comparan las condi
ciones de tratamiento y de control (el contrafáctico causal). En cambio,
se consideran sólo valores de un resultado en el grupo de control (la ne
cesidad) o en el grupo de tratamiento (la suficiencia).
Esto sugiere que las pretensiones de necesidad y de suficiencia se
pueden evaluar en dos fases. Primero se formula la pregunta sobre la
causalidad: ¿hay un efecto causal? Y segundo, la pregunta sobre la pro
babilidad: si se da esa relación causal, ¿cuál es la probabilidad de un re
sultado determinado cuando el factor causal adquiere un valor dado
(Xlx)2
Esto sugiere, finalmente, que el establecimiento de las condiciones de
necesidad y de suficiencia no es tan diferente del establecimiento de otras
relaciones probabilísticas basadas en modelos causales (modelos que pre
suntamente son causales). Por ejemplo, se suelen emplear modelos de re
gresión para predecir la probabilidad de un resultado con determinados
valores elegidos para X (o un vector de As). Esto es totalmente análogo
al cálculo de probabilidades de Y = 0 o Y = 1 para un valor dado de X (0
o 1) en el ejemplo que se ilustra en la tabla 12.1. Pero para que las proba
bilidades calculadas se interpreten como causales, el modelo en el que se
basa ese cálculo de probabilidades tiene que representar un verdadero
modelo causal.
358
Conceptualizadas así, las relaciones de necesidad y suficiencia no son

ajenas al análisis causal predominante en tanto en cuanto se entiendan
con un modelo de resultados potenciales (véase más adelante). He aquí
una ventaja evidente para querer constituir una única comunidad acadé
mica en lugar de diferentes escuelas rivales de la causación.24
Abordemos ahora la pregunta de la inferencia causal: ¿cómo sabemos
cuándo es verdaderamente causal una relación covariacional necesaria/
suficiente? He sugerido que el enfoque ideal procede en dos fases. Prime
ro es necesario hacer un test de efectos causales experimental o cuasi ex
perimental; luego (si se supera ese test), hay que hacer una medición de
la necesidad o la suficiencia.
Desafortunadamente, muchos escenarios de ciencia social no permi
ten la primera fase. Disponemos en cambio de datos observacionales de
los que tenemos que inferir la causalidad. Así, cuando investigamos la
hipótesis de la paz democrática encontramos una muestra de casos (Es
tados nacionales) que se pueden observar en el transcurso del tiempo,
pero no permiten un tratamiento aleatorizado. Los casos observados
ejemplifican pautas de tipos de régimen (democracia/autocracia) y resul
tados diádicos (paz/guerra) que son coherentes con la necesidad causal.
Pero, sin duda, las apariencias engañan; la covariación (incluyendo las
relaciones de conjuntos) no equivale a la causación.25
Un enfoque podría ser pedir a los datos evidencia de un efecto cau
sal con un diseño de investigación no aleatorizado que sea adecuado
(uno del menú de estrategias esbozado en los capítulos 10 y 11). Un
análisis de panel parece ideal, porque tiene la capacidad de buscar evi
dencia tanto temporal como espacial. Si se pueden identificar instru
mentos adecuados para el tipo de régimen, sería preferible un análisis
instrumental, aunque en este caso parece improbable que cualquier
conjunto de instrumentos satisfaga la restricción de la exclusión (capí
tulo 11). El estimador resultante podría ser la regresión logística u otra
versión de emparejamiento. 26 En todo caso, deben realizarse test de ro
bustez, dada la incertidumbre considerable sobre la especificación
apropiada del modelo. Si se confirma un efecto causal fuerte (robusto),
tendremos más confianza en que la relación entre el tipo de régimen y
la guerra o la paz sea causal. Entonces, la estimación de las probabili
dades para Y\X y para Áj Y son más fáciles de justificar. ¿En qué grado
es necesaria la autocracia para la guerra (en qué grado es suficiente la
democracia para la paz)?
Compliquemos ahora las cosas un poco más. Cuando analizamos da
tos observacionales, las preguntas sobre la causalidad (efectos causales) y
la probabilidad (necesidad/suficiencia) no son totalmente diferentes. Esto
es debido a que si las pautas de necesidad/suficiencia son congruentes en
una muestra grande, también son evidencia de causalidad. Tendemos
359
1
más a creer que hay un efecto causal si XIx e Yly covarían del modo per
fecto que se ilustra en la tabla 12.1. Así, las investigaciones sobre las rela
ciones necesarias/suficientes son también, al mismo tiempo, investigacio
nes sobre la causalidad.
Esta cuestión parecerá obvia a los iniciados en estos estudios, pero
quizás no lo es tanto para los que se aproximan a la causalidad desde la
perspectiva tradicional de los resultados potenciales. En el capítulo 4 vi
mos que la credibilidad de una conjetura causal aumenta siempre que se
superan test especialmente severos. La superación de grandes escollos
inspira confianza. Una hipótesis de teoría de conjuntos, si se entiende en
tanto en cuanto carece de excepciones —P(Y\x) = 0 (necesidad) o
P(Y]XJ = 1 (suficiencia)—■, es una predicción extremadamente «arries
gada». Si esta predicción se sostiene para un número de casos elevado y
hay variación en la variable teórica de interés (XIx), la conjetura causal
queda fuertemente corroborada. Advierta que la única explicación alter
nativa posible para la necesidad o la suficiencia perfecta en una muestra
grande es un confundidor o conjunto de confundidores perfectamente
correlacionado con X para el conjunto de casos que exhiben y (para las
causas necesarias) o Y (para las causas suficientes). Esto ayuda a paliar
nuestra preocupación por las pretensiones causales espurias.27
Desde luego, si la relación necesaria/suficiente planteada no llega a ser
perfecta (hay excepciones), la predicción es menos riesgosa. Y si la mues
tra es pequeña, o si hay poca variación en X e Y, hay menos evidencia
probatoria. Ahora bien, la cuestión sigue siendo que la inferencia causal
a partir de relaciones necesarias/suficientes debe ser considerada ideal
mente en varios niveles —la búsqueda de un efecto causal y de mecanis
mos causales (que es igual de importante para las causas según la teoría
de conjuntos y según otras teorías) y los test de necesidad/suficiencia.28
Análisis comparado cualitativo (ACC)29
El enfoque de teoría de conjuntos conocido como análisis comparado

cualitativo (ACC) descansa en la idea de las relaciones causales suficien
tes y fue promovido por Charles Ragin.30 Así, este apartado se basa di
rectamente en el anterior.
El sello distintivo del ACC se encuentra en el análisis de las configura
ciones múltiples de factores, cada una de las cuales (es decir, cada confi
guración) se considera una explicación suficiente de un resultado dado.
En concreto, el ACC se centra en conjunciones causales en condiciones
de equifinalidad. (Adviértase que los métodos de regresión también tra
tan con conjunciones causales, pero se analizan como efectos causales
más que como relaciones de suficiencia, y normalmente como términos
360
multiplicativos más que como relaciones de teoría de conjuntos.) El ACC

también examina condiciones necesarias, aunque raramente son el obje
to principal de estudio y pueden no requerir la maquinaria avanzada del
ACC. Asi, la mayor parte del siguiente análisis se centra en configuracio
nes de factores entendidas como configuraciones suficientes para produ
cir un resultado.
Quizás la manera más fácil de describir esta técnica es explorando un
ejemplo concreto. Aquí me baso en un análisis incluido en un reciente
volumen sobre el ACC editado por Benoít Rihoux y Charles Ragin.31 La
obra objeto del análisis, cuyos autores son Dirk Berg-Schlosser y Jeremy
Mitchell, examina algunas posibles explicaciones del fracaso o la super
vivencia de la democracia en el periodo de entreguerras en Europa.32 Mi
exposición será breve y esquemática, me centraré en los elementos más
distintivos de la técnica del ACC y omitiré los elementos del diseño de in
vestigación que son comunes a otros métodos.33 Para una introducción
más detallada, con una guía para las mejores prácticas, el lector deberá
buscar en otra parte.34
ACC-cc
La versión original del ACC, la de los conjuntos clásicos (cc), parte de
una codificación binaria de variables clave: los resultados de interés teó
rico y los factores que han podido producirlos. Inspirándose en la litera
tura pertinente, los autores identifican cinco factores clave: el desarrollo
(el PIB per cápita), la urbanización, la alfabetización, la fuerza de traba
jo industrial y la estabilidad del gobierno. Éstos se calibran con puntua
ciones de pertenencia a un conjunto usando puntos de corte derivados
de consideraciones teóricas. El desarrollo en 1930 se codifica como 0 si el
PIB per cápita era inferior a 600 dólares, y 1 si era superior. La urbaniza
ción (población en ciudades de más de 20.000 habitantes) se codifica
como 0 si era inferior al 50 por ciento, 1 si era superior. La fuerza de tra
bajo industrial se codifica como 0 si era superior al 30 por ciento de la
población activa, 1 si era superior. La estabilidad del gobierno se codifi
ca como 0 si diez o más gabinetes gobernaron durante el periodo anali
zado, 1 si fueron menos. La supervivencia de la democracia = 1, su fraca
so = 0.
Con esta codificación se construye una tabla de verdad en la que los
casos se agrupan en la misma fila si comparten puntuaciones idénticas
en (potencialmente) todos los factores causales. Esta tabla de verdad re
duce muchos casos y variables a una cuadrícula parsimoniosa. Dieciocho
casos se convierten en nueve configuraciones (combinaciones de factores
causales), como vemos en la tabla 12.2.
361
i
.2 ¿ -É
•§ X.. o
> o o o o o o O .2
a ’<DE
ex
3
(Z)
2 8
Ü «¿o
u
ü 8 §,
M 3 7^
E o o o o
„ <Z) 2
3 «
■« Sj
E cí <D
Q
w C/3
— 'S
< r
W £
„ w S
D 72
■O o .s CS W Cá
■;? h o o o o o o ’o c¿ a
C ‘2
" h
S § 3
tu .3
E
¿¿ £$
lu .. m
•Sa a
X esQ
I
11!f
’O
eN o o
§o
< ¡X
tu iS
•> L ex
a
‘O •2^ «
N o o o o o o o w|
’3
X
5
¿j <£
cü Oí
•3 «
1
£■.2, - 8
3 ?T es
§ OQ J
tu o o o
o
o al
a>
8| S
<D “ £ .2
ó
U
Q ó 0D
< N Z —' O
•o
CZ¡ o
k-Z _T X
CÚ g W
es '¿3 “
’E
>
g W (J
' ’ >
W
<Z>
(Z>
J fc
£ Q
Oh "7
Oí g
.2 5
oo i—i O
M J C¿ W H W -<u L.;
*O £ §Z í w Q «" E tí «C §
W 31
§ :l m a o
CÍ J2 -S
(M S ’5 ~ %
2*
1 S M o
< ” Z
3
(2 e X r¡ en Tt uS oo o\
<É & -O
362
El siguiente paso es examinar detenidamente las configuraciones que

producen resultados positivos. Podemos entender la supervivencia como
un producto de tres caminos causales diferentes:
la. DESA RROLLO* urbano* ALFA BETIZAD Casos: FI, IE

O*trabind*ESTABGOB
Ib. DESARROLLO* URBANO*ALFA BELIZ Casos: BE, CZ, NL, UK
ADO*trabind*ESTA BGOB
1c. DESA RROLLO*urbano* ALFABETIZAD Casos: FR, SE
O*TRA BIND*ESTA BGOB
Aquí, las letras mayúsculas indican una puntuación positiva en un factor

(1), y las minúsculas indican una puntuación negativa (0), lo que suele
entenderse como la presencia/ausencia de un factor. Alternativamente, la
supervivencia de la democracia podría entenderse como un producto de
dos caminos causales:
2a. DESARROLLO*urbano* ALFABETIZA

DO*ESTABGOB Casos: FI, IE
2b. DESARROLLO*ALFABETIZADO*trab Casos: BE, CZ, FR,
ind*ESTABGOB NL, UK, SE
Dicho en prosa: la supervivencia de la democracia se da en países que

combinan un PIB alto, una alfabetización alta, una fuerza de trabajo in
dustrial y estabilidad del gobierno, O en países que combinan un PIB
alto, una urbanización baja, una alfabetización alta y estabilidad del go
bierno. Una tercera interpretación, quitando varios factores, considera la
supervivencia como el producto de un único camino entre los factores
restantes:
3. DESARROLLO* ALFABETIZADO*ES Casos: BE, CZ, FI,

TABGOB FR, IE, NL, UK, SE
Se considera que estas tres condiciones, combinadas, garantizan el resul

tado. Una última interpretación de la tabla de verdad, más parsimoniosa
aún, es que la supervivencia es el producto de un camino causal con sólo
dos condiciones:
4. DESARROLLO*ESTA BGOB Casos: BE, CZ, FI,

FR, IE, NL, UK, SE
Se puede hacer un análisis similar de los resultados negativos, donde la su

pervivencia = 0 (fracaso), pero aquí no nos vamos a detener en los detalles.
363
1
Cada una de las cuatro soluciones examinadas anteriormente es con

gruente con la información empírica de la tabla de verdad. Elegir una de
ellas para interpretarla más a fondo depende, por lo tanto, de los intere
ses teóricos que se tengan, de la demanda usual de parsimonia (capítulo
3) y, lo más importante, de la información no booleana sobre los casos
(es decir, de la evidencia que está fuera del ámbito de la lógica deductiva
formal).
Esto incluye supuestos sobre los resultados en las filas de los llamados
«restos lógicos». Estos son posibles combinaciones de factores causales
(configuraciones) que no se encuentran en los datos empíricos, y pueden
ser consideradas como experimentos mentales contrafácticos. Considere
mos la interpretación más parsimoniosa que se ofrece arriba: que la su
pervivencia democrática en el periodo de entreguerras fue el producto de
un PIB elevado combinado con la estabilidad del gobierno (n° 4). Estos
dos factores, combinados, pueden constituir una condición suficiente de
supervivencia. Sin embargo, defender este argumento presume que nin
guna democracia europea con esta configuración de dos factores fracasa
ría, aunque su puntuación en otros parámetros (urbanización, alfabeti
zación y trabajo industrial) fuera diferente. Sólo algunos de estos casos
potenciales (combinaciones de condiciones causales) se observan real
mente. De hecho, el número de casos es modesto en relación con el nú
mero de posibles combinaciones. Adviértase que un ACC con cinco fac
tores causales plantea treinta y dos combinaciones posibles (25), de las
que en realidad sólo se observan nueve en los datos históricos. (Éste es
uno de los aprietos propios del ACC, aunque también afecta a otras in
vestigaciones observacionales.) Aun así, si podemos incluir un conoci
miento profundo de un caso para hacer conjeturas fundamentadas sobre
estos contrafácticos, éstas pueden integrarse en el ACC. En concreto,
para afirmar que PIB*ESTABGOB es una condición suficiente para la
supervivencia de la democracia, debemos presumir que las siguientes
configuraciones producirán también la supervivencia de la democracia,
aunque no se observen en los datos disponibles:
1. DESARROLLADO*urbanoJfalfabetizado*trabind*ESTABGOB
2. DESARROLLADO*urbano*alfabetizado*TRABIND*ESTABGOB
3. DESARROLLADO*URBANO*alfabetizado*trabind*ESTABGOB
4. DESARROLLADO*URBANO*alfabetizado*TRABIND*ESTABGOB
5. DESARROLLADO*URBANO* ALFABETIZADO* trabind*ESTAB
GOB
En la medida en que estos supuestos parecen razonables, basados en lo

que sabemos sobre los casos y el mundo, el argumento está fundamen
tado.
364
ACC-cd
La versión del ACC con conjuntos difusos (cd) es más complicada que la
versión con conjuntos clásicos (cc), razón por la que la introducimos
aquí (aunque muchos practicantes del ACC la consideran una versión
superior de este método).
Para empezar, no es necesario codificar los casos de forma totalmente
categórica. Un caso puede ocupar una posición de pertenencia total o
parcial a un conjunto, codificada de 0 a 1 —donde 0,0 representa la no
pertenencia total, 1,0 la pertenencia total y 0,5 el punto de corte en me
dio de las dos categorías. Retomando nuestro ejemplo, el resultado —la
supervivencia de la democracia— se puede puntuar de nuevo sobre la
base de la variable Polity2 extraída del índice Polity IV, un índice de vein
tiún puntos que va de -10 a +10, donde 0 es el punto de corte entre la de
mocracia y la no democracia. Así, Austria, con una puntuación Polity2
de -9, se codifica como 0,05 en el resultado —lo que representa un 5 por
ciento de pertenencia en la categoría «democracia». En cambio, Bélgica,
con una puntuación de 10 en la escala Polity2, se codifica como 0,95 en
la supervivencia —un 95 por ciento de pertenencia a la categoría. Se
construyen así recodificaciones similares para las otras variables: desa
rrollado, urbanizado, alfabetizado, trabajo industrial y estabilidad del
gobierno. Tres de estas condiciones se representan a modo de ilustración
en la tabla 12.3.
El proceso de reducir esta información a configuraciones (posible
mente causales) se realiza mediante la aplicación de dos reglas. Cuando
se combinan múltiples condiciones en una única configuración (T lógi
co), la pertenencia de cada caso depende de la puntuación mínima en to
dos los factores. Así, la pertenencia de Austria en la configuración «De
sarrollado Y urbano» es 0,12, porque es la puntuación mínima que
recibe en las dos condiciones, como puede apreciarse en la tabla 12.3. Su
pertenencia a la configuración «Desarrollado, urbano Y inestable» es
también 0,12 porque es la puntuación más baja que recibe en las tres
condiciones.
Cuando se codifican los caminos alternativos hacia un resultado
(equifinalidad causal, implementada con el O lógico), la pertenencia de
cada caso viene determinada por la máxima puntuación en todos los fac
tores. Así, la pertenencia de Austria a la configuración «Desarrollado O
urbano» es 0,81 porque es la puntuación máxima que recibe en las dos
condiciones, como se puede apreciar en la tabla 12.3. Su pertenencia a la
configuración «Desarrollado, urbano, E inestable» es 0,89 porque es la
máxima puntuación que recibe en las tres condiciones.
La tabla 12.3 incluye sólo tres de los cinco factores causales de nuestro
ejemplo y sólo dos de las posibles configuraciones en esas tres condiciones.
365
■§
aJ
o § 'I
X 0
5 .. o
£g
i8. oo\oo^r*-o\ooTt-o,\oos’—<or"ioo\o\
xl
<1 ¿? §ü
Í2 2
0.2
1 ° j¡ J 8
O lil
S ■£ §
^0>00k0C0000>>>(NCNí-,r«sC?''>0Ol^0\
oo ay —ay oo^ oo r- xr
o" o' es o o” o' o" o” o" O O
~ o\ oo o\ o\
,—1 o” o” o” o" o"
8IQ <u y ~
£
f! ■M
1g íW «l
p
í2 ’-ô\ooôooooo\c\\©rqTr^r*‘C^mouô\
T) ooôxo^t—^tno\oo o —• r- en ~ —< o o e<y o\ oy
2g Q ¿ó
Ó u O
gw
u Q
< S S §
•ü [L. g
c o
o
ó
/éñ'
O JB ¿á
UJ S ó g « ôooooSooo^ôoSSooo
<D
C
O O 8 2 3 -S
»S
■§ « O Q
U) T3 |í£
§>
c
—
"’í
C
° Kp
ao «<E ó;
en
8u
45 11 <D ¡^l
^Sínoootôoo^^criooooâx
2'£ü
0)
73 Q s« -2-S
o “
w
O
en o
§
2 w J «
O 3 Cnooo9oSinoooô0o^^2Soo «i ’H
Q ’5 » £
¿s c
«-S1®
cü
o « O
.2
o
lil
c
Q
o .SS-5
O §2
<Nooo\o8St'â''C'<S'=5o—'SS^^-'0' oj 5
ex o o" o" o o" o o" o1 o <0 o" o" es a o o o"
(D 5 NZS
’C
a
‘O
ó
■§ •§05
á
o
Q
1cú
CZ)
“3“££££38£3£S©3888 Ü « □
« S
en Q
O
2-Sg
d í« «
o
Z
£
I ^SagEgaás«fc:z¿fcSaSío
C¿ « U 5
'§)•§
366
Pero es suficiente para ilustrar la lógica mediante la que se forman las con
figuraciones alternativas con codificación de conjuntos difusos.
Examinemos ahora la relación entre las configuraciones y el resultado
de interés. Esta relación se considera de suficiencia cuando la puntuación
de un caso para una configuración dada es inferior a su puntuación en el
resultado. Supongamos que queremos comprobar la relación de la confi
guración «Desarrollado, urbano E inestable» (la columna 6 de la tabla
12.3) con el resultado (la última columna de la tabla 12.3). Estos datos se
pueden expresar en un gráfico de dispersión XIY para comprobar las re
laciones de suficiencia. Si la configuración es un subconjunto del resulta
do (y por lo tanto una condición suficiente posible), entonces los casos
deberán situarse por encima de la diagonal; es decir, la puntuación para
cada caso en el resultado debe ser superior a la puntuación para cada
caso en la configuración. Como podemos apreciar en la figura 12.1, esto
es así sólo parcialmente. Hay un caso notablemente desviado: Alemania.
i-,
UK
BE MFRBSE
NLBIE
■ CZ
0,8
■ FI
0,6
i
’D
i
Q.
ñ ■ HU
0,4
■ RO
0,2
■PLbEI
P0 /
'■■AT ■ DE
IT
0
0 0,2 0,4 0,6 0,8 0,1
Desarrollado X urbano E inestable
Figura 12.1 Relación entre las configuraciones y los resultados con ACC-cd
367
•S s §c
Si £ $
I § ■§ OO’-^cntN'/noooocN
o\ °o r*- xy Tt en cn 5 §
■
o' o" o o" <o o" o" <o o
li K £
<3 s8
■3
£s
o ü.$2
1E o o o o áy
I1 12
l<
<í
[JJ w
oS1 i:>; o o o o o
Q óó
¿i .2 W
§<
3 2 5
u- E
§ -§
g ¡3
o o
¡}
O I •4§
.2
o
o
£ íí
.E 2
zn
’oo
o
§
Í£
Ut,
c o o o o o o o
o § rt 6L,
o
TJ
c/5
2-í
O
c -§
o w a-
■§ á « ü
2
c
g o o o o
.2 &-
3 oo
□ex 8
2"-°
Q
c >O M
o
g S
ó
U
<
u
IU- Í W
S -Í2
Üz
£
§ A
-o N w H
(X,
U W ¡z> .2 2
>
o I w' 4 ¿ M 2
CQlxtWXQCÜM
W H
taO i—<
mK
« -2
¡2
ri
i O] en oo O>
CQ •§
.2'1
35
js
Z
£ f H 'E
<
ó
6LT)
368
Para comprobar todas las configuraciones posibles se sugiere regresar

al enfoque de la tabla de verdad explorada antes. Los casos se recodifi
can de forma binaria en función de su grado de pertenencia a la condi
ción causal usando 0,5 como umbral de pertenencia. Aunque cada caso
pertenece parcialmente a todas las combinaciones lógicamente posibles
de condiciones (es decir, las filas de la tabla de verdad), tiene una perte
nencia de más de 0,5 en sólo una de ellas. Esto nos permite la construc
ción de una tabla de verdad —la tabla 12.4— que es idéntica respecto a
las condiciones causales a la tabla 12.2.
La característica adicional del análisis de conjuntos difusos es el
cálculo de la puntuación de consistencia —el grado en que cada uno de
los casos de la muestra se ajusta a la proposición—, y puede apreciarse
en la última columna de la tabla 12.4. El valor resultante para cada una
de las filas de la tabla de verdad viene determinado por la aplicación de
los test de consistencia (con los casos de la muestra) como condiciones
suficientes para el resultado. Si superan este test, reciben el valor de 1
en la columna de resultados; si no lo superan, el valor de 0. La tercera
posibilidad es que no haya suficientes casos que tengan una pertenen
cia superior a 0,5 en una fila determinada. Estas filas se tratan como
restos lógicos.
La fórmula general que mide la consistencia de una condición sufi
ciente es:
Z(min(X,, y.))/E(A;.) (12.1)
Esto implica que elegimos, para cada caso, el valor mínimo de X (la pun
tuación de pertenencia de un caso a una configuración, como se ilustra
en la tabla 12.2) e Y (la puntuación de pertenencia de un caso en el resul
tado), dividido por X. La desviación positiva —cuando Y > X— equiva
le a 0. La desviación negativa —cuando Y < X— se descuenta en el valor
de X. Esto se repite para cada caso, y se promedia para toda la muestra,
I
con el fin de obtener una puntuación de consistencia para cada proposi
ción dada.
La puntuación resultante oscila entre 0 y 1, donde los valores más al
tos indican más consistencia. La decisión de dónde poner el umbral en
las conjunciones que son lo suficientemente consistentes como para con
siderarlas suficientes para el resultado depende de varios rasgos específi
cos de la investigación, como el número de casos, la confianza en los da
tos y la especificidad de las teorías existentes.
» La última cuestión que nos queda por tratar es el umbral de consis
tencia que debe considerarse un requisito para la suficiencia causal. Nó
tese que si elegimos el umbral relativamente bajo de 0,70, los resultados
de la tabla 12.4 reflejan los del análisis anterior de conjuntos clásicos (ta-
369
bla 12.2). Un umbral más alto, por supuesto, indica una configuración
más restrictiva (menos configuraciones cumplen el requisito).
Análisis
Todo intento de llegar a conclusiones firmes al respecto de la viabilidad
del ACC se complica debido a tres características del método. Primero,
el ACC ha experimentado una evolución continua durante las últimas
décadas —fundamentalmente desde el ACC (cc) al ACC (cd), pero
también en otros aspectos. Como el ACC-cd es relativamente nuevo, la
práctica del ACC sigue inclinándose marcadamente hacia el ACC-cc.
Así, conocemos bien los logros y las limitaciones de este último, pero
sabemos menos sobre el primero —que parece una perspectiva atracti
va, pero poco probada hasta ahora. Más allá de la división entre cd/cc,
el ACC incluye una serie de opciones e interpretaciones metodológicas
adicionales. No es un único método, sino toda una familia de méto
dos.35
Segundo, toda discusión sobre sus fortalezas y debilidades debe dis
tinguir entre los aspectos intrínsecos de un método (o métodos) y los as
pectos situacionales, es decir, el producto de lo que han elegido hacer los
investigadores cualitativos. La utilidad potencial de un método debe dife
renciarse de su empleo real. Desafortunadamente, no siempre es fácil dis
tinguirlos. Es difícil decir cuáles podrían ser los logros potenciales de un
método —si se emplea de una manera diferente de su empleo normal.
¿Cuál es la mejor práctica viable del ACC?36
Por último, la tradición frente a la que se evalúa el ACC —descrita de
diferentes formas como «estadística», «regresión» o «lineal/aditiva»— es
también una criatura que forma parte del ambiente. En algunas ocasio
nes, parece incluir todo el campo de la metodología tal y como se conci
be tradicionalmente. En otras, parece pertenecer sólo al análisis de regre
sión de datos observacionales. Dentro de esta última categoría, hay
muchísimas diferencias entre el empleo simple de las técnicas de regre
sión y las versiones más sofisticadas (por ejemplo, con variables instru
mentales, términos combinatorios y otros elementos similares). Inevita
blemente, las fortalezas y debilidades del ACC —así como su
unicidad— parecen diferentes desde cada perspectiva.37
En suma, nuestra opinión sobre el método ACC dependerá en parte
de cómo lo concibamos —es decir, qué versión del ACC concebimos
como la mejor práctica y qué rasgos del ACC creemos que son intrínse
cos (defmitorios)— y de nuestra perspectiva de las alternativas. Con estas
importantes advertencias podemos pasar a examinar las fortalezas y de
bilidades del método.
370
(1) Que el ACC nos resulte un método atractivo o no depende crucial

mente de si creemos que los fenómenos sociales se pueden ajustar al mode
lo de las conjunciones causales en condiciones de equifinalidad y semide-
terminismo (con ninguna o pocas excepciones). Esto es, indudablemente,
una suposición ontológica.38
Hemos visto cómo autores practicantes del ACC, como Dirk Berg-
Schlosser y Jeremy Mitchell, enfocan la cuestión de la supervivencia de
mocrática en Europa durante el periodo de entreguerras: desde la pers
pectiva de factores binarios discretos o de conjuntos difusos combinados
en configuraciones específicas de forma tal que los regímenes sobreviven
(o no). Si, por otra parte, creemos que esta cuestión implica causas que
no son binarias, que son independientes (más que coyunturales), aditivas
y probabilísticas, entonces el ACC no representa un modelo plausible del
proceso generador de los datos.
Es difícil decir, a priori, qué conjunto de supuestos sobre el mundo
está más justificado. Desde luego, con esto no quiero decir que la elec
ción del método sea totalmente independiente de la evidencia empírica.
Unos mismos datos se pueden considerar de forma diferente en función
de nuestro punto de partida. Y la elección entre los métodos de teoría de
conjuntos y los independientes/aditivos/probabilísticos, que son los tradi
cionales en los análisis de N elevado, tiene muchas consecuencias.
Esta es quizás la puntualización más importante que hay que hacer
respecto del ACC, porque impone una configuración muy específica de
los datos. Cierto, todos los test empíricos imponen alguna forma a los
datos. Sin embargo, el ACC presume más sobre el proceso generador de
datos que muchos otros métodos alternativos.39 Por ejemplo, los métodos
de regresión pueden comprobar relaciones tanto aditivas como interacti
vas (multiplicativas) (aunque presuponen un marco de efectos causales).
Sin embargo, el ACC sólo puede tratar relaciones necesarias y suficien
tes, acentuando las relaciones que adoptan la forma especial de la sufi
ciencia causal lograda mediante combinaciones de factores (configura
ciones). Así, la decisión de emplear el ACC constituye también una
decisión sobre qué tipo de relaciones causales tienden a operar en una
población.
(Los lectores quizás se pregunten por qué ofrezco aquí un análisis tan
extenso del ACC y no de otras técnicas de análisis de datos como la re
gresión. La razón principal es que estos otros formatos suelen decir poco
sobre el diseño de la investigación, el tema del presente apartado del li
bro. Otra razón es que el vínculo entre los principios del diseño de inves
tigación y las técnicas estándar de análisis de datos como la regresión o
el emparejamiento es bastante evidente, mientras su vínculo con el ACC
lo es menos, lo que justifica el análisis explícito de la cuestión en este
apartado.)
371
y
(2) Se requieren muchas suposiciones para hacer un ACC completo.

Hay que tomar decisiones sobre cómo definir los casos y la población de
interés,40 las condiciones (los factores causales) relevantes para el análisis,
la codificación de los casos (especialmente dónde deben ponerse los um
brales en conceptos que por naturaleza no son dicotómicos), la codifica
ción condicional para los casos de «restos lógicos» y la identificación de
umbrales para la suficiencia (cuántas excepciones permitir).
Empleado adecuadamente, es decir, con total transparencia, el ACC
proporciona al proceso de investigación más identidad y honestidad, es
condiendo menos cosas «bajo la mesa» que otros muchos métodos obser-
vacionales tradicionales. También identifica agujeros en los datos —en
ocasiones descritos como «contrafácticos extremos»—, con frecuencia
escondidos en muchas técnicas observacionales y que afectan a los resul
tados de la regresión.41 Como hemos visto, en el ACC se identifican y
analizan estos «restos lógicos» como contrafácticos por medio de experi
mentos mentales. Este grado de explicitud sobre lo que no sabemos y su
ponemos puede considerarse una ventaja del ACC en comparación con
muchos otros métodos.
No obstante, los supuestos necesarios para un ACC completo son
probablemente muchos más que los que requiere un análisis de datos de
N elevado. Ciertamente, son muchos más que en el experimento típico
(con un tratamiento aleatorizado). Aunque las decisiones de los investi
gadores están supuestamente fundamentadas en la teoría y el conoci
miento de fondo de los casos objeto de estudio, suelen ser viables diferen
tes opciones sobre los mismos datos básicos, y éstas suelen desembocar
en hallazgos muy distintos. Esto, a su vez, sugiere que el ACC tiene más
credenciales como forma exploratoria de investigación que como forma
confirmatoria de investigación.42
(3) Los estudios que emplean el algoritmo del ACC suelen estudiar
toda la población de una inferencia. Los autores se esfuerzan por com
prender por qué se produjo un resultado en un tiempo/lugar dado o
una época/región determinada, más que por qué se produjo un resulta
do en general (en una población grande). Esto implica que no se plan
tea en absoluto la validez externa, porque la muestra es la población.
No obstante, este enfoque sobre la inferencia causal sí plantea pregun
tas sobre la validez interna si la población de interés fuese pequeña y
ofreciese escasa evidencia a las diversas proposiciones objeto de la in
vestigación, si no fuera posible hacer una comprobación fuera de la
muestra y resultara difícil delimitar la población de interés —lo que
plantearía preguntas sobre la delimitación. Adviértase que si la pobla
ción no se puede definir fácilmente, y si los casos que parecen contra
decir las conclusiones de un ACC están fuera de la población elegida,
la inferencia es problemática. Los análisis de N pequeño y N mediano
372
tienden especialmente a restricciones de dominio arbitrarias, un proble

ma que ya vimos en el capítulo 3.
En efecto, el ACC es particularmente sensible a la composición de la
muestra elegida y su población. La adición o sustracción de casos puede
alterar fundamentalmente los caminos hacia Y, convirtiendo una condi
ción suficiente en insuficiente (o, en la terminología probabilística de las
versiones posteriores, en menos suficiente).43 Consideremos qué ocurre si
la población objeto que se considera en nuestro ejemplo cambia para in
cluir a otros países (no europeos) durante el periodo de entreguerras, o a
países europeos en otros periodos históricos. Para esta población, un
tanto diferente, posiblemente los argumentos originales no se sostienen
—el PIB y la estabilidad del gobierno ya no son suficientes para la super
vivencia democrática (o podrán admitir muchas excepciones).
Desde luego, las inferencias causales basadas en otras técnicas de es
timación son también sensibles a la definición de la muestra y de la po
blación; se trata de un rasgo universal de la argumentación causal. Sin
embargo, los enfoques que no son el ACC tienden a ser menos sensi
bles, porque: (a) la población se define de una forma más amplia (de
forma que las pequeñas alteraciones tienen poco efecto en las relacio
nes causales), y (b) las relaciones en sí suelen concebirse en términos
probabilísticos.
Por último, percátese de que nada hay en el algoritmo del ACC que li
mite el alcance de las inferencias deducidas a partir de una muestra elegi
da. Sigue siendo posible hacer inferencias fuera de la muestra. En efecto,
algunos investigadores del ACC comulgan con la búsqueda de relaciones
causales generales.44
(4) Los estudios del ACC buscan una explicación completa de un re
sultado (en términos de causas suficientes), es decir, buscan las causas de
los efectos. Así, Berg-Schlosser y Mitchell intentan identificar todas las
causas de la supervivencia democrática en la Europa de entreguerras.
Esto significa que el ACC es mucho más ambicioso que los estudios que
buscan los efectos de las causas (en los que se examinan sólo una causa o
varias causas relacionadas), pero también es más difícil.
Sin embargo, como cada conjunción se evalúa por separado (por me
dio del algoritmo del ACC y de la evidencia de caso) es posible desagre
gar un único ACC en múltiples hipótesis de los efectos de las causas.
Aquí, tendemos a descubrir que algunas coyunturas tienen más funda
mento que otras. Una coyuntura que describe casos que no son reales
(un caso de «restos lógicos» construido sobre la base de un experimento
mental) u otra para la que hay muchas excepciones, es menos cierta. Es
tas consideraciones las pueden captar las puntuaciones de consistencia
(véase la tabla 12.4). La evidencia de caso no contenida en el ACC for
mal puede también proporcionar niveles diferentes de apoyo para dife-
373
▼
rentes coyunturas. Así, aunque tendemos a hablar de un solo estudio de

ACC en tanto en cuanto incluye un único análisis, podría ser más apro
piado describirlo como argumentos múltiples dentro de una única tabla
de verdad.
(5) El ACC no es inherentemente un método de N grande o N peque
ño. Aunque se le suele describir como cualitativo (la segunda C de ACC),
el software desarrollado por Ragin y sus colaboradores (ahora disponible
para Stata, R y TOSMANÁ) permite el análisis booleano de un número
infinito de casos. Dicho esto, la mayor parte de los ACC hasta la fecha
han incorporado muestras de tamaño medio (10 < N < 50), presumible
mente porque las relaciones de necesidad/suficiencia tienden a sostenerse
menos en poblaciones grandes.
Asimismo, el software ACC permite, en principio, el análisis de un nú
mero ilimitado de condiciones. Sin embargo, como cada condición adicio
nal aumenta (en un orden de magnitud) el número de caminos combina
torios posibles, los datos enseguida se acaban.45 En concreto, descubrimos
cada vez más restos lógicos (posibles combinaciones de condiciones que
carecen de evidencia empírica). Por esta razón, la mayoría de los trabajos
en la línea del ACC se construyen con un número modesto de variables
(*<8).
Esto explica por qué, al respecto del número de casos (N) y de va
riables (K), el ACC está a medio camino entre los estudios observacio-
nales tradicionales cualitativos (de N pequeño) y los cuantitativos de
(N elevado).
(6) Hay una importante diferencia en el nivel de precisión ofrecido por
las diferentes versiones del ACC. La versión de conjuntos clásicos/deter-
minista del ACC nos informa del valor exacto de Y cuando X\ (un cami
no configuracional hasta Y) es igual a 1. La versión de conjuntos clási-
cos/no muy determinista del ACC (donde se dan excepciones a la
suficiencia) nos informa del valor probable de Y cuando X} es igual a 1.
La versión de conjuntos difusos del ACC nos indica que, para una confi
guración con una consistencia alta, Y >X¡ (probablemente) cuando X, = 1.
Así, por lo que se refiere al criterio de la precisión (capítulo 4), algunas
versiones del ACC son más informativas que otras.
(7) En algunas ocasiones se ha afirmado que los conjuntos difusos
(ACC-cd) resuelven problemas asociados a la versión original de conjun
tos clásicos del ACC (ACC-cc). Aquí es obvio que la codificación de fac
tores de conjuntos difusos es apropiada si la teoría y los datos la funda
mentan. Es decir, si hay razones de peso para suponer que una relación
causal entre factores de intervalo (o de ratio) es discontinua por natura
leza, y podemos intuir cuáles son sus puntos de ruptura, entonces una
codificación de conjuntos difusos está justificada. Si, por otra parte, no
podemos intuir ni descubrir puntos de ruptura (empíricamente) plausi-
374
bles en una escala de intervalo entonces el uso de conjuntos difusos no

resuelve el problema de la codificación. Las relaciones de conjunto im
puestas siguen siendo arbitrarias, aunque quizás algo menos arbitrarias
que la codificación de conjuntos clásicos.
(8) Las inferencias causales basadas en el ACC son vulnerables a erro
res de especificación —la inclusión o exclusión inapropiada de condicio-
nes/variables causales.46 Supongamos, por ejemplo, que en la superviven
cia democrática en el periodo de entreguerras influyeron no sólo el PIB y
la estabilidad del gobierno, sino también la desigualdad. La inclusión de
este nuevo factor causal introducirá nuevos caminos (configuraciones)
hacia Y. Por otra parte, supongamos que uno de los factores incluidos
no tuvo ningún efecto causal en la supervivencia democrática. Si este fac
tor es un elemento de una configuración identificada —por ejemplo, el
PIB— entonces, naturalmente, el argumento entero es una falacia. Si, en
cambio, este factor se concibe como un factor de fondo —por ejemplo, la
urbanización — entonces carece de efecto en los resultados.
En este sentido, en lo fundamental, el ACC no es diferente de otras
técnicas de análisis. Dicho esto, hay una importante diferencia que mere
ce señalarse. En la mayoría de las técnicas de análisis el problema de la
especificación depende de si el factor incluido o excluido está correlacio
nado con el tratamiento (el factor causal de interés teórico). Si no lo está
—como ocurre en todos los experimentos (si están apropiadamente dise
ñados) y en algunos experimentos naturales (si son fortuitos)—, entonces
las cuestiones de especificación no plantean problemas de confusión.
(9) El ACC que se usa típicamente no incorpora formalmente infor
mación sobre el tiempo, es decir, sobre la ordenación temporal de las va
riables. Esto se ha intentado hacer en una reciente extensión de la lógica
del ACC (ACCt),47 así como en una técnica relacionada conocida como
análisis secuencial.48 Sin embargo, cuando añadimos el problema de la
ordenación temporal a las ya grandes dificultades de las configuraciones
causales, el número de ordenaciones causales potenciales tiende a sobre
pasar los datos disponibles para comprobarlas. Así, en comparación con
los diseños de investigación observacionales con un importante compo
nente temporal (es decir, donde hay variación observable entre los casos
en las variables causales de interés teórico), el ACC es un instrumento
deficiente para la valoración causal. No podemos observar directamente
el efecto en Y de un cambio en X.
(10) El ACC suele concebirse como una técnica observacional para el
análisis causal. Es cierto que todo lo que hace la técnica booleana es cla
rificar pautas en los datos, pautas que desde luego son dependientes de
las decisiones del investigador sobre la inclusión y la codificación de va
riables (es decir, sobre condiciones y resultados). Se requiere mucho ra
zonamiento causal para inferir la causalidad de pautas covariacionales
375
Y
(relaciones de conjuntos) entre X e Y, especialmente en situaciones en las

que el tratamiento no se aleatoriza, como se ha subrayado conveniente
mente en los capítulos anteriores. Este aspecto del ACC no lo hace dife
rente de otras técnicas observacionales.49
Naturalmente, podemos también aplicar el ACC a datos experimenta
les. De hecho, esto tendría sentido si el experimento implicara varios tra
tamientos en varias combinaciones (el diseño factorial que vimos en el
capítulo 10) y si quisiésemos analizar la suficiencia causal además de los
efectos promedio del tratamiento (EPT). Hasta donde yo sé, el ACC
nunca se ha aplicado de esta forma; pero sí debe reconocerse como op
ción y no como una limitación intrínseca del método. Si se aplicaran téc
nicas experimentales, la mayoría de las preocupaciones planteadas en
este apartado se habrían obviado.
En otros respectos, el tipo de obstáculos y oportunidades del ACC para
lograr la inferencia causal remite a cuestiones que ya hemos visto en el con
texto de las causas necesarias/suficientes. Como la suficiencia causal presu
me un efecto causal (siempre que la condición suficiente no sea trivial), se
puede recurrir a investigar los efectos causales para demostrar la causali
dad. Así, si queremos considerar causal una configuración particular,
(entendida como un vector de causas), podría ser útil proporcionar tam
bién evidencia de un efecto causal para Xt utilizando una de las estrategias
que vimos en el capítulo 11. Naturalmente, esto puede no ser siempre posi
ble, especialmente en el caso de coyunturas que implican tres o más causas
y de muestras de tamaño limitado. Aun así, ciertamente es deseable.
(11) A modo de conclusión, nuestra disposición a aceptar una coyun
tura determinada, Xp como causa suficiente de Y se reafirmará si: (a) la
muestra que se investiga es grande, (b) es representativa de la población
de interés, (c) no está arbitrariamente delimitada, (d) las variables de in
terés (tanto las condiciones como el resultado) se dividen naturalmente
en categorías binarias («clásicas»), (e) los posibles errores de medición
parecen mínimos, (f) más que unos pocos casos siguen el camino desig
nado (por lo que no pueden ser descartados fácilmente como estocásti-
cos), y (g) no hay excepciones (la relación es determinista). De esto se si
gue que nuestra disposición a aceptar que un conjunto de coyunturas
representa una explicación completa (las causas de los efectos) de Y, de
pende de los factores enumerados anteriormente para todas las coyuntu
ras, XhN. Como se ha señalado ya, el ACC es mucho más ambicioso que
el típico análisis causal en la medida en que persigue proporcionar una
explicación completa de un resultado.
Este conjunto de siete circunstancias representa la comprobación más
exigente (severa, arriesgada) de una hipótesis. Si se supera, se ha propor
cionado evidencia sólida a una proposición. Si alguna de estas condicio
nes se debilita, se debilita también la evidencia de la causalidad.
376
Afortunadamente se puede contar con otras herramientas de inferen

cia casual. (En efecto, algunos practicantes del ACC consideran estas
técnicas como parte integrante del método que deberían incluirse en las
siglas «ACC». Sin embargo, para nuestros propósitos, es importante dis
tinguir las características distintivas del ACC de las que no lo son). Nor
malmente, entre ellas están los mecanismos, las hipótesis rivales, las ob
servaciones del proceso causal y el razonamiento causal que vimos en el
capítulo 11. Puesto que estas estrategias se derivan a menudo de una cui
dadosa consideración de casos particulares, con frecuencia se describen
como basadas en casos. Así, Rihoux y De Meur formulan la siguiente
pregunta: «¿Cuál es la narrativa que hay detrás del hecho de que... un
PIB per cápita alto combinado con la estabilidad del gobierno hayan
producido la supervivencia... de la democracia en países como Bélgica,
Checoslovaquia, Países Bajos y Reino Unido?»50
Un análisis comparado cualitativo por sí mismo es raramente definiti
vo. Ragin afirma: «La interpretación de la suficiencia tiene que funda
mentarse en el conocimiento sustantivo y teórico del investigador; no se
deriva automáticamente de la demostración de la relación del subconjun
to».51 Desde luego, podría decirse lo mismo de la mayoría de los métodos
no experimentales. Ciertamente, el ACC nunca pretendió ser un método
de inferencia causal independiente de los demás. Por lo general, los me-
todólogos del ACC recomiendan que esta técnica de reducción de datos
se aplique junto a otros métodos.52 Sería desafortunado que los autores
no siguieran este consejo.53 Lo más importante es que el algoritmo o al
goritmos del ACC, si se incluyen como parte integrante de un estudio
más general con múltiples métodos, es una herramienta reveladora para
la inferencia causal siempre que sus supuestos configuracionales sobre la
causalidad parezcan plausibles. Es un complemento a la caja de herra
mientas de las ciencias sociales que debe ser bienvenido (y merece explo
rarse con más detenimiento y profundidad de lo que hemos hecho en
este apartado).54
377
■
Parte IV
Conclusiones
1
a
13 Unidad y pluralidad
«El tipo de unidad que normalmente se cree que representa un papel en la teoría
científica...., implica tanto unidad como pluralidad: “un número máximo de he
chos y regularidades” deben acomodarse por medio de “un mínimo de concep
ciones y supuestos teóricos”. La teoría de Newton está unificada porque es ca
paz de aunar una pluralidad de diversos fenómenos bajo un mismo tratamiento
teórico... La situación que actualmente encontramos en la literatura de la cau
sación exhibe una pauta opuesta. Hay una pluralidad de perspectivas teóricas
sobre la naturaleza de la causación... Y, al mismo tiempo, hay unidad en el nivel
de los fenómenos que hay que comprender.»
Christopher Hitchcock1
Tras esbozar el marco de tareas, estrategias y criterios que definen la me

todología de las ciencias sociales, ahora quisiera analizar cómo encaja
este marco en las «guerras de paradigmas» que han agitado las discipli
nas de las ciencias sociales a lo largo del pasado siglo.
Para los profanos, así como para los iniciados, las distinciones eviden
tes entre disciplinas, métodos y escuelas son de la máxima importancia.
Nos sentamos en mesas separadas.2 Pero hay otras muchas cosas que
compartimos. Es más, apenas hay ventaja en acentuar nuestras diferen
cias, dado que el supuesto objetivo de la deliberación científica es, en úl
tima instancia, llegar a un consenso. La inconmensurabilidad no condu-
381
1
ce a un intercambio productivo de ideas. Considerada seriamente, impide

la acumulación de conocimiento. Por consiguiente, este libro pone énfa
sis en la coherencia metodológica de las ciencias sociales.
En este capítulo voy a abordar varias controversias que he dejado a
un lado hasta ahora: el debate entre los métodos cualitativos y cuantitati
vos; el debate entre los modelos culturalista y racionalista del comporta
miento; y el debate entre distintas escuelas de causalidad (positivista, re
sultados potenciales, basada en mecanismos, pluralista).
En un nivel alto de abstracción, estos debates parecen abrumadores.
Los académicos parece que adoptan diferentes constructos y métodos
teóricos, lo que les lleva a ver el mundo de diferentes maneras. Reina la
cacofonía o un saludable pluralismo, dependiendo del punto de vista que
adoptemos.
Pero las posiciones en estos debates son menos diferentes de lo que
puede parecer al principio. Es difícil decir, con precisión, qué es lo que
distingue a los métodos cualitativos de los cuantitativos, a los modelos
del comportamiento culturalistas de los racionalistas, y a las diferentes
escuelas de la causalidad. Los términos que definen estos debates ofrecen
formulaciones muy ambiguas.
En un nivel inferior de abstracción —es decir, cuando hablamos de
cuestiones empíricas concretas— suele ser difícil distinguir claramente
entre las diversas teorías y perspectivas metodológicas. Así, yo diría que
en el nivel de las tareas, las estrategias y los criterios, hay más consenso
entre las diferentes disciplinas de las ciencias sociales de lo que sugieren
las elevadas etiquetas «filosóficas» utilizadas.
Cualitativo frente a cuantitativo
Quizás no ha habido nunca una división tan persistente o vociferante

como el debate cualitativo frente a cuantitativo. Para nuestros propósitos
aquí, definiré como «cuantitativa» toda inferencia que se fundamenta en
un elevado número de observaciones procedentes de una base de datos, es
decir, el análisis estadístico. Entiendo que son «cualitativas» las inferen
cias basadas fundamentalmente en unas pocas observaciones de una base
de datos (insuficientes para constituir la base de un análisis estadístico) y/o
en un gran número de observaciones de un proceso causal (capítulo 12)?
De acuerdo con esta definición, una de las estrategias de inferencia
causal que vimos en el capítulo 10, el razonamiento causal, es claramente
cualitativa (aunque puede basarse en hallazgos cuantitativos). Asimismo,
hay varios enfoques —entre ellos la regresión discontinua, las variables
instrumentales y el condicionamiento a confundidores— que son clara
mente cuantitativos.
382
i
Hay otra serie de enfoques que se pueden clasificar comúnmente, pero

no intrínsecamente, como cualitativos. Por ejemplo, la investigación de
los mecanismos causales se realiza a menudo mediante observaciones del
proceso causal, porque, en algunas ocasiones, la evidencia disponible im
pide recoger una muestra grande de observaciones comparables. Aun así,
hay también muchas investigaciones cuantitativas centradas en los meca
nismos causales.4
Asimismo, algunos enfoques se llevan a cabo por lo general —aunque,
de nuevo, no de forma intrínseca— mediante muestras grandes. En princi
pio, un experimento puede realizarse de una manera puramente cualitati
va, como por ejemplo con un tratamiento aleatorizado administrado a un
caso (el grupo de tratamiento), otro caso que sirve de control y unas cuan
tas observaciones pretest y postest. Por todas las razones ya señaladas, este
experimento de N pequeño probablemente es superior en lo que se refiere a
su validez interna a un análisis observacional de N pequeño. Sin embargo,
podría estar expuesto al error estocástico. En cualquier caso, hay pocos
ejemplos de este tipo de trabajo en las ciencias sociales, porque cuando la
aleatorización es posible, normalmente también es posible contar con múl
tiples unidades. En efecto, ya hemos señalado que la virtud asociada a la
aleatorización —es decir, evitar los confundidores— es posible sólo cuan
do el número de unidades aumenta. Desde esta perspectiva, el método ex
perimental es implícitamente un método de análisis de N elevado.
Lo mismo puede decirse de los enfoques no aleatorizados descritos en
el capítulo 10 como de panel, transversales y longitudinales. Un panel
puede contener dos casos —por lo tanto, un N pequeño— observados
durante un corto periodo de tiempo. Sin embargo, un análisis así será
vulnerable a las amenazas a la validez interna que plantean tanto el error
estocástico como el error sistemático y —a diferencia de los análisis de
N elevado— estas amenazas no se pueden rectificar eficazmente con
ajustes estadísticos ex post. Además, hay un serio problema de validez
externa. Una muestra pequeña tiende a ser menos representativa de una
gran población, porque la precisión (la fiabilidad) covaría con el tamaño
de la muestra. Así, a igualdad de condiciones, preferimos que un análisis
de panel (transversal o longitudinal) cuente con una muestra grande de
observaciones.
Desde luego, las cosas no son siempre iguales. Advierta que el tamaño
de la muestra es sólo uno de los muchos objetivos del diseño de investi
gación (resumidos en la tabla 9.3). De esto se sigue que, en algunas oca
siones, tiene sentido sacrificar el N por otras virtudes. Además, como la
evidencia cualitativa suele emplearse en tándem con otras formas de evi
dencia —un enfoque «multimétodo» sobre la inferencia causal— quizás
lo importante no es si uno adopta o no un método cualitativo o cuantita
tivo, sino qué combinación de métodos es la mejor (véase más adelante).
383
A modo de ejemplo, consideremos una pregunta clásica de la ciencia

política: ¿por qué los partidos?5 Y ¿por qué, entre los partidos, hay unos
fuertes y muy centralizados y otros débiles y difusos? Esta pregunta se
puede abordar en muchos niveles y con diferentes herramientas metodo
lógicas. Un enfoque transnacional podría partir de una medición de la
fuerza del partido examinando la cohesión legislativa (¿con qué frecuen
cia votan juntos los miembros de un mismo partido?) para luego hacer
una regresión de este indicador con varios predictores.6 Por otra parte, si
la hipótesis se limita a un solo factor causal (binario), como el parlamen
tarismo, se podría aplicar un análisis de emparejamiento. En cualquier
caso, se plantean muchas amenazas a la inferencia, por ejemplo, una
muestra relativamente pequeña y sumamente heterogénea, la posibilidad
de numerosos confundidores inmedibles y el problema ubicuo de la asig
nación. Esto no significa que un análisis transnacional de N elevado no
sea fructífero. Pero suscitará escepticismo y requerirá modos adicionales
de investigación.
Uno de estos modos es el análisis de un caso de estudio, donde un
solo país experimenta un cambio en uno de los factores causales de inte
rés y el analista puede observar el resultado a lo largo del tiempo. Nume
rosos estudios, empezando por los de muchos pioneros de la ciencia polí
tica (por ejemplo, Walter Bagehot, A. Lawrence Lowell y Woodrow
Wilson) se han centrado en los Estados Unidos o en Gran Bretaña du
rante el siglo xix, cuando surgieron los partidos de masas.7 Estos casos
ofrecen ciertas ventajas frente a la mayoría de los demás en la medida en
que en ellos las precondiciones para los partidos se dieron sucesiva en lu
gar de simultáneamente, por lo que exhiben algunos de los rasgos de un
experimento natural (en el que un rasgo cambia y todo lo demás, o casi
todo lo demás, permanece igual). Asimismo, podríamos comparar países
con características de fondo similares pero con distintas constituciones
con el fin de discernir el papel de los rasgos constitutivos en el desarrollo
de la organización de partido. Los estudios que emplean la comparación
de los casos más semejantes han solido comparar Reino Unido, Estados
Unidos y Canadá.8
Cada una de estas comparaciones dentro de un solo caso o en un Ai
pequeño tiene el potencial de permitir un análisis de N elevado dentro del
caso o casos elegidos. Los autores se centran en las circunscripciones y el
comportamiento de los miembros del parlamento. Así, se podría buscar
si hay una conexión entre las circunscripciones grandes (presumiblemen-
te menos susceptibles de compra de votos y amiguismo) y la disciplina de
partido dentro de un país.9 De haberla, apoyaría la tesis de que la expan
sión del sufragio preparó el camino a partidos más fuertes.
Hay muchas maneras de combinar la evidencia cuantitativa y la cuali
tativa. Asimismo, hay muchos estilos de análisis cualitativo y cuantitati-
384
¡
vo y diferentes propósitos en ellos. Por consiguiente, es difícil generalizar

sobre las fuerzas y debilidades características de cada tipo. Por ejemplo,
algunos estudios cualitativos se emprenden con el objetivo de generar
nuevas hipótesis en lugar de comprobar las existentes. En este contexto
(que vimos en el capítulo 2), los problemas de validez interna son algo
menos complejos, porque la principal contribución es teórica más que
empírica. Cabe esperar que posteriormente se realice un estudio de segui
miento que cumpla los exigentes criterios de la apreciación. Su contribu
ción es empírica más que teórica.
Regresemos a lo principal. El aumento del N de un diseño de investi
gación es deseable a igualdad de condiciones. El tamaño importa, por
que implica que se dispone de más evidencia para comprobar una hipó
tesis dada, lo que proporciona un seguro contra los errores causados por
la existencia de variación aleatoria y permite utilizar procedimientos es
tadísticos para corregir la presencia de confundidores. Una muestra
grande normalmente significa que se incorpora suficiente variación al
análisis en los parámetros clave (X e Y). Una muestra grande también
implica que el investigador puede aplicar la técnica del muestreo aleato
rio (selección aleatoria de la muestra de una población de interés), lo que
incrementa la validez externa de un estudio. Todo esto es para bien.
Sin embargo, en algunas ocasiones un aumento del tamaño de la
muestra provoca más problemas que los que resuelve. Puede agravar el
error de medición, por ejemplo. Una muestra grande puede implicar
también la inclusión de observaciones que no son totalmente compara
bles (de formas que podrían afectar la relación supuesta entre X e Y).
Esto crea heterogeneidades en la muestra que pueden hacer difícil una
valoración válida, precisa e informativa de las relaciones causales. Por
esta razón, suele ser mejor trabajar con una muestra homogénea y pe
queña que con una grande y heterogénea —en especial si esta última re
quiere supuestos de modelado complejos para dar plausibilidad al análi
sis.10 El aumento del tamaño de la muestra es también problemático si no
aumenta el efecto de los factores clave de interés teórico (Xe Y). He aquí
por qué los eventos raros (revoluciones, guerras mundiales, genocidios)
suelen abordarse de forma cualitativa. Con frecuencia, tiene más sentido
analizar intensamente unos pocos casos en los que ocurrieron estos fenó
menos (confiando en el conocimiento de fondo de los casos en los que no
ocurrieron esos fenómenos) que diseminar nuestras energías en toda la
población, tratando igual todas las observaciones de una muestra de N
elevado.
Percátese también de que el simple hecho de que la muestra sea gran
de no significa que se haya seleccionado aleatoriamente de la población
de interés. En realidad, la mayor parte de las muestras de N elevado no se
seleccionan aleatoriamente. Así, el tamaño no siempre es un indicador de
385
I
Metodología de las ciencias sociales I
su representatividad. (En algunas ocasiones, añadir más observaciones

hace que la muestra sea menos representativa.)
Por último, hay que acentuar la utilidad de las observaciones del pro
ceso causal (capítulo 12). En algunas ocasiones, unas pocas observaciones
del proceso causal son más importantes que un número elevado de obser
vaciones de una base de datos. A este respecto, juzgar un diseño de inves
tigación sólo por su número de observaciones (N) carece de sentido.
Es posible imaginar muchas otras diferencias entre los diseños de in
vestigación de N pequeño y N elevado, pero no es mi intención ofrecer
aquí un análisis completo de este asunto. Sin embargo, espero haber
mostrado que muchos de los aspectos de este venerable debate se pueden
concebir como compensaciones entre tareas, estrategias y criterios espe
cíficos. Así, podemos replantear el debate de una forma más concreta y
menos antagónica. Vemos con frecuencia que la investigación cualitativa
y la cuantitativa sobre una misma cuestión general priorizan diferentes
objetivos metodológicos. Los objetivos en sí trascienden el cisma: son
universales o casi universales. Son estos objetivos los que deben guiar
nuestra elección de las herramientas de investigación. La cuestión de si
un estudio es clasificable como cualitativo o cuantitativo —o una combi
nación de los dos— y en qué medida lo es, es secundaria.
CULTURALISMO FRENTE A RACIONALISMO
Aunque este libro se centra en cuestiones formales de metodología, nin

guna de ellas se puede considerar sustantivamente neutral. Asimismo,
cada teoría tiene afinidades metodológicas características. A este respec
to, los argumentos sustantivos son también argumentos metodológicos
—argumentos sobre cómo debemos estudiar un tema determinado. A
modo de ejemplo de esta suerte de oposición entre la teoría y la metodo
logía, consideremos someramente el debate actual entre los modelos cul
turales y racionales de la acción humana.
El modelo cultural, en general, se deriva de la obra de filósofos de la
escuela hermenéutica (por ejemplo, Dilthey, Schleiermacher, Heidegger,
Gadamer, Habermas, Ricoeur, Taylor, Von Wright y Winch) y de los tra
bajos etnográficos de la corriente sociocultural de la antropología (por
ejemplo, Boas, Malinowski, Mead, Benedict y Geertz). En los últimos
años se ha identificado esta perspectiva con los enfoques interpretativista
y constructivista de la ciencia social. Entre las cuestiones clave que se tra
tan están el enfoque sobre la experiencia vivida (tal y como la conciben
los actores objeto de estudio); la naturaleza holística de las normas, los
valores y la conducta; y la naturaleza socialmente construida (no basada
en incentivos) de todo lo anterior.11
386
El modelo racional de la acción humana se inspira en la obra de auto

res de la Ilustración y posteriores como Hobbes, Bentham, Smith y Mili,
así como en trabajos más recientes procedentes del campo en plena evo
lución de la economía (por ejemplo, Jevons, Menger, Walras, Edgeworth,
Marshall y Pareto). Los supuestos analíticos clave del modelo racional
de la acción social incluyen la maximización de la utilidad, el conoci
miento perfecto y las preferencias que son completas, estables y transiti
vas. Estos supuestos (que pueden relajarse en varios sentidos para permi
tir un modelo más flexible del comportamiento humano) dan forma a los
tipos de ciencia social que se conocen como elección pública, teoría de
juegos y economía política.12
Desde una perspectiva metodológica, el debate actual entre el cultura-
lismo y el racionalismo se puede replantear como una serie de compensa
ciones entre tareas, estrategias y criterios específicos. Podría argüirse, por
ejemplo, que el campo culturalista aprecia los argumentos causales que
adoptan la forma de las causas de los efectos más que los efectos de las
causas (capítulo 12) y que sus estrategias de inferencia se centran en los
mecanismos más que en los efectos causales. En términos más generales,
podría decirse que privilegia las explicaciones descriptivas sobre las expli
caciones causales. En realidad, suele ser difícil comprobar una teoría cultu
ral, porque en principio esos factores sólo se pueden manipular raramente
(capítulo 8). No podemos asignar a los individuos una religión o una vi
sión del mundo determinadas (aunque la importancia relativa de un factor
cultural se puede manipular en un escenario experimental). Tanto si persi
guen explicaciones descriptivas como explicaciones causales, los culturalis-
tas tienden a privilegiar la profundidad (es decir, la fecundidad o el impac
to) sobre la amplitud y la validez interna sobre la externa.
En cambio, los que trabajan con el modelo del actor racional tienen
objetivos un tanto diferentes —explicaciones causales, hipótesis muy
centradas en las causas de los efectos, diseños de investigación experi
mentales o cuasi experimentales y modelos que son a la vez parsimonio
sos y de alcance general.
Así descritas, estas escuelas no son tanto campos hostiles como enfo
ques diferentes y potencialmente complementarios de la ciencia social.
En realidad, a medida que pasa el tiempo, las líneas que los separan se
van desdibujando cada vez más. Hay trabajos recientes que han explora
do el impacto causal de la cultura con diseños de investigación experi
mentales o cuasi experimentales, empleando una serie de métodos aso
ciados a la tradición racionalista para un conjunto de fenómenos
normalmente asociados a la tradición culturalista.13 Otras escuelas han
construido explicaciones etnográficas e históricas sobre cómo evolucio
nan los mercados y las nociones del interés propio y la racionalidad.14 En
este sentido, cada escuela ha traspasado las fronteras de la otra.
387
Lo más importante aquí es que estas dos escuelas, así como otras mu
chas de las que existen, se pueden concebir en tanto en cuanto dan prio
ridad a diferentes tareas, estrategias y criterios dentro del mismo marco
metodológico general. Lo que ganamos con esta forma de describirlos es
el reconocimiento de un marco común de comprensión que puede contri
buir a cerrar la brecha entre estos dos enfoques de la ciencia social tanto
tiempo separados.
Modelos de causalidad
Varios marcos causales luchan por la primacía en la ciencia social con

temporánea. Se pueden resumir de manera esquemática como: (a) ley de
cobertura, (b) resultados potenciales y (c) pluralista —cuyo elemento más
importante es la explicación basada en mecanismos. Si bien no pretendo
examinar aquí sistemáticamente la voluminosa literatura sobre estos ve
nerables temas o desarrollar íntegramente los argumentos de los diferen
tes campos,15 es importante dedicar alguna atención a estos debates aun
que sólo sea para indicar cómo se entienden en el marco actual.
El modelo de la ley de cobertura
Durante muchos años predominó una perspectiva unitaria de la explica

ción causal. Siguiendo a Cari Hempel y a otros autores asociados a la
llamada escuela «positivista» de la filosofía de la ciencia, se supuso que
había (o debía haber) un solo significado de la causación y un solo méto
do para construir argumentos causales: el enfoque de la ley de cobertura
(conocido también como nomológico-deductivo). 16
De acuerdo con esta perspectiva, la causalidad hace referencia a una
conjunción constante (determinista) o a una asociación probabilística entre
X e Y. La explicación causal se consigue subsumiendo las particularidades
de un evento o clase de eventos bajo la rúbrica de una ley universal, que
luego se puede comprobar por referencia a predicciones observables deriva
das de la teoría. Hempel y sus colegas no dudaban de conocidas leyes natu
rales como la ley de Snell, la de Hooke, la de Ohm, la de Joule, la de la gra
vedad de Newton, las tres leyes de Newton del movimiento, la de Boyle y
las cuatro leyes de la termodinámica. No encontraron razón alguna para
abandonar en las ciencias sociales un enfoque que había sido tan exitoso en
las ciencias naturales. Así, en su explicación heurística de la Revolución
Francesa, Hempel ofrece la siguiente formulación: Una revolución tenderá í
a ocurrir si existe un descontento creciente por parte de una buena parte de
la población, con determinadas condiciones prevalecientes».17
388
Las críticas del modelo de la ley de cobertura son legión. Los críticos
se centran en la estrechez de miras de esta perspectiva —su aparente des
atención a los mecanismos causales, su indiferencia hacia la generaliza
ción (como si todos los temas se pudieran concretar en leyes universales
precisas que dan cuenta por completo de un fenómeno), su desatención a
los criterios adicionales que califican de útil una proposición causal, etc.
No voy a repasar estos argumentos aquí.18
Sin embargo, sí merece la pena subrayar que el enfoque sobre la cau
salidad que se adopta en este libro considera la capacidad de generaliza
ción, la precisión y el impacto causal como metas legítimas de la ciencia
(capítulos 3 y 8) y, a este respecto, sintoniza con el modelo de la ley de
cobertura. Desde luego, considerar adecuadamente o no una teoría dada
como «ley» depende de su éxito en alanzar estas metas. ¿Cuánto se puede
generalizar una teoría? ¿Qué grado de precisión tienen sus predicciones?
Y si la teoría es de naturaleza causal, ¿cuántos factores adicionales (ex
ternos a la teoría) influyen también en el resultado de interés? Creo que
es justo decir que todas las explicaciones de las ciencias sociales aspiran a
un estatus próximo al de una ley, pero pocas se acercan al ideal de las le
yes físicas como las que he citado antes.19
Así, a favor del modelo de la ley de cobertura podría afirmarse que es
acertado como tipo ideal. Sin embargo, implica unos estándares clara
mente optimistas de generalidad, precisión e impacto causal, que es poco
probable que se puedan cumplir con mucha frecuencia en las ciencias so
ciales. Además, tiene poco que decir sobre numerosos rasgos adicionales
de la argumentación causal, tales como el componente generador de la
causalidad —por no mencionar los diversos rasgos del análisis causal
analizados en los capítulos anteriores— y por esta razón no ofrece un
marco general convincente. Es informativo, pero incompleto.
EL modelo de resultados potendales

En las últimas décadas los análisis de la causalidad se han trasladado del
reino de la explicación causal (¿qué es una teoría causal buena?) al ámbi
to de la inferencia causal (¿qué es una buena comprobación de la causali
dad?). En particular, el análisis se ha centrado en el trabajo estadístico de
Jerzy Neyman, Donald Rubín, Paul Holland y sus colaboradores. Este
cúmulo de trabajos ha venido a describirse de diversas formas como con-
trafáctico, experimental, intervencionista, manipulación, resultados poten
ciales, o el modelo causal de Neyman-Rubin-Holland. 10
Interpretado estrictamente, el modelo de resultados potenciales apun
ta a la medición de los efectos causales, entendidos como efectos prome
dio del tratamiento (EPT) o alguna de sus variantes (capítulo 9).21 Poste-
389
y
riormente se generalizó para incluir modelos gráficos (James Heckman,

Judea Pearl, James Robins y otros).22 Sin embargo, mi análisis aquí se va
a centrar en la versión temprana de Rubin, Holland y sus colaboradores:
los resultados potenciales, tout court.
Mi comprensión de la causalidad y de los efectos causales parte del
modelo de resultados potenciales, pero no se puede reducir a este modelo
o, más bien, digamos que no es reducible a una concepción estricta de
este modelo.
Primero, el EPT o alguna de sus variantes no siempre se pueden lo
grar, incluso cuando este objetivo es deseable. Muchos estudios de cien
cias sociales se centran en cambio en una cuestión más general y ambi
gua: a saber, si X causa Y, y, si esto es así, qué dirección podría tener este
efecto causal (+ o -). Sin duda, esta última podría considerarse una va i
riante difusa de la primera (después de todo, seguimos buscando cam
bios en Y que se correspondan con cambios en X). Pero no está claro si
los autores que se posicionan en la tradición de los resultados potencia i
les aceptarían este objetivo más ambiguo como legítimo.
Segundo, el EPT no es la suma total de inferencias o explicaciones
causales. Podría interesarnos, por ejemplo, la distribución de Y dado un
valor determinado de X. Nos interesan en este caso los argumentos cau
sales necesarios y suficientes, como hemos visto antes. También nos po
dría interesar la varianza de Y dada A'.23 Se pueden plantear otras cues
tiones prácticas y teóricas, como se esbozó someramente en el capítulo 9.
Tercero, el modelo de resultados potenciales tiene poco que decir so
bre los problemas de la heterogeneidad causal.24 Advierta que cuando un
tratamiento tiene efectos heterogéneos en una muestra de unidades, el
análisis resultante —aunque adopte la forma de un experimento bien he
cho— dará una estimación correcta (no sesgada) pero potencialmente
errónea de los efectos causales. Si, por ejemplo, un tratamiento tiene efec
tos positivos en algunos sujetos y negativos en otros (debido a complejos
efectos de interacción), la estimación revelará sólo el EPT en la totalidad
de los sujetos. Dependiendo de la mezcla de sujetos, este efecto puede ser
positivo, negativo o nulo. Pero no arrojará luz sobre los factores causales
que operan en el nivel de la unidad, que pueden ser los más relevantes
teórica y sustantivamente. Por supuesto, hay maneras de afrontar este
tipo de problema, como por ejemplo eligiendo una muestra más homo
génea desde el principio, comparando los resultados entre los diferentes
tipos de unidades dentro de una muestra heterogénea (asegurando que el
procedimiento de aleatorización se estratifica de acuerdo a parámetros
teóricamente relevantes), o utilizando test de interacción. A buen segu
ro, el modelo de resultados potenciales se puede adaptar de forma que
incluya una consideración de estas cuestiones, aunque a menudo se dejan
fuera.
390
Cuarto, el modelo de resultados potenciales tiene poco que decir so

bre muchas estrategias de inferencia causal —entre ellas los mecanismos,
los resultados alternos, las hipótesis rivales y el razonamiento causal.
Una vez más, estas estrategias se pueden integrar en el modelo de resul
tados potenciales (por medio de gráficos causales), y existe cierto movi
miento en esta dirección.25
Un quinto problema es que el modelo de resultados potenciales pare
ce no considerar como causas todos los factores que no se pueden mani
pular directamente —al menos en principio— en un experimento de la
boratorio o de campo.26 Esto sitúa muchas cuestiones de interés teórico
en las ciencias sociales, entre ellas la raza, el sexo, la edad, la etnia, la cul
tura y la desigualdad, en un ambiguo estado de purgatorio metodológi
co. Desde luego, se trata de una cuestión de grado o de interpretación.
Ciertos aspectos de la raza, el sexo, la edad, la etnia, la cultura y la des
igualdad se pueden manipular, y quizás algún día se difundan opciones
de manipulación (por ejemplo, con la tecnología de la genética). No está
claro qué significa la noción de manipulable en principio, y tampoco está
claro cuán estrictamente los investigadores del modelo de resultados po
tenciales querrán adherirse a esta máxima.27 El enfoque adoptado aquí
reconoce la posibilidad de manipulación como un criterio ceteris paribus
de todos los modelos causales, pero no implica que siempre se pueda sa
tisfacer totalmente (capítulo 8).
Un sexto problema es que el modelo de resultados potenciales se centra
en la medición del impacto de un solo factor causal en un resultado especí
fico (los efectos de las causas), dejando a un lado la meta más ambiciosa de
determinar los numerosos factores causales que pueden haber contribuido
a un resultado (las causas de los efectos), como vimos anteriormente. Pare
ce posible —al menos en principio— ampliar el marco para incluir diferen
tes tipos de investigaciones causales, incluyendo una explicación relativa
mente completa de todas las causas de un efecto particular. Pero en
absoluto está claro que los miembros de la tradición de los resultados po
tenciales aprobaran esta versión más difusa del marco, dado que la solu
ción a este problema causal se consideraría en la mayoría de los casos me
nos definitiva que la que ofrece el usual enfoque de los efectos de las causas.
Un séptimo problema es que el vocabulario técnico que desarrollaron
Rubín y sus colaboradores en el contexto de la estadística oscurece a me
nudo cuestiones importantes del diseño de investigación. Por ejemplo,
pueden surgir violaciones del SEVUT (supuesto de estabilidad del valor
en la unidad de tratamiento, o de no interferencia [en inglés SUTVA]).28
Como tal, es una denominación bastante inespecífica y apenas sirve de
ayuda a los investigadores (con independencia de que trabajen en la línea
experimental o en la observacional) que buscan establecer un escenario
de investigación y un método de análisis.29
391
Un último problema es que el modelo de análisis causal de los resulta

dos potenciales tiene poco que decir a los investigadores cuya obra es
cualitativa más que cuantitativa. Una vez más, se puede reformular el
modelo de forma que diga algo a la investigación no estadística. Pero no
está claro si esta reformulación atraería a los que actualmente se identifi
can con esa etiqueta (la mayoría de ellos son estadísticos).
¿A dónde nos lleva todo esto? Interpretado concretamente, el modelo
de resultados potenciales excluye muchas cuestiones importantes de la ex
plicación y la inferencia causal, como se ha señalado antes. Si se interpreta
vagamente, es más inclusivo, pero también menos conciso y se parece más
al marco más difuso presentado en este libro. Como en muchos otros te
mas, nuestra opinión del modelo de los resultados potenciales depende de
nuestra comprensión del modelo. Y, como ocurre en todas las agendas de
investigación activa, es un objetivo en constante movimiento. Es difícil pre
decir cómo se concebirá en 2020 o 2030 el modelo de resultados potencia
les. (Quizás llegue a parecerse al marco que aquí presentamos.)
Pluralismo y monismo
A diferencia de las perspectivas monistas de la causación que presumen

los modelos de la ley de cobertura y de resultados potenciales, algunos
investigadores arguyen que la causación es plural por naturaleza. Por
consiguiente, ningún modelo puede esperar poder abarcar los múltiples
objetivos de la argumentación causal en las ciencias (o en las ciencias so
ciales.)
La perspectiva pluralista tiene una larga tradición. Aristóteles clasifi
có las causas en cuatro tipos: causas formales (aquello que produce un
efecto, contribuyendo así a su esencia); causas materiales (la materia que
da forma al efecto); causas eficientes (la fuerza motriz que produce un
efecto); y causas finales (el propósito para el que se ha producido un
efecto).30
En los últimos tiempos es frecuente distinguir entre argumentos cau
sales deterministas y probabilistasf argumentos correlaciónales y argu
mentos centrados en los mecanismos causales,32 explicaciones de arriba
abajo y de abajo arriba,33 causas de dependencia y de producción,3* y cau
sas de los efectos y efectos de las causas.35
Se han desarrollado tipologías incluso más diferenciadas. Mario Bun-
ge identifica cuatro tipos de explicaciones causales: (1) el modelo de la
ley de cobertura implica una «subsunción de los particulares en los uni
versales»; (2) la causación interpretativa se centra en el sentido, el signifi
cado o la intención de una acción; (3) la explicación funcional se centra
en el propósito (telos) de una acción; y (4) la causación centrada en los
392
mecanismos se focaliza en «el mecanismo o mecanismos que tienden a

producir la meta deseada».36 Henry Brady también distingue cuatro tipos
de causación: (1) una teoría de la regularidad asociada a Hume, Mili y
Hempel; (2) una teoría contrafáctica asociada a la obra de David Lewis;
(3) una teoría de la manipulación asociada a la tradición experimental
(conocida también como modelo de resultados potenciales), y (4) una
teoría de los mecanismos!capacidades asociada a la tradición realista de
la filosofía de la ciencia.37 Charles Tilly afirma haber descubierto cinco
perspectivas de la explicación causal: escepticismo, ley de cobertura, pro
pensión, sistema y mecanismo.33
Los autores discrepan al respecto de cómo dividir con precisión este
tema tan complejo. En realidad, el pluralismo causal puede significar
muchas cosas.39 Pero muchos de los que se designan a sí mismos pluralis
tas probablemente están de acuerdo en un punto general: «Los diferentes
tipos de causas requieren diferentes tipos de enfoques sobre el análisis
empírico».40 Es decir, el modo en que elegimos comprender la causación
tiene efectos importantes —aunque con frecuencia encubiertos— en qué
tipo de argumentos causales y comprobaciones empíricas tendemos a
perseguir, como señala Charles Tilly en la cita que abre el capítulo 12.
Todos estos modelos de causalidad tienen una posición legítima en la
producción de las ciencias sociales.41
El pluralismo causal proporciona un correctivo importante al monis
mo ingenuo del tipo que ofrece el modelo de la ley de cobertura. Sin em
bargo, también plantea varias dificultades potenciales.
Primero, tipologías causales tales como las esbozadas anteriormente
quizás exageran el carácter epistemológicamente diferente de las explica
ciones causales en las ciencias sociales. Consideremos, por ejemplo, la
distinción entre los argumentos causales que son «correlaciónales» (co-
variacionales) por naturaleza y los que se basan en la identificación de
los mecanismos causales.42 Stuart Glennan, en un artículo muy citado,
afirma explícitamente que «tiene que haber una dicotomía en nuestra
comprensión de la causalidad» —entre las causas referidas a mecanismos
y las causas referidas a una correlación.43 Sin duda, mucho depende de la
definición que elijamos de los términos de esta dicotomía. Supongamos
que las correlaciones se refieren a pautas de covariación entre una su
puesta causa y un efecto, y que los mecanismos se refieren a los conecto-
res (caminos) entre la causa y su efecto. Se podría formular la pregunta
así: ¿existen explicaciones causales que describen sólo las pautas asociati
vas entre X e Y, sin considerar qué es lo que podría vincularlas o, alter
nativamente, explicaciones «referidas a mecanismos» que ignoran las
pautas de asociación entre la causa y el efecto?
Mi impresión es que estas formas restringidas de inferencia son relativa
mente raras en las ciencias sociales. Cierto, algunos análisis de estilo corre-
393
lacional menosprecian la discusión explícita sobre los mecanismos causa

les, pero normalmente esto se debe a que el autor considera que los
mecanismos causales están claros y que no merece la pena formularlos ex
plícitamente.44 Además, un argumento basado en los mecanismos que no
tiene en cuenta las pautas covariacionales entre X e Y carece de sentido. La
existencia de un mecanismo causal presume una pauta de asociación entre
un X exógeno y un Y endógeno. Así, hablar de mecanismos implica nece
sariamente hablar de pautas covariacionales. Es más, el mecanismo causal
sugerido es en sí covariacional por naturaleza porque presupone una pau
ta de asociación entre un conjunto de variables intermedias (X con M, y M
con Y). Cierto que estas pautas de asociación intermedias pueden no ser
directamente observables; pueden ser simplemente supuestas, basadas en
lo que sabemos sobre el mundo. Pueden ser imposibles de manipular direc
tamente; aun así, las causas de M deben ser manipulables y en este sentido
cumplen el objetivo general de la manipulabilidad (capítulo 8). En todo
caso, parece claramente simplista y quizás erróneo separar las pautas de
explicación correlaciónales y las basadas en mecanismos si se entienden
como tipos dicotómicos (mutuamente excluyentes).45 Ambas son impor
tantes. Para el propósito de la explicación causal (como opuesta a la de los
efectos causales), ambas son necesarias.
Podría decirse que la disputa entre las escuelas de la causalidad se debe
al hecho de que se refieren a diferentes aspectos de la causación. El modelo
de la ley de cobertura se centra en varios de los objetivos últimos de la ex
plicación causal: las leyes naturales que son de alcance general y precisas.
El modelo de resultados potenciales apunta a cómo definir y estimar los
efectos causales. El de los mecanismos se refiere al papel crucial de los me
canismos en la explicación y la inferencia causal. Así concebidos, los deba
tes entre las diferentes escuelas se parecen a la fábula de los ciegos y el ele
fante. Cada una ofrece una verdad sobre el tema, pero la coherencia de esa
verdad no es evidente desde la perspectiva limitada de cada escuela.
Mi segunda observación es que los grandes conceptos metodológicos
y epistemológicos suelen ser menos controvertidos cuando se desagre
gan. Por ejemplo, en lugar de hablar de leyes de cobertura, yo me he refe
rido a los criterios específicos implicados en una ley de cobertura como,
por ejemplo, la precisión, la capacidad de generalización y el impacto
causal. En lugar de referirme a los enfoques generales sobre la inferencia
causal (interpretativo, ley de cobertura, basado en los mecanismos, regu-
laridad/covariación, manipulación, escepticismo, propensión, sistema, de
arriba abajo, de abajo arriba, etc.) he intentado delinear las tareas, las es
trategias y los criterios que las personas que se identifican con esos enfo
ques reconocerían como legítimos (es decir, útiles). Si se quiere superar el
pluralismo causal, se recomienda examinar problemas metodológicos
i
menos complejos y más operativos.
394
Asimismo, cuando se debaten cuestiones causales específicas —¿con

duce el desarrollo económico a la democratización?, ¿aumentan los bo
nos escolares el logro educativo?— las discrepancias epistemológicas ra
ramente son prominentes.46 No está claro que las respuestas de la ley de
cobertura, el modelo covariacional, el modelo basado en los mecanis
mos, etc., sean tan diferentes. (Y, si lo son, no está claro que las diferen
tes respuestas tengan el mismo peso en nuestras deliberaciones.) Esto su
giere que los debates metodológicos pueden ser más importantes en el
nivel de la teoría que en el de la práctica. Algunos debates filosóficos son
meramente filosóficos.
Finalmente, desde un punto de vista práctico, la diversidad en el nivel
de los fundamentos probablemente no contribuye al progreso de las cien
cias sociales. Una explicación plural de la causación apenas tiene venta
jas. Si la causación significa diferentes cosas para diferentes personas,
entonces los argumentos causales no pueden coincidir. Digamos que se
permite a los buques navegar sigilosamente en la noche, por expresarlo
con una vieja metáfora. Consideremos las explicaciones de la causación
correlaciónales y las basadas en los mecanismos. ¿Qué hacer con una si
tuación en la que un autor apoya un argumento basado en las pautas co-
variacionales XI Y, mientras otro apoya el argumento contrario basado
en la existencia de mecanismos causales? ¿Podemos dirimir entre estos
argumentos si ninguno reconoce la relevancia del enfoque del otro? El
sentido común sugiere que tanto XIY (las correlaciones) como M (los
mecanismos) son elementos importantes del argumento causal. Así, aun
que podemos imaginar fácilmente situaciones en las que estos dos tipos
de evidencia conducen a diferentes conclusiones, de esto no se sigue que
sean inconmensurables.
Si apreciamos la acumulación y el consenso en las ciencias sociales,
defenderemos fuertemente prima facie una explicación unificada de la
causación.47 Desde una perspectiva normativa, la visión pluralista de los
distintos tipos causales no es convincente. La unidad, no la pluralidad,
i
debe ser el objetivo de toda metodología. (Esta idea conecta con lo dicho
en el primer capítulo, donde defiendo la importancia de la unidad meto
dológica en las ciencias sociales.)
Una explicación unificada
Ahora que los pluralistas han logrado fragmentar el tema de la causa

ción, creo que los miembros de la comunidad de las ciencias sociales tie
nen poderosos incentivos para volver a unirlo. Pero es crucial que esta
explicación unificada de la causación sea suficientemente inclusiva como
para unir todos los estilos de evidencia que consideramos útiles para
395
identificar las relaciones causales en las ciencias sociales. Esto incluye los
desiderata expresados por las diversas escuelas de la causación. La uni
dad es útil, pero no si se logra mediante un fíat definicional arbitrario
—a menos, por supuesto, que se pueda demostrar que algunos enfoques
son manifiestamente erróneos o inútiles para lograr la inferencia causal.
Espero que la explicación de la causación que se ofrece en la parte III
de este libro sea suficientemente convincente e inclusiva como para con
ferir algo de unidad a este fragmentado campo. Mis esfuerzos se apoyan
fuertemente en la estructura de los gráficos causales, que articularon Ju-
dea Pearl y sus colaboradores (capítulo 1l).48 Aun así, hay importantes
elementos de la inferencia causal que son difíciles de representar en un
gráfico. Aquí, también, encontramos limitaciones en lo que un solo con
junto de herramientas puede lograr.
Así, más que un modelo parsimonioso de la causalidad, este libro pre
senta un marco vago para la búsqueda del conocimiento causal. En mi
análisis de la definición de la causalidad (capítulo 8), de las metas de la ar
gumentación causal (tabla 8.1), de los objetivos de la inferencia causal (ta
bla 9.3) y de las estrategias que se pueden emplear para lograr inferencias
causales (tabla 10.1), el lector hallará una amplia variedad de perspectivas.
Algunas de ellas sobre la explanación causal y la inferencia podrían clasifi
carse como basadas en los mecanismos, otras como covariacionales; y hay
otros aspectos que podrían asociarse con otras escuelas de la causación,
como se ha señalado antes. Y hay aún otros que no se alinean claramente
con ninguna escuela o tradición. En este sentido, podríamos afirmar que
la misión del pluralista se ha cumplido con éxito.
Pero el marco propuesto también pretende ser unificado. No hay dife
rentes tareas, estrategias y criterios para cada escuela de la causalidad.
Hay un conjunto de tareas, estrategias y criterios que, en mi opinión, co
rresponden a todas las escuelas. Por ejemplo, aunque un autor decida
centrarse en el aspecto correlaciona! de una teoría causal en un estudio
dado, no deja de ser responsable de ignorar el aspecto de los mecanismos
de esa teoría, y viceversa. En este sentido, podríamos decir que la misión
del monista se ha cumplido con éxito. Obviamente, mucho depende de
cómo (en qué nivel) elegimos definir el pluralismo y el monismo.49
A modo de conclusión, quizás es justo señalar que el marco de este li
bro representa una explicación de la ciencia social que es a la vez plural
(porque hay muchas tareas, estrategias y criterios) y unitaria (porque
cada tarea, estrategia y criterio es ubicuo). En todo caso, cabe esperar
que este marco pueda contribuir a superar la fragmentación en las cien
cias sociales implícita en la proliferación de escuelas separadas, para no
vemos obligados a yacer en un lecho de Procusto que es demasiado pe
queño para incluir las diversas metas y diferentes temas de la ciencia so
cial contemporánea.
396
14 Establecer los estándares
«Como metodólogos, nuestro problema es definir nuestra posición entre los ex
tremos del escepticismo inerte y la ingenua credulidad...»
Donald Campbell1
«Si se insiste en pedir demostraciones estrictas (o refutaciones estrictas) en las

ciencias empíricas, nunca se sacará provecho de la experiencia ni se caerá en la
cuenta gracias a ella de lo equivocado que se estaba.»
Karl Popper2
Todas las tareas, las estrategias y los criterios señalados en los capítulos
de este libro se consideran válidos, ceteris paribus. Pero ceteris no son
siempre paribus. Un tema clave de este libro es que las elecciones meto
dológicas a menudo implican compensaciones. Satisfacer una dimensión
puede implicar sacrificar otra. Las tareas, las estrategias y los criterios
suelen entrar en conflicto. Por consiguiente, en cada dimensión de la ta
bla 1.1 y las tablas posteriores del libro podemos encontrar imperativos
conflictivos.3
La exhortación al descubrimiento entra en conflicto con la exhorta
ción a la apreciación precisa. En efecto, típicamente, la investigación ex
ploratoria se lleva a cabo de diferente forma que la investigación cuyo
397
objetivo primordial es confirmatorio (falsacionista), como vimos en el

capítulo 2.
Verdad y novedad (descubrimiento) suelen colisionar. Expresado en
un viejo aforismo: «Lo que es nuevo no es verdad, y lo que es verdad no
es nuevo».
Para desarrollar los conceptos, con frecuencia vacilamos entre las de
mandas de resonancia (es decir, la concordancia con el uso establecido),
por un lado, y las demandas de fecundidad, utilidad causal y operacio-
nalización, por otro. Las definiciones conocidas no siempre son útiles.
Pero los conceptos totalmente desconocidos —los que fuerzan los límites
del lenguaje común— son también confusos (capítulo 5).
Las demandas de una buena descripción (parte II) pueden entrar en
conflicto con las demandas de una buena explicación causal (parte III).
Las preguntas relativas a qué pueden requerir un enfoque diferente de las
preguntas relativas a por qué. Asimismo, la búsqueda de una teoría cau
sal fructífera (capítulo 8) puede entrar en conflicto con la búsqueda de
un diseño de investigación causal sólido (capítulos 9, 10 y 11).
Entre los criterios de una buena teoría causal, la demanda de am
plitud teórica se opone con frecuencia a la demanda de impacto cau
sal (capítulo 8). Los investigadores analizan este conflicto de diferen
tes formas que les conducen a estéticas divergentes. Algunos prefieren
explicar el 10 por ciento de la varianza entre 1.000 casos (privilegian
do la amplitud), mientras otros prefieren explicar el 90 por ciento de
la variación entre 10 casos (privilegiando el impacto). Esto se ha des
crito en algunas ocasiones como un contraste entre «agrupar» y «di
vidir».4
Algunas relaciones entre los criterios son no monotónicas. Por ejem
plo, se ha observado a menudo que la ampliación de una teoría la hace
más fácil de comprobar, porque al ampliar su alcance clarificamos la po
blación de la inferencia y, lo que es más importante, identificamos una
mayor serie de oportunidades empíricas para juzgar el éxito o el fracaso
de la teoría. Aquí, los criterios metodológicos encajan. Sin embargo, más
allá de cierto punto, si el alcance de una teoría se amplía, las prediccio
nes empíricas que emanan de la teoría tienden a multiplicarse y se hacen
más difusas. Deja de ser tan fácil identificar test de «superación» y «fra
caso». Esto es lo que encontramos con las teorías sociales de nivel macro
abstractas como las basadas en la obra de Smith, Marx, Weber, Durkheim
y Freud. Llegados a este punto, la exigencia de amplitud teórica y la de
apreciación precisa divergen. Así, la relación entre la amplitud teórica y
la falsabilidad se puede describir como la «curva de Kuznets» (una U in
vertida). Una teoría aplicable a un solo evento es difícil de falsar, como
¡o es una teoría que lo explica todo. El término medio es la proporción
áurea por la que luchamos.
398
He aquí algunas de las miles de compensaciones implicadas en la in

vestigación en las ciencias sociales. Es fácil identificar muchas otras.
(Quizás el lector lleve un registro minucioso.)
Beneficios
La perspectiva de las «compensaciones» que acabamos de articular satis

face al enfoque pluralista. Podemos elegir ser cualitativista o cuantitati-
vista, culturalista o racionalista, o cualquier otra cosa, y poner énfasis en
unos u otros elementos del marco. Todos los enfoques parecen haberse
validado, al menos en cierta medida o grado. La metodología de las cien
cias sociales es una gran carpa.
Pero si los autores son libres de priorizar criterios cuando creen que
son adecuados —quizás en consonancia con alguna teoría ex ante sobre
cómo funciona el mundo— ¿podemos afirmar que un investigador ha
hecho una elección equivocada? ¿Son todas las metodologías reducibles,
en última instancia, a compromisos (en ocasiones llamados paradigmas)
ontológicos (preempíricos)?5 ¿Se trata de una cuestión de gustos?
Existen varias respuestas para este supuesto dilema. Primero, las di
mensiones de qué implica el buen gusto no son ilimitadas. Aunque los es
pecialistas de las diferentes tradiciones pueden (indudablemente) elegir
qué criterios priorizar en un estudio dado, no crean sus propios criterios
(únicos). He afirmado que los desiderata de la tabla 1.1 son de alcance
universal (en las disciplinas de las ciencias sociales). Así, cuando un autor
renuncia a apoyarse en un criterio para apegarse más a otro, el valor del
trabajo resultante aumenta o disminuye correspondientemente.
En este sentido, muchas de las dicotomías que solemos emplear para
categorizar el trabajo en las ciencias sociales —teórico/empírico, N
pequeño/TV grande, experimental/no experimental, cualitativo/cuantitati-
vo, culturalista/racionalista, etc.— deberían entenderse como elecciones
de conjunto entre las diversas dimensiones de las tareas, las estrategias y
los criterios. Cada una de estas tradiciones de investigación es un esfuer
zo por maximizar un conjunto particular de virtudes minimizando la im
portancia del correspondiente conjunto de vicios. En efecto, las disputas
entre escuelas, teorías y métodos normalmente apelan a un conjunto co
mún de normas. (¿De qué otro modo podríamos convertir a los paga
nos?) Son estas normas de nivel básico las que he tenido siempre en men
te. Desde esta perspectiva, hay un desacuerdo algo menor del que parece
a tenor de los constantes vaivenes entre los defensores y detractores de
los diferentes campos teóricos y metodológicos. Cada uno ha elegido
maximizar diferentes bienes, pero los bienes en sí son ampliamente reco
nocidos.
399
Segundo, en el contexto de un estudio dado, algunas elecciones pue

den ser superiores a otras. Es decir, un conjunto de conceptos, argumen
tos y análisis puede conducir a una reconciliación mayor de las exigen
cias metodológicas que otro conjunto. Esto nos aboca a un enfoque
comparado que juzga un argumento o análisis frente a otros que podrían
ocupar su lugar (es decir, otros que explicarían el mismo fenómeno).
Siempre que existen compensaciones, el autor debe priorizar tareas, es
trategias y criterios, decidiendo así qué combinación proporciona el me
jor ajuste. Por ejemplo, debería ser posible decidir si es necesario un en
foque cualitativo, cuantitativo o una combinación de ambos (cualitativo/
cuantitativo) sobre un problema determinado. Y, en la medida de que
fuese posible, probablemente podremos embridar los debates intransi
gentes. La clave es transformar el discurso «filosófico» abstracto sobre
escuelas y tradiciones generales en discusiones pragmáticas sobre tareas,
estrategias y criterios específicos.
El trabajo en ciencia social es un proceso dinámico de ajuste, no una
actividad rígida gobernada por estrictas reglas precisas, como se des
prende de muchos textos metodológicos. Algunos ajustes son de suma
cero (compensaciones). Otros son de suma positiva (beneficios). Por lo
tanto, el marco metodológico que propone este libro es bastante diferen
te de un pluralismo metodológico que considera que todos los enfoques
son igual de fructíferos, y está a un mundo de distancia del «relativismo»
y la «inconmensurabilidad».6 Me gustaría concebirlo como un pluralis
mo dentro de unos límites, un anhelado punto intermedio entre la cami
sa de fuerza del positivismo lógico y el todo vale del postestructuralismo.
Sin duda, muchas metodologías proclaman para sí este fértil punto
medio. (Ni el positivismo lógico ni el postestructuralismo son muy popu
lares entre los científicos sociales de hoy.) Y hay tanto espacio entre estos
dos extremos que apenas ayuda a clarificar las cosas manifestar nuestra
lealtad a la proporción áurea. Pero este punto no es meramente retórico.
Todas las áreas de investigación deben encontrar acomodo entre la liber
tad y la constricción. Espero que el presente marco ofrezca un equilibrio
apropiado.
La investigación con múltiples métodos
Una posible solución al problema de las tareas, estrategias y criterios con

tradictorios la tenemos en la investigación con múltiples métodos (conoci
da también como triangulación). Para cada problema de investigación
aparecen cientos —o al menos varios— de diseños de investigación.7
Dado el gran número de tareas, estrategias y criterios que requieren
consideración en un trabajo de ciencia social, no es sorprendente que los
400
investigadores se encuentren a menudo en situaciones en las que varios

diseños de investigación ofrecen enfoques posibles para un problema
dado. Por ejemplo, la investigación sobre el efecto causal de los cupones
en el rendimiento escolar podría realizarse con diseños aleatorizados,
con un N elevado de evidencia no experimental (procedente de muchos
distritos escolares), o con estudios de caso en profundidad (de escuelas o
clases determinadas). Aunque el método experimental suele ser el mejor
diseño de investigación desde la perspectiva de la validez interna (con las
advertencias del capítulo 10), sería insensato ignorar otras opciones. A
menudo hay mucho que ganar de la diversificación de nuestra cartera.
En particular, la investigación observacional es en general esencial en la
fase inicial del descubrimiento. Advierta que construir un experimento
supone identificar una hipótesis fructífera en torno a la cual se puede
idear un tratamiento. Sin embargo, identificar una hipótesis fructífera se
deriva normalmente de encuentros no experimentales con el mundo. Por
esta razón, el trabajo experimental suele nutrirse de la investigación ob
servacional. Asimismo, la investigación observacional de N elevado suele
nutrirse de la investigación de naturaleza clínica o etnográfica —de estu
dios inductivos en los que las conclusiones se derivan de un conocimien
to profundo de un contexto particular.
Así, por varias razones, la investigación con múltiples métodos es
cada vez más popular en las ciencias sociales. Al mismo tiempo, debemos
tener precaución con las ambigüedades y las limitaciones de este disol
vente universal.
Primero, está el problema de definir el término clave: método (o diseño
de investigación). En realidad, las fronteras de un diseño de investigación
o método no siempre están claras, lo que significa que suele ser difícil de
finir en qué momento se deja un solo método y empieza el trabajo con
múltiples métodos. Por ejemplo, muchos experimentos implican la «des
cripción densa»: por ejemplo, entrevistas no estructuradas a participan
tes (normalmente en la conclusión del experimento) o la observación et
nográfica del experimento a medida que se desarrolla.8 En algunas
ocasiones, se escribe en una sección separada del libro o informe; en
otras, se desarrolla en el centro del análisis; y en otras, sirve meramente
de fondo, dando forma a las conclusiones del experimentador (sin co
mentarios formales). ¿En qué momento se ha pasado a la triangulación?
De modo similar, en el análisis de datos observacionales de N elevado
hay muchas o incluso infinitas maneras de estructurar un diseño de in
vestigación y de alterar ese análisis (ex post facto). Podríamos, por ejem
plo, cambiar la muestra, la población, las entradas y salidas clave o la
técnica de análisis. Cualquiera de estas alteraciones podría describirse
como un método discreto —o como un test de robustez dentro del mis
mo diseño de investigación general. La distinción entre «test de robus-
401
tez» e «investigación con múltiples métodos» es, por lo tanto, una cues
tión de gustos.
Nada de esto debe ensombrecer nuestro entusiasmo por la investigación
con múltiples métodos (o los test de robustez). Pero debe suscitar cierto es
cepticismo sobre el uso del término. Si el concepto de «método» es ambiguo,
el concepto de «investigación con múltiples métodos» lo es doblemente.
Debemos ser conscientes de los costes de emprender una investigación
en varios escenarios o con múltiples métodos. Como mínimo, un estudio
asi tardará más en realizarse, y se requerirá más espacio para describir
los resultados. Lo que es apropiado para un libro o disertación puede no
serlo para una publicación en una revista. Es más, el empleo de múltiples
métodos suele entrañar el despliegue de muchas y diversas habilidades y
capacidades, como por ejemplo, un nuevo vocabulario, el conocimiento
de un contexto histórico diferente, experiencia técnica adicional o la en
trada en un nuevo escenario. Esto no siempre es posible o práctico para
un investigador. Huelga decir que apenas se gana nada con un estudio
que emplea múltiples métodos de forma ingenua o superficial.
Sin embargo, ese mismo proyecto de investigación con múltiples méto
dos podría ser una empresa práctica para un grupo de investigadores que,
colectivamente, poseen las habilidades, los recursos, el acceso y el tiempo
necesarios para explotar el potencial de los diferentes métodos y/o investi
gar diferentes escenarios. Esto sugiere que puede ser útil conceptualizar la
investigación como un proceso iterativo en el que se combinan múltiples
métodos (de la mano de los diferentes especialistas), informando cada uno
al otro y contribuyendo con el tiempo al desarrollo de un campo.9
Recordemos que el avance del conocimiento no es una actividad soli
taria. Así, cuando diseñamos una investigación, tenemos que considerar
cómo encaja nuestra contribución en los esfuerzos que una comunidad
de especialistas dada está realizando. ¿Cuál es el valor concreto de perse
guir un enfoque determinado en relación con el trabajo existente sobre
un tema dado? La investigación con múltiples métodos normalmente
merece la pena, pero la respuesta a esta pregunta no se puede abordar
aislada en un campo de estudio. He aquí la perspectiva de un ciclo de in
vestigación, con múltiples participantes interactuando en el transcurso
de un periodo largo de tiempo y ofreciendo cada uno un conjunto dife
rente de habilidades para aplicarlas a un problema.
La investigación médica nos proporciona un buen ejemplo. Normal
mente, la investigación sobre una enfermedad empieza con la identifica
ción de un conjunto de síntomas que los clínicos llegan a clasificar como
un tipo determinado de enfermedad (nueva o vieja). Esto promueve el
acopio de datos observacionales, derivados inicialmente de fuentes fácil
mente disponibles. Los clínicos trabajan intensamente con pacientes que
padecen la enfermedad, administrándoles un tratamiento y anotando las
402
reacciones lo mejor que pueden (el método de estudio de casos). Pueden

también estudiar sujetos que están expuestos a la enfermedad, pero no la
contraen (la aproximación al caso desviado en la investigación de estudio
de caso). Los epidemiólogos hacen acopio de datos de poblaciones inten
tando identificar pautas generales derivadas de los datos observacionales
(análisis de casos cruzados de N elevado). Los biólogos trabajan en el ni
vel micro, buscando identificar pautas de la enfermedad en la célula (una
forma de análisis dentro de un solo caso, centrado en los mecanismos
causales). Finalmente, a partir de uno de estos flujos de investigación se
idea un tratamiento potencial, y los investigadores construyen un experi
mento para probarlo, primero con sujetos animales y luego, si los resul
tados son prometedores, con sujetos humanos.
De esta manera, la investigación médica se beneficia de diversos enfo
ques metodológicos. Cada uno se basa en un conocimiento práctico téc
nico o sustantivo diferente, a menudo alojado en diferentes disciplinas
como, por ejemplo, la medicina, la biología, la química, la salud pública
y la antropología médica. A pesar de la diversidad de métodos, éstos for
man parte de una única conversación sobre un tema —por ejemplo, el
VIH/sida— que, con el tiempo, suele contribuir a solucionar el proble
ma. La diversidad metodológica no supone obstáculo alguno (o al me
nos, ninguno insuperable) para la resolución de problemas.10
Con esto regresamos a la ambigüedad de la investigación con múltiples
métodos, que se puede realizar: (a) en un único estudio por parte de un in
vestigador que emplea múltiples métodos, (b) en un único estudio realizado
por una comunidad de investigadores, empleando cada uno de ellos un mé
todo diferente, (c) en múltiples estudios por parte de un solo investigador
que emplea un método diferente en cada estudio, o (d) en múltiples estudios
realizados por múltiples investigadores, empleando cada uno un método di
ferente en cada estudio. Decidir cuál de estos cuatro enfoques con múltiples
métodos sobre un tema debemos adoptar, es una cuestión práctica.
De esto se sigue que una persona que aplica un solo método para un
problema dado, o trabaja en el contexto de un único y pequeño escenario
de investigación, no necesariamente choca con el ideal del trabajo con
múltiples métodos. Pero es crucial que el trabajo producido por este in
vestigador sea conmensurable con la investigación realizada por otros in
vestigadores en otros escenarios. (Recuerde el lector nuestro análisis so
bre la conmensurabilidad —capítulo 3— y la acumulación —capítulo 4).
Así, el trabajo con múltiples métodos producido por múltiples investiga
dores puede ser auténticamente progresivo (en el sentido lakatosiano).
Desafortunadamente, este tipo de progreso no ocurre tan regularmente
en las ciencias sociales como quisiéramos. Como los programas de investi
gación suelen estar descoordinados (lo que implica elecciones diferentes
entre las distintas dimensiones del diseño de investigación), y como los es-
403
pecialistas se atrincheran en las diferentes comunidades de investigación

(publican sus trabajos en diferentes revistas y a menudo no citan a los
miembros de los campos metodológicos rivales), el trabajo que se realiza
con diferentes métodos no siempre se acumula. Simplemente se amontona.
Desde esta perspectiva, podría afirmarse que le corresponde al investi
gador individual o equipo de investigación la realización de análisis con
múltiples métodos —un camino difícil de recorrer, porque esa persona
tiene que reunir los conocimientos y las capacidades necesarias y tiene
que combinarlas simultáneamente.
En todo caso, la recomendación de practicar múltiples métodos es sa
ludable en comparación con la alternativa de un solo método. También
plantea preguntas estratégicas sobre qué métodos deben emplear quiénes
y cuándo. Y nos lleva a considerar la viabilidad de un estudio particular
dentro del contexto de un campo general de investigación. Sin embargo,
el enfoque con múltiples métodos no resuelve completamente el proble
ma de las compensaciones. De los miles de enfoques posibles que existen,
no nos dice cuál debemos adoptar en un caso determinado. Y no nos
dice cómo reconciliar los hallazgos divergentes que se han obtenido em
pleando diferentes métodos para el mismo problema.
Establecer los estándares
La metodología es un esfuerzo normativo. Apunta a establecer los están

dares para un campo y conjunto de campos. Así, se puede considerar
que las tareas, estrategias y criterios incluidos en la tabla 1.1 constituyen
un estándar general para la investigación en ciencias sociales.
¿Cuáles son, entonces, los estándares apropiados para un trabajo de
ciencias sociales? ¿Qué es lo que distingue una obra científica (es decir,
merecedora de ser publicada en un medio académico) de un trabajo pe
riodístico o de la cháchara informal en una cafetería?
El enfoque tradicional suscribe implícitamente un umbral estándar de
verdad. Aunque hay diferentes opiniones sobre dónde establecer este um
bral, la idea general es que podemos distinguir el esfuerzo científico del
que no lo es estableciendo un único umbral de adecuación metodológica.
Voy a defender, en cambio, una escala móvil, multidimensional, de la
verdad, el mejor estándar posible de adecuación científica.
Los test de umbral

El enfoque tradicional sobre la apreciación de la teoría causal en las
ciencias sociales se centra en las cuestiones de validez interna al respecto
404
de la hipótesis principal (la relación de X con Y dentro de la muestra ele

gida), que es valorada por medio de un test de significación estadística.
La verdad (llamada también validez) se concibe así de forma binaria: las
teorías, por lo tanto, se clasifican bien como verdaderas, bien como no
probadas, dependiendo de si traspasan un umbral elegido de confianza
(típicamente, el 95 por ciento) que permite rechazar la hipótesis nula.
Los popperianos auténticos considerarán estas categorías con más escep
ticismo: como «aún no refutadas» y «falsas». En la práctica es lo mismo.
La verdad no deja de ser dicotómica, y el valor de verdad se evalúa al
respecto de una única hipótesis nula.
Este conocido enfoque es muy sugestivo. Después de todo, la ciencia
está para algo y debe poder diferenciarse de otros dominios como, por
ejemplo, la conversación en cócteles, la retórica política y el periodismo.
El atractivo de la práctica convencional de la ciencia social es que parece
demarcar la ciencia de lo que no lo es de una manera clara y operacio-
nal. En cambio, unos criterios flexibles pueden abrir las puertas a practi
cantes descuidados y sin escrúpulos que propagan sinsentidos bajo el es
tandarte de la ciencia.
Sin embargo, las virtudes del enfoque tradicional, una vez inspeccio
nado a fondo, son más aparentes que reales. Los umbrales estadísticos, si
bien parecen precisos, suelen ser bastante arbitrarios. Por ejemplo, los es
tadísticos t significan algo muy diferente cuando se aplican a estudios ex
perimentales y a estudios no experimentales (capítulo 10). Apenas tienen
relevancia para la validez externa de un estudio si la muestra no se ha ex
traído aleatoriamente de una población (raramente se extraen así). No
tienen en cuenta otros rasgos potenciales de la inferencia que no se pue
den captar con claridad en una medición estadística (véase la tabla 9.3).
Además, esos umbrales son difíciles de controlar. Los especialistas tienen
fuertes incentivos para superar el umbral, por todos los medios, lo que
conduce a ocultaciones metodológicas que no son saludables para la
disciplina. Debemos contar también con el hecho de que los umbrales
—sean experimentales o no experimentales— tienden a excluir de la dis
ciplina el trabajo que no es cuantitativo, porque los umbrales son virtual
mente imposibles de aplicar en el contexto de los estudios cualitativos.
En términos más generales, hay que señalar que los umbrales presu
men un papel de verificación/falsación en la metodología de las ciencias
sociales: su función es distinguir las proposiciones verdaderas de las fal
sas. Sin embargo, como hemos visto, el papel de la ciencia es más general
e incluye tanto la generación como la comprobación de la teoría (capítu
lo 2). De esto se sigue que la metodología de las ciencias sociales debe
respetar tanto el objetivo del descubrimiento como el de la apreciación.
Por último, los umbrales de la verdad no nos dicen nada sobre el signifi
cado teórico o práctico de un hallazgo.11
405
Aunque limitáramos la tarea de la metodología a determinar la ver

dad o falsedad con respecto a la validez interna (antes que cuestiones
más generales de significado práctico o teórico), los test de significación
siguen siendo insuficientes. Nótese que decir que una correlación dada
entre X e Y es estadísticamente significativa al 95 por ciento no equivale
en absoluto a decir que tenemos el 95 por ciento de confianza en que la
hipótesis nula se pueda rechazar —por no mencionar la pretensión más
concreta de que el coeficiente estimado ha captado la naturaleza de esa
relación. Un umbral estadístico del 95 por ciento es simplemente una lí
nea trazada en la arena; no tiene significación intrínseca y no refleja las
estimaciones generales de incertidumbre en la mayoría de los escena
rios.12
La estadística no es la responsable. La responsabilidad reside en los
practicantes que sobreinterpretan los modelos estadísticos, cuya función
es bastante modesta si se tienen en cuenta todas las advertencias y su
puestos que los acompañan.
Una posición alternativa, en sintonía con el espíritu de este texto, es
considerar que el diseño de investigación (más que los resultados de un
test estadístico) establece un sine qua non para la ciencia. Pero en este
caso, también nos resulta difícil articular un umbral nítido que distinga
lo bueno de lo malo. Aunque probablemente todos estaríamos de acuer
do en que un experimento adecuadamente realizado superaría el listón
de la ciencia (siempre que tenga cierta validez externa y alguna relevan
cia teórica), pocos defenderían que se excluyeran de la caja de herra
mientas científicas todos los diseños de investigación no experimentales.
Un estándar más permisivo establecería el listón en lo cuasi experi
mental: debe aceptarse todo estudio que pueda reclamar semejanza con
un auténtico experimento, y rechazarse todo aquel que se sitúe por deba
jo del listón. Desafortunadamente, es difícil establecer y controlar este
listón, porque se basa principalmente en supuestos no comprobables so
bre el grado en que el proceso generador de datos se adecúa a un trata
miento verdaderamente aleatorizado y sobre la medida en que los proce
dimientos de modelado elegidos corrigen los elementos no aleatorios del
diseño de investigación. Los términos «cuasi experimento» y, su pariente
cercano, «experimento natural», son términos técnicos específicos.13
Nuestro problema, considerado en términos más generales, es que re
sulta difícil establecer un único umbral de adecuación científica que sea
significativo y útil en las ciencias sociales, o incluso en una sola discipli
na. Esto es una función de la diversidad de cuestiones que interesan a los
científicos sociales, de la diversidad de métodos empleados para tratar
esas cuestiones y de la complejidad fundamental del análisis descriptivo
y causal esbozada en los capítulos anteriores. Consideremos someramen
te los diversos criterios resumidos en la tabla 1.1. Pocos son susceptibles
406
de razonamiento estadístico convencional. De hecho, muchos de estos

factores no se pueden valorar fácilmente de forma cuantitativa, y es vir
tualmente imposible imaginar que se puedan agregar todos, con ponde
raciones apropiadas, en un único estadístico.
El mejor posible, una vez que consideramos todo

I Más que intentar especificar un umbral mínimo de verdad —que distin
I ga la ciencia de la charlatanería— tiene más sentido investigar la proba
bilidad relativa de que una teoría sea verdadera. En los últimos años se
ha apreciado en las revistas de ciencias sociales un movimiento de aleja
miento de los asteriscos (que miden los umbrales de probabilidad) y de
aproximación hacia medidas más flexibles de probabilidad, como, por
ejemplo, el estadístico t y los valores p, y las distribuciones de probabili
dad bayesianas.14 Todo esto es para bien, porque la verdad en las ciencias
sociales debe considerarse más bien como una cuestión de grado. Nada
es certero, como acentúan los popperianos, pero el grado de certidum-
bre/incertidumbre es, no obstante, importante (capítulo 4).
Más estimulante aún, consideraremos la noción de que la ciencia es
un concepto típico-ideal con múltiples dimensiones y carente de reglas de
agregación totalmente evidentes. En consecuencia, puede que no sea po
sible llegar a un indicador unidimensional de verdad, digamos que un es
tadístico t mejorado.
El enfoque unificado sobre la metodología de las ciencias sociales que
ofrece este libro no proporciona un test rápido y fácil para distinguir la
ciencia de la charlatanería. La difícil tarea de investigar sigue siendo difí
cil. Y sigue siendo difícil precisamente porque hay muchísimas metas di
vergentes en las ciencias sociales, muchísimas dimensiones de la buena
calidad metodológica (como se aprecia en la tabla 1.1), y ninguna condi
ción necesaria y suficiente que se aplique universalmente a los campos de
la antropología, la arqueología, los negocios, las comunicaciones, la de
mografía, la economía, la educación, el diseño medioambiental, la geo
grafía, el derecho, la ciencia política, la psicología, la administración pú
blica, la sanidad pública, las políticas públicas, el trabajo social, la
sociología y la planificación urbana.
Aunque un estándar relativo y multidimensional puede parecer bas
tante abierto, no todo vale. Lo que implica es que el investigador debe
buscar el diseño o diseños de investigación que maximicen la bondad
metodológica para un serie de dimensiones (relativamente definidas), re
conciliando las demandas divergentes siempre que sea posible. Por lo
tanto, la buena calidad de un diseño de investigación se puede valorar
sólo en referencia a todos los diseños de investigación posibles que se
407
han ideado, o podrían idearse, para abordar la misma pregunta de inves

tigación. El mejor significa el mejor posible.15
Esto permite que la investigación que nace de métodos alejados del
ideal experimental entre en el panteón de las ciencias sociales sin deshon
ra o menoscabo, pero sólo si no se puede encontrar un camino mejor.
Igual que la sociedad honra a los clásicos, los arqueólogos, los astróno
mos y a los físicos teóricos —a pesar de la naturaleza especulativa de su
oficio— debe honrar también a aquellos que trabajan en las arenas mo
vedizas de los datos observacionales en las ciencias sociales.
i
Desde luego, este estándar supone que los estudios basados en eviden
cia débil deben responder a una pregunta muy difícil: ¿se puede mejorar
un argumento o un diseño de investigación y, si se puede mejorar, en qué
circunstancias! He aquí una noción tremendamente resbaladiza. Sin em
bargo, es indispensable. Si el ideal de la investigación está fuera de nues
tro alcance —por mor de la falta de datos, la falta de financiación, la fal
ta de cooperación por parte de las autoridades pertinentes o por
consideraciones éticas— carece de sentido amonestar a un autor por no
alcanzarlo. La perfección se convierte en el enemigo del avance científico.
Debemos protegemos de la posibilidad de que el trabajo que añade valor
a lo que sabemos sobre un tema sea rechazado incluso cuando no hay
ningún enfoque mejor a la vista. Los estándares deben ser realistas.
Si, por otra parte, existe un enfoque mejor para un tema determinado
y los costes de su ejecución no son demasiado altos, un trabajo que deci
de no utilizar ese enfoque manifiestamente mejor será criticado abierta
mente y quizás rechazado en última instancia por «acientífico». Debe
mos protegernos de la posibilidad de que los enfoques subóptimos
excluyan a los óptimos simplemente porque los primeros adoptan méto
dos más fáciles o familiares para nosotros. La mediocridad no debe dete
ner la excelencia.
Por otra parte, buena parte de la inquietud de la actual Methodens-
treit en las ciencias sociales se debe a la creencia tácita de que existe (o
debería existir) un único estándar de adecuación que pudiera aplicarse a
todos los trabajos de ciencias sociales, o al menos a todo el trabajo en
una disciplina dada. Esta especie de monismo metodológico promueve
sentimientos de insuficiencia en muchos practicantes que no cumplen las
reglas rígidas de este «Test de Verdad». Esta especie de monismo meto
dológico promueve también modas metodológicas, como por ejemplo la
avalancha de trabajos que emplean experimentos naturales (que a menu
do no son muy experimentales), variables instrumentales (raramente con
buenos instrumentos) o estimadores de emparejamiento (que con fre
cuencia no resuelven el problema de la asignación). Son bazas metodoló
gicas maravillosas; pero suelen aplicarse inadecuadamente o se les da
una interpretación claramente optimista.
408
Debemos reconocer que el trabajo que se sitúa en las fronteras de las

ciencias sociales, igual que el trabajo en las fronteras de las ciencias natu
rales, es propenso a la incertidumbre. Es más, algunas cuestiones, como
la de las causas y los efectos de la democratización, nunca se comprende
rán con el grado de certidumbre que se alcanza en otras cuestiones, como
el efecto de los mosquiteros en la transmisión de la malaria. La incerti
dumbre no es fácil de superar en las ciencias sociales a menos que limite
mos nuestra actividad a temas anodinos. Si bien no perjudica en absoluto
demostrar lo obvio, y se puede aprender mucho de los experimentos, doy
por sentado que este estilo de investigación no agota las ambiciones de la
ciencia social. Hay mucho más que hacer.
La solución práctica es reconocer la incertidumbre en nuestra empre
sa, honesta y abiertamente. Así, los especialistas han desarrollado mane
ras informales de presentar evidencia cuyo estatus es dudoso. Los investi
gadores pueden calificar un hallazgo estadístico de «descriptivo» en
lugar de causal (aunque la motivación teórica del análisis sea causal). La
evidencia de cuestionable procedencia puede describirse como «hechos
estilizados» :oherentes con una teoría, pero en absoluto concluyentes.
En esta línea, tras presentar un modelo formal del desarrollo de la capa
cidad del Estado, Tim Besley y Torsten Persson señalan que «algunas
correlaciones entre los datos de los países son coherentes con la teoría».16
Estos recursos retóricos son útiles siempre que se supere la dicotomía
percibida entre la evidencia científica (evidencia que satisface los están
dares científicos aceptados y, por lo tanto, es admisible) y las intuiciones
no científicas (consideradas inadmisibles). En algunas ocasiones, la me
jor evidencia disponible es, no obstante, muy débil. En otras, la evidencia
débil desempeña una función de apoyo, en conjunción con un diseño de
investigación formal que proporciona la evidencia principal. En todo
caso, las correlaciones «descriptivas» y «los hechos estilizados» suelen
ser muy útiles para lograr la inferencia causal. No debe ser necesario ju
gar con las palabras con el fin de introducir evidencia relevante para re
solver un problema dado. No debemos escondemos tras la retórica.
Asimismo, no debemos aplicar un código rígido e inflexible a las téc
nicas analíticas que elegimos. En algunas ocasiones, la mejor técnica dis
ponible es una vulgar regresión simple de mínimos cuadrados. En otras,
la mejor técnica disponible es un análisis de variables instrumentales en
dos fases que puede violar uno de los supuestos del análisis de VI (no lo
podemos afirmar con seguridad porque no es directamente comproba
ble). A veces, la mejor técnica disponible es un estudio de caso que se •
apoya fundamentalmente en un análisis cualitativo de evidencia dentro
del caso. Todas estas técnicas carecen de la calidad definitiva de un expe
rimento. A este respecto, siempre serán herramientas inferiores del análi
sis causal.
409
Sin embargo, la función de un diseño de investigación es añadir co

nocimiento a un tema, no necesariamente proporcionar un análisis de
finitivo e incontrovertible de ese tema. Un estándar científico apropia
do se define, en consecuencia, por el diseño de investigación que es el
mejor posible en las circunstancias dadas. Estas «circunstancias» inclu
yen todo tipo de constricciones prácticas —el tiempo, el dinero, el acce
so. la cooperación, los datos disponibles, etc.—, así como cuestiones le
gales y éticas.
Un estándar más realista de verdad cabe esperar que obviará algo del
fingimiento y la deshonestidad que acompañan la publicación en las me
jores revistas de ciencia social, en las que los investigadores se ven obli
gados a fingir que han alcanzado los estándares de verdad más altos, con
independencia de las realidades del campo. La debilidad en el diseño y el
análisis deben ser abiertamente reconocidas en lugar de ocultadas en no
tas al pie u oscurecidas con jerga y test estadísticos infinitos. Al mismo
tiempo, estos elementos de incertidumbre no deben impedir la publica
ción en las mejores revistas, a menos, por supuesto, que haya mejores
métodos disponibles.
Todo esto es importante no sólo porque es una cuestión de honesti
dad intelectual, sino también para el progreso de las ciencias sociales.
Advierta que la acumulación de conocimiento en un campo depende más
crucialmente de la transparencia metodológica que de los resultados «es
tadísticamente significativos». Tenemos la oportunidad de lograr un con
senso sobre el impacto causal de un asunto difícil, como el de los cupo
nes escolares, siempre que los especialistas sean escrupulosos a la hora de
informar de las fuerzas y las debilidades de cada investigación, y siempre
que los resultados vayan acompañados de una estimación general de la
incertidumbre (tomando en consideración todos los factores). En cam
bio, hay pocas probabilidades de lograr un consenso si cada estudio se
esfuerza por encontrar algún hallazgo estadísticamente significativo, me
nospreciando las amenazas a la inferencia y guardando silencio sobre los
resultados estadísticamente no significativos.
Los estándares de la profesión requieren adaptarse para estructurar
los incentivos de los especialistas de una manera apropiada. Es de espe
rar que un estándar multidimensional y flexible, comprensible en rela
ción con otros diseños de investigación potenciales que podrían aplicarse
al mismo problema, cumplirá esta función.
Déjenme terminar con una perspectiva de la sociología de la ciencia
sobre la actual Methodenstreit.
Las posiciones más altas en los debates metodológicos las ocupan
aquellos que defienden la perspectiva más rigurosa y dirimente de la
ciencia. Son escépticos profesionales que se han atribuido a sí mismos el
papel de separar el reino de la ciencia social de los estudios desordenados
410
y no concluyentes (o de los que llegan con demasiada facilidad a una

conclusión). Todos los que no superan el listón son excluidos —al me
nos, de las revistas más competitivas. Así, se ha creado un reino del te
rror como reacción al reino del error que lo precedió.17
A buen seguro, es vital que se identifiquen las debilidades en los estu
dios existentes. Sin embargo, una vez identificadas, la pregunta relevante
que hay que formular sobre cualquier estudio no es si es bueno o malo en
un sentido abstracto, sino si puede mejorarse, dadas las constricciones
existentes. Si no puede mejorarse, entonces las críticas de ese estudio no
fomentan el avance de la ciencia, son meramente un mecanismo de jac
tancia. Karl Popper señala:
Las discusiones críticas serias siempre son difíciles... Muchos participantes en
una discusión racional, es decir, crítica, encuentran particularmente difícil tener
que desaprender lo que los instintos parecen haberles enseñado (y lo que inci
dentalmente se les enseña en toda sociedad en la que se debate), es decir, a ga
nar. Porque lo que tenemos que aprender es que la victoria en el debate no es
nada, mientras que hasta la menor clarificación del problema propio —incluso
la menor contribución a una comprensión más clara de la posición personal o
de la del adversario— es un gran éxito. Una discusión en la que usted gana, pero
no contribuye a cambiar o clarificar su posición al menos un poco debe conside
rarse una clara pérdida.18
Para que la ciencia social avance, se debe tener un espíritu de debate

abierto, y la naturaleza de ese debate debe ser deliberativa. No puede
consistir simplemente en la defensa del propio terruño o la defensa de al
guna perspectiva ideal de la ciencia social. Cabe esperar este debate, pero
sólo si las interacciones entre los especialistas se centran en las mejores
soluciones posibles más que en umbrales absolutos de adecuación meto
dológica, y sólo si los especialistas reconocen toda la gama de criterios
metodológicos que informan correctamente un juicio de adecuación.
411
• "j 4 . .
' i • •' ¡ '

Epílogo
Justificaciones
Espero que los lectores consideren que el enfoque que he elegido para la
metodología de las ciencias sociales es un enfoque acorde al sentido co
mún. En realidad, no he inventado ninguna de las tareas, estrategias y
criterios que desarrollo aquí (aunque he dado nombres a cosas que care
cen de etiquetas convenidas), y muchos de ellos han sido tratados por ex
tenso. Desde esta perspectiva, el presente libro se puede considerar un
compendio de truismos —una función, cabe añadir, que comparte toda
obra integradora sobre metodología.1 La primera justificación del marco
que propongo, y quizás la más importante, es que representa una forma-
lización de lo que ya sabemos.
No obstante, seguro que los lectores tendrán reparos sobre algunos ele
mentos de mi argumentación. Quizás discrepen del criterio de generalidad,
por ejemplo. Quizás les guste lo que he dicho sobre la descripción, pero no
sobre la causación. ¿Cómo podemos dirimir este tipo de disputas?
Aunque se pudieran resolver estas disputas haciendo un recuento de
pareceres, esto no sería suficiente. El hecho de que cuatro o cinco científi
cos sociales acepten la generalidad como un criterio básico de las cien
cias sociales no supone una buena razón para que el quinto se sume a
esta aceptación. Ha de haber alguna razón, alguna lógica subyacente,
que debe expresarse en este tipo de debate metametodológico.
Por lo general, el asunto de la justificación es evitado por los metodó-
logos, quienes recurren a reglas específicas pero a menudo no clarifican
las razones de sus elecciones. Así, sin abordar las razones de una meto-
413
dologia no podemos defender un enfoque contra otro o, para el caso, de

fender la empresa de las ciencias sociales. Por lo tanto, en cierto modo,
recurrir a las grandes cuestiones «filosóficas» es esencial, aunque no nos
podamos permitir el lujo de abarcar totalmente este complejo campo con
el detalle y los matices que merece.
Podemos hallar una línea de defensa en los atributos definitorios de
nuestro término clave: la ciencia social. «Social» especifica el objeto de
estudio, y «ciencia» el objetivo metodológico. En el primer capítulo seña
lé que la ciencia tiene muchos atributos definitorios, entre ellos la acumu
lación. la evidencia, la falsabilidad, la generalización, la no subjetividad,
la racionalidad, la capacidad de replicación, el rigor, el escepticismo y la
transparencia. Si estamos dispuestos a aceptar esta definición de la cien
cia tenderemos a aceptar el marco unificado como elaboración de estas
metas generales. Este último se deriva de la primera.
Pero ¿qué podríamos decir a aquellos que cuestionan la idea misma
de la ciencia social, o aquellos que tienen diferentes ideas sobre cómo
debe definirse la ciencia? Aquí recurro a una línea argumental pragmáti
ca. El pragmatismo sugiere que para resolver las cuestiones de la adecua
ción, debemos tener cierta noción de qué funciones, propósitos o metas
se espera que logre una institución. Si nuestro propósito es normativo
—si. por ejemplo, queremos mejorar el estado de las cosas en un área de
terminada de la actividad humana— es lógico partir de una pregunta
pragmática: ¿qué esperamos que logre la ciencia?2
Esta pregunta teleológica se le puede formular a cualquier disciplina,
o a cualquier actividad humana en la que las consecuencias de la acción
humana se pueden valorar razonablemente. Por ejemplo, si estamos in
vestigando el mercado de valores para ver cómo pueden mejorarse sus
operaciones, podríamos empezar preguntándonos qué significarían esas
mejoras. ¿Qué funciones esperamos que cumpla un mercado de valores?
¿Cómo sería un «buen» mercado de valores? La línea de investigación
del pragmatista también se puede plantear en la forma de un contrafácti-
co: ¿qué pasaría si no existiese? En esta pregunta están implícitas las si
guientes preguntas adicionales: ¿existe otra institución que pueda reali
zar esas funciones con más eficacia? ¿Excederían sus costes a sus
beneficios? Me imagino que en el caso del mercado de valores la investi
gación conduciría inmediatamente a varias conclusiones: (a) su propósi
to principal es reducir los costes de transacción entre inversores y empre
sas, es decir, aumentar el capital; (b) ninguna otra institución que
conocemos lo hace con eficacia; (c) su relativo éxito en hacerlo se puede
juzgar, entre otras cosas, por la cantidad de dinero que aumenta y la es
tabilidad de los precios de mercado en el largo plazo.
Digamos que el propósito de la ciencia social es ayudar a los ciudada
nos y a los diseñadores de las políticas a comprender mejor el mundo,
414
Epílogo: Justificaciones
con la idea de cambiar ese mundo. La ciencia social debe proporcionar

respuestas útiles a preguntas útiles. Robert Lynd planteó este argumento
hace muchas décadas, y sus palabras siguen pareciendo verdaderas. La
ciencia social, escribe,
no es un arcano académico, sino una parte organizada de la cultura que existe
para ayudar al hombre a comprender y reconstruir continuamente su cultura. Y
es el carácter mismo de la cultura y los problemas que ésta presenta como un
instrumento para promover los propósitos de los hombres lo que debería deter
minar los problemas y, hasta cierto punto, el equilibrio de métodos de investiga
ción en las ciencias sociales.3
Muchos otros han expresado este mismo sentimiento general, antes y

después de las palabras de Lynd.4 En efecto, la supuesta conexión entre
la ciencia social y el progreso social ha estado presente desde los prime
ros años de las disciplinas que hoy en día calificamos de ciencias sociales.
La Sociedad Estadística de Londres, uno de los primeros intentos orga
nizados de desarrollar el método y el empleo de la estadística, propuso
en 1835 dirigir la atención a la siguiente pregunta: «¿cuál ha sido el efec
to de la prolongación educativa en los hábitos de las personas? ¿Son aho
ra las personas más ordenadas, abstemias y felices, o al contrario?»5 Con
independencia de lo que pensemos sobre las perspectivas implicadas en
esta pregunta de investigación, es claro que los primeros estadísticos se
interesaron por el papel que podía representar el conocimiento en el
cambio social. Parafraseando a Marx (varias décadas después): el propó
sito de la reflexión académica no es meramente interpretar el mundo,
sino también reformarlo —quizás incluso revolucionarlo.
Los metodólogos no han captado por completo todas las implicacio
nes potenciales de esta simple tesis. Dicho llanamente, cualquier tipo de
metodología de la ciencia social que pueda producir conocimiento útil
debe ser bienvenido; todo aquel que no tienda a producirlo debe ser des
cartado.6
Cierto, la «utilidad» no siempre es evidente por sí misma. Mucho de
pende de nuestros horizontes temporales (lo que es útil hoy puede no ser
lo mañana y viceversa). Y las funciones de utilidad varían. No supongo
que todo el mundo llegue a estar de acuerdo en una sola vara precisa de
medir con la que poder evaluar la utilidad de la ciencia social. Una ver
sión vulgar del pragmatismo implica que un solo fin, universalmente
acordado, debe guiar todas nuestras acciones. Para Dewey, sin embargo,
el pragmatismo significa «que es bueno reflexionar sobre un acto en tér
minos de sus consecuencias y actuar en función de esa reflexión. La reve
lación de las consecuencias puede hacer posible un mejor juicio del
bien».7 En esta línea, es más importante responder a la pregunta del pro
pósito de la ciencia social de una manera seria y reflexiva que dar una
415
respuesta muy específica. Las respuestas variarán seguramente de un lu

gar a otro, en diferentes momentos y entre las personas. Lo que sí parece
seguro es que si ignoramos totalmente la pregunta —refugiándonos en
nuestros búnkeres académicos aislados para realizar nuestros propios ti
pos de investigación (posiblemente bastante idiosincrásicos)— probable
mente estaremos lejos del éxito.
En el momento histórico presente podemos evocar la prosperidad, la
paz. la democracia, la libertad individual, los derechos humanos y la jus
ticia social como objetivos convenidos por toda la sociedad. En la medi
da en que las ciencias sociales arrojan luz sobre estos fenómenos, pode
mos afirmar que están realizando la tarea que se les ha asignado. A este
respecto, el pragmatismo proporciona un denominador común. Y pode
mos ir más lejos.
La conclusión metodológica más obvia a la que llegamos desde el prag
matismo es que la ciencia social debe ser relevante para los problemas y las
preocupaciones actuales. El décimo criterio de todo argumento (capítulo
10) capta esta conclusión. Desde luego, cualquier insensato puede ser rele
vante simplemente porque aborda cuestiones que preocupan al público ge
neral. La relevancia, por sí misma, consigue poca cosa. Para servir al bien
común, una obra también tiene que añadir algo de valor a nuestra com
prensión de un tema. Opinar no es suficiente. El fin de la utilidad social,
por lo tanto, presume algo más que la simple relevancia.
A muchos de nosotros nos gustaría saber por qué los hutus asesinaron
a los tutsis con tanta saña en 1994. Cualquier trabajo sobre Ruanda, o
sobre el genocidio en general, es, por lo tanto, relevante. Pero, obviamen
te, no todos los trabajos sobre estos temas tienen el mismo valor. Las
teorías que están equivocadas, por ejemplo, son menos útiles que las teo
rías verdaderas.8
De esto se sigue que debe celebrarse toda tarea, estrategia o criterio
metodológico que contribuya a proporcionar conocimiento útil. Cual
quier tarea, estrategia o criterio que no lo proporcione (o lo proporcione
sólo de manera irregular) debe descartarse. Éste es el tipo de argumento
que yo utilizaría, si me desafiaran, respecto de los diversos elementos de
la tabla 1.1. Todas las tareas, estrategias y criterios deben ser justificables
como herramientas pragmáticas, ayudándonos a comprender el mundo
de formas que son útiles para los ciudadanos y los diseñadores de las po
líticas. Así, el pragmatismo proporciona un fundamento filosófico para
resolver los debates metodológicos y nos permite movernos más allá de
los debates metodológicos estériles y esencialmente irresolubles entre los
diferentes campos filosóficos («culturalista», «interpretativista», «racio
nalista», «positivista», «postestructuralista», etc.). Más que elegir entre
campos, preguntémonos en concreto qué tareas, estrategias y criterios es
tán implicados en cada campo. Y formulemos entonces la pregunta prag-
416
mática: ¿las ciencias sociales, así orientadas, nos pueden decir algo sobre
cosas que nos interesan? ¿Nos permite esta metodología alcanzar un
consenso societal sobre problemas importantes? ¿Puede integrarse en
una política democrática? ¿Qué perspectiva de la ciencia social es proba
ble que se demuestre, en el largo plazo, más útil para la sociedad? Aun
que son difíciles, estos contrafácticos proporcionan cierta orientación a
los debates metametodológicos.
La práctica de La ciencia social
No pretendo desplegar una defensa de la primacía de la ciencia social en

la historia humana. Es importante recordar que por mucho que luche la
ciencia social por ser útil, la resolución de problemas como el racismo, la
pobreza y la propagación del sida requiere mucho más que una ciencia
social de calidad. Requiere, entre otras cosas, debates de calidad y actua
ciones convincentes. Ciertamente, la causa de los derechos civiles se ganó
más con imágenes visuales —protestantes pacíficos diseminados con ca
ñones de agua y golpeados por la policía— que por medio de la ciencia
social. Los sermones de Martin Luther King Jr. resonaron con más fuer
za que el análisis detallado y minucioso de Gunnar Myrdal en su obra
El dilema americano.9 Más allá de la retórica, el cambio social requiere
poder político, como lo atestigua el movimiento a favor de los derechos
civiles —y todos los movimientos a favor del cambio social.
Pero al margen de su relativo impacto en la política, las políticas pú
blicas y la opinión pública, el trabajo de las ciencias sociales probable
mente se hace mejor si somos fieles a los estándares propios de su cam
po.10 A los ciudadanos y los diseñadores de las políticas no les ayuda
nada que haya un campo de la antropología que no se diferencia del de
la teología, o que el campo de la ciencia política sea indistinguible del de
la ideología de los partidos. Si Christopher Jencks, un renombrado ex
perto en política social, abordara los problemas de la misma manera que
lo hace Edward Kennedy —o, para el caso, Ronald Reagan— entonces
no necesitaríamos consultar las ideas del profesor Jencks. Lo que los aca
démicos como Jenks tienen que añadir al debate político se basa en su
pericia. ¿Y cuál es el fundamento de su pericia si no es la práctica de una
ciencia social de calidad? La buena ciencia social puede ser útil, pero la
mala nunca podrá serlo.
En efecto, ignorar voluntariamente la metodología científica tiene pe
nosas consecuencias en el largo plazo para la ciencia social, y también
para aquellos que consideran que la ciencia social representa un impor
tante papel para transformar la sociedad. Cuando los científicos sociales
renuncian al análisis sistemático en favor de la polémica, comprometen
417
la legitimidad de la empresa de la que forman parte y desde la que obtie

nen la relevancia de la que disfrutan en el momento, cualquiera que ésta
sea. Igual que los jueces distinguen finamente entre su papel constitucio
nalmente asignado y su deseo de influir en la política pública, los cientí
ficos sociales deben también distinguir finamente entre la ciencia y la so
ciedad. El día en que esta distinción desaparezca, la ciencia social
perderá su atractivo como vocación.
A lo largo de este libro el lector seguramente discernirá un argumento
de doble filo. Por un lado, me opongo a la postura pospositivista que dice
que hay poco más que el fingimiento académico de separar la ciencia so
cial de otros modos de discurso y argumentación. Me opongo asimismo a
la idea de una ciencia social modelada a partir de las ciencias naturales
—o, quizás, a partir de una visión antigua de las humanidades— según la
cual la ciencia social se considera esencialmente como una práctica autó
noma de las preocupaciones de la gente corriente.
Exploremos esta tensión con más detalle.
Las demandas y exigencias —en unas ocasiones financieras, en otras
personales y, en otras más, partidarias— que experimentan los científicos
sociales en el «mundo real» suelen considerarse detrimentos para el tra
bajo científico apropiado. «A un científico social no le corresponde, en
tanto que científico, ser una parte de la política del poder», escribe Lynd.
«Cuando trabaja bajo los límites del poder constrictor de una “línea de
partido” republicana o comunista o cuando contiene su esfuerzo científi
co hurtando problemas más importantes y aceptando trabajar como ex
perto para fines partidarios de un banco o una agencia de publicidad,
aquel no llega a ser un científico». Sin embargo, Lynd añade perceptiva
mente: «cuando el científico social se oculta en el distante “espíritu de la
ciencia y la academia” por miedo a una posible contaminación, tampoco
llega a ser un científico».11
Los científicos sociales ocupan posiciones de clase y estatus en la so
ciedad, como todo el mundo. Tienen en juego intereses personales y pro
fesionales en lo que hacen, igual que todos nosotros. Es insensato supo
ner que alguien puede prescindir de estas influencias de clase y estatus
cuando realiza una investigación sobre precisamente esas mismas cues
tiones. De hecho, las investigaciones informadas por la experiencia per
sonal pueden ser más perceptivas que las que parten de una hipótesis
muy deductiva derivada de la teoría. No es posible ni deseable que los
académicos que estudian el comportamiento humano se despojen de
toda noción de sí mismos, aislándose en una burbuja de cientifísmo.
Como han señalado los especialistas y académicos anclados en la tradi
ción hermenéutica, la implicación con la sociedad es la sustancia de don
de debe evolucionar cualquier comprensión de la sociedad. No es posible
obtener conocimiento de lo abstracto.
418
Por lo tanto, las presiones mundanas son tanto una bendición como
una maldición para la ciencia social. En algunas ocasiones, parece que
no podemos vivir científicamente con el mundo. Pero igual de cierto es
que no podemos vivir científicamente sin él. Thomas Bender lo expresó
bastante bien: «Decir que la universidad debe estar conectada con la so
ciedad no es decir que debe ser una sinécdoque del mundo. Pero ninguna
de las dos debe reclamar una posición de trascendencia».12 En mi opi
nión, este problema carece de solución general; cada investigador debe
luchar por su propia empresa. La conclusión apropiada es por lo tanto
agnóstica: la implicación de un académico con el Estado, los negocios, la
administración de la universidad o con otras instituciones ajenas a la
ciencia social no es intrínsecamente ni buena ni mala.
Esto es lo que podemos decir, también, sobre el papel de la ciencia so
cial frente al statu quo. A buen seguro, como Durkheim señala, «si ha de
haber una ciencia social, habremos de desear que no solo parafrasee los
tradicionales prejuicios del hombre común, sino que nos ofrezca una vi
sión nueva y diferente de ellos, pues el objetivo de todas las ciencias es
hacer descubrimientos, y todo descubrimiento suele, de algún modo, per
turbar las ideas aceptadas».13 Lynd secunda la noción de una ciencia so
cial «perturbadora»: «Si la ciencia social acepta más o menos acrítica
mente la definición de sus problemas porque ésta ha sido establecida por
la tradición y los supuestos comunes del momento, y considera que su
papel es la descripción y el análisis de las situaciones así definidas, lo que
pierde, si esos problemas están erróneamente definidos, es la importante
oportunidad de contribuir a la “emancipación del error” ».14
Al mismo tiempo, sería insensato que el rechazo del statu quo fuese el
punto de partida de la investigación en la ciencia social, como aparente
mente aconsejan algunos escritores anclados en la teoría crítica. Brian
Fay sugiere que la ciencia social debe liderar el camino hacia las transfor
maciones futuras de la sociedad:
suponiendo una forma determinada, es decir, una forma que aisla en las vidas
de un grupo de personas aquellas condiciones causales que dependen para su
fuerza de la ignorancia de esas personas respecto a la naturaleza de su existencia
colectiva y que están frustrándolas. La intención aquí es ilustrar a ese grupo de
personas sobre esas condiciones causales y los modos en que son opresivas, de
manera que esas personas, en la medida en que se les ha ilustrado, pueden cam
biar las condiciones y transformar así sus vidas (y, al mismo tiempo, transcender
la teoría original).15
¿Debemos suponer, como punto de partida, que la conciencia existente

es falsa, que el conocimiento existente cosifica una estructura opresiva?
Esto parece tan falto de sentido como lo contrario, la conservadora glo
rificación del statu quo.
419
En mi opinión, el recurso adecuado reside en mantener las normas de

la ciencia social —en general, la metodología— más que en cultivar una
actitud determinada hacia la sociedad o el statu quo. Esto no debe impe
dir a los académicos actuar con otros títulos: como polemistas, políticos,
activistas y burócratas. Esto nos debe disuadir, sin embargo, de etiquetar
estas actividades de una manera errónea. La línea entre el activismo y la
ciencia social es real, y merece la pena preservarla. Creo que es posible
ser un activista de primera línea y un académico de primera línea, pero
probablemente no al mismo tiempo o en la misma página.
Debemos empezar reconociendo que la ciencia social constituye un
ámbito de esfuerzos independiente, aunque nunca totalmente autónomo.
El truco consiste en hacer que la ciencia social nos hable de los proble
mas que nos preocupan sin sacrificar el rigor que la cualifica como cien
cia. No es un truco fácil, pero es propio del oficio.
420
Apéndice: Algunas palabras
I
sobre el estilo
l
I
I
«La mayoría de las personas que de algún modo se preocupan por el tema admi
tiría que la lengua inglesa va por mal camino, pero por lo general suponen que
mediante la acción consciente no podemos hacer nada para remediarlo. Nuestra
civilización está en decadencia y nuestro lenguaje —así se argumenta— debe
compartir inevitablemente el derrumbe general. De aquí se deriva que toda lu
cha contra el abuso del lenguaje es un arcaísmo sentimental, como cuando se
prefieren las velas a la luz eléctrica o los coches de caballos a los aviones. Bajo
todo esto yace la creencia semiconsciente de que el lenguaje es un desarrollo na
tural y no un instrumento al que damos forma para nuestros propios propósitos.
Ahora bien, es claro que la decadencia de un lenguaje ha de tener finalmente
causas políticas y económicas: no se debe simplemente a la mala influencia de
este o aquel escritor. Pero un efecto se puede convertir en causa, reforzar la cau
sa original y producir el mismo efecto de manera más intensa y así sucesivamen
te. Un hombre puede darse a la bebida porque piensa que es un fracasado y lue
go fracasar por completo debido a que bebe. Algo semejante está sucediendo
con la lengua inglesa. Se ha vuelto fea e imprecisa porque nuestros pensamien
tos son necios, pero la dejadez de nuestro lenguaje hace más fácil que pensemos
necedades. Lo importante es que el proceso es reversible. El inglés moderno, en
especial el inglés escrito, está plagado de malos hábitos que se difunden por imi
tación y que podemos evitar si estamos dispuestos a tomarnos la molestia. Si
nos liberamos de estos hábitos podemos pensar con más claridad y pensar con
claridad es un primer paso necesario hacia la regeneración política: de modo
que la lucha contra el mal inglés no es una preocupación frívola y exclusiva de
los escritores profesionales.»
George Orwell*
421
No puedo evitar insertar algunas palabras sobre las propiedades estilísti

cas de la ciencia social. Aunque no es algo metodológico en el sentido es
tricto del término, es no obstante difícil separar los desiderata de la escri
tura de calidad de los desiderata de la argumentación de calidad. Kristin
Luker comenta:
Escribir requiere la intervención de una parte muy diferente del cerebro que la
que requiere leer y hablar debido... [a que] es la puerta que abre lo mágico. Una
vez alguien le preguntó a Balzac —quien vivía de escribir críticas de obras— que
si le habia gustado una obra que acababa de ver. «¿Cómo puedo saberlo aho
ra?», se dice que respondió. «¡Aún no he escrito la crítica!». Balzac quiso decir
algo: creo que cuando escribo cosas, escribo y pienso cosas sobre las que nunca
antes había pensado realmente. Los novelistas dicen que a veces sus personajes
hacen cosas que sorprenden a los propios autores, y creo que ésta es la versión
sociológica de ese fenómeno.2
A este respecto, la escritura comparte algunas características en todos los

campos en los que se emplea. Parafraseando a Orwell, la escritura de
buena calidad es reflexión de buena calidad.
Sin embargo, los criterios estilísticos de las disciplinas de las ciencias
sociales son, en algunos aspectos, diferentes de los que propiamente se
aplican a otros campos. En mi opinión, los objetivos de la exposición
apropiados para trabajar en las ciencias sociales se resumen en el criterio
de la inteligibilidad. Es difícil imaginar un trabajo útil de ciencias sociales
que no sea también, al menos mínimamente, claro y comprensible. Po
dría decirse que éste es un importante rasgo que debería distinguir a la
ciencia social de las humanidades (y quizás de las ciencias naturales tam
bién). Consideremos este argumento brevemente.
En las humanidades algunos escritores son bastante fáciles de digerir
para el lector general. Pensemos, por ejemplo, en ensayistas como Geor-
ge Orwell (la cita que abre este apéndice), George Steiner, E. B. White y
Edmund Wilson —maestros todos de la lucidez y enemigos del lenguaje
pretencioso. Siguiendo una vieja y venerable tradición de las artes y las
letras, estos escritores consideraban su obra como una extensión del pen
samiento crítico y de una vida cultivada, no como un producto especiali
zado del esfuerzo académico. En la última mitad del siglo pasado, sin
embargo, muchos escritores influyentes en las humanidades, como Theo-
dore Adorno, Paul De Man, Jacques Derrida, Michel Foucault, Jürgen
Habermas, Fredric Jameson y Jacques Lacan decidieron alejarse de la
lengua común. Y crearon sus propios léxicos y locuciones idiomáticas
que sus lectores deben dominar para que sus textos sean comprensibles
(al menos mínimamente). (Aun así, legiones de críticos y partidarios dis
cuten sobre los significados contenidos en escritos producidos por estos
maestros de la intriga literaria.) Espoleados por la «teoría», los campos
422
Apéndice: Algunas palabras sobre el estilo
de las humanidades empezaron con gran entusiasmo y determinación a

cortar las líneas de comunicación que en su día los conectaron con la
cultura general. Por consiguiente, los departamentos de humanidades
hoy día no son un ejemplo ni de alta cultura ni de cultura popular, sino
de algo que podría llamarse cultura académica?
Los partidarios de la deconstrucción protestarán lógicamente que no
es el objetivo de las humanidades tener un formato fácilmente digerible
del tipo de la televisión. En un mundo aparentemente secuestrado por
las formas vulgares y mercantilizadas de arte y ocio, ciertamente hay un
espacio para modos de discurso más críticos y exigentes. Desde esta pers
pectiva, los pobladores de la academia sirven mejor a la humanidad
manteniendo una posición de principio ajena a las convenciones de la
cultura popular que acomodándose servilmente al idioma común.
He presentado este debate con bastante crudeza precisamente porque
creo que no tiene fácil solución. Es un debate que está en el corazón de
las humanidades, donde la demanda de excelencia estética suele entrar en
conflicto con la demanda de aplauso general. En suma, parece que a
priori no hay demanda alguna de inteligibilidad en los campos que com
prenden las artes y las humanidades.
En las ciencias sociales las cosas son diferentes. Si la ciencia social
quiere tener algún efecto diferente del de lograr la permanencia laboral
de quienes la practican, debemos encontrar maneras de trasladar sus co
nocimientos a la lengua vernácula.
La especial necesidad de inteligibilidad se manifiesta con más claridad
si contrastamos las ciencias sociales con sus parientes del otro extremo
del espectro académico. Las ciencias naturales pueden influir también en
un público amplio, como, por ejemplo, en los debates sobre la evolución,
el calentamiento global y la genética. Pero no tienen necesidad de hacer
lo y, normalmente, no lo hacen. No necesitamos saber mucho sobre cli
matología para hacer uso de los informes sobre el tiempo, sobre medici
na para hacer uso de la radioterapia, o sobre informática para usar el
ordenador. Podría decirse que las ciencias naturales han tenido su mayor
impacto en la humanidad en áreas en las que el común de los hombres y
las mujeres ignoran la ciencia implicada.
Los temas de la ciencia social son diferentes en el sentido de que re
quieren decisiones por parte de los diseñadores de las políticas y el públi
co laico, y esas decisiones son más complicadas que la decisión sobre si
comprar una televisión de pantalla plana o una televisión convencional.
De nada sirve descubrir los beneficios y las desventajas de un sistema
electoral si no podemos influir en el debate público sobre la reforma elec
toral. El conocimiento sobre los efectos de la inversión pública y privada
no aporta beneficio alguno si los economistas son los únicos poseedores
de ese conocimiento.4 Cualquier conocimiento que los sociólogos tengan
423
sobre las fuentes del racismo no ayudará a nadie a superar esa condición
si los sociólogos son los únicos depósitos de esas verdades. Un árbol ta
lado en el bosque de las ciencias sociales no se nota.
Sin duda, los burócratas diseñadores de políticas suelen ser especialis
tas y cabe esperar que entiendan un nivel más técnico de discurso que el
público de masas. Aun así, la cima de la pirámide de los gobiernos está
poblada por decisores que por lo general no poseen el tiempo y la forma
ción necesarios para entender argumentos técnicos complejos. A los polí
ticos les gustaría saber cómo mantener la inflación bajo control sin nece
sidad de dominar la ciencia lúgubre. Por lo general, no son graduados de
disciplinas de ciencias sociales, ni tienen el hábito de leer revistas especia
lizadas.
Esto no significa que las revistas especializadas deban dejar de publi
carse en favor de revistas y sitios de internet de gran difusión. Significa
que los argumentos desarrollados en aquellas revistas especializadas
trasciendan finalmente a un público más amplio. Para asegurarnos de
que esto ocurra, o de que exista alguna probabilidad de que ocurra, la
ciencia social debe ser inteligible.
El problema de la inteligibilidad, hay que señalar, afecta igualmente a
los entornos democráticos y a los que no lo son. Los reyes, los oligarcas
y los generales, igual que las personas a las que gobiernan, no se inclinan
a aprender por si mismos los intríngulis de la estimación por empareja
miento. Llevar la ciencia social a la gente es directamente análogo a lle
var la ciencia social al príncipe. Maquiavelo, como Mili, tiene que hablar
en una lengua comprensible para el común de las personas.
Entonces, ¿qué es lo que hace que una obra sea inteligible? El criterio
principal es algo que describiré (aunque de forma vaga) como buena es
critura. Una obra debe estar organizada coherentemente de forma tal
que evite repetir hasta la saciedad los mismos puntos. No es una tarea fá
cil y requiere varios borradores. En una ocasión, Pascal pidió disculpas a
un corresponsal así: «Si he escrito esta carta tan larga es porque no he te
nido tiempo de hacerla más corta.» {Je n’ai fait celle-ci plus longue que
parce que je n’ai pas eu le loisir de la faire plus coarte). Reacciono así ante
una buena cantidad de trabajos de ciencia social.5
La escritura debe emplear un lenguaje estándar y un mínimo de ter
minología especializada.6 A diferencia de la redacción en otros lugares, la
buena ciencia social debe privilegiar la claridad y la simplicidad. Los au
tores deben exponer sus argumentos explícitamente y no dejar cabos
sueltos. Los lectores no deben tener que adivinar el significado que prer
tende dar el autor. Cuando leemos obras de determinados autores (por
ejemplo, Bourdieu, Foucault, Parsons, Pocock, Unger) percibimos que se
requieren habilidades de interpretación propias de un exégeta bíblico
para descifrar sus pasajes. La discusión sobre el argumento de un autor
424
es una indicación de que ese autor no ha dedicado suficiente atención al

criterio de la inteligibilidad. El estilo confuso en ciencias sociales, aunque
sea elegante y entretenido en sus frases o párrafos, constituye mala cien
cia social. En efecto, las carencias de la ciencia social pueden estar muy
relacionadas tanto con la «metodología» como con el problema más
mundano de la comunicación eficaz.
Para que la ciencia social sea inteligible, haremos bien en adherirnos
lo más posible a los términos del discurso cotidiano. «El fetichismo del
concepto», como C. Wright Mills lo llama, oscurece lo que ya sabemos al
denominarlo de otro modo, y en verdad oscurece las ideas nuevas al en
cubrirlas con un vocabulario novedoso.7 Ante la duda, no use neologis
mos (capítulo 6). Construir una ciencia social en abstrusos lenguajes ma
temáticos o teóricos subvierte el objetivo de comunicar las verdades de la
ciencia social a una audiencia general.
Desde luego, los defectos de comunicación no siempre son culpa del
científico social. Los métodos de las ciencias sociales son en ocasiones tan
complejos que no se pueden simplificar. No podemos esperar que el lector
lego medio entienda todas nuestras técnicas de análisis. Pero sí que los
científicos sociales resuman sus hallazgos con simplicidad, quizás relegan
do la discusión técnica a notas a pie de página, tablas, capítulos sobre los
métodos o apéndices. Si la lógica de un argumento no se puede comunicar
en lenguaje cotidiano, probablemente no será muy lógico. Walt Rostow
señaló una vez, a modo de excusa por uno de sus ensayos de historia eco
nómica poco especializado (que empieza como una serie de clases a estu
diantes de grado): «hay artilugios oscuros y tentaciones recreativas que les
son negadas al profesor de estudiantes de grado».8 Creo que debemos to
marnos esta justificación más en serio de lo que sugiere Rostow. Escribir
para una audiencia lega requiere una claridad de exposición que con fre
cuencia subestimamos en nuestro trabajo académico especializado, donde
el recurso a términos de moda clave y a citas de la literatura pertinente
suelen sustituir el argumento claro. Para algunos autores la tarea de la co
municación con un audiencia lega supone una carga, pero quizás es justo
el tipo de carga que se les requiere que soporten.
Quiero aclarar que no defiendo que toda la ciencia social se realice en
lenguaje cotidiano. Antes bien, estoy subrayando que para que las proposi
ciones puedan influir en la vida de los ciudadanos, tienen que poder tradu
cirse, en algún momento, a la lengua vernácula. Una teoría que no se pue
de entender es, sólo por esta razón, menos útil. Una teoría con un alcance
mayor de comprensibilidad, cuyo argumento lo pueden captar cantidades
más elevadas de público general, es (ceteris paribus) una teoría mejor.
El lema de la exposición escrita en las ciencias sociales se puede resu
mir en este principio: «al infierno la belleza, intentemos comunicar algu
na verdad».
425
I
Glosario
Este glosario de términos clave se ha realizado consultando otros léxicos (por

ejemplo, Gerring, 2007; Seawright y Collier, 2004; Shadish, Cook y Campbell,
2002; Vogt 2005). Prioriza las definiciones especializadas, comunes en los contex
tos metodológicos o desarrolladas en este libro. Estas definiciones a menudo se ex
presan en el lenguaje de la estadística, aunque los objetivos de amplio alcance de
este volumen requieren en ocasiones un alejamiento del léxico estadístico. El lec
tor también debe tener en mente que muchos de estos términos tienen un signifi
cado en el lenguaje común, que debe deducirse claramente del contexto.
Al lado de cada entrada he intentado identificar varios sinónimos o antóni
mos para que los lectores puedan crear vínculos entre campos y subcampos. La
mayor parte de estos términos no son sinónimos o antónimos exactos; sin em
bargo, su significado es lo suficientemente parecido como para ser confundido
con el término que se está definiendo y/o para ayudar en la clarificación de su
significado.
Cuando dos o más definiciones del mismo término son muy diferentes, cada
definición diferente se identifica con números romanos dentro de cada entrada.
La mayoría de los términos están definidos en el texto, adonde los lectores
pueden acudir para su exposición más clara. Cuando es oportuno, se incluyen
referencias a las diferentes partes, capítulos, tablas y figuras del libro.
A Véase Causa antecedente.

Ajustes estadísticos En este texto, el conjunto de procedimientos estadísticos
que sirven para rectificar los sesgos en el análisis causal, especialmente los
que produce la asignación no aleatoria del tratamiento. En general, se pre-
427
sentan dos tipos de ajustes estadísticos: (a) condicionamiento a confundido-

res: y (b) test de robustez. Véase el capítulo 10.
Aleatorización La asignación aleatoria de casos a los grupos de tratamiento y
de control. Es el sello distintivo del método experimental. Contrástese con
Maestreo aleatorio. Véase el capítulo 10.
Amenazas a la inferencia Véase Confundidor.
Análisis basado en casos Todo análisis centrado en un número modesto de uni
dades relativamente delimitadas (casos).
Análisis comparado cualitativo (ACC) Método para analizar relaciones causa
les desarrollado por Charles Ragin que se centra en las relaciones necesarias
y suficientes, las causas coyunturales y la equifinalidad causal, normalmente
en el contexto de una muestra grande o de tamaño medio. Las versiones pos
teriores del ACC (ACCcd) incorporan elementos de probabilismo y la teoría
de conjuntos difusos. Véase el capítulo 12.
Análisis de casos más similares (conocido también como Método de la diferencia de
J. S. Mili) Método de Estudio de caso en el que los casos elegidos son simila
res en todos los respectos salvo en las variables de interés teórico (X y/o Y).
Análisis de variable instrumental (VI) Diseño de investigación no aleatorizado
que se utiliza para corregir el sesgo, especialmente el introducido por la asig
nación no aleatoria del tratamiento. Un buen instrumento es una variable o
vector de variables que: (a) está altamente correlacionado con la variable tra
tamiento y (b) no tiene ningún efecto en el resultado salvo el que puede ocu
rrir a través de la variable tratamiento (la restricción de la exclusión). Véase el
capítulo 11.
Análisis histórico comparado Método de estudio de caso centrado en una pe
queña cantidad de regiones o Estados donde la variación espacial adopta el
formato de «los casos más similares» y la variación temporal incluye el fac
tor o factores causales de especial interés.
Apreciación Véase Descubrimiento!Apreciación.
Argumento (conocido también como Explicación, Hipótesis, Inferencia, Modelo,
Proposición, Teoría) Un argumento completo consiste en un conjunto de
conceptos clave, hipótesis (conocidas también como proposiciones) verifica-
bles, y quizás en un modelo formal o un marco teórico general. Un argumen
to causal debe contener también una explicación de los mecanismos causales,
como se puede apreciar en el capítulo 8. Un argumento es aquello sobre lo
que conjeturamos que puede ser verdad sobre el mundo; forma parte de la
teorización. A menudo es importante distinguir entre los argumentos en dife
rentes niveles de abstracción. En el más abstracto podemos describirlos
como teorías de nivel macro, marcos teóricos o paradigmas. En un nivel lige
ramente menos abstracto están las teorías o modelos de nivel intermedio. En
el nivel más concreto hablamos de hipótesis, inferencias, teorías de nivel micro
o proposiciones, que supuestamente son directamente comprobables. (Las ex
plicaciones pueden ser de cualquier nivel.) Asimismo, es importante tener en
mente que a menudo es difícil discernir entre los diferentes niveles de abs
tracción. Así, los términos aquí mencionados suelen emplearse indistinta
mente en el texto. Véase el capítulo 3.
428
Glosario
Asignación (conocida también como Exposición, Selección) Regla o procedi

miento del análisis causal mediante el cual se asigna (o selecciona) un trata
miento a las unidades. Determina si las unidades reciben o no el tratamiento
y, si lo reciben, cuándo y qué nivel de tratamiento reciben. Puede ser mani
pulado por el investigador o puede ocurrir naturalmente. La aleatorización
es la regla de asignación que define un diseño de investigación experimental
(al menos tal y como se concibe en este texto y en buena parte de la ciencia
social contemporánea). Cuando un tratamiento se asigna no aleatoriamente,
esto crea un problema de asignación (conocido también como efecto de selec
ción o sesgo de selección). En los gráficos causales (véase la figura 11.2) éste
se representa como un confundidor de causa común. Los diseños de investi
gación no experimentales y los ajustes estadísticos pueden a veces rectificar
los confundidores que introduce la asignación no aleatoria. Si lo logran, po
demos afirmar que la asignación de un tratamiento es ignorable, es decir, in
dependiente de o «aleatoria» respecto del resultado y de los confundidores
potenciales. Se ha logrado la independencia condicional. (Estos últimos térmi
nos los desarrolló Donald Rubin y sus colaboradores y se usan ampliamente
en la literatura estadística, aunque no desempeñan un papel central en el tex
to.) Véanse los capítulos 9, 10 y 11.
Asociación I: Véase Covariación. II: En este texto, la asociación también tiene
un significado más concreto. Es un tipo de argumento descriptivo que se cen
tra en las relaciones —comparaciones o contrastes— entre los indicadores o
los conjuntos (casos). Su rasgo clave es que siempre hay al menos dos indica
dores o conjuntos que se examinan y no se presume ninguna relación tipoló
gica. Se pueden distinguir tres tipos de asociaciones: (1) tendencia, (2) red y
(3) correlación. Véase el capítulo 6.
Autoselección Véase Confundidor.
B Véase Covariable.
C Véase Confundidor.
Cadenas causales (conocidas también como Secuencias) Tipo de relación cau
sal en la que hay muchas causas intermedias entre Xe Y. Véase el capitulo 8.
Camino causal Véase Mecanismo causal.
Caso (conocido también como Unidad) Fenómeno espacialmente delimitado
que se observa en un solo momento en el tiempo o durante un periodo de
tiempo, como por ejemplo un grupo político o social, una institución o un
evento. Un caso pertenece al mismo nivel de análisis que la inferencia princi
pal. Así, si una inferencia atañe al comportamiento de Estados nacionales,
los casos en ese estudio serán los Estados nacionales. Un caso individual
puede también dividirse en una o más observaciones, en ocasiones descritas
como observaciones dentro del caso. El término unidad es sinónimo de caso
la mayoría de las veces, con la única diferencia de que un caso suele denotar
un enfoque intensivo en el propio caso (y quizás algún tipo de límites tempo
rales), mientras una unidad es simplemente aquello que examinamos como
evidencia para una proposición.
Caso crucial (conocido también como Caso critico) Método de estudio de caso
que ofrece sobre todo evidencia convincente que apoya o invalida una propo-
429
sición. Supone dos variedades: casos menos similares y más similares. Un

caso menos similar es aquel que apenas tiende a validar las predicciones de
un modelo o una hipótesis. Si se identifica como válido, puede considerarse
como evidencia confirmatoria fuerte. Un caso más similar es aquel que tien
de grandemente a validar las predicciones de un modelo o una hipótesis. Si
no se identifica como válido, puede considerarse como evidencia no confir
matoria fuerte.
Caso desnado Método de estudio de un caso en el que el caso o casos elegidos
ejemplifican los valores desviados de acuerdo con algún modelo general.
Causa antecedente (conocida también como Causa previa) Factor que afecta al
factor causal de interés teórico primordial (X) pero carece de efecto directo
en Y. Véanse las figuras 8.1 y 9.1 que acompañan el texto en los capítulos 8
y 9. donde la causa antecedente es A.
Causa común Confundidor que afecta tanto a X como a Y. Véanse la figura
11.2 y el texto que la acompaña en el capítulo 11.
Causa constante Tipo de relación causal en la que una causa opera continua
mente en un resultado. Contrástese con las intervenciones causales discretas.
Véase el capítulo 8.
Causa de evento único Causa de hecho.
Causa de hecho (conocida también como Causa real, Causa singular, Causa de un
solo evento, Causa en el nivel del casó) Aquello que explica un resultado de
terminado en un caso determinado. Contrástese con: efecto del tratamiento,
una visión contrafáctica de la causación. Capítulo 9.
Causa distante Véase Distancia causal.
Causa en el nivel del caso Véase Causa de hecho.
Causa intermedia Véase Mecanismo causal.
Causa próxima Véase Distancia causal.
Causa real Véase Causa de hecho.
Causa singular Causa de hecho.
Causa suficiente Véase Determinista.
Causación recíproca Véase Endogeneidad.
Causalidad Afirmar que X es ¡a causa de Y es afirmar que un cambio en X ge
nera un cambio en Y en comparación con lo que hubiera sido de Y si X no
hubiera intervenido (la condición contrafáctica), dadas determinadas condi
ciones de fondo y condiciones de alcance (supuestos ceteris paribus). Otra
manera de expresarlo es que una causa, si en realidad es una causa, aumenta
Ja probabilidad de que un resultado ocurra. Las relaciones causales pueden
ser de muchos tipos, resumidos en la tabla 9.2. Véanse los capítulos 8 y 9.
Causalidad coyuntura! Un tipo de relación causal en la que una combinación
determinada de causas que actúan juntas produce un efecto. Véase el capítu
lo 8.
Causalidad irreversible Véase Causalidad reversible.
Causalidad lineal Una relación causal en la que el impacto de X sobre Y es
constante, esto es, no cambie con el valor de X (al menos dentro del rango
especificado). Contraste: causalidad no lineal, en la que el impacto de X so
bre Y varía. Véase el capítulo 8.
430
Glosario
Causalidad monotónica Tipo de relación causal en la que un aumento (o dismi

nución) del valor de X causa un aumento (o disminución), o ningún cambio,
en Y. Contrástese con Causalidad no monotónica. Véase el capítulo 8.
Causalidad no lineal Véase Causalidad lineal.
Causalidad no monotónica Véase Causalidad monotónica.
Causalidad reversible Tipo de relación causal en la que un aumento de X gene
ra un efecto positivo (o negativo) en Y, y una disminución de X genera un
efecto negativo (o positivo). Contrástese con Causalidad irreversible, en la
que X tiene efectos «trinquete» en Y. Véase el capitulo 8.
Causas de los efectos Véase Efectos de las causas!Causas de los efectos.
Causas probabilísticas Factores causales que están imperfectamente relaciona
dos con Y (hay excepciones, que se pueden representar con un término de
error) aunque X sea la causa de Y. Contrástese con Deterministas. Véase el
capítulo 8.
Ceteris paribus Igualdad de condiciones. I: salvedad que atañe a todos los cri
terios que se incluyen en el marco unificado de este libro. Véanse los capítu
los 1 y 13. Ilt condiciones de fondo supuestas en todos los argumentos cau
sales. Afirmar que X causa Y es afirmar que X aumenta la probabilidad de Y
si se mantienen constantes las condiciones ceteris paribus. Véanse los capítu
los 8 y 9.
Ciencia En este texto se concibe como un tipo ideal. En concreto, es el com
promiso de estudiar los fenómenos de forma sistemática, rigurosa, basándo
nos en la evidencia, de forma falsable, replicable, generalizable, no subjetiva,
transparente, con escepticismo, de forma racional, acumulativa y abierta tan
to a la inferencia causal como a la descriptiva. Véase el capítulo 1.
Ciencia social Se ocupa del estudio científico de los aspectos decisionales de la
conducta humana (pero no excluye el estudio de las influencias no decisiona
les en esa conducta). En términos metodológicos, se sitúa entre las humani
dades y las ciencias naturales. Incluye las disciplinas contemporáneas de la
antropología, la arqueología, los negocios, las comunicaciones, la demogra
fía, la economía, la educación, el diseño medioambiental, la geografía, el de
recho, la ciencia política, la administración pública, la salud pública, las polí
ticas públicas, el trabajo social, la sociología, la planificación urbana, y el
área de la psicología centrada en resultados en los que se evidencia algún
componente decisional. Véase el capítulo 1.
Circularidad Véase Confundidor endógeno.
Claridad En este texto es un criterio de la argumentación causal. Concreta
mente, todos los argumentos causales deben clarificar la operacionalización
de X e Y, la variación prevista en X e Y, las condiciones de fondo supuestas y
las condiciones de alcance. Véase el capítulo 8.
Coherencia (antónimo: Incoherencia) Un criterio de los conceptos. En concre
to, la coherencia en el significado dado a un concepto en toda la investiga
ción. Véase el capítulo 5.
Colinealidad Cuando múltiples factores causales en una muestra están alta
mente correlacionados, convirtiendo en imprecisa la valoración del efecto
causal de JV en Y.
431
Colisionador Tipo de confundidor por el que un factor condicionado es afecta

do tanto por X como por Y. Véanse la figura 11.2 y el texto que la acompaña
en el capítulo 11.
Comparabilidad causal (conocida también como Equivalencia, Intercambiabilidad,
Sustituibilidad, Homogeneidad de la unidad) Criterio del análisis causal. Espe
cíficamente, el valor esperado de Y para un valor dado de X debe ser el mismo
para todas las unidades de la muestra. Si lo es, podemos decir que un grupo de
unidades es causalmente comparable, o equivalente, respecto de una hipótesis
dada. Una comprensión mínima de este criterio requiere sólo que las unidades
sean comparables entre sí en promedio, lo que equivale a decir que una tasa de
error elevada entre las unidades es satisfactoria mientras su distribución se cen
tre en la media verdadera (es decir, mientras el error sea aleatorio). Una com
prensión máxima de la comparabilidad causal, en ocasiones expresada como
homogeneidad de la unidad, implica que las unidades deben evidenciar respues
tas idénticas de Y para un valor dado de X entre las unidades —un ideal que
raramente, si es que alguna vez, se logra. Comoquiera que se comprenda, la
comparabilidad causal de una muestra debe mantenerse durante todo el análi
sis, es decir, hasta que se hacen los postest finales.
Comprobación Véase Descubrimiento!Apreciación.
Concepto Se pueden distinguir cuatro elementos en un concepto empírico: el
término (denominación lingüística formada por una o pocas palabras); los
atributos, que definen los fenómenos a los que se refiere el concepto (defini
ción, intensión, connotación o propiedades de un concepto); los indicadores,
que ayudan a localizar el concepto en el espacio empírico (la medición u ope-
racionalización de un concepto); y los fenómenos que se definen (los referen
tes, la extensión o denotación de un concepto). Véase el capítulo 5.
Concepto acumulativo Estrategia para la formación de un concepto que intenta
reconciliar los enfoques mínimo y máximo ordenando los atributos (binarios)
usualmente asociados a un concepto de forma acumulativa, es decir, como
más o menos esencial para un concepto, creando una escala ordinal. Véase el
capítulo 5.
Concepto de parecido familiar Un concepto que se puede definir de muchas
maneras, pero las definiciones no comparten ningún atributo. Derivado de la
obra de Ludwing Wittgenstein. Véase el capítulo 5.
Condicionamiento (conocido también como Estratificación, Subclasificación,
Análisis de subgrupo, Descomposición tabular) Incluir un factor Z en un
modelo estadístico (por ejemplo, un modelo de regresión o de emparejamien
to), o desagregar ese factor en sus partes componentes (en realidad es lo mis
mo). Por ejemplo, si Z es el «sexo», condicionar a Z nos permite comparar
los diferentes valores de ese factor, es decir, 0 = hombre, 1 = mujer. Si Z es el
factor de interés teórico, entonces el objetivo es comparar cómo se relacio
nan los valores del «sexo» con otro factor o factores. Si Z no es el factor de
interés teórico, entonces el objetivo es probablemente «controlar» este factor
en un análisis centrado en otros factores. En este último caso, mantener Z
constante significa valorar el impacto de algún otro factor, X, en los hombres
yen las mujeres (por separado). Véase el capítulo 11.
432
Glosario
Condiciones de alcance Véase Delimitación.

Conductismo Z: Metodología asociada a John Watson y B. F. Skinner según la
cual los elementos significativos de la acción social se manifiestan en la con
ducta más que en las ideas o actitudes. II: Metodología implícita según la cual
la meta de la ciencia es investigar el mundo de forma principalmente inductiva,
es decir, con hipótesis de pequeño calibre. Asociada a menudo con los métodos
cuantitativos de análisis. (El segundo significado es el que se usa en el texto.)
Confirmación Véase Apreciación.
Confundidor (conocido también como Fuente de sesgo. Amenaza a la inferencia)
En este texto, todo factor que podría interferir en una atribución de causali
dad procedente de la evidencia covariacional, es decir, todo que lo produce
una asociación espuria o sesgada entre X e Y. En concreto, un confundidor
es un factor (o vector de factores) que influye en el resultado (Y) y no es in
dependiente del tratamiento (X), dada la estrategia elegida de condiciona
miento. Su asociación con X es lo que diferencia un confundidor (C) de una
covariable ortogonal (B) en la figura 9.1.
La mayoría de confundidores adoptan la forma de rutas de «puerta trasera»
(secuencias causalmente ordenadas) desde Y hasta X. Ante la presencia de
puertas traseras, la variación en Y no se puede atribuir sólo a X porque hay
otros factores que están operando. Otra manera de concebir los confundido
res es que introducen problemas de no independencia o de incomparabilidad
entre las unidades, como puede apreciarse en el capítulo 9.
Distinguimos tres tipos de confundidores. (1) Confundidores pretratamiento
(conocidos también como sesgo de asignación o de selección), entre ellos la
autoselección para un tratamiento (cuando la asignación del tratamiento está
gobernada por los sujetos que se están estudiando). Este tipo es quizás el
más común y el más difícil de resolver de todos confundidores.
(2) Entre los confundidores postratamiento están el desgaste (la pérdida de suje
tos durante un estudio, por ejemplo, por mortalidad), el incumplimiento (cuan
do los sujetos no cumplen las instrucciones, es decir, cuando miembros asigna
dos al grupo de tratamiento no son tratados o miembros del grupo de control
reciben el tratamiento), la contaminación (conocida también como desborda
miento, interferencia, se da cuando los grupos de tratamiento y de control no
han sido eficazmente aislados uno de otro, creando la posibilidad de que miem
bros de un grupo afecten a miembros del otro grupo de formas relevantes para
el resultado estudiado), los efectos de reputación (cuando la reputación del tra
tamiento en opinión de los sujetos, más que la condición del tratamiento en sí,
tal y como ha sido definida por el investigador, afecta a un resultado), los efec
tos del investigador (conocidos también como del experimentador, Hawthorne)
(cuando la condición de estar siendo estudiado o ser objeto del test, más que el
tratamiento de interés teórico, afecta a un resultado), y los efectos de test (cuan
do las respuestas a un test están influidas por un test previo o por las expectati
vas derivadas de experiencias en test previos más que por el tratamiento en si).
(3) Los confundidorse pre/postratamiento en los estudios longitudinales in
cluyen la historia (conocida también como tendencias, donde el tratamiento
está correlacionado con algún otro factor que afecta al resultado de interés, es
433
decir, cuando la variación en el transcurso del periodo de observación se debe

a algún factor diferente del tratamiento), la regresión a la media (cuando un
cambio observado en el transcurso del periodo de tiempo es un producto de
la variación estocástica más que del tratamiento de interés) y los efectos de
instrumentación (un cambio en la medición de un resultado —u ocasional
mente un estimulo— a lo largo de un estudio de forma tal que puede alterar
la estimación del efecto de X en Y). Éstos se resumen en la tabla 9.3.
Los confundidores también se pueden conceptualizar usando gráficos causa
les. como se aprecia en la figura 11.2 y el texto que la acompaña en el capítulo
11. Así. podemos distinguir la causa común (conocida también como confundi
dor clásico), con un efecto causal tanto en X como en Y; el confundidor inciden
tal. que afecta a Y y está correlacionado con X, pero no debido a alguna rela
ción causal identificable; el confundidor de tratamiento compuesto, que no
distingue entre un factor causal de interés teórico y un confundidor; el confun
didor de mecanismo, por el que un factor condicionado es endógeno a X; el co-
lisionador, por el que un factor condicionado es afectado tanto por X como
por Y: el confundidor antecedente, por el que un factor condicionado afecta a
Y sólo a través de X; y el confundidor endógeno, por el que Y afecta a X. Ad
viértase que cuando tratamos los confundidores normalmente presumimos
una sola estrategia de inferencia causal que se basa en la covariación de Xe Y.
Confundidor antecedente En los análisis de N pequeño a mediano, tipo de con
fundidor en el que un factor condicionado, C, afecta a Y sólo a través de X,
introduciendo así problemas de colinealidad entre X y C. Contrástese con:
análisis de variable instrumental, donde una causa antecedente se emplea
como un instrumento en un análisis de dos fases. Véanse la figura 11.2 y el
texto que la acompaña en el capítulo 11.
Confundidor de mecanismo Un tipo de confundidor en el que un factor condi
cionado, C, que afecta a Y es endógeno a X. Véanse la figura 11.2 y el texto
que ¡a acompaña en el capítulo 11.
Confundidor de tratamiento compuesto Tipo de confundidor que hay cuando ni
X ni un factor, C, que está correlacionado con X (y puede afectar a Y), son
medibles por separado. Véanse la figura 11.2 y el texto que la acompaña en el
capítulo 11.
Confundidor endógeno Véase EndogeneidadlExogeneidad.
Confundidor incidental Tipo de confundidor que afecta a Y y está correlaciona
do con X, pero no debido a alguna relación identificable. Véanse la figura
Confundidores de condicionamiento Una estrategia para lograr la comparabili-
dad causal que consiste en eliminar confundidores y que se usa principal
mente con datos no experimentales. En concreto, este enfoque consiste en
condicionar a factores que de otro modo confundirían la relación entre X e
Y, y de evitar condicionar a otro factor que crearía un confundidor allí don
de no existe ninguno. Véase el capítulo 11.
Conjuntos difusos Conjuntos que reconocen grados de pertenencia, así como
fronteras entre los conjuntos. Véanse los capítulos 7 (en el contexto de la me
dición) y 12 (en el contexto del ACC).
434
Glosario
Conmensurabilidad (conocida también como Consiliencia, Armonía, Economía

lógica, Utilidad teórica) Un criterio que atañe a todos los argumentos. En
concreto, un argumento que encaja sin problemas dentro de un marco teóri
co general, o que reorganiza ese marco para crear más economía lógica en
un campo. Un argumento que es idiosincrásico, que no se fundamenta en
otras inferencias, es inconmensurable, es decir, adhoc. Véase el capítulo 3.
Consistencia Un criterio que atañe a todos los argumentos. En concreto, el
grado de consistencia interna. Véase el capítulo 3.
Construcción de bloques (conocida también como Emparejamiento, Estratifica
ción) Método de asignación aleatorizada que intenta minimizar el ruido de
fondo: (a) estratificando una muestra mediante un conjunto de características
de fondo consideradas relevantes para la relación causal, y luego (b) aleatori-
zando el tratamiento dentro de cada grupo estratificado (que puede consistir
sólo en un par de casos). Contrástese con: aleatorización simple, en la que un
tratamiento es aleatorizado entre las unidades sin una estratificación previa.
Contaminación Tipo de confundidor. En concreto, cuando los grupos de trata
miento y de control no son eficazmente aislados uno del otro, creando la po
sibilidad de que miembros de un grupo influyan en miembros del otro grupo
de formas relevantes para el resultado estudiado. Véase la tabla 9.3.
Contrafáctico Aspecto crucial de todo argumento causal. En concreto, el esta
do de cosas que se hubiera obtenido con la ausencia de una intervención, o
con una intervención diferente. Véase el capítulo 8.
Control (conocido también como Grupo de comparación, Grupo placebo) I: En
un diseño de investigación, grupo que se considera que muestra el supuesto
contrafáctico, es decir, lo que hubiera ocurrido en el grupo de tratamiento si
no hubiese estado expuesto al tratamiento. Para realizar esta función, el gru
po de control debe ser causalmente comparable con el grupo de tratamiento.
II: En los modelos estadísticos se refiere a una variable o vector de variables
que son de interés periférico pero que pueden contribuir a lograr la compara
ción causal o a reducir el ruido de fondo.
Correlación Véase Covariación.
Covariable ortogonal Véase Covariable.
Covariable I: Todo factor, diferente del factor teórico de interés, que afecta a
un resultado de interés. II: Toda variable del lado derecho en un modelo de
regresión. III: En este texto, el término tiene un significado más preciso, el de
covariable ortogonal. La covariable ortogonal supuestamente afecta a Y y al
mismo tiempo es ortogonal (independiente) de la variable de interés teórico,
X. Se representa como B en la figura 9.1 y en las figuras posteriores. Los fac
tores de tipo B introducen ruido (imprecisión), pero no sesgo en el análisis
covariacional. Contrástese con Confundidor. Véase Asociación.
Covariación (conocida también como Asociación, Variación concomitante, Con
junción constante, Correlación). I: Dos factores covarian (es decir, están
asociados, correlacionados) cuando la presencia de uno ayuda a predecir la
presencia del otro. La pauta covariacional puede ser transversal (sincrónica)
y/o temporal (diacrónica, series temporales). Puede basarse también en la
teoría de conjuntos, es decir, en las condiciones necesarias o suficientes (aun-
435
que algunos autores prefieren no emplear el término covariacional para las

relaciones de la teoría de conjuntos). II: La técnica covariacional del análisis
causal se basa en la covariación de X e Y, como puede verse en el capítulo
10. En algunas ocasiones se contrapone a la aproximación basada en los me
canismos a la inferencia causal; sin embargo, muchos enfoques sobre la infe
rencia causal dependen de algo más que de condicionar a X e Y, como puede
verse en el capítulo 11.
Co.vuntura crítica/dependencia de la trayectoria Tipo de relación causal en la
que un momento contingente determina una trayectoria más larga, es decir,
un periodo de dependencia de la trayectoria en la que dicha trayectoria se
mantiene y quizás se refuerza (por medio de «rendimientos cada vez mayo
res»). Véase el capitulo 8.
Cualitativo I: Análisis con un pequeño número de observaciones (N pequeño).
Véase el capítulo 13. II: En el análisis causal, un análisis basado en observa
ciones del proceso causal. Véase el capítulo 12. III: Análisis que se basa en
una narrativa más que en las matemáticas (es decir, cuantitativo, estadístico,
modelo formal), como por ejemplo la investigación en archivos, etnográfica,
de campo, histórica, basada en entrevistas abiertas. IV: Análisis denso basa
do en casos. V: (En estadística) variables formadas a partir de escalas ordina
les o nominales en lugar de escalas continuas. Contrástese con Cuantitativo.
Cuantitativo (conocido también como Estadístico, N elevado) Análisis estadís
tico de muchas observaciones de base de datos (comparables). Contrástese
con Cualitativo. Véase el capítulo 13.
Cuasi experimento (conocido también como Experimento natural) Diseño de
investigación no aleatorizado que se asemeja a un verdadero experimento, es
decir, en el que el tratamiento no ha sido aleatorizado perfectamente entre
los grupos, pero en el que el principio de asignación se asemeja en cierto
modo al tratamiento aleatorizado. Un término flexible que cubre vastas
áreas de la investigación observacional que buscan todas simular las virtudes
del método experimental. Véase el capítulo 10.
Cuatro grupos de Solomon Diseño experimental cuyo propósito es comprobar
los posibles efectos de un pretest que en algunas circunstancias puede moldear
la conducta de los sujetos y por lo tanto confundir los resultados de un experi
mento. Véanse la tabla 10.2 y el análisis que la acompaña en el capítulo 10.
Cumplimiento (conocido también como Adherencia al tratamiento) En la inves
tigación experimental, la amenaza a la inferencia que se da cuando los suje
tos no cumplen las instrucciones. En términos más generales, la idea de que
todas las unidades del grupo de tratamiento deben recibir el tratamiento.
Cupones Ejemplo de investigación en ciencias sociales que se emplea en todo el
libro. Los cupones son un sistema de provisión pública por el que se concede
el bien de forma directa al usuario potencial de ese bien en la forma de un
cupón no dinerario (convertible sólo por ese bien), de forma que los produc
tores del bien son incentivados a producir el bien para la satisfacción del
usuario. Método de provisión social basado en el mercado, especialmente co
mún (y polémico) en la escolarización. Véase el capítulo 1.
436
Glosario
Definición máxima (conocida también como Tipo ideal) Apunta a la colección

de atributos que es máxima en el sentido de que incluye todas las caracterís
ticas no idiosincrásicas que en conjunto definen el concepto en su forma más
pura e ideal. Como el término sugiere, los tipos ideales no necesitan un refe
rente empírico específico en el mundo real. Sin embargo, para que sirva em
píricamente, debe aproximarse a entidades existentes reales. Contrástese con
Definición mínima. Véase el capítulo 5.
Definición mínima Identifica lo puramente esencial de un concepto, suficiente
para delimitarlo extensionalmente, al tiempo que mantiene todos los signifi
cados idiosincrásicos asociados al término. Los atributos son concebidos
como necesarios y quizás también suficientes. Contrástese con Definición
(máxima) tipo ideal. Véase el capítulo 5.
Delimitación (conocida también como Condiciones de alcance) Criterio que
atañe a todos los argumentos. Un argumento está adecuadamente delimita
do cuando la población incluye casos que están directamente dentro del al
cance del argumento y excluye otros casos. Como esto no siempre se puede
verificar empíricamente, el criterio de la delimitación descansa en supuestos
sobre cómo funciona el mundo. Véase el capítulo 3.
Dentro del caso El análisis de las observaciones dentro de un solo caso. Puede
ser de N elevado o N pequeño. Un análisis fundamental en virtualmente to
dos los estudios de caso.
Dependencia de la trayectoria Véase Coyuntura critica!Dependencia de la tra
yectoria.
Descripción pura (conocida también como Informe) Enunciados descriptivos (in
cluyendo causas próximas) centrados en eventos únicos. Véase el capítulo 6.
Desgaste Tipo de confundidor. Concretamente, la pérdida de sujetos durante el
transcurso de un estudio (por ejemplo, por mortalidad). Véase la tabla 9.3.
Determinista Una relación invariable; no hay componentes aleatorios (estocás-
ticos). Se puede interpretar como una declaración ontológica que se hace so
bre algunos datos disponibles. Normalmente, los argumentos deterministas
adoptan la forma de relaciones necesarias, suficientes o necesarias y suficien
tes. Sin embargo, estas relaciones de la teoría de conjuntos pueden interpre
tarse también de forma probabilista. Véase el capítulo 12.
Diacrónica Véase Asociación.
Diferenciación (conocida también como Contexto, Espacio de contraste. Perspec
tiva, Punto de referencia, Campo semántico) Criterio de la formación de
conceptos. En concreto, el grado en que un concepto se diferencia de sus
conceptos próximos; el espacio de contraste frente al que se define un con
cepto. Véase el capítulo 5.
Discreción Criterio del análisis causal. Específicamente, una intervención (tra
tamiento) que es de duración corta, con un principio y un fin claramente de
limitados. Véase el capítulo 9.
Diseño cruzado Diseño experimental con múltiples tratamientos que son admi
nistrados secuencialmente a todos los grupos. Es decir, cada grupo en la
muestra elegida recibe los mismos tratamientos, pero en diferente orden.
Véanse la tabla 10.2 y el análisis que la acompaña en el capítulo 10.
437
Diseño de despliegue Diseño experimental en el que un tratamiento se «des

pliega» en los grupos de forma secuencial; todos los grupos reciben el trata
miento. pero no al mismo tiempo. Esto sirve para superar confundidores po
tenciales que pueden coincidir con el calendario de la primera intervención.
También proporciona una manera de ofrecer el tratamiento a todos los gru
pos. lo que puede ser importante por razones políticas o éticas. Véanse la ta
bla 10.2 y el análisis que la acompaña en el capítulo 10.
Diseño de investigación Estrictamente definido, un diseño de investigación
hace referencia a la colección y organización de evidencia relevante con la
idea de preparar un test empírico apropiado, y se puede contrastar con el
análisis de los datos (el análisis expost de la evidencia ya recogida). Este tér
mino procede de las técnicas experimentales, en las que hay una distinción
clara entre el contexto experimental (el diseño de investigación) y la realiza
ción del experimento. Como el investigador controla muchas de las facetas
de un experimento, obviamente es esencial centrarse con mucha atención en
los elementos del diseño de investigación. En los últimos años la noción de
diseño de investigación se ha ampliado para incluir los análisis observaciona-
les. Desde luego, un contexto observacional no puede manipularse directa
mente. Aun así. el investigador puede elegir un contexto que pueda propor
cionar el test más apropiado para una determinada conjetura. La elección de
los contextos pasa así a ser un sustituto funcional del contexto manipulado
de un experimento. Véase el capítulo 4.
Diseño de investigación covariacional Un diseño de investigación en el que la
valoración causal descansa fundamentalmente en la covariación entre X e Y
en una muestra de observaciones. Véase el capítulo 10.
Diseño de la diferencia en la diferencia (DD) Diseño de panel no aleatorizado
en el que un grupo recibe el tratamiento mientras el otro no lo recibe, y el re
sultado de interés se mide con pretest y postest. Los efectos causales se esti
man comparando la diferencia en el resultado del grupo de tratamiento antes
y después de la intervención de interés teórico (Y en 77, menos Y en T} para
el grupo I) con la diferencia en el grupo de control durante el mismo periodo
(Ten 77, menos Y en f para el grupo II), la diferencia en la diferencia. Ad
viértase que como el tratamiento no es aleatorizado, la validez de este diseño
depende de un supuesto: que A Y en el grupo de control representa el contra-
fáctico que hubiera ocurrido en el grupo de tratamiento. Véase el capítulo 10.
Diseño de panel Diseño de investigación no aleatorizado en el que se toman
varias observaciones de cada unidad (en el transcurso del tiempo) y hay va
riación en X en el transcurso del tiempo y entre las unidades. Incluye la dife
rencia en la diferencia (DD) y los diseños de efecto fijo.
Diseño de regresión discontinua (RD) Diseño de investigación no aleatorizado
en el que se mitiga la preocupación por el sesgo de asignación. En concreto,
se sabe cuál es el principio de asignación. Es medible, antes del tratamiento,
para todas las unidades de la muestra. Consiste en una variable de intervalo
en la que una línea de corte, o una discontinuidad, define la asignación de los
sujetos, produciendo una variable de tratamiento binaria. Muchas unidades
se incluyen en los dos lados de esta línea de corte situada en la mitad de la
438
Glosario
distribución. Finalmente, este principio de asignación se mantiene (sin excep

ciones). Si las unidades se sitúan por encima (o por debajo) de la línea son
tratadas; si se sitúan por debajo (o por encima) de la línea no son elegibles
para el tratamiento. (Aunque estos supuestos se pueden relajar, hacerlo afec
ta generalmente a la precisión y la validez de las estimaciones). Véanse la fi
gura 10.1 y el texto que la acompaña en el capítulo 10.
Diseño de series temporales interrumpidas Diseño de investigación no aleatori-
zado en el que una secuencia de observaciones (múltiples pretest y postest) es
interrumpida por un tratamiento. Aquí, hacemos comprobaciones para ver
si la inclinación o la intercepción de las series cambia como resultado de la
intervención. Véase el capítulo 10.
Diseño de sólo postest Diseño en el que no se hacen pretest, es decir, el efecto
de un tratamiento se mide sólo después de administrarse. Contrástese con
Diseño pretest/postest. Véanse la tabla 10.2 y el análisis que la acompaña en
el capítulo 10.
Diseño de variable dependiente no equivalente En el análisis causal, es una es
trategia para superar un confundidor de causa común. En concreto, es la
identificación de un resultado secundario, Y2, que —aunque no es intrínseca
mente de interés teórico— nos permite discernir un efecto causal verdadero
de un efecto causal espurio. Hay dos versiones de este diseño. En la primera,
el resultado secundario es un producto de X que no es vulnerable a confundi
dores. En la segunda, el resultado secundario es un producto del confundi
dor, C, y por lo tanto se considera como un test placebo. Véanse la figura
Diseño dentro del grupo (conocido también como Diseño longitudinal) Diseño de
investigación que se basa sólo en la variación temporal antes y después de una
intervención. El «grupo de control» está formado por la unidad o unidades
antes de la intervención. Puede ser con una sola unidad (diseño de investiga
ción de N = 1), varias unidades o una muestra grande. Véase el capítulo 10.
Diseño factorial Un diseño experimental que comprueba los efectos interacti
vos de varias variables de tratamiento categóricas. Véanse la tabla 10.2 y el
análisis que la acompaña en el capítulo 10.
Diseño longitudinal (conocido también como Diseño dentro del grupo) I: Todo
diseño en el que se extrae más de una observación durante el transcurso del
tiempo. ID. En este libro hace referencia a un diseño de investigación no alea-
torizado en el que la variación en las variables clave es longitudinal (tempo
ral), pero no transversal, es decir, todas las unidades son tratadas y el efecto
del tratamiento se juzga comparando el estatus pretratamiento con el estatus
postratamiento. Entre sus subtipos están las series temporales interrumpidas
(donde una única intervención afecta a una unidad o a un conjunto de uni
dades, que son observadas longitudinalmente, antes y después) y las observa
ciones repetidas (conocidas también como medidas repetidas, donde las uni
dades son expuestas múltiples veces al mismo tratamiento). Véanse la tabla
10.3 y el texto que la acompaña en el capítulo 10. Véase Mecanismo causal.
Diseños pretest y postest Diseño de investigación en el que las unidades se ob
servan antes y después de la exposición al tratamiento. Contrástese con Dise-
439
ño de investigación sólo postest. Véanse la tabla 10.2 y el análisis que la acom

paña en el capitulo 10.
Distancia causal Una causa distante (conocida también como remota, estruc
tural) está alejada del efecto que se pretende explicar. Una causa próxima
está cerca del efecto que se pretende explicar. En general, los mecanismos
causales están formados por causas próximas; son, en todo caso, más próxi
mos que la causa estructural que explican, siendo la distancia causal una
cuestión de grado. Véanse la figura 8.1 y el análisis que la acompaña en el ca
pitulo 8.
Dominio (conocido también como alcance} Uno de los criterios de los concep
tos. En concreto, la claridad y la lógica del alcance lingüístico y empírico de
un concepto. Véase el capítulo 5. Compárese con la delimitación de un argu
mento (capitulo 3).
Dosis En el caso de tratamientos causales que son regulares respecto de la can
tidad y son discretos, podemos aplicar el término médico de dosis. Véase el
capitulo 9.
Efecto causal Véase Efecto del tratamiento.
Efecto de interacción (conocido también como Efecto del moderador} Cuando
la relación de X con Y se altera por la presencia de una tercera variable. Con
trástese con Mecanismo causal (conocido también como mediador), que en
este texto se concibe en tanto en cuanto sirve de medio para el impacto de X
en Y. (Desde luego, algunos mecanismos pueden servir tanto de mediadores
como de moderadores.)
Efecto del intento de tratar (EINT) Véase Efecto del tratamiento.
Efecto del moderador Véase Efecto de interacción.
Efecto del tratamiento (conocido también como Efecto causal) El cambio en Y
que se corresponde con un cambio dado en X. Bajo esta rúbrica se incluye
un serie de conceptos muy relacionados entre sí que subrayan la importancia
de comprobar las inferencias causales. El efecto individual del tratamiento
(E1T) es el impacto de una condición de tratamiento (X = 1) en una única
unidad en comparación con la condición de control (X = 0). El efecto prome
dio del tratamiento (EPT; conocido también como efecto causal promedio o
efecto esperado del tratamiento) es el impacto promedio de un cambio de X
en Y en una muestra. El efecto del intento de tratar (EINT) es otra manera de
configurar el EIT en situaciones en las que se sospecha que algunas unidades
asignadas al grupo de tratamiento no están realmente expuestas al trata
miento (un problema de incumplimiento). Se puede expresar como «EPT con
incumplimiento probable», es decir, incluyendo unidades en el grupo de tra
tamiento que no están siendo realmente tratadas. El efecto promedio del tra
tamiento en los tratados (EPTT) se refiere al efecto de A' en Y para todas las
unidades que están siendo realmente tratadas (suponiendo que algunas no).
El efecto promedio del tratamiento local (EPTL) es un término más especiali
zado que se usa en el contexto del análisis de variables instrumentales. En
concreto, se refiere al efecto de X en Y en aquellas unidades cuyo estatus de
tratamiento (tratados/no tratados) es afectado por el instrumento elegido.
Todos estos efectos del tratamiento mencionados (salvo el EIT) se aplican
440
Glosario
supuestamente a una población mayor de unidades. Si se aplican sólo a la

muestra elegida, el autor debe clarificar que se trata de un efecto promedio
del tratamiento en la muestra (EPTM), un efecto promedio del tratamiento
en los tratados de una muestra (EPTTM), y así sucesivamente. Véanse la ta
bla 9.1 y el texto que la acompaña en el capítulo 9.
Efecto individual del tratamiento (EIT) Véase Efecto del tratamiento.
Efecto placebo Véase Efectos del experimentador.
Efecto promedio del tratamiento (EPT) Véase Efecto del tratamiento.
Efecto promedio del tratamiento en los tratados (EPTT) Véase Efecto del trata
miento.
Efectos de instrumentación Tipo de confundidor. En concreto, un cambio en la
medición de un resultado (u, ocasionalmente, un estímulo) durante el trans
curso de un estudio que puede alterar la estimación del efecto de X en Y.
Efectos de las causas/Causas de los efectos Por lo común, los argumentos se
centran en una única hipótesis XIY o en un pequeño conjunto de hipótesis
relacionadas XI Y, el enfoque de los efectos de las causas. Sin embargo, en al
gunas ocasiones los argumentos causales tienen un alcance mayor e incluyen
todos los factores causales sistemáticos (es decir, no estocásticos) que supues
tamente contribuyen a un resultado particular (Y) —el enfoque de las causas
de los efectos. Aquí, X se refiere a un vector de causas más que a un solo
factor causal. Así, en lugar de intentar estimar el efecto de los cupones en el
rendimiento educativo, podemos intentar evaluar todas las causas (y combi
naciones de causas) del rendimiento educativo —socioeconómicas, la fami
lia, el vecindario, el grupo de pares, el currículum, el tamaño de la clase, el
profesor, el género, la edad, la personalidad, etc. (incluidos los cupones, si
funcionan). Véase el capítulo 12.
Efectos de reputación Tipo de confundidor. En concreto, cuando la reputación
del tratamiento en opinión de los sujetos, más que la condición del trata
miento en sí (definida por el investigador), afecta a un resultado. Véase el ca
pítulo 9.
Efectos del experimentador Un tipo de tratamiento compuesto en el que el tra
tamiento de interés teórico, X, es indistinguible de un tratamiento adicional
que resulta del propio protocolo experimental. Véase el capítulo 9.
Efectos del investigador (conocidos también como efectos del experimentador o
Hawthorne) Tipo de confundidor. En concreto, cuando la condición de ser
testado o estudiado, más que el tratamiento de interés teórico, afecta a un re
sultado. Véase el capítulo 9.
Efectos del test Tipo de confundidor. En concreto, cuando las respuestas a un
test están influidas por un test previo o por las expectativas de experiencias
de test previos, más que por el tratamiento en sí. Véase el capitulo 9.
EIT Efecto del intento de tratar. Véase Efecto del tratamiento.
Endogeneidad/Exogeneidad E En una relación causal simple, X supuestamen
te no es afectada por (es exógena respecto de) Y e Y supuestamente es afec
tada por (es endógena respecto de) X. Un confundidor endógeno (conocido
también como bidireccionalidad, circularidad, endogeneidad, retroalimen-
441
Metodología de las ciencias socales
tación, simetría, tautología) está presente cuando éste no es el caso, es decir,

cuando un modelo causal es vulnerable a problemas de circularidad o de
causación recíproca. Véanse la figura 11.2 y el análisis que la acompaña en
el capitulo 11.7/: La exogeneidad se entiende en algunas ocasiones (aunque
no en este texto) para describir un tratamiento aleatorizado o como si fuera
aleatorizado (no está correlacionado con confundidores potenciales). Ad
viértase que el sentido // implica el sentido /. Si X es aleatorizado, Y no
puede afectar a X.
Epistemología El estudio de la naturaleza y los orígenes del conocimiento.
EPT Efecto promedio del tratamiento. Véase Efecto del tratamiento.
EPTL Efecto promedio del tratamiento local. Véase Efecto del tratamiento.
EPTT Efecto promedio del tratamiento en los tratados. Véase Efecto del trata
miento.
Equifinalidad Tipo de relación causal en el que múltiples caminos causales
conducen al mismo resultado, es decir, múltiples factores causales son sufi
cientes para causar Y. Véase el capítulo 8.
Error tipo I Rechazar incorrectamente una hipótesis nula verdadera (aceptan
do un argumento falso).
Error tipo II No rechazar una hipótesis nula falsa (rechazando un argumento
verdadero).
Escala de la abstracción Se dice que una relación inversa caracteriza: (a) el nú
mero de atributos usados para definir un concepto (su intensión) y (b) el nú
mero de entidades (fenómenos) que se incluyen en la extensión de un concep
to. Por consiguiente, el problema de lograr un significado coherente para un
concepto dentro de un alcance dado se puede resolver ascendiendo (sustra
yendo atributos, aumentando así el alcance empírico de un concepto) o des
cendiendo (añadiendo atributos, reduciendo así el alcance de un concepto)
en la escala de la abstracción. Esta asociación inversa es operativa siempre
que los atributos definitorios no sean sustituibles (condiciones suficientes).
Véanse la figura 5.1 y el análisis que la acompaña en el capítulo 5 así como el
capítulo 7.
Escala dicotómica Véase Variable binaria.
Escala nominal Véase Escalas.
Escala ordinal Véase Escalas.
Escalas Para operacionalizar un concepto debemos elegir una escala o conjunto
de escalas (si el concepto es multidimensional). Algunas escalas son categóricas
(es decir, cualitativas) en virtud del hecho de que la distancia entre las catego
rías no está definida. Otras escalas son numéricas (conocidas también como
cuantitativas) en virtud del hecho de que la distancia entre las categorías está
definida y es medida en una escala de números. Hay otros subtipos de escalas
que se sitúan entre estas dos escalas. Entre las escalas categóricas están las no
minales, que definen aquellas categorías que pertenecen a una misma clase
(son ejemplos de algo), pero no están ordenadas. Por ejemplo, las manzanas,
naranjas y uvas no son más o menos naranjas, manzanas o uvas, pero sí son
todas frutas. Las escalas ordinales tienen categorías de la misma clase, pero
también están ordenadas: muy dulce es más dulce que sólo dulce. Entre las es-
442
Glosario
calas numéricas, las de intervalo se caracterizan por una medida sistemática de

la distancia entre las categorías. Por ejemplo, la distancia entre 3 y 4 en una es
cala de temperatura (Celsius o Fahrenheit) es la misma que la distancia entre
25 y 26, y se define de acuerdo con una regla formal, aplicada sistemáticamen
te en la escala. Las escalas de razón son escalas de intervalo con un 0 real, que
indica la ausencia de cantidad de lo que se está midiendo (un conjunto nulo).
En el caso del dinero, 0 implica ausencia de dinero. En el caso de la temperatu
ra en la escala Kelvin, 0 indica la ausencia de toda energía térmica. Véanse la
tabla 7.2 y el análisis que la acompaña en el capítulo 7.
Especificación Normalmente hace referencia al problema de lograr el conjunto
correcto de variables explicativas en un modelo estadístico. Si se ha excluido
una variable importante, decimos que el modelo experimenta un sesgo de va
riable omitida. Como todos los problemas de identificación se pueden conce
bir como problemas de especificación, el término es bastante abierto.
Espurio Una relación covariacional entre X e Y afectada por confimdidores, y
que por lo tanto representa una estimación sesgada de la verdadera relación
de X con Y.
Estandarización Criterio de todos los análisis. En concreto, los diseños de in
vestigación se deben normalizar lo más posible con el estándar del campo
(en el supuesto de que haya uno), al menos inicialmente, como punto de par
tida. La estandarización de los enfoques proporciona una referencia con la
que poder juzgar los nuevos hallazgos y facilita el proceso de replicación.
Estimador Modelo estadístico empleado para comprobar un modelo causal.
Debe incluir factores relevantes codificados en un gráfico causal, especial
mente cualquier confundidor potencial (C). Véase el capítulo 10.
Estocástico I: En general: que contiene un elemento aleatorio (no totalmente
determinista). II: En términos más estrictos y en el contexto de la estadística:
totalmente aleatorio (con ningún componente sistemático).
Estudio de un caso Estudio intensivo de un solo caso con el fin de comprender
una clase más general de unidades similares (una población). Tome nota de
que mientras «estudio de un caso» es singular —se centra en una sola uni
dad— el diseño de investigación de estudio de casos puede referirse a un tra
bajo que incluye varios estudios de caso, por ejemplo, el análisis histórico
comparado o el método comparado. Véase Gerring (2007).
ETI Efecto del tratamiento individual. Véase Efecto del tratamiento.
Etnografía (conocida también como Investigación de campo, Observación partici
pante) Un trabajo realizado «en el campo», es decir, en algún escenario na
turalista donde el investigador observa el tema que le interesa. Usualmente se
asocia a los diseños de investigación no experimentales, pero muchos se com
binan también con un diseño aleatorizado.
Exogeneidad Véase EndogeneidadlExogeneidad.
Experimento En su definición máxima (como tipo ideal), un experimento im
plica: (a) un diseño de investigación ex ante, (b) el control del investigador
(sobre las circunstancias relevantes del escenario de la investigación), (c) la
manipulación del tratamiento, (d) la aleatorización del tratamiento entre los
443
grupos de tratamiento y de control, (e) un número elevado de casos u obser

vaciones (de forma tal que se logre «fuerza» suficiente), y (f) la preservación
de la comparabilidad causal en los grupos de tratamiento y de control hasta
el postest final (previniendo así los confundidores postratamiento). En este
texto adoptamos una definición mínima con menos atributos y límites relati
vamente nítidos: un experimento aquí es un diseño de investigación en el que
el tratamiento se aleatoriza entre los grupos de tratamiento y de control (d).
Esto nos remite al uso que se hace de él actualmente en las ciencias sociales
—aunque no tanto al propio de las ciencias naturales, donde un grupo de
control suele ser innecesario (Cook et al., 2010: 109). Véase el capítulo 10.
Experimento mental contrafáctico Intento de reinterpretar los eventos en nues
tra mente con el fin de determinar cuál hubiera sido el resultado en circuns
tancias diferentes. Es una herramienta esencial del análisis causal cuando las
posibilidades de variación real (observable) son escasas.
Experimento natural Véase Cuasi experimento.
Explicación Véase Argumento.
Explicación nomológica/deductiva Véase Modelo de ley de cobertura.
Exploración Véase Asignación.
Exposición Véase Concepto.
Factor causal (conocido también como Condición, Covariable, Variable exógena.
Variable explicativa, Explanans, Variable independiente, Input, Intervención,
Progenitor. Predictor, Variable del lado derecho, Tratamiento, X) Es la varia
ción en un factor (X) que genera variación en un resultado ( Y) si la relación
es causal. Véase el capítulo 8.
Falsabilidad (conocida también como Verificabilidad) La probabilidad de que
una teoría o hipótesis se puede demostrar equivocada (concebida en este li
bro como una cuestión de grado). Elemento clave de la filosofía del falsacio-
nismo desarrollada por Karl Popper, estrechamente vinculada con el objeti
vo científico general de la apreciación. Véase el capítulo 2.
Fecundidad (conocida también como Coherencia, Profundidad, Esencia, Fructífe
ro, Tipos naturales. Poder, Real, Riqueza, Densidad) Uno de los criterios de
los conceptos. En concreto, el número de atributos que comparten los refe
rentes de un concepto. Véase el capítulo 5.
Fiabilidad Véase Precisión.
Generalidad (conocida también como Amplitud, Dominio, Generabilidad, Pobla
ción, Ámbito, Alcance) Un criterio que se presume de todo argumento cien
tífico. En concreto, la amplitud empírica de un argumento. Véase el capítulo
3. Véase también Validez internalexterna.
Gráfico causal Diagrama visual del proceso generador de los datos (PGD),
que incluye supuestos relevantes relativos a un conjunto de relaciones causa
les. En este texto el término se emplea de una manera algo más abierta que
en la obra de Judea Pearl y otros; por ejemplo, no se limita a los GAD (gráfi
cos acíclicos dirigidos). Véanse los capítulos 9, 10 y, especialmente, 11.
Hermenéutica Véase Interpretativismo.
Heterogeneidad causal I: Por lo general es el impacto variable de un factor cau
sal, X, en las unidades de una muestra. Suele considerarse ruido. II: En de-
444
Glosario
terminadas situaciones también puede proporcionar una estrategia para la

inferencia causal. Esto es así en las situaciones en las que la heterogeneidad
causal no es estocástica (aleatoria), los moderadores relevantes (Z) se pue
den medir, y el efecto de interacción de X*Z en Y no está sujeto a confundi
dores. Véanse la figura 11.8 y el texto que la acompaña en el capítulo 11.
Hipótesis Véase Argumento.
Hipótesis rivales Estrategia para la inferencia que consiste en el examen de hi
pótesis rivales. En lugar de analizar X, el factor de interés teórico, examina
mos Z, un vector de causas alternativas (posibles) de Y. Véanse la figura 11.9
y el texto que la acompaña en el capítulo 11.
Historia (conocida también como Tendencias) Tipo de confundidor. Específica
mente, cuando el tratamiento está correlacionado con algún otro factor que
afecta al resultado de interés, o lo que es lo mismo, cuando la variación en el
tiempo observado se debe a algún factor diferente del tratamiento. Véase la
tabla 9.3 y el texto que la acompaña en el capítulo 9.
Homogeneidad de la unidad Véase Comparabilidad causal.
I En el contexto de la medición, I se refiere en este texto al indicador de un
concepto latente (L). Véanse la figura 7.1 y el texto que la acompaña en el
capítulo 7.
Ignorable, Ignorabilidad (conocida también como Independencia condicional,
Ausencia de confundidores) En el análisis causal, cuando la asignación de
un tratamiento a las unidades es independiente de los resultados objeto de
estudio (como la lograda con la aleatorización) o cuando la asignación de un
tratamiento a las unidades es independiente de los resultados objeto de estu
dio dados ciertos factores de fondo que se puede condicionar (en los estudios
no experimentales). Desarrollado por Donald Rubin y sus colegas. En este li
bro, la cuestión de la ignorabilidad se incluye dentro de la comparabilidad
causal (capítulo 9).
Impacto (conocido también como Tamaño del efecto, Magnitud, Poder, Signifi
cación, Fuerza) Criterio de los argumentos causales. En concreto, cuanta
más variación en Y explica un argumento —cuanto mayor es el impacto de
X en Y— más significativo tenderá a ser este argumento. Véase el capítulo 8.
Incumplimiento Un tipo de confundidor. En concreto, cuando los sujetos no
cumplen las instrucciones, es decir, cuando miembros asignados al grupo de
tratamiento no son tratados o cuando miembros del grupo de control reci
ben el tratamiento. Véase el capítulo 9.
Independencia Criterio del análisis causal. En concreto, el supuesto de que
cada observación reunida en apoyo de una hipótesis causal proporciona evi
dencia independiente de esa proposición. Esto implica que cada observación
debe ser independiente de las demás respecto del efecto de X en Y. Cuando el
supuesto de la independencia se viola entre las unidades o las observaciones,
normalmente nos referimos a un proceso de difusión, contaminación o inter
ferencia. Cuando se viola el supuesto de la independencia en observaciones
extraídas de la misma unidad en el transcurso del tiempo nos referimos co
múnmente a un problema de autocorrelación serial. Véase el capítulo 9.
Independencia condicional Véase Ignorabilidad.
445
Indicador (conocido también como Atributo, Dimensión, Factor, Medida, Pará

metro. Propiedad, Escala, Descripción unidimensional, Variable) El tipo de
generalización descriptiva más básica, cuyo fin es describir un rasgo (es decir,
una dimensión) de un concepto entre una población. Está en la base de todas
las demás proposiciones, sean causales o descriptivas. Véase el capítulo 6.
Inferencia Por lo general, es el proceso de alcanzar conclusiones como una ex
tensión de hechos conocidos o premisas establecidas. En los contextos empí
ricos. significa inferir hechos que no son inmediatamente evidentes de los he
chos que lo son. Podemos inferir de una muestra a una población, o inferir
propiedades de una muestra con el fin de corregir un error de medición anti
cipado. La atribución causal es inferencial, ya que no podemos reproducir el
contrafáctico (qué hubiera ocurrido con Y si el valor de X fuese diferente).
Todos los argumentos de la ciencia social son inferenciales en al menos uno
de los sentidos anteriores. Véase Argumento.
Inferencia para la mejor explicación Inferencia para una hipótesis que se deriva
de su superioridad frente a otras posibles explicaciones de un fenómeno.
Véase la estrategia de las Hipótesis rivales en la inferencia causal.
Intensión Véase Concepto.
Interpretativismo (conocido también como Hermenéutica, Verstehen) En gene
ral. el estudio de los significados y las intenciones humanas. En concreto, el
intento de interpretar la conducta humana en términos de los significados
asignados por los actores.
Intervención Véase Tratamiento.
Investigación con múltiples métodos (conocida también como Triangula
ción) Uso de múltiples métodos (por ejemplo, cualitativo y cuantitativo,
aleatorizado y no aleatorizado, múltiples niveles de análisis) para abordar la
misma pregunta de investigación. Véase el capítulo 13.
Investigación de campo Véase Etnografía.
K Número de variables en un modelo.
L En el contexto de la medición y en este texto, L representa el concepto laten
te para el que se busca un indicador empírico. Véanse la figura 7.1 y el texto
que la acompaña en el capítulo 7.
Ley causal Relación sin excepciones entre Xe Y. Véase el capítulo 9.
M Véase Mecanismo causal.
Manipulabilidad Uno de los criterios de un argumento causal: que el factor
causal de interés teórico debe ser manipulable por parte del investigador, al
menos en principio. Véase el capítulo 8.
Marco teórico Véase Argumento.
Mecanismo Véase Mecanismo causal.
Mecanismo causal (conocido también como Variable intermedia, Mediador, Ca
mino, Proceso) El hilo conector entre X e Y que sirve para explicar una re
lación covariacional. El uso que yo hago aquí del término hace referencia a
todo factor que se pueda considerar parte del proceso generador por medio
del que X afecta a Y, con independencia de que consista en una serie de pa
sos discretos (por ejemplo, las fichas de dominó que caen una encima de otra
sobre una mesa) o en un proceso continuo (por ejemplo, una bola de billar
446
Glosario
cruzando la mesa), y de que sea medible o no medible. Se representa como

M. La especificación de un mecanismo causal es un componente clave de los
argumentos causales (normalmente incluidos en una teoría o modelo), mien
tras la investigación de los mecanismos causales (conocida también como na
rrativa causal, coligación, congruencia, contigüidad, discernimiento, procesos
intermedios, fundamentos micro, análisis de procesos, seguimiento del proceso)
es un componente clave del análisis causal. Véase la parte III.
Mediador Véase Mecanismo causal.
Medición {Indicadores, Operacionalización) Es la tarea de situar un concepto
en el espacio empírico. En términos más concretos, es el objetivo de lograr
validez y precisión para un concepto a partir de una serie de indicadores.
Método Puede referirse a un protocolo muy específico para recoger y/o anali
zar datos (por ejemplo, la prueba de campo aleatorizada, el estudio de caso
desviado, el diseño de series temporales interrumpidas), o a un enfoque más
general sobre el análisis empírico (por ejemplo, el método de estudio de caso,
el método experimental). Contrástese con Metodología. Véase el capítulo 1.
Método de la diferencia Véase Método de los casos más similares.
Metodología Las tareas y criterios que gobiernan la indagación científica, inclu
yendo todas las facetas de la empresa de la investigación. Mientras método se
refiere a las elecciones particulares que se hacen en un estudio dado, la meto
dología se refiere a las características generales y presumiblemente más unifor
mes de la empresa científica. (Desde luego, la distinción no es nítida ni inme
diata y estos dos términos suelen usarse indistintamente.) Véase el capítulo 1.
Métodos de emparejamiento Técnica para lograr la inferencia causal en la que
las unidades se «emparejan» después de la asignación del tratamiento de for
ma tal que se pueden hacer comparaciones entre las unidades que se parecen
mucho entre sí en sus características de fondo (covariables, incluyendo con
fundidores potenciales). En principio, deben diferir sólo en si reciben el tra
tamiento o no. En términos más técnicos, el emparejamiento asegura la inde
pendencia condicional de la asignación del tratamiento equilibrando los
grupos de tratamiento y de control respecto de una serie de confundidores
potenciales. Si no se logra un equilibrio fuerte, la inferencia causal derivada
de los métodos de emparejamiento es sospechosa. Debe señalarse que hay
múltiples técnicas para emparejar unidades según sus características de fon
do. El emparejamiento exacto selecciona unidades que se emparejan en fun
ción de valores precisos de las covariables. Aunque es deseable en principio,
el emparejamiento exacto raramente se puede llevar a la práctica. Es más co
mún el emparejamiento por puntaje de propensión, para el que se emplean ca
racterísticas de fondo con el fin de determinar una probabilidad estimada
para cada unidad asignada al grupo de tratamiento (condicionado a las co
variables). Este puntaje de propensión se usa entonces para emparejar las
unidades de una muestra. En otras palabras, cuando al investigador le intere
sa un emparejamiento para un caso específico en el grupo de tratamiento,
busca casos en el grupo de control con la misma probabilidad de estar en el
grupo de tratamiento que los casos realmente elegidos.
447
Modelo Véase Argumento.

Modelo cultural Modelo de la conducta social derivado de la obra de los filó
sofos adscritos a la escuela hermenéutica (por ejemplo, Dilthey, Schleierma-
cher, Heidegger, Gadamer, Habermas, Ricoeur, Taylor, Von Wright y Winch)
y a la obra etnográfica de la corriente sociocultural de la antropología (por
ejemplo. Boas, Malinowski, Mead, Benedict y Geertz). Se identifica con los
enfoques interpretativista y constructivista de la ciencia social. Entre sus
puntos clave se incluye el enfoque sobre la experiencia vivida (tal y como la
conciben los actores que se están estudiando); la naturaleza holista de las
normas, los valores y la conducta; y la naturaleza socialmente construida (no
basada en incentivos) de lo anterior. Contrástese con Modelo racional. Véase
el capítulo 13.
Modelo de la ley de cobertura (conocido también como modelo nomológico-
deductivo) Modelo o escuela de la causalidad desarrollado por Cari Hem-
pel, Paul Oppenheim y otros llamados positivistas. Según esta perspectiva, la
causalidad hace referencia a una conjunción constante (determinista) o a
una asociación probabilista entre X e Y. La explanación causal se hace sub
sumiendo las particularidades de un evento o clase de eventos bajo la rúbrica
de una ley universal, que puede entonces verificarse en referencia a predic
ciones observables derivadas de la teoría. Véase el capítulo 13.
Modelo de resultados potenciales (conocido también como Modelo contrafáctico,
Modelo experimental, Modelo de manipulación, Modelo de Neyman-Rubin-
Holland) En general, una perspectiva de la causación desarrollada por los
estadísticos Neyman, Rubín y Holland que acentúa el problema fundamen
tal de la inferencia causal: no podemos determinar la causa de un resultado
individual porque el contrafáctico no se puede observar directamente. Se su
giere. por lo tanto, que entendamos cada unidad (o grupo de unidades) en
tanto en cuanto representa dos resultados potenciales, un resultado observa
do (es decir, la condición de tratamiento) y un resultado «contrafáctico» no
observado (por ejemplo, la condición de control). La diferencia entre estos
dos resultados es el efecto (del tratamiento) causal. Dada la naturaleza no
observable de la inferencia causal, el establecimiento de una condición con-
trafáctica plausible —observable— es de importancia crucial. Buena parte de
la obra y del vocabulario especializado asociado con el modelo de resultados
potenciales (por ejemplo, ignorabilidad, SEVUT (en inglés, SUTVA), inde
pendencia condicional), apunta a identificar los supuestos que fundamentan
esta comparación. Véase el capítulo 13.
Modelo racional Modelo general de la acción social que se inspira en la obra de
escritores de la Ilustración y posteriores como Bentham, Smith y Mili, así
como en la obra más reciente que emana del área en constante evolución de la
economía (por ejemplo, Jevons, Menger, Walras, Edgeworth, Marshall y Pare-
to). Entre sus supuestos analíticos clave están la maximización de la utilidad, el
conocimiento perfecto y las preferencias que son completas, estables y transiti
vas. Estos supuestos (que también se pueden relajar de varias maneras) confor
man áreas de la ciencia social como la elección pública, la teoría de juegos y la
economía política. Contrástese con Modelo cultural. Véase el capítulo 13.
448
Glosario
Monismo Tal y como se emplea en este texto, la idea de que hay una única
epistemología y/o marco metodológico que atañe a la investigación en cien
cia social en general y a la inferencia causal en particular. Contrástese con
Pluralismo. Véanse los capítulos 1 y 13.
Mortalidad Véase Desgaste.
Muestra El conjunto de unidades/casos u observaciones (extraídas de esos ca
sos) que constituye el objeto de estudio del investigador, es decir, el objeto in
mediato de análisis. Una muestra de una sola unidad o caso u observación
de caso se puede describir como estudio de caso o una serie de estudios de
caso, y se pueden analizar cualitativamente. Una muestra mayor ha de anali
zarse cuantitativamente. Desde luego es posible combinar los dos tipos de
análisis, como en los estudios con múltiples métodos. La mayoría de los estu
dios incluyen más de una muestra. A menudo estas muestras están unas den
tro de otras. Con independencia del tamaño de la muestra o el nivel de análi
sis, una muestra es supuestamente representativa de una población mayor. En
este supuesto descansa la validez externa. Muy ocasionalmente, se estudia
toda la población —en este caso la muestra es toda la población, un censo.
Muestreo aleatorio Método de selección de casos en el que cada caso en una
población tiene la misma probabilidad de ser seleccionado para la muestra
por medio de algún procedimiento aleatorio de selección de casos. Si la
muestra elegida no es demasiado pequeña, el muestreo aleatorio produce ne
cesariamente una muestra que es representativa de la población, es decir, no
sesgada. Contrástese con Aleatorización. Véase el capítulo 4.
N Véase Observación.
N elevado Véase Observación.
A pequeño Véase Observación.
Naturalismo La idea de que I: Todos los fenómenos están sujetos a leyes natu
rales y/o II: Que los métodos de las ciencias naturales se pueden aplicar a
otras áreas, es decir, a las ciencias sociales.
Naturalistas Escenarios de investigación que son o se parecen a los escenarios
de la vida real, por ejemplo, etnografía. Métodos no intrusivos de investiga
ción. Contrástese con Escenarios de laboratorio.
Necesario/suficiente (conocido también como Teoría de conjuntos). I: En la
definición u operacionalización de un concepto, los atributos pueden con
siderarse necesarios, suficientes, o necesarios y suficientes. (Todas estas
condiciones pueden referirse a un solo atributo o a varios atributos en con
junto.) (a) Si se concibe una condición como necesaria y suficiente, el atri
buto X es la única característica que importa, (b) Si X es necesario, enton
ces un fenómeno puede implicar a X, aunque haya también otras
condiciones de pertenencia. (Las definiciones mínimas se basan en atribu
tos de condición necesaria [capítulo 5].) (c) Si X es suficiente, entonces es
suficiente por sí mismo para definir/operacionalizar un concepto, aunque
haya otras condiciones que también pudieran, independientemente, definir/
operacionalizar ese concepto —cada condición suficiente es sustituible por
la otra. Véase el capítulo 7.
449
//: Las mismas relaciones atañen a los argumentos causales, (a) Un factor es
necesario r suficiente si su presencia es tanto necesaria como suficiente para un
resultado: A' siempre causa Y y es además la única causa de Y. Esto significa
que A'e Y van juntas invariablemente, igual que x e y. En términos de la teoría
de conjuntos, el conjunto de unidades que contiene X coincide con el conjunto
de unidades que contiene Y. (b) Un factor es necesario si se requiere su presen
cia para que ocurra un resultado: X es necesario para Y, pero X no siempre
causa E (al menos por sí mismo). Esto significa que podemos encontrar X sin
pero no podemos encontrar Y sin X. En términos de la teoría de conjuntos,
el conjunto de unidades que contiene Y es un subconjunto del conjunto de
unidades que contiene X. (c) Un factor es suficiente si su presencia garantiza la
ocurrencia de un resultado: X siempre causa Y, aunque Y tiene también otras
causas. Esto significa que podemos encontrar Y sin X, pero nunca podemos
encontrar X sin Y. En términos de la teoría de conjuntos, el conjunto de uni
dades que contiene X es un subconjunto del conjunto de unidades que contie
ne Y. Las causas suficientes —normalmente coyunturas causales— son el ob
jeto de estudio del análisis comparado cualitativo (ACC). Véase el capítulo 12.
Neologismo Se refiere a un concepto idiosincrásico debido a su nombre inusi
tado o a su definición inusual (o a ambas cosas). Contrástese con Resonan
cia. Véase el capítulo 5.
No covariacional Véase Diseño de investigación covariacional.
Nominalismo La idea de que hay únicamente objetos individuales, y de que la
referencia a clases de objetos abstractas es errónea. En términos más genera
les, la sospecha de que los conceptos son contenedores lingüísticos arbitra
rios. Véase el capítulo 5.
Observación El elemento más básico de todo trabajo empírico. Cada elemento
de evidencia conseguido para apoyar una proposición. 7: En el análisis cau
sal, las observaciones de base de datos supuestamente son causalmente com
parables entre sí, y por lo tanto pueden ser tratadas como filas de una matriz
(una base de datos rectangular). El número total de observaciones en una
muestra suele representarse con la letra N. (N puede también referirse al nú
mero de casos, lo que genera confusión.) Véase el capítulo 4. II: En cambio,
una observación del proceso causal contribuye a la valoración causal, pero no
es comparable con otras observaciones en un estudio, y por lo tanto no pue
de tratarse como parte de una muestra mayor. Cada observación es diferente
de la siguiente —manzanas y naranjas. Cada una es relevante para el argu
mento central, pero se extrae de diferentes poblaciones y por lo tanto puede
considerarse como una muestra con N = 1. Véase el capítulo 12.
Observación de base de datos Véase Observación.
Observación del proceso causal Véase Observación.
Observación participante Trabajo etnográfico en el que el investigador partici
pa en la actividad que está estudiando.
Observacional (conocido también como Ex post, No experimental) Diseño de
investigación en el que los datos se generan naturalmente en lugar de con la
intervención del investigador. La investigación ocurre después del hecho (ex
post) más que antes del hecho (ex ante), como en un experimento.
450
r
Glosario
Ontología I: Rama de la metafísica que se ocupa de la naturaleza de la exis

tencia. II: Visión de la realidad —de los fenómenos tal y como son en el
mundo real— con la implicación de que esta visión no puede ser corrobora
da o refutada. Los hechos ontológicos son reales, pero no necesariamente
susceptibles de demostración empírica. (Ésta es la connotación que solemos
encontrar en el análisis metodológico actual.)
Operacionalización Criterio de formación de conceptos. En concreto, la facili
dad y validez con la que se puede medir un concepto. Véase el capitulo 5.
Véase también Medición.
Paradigma Véase Argumento.
Parsimonia (conocida también como la navaja de Occam) Un argumento
debe poder expresarse de forma compacta (matemática o verbal) y debe re
querir las menos suposiciones posibles. Véase el capítulo 3.
Partición La falsabilidad de un análisis aumenta si un argumento (o teoría) se
puede aislar eficazmente, o separar, del análisis empírico posterior. Esto re
duce las posibilidades de que una teoría se pueda ajustar, post hoc, para aco
modar hallazgos negativos. Reduce también la tentación de construir argu
mentos precisamente modelados en un escenario empírico particular («ajuste
de curva») que tienen, por lo tanto, una validez intema y externa cuestiona
bles, o de construir un diseño de investigación cuyo propósito es demostrar
(más que comprobar) un argumento dado. (Término acuñado por el autor
del libro.) Véase el capítulo 4.
Periodización Véase Tipología.
PGD Véase Proceso generador de los datos.
Pluralismo Tal y como se emplea en este texto, la idea de que hay múltiples
epistemologías y/o metodologías que se aplican en la investigación en cien
cias sociales, en general, y a la inferencia causal, en particular. Contrástese
con Monismo. Véanse los capítulos 1 y 13.
Población (conocida también como Amplitud, Dominio, Alcance) El universo
de casos y observaciones al que se refiere un argumento. Por lo general suele
ser mayor que la muestra objeto de investigación. Adviértase que la pobla
ción de una inferencia tiene límites tanto espaciales como temporales, aun
que estos últimos suelen permanecer implícitos. Por ejemplo, la población
destinataria de una inferencia sobre la democracia y el desarrollo puede in
cluir a todos los países del mundo de la era moderna, desde 1800 hasta algún
momento no declarado del futuro. Véase Delimitación, Generalidad.
Poder La probabilidad de rechazar correctamente una hipótesis nula falsa (evi
tando el error de tipo I), es decir, la probabilidad de hallar un efecto cuando
ese efecto realmente existe.
Posibilidad de replicación Criterio de todos los análisis. En concreto, la posi
bilidad de reproducir los hallazgos realizados en un escenario que es simi
lar (o quizás idéntico) al de una investigación previa. No está claro en qué
medida exacta deben ser similares estas circunstancias con el fin de que val
gan como replicación (en contraposición a la investigación original). En
todo caso, los investigadores deben esforzarse siempre por la replicación.
451
Positivismo I: Es la creencia de que el verdadero conocimiento se basa en la ex

periencia sensorial —en hechos positivos—, evitando así la especulación me
tafísica sobre las causas y los propósitos normativos. II: Positivismo lógico
(conocido también como Empirismo lógico. Círculo de Viena): filosofía de la
ciencia desarrollada por Rudolf Carnap. Hans Hahn, Otto Neurath, Hans
Reichenbach. inspirándose en la obra temprana de Ludwig Wittgenstein.
111: Vagamente, una perspectiva naturalista de la ciencia social. Concreta
mente. la fe firme en la ciencia como acumulativa, falsable, objetiva, sistemá
tica y como una empresa lógicamente unificada. IV: Posición que menospre
cia la importancia de la causalidad, o la contempla sólo de forma
neohumeana. como conjunciones constantes y leyes de cobertura.
Precisión I: Criterio que atañe a todos los argumentos. Véase el capítulo 3.
II: Criterio que atañe a todos los análisis. En concreto, la coherencia de un
hallazgo en test repetidos, una propiedad de las muestras grandes. La varian
do entre estos resultados proporciona una medida empírica del grado de pre
cisión logrado. Si no tenemos la oportunidad de comparar múltiples iteracio
nes de un solo diseño de investigación (si la investigación es de carácter
cualitativo), entonces la varianza no deja de ser una propiedad teórica. La
fiabilidad es un aspecto importante de la precisión. Adviértase que la preci
sión está muy vinculada al nivel de incertidumbre o probabilidad de un test
empírico. Una mayor precisión implica una mayor certidumbre. Ambas se
pueden indicar con la cantidad de puntos decimales de una medición o —en
un modelo estadístico— con el intervalo de confianza y el valor de probabili
dad asociados al coeficiente. Contrástese con Validez. Véase el capítulo 4.
Predicción I: Modelo que predice eventos futuros basándose en un conjunto
de supuestos racionales y científicos (a diferencia de la profecía). Este mode
lo puede ser causal, no causal o puede incluir elementos de ambos. II: Esti
maciones puntuales para determinadas unidades (casos) derivadas de un
modelo general. III: Las predicciones derivadas de un modelo causal. Así, se
dice que un modelo causal «predice» determinados resultados y niega otros.
En este sentido, las predicciones sobre eventos pasados («posdicciones») son
también relevantes.
Probabilística Relación con propiedades aleatorias (estocásticas). En un mo
delo estadístico son captadas con el término de error.
Proceso generador de los datos (PGD) Factores que presuntamente dan cuenta
de las pautas observadas dentro de la muestra elegida. Se puede representar
visualmente con un gráfico causal.
Proposición Véase Argumento.
Puerta trasera Si estamos intentando medir los efectos causales analizando la
covariación entre X e F, no debe haber ninguna ruta de puerta trasera desde
X hasta Y. Judea Pearl define como puerta trasera cualquier secuencia orde
nada causalmente que conduce desde Y hasta X (diferente de la ruta directa
a través de M). por ejemplo la ruta a través de EIC en la figura 11.3. Si existe
una ruta de puerta trasera, como seguramente ocurre en casi todos los esce
narios no experimentales (e incluso en algunos experimentales), debe blo
quearse por medio de alguna de las diversas estrategias de condicionamiento.
452
Glosario
Advierta que la regla de que no haya ninguna puerta trasera es otra manera
de expresar la regla de «ningún confundidor», aunque expresa el problema
en el lenguaje común de los gráficos causales más que de los factores indivi
duales. Cuando hay puertas traseras (confundidores), la variación de Y no
puede atribuirse sólo a X; operan otros factores. Véase el capitulo 10.
Razonamiento causal Estrategia de inferencia causal que no es empírica en el
sentido usual de este término. Implica juicios sobre los supuestos que funda
mentan una inferencia causal, incluyendo una reflexión sobre el proceso ge
nerador de los datos (PGD) revelado por los datos. Véase el capitulo 11.
Realismo Véase Realismo científico.
Realismo científico La idea de que: (a) la realidad existe con independencia de
nuestro conocimiento de ella y (b) la creencia en que el objetivo de la ciencia
es la descripción y explicación de aspectos observables e inobservables de un
mundo (que tiene una existencia independiente de nosotros).
Recogida de datos Métodos para recoger evidencia, como, por ejemplo, en
cuestas, grupos de discusión, entrevistas, etnografía, investigación de archi
vos y otras medidas no reactivas. (No es de interés primario en este libro.)
Regresión a la media Tipo de confundidor. En concreto, cuando un cambio ob
servado en el transcurso del tiempo es producto de variación estocástica más
que del tratamiento de interés. Véase el capítulo 9.
Relevancia (conocida también como Importancia, Significado social) Criterio
de todos los argumentos. Concretamente, la relevancia de un argumento
para los ciudadanos y los diseñadores de las políticas. Véase el capítulo 3.
Representatividad Criterio de todos los análisis. Una muestra es representativa
cuando sus casos son similares (es decir, comparables causalmente) a una po
blación mayor en todos los respectos que podrían afectar a la hipótesis de in
terés. Contrástese con Sesgo. Véase el capítulo 4.
Resonancia (conocida también como Familiaridad, Uso normal) (Antónimos:
Idiosincrasia, Neologismo, Estipulación) Criterio de la formación de con
ceptos. Concretamente, el ajuste entre un concepto (tal y como lo define el
autor) y su significado usual. Véase el capítulo 5.
Restricción de la exclusión Véase Análisis de variables instrumentales.
Resultado (conocido también como Variable dependiente, Efecto, Variable endó
gena, Explanandum, Output, Respuesta) El resultado es el objetivo de un
argumento causal, lo que se propone explicar. Representado como Y en la fi
gura 9.1 y las siguientes figuras. Véase el capitulo 8.
Resultados alternos (conocidos también como Variables dependientes no equi
valentes o dentro de la unidad) Diseño de investigación centrado en la va
riación entre resultados alternos, más que (o además de) la variación entre
grupos o a lo largo del tiempo. Una de sus versiones, el test placebo, exami
na los resultados alternos a los que el confundidor potencial ha podido
afectar; si se identifica este efecto, entonces la relación entre X e Y se presu
me espuria. Otra de sus versiones, que a menudo se describe como diseño
dentro de la unidad, examina un solo grupo que se somete a dos condicio
nes, una que se puede entender como la condición de tratamiento y otra
como la condición de control. Las diferentes respuestas a estas dos condi-
453
cienes, si son independientes una de otra, pueden ser consideradas eviden

cia de un efecto del tratamiento. Véanse la figura 11.7 y el texto que la
acompaña en el capítulo 11.
Ruido Características de fondo que pueden impedir la atribución causal. Nor
malmente se concibe como estocástico (aleatorio) más que como una fuente
de sesgo (error sistemático). Representado como B en la figura 9.1. Véase el
capitulo 9.
Selección I: Procedimiento para asignar un tratamiento a las unidades (por
ejemplo, la aleatorización). Véanse Asignación y su análisis en el capítulo 10.
(Esta acepción es la más frecuente en los círculos de ciencia social actuales.)
II: Procedimiento para seleccionar un caso o casos entre una población con
el fin de incluirlo o incluirlos en una muestra (por ejemplo, el maestreo alea
torio). Véase el análisis de la representatividad en el capítulo 4).
Selección de casos Identificación de casos para su análisis que entonces com
ponen (colectivamente) la muestra de ese estudio. Los métodos de selección
de casos pueden ser intencionales (cuando el investigador selecciona casos
con características deseables) o aleatorios (casos extraídos aleatoriamente de
una población). El muestreo aleatorio estratificado (cuando los casos se si
túan deliberadamente en diferentes estratos y luego se extraen aleatoriamen
te de cada estrato) combina elementos de estos dos tipos de selección.
Separación Criterio de los argumentos causales. En concreto, un buen argu
mento causal describe un factor causal que es separable del resultado de inte
rés. Véase el capítulo 8.
Sesgo (antónimo: Validez) Generalmente, toda forma de error sistemático (no
aleatorio). /: Sesgo muestra! hace referencia a una muestra que no es repre
sentativa de una población (capítulo 4). II: El sesgo de medición se da cuan
do un concepto no se operacionaliza con precisión (capítulo 7). III: El sesgo
introducido por un confundidor es un obstáculo principal para la inferencia
causal (capítulos 9, 10 y 11).
Sesgo de selección (conocido también como Efecto de selección o Problema de
Asignación) I: Forma de sesgo que a menudo se introduce en el análisis
causal cuando un tratamiento no ha sido aleatorizado entre los casos. En
esta situación, la asignación del tratamiento tiende a estar correlacionada
con el resultado que se está investigando, violando así el supuesto de la com
parabaidad causal. Véase el capítulo 10. II: Sesgo en una muestra relativo a
una población mayor que se debe a un procedimiento dado de selección de
casos (por ejemplo, la selección de casos en función de su resultado). El ses
go de selección en muestras grandes se puede evitar por medio del muestreo
aleatorio. Véase el análisis de la representatividad en el capítulo 4. (Adverten
cia: debido a este doble significado, el texto suele evitar este término.)
Severidad Criterio de todos los análisis. Nivel de riesgo de un test en relación
con una hipótesis dada, es decir, la probabilidad de falsos positivos (error
tipo I). Véase el capítulo 4.
SEVL'T (en inglés SUTVA) Véase Supuesto de la estabilidad en la unidad de tra
tamiento.
Sincrónico Véase Asociación.
454
r
Glosario
Síntesis En este texto, un argumento descriptivo que expresa un tema de forma

holística e integral acentuando las similitudes más que las diferencias en una
muestra de casos con el objetivo de resumir este conjunto de características
en un concepto o frase clave. Véase el capitulo 6.
Supuesto de estabilidad del valor en la unidad de tratamiento (SEVUT [en inglés
SUTVA]) (conocido también como Supuesto de no interferencia) En el aná
lisis causal, el estatus de tratamiento de cualquier unidad que se está exami
nando no debe afectar los resultados potenciales de otras unidades. Expresa
do de otra forma, no debe haber interferencia entre las unidades, cada una
de ellas debe estar aislada del resto durante el transcurso de un análisis. Esto
implica también que el tratamiento se administra uniformemente a todas las
unidades del grupo de tratamiento. Un supuesto asociado con el modelo de
resultados potenciales. (Advertencia: como el SEVUT se refiere a una varie
dad de diseños de investigación, el término no figura de forma prominente
en este texto, donde estos problemas se tratan de una forma más desagrega
da.) Véase el capítulo 10.
Tamaño del efecto Véase Impacto.
Taxonomía Véase Tipología.
Tendencia Toda pauta coherente en el transcurso del tiempo, es decir, donde
una variable está correlacionada con el tiempo (aunque no necesariamente
de forma lineal). Véase el capítulo 6.
Teoría Véase Argumento.
Teoría de conjuntos (conocida también como booleana, lógica, milleana) Cual
quier argumento causal o descriptivo basado en las relaciones de la teoría de
conjuntos. En la inferencia causal, los factores (singulares o plurales) se pue
den conceptualizar como necesarios, suficientes o necesarios y suficientes
para un resultado dado (véanse los capítulos 9 y 12). El análisis comparado
cualitativo (ACC) es un tipo de análisis causal de teoría de conjuntos (capi
tulo 12). En algunas ocasiones, esta clase de argumento recibe el calificativo
de determinista', sin embargo, como puede haber muchas excepciones a una
pauta de la teoría de conjuntos, y como siempre existe cierta incertidumbre
sobre la naturaleza de la relación, se trata de una denominación poco apro
piada.
Test de robustez (conocido también como test de sensibilidad) Estrategia para
la inferencia causal. En concreto, cualquier alteración de un test empírico de
referencia que sirva para captar la fuerza de una hipótesis de acuerdo con va
rios supuestos (plausibles) sobre el proceso generador de los datos. Incluye el
estimador, la especificación, la operacionalización de las variables clave, etc.
Puede ser cuantitativo o cualitativo —aunque en el segundo caso probable
mente adoptará la forma de experimentos mentales contrafácticos. Véase el
capítulo 11.
Test placebo Véase Resultados alternos.
Tipo ideal Véase Definición máxima.
Tipología (conocida también como Clasificación) Argumento descriptivo que
clasifica los casos en categorías discretas que son mutuamente excluyentes y
exhaustivas sobre la base de un principio o principios de categorización uni-
455
forme. Una tipología simple sigue sólo las reglas generales de una tipología.
Las tipologías temporales, o periodizaciones, son tipologías simples ordena
das temporalmente. Las tipologías de matriz se forman de la intersección de
varios principios organizadores (categóricos) (definición especializada). Las
tipologías configuracionales, como las taxonomías, forman subtipos a partir
de una única categoría superior, más que añadir atributos. Las tipologías se
ntencíales (o de proceso), como las taxonomías, pueden diagramarse en un
árbol. Sin embargo, una tipología secuencial presume que las ramas repre
sentan secuencias temporales (que pueden tener o no rasgos taxonómicos).
Véanse la tabla 6.1 y el texto que la acompaña en el capítulo 6.
Tipología configuracional Véase Tipología.
Tipología de matriz Véase Tipología.
Tipología secuencial Véase Tipología.
Tipología temporal Véase Tipología.
Transparencia Criterio de todos los análisis. Específicamente, todos los rasgos
relevantes de un análisis deben ser fáciles de seguir y, por lo tanto, de repli
car. Esto puede requerir un cuaderno de bitácora en el laboratorio en el que
se anotan los datos originales y demás. Véase el capítulo 4.
Transversal Diseño de investigación no aleatorio con postest sólo, es decir, con
variación espacial (pero no temporal) en X e Y. Véase el capítulo 10.
Tratamiento (conocido también como Intervención) El valor de X que es de in
terés teórico primordial. En cambio, la condición de control implica la hipó
tesis nula. De forma alternativa, un trabajo de investigación puede incluir va
rios tratamientos, ninguno de los cuales se concibe como un control puro. En
un experimento, el tratamiento suele estar controlado por el experimentador.
Sin embargo, en el texto este término se usa de forma más general y cubre
tanto en los contextos experimentales como los no experimentales. Véanse
los capítulos 9 y 10.
Triangulación Véase Investigación con múltiples métodos.
Unidad El tipo de fenómeno —es decir, sujetos, participantes, organizaciones,
comunidades— que son objeto de estudio. En la mayoría de las situaciones,
la unidad equivale a un caso, y estos términos se usan más o lítenos indistin
tamente, aunque el último connota un estilo de análisis centrado en el caso
más intensivo.
Unidad de análisis Tipos de observaciones que se analizan en un diseño de in
vestigación determinado. Si el diseño es sincrónico, entonces la unidad de
análisis es espacial (por ejemplo, naciones o individuos). Si el diseño es dia-
crónico, entonces la unidad de análisis es temporal (por ejemplo, décadas,
años, minutos). Si el diseño es sincrónico y diacrónico, entonces la unidad de
análisis tiene componentes espaciales y temporales (por ejemplo, países-
años). Obviamente, la unidad de análisis puede cambiar en el transcurso de
un estudio dado. Aun así, en el contexto de un diseño de investigación deter
minado, debe permanecer constante. Véase el capítulo 4.
Validez /: La validez conceptual se refiere al grado en que un concepto, tal y
como se define, se corresponde con un conjunto de indicadores empíricos (su
operacionalización). Véase el capítulo 6. IT. Criterio de un diseño de investí-
456
Glosario
gación y su correspondiente análisis de los datos. En concreto, la ausencia de

sesgo en una estimación. Véase Validez internalexterna. Contrástese con Pre
cisión. Véase el capítulo 4. III: La validez de constructo se refiere a la corres
pondencia entre una teoría y un diseño de investigación que se propone com
probar esa teoría. Véase el capítulo 4.
Validez de constructo Véase Validez.
Validez externa Véase Validez internalexterna.
Validez interna/externa La validez interna se refiere a la verdad de una propo
sición respecto de la muestra elegida. La validez externa se refiere a la verdad
de una proposición respecto de la población de una inferencia —su capaci
dad de generalización. el capítulo 4.
Variable (conocida también como Atributo, Condición, Dimensión, Factor) En
este texto, todo factor unidimensional que tenga el potencial de variar —sea
o no medible, cualitativo (V pequeño) o cuantitativo (N elevado). En el for
mato de una base de datos, una variable se describe como una columna verti
cal de una matriz. Véase el capítulo 4.
Variable binaria (conocida también como Variable dicotómica) Variable que
sólo tiene dos valores posibles, por ejemplo, X - 0 y X = 1. Se puede repre
sentar como x/X. Véase Medición.
Variable dependiente Véase Factor causal.
Variable independiente Véase Factor causal.
Variable omitida (también conocida como variable perdida) Problema de espe
cificación causado por la omisión de una variable clave. Véase Confundidores
de condicionamiento.
Variable perdida Véase Variable omitida.
Variación Criterio del análisis causal. En concreto, es útil si el factor causal de
interés varía en un diseño de investigación. En los estudios observacionales es
también importante que el resultado de interés varíe (en los estudios experi
mentales es suficiente con que el resultado pueda variar). Véase el capítulo 9.
Varianza Medida de dispersión alrededor de la media de una distribución, cal
culada como la suma de las desviaciones al cuadrado a partir de la media di
vidida por N (el tamaño de la muestra) menos 1.
Verificación Véase Descubrimiento!Apreciación.
Verstehen Véase Interpretativismo.
X Véase Factor causal.
Y I: en la medición, Y representa el indicador o indicadores que se emplean
para medir el concepto de interés (M). Véase el capítulo 7. II: En el análisis
causal, Y representa el resultado (conocido también como variable depen
diente) de interés. Véanse la figura 8.1 y toda la parte III. Cuando es binario,
Y= 0/1 se suele representar como yl Y.
457
Notas
Prefacio
1 Atribuido a Poincaré por Berelson y Steiner (1964: 14). Véase también

Samuelson (1959: 189).
2 Sartori (1970: 1033).
3 En 1958, V. O. Key amonestaba a los científicos políticos por haber cerra
do sus mentes «a problemas de método y técnica» (pág. 967). Ciertamente, hoy
no se podría afirmar esto.
4 Mead (2010); Shapiro (2005); Smith (2003). Véase también el análisis sobre
la relevancia en el capítulo 3.
5 Key (1958: 967).
6 Gerring (2001). Este volumen se inspira también en otros manuscritos y
publicaciones escritos en la última década como, por ejemplo, Gerring (1997,
1999, 2005, 2007, 2008, 2009, 2010); Gerring y Thomas (2011); Gerring y Yes-
nowitz (2006); Gerring y Barresi (2003).
7 La distinción entre métodos cualitativos y cuantitativos se examina en
Brady y Collier (2004); Gerring y Thomas (2011); Glassner y Moreno (1989); ij
Hammersley (1992); Mahoney y Goertz (2006); McLaughlin (1991); Shweder |
(1996); Snow ([1959]) 1993); véase también la entrada del glosario «Cualitati
vo». El interpretativismo se analiza en Gerring (2003).
8 Si bien se oye hoy día mucha retórica sobre la unión entre las metodolo
gías cuantitativas y cualitativas, parece que es más fácil recomendar esta formi
dable tarea que acometerla. De aquí se deduce la ausencia general de textos que
hablen sensatamente a ambas audiencias. Véanse Brady y Collier (2004): Fire-
baugh (2008); Goertz (2006); King, Keohane y Verba (1994); Lieberson (1985);
459
Ragin (1987, 2008); Shadish, Cook y Campbell (2002). Para más comentarios
sobre la división cuantitativo/cualitativo, véase el capítulo 13.
9 Lave y March (1975: 2).
10 Glymour( 1980: 291).
11 Hall (2003).
12 «Más que otros científicos», señala Milton Friedman ([1953] 1984: 236),
«los científicos sociales necesitan ser conscientes de su metodología».
Capítulo 1
1 Condorcet (en 1782), citado en Scott (1998: 91).

2 Wilson (1988: 88).
3 Morgenthau (1995: 441). Véase también Almond y Genco ([1977] 1990).
4 Alford y Hibbing (2008); Carey (2002); Fowler y Schreiber (2008); Freese y
Shostak (2009); Institute of Medicine (2006).
5 Esto es muy importante para la realización de la investigación científica, y
- justifica el enfoque de este libro en la ciencia social, no en la ciencia en general.
Al proclamar que existe una distinción filtré la ciencia social y la ciencia natural
no estoy afirmando una clara dicotomía; en realidad, muchas disciplinas sor
tean la linea divisoria y hay muchos rasgos científicos compartidos por todas las
empresas científicas, se centren en fenómenos sociales o en fenómenos naturales.
Sin embargo, la distinción es importante, porque la naturaleza dé los fenómenos
es tan diferente que a menudo requiere enfoques bastante diferentes. Esto lo po
demos apreciar en la definición del término clave «experimento». Mientras en
las ciencias naturales el término se usa vagamente para hacer referencia a cual
quier tratamiento manipulado, en la ciencia social ha adquirido una definición
mucho más especifica: un tratamiento que se ha aleatorizado (y probablemente
manipulado) entre los grupos de tratamiento y de control. Ésta es la razón que
explica por qué los grupos de control son por lo general necesarios para superar
los confundidores potenciales en un entorno de ciencias sociales, mientras a me
nudo son innecesarios en entornos de ciencias naturales (por ej., cuando se mez
clan dos Huidos en un matraz y el resultado es inmediatamente observable). Véa
se Cook et al. (2010: 109)
6 He encadenado intencionadamente todos los adjetivos que se suelen apli
car a la «ciencia» con el fin de dar una definición tipico-ideal (véase el capítulo
5). Para un compendio de definiciones expresadas por escritores destacados,
véase wwxv.gly.uga.edu/railsback7T122sciencedefns.html. Para ciertos trabajos
que abordan el significado de la ciencia de una manera más matizada y amplia,
véanse Laudan (1983) y Schaffer (1997). Evidentemente hay desacuerdos sobre
cómo definir la ciencia y la utilidad del ideal científico, independientemente de
su definición. Perspectivas criticas se presentan en Barnes y Bloor (1982); Feye-
rabend (1975); Harding (1986, 1987); Latour y Woolgar (1979); Woolgar (1988).
7 Por ejemplo, esto es así entre aquellos que adoptan una perspectiva pos
modernista o postestructuralista (Norris 1997; Rosenau 1992). La antropología
cultural, la historia y otros campos o subcampos con tendencia interpretativista
460
r
Notas
tienen más problemas de clasificación. Son claramente sociales y empíricas, pero

también recelan de la ciencia, especialmente de la búsqueda científica de la gene
ralización de las pautas del comportamiento humano. A este respecto, pueden
caer en algún lugar fuera del marco descrito en este libro. Podemos encontrar
ejemplos de metodología científica aplicada sensatamente en la antropología
cultural en Brim y Spain (1974) y Radcliffe-Brown ([1948] 1957,1958), pero son
menos frecuentes en los trabajos contemporáneos.
8 Dewey (1938: 509). Entre otros trabajos contemporáneos sobre esta cues
tión, véase Easton y Schelling (1991).
9 Almond (1990b).
10 Shapiro (2005); Smith (2003).
11 Collins (1985); Parsons (2007); Sil y Doherty (2000); Tang (2010).
12 Moses y Knutsen (2007).
13 Algunos cuantitativistas tienen la impresión de que los colegas que escri
ben en prosa (particularmente los que escriben buena prosa) compensan su falta
de rigor. «Si no puedes medirlo», sostiene la premisa no formulada, es que «no
vale». Algunos cualitativistas tienen la impresión similar de que medir algo
—«reducirlo a una variable»— es empobrecer nuestra comprensión de un fenó
meno. «Si lo puedes medir», dice su credo, es que «no vale». Kaplan (1964: 206)
atribuye este dictum a los profesores de la Universidad de Michigan (satirizando
a los anticuantitativos). Los mismos sentimientos en contra los hallamos en fra
ses pronunciadas hace mucho por Lord Kelvin («cuando no lo puedes medir,
cuando no puedes expresarlo en números, tu conocimiento es de mala calidad e
insatisfactorio») y Jacob Viner («Cuando lo puedes medir, cuando lo puedes ex
presar en números, tu conocimiento sigue siendo de mala calidad e insatisfacto
rio»). Citado en Berelson y Steiner (1964: 14). Véanse también las palabras de
Robert Fogel (del lado cuantitativo) y Cari Bridenbaugh y Arthur Schlesinger,
Jr. (del lado cualitativo), registradas en Landes y Tilly (1971: 12). Winch (1958)
y Wolin (1969) ofrecen manifiestos anticuantificacionistas. Para un ejemplo que
incluye expresiones de Daniel Boorstin, Cari Bridenbaugh, Barrington Moore,
Arthur Schlesinger y E. P. Thompson, véase Fisher (1970: 94-96). Para los ante
cedentes históricos de la distinción cuali-cuanti, véase Snow ([1959] 1993). Entre
otros pronunciamientos sobre el tema están Brady y Collier (2004); Gerring y
Thomas (2011); Glassner y Moreno (1989); Hammersley (1992); Mahoney y
Goertz (2006); McLaughlin (1991); Shweder (1996); Snow ([1959] 1993). Véase
también el capítulo 13.
14 Miller ([1983] 1991). Véase también Cartwright (2007); Hall (2003);
Hitchcock (2007); Little (1991); Miller (1987); Reiss (2009); Roth (1987).
15 Mills (1959: 224), citado en Eldridge (1983: 37).
16 Sartori (1970).
17 Mi perspectiva se hace eco de la de un libro reciente editado por Henry
Brady y David Collier (2004) con el subtítulo Diverse Tools. Shared Standards.
18 Lindblom (1997: 257).
19 Brady y Collier (2004).
20 Hirsch(1967: viii-ix).
21 Véase Van Fraassen (1980).
461
22 Hayek (1956: 462-463; citado en Redman 1991: epígrafe) señaló en una

ocasión: «El físico que sólo es físico puede ser un físico de primer orden y un
apreciado miembro de la sociedad. Pero nadie puede ser un gran economista si
es sólo economista —e incluso estoy tentado de añadir que el economista que
sólo es economista tiende a convertirse en una molestia, si no en un peligro se
guro». Véase también Wilson (1998).
23 Kaplan (1964: 4).
24 Para un análisis de qué podría significar el «progreso» en este contexto,
véase Laudan (1977). Para un análisis de la importancia de los criterios compar
tidos. véase Brady y Collier (2004).
25 Campbell (1988: 290).
26 La inconmensurabilidad es un término que entró en el léxico de la filoso
fía de la ciencia con la obra de Thomas Kuhn. Se refiere (en general y ambigua
mente) a una condición en la que las personas son incapaces de entenderse debi
do a sus diferenteFcompromisos ideológicos, teóricos o metodológicos. Es,
desde luego, un problema muy viejo. Bacon advirtió que el error era un resulta
do probable cuandoquiera que «un argumento o inferencia pasa de un mundo
de la experiencia a otro» (citado en Wilson 1988:10), una condición a la que
ahora llamaríamos inconmensurabilidad. Debe señalarse que el pluralismo y la
uniformidad son cuestiones de grado. Todo el mundo, salvo los más furibundos
deconstruccionistas. admite que hay algunas perspectivas generales sobre la ver
dad y el conocimiento que mantienen unidas a las ciencias sociales. Véanse Lau
dan (1983, 1996), Wallerstein et al., (1996: 92-93) y Wilson (1988) para una ulte
rior defensa de una metodología unificada («objetiva»). Véanse Hollis y Lukes
(1982) y Laudan (1983, T996) para una discusión getíerál del relativismo. Argu
mentos a favor de unificar las dimensiones «cualitativa» y «cuantitativa» de la
metodología de la ciencia social se encuentran en Lazarsfeld y Rosemberg (1955:
387-391) y en King, Keohane y Verba (1994). McKeown (1999) expresa dudas
sobre este punto.
27 Murray (1984).
28 Lakoffy York (1989).
29 La busca de consenso podría expresarse también como búsqueda de obje
tividad. El problema con este término del que tanto se ha abusado es que fo
menta la ilusión de que ese acuerdo puede surgir fácilmente de una realidad em
pírica siempre que veamos esa realidad con neutralidad (sin prejuicios). Mi
defensa del acuerdo se basa en la necesidad pragmática del acuerdo más que en
una teoría particular del conocimiento: empirista, inductivista, verificacionista,
falsacionista, etc.
30 Vale la pena señalar que toda obra sobre metodología —salvo quizás las
más genuinamente históricas— se construyen sobre fundamentos normativos.
¿Para qué escribir o leer un tratado sobre este tema, si no es para descubrir un
deber ser o un no deber ser? Otra manera de enunciar esta cuestión es decir que
la relevancia del estudio metodológico nace de su capacidad para orientar y diri-
gir la investigación en el campo. Un estudio puramente descriptivo, suponiendo
que se pudiera escribir úñTiHro así, es menos interesante porque no adopta posi
ciones en las batallas metodológicas actuales. Es más, como cuestión práctica,
462
Notas
un libro que atravesara este territorio y garantizara la misma cobertura a todos

los métodos, prácticas y premisas, sería demasiado largo y demasiado heterogé
neo como para servir de ayuda a los investigadores. Así, he excluido o desaten
dido conscientemente ciertas tendencias que parecían, a mi modo de ver, idio
sincrásicas o no productivas.
31 Los criterios son centrales para el presente marco, un marco que inicial
mente (Gerring 2001) se llamó marco «de criterios». Siguiendo a Cavell (1979: ■■
9), los criterios son «especificaciones que una persona o grupo dado establece /
en función de las cuales poder... juzgar... si algo tiene un valor o un estatus /
particular».
32 Se podría añadir aquí que metodológicamente hay también relativamente
poco que decir sobre la descripción o la explicación de un evento particular. A
buen seguro, se requiere un grado alto de experiencia para tomar una determi
nación sobre una cuestión de hecho discutida; estos juicios no son fáciles de ha
cer. Pero esta experiencia normalmente no se presta a los criterios generales de
la inferencia. Se basa en cambio en un conocimiento_allamente contextual sobre
tiempos, lugares y personas concretas. Lieberson (1985); Thompson (1978);
Winks (1969).
33 Gerring (2007). Véanse también Bennett (2010); George y Bennett (2005).
34 Kelman (1982) nos ofrece reflexiones generales sobre la ética de la investi-
gación en las ciencias sociales. Mazur (2007) y Sales y Felkman (2000) examinan
la investigación sobre sujetos humanos. Paluck (2009) y Wood (2006) tratan los
dilemas éticos del trabajo de campo, con especial atención a las zonas de intenso i_
conflicto."
35 Sobre las constricciones prácticas, véanse Barrett y Cason (1997); Lieber-
man, Howard y Lynch (2004); Van Evera (1997).
36 Para contribuir a la desambiguación, Judea Pearl ha defendido reciente
mente un nuevo «Wiki Glossary of Causal Terminology» (www.miii.ucla.edu/
causality).
37 De hecho, las categorías de la tabla 1.1 son ligeramente diferentes de las
empleadas en la edición anterior de este libro (Gerring 2001).
38 Coppedge y Gerring (2011); Munck y Verkuilen (2002).
39 Berg-Schlosser (2007); Coppedge (en prensa); Geddes (2007).
40 Gerring y Thacker (2011); Mullingan, Gil y Sala-i-Martin (2004).
41 Brown, Lynn-Jones y Miller (1996); Elman (1997).
42 La literatura sobre este controvertido tema es amplia. Entre otras obras
recientes están Chubb y Moe (1990); Fuller y Elmore (1996); Howell y Peterson
(2002); Hoxby (2003); Krueger y Mhu (2004); Ladd (2002); Meal (2002); Smith
(2005). Véase también Morgan y Winship (2007) para comentarios metodológi
cos sobre los cupones como una cuestión de investigación en la ciencia social.
Aunque buena parte de la literatura académica actual se centra en la experiencia
de Estados Unidos, esta política se ha implementado en mayor escala en otros
países, como por ejemplo en Chile, Colombia y Suecia. Los cupones no son en
modo alguno una preocupación exclusivamente estadounidense. Camoy (1998);
Chakrabarti y Peterson (2008); Gauri y Vawda (2004).
43 Friedman (1955).
463
Capitulo 2
1 Oliver(1991:ix).
2 Aquí podemos remontamos a Reichenbach (1938), quien distingue entre
un «contexto de descubrimiento» y un «contexto de justificación». Véase tam
bién Hanson (1961): McLaughlin (1982); Nickles (1980); Popper (1965); Zahar
(1983). Los críticos (por ej. Schiemann 2003) señalan que la distinción no es una
dicotomía, es decir, que en la práctica es difícil separar los dos objetivos. Mi po
sición. sin embargo, no es que constituyen una tipología nueva. Antes bien, afir
mo que son dos objetivos científicos fundamentales que imponen estrategias y
criterios metodológicos un tanto diferentes a la actividad de la ciencia.
3 Hume (1985: 254).
4 1.1. Rabi. citado en Root Bemstein (1989: 407).
5 Para un examen reciente de la literatura pertinente, véase Berg-Schlosser
(2007): Coppedge (en prensa); Geddes (2007).
6 Acemoglu y Robinson (2005).
7 Esto sigue la línea argumenta! iniciada por Acemoglu, Johnson y Robin
son (2001): Sokoloff y Engerman (2000).
8 Ross (2001: 327-328). Véase también Dunning (2008a).
9 Popper (1965: 37). Podría decirse que el nombre del tratado clásico de Po
pper La lógica de la investigación científica ([1934] 1968) no se ajusta a su conte
nido. No ofrece una lógica de la investigación, sino una lógica de la comproba
ción. En cualquier caso, prefiero el término «apreciación» al de «falsabilidad»,
porque este último presume cierta aproximación a la comprobación que quizás
no esté totalmente justificada.
10 Popper ([1934] 1968:92).
11 Feyerabend (1975: 23).
12 Feyerabend (1963, 1975). Aunque Feyerabend adoptó una postura radi
cal contra la ciencia (entendida tradicionalmente), su obra se puede entender en
el marco de la filosofía de la ciencia tradicional si uno la aborda como un co
rrectivo a la idea ingenua, popperiana («positivista»), del proceso científico.
Buena parte de lo que Feyerabend tenía que decir se aplicó con bastante fuerza
al contexto del descubrimiento (aunque él rechazaba la utilidad de la distinción
descubrimiento-apreciación).
13 Citado en Snyder (2007: 20).
14 Popper ([1934] 1968, 1965).
15 Gorski (2004); Lakatos (1978).
16 Una manera de tratar esta disputa es examinar las circunstancias específi
cas de una investigación para ver qué suerte de enfoque está justificado. Un pro
cedimiento falsacionista tiende a ser justificable cuando la investigación sobre
un tema es abundante, la hipótesis principal está bien definida, se pueden apli
car métodos experimentales, los errores de tipo I son más preocupantes que los
de tipo II, tenemos razones para preocupamos concretamente de los sesgos per
sonales y las preconcepciones de los investigadores, hay disponible un órgano de
revisión neutral que supervise la investigación sobre un tema y la investigación
está bien financiada —en estos casos, el proceso de generación de hipótesis y el
464
Notas
de su comprobación están adecuadamente separados y se deben aplicar reglas

procedimentales rígidas. Popper, no Feyerabend, debe ser nuestro guia. Ahora
bien, estas condiciones no suelen darse, especialmente en las ciencias sociales.
Ante esta situación, tiene poco sentido disfrazar nuestra investigación para que
cumpla los requisitos popperianos de la ciencia. Adviértase que las revistas de
ciencia social insisten con frecuencia en la presentación de una hipótesis a priori
(«sugerida por la literatura pertinente»), que deberá ser (el escritor, de forma ca
racterística, cambia al tiempo futuro) «comprobada con los datos», aunque los
procedimientos utilizados en el transcurso de la investigación sean despreocupa
damente exploratorios. Nada se gana —y mucho se puede perder— presentando
nuestros hallazgos de forma errónea. Admitiendo esto, las disciplinas de la cien
cia social habrán de esforzarse más por distinguir entre el trabajo de la compro
bación de la teoría y el que es, conecta y justificadamente, generador de teoría.
Ambos deben respetarse siempre, en la medida en que las circunstancias (men
cionadas anteriormente) lo justifiquen.
17 Citado en King, Keohane y Verba (1994: 129).
18 Con respecto a mi propia buena fe, permítanme señalar que en este cam
po particular de la investigación («empezar») quizás tengo cierta autoridad. Du
rante las dos últimas décadas he empezado una y otra vez con nuevos temas, al
gunos de los cuales (quizás inevitablemente) han resultado ser más instructivos
que otros.
19 La literatura importante para este capítulo procede de la investigación so
bre los temas relacionados del descubrimiento, la innovación y la exploración,
así como de las columnas de consejos de boletines informativos y libros de texto
introductorios. Lamentablemente, esta literatura se centra principalmente en el
contexto organizativo del descubrimiento (por ejemplo, de psicólogos y sociólo
gos) y en el descubrimiento en las ciencias naturales, donde el concepto tiene su
contraparte en la noción de un claro «hallazgo». En las ciencias sociales, donde
los hallazgos definitivos son escasos y la acumulación más dudosa, el concepto
de descubrimiento tiene un significado más ambiguo. Teniendo en cuenta esta
advertencia, las siguientes obras resultan útiles: Koestler (1964); Luker (2008);
McGuire (1997); Mills (1959: 195-226); Oliver (1991); Root-Bemstein (1989);
Snyder (2007). Véanse también Abbott (2004); Fleck ([1935] 1979); Freedman
(2008); Geddes (2003: 27-45); Hanson (1958); Ring, Keohane y Verba (1994:14-
19); Kuhn ([1962] 1970); Langley et al. (1987); Most (1990); Root-Bemstein y
Root-Bernstein (1999); Useem (1997); Watson (1969). Sobre la acción creativa
de construir modelos formales, véanse Cartwright (1983); Hesse (1966); Lave y
March (1975).
20 Snyder (2007).
21 Mills (1959: 202)
22 Kaplan (1964: 86), parafraseando a Charles Sanders Peirce.
23 Finlay y Gough (2003); Krieger (1991); Mills (1959); Snyder (2007).
24 Mills (1959: 196).
25 Gadamer (1975) lo califica de fusión de horizontes: el nuestro y el de ellos
(el de los actores que estamos intentando comprender).
26 Gerring y Yesnowitz (2006); Shapiro (2005); Smith (2003).
465
27 Firebaugh (2008: cap. 1).

28 Collier (1995); Schmitter (1974).
29 Root-Bernstein (1989: 408).
31 Koestler (1964: 119-120).
32 Koestler (1964: 169).
33 Koestler (1964: 210).
34 Koestler (1964: 210).
35 Citado en Robinson (1954: 6).
36 Gadamer(1975).
37 Citado en Root-Bernstein (1989: 409).
38 Mills (1959: 196).
39 Mills (1959: 214).
40 Kuhn ([1962] 1970); Lakatos (1978); Laudan (1977).
41 Ragin(1992).
42 Gerring ero/. (2011).
43 Linsley y Usinger (1959).
45 Lave y March (1975).
46 Esto nos sugiere la pregunta de cómo debemos definir una hipótesis
«nula»; pero dejemos este asunto para después.
47 Gerring (2007: cap. 5).
48 Estas diferentes estrategias de selección de casos se pueden llevar a cabo
de formas cualitativas (informales) o cuantitativas (formales). Estas últimas re
quieren una muestra grande de casos potenciales y datos relevantes sobre los pa
rámetros de interés. Gerring (2007: cap. 5) ha explorado las técnicas estadísticas
para seleccionar uno o varios casos de una muestra grande.
49 Eckstein (1975).
50 Hoy (1982).
51 Luker(2008: 18).
52 Luker(2008: 19).
53 Luker(2008: 19).
Capítulo 3
1 De vez en cuando aparecen en la literatura sobre metodología de las ciencias

sociales breves listas de desiderata (por ejemplo, Laudan 1996: 132), pero rara
mente se desarrollan. Los autores parecen dar bastante poco peso a estas cues
tiones.
2 De hecho, Popper se refiere a la precisión y la falsabilidad como sinónimos
([1934] 1968).
3 Malinowski ([1922] 1984: 509). Véanse también Easton (1953: 55); Kincaid
(1990); Lakatos (1978: 33); Laudan (1977); Levey (1996); Mclntyre (1996);
Przeworski y Teune (1970:4); Scriven (1962); Skyrms (1980), y la obra de otros es
tudiosos orientados al estudio de la naturaleza como Cari Hempel y Ernest Nagel.
466
Notas
4 Gerring (2007).
5 Lebow (2007); Tetlock y Belkin (1996).
6 Véase Green y Shapiro (1994: 45).
7 Para trabajos sobre las cuestiones interrelacionadas de la reducción, la
simplicidad y la parsimonia, véanse K. Friedman (1972); M. Friedman (1974);
Glymour (1980); Hesse (1974); King, Keohane y Verba (1994: 20); Kitcher
(1989); Popper ([1934] 1968); Guiñe (1966); Simón (2001); Sober (1975,1988).
8 Collier y Collier (1991) y Fischer (1989) son algunos ejemplos contempo
ráneos de la combinación entre parsimonia y extensión. Algunos libros largos,
sin embargo, no representan esfuerzo alguno de sinopsis, por ejemplo, Gay
(1984-1998); Kantorowicz (1957); Pocock (1975).
9 King, Keohane y Verba (1994: 20, 104) adoptan la interpretación la reali-
dad-es-simple de la parsimonia y rechazan el criterio por esos motivos. Si se in
terpreta como norma pragmática, en cambio, podría no ser rechazada por los
autores. Véase, por ejemplo, su análisis de la importancia de la palanca («expli
car lo más posible con lo menos posible», pág. 29).
10 Neurath (1971: 47).
11 Mach ([1902] 1953:450-451).
12 Einstein ([1940] 1953:253).
13 Wilson (1998: 291).
14 Véanse Hitchcock (2003); Homans (1967); King, Keohane y Verba (1994:
15-17); Kitcher (1981); Mili ([1843] 1872: 143-144); Neurath, Carnap y Morris
(1971); Putnam y Oppenheim (1958). Lo que entiendo por conmensurabilidad
es también similar a los enfoques de la coherencia sobre la verdad, tal y como se
emplea este término en la epistemología y la filosofía de la ciencia (Kirkham
1992; Laudan 1996: 79).
15 Dewey (1938: 499).
16 Adcock (2009); Bloch ([1941] 1953); Bok (1982); Haan et al. (1983); Ler-
ner y Lasswell (1951); Lindblom y Cohén (1979); McCall y Weber (1984); Mills
(1959); Myrdal (1970: 258); Popper ([1936] 1957: 56); Rule (1997); Shapiro
(2005); Simón (1982); Smith (2002); Wilensky (1997); Zald (1990).
17 McCloskey y Ziliak (1996); Ziliak y McCloskey (2008).
18 Citado en Fischer (1970: 78).
19 Collier (1998); Freeden (1996); Gallie (1956); Hollis y Lukes (1982); Macln-
tyre (1971); Pitkin (1972); Searle (1969); Strauss ([1953] 1963); Taylor ([1967]
1994).
20 Carr([1939] 1964:4).
21 Friedman ([1953] 1984).
22 Davis (1988); Morgan (1975); Patterson (1982).
23 Moore(1958: 159).
24 Gardiner ([1952] 1961: 12).
25 Esto se sigue del análisis de Collingwood (1940). Por lo general, identifi
camos un factor causal que «tenemos la capacidad de producir o impedir y, al
producirlo o impedirlo, podemos producir o impedir aquello de lo que se dice
que es causa» (citado en Garfinkel 1981: 138). Véanse también Gasking (1955);
Harte y Madden (1975); Suppes (1970); Von Wright (1971); Whitbeck (1977),
467
todos citados en Cook y Campbell (1979: 25). Adviértase que la manipulabili-

dad también aumenta la posibilidad de comprobación de un argumento causal,
como veremos en el capítulo 9.
Capitulo 4
1 Wildavsky (1995).
2 Los realistas científicos reconocen una distinción análoga entre los ele
mentos supra-empíricos y empíricos de una teoría (Hitchcock 2003: 217).
3 Citado en Rosenbaum (2010: 95).
4 Bhaskar ([1975] 1978: 171).
5 Para un análisis más profundo véase Gerring (2007).
6 La idea del diseño en la investigación basada en experimentos se refiere «al
proceso de contemplar, recolectar, organizar y analizar datos que tiene lugar an
tes de ver el producto» (Rubin 2008: 810). Esto parece demasiado estricto para
nuestros propósitos, porque en la investigación observacional la selección de un
lugar de investigación suele depender de una consideración inicial de los datos
«resultantes». Mi concepción del diseño comprende todos los factores que po
drían influir (legítimamente) en la elección de la observación a estudiar.
7 Por ejemplo, Greene (2002).
8 Rubin (2008). Véanse Angrist y Pischke (2010); Bowers y Panagopoulos
(2009): King, Keohane y Verba (1995); Rosenbaum (1999, 2010); Sekhon (2009);
Shadish y Cook (1999: 294).
9 Berk (1991: 316).
10 Freedman (1977: 114; cursivas nuestras). Sobre los problemas de la infe
rencia causal basada en datos de observación, y la correspondiente importancia
del diseño de investigación, véanse Berk (2004); Brady y Collier (2004); Clogg y
Haritou (1997); Freedman (1991, 2008, 2010); Gerber, Green y Kaplan (2004);
Gigerenzer (2004); Heckman (2008: 3); Kittel (2006); Longford (2005); Pearl
(2009b: 40, 332); Robins y Wasserman (1999); Rodrik (2005); Rosenbaum (1999,
2005): Seawright (2010); Summers (1991).
11 Rosenbaum (1999).
12 Mooney (1997).
13 King, Keohane y Verba (1994: 32).
14 Weisberg (2005).
15 Véase Gerring (2007: capítulo 5).
16 Eckstein (1975: 113).
17 Dion(I998).
18 Allison(2002).
19 Lieberson (1985: cap. 5).
20 Achen y Shively (1995).
21 Berk (2005: 16). Véanse también Berk et al. (1992); Bloom, Hill y Riccio
(2002).
22 Briggs (2005); Petitti (1993); Wachter (1988). Una posible excepción a
esta conclusión tan pesimista es el campo de los estudios experimentales que se
468
r
Notas
han realizado en las últimas décadas sobre temas como la participación electo
ral (véase el sitio web GOTV de Don Green en Yale: http://reserach.yale.edu/
GOTV) o la discriminación laboral (Pager 2007).
23 Firebaugh (2008: cap. 4).
24 Freese (2007); King, Keohane y Verba (1994: 23, 26, 51).
25 Rosenbaum (2010:103).
26 Mahoney (2002).
27 Un ejemplo de esta suerte de replicación lo encontramos en Lieshout, Se-
gers y Van der Vleuten (2004), un intento de replicar el trabajo de archivo de
Moravcsik (1998).
28 Véanse Hammersley (1997); Mauthner, Parry y Backett-Milbum (1998), y
los artículos en Corti, Witzel y Bishop (2005).
29 Cox (2007: 2), citado en Rosenbaum (2010: 147).
30 Eckstein (1975); Forsyth (1976); Popper (1965: 112). Platt (1964) sugiere
que esta noción se remonta a Francis Bacon.
31 Shadish, Cook y Campbell (2002).
32 Daniels (2005).
33 Gorski (2004); Green y Shapiro (1994); Lieberson (1992).
34 Popper (1965: 36). Véanse también Popper ([1934] 1968); Howson y Ur-
bach (1989: 86); Mayo (1996: cap. 6); Mayo y Spanos (2006).
35 Rosenbaum (2010: 123).
36 Coleman (2007: 129-130).
37 Coleman (2007: 130). Véase también Taagepera (2008).
38 Rosenbaum (210: 124-125).
39 Grofman (2007).
40 King, Keohane y Verba (1994) advierten: «los ajustes ad hoc en una teo
ría que no concuerda con los datos existentes deben usarse sólo en raras ocasio
nes» (p. 21). «Siempre... debe evitarse usar los mismos datos para evaluar la teo
ría que [usted] usó para desarrollarla» (p. 46). Los datos originales se pueden
usar de nuevo» en la medida en que la conclusión? “no se ha derivado” de los
datos, sino que es una hipótesis independientemente sugerida por la teoría o un
conjunto de datos diferente «(p. 30). Véanse también Eckstein (1992: 266);
Friedman ([1953] 1984: 213); Goldthorpe (1997: 15).
41 Rubin (2008: 816).
Capítulo 5
1 Weber ([1905] 1949: 105-106).

2 Sartori (1984: 60).
3 En algunas ocasiones esto difiere de las prácticas lingüisticas actuales,
donde estos términos suelen emplearse como una señal de la calidad de la evi
dencia disponible: se interpreta «causal» como evidencia experimental o cuasi
experimental y «descriptivo» como evidencia que es (por cualquier razón) débil.
Andrew Gelman recomienda: «Cuando se describen comparaciones y regresio
nes se debe intentar evitar el término “efecto” asi como otros términos causales
469
{salvo en escenarios claramente causales) y escribir o hablar siempre en términos

descriptivos»: www.stat.columbia.edu/~cook/movabletype/archives/2009/03/
describing_desc.html. En este sentido, algunos investigadores prefieren conside
rar toda evidencia como descriptiva, acentuando así el salto interpretativo que
requiere la inferencia causal (Achen ,1982: 77-78). El problema obvio de este
salto en la definición es que nos priva de un modo de distinguir argumentos con
diferentes objetivos. Adviértase que cualquier intento de apreciar el valor de ver
dad de una proposición empírica debe empezar por resolver cuáles son los obje
tivos de la proposición, es decir, si son descriptivos, causales u otros. Si la pre
tensión de verdad no está clara, entonces es imposible proceder a la falsación.
Desde esta perspectiva, preservar la distinción tradicional entre las preguntas
que atañen al qué y las preguntas que atañen al por qué debe tener prioridad
máxima en la disciplina.
4 Repito: esto no excluye la discusión de eventos y resultados particulares,
pero sí significa que el objetivo de estos casos es reflexionar sobre las caracterís
ticas de una población mayor.
5 Fundamentalmente, todo conocimiento empírico se puede considerar infe
rencia!. Sin embargo, es útil distinguir entre los hechos del mundo prontamente
comprensibles («observables») y aquellos sobre los que se tiene que especular
(«inobservables»). Reservo el concepto de inferencia para estos últimos.
6 Jacoby (1999).
7 Berk (2004: 207).
8 No está claro en qué momento exacto surgió esta connotación peyorativa.
Se mencionó o comentó en la literatura de la ciencia social en varios momentos
durante la última mitad del siglo xx (por ejemplo, Klimm 1959; Sen 1980; Sin-
ger 1961). Sin embargo, probablemente apareció antes en la tradición de la eco
nomía y la ciencia política anglo-estadounidenses (por ejemplo, Clark y Banks
1793: 157).
9 Para ejemplos de investigaciones en ciencias naturales que son descriptivas
más que causales, véase Bunge (1979).
10 Lógicamente, si las ciencias sociales estuvieran fundamentadas en un úni
co marco teórico-causal como la evolución en las ciencias biológicas, entonces
dispondríamos de un modelo causal con el que poder construir certeramente
una descripción coherente del mundo. Pero carecemos de un paradigma unifica-
dor como éste, y por eso es difícil establecer cómo habría de ser (en términos
concretos) o cómo organizar una descripción causalmente ordenada del mundo
político. Podríamos replicar que en un universo multiparadigmático debemos
contemplar hipótesis causales de menor escala para organizar el trabajo de la
disciplina, siguiendo el modelo «conductista». Pero aquí tropezamos con otro
problema de indeterminación. Como la atribución causal es difícil de establecer
para muchas cuestiones no triviales de la ciencia social, es problemático afirmar
que X importa como tema de investigación sólo porque causa Y (o Y interesa
sólo porque es causada por X). La ambigüedad sobre si X causa realmente Y
significa que puede ser mejor abordar Xe Y primero como fenómenos descripti
vos —importantes por sí mismos— más que como variables dependiente e inde
pendiente potenciales. Como ejemplo, volvamos a considerar la cuestión de la
470
Notas
«democracia». Presumiblemente, esta característica tiene muchas propiedades

causales. Sin embargo, no sabemos con certeza cuáles son; y, con seguridad, no
sabemos con precisión cuáles son. Por consiguiente, quizás el tema se abordará
mejor, al menos inicialmente, como una cuestión descriptiva. Desde luego, con
esto no quiero sugerir que la inferencia descriptiva se realice sin saber todas las
potencialidades causales. Lo que quiero señalar más bien es que en circunstan
cias donde los marcos casuales son abiertos —presumiblemente la inmensa ma
yoría de casos en las ciencias sociales— la inferencia descriptiva debe realizarse
con independencia de cualquier hipótesis causal particular. Esto ayuda a evitar
una definición cargada de prejuicios (es decir, particularista, idiosincrásica) de
un objeto de estudio. Todas las hipótesis causales posibles son relevantes: aque
llas en las que un tema sirve de variable independiente, aquellas en las que sirve
de variable dependiente, y aquellas en las que sirve de camino causal en un tema
más amplio. Cuando se considera de esta manera abierta, el tema de interés (por
ejemplo, la democracia) se aborda descriptivamente más que simplemente como
un apéndice de un posterior análisis causal.
11 Schedler (en prensa).
12 Firebaugh (2008: 3).
13 Lieberson (1985: 219). Véase también Gelman (2010).
14 Nie, Verba y Petrocik (1976).
15 Converse (1964).
16 Milanovic (2005).
17 Bourguignon y Morrisson (2002); Dollar (2005); Firebaugh (2003).
18 Hartz (1955); Tocqueville (1945).
19 Pocock (1975).
20 Smith (1993).
21 Heath y Martin (1997); Herrera y Kapur (2007); Kurtz y Schrank (2007);
Munck (2009); Rokkan et al. (1970: 169-180).
22 Sobre la democracia, véanse Bowman, Lehoucq y Mahoney (2005): Co-
ppedge (en prensa); Hadenius y Teorell (2005); Munck (2009); Munck y Erkui-
len (2002). Sobre la gobernanza, véanse Kurtz y Schrank (2007); March y Olson
(1995); Pagden (1998); Pierre (2000). En USAID (1998) puede encontrarse un
gran compendio de indicadores de la democracia y la gobernanza.
23 Por ejemplo, podemos considerar el gobierno local en el mundo en desa
rrollo, un tema que ha suscitado poca atención empírica sistemática a pesar de
su importancia obvia. Para un análisis reciente de este desatendido campo de es
tudio, véase UN Habitat (2004)
24 Sartori (1970: 1033).
25 Brown, Lynn-Jones y Miller (1996); Elman (1997).
26 Sartori (1970; 1038).
27 El tratamiento del concepto de la democracia en éste y el siguiente capítu
lo se basa en Coppedge (en prensa); Coppedge y Gerring (2011); Munck (2009).
28 Collier y Mahon (1993); Sartori (1970).
29 Sartori (1975: 9; véase también 1984: 38, 52-53).
30 Robinson (1954: 63).
31 Popper (1976: 19; citado en Collier 1998).
471
32 Por «teorizar» entiendo la búsqueda de inferencias causales o descriptivas

de alcance general, no el desarrollo de una teoría sobre un único evento o con
texto. Para un análisis más profundo, véase el capítulo 4.
33 El enfoque clásico de la formación de conceptos se remonta normalmente
a Aristóteles y los filósofos escolásticos de la Edad Media. Entre los defensores
del siglo XIX figuran Mili ([1843] 1872: 73) y Jevons (véase Kaplan 1964: 68). Del
siglo xx véanse Chapín (1939): Cohén y Nagel (1934); DiRenzo (1966); Dumont
y Wilson (1967): Hempel (1952, 1963, 1965, 1966); Landau (1972); Lasswell y
Kaplan (1950): Lazarsfeld (1966): Meehan (1971); Stinchcombe (1968, 1978);
Zannoni (1978): y, de forma más importante, Sartori (1970, 1984). Para un enfo
que reconstructivo algo diferente basado en la tradición filosófica analítica, véa
se Oppenheim (1961, 1976. 1981). Para otros análisis sobre el concepto clásico y
sus limitaciones, véanse Adcock (2005); Collier y Levitsky (1997); Collier y Ge-
rring (2009): Collier y Mahom (1993); Goertz (2006); Kaplan (1964: 68); Lakoff
(1987); Taylor( 1995).
34 Hoy (1982).
35 La resonancia es la encamación del criterio de la filosofía del lenguaje or
dinario. El significado de una palabra, declara Wittgenstein (1953: 43), «depende
de su uso en el lenguaje». Pitkin (1972: 173) señala: «El significado de una pala
bra... es el que encontramos en un buen diccionario —una palabra o frase que
puede reemplazarla. El significado de “justicia” tiene que ver con lo que la gente
intenta comunicar al pronunciarla, no con los rasgos de los fenómenos a los que
se refiere». Véanse también Austin (1961); Catón (1963); Chappell (1964); Ryle
(1949); Ziff (1960), así como algunos trabajos de G. E. M. Anscombe, Stanley
Cavell. Jerry Fodor, Jerrold Katz, Normal Malcolm y John Wisdom.
36 Robinson (1954: 80). Véanse también Linnaeus, aforismos 243-244 (re
producidos en Linsley y Usinger, 1959: 40); Connolly ([1974] 1983); Durkheim
([1895] 1964: 37); Mahon (1998); Mili ([1843] 1872: 24); Oppenheim (1975); Pit
kin (1972).
37 Dahi (1971: 9).
38 Sobre poliarquía, véase Dahl (1971); sobre herestética, véase Riker
(1986); sobre corporatismo, véanse Collier (1995) y Schmitter (1974).
39 Robinson (1954) señala: «Los hombres se encuentran inevitablemente
con cosas nuevas para las que carecen de palabras, y por lo general afrontan este
problema aplicando alguna vieja palabra que les parece apropiada. Luego esa
vieja palabra adquiere otro significado o amplía el suyo. Muy raramente harán
lo que A. E. Housman les sugiere hacer: inventar un nuevo sonido para expresar
con sentido una cosa nueva». Para un estudio sobre los neologismos contempo
ráneos, véase Algeo (1991).
40 Schaffer (1998).
41 Robinson (1954: 73); Sartori (1984).
42 Durkheim ([1895] 1964:36-37).
43 Adcock y Collier (2001); Bierwisch (1981); Bierwisch y Schreuder (1992);
Robinson (1954); Taylor(1995: cap. 14).
44 Goertz (2008: 109) lo llama «homogeneidad».
45 Collier y Mahon (1993); Sartori (1970).
472
r
Notas
46 En algunas ocasiones esta relación ha sido denominada «escala de la abs

tracción». Sin embargo, esta manera de ver las cosas induce un tanto a error. Si
la democracia se define con tres atributos en lugar de cuatro, esta definición no
es más abstracta; simplemente tiene un alcance más reducido (con la advertencia
que se comenta en el texto). En todo caso, la relación entre la intensión y la ex
tensión tiene una larga tradición en la literatura sobre la lógica y los conceptos.
Hace más de un siglo Stanley Jevons ([1877] 1958: 26) señaló que cuando los
atributos definitorios de una palabra se expanden —por ejemplo, cuando «gue
rra» pasa a ser «guerra internacional»— su alcance empírico se reduce. Weber
(citado en Burger, 1976: 72) también señaló que «cuanto más se extiende el al
cance de un concepto, menos contenido tiene». En los últimos años esta idea se
ha llegado a asociar con la obra de Giovani Sartori (1970: 104, 1984); Collier y
Gerring, 2009). Véanse también Angeles (1981: 141); Cohén y Nagel (1934: 33);
Collier y Mahon (1993); Frege (citado en Passmore [1961] 1967:184).
47 Goertz (2006).
48 Si el lector percibe que este ejemplo está muy forzado, podemos considerar
otro. La democracia se puede definir en general como el gobierno del pueblo, con
las siguientes dimensiones específicas del concepto: (a) gobierno popular directo
(con referéndos y asambleas de masas; (b) gobierno popular indirecto (con repre
sentantes electos); y (c) gobierno popular deliberativo (con entidades consultivas).
Podría afirmarse que todos estos elementos pueden sustituirse por cualquiera de
ellos. Así, se pueden considerar atributos de condición-suficiente.
49 Por ejemplo, Campbell et al. (1960); Verba, Schlozman y Brady (1995).
50 Yoon (2009: 202).
51 Almond y Verba ([1963] 1969).
52 Álvarez et al. (1996).
53 Levitsky y Way (2002).
54 Marshall y Jaggers (2007).
55 Coppedge y Gerring (2011).
56 En Coppedge, Álvarez y Maldonado (2008) encontramos un reciente in
tento cuantitativo que emplea el análisis factorial.
57 Una definición «esencial», «real» u «ontológica» es aquella que «propor
ciona la esencia de una cosa. De todas las características de una cosa hay una
que es única y jerárquicamente superior en el sentido de que expresa: (a) la ca
racterística más importante de la cosa y/o (b) esa característica de la que depen
de la existencia de las demás» (Ángeles 1981: 57). Véanse también Mili ([1843]
1872: 71); Goertz (2006).
58 Dahl ([1957] 1969: 79-80).
59 Los dos desiderata de la coherencia y la diferenciación corresponden a las
operaciones de «agrupar y separar» en el ámbito de la clasificación social
(Zerubavel 1996) y a los conceptos de «semejanza y diferencia» en la lingüística
cognitiva (Tversky y Gati 1978). Se pueden identificar también estos dos deside
rata en la obra de Rosch sobre las categorías de nivel básico que «(a) maximizan
el número de atributos compartidos por los miembros de una categoría; y (b)
minimizan el número de atributos compartidos con los miembros de otras cate
gorías» (Rosch, citado en Taylor 1995: 50-51).
473
60 Reimpreso en Chapín (1939: 153). Ángeles (1981: 56) identifica los oríge
nes latinos del término en el verbo «definiré», que se traduce «limitar» o «confi
nan). «en relación con las fronteras de algo».
61 Dewey (1938: 349).
62 Pitkin (1972: 11). «Llamamos a una sustancia plata», escribe Norman
Campbell ([1919] 1957: 49). «en la medida en que se distingue de otras sustan
cias. y llamamos a todas las sustancias plata cuando son indistinguibles entre
ellas. La prueba para saber si una propiedad es definitoria o no lo es descansa
simplemente en la distinción entre esas propiedades que sirven para distinguir la
sustancia de otras y aquellas que posee en común con otras. Cualquier conjunto
de propiedades que sirve para distinguir la plata de las demás sustancias sirve
para definirla».
63 Sartori (1984).
64 Hartz(1955).
65 Pocock (1975); Wood (1969). Véase también Shalhope (1972).
66 Smith(1993).
67 Frank (204); Ladd y Hanley (1975); Morone (2004); Rogin (1987).
68 Bartels (2006); Fiorina (2005); McCarty, Pole y Rosenthal (2008).
69 Milanovic (2005).
70 Bourguignon y Morrisson (2002); Dollar (2005); Firebaugh (2003).
71 Achinstein (1983); Garfinkel (1981); Hitchcock (1996); Van Fraassen
(1980). Todos los trabajos que se enmarcan en la tradición «contrafáctica» ha
cen hincapié en esta cuestión.
72 Bewley (1999); Hausman (1994); Hedstrom (2005: 3); Maki (2002); Piore
(1979); Spiegler y Milberg (2009).
73 Beetham (1994, 1999); Collier y Levitsky (1997); Held (2006); Lively
(1975); Sartori (1962); Saward (2003); Weale (2007).
74 Varios autores han seguido estrategias similares a esta «mínima», pero no
la han llamado así. Véanse, por ejemplo, Debnam (1984) sobre el «poder»; Free-
den (1994: 146) sobre los atributos «ineliminables», Hamilton (1987) sobre la
«ideología»; Pitkin (1967: 10-11) sobre el «significado básico»; Murphey (1994:
23-24). Sartori suscribe la definición mínima en sus primeras obras (1975: 34-35,
1976: 61), pero no retoma esta cuestión en su obra clásica sobre la formación de
conceptos (1984). Debe advertirse que la definición mínima se parece, pero no es
idéntica, a la definición «procedimental mínima» (Collier y Levitsky, 1997). El
objetivo de esta última es una operacionalización que satisfaga todos los requisi
tos definitorios de un concepto.
75 Weber ([1905] 1949: 90). Véase también Burger (1976). Al citar a Weber
no es mi intención afirmar que estoy usando el concepto de tipo ideal exacta
mente como lo ideó Weber.
76 De este tenor es la escala de Guttman, salvo en el sentido de que aquí tra
tamos los atributos más que los indicadores, y las propiedades teóricas (más que
empíricas) de estos atributos.
77 Para otro ejemplo de técnica ordinal, véase Coppedge y Reinicke (1990).
78 Wittgenstein (1953). Véanse también Collier y Mahon (1993); Goertz
(2006); Taylor (1995: cap. 3).
474
Notas
79 Collier y Mahon (1993: 847).

80 Para un examen más detallado de este concepto, véase Gunther y Dia
mond (2003: 172).
81 Para un examen más detallado de este concepto y de otros ejemplos,
véanse Gerring (1997); Gerring y Barresi (2003).
Capítulo 6
1 Borges ([1942] 1999: 231).

2 Kaplan (1964: 85).
3 James (1981: 462).
4 Achen (1982: 77-78).
5 Marshall y Jaggers (2007).
6 Véase Freedom House en:www.freedomhouse.org.
7 Singer y Diehl (1990).
8 Kaufman, Kraay y Mastruzzi (2007).
9 Samuels y Snyder (2001).
10 Por ejemplo, Budge, Robertson y Hearl (1987); Laver, Benoit y Garry
(2003); Poole y Rosenthal (1985).
11 Hartz (1955); Tocqueville (1945).
12 Pocock (1975); Shalhope (1972); Wood (1969).
13 Smith (1993).
14 Neustadt (1960).
15 Anderson (1991); Gellner (1983).
16 Scott(1976).
17 Patterson (1982).
18 Hartz (1964).
19 Hay tres palabras que con frecuencia se usan como semi-sinónimos y ge
neran confusión: tipología, clasificación y taxonomía. En el uso que yo he adop
tado, «taxonomía» se refiere a un tipo específico de tipología. Para algunos tra
bajos sobre estos asuntos, véanse Bailey (1972); Capecchi (1968); Collier,
LaPorte y Seawright (2008); Elman (2005); George y Bennett (2005, cap. 11);
Lange y Meadwell (1991); Lenski (1994); Lijphart (1968); McKinney (1950,
1957, 1969); Nowotny (1971); Smith (2002); Whittaker, Caulkins y Kamp
(1998); Wiseman (1966).
20 Finer(1997).
21 Hirschman (1970).
22 Weber([1918] 1958).
23 Esping-Andersen (1990).
24 Lowi (1972).
25 Doorenspleet (2000); Huntington (1991).
26 Sundquist (1983).
27 Para este asunto, véanse Cochran (1948), Zelizer (2002).
28 Dahl (1971: 7). Otro ejemplo de tipología de matriz es la antigua tipolo
gía de Aristóteles de tipos de régimen (Lehnert 2007:65). Aquí, el número de di-
475
rigentes (uno. unos pocos, muchos) se cruza con los objetivos de los dirigentes
(el interés propio o el bien público) para producir seis categorías: tiranía, oligar
quía. democracia, monarquía, aristocracia y politeia (polity). Entre otros ejem
plos de tipología de matriz en el caso de la democracia están Almond y Verba
([1963] 1989: 16): Weyland (1995).
29 Collier. LaPorte y Seawright (2008: 157).
30 Podríamos considerar también la taxonomía de sistemas electorales de
Reinolds y Reilly (2005: 28). Un ejemplo de taxonomía que sigue siendo clásico
es la clasificación biológica de Linneo (Linsley y Usinger 1959).
31 Collier y Mahon (1993); LakoíT (1987).
32 Coppedge y Gerring (2011). Véase también Held (2006).
33 Nowotny (1971: 24-29).
34 Gould (1983: cap. 28).
35 Falleti (2010: capítulos 1 y 2); Pierson (2004); Rueschemeyer, Huber y
Stephens (1992): Shefter (1994).
36 Marshall (1964).
37 Rostow (1960: 4).
38 Abbott (1995, 2004); Abbott y Forrest (1986); Abbott y Tsay (2000);
Everitt. Landau y Leese (2001: cap. 4).
39 Hamilton (1994).
40 Compárense Milanovic (2005) y Dollar (2005).
41 Putnam (2001).
42 Paxton (1999).
43 Baumgartner y Jones (1993).
44 Lindblom (1979).
45 Cohén. March y Olsen (1972); Kingdon (1984).
46 Knoke y Yang (2008: 12). Véase también Wasserman y Faust (1994).
47 Knowles (2008).
48 Clark, Gertler y Feldman (2000); Goesling y Firebaugh (2000); Kanbur y
Venables (2005).
49 Kim y Shin (2002).
50 Wallerstein (1974).
51 Montgomery (1996).
52 Henisz, Melner y Guillén (2005).
53 Briks y Coppedge (2006); Gleditsch y Ward (2006).
54 Gregory y Eli (2007).
55 Knobe y Yang (2008); Wasserman y Faust (1994).
56 Heinzetal. (1993).
57 Schattschneider (1960); Verba, Schlozman y Brady (1995).
58 McCIosky, Hoffmann y O’Hara (1960).
Capítulo 7
1 De Saint-Exupéry ([1943] 1971: 16-17). Me llevaron a este párrafo Freedman

etal. (1991:29)
476
r
Notas
2 Stevens (1951: 22). .

3 Carmines y Meller (1979: 10). En esta misma línea, véanse Seawnght y Co-
llier (2004: 295). Entre otros trabajos sobre la medición en las ciencia sociales es
tán Adcock y Collier (2001); Bartholomew (2007); Blalock (1982); Boumans
(2007); Duncan (1984); Goertz (2006); Jackman (2008); Kempf-Leonard (2004);
Krantzeía/. (1971, 1989, 1990); Reiss (2007).
4 Dahl (1968: 414), citado en Debnam (1984:2).
5 Geddes (1996: 5) señala que «la autonomía del Estado» suele «infenrse de
sus efectos más que ser directamente observada». Al parecer nadie está seguro
de en qué consiste «eso» realmente. Parece que puede referirse a la in epen en
cia del Estado en si, al régimen, a un gobierno particular, a algunos segmentos o
agencias del gobierno, o incluso a líderes concretos. Parece que la expresión pue
de referirse a cualquier fuerza independiente basada en el gobierno centra .
6 Recordemos que todos los conceptos de ciencia social aspiran a captar
algo real del mundo que nos rodea. El referente puede estar muy atenúa o, pero
no obstante está siempre presente. Cuanto más fácil resulta identi icar estos re
ferentes y diferenciarlos de otros referentes similares, más útil será e c0_nceP
ceteris paribus. Un concepto de democracia que no nos puede decir que enome
nos son democráticos y cuáles no lo son es menos útil a este respecto, os con
ceptos de justicia, capitalismo, socialismo, ideología o cualquier otro e umver
so de las ciencias sociales están sujetos a este requisito. «Los conceptos sin
preceptos son humo; los preceptos sin conceptos son ciegos», señala Kant (ci a-
doenHollis 1994: 71). „
7 Las dificultades para obtener información sensible se abor an en e
(1993). Gadamer (1975), Geertz (1973), Rabinow y Sullivan (1979>’Jaylor
(1985), Von Wright (1971), Winch (1958) y Yanow y Schwartz-Shea (-006) exa-
minan la tarea de la hermenéutica desde la perspectiva filosófica y empírica.
8 Las cuestiones relacionadas con la intencionalidad son, por supuesto, cru
cíales en la tradición interpretativista. Sin embargo, no son en modo alguno in
cidentales para la tradición positivista. De hecho, son centrales en la PractlJ:a
la investigación por encuesta (Chong, 1993; Kritzer, 1996; Schwartz
Stoker 2003).
9 Merece la pena consultar algunas exposiciones detalladas de los pro emas
de medición en relación con conceptos específicos como, por ejemplo, e
tar (Gough y McGregor 2007), la identidad (Abdelal, Herrera y Johnston 2009),
la felicidad (Bertrand y Mullainathan 2001) y la corrupción (que trataremos en e
último apartado de este capítulo). ....
10 Freedom House no realiza este tipo de test, o al menos no los acepu i
eos. Polity sí, pero al parecer los codificadores han de tener mucha formación
práctica para lograr un nivel aceptable de precisión en la codificación.
11 Para un análisis más completo, véase Coppedge (en prensa).
12 Concretamente, la definición de Przeworski et al. alude a. «(1) a meen
dumbre ex ante: el resultado de las elecciones no se conoce antes de que se cele
bren, (2) la irreversibilidad ex post: el ganador de la contienda electoral accede at
poder y (3) la repetición: las elecciones que satisfacen los dos pnmeros cátenos se
celebran en intervalos regulares y establecidos» (Cheibub y Gandhi 2004).
477
13 Cheibub y Gandhi (2004: 3).

14 Cheibub y Gandhi (2004).
15 Goertz (2006) analiza detalladamente estas cuestiones, aunque su termi
nología es algo diferente de la mia.
16 Goertz (2006).
17 Ragin (2000, 2008); Smithson (1987); Smithson y Verkuilen (2006). La
aplicación de conjuntos difusos a la democracia la exploran Bowman, Lehoucq
y Mahoney (2005) y Schneider (2011).
18 Goertz (2006); Ragin (1987).
19 Stevens (1946).
20 Stevens (1946. 1951).
21 Przeworski et al. (2000).
22 Munck (2009:45).
23 Marshall y Jaggers (2997). . ,
24 Esta interpretación se corrobora por medio de varias reagregaciones e
los datos básicos usando técnicas bayesianas (Pemstein, Meserve y Melton 2010,
Treier y Jackman 2008).
25 Hambleton. Swaminathan y Rogers (1991).
26 Aquí, podemos comparar el modelo de medición de Rasch (que esarro
Ha un modelo a priori del rasgo a medir) con el enfoque TRI sobre la medición
(que construye un instrumento de medición en diálogo con el fenómeno que se
está midiendo).
27 La elección entre estas opciones depende fundamentalmente de as_uen
tes de error previstas y de la escala de variables que manejamos. Jackman (
ofrece un análisis. Bollen (1989) y Bollen y Lennox (1991) abordan el modelo de
ecuaciones estructurales. Hambleton, Swaminathan y Rogers (1991) ° êc®n un
libro de texto sobre la teoría de la respuesta al ítem. Political Analysis ( ), v
rano de 2009, incluye ejemplos de algunas de estas técnicas aplicadas a temas e
ciencia política. . .
28 Coppedge, Álvarez y Maldonado (2008) emplean el análisis de compo
nentes principales, pero otros estudios recientes incluyen técnicas bayesiana
(Pemstein, Meserve y Melton 2010; Treier y Jackman 2008).
29 Dahl(1971). ,.
30 Las variables proxies son variables observadas que se usan para medir -
riables no observadas. Aunque una variable proxy no da una me i a ire<^ a
la variable no observada, guarda, si es buena, una relación fuerte con e a.
31 Coppedge, Álvarez y Maldonado (2008: 645) reconocen esta limitación

de su enfoque. ziooit n vter
32 Para entrevistas con preguntas abiertas, véanse Chong (1993); uexte
(2008); Hammer y Wildavsky (1989); Kritzer (1996); Leech et al. (2002); Peabo-
dv et al. (1990); Rubin y Rubin (1995); La contribución de los enfoques etnográ
ficos a las ciencia social se analiza en Adler y Adler (2003); Bayar e °07
Schatz (2004); Lieberman, Howard y Lynch (2004); Schatz (2009); Vidic
(1955); Yanow y Schwartz-Shea (2006). Entre otros ejemplos de este tipo de tra
bajo (además de ios estudios citados) están Allina-Pisano (2004); Burrawoy,
478
Notas
Gamson y Burton (1991); Edin y Lein (1997); Francis (1991); Laitin (1986); Lie-
bow (1967); Luker (1984); Scott (1985).
33 Ortner (2005).
34 Crouse (2003); Epstein (2000); McGinniss (1988).
35 Grossman (1976); Reedy (1970).
36 Sánchez Jankowski (1991). Bill Buford tuvo que hacer algo semejante
para su estudio del hooliganismo en el fútbol americano.
37 Scheper-Hughes (1992).
38 Fenno(1978, 1986, 1990). Véase también GIaser( 1996).
39 Palmer (1992).
40 Kirschenman y Neckerman (1991).
41 Bewley (1999). Véase también Helper (2000).
42 Estos asuntos se examinan en Dryzek (1988); Fowler (2008); King et al.
C-004); Lee (1993); Schaefifer y Presser (2003); Schwartz (1984); Stoker (2003);
rourangeau y Smith (1996); Weisberg (2005); Zaller y Feldman (2992).
êeters’ Lensvelt-Mulders y Lashuizen (2010); Warner (1965). Nannestad
( ) examina los experimentos empleados para medir el concepto de confianza.
Kane, Craig y Wald (2004); Sniderman y Carmines (1997).
45 Sniderman et al. (1991).
QQA P°r ejemPl°’ KenneY y Wissoker (1994); Neumark, con Bank y Van Nort
onrm âra un análisis de este tipo de experimentos de campo, véase Pager
/ j.
41 Groseclose y Milyo (2005: 1191).

48 El blog de Brendan Nyhan (acceso en agosto de 2009) recoge diversas cri-
icas y defensas, y puede verse en www.brendan-nyhan.com/blog/2005/12/the
problems_wi.html.
49 Pooley Rosenthal (1991).
50 Gerring yThacker (2008: cap. 6); Gerring et al. (2008).
51 Gerring et al. (2008).
52 Sen (1990).
53 Petersen (2002). f moc t o n
. 54 Rose McDermott (comunicación personal, noviembre de 2009). Véase
también Oxley et al. (2008).
55 Por supuesto, admito que si nuestros supuestos sobre el alineamiento se
asan en supuestos de causalidad, entonces tenemos que lidiar con estos últi
mos. un así, el propósito de este enfoque sobre la medición es tratar con situa
ciones en las que el concepto en sí parece imposible de medir de forma directa.
sto implica que será también imposible comprobar los supuestos causales que
subyacen a la técnica de medición (causal).
56Sin duda hay muchas maneras de definir este concepto clave (Johnston y
eidenheimer 2002; Sampford et al. 2006). Dejo estas cuestiones a un lado para
centrarme en los aspectos empíricos del problema de la medición. Quisiera reco
nocer aquí la contribución de Michael Johnston en este apartado.
57 Kaufmann, Kraay y Mastruzzi (2007); Lambsdoríf (2003).
58 Knack (2006); Sampford et al. (2006).
59 Abramo (2007); Kenny (2006); Seligson (2006).
479
60 Reinikka y Svensson (2006).

61 Galtung (2006: 103).
62 Olken (2009: 950).
63 En otro estudio sobre Indonesia. Olken (2006) examina la eficiencia de
un programa antipobreza para distribuir arroz entre los pobres. La corrupción
se estima comparando «los datos administrativos sobre la cantidad de arroz dis
tribuida con los datos de encuesta sobre la cantidad que en verdad recibieron los
hogares» (Olken 2006: 853). Véase también Golden y Picci (2005).
64 Duncan (2006: 149-150); Reinikka y Svensson (2006).
65 Chaudhury y Hammer (2003).
66 Duncan (2006: 139); Sparrow (2000).
67 Fisman (2001).
68 Fisman et al. (2006)
69 El índice de Opacidad, desarrollado por el Milken Institute, incorpora
una estrategia de medición semejante, disponible en www.milkeninstitute.or/pu-
bIications/publications.taf?function=detail&ID=38801146&cat=ResRep.
70 Hay que señalar que el propósito principal del estudio de Fisman y Mi
guel es valorar una pregunta causal: si las normas o las sanciones tienen más in
fluencia en el comportamiento corrupto. Sin embargo, la fuerza de la valoración
causal se basa principalmente en la fuerza del instrumento de medición.
71 Cameron et al. (2009).
72 Wade (1982). Véase también Smith (2007).
73 Sin embargo, tras un examen más minucioso, parece que el consenso so
bre los dos índices dominantes es en buen medida el producto de países que se
sitúan en el extremo democrático —Suecia, Canadá, Estados Unidos, etc. Cuan
do se excluyen de la muestra los países con las puntuaciones más altas en demo
cracia. la correlación entre los dos índices baja a 0,70. Y cuando se suprimen los
países con las dos puntuaciones más altas en la escala de Freedom House (1-2
de 7). el r de Pearson vuelve a bajar a 0,63. No es un elevado nivel de consenso,
especialmente cuando consideramos que los estudiosos del tema y los diseñado
res de las políticas suelen interesarse precisamente por los países que se sitúan en
la zona media y baja de la distribución, países que no son democráticos o son
imperfectamente democráticos. Coppedge y Gerring (2011). Véanse también
Goertz (2008); Hadenius y Teorell (2005).
74 Bowman, Lehoucq y Mahoney (2005).
75 Bowman, Lehoucq y Mahoney (2005).
Capítulo 8
1 Hume (1960: 220).

2 Hume (1888).
3 Pearl (2000: 345). Véanse también Bunge (1959); Homans (1961); Maclver
([1942] 1964: 5-11); Mackie (1974); Sloman (2005); Woodward (2005).
4 La probabilidad de Y dada X es mayor que la probabilidad de Y si no se
da y.
480
F
Notas
5 Cartwright (1983); Dupre (1984: 170); Guala (2005: 82).

6 Tetlock y Belkin (1996).
7 Adviértase que como lo que nos preocupan fundamentalmente en este li
bro son las clases de eventos más que los eventos singulares (capítulo 1), hay
una serie de complicados problemas de inferencia prácticos y filosóficos que se
minimizan. Cuando intentamos dilucidar la causa de un evento singular pensa
mos, por ejemplo, en la cuestión de la «prioridad» y varias otras cuestiones adi
cionales. Véanse Brady (2008); Lewis (1973). Dicho esto, hay que señalar que en
la medida en que nuestro conocimiento de las relaciones causales entre una clase
de eventos parte de nuestro conocimiento de las relaciones causales de eventos
específicos, no se resuelven los tipos de problemas filosóficos y prácticos que
plantea la causación.
8 Entre otros intentos de especificar los desiderata del argumento causal en
los que me he inspirado, se incluyen Eckstein (1975: 88); Hempel (1991: 81);
King, Keohane y Verba (1994: cap. 3); Kuhn (1977; 322); Lakatos (1978); Lau
dan (1977: 68, 1996: 18, 131-132); Levey (1996: 54); Marini y Singer (1988);
Przeworski y Teune (1970: 20-23); Simowitz y Price (1990); Stinchcombe (1968:
31); Van Evera (1997: 17-21); Wilson (1998: 216).
9 Advierta que este problema es diferente del de la manipulación. Una causa
manipulable puede no dejar de ser ambigua (por ejemplo, cuando un argumento
sobre los cupones no especifica cómo se operacionaliza un régimen de cupones).
De igual modo, un factor causal operacionalizable puede no ser manipulable
(como, por ejemplo, la desigualdad, que se puede medir con precisión, pero es
difícil de manipular).
10 Dunning (2008a); Ross (2001).
11 Asimismo, como todas las explicaciones de ciencia social deben dar un sen
tido último a las acciones de los individuos (aunque la explicación descanse en un
nivel alto de abstracción y se refiera a organizaciones), podríamos decir que todas
las ciencias sociales están sujetas a un cierto grado de indeterminación. No pode
mos manipular directamente los mecanismos por los que X causa Y.
12 Dyson(2001).
13 Jencks y Phillips (1998).
14 Holland (1986); Rubin (1975, 2008: 812).
15 Angrist y Pischke (2009).
16 Marini y Singer (1988: 364).
17 Entre los trabajos sobre estos temas se incluyen: sobre la geografía (Dia
mond 1992), el colonialismo (Grier), las instituciones políticas nacionales (Ace-
moglu, Johnson y Robinson 2005), la tecnología (Mokyr 1992), el capital huma
no (Clark 2008), la cultura (Landes 1999), la población (Krener 1993) y las
transiciones demográficas (Dyson 2001).
18 Un vector de factores también puede dar cuenta, acumulativamente, de
toda la variación en Y (éste es el objetivo de la teoría de las causas-de-los-efectos
que veremos en el capítulo 12), pero en detrimento de la parsimonia.
19 Wester ’s Unabridged Dictionary (Nueva York: Random House, 2006).
20 Wu y Mumbo (2008).
21 Riker(1982)
481
22 Steel (2008) examina la importancia de los mecanismos para la generali

zación (es decir, la extrapolación) de un descubrimiento.
23 Para profundizar en la cuestión de los mecanismos causales y las maneras
alternativas de comprender este término clave, véase Gerring (2008, 2010).
Capítulo 9
1 Hume (2007: 59).

2 Holland (1986).
3 McKim y Tumer (1997). Sobre los problemas de inferencia estadística ba
sada en datos de observación, y la correspondiente importancia del diseño de in
vestigación. véanse Berk (2004); Brady y Collier (2004); Clogg y Haritou (1997);
Freedman (1991, 1997, 2008, 2010); Gerber, Green y Kaplan (2004); Gigerenzer
(2004); Heckman (2008: 3); Kittel (2006); Longford (2005); McKim y Tumer
(1997); Pearl (2009b: 40, 332); Robins y Wasserman (1999); Rodrik (2005); Ro-
sembaum (1999. 2005); Seawright (2010); Summers (1991). Varios estudios en
los que se comparan análisis del mismo fenómeno con datos experimentales y
no experimentales muestran grandes disparidades en los resultados, y ofrecen
así una evidencia directa de que la investigación mediante la observación es defi
ciente (por ejemplo, Benson y Hartz 2000; Friedlander y Robins 1995; Glazer-
man, Levy y Myers 2003; LaLonde 1986). Cook, Shaddish y Wong (2008) ofre
cen una apreciación más optimista.
4 Para una formulación general, véase Guala (2005: 136).
5 Para profundizar en esta cuestión, véanse Heckman (2000); Manski
(1995); Morgan y Winship (2007: cap. 2); Rosenbaum (2002).
6 Mariani y Hewitt (2008).
7 Estoy en deuda con Adam Glynn por hacerme apreciar este asunto (comu
nicación personal 2010).
8 Fried, Lovell y Schmitdt (2008), descrita en Russo (2009: 98-101).
9 Braumoeller (2006); Heckman (2005: 21-22).
10 Hart y Honore (1959); Hitchcock (1995); Pearl (2009b: cap. 10).
11 Como Pearl (2009b: 311) señala, «cuanta más evidencia específica del epi
sodio recojamos, más nos acercaremos a los ideales de la causa real y en el nivel
del caso». (Véase también Pearl 2009b; cap. 10.)
12 Podemos discutir sobre si estas formas alternativas de inferencia causal se
centran en los «efectos causales». Obviamente, esto depende de lo estrictos que
queramos ser al definir la noción de efecto causal (del tratamiento).
13 Los lectores advertirán que este diagrama causal toma prestados algu
nos rasgos de la tradición de los gráficos causales (por ejemplo, Pearl 2009b),
pero no es igual que un «gráfico acíclico dirigido» (GAD). Es más simple en al
gunos aspectos (aunque en el capítulo 10 los veremos más elaborados) y más
general. Por ejemplo, mientras los GAD expresan como causales todas las rela
ciones relevantes, y se centran principalmente en el problema de la asignación
(en el diseño de investigación formal, si uno quiere expresarlo así), el marco de
la figura 9.1 debe ser también aplicable a los confundidores que se cuelan en un
482
Notas
diseño de investigación después de la asignación del tratamiento, como por

ejemplo el incumplimiento, la mortalidad, etc. Cada una de estas amenazas a la
inferencia introduce un tipo de confundidor (algo correlacionado con X, o con
el cambio de X en el tiempo), aunque suelen ser difíciles de conceptualizar en
términos causales.
14 Para profundizar sobre este asunto, véase Gerring (2008,2010).
15 Por el contrario, si una causa antecedente a X tiene un efecto indepen
diente en un resultado que difiere del logrado mediante X, o si está correlaciona
da con algún otro factor que tiene un efecto independiente en ese resultado, se la
clasifica acertadamente como un confundidor C.
16 Aquí se incluyen: la causa común (o confundidor clásico), que tiene un
efecto causal en ambas X e X; el confundidor incidental, que afecta a Y y está co
rrelacionado con X (pero no debido a alguna relación causal identificable); el
confundidor del tratamiento compuesto, que no distingue entre un factor causal
de interés teórico y un confundidor; el confundidor endógeno, en el que un factor
condicionado (diferente de Y) es endógeno a X\ el confundidor de retroalimenta-
ción, en el que Y afecta a X; el confundidor antecedente, en el que un factor con
dicionado afecta a Y sólo a través de X', y el colisionador, en el que un factor
condicionado es afectado por ambas X e Y.
17 Si la investigación causal utiliza inferencias descriptivas tales como indi
cadores (y todas lo hacen) o tipologías (sólo algunas lo hacen), deben cumplir
los criterios específicos de estas inferencias, como vimos en el capitulo 5. Dejo
implícitos estos criterios.
18 Muy ocasionalmente podríamos intentar medir ambos efectos causales al
mismo tiempo. Sin embargo, es muy difícil hacerlo y, en todo caso, se pueden
abordar como dos hipótesis causales unidireccionales diferentes: (a) ¡X afecta a
T?; y (b) ¿afecta Y a XI
19 Reichenbach (1956); Suppes (1970).
20 Bennett (1999); Hume (1960: 219); Marini y Singer (1988); Mili ([1843]
1972); Neuman (1997: 50). Bowley (citado en Morgan 1997: 62), un pionero de
los modelos estadísticos, expresó así esta cuestión: «Nunca es fácil establecer la
existencia de una conexión causal entre dos fenómenos o series de fenómenos;
pero se puede arrojar mucha luz sobre este asunto aplicando la probabilidad al
gebraica. Cuando dos cantidades están relacionadas de forma que... un incre
mento o disminución de una guarda relación con un incremento o reducción (o
a la inversa) en la otra, y de forma que cuanto mayor es la magnitud de los cam
bios en una, mayor es la magnitud de los cambios en la otra, las cantidades se
considerarán correlacionadas». Véanse también Frendreis (1983); Lebow (2007);
Tetlock y Belkin (1996).
21 Fearon (1991); Lebow (2007); Tetlock y Belkin (1996).
22 Rosenbaum (2002: 354-357).
23 Goertz (2006).
25 King y Zheng (2006).
26 La fuerza causal es un componente clave del poder estadístico (Cohén
1988). Tenga en cuenta que un incremento de la fuerza causal se suele poder lo-
483
grar incrementando la variación en X (por ejemplo, incrementando la magnitud

del cupón). Sin embargo, estos dos criterios no son idénticos. La fuerza causal se
refiere a la relación esperada entre un tratamiento determinado y un resultado
dado. Asi. incrementar la fuerza causal puede implicar incrementar la variación
de A'. cambiando la variable de resultado por una que sea más sensible a X, o
cambiando el factor X (cambiando la proxv de un concepto clave por otra).
27 Duflo (2004).
28 Breslow (1996); Manski (1995; cap. 4); Schlesselman (1982).
29 Collier y Mahoney (1996); Gerring (2007).
31 En sentido estricto, una única observación no puede ser comparable
causalmente con otra porque una única observación no registra ninguna varia
ción entre X e Y. La comparabilidad causal es el atributo de una serie de obser
vaciones que a veces se entiende como un caso o una unidad.
32 Rosenbaum (2010: cap. 15). Pero si el propósito de un estudio es explora
torio nos podría interesar examinar una muestra heterogénea, como vimos en el
capítulo 2. Sin embargo, la parte III de este libro se centra en la comprobación
de hipótesis específicas, y para este propósito la comparabilidad causal es im
portante.
33 En algunas ocasiones, un factor causal con estas características se califica
de exógeno: sin embargo, la exogeneidad puede significar también muchas otras
cosas (véase más arriba).
34 King. Keohane y Verba (1994: 94, 108, 195) ofrecen un tratamiento mate
mático de este problema. Mackie (1974: cap. 7) nos ofrece un tratamiento filosó
fico.
35 Para entenderlo mejor, la mayoría de las relaciones causales por las que
los científicos sociales se interesan exhiben cierto grado de endogeneidad en los
contextos naturales (por ejemplo, el mundo real). Son «mutuamente constituti
vas». Por ejemplo, parece muy posible que el desarrollo económico fomente la
democracia y que la democracia fomente el desarrollo económico. Pero, para al
gunos propósitos —tanto teóricos como prácticos— querríamos saber cuál po
dría ser o ha sido el impacto independiente de un factor particular en el otro. Es
decir, qué impacto ha tenido el desarrollo económico en la democracia, neto de
(manteniendo constante) cualquier efecto que la democracia haya tenido en el
desarrollo económico. O qué impacto ha tenido la democracia en el desarrollo
económico. Responder a estas preguntas requiere que «exogeneicemos» uno o
varios factores causales. En efecto, el hecho de llamar causa a algo supone pre
sumir que puede abordarse en principio (si no de hecho) como un tratamiento
exógeno. Así, construir un argumento causal sobre el efecto de X en Y no nece
sariamente equivale a decir que ésta es la manera en la que funciona el mundo.
Antes bien, es señalar que es la manera en la que el mundo funcionaría si las
condiciones de un experimento hipotético se repitiesen en un contexto natural
donde X fuese verdaderamente exógena.
36 Shadish, Cook y Campbell (2002: 55, ínter alia).
37 Gillespie (1991).
38 Campbell ([1968] 1988); Hamilton (1994).
484
Notas
39 Morgan y Winship (2007: 244).

40 No toda incomparabilidad plantea una amenaza a la inferencia causal.
Hay una excepción: cuando podemos hacer supuestos sobre la dirección proba
ble de un sesgo en un diseño de investigación (y su correspondiente modelo cau
sal) y cuando este sesgo se inclina contra la hipótesis de interés. Si la hipótesis re
siste este sesgo (sigue siendo corroborada por la evidencia), podemos llegar a
conclusiones sobre la dirección general del efecto causal (por ejemplo, negativa
o positiva). Podemos decir, por ejemplo, que un cambio en una unidad en X
tiende a redundar en un cambio en al menos dos unidades en Y si el procedi
miento de comprobación está sesgado en contra del descubrimiento de un efecto
causal positivo. No es una estimación precisa, y para lograr precisión es por lo
tanto claramente inferior al diseño de investigación que intenta lograr la compa-
rabilidad causal. Sin embargo, podemos considerar este diseño de investigación
como un test «severo» (más difícil) de una proposición (capítulo 4). Desde esta
perspectiva, la comparabilidad es un problema en la medida en que se juzga que
las incomparabilidades corren parejas a la hipótesis que se está investigando.
Por supuesto, esto presupone que el investigador (y posteriores revisores) serán
capaces de valorar adecuadamente la dirección del sesgo contenido en un diseño
de investigación dado. A los predispuestos a los experimentos perfectamente
controlados, esto les puede parecer un camino más hacia el sesgo o la subjetivi
dad. Sin embargo, si estamos dispuestos a reconocer que todo trabajo requiere
cierto conocimiento de fondo, así como mucha deliberación sobre el ajuste entre
la evidencia y el análisis (capítulo 10), entonces la idea de juzgar la dirección del
sesgo introducido por las incomparabilidades en una muestra parece lo natural.
Si podemos rechazar una hipótesis porque juzgamos (sobre la base de nuestro
conocimiento de fondo y nuestra intuición sobre el proceso generador de los da
tos) que está sesgada a favor de una proposición, entonces debemos ser capaces
de aceptar esos juicios cuando apoyan una proposición.
Capítulo 10
1 Berk (1999: 95).

2 Desafortunadamente, no dispongo del espacio suficiente para explorar es
tos ejemplos con más detenimiento y detalle. Mi atención se centra en los ele
mentos principales del diseño, no en sus descubrimientos, ni en los diseños de
investigación auxiliares, los argumentos teóricos, los métodos de análisis de da
tos o las contribuciones a la literatura pertinente.
3 Un cuarto enfoque que quizás merece mención implica reformular el efec
to causal de un estudio. En el capítulo 9 señalamos que la interpretación usual
de un efecto causal es el efecto promedio del tratamiento (EPT) en una pobla
ción. Pero también podríamos describir los resultados de un estudio midiendo el
efecto del intento de tratar (EIT) o los efectos promedio del tratamiento local
(EPTL). Las desviaciones respecto al EPT, al EIT o a los EPTL suelen implicar
alejarse de lo que es sustantiva y teóricamente más importante. Sin embargo, en
algunas circunstancias pueden ser un recurso necesario, una cuestión que apare-
485
ce periódicamente en nuestro análisis. (Para evaluar los efectos prácticos de una

política pública, el E1T es a veces más relevante que el EPT, porque el cumpli
miento nunca es perfecto en el mundo real.)
4 Fisher (1935).
5 Rubín (1991) examina cuatro enfoques.
6 La noción de «control» tiene sentido si hay una condición obvia de ausen
cia de tratamiento. A veces, es más exacto decir que se están comparando dos
tratamientos entre sí. Para nuestros propósitos aquí nos es útil llamar a uno de
los dos «control».
7 Pero véase Kirschenman y Neckerman (1991).
8 Darity y Masón (1998).
9 Por ejemplo, Kenny y Wissoker (1994); Neumark con Bank y Van Nort
(1996). Para una irevisión de este tipo de experimento de campo véase Pager
(2007).
10 Para otras críticas de la técnica de la auditoría, véanse Heckman y Siegel-
man (1993) y el análisis de Pager (2007).
11 Bertrand y Mullainathan (2005).
12 Por ejemplo. Gerring y Thacker (2004).
13 Olken (2007: 203) explica: «Formé un equipo de ingenieros y supervisores
que. una vez terminados los proyectos, analizaron muestras básicas de cada ca
rretera para estimar la cantidad de materiales usados, supervisaron a los provee
dores locales para estimar los precios y entrevistaron a los habitantes del pueblo
en cuestión para determinar los salarios que se habían pagado en el proyecto.
Con estos datos construí una estimación independiente de la cantidad que real
mente costó cada proyecto para compararla luego con la estimación que dio el
pueblo que había costado de acuerdo con una lista de ítems. La diferencia entre
lo que el pueblo informó que había costado construir la carretera y lo que esti
maron los ingenieros es la medida clave de los gastos hinchados»: es decir, la me
dida de la corrupción.
14 Jamieson (1996).
15 Mendelberg (1997). Véase también Mendelberg (2001).
16 Huber y Lapinski (2006). Véanse también los coloquios entre Huber y
Lapinski (2008) y Mendelberg (2008a, 2008b) y Hutchings y Jardina (2009).
17 Beckwith y Cowell-Meyers; Mansbridge (1999); Paxton y Hughes (2007.
cap. 7): Reingold (2008).
18 Dollar, Fisman y Gatti (2001).
19 Chattapadhyay y Duflo (2004: 1410).
20 Chattapadhyay y Duflo (2004: 1411).
21 Por ejemplo, Finkel, Pérez-Liñán y Seligson (2007).
22 Hyde (2007:48).
23 Las limitaciones de los métodos experimentales se exploran en Achrya,
__
Greco y Masset (2010); Deaton (2010); Harrington (2000); Heckman (2010);
Humphreys y Weinstein (2009); Leamer (2010); Lieberson y Horwich (2008);
Scriven (2008).
24 La heterogeneidad en una muestra se puede controlar mediante: (a) la se
lección de diferentes muestras que sean más homogéneas, (b) la aleatorización
486
Notas
después de emparejar las covariables («formación de bloques») o (c) el control

de las covariables relevantes (incluyendo efectos de unidad) en un modelo esta
dístico ex post.
et aí (2010); Dunning (2008c); Paluck (2010); Rosenbaum (2010:
26 Glaser (2003); Sniderman y Grob (1996).

27 Para una compilación de estudios experimentales sobre la participación
electoral véase el sitio de Internet «Get Out The Vote» (GOTV) del Institute for
ocia and Policy Studies de la Universidad de Yale, disponible en http://re-
search.yale.edu/GOTV.
28 Entre otros ejemplos de trabajos experimentales interesantes, véanse
c^° j.man SVenSS°n (2009); Finan y Ferraz (2005); Humphreys, Masters y
a,n_ u (2006); Simón y Sulkin (2002); Wantchekon (2003). Para reseñas biblio-
gra icas de economía, véanse Carpenter, Harrison y List (2005); Duflo, Glen-
nerster y Kremer (2008); Falk y Heckman (2009); Kagel y Roth (1997). Para re-
senas i liográficas de ciencia política, véanse Green y Gerber (2001, 2003);
er y Palfrey (1993); McDermott (2002). Para trabajos en varias áreas de
Potincas pública^ véanse Banerjee (2007); Bloom (2005); Moflí» (2004); Na-
an y Hollister (2008) y el sitio de Internet de Poverty Action Lab, disponible
en www.povertyactionlab.com.
29 Campbell (1988: cap. 11).
v ^ntre otros ejemplos, véanse Angrist (1989, 1990); Ansolabehere, Snyder
bluthWa?¿2000); Brady y McNulty (2004): Card y Krueger (1994); Cox, Rosen-
y íes (2000); Doherty, Gerber y Green (2006); Glazer y Robbins (1985);
OnndA.ai\\Brune11 y Koetzle (1998); Krasno y Green (2008); Luy (2003); Miguel
An l ’ 17°ndak (1995); Stasavage (2003), artículos publicados en Political
texi* (ot°ño), así como los ejemplos que se analizan más adelante en el
v R °É‘ aJÛn examen general, véanse Angrist y Kruger (2001); Angrist, Imbens
y ubin (1996); Lee (1989); Meyer (1995); Robinson, McNulty y Krasno (2009);
POoTe"^!^ W°lpin (2000). Mi análisis se inspira, en particular, en Dunning
me t 1 3] cuest'°n de en qné medida se aproximan los resultados no experi-
n a es a os experimentales constituye el tema de una serie de estudios que
omparan directamente estos resultados, como, por ejemplo, el de Agodini y
Dynarsk, (2004). La conclusión general parece ser no mucho.
de supuest0, en Ia investigación de estudio de casos la muestra de unida-
s estu ladas es muy pequeña por definición. Esto significa que las inferencias
on vu nerables a amenazas de variación estocástica y no pueden emplearse téc
nicas estadísticas de control, como hemos insinuado en este capítulo. Sin embar
go, se sostiene la misma lógica de la inferencia causal, aun en el caso de que
cada grupo contenga un único caso (Gerring y McDermott 2007).
32 Mi exposición sigue la línea de Shadish, Cook y Campbell (2002: cap. 7).
ara profundizar en este asunto haciendo hincapié en cuestiones de estimación
asociadas con el diseño de RD, véanse Battistin y Rettore (2002a, 2002b); Hahn,
lodd y Van der Klaauw (2002); Imbens y Lemieux (2007); Judd y Kenny (1981);
H orILemieuxa (2010); Porter (2003); Rubin (1977); Stanley (1991): Trochim
' ). Las comparaciones entre RD y los diseños experimentales (adecuada-
487
mente aleatorizados) constituyen el tema de Cook y Wong (2005). La técnica en

si se puede remontar a Thistlewaite y Campbell (1960), aunque al parecer se des
cubrió de forma independiente en varios campos (Shadish, Cook y Campbell
2002: 207-208). Para ejemplos de este diseño véanse Angrist y Lavy (1999); Berk
y De Leeuw (1999); Berk y Rauma (1983; analizados en el texto); Buler (2006);
Butler y Butler (2006); DiNardo y Lee (2004); Lee (2008); Lee, Moretti y Butler
(2004); Ludwig y Miller (2007); Van der Klauuw (2002); Zuckerman et al.
(2006).
33 Imbens y Lemieux (2007).
34 Butler (2006); Lee, Moretti y Butler (2004); Van der Klaauw (2002).
35 Angrist y Lavy (1999)
36 Green el al. (2009).
37 Se presuponen un término de error y una intersección. Para profundizar
en este asunto, véanse Abadie (2005); Bertrand, Duflio y Mullainathan (2004);
Meyer (1995). Para más ejemplos, véanse Ansolabehere, Snyder y Stewart
(2000): Brady y McNulty (2004), así como los ejemplos que se analizan en Aba
die (2005); Bertrand, Duílo y Mullainathan (2004); Dunning (2008b); Meyer
(1995).
38 Por ejemplo. Lauderdale (2006).
39 Un análisis de los más similares que adopta la forma de la opción n° 2 de
la tabla 10.2 se podría calificar de análisis «dinámico» (Gerring 2007: cap. 6).
40 Reiss(2007: 138).
41 Los argumentos positivos suelen adoptar esta forma: «En este contexto
(el que ha comprobado el investigador) y otros que son al menos tan favorables
para la hipótesis, X afecta a X». En cambio, los argumentos negativos suelen
adoptar la siguiente forma: «En ningún contexto (razonable), X afecta a Y».
Este último es más difícil de comprobar que el primero. La razón de esto, según
creo, es que normalmente es más fácil juzgar la capacidad de generalización de
un resultado positivo que la capacidad de generalización de un resultado nega
tivo.
42 Para profundizar en el estudio de Card y Krueger (1994), véanse Neu-
mark y Wascher (2009); Reiss (2007: 138-140).
43 Para más ejemplos véanse Doherty, Green y Gerber (2006); Miguel
(2004): Mondak (1995); Stratman y Baur (2002).
44 Posner (2004: 529-530).
45 El estudio de Posner forma parte de una gran tradición de aleatorizacio-
nes naturales en la que la asignación arbitraria de fronteras proporciona el tra
tamiento cuasi experimental (por ejemplo, Miles 1994).
46 En principio, las proposiciones causales que se comprueban en un diseño
longitudinal se podrían aleatorizar. Es decir, un investigador podría asignar
aleatoriamente el calendario de un tratamiento dentro del grupo elegido. He
aquí por qué a los análisis de un único grupo se les suelen llamar experimentos,
particularmente en las ciencias naturales y en el campo de la psicología (por
ejemplo, Franklin, Allison y Gorman 1997; Hersen y Barlow 1976). Sin embar
go, en las ciencias sociales el concepto de experimento ha pasado a asociarse
con la existencia de múltiples grupos entre los que se aleatoriza el tratamiento.
488
Notas
Como hemos mostrado, hay razones de peso para este desarrollo, dados los nu
merosos confundidores que amenazan la inferencia causal en los contextos de
las ciencias sociales, la mayoría de los cuales sólo se pueden tratar adecuada
mente haciendo comparaciones entre grupos. Además, en la práctica, es raro
que un investigador se encuentre en posición de poder influir en el carácter y el
calendario de un tratamiento dentro de un grupo (el grupo de tratamiento), pero
no dentro de otro (que podría servir de control). Esto da cuenta del hecho de
que no hay muchos ejemplos de tratamientos manipulados sin controles fuera
de las ciencias naturales (donde los controles son a veces superfluos debido a
que los efectos causales se pueden observar inmediatamente y/o no hay confun
didores concebibles). Así, en la práctica, tiene sentido asociar el método experi
mental a los tratamientos aleatorizados entre grupos, y suponer que los diseños
longitudinales suelen construirse con datos observacionales.
47 Hamilton (1994).
48 Friedman y Schwartz (1963). Véase también el análisis de Mirón (1994).
49 Mirón (1994: 19).
50 Goldin y Rouse (2000).
51 England et al. (1988).
Capítulo 11
1 Lieberson y Horwich (2008: 19).

2 Pearl (2009b).
3 Pearl (2009b), que actualiza su trabajo anterior.
4 En Reichenbach (1956) encontramos un temprano examen filosófico del
problema de la causa común.
5 Para profundizar sobre esta cuestión, véase Sober (2001).
6 Sin duda, hay soluciones potenciales (se analizarán varias más adelante)
como por ejemplo las variables instrumentales, los modelos dinámicos, os tes
de causalidad de Grainger y el razonamiento causal sobre la dirección de sesgo.
Pero ninguna de estas soluciones es fácil, y las dificultades suelen ser más graves
que las que plantean otros tipos de confundidores —es decir, si el grado e en
dogeneidad sospechada es considerable. (Un grado pequeño de endogenei a
puede no ser tan preocupante.)
7 Algunas de estas estrategias son también útiles para superar problemas de
medición; sin embargo, como ya analizamos este asunto en el capítulo 7, de mo
mento no lo trataremos.
8 Morgan y Winship (2007:136-142).
9 Clarke (2005).
10 Pearl (2009b) lo llama estructura M, lo que seria el caso si el diagrama se
trazara con la A encima de la X en lugar de a la izquierda de la X.
11 Para profundizar en este asunto y ver un ejemplo más detallado, véase
Morgan y Winship (2007: 179-181).
12 Para un análisis del estimador de VI, véanse Angrist y Krueger (2001),
Angrist, Imbens y Rubin (1996); Bartels (1991); Dunning (2008b). Para ejem-
489
píos de cómo funciona esta técnica véanse Angrist (1989, 1990); Angrist y Krue-
ger (1991); Edin. Fredrickson y Aslund (2003); Miguel, Satyanath y Sergenti
(2004); Neal (1997), y Acemoglu. Johnson y Robinson (2001), examinados en el
texto.
13 Acemoglu, Johnson y Robinson (2001).
14 Dunning (2008b); Reiss (2007: cap. 7); Rosenzweig y Wolpin (2000).
15 Murray (2006).
16 McArthur y Sachs (2001).
17 Los términos empleados y los trabajos asociados a ellos son los siguien
tes: «rastreo de procesos» (George y McKeown 1985: 34 y ss); «discernimien
to» (Komarovsky 1940: 135-146); «análisis de procesos» (Barton y Lazarsfeld
1969). «emparejamiento pautado» (Campbell 1975); «microfundamentos»
(Little 1998); «narrativa causal» (Abbott 1990, 1992; Abrams 1982; Aminzade
1992; Bates et al. 1998; GriíTin 1992, 1993; Katznelson 1997; Kiser 1996; Mink
1987: Quadagno y Knapp 1992; Roth 1994; Rueschemeyer y Stephens 1997;
Sewell 1992, 1996; Somers 1992; Stone 1979; Stryker 1996; Watkins 1994);
«congruencia» (George y Bennett 2005); «coligación» (Roberts 1996); «proce
sos intermedios» (Mili [1943] 1872). Para un análisis general, véanse Bennett
(1999); Brown (1984: 228); Collier y Mahoney (1996: 70); Goldstone (1997).
Para un análisis filosófico en la tradición «realista», véanse Bhaskar ([1975]
1978): Harre (1972); McMullin (1984); Salmón (1984). La idea del rastreo de
procesos se asemeja a los juicios sobre el contexto, que suelen representar un
papel importante en la inferencia causal (Fenno 1986; Goodin y Tilly 2006).
Advierta que cuando se recurre al «contexto» estamos invocando una idea de
cómo X influye —o no influye— en Y en un entorno particular. Así, yo trato
la amplia categoría de la evidencia contextual como un tipo de seguimiento de
proceso.
18 Esta explicación se basa principalmente en Morgan y Winship (2007.
182-184. 224-230), que, a su vez, se fundamenta en Pearl (2000).
19 Pearl (2000: 83-84).
20 Glynn y Quinn (2011). Véanse también Imai, Keele y Tingley (2010),
Imai, Keele, Tingley y Yamamoto (2010).
21 Hinghton (2004).
22 Gerring (2008, 2010) explora los obstáculos del análisis causal centrado
en los mecanismos.
23 Véanse Cook y Campbell (1979), Green et al. (2009); Marquart (1989);
McSweenry (1978); Minton (1975); Reynolds y West (1987); Ross, Campbell y
Glass (1970); Shadish, Cook y Campbell (2002: 152, 184); Trochim (1985, 1989).
24 Montanera a/. (2010: 1).
25 Montaner et al. (2010: 7) (cursivas nuestras).
26 Wooldridge (2007).
27 Tome nota, no obstante, de que la condición de control no está claramen
te definida; para interpretar los resultados como EPT tenemos que suponer que
los estudiantes no hubieran aprendido las letras enseñadas por otra vía si no hu
bieran estado viendo la televisión. Para profundizar en este asunto, véase Sha
dish, Cook y Campbell (2002: 152-153).
490
Notas
28 Heckman (2001); Heckman y Vytlacil (2007 a, 2007b); Rhodes (2010).

29 Aunque los supuestos adicionales de este ejemplo ficticio no se sostengan
estrictamente, aprenderemos también algo sobre el efecto de X en Y. Imagine
mos que estamos dispuestos a suponer que el confundidor es el mismo para los
estudiantes hispanos y para los no hispanos, pero que sólo estamos dispuestos a
suponer que el efecto del programa de cupones no puede exceder un determina
do valor para los estudiantes no hispanos. Si el efecto estimado para los estu
diantes no hispanos excede este valor, entonces la diferencia entre la estimación
y el limite superior del efecto para los estudiantes no hispanos representa un i
mite inferior en el sesgo para nuestra estimación de los efectos del programa de
cupones en los estudiantes hispanos. . .,
30 J. S. Mili ([1843] 1872) denominó en principio el método de la eliminación
como «método de los residuos». Entre otros trabajos que realzan la imP°rtancia
de la comparación entre teorías están Campbell (1966); Day y Kmcaid ( 994),
Gruenbaum (1976); Hanson (1958); Harman (1965); Kuhn([19 ] ), a'a
tos (1981: 114-115); Laudan (1977); Miller (1987); Popper (1965:112); Rindskopt
(2000); Yin (2000). ™
31 Reiss (2007: 7-8); Rosenbaum (1999: 267-269, 2002: 347-350, 2010. cap.
4); Scriven (2008). . f
32 Tome nota de que esta estrategia de inferencia causal combina el enfoque
de los efectos de la causas con el de las causas de los efectos, como veremos en e
capítulo 12.
33 Keefer (2006: 805). , . .
34 Naturalmente, hay cierta ambigüedad sobre cómo dividir el universo ae
causas: ¿es lo mismo caerse del caballo que caerse de una comisa (am os caso
son caídas) o son causas que se pueden separar?
35 Los test de robustez/sensibilidad se examinan en muchos textos esta is i
eos así como en monografías especializadas como, por ejemplo. Barte s ’
Blalock (1984: 184-185); Imbens (2003); Leamer (1983); Levine y Renelt W- .
Montgomery y Nyhan (2010); Rosenbaum (2002); Rosenbaum y Ru in (
Sala-i-Martin (1997); Sims (1988); Western (1995); Young (2009). Advierta que
mi idea de test de «robustez» incluye tanto especificaciones alternativas (e en o
que normal del análisis de límites extremos y comprobación de sensibi i a ) y
estimadores alternativos (tal y como se analizan en la mayoría de los tex^ £
econometría), así como varias operacionalizaciones de las variables clave (A, r,
C). Cualquier supuesto importante que subyace a un modelo empírico que se
pueda comprobar alterando algún elemento de ese modelo, debe ser inc ui o en
una serie de test de robustez. ,
36 Rubín (2005: 324). Véanse también Day y Kincaid (1994); Freed™*“
(2008); Garfinkel (1981); Heckman (2008: 3); Robins y Wasserman (1999),
Rosenbaum (1999, 2005).
37 Fearon (1991); Lebow (2007); Tetlock y Belkin (1996).
38 Bickman y Peterson (1990); Chen y Rossi (1983); Donaldson (2003); 1ro-
chim (1985, 1989).
39 Polanyi ([1946] 1964: 30-31), citado en Rosenbaum (2002: 335). Vease
también Robinson, McNulty y Krasno (2009: 348).
491
40 Siguiendo la linea de Fisher (1935), los trabajos contemporáneos de Do-

nald Campbell. David Freedman. James Heckman, James Robins, Paul Ro-
senbaum y Donald Rubin se centran crucialmente en el problema de la asigna
ción. Para literatura más reciente, véanse Angrist y Pischke (2009); Imbens y
Woodridge (2009): Morgan y Winship (2007); Rubin (1991). Para más referen
cias, véanse las referencias bibliográficas de los escritores antes mencionados.
41 Advierta que entre las muchas cuestiones que no se han sometido a com
probación experimental está la del impacto de los métodos experimentales. Esto
es bastante paradójico dada la vehemencia con la que los experimentalistas de
fienden el uso de los métodos experimentales.
Capitulo 12
1 Tilly (2001: 22).

2 Brady (2004): Brady y Collier (2004); Brady, Collier y Seawright (2006);
Collier. Brady y Seawright (2010); Freedman (2008); Rosenbaum (2010: 323).
3 King. Keohane y Verba (1994: 11-12), resumiendo a Álvarez y Asaro
(1990).
4 Otra manera de pensar en esta cuestión es interpretar las observaciones del
proceso causal como variables en lugar de como observaciones. Interpretándolas
así tenemos un diseño de investigación con un N bajo y una K alta, en el que las
variables sirven para proporcionar claves de la inferencia causal en lugar de
aportar confundidores potenciales (Adam Glynn, comunicación personal,
2011).
5 Fenno (1978); Geertz (1980); Kaufman (1960); Pressman y Wildavsky
(1973): Skocpol (1979).
6 Eichengreen (1992).
7 Hsieh y Romer (2001: 2).
11 George y Bennett (2005); Gilí, Sabin y Schmid (2005).
12 Dawid (2007); Heckman (2005); Holland (1986); Mahoney (2008); Ma-
honey y Goertz (2006). Mahoney y Terrie (2008: 741) señalan que el 55 por cien
to de los estudios publicados en las mejores revistas de política comparada en el
campo de la ciencia política adoptan el enfoque de las causas de los efectos. Sin
duda, se trata sólo de un subcampo de la disciplina.
13 Gerring (2007: epílogo).
14 Mahoney y Terry (2008); Mahoney y Rueschemeyer (2003).
15 Por ejemplo, McGuire (2010).
16 Halpern y Pearl (2005). Para una visión opuesta, véase Mahoney (2008).
17 Véanse Braumoller y Goertz (2000); Goertz (2006); Goertz y Starr (2003);
Seawright (2002).
18 Braumoeller y Goertz (2000); Cohén y Nagel (1934); Dul et al. (2010;
Goertz (2006); Mahoney, Kimball y Koivu (2009).
492
Notas
19 Braumoeller y Goertz (2000); Goertz (2006); Mahoney, Kimball y Koivu

(2009).
20 Para un análisis sobre las «leyes» según la teoría de conjuntos en la cien
cia social, véase Goertz (2010).
21 Las coyunturas causales necesarias para causar un resultado se pueden
describir también como causas SUIN cuando cada componente de una coyun
tura se considera como parte suficiente pero innecesaria de un factor que es in
suficiente pero necesario para un resultado (Mahoney, Kimball y Koivu 2009).
22 Las coyunturas causales suficientes para causar un resultado también se
pueden describir como causas INSU si cada componente de una coyuntura se
considera como «una parte necesaria pero insuficiente de una condición que es
en sí innecesaria pero suficiente para el resultado» (Mackie 1965. 246). e aquí
el elemento distintivo del ACC, como veremos más adelante.
23 Braumoeller y Goertz (2000: 854-856).
24 Para una idea totalmente opuesta que acentúa las diferencias entre es as
tradiciones, véase Goertz y Mahoney (2010).
25 Yamamoto (2010) analiza el problema de esta confusión.
26 Cuidado: el software estadístico que usa modelos de máxima verosimili
tud descarta a veces los predictores «perfectos» (Goertz, en prensa).
27 Goertz (en prensa). . . ,
28 Braumoeller y Goertz (2000). Véase también el coloquio en Política!
Analysis (10:2) sobre qué tipo de casos son más útiles para comprobar las pre
tensiones de necesidad y de suficiencia (Braumoeller y Goertz 200_: Ciarte
2002; Seawright 2002). ..
29 Este apartado ha sido escrito en estrecha consulta con Carsten-Schneider
y con aportaciones de James Mahoney, pero no debe implicarse a ninguno e
ellos en mis conclusiones.
30 Ragin (1987, 2000, 2008); Rihoux y Ragin (2009); Schneider y Wager-
mann (2007, 2010). La literatura sobre este método (en ocasiones cntica) incluye
Cat (2006); Lieberson (2001); Yamamoto (2010) y los simposios sobre el ACC
en Qualitative Methods 2(2) (2004): 2-25 (disponibles en Internet) y en Stu íes in
Comparativa International Development 40(1) (2005): 3-26.
31 Richoux y De Meur (2009) analizan la versión del análisis de los conjun
tos clásicos (cc) y Ragin (2009) presenta la versión del análisis de los conjuntos
difusos (cf).
32 Berg-Schlosser y De Meur (1994); Berg-Schlosser y Mitchell (2000,2003).
33 Así, por ejemplo, no trataré la necesidad de comparabihdad causal en
una muestra elegida, una cuestión que exploramos en el capítulo 9. ampoco
trataré la viabilidad de las técnicas de muestreo aleatorio frente a las e mués
treo deliberado, un asunto que vimos en el capítulo 4.
34 Rihoux y Ragin (2009); Schneider y Wagermann (2007; 2010).
35 Rihoux y Ragin (2009: caps. 1-2).
36 Richoux y Ragin (2009); Schneider y Wagemann (2010).
37 Achen (2005) critica a Ragin por construir un adversario de paja en la
forma de modelos simples de regresión lineales/aditivos. Ragin replica que es asi
como suele emplearse esa técnica. En todo caso, parece más pertinente compa-
493
rar las mejores prácticas en ambos campos, que es lo que he intentado hacer
aquí.
38 Hall (2003).
39 Seawright (2005).
40 Por ejemplo. Berg-Schlosser y De Meur (2009: 23-24).
41 King y Zheng (2006).
42 Richoux y De Meur (2009: 66) concluyen que las técnicas del ACC «per-
miten al investigador formular preguntas “causales” más específicas sobre los
ingredientes y mecanismos que producen (o no) un resultado de interés, aten
diendo tanto a las narrativas de cada caso como a las pautas entre los casos».
Esta descripción del proceso parece bastante razonable.
43 De Meur. Rihoux y Yamasaki (2009: 157).
44 Por ejemplo, Schneider (2009).
45 Berg-Schlosser y De Meur (2009: 27). El número de combinaciones lógi
cas es 2k, donde K = número de condiciones causales.
46 Seawright (2005).
47 Carón y Panofsky (2005); Hiño (2009). Véase también un comentario en
Ragin y Strand (2008).
48 Abbott (1995, 2004); Abbott y Forrest (1986); Abbot y Tsay (2000); Everitt,
Laundau y Leese (2001: cap. 4). Véase también Mahoney, Kimball y Koivu (2009).
49 Los metodólogos del ACC suelen ser cautelosos a la hora de inferir la
causalidad a partir del ACC. «Técnicamente hablando, estas soluciones expre
san más modestamente las concurrencias que reflejan conexiones explícitas po
tenciales. Los investigadores han de decidir entonces (basándose en su conoci
miento sustantivo y teórico) cuán lejos pueden llegar en su interpretación de la
solución de la tabla de verdad en términos de causalidad» (Ragin y Rihoux,
2004: 6). «Los algoritmos de minimización del ACC no producen “explicacio
nes” de un resultado dado, simplemente ofrecen una expresión reducida que des
cribe un conjunto de casos (observados) de forma lógicamente estenográfica»
(De Meur, Rihoux y Yamasaki 2009: 155).
50 Rihoux y De Meur (2009: 65). Véase también Rihoux y Lobe (2009).
51 Ragin (2009: 99).
52 Para estudios que combinan el ACC con otros métodos, véase Ragin y
Rihoux (2004: 5). Véase también Rihoux y Lobe (2009).
53 Mahoney (2004).
54 Animo a los lectores interesados en este asunto a explorar el tema a tra
vés de una rica literatura cada vez más abundante (véase las fuentes citadas an
teriormente). Sin duda, hay mucho más que decir sobre el ACC de lo que hemos
señalado en este apartado.
Capítulo 13
I Hitchcock (2003:218).
2 Almond (1990a) aplica este término a la ciencia política, pero también se
puede alicar a fortiori a las ciencias sociales en general.
494
Notas
3 La distinción cualitativo-cuantitativo la examinan Brady y Collier (2004);

Bryman (1984); Caporaso (1995); Gerring y Thomas (2011); Glassner y Moreno
(1989); Hammersley (1992); Mahoney y Goertz (2006); McKaughlin (1991);
Munck (1998); Piore (1979); Shweder (1996); Snow ([1959] 1993); Tarrow
(1995). Véase también la entrada «Cualitativo» en el glosario.
4 Humphreys (2005); Imai et al. (2010).
5 Aldrich (1995).
6 Carey (2008).
7 Cox (1897) revisa la literatura sobre el tema y realiza su propio análisis.
8 Por ejemplo, Epstein (1964).
9 Cox (1987) aborda esta cuestión, aunque no constituye el punto principal
de su argumento.
10 Estas cuestiones se analizan más profundamente en Gerring (2007).
11 Almond y Vera ([1963] 1989); Anderson (1991); Banfield (1958); Barth
(1969); Berger (1995); Cohén (1974); Eckstein (1988); Harrison y Huntington
(2000); Hartz (1955); Hobsbawm y Ranger (1992); Inglehart (1977); Kertzer
(1988); Kuper (1999); Laitin (1986); Munch y Smelser (1992); Putnam (1993);
Ross (1997); Scott (1985); Shweder y LeVine (1984); Thompson, Ellis y Wil-
davsky (1990); Weber ([1904-1905] 1958).
12 Blaug (1978); Coleman y Fararo (1992); Friedman (1996); Levi (1997);
Monroe (1991).
13 Guiso, Sapienza y Míngales (2006).
14 Geertz (1968); Gudeman (2001); Hirschman (1977); Polanyi (1968);
Smelser y Swedberg (1995).
15 Para una versión más extensa de esta argumentación, véase Gerring
(2005).
16 Hempel y Oppenheim (1948).
17 Citado en Bohman (1991: 19). Hempel ofrece hipotéticamente esta inter
pretación de la Revolución Francesa como una ilustración del enfoque de la ley
de cobertura; no era un tema que él había estudiado.
18 Virtualmente todos los estudios citados en el modelo pluralista (más ade
lante), podrían ser citados también aquí, porque tienden a considerar el modelo
de la ley de cobertura como punto de partida. Véase también Hitchcock (2005).
19 Kincaid (1990).
20 Neyman ([1923] 1990); Collingwood (1940); Fisher (1935); Gasking
(1955); Holland (1986); Lewis (1973); Rosenbaum (1984); Rubin (2008); Von
Wright (1971). Para análisis recientes accesibles, véanse Berk (2005); Brady
(2008); Imbens y Wooldrige (2009); Morgan y Winship (2007: cap. 1). Wood-
ward (2005). Entre las criticas de diversos aspectos del modelo de resultados po
tenciales se cuentan Dawid (2007); Heckman (2005); Morgan y Winship (2007:
cap. 10); Pearl (2009a, 2009b, 2009c).
21 Holland (1986: 945) reconoce este limitado objetivo.
22 Heckman (2005, 2008); Pearl (2005,2009b).
23 Braumoeller (2006).
24 Pero véase Rosenbaum (2010: cap. 15).
25 Por ejemplo, Glynn y Gerring (2011); Glynn y Quinn (2011).
495
26 Holland (1986): Holland y Rubín (1988: 226).

27 Morgan y Winship (2007: 278-280); Woodward (2005).
28 Esto se admite implícitamente en la obra reciente de Rubín (2008) y de al
gunos de los que se asocian a él (por ejemplo, Rosenbaum, 1987). En la medida
en que el modelo causal de Rubin incluye estas consideraciones adicionales, re
sulta más satisfactorio como marco general para la valoración causal. Sin em
bargo. también pasa a ser menos conciso y menos matemático por naturaleza.
En realidad, se parece más al enfoque de los «criterios» complejos que se exami
na en este texto.
29 Pearl (2009b).
30 Sobre la historia de la causalidad, véanse Bunge (1959); Machamer y
Wolters (2007).
31 Goertz y Starr (2003); Spohn (1983); Waldner (2002).
32 Bhaskar ([1975] 1978); Dessler (1991); Elster (1989); George y Bennett
(2005): Harre (1970. 1972); Hedstrom y Swedberg (1998: 7); Mahoney (2001);
McMullin (1984); Ragin (1987). La distración de Salmón (1990) entre causas es
tadísticas y causas aleatorias, en mi opinión es prácticamente idéntica a la dis
tinción entre las correlaciónales y las basadas en los mecanismos.
33 Glennan (2002: 1) explica: «El enfoque de arriba abajo explica un evento
mostrando que forma parte de una pauta más general nomológica o explicativa,
mientras que el enfoque de abajo arriba explica un evento describiendo las redes
de causas que son eficaces para producir ese evento» (véase también Kitcher
1989 y Salmón 1989).
34 Las primeras consideran la causación en términos de «dependencia contra-
fáctica entre eventos totalmente distintos». Las segundas consideran que una cau
sa es toda acción que «contribuye a generar o producir otro evento» (Hall 2004).
35 Holland (1986); Mahoney y Goertz (2006).
36 Bunge (1997:412-413).
37 Brady (2002).
38 Tilly (2001).
39 De Vreese (2007); Hitchcock (2007).
40 Marini y Singer (1988: 349). Véase también Tilly (2001: 22).
41 Goertz y Starr (2003); Ragin (1987, 2000). Entre los filósofos, véanse
Cartwright (2004, 2007); Hall (2003); Reiss (2009).
42 Bhaskar ([1975] 1978); Dessler (1991); Elster (1989); George y Bennett
(2005); Harre (1970, 1972); Hedstrom y Swedberg (1998: 7); Mahoney (2001);
McMullin (1984); Ragin (1987).
43 Glennan (1992: 50).
44 Esto puede ser o no ser un supuesto válido: en algunas ocasiones, los auto
res muestran desdén al respecto de la existencia de mecanismos causales. Creo
sencillamente que ignorar la formulación explícita de los mecanismos causales
en absoluto implica un desafio a la importancia de los mecanismos en la expli
cación causal.
45 Para un análisis más minucioso, véase Gerring (2008, 2010).
46 Sin duda, pueden ser prominentes en el tipo de cuestiones que decidimos
plantear.
496
Notas
47 Esto expresa el espíritu de Brady (2002) y Mahoney (2008).

48 Halpern y Pearl (2005); Pearl (2009b).
49 Hitchcock (2003). Quizás lo único que hay que decir aquí es que el autor
está defendiendo una determinada versión de monismo, como vimos en el capí
tulo 1. Si algunos autores (por ejemplo, Reiss 2008) prefieren considerarla plura
lista, no hay problema en eso, siempre que reconozcan que esa versión de plu
ralismo es mucho más monista que otras versiones.
Capítulo 14
1 Campbell (1988: 361).

2 Popper ([1934] 1968: 50).
3 La importancia de las compensaciones metodológicas en los trabajos de
ciencias sociales y de ciencias naturales se analiza en la obra de David Collier,
Daniel Haussman, Larry Laudan, Giovanni Sartori y Rudra Sil.
4 Hexter (1979).
5 Walker (2010).
6 Laudan (1996: 19) proporciona un breve resumen de las posiciones relati
vistas.
7 Axinn y Pearce (2006); Leech y Onwuegbuzie (2009) ofrecen un buen aná
lisis de este asunto. Véanse también Ahmed y Sil (2008); Bennett y Braumoeller
(2006); Brewer y Hunter (2006); Campbell y Stanley (1963); Clark y Creswell
(2007); Creswell (2008); Dunning (2008c); Greene (2007); Jick (1979); Lieber-
man (2005); Lutfey y Freese (2005); Paluck (2010); Rossi y Freeman (1993);
Tashakkori y Teddie (1998); White (2002); Wong (2002), y el Journal of Mixed
Methods Research (Sage).
8 Kelman (1982) ofrece reflexiones generales sobre la ética de la investiga
ción en las ciencias sociales. Mazur (2007) y Sales y Folkman (2000) exploran la
investigación sobre sujetos humanos. Paluck (2009) y Wood (2006) investigan
los dilemas éticos de la investigación de campo, poniendo énfasis en áreas muy
conflictivas.
9 Morrow (2003).
10 Los párrafos anteriores se basan en sugerencias de Evan Lieberman (co
municación personal, 2009).
11 Ziliak y McCloskey (2008).
12 Gerber, Green y Nickerson (2001); Gilí (1999).
13 Dunning (2008b). Considérese el juicioso análisis —aunque, en última
instancia, ambiguo— de la «ignorabilidad» en Holland y Rubin (1988:226-229).
14 Gilí (1999). Howson y Urbach (1989); Jackman (2004); Western (1999);
Yudkowsky (2003) representan introducciones fáciles a la inferencia bayesiana.
15 Lieberson y Horwich (2008).
16 Besley y Persson (2009: 1218), cursivas nuestras.
17 Recordemos, por ejemplo, la trayectoria profesional de David Freedman
(2010).
18 Popper (1994: 10), citado en Rosenbaum (2002:10).
497
Epilogo: Justificaciones
1 Merecen repetirse las primeras palabras que escribió Mills ([1853] 1872: iii) en
una de sus obras que podríamos considerar el Antiguo Testamento de la metodo
logía científica: «Esta obra no tiene la pretensión de dar a luz una teoría nueva de
las operaciones intelectuales. Si algún título posee a la atención pública, éste se
funda en que es un ensayo no para reemplazar, sino para reunir y sistematizar las
mejores ideas que acerca de su objeto han promulgado los escritores especulativos,
o que han seguido en sus indagaciones científicas los buenos pensadores».
2 Mi argumento corre en paralelo a los argumentos pragmáticos de la filoso
fía contemporánea. Hace varias décadas, Quine, en una memorable serie de en
sayos. señaló que como el universo incide en la conciencia humana sólo en los
márgenes de la cognición humana, no podemos usar razonablemente la «objeti
vidad» como guía para reformar nuestro lenguaje. Antes bien, Quine (1953: 79)
recomienda que: «Nuestro estándar para evaluar cambios básicos en nuestro es
quema conceptual debe ser pragmático, no un estándar realista de correspon
dencia con la realidad. Los conceptos son lenguaje, y el propósito de los concep
tos y el lenguaje es la eficiencia en la comunicación y la predicción. Tal es el
deber último del lenguaje, la ciencia y la filosofía, y es en relación con ese deber
cómo se debe evaluar finalmente un esquema conceptual». En la misma línea,
Laudan (1996: 140) escribe: «La metodología, concebida en términos estrictos,
no está en posición de hacer juicios [ideológicos], porque se limita al estudio de
medios y fines. Así, necesitamos complementar la metodología con una investi
gación de los fines legítimos o permisibles de la investigación». Pero mi enfoque
no es el mismo que defienden Quine y Laudan en la mayoría de sus escritos.
Debe distinguirse también del «pragmatismo» de Peirce (véase Kirkham 1992:
80-87) y, hasta cierto punto, del pragmatismo o «instrumentalismo» de William
James y John Dewey. James y Dewey tendieron a aplicar la prueba pragmática a
expresiones individuales. Así, «el significado de toda proposición siempre se
puede relacionar con alguna consecuencia particular en nuestra experiencia
práctica futura, sea pasiva o activa» (citado en Ogden y Richards [1923] 1989:
198), mientras yo estoy aplicando el pragmatismo a la empresa de la ciencia so
cial, en general. De modo similar, James y Dewey tendieron a considerar la ver
dad como un reino esencialmente indiferenciado que incluye verdades cotidia
nas, mientras yo defino la ciencia social como un reino distintivo con sus (más o
menos) estándares propios de apreciación. Con la «verdad» y otros temas de
abstracción similar, es bastante problemático especificar un objetivo general,
como sugieren James y Dewey. Está muy bien definir la verdad como aquello
que se ajusta a nuestros intereses, pero esto sugiere una serie de preguntas: ¿los
intereses de quién? ¿durante cuánto tiempo?, etc. Al fin y al cabo, en absoluto
hemos aclarado suficientemente cuándo un enfoque pragmático se aplica en este
nivel tan básico. No obstante, cuando se aplica a una institución científica (por
ejemplo, la ciencia social), el enfoque pragmático/consecuencialista gana fuerza.
3 Lynd ([1939] 1964: ix).
4 Adcock (2009); Bloch ([1941] 1953); Bok (1982); Gerring y Yesnowitz
(2006); Haan et al. (1983); Lerner y Lasswell (1951); Lindblom y Cohén (1979);
498
Notas
McCall y Weber (1984); Mills (1959); Myrdal (1970: 258); Popper ([1936] 1957:
56); Rule (1997); Simón (1982); Wilensky (1997); Zald (1990). Antes de que sur
gieran los ideales científicos modernos, la conexión entre el estudio de la socie
dad y su reforma (o preservación) fue incluso más fuerte. Aristóteles escribe
«puesto que la política... legisla lo que tenemos que hacer y lo que no tenemos
que hacer, el fin [de la ciencia política] debe ser el bien del hombre» («Ética a Ni-
cómaco», en Aristóteles 1941: 936). Este sentimiento «normativo» no murió con
el surgimiento de las ciencias sociales, simplemente siguió existiendo sin mani
festarse.
5 En Turner (1997: 25-26), citado originalmente en Porter (1986: 33). Véase
también Collins (1985: 19).
6 Rule (1997) hace un razonamiento similar. Véase también Rescher (1977).
7 Dewey (reimpreso en Rorty 1966: 283-284).
8 A esto hay que añadir que si las teorías equivocadas están construidas de
forma tal que pueden ser convincentemente desaprobadas, pueden contribuir a
elucidar la verdad sobre un fenómeno.
9 Myrdal (1944).
10 Eckstein (1992: cap. 2) invoca a Weber en apoyo del papel limitado y dife
renciado de la ciencia social en la esfera pública.
11 Lynd ([1939] 1964: 178).
12 Bender et al. (1997: 47). Para más observaciones sobre estas cuestiones,
véase Karl (1982).
13 Durkheim ([1895] 1964: xxvii).
14 Lynd ([1939] 1964: 122).
15 Fay ([1983] 1994: 108), cursivas en el original. Véase también Fay (1976).
1 Orwell(1970: 156).
2 Luker (2008: 21) . . f.
3 Véase Jacoby (1987). Esta cuestión la comenta Karl Popper en su
con Adorno y sus colegas, a quienes acusó de practicar el «culto a la inmteiigi -
lidad» (citado en Gellner 1985: 5). La ironía es aún mayor entre esos cnticos oe
vida intelectual burguesa, los presuntos defensores de una academia mas em
crática y abierta, que son oscuros hasta la hilaridad.
4 «El economista que quiere influir en las elecciones políticas reales debe,
última instancia, convencer al común de la gente, no sólo a sus co egas os e
nomistas científicos», señala Gunnar Myrdal (1970:450-451).
5 Blaise Pascal, Carta n° xvi (4 de diciembre de 1656) a los reverendos p -
dres jesuítas. Reimpresa en Pascal (2004:193). . ,
6 Para más información, véanse manuales de estilo generales (por ejemp ,
Strunk y White) o manuales de estilo especializados para las ciencias soma
(por ejemplo, Becker 1986).
7 Mills (1959: 35).
8 Rostow (1960: x).
499
r »
»v
* j
>1 ;
■
• i
■ . j ■
■■ i.-. ■
;í -
i
Bibliografía
Abadie, Alberto 2005. «Semiparametric Difference-in-Differences Estimators,»

Review of Economic Studies 72(1): 1-19.
Abbott, Andrew 1990. «Conceptions of Time and Events in Social Science Me-
thods: Causal and Narrativo Approaches,» Historical Methods 23( ).
140-150.
— 1992. «From Causes to Events: Notes on Narrative Positivism.» Sociological
-i Methods and Research 20(4): 428-455.
— 1995. «Sequence Analysis: New Methods for Oíd Ideas,» Animal Re\ie\\ oj
Sociology 21: 93-113.
— 2004. Methods of Discovery: Heuristics for the Social Sciences. New YorK. w.
W. Norton.
Abbott, Andrew y John Forrest 1986. «Optimal Matching Methods for Histon-
cal Sequences,» Journal of Interdisciplinary History 16(3): 471-494.
— y Angela Tsay 2000. «Sequence Analysis and Optimal Matching Methods in
Sociology,» Sociological Methods and Research 29(1): 3-33.
Abdelal, Rawi, Yoshiko M. Herrera, y Alastair lain Johnston (eds.) 2009. Mea-
suring Identity: A Guidefor Social Scientists. Cambridge University Press_
Abramo, Claudio Weber 2007. «How Much Do Perceptions of Corruption Rea-
lly Tell Us?,» Economics Discussion Papers, No. 2007-19, May 4.
Abrams, Philip 1982. Historical Sociology. Ithaca. NY: Comell University Press.
Acemoglu, Daron y James A. Robinson 2005. Economic Origins of Dictators up
and Democracy. Cambridge University Press. . .
Acemoglu, Daron, Simón Johnson, y James A. Robinson 2001. «Colonia n-
gins of Comparativo Development: An Empirical Investigation,» American
Economic Review 91 (5): 1369-1401.
501
— 2005. «Institutions as the Fundamental Cause of Long-run Growth,» en

Philippe Algion y S. Durlauf (eds.), Handbook of Economic Growth. Amster-
dam: North-Holland.
Acharya. Arnab K„ Giulia Greco, y Edoardo Masset 2010. «The Economics
Approach to Evaluation of Health Intervention in Developing Countries
Through Randomised Field Trial,» Journal of Development Effectiveness 2: 4.
Achen. Christopher H. 1982. Interpreting and Using Regression. Beverley Hills,
CA: Sage.
— 2005. «Two Cheers for Charles Ragin,» Studies in Comparative International
Development 40(1): 27-32.
Achen. Christopher H. y W. Philips Shively 1995. Cross-Level Inference. Univer-
sity of Chicago Press.
Achinstein. Peter 1983. The Nature of Explanation. Oxford University Press.
Adcock. Robert 2005. «What is a Concept?,» Political Concepts: A Working Pa
per Series of the Conwnittee on Concepts and Methods, Paper No. 1, April, en:
www.conceptsmethods.org/papers.php.
— 2009. «Making Social Science Matter to Us,» Journal of Theoretical Politics
21(1): 97-112.
Adcock. Robert y David Collier 2001. «Measurement Validity: A Shared Stan
dard for Qualitative and Quantitative Research,» American Political Science
Review 95(3): 529-546.
Adler. Patricia A. y Peter Adler 2003. «The Promise and Pitfalls of Going into
the Field,» Contexts 2(2): 41-47.
Agodini, Roberto y Mark Dynarski 2004. «Are Experiments the Only Option?
A Look at Dropout Prevention Programs,» Review of Economics and Statis-
tics 86(1): 180-194.
Ahmed. Amel F. y Rudra Sil 2008. «The Logic(s) of Inquiry: Reconsidering
Multimethod Approaches,» preparado para Annual Meeting of the Ameri
can Political Science Association, Boston, MA, August 31-September 2.
Aldrich, John H. 1995. Why Parties? The Origin and Transformaron of Party
Politics in America. University of Chicago Press.
Alford. John R. y John R. Ribbing 2008. «The New Empirical Biopolitics,» An
nual Review of Political Science 11: 183-203.
Algeo, John (ed.) 1991. Fifty Years Anwng the New Words: A Dictionary of Neo-
logisms, ¡9411991. Cambridge University Press.
Allina-Pisano, Jessica 2004. «Sub Rosa Resistance and the Politics of Econo
mic Reform: Land Redistribution in Ukraine,» World Politics 56(4):
554-581.
Allison, Paul D. 2002. Missing Data. Thousand Oaks, CA: Sage.
Almond, Gabriel A. 1990a. A Discipline Divided: Schools and Sects in Political
Science. Newbury Park, CA: Sage.
— 1990b. «The Study of Political Culture,» en A Discipline Divided: Schools and
Sects in Political Science. Newbury Park, CA: Sage, pp. 138-156.
Almond, Gabriel A. y Stephen J. Genco [1977] 1990. «Clouds, Clocks, and the
Study of Politics,» en A Discipline Divided: Schools and Sects in Political
Science. Newbury Park, CA: Sage, pp. 32-65.
502
Bibliografía
A1”SA'VSidneyVcrba[19631 n‘a*PoliiicalAi-
Alvarez MichfíTi NatÍ°'t5' Newbury Park’CA: Sa^
ski 1996 «rf’ J°fSe Ant0n10 Cheibub. Femando Limongi, y Adam Przewor-
nalDeveloên^f.3-36^
IW()' *** Ex“enK,rial ImPaa'» Scfo*
“d Ti**
H^reac/ ^Nat \"1 Jma8ined Communities: Reflections on lite Origin and
An|ês’ Peter A. 1981. Dictionary of Philosophy. New York, NY: Bames & No-
Angrisí, Joshua D. 1989. «Using the Draft Lottery to Measure the Eflect of Mi-
■ frviee on Civilian Labor Market Outcomes,» Research in Labor Eco
nomías 10: 265-310.
Socf’,<<I'’Pet*?ne Parr*ings and the Vietnam Era Draft Lottery: Evidence from
313*336 eCUr*t^ Administrativo Records,» American Economic Review 80(3):
dañe D’ y Alan ®- Krueger 1991. «Does Compulsory School Atten-

106(4)- 979eCiOM^°°^n^ ârn*n8s?>>> Quarterly Journal of Economías
pplv <<I.n!!rumental Variables and the Search for Identification: From Su-
15(4)3g9 gêman<^ to Quasi-experiments,» Journal of Economic Perspectivas
the tp¿?Shua D- Y Víctor Lavy 1999. «Using Maimonides’ Rule to Estímate

Economic ° 14^2) $'ZC ^cbo'ast’c Achievement,» Quarterly Journal of
J°ShUa ?’ y Jorn’Steffen Pischke 2009. Mostly Harmless Econometrics:

— 2Olo”7TkCÍ? 5 ComPanion- Princeton University Press.
searc/n ^"red'b’bty Revolution in Empirical Economics: How Better Re-
Perspect eS1^24(2)^3^'n^ ^°D °Ut ^conometr’cs,>> Journal of Economic
Joshua D„ Guido W. Imbens, y Donald B. Rubín 1996. «Identification

o, .aUSa, ElFects Using Instrumental Variables,» Journal of the American
Anso tlstical Association
âbehere, 91 (434):
Stephen, James 444-455.Jr„ y Charles Stewart 1112000. «Oíd
M. Snyder,
I ° erS’k eW V°ters> an£l the Personal Vote: Using Redistricting to Measure the
Aristón ionCy Advanta8e->> American Journalof Political Science44(1): 17-34.
o e 41. The Basic Works of Aristotle, ed. Richard McKeon. New York:
Random House.
Austin, John L. 1961. Philosophical Papers. Oxford: Clarendon Press.
inn, Wilham G. y Lisa D. Pearce 2006. Mixed Method Data Collection Strate-
gtes. Cambridge University Press.
ailey, Kenneth D. 1972. «Polythetic Reduction of Monothetic Property Spa-
ce>» Sociológica! Methodology 4: 83-111.
503
Banerjee, Abhijit V. 2007. Making Aid Work. Cambridge. MA: MIT Press.
Banfield. Edward C. 1958. The Moral Basis of a Backward Society. Glencoe, 1L.
Free Press.
Barnes. Barry y David Bloor 1982. «Relativism, Rationalism and the Socio ogy
of Knowíedge.» en Martin Hollis y Steven Lukes (eds.), Rationahty and Re
lativism. Oxford: Basil Blackwell, pp. 21-47. .
Barrett. Christopher y Jeffery Cason 1997. Overseas Research. Baltimore, MU:
JHU Press. n
Bartels. Larry M. 1991. «Instrumental and “Quasi-Instrumental” Variables,»
American Journal of Political Science 35(3): 777-800.
— 1997. «Specification Uncertainty and Model Averaging,» American Journal
of Political Science 41: 641-674. .
— 2006. «What’s the Matter with What’s the Matter with Kansas?,» Quarterly
Journal of Political Science 1: 201-226. f
Barth. Fredrik 1969. Ethnic Groups and Boundaries: The Social Organtzatton o]
Cultural Differences. Boston, MA: Little, Brown.
Bartholomew. David J. (ed.) 2007. Measurement, 4 vols. Thousand Oaks, CA: Sage.
Barton. Alan H. y Paul F. Lazarsfeld 1969. «Some Functions of Qualitative
Analysis in Social Research,» en George J. McCall y J. L. Simmons (e s.), s
sites in Participant Observation. Reading, MA: Addison-Wesley.
Bates. Robert H„ Avner Greif, Margaret Levi, Jean-Laurent Rosenthal, y Barry
Weingast 1998. Analytic Narratives. Princeton University Press.
Battistin, Erich y Enrico Rettore 2002a. «Another Look at the Rcgression ui -
continuity Design,» en: www.cepr.org/meets/wkcn/4/4528/papers/rettore.
— 2002b. «Testing for Programme Effects in a Regression Discontinuity Design

with Imperfect Compliance,» Journal of the Royal Statistica ocie y
165(1): 39-57. .... .
Baumgartner, Frank R. y Bryan D. Jones 1993. Agendas and Insta i ity in
rican Politics. University of Chicago Press.
Bayard de Volo, Lorraine y Edward Schatz 2004. «From the Insi e u .
graphic Methods in Political Research,» PS: Political Science an oi
37(2): 267-271. o ...
Becker, Howard S. 1986. Writing for Social Scientists: How to Start and i
Your Thesis, Book, or Article. University of Chicago Press.
Beckwith, Karen y Kimberly Cowell-Meyers 2007. «Sheer Num ers. n
Representation Thresholds and Women’s Political Representation,» Persp
tires on Politics 5(3): 553-565. p
Beetham, David 1999. Deniocracy and Human Rights. Cambridge: Polity rr .
Beetham, David (ed.) 1994. Deftning and Measuring Democracy. London: age.
Bender, Thomas, Cari E. Schorske, Stephen R. Graubard, y Williami J. Barber
(eds.) 1997. American Academic Culture in Transformation. Fifty eais,
Disciplines. Princeton University Press.
Bennett, Andrew 1999. «Causal Inference in Case Studies: From Mili s Me
to Causal Mechanisms,» trabajo presentado en Annual Meeting oí the Ame
rican Political Science Association, Atlanta, GA, September.
504
Bibliografía
— 2010. «Process Tracing and Causal Inference,» en Henry E. Brady y David

Collier (eds.), Rethinking Social Inquiry: Diverse Tools, Shared Standards, pp.
207-220.
Bennett, Andrew y Bear Braumoeller 2006. «Where the Model Frequently
Meets the Road: Combining Formal, Statistical, and Case Study Methods,»
manuscrito inédito, Georgetown University, Washington, DC.
Benson, Kjell y Arthur Hartz, Jr. 2000. «A Comparison of Observational Stu-
dies and Randomized Controlled Triáis,» New England Journal of Medicine
342(25): 1878-1886.
Berelson, Bernard R. y Gary A. Steiner 1964. Human Behavior An Inventory of
Scientific Findings. New York: Harcourt.
Berger, Bennett M. 1995. An Essay on Culture: Symbolic Structure and Social
Structure. Berkeley, CA: University of California Press.
Berg-Schlosser, Dirk (ed.) 2007. Democratization: The State of the Art. Far-
mington Hills, MI: Barbara Budrich Esser.
Berg-Schlosser, Dirk y Gisele De Meur 1994. «Conditions of Democracy in In-
terwar Europe: A Boolean Test of Major Hypotheses,» Comparative Politics
26(3): 253-279.
— 2009. «Comparative Research Design,» en Rihoux y Ragin (eds.), Configura-
tional Comparative Methods: Qualitative Comparative Analysis (QCA) and
Related Techniques, pp. 19-32.
Berg-Schlosser, Dirk y Jeremy Mitchell 2000. Conditions of Democracy in Euro-
pe, 1919-39: Systematic Case Studies. Basingstoke: Macmillan.
— 2003. Authoritarianism and Democracy in Europe, 1919-39: Comparative
Analyses. Basingstoke: Macmillan.
Berk, Richard A. 1991. «Toward a Methodology for Mere Moríais,» Sociológi
ca! Methodology 21:315-324.
— 1999. «Review of Observational Studies by Paul Rosenbaum,» Journal of
Educational and Behavioral Statistics 24(1): 95-100.
— 2004. Regression Analysis: A Constructive Critique. Thousand Oaks, CA: Sage.
— 2005. «Randomized Experiments as the Bronze Standard,» manuscrito inédi
to. Department of Statistics, UCLA.
Berk, Richard A. y Jan de Leeuw 1999. «An Evaluation of Californias Inmate
Classification System Using a Generalized Regression Discontinuity De
sign,» Journal of the American Statistical Association 94(448): 1045-1052.
Berk, Richard A. y David Rauma 1983. «Capitalizing on Nonrandom Assign-
ment to Treatments: A Regression-Discontinuity Evaluation of a Cri-
me-Control Program,» Journal of the American Statistical Association
78(381): 21-27.
Berk, Richard A., Alee Campbell, Ruth KJapp, y Bruce Western 1992. «The Di-
ITerential Deterrent Effects of an Arrest in Incidents of Domestic Violence:
A Bayesian Analysis of Four Randomized Field Experiments,» American
Sociological Review 57(5): 698-708.
Bertrand, Marianne y Sendhil Mullainathan 2001. «Do People Mean What
They Say? Implications for Subjective Survey Data,» American Economic Re
view 91(2): 67-72.
505
— 2005. «Are Emily y Greg More Employable than Lakisha and Jamal?: A
Field Experiment on Labor Market Discrimination,» American Economic
Review 94(4): 991-1013.
Bertrand. Marianne. Esther Duflo, y Sendhil Mullainathan 2004. «How Much
Should We Trust Difi'erence-in-Differences Estimates?,» Quarterly Journal of
Economics 119(1): 249-275.
Besley. Timothy y Torsten Persson 2009. «The Origins of State Capacity: Property
Rights. Taxation. and Politics.» American Economic Review 99(4): 1218-1244.
Bewley. Truman 1999. JP/ív IVages Don't Fall during a Recession. Cambridge,
MA: Harvard University Press.
Bhaskar. Roy [1975] 1978. A Realist Theory of Science. Hassocks: Harvester Press.
Bickman. Leonard y K. Peterson 1990. «Using Program Theory to Describe
and Measure Program Quality,» en Leonard Bickman (ed.), Advances in Pro
gram Theory. San Francisco, CA: Jossey-Bass, pp. 61-72.
Bierwisch. Manfred 1981. «Basic Issues in the Development of Word Meaning,»
en Wemer Deutsch (ed.), The Child’s Construction of Language. London:
Academic Press, pp. 341-387.
Bierwisch. Manfred y Robert Schreuder 1992. «From Concepts to Lexical
Items.» Cognition 42: 23-60.
Bjorkman, Martina y Jakob Svensson 2009. «Power to the People: Evidence
from a Randomized Experiment of a Citizen Report Card Project in Ugan-
da.» Quarterly Journal of Economics 124(2): 735-769.
Blalock, Hubert M„ Jr. 1982. Conceptualization and Measurement in the Social
Sciences. Beverly Hills, CA: Sage.
Blalock. Hubert M., Jr. 1984. «Contextual-Effects Models: Theoretical and Me-
thodological Issues.» Annual Review of Sociology 10: 977-1012.
Blaug, Mark 1978. Economic Theory in Retrospect. Cambridge University
Press.
Bloch, Marc [1941] 1953. The Historians Craft. New York: Vintage Books.
Bloom. Howard S. (ed.) 2005. Learning More from Social Experiments: Evolving
Analytic Approaches. New York: Russell Sage Foundation.
Bloom, Howard S., Carolyn J. Hill, y James A. Riccio 2002. «Linking Program
Implementation and Effectiveness: Lessons from a Pooled Sample of Welfa-
re-to-Work Experiments,» Journal of Policy Analysis and Management 22(4):
551-575.
Bohman, James 1991. New Philosophy of Social Science: Problems of Indetermi-
nacy. Cambridge, MA: MIT Press.
Bok, Derek 1982. Beyond the Ivory Tower Social Responsibilities of the Modern
University. Cambridge, MA: Harvard University Press.
Bollen, Kenneth A. 1989. Structural Equations with Latent Variables. New York:
John Wiley.
Bollen, Kenneth A. y Richard Lennox 1991. «Conventional Wisdom on Measu
rement: A Structural Equation Perspective,» Psychological Bulletin 110:
305-314.
Borges, Jorge Luis [1942] 1999. Selected Non-Fictions, ed. Eliot Weinberger. New
York: Penguin.
506
Bibliografía
Boumans, Marcel (ed.) 2007. Measurement in Economics: A Handbook. Amster-

dam: Elsevier.
Bourguignon, Franqois y Christian Morrisson 2002. «Inequality among World
Citizens: 1820-1992,» American Economic Review 92(4): 727-744.
Bowers, Jake y Costas Panagopoulos 2009. «A Reasoned Basis for Inference:
Randomization and Design Justifying Estimatíon and Testing,» trabajo inédi
to, Department of Political Science, University of Illinois at Urbana- Cham-
paign.
Bowman, Kirk, Fabrice Lehoucq, y James Mahoney 2005. «Measuring Political
Democracy: Case Expertise, Data Adequacy, and Central America,» Conipa-
' rative Political Studies 38 (8): 939-970.
Box-StefTensmeier, Janet, Henry Brady, y David Collier (eds.) 2008. The Oxford
Handbook of Political Methodology. Oxford University Press.
Boyd, Richard, Philip Gasper, y J. D. Trout (eds.) 1991. The Philosophy of Scien
ce. Cambridge, MA: MIT Press.
Brady, Henry E. 2002. «Models of Causal Inference: Going Beyond the Ney-
man-Rubin Holland Theory,» trabajo presentado en Annual Meeting of
the Political Methodology Group, University of Washington, Seattle, WA,
July.
— 2004. «Data-Set Observations versus Causal-Process Observations: The 2000
U.S. Presidential Election,» en Brady y Collier (eds.), Rethinking Social In-
quiry: Diverse Tools, Shared Standards, pp. 267-272.
— 2008. «Causation and Explanation in Social Science,» en Box-Steffensmeier,
Brady, y Collier (eds.), The Oxford Handbook of Political Methodology. pp.
217-270.
Brady, Henry E. y David Collier (eds.) 2004. Rethinking Social Inquiry: Diverse
Tools, Shared Standards. Lanham, MD: Rowman & Littlefield.
Brady, Henry E. y John E. McNulty 2004. «The Costs of Voting: Evidence from
a Quasi experiment,» trabajo preparado para Annual Meeting of the Society
for Political Methodology, Stanford University, Palo Alto, CA, July.
Brady, Henry E., David Collier, y Jason Seawright 2006. «Toward a Pluralistic
Vision of Methodology,» Political Analysis 14(3): 353-368.
Braumoeller, Bear F. 2006. «Explaining Variance: Or, Stuck in a Moment We
Can’t Get Out Of.» Political Analysis 14(3): 268-290.
Braumoeller, Bear F. y Gary Goertz 2000. «The Methodology of Necessary
Conditions,» American Journal of Political Science 44(3): 844-858.
— 2002. «Watching Your Posterior,» Political Analysis 10(2): 198-203.
Breslow, N. E. 1996. «Statistics in Epidemiology: The Case-Control Study,» Jo
urnal of the American Statistical Association 91(433): 14-28.
Brewer, John y Albert Hunter 2006. Foundations of Multimethod Research: Syn-
thesizing Styles. Thousand Oaks, CA: Sage.
Briggs, Derek C. 2005. «Meta-Analysis: A Case Study,» Evaluation Review
29(2): 87-127.
Brim, John A. y David H. Spain 1974. Research Design in Anthropology: Para-
digms and Pragmatics in the Testing of Hypotheses. New York: Holt, Rine-
hart & Winston.
507
Brinks. Daniel y Michael Coppedge 2006. «Diffusion is no Illusion: Neighbor

Emulation in the Third Wave of Democracy,» Comparative Political Studies
39(4): 463-489.
Brown. Michael E., Sean M. Lynn-Jones, y Steven E. Miller (eds.) 1996. Deba-
ting the Democratic Peace. Cambridge, MA: MIT Press.
Brown. Robert 1984. The Nature of Social Laws: Machiavelli to Mili. Cambridge
University Press.
Bryman. Alan 1984. «The Debate about Quantitative and Qualitative Research:
A Question of Method or Epistemology?,» British Journal of Sociology
35(11:75-92.
Budge. lan. David Robertson. y Derek Hearl 1987. Ideology, Strategy and Party
Change: Spatial Analyses of Post-lVar Election Programmes in 19 Democra-
cies. Cambridge University Press.
Buford. Bill 1991. Among the Thugs. New York: Vintage.
Bunge. Mario 1959. Causality. Cambridge, MA: Harvard University Press.
— 1963. The Place of the Causal Principie in Modern Science. Cleveland, OH:
Meridian Books.
— 1979. Causality and Modern Science, 3rd edn. New York: Dover.
— 1997. «Mechanism and Explanation,» Philosophy of the Social Sciences 27.
410-465.
Burawoy. Michael, Joshua Gamson, y Alice Burton 1991. Ethnography Un-
bound: Power and Resistance in the Modern Metrópolis. Berkeley, CA. Uni
versity of California Press.
Burger, Thomas 1976. Max Weber’s Theory of Concept Formation: History,
Laws, and Ideal Types. Durham, NC: Duke University.
Butler. Daniel M. 2006. «Are Voters in Primaries Biased against Female Candi
datos? A Regression Discontinuity Analysis,» trabajo presentado en Annual
Meeting of the American Political Science Association, Philadelphia, PA,
August 30-September 3.
Butler, Daniel M. y Matthew J. Butler 2006. «Splitting the Difference? Causal
Inference and Theories of Split-Party Delegations,» Political Analysis 14.
439-455.
Cameron, Lisa A., Ananish Chaudhuri, Nisvan Erkal, y Lata Gangadharan
2009. «Do Altitudes toward Corruption Differ across Cultures? Experimen
tal Evidence from Australia, India, Indonesia and Singapore,» Journal of Pu
blic Economics 93: 843-851.
Campbell, Angus, Philip E. Converse, Warren P. Miller, y Donald E. Stokes
1960. The American Voter. New York: Wiley.
Campbell, Donald T. 1966. «Pattern Matching as an Essential in Distal
Knowing,» en K. R. Hammond (ed.), The Psychology of Egon Brunswick.
New York: Holt, Rinehart & Winston, pp. 81-106.
— [1968] 1988. «The Connecticut Crackdown on Speeding: Time-Series Data in
QuasiExperimental Analysis,» en E. Samuel Overman (ed.), Methodology and
Epistemology for Social Science. University of Chicago Press, pp. 222-238.
— 1975. «“Degrees of Freedom”and the Case Study,» Comparative Political
Studies W): 178-193.
508
Bibliografía
Campbell, Donald T. y Julián Stanley 1963. Experimental and Quasi-Experimen-

tal Designs for Research. Boston, MA: Houghton MifTlin.
Campbell, Norman Robert [1919] 1957. Physics: The Elements, reimpreso
como Foundations of Science. New York: Dover.
Capecchi, Vittorio 1968. «On the Definition of Typology and Classification in
Sociology,» Quality and Quantity 2 (1-2): 9-30.
Caporaso, James A. 1995. «Research Design, Falsification, and the Qualitati-
ve-Quantitative Divide,» American Political Science Review 89(2):
457-460.
Card, David y Alan B. Krueger 1994. «Mínimum Wages and Employment: A
Case Study of the Fast-Food Industry in New Jersey and Pennsylvania,»
American Economic Review 84 (4): 772-793.
Carey, Gregory 2002. Human Genetics for the Social Sciences. Thousand Oaks,
CA: Sage.
Carey, John M. 2008. Legislativa Voting and Accountability. Cambridge Univer-
sity Press.
Carmines, Edward G. y Richard A. Meller 1979. Reliability and Validity As-
sessment. Beverly Hills, CA: Sage.
Carnoy, Martin 1998. «National Voucher Plans in Chile and Sweden: Did Priva-
tization Reforms Make for Better Education?,» Comparative Education Re
view 42(3): 309-337.
Carón, Neal y Aaron Panofsky 2005. «TQCA: A Technique for Adding Tempo-
rality to Qualitative Comparative Analysis,» Sociological Methods and Re
search 34(2): 147-172.
Carpenter, Jeffrey P., Glenn W. Harrison, y John A. List (eds.) 2005. Field Expe-
riments in Econonücs. London: Elsevier.
Carr, Edward Hallett [1939] 1964. The Twenty Years"Crisis, 1919-1939: An In-
troduction to the Study of International Relations. New York: Harper.
Cartwright, Nancy 1983. How the Laws of Physics Lie. Oxford University
Press.
— 2004. «Causation: One Word, Many Things,» Philosophy of Science 71(5),
Proceedings of the 2002 Biennial Meeting of the Philosophy of Science As-
sociation. Part II: Symposia Papers, December, pp. 805-819.
— 2007. Hunting Causes and Using Them. Cambridge University Press.
Cat, Jordi 2006. «Fuzzy Empiricism and Fuzzy-Set Causality: What Is All the
Fuzz About?,» Philosophy of Science 73:26-41.
Catón, Charles E. (ed.) 1963. Philosophy and Ordinary Language. Urbana IL:
University of Illinois Press.
Cavell, Stanley 1979. The Claim of Reason: Wittgenstein, Skepticisni, Morality,
and Tragedy. Oxford University Press.
Chakrabarti, Rajashri y Paul E. Peterson (eds.) 2008. School Choice Internatio
nal: Exploring Public-Private Partnerships. Cambridge, MA: MIT Press.
Chapin, F. Stuart 1939. «Definition of Definitions of Concepts,» Social Forces
18(2): 153-160.
Chappell, V. C. (ed.) 1964. Ordinary Language. Englewood Cliffs, NJ: Prentice
Hall.
509
Chattapadhyay. Raghabendra y Esther Dudo 2004. «Women as Policy Makers:

Evidence from a Randomized Policy Experiment in India,» Econometrica
72(5): 1409-1443.
Chaudhury. N. y J. S. Hammer 2003. «Ghost Doctors: Absenteeism in Bangla-
deshi Health Facilities.» Policy Research Working Paper No. 3065, Washing
ton. DC: World Bank.
Cheibub, José Antonio y Jennifer Gandhi 2004. «Classifying Political Regimes:
A Six-Fold Measure of Democracies and Dictatorship,» presentado en An-
nual Meeting of the American Political Science Association, Chicago, IL
September 2-5.
Chen. H. T. y P. H. Rossi 1983. «Evaluating with Sense: The Theory-Driven
Approach.» Evaluation Review 7: 283-302.
Chong. Dennis 1993. «How People Think, Reason, and Feel about Rights and
Liberties.» American Journal of Political Science 37(3): 867-899.
Chubb. John E. y Terry M. Moe 1990. Politics, Markets, and America’s Schools.
Washington. DC: Brookings Institution.
Clark. Gordon L., Meric S. Gertler, y Maryann P. Feldman (eds.) 2000. The
Oxford Handbook of Economic Geography. Oxford University Press.
Clark. Gregory 2008. Farewell to Ahns: A Brief Economic History of the World.
Princeton University Press.
Clark. John y Joseph Banks 1793. «Description of an Extraordinary Production
of Human Generation, with Observations,» Philosophical Transactions of the
Royal Society of London 83:154-163.
Clark, Vicki L. Plano y John W. Creswell (eds.) 2007. The Mixed Methods Rea-
der. Thousand Oaks, CA: Sage.
Clarke, Kevin A. 2002. «The Reverend and the Ravens,» Political Analysis 10(2):
194-197.
— 2005. «The Phantom Menace: Omitted Variable Bias in Econometric Re
search,» Conflict Management and Peace Science 22: 341-52.
Clogg, Cliíford C. y Adamantios Haritou 1997. «The Regression Method of
Causal Inference and a Dilemma Confronting this Method,» en McKim y
Tumer (eds.), Causality in Crisis?: Statistical Methods and the Search for
Causal Knowledge in the Social Sciences, pp. 83-112.
Cochran, Thomas C. 1948. «The “Presidential Synthesis” in American History,»
American Historical Review 53: 748-53.
Cohén, Abner 1974. Two-Dimensional Man: An Essay on the Anthropology of
Power and Symbolism in Complex Society. Berkeley, CA: University of Cali
fornia Press.
Cohén, Jacob 1988. Statistical Power Analysis for the Behavioral Sciences, 2nd
edn. Mahwah, NJ: Lawrence Erlbaum.
Cohén, Michael, James March, y Johan Olsen 1972. «A Garbage Can Model of
Organizational Choice,» Administrative Science Quarterly 17(1): 1-25.
Cohén, Morris R. y Emest Nagel 1934. An Introduction to Logic and Scientific
Method. New York: Harcourt.
Coleman, James S. y Thomas J. Fararo (eds.) 1992. Rational Choice Theory: Ad-
vocacy and Critique. Thousand Oaks, CA: Sage.
510
Bibliografía
Coleman, Stephen 2007. «Testing Theories with Qualitative and Quantitative

Predictions,» European Political Science 6(2): 124-133.
Collier, David 1995. «Trajectory of a Concept: “Corporatism” in the Study of
Latin American Politics,» en Peter Smith (ed.), Latin America in Comparative
Perspectiva. Boulder, CO: Westview, pp. 135-162.
— 1998. «Putting Concepts to Work: Toward a Framework for Analyzing Concep
tual Innovation in Comparative Research,» trabajo presentado en Annual Mee-
ting of the American Political Science Association, Boston, MA, September.
Collier, David y John Gerring (eds.) 2009. Concepts and Method in Social Scien
ce: The Tradition of Giovanni Sartori. London: Routledge.
Collier, David y Steven Levitsky 1997. «Democracy with Adjectives: Conceptual
Innovation in Comparative Research,» World Politics 49(3): 430-451.
Collier, David y James E. Mahon, Jr. 1993. «Conceptual “Stretching”Revisited:
Adapting Categories in Comparative Analysis,» American Political Science
Review 87(4): 845-855.
Collier, David y James Mahoney 1996. «Insights and Pitfalls: Selection Bias in
Qualitative Research,» World Politics 49(1): 56-91.
Collier, David, Henry Brady, y Jason Seawright 2010. «Sources of Leverage in
Causal Inference: Toward an Altemative View of Methodology,» en Henry
E. Brady y David Collier (eds.), Rethinking Social Inquiry: Diverse Tools,
Shared Standards, 2nd edn. Lanham: Rowman & Littlefield, pp. 161-200.
Collier, David, Jody LaPorte, y Jason Seawright 2008. «Typologies: Forming
Concepts and Creating Categorical Variables,» en Box-Steffensmeier, Brady,
y Collier (eds.), The Oxford Handbook of Political Methodology, pp. 152-173.
Collier, Ruth Berins y David Collier 1991. Shaping the Political Arena: Critical
Junctures, the Labor Movement, and Regime Dynamics in Latin America.
Collingwood, R. G. 1940. An Essay on Metaphysics. Oxford University Press.
Collins, Randall 1985. Three Sociological Traditions. New York: Oxford Univer
sity Press.
Connolly, Wiliiam E. [1974] 1983. The Terms of Political Discourse, 2nd edn.
Converse, Philip E. 1964. «The Nature of Belief Systems in Mass Publics,» en
David E. Apter (ed.), Ideology and Discontent. London: Free Press of Glen-
coe, pp. 206-261.
Cook, Thomas D. y Donald Campbell 1979. Quasi-Experimentation: Design and
Analysis Issues for Field Settings. Boston, MA: Houghton Mifflin.
Cook, Thomas D. y Vivían C. Wong 2005. «Empirical Tests of the Validity of
the Regression Discontinuity Design,» manuscrito inédito, Institute for Poli-
cy Research, Northwestern University.
Cook, Thomas D., Michael Scriven, Chris L. S. Coryn, y Stephanie D. H. Ever-
green 2010. «Contemporary Thinking about Causation in Evaluation: A
Dialogue With Tom Cook y Michael Scriven,» American Journal of Evalua
tion 31: 105-117.
Cook, Thomas D., Wiliiam R. Shaddish, y Vivían C. Wong 2008. «Three Condi-
tions under which Experimenta and Observational Studies Produce Compa-
511
rabie Causal Estímales: New Findings from Within-Study Comparisons,» Jo

urnal oj Policy Analysis and Management 27: 724-750.
Coppedge. Michael forthcoming. Approaching Democracy. Cambridge Universi
ty Press.
Coppedge. Michael y John Gerring 2011. «Conceptualizing and Measuring De
mocracy: A New Approach,» Perspectives on Politics 9(2): 247-267.
Coppedge. Michael y Wolfgang H. Reinicke 1990. «Measuring Polyarchy,» Stu-
dies in Comparative International Development 25(1): 51-72.
Coppedge. Michael. Angel Alvarez. y Claudia Maldonado 2008. «Two Persis
ten: Dimensions of Democracy: Contestation and Inclusiveness,» Journal of
Politics 70(3): 335-350.
Corti. Louise. Andreas Witzel. y Libby Bishop 2005. Special Issue on Secondary
Analysis of Qualitative Data, Qualitative SozialforschunglForum for Qualita
tive Social Research 6(1).
Cox. David R. 2007. «Applied Statistics: A Review,» Annals of Applied Statistics
1: 1-16.
Cox. Gary W. 1987. The Efficient Secret: The Cabinet and the Development of
Political Parties in Victorian England. Cambridge University Press.
Cox, Gary W., Francés M. Rosenbluth, y Michael F. Thies 2000. «Electoral Rules,
Career Ambitions. y Party Structure: Comparing Factions in Japan’s Upper
and Lower Houses,» American Journal of Political Science 44(1): 115-122.
Creswell, John W. 2008. Research Design: Qualitative, Quantitative, and Mixed
Methods Approaches. Thousand Oaks, CA: Sage.
Crossman, Richard Howard StafTord 1976. The Diaries of a Cabinet Minister.
New York: Henry Holt.
Crouse. Timothy 2003. The Boys on the Bus. New York: Random House.
D Andrade. Roy G. 1995. The Development of Cognitive Anthropology. Cam
bridge University Press.
Dahl, Robert A. [1957] 1969. «The Concept of Power,» reimpreso en Roderick
Bel, David V. Edwards, y R. Harrison Wagner (eds.), Political Power: A Rea-
der in Theory and Research. New York: Free Press, pp. 79-93.
— 1968. «Power,» en David L. Sills (ed.), International Encyclopedia of the So
cial Sciences, Vol. XII. New York: Macmillan, pp. 405-415.
— 1971. Polyarchy: Participation and Opposition. New Haven, CT: Yale Univer
sity Press.
Daniels, Ronald 2005. Rethinking the Welfare State: Government by Voucher.
London: Routledge.
Darity, William A. y Patrick L. Masón 1998. «Evidence on Discrimination in
Employment: Codes of Color, Codes of Gender,» Journal of Economic Pers
pectives 12(2): 63-90.
Davis, David Brion 1988. The Problem of Slavery in Western Culture. Oxford
University Press.
Dawid, A. Phillip 2007. «Fundamentáis of Statistical Causality,» manuscrito
inédito, University of Sheífield.
Day, Timothy y Harold Kincaid 1994. «Putting Inference to the Best Explana
ron in its Place,» Synthese 98: 271-295.
512
Bibliografía
De Meur, Gisele, Benoit Rihoux, y Sakura Yamasaki 2009. «Addressing the Cri
tiques of QCA,» en Rihoux y Ragin (eds.), Configurational Comparative Me-
thods: Qualitative Comparative Analysis (QCA) and Related Techniques, pp.
de Saint-Exupery, Antoine [1943] 1971. The Little Prince. Katherine Woods,

trad. New York: Harcourt Brace Jovanovich.
De Vreese, Leen 2007. «Disentangling Causal Pluralism,» manuscrito inédito,
Centre for Logic and Philosophy of Science, Ghent University, Belgium.
Deaton, Angus 2010. «Instruments, Randomization, and Learning about Deve-
lopment,» Journal of Economic Literature 48(2): 424-455.
Debnam, Geoffrey 1984. The Analysis of Power Core Elements and Structure.
New York: St. Martin’s Press.
Dessler, David 1991. «Beyond Correlations: Toward a Causal Theory of War,»
International Studies Quarterly 35: 337-355.
Dewey, John 1938. Logic: The Theory of Inquiry. New York: Henry Holt.
Dexter, Lewis Anthony 2008. Elite and Specialized Interviewing. University of
Essex, Colchester: ECPR Press.
Diamond, Jared 1992. Guns, Germs, and Steel: The Futes of Human Societies.
New York: W. W. Norton.
DiNardo, John y David S. Lee 2004. «The Impacts of New Unionization on Pri-
^jg^Sector Employers: 1984-2001,» Quarterly Journal of Economics 119(4):
Dion, Douglas 1998. «Evidence and Inference in the Comparative Case Study,»
Comparative Politics 30(2): 127-145.
DiRenzo, Gordon J. (ed.) 1966. Concepts, Theory, and Explanation in the Beha-
vioral Sciences. New York: Random House.
Doherty, Daniel, Alan S. Gerber, y Donald P. Green 2006. «Personal Income
and Attitudes toward Redistribution: A Study of Lottery Winners,» Political
Psychology 27(3): 441-458.
âv*d 2005. «Globalization, Poverty, and Inequality,» en Michael M.
Weinstein (ed.), Globalization: What’s New? New York: Columbia University
Press, pp. 96-128.
Dollar, David, Raymond Fisman, y Robería Gatti 2001. «Are Women Really the
Fairer Sex? Corruption and Women in Government,» Journal of Economic
Behavior and Organization 46(4): 423-429.
Donaldson, S. I. 2003. «Theory-driven Program Evaluation,» en S. I. Donald-
son y Michael Scriven (eds.), Evaluating Social Programs and Problems: Vi-
sionsfor the New Millennium. Mahwah, NJ: Lawrence Erlbaum, pp. 109-141.
oorenspleet, Renske 2000. «Reassessing the Three Waves of Democratiza
do11,» World Politics 52(3): 384-406.
Dryzek, John S. 1988. «The Mismeasure of Political Man,» Journal of Politics
50(3): 705-725.
Duflo, Esther 2004. «Scaling Up and Evaluation,» Annual World Bank Confe-
rence on Development Economics, París, pp. 341-369.
Duflo, Esther, Rachel Glennerster, y Michael Kremer 2008. «Using Randomiza
tion in Development Economics Research: A Toolkit,» en T. Paul Schultz y
513
John A. Strauss (eds.), Handbook of Development Economics, vol. 4. London:

Elsevier, pp. 3895-3962.
Dul. J„ T. Hak, Gary Goertz, y C. Voss 2010. «Necessary Condition Hypotheses
in Operations Management,» International Journal of Operations and Pro-
duction Management 30(11): 1170-1190.
Dumont. Richard G. y William J. Wilson 1967. «Aspects of Concept Forma-
tion. Explication, and Theory Construction in Sociology,» American Socioló
gica! Review 32(6): 985-995.
Duncan. Nick 2006. «The Non-Perception Based Measurement of Corruption:
A Review of Issues and Methods from a Policy Perspective,» en Sampford,
Shacklock, Connors, and Galtung (eds.), Measuring Corruption, pp. 131-161.
Duncan. Otis Dudley 1984. Notes on Social Measurement: Histórica! and Criti
ca! New York: Russell Sage Foundation.
Dunning. Thad 2008a. Crude Democracy: Natural Resource Wealth and Political
Regimes. Cambridge University Press.
— 2008b. «Improving Causal Inference: Strengths and Limitations of Quasi-ex-
periments.» Political Research Quarterly 61(2): 282-293.
— 2008c. «Natural and Field Experiments: The Role of Qualitative Methods,»
Qualitative and Multimethod Research, 17-23.
Dupre. John 1984. «Probabilistic Causality Emancipated,» en French, Uehling,
y Wettstein (eds.), Midwest Studies in Philosophy, vol. IX: Causation and Cau
sal Theories. pp. 169-175.
Durkheim, Emile [1895] 1964. The Rules of Sociological Method. New York: .
Free Press.
Dyson, Tim 2001. «A Partial Theory of World Development: The Neglected
Role of the Demographic Transition in the Shaping of Modern Society,» In
ternational Journal of Population Geography 7: 67-90.
Easton. David 1953. The Political System. New York: Knopf.
Easton, David y Corinne Schelling (eds.) 1991. Divided Knowledge: Across Disci
plines, Across Cultures. Newbury Park, CA: Sage.
Eckstein, Harry 1975. «Case Studies and Theory in Political Science,» en
Greenstein y Polsby (eds.), Handbook ofPolitical Science, vol. VIL Political
Science: Scope and Theory, pp. 79-138.
— 1988. «A Culturalist Theory of Political Change,» American Political Science
Review 82.
— 1992. Regarding Politics: Essays on Political Theory, Stability, and Change.
Berkeley, CA: University of California Press.
Edin, Kathryn y Laura Lein 1997. Making Ends Meet. New York: Russell Sage.
Edin, Per-Anders, Peter Fredrikson, y Olof Aslund 2003. «Ethnic Enclaves and
the Economic Success of Immigrants: Evidence from a Natural Experi-
ment,» Quarterly Journal of Economics 118(1): 329-357.
Eichengreen, Barry 1992. Golden Fetters: The Gold Standard and the Great De-
pression, 1919 1939. New York: Oxford University Press.
Einstein, Aibert [1940] 1953. «The Fundaments of Theoretical Physics,» en
Herbert Feigl y May Brodbeck (eds.), Readings in the Philosophy of Scien
ce. New York: Appleton Century Crofts, pp. 253-262.
514
Bibliografía
Eldridge, John E. T. 1983. C. Wright Mills. Chichester: Ellis Horwood.

Elman, Colin 2005. «Explanatory Typologies in Qualitative Studies of Inter
national Politics,» International Organization 59(2): 293-326.
Elman, Miriam Fendius 1997. Paths lo Peace: Is Denwcracy the Answer? Cam
bridge, MA: MIT Press.
Elster, Jon 1989. Nuts and Bolts for the Social Sciences. Cambridge University
Press.
England, Paula, Barbara Stanek Kilbourne, George Farkas, y Thomas Dou
1988. «Explaining Occupational Sex Segregation and Wages: Findings from
a Model with Fixed EfTects,» American Sociological Review 53(4): 544-558.
Epstein, Edward Jay 2000. News from Nowhere: Televisión and the News. Chi
cago, IL: Ivan R. Dee.
Epstein, León D. 1964. «A Comparative Study of Canadian Parties,» Ameri
can Political Science Review 58: 46-59.
Esping-Andersen, Gosta 1990. The Three Worlds of Welfare Capitalism. Prin-
ceton University Press.
Everitt, Brian S. Sabine Landau, y Morven Leese 2001. Cluster Analysis, 4th
edn. London: Arnold.
Falk, Armin y James J. Heckman 2009. «Lab Experiments Are a Major Source
of Knowledge in the Social Sciences,» manuscrito inédito, Department of
Economics, University of Chicago.
Fallen, Tulia G. 2010. Subnational Politics after Decentralization in Latín Ame
rica. Cambridge University Press.
Fay, Brian 1976. Social Theory and Political Practice. London: Alien & Unwin.
— [1983] 1994. «General Laws and Explaining Human Behavior.» en Martin y
Mclntyre (eds.), Readings in the Philosophy of Social Science, pp. 91-110.
Fearon, James D. 1991. «Counter Factuals and Hypothesis Testing in Political
Science,» World Politics 43: 169-195.
Fenno, Richard F., Jr. 1978. Home Style: House Members in their Districts.
Boston, MA: Little, Brown.
— 1986. «Observation, Context, and Sequence in the Study of Politics,» Ame
rican Political Science Review 80(1): 3-15.
— 1990. Watching Politicians: Essays on Participan! Observation. Berkeley,
CA: IGS Press.
Feyerabend, Paul 1963. «How to be a Good Empiricist: A Plea for Tolerance in
Matters Epistemológica!,» Philosophy of Science: The Delaware Seminar 2:3-39.
— 1975. Against Method. London: New Left Books.
Finan, Frederico y Claudio Ferraz 2005. «Exposing Corrupt Politicians: The
Effect of Brazil’s Publicly Released Audits on Electoral Outcomes.» Working
Paper No. 2005-53, Institute of Governmental Studies, University of Cali
fornia, Berkeley.
Finer, Samuel E. 1997. The History of Government, vols. 1-3. Cambridge Universi
ty Press.
Finkel, Steve, Aníbal Perez-Linan, y Mitchell A. Seligson 2007. «The EfTects of
US Foreign Assistance on Democracy Building, 1990-2003,» World Politics 59:
404-439.
515
Finlay. Linda y Brandan Gough (eds.) 2003. Reflexivity: A Practical Guidefor Re-
searchers in Health and Social Sciences. Oxford: Blackwell.
Fiorina, Morris P. 2005. Culture War?: The Myth of a Polarizad America. New
York: Pearson Longman.
Firebaugh. Glenn 2003. The New Geography of Global Income Inequality. Cam
bridge, MA: Harvard University Press.
— 2008. Seven Rulesfor Social Research. Princeton University Press.
Fischer. David Hackett 1970. Historians’ Fallacies: Toward a Logic of Histórica!
Thought. New York: Harper.
— 1989. Albion's Seed: Four British Folkways in America. New York: Oxford Uni
versity Press.
Fisher. Ronald Aylmer 1935. The Design of Experiments. Edinburgh: Oliver &
Boyd.
Fisman. David, Raymond Fisman, Julia Galef, y Rakesh Khurana 2006. «Estima-
ting the Valué of Connections to Vice-President Cheney,» documento de tra
bajo, Center for Health and Wellbeing, Princeton University.
Fisman, Raymond 2001. «Estimating the Valué of Political Connections,» Ameri
can Economía Review 91(4): 1095-1102.
Fisman, Raymond y Edward Miguel 2007. «Corruption, Norms, and Legal En-
forcement: Evidence from Diplomatic Parking Tickets,» Journal of Political
Economy 115(6): 10201048.
Fleck. Ludwik [1935] 1979. The Génesis and Development of a Scientific Fact. Uni
versity of Chicago Press,
Forsyth. Donelson R. 1976. «Crucial Experiments and Social Psychological In-
quiry,» Personality and Social Psychology Bulletin 2(4): 454-459.
Fowler, Floyd J. 2008. Survey Research Methods, 8th edn. Thousand Oaks, CA:
Sage.
Fowler, James H. y Darren Schreiber 2008. «Biology, Politics, and the Emerging
Science of Natura,» Science 322: 912-914.
Francis, Elizabeth 1991. «Qualitative Research: Collecting Life Histories,» in Ste-
phen Devereux y John Hoddinott (eds.), Fieldwork in Developing Countries.
London: Harvester Wheatsheaf, pp. 86-101.
Frank, Thomas 2004. What's the Matter with Kansas?: How Conservatives Won
the Heart of America. New York: Metropolitan Books.
Franklin, Ronald D., David B. Allison, y Bernard S. Gorman (eds.) 1997. Design
and Analysis of Single-Case Research. Mahwah, NJ: Lawrence Erlbaum.
Freeden, Michael 1994. «Political Concepts and Ideological Morphology,»
The Journal of Political Philosophy 2(1): 140-164.
— 1996. Ideologías and Political Thaory: A Conceptual Approach. Oxford Uni
versity Press.
Freedman, David A. 1991. «Statistical Models and Shoe Leather,» Sociological
Methodology 21: 291-313.
— 1997. «From Association to Causation via Regression,» en McKim y Turner
(eds.), Causality in Crisis?: Statistical Methods and the Search for Causal
Knowledge in the Social Sciences, pp. 113-162.
516
Bibliografía
— 2008. «On Types of Scientific Inquiry: The Role of Qualitative Reasoning,»

en Box Steflensmeier, Brady, y Collier (eds.), The Oxford Handbook of Políti
ca! Methodology, pp. 300-318.
— 2010. David Collier, Jasjeet Sekhon,.y Philip B. Stark (eds.), Statistical Mo-
dels and Causal Inference: A Dialogue with the Social Sciences. Cambridge
University Press.
Freedman, David A., Robert Pisani, Roger Purves, y Ani Adhikarí 1991. Statis-
tics, 2nd edn. New York: Norton.
Freese, Jeremy 2007. «Replication Standards for Quantitative Social Science:
Why Not Sociology?,» Sociological Methods and Research 36(2): 153-162.
Freese, Jeremy y Sara Shostak 2009. «Genetics and Social Inquiry,» Annual Re-
view of Sociology 35: 107-128.
French, Peter A., Theodore E. Uehling, Jr., y Howard K. Wettstein (eds.) 1984.
Midwest Studies in Philosophy. Minneapolis, MN: University of Minnesota
Press.
Frendreis, John P. 1983. «Explanation of Variation and Detection of Covaria-
tion: The Purpose and Logic of Comparativo Analysis,» Comparativo Políti
ca/ Studies 16(2): 255-272.
Fried, Harold O., C. A. Knox Lovell, y Shelton S. Schmidt (eds.) 2008. The
Measurement of Productivo Efficiency and Productivity Growth. New York:
Oxford University Press.
Friedlander, Daniel y Philip K. Robins 1995. «Evaluating Program Evaluations:
New Evidence on Commonly Used Nonexperimental Methods,» American
Economic Review 85(4): 923-937.
Friedman, Jeífrey (ed.) 1996. The Rational Cholee Controversy: Economic Mo-
dels of Politics Reconsiderad. New Haven, CT: Yale University Press.
Friedman, Kenneth S. 1972. «Empirical Simplicity as Testability,» British Jour
nal for the Philosophy of Science 23: 25-33.
Friedman, Michael 1974. «Explanation and Scientific Understanding,» Journal
of Philosophy 71: 5-19.
Friedman, Milton [1953] 1984. «The Methodology of Positive Economics,» en
Daniel M. Hausman (ed.), The Philosophy of Economics: An Anthology.
Cambridge University Press, pp. 210-244.
— 1955. «The Role of Government in Education,» en Robert A. Solo (ed.),
Economics and the Public Interest. New Brunswick, NJ: Rutgers University
Press, pp. 123-144.
Friedman, Milton y Anna Jacobson Schwartz 1963. A Monetary History of the
United States, 1867-1960. Princeton University Press.
Fuller, Bruce y Richard F. Elmore 1996. Who Chooses? Who Loses? Culture, Ins-
titutions, and the Unequal Effects of School Choice. New York: Teachers Co-
llege Press.
Gadamer, Hans-Georg 1975. Truth and Method, trad. Garrett Barden y John
Cumming. New York: Seabury Press.
Gallie, W. B. 1956. «Essentially Contested Concepts,» Proceedings of the Aristo-
telian Society 56:167-198.
517
Galtung. Fredrik 2006. «Measuring the Immcasurablc: Boundaries and

Functions of (Macro) Corruption Indices.» en Sampford, Shacklock, Con-
nors. y Galtung (eds.). .Measuring Corruption. pp. 101-130.
Gardiner. Patrick [1952] 1961. The Nature of Histórica! Explanation. Oxford
Unhersity Press.
GaninkeL Alan 1981. Forms of Explanation: Rethinking the Questions of Social
Theory. New Haven. CT: Yale University Press.
Gasking. Douglas 1955. «Causation and Recipes.» Mind 64: 479-487.
Gauri Varan y Ayesha Vawda 2004. «Vouchers for Basic Education in Develo-
ping Economies: An Accountability Perspective,» World Bank Research Ob-
serrer 19(2): 159180.
Gay. Peter 1984-98. The Bourgeois Experience: Victoria to Freud. 5 vols. New
York: Oxiord University Press and W. W. Norton.
Geddes. Barbara 1996. Politicians Dilemma: Building State Capacity in Latín
America. Berkeley. CA: University of California Press.
— 2003. Paradigms and Sand Castles: Theory Building and Research Design in
Comparative Politics. Ann Arbor, MI: University of Michigan Press.
— 200/. «XVhat Causes Democratization?,» en Caries Boix y Susan Stokes
(eds.). The Oxford Handbook of Comparative Politics. Oxford University
Press, pp. 317-339.
Geertz. Cliiford 1968. Peddlers and Princes: Social Development and Economic
Change in Two Indonesian Towns. University of Chicago Press.
— 19 3. The Interpretation of Cultures. New York: Basic Books.
— 1980. Segara: The Theatre State in Bali. Princeton University Press.
Gellner. Emest 1983. Nations and Nationalism. Ithaca, NY: Comell University Press.
— 1985. Relativism and the Social Sciences. Cambridge University Press.
Gelman. Andrew 2011. Review of Counterfactuals and Causal Inference, por Ste-
phen Morgan y Christopher Winship; Causality: Models, Reasoning, and In-
ference, 2nd edn.. por Judea Pearl; and Causal Models: How People Think
About the World and Its Alternatives, by Steven Sloman. American Journal of
Sociology.
George. Alexander L. y Andrew Bennett 2005. Case Studies and Theory Develo
pment. Cambridge. MA: MIT Press.
George, Alexander L. y Timothy J. McKeown 1985. «Case Studies and Theories
of Organizationaí Decisión Making,» Advances in Information Processing in
Organications, vol. II. Santa Barbara, CA: JAI Press.
Gerber. Alan S., Donald P. Green, y Edward H. Kaplan 2004. «The Illusion of
Leaming from Observationai Research,» en lan Shapiro, Rogers M. Smith, y
Tarek E. Masoud (eds.), Problems and Methocls in the Study of Politics. Cam
bridge University Press, pp. 251-273.
Gerber. Alan S., Donald P. Green, y David Nickerson 2001. «Testing for Publi-
cation Bias in Political Science,» Political Analysis 9(4) 385-392.
Gerring, John 1997. «Ideology: A Definitional Analysis,» Political Research
Quarterly 50(4): 957-994.
— 1999. «What Makes a Concept Good?: An Integrated Framework for Unders-
tanding Concept Formation in the Social Sciences,» Polity 31(3): 357-393.
518
Bibliografía
— 2001. Social Science Methodology: A Criterial Framework. Cambridge Uni-

versity Press.
— 2003. «Interpretations of Interpretivism.» Qualitative Methods: Newsletter of
the American Political Science Association Organizad Section on Qualitative
Methods 1(2): 2-6.
— 2005. «Causation: A Unified Framework for the Social Sciences,» Journal of
Theoretical Politics 17(2): 163-198.
— 2007. Case Study Research: Principies and Practices. Cambridge University
Press.
— 2008. «The Mechanismic Worldview: Thinking Inside the Box,» British Jour
nal of Political Science 38(1): 161-179.
— 2009. «Mere description,» manuscrito inédito, Department of Political
Science, Boston University.
— 2010. «Causal Mechanisms: Yes, But...,» Comparativo Political Studies
43(11): 1499-1526.
Gerring, John y Paul A. Barresi 2003. «Putting Ordinary Language to Work: A
Min-Max Strategy of Concept Formation in the Social Sciences,» Journal of
Gerring, John y Rose McDermott 2007. «An Experimental Témplate for Ca-
se-Study Research,» American Journal of Political Science 51(3): 688-701.
Gerring, John y Strom Thacker 2004. «Political Institutions and Corruption:
The Role of Unitarism and Parliamentarism,» British Journal of Political
Science 34(2): 295-330.
— 2008. A Centrípeta! Theory of Democratic Governance. Cambridge University
Press.
— 2011. «Democracy and Development: A Historical Perspective,» manuscrito
inédito, Boston University.
Gerring, John y Craig Thomas 2011. «Qualitative versus Quantitative Me
thods,» en Bertrand Badie, Dirk Berg-Schlosser, y Leonardo Morlino (eds.),
International Encyclopedia of Political Science. London: Sage.
Gerring, John y Joshua Yesnowitz 2006. «A Normative Tum in Political Scien
ce?,» Polity 38 (1): 101-133.
Gerring, John, Daniel Ziblatt, Johan Van Gorp, y Julián Arevalo 2011. «An
Institutional Theory of Direct and Indirect Rule,» World Politics 63(3).
377-433.
Gerring, John, Strom Thacker, Rubén Enikolopov, y Julián Arevalo 2008. «Pu
blic Health Performance: A Model-Based Approach,» manuscrito inédito,
Boston University.
Gigerenzer, Gerd 2004. «Mindless Statistics,» Journal of Socio-Economics 33:
587-606.
Gilí, Christopher J., Lora Sabin, y Christopher H. Schmid 2005. «Why Clini-
cians are Natural Bayesians,» British Medical Journal 330: 1080-1083.
Gilí, Jeff 1999. «The Insignificance of Nuil Hypothesis Testing,» Political Re
search Quarterly 52 (3): 647-674.
Gillespie, Richard 1991. Manufacturing Knowledge: A Historyof the Hawthorne
Experiments. Cambridge University Press.
519
Galtung. Fredrik 2006. «Measuring the Immeasurable: Boundaries and

Functions of (Macro) Corruption Indices.» en Sampford, Shacklock, Con-
nors. y Galtung (eds.), Measuring Corruption. pp. 101-130.
Gardiner. Patrick [1952] 1961. The Nature of Historical Explanation. Oxford
University Press.
Garfinkel. Alan 1981. Fonns of Explanation: Rethinking the Questions of Social
Theory. New Haven, CT: Yale University Press.
Gasking. Douglas 1955. «Causation and Recipes,» MindM: 479-487.
Gauri. Varan y Ayesha Vawda 2004. «Vouchers for Basic Education in Develo-
ping Economies: An Accountability Perspective,» IVorld Bank Research Ob-
server 19(2): 159180.
Gay. Peter 1984-98. The Bourgeois Experience: Victoria to Freud, 5 vols. New
York: Oxford University Press and W. W. Norton.
Geddes. Barbara 1996. Politician’s Dilemma: Building State Capacity in Latín
America. Berkeley, CA: University of California Press.
— 2003. Paradigms and Sand Castles: Theory Building and Research Design in
Comparative Politics. Ann Arbor, MI: University of Michigan Press.
— 2007. «What Causes Democratization?,» en Caries Boix y Susan Stokes
(eds.). The Oxford Handbook of Comparative Politics. Oxford University
Press, pp. 317-339.
Geertz. CliíTord 1968. Peddlers and Princes: Social Development and Economic
Change in Two Indonesian Towns. University of Chicago Press.
— 1973. The Interpretado)! of Cultures. New York: Basic Books.
— 1980. Negara: The Theatre State in Bali. Princeton University Press.
Gellner. Emest 1983. Nations and Nationalism. Ithaca, NY: Comell University Press.
— 1985. Relativista and the Social Sciences. Cambridge University Press.
Gelman. Andrew 2011. Review of Counterfactuals and Causal Inference, por Ste-
phen Morgan y Christopher Winship; Causality: Models, Reasoning, and In-
ference, 2nd edn., por Judea Pearl; and Causal Models: How People Think
About the IVorld and Its Alternatives, by Steven Sloman. American Journal of
Sociology.
George. Alexander L. y Andrew Bennett 2005. Case Studies and Theory Develo
pment. Cambridge. MA: MIT Press.
George, Alexander L. y Timothy J. McKeown 1985. «Case Studies and Theories
of Organizational Decisión Makíng,» Advances in Information Processing in
Organizalions, vol. II. Santa Barbara, CA: JAI Press.
Gerber. Alan S., Donald P. Green, y Edward H. Kaplan 2004. «The Illusion of
Leaming from Observational Research,» en lan Shapiro, Rogers M. Smith, y
Tarek E. Masoud (eds.), Problems and Methods in the Study of Politics. Cam
bridge University Press, pp. 251-273.
Gerber. Alan S., Donald P. Green, y David Nickerson 2001. «Testing for Publi-
cation Bias in Political Science,» Political Analysis 9(4) 385-392.
Gerring, John 1997. «Ideology: A Definitional Analysis,» Political Research
Quarterly 50(4): 957-994.
— 1999. «What Makes a Concept Good?: An Integrated Framework for Unders-
tanding Concept Formation in the Social Sciences,» Polity 31(3): 357-393.
518
Bibliografía
— 2001. Social Science Methodology: A Criterial Framework. Cambridge Uni-

versity Press.
— 2003. «Interpretations of Interpretivism.» Qualitative Methods: Newsletter of
the American Political Science Association Organized Section on Qualitative
Methods 1(2): 2-6.
— 2005. «Causation: A Unified Framework for the Social Sciences,» Journal of
— 2007. Case Study Research: Principies and Practices. Cambridge University
Press.
— 2008. «The Mechanismic Worldview: Thinking Inside the Box,» British Jour
— 2009. «Mere description,» manuscrito inédito, Department of Political
Science, Boston University.
— 2010. «Causal Mechanisms: Yes, But...,» Comparativo Political Studies
43(11): 1499-1526.
Gerring, John y Paul A. Barresi 2003. «Putting Ordinary Language to Work: A
Min-Max Strategy of Concept Formation in the Social Sciences,» Journal of
Gerring, John y Rose McDermott 2007. «An Experimental Témplate for Ca-
se-Study Research,» American Journal of Political Science 51(3): 688-701.
Gerring, John y Strom Thacker 2004. «Political Institutions and Corruption:
The Role of Unitarism and Parliamentarism,» British Journal of Political
Science 34(2): 295-330.
— 2008. A Centripetal Theory of Deinocratic Governance. Cambridge University
Press.
— 2011. «Democracy and Development: A Historical Perspective,» manuscrito
inédito, Boston University.
Gerring, John y Craig Thomas 2011. «Qualitative versus Quantitative Me
thods,» en Bertrand Badie, Dirk Berg-Schlosser, y Leonardo Morlino (eds.),
International Encyclopedia of Political Science. London: Sage.
Gerring, John y Joshua Yesnowitz 2006. «A Normative Tum in Political Scien
ce?,» Polity 38 (1): 101-133.
Gerring, John, Daniel Ziblatt, Johan Van Gorp, y Julián Arevalo 2011. «An
Institutional Theory of Direct and Indirect Rule,» World Politics 63(3):
377-433.
Gerring, John, Strom Thacker, Rubén Enikolopov, y Julián Arevalo 2008. «Pu
blic Health Performance: A Model-Based Approach,» manuscrito inédito,
Boston University.
Gigerenzer, Gerd 2004. «Mindless Statistics,» Journal of Socio-Economics 33:
587-606.
Gilí, Christopher J., Lora Sabin, y Christopher H. Schmid 2005. «Why Clini-
cians are Natural Bayesians,» British Medical Journal 330: 1080-1083.
Gilí, Jeff 1999. «The Insignificance of Nuil Hypothesis Testing,» Political Re
search Quarterly 52 (3): 647-674.
Gillespie, Richard 1991. Manufacturing Knowledge: A History of the Hawthorne
Experiments. Cambridge University Press.
519
Glaser. James M. 1996. «The Challenge of Campaign-Watching: Seven Lessons

of Participan! Observation Research,» PS: Political Science and Politics
29(3): 533-537.
— 2003. «Social Context and Inter-Group Political Altitudes: Experiments in
Group Conflict Theory.» British Journal of Political Science 33: 607-620.
Glassner. Barry y Jonathan D. Moreno (eds.) 1989. The Qualitative-Quantitative
Distinction in the Social Sciences. Boston Studies in the Philosophy of Scien
ce. p. 112.
Glazer. Amihai y Marc Robbins 1985. «Congressional Responsiveness to
Constituency Change,» American Journal of Political Science 29(2):
259-273.
Glazerman. Steven. Dan M. Levy. y David Myers 2003. «Nonexperimental ver
sus Experimental Estimates of Earnings Impacts,» The Annals of the Ameri
can Academy of Political and Social Science 589(1): 63-93.
Gleditsch. Kristian y Michael D. Ward 2006. «Diffusion and the International
Context of Democratization,» International Organizarían 60(4): 911-933.
Glennan. Stuart S. 1992. «Mechanisms and the Nature of Causation,» Erkennt-
nisAA: 49-71.
— 2002. «Rethinking Mechanistic Explanation,» Philosophy of Science 69:
S342-5353.
Glymour. Clark 1980. Theory and Evidence. Princeton University Press.
Glynn. Adam N. y John Gerring 2011. «Strategies of Research Design with an
Unmeasured Confounder: A Graphical Description,» manuscrito inédito,
Department of Government, Harvard University.
Glynn. Adam N. y Kevin M. Quinn 2011. «Why Process Matters for Causal In-
ference.» Political Analysis 20: 1-19.
Goertz. Gary 2006. Social Science Concepts: A User's Guide. Princeton Univer
sity Press.
— 2008. «Concepts, Theories, and Numbers: A Checklist for Constructing,
Evaluating, y Using Concepts or Quantitative Measures,» en Box-Steffens-
meier, Brady, y Collier (eds.), The Oxford Handbook of Political Methodolo-
gy. pp. 97-118.
Forthcoming. «Descriptive-Causal Generalizations: “Empirical Laws” in the So
cial Sciences?,» en Harold Kincaid (ed.), Oxford Handbook of the Philosophy
of the Social Sciences. Oxford University Press.
Goertz, Gary y James Mahoney 2010. «Two Cultures: Hume’s Two Definitions
of Cause,» Qualitative and Multimethod Research 8(1): 24-27.
Goertz. Gary y Harvey Starr (eds.) 2003. Necessary Conditions: Theory, Me-
thodology and Applications. New York: Rowman & Littlefield.
Goesling, Brian y Glenn Firebaugh 2000. «The Trend in International Health
Inequality,» Popularían and Development Review 30(1): 131-146.
Golden, Miriam A. y Lucio Picci 2005. «Proposal for a New Measure of Co-
rruption, Illustrated with Italian Data,» Economics and Politics 17(1): 37-75.
Goldin, Claudia y Cecilia Rouse 2000. «Orchestrating Impartiality: The Impact
of "Blind” Auditions on Female Musicians,» American Economic Review
90(4): 715-741.
520
Bibliografía
Goldstone, Jack A. 1997. «Methodological Issues in Comparativo Macrosocio-

logy,» Comparative Social Research 16: 121-132.
Goldthorpe, John H. 1997. «Current Issues in Comparative Macrosociology:
A Response to the Commentaries,» Comparative Social Research 16:
121-132.
Goodin, Robert y Charles Tilly (eds.) 2006. The Oxford Handbook of Contextual
Analysis. Oxford University Press.
Gorski, Philip S. 2004. «The Poverty of Deductivism: A Constructive Realist
Model of Sociological Explanation,» Sociological Metlwdology 34(1): 1-33.
Gough, lan y J. Allister McGregor (eds.) 2007. Wellbeing in Developing Coun-
tries: Frotn Theory to Research. Cambridge University Press.
Gould, Stephen Jay 1983. Herís Teeth and Horse's Toes: Further Reflections in
Natural History. New York: W. W. Norton.
Green, Donald P. y Alan S. Gerber 2001. «Reclaiming the Experimental Tradi-
tion in Political Science,» en Helen Milner e Ira Katznelson, (eds.), State of
the Discipline, vol. 111. New York: W. W. Norton, pp. 805-832.
Green, Donald P. y Alan S. Gerber 2003. «The Underprovision of Experiments
in Political Science,» Annals of the American Academy of Political and Social
Science 589(1): 94-112.
Green, Donald P. y lan Shapiro 1994. Pathologies of Rational Cholee Theory: A
Critique of Applications in Political Science. New Haven, CT: Yale University
Press.
Green, Donald P., Terence Y. Leong, Holger L. Kem, Alan S. Gerber, y Christo-
pher W. Larimer 2009. «Testing the Accuracy of Regression Discontinuity
Analysis Using Experimental Benchmarks,» Political Analysis 17(4): 400-417.
reene, Jennifer C. 2007. Mixed Methods in Social Inquiry. San Francisco, CA:
Jossey-Bass.
Greene, William H. 2002. Econometric Analysis, 5th edn. Upper Saddle River,
NJ: Prentice-Hall.
Greenstein, Fred I. y Nelson W. Polsby (eds.) 1975. Handbook of Political Scien
ce. Reading, MA: Addison-Wesley.
Gregory, lan N. y Paul S. Eli 2007. Historical GIS: Technologies, Methodologies
and Scholarship. Cambridge University Press.
Grier, Robín M. 1999. «Colonial Legacies and Economic Growth,» Public Choi-
ce 98(3-4): 317335.
Griffin, Larry J. 1992. «Temporality, Events, and Explanation in Historical Socio-
logy. An Introduction,» Sociological Methods and Research 20(4): 403-427.
1993. «Narrative, Event-Structure Analysis, and Causal Interpretation in
Historical Sociology,» American Journal ofSociology 98: 1094-1133.
Grofman, Bernard 2007. «Toward a Science of Politics?,» European Political
Science 6: 143-155.
Grofman, Bernard, Thomas L. Brunell, y William Koetzle 1998. «Why Gain in
the Senate but Midterm Loss in the House? Evidence from a Quasi-Experi-
ment,» Legislativo Studies Quarterly 23: 79-89.
Groseclose, Tim y JefTrey Milyo 2005. «A Measure of Media Bias,» Quarterly
Journal of Econonücs 120(4): 1191-1237.
521
Gruenbaum. Adolf 1976. «Can a Theory Answer More Questions than One of
Its Rivals?.» British Journal for the Philosophy of Science 27: 1-23.
Guala. Francesco 2005. The Methodology of Experimental Economics. Cam
Gudeman. Stephen 2001. The Anthropology of Economy: Community, Maiket,
and Culture. Chichester: Wiley-Blackwell.
Guiso. Luigi. Paola Sapienza. y Luigi Míngales 2006. «Does Culture Affect
Economic Outcomes?.» Journal of Economic Perspectives 20(2): 23-48.
Gunther. Richard y Larry Diamond 2003. «Species of Political Parties: A New
Typology.» Party Politics 9: 167-199.
Haan. Norma. Robert Bellah. Paul Rabinow, y William M. Sullivan (eds.) 1983.
Social Science as ¡Moral Inquiry. New York: Columbia University Press.
Hadenius. Axel y Jan Teorell 2005. «Assessing Alternative Indices of Demo-
cracy.» Committee on Concepts and Methods Working Paper Series, Au-
gust.
Hahn. Jinyong. Petra Todd. y Wilbert van der Klaauw 2002. «Identification and
Estimation of Treatment Eífects with a Regression-Discontinuity Design,»
Econometrica 69( 1): 201 -209.
Hall. Ned 2004. «Two Concepts of Causation,» en John Collins, Ned Hall, y L.
A. Paul (eds.). Causation and Counterfactuals. Cambridge, MA: MIT Press,
pp. 225-276. .
Hall. Peter A. 2003. «Aligning Ontology and Methodology in Comparativo Poli
nes.» en James Mahoney y Dietrich Rueschemeyer (eds.), Comparativo Histot ica
Analysis in the Social Sciences. Cambridge University Press, pp. 373-404.
Halpeni. J. Y. y Judea Pearl 2005. «Causes and Explanations: A Structural-Mo-
del Approach. Part II: Explanations,» British Journal for the Philosop ty oj
Science 56:4. .
Hambleton. Ronald K.., H. Swaminathan, y H. Jane Rogers 1991. Fundamenta s
of Item Response Theory. Newbury Park, CA: Sage.
Hamilton. James D. 1994. Time Series Analysis. Princeton University Press.
Hamiiton, Malcolm B. 1987. «The Elements of the Concept of Ideology,» Polt-
tical Studies 35: \8-38. ,
Hammer. Dean y Aaron Wildavsky 1989. «The Open-Ended, Semi-Structured
Interview: An (Almost) Operational Guide,» en Aaron Wildavsky (c ra
ftways: On the Organizaron of Scholarly Work. New Brunswick, N . ran
saction, pp. 57-101. . . . .
Hammersley, Martyn 1992. «Deconstructing the Qualitative-Quantitative Divi
de,» en Julie Brannen (ed.), Mixing Methods: Qualitative and Quantitative
Research. Aldershot: Avebury, pp. 39-55.
— 1997. «Qualitative Data Archiving: Some Reflections on its Prospects and
Problems,» Sociology: The Journal of the British Sociological Association
31(1): 131-142. j TT*
Hanson, Norwood Russell 1958. Patterns of Discovery. Cambridge University
Press.
— 1961. «Is There a Logic of Discovery?,» en H. Feigle y G. Maxwell (eds.),
Current Issues in the Philosophy of Science. New York: Holt, pp. 20-35.
522
Bibliografía
Harding, Sandra 1986. The Science Question in Feminisni, Ithaca, NY: Cornell
University Press.
Harding, Sandra (ed.) 1987. Feminism and Methodology: Social Science Issues.
Bloomington, IN: Indiana University Press.
Harman, Gilbert 1965. «The Inference to the Best Explanation,» Philosophical
Review 74: 88-95.
Harre, Rom 1970. The Principies of Scientific Thinking. University of Chicago
Press.
— 1972. The Philosophies of Science. London: Oxford University Press.
Harre, Rom y E. H. Madden 1975. Causal Powers: A Theory of Natural Necessi-
ty. Oxford: Blackwell.
Harrington, David P. 2000. «The Randomized Clinical Trial,» Journal of the
American Statistical Association 95(449): 312-315.
Harrison, Lawrence E. y Samuel P. Huntington (eds.) 2000. Culture Matters.
New York: Basic Books.
Hart, H. L. A. y A. M. Honore 1959. Causality in the Law. Oxford University
Press.
Hartz, Louis 1955. The Liberal Tradition in America. New York: Harcourt, Bra-
ce, World.
— 1964. The Founding of New Societies: Studies in the History of the United
States, Latín America, South Africa, Cañada, and Australia. New York: Har
court, Brace, World.
Hausman, Daniel M. (ed.) 1994. «Why Look under the Hood?,» The Philosophy
of Economics: An Anthology. Cambridge University Press, pp. 217-221.
Hayek, Friedrich A. von. 1956. «The Dilemma of Specialization,» en L. D. Whi-
te (ed.), The State of the Social Sciences. University of Chicago Press, pp.
462-473.
Heath, Anthony y Jean Martin 1997. «Why are there so Few Formal Measuring
Instruments in Social and Political Research?,» en Lars E. Fyberg, Paul
Biemer, Martin Collins, Edith De Leeuw, Cathryn Dippo, Norbert Schwarz,
y Dennis Trewin (eds.), Survey Measurement and Process Quality. New York:
Wiley, pp. 71-86.
Heckman, James J. 2000. «Causal Parameters and Policy Analysis in Econo
mics: A Twentieth Century Retrospective,» Quarterly Journal of Economics
115:45-97.
— 2001. «Micro Data, Heterogeneity, and the Evaluation of Public Policy: The
Nobel Lecture,» Journal of Political Economy 109: 673-748.
— 2005. «The Scientific Model of Causality,» Sociological Methodology 35:
1-97.
— 2008. «Econometric Causality,» International Statistical Review 76(1): 1-27.
— 2010. «Building Bridges between Structural and Program Evaluation Appro-
aches to Evaluating Policy,» Journal of Economic Literature 48(2): 356-398.
Heckman, James J. y Peter Siegelman 1993. «The Urban Institute Audit Studies:
Their Methods,» en Michael Fix y Raymond Struyk (eds.), Clear and Convin-
cing Evidence: Measurement of Discrimination in America. Washington, DC:
The Urban Institute Press, pp. 187-258.
523
Heekman. James J. y Edward Vytlacil 2007a. «Econometric Evaluation of Social

Programs. Part I: Causal Models, Structural Models and Econometric Policy
Evaluations.» en James Heekman y Edward Learner (eds.), Handbook of
Econometrics, rol. 613. Amsterdam: North Holland Press.
— 2007b. «Econometric Evaluation of Social Programs. Part II: Using the Mar
ginal Treatment Effect to Evalúate Social Programs, and to Forecast their
Effects in New Environments,» en James Heekman and Edward Learner
(eds.). Handbook of Econometrics, vol. 6B. Amsterdam: North Holland Press.
Hedstrom. Peter 2005. Dissecting the Social: On the Principies of Analytical So-
ciology. Cambridge University Press.
Hedstrom. Peter y Richard Swedberg (eds.) 1998. Social Mechanisms: An
Analytical Approach to Social Theory. Cambridge University Press.
Heinz. John P.. Edward O. Laumann, Robert L. Nelson, y Robert H. Salisbury
1993. The Hollow Core: Prívate Interests in National Policymaking. Cambrid
ge. MA: Harvard University Press.
Held. David 2006. Models of Democracy, 3rd edn. Cambridge: Polity Press.
Helper. Susan 2000. «Economists and Field Research: “You Can Observe a Lot
Just by Watching,”» American Economic Review 90(2): 228-232.
Hempel. Cari G. 1942. «The Function of General Laws in History.» Journal of
Philosophy 39, 35-48.
— 1952. «Fundamentáis of Concept Formation in Empirical Science,» Founda-
tions of the Unity of Science 2: 7.
— 1963. «Typological Methods in the Social Sciences,» en Maurice Natanson
(ed.), Philosophy of the Social Sciences: A Reader. New York: Random
House, pp. 210-230.
— 1965. Aspects of Scientific Explanarían: And Other Essays in the Philosophy
of Science. New York: Free Press.
— 1966. Philosophy of Natura! Science. Englewood Cliffs, NJ: Prentice Hall.
— 1991. «Empiricist Criteria of Cognitive Significance: Problems and Chan-
ges,» en Boyd, Gasper, y Trout (eds.), The Philosophy of Science.
Hempel, Cari G. y Paul Oppenheim 1948. «Studies in the Logic of Explana-
tion.» Philosophy of Science 15(2): 135-175.
Henisz, Witold J., Bennet A. Melner, y Mauro F. Guillen 2005. «The Worldwide
Diffusion of Market-Oriented Infrastructure Reform,» American Sociologi-
cal Review 70(6): 871-897.
Herrera, Yoshiko M. y Devesh Kapur 2007. «Improving Data Quality: Actors,
Incentives, and Capabilities,» Political Analysis 15(4): 365-386.
Hersen, Michel y David H. Barlow 1976. Single-Case Experimental Designs:
Strategies for Studying Behavior Change. Oxford: Pergamon Press.
Hesse, Mary 1966. Models and Analogies in Science. Notre Dame, IN: Universi
ty of Notre Dame Press.
— 1974. The Structure of Scientific Inference. London: Macmillan.
Hexter, J. H. 1979. On Historians: Reappraisals of Some of the Masters of Mó
dem History. Cambridge, MA: Harvard University Press.
Highton, Ben 2004. «Voter Registration and Turnout in the United States,»
Perspectives on Politics 2(3): 507-515.
524
Bibliografía
Hiño, Airo 2009. «Time-Series QCA: Studying Temporal Change through

Boolean Analysis,» Sociological Theoryand Methods 24:219-246.
Hirsch, E. D. 1967. Validity in Iníerpretation. New Haven, CT: Yale University
Press.
Hirschman, Albert O. 1970. Exit, Voice, Loyalty: Responses to Decline in Finns,
Organizations, and States. Cambridge, MA: Harvard University Press.
— 1977. The Passions and the Interests: Political Arguments for Capitalista befo-
re its Triumph. Princeton University Press.
Hitchcock, Christopher Read 1995. «The Mishap of Reichenbachs Fall. Singu
lar vs. General Causation,» Philosophical Studies 78:257-291.
— 1996. «The Role of Contrast in Causal and Explanatory Claims,» Synthese
107: 395-419. . .. ,
— 2003. «Unity and Plurality in the Concept of Causation,» en Fnednch Sta-
dler (ed.), The Vienna Circle and Logical Empiricism: Re-Evaluation and Fu-
ture Perspectives. New York: KJuwer, pp. 217-224.
— 2005. y Away from a Theory of Explanation Itself.» Synthese 143(1/2):
109-124. wu
— 2007. «How to be a Causal Pluralist,» en Peter Machamer y Gereon Wolters
(eds.), Thinking about Causes: From Greek Philosophy to Modern Physics.
Pittsburgh, PA: University of Pittsburgh Press, pp. 200-221.
Hobsbawm, Eric y Terence Ranger (eds.) 1992. The Invention of Tra ilion, am
bridge University Press. .
Holland, Paul W. 1986. «Statistics and Causal Inference,» Journal oj the Ameri
can Statistical Association 81: 945-960.
Holland, Paul W. y Donald B. Rubín 1988. «Causal Inference in Retrospective
Studies,» Evaluation Review 12: 203-231.
Hollis, Martin 1994. The Philosophy of Social Science: An Introc uction.
HollisdMart^n yStevenLukes (eds.) 1982. Rationality and Relativism. Oxford:
Basil Blackwell. . v
Homans, George C. 1961. Social Behavior Its Elementar)’ Fortns. New Yorx.
— 1967. The Nature of Social Science. New York: Harcourt Brace Jovanovich.
Hoover, Kevin D. 2001. Causality in Macroecononiics. Cambri ge niversi
Howell, William G. y Paul E. Peterson 2002. The Education Gap: Vouchers and
Urban Schools. Washington, DC: Brookings Institution.
Howson, Colin y Peter Urbach 1989. Scientific Reasoning: The Bayesian Appro-
ach. La Salle, IL: Open Court. . f
Hoxby, Caroline M. (ed.) 2003. The Economics of School Choice. University oi
Chicago Press. , .,
Hoy, David Couzens 1982. The Critical Circle: Literature. History, and Flatoso-
phical Hermeneutics. Berkeley, CA: University of California Press.
Hsieh, Chang-Tai y Christina D. Romer 2001. «Was the Federal Reserve Fette-
red? Devaluation Expectations in the 1932 Monetary Expansión,» NBEK
Working Paper No. W8113, February.
525
Metodología de las cencías sociales
Huber. Gregory A. y John S. Lapinski 2006. «The “Race Card” Revisited: As-
sessing Racial Priming in Policy Contests,» American Journal of Political
Science 50(2): 421-440.
— 2008. «Testing the Implicit-Explicit Model of Racialized Political Communi-
cation.» Perspectives on Politics 6(1): 125-134.
Hume. David 1888. Treatise of Human Nature. Oxford University Press.
— 1960. «The Idea of Necessary Connexion [from An Enquiry Concerning Hu
man Understanding. Section 7],» en Edward H. Madden (ed.), The Structure
of Scientij'tc Thought: An Introduction to Philosophy of Science. London:
Routledge & Kegan Paul.
— 1985. Essays: Moral, Political, and Literary, ed. Eugene F. Miller. Indianapo-
lis. IN: Liberty Classics.
— 2007. An Enquiry concerning Human Understanding; And other Writings, ed.
Stephen Buckle. Cambridge University Press.
Humphreys. Macarían 2005. «Natural Resources, Conflict, and Conflict Reso-
lution: Uncovering the Mechanisms,» Journal of Conflict Resolution 49(4):
508-537.
Humphreys, Macarían y Jeremy Weinstein 2009. «Field Experiments and the
Political Economv of Development,» Annual Review of Political Science 12:
367-378.
Humphreys, Macarían, William A. Masters, y Martin E. Sandbu 2006. «The
Role of Leaders in Democratic Deliberations: Results from a Field Experi-
ment in Sao Tome and Principe,» World Politics 58: 583-622.
Huntington. Samuel P. 1991. The Third Wave: Democratization in the Late
Twentieth Century. Norman, OK: University of Oklahoma Press.
Hutchings. Vincent L. y Ashley E. Jardina 2009. «Experiments on Racial Priming
in Political Campaigns,» Annual Review of Political Science 12: 397-402.
Hyde, Susan 2007. «The Observer Effect in International Politics: Evidence
from a Natural Experiment,» World Politics 60(1): 37-63.
Imai, Kosuke, Luke Keele, y Dustin Tingley 2010. «A General Approach to
Causal Mediation Analysis,» Psychological Methods 15(4): 309-334.
Imai, Kosuke, Luke Keele, Dustin Tingley, y Teppei Yamamoto 2010. «Unpac-
king the Black Box: Leaming about Causal Mechanisms from Experimental
and Observational Studies,» manuscrito inédito, Princeton University.
Imbens, Guido W. 2003. «Sensitivity to Exogeneity Assumptions in Program
Evaluation,» American Economic Review 93(2): 126-132.
Imbens, Guido W. y Thomas Lemieux 2007. «Regression Discontinuity Designs:
A Guide to Practice,» NBER Technical Working Paper No. 337.
Imbens, Guido W. y JefTrey M. Wooldridge 2009. «Recent Developments in the
Econometrics of Program Evaluation,» Journal of Economic Literature
47(1): 5-86.
Inglehart, Ronald 1977. The Silent Revolution in Europe: Changing Valúes and
Political Styles among Western Publics. Princeton University Press.
Institute of Medicine 2006. Genes, Behavior, and the Social Environment: Moving
heyond the NatureINurture Debate. Washington, DC: National Academies
Press.
526
Bibliografía
Jackman, Simón 2004. «Bayesian Analysis for Political Research,» Animal Re-
view of Political Science 7: 483-505.
— 2008. «Measurement,» en Box-Steffensmeier, Brady, y Collier (eds.), The
Oxford Handhook of Political Methodology, pp. 119-151.
Jacoby, Russell 1987. The Last Intellectuals: American Culture in the Age of Ata-
dente. New York: Farrar, Straus & Giroux.
Jacoby, William G. 1999. «Levels of Measurement and Political Research: An
Optimistic View,» American Journal of Political Science 43(1): 271-301.
James, William 1981. The Principies of Psychology. Cambridge, MA: Harvard
University Press.
Jamieson, Kathleen Hall 1996. Packaging the Presidency: A History and Criti-
cistn of Presidential Campaign Advertising, 3rd edn. Oxford University
Press.
Jencks, Christopher y Meredith Phillips (eds.) 1998. The Black-White Test Score
Gap. Washington, DC: Brookings Institution.
Jevons, W. Stanley [1877] 1958. The Principies of Science. New York: Dover.
Jick, Todd D. 1979. «Mixing Qualitative and Quantitative Methods: Triangula-
tion in Action,» Administrative Science Quarterly 24(4): 602-611.
Johnston, Michael y Arnold J. Heidenheimer (eds.) 2002. Political Corruption:
Concepts and Contexts. New Brunswick, NJ: Transaction.
Judd, Charles M. y David A. Kenny 1981. Estimating the Effects of Social Inter-
ventions. Cambridge University Press.
Kagel, John H. y Alvin E. Roth (eds.) 1997. Handbook of Experimental Econo
mías. Princeton University Press.
Kanbur, Ravi y Anthony J. Venables (eds.) 2005. Spatial Inequality and Develop-
ment. Oxford University Press.
Kane, James G., Stephen C. Craig, y Kenneth D. Wald 2004. «Religión and Pre
sidential Politics in Florida: A List Experiment,» Social Science Quarterly
85(2): 281-293.
Kantorowicz, Ernst H. 1957. The King's Two Bodies: A Study in Medieval Politi
cal Theology. Princeton University Press.
Kaplan, Abraham 1964. The Conduct of Inquiry: Methodology for Behavioral
Science. San Francisco, CA: Chandler Publishing.
Karl, Barry D. 1982. «The Citizen and the Scholar: Ships That Crash in the
Night,» en Kruskal (ed.), The Social Sciences: Their Nature and Uses, pp.
101-120.
Katznelson, Ira 1997. «Structure and Configuration in Comparativo Politics,»
en Lichbach y Muckerman (eds.), Comparativo Politics: Rationality, Culture,
and Structure, pp. 81-112.
Kaufman, Herbert 1960. The Forest Ranger A Study in Administrative Behavior.
Baltimore, MD: Johns Hopkins University Press.
Kaufmann, Daniel, Aart Kraay, y Massimo Mastruzzi 2007. «Govemance Mat-
ters IV: Governance Indicators for 1996-2006,» Washington, DC: World
Bank.
Keefer, Philip 2006. «Clientelism, Credibility and the Policy Choices of Young
Democracies.» American Journal of Political Science 51(4): 804-821.
527
Kelman. Herbert C. 1982. «Ethical Issues in DiíTerent Social Science Methods,»

en Tom L. Beauchamp, Ruth R. Faden, R. Jay Wallace, Jr., y LeRoy Walters
(eds.), Ethical Issues in Social Science Research. Baltimore, MD: Johns Hop-
kins University Press, pp. 40-98.
Kempf-Leonard. Kimberly (ed.) 2004. Encydopedia of Social Measurement, 3
vols. New York: Academic Press.
Kenney. Genevieve y Douglas A. Wissoker 1994. «An Analysis of the Correlates
of Discrimination Facing Young Hispanic Job-Seekers,» American Economic
Review 84(3): 674-683.
Kenny. Charles 2006. «Measuring and Reducing the Impact of Corruption in
Infrastructure.» World Bank Working Paper No. 4099.
Kertzer. David I. 1988. Ritual. Politics, and Power. New Haven, CT: Yale Univer
sity Press.
Key, V. O.. Jr. 1958. «The State of the Discipline,» American Political Science
Review 52(4): 961-971.
Kim. Sangmoon y Eui-Hang Shin 2002. «A Longitudinal Analysis of Globali-
zation and Regionalization in International Trade: A Social NetWork Appro-
ach.» SocialForces8\ (2): 445-468.
Kincaid. Harold 1990. «Defending Laws in the Social Sciences,» Philosophy of
the Social Sciences 20(1): 56-83.
Kinder. Donald y Thomas R. Palfrey (eds.) 1993. The Experimental Foundations
of Political Science. Ann Arbor, MI: University of Michigan Press.
King. Gary 1995. «Replication, Replication,» PS: Political Science and Politics
28(3): 443-499.
King. Gary y Langche Zheng 2006. «The Dangers of Extreme Counterfac-
tuals,» Political Analysis 14(2): 131-159.
King, Gary, Robert O. Keohane, y Sidney Verba, 1994. Designing Social In-
quiry: Scientific Inference in Qualitative Research. Princeton University
Press.
1995. «The Importance of Research Design in Political Science,» American Poli
tical Science Review 89(2): 475-481.
King, Gary, Christopher J. L. Murray, Joshua A. Salomón, y Ajay Tandon
2004. «Enhancing the Validity and Cross-Cultural Comparability of Measu
rement in Survey Research,» American Political Science Review 98: 567-583.
Kingdon, John W. 1984. Agendas, Alternatives, and Public Policies. Boston, MA:
Little, Brown.
Kirkham, Richard L. 1992. Theories of Truth: A Critical Introduction. Cambrid
ge. MA: MIT Press.
Kirschenman, Kathryn M. y Joleen Neckerman 1991. «“We’d Love to Hire
Them, but . . The Meaning of Race for Employers,» en Christopher
Jencks, y Paul E. Peterson (eds.), The Urban Underclass. Washington, DC:
Brookings Institution, pp. 203-234.
Kiser, Edgar 1996. «The Revival of Narrative in Historical Sociology: What Ra-
tional Choice Can Contribute,» Politics and Society 24: 249-271.
Kitcher, Philip 1981. «Explanatory Uniflcation,» Philosophy of Science 48:
507-531.
528
Bibliografía
— 1989. «Explanatory Unification and the Causal Structure of the World,» en

Kitcher y Salmón (eds.), Scientific Explanation: Minnesota Studies in the Phi-
losophy of Science, vol. XIII, pp. 410-505.
Kitcher, Philip y Wesley Salmón (eds.) 1989. Scientific Explanation: Minnesota
Studies in the Philosophy of Science. Minneapolis, MN: University of Min
nesota Press.
Kittel, Bemhard 2006. «A Crazy Methodology?: On the Limits of Macroquan-
titative Social Science Research,» International Sociology 21: 647-677.
Klimm, Lester E. 1959. «Mere Description,» Economic Geography 35(1).
Knack, Stephen 2006. «Measuring Corruption in Eastem Europe and Central
Asia: A Critique of the Cross-Country Indicators,» World Bank Working
Paper No. 3968.
Knoke, David y Song Yang 2008. Social NetWork Analysis, 2nd edn. Los Ange
les, CA, Sage.
Knowles, Anne Kelly 2008. Placing History: How Maps, Spatial Data, and GIS
Are Changing Historical Scholarship. New York: ESRI Press.
Koestler, Arthur 1964. The Act of Creation. New York: Macmillan.
Komarovsky, Mirra 1940. The Unemployed Man and His Family: The Effect of
Unemployment upon the Status of the Man in Fifty-nine Faniilies. New York.
Dryden Press.
Krantz, David L., R. Duncan Luce, Patrick Suppes, y Amos Tversky 1971, 1989,
1990. Foundations of Measurement, vols. 1-3. New York: Academic Press.
Krasno, Jonathan S. y Donald P. Green 2008. «Do Televised Presidential Ads
Increase Voter Tumout? Evidence from a Natural Experiment,» Journal of
Politics 10(V): 245-261.
Kremer, Michael 1993. «Population Growth and Technological Change: One
Million B.C. to 1990,» Quarterly Journal of Economics 108(3): 681-716.
Krieger, Susan 1991. Social Science and the Se f Personal Essays on an Art Farm.
New Brunswick, NJ: Rutgers University Press.
Kritzer, Herbert M. 1996. «The Data Puzzle: The Nature of Interpretation
in Quantitative Research,» American Journal of Political Science 40(1).
1-32.
Krueger, Alan B. y Peí Mhu 2004. «Another Look at the New York City School
Voucher Experiment,» American Behavioral Scientist 47: 658-698.
Kruskal, W. H. (ed.) 1982. The Social Sciences: TheirNature and Uses. Universi
ty of Chicago Press.
Kuhn, Thomas S. [1962] 1970. The Structure of Scientific Revolutions. Universi
ty of Chicago Press.
— 1977. The Essential Tensión. University of Chicago Press.
Kuper, Adam 1999. Culture: The Anthropologists' Account. Cambridge, MA.
Harvard University Press.
Kurtz, Marcus J. y Andrew Schrank 2007. «Growth and Govemance: Models,
Measures, and Mechanisms,» Journal of Politics 69(2): 538-554.
Ladd, Everett Cari, Jr. y Charles D. Hadley 1975. Transformations of the Ameri
can Party System: Political Coalitions from the New Deal to the 1970s. New
York: W. W. Norton.
529
Ladd, Helen F. 2002. «School Vouchers: A Critical View,» Journal of Economic

Perspectives 16: 3-24.
Laitin. David 1986. Hegemony and Culture: Politics and Religious Change among
the Yoruba. University of Chicago Press.
Lakatos. Imre 1978. The Methodology of Scientific Research Programmes. Cam
— 1981. «History of Science and its Rational Reconstructions,» en lan Hacking
(ed.), Scientific Revolutions. New York: Oxford University Press, pp. 107-127.
Lakoff. George 1987. Women, Fire, and Dangerous Things: What Categories Re
vea! about the Mind. University of Chicago Press.
Lakoff. George y Herbert F. York 1989. A Shield in Space: Technology, Politics,
and the Strategic Defense Initiative. Berkeley, CA: University of California
Press.
LaLonde. Robert J. 1986. «Evaluating the Econometric Evaluations of Training
Programs with Experimental Data,» American Economic Review 76(4):
604-620.
Lambsdorff; Johann G. 2003. «Background Paper to the 2003 Corruption Per-
ceptions Index,» Mimeo, Transparency International, September.
Landau, Martin 1972. «Comment: On Objectivity,» American Political Science
Review 66(3): 847-856.
Laudes, David S. 1999. The Wealth and Poverty of Nations: Why Some Are So
Rich and Some So Poor. New York: W. W. Norton.
Laudes, David S. y Charles Tilly (eds.) 1971. History as Social Science. Englewo-
od Cliffs, NJ: Prentice Hall.
Lange, Peter y Hudson Meadwell 1991. «Typologies of Democratic Systems:
From Political Inputs to Political Economy,» en Howard J. Wiarda (ed.), New
Directions in Comparative Politics. Boulder, CO: Westview Press, pp. 82-117.
Langley, Pat, Herbert A. Simón, Gary L. Bradshaw, y Jan M. Mytkow 1987.
Scientific Discovery: Computational Explorations of the Creative Process.
Cambridge, MA: MIT Press.
Lasswell, Harold y Abraham Kaplan 1950. Power and Society: A Framework for
Political Inquiry. New Haven, CT: Yale University Press.
Latour, Bruno y Steve Woolgar 1979. Laboratory Life: The Social Construction
of Scientific Facts. Beverly Hills, CA: Sage.
Laudan, Larry 1977. Progress and its Problems: Toward a Theory of Scientific
Growth. Berkeley, CA: University of California Press.
— 1983. Science and Valúes. Berkeley, CA: University of California Press.
— 1996. Beyond Positivism and Relativism: Theory, Method, and Evidence. Boul
der, CO: Westview Press.
Lauderdale, Diane S. 2006. «Birth Outcomes for Arabic-named Women in Cali
fornia before and after September 11,» Demography 43(1): 185-201.
Lave, Charles y James March 1975. An Introduction to Models in the Social
Sciences. New York: Harper.
Laver, Michael, Kenneth Benoit, y John Garry 2003. «Extracting Policy Posi-
tions from Political Text Using Words as Data,» American Political Science
Review 97(2); 311-331.
530
Bibliografía
Lazarsfeld, Paul F. 1966. «Concept Formation and Measurement in the Beha-

vioral Sciences: Some Historical Observations,» en Gordon J. DiRenzo (ed.),
Concepts, Theory, and Explanation in the Behavioral Sciences. New York:
Random House, pp. 144-204.
Lazarsfeld, Paul F. y Morris Rosenberg (eds.) 1955. The Language of Social Re
search. Glencoe, IL: Free Press.
Learner, Edward E. 1983. «Let’s Take the Con out of Econometrics,» American
Economic Review 73 (1): 31-44.
— 2010. «Tantalus on the Road to Asymptopia,» Journal of Economic Perspec-
tives 24(2): 31-46.
Lebow, Richard Ned 2007. «Counterfactual Thought Expenments: A Necessary
Teaching Tool,» History Teacher 40(2): 153-176.
Lee, Alien S. 1989. «Case Studies as Quasi-experiments,» Human Relations
42(2): 117-137. d .
Lee, David S. 2008. «Randomized Experiments from Non-Random Selection in
US House Elections,» Journal of Econometrics 142(2). 675- •
Lee, David S. y Thomas Lemieuxa 2010. «Regression Discontinuity Designs in
Economics,» Journal of Economic Literature 48(2): 281-355.
Lee, David S., Enrico Moretti, y Matthew J. Butler 2004. «Do otéis ec
Elect Policies? Evidence from the US House,» Quarterly Journal of Econo
mics 119(3): 807-859. T ; c P
Lee, Raymond M. 1993. Doing Research on Sensitive TopicsLondon. bag .
Leech, Beth L. et al. 2002. «Symposium: Interview Methods in Political b
ce,» PS: Political Science and Politics (December): 665-688.
Leech, Nancy L. y Anthony J. Onwuegbuzie 2009. «A Typology of Mixed Me
thods Research Designs,» Quality and Quantity 43(2): 265-275.
Lehnert, Matthias 2007. «Typologies in Social Inquiry,» en Thomas osen
y Frank Schimmelfennig (eds.), Research Design in Political Science, on
Practice What They Preach. London: Palgrave, pp. 62-82. .
Lenski, Gerhard 1994. «Societal Taxonomies: Mapping the Social Umverse,»
Annual Review of Sociology 20: 1-26. - ,
Lemer, Daniel y Harold D. Lasswell (eds.) 1951. The Policy Sciences. Stanlord
X_Jmversity Pi*css •
Levey, Geoflrey Brahm 1996. «Theory Choice and the Companson of Rival
Theoretical Perspectives in Political Sociology,» Philosop ly oj t te oci
Sciences 26(1): 26-60. . . •
Levi, Margaret 1997. «A Model, a Method, y a Map: Rationa oice
Comparative and Historical Analysis,» en Lichbach y Zuckerman (eds.),
Comparativo Politics: Rationality, Culture, and Structure, PP- •
— 1999. «Producing an Analytic Narrative,» en John R. Bowen y Roger Feter-
sen (eds.), Critical Comparisons in Politics and Culture. Cambn ge mversi
ty Press, pp. 152-172.
Levine, Ross y David Renelt 1992. «A Sensitivity Analysis of Cross-Country
Growth Regressions,» American Economic Review 82(4): 942-963.
Levitsky, Steven y Lucan A. Way 2002. «The Rise of Competitive Authontana-
nism,» Journal of Democracy 13(2): 51-65.
531
Lewis. David K. 1973. Counterfactuals. Oxford: Basil Blackwell.

Lichbach. Mark Irving y Alan S. Zuckerman (eds.) 1997. Comparative Politics:
Rationality, Culture, and Structure. New York: Cambridge University Press.
Lieberman. Evan S. 2005. «Nested Analysis as a Mixed-Method Strategy for
Comparative Research.» American Política! Science Review 99(3): 435-452.
Lieberman. Evan S., Marc Howard, y Julia Lynch 2004. «Symposium: Field Re
search.» Qualitative Methods 2(1): 2-15.
Lieberson. Stanley 1985. Making Ir Count: The Improvement of Social Research
and Theory. Berkeley, CA: University of California Press.
— 1992. «Einstein. Renoir, and Greeley: Some Thoughts about Evidence in So-
ciology: 1991 Presidential Address,» American Sociológica! Review 57(1): 1-15.
— 2001. «Review Essay: Fuzzy Set Social Science, by Charles Ragin,» Contem-
porary Sociology 30: 331-334.
Lieberson. Stanley y Joel Horwich 2008. «Implication Analysis: A Pragmatic
Proposal for Linking Theory and Data in the Social Sciences,» Sociological
Methodology 1-50.
Liebow, Elliot 1967. Tally's Córner A Study o/Negro Streetcorner Men. Boston,
MA: Little, Broun.
Lieshout. Robert H., Mathieu L. L. Segers, y Anna M. van der Vleuten 2004.
«De Gaulle, Moravcsik, and The Choice for Europe: Soft Sources, Weak Evi
dence.» Journal of Coid War Studies 6(4): 89-139.
Lijphart, Arend 1968. «Typologies of Democratic Systems,» Comparative Politi-
cal Studies 1: 3-44.
Lindblom, Charles E. 1979. «Still Muddling, Not Yet Through,» Public Admi
nistraron Review 39: 517-526.
— 1997. «Political Science in the 1940s and 1950s,» en Thomas Bender, Cari E.
Schorske, Stephen R. Graubard, y William J. Barber (eds.), American Acade-
mic Culture in Transformaron: Fifty Years, Four Disciplines. Princeton Uni
versity Press.
Lindblom, Charles E. y David K. Cohén 1979. Usable Knowledge: Social Scien
ce and Social Problem Solving. New Haven, CT: Yale University Press.
Linsley, E. G. y R. L. Usinger 1959. «Linnaeus and the Development of the Inter
national Code of Moological Nomenclatura,» Systematic Moology 8: 39-47.
Little, Daniel 1991. Varieties of Social Explanation: An Introduction to the Philo-
sophy of Social Science. Boulder, CO: Westview Press.
— 1998. Microfoundations, Method, and Causation. New Brunswick, NJ: Tran-
saction.
Lively, Jack 1975. Democracy. Oxford: Basil Blackwell.
Longford, Nicholas T. 2005. «Editorial: Model Selection and EfFiciency - Is
“Which Model . . .?” the Right Question?,» Journal of the Royal Statistical
Society, Series A 168: 469-472.
Lowi, Theodore J. 1972. «Four Systems of Polity, Politics, and Choice,» Public
Administraron Review 32(4): 298-310.
Ludwig, Jens y Douglas L. Miller 2007. «Does Head Start Improve Children’s
Life Chances? Evidence from a Regression Discontinuity Design,» Quarterly
Journal of Economics 122(1): 159-208.
532
Bibliografía
Luker, Kristin 1984. Abortion and the Politics of Motherhood. Berkeley, CA:
University of California Press.
— 2008. Salsa Dancing into the Social Sciences: Research in an Age of Info-glut.
Cambridge, MA: Harvard University Press.
Lutfey, Karen y Jeremy Freese 2005. «Toward Some Fundamentáis of Funda
mental Causality: Socioeconomic Status and Health in the Routine Clinic
Visit for Diabetes,» American Journal of Sociology 110(4): 1326-1372.
Luy, Marc 2003. «Causes of Male Excess Mortality: Insights from Cloistered
Populations,» Population and Development Review 29(4): 647-676.
Lynd, Robert Staughton [1939] 1964. Knowledgefor What?: The Place of Social
Science in American Culture. New York: Grove Press.
Mach, Ernest [1902] 1953. «The Economy of Science,» en Philip P. Wiener (ed.),
Readings in Philosophy of Science. New York: Charles Scribner, pp. 446-452.
Machamer, Peter y Gereon Wolters (eds.) 2007. Thinking about Causes: From
Greek Philosophy to Modern Physics. Pittsburgh, PA: University of Pitts-
burgh Press.
Maclntyre, Alasdair 1971. Against the Self-hnages of the Age: Essays on Ideolo-
gy and Philosophy. London: Duckworth.
Maclver, R. M. [1942] 1964. Social Causation. New York: Harper.
Mackie, John L. 1965. «Causes and Conditions,» American Philosophical Quar-
terly 2: 245-264.
— 1974. The Cement of the Universe: A Study of Causation. Oxford: Clarendon
Press.
Mahon, James E., Jr. 1998. «Political Science and Ordinary Language: Why Dont
We Have Conferences on “The Transition to Polyarchy?,”» trabajo presentado
en International Social Science Council Committee on Conceptual and Termi-
nological Analysis, 14th World Congress of Sociology. Montreal, July.
Mahoney, James 2001. «Beyond Correlational Analysis: Recent Innovations in
Theory and Method,» Sociological Forum 16(3): 575-593.
— 2002. The Legacies of Liberalism: Path Dependence and Political Regimes in
Central America. Baltimore, MD: Johns Hopkins University Press.
— 2004. «Reflections on Fuzzy-set/QCA,» Qualitative Methods 2(2): 17-21.
— 2008. «Toward a Unified Theory of Causality,» Comparative Political Studies
41(4-5): 412-436.
Mahoney, James y Gary Goertz 2006. «A Tale of Two Cultures: Contrasting
Quantitative and Qualitative Research,» Political Analysis 14(3): 227-249.
Mahoney, James y P. Larkin Terrie 2008. «Comparative-Historical Analysis in
Contemporary Political Science,» en Box-StefFensmeier, Brady, y Collier
(eds.), Oxford Handbook of Political Methodology, pp. 737-755.
Mahoney, James y Dietrich Rueschemeyer (eds.) 2003. Comparative Historical
Analysis in the Social Sciences. Cambridge University Press.
Mahoney, James, Erin Kimball, y Kendra L. Koivu 2009. «The Logic of Histori
cal Explanation in the Social Sciences,» Comparative Political Studies 42(1):
114-146.
Maki, Uskali (ed.) 2002. Fací and Fiction in Economics: Models, Realism, and So
cial Construction. Cambridge University Press.
533
Malinowski. Bronislaw (1922] 1984. Argonauts of the Western Pacific. Prospect

Heights. IL: Waveland.
Mansbridge. Jane 1999. «Should Blacks Represent Blacks and Women Represent
\\ ornen? A Contingent “Yes,”» Journal of Politics 61(3): 628-657.
Manski. Charles F. 1995. Identification Problems in the Social Sciences. Cambrid
ge, MA: Harvard University Press.
March. James G. y Johan P. Olsen 1995. Democratic Governance. New York: Free
Press.
Mariam, Mack D. y Gordon J. Hewitt 2008. «Indoctrination U? Faculty Ideology
and Changes in Student Political Orientation,» PS: Political Science and Poli
tics 41(4): 773-783.
Marini. Margaret y Burton Singer 1988. «Causality in the Social Sciences,» Socio-
logical Methodology 18: 347-409.
Marquart. Jules M. 1989. «A Pattem Matching Approach to Assess the Construct
Validity of an Evaluation Instrument,» Evaluation and Program Planning 12:
37-43.
Marshall. Monty G. y Keith Jaggers 2007. «Polity IV Project: Political Regime
Characteristics and Transitions, 1800-2006,» en: www.systemicpeace.org/inscr/
p4manuaIV2006. pdf.
Marshall, T. H. 1964. Class, Citizenship, and Social Development. University of
Chicago Press.
Martin. Michael y Lee C. Mclntyre (eds.) 1994. Readings in the Philosophy of So
cial Science Cambridge, MA: MIT Press.
Mauthner, Natasha S., Odette Parry, y Kathryn Backett-Milbum 1998. «The Data
are Out There, or are They? Implications fbr Archiving and Revisiting Qualita-
tive Data.» Sociology: The Journal of the British Sociológica! Association 32(4):
733-745.
Mayo, Deborah G. 1996. Error and the Growth of Experimental Knowledge. Uni
versity of Chicago Press.
Mayo, Deborah G. y Aris Spanos 2006. «Severe Testing as a Basic Concept in a
Neyman-Pearson Philosophy of Induction,» British Journal for the Philosophy
of Science 57: 323-57.
Mazur, Dennis J. 2007. Evaluating the Science and Ethics of Research on Humans:
A Guide for IRB Menibers. Baltimore, MD: Johns Hopkins University Press.
McArthur, John W. y Jeffrey D. Sachs 2001. «Institutions and Geography: Com-
ment on Acemoglu, Johnson and Robinson,» NBER Working Paper No. 8114.
McCall, George J. y George H. Weber (eds.) 1984. Social Science and Public Poli-
cy: The Roles of Academic Disciplines in Policy Analysis. New York: Associa
ted Faculty Press.
McCarty, Nolan M., Keith T. Poole, y Howard Rosenthal 2008. Polarized Ameri
ca: The Dance of Ideology and Unequal Riches. Cambridge, MA: MIT Press.
McCloskey, Deirdre N. y Stephen T. Ziliak 1996. «The Standard Error of Re-
gressions,» Journal of Econonúc Literature 34(1): 97-114.
McClosky, Herbert, Paul J. Hoffmann, y Rosemary O’Hara 1960. «Issue Con-
flict and Consensus among Party Leaders and Followers,» American Political
Science Review 54:406-427.
534
Bibliografía
McDermott, Rose 2002. «Experimental Methods in Political Science.» Animal

Review of Political Science 5: 31-61.
McGinniss, Joe 1988. The Selling ofthe Presiden!. New York: Penguin.
McGuire, James W. 2010. Wealth, Health, and Democracy in East Asia and Latín
America. Cambridge University Press.
McGuire, William J. 1997. «Creative Hypothesis Generating in Psychology:
Some Useful Heuristics,» Annual Review of Psychology 48:1-30.
Mclntyre, Lee C. 1996. Laws and Explanation in the Social Sciences: Defendinga
Science of Human Behavior. Boulder, CO: Westview.
McKeown, Timothy 1999. «Case Studies and the Statistical World View,» Inter
national Organizaron 53(1): 161-190.
McKim, Vaughn R. y Stephen P. Turner (eds.) 1997. Causality in Crisis?: Statis-
tical Methods and the Search for Causal Knowledge in the Social Sciences.
Notre Dame, IN: Notre Dame University Press.
McKinney, John C. 1950. «The Role of Constructive Typology in Scientific So-
ciological Analysis,» Social Forces 28(3): 235-240.
— 1957. «Polar Variables of Type Construction,» Social Forces 35(4):
300-306. p . ,
— 1969. «Typification, Typologies, and Sociological Theory,» Social torces
McLaughlin, Eithne 1991. «Oppositional Poverty: The Quantitative/Quahtative

Divide and Other Dichotomies,» The Sociological Review 39.292- .
McLaughlin, Robert 1982. «Invention and Induction: Landau, Simón and tne
Logic of Discovery,» Philosophy of Science 49(2): 198-211.
McMullin, Ernán 1984. «Two Ideáis of Explanation in Natural Science,» en Pe-
ter A. French, Theodore E. Uehling, Jr„ y Howard K. Wettstein (eds.), Mid-_
west Studies in Philosophy, vol. IX: Causation and Causal Theoiies. mne
apolis, MI: University of Minnesota Press. .
McSweeny, A. J. 1978. «The Effects of Response Costón the Behavior oi a Mi-
llion Persons: Charging for Directory Assistance in Cincinnati,» ourna o
Applied Behavioral Analysis 11:47-51.
Mead, Lawrence M. 2010. «Scholasticism in Political Science,» Perspectnes on
Politics 8(2): 453-464. ... ,
Meehan, Eugene J. 1971. The Foundations of Political Analysis: Enipincal ana
Normative. Homewood, IL: Dorsey Press.
Mendelberg, Tali 1997. «Executing Hortons: Racial Crime in the 19 resi en
tial Campaign,» Public Opinión Quarterly 61(1): 134-157.
— 2001. The Race Card: Campaign Strategy, Implicit Messages, and the Norni
of Equality. Princeton University Press.
— 2008a. «Racial Priming Revived,» Perspectives on Politics 6(1): 109-1.3.
— 2008b. «Racial Priming: Issues in Research Design and Interpretation.» Pers
pectives on Politics 6(1): 135-140. .
Meyer, Bruce D. 1995. «Natural and Quasi-Experiments in Economics,» Journal
of Business and Econotnic Statistics 13:151-161.
Miguel, Edward 2004. «Tribe or Nation: Nation-Building and Public Goods in
Kenya versus Tanzania,» World Politics 56(3): 327-362.
535
Miguel, Edward. Shanker Satyanath, y Ernest Sergenti 2004. «Economic Shocks

and Civil Conflict: An Instrumental Variables Approach,» Journal of Politi
cal Economy 112(4): 725-753.
Milanovic. Branko 2005. IVorlds Apart: Measuring International and Global In-
equality. Princeton University Press.
Miles. William F. S. 1994. Hausaland Divided: Colonialism and Independence in
Nigeria and Niger. Ithaca, NY: Cornell University Press.
Mili. John Stuart [1843] 1872. System of Logic, 8th edn. London: Longmans,
Groen.
Miller. Richard W. [ 1983] 1991. «Fact and Method in the Social Sciences,» en
Boyd. Gasper, y Trout (eds.), The Philosophy of Science.
— 1987. Fact and Method: Explanation, Confirmation and Reality in the Natural
and the Social Sciences. Princeton University Press.
Mills. C. Wright 1959. The Sociological Imagination. New York: Oxford Univer
sity Press.
Mink. Louis 1987. «History and Fiction as Modes of Comprehension,» en
Brian Fay, Eugene Golob, y Richard Van (eds.), Historical Understanding.
Ithaca, NY: Cornell University Press.
Minton, Judith Huber 1975. «The Impact of “Sesame Street” on Reading Rea-
diness of Kindergarten Children,» Sociology of Education 48: 141-151.
Mirón, Jeffrey A. 1994. «Empirical Methodology in Macroeconomics: Ex-
plaining the Success of Friedman and Schwartz’s “A Monetary History
of the United States, 1867-1960,”» Journal of Monetary Econotnics 34:
17-25.
Moffitt, R. A. 2004. «The Role of Randomized Field Triáis in Social Science
Research: A Perspective from Evaluations of Reforms of Social Welfare Pro-
grams.» American Behavioral Scientist 47(5): 506-540.
Mokyr. Joel 1992. The Lever of Riches: Technological Creativity and Economic
Progress. Oxford University Press.
Mondak, Jeffery J. 1995. «Newspapers and Political Awareness,» American Jour
Monroe. Kristen R. (ed.) 1991. The Economic Approach to Politics. New York:
HarperCollins.
Montaner, Julio S. G., Viviane D. Lima, Rolando Barrios, Benita Yip, Evan
Wood, Thomas Kerr, Kate Shannon, P. Richard Harrigan, Robert S. Hogg,
Patricia Daly, y Perry Kendall 2010. «Association of Highly Active Antire-
troviral Therapy Coverage, Popuiation Viral Load, and Yearly New HIV
Diagnoses in British Columbia, Cañada: A Population-based Study,» The
Lancet pp. 1-8, July 18.
Montgomery, Jacob M. y Brendan Nyhan 2010. «Bayesian Model Averaging:
Theoretical Developments and Practical Applications,» Political Analysis
18(2): 245-270.
Montgomery, Robert L. 1996. The Diffusion of Religions: A Sociological Pers
pective. Lanham, MD: University Press of America.
Mooney, Christopher M. 1997. Monte Cario Simulation. Thousand Oaks, CA:
Sage.
536
Bibliografía
Moore, Barrington, Jr. 1958. Political Power and Social Theory. Cambridge,
MA: Harvard University Press.
Moravcsik, Andrew 1998. The Chotee for Europe: Social Parpóse and State
Power from Messina to Maastricht. Ithaca, NY: Comell University Press.
Morgan, Edmund S. 1975. American SlaverylAnterican Freedont: The Ordeal of
Colonial Virginia. New York: Norton.
Morgan, Mary S. 1997. «Searching for Causal Relations in Economic Statis-
tics,» en McKim y Turner (eds.), Causality in Crisis?: Statistical Methodsand
the Search for Causal Knowledge in the Social Sciences, pp. 47-80.
Morgan, Stephen L. y Christopher Winship 2007. Counterfactttals and Causal
Inference: Methods and Principies for Social Research. Cambridge University
Press.
Morgenthau, Hans J. 1955. «Reflections on the State of Political Science,» Re-
view of Politics 17: 431-460. „.
J Morone, James 2004. Hel fire Nation: The Politics of Sin in American History.
New Haven, CT: Yale University Press.
Morrow, James D. 2003. «Diversity through Specialization,» PS: Political Scien
ce and Politics 36 (3): 391-393. u
Moses, Jonathon y Torbjorn Knutsen 2007. Ways of Knowing. ompeting i
thodologies in Social and Political Research. Basingstoke. Pa grase
Most, Benjamín A. 1990. «Getting Started on Political Research,» PS: Political

Science and Politics 23(4): 592-596. •
Mulligan, Casey, Ricard Gil, y Xavier Sala-i-Martin 2004. «Do em°cr .
Have Different Public Policies than Nondemocracies?,» Journa oj con
Munch^Richardy NeüVsmelser (eds.) 1992. Theory of Culture. Berkeley.CA:
University of California Press. . . .

Munck, Gerardo L. 1998. «Canons of Research Design in Qualitative anaiy-
sis,» Studies in Comparativo International Development 33(3). 1 • . ,
— 2009. Measuring Democracy: A Bridge between Scholarship and Politics.
timore, MD: Johns Hopkins University Press.
Munck, Gerardo L. y Jay Verkuilen 2002. «Conceptualizing an
mocracy: Altemative Indices,» Coniparative Political Studies ( )• •
Murphey, Murray G. 1994. Philosophical Foundations of Histórica no\\
Albany, NY: State University of New York Press. . , D .■ iqcn iqro
Murray, Charles A. 1984. Losing Ground: American Social Policy,
New York: Basic Books. . ., w .
Murray, Michael P. 2006. «Avoiding Invalid Instruments and Coping witn wea
Instruments,» Journal of Economic Perspectives 20:111-132.
Myrdal, Gunnar 1944. An American Dilentnta: The Negro Problem and Modern
Democracy. New York: Harper. . n
— 1970. The Challenge of World Poverty: A World Anti-Poverty Program m Out-
line. New York: Pantheon. T,
Nannestad, Peter 2008. «What Have We Learned about Generahzed Trust, It
Anything?,» Annual Review of Political Science 11:413-436.
537
Nathan. Richard P. y Robinson G. Hollister, Jr. 2008. «The Role of Random

Assignment in Social Policy Research.» Journal of Policy Analysis and Mana
gement 27(2): 401-415.
Neal. Derek 1997. «The Effects of Catholic Secondary Schooling on Educatio-
nal Achievement.» Journal of Labor Economics 15(1): 98-123.
— 2002. «How Vouchers Could Change the Market for Education,» Journal of
Eeonomic Perspectives 16: 25-44.
Neuman. W. Lawrence 1997. Social Research Methods: Qualitative and Quanti-
tative Approaches. 2nd edn. Boston, MA: Allyn & Bacon.
Neumark. David y William Wascher 2000. «Mínimum Wages and Employment:
A Case Study of the Fast-Food Industry in New Jersey and Pennsylvania:
Comment.» American Eeonomic Review 90(5): 1362-1396.
Neumark. David, con Roy Bank y Kyle D. Van Nort 1996. «Sex Discrimination
in Restaurant Hiring: An Audit Study,» Quarterly Journal of Economics
111(3): 915-941.
Neurath. Otto 1971. «Foundations of the Social Sciences,» en Neurath, Camap,
y Morris (eds.), Foundations of the Unity of Science: Toward an International
Encyclopedia of Unified Science, pp. 1-52.
Neurath, Otto, Rudolph Camap, y Charles Morris (eds.) 1971. Foundations of
the Unity of Science: Toward an International Encyclopedia of Unified Scien
ce, vol. 11. University of Chicago Press.
Neustadt. Richard E. 1960. Presidential Power The Politics of Leadership. New
York: John Wiley.
Neyman, Jerzy [1923] 1990. «On the Application of Probability Theory to Agri
cultura! Experiments. Essay on Principies. Section 9,» trad. y ed. D. M.
Dabrowska y T. P. Speed, Statistical Science 5: 465-471.
Nickles, Thomas (ed.) 1980. Scientific Discovery, Logic and Rationality. Dord-
recht: D. Reidel.
Nie, Norman H., Sidney Verba, y John R. Petrocik 1976. The Changing Ameri
can Voter. Cambridge, MA: Harvard University Press.
Norris, Christopher 1997. Against Relativism: Philosophy of Science, Decons-
truction, and Critical Theory. Oxford: Basil Blackwell.
Nowotny, Helga 1971. «The Uses of Typological Procedures in Qualitative Ma-
crosociological Studies,» Quality and Quantity 6(1): 3-37.
Ogden. C. K. y I. A. Richards [1923] 1989. The Meaning of Meaning. San Die
go, CA: Harcourt.
Oliven Jack E. 1991. The Incomplete Guide to the Art of Discovery. New York:
Columbia University Press.
OIken, Benjamín A. 2006. «Corruption and the Costs of Redistribution: Micro
Evidence from Indonesia,» Journal of Public Economics 90: 853-870.
— 2007. «Monitoring Corruption: Evidence from a Field Experiment in Indo
nesia,» Journal of Political Economy 115(2): 200-249.
— 2009. «Corruption Perceptions vs. Corruption Reality,» Journal of Public
Economics 93(7-8): 950-964.
Oppenheim, Félix E. 1961. Dimensions of Freedom: An Analysis. New York: St.
Martin’s Press.
538
Bibliografía
— 1975. «The Language of Political Inquiry: Problems of Clarification,» en

Greenstein y Polsby (eds.), Handbook of Political Science, vol. 1: Political
Science Scope and Theory.
— 1981. Political Concepts: A Reconstruction. University of Chicago Press.
Ortner, Sherry B. 2005. New Jersey Dreaming: Capital, Culture, and the Class of
’58. Durham, NC: Duke University Press.
Orwell, George 1970. A Collection of Essays. New York: Harcourt.
Oxley, Douglas R., Kevin B. Smith, John R. Alford, Matthew V. Hibbing, Jenni-
fer L. Miller, Mario Scalor, Peter K. Hatemi, y John Hibbing 2008. «Political
Altitudes Vary with Physiological Traits,» Science 321(5896): 1667-1670.
Pagden, Anthony 1998. «The Génesis of Govemance and Enlightenment Con-
ceptions of the Cosmopolitan World Order,» International Social Science Jo
urnal 50(1): 7-15.
Pager, Devah 2007. «The Use of Field Experiments for Studies of Employment
Discrimination: Contributions, Critiques, and Directions for the Future,»
Annals of the American Academy of Political and Social Science 609(1):
104-133.
Palmer, David Scott (ed.) 1992. Shining Path of Perú. New York: St. Martin’s
Press.
Paluck, Elizabeth Levy 2009. «Methods and Ethics with Research Teams and
NGOs: Comparing Experiences across the Border of Rwanda and Demo-
cratic Republic of Congo,» en Chandra Lekha Sriram, John C. King, Julie
A. Mertus, Olga Martin-Ortega, y Johanna Hermán (eds.), Surviving Re
search: Wórking in Violent and Difficult Situations. London: Routledge, pp.
38-56.
— 2010. «The Promising Integration of Qualitative Methods and Field Experi
ments,» Annals of the American Academy of Political and Social Science
628(1): 59-71.
Parsons, Craig 2007. How to Map Arguments in Political Science. Oxford Uni
versity Press.
Pascal, Blaise 2004. The Provincial Letters. Whitefish, MT: Kessinger Publis-
hing.
Passmore, John [1961] 1967. «Arguments to Meaninglessness: Excluded Opposi-
tes and Paradigm Cases,» en Richard Rorty (ed.), The Linguistic Turn: Re
cent Essays in Philosophical Method. University of Chicago Press, pp.
183-192.
Patterson, Orlando 1982. Slavery and Social Death: A Comparativo Study. Cam
bridge, MA: Harvard University Press.
Paxton, Pamela 1999. «Is Social Capital Declining in the United States? A Múl
tiple Indicator Assessment,» American Journal of Sociology 105(1): 88-127.
Paxton, Pamela y Melanie Hughes 2007. Women, Politics, and Power. Thousand
Oaks, CA: Pine Forge Press.
Peabody, Robert L. et al. 1990. «Interviewing Political Elites,» PS: Political
Science and Politics 23:451-455.
Pearl, Judea 2000. Causality: Models, Reasoning, and Inference. Cambridge Uni
versity Press.
539
— 2005. «Bayesianism and Causality, or, Why I am only a Half-Bayesian,» ma

nuscrito inédito, Department of Computer Science, University of California,
Los Angeles.
— 2009a. «Causal Inference in Statistics: An OverView,» Statistics Surveys 3:
96-146.
— 2009b. Causality: Models, Reasoning, and Inference, 2nd edn. Cambridge
University Press.
— 2009c. «Myth, Confusión, and Science in Causal Analysis,» manuscrito inédi
to. University of California, Los Angeles.
Peeters. Carel. F. W. Gerty, J. L. M. Lensvelt-Mulders, and Karin Lashuizen
2010. «A Note on a Simple and Practical Randomized Response Framework
for Eliciting Sensitive Dichotomous and Quantitative Information,» Socioló
gica! Methods & Research 39: 283-296.
Pemstein. Daniel. Stephen Meserve, y James Melton 2010. «Democratic Com-
promise: A Latent Variable Analysis of Ten Measures of Regime Type,» Po
litical Analysis 18(4): 426-449.
Petersen, Roger 2002. Understanding Ethnic Violence: Fear, Hatred, and Resen-
tment in Twentieth-Century Eastern Europe. Cambridge University Press.
Petitti, D. E. 1993. Meta-Analysis, Decisión Analysis, Cost-Effectiveness, 2nd
edn. New York: Oxford University Press.
Pierre, Jon (ed.) 2000. Debating Governance. Oxford University Press.
Pierson, Paul 2004. Politics in Time: History, Institutions, and Social Analysis.
Piore, Michael J. 1979. «Qualitative Research Techniques in Economics,» Admi-
nistrative Science Quarterly 24(4): 560-569.
Pitkin, Hanna Fenichel 1967. Representation. Berkeley, CA: University of Cali
fornia Press.
— 1972. IVittgenstein and Justice: On the Significance of Ludwig Wittgenstein for
Social and Political Thought. Berkeley, CA: University of California Press.
Platt, John 1964. «Strong Inference,» Science 146(3642): 347-353.
Pocock, J. G. A. 1975. The Machiavellian Moment: Florentino Political Thought
and the Atlantic Republican Tradition. Princeton University Press.
Polanyi, Karl 1968. Primitivo, Archaic and Modern Economies. Garúen City, NY:
Anchor.
Polanyi, Michael [1946] 1964. Science, Faith and Society. New York: Oxford
University Press.
Poole, Keith T. y Howard Rosenthal 1985. «A Spatial Model for Legislative Roll
Cali Analysis,» American Journal of Political Science 29(2): 357-384.
— 1991. «Patterns in Congressional Voting,» American Journal of Political
Science 35(1): 228-278.
Popper, Karl [1934] 1968. The Logic of Scientific Discovery. New York: Harper
& Row.
— [1936] 1957. The Poverty of Historicism. New York: Harper & Row.
— 1965. Conjectures and Refutations. New York: Harper & Row.
— 1976. Unended Quest: An Intellectual Autobiography. LaSalle, IL: Open Court.
— 1994. The Myth of the Framework. New York: Routledge.
540
Bibliografía
Porter, Jack 2003. «Estimation in the Regression Discontinuity Model,» manus

crito inédito, Harvard University.
Porter, T. M. 1986. The Rise of Statistical Thinking 1820-1900. Princeton Uni
versity Press.
Posner, Daniel N. 2004. «The Political Salience of Cultural Difference: Why
Chewas and Tumbukas are Allies in Zambia and Adversarios in Malawi,»
American Political Science Review 98(4): 529-546.
Pressman, Jeffrey L. y Aaron Wildavsky 1973. Iniplementation. Berkeley, CA.
University of California Press.
Przeworski, Adam y Henry Teune 1970. The Logic of Comparative Social In
quiry. New York: John Wiley.
Przeworski, Adam, Michael Alvarez, José Antonio Cheibub, y Fernán o i-
mongi 2000. Democracy and Development: Political Institutions and Material
Well-Being in the World, 1950-1990. Cambridge University Press.
Putnam, Hilary y Paul Oppenheim 1958. «Unity of Science as a Workmg Hypo-
thesis,» en Michael Scriven, Herbert Feigle, y Grover Maxwell (eds.), on-
cepts, Theories, and the Mind-Body Problem. Minneapolis, MN. mversity
of Minneapolis Press, pp. 3-36.
Putnam, Robert D. 1993. Making Democracy Work: Civic Traditionsin Modern
Italy. Princeton University Press. .
— 2001. Bowling Alone: The Collapse and Revival of American Community. New
York: Touchstone. .
Quadagno, Jill y Stan J. Knapp 1992. «Have Historical Sociologists Forsaken
Theory?: Thoughts on the History/Theory Relationship,» Sociological Me-
• thods and Research 20: 481-507.
Quine, Willard van Orman 1953. «Two Dogmas of Empiricism,» en rom a
Logical Point of View. Cambridge, MA: Harvard University Press, pp.
20-46. , a
— 1966. «Simple Theories of a Complex World,» The IPayJ of Paradox ana
Other Essays. New York: Random House.
Rabinow, Paul y William M. Sullivan (eds.) 1979. Interpretive Social Science: A
Reader. Berkeley, CA: University of California Press.
Radcliffe-Brown, A. R. [ 1948] 1957. A Natural Science of Society. Glencoe, 1L:
Free Press.
— 1958. Method in Social Anthropology. University of Chicago Press.
Ragin, Charles C. 1987. The Comparative Method: Moving beyond Qualitative
and Quantitative Strategies. Berkeley, CA: University of California.
— 1992. «“Casing”and the Process of Social Inquiry,» en Charles C. Ragin y
Howard S. Becker (eds.), What is a Case? Exploring the Foundations of Social
Inquiry. Cambridge University Press, pp. 217-226.
— 2000. Fuzzy-Set Social Science. University of Chicago Press.
— 2008. Redesigning Social Inquiry: Fuzzy Sets and Beyond. University of Chi
cago Press. -
— 2009. «Qualitative Comparative Analysis Using Fuzzy Sets (fsQCA),» en Ri-
houx y Ragin (eds.), Configurational Comparative Methods: Qualitative Com
parative Analysis (QCA) and Related Techniques, pp. 87-122.
541
Ragin, Charles C. y Benoit Rihoux 2004. «Qualitative Comparativo Analysis

(QCA): State of the Art and Prospects,» Qualitative Methods 2(2): 3-13.
Ragin. Charles C. y llene Strand 2008. «Using Qualitative Comparativo Analy
sis to Study Causal Order. Comment on Caren and Panofsky (2005),» Socio-
logical Methods and Research 36(4): 431-441.
Redman, Deborah A. 1991. Economics and the Philosophy of Science. New
York: Oxford University Press.
Reedy. George E. 1970. The Twilight of the Presidency. New York: Mentor/New
American Library.
Reichenbach, Hans 1938. E.xperience and Prediction: An Analysis of the Founda-
tions and the Structure of Knowledge. University of Chicago Press.
— 1956. The Direction of Time. Berkeley, CA: University of California Press.
Reingold, Beth 2008. «Women as Officeholders: Linking Descriptive and Subs
tantive Representation.» en Christina Wolbrecht, Karen Beckwith, y Lisa
Baldez (eds.), Political Women and American Democracy. Cambridge Univer
sity Press, pp. 128-147.
Reinikka, Ritva y Jakob Svensson 2006. «Using Micro-Surveys to Measure and
Explain Corruption,» World Development 34(2): 359-370.
Reiss, Julián 2007. Error in Economics: Towards a More Evidence-based Me-
thodology. London: Routledge.
— 2009. «Causation in the Social Sciences: Evidence, Inference, and Purpose,»
Philosophy of the Social Sciences 39(1): 20-40.
Rescher, Nicholas 1977. Methodological Pragmatism. New York University
Press.
Reynolds, Andrew y Ben Reilly 2005. New International Idea Handbook of Elec
toral System Design. Stockholm: International Institute for Democracy.
Reynolds, K. D. y S. G. West 1987. «A Multiplist Strategy for Strengthening
Nonequivalent Control Group Designs,» Evaluation Review 11: 691-714.
Rhodes, William 2010. «Heterogeneous Treatment Effects: What Does a Regres-
sion Estímate?,» Evaluation Review 34(4): 334-361.
Rihoux, Benoit y Gisele De Meur 2009. «Crisp-Set Qualitative Comparative
Analysis (csQCA),» en Rihoux y Ragin (eds.), Configurational Comparative
Methods: Qualitative Comparative Analysis (QCA) and Related Techniques,
pp. 33-68.
Rihoux, Benoit y Bojana Lobe 2009. «The Case for Qualitative Comparative
Analysis (QCA): Adding Leverage for Thick Cross-Case Comparison,» en
David Byme y Charles C. Ragin (eds.), Sage Handbook of Case-Based Me
thods. Thousand Oaks, CA: Sage, pp. 222-242.
Rihoux, Benoit y Charles C. Ragin (eds.) 2009. Configurational Comparative
Methods: Qualitative Comparative Analysis (QCA) and Related Techniques.
Thousand Oaks, CA: Sage.
Riker, William H. 1982. «The Two-Party System and Duverger’s Law: An Essay
on the History of Political Science,» American Political Science Review 76(4):
753-756.
— 1986. The Art of Political Manipulation. New Haven, CT: Yale University
Press.
542
Bibliografía
Rindskopf, David 2000. «Plausible Rival Hypotheses in Measurement, Design,

and Scientific Theory,» en Leonard Bickman (ed.), Research Design: Donald
Campbell's Legacy, vol. 11. Thousand Oaks, CA: Sage, pp. 1-12.
Roberts, Clayton 1996. The Logic of Histórica! Explanation. University Park,
PA: Pennsylvania State University Press.
Robins, James M. y Larry Wasserman 1999. «On the Impossibility of Inferring
Causation from Association without Background Knowledge,» en Clark
Glymour y G. Cooper (eds.), Computation, Causation, and Discovery. Menlo
Park, CA, Cambridge, MA: AAAI Press/MIT Press, pp. 305-321.
Robinson, Gregory, John E. McNulty, y Jonathan S. Krasno 2009. «Observing
the Counterfactual? The Search for Political Experiments in Nature,» Políti
ca! Analysis 17 (4): 341-357.
Robinson, Richard 1954. Definition. Oxford: Clarendon Press.
Rodrik, Dani 2005. «Why We Learn Nothing from Regressing Economic
Growth on Policies,» manuscrito inédito, Kennedy School of Government,
Harvard University.
Rogin, Michael Paul 1987. Ronald Reagan: The Movie, and Other Episodes in
Political Demonology. Berkeley, CA: University of California Press.
Rokkan, Stein con Angus Campbell, Per Torsvik, y Henry Valen 1970. Citizens,
Elections, Parties: Approaches to the Comparativo Study of the Processes of
Development. New York: David McKay Co.
Root-Bemstein, Robert 1989. Discovering: Inventing and Solving Problems at the
Frontiers of Scientific Knowledge. Cambridge, MA: Harvard University Press.
Root-Bemstein, Robert S. y Michele M. Root-Bemstein 1999. Sparksof Genius:
The Thirteen Thinking Tools of the World's Most Creative People. Boston,
MA: Houghton Mifflin.
Rorty, Ameba (ed.) 1966. Pragmatic Philosophy: An Anthology. Garden City,
NY: Doubleday Anchor.
Rosenau, Pauline Marie 1992. Post-Modernism and the Social Sciences: Insights,
Inroads, and Intrusions. Princeton University Press.
Rosenbaum, Paul R. 1984. «From Association to Causation in Observational
Studies: The Role of Strongly Ignorable Treatment Assignment,» Journal of
the American Statistical Association 79(385): 41-48.
— 1987. «The Role of a Second Control Group in an Observational Study: Re-
joinder,» Statistical Science 2(3): 313-316.
— 1999. «Choice as an Altemative to Control in Observational Studies,» Statis
tical Science 14 (3): 259-278.
— 2002. Observational Studies. New York: Springer.
— 2005. «Reasons for Effects,» Chance 18: 5-10.
— 2007. «Interference between Units in Randomized Experiments,» Journal of
the American Statistical Association 102(477): 191-200.
— 2010. Design of Observational Studies. New York: Springer.
Rosenbaum, Paul y Donald Rubin 1983. «The Central Role of the Propensity
Score in Observational Studies for Causal Effects,» Biometrika 70(1): 41-55.
Rosenzweig, Mark R. y Kenneth I. Wolpin 2000. «Natural “Quasi-experiments”
in Economics,» Journal of Economic Literature 38: 827-874.
543
Ross. H. L„ Donald T. Campbell, y G. V. Glass 1970. «Determining the Social

EtTects of a Legal Reform: The British “Breathalyser” Crackdown of 1967,»
American Behavioral Scientist 13: 493-509.
Ross. Marc Howard 1997. «Culture and Identity in Comparative Political
Analysis.» en Lichbach y Zuckerman (eds.), Comparative Politics: Rationali-
ty. Culture, y Structure, pp. 42-80.
Ross. Michael L. 2001. «Does Oil Hinder Democracy?,» World Politics 53:
325-361.
Rossi. Peter H. y Howard E. Freeman 1993. Evaluation: A Systematic Approach,
5th edn. Newbury Park, CA: Sage.
Rostow. Walt W. 1960. The Stages of Economic Growth: A Non-Communist Ma
nifestó. Cambridge University Press.
Roth. David 1987. Meanings and Methods: A Case for Methodological Pluralism
in the Social Sciences. Ithaca. NY: Comell University Press.
Roth. Paul A. 1994. «Narrative Explanations: The Case of History,» en Martin
y Mclntyre (eds.), Readings in the Philosophy of Social Science, pp. 701-712.
Rubín. Donald B. 1975. «Bayesian Inference for Causality: The Importance of
Randomization,» Proceedings of the Social Statistics Section of the American
Statistical Association, Alexandria, VA, pp. 233-239.
— 1977. «Assignment of Treatment Group on the Basis of a Covariate,» Jour
nal of Educational Statistics 2: 1-26.
— 1991. «Practical Implications of Modes of Statistical Inference for Causal
Effects and the Critical Role of the Assignment Mechanism,» Biometrics
47(4): 1213-1234.
— 2005. «Causal Inference Using Potential Outcomes: Design, Modeling,
Decisions,» Journal of the American Statistical Association 100(469):
322-331.
— 2008. «For Objective Causal Inference, Design Trumps Analysis,» Aunáis of
Applied Statistics 2(3): 808-840.
Rubín, Irene y Herbert J. Rubín 1995. Qualitative Interviewing: The Art of Hea-
ring Data. Newbury Park, CA: Sage.
Rueschemeyer, Dietrich y John D. Stephens 1997. «Comparing Historical Se-
quences - A Powerful Tool for Causal Analysis,» Comparative Social Re
search 16: 55-72.
Rueschemeyer, Dietrich, Evelyne Huber Stephens, y John D. Stephens 1992. Ca-
pitalist Development and Democracy. University of Chicago Press.
Rule, James B. 1997. Theory and Progress in Social Science. Cambridge Univer
sity Press.
Russo, Federica 2009. Causality and Causal Modelling in the Social Sciences:
Measuring Variations. New York: Springer.
Ryle, Gilbert 1949. The Concept of Mind. New York: Barnes & Noble.
Sala-I-Martin, Xavier X. 1997. «I Just Ran Two Million Regressions,» American
Economic Review 87(2): 178-183.
Sales, Bruce Dennis y Susan Folkman (eds.) 2000. Ethics in Research with Hu
man Participants. Washington, DC: American Psychological Association Pu-
blishing.
544
t
Bibliografía
Salmón, Wesley C. 1984. Scientific Explanation and the Causal Structure of the
t World. Princeton University Press.
— 1989. «Four Decades of Scientific Explanation,» en Kitcher y Salmón (eds.),
Scientific Explanation: Minnesota Studies in the Philosophy of Science, vol.
XIII, PP. 3-219.
— 1990. «Causal Propensities: Statistical Causality vs. Aleatory Causality,» To
po/9: 95-100.
Sampford, Charles, Arthur Shacklock, Carmel Connors, y Fredrik Galtung
(eds.) 2006. Measuring Corruption. Aldershot: Ashgate.
Samuels, David J. y Richard Snyder 2001. «The Valué of a Vote: Malapportion-
ment in Comparative Perspective,» British Journal of Political Science 31:
651-671.
Samuelson, Paul A. 1959. «What Economists Know,» en Daniel Lerner (ed.),
The Human Meaning of the Social Sciences. New York: Meridian, pp.
183-213.
Sánchez Jankowski, Martin 1991. Islands in the Street: Gangs and American Ur-
ban Society. Berkeley, CA: University of California Press.
Sartori, Giovanni 1962. Democratic Theory. New York: Praeger.
— 1970. «Concept Misformation in Comparative Politics,» American Political
Science Review 64 (4): 1033-1046.
— 1975. «The Tower of Babble,» en Giovanni Sartori, Fred W. Riggs, y Henry
Teune (eds.), Tower of Babel: On the Definition and Analysis of Concepts in the
Social Sciences. International Studies, Occasional Paper No. 6, pp. 7-38.
— 1976. Parties and Party Systems. Cambridge University Press.
— 1984. «Guidelines for Concept Analysis,» en Social Science Concepts: A Sys-
teniatic Analysis. Beverly Hills, CA: Sage, pp. 15-48.
Saward, Michael 2003. Democracy. Cambridge: Polity Press.
Schaeffer, Nora Cate y Stanley Presser 2003. «The Science of Asking Ques-
tions,» Animal Review of Sociology 29: 65-88.
Schaffer, Frederic C. 1998. Democracy in Translation: Understanding Politics in
an Unfamiliar Culture. Ithaca, NY: Comell University Press.
Schaffer, Simón 1997. «What is Science?,» en John Krige y Dominique Pestre
(eds.), Science in the Twentieth Century. Amsterdam: Overseas Publishers As-
sociation, pp. 27-42.
Schattschneider, E. E. 1960. The Semi-Sovereign People. New York: Holt, Rine-
hart & Winston.
Schatz, Edward (ed.) 2009. Political Ethnography: What Inmersión Contributes
to the Study of Power. University of Chicago Press.
Schedler, Andreas (próx. publicación). «The Measurer’s Dilemma: Coordination
Failures in CrossNational Political Data Collection,» Comparative Political
Studies 45(2).
Scheper-Hughes, Nancy 1992. Death without Weeping: The Violence of Everyday
Life in Brazil. Berkeley, CA: University of California Press.
Schiemann, Gregor 2003. «Criticizing a Difference of Contexts - On
Reichenbach’s Distinction between “Context of Discovery”and “Context of
Justification,”» en Friedrich Stadler (ed.), The Vienna Circle and Logical Em-
545
piricism: Re-Evaluation and Future Perspectivas. New York: Kluwer, pp.

237-252.
Schlesselman. James J. 1982. Case-Control Studies: Design, Conduct, Analysis.
New York: Oxford University Press.
Schmitter. Philippe C. 1974. «Still the Century of Corporatism?,» Review of Po
lines 36:85-131.
Schneider. Carsten Q. 2009. The Consolidaron of Denwcracy: Comparing Euro-
pe and Latín America. Abingdon: Routledge.
— 2011. «Issues in Measuring Political Regimes,» DISC Working Paper, en:
disc.ceu. hu/working-papers.
Schneider. Carsten Q. y Claudias Wagemann 2007. Qualitative Comparativa
Analysis (QCA) and Fuzzy Sets. Ein Lehrbuch fur Anwender and alia, die es
werden wollen. Opladen and Farmington Hills: Verlag Barbara Budrich.
— 2010. «Standards of Good Practice in Qualitative Comparativo Analysis
(QCA) and FuzzySets.» Comparativa Sociology 9: 397-418.
Schwartz, Joel 1984. «Participation and Multisubjective Understanding: An In-
terpretivist Approach to the Study of Political Participation,» Journal of Po-
litics (November): 1117-1141.
Scott. James C. 1976. The Moral Economy of the Peasant: Rebellion and Subsis-
tanca in Southeast Asia. New Haven, CT: Yale University Press.
— 1985. Weapons of the Weak: Everyday Forms of Peasant Resistance. New Ha
ven. CT: Yale University Press.
— 1998. Seeing Like a State: How Certain Schemes to Improve the Human Con-
dition Have Failed. New Haven, CT: Yale University Press.
Scriven, Michael 1962. «Explanations, Predictions, and Laws,» en Herbert Feigl
y Grover Maxwell (eds.), Minnesota Studies in the Philosophy of Science, vol.
111: Scientific Explanation, Space, and Time. Minneapolis, MN: University
of Minnesota, pp. 170-230.
— 2008. «A Summative Evaluation of RCT Methodology: An Alternative
Approach to Causal Research,» Journal of Multidisciplinary Evaluation 5:
11-24.
Searle, John R. 1969. Speech Acts: An Essay in the Philosophy of Language.
Cambridge University Press.
Seawright, Jason 2002. «Testing for Necessary and/or Sufficient Causation:
Which Cases are Relevant?,» Political Analysis 10: 178-193.
— 2005. «Qualitative Comparativo Analysis vis-a-vis Regression,» Studies in
Comparativo International Development 40(1): 3-26.
— 2010. «Regression-Based Inference: A Case Study in Failed Causal As-
sessment,» en Henry E. Brady y David Collier (eds.), Rethinking Social In-
quiry: Diverse Tools, Shared Standards, 2nd edn. Lanham, MD: Rowman &
Littlefíeld, pp. 247-271.
Seawright, Jason y David Collier 2004. «Glossary,» en Brady y Collier (eds.),
Rethinking Social Inquiry: Diverse Tools, Shared Standards, pp. 273-313.
Sekhon, Jasjeet S. 2009. «Opiates for the Matches: Matching Methods for Cau
sal Inference,» Annual Review of Political Science 12: 487-508.
546
Bibliografía
Seligson, Mitchell 2006. «The Measurement and Impact of Corruption Victimi-

zation: Survey Evidence from Latin America,» World Development 34(2):
381-404.
Sen, Amartya 1980. «Description as Choice,» Oxford Economic Papers 32:353-369.
— 1990. «More than 100 Million Women Are Missing,» New York Review of
Books 37(20), December 20.
Sewell, William H., Jr. 1992. «Introduction: Narrativos and Social Identities,»
Social Science History 16:479-488.
— 1996. «Three Temporalities: Toward an Eventful Sociology,» en Terrence J.
McDonald (ed.), The Historie Turn in the Human Sciences. Ann Arbor, MI:
University of Michigan Press, pp. 245-280.
Shadish, William R. y Thomas D. Cook 1999. «Design Rules: More Steps
toward a Complete Theory of Quasi-Experimentation,» Statistical Science
14(3): 294-300.
Shadish, William R., Thomas D. Cook, y Donald T. Campbell 2002. Experi
mental and Quasi-experimental Designs for Generalized Causal Inference. Bos
ton, MA: Houghton Mifflin.
Shalhope, Robert E. 1972. «Toward a Republican Synthesis: The Emergence of
an Understanding of Republicanism in American Historiography,» William
and Mary Quarterly 29: 49-80.
Shapiro, lan 2005. The Flight from Reality in the Human Sciences. Princeton
University Press.
Sheffer, Martin 1994. Political Parties and the State: The American Historical
Experience. Princeton University Press.
Shweder, Richard A. 1996. «Quanta and Qualia: What is the “Object”of Ethno-
graphic Method?,» en Richard Jessor, Anne Colby y Richard A. Shweder
(eds.), Ethnography and Human Development: Context and Meaning in Social
Inquiry. University of Chicago Press, pp. 175-182.
Shweder, Richard A. y Robert A. LeVine (eds.) 1984. Culture Theory: Essays on
Mind, Self, and Emotion. Cambridge University Press.
Sil, Rudra y Eileen Doherty (eds.) 2000. Beyond Boundaries? Disciplines, Para-
digms, and Theoretical Integration in International Studies. Albany, NY: State
University of New York Press.
Simón, Adam F. y Tracy Sulkin 2002. «Discussion’s Impact on Political Alloca-
tions: An Experimental Approach,» Political Analysis 10(4): 403-412.
Simón, Herbert A. 1982. «Are Social Problems Problems that Social Science
Can Solve?,» en Kruskal (ed.), The Social Sciences: Their Nature and Uses.
— 2001. «Science seeks Parsimony, not Simplicity: Searching for Pattern in Phe-
nomena,» en Arnold Mellner, Hugo A. Keuzenkamp, y Michael McAleer
(eds.), Simplicity, Inference, and Modeling: Keeping it Sophisticatedly Simple.
Cambridge University Press, pp. 32-72.
Simowitz, Roslyn y Barry L. Price 1990. «The Expected Utility Theory of Con-
flict: Measuring Theoretical Progress,» American Political Science Review
84(2): 439-460.
Sims, Christopher A. 1988. «Uncertainty across Models,» American Economic
Review 78(2): 163-167.
547
Singer. J. David 1961. «The Level-of-Analysis Problem in International Rela-

tions.» World Politics 14(1): 77-92.
Singer. J. David y Paul Diehl (eds.) 1990. Measuring the Correlates of War.
Ann Arbor. MI: University of Michigan Press.
Skocpol. Theda 1979. States and Social Revolutions: A Comparative Analysis
of France, Russia, and China. Cambridge University Press.
Skyrms. Brian 1980. Causa! Necessity: A Pragmatic Investigation of the Neces-
sity of Laws. New Haven. CT: Yale University Press.
Sloman, Steven 2005. Causal Models: How People Think about the World and
its Alternatives. Oxford University Press.
Smelser, Neil J. y Richard Swedberg (eds.) 1995. The Handbook of Economic
Sociology. Princeton University Press.
Smith. Daniel Jordán 2007. A Culture of Corruption: Everyday Deception and
Popular Discontent in Nigeria. Princeton University Press.
Smith. Kevin B. 2002. «Typologies, Taxonomies, and the Benefits of Policy
Classification.» Policy Studies Journal 30(3): 379-395.
— 2005. «Data Don't Matter? Academic Research and School Choice,» Pers-
pectives on Politics 3 (2): 285-299.
Smith. Rogers M. 1993. «Beyond Tocqueville, Myrdal, and Hartz: The Múlti
ple Traditions in America,» American Political Science Review 87(3):
549-566.
— 2003. «Reconnecting Political Theory to Empirical Inquiry, or A Return to
the Cave?,» en Edward D. Mansfield y Richard Sisson (eds.), The Evolution
of Political Knowledge: Theory and Inquiry in American Politics. Columbus,
OH: Ohio State University Press, pp. 60-88.
Smithson. Michael J. 1987. Fuzzy Set Analysis for Behavioral and Social Scien
ces. New York: Springer.
Smithson, Michael J. y Jay Verkuden 2006. Fuzzy Set Theory: Applications in
the Social Sciences. Thousand Oaks, CA: Sage.
Sniderman, Paul M. y Edward G. Carmines 1997. Reaching Beyond Race.
Cambridge, MA: Harvard University Press.
Sniderman, Paul M. y Douglas B. Grob 1996. «Innovations in Experimental
Design in Attitude Surveys,» Annual Review of Sociology 22: 377-399.
Sniderman, Paul M., Thomas Piazza, Philip E. Tetlock, y Anne Kendrick
1991. «The New Racism,» American Journal of Political Science 35(2):
423-447.
Snow, C. P. [1959] 1993. The Two Cultures. Cambridge University Press.
Snyder, Richard 2007. «The Human Dimensión of Comparative Research,» en
Gerardo L. Munck y Richard Snyder (eds.), Passion, Craft and Method in
Comparative Politics. Baltimore, MD: Johns Hopkins University Press, pp.
1-32.
Sober, Elliot 1975. Simplicity. Oxford University Press.
— 1988. Reconstructing the Past: Parsimony, Evolution and Inference. Cam
bridge, MA: MIT Press.
— 2001. «Venetian Sea Levels, British Bread Prices, and the Principie of the
Common Cause,» British Journalfor the Philosophy of Science 52: 331-346.
548
Bibliografía
Sokoloff, Kenneth L. y Stanley L. Engerman 2000. «Institutions, Factor En-

dowments, and Paths of Development in the New World,» Journal of Econo
mía Perspectivas 14(3): 217-232.
Somers, Margaret R. 1992. «Narrativity, Narrative Identity, and Social Action: Re-
thinking English Working-Class Formation,» Social Science History 16:591-630.
Sparrow, Malcolm K. 2000. License to Steal. Boulder, CO: Westview Press.
Spiegler, Peter y William Milberg 2009. «The Taming of Institutions in Econo-
mics: The Rise and Methodology of the New, New Institutionalism,» Journal
of Institutional Economics 5 (3): 289-313.
Spohn, Wolfgang 1983. «Deterministic and Probabilistic Reasons and Causes,»
Erkenntnis 19: 371-396.
Stanley, T. D. 1991. «Regression-Discontinuity Design: By any Other Ñame
Might be Less Problematic,» Evaluation Review 15(5): 605-624.
Stasavage, David 2003. «Transparency, Democratic Accountability, and the Eco-
nomic Consequences of Monetary Institutions,» American Journal of Politi
cal Science 47(3): 389-402.
Steel, Daniel 2008. Across the Boundaries: Extrapolation in Biology and Social
Science. Oxford University Press.
Stevens, S. S. 1946. «On the Theory of Scales of Measurement,» Science 103:
677-680.
Stevens, S. S. (ed.) 1951. «Mathematics, Measurement and Psychophysics,» en
Handbook of Experimental Psychology. New York: John Wiley, pp. 1-49.
Stinchcombe, Arthur L. 1968. Constructing Social Theories. New York: Har-
court Brace.
— 1978. Theoretical Methods in Social History. New York: Academic Press.
Stoker, Laura 2003. «Is it Possible to do Quantitative Survey Research in an In-
terpretive Way?,» Qualitative Methods 1(2): 13-16.
Stone, Lawrence 1979. «The Revival of Narrative: Reflections on a New Oíd
History,» Past and Present 85: 3-24.
Stratmann, Thomas y Martin Baur 2002. «Plurality Rule, Proportional Repre-
sentation, and the Germán Bundestag: How Incentives to Pork-Barrel Diífer
across Electoral Systems,» American Journal of Political Science 46(3):
506-514.
Strauss, Leo [1953] 1963. «Natural Right and the Distinction between Facts and
Valúes,» en Maurice Natanson (ed.), Philosophy of the Social Sciences: A
Reader. New York: Random House.
Stryker, Robín 1996. «Beyond History versus Theory: Strategic Narrative and
Sociological Explanation,» Sociological Methods and Research 24(3):
304-352.
Summers, Lawrence H. 1991. «The Scientific Illusion in Empirical Macroecono-
mics,» The Scandinavian Journal of Economics 93(2): 129-148.
Sundquist, James L. 1983. Dynamics of the Party System: Alignnient and Realig-
nment of Political Parties in the United States. Washington, DC: Brookings
Institution Press.
Suppes, Patrick C. 1970. A Probabilistic Theory of Causality. Amsterdam: Nor-
th-Holland.
549
Taagepera. Rein 2008. Making Social Sciences More Scientific: The Needfor Pre-
dictive Models. Oxford University Press.
Tang. Shipeng 2010. «Foundational Paradigms of Social Sciences,» Philosophy of
the Social Sciences 20( 10): 1-39.
Tarrow, Sidney 1995. «Bridging the Quantitative-Qualitative Divide in Political
Science.» American Political Science Review 89(2): 471-474.
Tashakkori. Abbas y Charles Teddie 1998. Mixed Methodology: Combining Quali-
tative and Quantitative Approaches. Thousand Oaks, CA: Sage.
Taylor. Charles [1967] 1994. «Neutrality in Political Science,» en Michael Martin y
Lee C. Mclntyre (eds.). Readings in the Philosophy of Social Science Cambridge,
MA: MIT Press, reimpreso en Peter Laslett y W. G. Runciman (eds.), Philosophy,
Politics and Society, 3rd series. New York: Bames & Noble, pp. 25-57.
— 1985. «Interpretaron and the Sciences of Man,» en Philosophy and the Human
Sciences: Philosophical Papers, vol. 11. Cambridge University Press, pp. 15-57.
Taylor. John R. 1995. Linguistic Categorization: Prototypes in Linguistic Theory,
2nd edn. Oxford: Clarendon Press.
Tetlock. Philip E. y Aaron Belkin (eds.) 1996. Counterfactual Thought Experi-
ments in World Politics. Princeton University Press.
Thistlewaite. Donald L. y Donald Campbell 1960. «Regression-Discontinuity
Analysis: An Altemative to the Ex-Post Facto Experiment,» Journal of Educa-
tional Psychology 51: 309-317.
Thompson, Edward P. 1978. The Poverty of Theory and Other Essays. New York:
Monthly Review Press.
Thompson, Michael, Richard Ellis, y Aaron Wildavsky 1990. Cultural Theory. San
Francisco, CA: Westview Press.
Tilly, Charles 2001. «Mechanisms in Political Processes,» Annual Review of Politi
cal Science 4: 21 -41.
Tocqueville, Alexis de 1945. Democracy in America, 2 vols. New York: Alfred A.
Knopf.
Tourangeau, Roger y Tom W. Smith 1996. «Asking Sensitive Questions: The Im-
pact of Data Collection Mode, Question Format, and Question Context,» Pu
blic Opinión Quarterly 60 (2): 275-304.
Treier, Shawn y Simón Jackman 2008. «Democracy as a Latent Variable,» Ameri
can Journal of Political Science 52(1): 201-217.
Trochim, William W. K. 1984. Regression Design for Program Evaluation: The Re-
gressiondiscontinuity Design. Beverley Hills, CA: Sage.
— 1985. «Pattem Matching, Validity, and Conceptualization in Program Evalua
tion,» Evaluation Review 9(5): 575-604.
— 1989. «Outcome Pattem Matching and Program Theory,» Evaluation and Pro
gram Planning 12: 355-366.
Tumer, Stephen P. 1997. «“Net Effects”: A Short History,» en McKim y Tumer
(eds.), Causality in Crisis?: Statistical Methods and the Search for Causal
Knowledge in the Social Science, pp. 23-45.
Tversky, Amos y Itamar Gati 1978. «Studies of Similarity,» en Eleanor Lloyd y
B. B. Lloyd (eds.) Cognition and Categorization. Hillsdale, NJ: Lawrence Erl-
baum, pp. 79-98.
550
Bibliografía
UN Habitat 2004. State of the World's Cities 2004-2005: Globalization and Ur-
ban Culture. Nairobi: United Nations, Earthscan Publications.
USAID 1998. Handbook of Democracy and Governance Program Indicators. Te-
chnical Publication Series PN-ACC-390. Washington, DC: USAID Center
for Democracy and Governance.
Useem, Bert 1997. «Choosing a Dissertation Topic,» PS: Political Science and
Politics 30: 213-216.
Van der Klaauw, Wilbert 2002. «Estimating the Effect of Financial Aid Offers
on College Enrollment: A Regression-Discontinuity Approach,» Internatio
nal Economic Review 43 (4): 1249-1287.
Van Evera, Stephen 1997. Guide to Methods for Students of Political Science.
Ithaca, NY: Comell University Press.
Van Fraassen, Bas C. 1980. The Scientific Image. Oxford: Clarendon Press.
Verba, Sidney, Kay Lehman Schlozman, y Henry Brady 1995. Voice and Equali-
ty: Civic Voluntarism in American Life. Cambridge, MA: Harvard University
Press.
Vidich, Arthur J. 1955. «Participant Observation and the Collection and Inter-
pretation of Data,» American Journal of Sociology 60(4): 354-360.
Vogt, W. Paul 2005. Dictionary of Statistics and Methodology, 3rd edn.
Thousand Oaks, CA: Sage.
Von Wright, Georg Henrik 1971. Explanation and Understanding. Ithaca, NY:
Comell University Press.
Wachter, K. W. 1988. «Disturbed about Meta-Analysis?,» Science 241:
1407-1408.
Wade, Robert 1982. «The System of Administrative and Political Corruption:
Canal Irrigation in South India,» Journal of Development Studies 18: 3.
Waldner, David 2002. «Anti Anti-Determinism: Or What Happens When
Schrodinger’s Cat and Lorenz’s Butterfly Meet Laplace’s Demon in the Stu-
dy of Political and Economic Development,» presentado en Annual Meeting
of the American Political Science Association, Boston, MA, August-Septem-
ber.
Walker, Thomas C. 2010. «The Perils of Paradigm Mentalities: Revisiting Kuhn,
Lakatos, and Popper,» Perspectives on Politics 8(2): 433-452.
Wallerstein, Immanuel 1974. The Modern World-System. Capitalist Agricidture
and the Origins of the European World Economy in the Sixteenth Century.
New York: Academic Press.
Wallerstein, Immanuel, et al. 1996. Open the Social Sciences: Repon of the Gul-
benkian Commission on the Restructuring of the Social Sciences. Stanford
University Press.
Wantchekon, Leonard 2003. «Clientelism and Voting Behavior: Evidence from a
Field Experiment in Benin,» World Politics 55(3): 399-422.
Warner, Stanley L. 1965. «Randomized Response: A Survey Technique for Eli-
minating Evasive Answer Bias,» Journal of the American Statistical Associa
tion 60: 63-9.
Wasserman, Stanley y Katherine Faust 1994. Social NetWork Analysis: Methods
and Applications. Cambridge University Press.
551
Watkins. J. W. N. 1994. «Histórica! Explanation in the Social Sciences,» en Mar

tin y Mclntvre (eds.), Readings in the Philosophy of Social Science, pp.
441-450.
Watson. James D. 1969. The Double Helix: A Personal Account of the Discovery
oj the Structure of DNA. New York: Mentor.
Weale. Albert 2007. Democracy. 2nd edn. Basingstoke: Palgrave Macmillan.
Weber. Max [1904-5] 1958. The Protestant Ethic and the Spirit of Capitalism.
New York: Charles Scribner's.
— [1905] 1949. The Methodology of the Social Sciences. New York: Free Press.
— [1918] 1958. «Politics as a Vbcation,» en Hans Gerth y C. Wright Mills (eds.
y trads.). From Max Heder Essays in Sociology. New York: Oxford Universi
ty Press, pp. 77-156.
Weisberg, Herbert F. 2005. The Total Survey Error Approach: A Guide to the
New Science of Survey Research. University of Chicago Press.
Western. Bruce 1995. «Concepts and Suggestions for Robust Regression Analy-
sis.» American Journal of Political Science 39(3): 786-817.
— 1999. «Bayesian Analysis for Sociologists: An Introduction,» Sociológica!
Methods and Research 28(1): 7-34.
Weyland. Kurt Gerhard 1995. «Latín America’s Four Political Models,» Journal
of Democracy 6(4): 125-139.
Whitbeck. C. 1977. «Causation in Medicine: The Disease Entity Model,» Philo
sophy of Science 44:619-637.
White, Howard 2002. «Combining Quantitative and Qualitative Approaches in
Poverty Analysis,» World Development 30(3): 511-522.
Whittaker. John C., Douglas Caulkins, y Kathryn A. Kamp 1998. «Evaluating
Consistency in Typology and Classification,» Journal of Archaeological Me-
thod and Theory 5(2): 129-164.
Wildavsky, Aaron B. 1995. But Is it True?A Citizen’s Guide to Environmental
Health and Safety Issues. Cambridge, MA: Harvard University Press.
Wilensky. Harold L. 1997. «Social Science and the Public Agenda: Reflections
of Knowiedge to Policy in the United States and Abroad,» Journal of Health
Politics, Policy and Law 22(5): 1241-1265.
Wilson, Edward O. 1998. Consilience: The Unity of Knowiedge. New York: Al-
fred A. Knopf.
Winch. Peter 1958. The Idea of a Social Science, and its Relation to Philosophy.
London: Routledge.
Winks, Robín W. (ed.) 1969. The Historian as Detective: Essays on Evidence.
New York: Harper & Row.
Wiseman, H. V. 1966. Political Systems: Some Sociological Approaches. New
York: Praeger.
Wittgenstein, Ludwig 1953. Philosophical Investigations. New York: Macmillan.
Wolin, Sheldon S. 1969. «Political Theory as a Vocation,» American Political
Science Revíew 63 (4): 1062-1082.
Wong, Wilson 2002. «Did How We Learn Affect What We Learn? Methodologi-
cal Bias. Multimethod Research and the Case of Economic Development,»
Social Science Journal 39(2): 247-264.
552
Bibliografía
Wood, Elisabeth 2006. «The Ethical Challenges of Field Research in Conflict

Mones,» Qualitative Sociology 29(3): 373-386.
Wood, Gordon S. 1969. The Creation of the American Repuhlic, 1776-1787.
Chapel Hill, NC: University of North Carolina Press.
Woodward, James 2005. Making Things Happen: A Theory of Causal Explana-
tion. Oxford University Press.
Wooldridge, Jeffrey 2007. «What’s New in Econometrics? Lecture 10: Differen-
ce-in-Differences Estimation,» NBER Summer Institute, en: www.nber.org/
WNE/Slides7-31-07/ slides_10_diffindiffs.pdf, consultado el 9 de abril de
2011.
Woolgar, Steve 1988. Science: The Very Idea. Chichester: Ellis Horwood.
Wu, Amery D. y Bruno D. Mumbo 2008. «Understanding and Using Media-
tors and Moderators,» Social Indicators Research 87: 367-392.
Yamamoto, Tepei 2010. «Understanding the Past: Statistical Analysis of Cau
sal Attribution,» manuscrito inédito, Department of Politics, Princeton
University.
Yanow, Dvora y Peregrine Schwartz-Shea (eds.) 2006. Inlerpretation and Me-
thod: Empírica! Research Methods and the Interpretive Turn. New York: M.
E. Sharpe.
Yin, Robert K. 2000. «Rival Explanations as an Alternative to Reforms as
“Experiments,”» en Leonard Bickman (ed.), Validity and Social Experimen
tal ion: Donald Campbell's Legacy, vol. 1. Thousand Oaks, CA: Sage, pp.
239-266.
Yoon, Carol Kaesuk 2009. Naming Nature: The Clash between Instinct and
Science. New York: W. W. Norton.
Young, Cristóbal 2009. «Model Uncertainty in Sociological Research: An
Application to Religión and Economic Growth,» American Sociological
Review 74(3): 380-397.
Yudkowsky, Eliezer S. 2003. «An Intuitive Explanation of Bayes’ Theorem,»
en: http:// yudkowsky.net/rational/bayes.
Zahar, Elie 1983. «Logic of Discovery or Psychology of Invention?,» British
Journal for the Philosophy of Science 34(3): 243-261.
Zald, Mayer 1990. «Sociology as a Discipline: Quasi-Science and Quasi-Hu-
manities,» The American Sociologist 22(3-4): 165-187.
Zaller, John y Stanley Feldman 1992. «A Simple Theory of the Survey Res-
ponse: Answering Questions versus Revealing Preferences,» American Jour
Zannoni, Paolo 1978. «The Concept of Elite,» European Journal of Political
Research 6: 1-30.
Zelizer, Julián E. 2002. «Beyond the Presidential Synthesis: Reordering Politi
cal Time,» en JeanChristophe Agnew y Roy Rosenzweig (eds.), A Compo
nían to Post-1945 America. Oxford: Blackwell, pp. 345-370.
Zerubavel, Eviatar 1996. «Lumping and Splitting: Notes on Social Classifica-
tion,» Sociological Forurn 11(3): 421-433.
Ziff, Paul 1960. Semantic Analysis. Ithaca, NY: Cornell University Press.
553
Ziliak, Stephen T. y Deirdre N. McCloskey 2008. The Culi of Statistical Signi-

fieance: How the Standard Error Costs Us Jobs, Justice, and Lives. Ann Ar-
bor. MI: University of Michigan Press.
Zuckerman. llene H., Euni Lee, Anthony K. Wutoh, Xheny Xue, y Bruce
Stuart 2006. «Application of Regression-Discontinuity Analysis in Phar-
maceutical Health Services Research,» Health Services Research 41(2):
550-563.
554
índice analítico
índice analítico
Nota: para los términos más usados, los números de las páginas se limitan a las pá
ginas en las que se define el término o en las que constituye el centro de la exposi
ción.
acumulación 35, 38, 102,112-117, 249 Brady, Henry, 393, 459, 461, 462, 468,
agregación, 36, 38, 155, 181, 184-185, 473, 476, 481, 482, 487, 488, 492,
254 495-497, 505, 507, 511, 517, 520,
ajuste de pautas, 340-341 527, 533,546,551
ajuste teórico, 35, 38, 102, 117-124, 248,
249 cadena causal, 232,242,243,353,429
aleatorización, 277-292,428,449,454 Campbell, Donald, 32, 42, 292, 397,
análisis comparado cualitativo (ACC), 427, 460, 462, 468, 469, 473, 474,
360-377, 428,450,455 484,487,488,490,491,492,497
análisis de casos más similares, 74, 299, caso desviado, 74,403,430,447
301,384, 428 causa antecedente, 218, 228, 247, 316,
análisis de variable instrumental, 317, 317,321,322,427,430
322-324, 428,434, causa constante, 243,430
análisis histórico comparado, 352, 428, causa de hecho, 236,244,245,430
443 causa distante, 217, 242, 243, 256, 352,
apreciación, 49, 50, 52-54, 55-58, 65, 430,440
397, 398,405, 428,432,433,444,457 causa próxima, 243,325,430,440
argumento, 79-81, 218-219,428 causa secuencial, 242
Aristóteles, 22, 134, 163, 230, 392, 409, causalidad coyuntural, 242,430
472,475, 499 causalidad irreversible, 242,430,431
asociación, 159, 160, 169-171, 246, 251, causalidad lineal, 243
263, 393, 394,429,433,435 causalidad monotónica, 242,430
555
causalidad no lineal. 242.430 contrafáctico, 147, 215, 221, 250, 305,

causalidad no monotónica, 242, 243, 389, 393, 435, 438, 446, 448
430.431 correlación, 38, 100, 141, 142, 160, 171,
causalidad reversible. 430.431 201, 209, 251, 260, 263, 282, 325,
ceterís paribus. 33. 39. 84, 94, 110. 217, 330. 393,406,429,435
222. 226, 291.397. 431 covariable. 177, 178, 215, 247, 319, 320,
ciencia social, 25-27. 414-417. 431 321,324, 429, 435, 444, 447
claridad. 36. 38. 81, 219, 220-223,431 cualitativo, 347, 382, 436
coherencia. 35. 38, 39. 81. 85. 89, 142. cualitativo frente a cuantitativo, 382-386
144. 157. 162,219.431 cuantitativo, 382,436
colinealidad. 316. 319,431.434 cuasi experimento, 205, 206, 292, 293,
Collier. David, 23. 24. 427. 459, 461, 342, 359, 387,436
462. 466-468. 471-473, 474-477, 482, cupones, 43, 44-45, 221, 223, 436
484.490. 492.495. 497
comparabilidad. Véase comparabilidad deducción frente a inducción, 181, 190-
causal 192
comparabilidad causal. 261. 264. 265- definición máxima, 149, 152, 154-155,
267. 269. 287, 289, 318. 343, 431, 437,455
432.434.444.445.454.484.485,493 definición mínima, 149, 152, 154, 187,
compensaciones. 39. 54-58. 141, 222, 437
339. 386. 387. 397. 399.400,404,497 delimitación, 35, 38, 81, 85-87, 219, 223,
concepto, 131-158.432 243,372,432,437, 440, 451
concepto acumulativo, 149, 152, 155, democracia, 43, 44, 51-52, 135, 139-142,
157. 187.432 152, 153, 155, 156, 165-167
condicionamiento. 310-312, 432, 433, dependencia de la trayectoria, 242, 243,
452 436, 437
conductismo. 28.432-433 descripción pura, 437
confundidor. 177. 206, 247, 264, 265, descubrimiento, 38, 49-52, 57, 65, 397,
268.269.312-317,433-434 398
confundidor antecedente, 247, 312-317, desgaste, 268-269, 289, 343, 433, 437,
430,434.483 449
confundidor colisionador, 312, 313, 315, determinista, 44, 110, 242, 251, 353,
431.433-434 358, 374, 388, 392, 430, 431, 437,
confundidor de causa común, 247, 312- 448, 455
313. 321.433-434,435,437,439 diferenciación, 36, 38, 135, 136, 145,
confundidor de mecanismo 312, 313, 219, 220,437, 473
315,434 discreción, 38, 252-253, 437
confundidor de tratamiento compuesto, diseño con múltiples postest, 276, 279
247,312,313,315,317,434, 483 diseño cruzado, 276, 279,437
confundidor endógeno, 248, 312, 313, diseño de cuatro grupos de Solomon,
315.434,441,483 276, 280, 436
confundidor incidental, 247, 312-317, diseño de despliegue, 276, 278, 279,
434 438
confundidores de condicionamiento, diseño de efecto fijo, 293, 298, 438
317-322,428, 433434 diseño de investigación, 99-102,438
conjuntos difusos, 36, 184, 374, 434 diseño de investigación covariacional,
conmensurabilidad, 35, 38, 81, 89-90, 309,310,438, 450
114,219, 220,403,434,467 diseño de la diferencia en la diferencia
consistencia. 135, 136, 140-142,431,435 (DD), 293, 298, 299, 331,334,438
contaminación, 261, 268, 269, 276, 280, diseño de observaciones repetidas, 304,
288, 289, 314, 339, 342, 343, 433, 439
435, 445 diseño de panel, 276, 293, 298-301, 438
556
índice analítico
diseño de pretest y postest, 276, 279, escala de intervalo, 144, 156, 187, 188,
293, 439-440 218,253,443
diseño de regresión discontinua (RD), escala de razón, 186,443
276, 293-298,438-439 escala nomina), 163,187,188,442
diseño de series temporales interrumpi escala ordinal, 186,442
das, 304, 307,439,447 escalabilidad, 107,257
diseño de sólo postest, 276, 279, 287, escalas, 164,181,185-189,442
293,439,440, espurio, 312,329,433,439,443,453
diseño de variable dependiente no equi estandarización, 102,113-114,443
valente, 328, 340,439 estimador, 100, 298, 299,301, 331, 337,
diseño dentro del grupo (longitudinal). 359,443,455
Véase diseño longitudinal estructura, 181,183-184
diseño factorial, 280, 276, 376,439 estudio de caso, 40, 428, 429, 447, 449,
diseño longitudinal, 260, 276, 303-308, 487
330, 439,488 etnografía, 36, 38, 181, 192-194, 443,
diseño transversal, 276, 293, 301-303, 446,449,453
456 exactitud, 38, 75, 82, 102,103-107,129,
distribución uniforme, 38, 254-255 196,248,249,268
dominio, 36, 38, 81, 106, 135, 136, 138- exogeneidad, 38, 41, 217, 250,434,441,
140, 151, 157, 162, 219, 373, 440, 443,484
444, 451 experimento, 181,195-196,277,443
dosis, 253, 254, 278,440 experimento a la lista, 195
experimento mental contrafáctico, 85,
efecto causal. Véase efecto del tratamien 217,237,251,254,340,444
to extensión, 135, 140, 141, 151, 219,432,
efecto del intento de tratar (EINT), 238, 442,446,467
440
efecto del tratamiento, 237-243,440 falsabilidad, 52, 53, 57, 58, 86, 444,451,
efecto del tratamiento individual (ETI) 464,466
237, 238, 244,440,441 fecundidad, 85,135,136,142,145,444
efecto promedio del tratamiento (EPT), Feyerabend, Paul, 54,460,464,465
237-238, 239,240, 329,440,441 fiabilidad, 38,103,104,176,444
efecto promedio del tratamiento en los formación de bloques, 281,314,487
tratados (EPTT), 238-239,440-441 Freedman, David, 465, 468, 476, 482,
efecto promedio del tratamiento local 491,492,497
(EPTL), 239-241, 297, 323, 325, 440, fuerza, 255
442,485
efectos de instrumentación, 269, 272- Geertz, Clifford, 347,386,448,477,492,
273,434, 434,441 495
efectos de las causas/causas de los efec generalidad, 35, 38, 42, 81, 83-85, 88,
tos, 351-353, 392,441 219,220,222,254,389,413,444,451
efectos de reputación, 269,270,433,441 Goertz, Gary, 23, 459, 461, 472-474,
efectos del experimentador, 269, 270, 477,478,480,483,492,493,495
280, 289, 315, 339, 343,433,441 gráfico causal, 236, 245-248, 310, 312,
efectos del test, 269, 270, 271, 289,441 396,443,444,452
endogeneidad, 217, 250, 267, 313, 316,
317,430,434,441-442,443 Heckman, James, 390. 468, 482, 486,
equifinalidad, 232, 242, 243, 336, 360, 487,491,492,495
365,371,428,442 Hempel, Cari, 388, 393, 448, 466, 472,
error de tipo I y tipo II, 442 481,495
escala de abstracción, 38, 80, 181, 182- heterogeneidad causal, 39, 276, 317,
183
318,332,333-334,390,444,486
557
heterogeneidad. Véase heterogeneidad Mills, C. Wright, 7, 20, 29, 30, 61, 425,
causal 461,465-467, 498,499
hipótesis rivales. 276. 317, 334-337,445 modelo cultural, 386, 448
Holland. Paul. 389. 390. 448. 481. 482, modelo cultural frente al racional, 386-
495.496.497 388
Hume. David. 50. 213. 235. 251, 393, modelo de la ley de cobertura, 388-389,
464. 480. 482. 483 448
modelo de resultados potenciales, 245,
impacto. 219. 220. 222. 230-231, 445 388, 389-392,448,455,495
incumplimiento, 238, 268, 269, 276, modelo racional, 387,448
288. 289, 323, 337, 342, 433, 440, monismo, 392, 393, 396, 408, 449, 451,
445,483 497
independencia, 219, 229-230, 259-263, muestra, 96, 449
445 muestreo, 35, 96-97, 102, 107-112, 249
independencia condicional, 266, 429,
445. 447 necesario/suficiente, 183, 353-360, 449
indicador. 159. 160-162,446 neologismo, 34, 50, 68, 90, 136-138, 146,
intensión. 135, 141, 142, 432, 442, 446, 150, 158,450,453,472
473 nivel de análisis, 97, 108, 111-112, 428
interpretativismo. 28.444,446,457 niveles de abstracción, 36, 38, 80, 81,
investigación con muestra dividida, 195, 182-183,428
29 f nominalismo 133, 450
investigación con múltiples métodos, 39,
383~ 404, 446 observación, 97, 109, 110, 346-450
observación del proceso causal, 346-351,
King. Gary. 346.459. 462, 465. 467-469, 450
479.481,483,484,492,494 observacional, 69, 98, 251, 276, 293,
Kuhn. Thomas, 58, 462, 465, 466, 481, 352,450, 468, 489
491 ontología, 23, 451
operacionalización, 117, 135, 136, 162,
Lakatos, Imre, 464,466,481,491 179, 180, 221,451
ley causal, 242, 243, 358,446
ley. Véase ley causal parsimonia, 35, 37, 38, 39, 81, 87-89,
219, 341,364, 451
Mahoney, James, 24, 116. 459, 461, 469, partición, 38, 53, 102, 117, 122-124, 131,
471,478. 480,484,490,492-497 249,451
manipulabilidad, 36, 38, 219, 220, 223- paz democrática, 44, 131, 355, 359
228, 394. 446,468 Pearl, Judea, 42, 214, 244, 310, 316, 325,
Marx. Karl, 7, 28, 58, 61, 88, 164, 398, 390, 396, 444, 452, 463, 468, 480, 482,
415 489,490,492,495,496,497
mecanismo. Véase mecanismo causal pluralismo, 27-34, 146, 382, 392-395,
mecanismo causal, 216, 219, 231-233, 449, 451,462
245. 317, 324-328,429,430,439,440, población, 96, 222, 372, 373, 451
446, 447 Popper, Karl, 52-56, 59, 118, 133, 397,
medición, 173-187, 447,451,457 411, 444, 464-467, 469, 471, 491, 497,
método, 29, 447 499
metodología, 29, 31,425,447 positivismo, 27,41,400, 452
métodos de emparejamiento, 266, 269, precisión, 81, 82-83, 102, 103-105, 112,
281, 318, 359, 371, 384, 408, 424, 176, 219, 222, 236, 247, 444, 452,
432, 435, 447, 490 457
Mili, John Stuart, 22, 251, 334, 387, 393, predicción, 40, 118, 121, 122, 214, 233,
424, 428, 448, 467,472,473,483,490 340, 360,452
558
índice analítico
probabilístico, 44, 160, 169, 191, 215, tamaño de la muestra, 108, 109-111,
216, 242,243,354, 392,452 385-386
problema de asignación, 267-269, 277, tendencia, 160, 169, 269, 272, 429, 433,
287, 294, 298, 302, 337,429,454 445,463
proceso generador de los datos (PGD), teoría de conjuntos, 181, 184, 242, 243,
4/14 452 ' 353,360,455
proximidad, 38, 256, 352 teoría de respuesta al ítem (TRI), 190,
puerta trasera, 312, 313, 316, 317, 319, 478
321, 322, 433,452 test de robustez, 39, 276, 317, 337-339,
428,455,491
Ragin, Charles, 70, 360, 361, 366, 374, test placebo, 328-330,439,453,455
377, 428, 460,466,478,493,494,496 tipología, 159,160,163-169,455
razonamiento causal, 339-341,453 tipología configuracional, 160, 165, 168,
realismo, 53 455-456
realismo científico, 453 tipología de matriz, 160, 164-165, 455,
red, 160, 169-171,429 456
referencias cruzadas, 36, 38, 181, 196- tipología secuencial, 160, 168-169, 455,
198 456
regresión a la media, 269, 272,433, 453 tipología simple, 160,163,456
relevancia, 81, 91-94, 137, 219, 358,405, tipología taxonómica, 160,165,166,455
416, 453 tipología temporal, 160,163-164,166
replicación, 113, 114-116, 291, 292,451 transparencia, 102,113,116-117,456
representatividad, 108-109, 151, 386,
453, 454 unidad, 96,453,456
resonancia, 36, 38, 135, 136-138, 149, unidad de análisis, 97,456
154, 157, 158,450,453,472 uniformidad, 253-254
resultados alternos, 39, 266, 317, 328- utilidad causal, 36, 38, 135, 136, 148-
383, 453 149,398
Rosenbaum, Paul, 101, 115, 120, 468,
469, 482-484, 487,491,492,495-497 validez, 103-107,177,247,456
Rubín, Donald, 42, 100, 339, 389, 390, validez conceptual, 177-180
391, 429, 445,- 448, 468, 469, 478, validez de constructo, 38, 102, 117-118,
481,486,487,489,491,492,495-497 121,249,342,457
.
ruido, 105, 176, 177, 200, 222, 246, 247, validez externa, 38,42,85,102-105,290-
259,454 292,457
validez interna, 102, 103, 105-107, 287-
Sartori, Giovanni, 19, 127, 130, 132, 290
459, 461, 469,471 -474, 497 variable, 42,97,457
,
ección de casos, 266, 337, 449, 454, variable omitida, 443,457
466 variación, 215,251,457
separación, 219, 228-229,454 varianza, 104, 105, 176, 258, 259, 309,
sesgo de selección, 266,454 390, 398,452,457
sesgo/error sistemático, 104,177,454 verdad, 30,81-82,219,405,407-409
severidad, 102, 117, 118-122,454
simplicidad, 251-252 Weber, Max, 28, 58, 61, 127, 155, 163,
síntesis, 159, 160, 162-163,455 398,467,469,473-475,495,499
supuesto de la estabilidad del valor en la Wittgenstein, Ludwig, 432, 452, 472,
unidad (SEVUT [en inglés SUTVA]), 474
391,455
559

Metodología de Las Ciencias Sociales. Un Marco Unificado - John Gerring - 2014 - Alianza Editorial - 9788420689807 - Anna's Archive

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Metodología de Las Ciencias Sociales. Un Marco Unificado - John Gerring - 2014 - Alianza Editorial - 9788420689807 - Anna's Archive

Cargado por

Copyright:

Formatos disponibles

John Gerring

John Gerring es catedrático de Ciencia Política en la

Traducción de M.a Teresa Casado Rodríguez

£ Cambridge University Press, 2012

SIOLIERE RECIBIR INFORMACIÓN PERIÓDICA SOBRE LAS NOVEDADES DE ALIANZA EDITORIAL,

Karl Marx, «Prefacio a la edición francesa». El capital (299),

«Haber dominado el “método” y la “teoría” es haber llegado a ser un pensa­

C. Wright Mills, La imaginación sociológica (1959: 120-21)

«Ciertamente, en un mundo que se encuentra en el umbral de la química del áto­

Marc Bloch, Apología para la historia o el oficio de historiador ([1941] 1953: 9)

txi . ■ rrj -'jf

Parte III Causación

Diseños de regresión discontinua (RD) 293

Epilogo: Justificaciones 413

4.1 Conjunto de datos transversales de series temporales 98

1 l.S Estrategia de heterogeneidad causal 332

9.1 Electos del tratamiento: una taxonomía no exhaustiva 241

El campo de la metodología de la ciencia social ha sido hiperactivo en las

Mientras tanto, los venerables debates sobre el poder, la clase y el es­

Este libro es una edición profundamente revisada y ampliada de un libro

vestigación cualitativa como a la cuantitativa, el lenguaje del libro es en

Nuestra maldición y nuestra bendición están ambas implicadas en los

El tema de este libro es el conjunto de disciplinas conocidas como cien­

pecios del comportamiento humano que son fundamentalmente biológi­

El problema del pluralismo

y la actividad académica en general. Establecen de facto las fronteras en

No hay ningún marco de principios empíricos que determine lo que cuenta

explica, o si debe aceptarse como explicativa, a la luz de determinados datos,

El pluralismo metodológico tiene un aire atractivo porque sugiere toleran­

Hay, evidentemente, muchas maneras de hacer ciencia social de calidad.

juzgar el producto de nuestras elecciones? Es evidente que estas cuestio­

Las dificultades metodológicas del revisor son características de las ciencias

senso firmemente fundamentado de que un conjunto de conclusiones es

como debería ser. El problema que plantea el provincianismo académico

requiere una comunidad polemista de «buscadores de la verdad» Las normas

Para que se entiendan los defensores de los diferentes métodos y teo­

Sin duda, el disenso académico puede ser también un reflejo de la na­

Mi enfoque se centra en la identificación de las tareas básicas de la

El capitulo 5 se ocupa de los conceptos, los contenedores lingüísticos

Tabla 1.1 Esquematización del marco

Niveles de abstracción (alto, medio, bajo); estructura (de teoría

Criterios Claridad; manipulabilidad; separación; independencia; impacto;

Tabla 1.1 Esquematización del marco (continuación)

Diseños aleatorizados (pre-test/post-test, sólo post-test, post-test

pasos que mediante saltos revolucionarios («paradigmáticos»). Si un

Las consideraciones éticas también pueden limitar nuestra capacidad

terogeneidad», «validez» e «identificación» significan diferentes cosas en

ciones he dado preferencia a los términos y definiciones con potencial

es igualmente grande. El segundo ejemplifica el trabajo sobre interven­

La democracia es un tema familiar, pero también desconcertante. Los

La cuestión de los cupones es un fenómeno mucho más específico que el

jo de la ciencia social). Aun así, hay cuestiones descriptivas pendientes.

«En mi carrera científica, que en breve cumplirá medio siglo de duración, he

En términos generales, el objetivo de la ciencia es descubrir cosas nuevas 1

rea concreta de buscar una pregunta de investigación. Puesto que los

Tabla 2.1 Objetivos generales de la ciencia social ____

«Será poco valorado», dice Hume con su estilo característicamente afila-

Consideremos la cuestión de la democratización planteada en el capí­

entre la riqueza de recursos y el gobierno autoritario. Michael Ross lo re­

Un estudio que se centra en los mecanismos causales culmina típicamen­

Al respecto de la construcción de argumentos, puede ser apropiado

ciones más rigurosas son normalmente de naturaleza experimental. Y así

Se podría decir que todas las tareas, estrategias y criterios presentados en

«Haber dominado el “método” y la “teoría” es haber llegado a ser un pensa

«Ciertamente, en un mundo que se encuentra en el umbral de la química del áto

Mientras tanto, los venerables debates sobre el poder, la clase y el es

El tema de este libro es el conjunto de disciplinas conocidas como cien

pecios del comportamiento humano que son fundamentalmente biológi

El pluralismo metodológico tiene un aire atractivo porque sugiere toleran

juzgar el producto de nuestras elecciones? Es evidente que estas cuestio

Para que se entiendan los defensores de los diferentes métodos y teo

Sin duda, el disenso académico puede ser también un reflejo de la na

es igualmente grande. El segundo ejemplifica el trabajo sobre interven

Consideremos la cuestión de la democratización planteada en el capí

entre la riqueza de recursos y el gobierno autoritario. Michael Ross lo re

Un estudio que se centra en los mecanismos causales culmina típicamen

existentes. Los científicos necesitan salir de la jaula de hierro de la cien

La mayor parte de este libro está dedicada a los problemas de la aprecia

Debéis aprender a usar vuestra experiencia de la vida en vuestro trabajo intelec

vuestro propio centro y estáis personalmente implicados en todo producto inte

¿Qué actitud mental requiere esto? ¿Cómo se puede pensar analógica

conocidos).47 Un caso típico es aquel que presenta rasgos que supuesta

considerando. Los procedimientos de comprobación más sistemáticos pue

Los trabajos que se publican en ciencias sociales presentan una aparien

En este arduo proceso se agradecen los consejos de los amigos, la fa

El séptimo objetivo general de la ciencia es la reducción, es decir, la re

lectores se percatarán de que el objetivo de la parsimonia está relaciona

Por decirlo de otra manera: la fuerza persuasiva de cualquier argu

sentido general) es cualquier conocimiento que nos ayude a cumplir es

En el análisis causal la relevancia también representa un papel para identi

De modo similar, en los análisis de políticas sociales, los argumentos ba

Una vez analizados los criterios formales de un buen argumento, pasa

—la muestra— hayan sido elegidos aleatoriamente de entre una pobla

Distinguimos tradicionalmente entre dos fases en el proceso de compro

ción de la evidencia.6 El análisis de los datos remite al análisis de los da