Está en la página 1de 19

Avaluaci per al Bon Govern

Nmero 3. Octubre 2012

Por qu no evaluamos las polticas pblicas como los frmacos? Una apuesta por la experimentacin social - David Casado
David Casado es doctor en Economa por la Universitat Pompeu Fabra. Como analista
de Ivlua, al que se incopora en 2009, ha participado en la elaboracin de varias de las
guas metodolgicas, ha sido formador en las diversas ediciones del Ciclo de Formacin en Evaluacin de Polticas Pblicas y ha participado en varias de las evaluaciones
realizadas por dicha institucin.

Introduccin
La crisis econmica ha suscitado un renovado inters por la evaluacin de polticas pblicas o, al menos, por los conceptos sobre los que sta versa. As,
ya sea en el mbito estatal, autonmico o local, los
responsables polticos, sean del color que sean, insisten en la necesidad de mejorar la efectividad de
determinados programas o ganar en eficiencia en
la provisin de los servicios pblicos. Esta insistencia nos parece positiva, aunque tenemos dudas de
que este nfasis se mantenga cuando vengan tiempos mejores, lo cual sera un error: preguntarse
si una determinada poltica activa aumenta la insercin laboral de los parados (efectividad) o si, comparado con otras intervenciones, el coste por parado
insertado de dicha poltica es ms o menos favorable (eficiencia) son cuestiones que la Administracin
debera plantearse en todo momento, sea cul sea
la situacin econmica y el estado de las finanzas
pblicas.
No obstante, pese a este auge de la evaluacin en el

plano discursivo, lo cierto es que nuestro pas sigue


encontrndose a la cola de los pases desarrollados
en cuanto a la evaluacin de polticas pblicas
(Vias, 2009). Y, lo que resulta an ms preocupante, cuando al calor de este renovado inters por la
evaluacin se discute sobre el impacto de tal o cual
poltica, los resultados que se invocan suelen estar
basados, en el mejor de los casos, en lecturas errneas de los datos disponibles, cuando no en ancdotas de imposible generalizacin o en apriorismos
ideolgicos sin base emprica alguna.
Dejando de lado la evidencia anecdtica y los apriorismos, para los que el lector seguro que tiene
ejemplos variados, centrmonos en la cuestin de
la mala interpretacin de los datos. El Plan Prepara,
que ha acaparado buena parte de las portadas durante el pasado mes de agosto, resulta un ejemplo
revelador a este respecto [1]. Entre otros motivos, la
necesidad de reformar el programa se justificaba
por el hecho de que slo el 6% de beneficiarios lograba reinsertarse laboralmente. Significa esto

2
que el programa no es efectivo? Bueno, de-

pleo de tcnicas diversas que, sin embargo,

pende de cual es el porcentaje de dichos be-

comparten una caracterstica comn: compa-

neficiarios que, en ausencia del plan Prepara,

rar la evolucin de los outcomes de inters,

se hubieran reinsertado: si la respuesta fu-

como por ejemplo la insercin laboral, entre

ese que el 6%, podramos concluir que en tr-

los participantes en el programa y otro grupo

minos de insercin laboral el programa re-

de personas que, pese a no haber participa-

sulta inefectivo; pero, y si dicho porcentaje

do, resultan muy parecidas a quienes s lo

fuera del 0%? Entonces el Plan Prepara sera

han hecho. Sin embargo, de entre los diver-

el responsable de que 6 de cada 100 benefici-

sos diseos evaluativos existentes, hay uno

aros encontraran un trabajo en vez de seguir

que sobresale por encima del resto: los ex-

desempleados como el resto. Pero como

perimentos sociales (en adelante, ES).

saber cuntos de los beneficiarios del Plan


Prepara habran encontrado trabajo si no
hubieran participado en el programa?

En las pginas que siguen trataremos de explicar en qu consiste un ES y por qu, pese
a su sencillez, constituye el mtodo ms ro-

El dar respuesta a la pregunta anterior cons-

busto para estimar el impacto de una poltica

tituye el gran reto al que se enfrentan qui-

pblica. Asimismo, describiremos qu alcan-

enes se dedican a la evaluacin de impacto.

ce tienen en el mundo este tipo de evaluacio-

Desde esta perspectiva, el impacto de una

nes, las principales crticas que mencionan

intervencin o programa es la diferencia en-

sus detractores y, finalmente, cul puede ser

tre aquello que realmente acontece a los par-

su futuro en nuestro pas, donde hasta el mo-

ticipantes y el denominado contrafactual: esto

mento su nivel de penetracin ha sido nulo.

es, lo que les hubiera ocurrido de no haber


participado. Se trata de un gran reto porque,

Qu son los ES y por qu no tienen rival mi-

obviamente, no es posible que los mismos

diendo impactos?

sujetos participen y no participen simultne-

Supongamos que el Plan Prepara no fuera

amente en un determinado programa. Por

un programa laboral, sino un nuevo frmaco

ello, como puso de manifiesto Marcos Vera

contra un cncer incurable, y que el 6% antes

en un nmero anterior de esta revista, los

mencionado estuviera referido no a la tasa de

evaluadores tratan de aproximarse a la me-

insercin laboral, sino al porcentaje de per-

dida de dicho contrafactual mediante el em-

sonas tratadas que sobreviven al cabo de un

3
ao. Cmo responderan los mdicos a la

insercin laboral de los parados, reducir el

pregunta sobre si el nuevo tratamiento resul-

fracaso escolar, etc.).

ta o no efectivo? En principio, puesto que hace varias dcadas que la profesin mdica

Un ejemplo puede resultar til para ilustrar

basa sus juicios sobre efectividad en la reali-

el funcionamiento de un experimento social.

zacin de ensayos clnicos, cabe esperar que

Supongamos una hipottica poltica activa de

tambin en este caso hubieran procedido del

empleo dirigida a jvenes parados, de entre

mismo modo. As, lejos de pronunciarse so-

16 y 24 aos, que carezcan del graduado en

bre si una tasa de supervivencia del 6% es

ESO. El programa en cuestin, al que po-

baja o alta, se habran preguntado qu por-

dramos denominar Segunda Oportunidad,

centaje de los pacientes hubiera sobrevivido

consistira en un cierto nmero de sesiones

de no haber sido tratados con el nuevo fr-

formativas a las que seguiran unas prcticas

maco. En concreto, tras reclutar a por ejem-

de 6 meses remuneradas. Una evaluacin

plo- 1.000 pacientes dispuestos a participar

experimental de este programa, obviando

en el ensayo, hubieran suministrado el fr-

por el momento mltiples detalles a los que

maco a 500 de ellos elegidos al azar, mien-

nos referiremos ms tarde, podra realizarse

tras a los 500 restantes les hubieran admi-

de la siguiente manera: 1) dar instrucciones a

nistrado un placebo. Al cabo de un ao, hubi-

las oficinas de empleo para que identificaran

eran comparado la tasa de supervivencia del

potenciales beneficiarios del programa, con

grupo de tratamiento (6%) con la del grupo de

el propsito de alcanzar una cifra de 1.000

control (x%) y declarado, sencillamente, que

candidatos; 2) mediante un procedimiento

el frmaco resulta efectivo o no en funcin de

aleatorio, y previo consentimiento de los can-

que x fuera o no menor que un 6 % [2].

didatos, aleatorizaramos la participacin en

Segunda Oportunidad: 500 jvenes lo reciEn esencia, un experimento social es idntico

biran y 500 no y 3) pasado un cierto tiempo

a un ensayo clnico, con la nica diferencia de

tras la finalizacin del programa, compara-

que el tratamiento no es una intervencin

ramos los outcomes relevantes, como el

sanitaria, sino un programa o poltica que

grado de insercin laboral, entre el grupo de

aspira a producir cambios sobre ciertos out-

tratamiento y de control. La figura 1 ilustra

comes que la sociedad valora (incrementar la

grficamente la esencia de una evaluacin

4
experimental del programa Segunda Oportu-

De ese modo, cuando tras la finalizacin del

nidad.

programa comparamos los outcomes entre

Figura 1. Evaluacin experimental del pro-

ambos grupos para inferir el impacto, pode-

grama Segunda Oportunidad

mos descartar que el resultado obtenido sea


la consecuencia de que ambos grupos son
distintos. Por otro lado, al estar expuestos
ambos grupos a los mismos factores de
contexto mientras dura el programa, como
pudiera ser por ejemplo una mejora del mercado laboral en el caso de Segunda Oportuni-

dad, tambin podemos descartar que sean


dichos factores los responsables de las diferencias post-tratamiento en los outcomes. En
Fuente: Adaptado de Haynes et al. (2012: p. 9).

resumen, si detectamos dichas diferencias


en los outcomes entre ambos grupos, podre-

Ahora bien, por qu la aleatorizacin, ya sea


de pacientes en un ensayo clnico o de jvenes parados en nuestro ejemplo, permite
evaluar el impacto de un tratamiento o programa de un modo ms vlido que otras tc-

mos atribuirlos a lo nico que los distingue: a


saber, haber participado o no en el mismo. El
experimento social nos proporciona, por tanto, una estimacin vlida del impacto del programa.

nicas?
Existen diseos evaluativos no experimentaGracias a la aleatorizacin, un experimento
logra que el grupo de tratamiento y el de
control se encuentren equilibrados en todos
aquellos atributos personales que pueden
influir sobre el outcome de inters, como puedan ser, en el caso de Segunda Oportuni-

dad, la motivacin, la experiencia laboral


previa o el hecho de ser o no inmigrante [3].

les que tambin utilizan grupos de comparacin, como puedan ser el matching o el modelo de dobles diferencias, lo cual les permite tener en cuenta la influencia de dichos factores contextuales. Sin embargo, en la medida en que el proceso de participacin en el
programa no es aleatorio, la condicin de que
ambos grupos tengan caractersticas

5
muy similares no est garantizada.

decisiones tanto de los trabajadores de las


Oficinas de Empleo como de los propios jve-

Volvamos al ejemplo de Segunda Oportuni-

nes (motivacin, implicacin de los padres,

dad para tratar de ilustrar este punto. Supon-

renta familiar, etc.), y que claramente afectan

gamos que no se trata de un programa nue-

a las posibilidades de insercin laboral

vo, sino que lleva algunos aos en funciona-

posterior? Constituyen un problema para to-

miento, y que nos encargan evaluar el im-

dos los diseos no experimentales, ya que su

pacto que ste ha tenido sobre los jvenes

influencia sobre los outcomes resulta indis-

que han participado en el mismo. Adems,

tinguible del impacto que realmente tiene el

como de hecho suele ser habitual, suponga-

programa, originando un error en el clculo

mos tambin que la participacin en el pro-

de dicho impacto conocido como sesgo de

grama no viene determinada por un proceso

seleccin. La gran ventaja de los ES es que

de asignacin aleatorio, sino que son los em-

dicho sesgo queda eliminado, ya que el pro-

pleados de las Oficinas de Empleo los que

ceso de participacin viene definido por un

seleccionan a los candidatos a participar y

proceso de asignacin totalmente aleatorio y,

stos, libremente, deciden acabar partici-

como se ha mencionado anteriormente, el

pando o no. En principio, para todas aquellas

grupo de tratamiento y el de control estn

variables registradas en las bases de datos

equilibrados en todos los atributos que pue-

del Servicio de Empleo, como son el sexo, la

den influir sobre los outcomes de inters

edad, el nivel formativo y muchas otras ca-

(incluso aunque sean inobservables!). En el

ractersticas de los individuos, resulta posible

resto de diseos no experimentales, por bien

identificar un grupo de jvenes parados que

hechos que estn, siempre existe una som-

no haya participado en el programa y que sea

bra de duda sobre hasta qu punto el investi-

parecido al grupo de quienes s han partici-

gador ha sido capaz de eliminar completa-

pado.

mente la amenaza de dicho sesgo o, en otras


palabras, descartar la posibilidad de que el

Ahora bien, qu ocurre con todas aquellas

impacto estimado de la poltica no sea el re-

variables sobre las que no disponemos de

sultado de que los participantes son distintos

informacin, inobservables en trminos tc-

a las personas con las que se las ha compa-

nicos, que pueden haber influido sobre las

rado.

6
Qu se entiende exactamente por aleatori-

grama de incentivos a profesores, pero slo

zacin?

hubiera presupuesto para aplicar el esquema

La aleatorizacin de la participacin consti-

en 100 centros, podramos elegir 200 escu-

tuye la piedra angular de un ES y, para que

elas al azar de entre las 1.000 (muestra de

una evaluacin pueda considerarse experi-

candidatos) y, tras ello, asignar aleatoria-

mental, su existencia es un requisito indis-

mente la participacin en el programa a la

pensable. La aleatorizacin que caracteriza

mitad de ellas. La primera aleatorizacin

un ES no debe confundirse con el muestreo

conferira representatividad a nuestros re-

aleatorio que debe exigirse a una encuesta,

sultados, en el sentido de que podran consi-

sea sta de salud o de poblacin activa, para

derarse extrapolables a las 800 escuelas no

que los resultados obtenidos resulten repre-

experimentales, pero es la segunda aleato-

sentativos de la poblacin. Por un lado, mien-

rizacin la que nos permite medir el impacto

tras lo que tiene que ser aleatorio en una en-

del programa y la nica necesaria para califi-

cuesta es la seleccin de los sujetos a entre-

car a una evaluacin de experimental.

vistar, lo que se precisa en un experimento


social es que, de entre los candidatos a parti-

Otra forma de disear, implementar y re-

cipar en el programa, la eleccin de quienes

disear las polticas pblicas

acaban participando y quines no se lleve a

Si bien existen evaluaciones experimentales

cabo mediante un procedimiento aleatorio.

de programas que llevan aos funcionando,

Por otro lado, la aleatorizacin en un ES no

como por ejemplo la realizada entre 1996 y

busca la representatividad de los resultados,

2003 del JobCorps estadounidense (Schochet

sino permitir estimar sin sesgos el impacto

et al., 2008), un programa dirigido a jvenes

del programa evaluado, como ya hemos co-

en riesgo de exclusin social iniciado en 1960

mentado.

y plenamente consolidado, la mayora de ES


se plantean sobre una poltica nueva o sobre

Ello no significa, sin embargo, que un experi-

una variacin de un programa ya existente.

mento social no pueda aleatorizar tambin el

De hecho, a diferencia de las evaluaciones de

proceso de captacin de candidatos. Por

tipo retrospectivo, en las cuales de lo que se

ejemplo, si las 1.000 escuelas de Catalunya

trata es de estimar el impacto que haya podi-

estuvieran dispuestas a participar en un pro-

do tener una poltica una vez concluida, los

7
ES no slo se disean a la par que la poltica

nes, como revela la evaluacin de un progra-

que se pretende evaluar, sino que van de la

ma en el Reino Unido que pretenda reducir

mano durante todo el proceso de implemen-

la dependencia de los beneficiarios de pres-

tacin. En el fondo, como bien indica el suge-

taciones asistenciales, por la va de ayudar a

rente ttulo de un reciente informe sobre ex-

los participantes a retener un empleo cuando

perimentos sociales, Test, Learn and Adapt

finalmente lo encontraban, el programa se

(Haynes et al., 2012), se trata de una modali-

revela efectivo para quienes menos se espe-

dad de evaluacin que abre las puertas a una

raba: as, si polticos, gestores e investigado-

manera distinta de desarrollar las polticas

res pensaban, antes de llevar a cabo la eva-

pblicas, si bien tambin plantea retos im-

luacin, que el nuevo programa sera efectivo

portantes a los polticos y gestores que estn

para las familias monoparentales pero no

dispuestos a impulsarlos.

para los parados de larga duracin, los resultados fueron exactamente los contrarios

En primer lugar, aceptar evaluar experimen-

(Hendra et al., 2011) [4].

talmente una nueva poltica pblica exige


reconocer, explcitamente, que no se sabe

Por otro lado, adems de humildad intelectu-

con certeza si el programa en cuestin va a

al, la naturaleza prospectiva de los ES obliga

resultar o no efectivo. Se trata de un ejercicio

a polticos y gestores a explicitar, de antema-

de humildad intelectual poco comn en el

no, cules son los outcomes sobre los cules

panorama poltico actual, a pesar de que

el programa pretende incidir, as como a

existen innumerables ejemplos de polticas

consensuar con los evaluadores el modo en

cuyos efectos han resultado ser nulos o in-

que dichos outcomes se van a cuantificar.

cluso negativos: por ejemplo, en el mbito de

Asimismo, lejos de verse restringidos a usar

la justicia, de las ms de 80 evaluaciones ex-

los datos que sobre el programa existan, co-

perimentales realizadas en EEUU de progra-

mo ocurre en las evaluaciones de carcter

mas de todo tipo, desde dispositivos de rein-

retrospectivo, los ES permiten a los investi-

sercin de jvenes a modificaciones en los

gadores definir de antemano qu tipo de in-

tipos de sancin, nada menos que el 81% tuvi-

formacin se requiere para llevar a cabo la

eron

negativos

evaluacin y, si es necesario, aadir alguna

(Farrington y Welsh, 2005). En otras ocasio-

nueva variable a los registros administrativos

resultados

nulos

8
o suplementar la informacin de stos a tra-

Los experimentos sociales estn ya al otro

vs de encuestas. Todos estos elementos

lado de los Pirineos

reducen las posibilidades de manipulacin ex

El New Jersey Income Maintenance Experi-

-post de los resultados de la evaluacin, ya

ment, llevado a cabo en los EEUU a finales de

que los diversos elementos han sido defini-

aos 60 del pasado siglo, suele considerarse

dos de antemano, por lo que la credibilidad

la primera evaluacin experimental de una

de los resultados obtenidos aumentan. A ello

poltica pblica (Burtless y Hausman, 1978).

habra que sumar, como ya se coment ante-

Su propsito fue analizar en que medida los

riormente, la superioridad de los experimen-

beneficiarios de un programa de mantenimi-

tos para medir el impacto de un programa de

ento de rentas, similar a los programas auto-

modo vlido.

nmicos de rentas mnimas, modificaban su


comportamiento laboral ante distintas cuan-

Finalmente, de cara al desarrollo de nuevas

tas de la prestacin econmica recibida. A

polticas y al perfeccionamiento de las ya

ese primer experimento siguieron otros

existentes, los resultados de las evaluacio-

igualmente famosos, como el Rand Health

nes experimentales devienen un instrumento

Insurance Experiment, realizado a principios

socialmente muy til. La razn ms obvia es

de los 80, tambin en los EEUU, con el objeti-

que nos permiten determinar, de un modo

vo de testar el impacto sobre la salud y el uso

riguroso, cules son las polticas que funcio-

de servicios sanitarios de distintas configura-

nan y, por tanto, acabar generalizando nica-

ciones de copagos (Newhouse, 1993). En el

mente aquellos programas piloto que han

mbito educativo, destaca el conocido popu-

demostrado ser eficaces. No obstante, inclu-

larmente como Proyecto STAR, llevado a ca-

so si los experimentos revelan la inefectivi-

bo en Tennessee a finales de los 80, con el

dad de una poltica, este resultado deviene

propsito de analizar experimentalmente si

igualmente valioso: nos permite comprender

el tamao de las clases tena impactos sobre

por qu la poltica no surte los efectos desea-

el rendimiento acadmico de los alumnos a

dos y, tras ello, a proponer y testar experi-

medio y largo plazo (Mosteller, 1995).

mentalmente nuevas versiones del programa


que no ha funcionado.

En cualquier caso, adems de los experimentos anteriores, cuya influencia poltica y

9
repercusin meditica result ser especial-

Interamericano de Desarrollo. El reciente

mente acusada, son mltiples los ES realiza-

libro de Banerjee y Duflo (2011), que lleva el

dos durante las ltimas tres dcadas en los

sugerente titulo de Poor Economics, ofrece

EEUU en mbitos tan diversos como la justi-

una panormica realmente interesante de lo

cia (Farrington y Welsh, 2005), la educacin

que ha dado de si la experimentacin social

(Antonio Cabrales, en Nada es Gratis, aqu o

en el mbito de los programas de ayuda al

aqu) o los programas de asistencia social

desarrollo. Tambin en algunos pases de

(Butler et al., 2012). De hecho, segn el in-

Hispanoamrica se han llevado a cabo expe-

ventario realizado por Greenberg y Shroder

rimentos de una trascendencia notable, des-

(2004), el nmero de experimentos sociales

tacando especialmente los programas Pro-

realizados en EEUU en los mbitos seala-

gresa y Seguro Popular de Salud, ambos lle-

dos se acercara a los 300 durante el periodo

vados a cabo en Mjico: el primero para com-

1980-2003. Hay que decir que dichos experi-

batir la pobreza mediante transferencias mo-

mentos no siempre evalan programas del

netarias que deban destinarse a la escolari-

sector pblico, sino que a menudo se trata de

zacin de los nios y a actividades de salud

evaluaciones impulsadas por organizaciones

preventivas (Schultz, 2004), y el segundo para

filantrpicas para testar la efectividad de las

comprobar los efectos sobre la salud y el uso

polticas por ellas financiadas. Incluso en el

de servicios sanitarios de la extensin del

mbito empresarial, como detalla Manuel

aseguramiento sanitario a familias de bajos

Bages en esta otra entrada de Nada Gra-

recursos (King et al., 2007).

tis, se han producido algunos avances sus-

En Europa, hasta hace apenas una dcada,

tanciales en la aplicacin de evaluaciones

los ES constituan una autntica rareza. Sin

experimentales.

embargo, durante estos ltimos aos se han


empezado a realizar numerosas evaluacio-

Otro mbito en el que la experimentacin

nes experimentales, especialmente en el

social ha registrado un avance muy notable

mbito de las polticas laborales, como la

es el relacionado con la evaluacin de los

Employment Retention and Advancement

programas de ayuda al desarrollo, especial-

(ERA) demonstration realizada en el Reino

mente los auspiciados por organismos inter-

Unido (Hendra et al. 2011) o la evaluacin de

nacionales como el Banco Mundial o El Banco

varios esquemas de activacin de parados

10
realizados en Dinamarca (Graversen & Van

Un primer aspecto que suele criticarse de los

Ours, 2008), por poner solo dos ejemplos.

experimentos es que son caros. Sin duda,

Una mencin especial merece el Fons dEx-

esta apreciacin se debe en parte al poso que

primentation pour la Jeunesse, el cual inicia

dejaron los primeros ES llevados a cabo en

su andadura en 2008 y que, a travs de una

EEUU, como el New Jersey Income tax o el

dotacin de ms de 200 millones de euros

Rand Experiment antes mencionados, que

para el periodo 2009-2014, intenta favorecer

implicaron equipos muy numerosos, realiza-

la evaluacin experimental de nuevas formas

cin de encuestas muy costosas, etc. Hoy en

de intervencin destinadas a combatir el fra-

da, como muestra a travs de varios ejem-

caso escolar y la exclusin laboral de los

plos la Coalition for Evidence-Based Policy, la

jvenes franceses. Los programas evaluados

informatizacin de los registros administrati-

hasta el momento, o en curso de evaluacin,

vos ha permitido, en muchos casos, sortear

son muy variados e incluyen desde interven-

la necesidad de realizar costosas encuestas

ciones orientadas a incrementar la implicaci-

sin que por ello se haya perdido riqueza ana-

n de los padres en el proceso educativo

lstica, ya que la exhaustividad y fiabilidad de

(aqu) a la provisin de tutoras para prevenir

dichos registros resulta muy notable. Por

el abandono escolar (aqu), pasando por la

ejemplo, como demuestra el experimento

provisin de servicios de orientacin laboral

llevado a cabo por Fryer en Nueva York ana-

a jvenes parados (aqu).

lizan el impacto de un programa de incentivos a profesores, basta con aleatorizar las

Crticas a los experimentos

escuelas y analizar los outcomes de a travs


de los registros administrativos de la autori-

Tratndose del diseo ms robusto para evaluar el impacto de una poltica, y pese haber

dad educativa (pruebas estandarizadas, tasa


de abandono escolar, etc.).

crecido su nmero en los ltimos aos, no


deja de sorprender que no se lleven a cabo

En cualquier caso, ms all de las considera-

muchos ms ES. En parte, esta carencia de-

ciones econmicas, el argumento habitual

muestra la efectividad de algunas de las crti-

que utilizan los que se oponen a los ES tiene

cas vertidas sobre los experimentos, si bien

un trasfondo tico: resulta inadecuado privar

el fundamento lgico de muchas de ellas re-

a determinados individuos (los del grupo de

sulta cuanto menos cuestionable.

control) de los beneficios que supone una

11
nueva poltica utilizando un mecanismo tan

nuevo programa. Un enfoque de estas carac-

arbitrario como la aleatorizacin. La rplica

tersticas, por poner un ejemplo, es el que se

por parte de aquellos que ven en los ES una

llev a cabo en Mjico para evaluar experi-

herramienta adecuada de evaluacin se sus-

mentalmente el programa Progresa anteri-

tenta en tres consideraciones.

ormente mencionado (Schultz, 2004).

La primera es que la presuncin de que se

Otra crtica que suele formularse con relaci-

est privando a algunos individuos de algo

n a los experimentos es que, pese a que

beneficioso no debera tener sentido si el ex-

permiten establecer la efectividad de una po-

perimento est justificado, ya que es precisa-

ltica, no resultan tiles para comprender por

mente la ausencia de datos sobre la efectivi-

qu la poltica funciona o no. Probablemente

dad del programa lo que justifica su evaluaci-

la crtica fuera acertada en el caso de los pri-

n. Por otra parte, son pocas las ocasiones

meros ES, muchos de ellos de caja negra,

en las que pertenecer al grupo de control

en el sentido de que se aleatorizaba la parti-

implica no recibir ningn tipo de intervenci-

cipacin y se median los resultados post-

n, sino que ms bien lo que se compara es

tratamiento, sin detenerse a describir el pro-

la nueva poltica respecto a seguir como

ceso de implementacin del nuevo progra-

hasta ahora. Finalmente, hay situaciones

ma. Sin embargo, desde hace ya algunos

bastante frecuentes en las que la aleatoriza-

aos, los experimentos mejor diseados su-

cin puede considerarse un criterio de asig-

elen incluir una evaluacin cualitativa y cuan-

nacin equitativo, como por ejemplo cuando

titativa de la implementacin, la cual permite

la falta de recursos no permite atender de

aventurar hiptesis sobre qu componentes

una sola vez a toda la poblacin potencial-

de la poltica pueden haber tenido una mayor

mente beneficiaria de la poltica; de hecho,

influencia en los resultados de impacto ob-

cuando se producen situaciones de este esti-

servados. Un buen ejemplo de este tipo de

lo, un diseo experimental ms aceptable

enfoque es el trabajo de Bloom et al. (2003)

que utilizar una simple lotera entre individu-

sobre los efectos de los programas de activa-

os es optar por un despliegue gradual aleato-

cin dirigidos a los perceptores de prestacio-

rizado: lo que se aleatoriza es el momento

nes asistenciales, ya que los experimentos

del tiempo en el que distintos grupos de indi-

realizados no slo permitieron establecer la

viduos o territorios comenzarn a recibir el

efectividad de los distintos programas,

12
sino tambin la mayor o menor influencia

dos, esto es, un ejercicio cuantitativo de sn-

sobre sta de diversos componentes de los

tesis que pretende establecer si el programa

mismos (grado de personalizacin de la

resulta efectivo con carcter general, con in-

atencin, nmero de casos por trabajador

dependencia de las poblaciones, lugares y

social, nfasis en buscar empleo por encima

momentos en los que este se aplique. A tal

de la formacin, etc.).

efecto, deviene crucial la labor de inventariado llevada a cabo por organizaciones o inicia-

Una ltima objecin que habitualmente se


hace a los experimentos es que suelen carecer de validez externa o, en palabras menos
tcnicas, que los resultados que se obtienen
en relacin al impacto de una poltica, aunque vlidos con respecto a los sujetos, mo-

tivas de distinta ndole, como por ejemplo el


What Works Clearinghouse, que evala y sintetiza los resultados de todo tipo de experimentos llevados a cabo en el mbito educativo (programas de lectura, de refuerzo escolar, de atencin precoz, etc.).

mento y lugar en que el experimento se llev


a cabo, pueden no ser extrapolables a contextos distintos. Aquellos que se dedican a la
experimentacin social han tratado de mitigar la falta de validez externa por dos vas.
En primer lugar, aunque a costa de incrementar los recursos necesarios, son habituales las evaluaciones multi-site, en las que el
programa se evala aplicndolo en lugares
diversos (por ejemplo, escuelas pblicas y
concertadas, rurales y urbanas, etc.), con el
propsito de analizar hasta qu punto los
resultados de impacto varan de unos contex-

Algunas precauciones
Puede que las crticas a los experimentos no
resulten adecuadas en muchos casos, pero
no por ello hay que pensar que llevar a cabo
una evaluacin experimental resulta una tarea sencilla. En primer lugar, desde una
perspectiva metodolgica, hay que ser consciente de los retos que supone realizar una
evaluacin experimental y de las dificultades
que pueden aparecer. Algunas de las ms
importantes son las siguientes [5]:

tos a otros. Por otro lado, cuando el nmero

El tamao de los grupos. Una de las prime-

de rplicas experimentales de un determina-

ras cuestiones a la que tiene que dar res-

do tipo de programa es lo bastante importan-

puesta un ES es cuntas unidades, sean s-

te, pueden llevarse a cabo lo que se denomi-

tas alumnos, escuelas o juzgados, han de

na un meta-anlisis de los resultados obteni-

formar parte de los grupos de control y

13
de tratamiento. Dejando de lado los detalles
estadsticos, diremos simplemente que hay
dos factores que influyen especialmente sobre la cuestin del tamao de las muestras:
de un lado, la magnitud del impacto que queramos ser capaces de detectar (por ejemplo,
aumentos de la insercin laboral de un punto
porcentual) y, de otro, el grado de incertidumbre sobre la validez de nuestros resultados que estemos dispuestos a tolerar. A veces, existen determinadas intervenciones en
las que basta con aleatorizar unas decenas

prev (por ejemplo, porque decidan no asistir


a las clases que Segunda Oportunidad estipula) y/o algunos del grupo de control acaben
teniendo acceso a l (por ejemplo, porque los
trabajadores de las oficinas de empleo sucumben a las presiones de algunos no tratados). El riesgo de que se produzca este tipo
de situaciones depende, en gran medida, de
cual sea la capacidad de los responsables del
experimento para monitorizar la actividad de
los gestores del programa y evitar situaciones anmalas.

de unidades para extraer conclusiones rele-

Externalidades. Cualquier efecto indirecto

vantes, mientras que en otro tipo de progra-

sobre los outcomes del grupo de control mo-

mas se precisan varios miles de sujetos para

tivado por la existencia del tratamiento pone

conseguir lo mismo.

De todos modos, es

en entredicho la validez de los resultados

algo a tener en cuenta desde el inicio de la

generados por el experimento. Una seleccin

evaluacin, ya que un experimento con tama-

precisa de las unidades a partir de las cuales

os muestrales insuficientes puede acabar

se realizar el proceso de aleatorizacin pue-

siendo intil para detectar los efectos de un

de prevenir este tipo de sesgo; a modo de

programa, no porque stos no existan, sino

ejemplo, si estamos interesados en medir el

porque nuestro diseo no es capaz de detec-

impacto de un programa escolar de salud

tarlos.

alimentaria sobre la obesidad infantil,

Riesgo de contaminacin. Un problema


con el que pueden encontrarse los ES es que,
a pesar de haber sido asignados aleatoriamente a los grupos de tratamiento y control,
algunos de los individuos del primer grupo
acaben no recibiendo lo que el programa

es

evidente que la aleatorizacin no deber realizarse entre individuos de un mismo colegio


(habr procesos de imitacin), sino entre colegios que se encuentren a cierta distancia
unos de otros.

14
En cualquier caso, la naturaleza prospectiva
de los ES hace que las fases de planificacin
y diseo de la evaluacin sean de crucial importancia. El riesgo de contaminacin, la
existencia de externalidades o cualquier otro
factor que puedan sesgar los resultados de la
evaluacin, debern ser anticipados e incorporados al diseo del experimento para tratar de eliminarlos o, al menos, minimizar su
alcance. En caso contrario, cuando el experi-

apuntan King et al. (2007), la existencia de


estos

otros

condicionantes

poltico-

administrativos no deben ser vistos como


una anomala, sino que constituyen la esencia del terreno en el que se desarrollan las
polticas pblicas y, por ende, los ES. Se trata, por el contrario, de tenerlos en cuenta
desde el principio del experimento y, por supuesto, descartar su aplicacin si hay indicios claros de que ste no va a prosperar.

mento ya se encuentra en marcha, resulta

El futuro de los experimentos sociales a este

prcticamente imposible rehacer el diseo y

lado de los Pirineos

la validez de los resultados obtenidos pueden


quedar seriamente comprometidos.

Los ES constituyen un diseo evaluativo de


una potencia muy notable y su uso, cuando

De todos modos, ms all de las cuestiones

resulta conveniente y se realiza correcta-

tcnicas que acabamos de mencionar, los

mente, puede ayudar a desarrollar polticas

verdaderos obstculos a los que se enfren-

pblicas ms efectivas. Sin embargo, pese al

tan los experimentos suelen ser a menudo

impulso que la experimentacin social ha

de carcter poltico-administrativo. No hay

vivido en las ltimas dcadas, especialmente

constancia de la multitud de experimentos

en EEUU pero tambin en algunos pases

que han sido descartados, muchas veces ale-

europeos, su utilizacin en Espaa ha sido

gando los impedimentos mencionados ante-

hasta el momento inexistente. Es cierto que

riormente (tica, costes, etc.), pero seguro

su implementacin plantea retos tcnicos

que se cuentan por centenares. Por otro lado,

importantes y que a menudo existen condi-

incluso cuando un experimento acaba llevn-

cionantes polticos a tener en cuenta, pero la

dose a cabo, nada impide que un cambio de

total ausencia de ES en nuestro pas no nos

gobierno ponga fin al experimento o que los

parece una situacin que deba mantenerse

responsables de implementarlo en el terreno

por ms tiempo.

traten de sabotearlo [6]. Sin embargo, como

15
Estando como estamos inmersos en una crisis de las finanzas pblicas muy preocupante, parece obligado impulsar el desarrollo de
ES: permitiran cuantificar la efectividad real
de buena parte de las polticas pblicas que
estn ahora bajo sospecha, y que se eliminan
o mantienen sin evidencia alguna sobre su
efectividad, y tambin de los nuevos programas que a menudo se proponen para mejorar la situacin. Asimismo, existen mltiples
profesionales con capacidad tcnica suficiente como para llevar a cabo este tipo de evaluaciones, especialmente en el mbito universitario. Por ltimo, como pone de manifiesto el artculo de Blanca Lzaro en esta
misma revista, existen frmulas de institucionalizacin de la evaluacin experimental
que podran aplicarse en nuestro contexto sin
demasiados problemas (por ejemplo, el Fons
dExprimentation pour la Jeunesse mencionado anteriormente).
Una parte del camino ya est hecho. En el
fondo, la mayora de ES no son sino programas piloto cuya generalizacin depende, fundamentalmente, de la capacidad que demuestren de resultar eficaces. Y, los pilotos,
con ese mismo nombre, no son ajenos a la
realizada de nuestras polticas pblicas: as,
por poner solo un ejemplo, el programa Su-

mat del Servicio de Ocupacin de Catalunya,


que pretende incrementar la insercin laboral de los jvenes con baja formacin, fue
concebido como un proyecto piloto. Sin embargo, lejos de verse como una oportunidad
de testar la efectividad de la poltica antes de
sugerir su generalizacin, los pilotos en
nuestro pas son simplemente ensayos
destinados a mejorar la implementacin del
mismo, pues la efectividad se da por supuesta en la mayora de los casos. No obstante,
una vez determinado que el programa slo
se aplicar en algunos territorios, lo nico
que separa nuestros actuales pilotos de los
ES es la aleatorizacin. Y dicho mecanismo
de asignacin, como ya se ha comentado,
puede resultar fcilmente defendible cuando,
como suele ser el caso, la falta de presupuesto impide aplicar el nuevo programa a
todos los potenciales beneficiarios.
Sin embargo, ms all de las cuestiones anteriores, el gran reto es convencer a los responsables polticos y a los gestores de los
programas de las posibilidades que ofrece la
experimentacin social. Esta suerte de
conversin, por llamarlo de algn modo,
precisa de dos condiciones en absoluto triviales: por un lado, reconocer que no se sabe si
una determinada intervencin va resultar o
no efectiva y, por otro lado, ser consciente de

16
que la experimentacin social es el modo
ms fiable, si se lleva a cabo correctamente,
de evaluar si algo funciona o no. Somos
conscientes de que se trata de un cambio
cultural de primera magnitud.
El camino se nos antoja largo y plagado de
dificultades, pero no hay que pensar que este
no pueda ser recorrido, a menos que aceptemos que hay algo intrnseco a nosotros, algo
gentico, que nos impide introducir la evaluacin experimental en nuestras polticas
pblicas. Nosotros creemos que no lo hay.
De hecho, con este artculo, hemos querido
aportar nuestro granito de arena para que
ms pronto que tarde se llegue a invalidar,
tambin en este campo, el viejo tpico de que
Spain is different y que, por fin, la experimentacin social acabe cruzando los Pirineos.

17

Para saber ms
Descrgate gratuitamente el informe Test, Learn and Adapt, recientemente publicado
por el Cabinet Office del Reino Unido: http://is.gd/U29XIl
No te pierdas el excelente curso gratuito sobre evaluacin experimental impartido por
Esther Duflo y otros miembros del Poverty Action Lab (MIT): http://is.gd/yBeJLN
Muy recomendable la web del What Works Clearinghouse: un magnfico repositorio
sobre intervenciones en el mbito educativo evaluadas experimentalmente: http://is.gd/
j3v2R4

[1]El Plan Prepara, para aquellos que han estado de vacaciones fuera de Espaa, es el programa que concede 400 euros a
los parados de larga duracin que han agotado la prestacin o el subsidio de desempleo, siempre y cuando estos acepten
participar en acciones formativas y/o de orientacin laboral.

[2] No siempre los tratamientos sanitarios son sometidos al escrutinio de evaluaciones experimentales. A este respecto, un
caso especialmente dramtico es el tratamiento con esteroides aplicado a quienes haban sufrido un traumatismo craneal (Haynes et al., 2012). Esta prctica, que se haba utilizado de forma rutinaria durante dcadas, fue sometida a un ensayo
clnico en 2004. Los resultados no slo no demostraron lo que todo el mundo crea (esto es, que se trataba de un tratamiento efectivo), sino que indicaron que el grupo de tratamiento estaba experimentando un riesgo de muerte mayor. De hecho,
el ensayo tuvo que suspenderse para no seguir daando a los sujetos tratados.

[3] En trminos tcnicos este equilibrio implica que, para cada una de dichas caractersticas, no existen diferencias estadsticamente significativas entre la media observada en uno y otro grupo. Vase Duflo et al. (2007) para una descripcin formal
de los fundamentos estadsticos de los experimentos sociales como tcnica para medir impactos.

[4] Pueden encontrarse ejemplos de polticas inefectivas, o incluso perjudiciales, en muchos mbitos de intervencin pblica. Haynes et al. (2012) ofrecen ejemplos interesantes al respecto.

[5] Vase Duflo et al. (2007) para un anlisis detallado al respecto.

[6] A este respecto, resulta ilustrativo uno de los primeros experimentos llevado a cabo en Noruega en materia de polticas
laborales (Torp et al, 1993). Gracias a la existencia previa de un exceso de demanda generalizado, con ms parados que
plazas disponibles, se pens que la aleatorizacin sera factible. Sin embargo, tras la puesta en marcha del experimento,
los trabajadores de las oficinas de trabajo, que deban llevar a cabo el proceso de seleccin, optaron por identificar como
potenciales candidatos un nmero tal de personas que siempre coincida con el de plazas disponibles, eliminando por tanto
la necesidad de aleatorizar la participacin.

18
Bibliografa

Farrington, D. P., & Welsh, B. C. (2005). Randomized experiments in criminology: What

Banerjee, A., & Duflo, E. (2011). Poor econo-

mics: a radical rethinking of the way to fight


global poverty. New York: PublicAffairs.
Bloom, H. S., Hill, C. J., & Riccio, J. A. (2003).
Linking program implementation and effectiveness: Lessons from a pooled sample of
welfaretowork experiments. Journal of Po-

have we learned in the last two decades?

Journal of Experimental Criminology, 1(1), 9


38.
Graversen, B. K., & Van Ours, J. C. (2008). Activating unemployed workers works; Experimental evidence from Denmark. Economics

Letters, 100(2), 308310.

licy Analysis and Management, 22(4), 551


575.

Greenberg, D. H., & Shroder, M. (2004). The

digest of social experiments. Washington D.C:


Burtless, G., & Hausman, J. A. (1978). The

Urban Inst Press.

effect of taxation on labor supply: Evaluating


the Gary negative income tax experiment.

Haynes, L. et alt. (2012). Test, Learn and

The Journal of Political Economy, 86(6), 1103

Adapt. Developing Public Policy with Rando-

1130.

mised Controlled Trials. Cabinet Office. Behavioural Insights Team. Retrieved from http://

Butler, D., Alson, J., Bloom, D., Deitch, V., Hill,

is.gd/U29XIl

A., Hsueh, J. A., Jacobs, E., et al. (2012). What

Strategies Work for the Hard-to-Employ? Fi-

Hendra, R., Riccio, J. A., Dorsett, R., Green-

nal Results of the Hard-to-Employ Demons-

berg, D. H., Knight, G., Phillips, J., Robins, P.

tration and Evaluation Project and Selected

K., et al. (2011). Breaking the low-pay, no-pay

Sites from the Employment Retention and

cycle: Final evidence from the UK Em-

Advancement Project ( No. 2012-08). Office of

ployment Retention and Advancement (ERA)

Planning, Research and Evaluation (OPRE).

demonstration (Vol. 765). Department for


Work and Pensions.

Duflo, E., Glennerster, R., & Kremer, M.


(2007). Using randomization in development

Mosteller, F. (1995). The Tennessee study of

economics research: A toolkit. Handbook of

class size in the early school grades. The fu-

development economics, 4, 38953962.

ture of children, 5(2), 113127.

19
Newhouse, J. P. (1993). Free for all?: lessons

from the RAND health insurance experiment.


Cambridge: Harvard University Press.
Paul Schultz, T. (2004). School subsidies for
the poor: evaluating the Mexican Progresa
poverty program. Journal of development

Economics, 74(1), 199250.


Schochet, P. Z., Burghardt, J., & McConnell,
S. (2008). Does Job Corps Work? Impact Findings from the National Job Corps Study. The

American Economic Review, 98(5), 1864


1886.
Torp, H., Raaum, O., Hernaes, E., & Goldstein,
H. (1993). The first Norwegian experiment. In
Karsten, J. & Madsen, P. K. (Eds.), Measuring

labour market measures: Evaluating the effects of active labour market policies. Copenhagen, Ministry of Labour. Copenhagen: Ministry of Labour.
Vias, V. (2009). The European Unions Drive
towards Public Policy Evaluation The Case of
Spain. Evaluation, 15(4), 459472.

También podría gustarte