Porque No Evaluamos Las PP Como Si Fueran Farmacos PDF

Avaluaci per al Bon Govern
Nmero 3. Octubre 2012
Por qu no evaluamos las polticas pblicas como los frmacos? Una apuesta por la experimentacin social - David Casado
David Casado es doctor en Economa por la Universitat Pompeu Fabra. Como analista
de Ivlua, al que se incopora en 2009, ha participado en la elaboracin de varias de las
guas metodolgicas, ha sido formador en las diversas ediciones del Ciclo de Formacin en Evaluacin de Polticas Pblicas y ha participado en varias de las evaluaciones
realizadas por dicha institucin.
Introduccin
La crisis econmica ha suscitado un renovado inters por la evaluacin de polticas pblicas o, al menos, por los conceptos sobre los que sta versa. As,
ya sea en el mbito estatal, autonmico o local, los
responsables polticos, sean del color que sean, insisten en la necesidad de mejorar la efectividad de
determinados programas o ganar en eficiencia en
la provisin de los servicios pblicos. Esta insistencia nos parece positiva, aunque tenemos dudas de
que este nfasis se mantenga cuando vengan tiempos mejores, lo cual sera un error: preguntarse
si una determinada poltica activa aumenta la insercin laboral de los parados (efectividad) o si, comparado con otras intervenciones, el coste por parado
insertado de dicha poltica es ms o menos favorable (eficiencia) son cuestiones que la Administracin
debera plantearse en todo momento, sea cul sea
la situacin econmica y el estado de las finanzas
pblicas.
No obstante, pese a este auge de la evaluacin en el
plano discursivo, lo cierto es que nuestro pas sigue

encontrndose a la cola de los pases desarrollados
en cuanto a la evaluacin de polticas pblicas
(Vias, 2009). Y, lo que resulta an ms preocupante, cuando al calor de este renovado inters por la
evaluacin se discute sobre el impacto de tal o cual
poltica, los resultados que se invocan suelen estar
basados, en el mejor de los casos, en lecturas errneas de los datos disponibles, cuando no en ancdotas de imposible generalizacin o en apriorismos
ideolgicos sin base emprica alguna.
Dejando de lado la evidencia anecdtica y los apriorismos, para los que el lector seguro que tiene
ejemplos variados, centrmonos en la cuestin de
la mala interpretacin de los datos. El Plan Prepara,
que ha acaparado buena parte de las portadas durante el pasado mes de agosto, resulta un ejemplo
revelador a este respecto [1]. Entre otros motivos, la
necesidad de reformar el programa se justificaba
por el hecho de que slo el 6% de beneficiarios lograba reinsertarse laboralmente. Significa esto
2
que el programa no es efectivo? Bueno, de-
pleo de tcnicas diversas que, sin embargo,
pende de cual es el porcentaje de dichos be-
comparten una caracterstica comn: compa-
neficiarios que, en ausencia del plan Prepara,
rar la evolucin de los outcomes de inters,
se hubieran reinsertado: si la respuesta fu-
como por ejemplo la insercin laboral, entre
ese que el 6%, podramos concluir que en tr-
los participantes en el programa y otro grupo
minos de insercin laboral el programa re-
de personas que, pese a no haber participa-
sulta inefectivo; pero, y si dicho porcentaje
do, resultan muy parecidas a quienes s lo
fuera del 0%? Entonces el Plan Prepara sera
han hecho. Sin embargo, de entre los diver-
el responsable de que 6 de cada 100 benefici-
sos diseos evaluativos existentes, hay uno
aros encontraran un trabajo en vez de seguir
que sobresale por encima del resto: los ex-
desempleados como el resto. Pero como
perimentos sociales (en adelante, ES).
saber cuntos de los beneficiarios del Plan

Prepara habran encontrado trabajo si no
hubieran participado en el programa?
En las pginas que siguen trataremos de explicar en qu consiste un ES y por qu, pese
a su sencillez, constituye el mtodo ms ro-
El dar respuesta a la pregunta anterior cons-
busto para estimar el impacto de una poltica
tituye el gran reto al que se enfrentan qui-
pblica. Asimismo, describiremos qu alcan-
enes se dedican a la evaluacin de impacto.
ce tienen en el mundo este tipo de evaluacio-
Desde esta perspectiva, el impacto de una
nes, las principales crticas que mencionan
intervencin o programa es la diferencia en-
sus detractores y, finalmente, cul puede ser
tre aquello que realmente acontece a los par-
su futuro en nuestro pas, donde hasta el mo-
ticipantes y el denominado contrafactual: esto
mento su nivel de penetracin ha sido nulo.
es, lo que les hubiera ocurrido de no haber

participado. Se trata de un gran reto porque,
Qu son los ES y por qu no tienen rival mi-
obviamente, no es posible que los mismos
diendo impactos?
sujetos participen y no participen simultne-
Supongamos que el Plan Prepara no fuera
amente en un determinado programa. Por
un programa laboral, sino un nuevo frmaco
ello, como puso de manifiesto Marcos Vera
contra un cncer incurable, y que el 6% antes
en un nmero anterior de esta revista, los
mencionado estuviera referido no a la tasa de
evaluadores tratan de aproximarse a la me-
insercin laboral, sino al porcentaje de per-
dida de dicho contrafactual mediante el em-
sonas tratadas que sobreviven al cabo de un
3
ao. Cmo responderan los mdicos a la
insercin laboral de los parados, reducir el
pregunta sobre si el nuevo tratamiento resul-
fracaso escolar, etc.).
ta o no efectivo? En principio, puesto que hace varias dcadas que la profesin mdica
Un ejemplo puede resultar til para ilustrar
basa sus juicios sobre efectividad en la reali-
el funcionamiento de un experimento social.
zacin de ensayos clnicos, cabe esperar que
Supongamos una hipottica poltica activa de
tambin en este caso hubieran procedido del
empleo dirigida a jvenes parados, de entre
mismo modo. As, lejos de pronunciarse so-
16 y 24 aos, que carezcan del graduado en
bre si una tasa de supervivencia del 6% es
ESO. El programa en cuestin, al que po-
baja o alta, se habran preguntado qu por-
dramos denominar Segunda Oportunidad,
centaje de los pacientes hubiera sobrevivido
consistira en un cierto nmero de sesiones
de no haber sido tratados con el nuevo fr-
formativas a las que seguiran unas prcticas
maco. En concreto, tras reclutar a por ejem-
de 6 meses remuneradas. Una evaluacin
plo- 1.000 pacientes dispuestos a participar
experimental de este programa, obviando
en el ensayo, hubieran suministrado el fr-
por el momento mltiples detalles a los que
maco a 500 de ellos elegidos al azar, mien-
nos referiremos ms tarde, podra realizarse
tras a los 500 restantes les hubieran admi-
de la siguiente manera: 1) dar instrucciones a
nistrado un placebo. Al cabo de un ao, hubi-
las oficinas de empleo para que identificaran
eran comparado la tasa de supervivencia del
potenciales beneficiarios del programa, con
grupo de tratamiento (6%) con la del grupo de
el propsito de alcanzar una cifra de 1.000
control (x%) y declarado, sencillamente, que
candidatos; 2) mediante un procedimiento
el frmaco resulta efectivo o no en funcin de
aleatorio, y previo consentimiento de los can-
que x fuera o no menor que un 6 % [2].
didatos, aleatorizaramos la participacin en
Segunda Oportunidad: 500 jvenes lo reciEn esencia, un experimento social es idntico
biran y 500 no y 3) pasado un cierto tiempo
a un ensayo clnico, con la nica diferencia de
tras la finalizacin del programa, compara-
que el tratamiento no es una intervencin
ramos los outcomes relevantes, como el
sanitaria, sino un programa o poltica que
grado de insercin laboral, entre el grupo de
aspira a producir cambios sobre ciertos out-
tratamiento y de control. La figura 1 ilustra
comes que la sociedad valora (incrementar la
grficamente la esencia de una evaluacin
4
experimental del programa Segunda Oportu-
De ese modo, cuando tras la finalizacin del
nidad.
programa comparamos los outcomes entre
Figura 1. Evaluacin experimental del pro-
ambos grupos para inferir el impacto, pode-
grama Segunda Oportunidad
mos descartar que el resultado obtenido sea

la consecuencia de que ambos grupos son
distintos. Por otro lado, al estar expuestos
ambos grupos a los mismos factores de
contexto mientras dura el programa, como
pudiera ser por ejemplo una mejora del mercado laboral en el caso de Segunda Oportuni-
dad, tambin podemos descartar que sean

dichos factores los responsables de las diferencias post-tratamiento en los outcomes. En
Fuente: Adaptado de Haynes et al. (2012: p. 9).
resumen, si detectamos dichas diferencias

en los outcomes entre ambos grupos, podre-
Ahora bien, por qu la aleatorizacin, ya sea

de pacientes en un ensayo clnico o de jvenes parados en nuestro ejemplo, permite
evaluar el impacto de un tratamiento o programa de un modo ms vlido que otras tc-
mos atribuirlos a lo nico que los distingue: a

saber, haber participado o no en el mismo. El
experimento social nos proporciona, por tanto, una estimacin vlida del impacto del programa.
nicas?
Existen diseos evaluativos no experimentaGracias a la aleatorizacin, un experimento
logra que el grupo de tratamiento y el de
control se encuentren equilibrados en todos
aquellos atributos personales que pueden
influir sobre el outcome de inters, como puedan ser, en el caso de Segunda Oportuni-
dad, la motivacin, la experiencia laboral

previa o el hecho de ser o no inmigrante [3].
les que tambin utilizan grupos de comparacin, como puedan ser el matching o el modelo de dobles diferencias, lo cual les permite tener en cuenta la influencia de dichos factores contextuales. Sin embargo, en la medida en que el proceso de participacin en el
programa no es aleatorio, la condicin de que
ambos grupos tengan caractersticas
5
muy similares no est garantizada.
decisiones tanto de los trabajadores de las

Oficinas de Empleo como de los propios jve-
Volvamos al ejemplo de Segunda Oportuni-
nes (motivacin, implicacin de los padres,
dad para tratar de ilustrar este punto. Supon-
renta familiar, etc.), y que claramente afectan
gamos que no se trata de un programa nue-
a las posibilidades de insercin laboral
vo, sino que lleva algunos aos en funciona-
posterior? Constituyen un problema para to-
miento, y que nos encargan evaluar el im-
dos los diseos no experimentales, ya que su
pacto que ste ha tenido sobre los jvenes
influencia sobre los outcomes resulta indis-
que han participado en el mismo. Adems,
tinguible del impacto que realmente tiene el
como de hecho suele ser habitual, suponga-
programa, originando un error en el clculo
mos tambin que la participacin en el pro-
de dicho impacto conocido como sesgo de
grama no viene determinada por un proceso
seleccin. La gran ventaja de los ES es que
de asignacin aleatorio, sino que son los em-
dicho sesgo queda eliminado, ya que el pro-
pleados de las Oficinas de Empleo los que
ceso de participacin viene definido por un
seleccionan a los candidatos a participar y
proceso de asignacin totalmente aleatorio y,
stos, libremente, deciden acabar partici-
como se ha mencionado anteriormente, el
pando o no. En principio, para todas aquellas
grupo de tratamiento y el de control estn
variables registradas en las bases de datos
equilibrados en todos los atributos que pue-
del Servicio de Empleo, como son el sexo, la
den influir sobre los outcomes de inters
edad, el nivel formativo y muchas otras ca-
(incluso aunque sean inobservables!). En el
ractersticas de los individuos, resulta posible
resto de diseos no experimentales, por bien
identificar un grupo de jvenes parados que
hechos que estn, siempre existe una som-
no haya participado en el programa y que sea
bra de duda sobre hasta qu punto el investi-
parecido al grupo de quienes s han partici-
gador ha sido capaz de eliminar completa-
pado.
mente la amenaza de dicho sesgo o, en otras

palabras, descartar la posibilidad de que el
Ahora bien, qu ocurre con todas aquellas
impacto estimado de la poltica no sea el re-
variables sobre las que no disponemos de
sultado de que los participantes son distintos
informacin, inobservables en trminos tc-
a las personas con las que se las ha compa-
nicos, que pueden haber influido sobre las
rado.
6
Qu se entiende exactamente por aleatori-
grama de incentivos a profesores, pero slo
zacin?
hubiera presupuesto para aplicar el esquema
La aleatorizacin de la participacin consti-
en 100 centros, podramos elegir 200 escu-
tuye la piedra angular de un ES y, para que
elas al azar de entre las 1.000 (muestra de
una evaluacin pueda considerarse experi-
candidatos) y, tras ello, asignar aleatoria-
mental, su existencia es un requisito indis-
mente la participacin en el programa a la
pensable. La aleatorizacin que caracteriza
mitad de ellas. La primera aleatorizacin
un ES no debe confundirse con el muestreo
conferira representatividad a nuestros re-
aleatorio que debe exigirse a una encuesta,
sultados, en el sentido de que podran consi-
sea sta de salud o de poblacin activa, para
derarse extrapolables a las 800 escuelas no
que los resultados obtenidos resulten repre-
experimentales, pero es la segunda aleato-
sentativos de la poblacin. Por un lado, mien-
rizacin la que nos permite medir el impacto
tras lo que tiene que ser aleatorio en una en-
del programa y la nica necesaria para califi-
cuesta es la seleccin de los sujetos a entre-
car a una evaluacin de experimental.
vistar, lo que se precisa en un experimento

social es que, de entre los candidatos a parti-
Otra forma de disear, implementar y re-
cipar en el programa, la eleccin de quienes
disear las polticas pblicas
acaban participando y quines no se lleve a
Si bien existen evaluaciones experimentales
cabo mediante un procedimiento aleatorio.
de programas que llevan aos funcionando,
Por otro lado, la aleatorizacin en un ES no
como por ejemplo la realizada entre 1996 y
busca la representatividad de los resultados,
2003 del JobCorps estadounidense (Schochet
sino permitir estimar sin sesgos el impacto
et al., 2008), un programa dirigido a jvenes
del programa evaluado, como ya hemos co-
en riesgo de exclusin social iniciado en 1960
mentado.
y plenamente consolidado, la mayora de ES

se plantean sobre una poltica nueva o sobre
Ello no significa, sin embargo, que un experi-
una variacin de un programa ya existente.
mento social no pueda aleatorizar tambin el
De hecho, a diferencia de las evaluaciones de
proceso de captacin de candidatos. Por
tipo retrospectivo, en las cuales de lo que se
ejemplo, si las 1.000 escuelas de Catalunya
trata es de estimar el impacto que haya podi-
estuvieran dispuestas a participar en un pro-
do tener una poltica una vez concluida, los
7
ES no slo se disean a la par que la poltica
nes, como revela la evaluacin de un progra-
que se pretende evaluar, sino que van de la
ma en el Reino Unido que pretenda reducir
mano durante todo el proceso de implemen-
la dependencia de los beneficiarios de pres-
tacin. En el fondo, como bien indica el suge-
taciones asistenciales, por la va de ayudar a
rente ttulo de un reciente informe sobre ex-
los participantes a retener un empleo cuando
perimentos sociales, Test, Learn and Adapt
finalmente lo encontraban, el programa se
(Haynes et al., 2012), se trata de una modali-
revela efectivo para quienes menos se espe-
dad de evaluacin que abre las puertas a una
raba: as, si polticos, gestores e investigado-
manera distinta de desarrollar las polticas
res pensaban, antes de llevar a cabo la eva-
pblicas, si bien tambin plantea retos im-
luacin, que el nuevo programa sera efectivo
portantes a los polticos y gestores que estn
para las familias monoparentales pero no
dispuestos a impulsarlos.
para los parados de larga duracin, los resultados fueron exactamente los contrarios
En primer lugar, aceptar evaluar experimen-
(Hendra et al., 2011) [4].
talmente una nueva poltica pblica exige

reconocer, explcitamente, que no se sabe
Por otro lado, adems de humildad intelectu-
con certeza si el programa en cuestin va a
al, la naturaleza prospectiva de los ES obliga
resultar o no efectivo. Se trata de un ejercicio
a polticos y gestores a explicitar, de antema-
de humildad intelectual poco comn en el
no, cules son los outcomes sobre los cules
panorama poltico actual, a pesar de que
el programa pretende incidir, as como a
existen innumerables ejemplos de polticas
consensuar con los evaluadores el modo en
cuyos efectos han resultado ser nulos o in-
que dichos outcomes se van a cuantificar.
cluso negativos: por ejemplo, en el mbito de
Asimismo, lejos de verse restringidos a usar
la justicia, de las ms de 80 evaluaciones ex-
los datos que sobre el programa existan, co-
perimentales realizadas en EEUU de progra-
mo ocurre en las evaluaciones de carcter
mas de todo tipo, desde dispositivos de rein-
retrospectivo, los ES permiten a los investi-
sercin de jvenes a modificaciones en los
gadores definir de antemano qu tipo de in-
tipos de sancin, nada menos que el 81% tuvi-
formacin se requiere para llevar a cabo la
eron
negativos
evaluacin y, si es necesario, aadir alguna
(Farrington y Welsh, 2005). En otras ocasio-
nueva variable a los registros administrativos
resultados
nulos
8
o suplementar la informacin de stos a tra-
Los experimentos sociales estn ya al otro
vs de encuestas. Todos estos elementos
lado de los Pirineos
reducen las posibilidades de manipulacin ex
El New Jersey Income Maintenance Experi-
-post de los resultados de la evaluacin, ya
ment, llevado a cabo en los EEUU a finales de
que los diversos elementos han sido defini-
aos 60 del pasado siglo, suele considerarse
dos de antemano, por lo que la credibilidad
la primera evaluacin experimental de una
de los resultados obtenidos aumentan. A ello
poltica pblica (Burtless y Hausman, 1978).
habra que sumar, como ya se coment ante-
Su propsito fue analizar en que medida los
riormente, la superioridad de los experimen-
beneficiarios de un programa de mantenimi-
tos para medir el impacto de un programa de
ento de rentas, similar a los programas auto-
modo vlido.
nmicos de rentas mnimas, modificaban su

comportamiento laboral ante distintas cuan-
Finalmente, de cara al desarrollo de nuevas
tas de la prestacin econmica recibida. A
polticas y al perfeccionamiento de las ya
ese primer experimento siguieron otros
existentes, los resultados de las evaluacio-
igualmente famosos, como el Rand Health
nes experimentales devienen un instrumento
Insurance Experiment, realizado a principios
socialmente muy til. La razn ms obvia es
de los 80, tambin en los EEUU, con el objeti-
que nos permiten determinar, de un modo
vo de testar el impacto sobre la salud y el uso
riguroso, cules son las polticas que funcio-
de servicios sanitarios de distintas configura-
nan y, por tanto, acabar generalizando nica-
ciones de copagos (Newhouse, 1993). En el
mente aquellos programas piloto que han
mbito educativo, destaca el conocido popu-
demostrado ser eficaces. No obstante, inclu-
larmente como Proyecto STAR, llevado a ca-
so si los experimentos revelan la inefectivi-
bo en Tennessee a finales de los 80, con el
dad de una poltica, este resultado deviene
propsito de analizar experimentalmente si
igualmente valioso: nos permite comprender
el tamao de las clases tena impactos sobre
por qu la poltica no surte los efectos desea-
el rendimiento acadmico de los alumnos a
dos y, tras ello, a proponer y testar experi-
medio y largo plazo (Mosteller, 1995).
mentalmente nuevas versiones del programa

que no ha funcionado.
En cualquier caso, adems de los experimentos anteriores, cuya influencia poltica y
9
repercusin meditica result ser especial-
Interamericano de Desarrollo. El reciente
mente acusada, son mltiples los ES realiza-
libro de Banerjee y Duflo (2011), que lleva el
dos durante las ltimas tres dcadas en los
sugerente titulo de Poor Economics, ofrece
EEUU en mbitos tan diversos como la justi-
una panormica realmente interesante de lo
cia (Farrington y Welsh, 2005), la educacin
que ha dado de si la experimentacin social
(Antonio Cabrales, en Nada es Gratis, aqu o
en el mbito de los programas de ayuda al
aqu) o los programas de asistencia social
desarrollo. Tambin en algunos pases de
(Butler et al., 2012). De hecho, segn el in-
Hispanoamrica se han llevado a cabo expe-
ventario realizado por Greenberg y Shroder
rimentos de una trascendencia notable, des-
(2004), el nmero de experimentos sociales
tacando especialmente los programas Pro-
realizados en EEUU en los mbitos seala-
gresa y Seguro Popular de Salud, ambos lle-
dos se acercara a los 300 durante el periodo
vados a cabo en Mjico: el primero para com-
1980-2003. Hay que decir que dichos experi-
batir la pobreza mediante transferencias mo-
mentos no siempre evalan programas del
netarias que deban destinarse a la escolari-
sector pblico, sino que a menudo se trata de
zacin de los nios y a actividades de salud
evaluaciones impulsadas por organizaciones
preventivas (Schultz, 2004), y el segundo para
filantrpicas para testar la efectividad de las
comprobar los efectos sobre la salud y el uso
polticas por ellas financiadas. Incluso en el
de servicios sanitarios de la extensin del
mbito empresarial, como detalla Manuel
aseguramiento sanitario a familias de bajos
Bages en esta otra entrada de Nada Gra-
recursos (King et al., 2007).
tis, se han producido algunos avances sus-
En Europa, hasta hace apenas una dcada,
tanciales en la aplicacin de evaluaciones
los ES constituan una autntica rareza. Sin
experimentales.
embargo, durante estos ltimos aos se han

empezado a realizar numerosas evaluacio-
Otro mbito en el que la experimentacin
nes experimentales, especialmente en el
social ha registrado un avance muy notable
mbito de las polticas laborales, como la
es el relacionado con la evaluacin de los
Employment Retention and Advancement
programas de ayuda al desarrollo, especial-
(ERA) demonstration realizada en el Reino
mente los auspiciados por organismos inter-
Unido (Hendra et al. 2011) o la evaluacin de
nacionales como el Banco Mundial o El Banco
varios esquemas de activacin de parados
10
realizados en Dinamarca (Graversen & Van
Un primer aspecto que suele criticarse de los
Ours, 2008), por poner solo dos ejemplos.
experimentos es que son caros. Sin duda,
Una mencin especial merece el Fons dEx-
esta apreciacin se debe en parte al poso que
primentation pour la Jeunesse, el cual inicia
dejaron los primeros ES llevados a cabo en
su andadura en 2008 y que, a travs de una
EEUU, como el New Jersey Income tax o el
dotacin de ms de 200 millones de euros
Rand Experiment antes mencionados, que
para el periodo 2009-2014, intenta favorecer
implicaron equipos muy numerosos, realiza-
la evaluacin experimental de nuevas formas
cin de encuestas muy costosas, etc. Hoy en
de intervencin destinadas a combatir el fra-
da, como muestra a travs de varios ejem-
caso escolar y la exclusin laboral de los
plos la Coalition for Evidence-Based Policy, la
jvenes franceses. Los programas evaluados
informatizacin de los registros administrati-
hasta el momento, o en curso de evaluacin,
vos ha permitido, en muchos casos, sortear
son muy variados e incluyen desde interven-
la necesidad de realizar costosas encuestas
ciones orientadas a incrementar la implicaci-
sin que por ello se haya perdido riqueza ana-
n de los padres en el proceso educativo
lstica, ya que la exhaustividad y fiabilidad de
(aqu) a la provisin de tutoras para prevenir
dichos registros resulta muy notable. Por
el abandono escolar (aqu), pasando por la
ejemplo, como demuestra el experimento
provisin de servicios de orientacin laboral
llevado a cabo por Fryer en Nueva York ana-
a jvenes parados (aqu).
lizan el impacto de un programa de incentivos a profesores, basta con aleatorizar las
Crticas a los experimentos
escuelas y analizar los outcomes de a travs

de los registros administrativos de la autori-
Tratndose del diseo ms robusto para evaluar el impacto de una poltica, y pese haber
dad educativa (pruebas estandarizadas, tasa

de abandono escolar, etc.).
crecido su nmero en los ltimos aos, no

deja de sorprender que no se lleven a cabo
En cualquier caso, ms all de las considera-
muchos ms ES. En parte, esta carencia de-
ciones econmicas, el argumento habitual
muestra la efectividad de algunas de las crti-
que utilizan los que se oponen a los ES tiene
cas vertidas sobre los experimentos, si bien
un trasfondo tico: resulta inadecuado privar
el fundamento lgico de muchas de ellas re-
a determinados individuos (los del grupo de
sulta cuanto menos cuestionable.
control) de los beneficios que supone una
11
nueva poltica utilizando un mecanismo tan
nuevo programa. Un enfoque de estas carac-
arbitrario como la aleatorizacin. La rplica
tersticas, por poner un ejemplo, es el que se
por parte de aquellos que ven en los ES una
llev a cabo en Mjico para evaluar experi-
herramienta adecuada de evaluacin se sus-
mentalmente el programa Progresa anteri-
tenta en tres consideraciones.
ormente mencionado (Schultz, 2004).
La primera es que la presuncin de que se
Otra crtica que suele formularse con relaci-
est privando a algunos individuos de algo
n a los experimentos es que, pese a que
beneficioso no debera tener sentido si el ex-
permiten establecer la efectividad de una po-
perimento est justificado, ya que es precisa-
ltica, no resultan tiles para comprender por
mente la ausencia de datos sobre la efectivi-
qu la poltica funciona o no. Probablemente
dad del programa lo que justifica su evaluaci-
la crtica fuera acertada en el caso de los pri-
n. Por otra parte, son pocas las ocasiones
meros ES, muchos de ellos de caja negra,
en las que pertenecer al grupo de control
en el sentido de que se aleatorizaba la parti-
implica no recibir ningn tipo de intervenci-
cipacin y se median los resultados post-
n, sino que ms bien lo que se compara es
tratamiento, sin detenerse a describir el pro-
la nueva poltica respecto a seguir como
ceso de implementacin del nuevo progra-
hasta ahora. Finalmente, hay situaciones
ma. Sin embargo, desde hace ya algunos
bastante frecuentes en las que la aleatoriza-
aos, los experimentos mejor diseados su-
cin puede considerarse un criterio de asig-
elen incluir una evaluacin cualitativa y cuan-
nacin equitativo, como por ejemplo cuando
titativa de la implementacin, la cual permite
la falta de recursos no permite atender de
aventurar hiptesis sobre qu componentes
una sola vez a toda la poblacin potencial-
de la poltica pueden haber tenido una mayor
mente beneficiaria de la poltica; de hecho,
influencia en los resultados de impacto ob-
cuando se producen situaciones de este esti-
servados. Un buen ejemplo de este tipo de
lo, un diseo experimental ms aceptable
enfoque es el trabajo de Bloom et al. (2003)
que utilizar una simple lotera entre individu-
sobre los efectos de los programas de activa-
os es optar por un despliegue gradual aleato-
cin dirigidos a los perceptores de prestacio-
rizado: lo que se aleatoriza es el momento
nes asistenciales, ya que los experimentos
del tiempo en el que distintos grupos de indi-
realizados no slo permitieron establecer la
viduos o territorios comenzarn a recibir el
efectividad de los distintos programas,
12
sino tambin la mayor o menor influencia
dos, esto es, un ejercicio cuantitativo de sn-
sobre sta de diversos componentes de los
tesis que pretende establecer si el programa
mismos (grado de personalizacin de la
resulta efectivo con carcter general, con in-
atencin, nmero de casos por trabajador
dependencia de las poblaciones, lugares y
social, nfasis en buscar empleo por encima
momentos en los que este se aplique. A tal
de la formacin, etc.).
efecto, deviene crucial la labor de inventariado llevada a cabo por organizaciones o inicia-
Una ltima objecin que habitualmente se

hace a los experimentos es que suelen carecer de validez externa o, en palabras menos
tcnicas, que los resultados que se obtienen
en relacin al impacto de una poltica, aunque vlidos con respecto a los sujetos, mo-
tivas de distinta ndole, como por ejemplo el

What Works Clearinghouse, que evala y sintetiza los resultados de todo tipo de experimentos llevados a cabo en el mbito educativo (programas de lectura, de refuerzo escolar, de atencin precoz, etc.).
mento y lugar en que el experimento se llev

a cabo, pueden no ser extrapolables a contextos distintos. Aquellos que se dedican a la
experimentacin social han tratado de mitigar la falta de validez externa por dos vas.
En primer lugar, aunque a costa de incrementar los recursos necesarios, son habituales las evaluaciones multi-site, en las que el
programa se evala aplicndolo en lugares
diversos (por ejemplo, escuelas pblicas y
concertadas, rurales y urbanas, etc.), con el
propsito de analizar hasta qu punto los
resultados de impacto varan de unos contex-
Algunas precauciones
Puede que las crticas a los experimentos no
resulten adecuadas en muchos casos, pero
no por ello hay que pensar que llevar a cabo
una evaluacin experimental resulta una tarea sencilla. En primer lugar, desde una
perspectiva metodolgica, hay que ser consciente de los retos que supone realizar una
evaluacin experimental y de las dificultades
que pueden aparecer. Algunas de las ms
importantes son las siguientes [5]:
tos a otros. Por otro lado, cuando el nmero
El tamao de los grupos. Una de las prime-
de rplicas experimentales de un determina-
ras cuestiones a la que tiene que dar res-
do tipo de programa es lo bastante importan-
puesta un ES es cuntas unidades, sean s-
te, pueden llevarse a cabo lo que se denomi-
tas alumnos, escuelas o juzgados, han de
na un meta-anlisis de los resultados obteni-
formar parte de los grupos de control y
13
de tratamiento. Dejando de lado los detalles
estadsticos, diremos simplemente que hay
dos factores que influyen especialmente sobre la cuestin del tamao de las muestras:
de un lado, la magnitud del impacto que queramos ser capaces de detectar (por ejemplo,
aumentos de la insercin laboral de un punto
porcentual) y, de otro, el grado de incertidumbre sobre la validez de nuestros resultados que estemos dispuestos a tolerar. A veces, existen determinadas intervenciones en
las que basta con aleatorizar unas decenas
prev (por ejemplo, porque decidan no asistir

a las clases que Segunda Oportunidad estipula) y/o algunos del grupo de control acaben
teniendo acceso a l (por ejemplo, porque los
trabajadores de las oficinas de empleo sucumben a las presiones de algunos no tratados). El riesgo de que se produzca este tipo
de situaciones depende, en gran medida, de
cual sea la capacidad de los responsables del
experimento para monitorizar la actividad de
los gestores del programa y evitar situaciones anmalas.
de unidades para extraer conclusiones rele-
Externalidades. Cualquier efecto indirecto
vantes, mientras que en otro tipo de progra-
sobre los outcomes del grupo de control mo-
mas se precisan varios miles de sujetos para
tivado por la existencia del tratamiento pone
conseguir lo mismo.
De todos modos, es
en entredicho la validez de los resultados
algo a tener en cuenta desde el inicio de la
generados por el experimento. Una seleccin
evaluacin, ya que un experimento con tama-
precisa de las unidades a partir de las cuales
os muestrales insuficientes puede acabar
se realizar el proceso de aleatorizacin pue-
siendo intil para detectar los efectos de un
de prevenir este tipo de sesgo; a modo de
programa, no porque stos no existan, sino
ejemplo, si estamos interesados en medir el
porque nuestro diseo no es capaz de detec-
impacto de un programa escolar de salud
tarlos.
alimentaria sobre la obesidad infantil,
Riesgo de contaminacin. Un problema

con el que pueden encontrarse los ES es que,
a pesar de haber sido asignados aleatoriamente a los grupos de tratamiento y control,
algunos de los individuos del primer grupo
acaben no recibiendo lo que el programa
es
evidente que la aleatorizacin no deber realizarse entre individuos de un mismo colegio

(habr procesos de imitacin), sino entre colegios que se encuentren a cierta distancia
unos de otros.
14
En cualquier caso, la naturaleza prospectiva
de los ES hace que las fases de planificacin
y diseo de la evaluacin sean de crucial importancia. El riesgo de contaminacin, la
existencia de externalidades o cualquier otro
factor que puedan sesgar los resultados de la
evaluacin, debern ser anticipados e incorporados al diseo del experimento para tratar de eliminarlos o, al menos, minimizar su
alcance. En caso contrario, cuando el experi-
apuntan King et al. (2007), la existencia de

estos
otros
condicionantes
poltico-
administrativos no deben ser vistos como

una anomala, sino que constituyen la esencia del terreno en el que se desarrollan las
polticas pblicas y, por ende, los ES. Se trata, por el contrario, de tenerlos en cuenta
desde el principio del experimento y, por supuesto, descartar su aplicacin si hay indicios claros de que ste no va a prosperar.
mento ya se encuentra en marcha, resulta
El futuro de los experimentos sociales a este
prcticamente imposible rehacer el diseo y
lado de los Pirineos
la validez de los resultados obtenidos pueden

quedar seriamente comprometidos.
Los ES constituyen un diseo evaluativo de

una potencia muy notable y su uso, cuando
De todos modos, ms all de las cuestiones
resulta conveniente y se realiza correcta-
tcnicas que acabamos de mencionar, los
mente, puede ayudar a desarrollar polticas
verdaderos obstculos a los que se enfren-
pblicas ms efectivas. Sin embargo, pese al
tan los experimentos suelen ser a menudo
impulso que la experimentacin social ha
de carcter poltico-administrativo. No hay
vivido en las ltimas dcadas, especialmente
constancia de la multitud de experimentos
en EEUU pero tambin en algunos pases
que han sido descartados, muchas veces ale-
europeos, su utilizacin en Espaa ha sido
gando los impedimentos mencionados ante-
hasta el momento inexistente. Es cierto que
riormente (tica, costes, etc.), pero seguro
su implementacin plantea retos tcnicos
que se cuentan por centenares. Por otro lado,
importantes y que a menudo existen condi-
incluso cuando un experimento acaba llevn-
cionantes polticos a tener en cuenta, pero la
dose a cabo, nada impide que un cambio de
total ausencia de ES en nuestro pas no nos
gobierno ponga fin al experimento o que los
parece una situacin que deba mantenerse
responsables de implementarlo en el terreno
por ms tiempo.
traten de sabotearlo [6]. Sin embargo, como
15
Estando como estamos inmersos en una crisis de las finanzas pblicas muy preocupante, parece obligado impulsar el desarrollo de
ES: permitiran cuantificar la efectividad real
de buena parte de las polticas pblicas que
estn ahora bajo sospecha, y que se eliminan
o mantienen sin evidencia alguna sobre su
efectividad, y tambin de los nuevos programas que a menudo se proponen para mejorar la situacin. Asimismo, existen mltiples
profesionales con capacidad tcnica suficiente como para llevar a cabo este tipo de evaluaciones, especialmente en el mbito universitario. Por ltimo, como pone de manifiesto el artculo de Blanca Lzaro en esta
misma revista, existen frmulas de institucionalizacin de la evaluacin experimental
que podran aplicarse en nuestro contexto sin
demasiados problemas (por ejemplo, el Fons
dExprimentation pour la Jeunesse mencionado anteriormente).
Una parte del camino ya est hecho. En el
fondo, la mayora de ES no son sino programas piloto cuya generalizacin depende, fundamentalmente, de la capacidad que demuestren de resultar eficaces. Y, los pilotos,
con ese mismo nombre, no son ajenos a la
realizada de nuestras polticas pblicas: as,
por poner solo un ejemplo, el programa Su-
mat del Servicio de Ocupacin de Catalunya,

que pretende incrementar la insercin laboral de los jvenes con baja formacin, fue
concebido como un proyecto piloto. Sin embargo, lejos de verse como una oportunidad
de testar la efectividad de la poltica antes de
sugerir su generalizacin, los pilotos en
nuestro pas son simplemente ensayos
destinados a mejorar la implementacin del
mismo, pues la efectividad se da por supuesta en la mayora de los casos. No obstante,
una vez determinado que el programa slo
se aplicar en algunos territorios, lo nico
que separa nuestros actuales pilotos de los
ES es la aleatorizacin. Y dicho mecanismo
de asignacin, como ya se ha comentado,
puede resultar fcilmente defendible cuando,
como suele ser el caso, la falta de presupuesto impide aplicar el nuevo programa a
todos los potenciales beneficiarios.
Sin embargo, ms all de las cuestiones anteriores, el gran reto es convencer a los responsables polticos y a los gestores de los
programas de las posibilidades que ofrece la
experimentacin social. Esta suerte de
conversin, por llamarlo de algn modo,
precisa de dos condiciones en absoluto triviales: por un lado, reconocer que no se sabe si
una determinada intervencin va resultar o
no efectiva y, por otro lado, ser consciente de
16
que la experimentacin social es el modo
ms fiable, si se lleva a cabo correctamente,
de evaluar si algo funciona o no. Somos
conscientes de que se trata de un cambio
cultural de primera magnitud.
El camino se nos antoja largo y plagado de
dificultades, pero no hay que pensar que este
no pueda ser recorrido, a menos que aceptemos que hay algo intrnseco a nosotros, algo
gentico, que nos impide introducir la evaluacin experimental en nuestras polticas
pblicas. Nosotros creemos que no lo hay.
De hecho, con este artculo, hemos querido
aportar nuestro granito de arena para que
ms pronto que tarde se llegue a invalidar,
tambin en este campo, el viejo tpico de que
Spain is different y que, por fin, la experimentacin social acabe cruzando los Pirineos.
17
Para saber ms
Descrgate gratuitamente el informe Test, Learn and Adapt, recientemente publicado
por el Cabinet Office del Reino Unido: http://is.gd/U29XIl
No te pierdas el excelente curso gratuito sobre evaluacin experimental impartido por
Esther Duflo y otros miembros del Poverty Action Lab (MIT): http://is.gd/yBeJLN
Muy recomendable la web del What Works Clearinghouse: un magnfico repositorio
sobre intervenciones en el mbito educativo evaluadas experimentalmente: http://is.gd/
j3v2R4
[1]El Plan Prepara, para aquellos que han estado de vacaciones fuera de Espaa, es el programa que concede 400 euros a
los parados de larga duracin que han agotado la prestacin o el subsidio de desempleo, siempre y cuando estos acepten
participar en acciones formativas y/o de orientacin laboral.
[2] No siempre los tratamientos sanitarios son sometidos al escrutinio de evaluaciones experimentales. A este respecto, un
caso especialmente dramtico es el tratamiento con esteroides aplicado a quienes haban sufrido un traumatismo craneal (Haynes et al., 2012). Esta prctica, que se haba utilizado de forma rutinaria durante dcadas, fue sometida a un ensayo
clnico en 2004. Los resultados no slo no demostraron lo que todo el mundo crea (esto es, que se trataba de un tratamiento efectivo), sino que indicaron que el grupo de tratamiento estaba experimentando un riesgo de muerte mayor. De hecho,
el ensayo tuvo que suspenderse para no seguir daando a los sujetos tratados.
[3] En trminos tcnicos este equilibrio implica que, para cada una de dichas caractersticas, no existen diferencias estadsticamente significativas entre la media observada en uno y otro grupo. Vase Duflo et al. (2007) para una descripcin formal
de los fundamentos estadsticos de los experimentos sociales como tcnica para medir impactos.
[4] Pueden encontrarse ejemplos de polticas inefectivas, o incluso perjudiciales, en muchos mbitos de intervencin pblica. Haynes et al. (2012) ofrecen ejemplos interesantes al respecto.
[5] Vase Duflo et al. (2007) para un anlisis detallado al respecto.
[6] A este respecto, resulta ilustrativo uno de los primeros experimentos llevado a cabo en Noruega en materia de polticas
laborales (Torp et al, 1993). Gracias a la existencia previa de un exceso de demanda generalizado, con ms parados que
plazas disponibles, se pens que la aleatorizacin sera factible. Sin embargo, tras la puesta en marcha del experimento,
los trabajadores de las oficinas de trabajo, que deban llevar a cabo el proceso de seleccin, optaron por identificar como
potenciales candidatos un nmero tal de personas que siempre coincida con el de plazas disponibles, eliminando por tanto
la necesidad de aleatorizar la participacin.
18
Bibliografa
Farrington, D. P., & Welsh, B. C. (2005). Randomized experiments in criminology: What
Banerjee, A., & Duflo, E. (2011). Poor econo-
mics: a radical rethinking of the way to fight

global poverty. New York: PublicAffairs.
Bloom, H. S., Hill, C. J., & Riccio, J. A. (2003).
Linking program implementation and effectiveness: Lessons from a pooled sample of
welfaretowork experiments. Journal of Po-
have we learned in the last two decades?
Journal of Experimental Criminology, 1(1), 9

38.
Graversen, B. K., & Van Ours, J. C. (2008). Activating unemployed workers works; Experimental evidence from Denmark. Economics
Letters, 100(2), 308310.
licy Analysis and Management, 22(4), 551

575.
Greenberg, D. H., & Shroder, M. (2004). The
digest of social experiments. Washington D.C:

Burtless, G., & Hausman, J. A. (1978). The
Urban Inst Press.
effect of taxation on labor supply: Evaluating

the Gary negative income tax experiment.
Haynes, L. et alt. (2012). Test, Learn and
The Journal of Political Economy, 86(6), 1103
Adapt. Developing Public Policy with Rando-
1130.
mised Controlled Trials. Cabinet Office. Behavioural Insights Team. Retrieved from http://
Butler, D., Alson, J., Bloom, D., Deitch, V., Hill,
is.gd/U29XIl
A., Hsueh, J. A., Jacobs, E., et al. (2012). What
Strategies Work for the Hard-to-Employ? Fi-
Hendra, R., Riccio, J. A., Dorsett, R., Green-
nal Results of the Hard-to-Employ Demons-
berg, D. H., Knight, G., Phillips, J., Robins, P.
tration and Evaluation Project and Selected
K., et al. (2011). Breaking the low-pay, no-pay
Sites from the Employment Retention and
cycle: Final evidence from the UK Em-
Advancement Project ( No. 2012-08). Office of
ployment Retention and Advancement (ERA)
Planning, Research and Evaluation (OPRE).
demonstration (Vol. 765). Department for

Work and Pensions.
Duflo, E., Glennerster, R., & Kremer, M.

(2007). Using randomization in development
Mosteller, F. (1995). The Tennessee study of
economics research: A toolkit. Handbook of
class size in the early school grades. The fu-
development economics, 4, 38953962.
ture of children, 5(2), 113127.
19
Newhouse, J. P. (1993). Free for all?: lessons
from the RAND health insurance experiment.

Cambridge: Harvard University Press.
Paul Schultz, T. (2004). School subsidies for
the poor: evaluating the Mexican Progresa
poverty program. Journal of development
Economics, 74(1), 199250.

Schochet, P. Z., Burghardt, J., & McConnell,
S. (2008). Does Job Corps Work? Impact Findings from the National Job Corps Study. The
American Economic Review, 98(5), 1864

1886.
Torp, H., Raaum, O., Hernaes, E., & Goldstein,
H. (1993). The first Norwegian experiment. In
Karsten, J. & Madsen, P. K. (Eds.), Measuring
labour market measures: Evaluating the effects of active labour market policies. Copenhagen, Ministry of Labour. Copenhagen: Ministry of Labour.
Vias, V. (2009). The European Unions Drive
towards Public Policy Evaluation The Case of
Spain. Evaluation, 15(4), 459472.

Porque No Evaluamos Las PP Como Si Fueran Farmacos PDF

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Porque No Evaluamos Las PP Como Si Fueran Farmacos PDF

Cargado por

Copyright:

Formatos disponibles

Avaluaci per al Bon Govern

Nmero 3. Octubre 2012

plano discursivo, lo cierto es que nuestro pas sigue

pleo de tcnicas diversas que, sin embargo,

pende de cual es el porcentaje de dichos be-

comparten una caracterstica comn: compa-

neficiarios que, en ausencia del plan Prepara,

rar la evolucin de los outcomes de inters,

se hubieran reinsertado: si la respuesta fu-

como por ejemplo la insercin laboral, entre

ese que el 6%, podramos concluir que en tr-

los participantes en el programa y otro grupo

minos de insercin laboral el programa re-

de personas que, pese a no haber participa-

sulta inefectivo; pero, y si dicho porcentaje

do, resultan muy parecidas a quienes s lo

fuera del 0%? Entonces el Plan Prepara sera

han hecho. Sin embargo, de entre los diver-

el responsable de que 6 de cada 100 benefici-

sos diseos evaluativos existentes, hay uno

aros encontraran un trabajo en vez de seguir

que sobresale por encima del resto: los ex-

desempleados como el resto. Pero como

perimentos sociales (en adelante, ES).

saber cuntos de los beneficiarios del Plan

El dar respuesta a la pregunta anterior cons-

busto para estimar el impacto de una poltica

tituye el gran reto al que se enfrentan qui-

pblica. Asimismo, describiremos qu alcan-

enes se dedican a la evaluacin de impacto.

ce tienen en el mundo este tipo de evaluacio-

Desde esta perspectiva, el impacto de una

nes, las principales crticas que mencionan

intervencin o programa es la diferencia en-

sus detractores y, finalmente, cul puede ser

tre aquello que realmente acontece a los par-

su futuro en nuestro pas, donde hasta el mo-

ticipantes y el denominado contrafactual: esto

mento su nivel de penetracin ha sido nulo.

es, lo que les hubiera ocurrido de no haber

Qu son los ES y por qu no tienen rival mi-

obviamente, no es posible que los mismos

sujetos participen y no participen simultne-

Supongamos que el Plan Prepara no fuera

amente en un determinado programa. Por

un programa laboral, sino un nuevo frmaco

ello, como puso de manifiesto Marcos Vera

contra un cncer incurable, y que el 6% antes

en un nmero anterior de esta revista, los

mencionado estuviera referido no a la tasa de

evaluadores tratan de aproximarse a la me-

insercin laboral, sino al porcentaje de per-

dida de dicho contrafactual mediante el em-

sonas tratadas que sobreviven al cabo de un

insercin laboral de los parados, reducir el

pregunta sobre si el nuevo tratamiento resul-

fracaso escolar, etc.).

Un ejemplo puede resultar til para ilustrar

basa sus juicios sobre efectividad en la reali-

el funcionamiento de un experimento social.

zacin de ensayos clnicos, cabe esperar que

Supongamos una hipottica poltica activa de

tambin en este caso hubieran procedido del