Meta-Análisis en Ciencias Sociales y de La Salud - Juan Botella Julio Sánchez Meca

Meta-anélisis
en ciencias sociales y de la salud

PROYECI’O EDITORIAL:
Metodologia de las Ciencias del Comportamiento y de la Salud
Directores:
Antonio Pardo Merino
Miguel Angel Ruiz Diaz
Meta-anélisis
en ciencias sociales y de la salud
Juan Botella Ausina - Julio Sénchez Meca
Consult: nucstra pégina web: wwwsintesisxom
En clla cnconttara‘i cl catilogo complete y comcntado
Reservados todos los derechos. Fsré prohibido, bajo las sanciones

penalw y el resarcimiento civil previstos en las leyw, reproducir, registrar
o transmitir ma publicacién, integra o parcialmente,
por cualquier sistema de recuperacién y por cualquier media,
sea nwcénico, electrénico, magnétioo, electro-fiptico, par fotocopia
0 par cualquier Otto, sin la autorizacién previa por escrim
de Editorial Sintesis, 5. A.
6 Juan Botella Ausina y Julio Sinchez Meca
9 EDITORIAL SINI'ESIS, s. A.
Vallehermoso, 34. 28015 Madrid
Teléfono 91 593 20 98
httpflwwwsinmisxom
ISBN: 9T8-84-907766-2‘9
Impreso en Espafia - Printed in Spain

indice de contenidos
Presentacién............................................................................................................... ll
1. El contexto del meta-anilisls ................................................................................ 13

1.1. Nota histérica, ............................................................................................. 14
1.2. Objetivos y caracteristicas del meta-anilisis .............................................. 17
1.3. Fases en su aplicacién ................................................................................. 17
2. Una métrica comfin: indices de tamafio del efecto ............................................. 21

2.1. tndices basados e11 diferencias dc medias................................................... 24
2.1.1. Diferencia dc medias tipificada ....................................................... 25
2.1.2. Diferencia de medias directs. ............................................................ 28
2.1.3. Cambio medic tipificado................................................................. 29
2.1.4. Diferencia dc cambios medias tipificados ....................................... 36
2.1.5. Eleccién de un indice de comparacién entre gtupos ........................ 44
2.2. Indices basados en conelaciones entre variables cuantitativas................... 45
2.2.1. Correlacién dc Pearson .................................................................... 45
2.3. tndices para variables dicoténficas.............................................................. 47
2.3.1. Diferencia de proporciones .............................................................. 49
2.3.2. Razén de proporciones ..................................................................... 50
2.3.3. Razén de ventajas ............................................................................ 51
2.3.4. Eleccién de un indice para variables dicotémicas........................... 53
2.4. Relacién entre d, r y R V .............................................................................. 54
2.5. Dims indices ................................................................................................ 56
2.5.1. Proporcién simple............................................................................ 57
2.5.2. Media aritmética simple.................................................................. 58
2.5.3. fndices psicométricos de 105 tests ................................................... 59
2.6. Caracteristicas de un buen indice de tamafio del efecto............................. 61
2.7. Valoracién del tamafio del efecto............................................................... 62
3. Estimacién combinada y heterogeneidad .......................................................... 65

3.1. Modelos estadisticos en meta-anélisis....................................................... 66
3.1.1. Modelo de efecto fijo ...................................................................... 67
3.1.2. Modelo dc efectos aleatorios.......................................................... 69
3.2. Evaluacién de la heterogeneidad............................................................... 74
3.3. Una herramienta graifica: e1 forest plat ...................................................... 75
3 Mela-anélisls en Glenda; Socialee y de la Salud
3.3.1. Elementos nucleares ................................................................. 76

3.3.2. Elementos adicionales ............................................................... 76
3.3.3. Estrategias dc anilisis visual mnfiirestplar............................ 77
3.4. Ejemplo dc estimacién combinada y anéfisis de la heterogeneidad ..... 78
3.4.1. Estimacién del efecto medic ..................................................... 78
3.4.2. Estadisticos dc heterogeneidad ................................................. 86
3.4.3. E1 forest plat.............................................................................. 86
3.5. Eleccién del modelo estadistico........................................................... 88
4. Anilisis de moderadores cualitatlvos ........................................................... 93

4.1. Modelos estadisticos para moderadores cualitativos............................ 94
4.2. Modelo dc efectos fijos ........................................................................ 95
4.2.1. Ejemplo del modelo de efectos fijos ......................................... 102
4.3. Modelo de efectos mixtos ..................................................................... 109
4.3.1. Estimacién separada de las varianzas interestudios ................ 1 12
4.3.2. Estimacién conjunta de las varianzas interesmdios................. 113
4.3.3. Ejemplo del modelo de efectos mixtos ..................................... 114
4.4. Estimacifin de la proporcién de varianza explicada............................. 124
4.5. Eleccién del modelo estadistico ........................................................... 127
5. Anilisis de moderadores confinuos: meta-regresién .................................. 129

5.1. Modelos estadisticos dc meta-regesién ............................................... 130
5.2. Modelo dc efectos fijos........................................................................ 131
5.2.1. Ejemplo de meta-regresién, modeler de efectos fijos................ 136
5.3. Modclo dc efectos mixtos..................................................................... 140
5.3.1. Modelo asts'mdar........................................................................ 142
5.3.2. Método de Knapp y Hartung.................................................... 144
5.3.3. Ejemplo dc meta-regresién, modelo de efectos mixtos............ 146
5.4. Estimacién de la proporcién dc Tvarianza explicada............................. 152
5.5. Ejemplo dc meta-regresién mfiltiple .................................................... 153
5.6. Reflexiones finales ............................................................................... 157
6. Meta-anéfisis y psicometria ........................................................................... 161

6.1. Validez .................................................................................................. 162
6.1.1. Atenuacién y desatennacién de coeficientes dc validez ........... 163
6.1.2. Meta-anélisis de correlaciones conegidas................................ 168
6.1.3. Atenuacién y desatenuacién a nivel del meta-anélisis.............. 172
6.2. Fiabilidad. ............................................................................................. 173
6.2.1. Varias formas dc fiabilidad ....................................................... 174
6.2.2. Desarrollo de un estudio dc generalizacién de la fiabilidad.... 175
6.2.3. Problemas en los estudios dc generalizacién de la fiabilidad... 175
6.3. Precisién de clasificaciones diagnésticas binarias............................... 178
6.3.1. Precisién de los insu'umentos de clasificacién binaria............. 179
Indlce de oomenldos 9
6.3.2. Procedimientos de integracién meta-analitica ......................... 181

6.3.3. Valoracién de los procedimientos ............................................. 185
7. Meta-anilisis en campus especiales.............................................................. 187

7.1. Modelos multivariados ......................................................................... 188
7.1.1. Dificultades para sintetizar una matriz de correlaciones .......... 189
7.1.2. Procedinfientos de ajuste.......................................................... 191
7.2. Integracién de estudios dc caso mica (N = l) .................................... 191
7.2.1. Diferencia dc medias................................................................ 194
7.2.2. Medidas no paramétricas.......................................................... 196
7.2.3. Medidas paramétricas ............................................................... 198
7.2.4. Caractcristicas dcseables en un indice dc tamafio dcl cfccto
en disefios N = 1 ...................................................................... 200
7.2.5. Una alternativa: anélisis con un modelo multinivel .................. 201
7.3. Meta-anilisis acumulativo prospective................................................ 201
7.3.1. Anélisis y muestreo secuencial en esmdios primarios.............. 202
7.3.2. Anilisis secuencial y meta-anilisis acumulativo ...................... 203
8. Validez del meta-anélisis............................................................................... 207

8.1. La calidad do 108 estudios primarios.................................................... 208
8.2. El problema de la heterogeneidad de los estudios................................ 214
3.3. El sesgo dc publicacién........................................................................ 215
8.3.1. Valoracién de la menaza: los nfimeros de seguridad............. 216
8.3.2. Deteccién de la prwencia de sesgo: asimen'ia delflnnelpiot.. 222
8.3.3. Procedjmientos para corregir e1 sesgo...................................... 226
8.4. Las inferencias meta—analiticas............................................................ 228
8.5. Los tests de sensibilidad....................................................................... 23 l
9. Topicos especiales........................................................................................... 233

9.1. Sofiware para meta-anélisis.................................................................. 233
9.1.1. Calculadoras de indices dc tamafio del efccto.......................... 234
9.1.2. Programas generales................................................................. 234
9.1.3. Programas especifico:............................................................... 235
9.2. El informe meta-analitico ..................................................................... 236
9.3. Criticas a1 meta-anilisis........................................................................ 238
9.4. El future del meta-anfifisis .................................................................... 240
Anexo: Guia MARS .................................................................................... 243
'
R e f erenclas b'bli
1 was 247
Presentacién
E1 enorme crecimiento que la investigacién cientifica experimentfi ttas 1a Segunda

Guerra Mundial generé una produccién dificil dc asimilar por los propios cicntificos.
Paco a poco so fine hacienda patente- la necesidad dc contar con procedimientos fia-
bles con los que sintetizar los resultados que afio tras afio se iban acumulando respec-
to a casi cada objetivo dc investigacién. En los afios 70 nacié cl mem-andlisis, una
metodologia cuya vocacién era precisamcnte la de proveer los medics con los que
afiontar esta tarea. Los primeros afios filBl‘OIl convulsos. El meta-anélisis file recibido
con interés pero también con filertes criticas, algunas realmente carteras. Estas sir-
vieron de acicate para buscar mejores soluciones y para desarrollar procedimientos
con los qua resolver 10s nuevos problems que se iban sefialando. Hay es una matado-
logia consolidada que se puede encontrar casi en cualquier disciplina de la investiga-
cién cientifica. Aunque nacié a caballo entre la psicologia y la educacién, pronto
cruzb la fi'ontcra dc la medicine. y otras ciencias dc la salud. Més tardc 36 ha ido
extendiendo a la ecologist, la etologia, la econonfia, e1 marketing, 1a criminologia y
otras disciplinas can objetos dc estudio y metodologias extraordinariamente variados.
Todas ellas tienen en coml'm la necesidad dc transmitir a la sociedad mensajes clams
en los que se resuman las evidencias disponibles; cl meta-anélisis proporciona las
herranfientas para sintetizar esas evidencias.
El augc del meta-anilisis se ha visto reforzado por la aparicién del enfoque de la
medicim basada en la evidencia, que posteriormente se ha extrapolado a otras disci-
plinas, de forma que actualmente puede hablarse en términos generales de prdcfica
basada en la evidencia (PBE). El papel que desempefla e1 meta-anfilisis en la PBE es
crucial, ya que los meta-anilisis ofi'ecen una visién sintética dc cuéles son las
evidencias cientificas, entIe otras, sobre los mejores Iratamientos, intervenciones,
técnicas dc diagnéstico y factores dc riesgoiproteccién dc detcnninados problems
directamente implicados en la prfictica profesional dc mfiltiples disciplinas.
Durante muchos afios hemos impartido cursos sabre meta-anilisis a estudiantes
de posgrado. La mayoria en mésteres y doctorados relacionados con la psicologia, pe-
ro también en programas fomativos destinados a otms campus como la medicina, fi-
sioterapia, enfenncria, cicncias de la actividad fisica y dcl departs, marketing 3; direc-
cién de empresas, criminologia 01a pedagogia. Estes afios de experiencia docente han
ido acompafiados de la tarea dc elaborar materiales eficaces a la vcz para distintos
nivelw dc conocimientos y de objetivos de aprendizaje. Con frecuencia, los estu-
diantes nos han preguntado para cuéndo 1m libro en espafiol que exponga los conte-
nidos de nuestms curses y que ofiezca ejemplos detallados, paso a paso, de los proce-
dimientos. Tras muchas demoras por fin el libro esté en sus manos. E5peramos que
cumpla con sus expectativas. Ademés, muchos invesfigadores acuden a nosou'os para
12 Meta-anallsis en Glenda: Sociales y de la Salud
buscar asesoramiento en la realizacién de un meta-anélisis. También ellos podrén

encontrar en este libro respuestas a muchas de las preguntas que suelen planteamos.
Esta obra va dirigida a unos y 0110s, nuestros estudiantes y nuesims compafleros en la
dificil pero apasionantc tarea de la investigacién.
Una de las primeras decisiones a la hora dc disefiar el libro ha sido la de deli-
mitar sus contenidos. En un firca qua esté en tan rfipido desan'ollo cs facil incluir co-
sas que son muy actuales para que se quedarén pronto en una moda pasajera. Hemos
mtentado restingimos a los procedimientos que nos parecen ya suficientemente con-
u'astados y extendidos coma para pensaI que se van a quedar una buena temporada.
Peru 3 la vez hemos querido también an'iesgamos a mencionax algunos wpicos que
aunque todavia estén en pleno desan'ollo pareoen destinados a format parte del bagaje
de procedimientos del meta-anilisis.
A 10 largo de los capitulos qua sigucn iremos abordando los aspectos principalas
de esta metodologia. Tras 1111a introduccién conceptual en el capitulo 1, incluyendo
una breve resefia histérica, en el capitulo 2 expondremos los indices dc tamafio del
efecto més utilizados en ciencias sociales y de la salud. En el capitulo 3 trataremos las
técnicas estadisticas nucleares de esta metodologia, disefiadas para obtener wtima-
ciones combinadas, con el intervalo dc confianza asociado, tanto con modelos dc
efecto fijo como dc efectos aleatorios, asi come para evaluar la heterogeneidad. En los
capitulos 4 y 5 expondremos procedimientos para analizar la hetemgeneidad mediante
modelos con moderadores cualitativos y cuantitativos, respectivamente. El capitulo 6
esté dedicado a1 meta-anéfisis en el émbito de la psicomen'ia, incluyendo los estudios
dc generalizacién de la validez y de la fiabilidad, asi coma de la eficacia diagnéstica
con instrumentos dc clasificacién binaria. En el capitulo 7 mostramos cc'nno el meta-
anélisis se adapta a algunos campus especificos con necesidadcs especiales. En el ca-
pitulo 8 36 discutc la validez dcl meta—anélisis, con sus amenazas y [as acciones con
las que se pueden contrarrestar, dedicando una especial atencién a1 sesgo dc publi-
cacibn. En el capitulo 9 incluimos apartados dedicados a algunos tépicos que no han
encontrado acomodo en los capitulos anteriores, para que merecen un lugar en este
libro. También tiene un apartado dc conclusiones, incluyendo las criticas mas fi'ecuen-
tes al meta-anilisis y una valoracién de las mismas.
Este libro debe mucho a muchas personas. Per 1111 lado, a nuestros colegas més
ccrcanos, con los quc hemos compartido la tarea dc dcsarmllar y 111c csta mete-
dologia. Pero nuestra mayor deuda la tenemos con nuestros estudiantes. Durante afio:
han sido nuestms criticos mils perspicaces y nuestro principal incentive para estudiar
y aprender a acompafiar en el proceso de aprendizaje de esta metodologia. De alguna
forma el presente libro es el resultado dc muchos afios elaborando materiales docentes
para 61105. A nuestros estudiantes, pasados, presentes y futures, dedicamos mite libro.
Juan Botella
Julio Sinchez—Meca
Diciembre de 2014
El contexto del meta-anélisis
E1 elemento més caracteristico del proceso de generacién dc conocimiento cientifico

es la realizacién dc invesfigaciones en las que se produce-n a se remgen evidencias
empiricas. 011-0 aspecto esencial pero menus conocido de la actividad cientifica es la
integracién de los resultados de esas investigaciones. Para e110 se realizan trabajos
especificos dc refisién y sintmis.
Mientras cl tamafio de la ciencia era manejable las revisionm se hacian sin una
metodologia especifica. Con el tiempo crecié la nemidad dc aplicar a estos estudios
la misma filosofia con la que- se realizan los estudios primal-ins: rigor y sistematicidad.
El meta-andlisfis (MA) es una metodologia que surgié como respuesta a la necesidad
dc proporcionar instrumentos para realizar revisiones con procedimientos rigurosos y
sistcméticos. En muchas disciplinas 11031 SP. exige a las revisiones el mismo rigor que a
las investigacionm primarias.
Aquellas revisiones que se hacian de forma cualibntiva reciben boy el nombre de
revisiones nan-arivas. Las revisiones narrativas adolecen de debilidades que amena-
zan a la validez de sus conclusiones. Entre ellas destacan la inclusién selectiva de
estudios con criterios subjetivos y no explicitos, la falta de precisién respecto a 105
resultados, la ausencia dc informacifin sabre las variaciones en los resultados o la
asignacién subjetiva y no explicita dc pesos en las conclusionw (véasc una cxposicién
més detallada en Botella y Gambara, 2002; Cooper, 2010).
Hey en dia 56 asume que la sintesis e integracifin de los estudios primarios que
comparten un objetivo coml’m es un elemento primordial en la construccién del cano-
cimiento cientifico. Estas revisiones son fitiles en muchas situaciones. En primer
lugar, para establecer los Ingres alcanzados. En segundo lugar, para exponer dc fon'na
mas rigurosa el “estado del arte" respecto a una pregunta cientifica. En tercer lugar,
para aportar evidencias respecto a conuoversias en la interpremcién de los dates. Por
filtimo, para definir lineas dc investigacién futuras y establecer objetivos cuantitativos
para las intervenciones.
Antes dc continuar conviene mencionar la distincién que a vecw se hace entre
revisions: sisreméticas y meta-anélisis. Algunos autores (3.3., Littcll, Corcoran y
Pillai, 2008) consideran que una revisién sistemética es cualquiera que se haga de
forma figurosa, siguiendo un protocolo particular, mientras que reservan e1 térmjno
MA para aquellas revisiones sisteméticas que se realizan con métodos cuantitativos
estadisficos. De esta forum, so hablaria también dc revisién sistemética al haccr refe-
rencia a cualquiera que, siguiendo un protocolo, aplicase procedimientos narratives. A
10 largo de este libro emplearemos cl término MA para referimos a todo el proceso, es
decir, a una revisién sistemética realizada con procedimientos cuantitativos.
1.1. Nota histérica

E1 nacimiento del MA 36 suele fijar oficialmente en la fecha en la que se empleé por
primera vez este término en una comunicacién cientifica. Fue en una conferencia
pronunciada por Gene V. Glass en 1976 (Primary, Secondary, and Meta-anabms of
Research). Naturahnente hay algunos antecedentes documentados, que se remiten a
principios del siglo XX, pero es en esc afio cuando las herramientas y desarrollos
relacionados con el objetivo dc rcalizar revisioncs sistcméticas cuantitativas se agru—
pan en tame a este pomposo nombre, que prubablemente no es el més adecuado para
que arraigé de inmediato (Hunt, 1997).
Como primer antecedents se suele mencionar un intento en 1904 de responder a
una pregunta sobre la vacuna del tifus para la que se disponia dc dams procedentes dc
vafios estudios realizados en diferentes partes del mundo, pero cada uno con muesu'as
pequefias. Karl Pearson tomé aquellos dates e hizo una integracién cstadistica de sus
resultados, en lo que hay considerariamos un rudimentario meta-anélisis (Olkin,
1990; O’Rourke, 2007).
En los afios 60 y 70 hubo varies intentos por dar sentido a la coleccién de
resultados dc investigaciones sobre una misma cuestién, que se agrupaban esen-
cialmente en dos tipos, aquellos en los que se habian encontrado resultados signi-
ficativos y aquellos en los que 110. Las técnicas dc recuenta de votes interpretaban
mates com 105 votos a favor y 105 votes en contra de la hipétesis bajo estudio. Cuando
las pmporciones de resultados de cada tipo se interpretan desde ciertos modelos
estadisticos permiten alcanzar respuestas integradas, sin duda més rigurosas que las
que ofrecian [as revisiones narrativas, pero todavia rudimentan'as (e.g., Light y
Pillemer, 1971).
Es en este contexto en el que nace e1 MA. Tu] y como hemos discutido en otro
sitio (Botella y Gambara, 2006a), no creemos que filera casual que naciera en la
Capfhllo 1. Elcunteno delnmeta-anallsis 15
psicologia, una discipljna con éreas que estaban muy necesitadas dc rigor. Esta déficit
de rigor en algunas de sus parcelas, cl marge-11 dc subjetividad dc algunos de sus pro-
cedimientos, sus endémicos debates epistemolégicos y el vertiginoso crecimiento que
estaba experimentando, constituyeron el perfecto caldo dc cultivo para que filera en
esta disciplina en la que naciera. Una prueba de que se daban las condiciones adecua-
das para 511 nacimiento es que, de hecho, se puede decir que nacié casi a la vez en dos
lugarm difcrentes y por autores dc especialidades distintas en la segunda mitad de los
afios 70. For 1111 lado, la linea iniciada por Glass; por el otro, e1 trabajo de Hunter y
Schmidt sobre la generalizacién de la validez de [as tests (Hunter )1 Schmidt, 2004),
que expondremos en el capitulo 6 (Hunt, 1997).
El primer MA designado con ese nombre fue presentado 1301' Glass en su confe-
rencia de 1976 y fue publicado al afio siguicnte (Smith 3* Glass, 1977); tenia per
objeto integral" los resultados de investigaciones que valoraban la eficacia de las tera-
pias psicolégicas, tratando dc responder a dos preguntas, la de si las terapias psico—
légicas eran eficaces y la de si las terapias derivadas de diferentes escuelas de la psi-
cologia conseguian niveles diferenciables dc eficacia. Las conclusionas fueron que las
terapias psicolégicas tienen un efecto apreciable y que aunque hay algunas diferencias
entre los diferentes tipos de terapia esas diferencias no son muy grandes. Esta segunda
conclusién provocé 1m auténtico tnnemoto entre los profesionales. Los agrios debates
que se produjeron en tome a estc trabajo no fueron nada beneficiosos para la recién
nacida metodologia meta-analitica, pero finalmente sobrevivié, fue sensible a las cri-
ticas, mejoré sus procedimientos y hay se ha convertido en una herramienta impres-
cindible. Casi de inmediato comenzaron a aparecer estudios meta-analiticos: Glass y
Smith (1979) publicaron un MA sobre los cfectos del tamafio del grupo escolar sobre
el rendimiento académico; Schmidt y Hunter (1977), an trabajo sobre la generali-
zacién de la validez de los instrumentals dc seleccién dc personal en contextos labo-
ralcs; y Rosenthal y Rubin (1978), 811 integracién dc rasultados sobre los efectos de
las expectativas interpersonales.
En otras disciplinas se camprendié pronto que esta metodologia podria aportar
grandes beneficios y la adoptaron desan'ollando soluciones especificas para sus nece-
sidades. Hay es la medicina 1a disciplina que mas la utiliza (Schulze, 2007) y desde la
que se han propuesto muchos de sus procedimientos més sofisticados (Chalmers y
Altman, 1995; Egger, Smith 3; Altman, 2001; Sutton, Abrams, Jones, Sheldon 3; Song,
2000; Sutton y Higgins, 2008; Whitehead, 2002).
Una vez ya en el periodo del MA propiamente dicho, la historia de su desarrollo
se puede organizar en torno a algunos hitos principales. Los primates son e1 propio
nacimiento en 1976 y la publicacién del primer MA en 1977, en donde los resultados
de los estudios ya se expresan mediante e1 tamafio del efecto. Pronto quedé clam que
aquel mtudio tenia defectos técnicos, pues no era correcto emplear los mismos
procedimientos quc en los anélisis cstadisticos de los estudios primaries. Por e110 e1
siguiente 11t se puede establecer en la publicacién del libro de Hedges y Olkin
(1935) en el que proponian procedimientos dc ponderacién de los esmdios por los
inversos de sus varianzas, lo que resolvia la violacién del supuesm de igualdad de

varianzas. En 1986, DerSimonian y Laird propusieron un procedirniento dc estima-
cién del componente de vafianza especifico que permitia trabajar con sencillez con
modelos dc efectos aleatorios, que aunque ya eran conocidos todavia no se empleaban
en MA; hoy en dia los modelos de efectos aleatorios son considerados los prevalentes
en esta metodologia. En 1994 se hizo un fi'uctifero intento por recoger el estado dc]
artc sobrc cl MA con la publicacién dcl manual dc Cooper y Hedges; la segunda edi-
cibn se publicé 15 afios més tarde (Cooper, Hedges y Valentine, 2009).
Fruto del gran interés despertado por el MA en la comunidad cientifica ha sido
la creacién de tres organizaciones intemacionales (sin énimo dc lucro) difigidas a
promover la realizacién dc revisiones sisteméticas y MAS de alta calidad sobre la efi-
cacia de las intervencioncs en diversos campus de las ciencias socialcs y de la salud.
La primers, se fundé en 1993 en el émbito de las ciencias de la salad (especialmente
en medicina) y se denomina Cochrane Collaboration'; en 1996 se fundé 6] Joanna
Briggs Institurez, centrado en la promocifm dc MAS sobre la eficacia de los cuidados
en enfen‘neria; en 2000 se fundé la Campbell Collaboratiana, centrada en la
promocién dc MAS en educacién, criminologia y servicios sociales (Sénchcz-Meca,
Baruch, Petrosino y Rosa-Alcézar, 2002). Asi mismo, en 2005 se fundé 121 Society for
Research synthesis Methodolog‘, que aglutina a los més prestigiosos investigadores
en la metodologia del MA con el propésito de promover la investigacién dirigida a
mejorar esta metodologia. Bajo los auspicios dc esta sociedad, en 2010 nacié la
primera revista especifica sabre esta metodologia (Research synthesis Methods).
Con respecto a la linea inaugurada por Hunter 31 Schmidt, tuvo su punto cul-
minante con la publicacién del libro dc estos autores en 1990. Desde entonces ham
sido muy combativos en la polémica sobre la utilidad de los contrastes de signi-
ficacién dc hipétesis nulas come herramienta dc anilisis de datos para valorar resul-
tados. Las altemativas que ofi‘ecian con sus métodos dc MA pretendian paliar los
defectos denunciados de los contrastes simples dc hipétasis de nuh'dad. Ha tenido sus
propios desanollos, a vases demasiado separados de la linca principal dc desarrollo
del MA; en 2004 se publicé la scg‘unda edicién de su libro (Hunter y Schmidt, 2004) y
en 2015 la tercera (Schmidt y Hunter, 2015).
‘ Puede conmfltarse su sifio web en: wwwwoochraneorg. Bajo m auspicios, en Espafia se crab e1 Centre
Cochrane Iberoamericano (www.mchrane.es).
1httpflfjcannabriggsmg.
3 www.campbellooflaborafiomorg.
‘ htpWarsmorg.
Capfhllo 1. Elcunteno delmeta-anallsls 17
1.2. Objetivos y caracteristicas del meta-anélisis

Del contexto de su nacimiento y de su evolucibn posterior se deduce cuél es la
vocacién con la que nacié 61 MA. Fue una respuesta a la necmidad de disponer de
proccdimientos para integrar de forma rigurosa los resultados de un m'lmero cada vez
mayor de investigaciones que proporcionaban rewltados relevantes, a vanes contra-
dictorios, para alcanzar una respuesta més precisa a la pregunta planteada.
Dadas las difimlltades de las revisiones narrativas, es natural que las revisiones
meta-analiticas incluyeran en su ideario precisamente aquello de lo que adolecian las
narrativas y que justificaban su aparicién. La revisiones meta-analiticas aspiran a
tener entre sus caracteristicas la objetividad, la replicabilidad y la precisién. La obje-
tividad se manjfiesta en que las operaciones que se realizan estén bien especificadas y
dejan poco margen 21] criteria personal dc quien lo aplica. La replicabilidad es una
consecuencia de la anterior, ya que a1 haber definido deforma Clara la forma en que
se adoptan las decisiones y cémo se realiza cada paso, siendo may explicito en el
informs correspondientc, permits que el producto obtenido sea altamente replicable.
La precisién tiene que ver con el formato de las respuestas, ya que 65133 no se expre-
san 5010 en palabras, sino que se comunican también con nmneros que representan
magnitudes, algo imposible en las rcvisiones narrativas.
Estas son las caracteristicas pretendidas por los meta-analistas, pero no siempre
se alcanzan, ni todas ellas en el mismo grade. Como muchas de las acciones del meta-
analista van dirigidas a maximizarlas, e1 grade en que se consiguen se emplea coma
base para valorar la calidad de 1111 MA.
1.3. Fases en su aplicacién

En cualquier investigacién cientifica en psicologia 0, en general, an ciencias socialae,
se siguen unas fases més o menos secuenciales. En ellas se distinguen la n'aduccién de
un objetivo dc investigacién cn 111135 preguntas que se operacionalizan de forma bien
definida, la obtencién dc evidencias relacionadas con esas preguntas, su expresién en
nfimeros (medicién), un tratamiento estadistico que pennite identificar patrones no
obvios a simple vista, asi como descanar rclaciones aparentcs pcro superfluas, una
discusit‘m y reflexién respecto a las preguntas a la luz de los resultados de los anélisis
estadisticos y la elaboracién de un informe que comunica de forma eficaz tanto cl
proceso coma las conclusiones.
La realizacién de un MA implica unas fases similares, en las que podemos
reconocer los elementos esenciales de cualquier investigacién cientifica. Natural-
mente, tiene algunas diferencias impoflantes. La primera es que el meta-analista no
genera sus propios dates, sino que recoge evidencias en los informes de las investi-
gaciones primarias realizadas sobre el objeto dc estudio (articulos de revistas cienti-
ficas, capitulos de libro, twis doctorales, mmdios técnicos, informes internos, etc). La
segunda es que la naulraleza del origen de esas evidencias obliga a replantear los
supuestos de las formas dc medi: y de: analizar estadisticamente los resultados, ya que
el contexto es muy diferente del de las investigaciones prim-arias habituales.
Ann asi, las fases ue ( : 0 a e1 proceso de un MA se parecen bastante a las
dc las investigaciones primarias. Como ya las hemos dcscrito en otros lugarw (Botclla
y Gambara, 2002; Sinchez—Meca y Botella, 2010; Sénchez-Meca, Marin-Martinez y
pez-Lépez, 2013), aqui solo las sefialamos sucintamente:
a) Formulacién del problem. Se trata dc traducir un enunciado, muchas veces

demasiado genérico, a una fonnulacién Clara y precisa de la pregunta.
Implica definir de forma teérica y operativa los constructos psicolégicos
involucrados.
b) Baisqueda de los estudios. Una vez formulado cl problema, se afronta la fase
dc remix la evidencia pertinente disponible. Esta se encuentra sabre todo
en los articulos publicados en revistas cientificas, pero también en 01133
publicaciones 0 en docmnentos no publicados (tesis doctorales, infomes
técnicos, etc). Cualquiera que haya hecho an MA sabe que este proceso no
as tan obvio como pudiera parecer. Junta a estudios que claramente aportan
resultados relevantes hay muchos otros que por mfiltiples razones suscium
dudas. Por ello hay que explicitar unos criterios de seleccién de los
estudios. No vamos a extendemos en este proceso, muy rico en matices y
casuisticas, pero si a recordar que la slave csté en seleccionar esmdios
empiricos homogéneos que aportan evidencias respecto a una misma
cuestién. Los estudios nunca serén simples réplicas, por lo que la
homogeneidad serfi una cuestibn dc grade (compartirén los elementos clavc
del disefio, los constructos empleados, etc). Lo que no puede faltar es una
wpecificacién detallada de los criterios de inclusién, coma por ejemplo el
tipo de disefios admisibles, la forma como se han medido las vatiables de
resultado, [as caractefisticas de los participantes y las camcteristicas de las
variables independientes 0 de tratamiento (si las hay).
Respecto a la forma de buscar, 1a mayoria de los estudios serén
localizados en las basw bibh'ogréficas electrénicas (PsycInfo, MedLine,
ERIC, etc), mientras quc otros serén localizados en actas dc congrcsos,
contactos infannales, etc. Lo major es emplear todas las fuentes posiblm,
dado que en esta fase de un MA 10 ideal as localizar todos los estudios con
informacién relevante.
c) Codificacién de los estudios. En esta fase se registran y codifican las catac-
teristicas de los estudios primaries que son relevantes para el MA. Dicha
relevancia es 3 veces dudosa y cambiante. A veces lo que al principio
parece fundamental luego se revela superfluo o inalcanzable, mientras que
otras caracteristicas van adquiriendo durante e1 proceso una relevancia
insospechada a priori. Por can es conveniente que- esta fase sea
Capfhllo 1. Elcunteno delnmeta-anallsis 19
moderadamente expansiva. Todo lo que en esta fase no se codifique y

luego sea reconsiderado exigiré una vuelta a los documentos originalw
para su codificacién.
En esta fase se elabora e1 Manual de Codificacién, qua continue las
mpecificaciones del proceso de codificacién de las caracteristicas que se
han considerado rclevantcs. Debc quedar a disposicién dc cualquicr
persona que quiera ampliar los demlles del MA. Junta 211 Manual de
Codificacién se elabora un Protocolo de Registro de: las variables
moderadoras.
Algunos autumn han propuesto clasificaciones de las caracteristicas
de los estudios que se codifican. A nosotros nos parece may adecuada la de
Lipsey (1994), quien propane las siguientes: (i) variables de tratamiento,
que son las quc ticncn un cstatus explicativo, incluycndo los modes de
aplicacifin; (ii) variables de los participantes, que incluyen sus
camcteristicas sociodemogréficas, pem también sus antecedentes,
caracteristicas personales, etc; (iii) caractefisticas del contexto, que hacen
referencia a1 lugar en el que se ha realizado la intervencién; (iv)
carasteristicas metodolégicas, que tienen que ver con el disefio dc
investigacién y la instmmentacién del estudio empirico, incluyendo e]
tamafio de las muestras, la mortalidad experimental, la inclusibn de
medidas pre, los criterios diagnésticos y todo aquello que se relaciona con
la calidad metodolégica de los estudios primarios; (v) camcteristicas
exitinsecas, llamadas asi porque en principio no deberian relacionarse con
el proceso cicntifico de una investigacién, a] ser extemas a ella, pero que
en ocasiones pueden estar asociadas a los resultados de los estudios;
cjemplo de 6110 pueden 361' 1a filente dc publicacién (publicado versus no
publicado), la fonnacién de los autores del estudio (psicélogo, psiquiatra,
eta), e1 sexo de los autores 0 e1 afio de realizacién del estudio.
El propésito de esta fase es elaborar un cuadro base con un conjunto
dc variables que pucdan ser capaces dc explicar la variabilidad de los
resultados de los diferentes estudios. No debemos perder de vista que
finalmente el MA se realiza sobre este cuadro base. Nada se podré concluir
sabre dates quc no cstén en él y lo que sea superfluo o csté codificado dc
forma inconsistente acabaré oscureciendo los patrones dc relaciones y
sesgaré las conclusiones. Como refiJerzo de lo que pretends set 31 MA, en
esta fase es muy importante que se valore 1a fiabilidad del proceso de
codificacién. Lo habitual es que dos o mfis investigadores codifiquen dc
fonna independiente todos los estudios empiricos 0 11113 muestra aleatoria
de estos, comprobando 61 grade de acuerdo entre ellos. Solo de esa forma
se podré. valorar si en el proceso dc codificacién se han aplicado unas
normas claras y sisteméticas.
d) Anélisis estadistico e interpretacién. La realimcibn de un MA requiem que
los resultados de los estudios primaries se reflejen en algt’m indice
20 Meta-anallsis en Ciendas Sociales y de la Salud
cuantitativo que los exprese en una misma métrica. Como ya hemos

adelantado, uno de los elementos que pennitié 1a aparicién del MA
modal-no fue precisamente la identificacién de este problem y la propuesta
del Tamafio dei Efecto (TE) coma indice genén'co, independiente de los
instrumentos de medida, ya qua estos varian macho dc unos esmdios a
otros. La u'ansformacién a una métrica comfin pcrmitirfi hacer cstimaciones
combinadas y analizar la variabilidad de las estimaciones individuales, dos
de los elementos clave de los anéljsis estadisticos en MA. Los valores de
TE asociados a cada estudio se afiadirén al cuadro base, de fonna que cada
uno supondré m1 registrar con una estimacién mas unas caracteristicas
asociadas a esa estimacién.
Una vez obtenidas las estimacionas dc 105 TE de cada estudio as pro-
cedc a su anélisis estadistico. U110 de los defectos de los pfimeros meta-
amilisis fue que aplicaron las técnicas estadisticas convencionales, que se
emplean de forma mtinaria a1 anflisis de los datos en los estudius prima-
rios, sin tenet en cuenta que sus caractefisticas son mu}; diferentes. La (1&-
cada de los 80 {he twtigo del desarrollo de técnicas més adecuadas para 61
MA, en las que se tenian en cuenta sus caracteristicas especificas.
La mayoria de los anéfisis estadisticos se dirigen a responder a las
preguntas fimdamentales de 1111 MA: (i) Lcuél es la estimacién combinada
del TE que se deriva del conjunto dc estudios primarios?; (ii) gson homo-
géneos los TEs de los estudios?, (iii) an caso de no set homogéneos, aqué
caracteristicas de los estudios pueden dar cuenta dc esa heterogeneidad? y
(iv) [’63 posible formula: un modelo cxplicativo de la heterogeneidad de los
tamafios del efecto a partir de las variables moderadoras codificadas?
e) Publicacidn. Como en cualquicr tipo de intigacién, la filtima fase dc un
MA consists en hacer pfiblicos sus resultados poniéndolos a disposicién de
otms colegas e investigadores del mismo campo. Al igual que ocurria con
las fases de un MA, e1 inform: meta-analitico tiene unos apartados pare-
cidos a los do 01:05 tipos dc investigacién y se rigs por criterios similar-es,
pero no idénticos. Se han publicado algunas directrices, guias e incluso
normas (Botella y Gambara, 2006b; Clarke, 2009; Rosenthal, 1995). Los
apartados dc un informc meta-analitico suclcn scr la introduccién, 61 m6-
todo, los resultados y la discusién y conclusiones.
En la introduccién se revisa el tema objeto de estudio, se definen los
constructos psicolégicos implicados y se formulan los objetivos del MA.
En el métada se incluyen secciones con detalles especificos cuya funcién
es facilitar la replicabilidad, por lo que es el lugar donde hacer explicitas
todas las decisiones adoptadas durante la raalizacién del MA. En el apar-
tado de resultados se informa del producto de los anélisis esmdisticos. En
la discusién, los resultados del MA sc ponen en relacién con la literatura
previa sobre el tema, se discute su relevancia précfica, sus implicaciorm
para la practical profesional y se apuntan lineas futons dc invesfigacién.
Una métrica comfln:
indices de tamafio del efecto
Més allé del propio nombre de esta; metodologia, la ptincipal aportacién dc Glass a1
meta-anilisis fue la solucién que propuso a las dificulmdes para comparar y combinar
los resultados de los estudios (Glass, McGaW y Smith, 1981). En su primer MA
constaté que los esmdios que valoran la eficacia de las intervenciones tempéuticas
emplean medidas may variadas. A veces son tests psicoméu'ioos, pero en otras aca-
siones son cscalas, checklists, registros dc conductas, etc. Si 105 diferentes estudios
emplean distintas medidas, los estadisticos obtenidos no son directamente compa-
rables. Aunque en cierto sentido los valorcs dc p asociados a sus contrastw cstadis—
ticos si se podrian considerar un elemento comparable, son valores demasiado condi-
cionados por los tamafios de las muestras empleadas.
Glass propuso transformar los resultados de todos los estudios a una métrica
comfin, independientc del insmunento y de las unidades dc medida: e1 tamaiio del
efecto (TE). Antes dc exponer sus caracteristicas y propiedades queremos resaltar una
relacién de gran importancia para comprender cl papel del TE y la muy relativa
importancia que se debs dar en la infercncia a1 valor dc p asociado a1 contrasts
(Cumming, 2012; Ellis, 2010). Esta relacién, dcstacada especialmcntc por Rosenthal
(1991a), es la siguiente:
Estadzistica = Tamafia del x Tamafio

de Contrasts: Efecta Mueslml
22 Meia-anéllsis en Clenclas Socialee y de la Salud
En esta expresién se condensa la esencia de la formulacién general de los

estadisticos dc contraste. Estes son fimcién de un indice del TE y de una expresién
relacionada con el Iamafio de 121(5) muestra(s). Veémoslo con la fém'lula del esta-
distico dc contrasts de la prueba 1 para la hipétesis dc igualdad dc medias con
muestras independientes (2.32, Pardo, Ruiz y San Martin, 2009) y su expresién en este
formato (Rosenthal, 1994, proporciona una variedad de estadisticos de contraste
expresados de esta forma):
Mia S J
I : X‘_X2 =X“X2. 1 [2.1]
n, n2 "1 ”2
Como veremos un poco mils adelante, el primer cociente es uno de los indicts de
TE més popularcs. En cambio, cl scgundo cocicnte solo incluye los tamafios dc las
dos muestras; en él no aparecen valores asociados a njnna diferencia entre los
gmpos en la cmcteflstica que se estudia. Cuanto mayor son n; y n; mayor es el valor
del estadistico de contrastc. Para un mismo TE, cuanto mayor son las muesu‘as em-
pleadas mas probable es que el estadistioo dc conuaste proporcione un valor estadis-
ticamente significativo. Paralelamente, para unos mismos tamafios muestrales, cuanto
mayor sea e1 TE més fécil es obtcner un resultado estadisticamente significativo.
Dado que los tamafios muestrales son establecidos por los investigadores (con
los limites que imponga la dispom'bilidad), este factor no deberia contaminar el
anélisis de los remfltados. Par eso la eleccién del TE coma indicador generalizado
para los resultados supuso una aportacién definitiva que facilité el despegue del MA.
Pero centrémonos en el concepto de TE. Siguiendo 8. Cohen (1988), algunos
autores han definido a1 TE como un indicador que refleja cl grade en que una hipé—
tesis nula es falsa (e.g., Gfissom y Kim, 2012; Wolf, 1986). Si la hipétesis nula esta-
blece 1a ausencia de una asociacién, se puede decir que el TE establece cl grade en
que esa hipétesis es falsa, puesto qua refleja en cufinto se separa del valor nulo cl
grade de asociacién. Sin embargo, esta definicién queda demasiado ligada a los
comrastes dc nulidad, cuando en realidad se pueden analizar con independencia de
que con esos mismos datos se realice o no un contraste. Otros autores prefieren
sefialar simplemente quc un indice dc TE refleja cémo de estrecha es la relacién entre
do: variables; scria una medida dc 1a filerza dc la asociacién cnIIc variables. En esta
idea se basa la definicién que proporciona Cohen (1988) al afirmar que el TE es 1m
indice cuantitativo que representa el grado en que existe e] fenémeno que se esté
investigando.
Aunque esta definicién es més apropiada, también resulta alga limitada, ya que
no es aplicable a aquellos casos en los que el objeto de interés no es la asociacién
ante dos variables. En cambio, Kelley y Preacher (2012) lo definen como una repre-
sentacién cuantirativa de la magnimd d2 unfenémeno que se utilize: para responder a
Capitulo 2. Una méIflea uomfln: lndloes de tamafio del efecto 23
una pregunta de interés. Esta definicién es mucho més amplia, ya que abarca también
105 TE que se refieren a una sola variable 0 a constructos de nanJraleza psicoméu-ica
(como la fiabilidad), en lugar dc limitarse alas relaciones entre dos variables.
Hay que reconocer que si a veces se proponen definiciones restrictivas es porque
en una abrumadom mayoria de 105 MA que se realizan en las ciencias sociales y de la
salad cl fenémeno dc intcrés sc refiere a la relacién entrc dos variables. Los prin-
cipales indices para este tipo de preguntas se suelen clasificar en tres grandes grupos:
las indices de la familia d, las indices de la familia r y las indices especificos para va-
riables dicotémicas. El indice 0' se origina en el escenario de la diferencia entre las
medias de dos grupos en una variable mmtitativa. En el préximo apartado expon-
dremos su definicién, ptopiedades y caracteristicas, asi como los procedimientos para
obtenerlo y algunas variaciones del mismo. En el epigrafe 2.2 expondremos e1 indice
r, o correlacién dc Pearson, deteniéndonos de nuevo en sus propiedades, sus catac-
teristicas y los procedimientos para su use an MA. Después expondremos algunos
indices especificos para variables que representan dicotomias naturales. Tras dedicar
el epigrafc 2.4 a la relacién entre- d, r 3; RV (Razbn de Ventajas), en el epigrafe 2.5
sefialaremos indices dc TE que se pueden emplear en situaciones en las que la pre-
gunta no se refiere a la relacién entre dos variables. Dedicaremos los dos filtimos
apartados a los criterios para elegir un indice dc TE y a la valoracién del valor
obtenido.
No debemos perder de vista que nuestro interés siempre estaré. en el valor
paramétrico del indice de TE elegido, pero trabajaremos con las estimaciones dc aquel
obtenidas en las estudios primaries. Especialmente important: seré obtener de cada
estudio primario una cstimacién puntual dcl TE més 1a varianza dc esa estimacién. Es
decir, si estamos interesados en el parémeu‘o 1: y disponemos de A: estudios, entonces
contaremos con 1: cstimacioncs dc ese valor (1}) y las k estimaciones de sus varianzas
(v91. La vafianza de cada estimacifin, vi, seré 1111a funcién inversa del tamafio de la
muestra con la que se ha obtenido I}. A 10 largo de los préximos apartados iremos
indicando para cada indice de TE la férmula de su vafianza. Ademés, para cada indice
dc TE consimiremos su intervalo dc confianza mediante la siguiente aproximacién:
T+ _ - v =T
1; :I:|zl—¢h"2|"\/1I"—tr = {1: _||:1 “fill .JJ; — T: [2.2]
i l-a 2 i _
dondc 21.1112 es cl valor dc la distribucién normal tipificada correspondientc a1 pementil

( l — (112), asumiendo un nivel dc confianza ( l — a) - 100%; 10 més habitual es calcular
cl intervalo con un nivel dc confianza del 95%, para el que el valor cs 21-”; = 1,96.
Tm, y Tim- representan los limiter. confidenciales superior e inferior, respectivamente,
del intervalo de confianza.
l Enestecapituloemplearemos elbérminoviparareferimos alavari-ndel esfimadordeunTB. Encapi—

tulus pasmlimes camhiaremos est: nomenclmra, pm: razones expositivas.
24 Meta-anallsis en Clenclas Socialee y de la Salud
2.1. Indices basados en diferencias de medias

En esta seccibn vamos a exponer los indices mfis utilizados para comparar dos grupos
en una variable cuantitativa. La comparacién natural es la de sus medias, hallando su
diferencia. Si las medias no djfieren significa que el factor que distingue a los grupos
es irrelevante respecto a esa variable, mientras que cuanto mayor es la diferencia,
mayor es la relevancia del factor de clasificacién de esos grupos.
El indies més utilizado cuando las medias se refieren a grupos independientfi
es, sin duda, 1a dy'erencia d3 medias npificada, aunque a veces se emplea 1a dg‘fe-
rencia de medias directa. En muchos émbitos es habitual trabajar con disefios de
grupos no independientes, que con frecuencia es en realidad 1m mismo grupo del que
se toman medidas antes y dwpués de una intervencibn. En este filtimo case se puede
emplear la dz‘firencia de medias pre/post tipificada, conocida también coma cambio
media npificado. 01:0 disefio muy utilizado es el que emplea dos grupos inde-
pcndientcs (por ejemplo, control y experimental) con dos medidas, habitualmente
antes y después de una intervencién. Un indice apropiado para estos cases es la dye-
rancid de cambios medias tipy‘icados. Estes cuatro indices no son més que varia-
ciones del indice 61.2
La dzfizrencia de medias tiptficada, la dg‘ferencia de medias directa y 13. die-
rencia de cambios medias npificadas se utilizan cuando e1 disefio del actudio compare.
dos grupos independientes en una variable dependiente continua. Estos indices 36
pueden aplicar independientemente del mode dc asignacién de los participantes a los
grupos; es decir, se pueden aplicar tanto si cl disefio as experimental (asignacién alea-
toria) coma si es cuasiexperimental (asignacién no aleatoria). A efectos de cilculo,
estos indices (161 TE no difieren en funcién de la naturaleza del disefio. La diferencia
entre um 11 otro caso afectaré a la interpretacién del valor obtenido, pudiéndose esta-
blecer relaciones causales en el caso de un disefio experimental, o meramcnte corre-
lacionales en los disefios cuasiexpefimentales (Shadish, Cook y Campbell, 2002).
1 Con un afén descdptivo, los valores muestrales ae resumen fipicamente medium doe esmdisficos: la
media y la varianza:
f=ZX/n S==Z(X—f)’/n
Sinembargo,cuandohayunaféninferencialyestos estadisfioosseinterpretanoomo estimadoresdesus
padmetros la fbrmula de la varianza Gambia ligeramente, pasando e1 denominadm'do n a (11-1); si se divide
par {re-1} antennas S2 es un estimador insesgado de 61. Los estudios primaries suelen incluir las varianms (o
dmviaciones tipicas) sin especificar si se ban obtenido dividiendo put I: 0 pm- (u-l). Muchos program
estadisticos de uso fi'ecuentc (ag. SPSS) obtienen por defecto e1 estimador insesgado. Asumir que el valor
informado es uno en Inga: del 01m afecta poco a1 resultado numérioo, pero con mesh-as pequefias podria
set apreciable y, en cualquier caso, algunas férmulas que vam a presentar pueden parecer incorrectas si
nosetieneencuenmestehecho.
Capitulo 2. Una mélflea oomfln: lndloes de hmaflo del efeato 25
2.1.1. Diferencia de medias fipificada
Como su propio nombre indica, es una diferencia entree dos medias, expresada en
unidades de desviacién tipica. Si las distribuciones de las poblaciones tienen pani-
metros centrales m y pg, mientras que ticnen un parémeim dc dispersién coml’m, 6 (es
decir, 01 = 52), entonces este indice de TE se define coma (Cohen, 1988),
a: #1 nu; [2.3]
0'
mientras que su estimador, segfin fue definido por Cohen (1988) as
at: XI}?! [2.4]
donde S es el estimador de a, que se obtiene mediante uua ponderacién de las va-

rianzas empificas de las dos muestras:
$3: ("1—1)'S12+(”2_1)'Szz [25]

m+m—2
A veces sc tienen indicios suficientes (o la certeza) dc quc las varianzas pobla-

cionales no son iguales (61 75 6;). En este caso es razonablc emplear en el denomi-
nador la desviacién tipica (su estimacién) de la poblacifin ‘control’ 0 de comparacién.
Hedges (1981) demostré que la férmula [2.4] proporciona estimaciones sesgadas
(sobreestimacién) del valor de 5, mostrando ademés que este sesgo se corrige si of se
multiplica por un dcterminado factor que es una funcién de los grades dc libertad (gt)
empleados en la estimacién de la varianza conjunta. Una buena aproximacifin a este
factor es
3
C(gl) = 1 _ 4.31:1 [2.6]
En el caso de un disefio de dos gmpos independientes los grades de libertad son

g! = n; + n; — 2. El factor de correccién se acerca répidamente a 1 a medida que
aumenta e1 tamafio de las muestras. Con un valor préximo a 1 1a correccién resulta
inapreciable, por lo que 3 veces se ignora.
Aunque a este indice se le representa a veces per 3, an honor dc Glass, en reali-
dad no es més que la estimacién insesgada de 5, per lo que lo mfis fi'ecucnte es que se
2B Meia-anélisis en Clenclas Socialee y de la Salud
represents también por d, para indicando que se ha hecho la correccién por sesgo;
incluso a veces see representa per (1“ (cl superindice reflcja que es la esfimacién insea-
gada, unbiased). En resumen, e1 indice de TE que cmplearemos para la diferencia de
medias tipificada as,
d = c(gl)- X135 [2.7]
Esta fbrmula represenm e1 indice dc TE mfis utilizado en MA para integrar estu-

dios en los que se comparan grapes independientes en una variable continua. Cuando
las dos medias son idénticas, entonces d = 0, lo que indicaré una ausencia de efecto 0
dc relacién entre 1:: variable dependiente (continua) y la variable de asignacién a las
dos condiciones experimentales analizadas (variable independiente). El indice d se
puede considerar una especie dc puntuacién tipica, ya que expresa e11 unidades tipicas
la distancia entre las dos medias. Aunque en teoria podria tomar valores entre -oo y
+00, 10 habitual es que tome val-ares entre -3 y +3. Respecto a su varianza, esta es
aproximadamente igual a,
= 1n + 1 : 2 + (172
2.8
”.1
”1'”2 2'(":+"2) [ ]
La fauna més directa de obtenerlo para un estudio pfimario a localizar en el

informs correspondiente 1as dos medias y las dos dwviacioncs tipicas, asi coma los
dos tamafios muestrales. En el siguiente ejemplo se muestra cémo se obtienen e1 TE y
su varianza sustituyendo en las férmulas [2.7] y [2.8] (105 estadisticos de los esmdios
primaries a la izquierda y los célculos a la derecha), asi como el intervalo de
confianza con la férmula [2.2]:
21:72’5 fz=65,3 §_ {49-1232+69-15,42 _142

S1 =12,3 52 =15,4 50+70—2 ’
"1:50 "2:70 [1— 3 )72’5—65 ’3
d= =0,504
4 -118—l 14,2
v _ 50+ 70 + 0,5042
= 0,0353
" 50-70 2-120
0,872
IC95%:0,504:|:1,96-‘/0,0353 = {0,136
Capitulo 2. Una méIflea uomfln: lndloes de tamafio del efecto 2?
Un valor de ti obtenido indica que 121 media de la condicién 1 se sitfia 0,504 uni-
dades tipicas por encima de la media de la condicién 2. Ademés, e1 hecho de que el
intervalo dc confianza no contenga e1 valor 0 (efecto nulo) permite afinnar que en
esta investigacién se ha podido generalizar a la poblasién la existencia dc diferencias
estadisticamcnte significativas entre las medias de las dos categorias definidas por la
agrupacién.
En muchos informes de investigacién no se ofrecen todos los estadisticos
necesarios para emplear este procedimiento directo de cilculo, lo que obliga a una
labor casi detectivesca qua permita obtenerlo a partir de otros dams. Un buen conc-
cimiento de las relaciones entre férmulas estadisticas, tanto de estadisticos descrip-
tivos come dc estadisticos dc contrasts, permitc muchas veces rescatar para el MA
estudios que dc otra forma tendrian quc quedar cxcluidos por carcccr dc informacién
suficiente. En muchas obras (3.3., Borenstein, 2009; Borenstein, Hedges, Higgins y
Rothstein, 2009; Card, 2012; Cortina y Nomi, 2000; Glass, McGaw y Smith, 1981;
Gfissom y Kim, 2012; Lipsey 3? Wilson, 2001; Morris y DeShon, 1997; Sénchez-
Meca y Ato-Garcia, 1989) se proporcionan mfiltiples soluciones paIa una gran varie-
dad de situaciones. Por ejemplo, es muy tipico que se incluya e1 estadistico de con-
traste para dos medias independientes, pero no las medias y desviaciones tipicas de
las muestras. Con el estadistico dc contraste mfis los tamafios muestralcs sc puede
deducir el valor de d (no corregido) con la férmula [2.1]. Supongamos que en el ejem-
p10 anterior solo se proporciona e1 remfltado de la pmeba I de comparacién de medias,
junta con la siguiente afirmacién: “la diferencia es estadisticamente significativa a
favor del grupo experimental [t(113) = 2,74; p < 0.01]” y en la seccién dc método se
dice que las muesiras eran de 50 y 70 paxficipantes, respectivmncnte. Con esta
informacién podemos deducir cl valor de ti, ya que de [2.1] deducimos que
1:19 =¢. l + i [2.9]

S nl n2
Sustituimos e introducimos la correccién p01- sesgo, C(gD, para obtener e1 TE
segfin [2.7], que en este case as igual a cCgl} = 1 — 3/471 = 0,994:
:1 =o,994-2,74-1’i+i =0,504
so 70
un valor que coincide con el obtenido anteriormente.
En ocasiones, e1 disefio del estudio involucra mfiltiples factores (inter e intrasu-
jeto) y aplica técnjcas dc ANOVA factorial. De esos factores solo uno de ellos es el
que se requiem para calcular la diferencia dc medias tipificada. La defivacién de la
desviacién tipica apropiada para el indice d a partir de disefios dc ANOVA complejos
no es sencilla. Pueden consultarsc las fucntes arriba mefiadas para cnconlmr férmu-
23 Meia-anélisis en Glendas Socialee y de la Salud
las qua permiten obtener d a partir de la informacién estadistica habimalmente

proporcionada en los estudios que aplican modelos de ANOVA.
2.1.2. Diferencia de medias directa
A pesar dc lo expuesto en cl apartado anterior, en algunas ocasiones puede rcsultar

mfis adecuado no tipificar la diferencia dc medias. Esta sari asi, por ejemplo, cuando
tndos [as estudios emplean la misma medida y las mlidades originales son una medida
natural que se comprende mejor que cualquier transfonnacién de la misma y se utiliza
de forma habitual. P01" ejemplo, si se: trata dc intervencioncs para pcrder peso relacio-
nadas con la obesidad, es fi'ecuente que los resultados se midan directamente en 105
kilos reducidos. En estos casos parece razonable analizar los datos y expresar los re-
sulmdos en las unidades originales.
La difcrencia de medias directas, D (empleamos la letra mayfiscula para sefialar
que- son valores directos, no tipificados; Botella, Suero y Ximénez, 2012), se define
coma
D =f1—fz [2.10]
Como se trata dc grapes independientes su varianza no es mas que la suma de
las varianzas de las medias, VD = (Of/M)+(0'22/"2)’ que se estimamediante,
2 1
VD=S_1+S_2 [2.11]
"1 "2
Si se asume que las varianzas poblacionales son iguales (of = 0:) se puede uti-
lizm' la férmula [2.5] para obtener la estimacién oonjunta, 32, aplicando dospués la ex-
presién siguiente:
”D = LRZ) . 5’2 [112]

nl - n2
Veamos 1m ejemplo, que se refiere a 105 kilos perdidos en un programa de inter-

vencién para la obesidad, en un grupo que recibe e1 Uatamiento (l) y un grupo de
control (2) no tratado. Como no tenemos indicios de que las varianzas poblacionales
scan iguales optamos por la alternativa mas conservadora, que es la de no asumir 1a
homooedasticidad, aplicando la férmula [2.11].
Capitulo 2. Una méiflea comfln: lndloes de Emanc- del efeuto 29
1?, =14,2 f2 =1,5 D=l4,2—l,5 =12;

SI = 5 , 7 S2 _ 0,8 — 5,72 0,82 — 1 1 0 4
nl=30 n2=30 Vo-§+§-,
14,8
IC95%:12,7i1,96'-\’1,104 ={10 6
Una diferencia dc medias D = 12,7 indica que en el grupo experimental 1a reduc-

cién dc peso file, en promedio, 12,7 kilos mayor que la rcduccién del grupo de con-
trol. Ademés, el intervalo dc confianza permite generalizar a la poblacién la eficacia
del programa de reduccién de peso, pues e1 efecto nulo (D = 0) se encuentra filera del
intervalo de confianza.
2.1.3. Gambia media tipificado
Algunos estudios primarios valoran el efecto comparando las medias de dos muestras
relacionadas. Todo lo que se expone en este apartado se aplica a cualquier forma de
emparejamiento, pero como el caso mas frecuente es aquel en el que las medidas se
toman en los mismos participantes antes y después de una intervencién, la termino-
logia que emplearemos se referiré a [as medidas pre y las medidas past. La principal
diferencia con respecto a los dos indices anteriores es que en los anteriores se asume
la independencia estadistica entre los dos grupos de participantes, mientras que en
este case los valores pre 3! past son de los mismos participantes, lo que hace may pro-
bable qua entre ellos haya una covariacién no nula.
Becker (1988) propuso el nombre cambio media tipg'ficado (standardized mean
change) para referime a este indice del TE, basado en la diferencia entre las medias
del pretest y del postest de un grupo, dividida par um desviacibn tipica: 8 = (pm —
Wye. Se han propuesw varies indices alternatives dependiendo dc qué desviacién
tipica utilicen en el denominador. Asi, Gibbons, Hedeker y Davis (1993) proponcn
utilizar la desviacién tipica de las ptmmaciones de cambio, Sm. Para no confimdirlo
con otros indices de la familia d, representaremos a este indice del TE coma dd (la
letra c del subindice es la inicial de cambio). Su férmula es,
dc! = ((3!) . M [2.13]

Saw
siendo c(gl) e1 factor de correccién del sesgo, definido coma (adviértase que aqui n es
el nfimero dc pares de valores):
30 Meia-anéllsis en Glendas Socialee y de la Salud
3
C(31) = l _ 4(n—l)—l [2.14]
Morris y DeShon (2002) derivaron la férmula para estimar la varianza de este

indies:
1
fwd)=[43012-[—]-["—';]-(1+n-d31)—d31
n —
[1151
Es habitual que los estudios informen de las medias del pretest y del postest,
pero es posible que no informen de la desviacién tipica de las puntuaciones dc cam-
bio, Sdif. Si se dispone de las desviaciones tipicas del pretest y del postest, Sp“, 3! SW,
asi como del coeficientc dc correlacibn dc Pearson entre las puntuaciones del pretest y
el postest, r, se puede calcular Sm mediante
Sig =Jsjn+sjm—2-r-Sm-Sm [2.16]

Si las desviaciones tipicas del pretest y del pastest son iguales, la férmula [2.16]
se simplifica, quedando asi:
Sag, = 5- 2(1- r) [2.17]
siendo S 1a desviacién tipica del pret'mt y dc] postest (0 un promcdio dc ellas).

En otras ocasiones el estudio aporm la prueba I de comparacién de las medias
pre y post, cuya férmula es 1‘ = J; - (Em — Em )/ S déf . Combinando esta férmula
con [2.13] as ubtiene la siguiente, con la que también se puede calcular este indice de
TE:
dd “(mi [2.1a]
donde c(gl) ya quedé definido an [2.14].

Una segunda forma de definir e1 cambio media tipificado consiste en dividir la
diferencia entre las medias pre-post por la desviacién tipica del pretest, Sp... Deno-
minaremos a este indice dug; su fénnula quedaria (Becker, 1988; Morris, 2000; Monis
y DeShon, 2002):
dc! = C(31) 'XFTS'A [2,19]

pr:
donde C(31) welve a set e1 valor que proporciona [2.14]. Si e1 estudio no aporta 1a
desviacién tipica del pretest, Sm (ni del postest), pero si informa de la desviacién flpi-
ca de las puntuaciones de cambio, SdJ-f, y de la correlacién enIIe el pretest y el postest,
r, se puede obtcner un valor aproxirnado dc Sm despejando S de la férmula [2.17]:
h i [2.20]
donde S seria una estimacién (16 SM que se podn'a sustituir en el denominador dc]
indice dc; (fénnula [2. 19]). En la férmula [2.17] se asume que las desviaciones tipicas
son iguales. Si este supuesto filera incorrecto, e1 valor dc S obtem'do con [2.20] no
coincidiré con el verdadem valor dc Sm para 33 aproximaré ms 3. él cuanto més
similares scan las desviaciones tipicas del pretest y del postest.
Morris (2000) derivé 1a férmula para estimar la varianza de deg:
1920322) = [C(31)]2 {n+3}["_‘1].[1+L452] _ d; [2.21]
Obsérvese que es precise concoct la con‘elacién entre e1 pretest y el postest, r,

para estimar 1a varianza de 6L2, Peru muchos estudios no informan de este valor. Si se
aportan las desviaciones tipicas del pretest, del postest y de las puntuaciones dc
cambio, e1 valor de r se puede obtener despejando de [2.16]:
2 2 2
P”
= Sm + Spa‘ 3-H [2.22]
2-5,,” Spa,
Si en lugar de las desviacioncs tipicas del pretest y el postest conooemos e1
promedio de sus varianzas, 5a, enhances se despeja en la férmula [2.20]:
r=l— s;
2-52 [2.23]
Por filtimo, muchos estudios no aportan los datos necesarios para calcular 13. co-
rrelacibn pretest-postest. En esos cases, e1 meta-analista se veré obligado a imputar
dicho valor a partir de infonnacién extema a1 estudio. Una solucién es imputar e]
valor promedio de las correlaciones entre e1 pretest y el postest obtenidas en aquellos
astudios del MA que informan de ella. Otra solucién cs imputar un valor sabre Ima
32 Meia-anélisis en Clenclas Suclales y de la Salud
base empirica independiente, es decir, segfin los resultados dc investigaciones previas

similares, o bien so puede utilizat e1 valor r = 0,7 recommdado por Rosenthal (1991a)
como un valor representativo de la correlacién esperada entre puntuaciones pretest y
postest, en general. Finalmente, se puede hacer un anélisis dc sensibilidad (véase el
epigrafe 8.5), consistente en calcular la varianza dc do; imputando un tango dc valores
de r (e.g., entre 0,] y 0,9 saltando dc décima en décima), y comprobando pos-
teriormente cl efecto quc las difercntcs imputacioncs dc r ejerce en los resultados dcl
MA. Si tales cambios no afectan sensiblemente a los resultados, entonces se puede
elegir uno de ellos siguiendo alguna de las solucionw an'iba apuntadas. P01" regla
general, 105 resultados del MA son robustos a cambios en la imputacién del valor de r
en la férmula de la varianza del TE, por lo que el criteria de Rosenthal (19913) es
muy recomendable cuando cl estudio no aporta este valor.
Ademfis de los indices do] y dcz, se han propuesm otras altemativas en la lite-
ratura especializada. Por ejemplo, en la férmula [2.19] 36 podria sustituir la des-
viacién tipica del pretest por la desviacién tipica del postest. Sin embargo, dado que el
u'atamiento implementado puede alterar 1a variabilidad de las puntuaciones en 81 pos-
test, el uso de Esta desviacién tipica harIa menus comparables los valores obtenidos en
los diferentes estudios de un MA. Se supone que la desviacién tipica del pretest sari
més homogénea a u'avés de los esmdios dc] MA, por lo qua se aconseja su uso en
lugar de la del postest.
También se ha propuesto utilimr como desviacién tipica el promedio de las
desviaciones tipicas del pretest y del postest (Dunlap, Cortina, Vaslow y Burke, 1996;
Taylor y White, 1992). E1 uso de esta desviacién tipica promedio incrementaria los
grados dc libertad, lo que supone una mejora en la precisibn de la estimacién de la
desviacién tipica poblacional. Sin embargo, se desconocen las propiedades distribu-
cionales de este indice del TE, de forma que no se dispone de una fénnula que nos
pcrmita estimar su varianza. For 6110, est}: opcién as desaconsejable, ya que en MA as
precise disponer de alguna estimacién de la varianza del TE (Morris y DeShon,
2002).
Veamos un ejemplo numérico de célculo de los indices do] y do; y de sus
varianzas segfin la informacién estadistica disponible en el estudio. La siguiente tabla
presenta las puntuaciones obtenidas en un hipotético estudio con una muestra dc n = 6
pacientes que tienen 1m trastorno dc ansiedad. La tabla presenta las puntuaciones
directas de cada paciente en el pretest y en el postest en un test de ansiedad, asi coma
las puntuaciones de Gambia. También se presentan las medias del pretest, del postest y
de las puntuaciones dc Gambia, asi coma sus twpectivas dwviaciones tipicas, e1
coeficiente dc correlacién de Pearson entre las puntuaciones del pretest y el postest y
el resultado de la prueba t de significacibn de la diferencia entre las medias.
Capitulo 2. Una méiflca nomfln: lndloes de tamano del efecto 33
Participante Pretest Fastest Diferencia

1 10 6 4
2 12 10 2
3 l3 7 6
4 15 12 3
5 l4 9 5
6 16 14 2
Em = 13,33 Z”, = 9,57 5 = 3.67
Célculos s” =l,63
SW = 2,16 Sm, = 3,01
r = 0,851; t(5) = 5,50p = 0,003
Nata. Las desfiaciones tipicas presentadas en esta tabla son las dealin-
ciones tipicas insesgadas, ya que éstas son las que se suel- aportar en los
estudios.
Aplicando [2.14] obtenemos e1 factor de correccién del sesgo, que es 001111311 9.

dcl Y (3&5
3 l 3
= 0,8421
CQD=1_4(n—1)—1= —4{6—l)—1
Con la férmula [2.13] obtenemos e1 indioe d“:
dcl = 0 ( 3I)
E," —E,,,, = 0 8421.13’33_9’67 = 1,891
Sage 1,63
La varianza estimada de dd se obtiene con [2.15]:
&2(d¢1)=[c(gI)]“{B-U—flllw-dfl- d;
= 0,84212 {1] -[fl]- (1 + 6-1,8912)-1,8912 = 0,8474
6 6 3
El intervalo dc oonfianza 3e obtiene sustituyendo estos valores en [2.2]:
3,695
IC95% : 1,891 i 1,96 - {0,8474 = {0 087
34 Meia-anéllsis en Clenclas Sociales y de la Salud
Si cl esmdio no aporta la desviacifin tipica de las puntuaciones dc cambio, pero

si pmenta las desviaciones tipicas del pretest y del postest, asi como la correlacifin
pie-post, mediante [2.15] obtenemos dicha desviacién tipica (cuyo valor coincide con
el de la tabla):
sag. =‘/s;"+s;N—2.r.sm.sm
= J2me: +3,012 —2-o,351-2,16-3,01=1,63
A continuacién, mediante [2.13] se obtiene dc]. En el ejemplo, e1 promedio de
las desviaciones tipicas del pretest 3/ del postast vale:
s = Jar; +sjw)/2 = x/(2,162 +3,01=)/2 = 2,52

Si 31 estudio no informa de las desviaciones tipicas del pretest y el postest, sino
del promedio de ambas (.5), es posible “aproximar” e1 valor de Sdif mediante [2.17]:
Say, = 5-1/2-(1—1"): 2,62- 2-(1—o,351)=1,43

Esta férmula nos da un valor San— = 1,43 que difiere dc] real (Sau- = 1,63). E110 se
debe a que esta férmula solo ofreceré cl valor exacto dc Sdif cuando las desviacionas
tipicas del pretest y del postest scan idénticas. En case contrario, coma ocurre en
numtro ejemplo, cl resultado es solo aproximado.
Si e1 estudio informa del resultado de la prueba 2‘ dc significacién de diferencias
entre las dos medias, e1 indice dc] se obtiene ficilmente mediante [2.18]:
dd = C(31) - fi = 0,8421 iris = 1,891
En cuanto a1 indice deg, 13. férmula [2.19] nos permit: obtenerlo a partir de las
medias pretest y postest y de la desviacién tipica del pretest:
Z,” —§,m =0 8421_13,33—9,67 =1,427

dc; =c(gt‘)-
pr: 9
Nétese que el indice dc: = 1,427 as manor que dd = 1,891. Ella se debe a que la
correlacién entre las puntuaciones del pretest y el postest en este ejemplo es mayor
que 0,5 (r = 0,851). La varianza del indice dc; se obtiene mediante [2.21]:
Capitulo 2. Una mélflea comfln: lndloes de hmaflo del efeato 35
62(dcz)=[c(g1)]‘.[@]{"_‘1].[1+ "'dczz ] _ :2
11-3 2-(1-r)
2
= 0,34211.[2(1'—0’851)][.6_‘1.] ” fl 4,4273 = 0,4291
6 6—3 2-(1-0,851)
El intervalo de confianza se obtiene sustituyendo estos valores an [2.2]:
2,711
IC95% :1,427 -|_-1,96 - 40,4291 = {
0,143
Si e1 estudio no reports. la desviacién tipica del pretest, Sm, pero si informs, de la

desviacién tipica de las puntuaciones dc cambio, Sam podemos ‘aproximar’ el valor dc
Sm calculando e] promedio de las dwviaciones tipicas del pretest y el postest me-
diante [2.20]:
S= Say = 1,63 =
Jza —r) J20 — 0,351) ’
Obsérvese cémo S = 2,99 no coincide con la dwviacién tipica real del pretest,
Sure = 2,16. Ello se dcbc a que la fbrmula [2.20] solo daré. el valor exacto cuando las
desviaciones tipicas del pretest y el postest scan idénticas. En consecuencia, a1 sus-
tituir S en la férmula [2.19] para obtener dd, obtenemos dc; = 1,034, un valor que es
solo aproximado (e1 valor exacto seria dc; = 1,427).
PaIa el célculo de la vafianza del indice dc; es precise conocer la correlacién
entre e1 pretest y el postest. Si esta se desconoce pero e1 estudio reporta las des-
vianionm tipicas del pretest, del postmt y de las puntuaciones dc cambio, obtenemos r
mediantc [2.22]:
_ S; +8; 4; _ 2,162 +3312 4,532 —0351

2-sm-sm 2-2,]6-3,01
Si en lugar dc Sm y Spec disponemos del promedio de las desviaciones tipicas, S,

aplicamos [2.23] para aproximar el valor dc r:
=1- i =1_ 1,632

= 0,851
r 2-32 2-2392
Los indices dc] y deg estiman parémeu'os diferentes. La finica diferencia entre sus
dos férmulas de célculo estfi en el denominador, es decir, en la desviacién tipica
36 Meia-anélisis en Clenclas Sociales y de la Salud
utilizada para tipificar las medidas. Cuando la correlacién dc Pearson entre e1 pretest
y el postest, r, es mayor que 0,5, entonces Sm seré manor que Sm, por lo que d“ seré
mayor que- dcz. Si la correlacién es manor que 0,5 ocurriré 10 contain: Sm seré mayor
que Sm y, en consecuencia, dd seré menor que (la. Los indices dd y dc; coincidirén
cuando 1a correlacién valga 0,5, ya que en ese caso Sah— semi igual a SP“. En general, 1a
correlacién pretest-postcst suelc set mayor quc 0,5 por lo quc lo més habitual cs quc
dc] sea mayor que dd (Becker, 1988; Morris 3; DeShon, 2002).
La eleccién de mm 11 otro indica- del TE por parte del meta-analjsta dependeré de
qué parémetro desea estimar en el MA. En ocasiones se incluyen en un MA tanto
estudios con disefios de dos grapes independientcs, donde la diferencia media tipifi-
cada seria e1 indice idéneo ((1), come estudios con disefios pretest-postest de un solo
gmpo, donde se podria elegir dd 0 dc; coma indice del TE. Si en 1111 MA 36 van a inte-
grar indices d, procedentes dc grupos independientes, con indices dc cambio medic
tipificado, la mejor eleccibn es dc; para estos filtimos. E110 se debs a que la desviacifin
tipica del pretest es el estadistico dc variabilidad més parecido a la desviacién flpica
conjunta de 103 gmpos experimental y control que se utiliza en el indice d (Dunlap e1
al.,l996; Morris y DeShon, 2002). Bien es cierto que integrar en un mismo MA
indices d con indices dc cambio media tipificado, dcz, es una estrategia arriesgada, ya
que ambos indices estiman parimetros diferentes. A pesar dc esto, si se puede demos-
trar que los indices dc; aportan estimaciones similares a las obtenidas con 10: indices d
mete modo dc proceder no invalidaria las conclusiones del MA. Por otra pane, dd
fiende a ofiecer estimaciones del TE mayores que da, de forma que 1111 made de evitar
sobreestimaciones de los efectos consiste en utilizar dc; en Inga: dc do]. Seria apro-
piado utilizar el indice dc] en situaciones may particulates, tales como en un MA diri-
gido a estimar cl cambio (o la mejora) pretest-postest producido por un tratamiento y
todos los estudios aportan 1a desviacién tipica de las puntuaciones dc cambio.
2.1.4. Diferancla do camblos medias flpfflcados
En algunos campus dc investigacién es muy fi‘ccuentc e1 cmpleo de disefios de dos

grupos con medidas pre y post. En estas situaciones e1 interés suele centrarse en la
interaccién, dado que lo que se explora es la presencia dc cambio diferencial, es decir,
de un cambio pre-post difercnte en los dos grapes. Por ejemplo, si se valora e1
impacto de una intervencién clinica, es frecuente contar con un grupo de control dc no
tratados en lista de espera, de trammiento placebo 0 de 1111 traxanfiento alternative
(Neck, Jam's y Wedig, 2008). Se podria plantear hacer una comparacién simple de las
medias post, empleando la diferencia de medias tipificada para gmpos independientw
(d) que ya hemos describe, pero eso significa ignorar una informacién disponible que
puede ser valiosa: los valores pre. Si ademés el disefio no es completamente aleato—
rizado, sine un disefio cuasiexperimental, antennas es impressindible tenet en cuenta
las puntuaciones pre, en las que los grupos podrian no set equivalentes.
Capitulo 2. Una méIflea uomfln: lndloes de tamano del efecto 37
Si denominamos los dos grupos objeto de comparacifin grupo experimental y

grupo control, cl TE paramétrico que se desea estimar se basa en la comparacién de
los cambios pore-post tipificados dc ambos grapes, en los que para tipificar se emplea
alguna desviacién tipica: 8 = (9a - M’E)fUE - (pm; - Mpy'uc. Se han pmpuesto
varias altemativas para la desviacién tipica (Becker, 1988; Carlson y Schmidt, 1999;
Mon'is, 2008; Morris 3! DeShon, 2002; Schmidt y Hunter, 2015). Presentaremos aqui
los tres indices dc] TE mfis apropiados para estimar e1 cambio diferencial pre-post
entre dos grupos.
El primer indice de este grupo consiste en calcular e1 indice dd definido an
[2.13] para los grupos experimental 3? control por separado y obtener 1a diferencia
entte ambos. Sean dc”; y do”; 103 indices de cambio mcdio tipificado de los grupos
experimental y control:
d“ =c(gIE)-———X”'§‘X’“’E [2.241
dig-fig
dcl,C = “81(2)“ @ [2'25]

#30
donde flux y EM; son las medias del grupo experimental en el pretwt y 61 pos-
test, imp 3* Elm; son las medias del grupo de control en el pretcst y el postest,
SdifiE y SW; son las desviaciones tipicas de las puntuaciones de cambio de los grapes
experimental y de control, 3* C(glE) y C(glc) son los factores de correccién de los indi-
ces del TE, que sc obticnen aplicando [2.14] a cada grupo. La diferencia dc cambio:
medics tipificados quedaria definida coma (Morris y DeSohn, 2002):
Y -}
dsl = dour _dcl,C = C(glg) '[ W ]—
W3 [2.26]
3 , -f
—C(glc)‘[%]
m:
Para no confimdir este grupo de indices del TE con otros pertenecientes a la

familia d emplearemos la letra g, inicial de ganancia. Con 6110 hacemos referencia a1
cambio neto, es decir, al cambio estimado en el grupo experimental una vez que se ha
descantado cl cambio que pudiera producirse en el grupo de control por razones dife-
rentas a los mecanismos que se sospecha estén iInplicados en la intervencién. La va-
rianzadedgl isigualalasumadelasvarianzasdedcmydcmdaquesenamdedos
grupos independientes:
3B Meia-anéllsis en Glendas Socialee y de la Salud
6,202.31) =a'z(dc1£)+&2(ddlc) [2.27]
obteniéndose estas mediante sendas aplicaciones de la férmula [2.15] a cada grupo:
01(dcu)=[c(gls)]z-[—]-[E—3] (1+"s'dfl.x)—d§.z
.. 1 n —l
[2-281
&=(d¢1,c)=[c(gtc)]‘ {HiM "c -;].(1+ nc 'dfi.c)- die
C nC
[2.29]
En lugar dc utilizar las desviaciones tipicas de las puntuaciones dc cambio de los

gmpos experimental y control, un indice alternative a éste propuesto por Becker
(1988; Morris y DeShon, 2002) consists en sustituir esms por las desviacioncs tipicas
del pretest, Sp“; 3! Smc. Representaremos aqui a este indice del TE coma dag y queda
definido come
i —Y
dgz = «:21 _ doze = C(glz) [ M ] —
SP";
[2.30]
— we){—c
S
‘ KM] pre,C
Lavarianzadedszesigualalasumadelasvarianzasdedflydgp,
arzwgz) =6'2(dcu)+&z(dfl£) [2.31]
[as cuales 3e calculan mediante sendas aplicaciones de la f6rm1fla [2.21] a each grupo:
&1(dcu)=[c(gtg)]‘-[%][g—J][1+;affi]_dgu [2.321
_ _ d2
E E E
A; = _ 20-72:) . '3 ‘ 1 _ ”c532; _ 2 2.33

0' (dc2,C) [48%)]z [—"c] [TE-3] [l+—2(l-rc):| cC' [ ]
En las fémmlas [2.32] y [2.33] n; 3! re representan los coeficientw de cone-

lacién dc Pearson entre cl pretest y el postest en cada grupo, respectivamcnte. En la
précfica, los estudios no suelen informar dc $8133 correlaciones, por lo que todo lo
dicho en el apartado anterior sabre cémo imputar estos valores se hace extensible a
we case. Aunque en [2.32] y [2.33] aparecen valom dc r diferentes (rE 3* re), 10 més
fiecuente seré imputar un mismo valor dc r en ambas férmulas (e.g., 3-3 = rc = r = 0,7,
segfin la recomendacién de Rosenthal, 1991a).
Si 56 puede asumir que las desviacioncs tipicas del pretest en los gmpos experi-
mental y control son similares, es major utilizar el indice propuesto par Morris (2008)
y que aqui representaremos por dag. Este indice del TE divide las diferencias entre 105
cambios medics pro-post de los dos grupos per una desviacién tipica dcl pretest pro-
mediada, Em , a partir de las de los dos grupos, Sp“; y 8mg:
E = (”E — 1)‘ Sire; + ("a — 0' Sim [2-34]

P" as + nc — 2
Con esta desviacién tipica promedio, e1 indioe d3; se calcula medianhe,
avg.. =c(gIE,C)-[fi""“f’°‘";‘ Ema—EMA] [2.35]

w
siendo C(ginc) e1 factor dc correccién, que se obfiene mediante
1 =1 _ 3 — [2.36]
“(g 5-“) 40::E + nc — 2) —1
Finalmente, la varianza de dag viene definida por la siguiente férmula (Morris,

2008):
6201133.)=[r:cs.45,c)]z -2(1— r) - FHA}

EnC [2.37]
x 115 +1": - 2 . 1+ nEncd:3 —d2,,
:15 + n c —4 2(l—r)(:r11E +216) 5
Veamos un ejemplo en el que vamos a ilustrar 061m se calculan estos tres in-
dices del TE y sus respectivas varianzas, asi coma los intervalos de confianza corres-
pondientes. Supongamos un estudio en el que se compara el cambio, corno reduccién
del nivel de ansiedad entre e1 momenta pretest y el momenta postest, observado en un

grupo experimental que recibe un tratarniento y en un grupo de control no Iratado. Los
datos del grupo experimental son los mismos que los del {mice gmpo del ejemplo del
apartado anterior. La siguiente tabla presenta las plmtuaciones en el pretest, en el
postest y las puntuaciones diferenciales pre-post en ambos grupos. También sc- pre-
sentan los estadisticos descriptivos: medias y desviaciones tipicas del pretest, del
postcst y de las puntuacioncs dc cambio en cada grupo, asi coma los coeficientes dc
correlacién de Pearson enlre e1 pretest y el postest en cada grupo.
Grupa experimental
Pamhipante Pretest Fastest serencia
1 10 6 4
2 12 10 2
3 13 7 6
4 15 12 3
5 14 9 5
6 16 14 2
E," = 13,33 in. = 9,67 5 = 3,67
Célculos SW = 2,16 SW = 3,01 Say =1,63
1'; = 0,851
Gmpo control
Participante Pretest Pastas: Diferencia
'7 l1 11 0
8 10 9 1
9 12 13 -l
10 14 12 2
11 16 15 1
12 15 15 0
Ems =13,00 f,” = 12,50 5 = 0,50
Célculos SP,“ = 2,37 Smfi = 2,35 Si” = 1,05
P'C = 0,901
Para obtener el indice d5] (fénnula [226]} calculamos primero los factores dc
correccién, C(glg) y (131:), y aplicamos [2.24] 3! [2.25]:
C(glE)=l— 3 =1— 3 =o,s421

4(nE-1)—l 4(6-l)—1
C(glc) = l — ; = 1 — 4 = 0,8421
4(nc—l)—l 4(6—1)—1
dd; = C(31)?) . W = 0,3421 . w =1,391
#25 1:
X“’“ = 0,8421 - —13

dam = r:(xfl'c) -—X’"’;_ 2’5" = 0,401
I);’°(:
dlfL' 3
About lusfituimos [2.26] para obtener el valor del indies:
(181 = dd; — do”: =1,891—0,401=1,490
Para obtener 1a vafianza dc dgl (férmula [227]) calculamos primero las varian-
zas de dc”; y dc”: con las férmulas [2.28] y [2.29]:
6'2(451' 1,5)= [C(glg)]2 [rs—)[%-:—3}(1+ngdig)— dim

E E
= 0,8421: [—](2] (1+ 6 1,3912)— 1,8912 = 0,3474

62(dc1,c) = [C(glcflz '[Ill]'[:c — 1:] '(1"' "cdc )- dczlfl
c C
= 0,84212 [3 [fl] (1 + 5 0,4-01’) 0,4012 = 0,2262

61(dg,) = &2(d31_E) + 6-2(d§_c) = 0,8474 + 0,2262 = 1,0736
El intervalo dc confianza Be vuelve a obtener con la férmula [2.2]:
3,521
IC95% : L490:|:1,96- #143736 = { 0 541
Para calcular e1 indice dz; sustituimos en la férmula [2.30]:

Meia-anéllsis en Clenclas Socialee y de la Salud
dgz = dam _dc2.C =
= c(gIE) .[ @ J _ C(glc){ w }=
m3 prefi
_0,8421. 13’00—12’50 =
=0,8421- M
2 2,37
= 1,427 — 0,178 = L249
Para obtener la vafianza dc d3; con [2.31] calculamos primero las varianzas de
los indices dd; y dc2,C con la férmulas [2.32] y [2.33] 3; Image aplicamos [2.31]:
52(dc23)=[0(glg)]2 '[2(1’:r£):|'[nx —1]_ 1+ ”56332.3 :|-d-=22,E

E ”2—3 20—72)
— — - I 2
=0,34211H[m][fl] “ fl 4,4272 =
6 6—3 _ 2-(1—0,851)
=0,4291
. 2(1—r)
c _ . 1 +
C .]["c_3]
: 1 .|: _ ”c _ n —1 _
, _ d 2c2,C Nadia
( e 2 , € ) = [C(gcfl
U 2:! - 20—53)
=0’84212.[Zfl-0901)]'[6—1]_ 1+ 6.0,1732 4,1782:

6 6—3 2(1—o,901)
=0,0448
6'2 (dgz) = 6'2 (den) + 6'2 (dam) = 0,4291 + 0,0448 = 0,4739
El intervalo dc confianza es,
2,598
[695% : 1,249 :l: 1,96 - ‘/0,4739 ={ 0 100
Finalmente, para obtener cl indice d3; (férmula [235]) primero hay que calcular
el pmmedio de las dos dwviaciones tipicas del pretest mediante [2.34]:
Capitulo 2. Una méiflea oomfln: lndloes de hmaflo del efeato 43
E = (nE—1)-s;,,g+(nc—1)-s;w
W n£+nc—2
=\/(6-1)«2,16’ +(6—1)-2,372 = 2,257
6+6-2
Calculamos e1 factor de correccién con [2.36]:
3 3
((31536) = 1 — =1— =0 231
4(nE+nc—2)—l 4(6+6—2)—1 ’9
Y obtenemos el indice c133 con [2.35]:
dgs = 4315.6) . [(XWJ — from? )— (EMS — Era-v.0 ):|
Spa
= 21-
(13,33—9,67)-(13,00-12,50)] = 1,287
0’9 3 [ 2,267
Finalmente, 1a varianza de d8; 56 obtiene mediante [2.37], pero primero tenemos

que decidir qué valor dc r se sustituyc en dicha férmula. Como conocemos las corre-
laciones de Pearson entre e1 pretest y el postest de cada grupo (en concrete, rE = 0,851
3/ rc = 0,901), podemos promcdiarlas y utilizar dicho valor en la férmula de la
varianza [ F = (0,851 + 0,901)/2 = 0,876]:
arm = [c(gzg,c)]2 -2(1— r) -["3+ ”C]x E C
xm
nE+nC—4
. “Led; 4:3:
2(l—r)(nE+nc) ‘1
=o,92312 -2(1—0,876)-[ 6+6 )x

(60(6)
{ a w — 2 } 1+ 6-6-1,2872 ]—1,2s71 = 0,1960
6+6—4 2-(1—0,376)—(6+6)
El intervalo de confianza as
2,155
IC95%:1,287 iL96-1I0J960 ={0 419
Comparando los tres indices del TE comprobamos que dgl = 1,490, que se basa
en las desviaciones tipicas de las puntuaciones dc cambio, es mayor qua d3; = 1,249 y
dz; = 1,287, que se basan en las desviaciones tipicas del pretest. E110 se debt: a que la
correlacién pre-post es superior a 0,5, en cuyo caso la desviacién tipica dc] pretest
serfi mayor que la de las puntuaciones dc cambio, dando lugar al patrén dc resultados
observado en el ejemplo. También es digna de mencién la similitud entre los indices
dag, y dgg, ya que ambos se basan en las mismas desviaciones tipicas (las del pretest).
La diferencia entre- uno u otro indice esté en que en dz; no promediamos las
desviaciones tipicas del pretest, mientras que en d3; las promediamos. En general, es
més anonsejable utilizar dag qua £182, debido a que aquel es un estimador mzis eficients
quc este; es decir, tiene menor varianza. De hecho, como se puede observar en nucstro
ejemplo, la vafianza dc d3; fue 0,4739, mientras que la de d3; fue muy inferior:
0,1960. Esta propiedad, unida a1 hecho de que d3; es un wtimador robusm ante 1a
violacién del supuesto dc homogeneidad de varianzas, lo convierten en el indice
preferido para este tipo de disefios Morris, 2008).
2.1.5. Eleccién de un indies do comparacién entre gmpos
Aunque ya hemos indicado en qué circunstancias es apropiado utilizar cada uno de los
indices de la familia d, can frecuencia los estudios recopilados sobre una misma
cuestién se han realizado con disefios distintos o aportan informaciones diferentes que
impiden calcular el mismo indice en todos 61103. For ejemplo, para valorar una misma
intervencién algunos estudios pueden haber empleado un disefio dc grupos inde-
pendientes con medidas solo post, mientras que otros han empleado 1m disefio simple
pre-post sin grupo de control 3! otros pueden haber empleado el disefio 6ptimo, que
incluye grupo dc control y medidas pre y post. Mientras para los primeros lo ade-
cuado es emplear d, para los segundos hay que utilizar dc y para los filtimos 10 11158
adecuado es emplear dg.
Calcular diferentes indices para distintos estudios es un problema. Como nonna
general no se deben mezclar indices diferentes en un mismo MA, ya qw: estiman
parémetros distintos. Si en la gran mayoria de los estudios solo hay medidas post 3? en
unos pocos estudios hay medidas pre (con gmpo de control), probablemente 10 major
sea ignorar las medidas pre de los pocos estudios que las aportan y calcular d an todos
los estudios. Si la situacién es la contraria (gran mayoria de estudios con medidas pre
3/ grupo de control 3: unos paces sin medidas pre), quizés sea major dejar fuera los
pocos estudios que no aportan las medidas pre y emplear d3 para el MA. Si 105 estu-
dios se reparten cute esos dos disefios de forma més equilibrada, entonces la mejor
opcién es analizar los dos gmpos dc esmdios por separado. Habra'. que tenerlo en
cuenta en la interpretacién de los resultados. Otra opcién que 3 veces fimciona con-
siste en codificar cl disefio coma variable categfirica y analizar si cada uno de- estos
disefios tiene asociado 1m TE medic diferente (véanse estas técnicas en el capitulo 4).
Si e1 resultado sefiala que el TE media no mté asociado a1 tipo de disefio, enhances se
cuenta con un argumento para analizarlos todos juntos, aunque es improbable que esto
ocurra.
Si entre los estudios hay algunos en los que solo se puede calcular d y otros en
los que solo se puede calcular dc, la situacién es mas complicada. Aqui no se puede
ignorar parte de la informacién para calcular el mismo indice en todos. Lo més
probable es que haya que analizar los resultados por separado, en dos grupos de
wtudios. De nuevo se puede analizar el papcl del disefio en los TE calculados, para 10
més probable es que se encuenu'en diferencias significativas entre los valores medics
obtenidos con esos dos tipos dc disefio.
2.2. lndices basados en correlaciones entre variables

cuantitativas
En muchos campus dc investigacién los estudios primarios ofi-ecen remltados que se
refieren a la asociacién o covariacién entre variablas cuantitativas. En estas sima-
ciones 10 ms apropiado es emplear 1m indice de TE que refleje esa covafiacibn, como
el coeficiente dc correlacién dc Pearson.
2.2.1. Comlacién de Pearson
Los resultados dc muchos estudios primaries se expmsan coma coeficientes dc

correlacit’m, especialmente la correlacién de Pearson (r). Esta coeficiente tiene entre
sus virtudes la de que, coma esté libre dc unidades de medida, no necesita ser tipi-
ficado para que sirva como métrica comfin; se puede emplear directamente como indi-
ce de TE. Algunos de los principales autores del MA, especialmente Rosenthal
(1991a; cf? también Rosenthal, Rosnow y Rubin, 2000), ban insistido en que ate de-
beria set a] indice prefefido para 61 MA debido a sus virtudes, pero no panacea haber
sido suficientemente convincentes.
Mienu'as e1 valor paraméu‘ico que representa la asociacién entre dos variables as
igual al cociente ante su covarianza y el producto de sus desviaciones tipicas,
33’ [2.38]
el valor mueslral, estimacién de pm 3: obtiene mediante e1 estadistico In. (Botella,

Sucre y iénez, 2012),
,. = v [2.39]
siendo su vmianza aproximadamente:
v Alli [2.40]
' 71—1
El trabajo con este indice de TE no se suele hacer directamente con los valom
de r, dado que si p ¢ 0 su distribucién es asimétrica. Para corregir esta distribucién y
convertirla en una més adecuada para las técnicas estadisticas de MA el procedimien-
to més empleado es aplicar 1a transformacién dc Fisher (Botella, Suero y Ximénez,
2012f. Para un valor de r su transformacién a la Z de Fisher as
2,4.log, ”—r
2 l—r
[2.41]
mavm'ianzaesmpmximadamente:
v5 = _ [2.42]
Veamos 1m ejemplo numérico con la oorrelacién entre [as variables X e Y; en 61

se obtiene 1a transfonnacién a Zr dc Fisher mediante [2.41], 111 valianza de esta trans-
fonnacién mediante [2.42] y el intervalo dc confianza de nuevo mediante [2.2].
1 l + 0,74
= 0,74 Zr =—-1 =o,9505
'31" 45 2 °g1- 0,74
n =
v —L — 0 02331
5 45—3 ’
1,253
IC95% : 0,9505 :l:1,96« 40.02381 = 0 648
Cuando se emplea la transformacién en Zr las técnicas estadisticas propias del

MA, que expondremos en capitulos posteriores, se aplican a estos valores trans-
formados. Una vez alcanzados los resultados finales, la expresién numérica de esos
3 No hay un writerio unfinime a at: raspechu. Antares coma Schmidt y Hunter (2015) no recomiendan cl
uso de la tmnsformacibn Z d: Fisher, sino utilize: dimclmnente las comlaciones.
resmfltados (sabre todo las estimaciones combinadas y los limites de los intervalos de
confianza) se deben devolver a valores dc r, aplicando la transformacién inversa a la
de Fisher, mediante 1a férmula inversa dc [2.41]:
r—— em
‘1
3” +1
[2'43]
en la que 3 as la base de los logaritmos naturales. Por ejemplo, si la estimacién final
combinada dc valores de Zr nos da igual a 1,26 entonces el valor correspondiente de r
es igual 3.:
24,26 _ 1
r = 0,851
621.26 +1
La fémmla [2.43] se puede utilizar también para devolver a la métrica del coe-
ficiente de correlacién los limites confidenciales en tome a la Z de Fisher de cada
estudio (y de la estimacién combinada). De esta fonna la gréficafarest plot (véase e1
epigrafe 3.4.3) puede presentar los intervalos de confianza de cada estudio individual
la propia métrica dc r en lugar dc hacerlo en la métrica de la Z dc Fisher, 10 quc
facilita la mterpretacién de los resultados. En el ejemplo numérico dc més aniba, los
limites confidenciales transformados a la méu'ica dc r mediantc la fénnula [2.43]
serian 0,849 y 0,570.
Ademés del coeficiente de correlacién de Pearson, la familia :- incluye un amplio
nfimero de coeficientes dc correlacién, algunos de los cuales son mera aplicacién del
coeficiente de correlacién de Pearson cuando una de las variables, 0 ambas, es ordinal
o dicotémica (e.g., correlacién ordinal dc Spearman, correlacién biscrial-puntual, coe-
ficiente phi), mientras qua otros son adaptaciones dc aqua] al caso de variables dicoto-
mizadas (e.g., correlacién biserial, correlacién teu'acérica, correlacién biserial-phi).
Todos estos coeficientes dc correlacién pueden ser utilizados como indices del TE,
para para que esto sea posible e1 meta-analista tendré también que disponer de su
varianza muestral (e.g., Rosenthal et £11., 2000; Sénchez-Meca, Main-Martinez y
Chaoén—Moscoso, 2003).
2.3. indices para variables dicotémicas

Cuando las variables que cxpresan resultados no son cuantitativas sino dicotomias
naturales no se aplican los indices dc TE expuestos hasta aqui. Para estas simaciones
disponemos dc otros indices més adecuados (Fleiss 3* Berlin, 2009; Sinchez—Meca,
4B Meia-anélisis en Clenclas Sociales y de la Salud
Marin-Martinez y Chacén-Moscoso, 2003). El ascenario analitico es uno en el que

una variable de resultado dicotbmica es evaluada en dos muestras e interesa valorar e1
grado en que los resultados estén asociados a la pertenencia a um 11 otm grupo. Par
ejemplo, la aparicién de un trastorno del compottamiento alimentario (TCA)
(codificado dicotémicamente coma Si 0 NO) en un adolescents puede ser indepen-
dientc o no dc quc uno de los padres presentc obesidad (también codificado come Si 0
N0). Podemos representar la situacién con el esquema de la figura 2.1. Repre-
sentando a la variable de multado coma Y (1: presencia de TCA; 0: ausencia de
TCA) y al factor que se explora como X ( 1: padre/madre obese; 0: padres no obesos).
Figura 2.1. Tabla do contingencia da Ia exposiciOn

a un factor (X) y la aparicifin de un lraslaomo (Y).
Y
1 0
l a b 111
X
0 c no
El resultado dc interés, aquel que dweamos expresar en un indice de TE, as si la

fiecuencia con la que aparece 1m TCA (Y) cambia o no segfin e1 factor contextual (X).
Para 6110 se pueden emplear muchos indiccs, de entre los que nosotros hemos elegido
los tres més utilizados: la diferencia de praporciones, la razén d3 proporciones y la
razén a'e ventajas. Este filtimo, la razén de ventajas, es el mass utilizado de los tres en
psicologia (para una exposicién més extensa y detallada, véase Fleiss 3/ Berlin, 2009).
En muchos contextos se emplea cl término ‘fiiesgo” en lugar dc milizar e1 témfino
“proporcién”, dado que se refiere a factores asociados a la salud (dfl'erencia de
fiesgos en lugar de diferencia de proporcimes y riesga relativo en lugar dc razén de
proporcioncs).
Para ilustrar 105 trees indices emplearemos un ejemplo comfm. Corresponde a las
frecuencias can qua presentan obesidad dos muestras dc personas que han estado
expuestas (X=1) o no expuestas (X=0) al factor contextual de que su padre o madre
sea obese:
Obesidad
si N0
Pmm si 50 150 200
0W0 NO 60 340 400
110 490 600
En este ejemplo [as pmporciones de obesos denim de los grupos de expuestos

(E) y no expuestos (NOE) al factor son:
pg=50/200=0,25 pNag=601400=0,15
2.3.1. Difemncia de proporciones
Como su propio nombre indica, se obtiene la diferencia entre Ias proporciones

(estimaciones de las probabilidades correspondientes) de la variable dc resultado en
los grupos formados por el factor. Representaremos por p; y p0 a las proporciones del
valor de interés en la variable de resultado dentro de los grupos fonnados por la
variable que represents. e1 factor:
dh-fln = p1 — p” [2.44]
micntras que su varianza estimada
v =P1'(1‘P1)+Po'(1—Po) [145]
dPI'Po ”I no
El valor qua: refleja ausencia dc efecto es 0, valor que se obtiene cuando 133 pm-
porciones son igualw. Aplicando las férmulas [2.44] y [2.45] a1 ejemplo del apartado
anterior obtenemos los valores, mientras que con la férmula genérica [2.2] obtenemos
e1 intervalo de confianza‘.
d“ = 0,25 — 0,15 = 0,10

v, _ 0,25 -o,7s + 0,15 -o,ss =0,001256
M 200
0,169
IC95%: 0,10 :|:1,96- #0301256 = 0 031
4 La férmula [2.2] deb: aplicarse aqui con prudencia. Solo fimciona adecuadamente cuando n1 y no son
grandesytantop; oomopnaonvaloresalejndosdesuslinfites ( 0 y l).Enelcasopmiculardequela
pmporcién sea igual a 0 o 1 no se puede calcular la varianza. Ademés, Ins limites del intervalo dc cunfin
calculados can esta fénmfla pueden quadar filera de sus limites [0;1] (Newcombc, 2012).
Esta indice time la dosventaja de que el tango de valores posibles esfi limitado
ante —1 y +1, ya que las propias proporciones tienen 1m tango limitado [0;1]. Esta
hacc que a vecm una difcrcncia aparente sea cngafiosa.
2.3.2. Razén do proporclonas

También se llama Riesgo Relativo, ya que se emplea macho para valorar cl papal dc
factores contextuales coma covariables que representan un riesgo incrementado (fac-
tor dc tiesgo) o reducido (factor dc proteccién) respects a un potencial evento ad-
verse. Una altemativa que permite solventar la limitacién que hemos sefialado para
JPN“ consists en hallar e] cociente enlre esas proporcionas en lugar de su diferencia,
aunque por razones estadisticas se suele trabajar con su logaritmo natural, ya que las
propiedades estadisticas del logarilmo lo hacen mas fécilmente tratable:
RP= Pl/pfl [2‘46]

LOSRP=L033(P1/P9) [2-47]
La varianza estimada de esta transformacién es
1%” =1'—P1+1'—P0 [2.43]

pl '71] PD "'0
En este case e1 valor qua refleja 1a ausencia de efecto cs 1, valor que se ubtiene
a] calcular e1 cociente entre dos proporciones iguales. Sin embargo, e1 efecto nulo
cuando se transform logaritmicamcntc pasa de 561' 1 a ser 0. En cl ejcmplo anterior
RP, su logaritmo, 1a varianza de este filtimo y el intervalo de confianza serian (véase
la nota 4, que se aplica también a RP),
RP = 0,25/ 0,15 = 1,667 LogRP = 0,5108
=— 0,75 0,85
—=o,02917
+
”“3” 0,25-200 0,15-400

0,846
109%: 0,5103i1,96-,/o,02917 ={0176
En mite ejemplo, una RP = 1,667 se interpretaria afirmando que en los sujetos

que ticnen algl’m padre obese as 1,667 vases més probable que sultan 1m TCA en
comparacién con los que no lo tienen. Si calculamos la RP al revés, es decir, mediante
RP = poipl = (US/0,25 = 0,600, este valor se interpretaria afirmando que en los
sujetos que no tienen un padre obese la pmbabilidad de sufi-ir un TCA es un 40%
menus que en aquellos que si 10 tienen. Obsérvese que el valor 40% viene dc calcular
cl inverso de la RF: 1 —RP = l — 0,600 = 0,400. Cuando RP sea manor que 1, cl modo
mfis adecuado de interpretarla es en fimcién de an inverse.
La interpretacién de RP debe hacerse teniendo en cuenta 1a magnitud de las pro-
porciones en juego. Asi, par ejemplo, 1m valor RP = 2 se puede haber obtenido a
partir de proporciones muy diferentes, tales como RP = GAO/0,05 = 2 o también como
RP = 0,90/0,45 = 2. En el primer case, la diferencia porcentual entre las dos propor-
ciones es tan 5010 de un 5%, mientras que en el segundo caso es de un 45%.
Dado que se trabaja meta-analiticamente con la transformacién logaritmica, para
informar de los resmltados hay que devolver e1 valor u-ansformado a la escala de la
razén dc proporciones mediante la férmula inversa a [2.47]: RP = elm”. En el ejem-
plo numérico, los limites confidenciales transformados a la métrica de la razén de
proporciones serian: em“ = 2,330 y 80,115 = 1,192.
2.3.3. Razén do ventajas
Conocido por sus iniciales en inglés (OR; odds ratio), In razén de ventajas, que
nosotros representaremos por RV, no obtiene cl cocicnte entre dos proporciones sino
entre dos ventajas. Una proporcién es un cociente entre- dos frecuencias en el que la
fiecuencia del numerador csté incluida en la del denominador (par ejemplo, los
valorw (16 p; y p; d: los dos indices ant/crimes). Por e1 contrario, una ventaja as un
cociente entre una proporcién y su complementaria: V=p/(1 — p). Es decir, tomando
como referencia la nomenclature. de la figura 2.1, la ventaja del valor 1 sabre e10 es
pI/(I —p,) [otambiénafb]enelg1‘upodsx= l,mientmsque es igual apg/(I —pa)
[otambiéncfd] enelgrupodeX=0. Enconsecuencia, laRVmiguala
R V : Pl/(I‘Pn) = “/5 = “'d [249]

Pn/(1_Po) 3/51 ‘3'!)
Como en el caso anterior, se suele trabajar con su transfurmacién logaritmica,

LogRV, también por la bondad de las propiedades estadisticas asociadas:
LagRV =Loge[%] c a
[2.50]
52 Meia-anéllsis en Clenclas Suclalee y de la Salud
La varianza estimada de esta tansformacién es
1 l l 1
=—+—+—+— [2.51]
mg? a b c J
De nuevo aqui el valor que refleja ausencia de efecto es 1, por la misma razén
que antes. Con los datos del ejemplo anterior obtenemos 1a RV, su logaritmo, 1a
varianza de este logaritmo y el intervalo dc confianza (remitimos al lector de nuevo a
la nota 4):
=50-340 = 1,889 LogRV = 0,636

150-60
1 + —1 — +1— +1— = 0 , 0 4 6 3
”My: 50 150 60 340
1,058
IC95% : 0,636 :I:1,96 - 1/0,0463 = {0 214
En el grupo de 103 que tienen algl’m padre obese, 1a ventaja dc sufrir un TCA
frente a no sufiirlo as: V1 =p1 / (1 -p1) = 0,25 1(1 — 0,25) = 0,333. Obsérvese que el
hecho de que V1 sea manor que 1 indica que, afornmadamente, la proporcién de los
que sufi'en obesidad en el grupo de los que tiene un padre obeso es manor que la.
proporcién de los que no la sufren. En el grupo de los que no tiencn un padre obese,
la ventaja de sufrir obesidad frente a no sufrirla es: V0 = p D / (1 —p0) = 0,15 f ( l —
0,15) = 0,176. En este grupo 1a (des)ventaja de sufrir obesidad fiente a no sufi'irla es
todavia mayor que en el grupo de los padres obesos, lo que indica que hay mayor
probabilidad dc sufl'ir obesidad en el grupo de padres obesos quc en el grupo de pa-
dres no obesos. En concrete, unaRV= V1 / V0 = 0,333 1' 0,176 = 1,889 significa que la
ventaja de que en el grupo expuesto ocurra un TCA fi'ente a que no ocurra es 1,889
veces mayor que csa misma ventaja en cl grupo no cxpucsto. Al igual quc la razén dc
proporciones, la razén de ventajas es un indice estadistico que puede adoptar valores
entre 0 y +00, siendo el valor 1 el efecto nulo (igual que en la razbn dc proporciones).
Su transfonnacién logaritmica hace que el efecto nulo pase a ser e1 0 y que su tango
dc valores sea, en teoria, entre -oo y +00. Al igual que con la razén de proporciones,
dado que se trabaja meta-analiticamentc con la transformacién logaIitmica, es
habitual que para informar de los remltados el valor transformado se devuelva a la
escala de la razén de ventajas mediante la férmula inversa a [2.50]: RV = My. Asi
pm, en el ejemplo numéricu los limites confidenciales una vez deweltos a la métrica
de la RV sedan: em” = 2,331 y 30‘2” = 1,239.
Capitulo 2. Una méirlca comfln: lndloes de hmaflo del efeato 53
2.3.4. Elecclén do an Indian para variables dicotémlcas
Los tres indices aqui expuestos son fitiles para disefios de dos gmpos independientw
cuando la variable dependienlae es dicotémica. Para elegir cl indice mils apropiado es
precise tener en cuenta cl disefio del estudio. Vamos a contemplar aqui los tres dise-
fios mas habituales con cams caracteristicas: e1 disefio experimental, el disefio de co-
hortes y el disefio de cases y controles.
Si 3: tram de un disefio de dos grupos con asignacién aleatoria (1m discfio
experimental 0 un ensayo clinico aleatorizado) se puede utilizar cualquiera de los tres
indica. Si interesa obtener un indice absolute que compare las dos proporciones, en-
tonccs cl major indie: del TE m6 la diferencia entre las dos proporciones, DP. Por
ejemplo, supongamos que se dispone de dos grupos de pacientes con un trastorno de-
presivo, uno de los grupos ha recibido e1 férmaco A y el otro ha recibido el férmaco
B. La variable de resultado es la presencia versus ausencia de eventos adversos provo-
cados por la medicacién. Si las pmporciones dc eventos adversos fileron PA = 0,15 y
P3 = 0,05, entonces DP = 0,15 — 0,05 = 0,10 se interpreta afinnando que con el
fénnaco A se ha dado un 10% més de eventos adversos que con en el férmaco B. Si
interesa un indice relative, entonces la mejor opcién es la razén dc proporciones, RP.
En nuestro ejemplo, el valor RP = 0,15 I 0,05 = 3 se interpreta afirmando qua con el
férmaco A es tras veces mfis probable sufrir 1m evento adverse que con el B. Aunque
la razém de ventajas también se podria utilizar coma indice relative, es preferible RP
debido a que R V e s una aproximacién de RP cuando esta no se puede calcular debido
a] tipo de disefio.
Cuando cl disefio dcl estudio es de cohortes, se dispone de dos grupos de per-
sonas: uno que ha estado expuesto a un factor de riesgo para contraer en 61 future
algfin trastomo o problema de salud y otro que no ha estado expuesto a dicho factor.
La variable dependiente se registra una vez transcurrido un cierto periodo de tiempo y
es dicotémica; por ejemplo, haber versus no haber contraido e1 trastorno en cuestién.
En estos cases e1 indice més apropiado es la razén dc proporciones. Aunque también
se podria calcular la razén dc ventajas, de nuevo es preferible RP, ya que RV es una
aproximacién dc RP cuando csta no se puede calcular p01" razones del disefio. Si en el
ejemplo la proporcién de los que contraen 1a enfermedad en el grupo expumto as p 3 =
0,18 1; la del grupo no expuesto es pa = 0,08, el valor RP = 0,18 1 0,08 = 2,25 indica
que en el grupo expuesto es 2,25 veces mfis probable contract e1 trastorno que en el no
expuesto.
Cuando el disefio del estudio es de cases y controles, 10$ dos grupos de parti-
cipantes se generan en funcién de la variable dependiente, no del factor dc exposicién.
Por ejemplo, se forma un grupo de personas que han contraido un trastomo (los cases)
y otro grupo quc no 10 ha contraido (los controlcs). A continuacién sc indaga para
averiguar quiénes de un grupo y del otro esmfleron expuestos y no expuestos al factor
54 Meia-anélisis en Glendas Sociales y de la Salud
de tiesgo. En este disefio no es correcto calcular la razén dc proporcionas entre los

expuestos y los no expuestos, por lo que el {mica indice apropiado es la razén dc ven-
tajas, que es una aproximacién a la razén dc proporciones. Supongamos que en el
ejemplo e140% de los que contrajeron e1 trastomo (105 cases) habian estado expuestos
a] factor dc riesgo, mientras que en el grupo de los que no contrajeron cl trastomo ([03
0011110165) 61 10% habia estado expucsto. En cl grupo dc cases 13. ventaja dc cstar ex-
puesto es 0 , 4 0 / ( 1 - 0,40) = 0,67, mientras que es igual a 0 , 1 0 / ( 1 - 0,10) = 0,11 en el
grupu de controles, por lo que la razén dc ventajas entre- 103 cases y los controles es
R V = 0,67 I 0,11 = 6. E1 valor 6 indica que en los casos (los que han contraido la en-
fermedad) 1a ventaja dc haber estado expuasto a] factor dc ricsgo frente a no haberlo
estado es 6 veces mayor que en los ounu‘oles (los que no ban contraido el unstorno).
De los tres indices del TE, la diferencia dc proporciones es la mfis fécil de
interpretar, pero posiblcmcntc esa sea su finica ventaja sobre los ottos dos indices, que
son mfis complejos dc intelpretar (sabre todo la RV), pero tienen mcjores propiedades
estadisticas. Asi, cuando los grupos de control de los estudios de un meta-anélisis pre-
sentan proporciones heterogéneas, el uso de la diferencia de proporciones coma in-
dice dc] TE en 61 MA da 18. apariencia de més heterogeneidad enlre 105 TE de la que
realmente existe. Estc problema no lo tienen la razén dc proporciones ni la razén dc
ventajas. Par contra, los indicas RP 3; RV tienen e] problema de que no se pueden
calcular si dos de las cuatm celdillas de la tabla de contingencia tienen frecuencia 0.
Si una de las celdillas tiene frecuencia 0, entonces es necesario sumarle una cantidad
constante (habimalmcnte 0,5) 3. cada fiecuencia para poder calcularlos (Decks y
Altman, 2001).
2.4. Relacién entre d, r y RV

Contamos con férmulas qua permiten convertir los trw indices principales entrc si.
Resultan (miles cuando se sintetizan estudios de los que algunos proporcionan esta-
disticos adecuados para diferentes indices. La tabla 2.1 ofiece las férmulas corres-
pondientes; también se incluyen las férmulas de sus varianzas a partir de las de los
indices dc partida. Solo falta la transfonnacién directs. entre r y LogRV. Para hacer
conversiones entre estos hay que tansformar primero e1 indice disponjble a d y dasde
este al indice buscado.
La férmula dc conversién dc a' a LogRV, y vicevcrsa, es una de las diversas que
se ban propuesto en la literann'a. Aunque la férmula propuesta par Hasselblad y
Hedges (1995) as 11163 conceida, la que aqui presentamos tiene mejores pmpiedades
mdisticas, segfin e1 estudio dc simulacién realizado par Sénchez-Meca et a1. (2003).
Veamos algunos ejemplos dc aplicacién de estas fénnulas extendiendo los ejem-
plos de los apartados anteriores.
Capitulo 2. Una méuica comfln: lndloes de tamafio del efeato 55
Tabla 2.1. Férmulas para converlir Ios Ires indim principam de TE entre si.
Conversidn Férmula Vafianza
d a r r : d : a=(nl+n1)z v = fl
d2+a "1'": ' (dump)a

1/3'?’ V = a'vr
rad d— 1—1”: d (1—1;):
daLogRV LagRV =1,65 '61 vLogRV = 0,3674)“.
LogRVad d = LogRV/Lés yd =vm x0357
Convemién de d a r. En el primer ejemplo de ti habiamos obtenido un valor igual a

0,504 siendo su varianza 0,0353. Lo convertimos en un valor r (con el célculo previo
dcl coeficientc a) y obtenemos la vafianza de este valor convertido:
[a=M]=4,1143 r = i w m
50 -70 1./0,5(1I4‘l + 4,1143
4,11432 -0,0353
v : = 0,00 2
(0,5042 +4,1143)’ 7
Conversidn de r a d. En el ejemplo dc r contébamos con un valor igual 3 0,74. Vamos
a calcular e1 valor dc d equivalente a1 valor empirico obtenido an r. Es necesariu fijar
unos tamafios de los grupos para hacer los célculos; lo menus comprometido es
asumir que los dos grapes scan del mismo tamafio. Adviértase que cuando 105
tamafios son iguales (n; = r12) entonccs a = 4. También vamos a calcular 1a vmianm
del valor convertido, obtcniendo previamente la varianza dc r mediante [2.40]:
d=M = 2,200
1.)] - 0,7’42
= 1 0’74 =0,0046515 =M=Q20095

— z 2 I
1’" 45-1 v” (1-0,"!42)’

Conversién de d a LogRV. El coeficiente d = 0,504 del ejemplo anterior lo conver-

timos ahora a LogRVy obtenemos también 1a varianza de este valor convertido:
LogRV = 1,65 ~ 0,504 = 0,8316 V10!“ = 0,367 - 0,0353 = 0,0130
Canvemién de LogRV a d. E1 coeficiente LogRV obtenido en el ejemplo dcl epi-

grafe 2.3.3 era 0,636 (511 varianza era 0,0463) 10 convertimos ahora a d y obtenemos
también la varianza de este valor convertido:
d = 0,6361r L65 = 0,385 v;1r = 0,0463! 0,367 = 0,1262
2.5. Otros indice-s

Si bien los indices que hemos expuesto son los que més se utilizan en las ciencias del
comportamiento, hay otros que por razones dc espacio no hemos presentado. Aden-153,
hay situaciones para las que los indices dc TE aqui presentados no son adecuados. No
olfidemos que el indice de TE elegido debe reflejar adecuadamente el fenémeno que
centra e] interés de cada MA (Kelley y Preacher, 2012). Vamos a citar brevemente
algunos casos especiales en los que el indice més adecuado no es m'nguno de [as pre-
sentados hasta aqui. No seria dificil encontrar otros casos que también precisan de
indices especificos, :1 veces elaborados ad has para un MA concrete.
En cambio, no nos detendremos en indices que son e5pecificos dc disciplinas de
ramas distintas de las ciencias sociales y de la salud. P01" ejemplo, un indice dc TE
que se esté utilizando en 105 MA en el émbito de la ecologia, pero no se usa en Cien-
cias Sociales y de la Salud a la razén de respuesm (response ratio). Esta indice resul-
ta fitil en disefios que comparan las medias de dos grupos (e.g., experimental versus
control) en una variable de respuesta continua. Es igual a1 cociente entre las medias de
los dos grapes: RR = E g / f c . ES 1111 indice relative de la magnitud alcanzada en el
gmpo experimental en flmcién de la del grupo de control. Dado que este indice tiene
una distribucién muesu‘al asimétrica, se fiene que Hansformar logafltmicamente para
poder trabajar con él meta-analiticamente: LogRR = L031?”EC}. 811 varianza apro-
ximada es: 6'2(LogRR)= [S2 /(nE -f:)]+[S§/(nc E10] . E1 finico inconveniente de

este indice es que no se puede aplicar si la variable de respuesta puede tomar tanto
valorw posifivos coma negatives (Hedges, Gurevitch y Curtis, 1999; Koricheva,
Gurevitch y Mengersen, 2013; Rosenberg, Adams y Gurevitch, 1999).
Tampoco abordaremos aqui el caso de los estudios con disefios de N = 1, tan
prominentes en enfoques como la modificacién dc conducta. Su problemética es tan
wpecifica que preferimos dejarlo hasta el capitulo 7, en el que dedicaremos un apar-
tado complete al MA con este tipo de estudios.
2.5.1. Pmporcién simple
Ninguno de los indices anteriores sirve, par ejemplo, cuando se pretende sintetizar un
valor puntual. Asi, en los esmdjos epidemiolégicos interesa estimar la proporcién de
los que presentan una detenninada caracteristica, o prevalencia. En el estudio dc]
comportamiento puede interesar, por ejemplo, la proporcién dc personas que sucum-
ben a la prasién de la autoridad en la tarea dc Milgram o la de los m'fios de un tramo
concrete de edad que muestran cierta ilusibn perceptiva u optan por tma interpretacién
concreta de ma figura ambigum En estos cases each estudio proporciona 1a
proporcién dc cases que cumplen una cierta camcteristica, por lo que esta misma
proporcién se conviette directamente en el indice de TE. Si :2 es el nfimero dc
individuos eswdiados y 11,, el de los que presentan 1a caracteristica A, la proporcién y
su varianza estimada son
p="_a [2.52]
n
”p = P '(1— F) {2,513}
K
Cuando el valor paramétrico de la proporcién, 1:, se aleja dc 0,50 (orien-

tativamente, cuando as mayor de 0,80 0 manor dc 0,20; Botella, Suero y Ximénez,
2012) la dism'bucién es excesivamente asiméu'ica y la obtencién del intervalo dc con-
fianza se complica Por an en esas circunstancias se emplea la u‘ansformacién legit,
que para una proporcién, p, es igual a1 logaritmo del cociente entre esa proporcién y
su complementalia (o logafitmo de la ventaja),
Logw)=Log,[fi] [2.54]
Su varianza estimada es
1 + 1 = l [2.55]
”Leeann; =
"-17 n-(l-p) n-P-(l-p)
El intervalo de confianza se obtiene con la ffirmula [2.2], con las precaucioncs

indicadas en la nota 4 (Newcombe, 2012).
Naturalmente, tras realizar todos los anilisis estadisticos los valores finales se
deben flansformar inversamente, de nuevo del valor del legit a1 de la proporcién,
em)
= . 2.56
p emJ+l [ ]
2.5.2. Media afitméflca simple
Si en lugar de tratarse de una variable dicotémjca (la caractefistica A) se u’ata de una

variable cuantitativa, entonces cada muestra aporta un valor promedio y es esta media
la que se toma coma indicc dc TE. Por cjemplo, cuando los pacicntes con cl sindrome
de negligencia lateral son imritados a meat con un lépiz el punto medio de una raya
dibujada, suelen marcar un punto bastante alejado del centre (2.3., Castillo, 2009;
Wright 3; Ward, 2008). Podemos valorar la magnitud del fenémeno midiendo la dis-
tancia media de las mamas hechas por los pacientes hasla cl centm geoméuico. La
media afitmética es aqui e1 TE. Su férmula y la de la wtimacién de su varianza son:
X = if [2571
v_ =5: [2.53]
n
dondeSz y n son la vadanza de lamuestra y su tamafiu.

Veamos un ejemplo de estos dos indjces. Supongamos quc en un estudio evalua-
mos a una muestra aleatoria de 600 personas que ejercen una cierta profesién y, entre
otras cosas, registramos si han pasado por un proceso de separacién o divorcio (even-
to A) 3! cl nfimero dc afios dc educacién formal quc ban recibido (X). Encontramos
que 120 han experimentado A y que los estadisticos de la variable X son los que apa-
recen a continuacién. Obtenemos el indice p y las varianm de ambos indices. Ade-
més, como el valor dc p (que es el estimador puntual do It) esté en el limits de los va-
lores en los que se recomicnda la tansfonnacién legit, aprovechamos para ilustrar
también su célculo y e] de su varianza. También calculamos 105 IC95% de la media 31
e1 legit.
o 20 - 0 80 2,32
=o,ooss
_fl _ v = ; =o,00027 v3 = —
_ 600 ‘ p 500 600
= 0’20 12 93
IC95%(f) :12,s :l: 1,96 - Joposs = { ’
12,62
X = 12,8
S = 2,3 Logiz(o,20) = 1.04%] = 4,386
= —1 = 0,01042
MW 600 - 0,20 - 0,30
IC95%[Logit(P)]1'L336i1’96' 0'01"“ ={—1,186
1586
Respecto a la transformacién inversa del Iogit, si por cjemplo hemos obtcnido

una estimacifin media del 1031‘: igual a 0,619, entonces 1a proporcién es igual a
80,619
P=m=°fis
La férmula [2.56] también se pucdc utilizar para devolve: a la métrica de las
proporciones los limites confidenciales calculados en tome al log-it. En el ejemplo nu-
mérico, 105 limitcs confidenciales, —l,186 3? —1,586, transformados a proporcionw con
la férmula [2.56] sedan 0,234 y 0,170, respectivamente.
2.5.3. Indices psicométricos de los tests

Uno de los émbitos dc desarrollo tradicionales del MA ha sido la validez de 105 tests,
mientras que en los filtimos quince afios han tenido un gran auge la sintesis dc
mdios en los que se valora 1a fiabilidad de un test y de los que valoran la precisién
de los instrumentos de cribaje. Aunque dedicaremos e1 capitulo 6 31 MA en el campo
de la psioomeu'ia, no queremos dejar de mencionarlo en el capitulo dedicado a los
indices dc TE. En el fimbito de la validez los indices son esencialmente coeficientes
dc correlacién dc Pearson, de modo que lo dicho en el epigrafe 2.2 St: aph'ca a ellos
directamente.
For an parte, en el fimbito de la fiabilidad 105 indicadores principalw son 108 in-
dices test-retest, de formas paralelas y de mnsistencia internal. L03 dos primeros son
también coeficientes dc correlacién dc Pearson, por lo que se pueden aplicar los pro-
cedimientos indicados en apaxmdos anteriores. Sin embargo, no ocurre lo mismo con
la consistencia interna, que :1] no ser un coeficicnte dc correlacién exigirfi indices
wpecificos. Ademés, debido a la facilidad para obtenerlo, lo mas frecuente ha sido
que la fiabilidad se haya valorado con el cueficiente alfa de Cronbach, el principal
indice de la consistencia interna de 1111 test (Hogan, Benjamin y Brezinsky, 2000). En
estas condiciones se deben cmplear transfonnacioncs adecuadas del cocficientc alfa,
entre las que podemos destacar la de Hakstian y Whalen (1976) y la propuesta par
Bonett (2002), cuyas fénnulas y las de sus vafiauzas son las siguientes:
Hakstian y Whalen: TH”, = (1 —a)"’ [2.59]
vr = 13— j-(N—1)-(1-a)’” [2m]

5' (J'—1)-(9-N—11)2
Bonett: T, = Log¢(1-a) [2—61]
_ 2'} [2.62]
v”_(j—1)-(N—2)
En ms férmulas N es el nfimero de individuos a los que se ha administrado 31
test y j es el nfimero de items. Nahualmente, una vez obtenidos los indices com-
binados y sus intervalos dc cunfianza can cualquiera de estos indices, para informar
de los resultados finales se aplican [as u’ansfonnaciones inversas para expresarlos en
valores de 0.. Asi, los indices THW y T]; se devuelven a la métrica del coeficiente alfa
mediante las férmulas:
a = 1—13, [2.63]
o: =1—e"- [2.64]
En lo que rcspecta a los instrmnentos dc cribaje, su valoracién exige 1111a discu-

sién mas demllada, que abordaremos en el capitulo 6.
Veamos m1 ejemplo numérico de los indices especificos de la consistencia inter-
na. Supongamos que hemos obtenido un coeficiente a de Cronbach igual a 0,84 en
una aplicacién de un test dc 40 items a una muestra dc 120| personas. Para incorporar
esters msultados a an MA de la consistencia intema en el que vamos a emplear estos
indiccs de TE hacemos los siguientes célculos:
T3, = (1 — 0,84)“ = 0,5429
. __13-4o-119-(1—0,s4)’” =0,000567
HWYWGH 12,. (40-1).(9.120_11)2
0,5896
[695% :0,5429 :l:1,96 - 1/ 0.000567 = {0 4962
T, = Log, (1 - 0,84)= —1,83258

=— 2-40
B
onett Vr. (40-1).(120-2) = 0,0173%
_ 57
IC95% :—1,83258 i1.96- 031733 ={ i 42
0910
En el caso de la transfonnacién de Hakstian y Whalen, para devolver los limitw
confidenciales del cjemplo a la méu'ica del coeficiente alfa se aplicaria la fénnula
[2.63], obteniendo los valores: l — 0,58963 = 0,7950 y l — 0,49623 = 0,8778. En el
caso de la transformacién de Bonett, los valores de los limites confidenciales de-
vuclms a la méuica del coeficientc alfa con la férmula [2.64] sedan: l — 3'15": =
0,7923 y 1 — e439” = 0,8764.
2.6. Caracteristicas de un buen indice de tamafio del efecto

Ante un panorama que incluye literalmente docenas de indices es muy frecucnte que
se disponga de varias altemativas para cada case particular (Card, 2012). Por ello
conviene sefialar algunos criterios fitiles en la eleccic'm. Un buen indice de TE para 1111
MA concrete seré uno en el que concurran las siguientcs circunstancias. En primer lu-
gar, debe permitir responder a la prcgunta dc investigacién dc una forma comprcn-
siva, al menos para expertos en la materia. En general, los indices expresan magnitu-
des en una escala libre dc unidades dc medida, obviando asi la habitual heterogenei-
dad de los instmmentos de medida que se emplean sabre un mismo oonstructo. No
obstante, en algunas ocasioncs puede ser apropiadu emplear las mfidades originales,
coma hemos visto en el epigrafe 2.1.2.
En segundo lugar, debc tenet unas propiedades esmdisticas que lo hagan tratable
con las técnicas estadisticas del MA. Esta se refiere esencialmente a dos cuastiones: 1a
distribucién muestral del indice y su varianza. Si la distribucién es conocida y tiene
unas propiedades adecuadas, se facilita su anélisis. Connect 1a varianza de los indices
es indispensable para: (a) emplear e1 esquema de ponderacién mfis habitual en MA, y

(b) confeccionar intervalos de confianza en tome al valor.
En tercer lugar, su obtencién debe ser viable, ya sea porque: los informes de 103
estudios primarios 10 proporcionan directamente o porque suelen aportar informacién
suficientc para calcularlo.
A veccs ninguno dc los indiccs conocidos refine estas circunstancias 3' cl meta-
analista se plantea 1a creacién de un indice ad hoc para su MA. Esta seré una buena
decisién si consigue defim'r 1m indice de TE que cumpla con los criterios pricticos de
aplicabilidad.
2.7. Valoracién del tamafio del efecto

Muchos investigadores se preguntan cémo deben valorar el TE obtenido, desde el
punts dc vista de su significacién préctica 0 real. La verdad es que no hay una finica
respucsta a esta prcgunta, ya que puede variar considerablemente entre distintos cam-
pus y circunstancias. Para determinadas variables y circumtancias m1 valor de (2' igual
:1 0,25 puede ser hnpresionante, mientras que en otras un valor tres veces superior
puede resultar decepcionante. Con fiecuencia se utilizan los criterios generales pro-
puestos par Cohen (1938). Aunque él mismo ha recomendado utilizaxlos lo menus
posible y con mucha pmdencia, lo cierto es que a falta de otras referencias a menudo
los valores dc TE se comparan con estos criterios. En concreto, para 105 indices de la
familia d proponc considerar a los valorcs 0,20, 0,50 y 0,80 coma valores dc TE bajo,
media 3; alto, respectivamente. En cambio, para el estadistico r propane los valores
0,10, 0,30 y 0,50 coma referencia para esas mismas categorias. La tabla 2.2 presenta
los valores orientativos propuestos por Cohen (1988) para d y r. Ademés, siguiendo 1a
fénnula presentada en la tabla 2.1 para obtencr la equivalencia entre- a' y LogRV, se
presentan los vale-res aproximados correspondientes de la razén dc ventajas.
Tabla 2.2. lnterpretaoién de los indices del TE

Valoracién fndice d indies r Razén de ventajas
Efecto nulo 0 0 1
Efecto bajo $0.20 $0.10 0’72 0 L40
Efecto medic $050 10,30 0,44 0 2,28
Efecto alto i030 i0,50 0,27 0 3,74
Cohen (1988) renounce que estos valores son bastante arbitrafios y pueden con-
ducir a conclusionw poco fitiles. Sin embargo, mantiene que se pueden considerar
coma criteria-5 razunables para persouas razonables. A falta dc otras guias, estos crite-
rios tienen la ventaja de que son fijos y cémodos, pennitiendo hacer comparaciones
compartidas dento de un mismo campo y con respects a otms campus. Otra estra-
Capitulo 2. Una méIflea nomfln: lndloes de tamafio del efecto 63
tegia para dal- una interpretacibn préctica 3.] TE obtenido en un asmdio, 0 al efecto
medic obtenido en un MA, as compararlo con 103 TE obtenidos en investigaciones
previas 0 con los resultados dc MA previos sobrc el tema o temas similares. En resu-
men, la principal recomendacién que debe hacerse cuando se interpreta un tamafio del
efecto, sea de un estudio individual 0 de un MA, es contextualizarlo en el campo pro-
pio de estudio. En este sentido se pronuncian numerosos trabajos recientemente publi-
cados (3.3., Henson, 2008; Hill, Bloom, Black 3; Lipsey, 2008; Valentine y Cooper,
2003; Wilcox, 2006).
Estimacién combinada
y heterogeneidad
Con cste capitulo iniciamos 1a presentacién de los métodos estadisticos de uso més
frecuente e11 MA. Para iniciar dichos anéflsis es precise disponer previamente de la
base de datos meta-analitica sobre la que se va a trabajar (véase e1 epigrafe 1.3). La
base de datos adopta la forma de una matriz en la que cada fila contiene los datos
extraidos de cada estudio y las columnas nos permiten identificar las diversas va-
riables que se pretenden analizar. De entre dichas variables cabe mencionar la que
contendré 105 TE obtenidos en cada estudiol. Otra variable estrechamente relacionada
con la anterior es la varianza intraestudio dc cada TE (es decir, la varianza debida a1
error de muestreo aleatorio; en el capitulo 2 hemos expuesto las férmulas de 103 in-
dices dc TE de uso més fi'ecuente). En m1 MA e1 TE constituye la variable dependien—
te cuya variabilidad se pretends estimat- y explicar. Para explicar la variabilidad de 103
TE, la base de datos debe contener también las variables moderadoras que se han
codificado de cada estudio y que ounstituirain las variables independientes o
predictoras (e.g., el tipo de tratamienm, su duracic'm e intensidad, e1 tipo de disefio, 1a
mortalidad experimental, la edad madia de la muestra, el porcentaje de wanes, etc.).
I For simplicidad en la exposicién, hare-mos alusién a1 TE cmno si fuera una finica variable registrada en
cada estudio. Esta sci-Ia lo cal-recto 3i Ins estudios empirioos repm'tuan un I'mioo resultado (£23., mm finica
variable dependiente). Pero es habitual que en un MA. se disponga dc varias variables dependienm, tuna:
COED difmntes TE 33 hayan tenido que calcular en los estudios primaries (2.3., m1 TE para medidas d:
ansiedad, otro para medidas de depresién, atro para autoestima, etc).
65 Meia-anéllsis en Clenclas Suclales y de la Salud
Los anélisis estadisticos bésicos de un MA consisten en: (a) obtener una

estimacién media combinando los TE de los estudios, junta con un intervalo de
confianza, (b) comprobar si los TE individuales son homogéneos en tome al efecto
medic y (c) en caso contrario, examinar e1 influjo de variables potencialmente
moderadoras de 105 TE mediante técnicas de anilisis de varianza y de regresién. En
este capitulo abordamos los dos primeros objctivos: cbmo obtcncr una cstimacién
conjunta del efecto medic y cémo evaluar la heterogeneidad exhibida por 103 TE.
Ademés de los procedimientos analiticos describiremos un tipo de representacién
gréfica muy fitil en MA: e1 finest plat.
3.1. Modelos estadisticos en meta-anilisis

Los wtudjos primaries que se incluyen en un MA variarén entre 5i en cuanto a1
tamai‘io mucstral utilizado. Una consecucncia dc esto es que 105 TE obtcnidos en los
estudios primaries tendrén difercnte precisién (difercntc vafianza) en fimcién del ta-
mafio muestral en el que se bash su célculo. Dado que an MA la unidad dc anilisis es
el estudio, los anélisis estadisticos que se realizan con 103 TE 36 suelen ponderar en
funcién de su precisién. La (im)precisi6n de un TE se cuantifica mediante su varianza
dc error, ya que meta es esencialmente 1111a funcién del unnafio muesh‘al: a mayor
tamafio muestral, menor varianza y, en consecuencia, mayor precisién (y viceversa).
La inversa de la varianza dc error de cada TE se utiliza habitualmente come factor dc
pondcracién en todos los anélisis cstadisticos. Por ejcmplo, un TE obtcnido en un
estudio con 50 participates seré menus precise que me obtenido en un estudio can
100 sujetos, de forum que las técnicas dc anilisis ponderado hacen qua este seglmdo
estudio ejerza un mayor peso especifico en los anilisis que el primero. Resumiendo,
los anélisis estadisticos tipicos de un MA se basan en la aplicacién dc métodos dc
estimacién ponderada (Borenstein, Hedges, Higgins y Rothstein, 2009; Hedges y
Olkin, 1985).
Existen diversos métodos de ponderacién que pueden ser aplicados en MA. Su
eleccién dependeré del modelo estadistico que el meta-analista desee aplicar. Dicho
de otra fut-ma, los anilisis estadisticos de un MA tienen que abordarse asumjendu 1m
determinado modelo estadistico. Los modelos estadisticos habitualmente empleados
en MA son dos: e1 modelo de efecto fijo y el models de eifecros aieatorz‘os. Aunque
ambos modelos aplican métodos dc ponderacién, los factores dc ponderacién son
diferentes. Estes dos modelos estadisticos difieren en cuanto a 10s supuestos dc
partida, [as condiciones de aplicacién y el grade de generalizacién que se puede al-
canzar con los resultados obtenidos. Para acceder a una profumdizacién en los mo-
delos estadisticos en MA pueden consultarse Borenstein er a1. (2009, capimlos 10-14;
2010), Hedges y Vevea (1993), Schulze (2004) o Sinchez-Meca, Marin-Marflnez y
Huedo (2006).
Capflulo 3. Estlmaclén comblnada y hemrogeneidad 67
3.1.1. Modem de efecto fijo
E1 modelo de efecto fijo (EF) se basa en el supuesto de que los estudios incluidos en
an MA wtiman un TE paraméu'ico comfin a todos ellos. Es decir, la vafiabilidad que
puede observarse entre 105 TE de los estudios se debe solo 31 error de muestreo, o va-
riabilidad intraestudio o, lo que es lo mismo, al hecho de que los estudios han
utilizado muestras de sujetos diferentes (Konstantopoulos y Hedges, 2009).
El planteamiento formal del modelo dc EF implica asumjr que disponemos de un
conjunto de 1: estudios independientes, en el quc T1, T2, ..., Ti, ..., Tk, son las estima-
ciones del TE poblacional comfin a todos ellos, 6. Téngase en cuenta que aqui el tér-
mino Ti se puede referir a cualquier indice del TE tipicamente utilizado an MA (e.g.,
la diferencia dc medias estandarizada, cl coeficiente dc correlacién dc Pearson, 1a
M611 dc ventajas, etc). La fignra 3.1 ilustra de forma gréfica el modelo dc EF.
Figura 3.1. Representacién gréfica del modelo de EF. Los valores T1. T2. ..., T}, Tx
representan estimaclonas dal TE obtenldas en los estudios primaries. 9 represent al
TE paraméuico. que es swim a todas las astimadonas, T1.
Muestreo aleatorio de individuos
Estudio 1 Estudio 2
l
Estudio i Esmdio 1:
El modclo estadistico dc EF se puedc formular coma T, = 9 + ui, sicndo ui 61

error dc muesu'eo inn-aestudiu, que es la finica fuente dc error aleatoria reconocida en
este modelo. Lo habitual es asumir que 105 TE estimados se dism'buyen segt'm una Icy
nonnal, Ti ~ N(6‘, of ), siendo of la varianza parmnétrica intraestudio del iésimo
estudio. P01- tanto, los errores de muestreo se dish-Ibuyen segfin una ley normal, es
decir, ui ~ N(0; as).
Uno de los objetivos del MA seré obtener una estimacién del efecto poblacional,
6. Partiendo de este model-2), e1 estimador 6ptimo (insesgado y de varianza mim'ma;
Hedges y Olldn, 1985) de fies la media de los valores dc Ti, ponderada por la inversa
de sus mpectivas varianzas intraesmdio, of:
ZwFF-T.
Tm») = x [3.1]
' 2w.”
.I'
siendo w a] factor dc ponderacibn de iésimo estudio, que se calcula como la inver-

sa dc la varianza intraestudio paramétrica dc ese TE:
wF-_ _ [3.2]
0':
Como ya hemos expuesto en el capitulo anterior, dependiendo dc qué indict: del

TE se wté utilizando en el MA, la varianza intraesmdio paramétrica 5e obtendré per
una férmula diferentc. P01" supuesto, para la mayoria de los indices dc] TB 511 varianza.
intraestudio tendré que set estimadaz. En consecuencia, no es posible en sentido
matricto aplicar la férmula [3.1] para mtimar el efecto paramétrico. En su defacto, los
factores dc ponderasién, w , tienen que ser estimados mediantc:
“a” = L2 [3.3]
dandea-frepresenta una estimacién de la varianza intaestudio paramétrica. Asi pues,

en la préctica cl efecto paramétrico cumin a todos los estudios, :9, so estima mediante
la férmula:
T” _ZWEFT [3.4]
Z—‘wf’
Aunque no es posible estimar 6 mediante su estimador 6ptimo (fémmla [3.1]),

para la mayoria de indices del TE existen buenos estimadores de sus vaflanzas intra-
estudio, de forma que [3.4] ofrece buenas estimaciones del pal-imam 6. Si ademés e1
1 For ejemplo, e1 indies dgferencia media tipl'ficada, tal come as via en el capitulo 2, requiem del 00-
nacimiento delostamafiosmuesu'alesydelTEparaméuioo, tialqueptretende esfimarparacalcularsuva—
rianza intraestudio, w. A] desoonooerse este parémeim, la vmianza intraeatudio se eatima impumndo en la
férmula [2.8] la estimacién d obtenida para use estudio. En los capitulos 3, 4 y 5 sustituimos v; par 5-} para
reflrimns a la varim inflamdio, pot razones expositivas.
Capflulo 3. Estlmaclfin comblnada y heterogeneldad 69
indice del TE tiene una distribucién mnestral asintéticamente normal, entonces es

posible construir un intervalo de confianza del efecto paramén'ico mediante (Hedges y
Ollu'n, 1935):
EF _ A E? = TEF+|z_
t l at:|-6'TEF
a :1"up 35
T. ilzmfll 0(T' ) {REF _|zl—a!2 'AfiH;=Tm [ ]
siendn 214:; el valor de la dishibucién normal tipificada conespondiente al petal-til

( l - 11/2), asumiendo un nivel dc confianza ( l - or.)-100%. Twp y Tim» representan los
limites confidenciales superior e inferior, respectivamente, del intervalo de confianza;
y la estimacién del error tipico del TE media 56 ohtiene mediante:
111m): 5W [3.6]
La amplitud del intervalo dc confianza nos informa del grade dc precisién en la

estimacién del efecto paramétrico, a9. Ademés, con el intervalo dc confianza es posi-
ble contrastar la hipétesis nula de que el efecto paramétrico es nulo, Ho: 6 = 0, com-
probando si el valor 0 se encuentra dentm de los limites confidenciales. Esta hipbtcsis
también se puede contrastar mediante el esmdistico de contrasts:
z __ 3—)
1'1”
1;“ [3.7]
que bajo Ho se distribuye aproximadamente segfin 1ma Icy normal tipificada, MO; 1).
Los programas estadisticos a1 uso reportan e1 nivel critico de probabilidad, p,
asociado al valor dc] estadistico de contraste, z, de forma que para 111: determinado
nivel dc significacién (a) la hipétesis nula seré rechazada si se curnple quep < a.
3.1.2. Modelo de efectos aleaton'os
La principal limitacién del modelo dc EF es que su aplicacién requiere asumir por

parte- del meta-analista e1 supuesto de que todos los estudios estén estimandu a 1m
mismo efecto paramétfico. Es decir, e1 modelo dc EF asume que los estudios son ré-
plicas cuya finica diferencia w e1 hecho de que han utilizado muestIas de sujetos dife-
rentes. Esta supuesto es poco realism, ya que lo habitual es qwe los estudios incluidos
en un NM difieran entre si en diversas camcteristicas relacionadas con las mani-
pulaciones experimentales realizadas, la calidad metodolbgica y las camcteristicas
sociodemogrfificas de las muestras. Rmulta mas realista asumir que los estudios difie-
ten entre si en funcién de dos fuentes dc variabilidad: la variabilidad debida :11 error
dc muesu‘eo, o variabilidad intraestudio (tal coma asume cl modelo dc EF) 3! la varia-
bilidad interestudios, que se debe al hecho de que cada estudio estima a 1m efecto
paranlétrico propio fli‘ield, 2003; Hedges y Vevea, 1998; Hunter 3! Schmidt, 2000;
Schmidt, 0h y Hayes, 2009).
El modelo dc EA contempla estas dos fuentes de variabilidad. En concrete, des-
de este modelo se- asume que el TE obtenido en cada estudio, Ti, estima a un efecto
patmnétrico propio, 6}, y que a su vez los efectos paramétricos que son estimados por
los estudios constituyen una muestra aleatoria (0 al menos representativa) de una
poblacién dc efectos paramétricos. En la figuta 3.2 se ilustra gréficamentc cl modelo
dc EA.
Flgura 3.2. Represantacidn gréfin dal modelo de EA. Los values T1, T2, ..., T; ...,
Tx repmsentan aslimacianes del TE obtenidas en Ios estudias primarius. 01. 02,
9i. ..., 9n, representan los TE paramétfioos que son estimados por Ice TE mues-
Iralas. Ts. A an vez, Ios TE paramétricos 5e suponen repmentativos de una distribu-
clon da TE poblaclonales, ajustada a una lay normal con media [19 y varianm 12.
9i “ N019; 72)
C Muestreo aleatorio de efectos D
9 1 9
/ 2 © 6
\ i © 6
\
k
Muestreo aleatorio dc individuos
Estudio 1 Estudio 2 Estudio i Estudio 1:

T1 T1 (3 Ti ® Tk
Plantcado de una manera més formal podemos establecer que T, = 6, + 11;, de

forma que el TE estimado, Ti, sufre de variabilidad intraestudio, ui, al mtimar a su
propio parimetro, 6%. A an vez, los efectos paramétricos sufren variabilidad interes-
tudios segl'm 1a ecuacién 6!- = #9 + es, siendo p9 e1 TE medic paramétrico de la dis-
tribucién de efectos paramétricos, 6}, y siendo e.- la filente de variabilidad inter-
estudios. En consecuencia, cl TE estimado, I}, presenta dos filentes dc variabilidad al
Capflulo 3. Estlmacldn comblnada y heterogeneidad 71
estimar a] efecto medic paramétrico, ya, segl'm e1 modelo I} = [.13 + u, + 31. Lo

habitual es asumir que las dos file-ates dc error, ui y ei, son indcpcndientes entre si y,
en consecuencia, que 103 TE estimados, Ti, se distribuyen segl’m una ley normal con
media 1.13 y varianza cf + 72 , sicndo ‘rz la valianza interestudios: Ti ~ Ncug; a}: + 12)
(Borenstein et at, 2010; Raudenbush, 2009).
En el modelo dc EA, un primer objetivo seré, obtener una estimacién del efecto
medic paraméirico, pg. Anélogamente a lo que ocurria con el modelo dc EF, aqui e1
estimador Optima de paviene dado también par:
Tum) = i i [3.8]
siendo wf" cl factor dc pondcracién dcl iésimo estudio, que sc calcula como la in-
versa de la suma de las varianzas intraestudio e interestudios paraméu'icas de los es-
tudios:
m _ 1 [3.9]
w, of + r2
Obsérvese 061110 a cada estudio individual le corrosponde una varianza intra-

wtudio propia, of, mientras que la varianza intermdios es comfm a todos los es-
tudios, 1:2. En la préctica, tanto las varianzas inn'aestudio como la varianza interestu—
dios paramétrica tendrén que set estimadas. En consecuencia, no es posible aplicar la
fénmxla [3.8], sino una que se aproxime a aquella utilizando factores dc ponderacién
estimados:
WI!“ = a” 1*2 [3.10]
W-r
m_; ' ‘ [3.11]
donde f : representa una estimacién de la varianza interestudios paramétrica. Como

ya hemos vista mfis an'iba, la varianza intraestudio de cada TE individual se estima
mediante la férmula correspondicntc a1 indice del TE en cuestién (segim se enqauso en
el capitulo 2). La varianza interestudios se estima de forma conjunta a partir de 105 TE
de los estudios. Se han propuesto en la literamra meta-analitica al menos ocho esti-
72 Meia-anélisis en Clenclas Socialee y de la Salud
madam: diferentes de la varianza interestudios. Por motivos de wpacio, aqui solo

presenmremos el de uso més comfin. Pueden consfltarse Viechtbauer (2005) 3! Sin-
chez-Meca y Marin-Martinez (2008) para una descripcién dc otros estimadores. En
concrete, e1 estimador més coml'm de la varianza interestudios es el propuesto pot
DerSimonian y Laird (1986), basado en el método de los mementos,
52 = m [3.12]
C
donde k es el nlflmero de estudios del MA 3! Q un estadistico de heterogeneidad

dwarmllado 1301' Cochran (of Hedges y Olkjn, 1985) que se obtiene lzlmedjante3
Q=ZW(1}-11”)2 [3-131
dc forma que if” y T,” quedan definidos pot [3.3] y [3.4], respectivamente. El
valor dc c se obtiene mediante
(w
c = 211,!” _Z::_‘)2 [3.14]
Téngase en cuenta que el célculo dc] estimador f 2 podria dar lugar a valm
negativos, en cuyo caso se iguala a 0. Una vez disponibles 103 TE individuales, Ti, 3118
varianzas inhaesmdio, &f , y una estimacién de la varianza interestudios, f 2 , es
posible estimar e1 efecto media paraméu-ico, flg, mediante las férmulas [3.10] y
[3.11].
A partir del TE medic estimado, T,“ , cl siguiente paso en el anilisis estadistico
consistiré en construir un intervalo de confianza en torno a este para estimar el para-
mm #9. El procedimiento habitual an MA es asumir una distribucién normal para el
astimador 11E” , dc fauna que el intervalo de confianza se obtiene mediante (Shadish y
Haddock, 2009)
3 Cmfiecumchmemplmemmffimflgalgebraicmnm equivalentea [3.13] pu'omis cénndapam

haeerloscflculos deforma manual,
2
[zW-zfl
a
Q=wp'(fin)z ‘Z—.wgp
i i
Capflulo 3. Estlmacldn comblnada y hemrogeneidad 73
Ed _ A EA =
T“+|z_ |-&(TE" =1"
i 1 ME I up 115
T. iIZHflI 0(1: ) {71m —|zl-af2|'6-(fifl%=Tid [ ]
estimando cl mortipico dcl TE medic, 6-6172“), mediante
6w“): 1 [3.16]
2%.“
El inter-vale dc confianza permite, a su vez, contrastar la hipétesis nula de que el
efectn media paramétrico es nulo, Ho: #9 = 0, comprobanda si e1 valor 0 se encuentra
dentro de los limites confidenciales. Esta hipétwis también se puede contrastar me-
diante e1 estadistico de contraste:
E!
z = “Ti“ [3.17]
bajo cuya hipbtesis nula se distribuye aproximadamente segt'm una ley normal tipi-
ficada, N(0;1). La decisién estadistica sigue los mismos pasos qua con el modelo dc
EF: la hipétesis nula seré rechazada si se cumple que el nivel dc probabilidad
asociado a1 estadistico dc contraste, p, es menor que a.
El intervalo de confianza definido en [3.15] y el estadistico de contraste
plantcado en la fémlula [3.17] asumcn lma distribucién normal para cl mtimador 1:54 .
Sin embargo, taste supuesto no tiene en cuenta la incertidumbre que se produce en los
célculos por el hecho dc tenet que estimar la varianza interestudios (y también las
varianzas intraestudio), de forma que la féqla para la construccifin del intervalo de
conflanza basada en la distribucién nonnal 3 veces prescnta un pobrc ajustc dcl nivel
dc confianza nominal, tanto mfis cuanto mayor we 61 valor de la varianza interestudios.
Par e110 Hartung (1999) propuso una fénnula para la construccién de intervalos de
confianza que en lugar de emplear la disuibucién normal asume una distribucién tde
Student con k — 1 grades dc libertad, y un estimador mejorado dcl error tipico dc Tf“
(Sénchez-Meca y Main-Martinez, 2008, 2010):
M m: . 1m |-&‘(T“
T“+|r_ - =1"m [3.18]
T. iltl—WZI a b : ) {EH—Ir kmfi'filfi ‘g Tin:
siendo 6-111“) e1 error tipico mejorado del TE combinado, que se obtiene mediante
(gr-(1:34): Sway-(1'14“? [3.19]

(hula?
El intervalo de confianza permits, a su vez, contrastar 1a hipétesis nula de que el
efecto medic paramétrico es nulo, Ho: #9 = 0, comprobando si e1 valor 0 se encuentra
dentro de los limites confidenciales. Esta hipbtfiis también se puede contrastar
mediante e1 estadistico dc contrasts:
EA
r: .31TH [3.201
0'
Bajo Ho: #9 = 0, e1 estadistico t se distribuye aproximadamente segl'm I de

Student con k — 1 grados de libertad. Por tanto, se rechazarfi la hipétesis nula cuando
el valor p asociado al resultado del estadistico It result: set manor que el nivel de
significacién nominal, (1; es decir, siempre que p < a.
3.2. Evaluacién de la heterogeneidad

Tanto si se ha asumido e1 modelo dc EF como el de EA, m1 paso fimdamental en los
anélisis consiste en evaluar e1 grade dc heterogeneidad exhibido por 103 TE indi-
viduales. Téngase en cuenta que el efecto media obtenido con las fénnulas 3.4 (para
el modelo dc EF) y 3.11 (para el de EA) seré representativo en la medida en que 105
TE no scan may heterogéneos entre si.
Cuando asumimos e1 modelo dc EF, obtener una alta heterogeneidad entre 105
TE as indicative de que el modelo asumido no es cal-recto, ya que este supone que
todos los estudios estén estimando un efecto paraméu'ico comfm a todos ellos. Si, por
el comm-aria, 103 TE son homogéneos entre si, entonces tenemos evidencia a favor de
que el modclo dc EF esté bien cspccificado para ese MA.
Cuando asumimos e1 modelo dc EA, obtener una alta heterogeneidad titre 105
TE es mdicativo de que el modelo asumido es el correcto, ya que en ese caso seré
razonable concluir que cada cstudio csté. cstimando un efecto paramétrico diferentc.
Peru, a1 mismo tiempo, la evidencia de alta heterogeneidad entre 105 TE nos dice que
no debemos quedamos finicamente con la estimacién del efecto media, sine qua seria
conveniente analizar e1 influjo dc variables moderadoras (o caracteristicas de los
estudios) que puedan explicar la variabilidad de 105 TE.
Sea cual sea 61 modelo de partida, es posfble contastar 1a hipétesis de que los
TE de los estudios estén estimando a 1m mismo efecto pammétrico comfin, a saber,
Ho: 91 = 6'; = = 6! = = 6L, mediante e1 estadistico de Cochran definido ante-
Capflulo 3. Estlmacldn comblnada y heterogeneldad 75
riormente an [3.13] (véase la forma equivaleme en 13 mm 3) y que volvemos a

reproducir a confinuacién:
Q=zwo(z-2:H)‘ ma]
Bajo la hipétesis nula, el estadistico Q se distribuye segfin Chi-cuadrado de
Pearson con (k — l ) grados dc libertad. En consecuencia, se rechaza dicha hipbtesis si
e] valor p asociado a1 resultado del estadistico Q es inferior al nivel de significacién;
as decir, sip < a.
El contraste de esta hipétesis nula con el estadistico Q 5010 nos informa dc si
existe o no heterogeneidad estadisticamente significativa, para no nos informa del
grado de heterogeneidad exhibida por 105 TE. Ademés, el estadistico Q tiene baja po-
tencia estadistica (:11m e] m'lmero dc estudios es pequefio (k < 30; Sénchez—Meca y
Marin-Martinez, 199D. Para paliar estos problems, Higgins y Thompson (2002;
Higgins, Thompson, Decks y Altman, 2003) propusieron e1 indice 12, que es un esta-
distico qua informa del grado dc heterogeneidad real exhibido por 105 TE. La hete-
rogeneidad “real” so refiere a la provocada, no por el error de muestreo aleatorio
inflaestudio, sine 1301' la existencia de un conjunto dc caracteristicas que hacen que los
estudios scan diferentes entre si (e.g., diferentes edades, diferente distribucién por
géncro, diferente gravedad del trastorno, diferentes manipulaciones experimentales,
etc.) E1 indice 12 se calcula mediantc
I: = w x l o m / a [3.21]
Valores negativos de 12 se igualan a 0. Al it multiplicado per 100, 56 interpreta

que el indice 12 refleja e1 porcentaje de heterogeneidad real existente entre 103
estudios; es dccir, cl porcentaje de van'abilidad de 105 TE quc no es explicada por el
error de muestreo aleatorio, sino por la existencia dc catacteristicas diferenciales de
los estudios. Orientativamente, pueden interpretarse valores de 1'2 en tome a 25%,
50% y 75% como reflejo de heterogeneidad baja, media y alta, respectivamente (Hue-
do, Sénchez-Meca, Marin-Martinez y Botella, 2006). Debe entenderse que una hete-
roglleidad del 25%, aun siendo baja, podria ser valorada como relevante.
3.3. Una herramienta gréfica: el forest plot

Se llama forest plot a una representacién gréfica concisa de los resultados cunn-
titativos de un MA. Su elemento més caracteristico son unas lineas dc longimd varia-
ble que representan Ins intervalos de confianza asociados alas estimaciones del TE
que proporcionan los estudios primarios (obtenidos en su mayoria con la férmula ge-
nérica [22]). El aspecto es una especie do “basque” dc intervalos, lo que da nombre a
la figura. E1 tamafio minimo dc estudios para poderlo emplear es 2, ya que con uno
solo ni siquiera hay un “bosque”. No hay acuerdo sobre una fecha concreta o una
publicacién especifica en la que fuera propuesta por primera vez con el nombre forest
plot. Parcce set que los primcros bocetos apareccn en los afios ochcnta, pero cl tér—
mino es utilizado pot pfimera vez en 1996, mientras que la forma bésica definitiva es
de 1998 (Lewis 3] Clarke, 2001).
3.3.1. Elementos nucleares
E1 form: plot (FP) se construye dibujando tantas filas coma estudios se integran en el
MA. En la pane inferior se incluye una escala que permits interpretar [as magnitudes.
En cada linea se representa cl intervalo dc confianza del cstudio correspondientc, me-
diante una linen cuyos extremes se corresponden con los limites del intervalo de con-
fianza asociado a la estimacién del TE dc ese estudio. La estimacién puntual se repre-
senta con algl'm simbolo convencional (circulos, cuadrados, wcténgulos). También 3e
incluye una linen vertical que representa la ausencia dc efecto o efecto nulo.
Los primeros FP empleaban cuadrados del mismo tamafio para representar 1a
estimacifin puntual de todos los estudios. Peru de esa forum 105 estudios visuahnente
mils llamativos (lineas més largas) y que podian sesgar 1a interpretacién visual de los
resultados eran los de intervalos mayores. El problem es que los estudios can inter-
valo mayor son los que emplean manor tamaflo muestral. Lo que se pretends as pre-
cisamente lo contrario, que en la valoracién global los estudios tengan tanto mayor
peso cuanto mayor sea su muestra. Para corregir esta dificultad se adopté 1a forma que
aparecc en las figuras 3.3 y 3.4, en las que los estudios dc mayor tamafio mucstral
(mayor peso) se representan con un simbolo (un cuadrado) mas grande. El grade de
homogeneidad entre los resultados de los estudios se refleja gréficamente en el grado
en que los simbolos que representan las estimaciones estén en verticales préximas.
3.3.2. Elementos adicionales
Aunque las lineas asociadas a los estudios individualw constimyen el elemento nu-
clear del forest plot, hasta el punto de haber servido para darle Hombre, hay en dia in-
cluye casi obligadamente ottos elementos que completan al basque dc intervalos y
que facilitan su interpretacién. Otros elementos estén mas ligados a las preferencias
del meia—analista (Ried, 2006). De entre todos ellos los mas importantes y de uso més
fi'ecuente son los siguientes:
a) Elementos de 103 estudz‘os. Se refieren a cada uno de los esmdios, indivi-

dualmente. Los principales son e1 afio dc publicacién, el tamaflo muesn'al,
el peso, cl valor en alguna variable moderadora o la variable dc resultado.
b) Elementos generates. Se refieren a1 conjunto complete de estudios. Los prin-
cipales son e1 titulo, el indice dc] TE empleado, 1a etiqueta con la direccién
de los cfcctos, la estimacién combinada, cl anélisis global o la linea del
efecto relevante.
En las figuras 3.3 y 3.4, relacionadas con el ejemplo que desarrollaremos en el
epigrafe 3.4, 3:: incluyenforestplots en los que aparecen algunos de estos elementos.
3.3.3. Estrategias de anéfisis visual can forest plot

Las estrategias grfificas de anélisis son siempre exploratorias, pero esto no debe
restarles importancia. Permiten detectar tendencias, canvirtiéndose en una rica fixente
de hipétesis. Naturalmente, esas tendencias tendrén qua ser confirmadas mediante
anélisis estadisticos figurosos. Peru saber leer 1m forest plot as una habilidad que debe
desarrollar todo meta-analista. El principal elemento en juego a este resPecto es el
orden y la organizacién de los estudios en la figura. Lo mas fi'ecuente (e infitil) es la
opcién por dcfccto qua suclcn ofreccr las herramicntas infonnéticas: 1a ordenacién
alfabética (Schriger, Altman, Vetter, Heafner y Moher, 2010). Nonnalmentc, 133
bases de datos meta-analiticas se ordenan alfabéticamente para facilitar la localizacién
individual de estudios. Si no se hace nada al respecto, e1 forest plot ordenaré [as
estudios segfin apmoen en esa base de dates. Obviamente, esta ordenacién no aporta
nada al anélisis.
Una altemativa més interwante es la ordenacién pct fecha de publicacic’m, que
permite identificar tendencias histéricas en las estimaciones del TE. También se pue-
den organizar los estudios en los grupos que genera alguna variable moderadora cuaJi-
tativa (dentro de estas se elige cualquier otro criteria; véase la figura 4.2). También se
pueden ordenar segl’m alguna variable moderadora cuantitativa. Veremos ejemplos de
estos dos tipos en los capitulos 4 y 5. Permiten identificar variables explicativas rele-
vantes cuando 105 grupos de la variable moderadora cualitativa tienden a tener TEs di-
ferentes o cuando estos muesu'an una tendencia a crecer (o decrecer) en funcién dc la
variable moderadora cuantitativa.
Otra interesante opcién we e1 11m forest plot mulafiva. En este lo que
aparece en cada linea no es el intervalo del estudio compondiente, sino 1a estima-
cién combinada de sac estudio y todos los antefiores. Como consecuencia, 1a amplitud
de los intervalos se reduce en cada nueva linea. Tiene mucho sentido cuando los
estudios se ordenan por fechas. Sirve para conocer en qué fecha (0 con qué tamafio
mucstral total) 19. acumulacién dc evidencia permitia ya sefialar la presencia de un
efecm estadisticamente significativo 0 en qué fecha se produjo 1m cambio de tenden-
cia en las estimacioncs.
TB Meia-anéllsis en Clenclas Sociales y de la Salud
3.4. Ejemplo de estimacién combinada y anélisis de la

heterogeneidad
Para ilustrar los procedimientos descritos hasta aqui vamos a utilizar parte de los
resultados de un MA realizado por Sénchez—Meca, Rosa-Alcézar, Iniesta-Sepfilveda y
Rosa-Alcézar (2014) sobre la eficacia del tratamiento cognifivo-conductual en meno-
res diagnosticados con un Hastomo obsesivo—compulsivo. En este MA se integraron
105 TE dc l l matudios que compararon un grupo tratado con un grupo de control. El
incline del TE fue la diferencia de cambios medics tipificados, d, definido como la di-
ferencia enm- [as cambios medics pretest-postcst del grupo 113m y del gmpo de
control, dividida por la desviacit'm tipica promedio en el pretest de los dos grupos‘. La
tabla 3.1 reproduce los valores d obtem'dos para los 11 actudios tomando como va-
riable dependiente los sintomas dc obsesiones y compulsiones. Valores d pusitivos in-
dicaron un resultado favorable al grupo tratado respecto del grupo de control; es decir,
una mayor reduccién de los sintomas obscsivo-compulsivos, dcl pretest al postest, en
el gmpo tratado que en el grupo de control. La tabla 3.1 también incluye 1a varianza
intraesmdio wtimada dc cada indicc, 6f. Téngase en cuenta que cl término d5 36
identifica en este- ejemplo con el término Ti que hemos utilizado en este capitulo para
referimos de forma genérica a cualquier indice del TE.
3.4.1. Esflmaclén do! efecto media
Si hemos decidido aplicar el modeler de EF, para obtener una estimacién del TE
medic tendremos que: (a) calcular la cstimacién de la inversa de la varianza intraes-
tudio, a!” (4_. columna de la tabla 3.1), de cada TE segfin la férmula [3.3]; (b)mu1-
tiplicar cada TE, d1, por dicha inversa (5fI columna de la tabla 3.1) y (c) aplicar 1a
férmula [3.4]:
,. J.
ZWF ‘‘ = 122,915
2:H = — — =1,572
2w,” 78,171
4 En el capitulo 2, este indies figura represenlado comp dd: (filmula [135]) y su val-in so calafla
mediante [2.37]. For simplicidad, aqui nos refefiremns a este indie: coma d.
Capflulo 3. Estlmacldn comblnada y heterogeneidad 79
Para construir un intervalo de confianza del 95% primero calmflamos e1 error

tipico del TE media mediante la férmula [3.6]:
1
W1): fi‘ m = 0,113
A continuacién consu'uimos e1 intervalu de confianza con la férmula [3.5]:
1,572+o 21 = 1,793
1,572i(1,96)(0,113)= ’2
1,572 - 0,221 = 1,351
La puntuacién 1,96 componde a1 percentil 0,975 (es decir, l — a ! 2) de la
distribucién normal tipificada. Por tanto, asumiendo cl modclo dc EF 1a estimacién
del TE paraméirico es df” = 1,572 , con limites confidenciales al 95% [1,351; 1.793].
A1 no encontrarse el valor 0 (efecto nulo) dentro del intervalo dc confianza, podemos
generalizar la cficacia del tratamiento a la poblacién dc estudios idénticos a 103
incluidos en el MA. Esta misma decisic'm estadistica se puede alcanzar conuastando 1a
hipétwis nula Ho: 0= 0 con el estadistico de contrasts planteado en la férmula [3.7]:
d,” _ 1,572 =13,912;p <3 0,0001

z=&ldf"}'fi
Dado que p < 0,0001, podemos rechazar 1a hipétesis nula de que el efecto
paramétrico comfm a los estudios es 0. La interpretacién estadistica del efecto medic
que acabamos de hacer mediante su intervals de confianza y el contrasts de su sig-
nificacién estadistica con la prueba 2 se debe complementar aportando una interpre-
tacién més préctica (clinica, educativa, social) (13] efecto encontrado. A est: propésito
pueden ayudar los criterios dc Cohen (1988), que ya hemos mencionado en el apar-
tado 2.7. El TE obtenido en este MA (d? = 1,572) supera ampliamente e1 valor que
segt’m esos criterios refleja 1m TE alto (0,80). Por tanto, se debe interpretar en el
sentido de una elevada eficacia de las intervenciones mpleadas en los estudios meta-
analizados.
Tabla 3.1. calculus bésioos en el modelo de EF.
Esma'io di 5%.? W.” W” 1% 9;” (d? )2

1 3,233 0,2041 4,900 15,842 51,212
2 3,076 0,1742 5,741 17,659 54,316
3 1,306 0,2609 3,833 5,006 6,538
4 1,880 0,1018 9,323 18,467 34,719
5 1,075 0,0305 12,422 13,354 14,356
6 0,916 0,1079 9,268 8,489 7,776
7 1,270 0,5766 1,734 2,202 2,797
8 0,687 0,0699 14,306 9,828 6,752
9 2,044 0,1126 8,881 18,153 37,104
10 3,432 0,3591 2,785 9,697 33,763
11 0,942 0,2233 4,478 4,213 3,974
Totales —— —— 78,171 122,915 253,307
Si decidimos aplicar cl modelo de EA, la estimacién del TE medic paramét‘ico,
pa. requiere los célculos resumidos en la tabla 3.2 pant este mismo ejemplo. Una vez
R
que- tenemos 105 TE individuales, di, y sus varianzas intraestudio, a" , es preciso
estimar la varianza interestudios, 12, par ejemplo mediante cl estimador dc
DerSimonian y Laird (1986) definido en la férmula [3.12]. Para ello, primero
calculamos los esmdisticos Q (férmula [3.13] o fbrmula de la nota 3, que es la que
justifica 1a 6.‘ columna de la tabla 3.2 y la que empleamos aqui) y c (férmula [3.14]):
2
' , “4d”)! —'—[2

12—21%” W —253 scum—1223
Id?)
212:5? " ’
152 -6004
73,171"
. ,.
“it"w—Z—“WF
2%”?
= 78,171 _722,710=
73,171 68,926
For mute, la vatianza interesmdjos queda estimada mediante:
A; = Q—(k-l) = 60,04-(11—1) = 0,725

r 6 68,926
Con el valor de la varianza interestudios y las varianzas intraestudio de cada TE
es posible obtener los factores de ponderacién, 13’5" , de 103 TE, mediante la férmula
Capflulo 3. Estlmaclfin oomblnada y heterogeneldad B1
[3.10] (véase la 7.“ columna de la tabla 3.2). A continuacién estimamos e1 TE media

paramétrico mediante la fbrmula [3.11] (oolumnas 7.“ y 8.“ de la tabla 2):
{hm-d
a ‘_21,391
2.:
d =r—_—=1,777
' 2w? 12,036
i
Tabla 3.2. calculus bésious en el rmdelo the EA asumiendo una distribucién normal.
Estudia d1- cfi 11:? (W): WP-(dF'Y viz?” Wu

1 3,233 0,2041 4,900 24,006 51,212 1,075 3,4'
2 3,076 0,1742 5,741 32,954 54,316 1,111 3,4
3 1,306 0,2609 3,833 14,691 6,538 1,013 1,3:
4 1,880 0,1013 9,823 96,495 34,719 1,208 22
5 1,075 0,0805 12,422 154,315 14,356 1,240 1,3:
6 0,916 0,1079 9,268 35,393 7,776 1,199 1,05
7 1,270 0,5766 1,734 3,003 2,797 0,768 0,9-
8 0,687 0,0699 14,306 204,666 6,752 1,256 0,3.
9 2,044 0,1125 8,881 73,372 37,104 1,192 2,4:
10 3,432 0,3591 2,735 7,755 33,763 0,921 3,2
11 0,942 0,2233 4,478 20,055 3,974 1,053 0,9!
Totales -- -- 78,171 722,710 253,307 12,036 21,3!
La estimacién par intervalo del efecto medic paraméu-ico puede hacerse de dos
forums. La 11155 habitual consiste en asumir una distribucién normal para el estimador
df“. En ese caso, 61 error tipico de dicho estimador se obtiene mediante la férmula
[3.16]:
a{d, )_ W _ — W 0,288
A m _ l _ l =
de forma que el intervalo dc confianza a] 95% se obfiene aplicando la férmula [3.15]:
o,564=2,341 1,777+
1,777_(1.96)(0,288) {L777_0,5
+
=
54=1,213
Por tanto, ammiendo el modelo de EA, la estimacién del TE media paramétrico,

pa vale df“ =1,777 , con limites confidenciales a] 95% [1,213; 2,341]. A1 no
82 Meia-anélisis en Clenclas Socialee y de la Salud
encontrarse e1 valor 0 (efecto nulo) dentro del intervalo de confianza, podemos ge-
neralizar la eficacia dc] Iratamiento a una poblacién dc estudios no exactamente
idénticos a los incluidos en el MA. Esta misma decisit'm estadistica se alcanza con-
trastando la hipétesis nula Ho: pg= 0 con el estadistico planteado en la férmula [3.17]:
Z: a“ 1777
- =’—=6 7; <0,0001
a“a?) 0,288 ’1 P
Mejor que asumir una distribucién normal as aplicar cl procodimiento propuesto
pot Hartung (1999) para construir m1 intervalo de confianza en torno al efecto media,
el cual asume una distribucién I de Student con k — 1 grades de libertad y un esti-
mador mejorado del error tipico de df“. Los célculos necesarios para aplicar el
procedimiento de Hartung se muestran en la tabla 3.3.
Tabla 3.3. calculus hastens en el modelo da EA asumlendo el pmcedimlenm majo-

rado de Harlung (1999).
Estudia d: (if a? w,“ -d, wffld: 4,“):

1 3,233 0,204] 1,075 3,475 2,279
3,076 0,1742 1,111 3,416 1,874
3 1,306 0,2609 1,013 1,323 0,225
4 1,880 0,1018 1,208 2,271 0,013
5 1,075 0,0805 1,240 1,333 0,61 l
6 0,916 0,1079 1,199 1,098 0,889
7 1,270 0,5766 0,768 0,975 0,197
8 0,687 0,0699 1,256 0,863 1,492
9 2,044 0,] 126 1,192 2,437 0,085
10 3,482 0,3591 0,921 3,208 2,679
l1 0,942 0,2233 1,053 0,992 0,734
Totalcs -- -— 12,036 21,391 11,065
El error tipico mejorado se obtiene mediantc la férmula [3.19] (véanse la 4.“ y

6.“ columnas de la tabla 3.3):
&'(d,“)= ZW'(d"d')z= 11,065 =0 303

(k—1)-2w54 (11—1)-12,036 ’
Capflulo 3. Estlmaclfin comblnada y heterogeneldad B3
A continuacibn, con la férmula [3.18] construimos e1 intervalo de confianza a1

95%:
1,777 + 0,675 = 2,452

1,777 :l: (,22 28)(0,303) = {1,777_0,575
=1,102
Obsérvese que la puntuacién 2,223 corresponde a1 percentil 0,975 (es decir, l —

on“ 2) de la distribucién tde Student con grades dc libertad k— 1 = l l — 1 = 1 0 . Asi
pug, por el procedimiento de Harhmg obtenemos unos limites confidenciales de
[1,102; 2,452]. A1 110 encontrarse e1 valor 0 dentro de los limites confidenciales, se
rechaza la hipétesis nula de que el efecto media paraméirico es 0. Esta misma hipé-
tesis se puede también contrastar mediante e1 estadistico propuesto en [3.20], el cual
asume una disu'ibucién tde Student con grados de libertad k—l = 11—1 = 1 0 :
df" _ 1,777
df‘ — 0,303 —5,86,p—0,0002
——(—]&,
Con objeto dc examinar més en detalle cémo funcionan los pesos dc

ponderacién asignados desdc los modelos dc EF y de EA, la tabla 3.4 reproduce di-
chos pesos. Asi mismo, para Ima mayor facilidad dc comparacién [as dos filtimas co-
lumnas presentan, en términos porcentuales, e1 peso asignado a cada estudio desde
cada modelo. Puede observarse cémo los pesos asignados a los estudios desde el
modelo de BF son [1158 heterogéneos entre si de lo que lo son los pesos asignados des-
de el modelo dc EA. En concrete, vemos que porcentualmente los pesos varian de
2,22% 3 18,30% (range: 16,08%) en el modelo de EF, mientras que en el de EA 10s
pwos varian mucho menos: de 6,38% a 10,44% (tango: 4,06%). En ambos modelos
los pesos se definen como la inversa de la varianza de cada TE. Peru en el modelo de
EF 1a varianza esté 3010 en funcibn de la variabilidad intraestudio, mieniras que en el
de EA se reconocen dos tipos dc varianza: la intraestudio y la interestudios. Dado que
la valianza interestudios es comfin a todos los estudios dc 1m MA, dicho valor actfia
coma homogeneizador de los pesos. En concrete, en nuestro ejemplo los pesos dc EF
se han defmido coma wt” = 1/6-,? , mientras que en el modelo de EA se han definido
como fig“ = 1/053.2 + f”) = 1/(6f + 0,726). Al incluir una constante en el de-
nominador, e1 modelo dc EA asigna pesos més homogéneos entre si de lo que lo son
los pesos desde el modelo de EF, pero no cambia la propiedad fundamental de que el
peso de un estudio sea mayor cuanto manor sea su varianza. De hecho, si ordenamos
Ins estudios segfin sus pesos, se obtiene la misma ordenacién con ambos modelos (1a
correlacién de Spearman entre 1?s y if“ es igual a 1).
El carécter homogeneizador de los pesos que ejercc la vafianza interesmdios en
el modelo dc EA scré mayor cuanto mayor sea cl valor dc dicha varianza en compa-
racién con las varianzas intraestudio, de forma quc si tuviéramos 1m conjlmto de es-
Indies con TE altamente heterogéneos entre si (122., mm varianza intemetudios muy

elevada) y varianzas intraestudio muy pequefias, los pesos asignados desde el modelo
dc EA tenderian a igualarse. Bajo estas circunstancias, cl efecto media ponderado se
acercan'a a la simple media aritmética de 105 TE. El otro caso extreme seria e1 in-
verso: una vafianza interestudios muy baja en comparacién con las varianzas intra-
estudio de los efectos individuales. En estc case, 108 pesos asignados a los estudios
variaflan mucho, hasta el punto de que cuando 1a varianza interesmdios es 0, entonces
cliches pesos coincidirian con los asignados desde el modelo dc EF, ya que
fif" =17/(é-12 +i-‘2)=1/(¢iif+0)=1,’ipf‘r . Dicho dc otra forma, podemos considerar e1
modelo dc EF como un case particular dc] dc EA, cuando la varianza interestudios es
igual a 0.
Tabla 3.4. Comparacifin de Ins pesos asignados a Ins astudios sagfin Ias modalos
da EF y EA.
Esmdio di wf" 13:?" mm) mm)
1 3,233 4,900 1,075 6,27 3,93
2 3,076 5,741 1,111 7,34 9,23
3 1,306 3,333 1,013 4,90 3,42
4 1,330 9,823 1,203 12,56 10,03
5 1,075 12,422 1,240 15,90 10,30
6 0,916 9,253 1,199 11,86 9,96
7 1,270 1,734 0,768 2,22 6,38
8 0,637 14,306 1,256 18,30 10,44
9 2,044 3,331 1,192 11,36 9,91
10 3,432 2,735 0,921 3,56 7,66
11 0,942 4,473 1,053 5,73 3,75
Totalw -- 73,171 12,036 100,00 100,00
Los pesos en porcentajes se han calculado mediante
EF(%)=fi;fF 400/21??? =1»??? —100i78,171
EA(%)=Wf‘-1001'Zfirf‘ = if" 4001124136

1'
Si comparamos 10s resultados obtenidos con los tres modelos de anfilisis aplica—
dos (EF, EA normal y EA mejorado) observamos que, en general, se alcanzan las mis-
mas conclusiones: e1 efecto media es de magnitud alta, estadisticamente significativo
y reflejando una magnitud muy elevada a favor de la eficacia de los tratamientos. Sin
embargo, también se observan diferencias que es precise comentar. La tabla 3.5 re-
sume cstas diferencias. Aunque los efectos medias obtenidos con los modelos dc EF y
EA son mu}.r similares (1,572 3; 1,777, respectivamentef, los errores tipicos discrepan
entre si. Asi, el error tipico bajo el modelo de EF (0,113) siempre seré. manor (0, a lo
sumo, igual) que el obtenido bajo cl mode-lo dc EA en sus dos modalidades (0,283 y
0,303). E110 se debe a que el modelo de EF solo reconoce vadabilidad intraestudio,
mienu'as que el modelo dc EA incluye dos fuentes dc variabilidad al pretender estimar
a] cfccto medio de una poblacién (hipotética) dc cfectos paramétricos: la variabilidad
intraestudio y la interwtudios. Como consecuencia, la amplitud del intervalo de
confianza bajo el modelo dc EF (0,442.) siempre seré manor (0, a lo sumo, igual) que
la del modelo de EA (1,128 y 1,350).
A an vez, dent-o del mode-lo dc EA vemos que el procedimiento nonnal reco-
noce una menor variabilidad (0,288) que el procedimiento mejorado (0,303). Esta
diferencia se hace todavia mayor a1 comparar la amplitud de sus respectivos inter-
valos dc confianza (1,128 y 1,350, respectivamentc). E110 se debe a que los proce-
dimientos “normal” y “mejorado” dentro del modelo dc EA 110 solo difieren entre si
en la estimacién del error tipico, sine también en la disuibucién teérica asumida
(nonnal y 1 dc Student, respectivamente). Esta hace que el procedimiento dc EA
mejorado presents siempre rmltados més conservadores que el de EA con
distribucién normal. Ello se debe a que el procedinfiento mejorado reconoce la incar-
tidumbre que se produce a1 tenet que estimar la varianza interestudios, mientras que el
modelo dc EA basado en la distribucién normal 110 renounce tal vatiabilidad.
Mgicamente, cuando se decide aplicar un modelo de EA es mas apropiado utilizar el
procedimiento mejoradofi.
Tabla 3.5. Rasuman comparative de Ins rasultados obtanidos con los diferentes modalos
estadlstioos.
Estadistico de
Mode-Io estadistica k d. &(d_) AI contraste
EF 11 1,572 0,113 0,442 13,9]
EA: Normal 11 1,777 0,233 1,128 6,17
EA: Mejorado 11 1,777 0,303 1,350 5,86
1:: nfimem de esmdios. (1.: TE media. 61d): error tipico del TE media. AI: amplitud
dc] intervalo dc oonfianza.
5ObservequelosdosmodelosdeEAielnormalyelmejmado)no difierenentresienelmododecflculo
del TE media; en ambos cste se obtiene con la farmula [3.8].
‘Larazéndepresentar e1 modelodeEA normalapesardeno serelmfisrecommdahlesedebe aqua,
desafomnmdmnente, la inmensa mayoria dc [05 MA que se publican aplicau este pmoedimiemto en lugar
del mejorado. Nuesu'a intencién a1 incluirlo en nueslra exposicifm 03, pm, permitir a1 lector la pusibilidad
de replicar los resfludos dc cualquier MA qua haya aplicado est: procedhniento.
86 Meia-anélisis en Clenclas Somalis y de la Salud
3.4.2. Estadisticos de heterogeneidad

Para comprobar si 105 TE de los estudios son homogéneos entre si o si, por el con-
Irario, presentan una heterogeneidad que no puede explicar :1 simple error dc mues-
treo aleatorio, se contrasta la hipbtesis dc homogeneidad: Ho: 01 = :9; = = 6} = =
9*, con el estadistico Q dc Cochran definido en la fbrmula [3.13] (recuérdcse la not:
3) y que ya se obtuvo a1 realizar los célculos relatives a1 efecto mcdio bajo e1 modelo
de EA (véase también la tabla 3.2):
_
2v?" 4F”] _
[I
. _ (d;E F) 2 _ —Zfi’rfl _122,91 51_
53—;w 453,307 73,171 -6o,o4
i
Bajo la hipétesis nula dc homogeneidad, cl estadistico Q 36 distribuye segfin

Chi-cuadrado dc Pearson con grades de h'bermdk—l = 11-1=10.Portanto, espo-
sible adoptar una decisién estadistica comparando e1 valor de probabilidad, p, asocia-
do a1 resultado del estadistico Q con el nivel dc significacién asumido (e.g., a = 0,05).
Dado quc en nuestro cjemplo Q ticne asociado 1m valor p < 0,0001, podcmos rcchazm
la hipétesis de homogeneidad y concluir que los TE 3011 heterogéneos entre si més
3116 de lo que- el simple error dc muestreo puede explicar. Esta resultado se puede
presentar formahnente coma: Q(10)= 60,040, p < 0,00001.
Ademés dc comprobar si 105 TE son 0 no homogéneos emu-e si, se hace precise
estimar cl grade de heterogeneidad exhibido por estos. Para ello calculamos e1 indict:
I2 defim'do en la férmula [3.21]:
12=w.1oo%= 60,040-(11—1) _100% =33,34%

60,040
Asi puss, podcmos concluir que 108 TE presentan una heterogeneidad real dcl
83,34%. Siguiendo la guia orientativa del 25%, 50% y 75% come reflejando una hete-
rogeneidad haja, media y alm, podemos afirmar que los estudios muwtran TE alta-
mente heterogéneos.
3.43. E! forest plot

Independientcmentc del modclo cstadistico asumido y do las conclusiones alcanzadas,
los resultados se deben representa: mediante 1m finest plot. La figura 3.3 representa el
fbrest plat para los 11 estudios de nuestro ejemplo. Para cada estudjo individual, e1
gréfico presenta :1 TE individual, su error tipico, e1 peso (en porcentaje) y su intervalo
de confianza al 95%. Los pesos estén en ftmcién del modelo estadistico asumido. En
este caso hemos representado e1 forest plot asumiendo un modelo dc EA. En la parte
inferior del gréfico figura e1 efecto medic obtenido (1,78), junta con su intervalo de
confianza (1,21 — 2,34; utilizando e1 procedimiento normal, no el mejorado de
Hartung), asi como la varianza interestudios (T1am2 = 0,73), cl estadistico Q dc hete-
rogeneidad (Chi2 = 60,05), sus grados dc libcrtad ( d f = 10), 311 nivcl dc probabilidad
(p < 0,00001), e1 indice [2 = 83% y la prueba dc siglfificacién del efecto medic para
contrastar la hipétesis nula de un efecto media en la poblacién igual a 0 (Z = 6,17, p <
0,00001). Salvo diferencias por redondeo, obsérvese la similitud de los resultados
obtenidos en los aparlados anteriores y los presentados en el gréfico, que se ha
confeccionado mediante el programa de MA RevMan 5.2, de la Colaboracién
Cochrane (Review Manager, 2008).
Del mismo 1110110,“. pucde confeccionar elforest plot asumiendo un modelo de
EA mejorado, o también asumiendo un modelo dc EF. Las diferencias entre estos
fires: plats estarian finicmnente en el valor del efecto media, 511 intervalo de
confianza y la pmeba de significacién estadistica del efecto media. A efectos com-
parativos, la figura 3.4 presents. e1 forest plot para el mismo ejemplo, pero asumiendo
un modclo dc EF.
Figura 3.3. Forest plotde los 11 istudios del ejemplo. Std. Mean Dlfi‘emnce: indioe del TE 'dife-
rancia media tipificada". SE: errnrtipino. Weight peso especifiou asignado a cada TE. iv, Random,
95%01: modelo de EA (Random) mediante Ia aplicacién de pesos dafinidas como la inversa de la
varianza (M a lntervalos da confianza al 95% (95% Cl). Tauz: esflmacién 63 la varianza interes-
tudios por al méhodo da DerSimonian y Laird. Chiz: estadlstico Q. df: grados de Iibertad del esta-
disfioo 0.
Std. Moan lknnnn Std. Hun Eiffel-mo
M or Wow 8w. Ian u m SE W W, Random. 9515 CI W, Random, 95% Cl
Edudo 01 3.233 0.4517 8.9% 323 [2.35. 4.12] —'—"
Esludo 02 3.013 0.411'4 92% 3.08 [226, 3.89] —'—
Estmio 03 1.306 05108 8.4% 131 9.30, 2.31] —'_
Esmdo 04 1.38 0.3191 10.0% 1.88 [1.25, 2.51] —'—
Estudo 05 1.075 02836 10.3% 1.0? [052. 1.63] —'—
Ealmlo 06 0.918 0.3284 10.0% 0.92 [027, 1.56] —'—
Eslucio 07 1.27 0.7594 6.4% 1.27 [-022, 2.76] '
Eetudo 05 0.68? 02644 10.4% I169 [0.17, 1.21] “'—
Esludo 09 2.044 0.3355 9.9% 2.04 [1.39. 2.70] —'—
Estudo 10 3.482 0.5992 7.7% 3.48 [2.31. 4.66] — "
Esmdo 11 0.942 04725 8.8% I194 [0.02 1.87] —'—
TO‘III (95% Cl) 1.0.055 1.18 [1.21. 2.34] .

Hohmganeily:TuF=0.Tfl;Ghi‘=fiD.05,df=10{P<D.0WD1);I'=83% :4 _=2 0 2 4-
TastinrovamlafiachZIG.1T(P<fi.Dm01} Fm“ ” F T I I
BB Meia-anélisis en Clenclas Suclales y de la Salud
Figura 3.4. Forest plotde los 11 esludios del ejemplo. Std. Mean Difl‘emnoe: indice del TE 'dife-
rencia media tipificada'. SE: error tipico. Weight peso especifico asignado a cada TE. IV, Fixed,
95%Ct rnudelo do EF (Fixed) mediante la aplicacién d9 pesos definidos oomo la inversa de la va-
rianza (IV) a intervalos de canfianza al 95% (95% CI). ChF: astadisfioo 0. df. grades da liberlad clel
estadistico Q.
m u m Diflmnea sun-mm
Morfiubgmn magnum 8E Weight mmmu N,F|ud.!§%¢l
Esmdn m 3233 0.4517 3.3% 323[2.35,4.12] —-|>
Eamon: 3.076 was 7.3% mamas] —-—
Estuclooa 1.306 05103 4.9% 1.31m.3o,2.31] —-—
swam 1.33 03191 12.6% 1m[1.25,251] -—
59mm 1.075 0.2335 15.9% 1.07m.52,1.sa] - -
EstucInOB 0.915 03234 11.9% o.92m.27,1.sa] —-—
ammo? 127 0.7594 2.29; 127141.22, 2.76] -—-—
EetudoOB 0.637 02644 18.3% om[0.17,1.21] - -
Issuance 2.044 03355 11.4% magnum —-—
swam we 05592 3.5% a43[z31,¢.ss] —-*
Estudo11 0.942 0.4725 m 0.54 [0.011.371 —-—
mu (m on mm 1.5: [135. 1.79] O

HMmfiMCflF=fiDflEfl=1DIP<Em1hF=839E '
Tan inrowall effect 2 = mm (P < 0.00001} 4 Fm“-'2 00m, oa 2Tm4
3.5. Eleccién del modelo estadistico

Dado que son dos los modelos estadisticos asumibles para realizar los célculos esta-
disticos de 1111 MA, una decisién fimdamental del meta-analista es la eleccién del mo—
delo estadistico. Dicha eleccién debs estar, bésicamente, e11 fimcién dc dos factores;
mm as de naturaleza conceptual, o sustantiva; el otro implica tomar en consideracibn
las caracteristicas de la distribucién de TE meta-analizados y, por tanto, es una cues-
tién més empirica (Borenstein e: at, 2009, 2010; Field y Gillett, 2010; Hedges y
Vevea, 1998; Sénchez-Meca, Lépez-Ifipez y Mpez—Pina, 2013; Schmidt, 2010;
Schmidt, 011 y Hayes, 2009).
En relacién con el primer factor, e1 meta-analista debe plantear de antemano el
grado de generalizacién que pretende alcanzar con los resultados del MA. En este
sentido, es precise tenet en cuenta que el models de EF permite generalizar los resul-
tados a una poblacién de estudios con caracteristicas idénticas a las de los estudios
incluidos en «:21 MA y que se supone que 105 TE individuales no serén muy hetero-
géneos entre si. Por el contrario, el modelo de EA asume que los estudios meta-
analizados constituyen una muestra representativa de una poblacién dc estudios con
camcteristicas parecidas, pero no exactamente idénticas, a las de los estudios meta-
analizados, y que los TE exhibirén una elevada heterogeneidad. En consecuencia, si cl
meta-analista sospecha que 105 TE van a set heterogéneos y considera que los esmdios
meta-analizados son representatives de una poblacifin mayor de estudios, a la que pre-

tende generalizar los resultados del MA, entonces deberé asumir el modelo de EA. Si,
por el cunt-aria, cl meta-analista sospecha que los TE serén homogéneos y solo pre-
tends generalizar los resultados a la poblacién dc estudios idénticos a los meta-
analizados, enhances deberé asumir cl modelo de EF.
Obsérvcse quc en esta decisién a1 meta-analista SC 16 cxigc hacer un ejcrcicio de
“adivinacién” sobre qué espera encontrar. Por ello se hace preciso combinar este fac—
tor concepmal can otro que tenga an enema las caracteristicas de la distribucién de 103
TE obtenidos en los estudios meta-analizados. En este- sentido, e1 examen de los
estadisficos dc heterogeneidad (Q, 19 y la varianza interestudios) permiten comprobar
si la eleccién inicial del meta-malista no esté desencaminada. El hallazgo dc
estadisticos de heterogeneidad elevada puede ayudar a confirmar la eleccién de un
modelo dc EA. Por cl contrario, 1a obtencién dc un resultado cstadisticamentc no sig-
nificativo para la prueba Q de heterogeneidad no se deberia interpretar como evi-
dencia inequivoca de que existe homogeneidad entre 105 TE, ya que esta prueba tiene
baja potencia estadistica 011m el nflmero dc estudios es pequefio (e.g., k < 30). Per
tanto, la decisién sabre qué modelo estadistico elegir no debe descansar exclusiva-
mente en los resultados de los estadisticos dc heterogeneidad, y macho menus en el de
la prueba Q dc heterogeneidadT.
Aunque el modelo de EA parece set e1 més realista en la mayoria de las aca-
siones en que se pretends hacer un MA, este modelo requiem del cumplimiento de
mils condiciones, o supuestos, que el modelo de EF. El examen de estas condiciones
debe también ser tomado en consideracién para decidir qué modelo metadistico deba
set finalmente asumido. Un supuesto que debe cumplirse en el modelo dc EA es que
los estudios meta-analizados constituyen una muestra representative. de una poblacién
dc estudios con caractcristicas similares, aunquc no idénticas, a 138 de los cstudios del
MA. Si e1 meta-analista considers. que los estudios incluidos no constituyen una
muestra representativa de la poblacién a la que pretende generalizar [as resultados,
entonces no deberia asumir este modeloa.
Otto problema que tiene cl modelu dc EA es la estimacién de la varianza interes-
tudios. Si el nfimero dc estudios es bajo, entonces la estimacién de este parémetro es
inestable, por lo que los resultados del MA serfin imprecisos. Adcmfis, cute modelo
’ Desafortunndmeme, es muy frecuente encoutrar MA en los que la decisién de adoptar un modeler de EF 0

EAsatomé enflmciéndequaa]msultadodelapmebagdeheterogeneidadalcanzaseonolasignificacifin
estadistica. Esta précfica deberia abandoum, ya que puede inducir a la eleccién de un mode-lo estadistico
errfmeo.
5 En sentido esticto, cl modelo dc EA exige que los estudius incluidos en el MA se hayan seleccionado
aleatoriamente de la poblacién de esmdios. Sin embargo, estrictameute hablando es imposible que se
cumpla este supuesto en ningfin MA, ya que los estudios incluidos en un MA son 108 que se encuentran en
la litmatura, es decir, no so seleccionan aleatoriamente. Esta es una critica hecha par algunos autoree contra
el uso del modelo dc EA (e.g.. Bonelt, 2008, 2009, 2010). Sin embargo, em critical resulta ser may exigen-
te, ya que podriamos extenderla a cualquier investigacién primaria, en cuyo case tendriamos qua “conde-
mn" el uso de los métodos de inferencia estadistica en cualquier investigacién quc no haya seleccimlado
alcatoriamente a la muesira dc participantas. Esta critica, pucs, invalidaria prficficamcnte la totalidad de las
investigaciones que se lumen en psicologia y en las ciencins empiricas en general.
asume que la distribucién de la poblacién de TE paramétricos sigue una ley normal y

resulta dificil comprobar el cumplimiento de este supuesto an MA males. Si 1a distri-
bucién de TE sc- aleja mucho del supuesto de normalidad, entonces los resultados del
MA scrim poco fiables, ya que la estimacién de la varianza interesmdios se veré
comprometida. Como guia orientativa, podemos aprovechar los resultados dc estudios
dc :imulacién, quc recomiendan al menos 30 cstudios para quc la estimacién dc 1a va-
rianza interestudios sea razonablemente precisa (Aguinis, Gottfi‘edson y Wright,
2011; Biggerstafl‘ y Tweedie, 1997; Brockwell y Gordon, 2001; Field, 2005; 851131152-
Meca et at, 2013; Schulze, 2004).
Por tanto, si tenemos un nfimero razonable de estudios (k > 30), con una distri-
bucién de TE aproximadamente nonnal y elevada heterogeneidad, e1 meta-analista
podré asumir un modelo dc EA. Si no se cumplen estas condiciones, aunque {:1 meta-
analista dcsce generalizar sus rcsultados a una poblacién mayor dc estudios, no debe-
ria asumir el modelo de EA. En cse caso seré preferible adoptar cl modelo de EF si no
existe heterogeneidad entre 103 TE. Si ademés de no cumplirse las condiciones del
modelo de EA e1 conjunto dc TE no son homogéneos, entonces ninguno de los dos
modelos aqui planteados seria apropiado. En ese hipotético caso, el modelo més
apropiado seria el denominado madeIo de cogficientes variables, segfin el cual 1a
generalizacién de los resultados se limitaria a1 conjunto dc estudios dc catacteristicas
idénticas a l a s de los estudios incluidos, pero no se asume que todos los estudios es-
timan el mismo efecto paramétrico (come ocurre en el modelo de EF), sine qua cada
estudio estima 1m efecto paramétrico diferente. Por limitaciones dc espacio, cl modelo
dc coeficientes variables no se presenta en este libro. Pueden conwltarse sus catac-
teristicas en Laird y Mosteller (1990), que fueron quienes lo propusieron inicialmente
MA, 0 bien en Barnett (2008, 2009, 2010) y en Sénchez-Meca er a1. (2013).
Cabs, finalmente, mencionar otro problema quc puedc surgir cuaudo se pretende
estimar cl efecto media a partir de un conjunto de TEs. Tanto en el modelo dc EF
como en el de EA, e1 efecto media 56 obtiene a partir de- una media ponderada por la
inversa de la varianza de cada TE. Dado que la varianza intraestudio de cada TE esté
en funciém del tamafio muestral (a mayor tamafio muestral, manor varianza intraes-
tudio y, por tanto, mayor peso), si existe correlacién entre 105 TE y los tamafios
muestrales, entonces el uso de métodos dc ponderacién puede provocar la obtencién
dc cstimacioncs sesgadas dc] cfecto media. Es fi'ecucntc cncontrar correlacioncs nega-
tivas entre TE y tamafio muestral (Levine, Asada y Carpenter, 2009; Slavin y Smith,
2009). La causa més frecuente de esa correlacién negativa es el sesgo de publicacién
(Rothstein, Sutton y Borenstein, 2005?. En e303 cases, el uso de los modelos de EF 0
9 La razén de que la existencia dc sesgo dc publicacifin dé Inga: a una ounelacién negativa enu'e TE 3
tamafio mnestral s: explica por el siguienm argumeuto. El sesgo de publicacién se da cuando 5010 se
publican estudios con resultados estadisticamente significafivos. Los resultados estadisticamente
significativos se dan cuando los mmdios animal] TE bajos can tamafios muestrales altos, o bien TE
mediosfaltos con tannins muesh‘ales de walquier magnimd. L03 estudios con TE bajos y mas
muesu'ales bajos nu aluanzan la significacifm estadistica y, en cunsecuencia, no logran publicame. Esta
desequilibrio hace que los esmdios publicados (que son los que alcanzamn la significacién estadistica)
EA debe hacerse con extrema precaucién. Se han propuesto otras solucionas a este
problema, tales coma las recogidas en Bonett (2009), Shuster (2010) 0 en Henmi y
Copas (2010) que, por limitaciones de cspacio, no podemos presentar aqui.
cxhihanuna comlaciénncgativaentreTEytamafiomucstal (véaselafigum 8.3 yladiscusifinsohrela

asimeh‘ladelfimnefplau.
Anélisis de moderadores
cualitativos
En el capitulo anterior hemos tratado la cuestién dc cémo obtcner una cstimacién

puntual y un intervalo dc oonfianza del efecto media a partir de un conjunto de ta-
mafios del efecto. También hemos presentado pruebas estadisticas que permiten con-
trastar la significacién estadistica dc esa estimacién puntual, asi coma su hetero-
geneidad real. Por heterogeneidad real queremos decir la que no es debida a1 muestreo
aleatorio de los participantw en los estudios individuales, sino al efecto de un con-
junto indetenninado de variablw moderadoras, o caracteristicas de los estudios, que
pucdcn provocar variabilidad en los tamafios del cfecm. Cuando cl conjunto dc ta-
mafios del efecto exhiben heterogeneidad real, entonces e1 paso siguiente en los ané-
lisis consistiré en examinar el influjo de algunas de las caracteristicas de los estudios
sobre la variabiljdad de los tamafios del efecto. En estos mflisis, las variablm: mode-
radoras actfian come variables independicntes, cxplicativas o predictoras, mientras
que los tamafios del efecto constituyen la variable dependiente, dc resultado, o cri-
teria. Dado que los tamafios del efecto se distribuyen aproximadamente segL'm una ley
normal, es posible aplicar las técnicas dc anélisis estadistico basadas en el modelo
lineal general. Lo habitual en an MA cs comcnzar cl examen dc las variables mode-
radoras analizéndolas de una en una. Asi, cuando la variable moderadora es cuali-
tativa, se suelen aplicar modelos de anélisis de varianza (ANOVA), mientras que las
variables moderadoras oontinuas se analizan mediante modelos de regresién, quc en
el contexto del MA se vienen denonfinando recientemente ‘finodelos dc meta-regre-
94 Meia-anéllsls en Clendas Sociales y de la Salud
sién”. Finalmente, si el nfimero de estudios es lo suficientemente elevado, es posible

proponer algfin models de meta-regresién mfiltiple que contemple e1 subconjunto de
predictores que major dan cuenta de la variabilidad de 103 tamaflos del efecto.
En este capitulo vamos a centrar nuestra atencic'm en la aplicacién de modelos de
ANOVA para examinar el influjo de una variable moderadora elmlitativa. Aunque es
pcrfectamcntc factible analizar moderadorcs cualitativos mediante modclos dc meta-
regresibn, e1 enfoque del ANOVA ofiece una mayor riqueza de informacién en el
contexto de an MA. Par e110 dedicamos este capitulo 21 describir cémo se realizan e
interpretan estos anélisis. Las variables moderadoras cualitativas son muy comunes en
MA. cmplos dc tales variables son cl tipo de tratamiento aplicado (e.g., cognitive-
conductual, fmnacolégico, otms), 1a poblacién dc referencia del wtudio (e.g.,
poblacién clinica vs. subclinica), cl tipo de gmpo de control (e.g., active vs. inactive)
0 cl tipo dc asignanién de los participantes a las condicionm experimenmles (e.g.,
asignacién aleatoria vs. no aleatoria).
Del mismo mode que en el capitulo anterior, e1 anflisis dc variables mode-
radoras se puede hacer desde diferentes modelos estadisticos. En la que sigue pre-
sentaremos los dos modelos més utilizados en MA para este propésito: los modelos de
efecms fijos (BF) y de efectos mixtos (EM). Expondremos cémo se realizan e inter-
pretan los anélisis estadisticos desde ambos modelos y ofreceremos alguna orienta-
ci6n sabre qué modelo esmdistico elegir.
4.1. Modelos estadisticos para moderadores cualitativos

Los dos modelos estadisticos para el anélisis dc variables moderadoras que presen-
tamos a continuacién constituyen generalizaciones de los modelos dc efecto fijo y de
: 3 s aleatorios lratados en cl capitulo anterior para la cstimacién dcl efecm media.
En concrete, cl modelo de eféctas fijos (fixed-fitters model) es una extensién del mo-
delo de efizctofy‘o, mientras que el modelo de efictos mixtos (mixed-fleets modeD 10
as del modelo de efectos aleatorios. Desde la perspectiva del modelo lineal general,
los modelos dc EF y dc EA expuestos en el capitulo 3 se identifican con modelos li-
neales sin predictor, donde e1 efecto medic objeto dc estimacién es el intercepto (Bo-
renstein, Hedges, Higgins y Rothstein, 2010; Hedges y Vevea, 1998).
Antes dc pasar a presentar los detalles de los modelos dc EF y de EM, conviene
mencionar sus puntos en comfin. En ambos modelos amlmiremos que la variable mo-
deradora es cualitativa, con un conjunto dc categorias mutuamente excluyentes y de
efectos fijos; es decir, las categorias de ese factor han sido seleccionadas por el inves-
tigador a conveniencia. Por ejemplo, cl moderador “poblacién de procedencia” (cli-
nica vs. subclinica) estfi campuesto par dos categorias definidas por el meta-analista
dc fauna fija para su codificacién en los estudios. En ambos modclos también asu-
miremos que disponemos de un conjunto de k tamafios del efecto independientes,
cada uno de los cuales es clasificado en una de las m categorias, mumamente exclu-
Capltulo 4. Anallsls de moderadnree cualilatlvos 95
yentes, de la variable moderadora. Ademfis, 1:1, 1:2, . . . , km representan el nfimero de

tamafios del efecto de las categorias 1, 2, ..., m, respectivamente, de forma que k1 + k2
+ + km = k (Borenstein y Higgins, 2013).
4.2. Modelos de efectos fijos

El modelo dc EF aplicado en el contexto de 1111 MA para cxaminar 1a relacién esta-
distica existent: entre una variable moderadora cualitativa y los tamafios del efecto
assume qua para cada categoria de dicha variable moderadora existe un finico efecto
paramétrico comfin a todos los estudios que fienen esa categoria. Este modelo se
pucde representar come T3 = e,- + uij, siendo Ti; cl iésimo (i = 1, 2, ..., kj) TE de la j-
ésima categoria (j = 1, 2, .. ., m) de la variable moderadora; 9] es 6] TE paramétrico de
la categofiaj, que se asume coml'm a todos los tamafios del efecto dc esa catcgoria, y
uij representa la vaflabilidad debida a error dc muestreo intraestudio, es decir, el error
producido a] seleccionar muestras aleatorias de individuos en cada estudio (Bo-
renstein, Hedges, Higgins y Rothstein, 2009; Hedges y Olkin, 1985). La figura 4.1
ilustra este modeler para el caso més simple posible: una variable moderadora con dos
categoflas.
Flgura 4.1. Ramsentacldn gréflm dal modele- da EF para una variable modaradora cualihtiva con
dos mtagorias. Los valoras Tu: T21: - ' -: 1;” Tm representan esflmaclonas del TE obtanldas
an Ins estudios primaries. agrupadas en funcién de la categoria de pertenencia, mienlras qua 31 y

02 representan Ios tamafios del efecto paramétfioos de las dos categorias.
Variable moderadora
cualitativa
Categona 1 Categorla 2
81 6'2
Muestrreo aleatorio de Muestreo aleatorio de .

individuos individuos
Estudio 1 Estudio 2 ® Estudio k1 Estudio 1 Estudio 2 © Estudio 1:;

111 T1] 1:11 112 T22 31:2
95 Meh-anéllsls en CIendas Sociales y de la Salud
Para la realizacién dc inferencias estadisticas, cl modelo asumc que dentro de

cada categoria los tamafios del efecto muestralw, Ti], se distribuyen segl’m una ley
nmmal con valor csperado igual a1 efccto paramétrico dc csa catcgoria (13) y varianza
igual a la producida por cl em): dc muestreo intracstudio, 5;: T3 ~ M6,; 5;). Se
asume que los tamafios del efecto (Tfi) y los mores de muestreo intraestudio, ufi, son
independientes enu'e si. También se asume que ates filtzimos se dism'buyen segfin una
Icy normal: uij ~ N(0; a; ).
Para la myoria de los tamafios del efecto coml’mmente utilizados en MA, la va-
rianza inuaesmdio paramétrica, a; , se descanocc, por lo quc tiene que ser estimada
(6"?) con las férmulas ya expuestas en el capitulo 2. Esta circumstancia impide utilizar
el wtimador éptimo (insesgado y de varianza minima) para cstimar cl cfecto para-
méuico de cada categoria, 6}. E110 se debe a que la media ponderada se basa en la in-
versa de la varianza intraestudio de cada TE individual. Como vimos en el capitulo 3,
en su lugar se utiliza coma estimador dc % 13 media ponderada per la inversa de las
varianzas intraestudio estimadas. Asi, para cada categoriaj de la vaflable moderadora,
el efecto medic estimado, If: , se obtiene mediante (Hedges, 1994; Konstantopoulos
y Hedges, 20091)
2*? 4;,
5" = . - _ [4-1]
T“ 2»?
siendo 1.1;?" = 1/5}; cl factor dc ponderacién de cada TE pertenecientc a @611 categoria
de la variable mode-radon. La varianza de cada efecto media estimado viene dada per
l [4.2]
&1(1:‘1")= .
’ 5w?
Partiendo de lo ya presentado en el capitulo anterior, es fécil plantear 1111 inter-

valo de confianza para estimar a1 efecto paramélrico de la categoria j, Oj, a path" dc]
efecto medic ponderado dc dicha categoria, 1;” , asumiendo una dish-ibucién normal:
lAunqucWWdeesbempfidoyaapmciemnmelmtmimJumpcfimmaquipmficflimh
locum.
Capitulo 4. Anallsls de moderadoree cualilatlvos 97
E? RF _ a
T3? ilzl—mrzl ‘ 6(11?)= {11" + '21—"l . a?" )— Twp [4.3]
11-5}? — lzl—afz '&£?) =Tinf
siendo 21m 13. puntuacién de la distribucién normal tipificada correspondiente al

percentil (1 - ou'2), asumiendo un nivel de confianza (1 - a)-100%.
Este interval-:3 dc confianza permits conflastar la hipétesis nula de que cl efecto
paraméu'ico de la categoria j as nulo: Ho: 6 = 0, comprobando si el valor 0 se en-
cuenh'a dentro o fuera del intervalo. También puede contrastarse esta hipétesis con el
estadistico:
TEF
z = _ "H. [4.4]
3(a- )
bajo cuya hipétcsis nula se distribuye aproximadamente segfin una ley normal tipi-
ficada, MO; 1), de forma que, pm 1111 determinado nivel dc significacién (a), la
hipétesis nula seré rechazada si se cumple que p S a.
Una vez que tenemos una estimacién puntual y por intervalo del efecto para-
méuico de cada categoria de la variable moderadora, e1 siguicntc paso en los anélisis
implica comprobar mediante un contraste de hipétesis si 105 efectos paramétricos dc
dichas categorias son estadisticamente diferentes entre si, o si por el contrario son ho-
mogéneos. Si los efectos paramétricos son diferentes entre si, entonces podremos con-
cluir que la variable moderadma objeto de estudio realmente explica parte de la varia-
bilidad de los tamafios del efecto de los estudios. Alcanzariamos la conclusién con-
Iraria si se diera e1 rwultado opuesto (ausencia de diferencias estadisticamente signi-
ficativas entre los efectos paraméu-icos). El estadisfico que nos pennite realizar e1
conuaste de la hipétesis nula Ho: 61 = 6 = = 6!", viene dado por (Borcnstein et at,
2009; Hedges y Olldn, 1985; Marin-Martinez y Sénchez-Meca, 1998)
cf=iwfr-(rf-n”)z
1:1
[4-5]
donde If," es el efecto combinado estimado para la categoriaj y definido [4.1];
wf; representa In sum de los pesos de ponderacién de los tamafios del cfecto indivi-
duales correspondientes a la categoria j:
I:
~ ff = in"? [4.6]
H
93 Meh-anéllsls en Clendas Sociales y de la Salud
El término 1;” representa e1 efecto media estimado tomando todos los tamafios
dcl cfecto, independicntemente de la catcgofla a la que perteneoen (56 corresponds
con la férmula 3.1 aplicada coma si nodes 103 estudios pefleneciesen a una finica cate-
goria):
zw-z; [4-71
T. =—.
E" i j
2.3;”?
En la terminologia dc los modelos de ANOVA, e1 estadistico Qfi” representa 1a
suma dc cuadrados intergrupos, si bien en este caso es una suma de cuadrados pon-
derada por la inversa de la varianza intrawtudio de cada TE. El estadistico Q5”
puede denominarse “estadistico dc homogeneidad intercategorias” o “intergrupos”. Al
set Q? on si mismo una ratio entrc variabilidad inter- e intragrupo, se puede utilizar
sin necesidad de recurrir a1 estadistico F tipico del ANOVA para contrasmr la
hipétesis nula. Asi puss, bajo la hipétesis nula de que todas las categoflas de la varia-
ble moderadora tienen cl mismo efccto pammétrico, cl estadistico Q? 36 distribuye
segfin Chi-cuadrado dc Pearson con m —- l grades dc libertad, siendo m e] mime-re de
categorias dc dicha variable moderadora. En consecuencia, dicha hipéteSis se rechaza
si el valor p asociado a1 resultado del mtadistico QfF es inferior al nivel dc significa-
cién, a; as decir, si p s a.
El modelo dc ANOVA dc un factor ponderado que estamos presentando permite
también comprobar si, para cada categoria de la 1variable moderadora, los tamafios del
efecto individuales son homogéneos en tame a su valor media o si, por el contrario,
todavia exhiben heterogeneidad més allé de la que se puede explicar por 61 error (16
muestreo aleatorio. Con este propésito, para cada categoria de la variable moderadora
se calcula un estadistico dc “homogeneidad intracategoria”, Q”, que se obtiene me-
diante (Konstantopoulos y Hedges, 2009) (se corresponde con la. férmula [3.13], pero
aplicada por separado a 103 1;,- mtudios de cada categoria)
9w, =i‘wf" -(I;- 4.15"

{-1
[4-81
Esto implica que se obtendrfin tantos wtadisticos Q” come categorias tenga la
variable moderadora. De esta fonna, cada uno de esos estadisticos permit: contrastar
la hipbtcsis nula dc homogencidad intracatcgoria de los tamafios dcl cfecto indivi-
duales para cada categoria. Por ejemplo, para la categoriaj el estadistico QW- permite
comrastar la hipétesis de que los efectos individuales son homogéneos en tome a su
efecto medic: Ho :0” =92} = __,=.9m = a}. Bajo esta hipétesis, e] estadistico 9“,} se dis-
Capitulo 4. Anallsls de moderadnree cualilatlvos 99
tribuye segt’m Chi-cuadrado de Pearson con (19 — 1) grados de libertad. En conse-

cuencia se podré rechazar dicha hipétesis si 61 valor p asociado al resultado del
wtadistico QW- es inferior a1 nivel dc significacién; is decir, sip S a.
El rechazo de esta hipétasis nula nos llevaria a la conclusién de que los tamafios
del efecto individuales dentro de la categoriaj no son homogéneos en tame a su afoot.-
to media, por lo que dicha media no 105 representa bicn. Dicho de otro mode, el re-
chazo de esta hipétesis nula implica concluir que existe todavia variabilidad por ex-
plicar entre los tamafios del efecto, una variabilidad que no se debe a1 efecto de la va-
riable moderadora en cuestién, sino a1 influjo dc otras variables potencialmente mode-
radoras no analizadas en este modelo.
Dado que tendremos tantos estadisticos QM; coma categorias tenga la variable
moderadara, es posible que para algunas categorias se rechace la hipétesis nula de
homogeneidad, mientras que para 01:33 categofias no se rechace. Un modo dc ofi‘ecer
una respuesta global a la pregunta dc si exists heterogeneidad intracategoria, no alri-
buible al efecto de la variable moderadora en cuestién, consiste en contrastar la hipé—
tesis nula de que existe homogeneidad global intracategorias:
, 912 = 6'22 = ---= 9b,: [4.9]

IIIIIIII
Esta hipétesis nula global se contrasta con el estadistico QW, definido como In
sum de los estadisticos Q.“ definidos en la férmula 4.8:
Q, :9“ +9”! +...+Qw_, +...+Q,,. [4-10]
Observe qua Qw no es més que el equivalente a la suma dc cuadrados intragrupo

del mode-10 dc ANOVA de un factor, aunque en este caso ponderada por la inversa de
las varianzas intmgrupo de los tamafios del efecto individuales. Conociendo la pro-
piedad de aditividad de Chi-cuadrado (Botella, Suero y Ximenez, 2012), bajo la hipé—
tesis nula planteada en la férmula [4.9] cl estadistico Qw se distribuye segl'm Chi-
cuadrado de Pearson con k — m grades dc libertad, siendo 1’: cl nfimero total de tama-
fios del efecto individuales y m e] m’unem de categofias de la variable moderadora. De
esta for-ma se podré rechazar dicha hipétesis si e1 valor p asociado a1 resultado del
cstadistico Qw cs inferior a1 nivcl dc significacién; cs decir, sip S u.
Dado que Qfi’ y Qw se corresponden can [as sumas de cuadrados intercategu-
rias e intracategoria, respectivamente, es faci] ver cémo la suma dc ambos constimye
la particién dc la suma dc cuadrados total ponderada, quc no seria otra quc la dcfinida
an [3.13] del capitulo anterior, y que representamos como el esmdistico Q de
heterogeneidad. Par tanto, se debe cumplir que
100 Meta-anélisis en Glendas Soclalee y de la Salud
Q=Q§F+Qw [4.11]
Pucde observarse, puss, la eslrecha analogia entre el modelo de ANOVA de un

factor que habitualmente se emplea en las investigaciones empiricas y el modelo de
ANOVA de un factor ponderado empleado an MA de EF. No obstante, su aplicacién
en MA ofiece informacién mas completa que en las investigaciones empiric-as. E110 se
debe a que las sumas de cuadrados Q?" )1 Qnr permiten realizar sendos contrastes dc
hipétesis complementarios. El estadistico Q? contrasta la hipétesis dc igualdad entre
los efectos paraméu'icos dc las categorias de la variable modcradora (homogeneidad
intercaxegorias), mientras que el estadistico Qw evalfia si el modelo esté bien
especificado, mediante e1 contraste de la hipétesis de homogeneidad intracategofias.
Ademés, cl cstadistico Q5: 36 puedc dcscomponer en tantos cstadisticos intracategoria,
Qw, coma categorias tenga la variable moderadora, con objeto dc examinar 1a
hipétesis de homogeneidad de forma individualizada para cada categoria.
Los estadisticos Qf” y Qw ofi'eceu infonnacién complementaria. Mostramos a
continuacién algunas directrices para su interpretacién (Borenstein et (11., 2009; Hed-
gas y Olkin, 1985; Konstantopoulns y Hedges, 2009):
a) Si el wtadistico Qf‘ alcanza la significacién estadistica, entonces podemos
concluir que la variable moderadora en cuestién explica (al menos en parte)
la variabilidad de los tamafios del efecto. Si este resultado se combina con
un resultado no significativo para el estadistico QW, entonces podemos
concluir que la variable moderadora en cuestién es la finica relevante para
explicar la variabilidad de los tamafios del efecto. Si, por el contrario, cl
Madistico Q3: alcanza un resultado estadisticamente significativo, cuteness
cabe pensar que el modelo esté. mal especificado, ya que existirfin otras
variables moderadoras de los tamafios del efecto que no se han tem'do en
cuenta en el modelo. Diremos en este caso que la variable moderadora
analizada es relevante, pero que no es la finica variable relevante.
1)) Si e1 astadistico Q? 110 alcanza la significacién estadistica, entonces la con-
clusién sari que la variable moderadora analizada realmente no afecta a la
variabilidad de los tamafios del efecto. En este case, ya no seré. necesario
interpretar el rewltado del wtadistico QW, porque la ausencia dc
significacién estadistica de Q? ya es indicativa, pct Si misma, de que el
modelo esté mal especificado.
El resultado del cont-ash: de hipétesis con el estadistico Q? 3010 nos informa

de si hay diferencias globalmente significativas entre los efectos medics de las cate-
gm'ias de la variable moderadora, pero no nos dice nada sobre entre qué categorias se
observan las diferencias. Para ello se hace preciso realizar comparaciones a posterimi
Capitulo 4. Mlisls de moderadores cuallhtlvos 101
0705: has) entre los efectos medics. El procedimiento a seguir as similar a] que se
lleva a cabo en una investigacién primaria (Konstantopoulos y Hedges, 2009).
Para cada comparacién o contrast: entre efectos medics se define e1 contrasts pa-
ramétrico que se pretende examinar mediante
gar =c1a9l +6262 +...+c131 +...+cfll9m = 201,61, [4-12]

1'
siendo 61, Q, ..., 6,“, 105 efectos paraméu'icos de cada categoria de la variable
moderadora, y c1, (:2, . . ., cm, unos coeficientes de contraste definidos en fimcién de la
comparacifin que se desee realizar. Por ejemplo, si queremos comparar los efecms
paramétricos de las catcgorias 1 y 2, hacemos c1 = +1, c; = —1 y el meta de coefi—
cientcs los igualamos a 0, de fonna qua qucdaria w = 01 - 6;. Un estimador inmgado
de un contrasts paramétrico, yr, as
y}: c113” +c211fp+.+czF+...+c TEF=ZCJTL§F [4.13]
La dism'bucién muestral de 1/? es aproximadamente normal, con varianza:
&2(y})=c3&1(1;”)+c§“2(2:§F)+..-§a+c (Efflu-
4.14
+c26'2( ,EF)= c fi fl f [ ]
donde las varianzas de 105 TE} medics, 6-2(If?), quedamn definidas an [4.2].
Dc esta forma, es posible realizar contastes de hipétesis simulténeos del tipo Ho:
yr= 0, para explorar entre qua efectos medias existen diferencias estadisticamente sig-
nificativas mediante el estadistico:
a:
X2 = ”f’ .. [4.15]
a (w)
Bajo la hipétesis nula de 110 diferencia entre los efectos medics, e1 estadistico Xi
se distribuye segfin Chi-cuadrado dc Pearson con on grade dc libertad. Si cl contraste
en cuestién se hubiera planeado antes de la recogida de los dates (16] MA, entonces
estan’amos ante un contraste- a priori y el rechazo de la hipétesis nula tendré lugar
cuando e1 valor p de probabilidad asociado al resultado de la prueba estadistica sea in-
ferior a1 nivel dc significacién seleccionado; es decir, cuando p s a.
Si e1 contrasts as a posterior-i (no se ha planeado previamente), entonoes hay que
controlar la inflacifin qua sufre la tasa dc error Tipo I 31 realizar mfilfiples contrastes
dc hipétesis silnulténeos (Pardo y San Martin, 2010). En MA 56 ban propuasto dos de
los diversos procedimientos de comparaciones a posteriori existentes en la literatura:
los procedimientos de Bonferroni y de Schefi'é (Konstantopoulos y Hedges, 2009).
102 Mew-anélisis en Clendas Soclalas y de la Salud
El método de Bonfenoni implica ajustar e1 nivel de significacién mediante GIL,

siendo L cl m'lmero dc comparacioncs quc :6. van a rcalizar. P01: ejemplo, si una varia-
ble moderadora tiene tres categorias, o grupos, y deseamos hacer todas las compa-
raciones simples posibles asumiendo un nivel dc significacién nominal dc 0,05, hace-
mos L = 3 y el nivel de significacién ajustado seria a I L = 0,053 = 0,0167. De esta
forma, para cada comparacién entre efectos medias e1 rechazo de la hipétesis nula
para un nivel de significacién nominal de 0,05 se daria cuando e1 nivel p asociado al
estadistico dc contrasts sea inferior a a. I L: p 5 0,0167.
El método de Bonferroni remflta eficaz para detectar diferencias entre efecms
medias cuando e1 nfimero de comparaciones a posteriori que se desea realizar es pe-
quefio (tres o cuatro, a lo sumo), ya que de lo contrario este procedimiento se welve
may conservador y rcsulta muy dificil detecta: difcrencias cum: efcctos medias. En su
defecto es preferible utilizar el método dc Scheffé dc ajuste del nivel dc significacién.
E1 1116m en cuestién se basa en tomar la decisién estadistica del contraste
comparando e1 nivel p asociado a1 estadistico de contrasts asumiendo una distribucién
Chi-cuadrado con grades dc libertad iguales a L’, siendo L’ el menor dc L (nfimero de
comparaciones) 0 de m — l (nfimero de categorias de la variable moderadora menus
uno). Este método es preferible a1 de Bonferroni cuando e1 nfimero de comparaciones
es alto (orientativamente, por encima dc cuatl'o).
4.2.1. Eiemplo de! modem de efectos fijos
Para ilustrar los célculos y la interpretacién de los resultados de un ANOVA dosde e1

modelo dc EF utilizaremos dates ampliados del mismo MA refcrido en el capitulo
anterior sobre la eficacia de los tratamientos dcl trastorno obsesivo-compulsivo en
nifios y adolescentes (Sinchez-Meca, A. I. Rosa-Alcézar, Iniesta-Sepfilveda y A.
Rosa-Alcézar, 2014). En el capitulo anterior, los anélisis se ccntraron en las 11 dife—
rencias medias estandarizadas obtenidas en 11 cstudios quc compararon un trata—
miento oognitivo—conductual con un grupo de control. Con objeto de ilustrar e1 ani-
lisis de una variable moderadora cualitativa, ampliamos ahora cl ejemplo para incluir
olros 10 estudios que compararon un tratamiento farmacolégico con un grupo control
y otros tres estudios que combinaron terapia cognitive-conductual y tratamiento far-
macolégico frente a un grupo de control. La variable moderadora objeto de estudio es
el tipo de tratamiento aplicado, con tres categorias mutuamente excluyentes (m = 3):
terapia cognitive-conducmal (k1 = 11 estudios), tratamiento farmacolégico (k2 = 10
estudios) y Imtamiento combinado (k3 = 3 estudios), dc fauna que disponemos de m
total de k = k 1 + k z + k 3 = 1 1 + 1 0 + 3 = 2 4 estudios. Latabla4.l muesu-a los 24 tama-
fios del efecto y sus correspondientes varianzas intra-estudio agrupados segfin e1 tipo
de tratamiento aplicado. Légicamente, una pregunta clave en este MA era determinar
si 105 fies tipos dc tratamiento presentaban niveles medic-s dc eficacia similares o si,
por el contrario, sus tamafios del efecto medics diferian entre Si. Al set e1 tipo de
Capitulo 4. Mllsls de moderadores cuallhtlvos 103
tratamiento una variable cualitativa, el modo més apropiado de abordar esta pregunta
es aplicando un ANOVA meta-analflico. En este caso vamos a asumir que los datos se
ajustan a las condiciones del modelu dc EF y mils adelante reanalizaremos estos mis-
mos dates asumiendo e1 modelo de EM.
Tabla 4.1. Dates del MA sabre la aficacia do! tratamiento del tras’mrna massive-compulsive
an nifios y adolesoanlaas. agmpados sagfin el lipo de tratamianto.
Tratamiento J Estudio dlj 6'; 1%,? if dy.

Tempia cognitive-conductual:
Estudio 1 3,233 0,2041 4,8996 15,8403
Estudio 2 3,076 0,1742 5,7405 17,6579
Estudio 3 1,306 0,2609 3,8329 5,0057
Estudio 4 1,880 0,1018 9,8232 18,4676
Estudio 5 1,075 0,0805 12,4224 13,3540
Estudio 6 0,916 0,1079 9,2678 8,4893
Estudio 7 1,270 0,5766 1,7343 2,2026
Estudio 8 0,687 0,0699 14,3062 9,8283
Estudio 9 2,044 0,1 126 3,3810 13,1528
Estudio 10 3,482 0,3591 2,7847 9,6965
Estudio 1 1 0,942 0,2233 4,4783 4,2185
Subtotales 78,171 122,914
Tratamiento farmacolégico:
Estudio 12 1,619 0,0909 1 1,001 l 17,3103
Estudio 13 0,618 0,2313 4,3234 2,6719
Estudio 14 0,226 0,0604 16,5563 3,7417
Estudio 15 1,040 0,0510 19,6078 20,3922
Estudio 16 0,677 0,0209 47,8469 32,3923
Estudio 17 1,009 0,1075 9,3023 9,3860
Estudio 18 0,477 0,0221 45,2489 21,5837
Estudio 19 0,801 0,0783 12,7714 10,2299
Estudjo 20 0,327 0,3335 2,9935 0,9805
Estudio 21 0,589 0,0351 28,4900 16,7306
Subtotales 198,147 135,970
'I‘ratamiento combinado:
Estudio 22 0,855 0,0669 14,9477 12,7803
Estudio 23 1,642 0,0305 12,4224 20,3976
Estudio 24 2,842 0,1503 6,6533 18,9087
Totales 3 10,341 3 10,970
En la tabla 4.1 se pmentau las diferencias de medias matandarizadas (dsj) Y sus

respectivas varianzas intraestudio (6-; ), agrupadas segfin e1 tipo de tratamiento apli-
cado. También se incluyen los factores de ponderacién de cada TE (1%? = 115-1?) 3; cl
producto de cada factor de ponderacién por 511 TE (13:? «if ). Como en el capitulo an-
terior, la letra T utilizada en las fénnulas dc we capitulo para referirse a1 TE se ha
sustituido por la 16112 d en el ejemplo, para indicar que el indice (161 TE es la di-
ferencia de medias esmndafizada. A partir de los cfilculos presenmdos en la tabla 4.1
se han obtenido los mostrados en la tabla 4.2: efecto combinado de cada categoria de
la variable moderadora (d3 , scgfin [4,1]), efecto combinado total (d? , segfin [437]),
varianza de cada efecto oombinado (63(115”) , segfin [42]) y los limites confidencia—
les dc] intervalo en tome a cada efecto combinado («if 1135.51.55”), s c [43]).
Se observa 061110 la tempia cognitivo-conductual y cl natamiento combinado
presentan efectos medics de alta magnitud (1,572 3? 1,531, respectivamente), Iznientras
que el tratamiento fannacolégico obtuvo un efecto medio de magnitud inferior
(0,686), si bien las tres modalidades de tratamiento obtuvieron intervalos dc confianza
en tomo a sus efectos medias estadisticamente significativos (ninguno de ellos con-
tiene cl valor cero).
La significacién estadistica de cada efecto media se puede establecer contras-
tando la hipétesis nula de que el efecto en la poblacién de una categoria es nulo, H”: 6}
= 0, con el estadistico z definjdo an [4.4]. La tabla 4.3 recoge estos resultados, en los
que se aprecia la significacién estadistica alcanzada por los tres efectos medias, en
términos (13 p.
Tabla 4.2. Célculo do Ins efactos medias d9 mda catagoria da la variable moderation y de sus
intervalas do confianza.
Mtamimm k,- dfi-p a'zwff (if i135 ' 5161.15?)
me 11 122,914ns,171 = 1,572 1fl8,171 = 0,0128 1,350; 1,794
Farms. 10 135,970!193,147 = 0,636 “198,147 = 0,0050 0,547; 0,825
Combinadu 3 5238784323 = 1,531 ”34,023 = 0,0294 1,195; 1,867
Total 24 3103701310541 = 1,002 1310,341=o,0032 0,891;1,113
TCC: terapia cognitive-conductual. Farmac; tratamiento farmacolfigico.
Tabla 4.3. Contrasts de la signification estadistim dal efecto medio de cada categoria de la
variable moderadora.
flatamiento kj d5? A4131) 2 p

TCC 11 1,572 0,] 13 13,91 < 0,0000]
Fannac. 10 0,686 0,071 9,66 < 0,0000]
Combinado 3 1,531 0,171 8,95 < 0,0000]
Total 24 1,002 0,057 17,53 < 0,0000]
TCC: terapia cognitive-continuum. Farmac.: u'atamienw farmacolégico.
Capltulo 4. Analisls de moderadores cuallhtlvos 105
Para contrastar la hipétesis nula de que los tres efectos paramétricos son homo-
géneos, Ho: 61 = 92 = .93, aplicamos cl estadistico dc contraste definido en la férmula
[4.5]:
Q? =f1fiff-(s’ 41”)“ =
j-1
=_(1,51r1—1,002)2 + (0,686—141102)2 + 0,0294 (1531—14102)2 = 54,37

0 0123 0,0050
Bajo la hipétesis nula de igualdad de efectos paraméu'icos, el estadistico Q? as

distribuye segfin Chi-cuadrado de Pearson con m - 1 = 3 — l = 2 grades de libertad. El
valor Q? = 54,87 56 corresponds con un nivel critico dc probabilidad p < 0,000001.
For tanto, para un nivel dc significacién a = 0,05 podemos rechazar la hipétesis nula
y concluir que los efectos medics de los tres tipos de flammiento son signifi-
cativamente diferentes entre si.
Si esta variable moderadora fi1era la finica responsable de la variabilidad de 103
tamafios del efecto, entonces las pruebas dc homogeneidad inn-acategoria deberian
mostrar un resultado astadisticamente no significativo. PaIa hacer esta comprobacién,
hay que aplicaI 1a ffirmula [4.8] a los datos de cada una de las categorias de la varia-
ble moderadora. Estes célculos se han resumido en la tabla 4.4. Como ya hemos se-
fialado, en realidad 1a férmula [4.4] es una reproduccién de la férmula [3.13] descrim
en el capitulo anterior para analjzar la homogeneidad de un conjunto dc tamafios del
efecto, pero ahora aplicada a cada categoria de la variable moderadora por separado.
Tabla 4.4. calculus da Ios estadlsticos de homogeneidad inh'acatagoria.

flmamiento kj Ca'IcuIas de los estadzisticos Q33 de homogeneidad intracategan'a
11
Toe 11 gm = Zfifldn —1.572)= = 4,8996(3,233 4,572)!+...= 60,04
i=l
10
Farmac. 10 Q“ =21»?(du 41.686): =11,0011(1,619—0,686)2 +...=19,33
i=1
3
Combinado 3 s = Zfivg’wfi —1.531).2 =14,9477(0,355—1,531)‘ +... = 18,42
II]
Total 24 Q”, =Qw] +Qw1 +Qw3 =60,04+19,33+18,42=97,79
TCC: terapia coglfltivo-conductual. Farmac; tratamisnto farmacolégico.
Bajo la hipétasis nula de homogeneidad de los tamafios del efecto denim de cada
categofla de la variable moderadora, los estadisticus Q“; so disu'ibuyen segfin Chi-
105 Meta-anélisis en Clendas Soclales y de la Salud
cuadrado de Pearson can A; — l grades dc libertad (en numtro ejemplo, con 10, 9 y 2
grados de libertad, respectivamente). Los niveles criticos dc probabilidad obtenidos
can cada estadistico han side: Qw;(10)= 60,04, p < 0,00001; 9,919) = 19,33, p = 0,02;
3! 91.30.) = 18,42, p < 0,0001. Para m1 nivel dc significacibn a = 0,05 todos ellos re-
sultan ser estadisticamente significativos. Por tanto, podemos afirmar que los tamafios
del efecto de cada modalidad dc tratamiento no filerun homogéneos en term a su
efecto medic y, en consecuencia, qua deben existir otras variables moderadoras de la
heterogeneidad de los tamafios del efecto. Asi mismo, e1 estadistico dc homogeneidad
intracategorias global obtuvo e1 valor Q w = 97,79, que con k — m = 24 - 3 = 21 grades
de libertad, arrojé 1m valor p < 0,0001, llevéndonos a la conclusién de que no existe
homogeneidad global intracategorias en el ajuste de este modelo dc ANOVA.
Ademés de comprobar si existcn diferencias globalmente significativas 611m: 103
efectos medias con el estadistico Q33” , es posible realizar comparaciones a posteriori
para indagar qué categorias presentan efectos medics estadisticmnente diferentes. La
tabla 4.5 rccoge los calculus de las tres comparaciones simples posiblcs en nucstro
cjemplo: las comparaciones entre tratamicnto cognitive-conductual (TCC) var-m tra-
tamiento farmacolégico, entre TCC versus tratamiento combinado y entre 108 mm-
mientos farmacolégico y combinado. En dicha tabla se han utilizado las férmulas
[4.13] y [4.14] para calcular cada comparacién y su varianza. Téngase en cuenta que
en el cailcuh) de las vaIianzas, a] set comparaciones simples, los pesos de pondera-
cién, c}, valen +1 y -1 y que, a] ir estos elevados al cuadrado, equivalen a sumar las
varianzas de los dos efectos medics implicados en cada comparacién.
Tabla 4.5. Céloulo de las comparaciones simples y sus varianzas.
Comparacién V}: = zed? 5'2(W:)= 202 5'33?)

. ..
f ”S. _
TCC w1=1,572—0,686=0,886 &1(w,)=o,0128+o,ooso=o,m7s
TCC “‘1
combmado
v7: = LTD-1.531 = 0,041 arm;2) = o,o123+ 0,0294 = 0,0422
Farmac. vs. . ..1 .
0 bin 1 V3 = 0,686 — 1:531 = 41,845 0' (W3) = 0,0050 + 0,0294 = 0,0344
TCC: terapia cogllitivo-conducmfl. Farmac; ttatamiento farmacolégico.
El método dc Bonfemni de comparaciones a posteflori implica ajustar e1 nivel

de significacic’m mediante a4, = a: / L = 0,0513 = 0,0167, donde L es el nfimero dc
comparaciones (L = 3 en nuestro ejemplo). For tanto, para poder rechazar la hipétesis
nula de igualdad de los dos efectos medics objeto dc comparacién, asumiendo 1m
nivel dc significacibn nominal de 0,05, el nivel de probabilidad, p, asociado a1
resultado del estadistico dc contraste Chi-cuadrado dc Pearson con un grade de
libertad tiene que ser igual o inferior a 0,0167. La tabla 4.6 ofrece los resultados dc
Capitulo 4. Analisls de moderadores cuallhtlvos 107
estos contrastes en su penfiltima columna. Pnede observarse que se obtienen

diferencias estadisticamente significativas entre el tratamiento cognitive-conductual y
el IIatamiento farmaoolégico, y cull-e e1 tratamjento combinado y el fannacolégico,
pero no 135 hay entre el cognifivo—oonductual y el combinado.
Tabla 4.6. Rasultados de las comparaciones mflltiplas a postedon‘.

Compara- 02(WI)
X 2 - 9:2 l6' Método Bonferroni Método de Schqfi‘é
cién (agi=aJL=0,05l3=0,0167) L’=m—1=3—1=2
me m X} = 0,8862 l0,0178 = X30) = 44,101 xi (2) = 44,101
farmac. =44,101 (P<0,0001) (P<0.0001)
me vs, x: = 0341210342 = x; (1) = 0,040 X3(2) = 0,040
comb. = 0,040 (p = 0,841) (p = 0,980)
Fan vs. X32 = (—0345):I i 0,0344 = X; (l) = 20,757 X: (2) = 20,757
comb. = 20,75? ( p < 0,0001) (p < 0,0001)
TCC: terapia cogniflvo-conductual. Farms; tratamiento farmacolégico. Comb.:
tratamiento combinado. L: nfimero de compmciones.
Si en lugar de aplicar e1 método dc Bonfenoni decidimos utilizar el de Scheffé,

el primer paso que hay que dar consists en detenninar 10s grades dc libertad dc]
cstadistico Chi-cuadrado dc Pearson bajo la hipétesis nula dc igualdad dc efectos
medias. Siendo L’ dichos grados de libertad, estos se definen como la manor cantidad
de entre L (cl nfimero dc comparaciones, que son 3 e11 nuestro ejemplo) y m — l = 3 —
l = 2 (siendo m cl nfimero dc categorias de la variable moderadora). En nuesn'o
ejemplo, L’ = 2. El paso siguiente consiste en obtcner e1 nivel critico dc probabilidad
asociado a1 resultado de cada estadistico de contraste y compararlo con el nivel de
significacibn nominal establecido (e.g., a. = 0,05). En la filtima columna de la tabla
4.6 aparecen los valores dep asociados a este procedimiento.
Para finalizar cl ejemplo hemos reproducido en la figura 4.2 cl forest plot que
nos permite construir el programa R e v 5.2 (Review Manager, 2008). Ademés de
los efectos individualm de los esmdios (con sus intervalos dc confianza), en él puede
apreciarse para cada tipo de tratamjento el efecto medic con su intervalo dc confianza
y su prueba de significacién, asi como la prueba dc homogeneidad inn-acategoria. En
la filtima linea dc] gréfico sc incluye cl resultado de la prueba Q? dc homogeneidad
intcrcaxegurias, cuyo valor es muy similar (salvo diferencias par redondeo) con el ob-
tenido por nosotros mediante célculo manual.
103 Mew-anélisis en Clendas Soclala y de la Salud
Figura 4.2. Forestplofde Ins tamafios del efecto agrupados en funcibn del tipo de tratamiento
asumiendo un modelo de EF.
ammonium» “Immune:
Mora-gm MIL-Imam sew-m max-mama mmogmcl
11.1 Tupi: cum-comm
Emdln n1 3.233 0.4518 3.3% 323 [235, 4.12] —I—.
Eiludio n2 3.0?8 M174 "L316 3.0:; [225, m] — ' —
Esludio 03 1.306 0.5108 4.9% 131 mm. 131] —
Esludio IH 1.88 0.3191 12.815 m [12: 151] — ' —
Eahndlo 05 1.075 0.2837 15.9% 1.07 [052 1.63] —.—
Esludlo no 0.916 0.3235 11.9% 0.92 [1:27. 1.66] — ' —
Esludlo fl? 1.27 0.7593 22% 1.27 [42; 2.76]

Esludlo 08 0.687 0.2644 1&31: am [0.17, 1.21]
Esludlo 99 2.044 0.3356 11.4% 2.04 [1.39, 270]
Edudlo 10 3.482 0.5992 3.6% 3.43 [2.31. 4.93]
Ealudlo 11 0.942 0.4725 5.7% 034 [9-02. 1-57]
8mm [95% CI] ‘IIIIIME 1.57 [1.35. 1.19]
Hmmgamigcuf=fiflm,d=1o{Pcl}.W];l'=m
Taaromvacalmz-nmtnomn
12.2 Tatum. Far-1mm
Esludlo 12 1.619 0.3015 5.6% 1.62 [1.03. 2.21]
Eallldlo 13 0.618 0.4809 2.2% 0.62 [-0.32 1.56]
Ealudlo 14 0.223 0.2458 5.4% (:23 [4135. 0.71]
Esludlo 15 1.04 0.2258 9.9% 1.04 mm. 113]
Eslm‘llo 16 0.877 0.1448 24.1% am me. use]
Enludin 1? 1.” 0.3279 43% 1.01 mm, 1.55]
Esludio 18 0.47? 0.148? 22.8% 0.4a 51.19, um
Esludlo 19 0.8111 0.2798 6.4% um 5:25. 1.35]
Esludlo 20 0327 0.5775 1.5% 0.33 mm. us]
Esmulo 21 0R9 0.1573 14.4% use [022. 0.96]
5m [95% cu 100.0% w ['55. 033]
I-Iataloganalrui'=1fl.33.d=B(P=fl.02kF=53$
TedformaallefiatflfiBtPcOflDflM)
1.2.3 Tl‘dlln. HMO
Efludio 22 0.855 0.2587 43.9% (13531551361
Esludio 23 1.642 0.283? 36.5% 1-54 [1-09‘ 120]
Ealudlo 24 2.842 0.387? 19.6% 2'34 [2-05, 3.00]
SMI [96% CI} 100.0% 15311.19. 1.871
WMW=1B.4Z,G=Z(P=D.DM1}: F = m
Tedforovel'dldhct2=&93 (Pi 0.111101]
h..-
#5--
mound W W W ]
Capmflo 4. Analisls de moderadores cualllatlvos 109
4.3. Modelo de efectos mixtos

E1 modelo de EF que- acabamos dc presentar parte del supuestn de que todos los es-
tudios que perteneccn a una misma categoria de la variable moderadora estiman 1m
efecto paramétrico oomfin. Como ya vimos en el capitulo 3, este supuesto es muy res-
uictivo y dificilmentc se puede cumplir en la realidad, ya que implicaria que la varia-
ble moderadora objeto de anélisis es la finica que explica la heterogeneidad de los ta-
mafios del efecto individuales. La realidad suele ser mas compleja, de forma que es
mfis realism asumir que los tamafios del efecto individuales, Ti], que pertenecen a una
misma categoria de una variable moderadora no estiman un mismo efecm paramétrico
comfin a todos ellos, sine qua representan a una distribucién de efectos paramétricos
con media pg y varianza or; + r: , sicndo a; la varianza intrawmdio del iésimo estu-
dio de la categoria j de la variable moderadora, y 1:: 1a vafianza interestudios dentro
de esa categoria. El modelo esmdisticu subyacente a este escanario se denomina mo-
delo de EM porque la variable moderadora actfia como un factor de EF (un efecto por
cada categoria) y los cstudios constituycn un factor dc EA (Borenstcin er al., 2009).
A51, para la categoriaj de la variable moderadora cl modelo estadistico se puede for-
mular come Tij = pa]- + uij + eij, donde uij y eij representan los mores intraestudio e
interestudios, resPectivamente, y se consideran independicntes entre si. Para poder
hacer inferencias acerca del efecto paraméu‘ico medic, se asume, ademés, que dicha
distribucién sigue una Icy normal: Tij ~ N013; a; + rj ). A su vez, los tamafios del
cfccto paramétticos de la categoriaj, 0g, 56 distribuycn segl'm una Icy normal con me-
dia am y varianza interestudios z: .- a,- ~Nalq,‘ 1:). La figura 4.3 ilustra el mode-lo dc
EM para el caso més semillo de una variable moderadora con solo dos categorias.
Desde cl modelo dc EM, e1 anélisis dc si una variable moderadora cualitafiva
esté estadisticamente relacionada con los tamafios del efecto se lleva a cabo compa-
rando los efectos medics paramétricos de sus categorias, pg]- (Borenstein y Higgins,
2013; Hedges y Pigott, 2004; Raudenbush, 1994, 2009). En primer lugar, es precise
disponer de una estimacién del efecto media paraméh‘ico de cada categoria de la va-
riable moderadora. Para la categoria j del moderador, cl estimador del cfecto medic
paramétrico viene dado par
T“ 2%}; [416]
" =W '
siendo 137:" una estimacién del factor de ponderacién 6ptimo, definido como la in-
versa de la suma de la varianza intraestudio del TE, as, y una estimacién de la va-
110 Meta-anélisis en Glendas Soclales y de la Salud
rianza interestudios, ff: #54 =V(&; +612). La varianza (161 TE medio de cada
categoria se define come
1. [4.17]
5201?) =
2%?"
Figura 4.3. Representacién gréfica del modelo de EM para una variable moderadora con solo dos
catagorias. Los valnres 1;], Tu: ,, ,, 1%., ,. ,, 1112 rapresentan esfimaciones del TE obtenidas an
Ins estudlos primaries, agrupadas an funclfin da la catagnria da panenencia. Los efectos parama-
trioos medias de cada cahegoria se representan por 14.1 y [192.
Wriable modsradora
cualitativa
Categoria 1 Categoria 2
Q1”N(flq;fia) 62w N04913:)
Muestreo aleatorio de efectos - Muestreo aleatorio dc efectos
all - @ m
Muestreo aleatorio de Mucstrcu alcaturio dc
individuos individuos
Estudio 1 Estudio 2 G ) Estudio k] Estudio 1 Estudio 2 G D Esmdio k2

J1“11 T21 1111' Ti: E2 3x2
A partir de las férmulas [4.16] yr [4.17] as posible construir un intervalo dc

confianza en torno al TE medio de cada categoria asumiendo una dishibucién normal:
Ta]m i zl l-aa'zl «ii-T“ 6025‘) = T“I

115‘ +Izl-ml '- & [4.18]
( 0 } ) ={ (£?)=Tmf
1:? _ Izl—alfiz
siendo 21m la punmacién de la distribucién normal tipificada correspondiente 3.1 per-

centil (1 — a! 2), asumiendo unnivel de confianza (1 — a) - 100%.
Esta intervalo dc confianza permits contrastar la hipétesis nula de que el efecto
medic paramétrico de la catcgoria j es nulo: Ho: pa = 0, comprobando si e1 valor 0 se
encuentra dentm o fuera de los limites confidenciales. Esta hipétesis también se puede
contrastar con el wtadistico:
[4.19]
Una vez que disponemos de 105 tamafios del efecto medias de cada categoria y
de sus varianzas (férmulas [4.16] y [417]), es posible contrastar la hipétesis nula de
que los efectos medics paraméu'icos de las m categofias son homogéneos, es decir,
Ho 1,11% = pa: = = F‘o. , mediantxe e1 estadistico Qf" (Borenstein et (11., 2009):
{5" —T.54Y
#l3-1‘
1 :
[4-201
donde wf" representa la suma de los pesos de ponderacién de los tamafios dcl efecto
individuales conespondientes a la categoriaj:
1:
WE: = gwf" [4.21]
El tén‘nino 1:“ rcprcscnta cl cfecto media cstimado tomando todos los tamafios
del efecto, independientemente de la categoria a la que pertenecen:
Eli—22w“ T
[4.22]
Z—‘w‘
El estadistico Qf“ definido en [4.20] represent: 13. suma dc cuadrados intergru-
pos ponderada. Bajo la hipétesis nula de que todas las categorias de la variable mode-
mdora tienen el mismo efecto media paramétrico, e1 estadistico Q“ 3e distribuye se-
gl'm Chi-cuadrado dc Pearson con m - l grades (1: libertad, siendo 2:: e1 nfimem dc ca-
tegorias dc dicha variable moderadora. En consecuencia, se podré rechazar dicha
112 Meia-anélisis en Clendas Soclales y de la Salud
hipfitesis si e] valor p asociado a1 multado del estadistico Q? as inferior al nivel de

significacién; es decir, sip s a.
Obsérvese e1 estrecho paralelismo entre el ANOVA de BF y el de EM. Las fér-
mulas [4.1] a [4.7] del modelo dc EF 56 coneslaonden conclafivamcnte con las
férmulas [4.16] a [4.22] en el modelo dc EM. La finica diferencia entre las ecuaciones
de um y otro modelo esté en el factor dc ponderacién: mientras que en el modelo dc
EF este se define como la inversa de la varianza intraestudio de cada TE
(fir? = 1/61"; ), en el modelo dc EM cl factor dc ponderacién es la inverse. de la suma
de las varianzas intraestudio e interestudios [ W = 1/(6'; + 6%)].
Para comprobar si dentm de cada categoria del moderador existe todavia hete-
rogeneidad por explicar se utilizan los mismos estadisticos dc contrasts intracategoria
definidos en [4.8] y [4.10]. La fémmla 4.8 pemlite comprobar 1a homogeneidad de los
tamafios del efecto dentro de cada categoria, mientras que [4.10] permite comrastar 1a
homogencidad global intracategofia, dcl mismo mode que se descfibié para el modelo
dc EF. Por tanto, e] contrasts de la especificacién dcl modelo se hace con las mismas
férmulas en los dos modelos estadisticos aqui considerados. Remitimos a1 lector a las
férmulas [4.8] a [4.10] para no repetirlas aqui de nuevo.
En el modelo de EM nos queda todavia per aclarar cfimo estimar la varianzn
inter-esmdios de cada categoria, 1'}. Es esta una cuestién importante, ya que esta
estimacién interviene en el czilculo de los factorw de ponderacién de cada TE. Dado
que tenemos una variable moderadora con m categorias, caben dos opciones. Una
consiste en estimar cada una de las varianzas interestudios por separado, utilizando
los tamafios del efecto de su propia categoria. La otra opcién es obtener una estima-
cién conjunta (promediada) de las m varianzas interestudios estimadas (Borenstein et
(11., 2009). La primera opcién es aconsejable cuando las varianzas interestudios de las
categorias del moderador son heterogéneas, pero tiene el inconveniente de que tales
estimaciones son muy inestables cuando e1 nfimero de esmdios es pequefio, coma
suele ocurrir cuando se analiza el influjo de una variable moderadora cualitativa Ine-
diantc un ANOVA. La segunda opcién es preferible a la primera cuando cl nfimero dc
estudios por categoria es pequefio, pero si [as varianzas inter-estudios de las cate-
gorias son muy heterogéneas, puede afectar alas estimaciones del resto de parémetros
del ANOVA y no seria una buena solucién. No existe acmalmente un consenso sabre
cuél de estas dos altemativas es preferible. Por e110 a continuacién presentamos
ambas.
4.3.1. Estimacién sepamda de las vafianzas interestudios
La primera opcién que vamos a considerar consists en utilizar en los factorw de pon-
deracién de 105 tamafios del efecto 1a varianza interestudios estimada desde cada cate-
goria del moderador par separado. De esta forma tendremos que calcular las varianzas
interestudios £12 , f: , ..., £13,. Siendo ff. 1a vafianza interestudios de la categoriaj, e1
método de los mementos nos permite calcularla mediante la férmula dc DerSimonian
y Laird (1986)
$1. =W
J C}
[4.23]
donde k,- es el nfimeto de estudios de la categoriaj y i es el estadistico dc hete-

rogeneidad intmcategoria de la categm'iaj, que quedé definido en la férmula [4.8]; cl
valor de a; se calcula mediante
. 2W
c, £1w _::—w” [4.24]
Obsérvese cémo en el modelo de ANOVA de EM se utilizan los factores de

ponderacién de EA, 195‘ , y de EF, if? , dependiendo del célculo que se realice. 0b-
sérvese también que el estimador de la varianza interestudios definido en [4.23] coin-
cide con 61 prescntado en [3.12] del capitulo anterior; asi mismo, la férmula [4.24]
coincide con [3.14]. La finica diferencia entre ambas aplicaciones de la férmula de
esfimacifin de la vaflanza interesmdios es que en el modelo de ANOVA es precise
aplicar dichas férmulas tantas vecw coma categorias tenga la variable moderadora.
4.3.2. Estimacién conjunta de las varianzas intereswdios
La segunda opcién para calcular 1a varianza interestudios que debemus poner en la

fdrmula del factor dc pondcracién dc EA, if , consiste en obtener un promedio de
las varianzas interestudios de [as m categorias. Para efectuar este célculo primero te-
nemos que disponer de las vafianzas interesmdios de las categorias del umderador,
if , if , ..., f: , mediante [as fémtulas [4.8] y [4.24]. A confinuacién obtenemos un
promedio de estas mediante (Borenstein et al., 2009)
i9“:‘20” ‘1)
If = j m j [4.25]
2";
J
114 Meia-anélisis en CIenclas Soclalas y de la Salud
4.3.3. Ejemplo del modeler de efectos mixtos
Con objeto de poder comparar los resultados del ANOVA de EF con los del ANOVA
dc EM, vamos a reanalizar los datos del MA presentado en el epigrafc 4.2.1. En este
MA 53 comparaban los tamafios del efecto obtenidos en 11 estudios que aplicaron te-
rapia cognitive-conductual, 10 estudios que administraron tratamiento farmacolégico
y 3 estudios qua combinaron ambos tratanfientos en nifios y adolescentes con Imstor—
no obsesivo—compulsivo (Sénchez-Mcca et at, 2014).
Tabla 4.7. Valores de los factores de ponderacion de EF y de estos factores

elevados al cuadrado, neuesarios para calcular los valom c}.
Tramienw 1?? (13!? )2
Terapia cognitive-conductual:
Estudio 1 4,8996 24,0057
Estudio 2 5,7405 32,9537
Estudio 3 3,8329 14,6910
Estudio 4 9,8232 96,4949
Estudio 5 12,4224 154,3150
Estudio 6 9,2678 85,8929
Estudio 7 1,7343 3,0078
Estudio 8 14,3062 204,6660
Estudio 9 8,8810 78,8721
Estudio 10 2,7847 7,7548
Estudio 11 4,4783 20,0550
Subtotales 78,171 722,7088
Tratanfiento farmacolégico:
Estudio 12 11,0011 121,0242
Estudio 13 4,3234 18,6917
Estudio 14 16,5563 274,1108
Estudio 15 19,6078 384.4675
Estudio 16 47,8469 2289,3249
Estudio 17 9,3023 86,5333
Estudio 18 45,2489 2047,4601
Estudio 19 12,7714 163,1085
Estudio 20 2,9985 8,9910
Estudio 21 28,4900 81 1,6817
Subtotales 198,147 6205,3936
Tratamiento combinado:
Estudio 22 14,9477 2233,4332
Estudio 23 12,4224 154,3150
Estudio 24 6,6533 44,2672
Subtomles 34,023 422,0155
Totales 310,341 7350,118
La primera decisién que el meta-analista debs adoptar para examinar e1 influjo

de esta variable moderadora sobre los TEs desde el modelo de ANOVA dc EM as si
va a utilizar estimaciones separadas de las varianzas interestudjos de cada categoria
(can [423]) 0 mm estimacién conjunta de todas ellas (con [425]). Con propésitos
ilustrativos vamos a realizar los célculos de las dos faunas. La primera opcién que
vamos a abordar es la quc se basa en estimaciones scparadas de las varianzas interes-
tudios. El primer paso en los célculos estadisticos consiste en obtener estimaciones de
las varianzas interestudios, i f . Para e110, aplicamos la férmula [4.23], que implica
conocer los valores de los utadisticos dc homogeneidad intracategoria, i, y los va-
lores de cj. Los estadisticos QW- ya fileron calculados a1 resolver este mismo ejemplo
dude e1 modelo de EF y figuran en la tabla 4.4. Para obtener los valores c; aplicamos
[4.24], para la cual nacesitamos los pesos de ponderacién de EF, 12:? , y sus cuadra-
dos, (12;? )2 . Estes valores se recogen en la tabla 4.7.
Una vez disponemos de los valores if y (13;?)2, calculamos los valoms c1
para cada categoria de la variable moderadora aplicando 1a férmula [4.24]. La tabla
4.8 resume los cilculos e inctuye los valores de los estadisticos de homogeneidad
intracategoria, {2“,}, ya calculados previamente.
Tabla 4.8. Resumen de Ios célculos de los valores q.
Trammienta 13,- Q,.,- (:1 = 2‘9? ”2%? )2 1 ' w

i l' i
TCC 1] 60,04 Cl = 78,171 — 722,7088/73,171 = 68,9258

Fannac. 10 19,33 Cg = 198,147 — 6205,3936!198,147 = 1660,8299
Combinado 3 13,42 C3 = 34,023 — 422,0159/34,023 = 21,6192
TCC: terapia cognifivo-conducuml. Famine; tratamiento farmacolégico.
Les varianzas interestudios de cada categoria de la variable moderadora, if , se

obtienen aplicando la férmula [4.23]. La tabla 4.9 resume estos célculos.
Tabla 4.9. Célculo de las varianzas Intarestudios de cada camgorla da la variable maderadora.
Trafa— ..
mien” 1 Qua! 9; r: = [Q1 ‘0‘; ‘91”;
m: 11 60,04 68,9258 ff =[60.04—(11—1)]I68,9258=0.7260
Farmac. 10 19,33 166,8299 f: =[19,33—(10—1)]/166,8299=0,0619
Combinado 3 18,42 21,6192 ff = [18,42—(3—l)]/ 21,6192 = 0,7595
TCC: terapia cognitive-communal. Falmacs tratamienln farmaoolégioo.

116 Meta-anélisis en Clendas Soclales y de la Salud
Una vez que tenemos las estimaciones de las varianzas interesmdios, el siguiente
paso consiste e11 calcular los pesos de ponderacién, fif‘, para cada TE, mediante la
fémrula 132;” = ma; + f j ) . Los calculus se- resmnen en la tabla 4.10. Obsérvese
cémo para cada categoria e1 factor de ponderacién se calcula con su correspondiente
varianza interesmdios.
Tabla 4.10. Resumen de los calculus de Ios factoras da ponderaoibn para el modalo de EM
utilizando astimaciones saparadas de la varianza interastudios.
Tratamienta di- 5'; f; {if fifdfi

Tempia cognitive-
conductual:
Estudio 1 3,233 0,2041 0,7260 1,0752 3,4761
Estudio 2 3,076 0,1742 0,7260 1,1109 3,4171
Estudio 3 1,306 0,2609 0,7260 1,0133 1,3233
Estudio 4 1,880 0,1018 0,7260 1,2080 2,271 l
Estudio 5 1,075 0,0805 0,7260 1,2399 1,3329
Estudio 6 0,916 0,1079 0,7260 1,1992 1,0985
Estudio 7 1,270 0,5766 0,7260 ,7677 ,9‘750
Estudio 8 0,687 0,0699 0,7260 1,2564 .8632
Estudio 9 2,044 0,1126 0,7260 1,1925 2,4374
Estudio 10 3,482 0,3591 0,7260 ,9216 3,2089
Estudio 11 0,942 0,2233 0,7260 1,0534 ,9923
Subtotalcs 12,0380 21,3956

Farmacolégico:
Estudio 12 1,619 0,0909 0,0619 6,5445 10,5955
Estudio 13 0,618 0,2313 0,0619 3,4106 2,1078
Estudio 14 0,226 0,0604 0,0619 8,1766 1,8479
Estudio 15 1,040 0,0510 0,0619 8,8574 9,21 17
Estudio 16 0,677 0,0209 0,0619 12,0773 8,1763
Estudio 17 1,009 0,1046 0,0619 5,9032 5,9563
Estudio 18 0,47? 0,0221 0,0619 1 1,9048 5,6786
Estudio 19 0,801 0,0783 0,0619 7,1327 5,7133
Estudio 20 0,327 0,3335 0,0619 2,529] ,8270
Estudio 21 0,5 89 0,0351 0,0619 10,3093 6,0722
Subtotales 76,8454 56,1866

Combinado:
Estudio 22 0,855 0,0669 0,7595 1,2101 1,0346
Estudio 23 1,642 0,0805 0,7505 1,1905 1,9548
Estudio 24 2,842 0,1503 0,7505 1,0991 3,1238

Totales 92,3331 83,6953
El siguiente paso consist: en calcular [as tamafios del efecto medias de cada ca-
tegoria, sus varianzas y sus intervalos de confianza. El efecto medio de cada categoria
se calcula mediante [4.16], la varianza de cada efecto media mediante [4.17] y e] in-
tervalo de confianza mediante [4.18]. Partiendo de los datos recogidos en la tabla
4.10, wto: calculus se resmnen en la tabla 4.11.
La terapia cognifivo—conductual y el tratamiento combinado presentan efectos
medias de alta magnitud (1,777 y 1,747, respectivamente), mientras que el trata-
miento farmacolégico obtuvo un efecto medio de magnitud inferior (0,731), si bien
las tres modalidades dc Iratamiento obtuvieron intervalos de confianza en team a sus
efecms medias estadisticmnente significativos (ninguno de ellos contiene e] valor ce-
ro). Con propésitos ilustrativos, 1a tabla 4.11 también presenta cl efecto medic global
agregando todos los tamafios del efecto, que también resulté de elevada magnitud y
wadisticamente significativo.
Tabla 4.11. Célculo de Ios efectos medias de cada categorla de la variable moderadora y de
sus intervalos de oonfianza.
Trara-
miem k] d”m or«2 (du.
EA
) .-
d3 :l:1,96 .awfi‘
TCC 11 21.395611 2,0380 = 1,777 1f 1 2,0381 = 0.0831 1,212; 2,342
Farm. 10 56,1866f76,8454 = 0,731 1176,8454 = 0,0130 0,508; 0,954
Combimdo 3 6,113 113,499? = 1,747 13,4997 = 0,285? 0,699; 2,795
Total 24 83,6953l92,3831 = 0,906 1192,3831 = 0,0108 0,?02; 1,110
TCC: terapia cognitive-continual. Farmac.: u'atamiento fammcolégico.
La significacién estadistica de cada efecto medic se puede establecer con-

irastando la hipétesis nula de que el efecto en la poblacién de su categoria es nulo, Ho:
pa; = 0, con el estadistico z definido en [4.19]. La tabla 4.12 recoge cstos resultados,
dondc se aprecia 1a significacién estadistica alcanzada por los tres efectos medias.
Tabla 4.12. Contrasts de la significacién esmdisfln del efecta media da mda

catagoria de la variable moderadora.
Tratamienta Ig- tiff &(d5‘) 2 p
TCC 11 1,777 0,288 6,17 < 0,00001
Farm. 10 0,731 0,114 6,41 < 0,00001
Combinado 3 1 ,747 0,535 3,27 0,0005
Total 24 0,906 0,104 3,71 < 0,00001
TCC: tempia cognitivo-conductual. Farmac.: tratamiento farmacolégico.
Para conuastar 1a hipétesis nula de que 103 was efectos paramétricos son homo-
géneos, Ho: pa] = pm = p.193, aplicamos e1 estadistico de contraste definido en [4.20]:
Qf‘: w;(df‘— df‘)’: W (1,777 — 0.9045)2 +
(0 131—0306): + (1,747 — 0,906): = 13,96

+ 0 ,0130 0,2857
Bajo la hipétesis nula dc igualdad dc efectos paraméu‘icos, cl estadistico Q“ se

distribuye segfin Chi—cuadrado de Pearson con m— l = 3 — l = 2 grades de libertad. El
valor Q“ = 13,96 se corresponde con un nivel critico dc probabilidad p = 0,0009.
Par tanto, para m1 nivel de significacién 0,05, podemos rechazar 1a hipétesis nula y
concluir que los efectos medias de los tres tipos de tratamiento son significativamente
diferentes enu'e si.
Si esta variable moderadora fuera la finica responsable de la variabilidad de los
tamafios del efecto, entonces las pruebas de homogeneidad intracategoria deberian
alcanzar un resultado estadisticamentc no significativo. Para hacer esta comprobacién
hay que aplicar [4.8] a los datos de cada una de las categorias de la variable mode-
radora. Estes célculos ya se realizaron a1 aplicar el modelo de ANOVA dc EF, por lo
que remitimos al lector a los resultados presentados en la tabla 4.4.
Del mismo mode que en el mode-lo de ANOVA dc EF hemos aplicado
procedimientos de comparacionw a postefiori para comprobar entm qué efectos me-
dios existian diferencias significativas, asi también podemos realizaI este tipo de com-
paraciones desde el modelo dc EM. Las férmulas [4.12] a [4.15] que se presentaron
en el marco del modelo de ANOVA de EF pueden perfectmnente aplicarse con este
propésito dentro de un modelo de ANOVA dc EM, con la {mica salvedad de que los
efectos medias de cada categoria, y sus respectivas varianzas, se calculan asumiendo
un mode-lo de EA, en lugar de un modelo de EF. Asi, las ecuaciones [4.13] y [4.14] se
convierten para este ejemplo en las siguientes:
v? = cldj" + (:s + + cjdfif‘ + + cmdf: = cdflf' [4—25]

j
&2(d§‘)+...+cj&2(dfi‘)+...+c:ar (df: =
&2(y7)= c l “ 2(.s1.',‘f‘)+c§ar
=2 wi
[4.27]
quedando lus cfectos medias, d3 , y las vafianzas, 6-2013), de cada catcgoria defi-
nidos por las férmulas [4.16] y [4.17], respectivamente. La tabla 4.13 resume los cél-
culos de estos estadisticos.
Cap 4. Mllsls de moderadores cualllatlvos 119
Tabla 4.13. Cdlculo de Ias comparaciones simples y sus varianzas.

.. EA “ 2 m
Comparacién W.- = gold“, F197,) = :0!VOL! )
Tgcmmm 591=1,777—0,731=1,046 é’w.)=0.0831+0,0130=0:0951

Tag 0 $72 =1,777 — 1,747 = 0,030 amaz) = 0,0331+ 0,2357 = 0,3688
Farmac.vs. A =0,731—1,7 47=— 015 «2 . = =
Combinado “’3 L 0 (W3) 0,0130 + 0,2357 0,2937
TCC: berapia cognitive-comma]. Fatima: tratamienm fammacolégico.
Si decidimos aph'car el método de Bonferroni de comparaciones a postenbri, cal-

culamos primero cl nivel de significacién ajustado: an, = 05/1. = 0,053 = 0,0167, don-
de L es el m’tmero dc comparaciones (L = 3 en nuestro ejemplo). El paso siguiente
consists en aplicar la férmula [4.15] a los datos de la tabla 4.13, para obtener el re-
sultado del estadistico dc connaste para cada comparacién. La tabla 4.14 presenta es-
tos calculus. Puede observarse que se obtienen diferencias estadisticamente signifi-
cativas solo para la comparacién 611116 TCC y tratamiento fannacolégico.
Tabla 4.14. Método Bonferroni de oomparaciones a postedori.

_ 2 _ .. 2 .. Mérodo Bonfmni
CW” “’6” X’ ' V” l m") a,,- = all. = 0,053 = 0,0167
fl
TCC vs.
. X12 = 1,0462 l0,0961=11,385 X,2 (1) =11,385, p = .0007
TCC vs.
comb. 1 X22 = 0,0302 [0,3688 = 0,002 X12 (1) = 0,002, p = .9643
Summing: X32=(-1,016)1f0,2987=3,456 X;(1)=3,455, p=_063o
TCC: terapia cognitive-conductual. Fatima; tmtamienm farmacolégico.
L: nfimero de comparaciones.
Si comparamo: lo: resultados de la tabla 4.14 con los obtenidos en la tabla 4.6
resultantes de aph'car e1 método de Bonferroni desde el modelo de EF 53 observan al-
gunas diferencias que merece la pena resaltar. Mientras que en el modelo de BF se
obmvieron difcrencias significativas entre TCC y tratamiento farmacolégico y entre
Uammiento farmacolégico y combinado, en el modelo de EM solo la primera
comparacién resulté estadisticamente significativa. Los resultados inferenciales desde
el modelo dc EM tienden a set més conservadores que los que se obtienen desde un
modclo dc EF, pucs sc reconocc una mayor vatiabilidad cntrc los efectos dc los estu-
dios individuales. Algunos contrastes que resultan estadisticamente significativos bajo
un modelo de EF dejan dc serlo cuando e1 ajuste se realiza bajo un modelo de EA.
120 Mew-anélisis en Clendas Soclala y de la Salud
A continuacién vamos a resolver de nuevo este ANOVA de EM utilizando una

estimacién conjlmta de la varianza interestudios. El primer paso consiste en calcular
un promedio de las varianzas interestudios de las tres catcgorias de la variable mode-
radora, ff , aplicando 1a fénnula [4.25]. La tabla 4.15 reproduce los calculus. Los va-
lores de los estadisticos Q” 3; (3- ya 36 calculator: anheriormentc, y se han reproducido
desde la tabla 4.9.
Tabla 4.15. Resumen de los célculos previos para la obtencifin

de la vaflanza interesludios promedio.
Tratamiento (h -l) QM: Cj
TCC 10 60,04 68,9258
Pal-mac. 9 19,33 1156,8299
Combinado 2 18,42 21,6192
Totales 21 97,79 257,3749
TCC: terapia cognitivo—condlwtual. Farmac.: tratamiento
farmacolégico.
Can los datos de la tabla 4.15 aplicamos la férmula [4.25] para obtener una esti-
macién conjunia de la varianza interestudios:
29w] _ 2 ( k j ‘1)
if: j mJ =97’79_21=0,2984
Z 257,3749
c;
j
Una vez que tenemos la estimacién conjunta de la varianza interestudios, el

siguicnte paso consists en calcular los pesos dc ponderacién, fir? , para cada TE, me-
diante la férmula 131:4 = 1 [(51% + if) . Los célculos se resume-n en la tabla 4.16. Ob-
sérvese cémo para todos los esmdios se emplea el mismo valor de varianza interestu-
dies.
A continuacién calculamos los tamafios del efecto medics de cada categofia, sus
varianzas y sus intervalos dc confianza mediante las férmulas [4.16], [4.17] y [4.18],
respectivamente. Estes célculos se resumen en la tabla 4.17.
Capitulo 4. Aralisls de moderadores cuallhtlvos 121
Tabla 4.16. Resumen de los calculus de los factores de ponderacién para el modelo de EM
ulil'mando esfimaciones separadas de la varianza interestudius.
flatamiento dfi 5'; ff W? Widdy

Terapia cognitive-
conductual:
Estudio 1 3,233 0,2041 0,2983 1,9902 6,4344
Esmdio 2 3,076 0,1742 0,2983 2,1161 6,5092
Estudio 3 1,306 0,2609 0,2983 1,7881 2,3352
Estudio 4 1,880 0,1018 0,2983 2,4990 4,6981
Estudio 5 1,075 0,0805 0,2983 2,6395 2,8375
Estudio 6 0,916 0,1079 0,2983 2,4615 2,2549
Estudio 7 1,270 0,5766 0,2983 1,1429 1,4515
Estudio 8 0,687 0,0699 0,2983 2,?155 1,8655
Estudio 9 2,044 0,1126 0,2983 2,4333 4,9737
Estudio 10 3,482 0,3591 0,2983 1,5210 5,2962
Estudio 11 0,942 0,2233 0,2983 1,9170 1,8058
Subtotales 23,2271 40,4667

Farmacolégico:
Esmdio 12 1,619 0,0909 0,2983 2,5690 4,1592
Estudio 13 0,618 0,2313 0,2983 1,8880 1,1668
Estudio 14 0,226 0,0604 0,2983 2,?874 ,6300
Estudio 15 1,040 0,0510 0,2983 2,3624 2,9769
Esmdio 16 0,677 0,0209 0,2983 3,1323 2,1205
Estudio 17 1,009 0,1075 0,2983 2,4639 2,4861
Estudio 18 0,477 0,0221 0,2983 3,1223 1,4885
Estudio 19 0,801 0,0783 0,2983 2,6549 2,1266
Estudio 20 0,327 0,3335 0,2983 1,5826 ,5175
Esmdio 21 0,589 0,0351 0,2983 2,9989 1,7663
Subtotales 26,0599 19,4384

Combinado:
Estudio 22 0,855 0,0669 0,2983 2,7378 2,3408
Estudio 23 1,642 0,0805 0,2983 2,6395 4,3341
Esmdio 24 2,842 0,1503 0,2983 2,2289 6,3344

Totales 56,8902 72,9096
Tabla 4.11 Célculo de los efectos medias de cada categoria de la variable moderadora y
de sus intervalos de confianza.
Tram-
mienta k5 d3 6'2 (do?! d5? :tl,96-a"-( 5‘)
TCC ll 403619233241 = 1,742 1f23,2241 = 0,0431 1,335; 2,149
Farmac. 10 19,4384!26,0599 = 0,746 1126,0599 = 0,0384 0,362; 1,130
Combin. 3 13309375062 = 1,710 15,6022 = 0,1315 0,999; 2,421
Total 24 723096563902 = 1,282 1515,3984 = 0,0176 1,022; 1,542
TCC: terapia cognitive-comma]. Farmac.: tratamiento farmacolégico. Combin.:
tratamiento combinado
Se observan efectos medics ligeramente diferentcs a los obtenidos cuando se uti-

lizaron varianzas interesmdios separadas para cada categoria (campfirense [as mblas
4.17 3! 4.11), Si bien sus magnitudes siguen siendo elevadas y los intervalos dc con-
fianza resultaron scr estadisticamente significativos, ya que el valor nulo no estfi con-
tenido en ninguno dc ellos. Apatte de la interpretacién de los intervalos dc confianza,
la significacién estadistica de cada efecto media se puede wtablecer contrastando para
cada categoria la hipétesis nula H): m; = 0 con el estadistico z definido an [4.19]. La
tabla 4.18 recoge estos resultados, donde se aprecia 1a significacién estadistica al-
canzada por los tres efectos medics.
Tabla 4.18. Contrasts de la significacién estadislica del efecto media da cada categoria
da la variable moderadora.
Tratamiento h (35" adj:) 2 P

TCC 11 1,742 0,208 8,375 < 0,0000]
Farmac. 10 0,746 0,196 3,806 0,0000?
Combinado 3 1,710 0,363 4,71 1 < 0,0000]
Total 24 1,282 0,133 9,639 < 0,0000]
TCC: tempia cog11itivo-conductual. Fannac.: Iratamiento farmacolégico.
Para contrastar la hipétesis nula de que los tres efectos paraméiricos medias son
homogéneos, Ho: #91 = pa; = mg, aplicamos el estadistico de contrasts definido en la
férmula [4.20]:
9:“ =iwfj(r.§‘
j=l
—T.“)’ =
1 l 1
0,04 31(1,742 4,232)“ + 84(0;?46-1382)2 + (1,710 — 1,282)’ =
0,03 0,1315
= 13,784
Bajo la hipétesis nula de igualdad dc efectos paramétricos, e1 estadistico QB“ 36

dism‘buyesegfinChi-cuadradodePeaIsonconm—1=3—l=Zgradosdelibertad.E1
Capitulo 4. Mlisls de moderadores cuallhtlvos 123
valor Qf‘ = 13,784 5e corresponds con un nivel critico dc probabilidad p = 0,0010.

Por tanto, para un nivel de significacién a = 0,05 podemos rechazar la hipétesis nula
y concluir que los efectos medics de los tres tipos dc tratamiento son significa-
tivamente diferentes enu‘e si. Obsérvese la similitud de este realltado con el obtenido
anterionnente a] resolver este mismo ejemplo tomando esfimaciones separadas de las
varianzas interesmdios.
Figura 4.4. Forest p10! de los tamafins del efecto agrupados en funcién del Iipo de
iratamiento asumiendo un models de EM.
Std. than Dlflmnu em. Mun Mar-m
Mammal) MID-Imam SE mum Mllmdomfi‘fifl MMUNU
1m Templ- Dogma-Goldman]
5mm 91 3233 04513 as» 323 [2.35, 4.12] —-—r
Emulonz 3.073 mm 9.2% 3.03 [223, ml —-—
Efludiofls ma 0.5103 ms 131 [030, 231] —-—
Enludioflll 133 0.3191 10.0% 13: [125, 251] —-—
Esludiofls mars 0253? 10.3% 1.07 mm 1.53] —-—
Esmalons 0.915 0.3235 10.01:. 0.92 5:27. 1.56] —-—
Esludlo at 1.27 0.7593 1145:. 1.27 [-022 2.7a] -—-—
Emulons 0.687 0.2644 10.4% 0.69m.17.1.21l —-—
Esmdlooa 2.044 0.3356 9.9% 2.04 [139. 2.701 —-—
Esludlo 10 3.432 0.5392 ms 3.45 12.31, 4.96] —H
Estudlo 11 0342 was ms 034 [0.02. 1.37] —-—
3mm {95-5 OI) 100.0% 1.15 [121.134] u.»
mm1u=amw=aumdr=1mp<omom P=331£
Tostformil m z = 5.17 (P 4 mean
tun-alum.W
Esludlo 12 1519 0.3015 we 1m mm 2.21] —-—
Eamulo 13 am 114309 4.4% m [4132. 1.56] -—-—
Esludlo14 0.225 02453 10.6% 0.23 [am l.‘.'1] ---
Ealudlo15 1.04 02255 11.51:. 1.04 [0.00, ml —-—
Eamdlo16 am mus 15.715 ass was, 0.93] '-'
Esludlo 17 1.009 0.3279 ms 1.01 [037. 1.35] —-—
Enludln18 0.417 0.1437 15.5% ma [0.19, 0.77] --
Emilie-19 mac-1 02793 9.31:. am ms, 1.35] —-—
Emma 0327 mans 13% 0.33 [-m, 115] —-—
Esludlo 21 0539 0.1373 1345:. use [0.22. 0.95] --
smoul [95% cu 100.0% m. [0.51. 0.95] O
WMTHF=QEfiW=19fidI=NP=ILOZE F=5396
Testforovotallmctbsfl {P‘flWl
13.3 Trdlm. um
Emulozz 0355 02537 was 0353135, 1.351 -I-
Emuiozs 1.642 02537 34.0% 1m [1m 120] —I-
Efludio 24 2342 0.3377 31.4% 234 pm, m] —-—
3mm [95% on 100.0% m [0.70.119] « . -
aalmTaP-QTB;WI18AZ dl-2{P-II.0.'I31]: P - M
Tadformdlmt-SHIP-OM]
L-—
45--
5:.--
-2 u
Favours cum F mm m
124 Mew-anélisis en Clendas Soclales y de la Salud
Finalmente, a efectos ilustrativos se pmenta en la figuta 4.4 el forest plot que

proporciona e1 program RevMan 5.2 (Review Manager, 2008) para :1 ANOVA dc
EM que compara los tres tipos de tmtamiento utilizando estimaciones separadas de las
varianzas interestudios. Obsérvwe cémo los resultados de este forest plot coinciden
con los presentados en las tablas 4.9, 4.11 y 4.12.
4.4. Estimacién de la proporcién de varianza explicada

E1 wtadistico Q3 2 nos informa dc si existen diferencias estadisticamente signi-
ficativas entre los tamafios del efecto medias de ma variable moderadora, pero no
informa de la magnitud de la relacién entre dicho moderador y los tamafios del efecto.
Se hace precise, pues, complementar los resfltados del ANOVA mu m estimacién
de la proporcién de la varianza total de los tamafios del efecto que es explicada par la
variable moderadora en cuestién. En los modelos dc ANOVA que se aplican tipi-
camente en los estudios primaries, el indice estadistico que 56 511616 utilizar para este
propésito sc basa en comparar la suma dc cuadrados total con la suma dc cuadrados
intergmpos. Una extensién directa de esta idea a1 émbito del MA consistiria en cal-
cular e1 valor de R2, defim‘do este como el cociente entre la suma dc cuadrados inter-
categorias ponderada, que vendria dada por el estadistico Q3 (definido en las férmulas
[4.5] y [420]) y la suma dc cuadrados total ponderada, que vendria dada por el es-
tadistico Q definido en la férmula [4.11] (o también en [3.13]). Aunque e1 estadistico
R2 = 93/9 podria ser un candidate para estimar 1a proporcién de varianza explicada
per una variable moderadora, no es anonscjable aplicar cstc indicc an MA. E110 se
debe a que en la suma de cuadrados total ponderada, Q, se incluye tanto la valia-
bilidad intraestudio como la variabilidad interesmdios. En MA la variabilidad que Lma
variable moderadora puede explicar es solo la variabilidad interesmdios, no pudiendo
serlo la intraestudio. En consecuencia, el cstadistico R2 infraestima la verdadera
proporcién de varianza explicada que una variable moderadora puede ser capaz dc
explicar (Borenstein er a!” 2009; Rwdenbush, 2009).
Por esa razén se ha propucsto cl use dc otro indice dc proporcién de la vafianza
explicada mas acorde con las caracteristicas del modelo estadistico asumido en MA.
En concrete, Raudenbush (1994, 2009) propuso un indice de proporcién de varianza
explicada basado en la comparacién entre la varianza interestudios total, es decir, la
que exhiben Ios tamafios dc] efecto cuando no se ha puesto a prueba e1 influjo dc
ninguna variable moderadora, y la varianza interestudios residual, que me la que queda
todavia por explicar una vez examinado el influjo del moderation Para no confimdir
zCm:u:ltx‘.:m:ni1moQantasestanmsrefirimntlo«:nesteapartadotamtoalmstaandizztico QB” coma: Qf“.

Capitulo 4. Analisls de moderadores cuallhtlvos 125
este estadistico con R2 adeptamos aqui el ténnino Rim propuesto por Aloe, Becker y
Pigott (2010). La fbrmula para su célculo viene dada por (Raudenbush, 1994, 2009)
A1 *2 “2
2 _ 2' _T+ _ 7+
Rum - - ‘72
.—2
7: T
[4'28]
siendo 1r”2 una estimacién de la varianza interestudios total, as decir, la variabilidad

interestudios exhibida por los tamafios del efecto cuando todavia no se ha puwto a
pmeba e1 influjo de njnguna variable moderadora. En el capitulo 3 presentamos un
estimador de esta fuente de variacién basado en el método de los mementos y defi-
nido en la férmula [3.12]. Par 511 parte, if es una estimacién de la varianza interestu-
dies residual, es decir, la variabilidad interesmdios que todavia queda por explicar una
vcz examinado el influjo de la variable moderadora. En este capitulo la férmula [4.25]
presenm 1m estimador de esta fuente de variabilidad también basado en el método de
los mementos (Borenstein et (11., 2009). Téngase en cuenta que el célculo dc Rim
implica asumir um estimacién conjunta de las varianzas interestudios de las
diferentes categories de la variable moderadom. El estadistico Rim a una pro-
porcién dc varianza explicada y, como tal, e1 tango natural de valores posibles va de 0
a 1. No obstante, debido a error de muesu‘eo es posible obtener valores dc Rim ne-
gatives, en cuyo case se igualan a 0. Ademés, si 1"“: = 0 entonces no es posible cal-
cular Rim‘
Con propésitos iluslrativos vamos a calcular la pmporcién de vafianza explicada
por la variable moderadora “tipo de tratamiento” en cl MA sobre la eficacia dc 105 Im-
tamientos psicolégicos y farmacolégicos del trastomo obsesivo—compulsivo en nifios
y adolwcentw. Los dos dates que necesitamos para poder calcular Rim son las va-
rianzas interestudios total y residual, f 2 y i f . La varianza interestudios residual ya so
calculé en el epigrafe 4.3.3 de este capitulo y alcanzé e1 valor if =0,2934 (véase la
tabla 4.16). La varianza interestudios total 86 puede estimar mediante 1a férmula
[3.12]: f1 = w , siendo k = 24 cl nfimero total dc estudios dc] MA, Q es 61
c
estadistico dc heterogeneidad, que sc puedc calcular a partir de la fénmfla [4.11]: Q =
Q? + QW= 54,87 + 97,79 = 152,66. Obsérvese quc Q; = 54,87 Vienc dc aplicar [4.5],
es decir, es la suma de cuadrados mtercategofias ponderada asumiendo un modelo de
EF (véase su célculo en el epigrafe 4.2 de este capitulo). El estadistico QW = 97,79 es
la sums, de cuadrados inhacategoria ponderada, que se Obtiene aplicando 1a férmula
[4.10] (véase 1a tabla 4.4). El valor c quedé definido en [3.14] en el capitulo 3, mm
férmula que, adaptada a1 contexto de un ANOVA, quedaria de la siguiente forma:
.3? fig”):
22 g—gw
En la filtima linen de la tabla 4.7 tenemos los valores 2 2 W =310’341 y
i I
r c as
22(13p = 7350,118 - Por tauto, el valo
i J
2W”)z
222
y
—=310,341—3fl”—8=236,657
310,341
c: 5?”? 2‘, w
De esta forum, la varianza interestudios total es
‘2 = Q—(k—l) _152,66—(24—1)
- = 0,4523
c 286,657
Y la proporcién dc vmianza explicada es
n2
12;,” =1—’—+ =1— 03984 = 0,340
f2 0,4523
Asi, cl tipo de tratamiento explicé en estc MA 61 34% de la variabilidad interw-

tudios de los tamafios dcl efacto. Si podemos considerar que un 25% ya supone un
porcentaje de varianza explicada elevado para un solo moderador (Cohen, 1988), po-
driamos afirmar que el tipo de lratamiento aplicado a los sujetos con este trastorno es
una variable muy relevante a la hora dc explicar la variabilidad en los resultados de
eficacia obtenidos en los estudios.
Para terminal- can este apartado queda por discutir si 61 estadistico Rim se pue-
dc aplicar solo cuando se asume un modclo dc EM o si también se puede aplicar des-
dc un modclo dc EF. Encontramos opinioncs contrapuestas en la literatm‘a. cl'm Bo-
renstein et at. (2009), este indice solo se debe aplicar en modelos de EM. Segtm
Konstantopoulos y Hedges (2009), se- puede aplicar también en modelos de EF, ya
que la diferencia fundamental entre asumir un modelo u otro esté en el grade de
generalizacién que se pretende alcanzar con los resultados, y este aspecto no afecta a
la estimacién de la proporcién de varianza explicada por el moderador. Entre tanto no
se proponga 1m wtadistico especifico para los modelos de EF, nuestra posicién es
asumir el uso de R2“ para ambos fipos dc modelos.
Capltulo 4. Mlisls de moderadores cuallhtlvos 127
Finalmente, es precise apuntar que el estadistico Rf,“ aqui presentado se basa

en la estimacién por el método de los mementos de las varianzas interesmdios total y
residual. Existe al menos media docena més dc estimadores alternatives dc dichas va-
rianzas y, por tanto, de estadisticos Rim , cuya presentacién esté més allé del alcance
de este libro. Pueden consultarse a este respecto los trabajos dc Aloe, Becker y Pigott
(2010), Lépez-Lépez, Malt-Martinez, Sénchez-Meca, Van den Noortgate y
Viechtbauer (2014), Raudenbush (1994, 2009) y Viechtbaucr (2005).
4.5. Eleccién del modelo estadistico

La decisién de si se debe utilizar un modelo dc EF 0 1m modelo de EM para el anéh'sis
de la influencia de moderadores deberia estar en funcién del grade dc generalizacién
que el meta-analista desee alcanzar con sus resultados. Si se pretende generalizar a
una poblacién dc estudios de caracteristicas no exactamente idénticas a las de los es-
mdios incluidos en el MA, entonces e1 modelo de EM seré la opcién més realista. Si
se pretende generalizar los tesultados a una poblacién dc esmdios con camcteristicas
idénticas a [as de los estudios incluidos en el MA, entonces seré prefenble el modclo
de BF.
En situacionas realistas, solo tendria sentido utilizar el modelo de BF para el
anflisis de moderadores cuando pew-demos asumir que cxiste un reducido nfimcro dc
caracteristicas de los estudios afectando a la vadabilidad de los tamafios del efecto. Si
asumimos que existe un nfimero elevado e indeterminado dc variables potenciahnente
moderadoras de la variabilidad, entonces es més realista W 1111 modelo dc EA.
La elcccién de um 11 otro modelo afecta a la probabilidad dc rechazar la hipé—
tesis nula dc igualdad de efectos parmnétricos (Borenstein et at, 2009). Ello se debe a
que en el modelo de EF estamos ammfiendo que dentro de cada categoria los estudios
estén estimando a un efecto paraméu-ico con-115m. En este modelo la hipétesis nula para
la comparacién se plantea en funcién de una serie de efectas paramém'cas. En 61 mo-
delo dc EM se asume que dentro de cada categoria los estudios astén estimando a una
distribucién de efectos paramétricos con nu efecto medic coml'm a todos ellos. A
diferencia del modelo de EF, en el modelo de EM la hipétesis nula se plantea com-
parando una serie de demos medias parame’tricas. Aunque la distincién entre efectas
paramém'cas y qfectos medias paramém'cas en el planteamiento de las corres-
pondientes hipétesis nulas pueda parecet sutil, la asuncic’m de um 11 otro modelo tiene
consecuencias a la hora de hacer inferencias estadisticas. Asi, en el modelo de EM
suele set més dificil encontrar un valor QB estadisticamcnte significativo que cuando
se asume 1m modelo dc EF (Hedges y Pigott, 2004). Ello se deb: a quc cl modclo de
EM tiene en cuenta la posible existencia de variabilidad interestudios dentro de cada
categoria del moderador, mientras que el modelo de EF no considera esta posible
fuente dc variacién. Dicho dc otra forms, 61 contrasts de la igualdad dc efectos me-
123 Meia-anélisis en Clendas Soclales y de la Salud
dios paramétricos en el modelo de EM suele set mils conservador porque pretende

alcanzar una generalizacién mayor que la que se pretends con el modelo dc EF.
En cualquier case, as precise tenet en cuenta que el anilisis dc] influjo de ma-
deradores en MA esté limitado por el nfimero dc estudjos incluidos en el MA. Es-
mdios dc simulacit'm reconfiendan no abordar anélisis dc moderadores cuando 61 MA
tenga menos de 20 estudios (Aguinis, Gottfredson y Wright, 2011). Lépcz-Lépez et
al. (2014) también reconfiendan disponer de al menos 20 estudios para que la estima-
cién de las varianzas interestudios total y residual scan monablemente estables,
mientras que lo fijan en al menos 40 estudios para la estimacién de la proporcién de
varianza explicada con el estadistico KL..- Otros autores, coma por ejemplo Bonett
(2010), son mucho mfis exigentes en el nfimero minimo dc mdios requerido para
mete tipo de anélisis. E1 modelo dc: EF es menus restrictive que e] de EM en cuanto a1
nfimero de estudios necesario, ya que no necesita estimar las varianzas interestudios
total y residual, por lo que: puede ser también el modelo dc cleccién cuando, a pesar
de que el meta-analista considere que seria més adecuado un modelo dc EM, 185
condiciones para el cumplimiento de sus supuestos no scan satisfactorias.
Anélisis de moderadores
continuos: meta-regresién
El capitulo 4 so centrb cn 061110 analizat la correlacién enlre una variable moderadora

cualitativa sobre 105 TE de un conjunto dc estudios. Pam e110 se desarrollé e1 enfoquc
del ANOVA tipico del modelo lineal general adaptfindolo a las caracteristicas pecu-
liares de los datos de 1111 MA. En el presente capitulo se abordaré cémo analizar la
asociacién con moderadores continues en MA. Es habitual encontla: variables can-
tinuas potencialmente moderadoras de 103 TE de un MA. Tal es el caso de la duracién
del untamiento aplicado en cada estudio (e.g., definida como el nfimero de semanas
dc tratamicnto), 1a cdad media (611 afios) dc la muestra dc participantes en cada estu-
dio, 0 el porcentaje dc varones (0 de mujeres) en la muestra.
Dado que en el contexto del MA 121 variable dependiente es el TE, y que mdos
los indices del TE utilizados an MA se asumen distribuidos aproximadamente segfin
una ley normal, e1 enfoque del modelo lineal general es el més apropiado para aco-
meter esta tarea. En concrete, vamos a presentar cémo aplicaI modelos dc regresit’m
lineal para estudiar e1 papel do 11110 0 més moderadorw continues en MA. En este aim-
bito se esté generalizando el uso del término “meta-regresién” para haccr referencia a
estc tipo dc modclos estadisticos. Convienc precisar que los modelos dc meta-regre-
sién permiten analjzar no solo e1 papel de mm o varies moderadores continues, sine
cualquier combinacién dc moderadores continues 3/ cualjtativos, del mismo modo que
puede hacerse en una investigacién primaria. En consecuencia, los modelos de
ANOVA presentados en el capitulo anterior para el anélisis de moderadores cuali-
130 Meta-anallsis en Ciendas Soclalea y de la Salud
tativos pueden sustituirse, si asi lo desea e1 irrrur‘es.tig:-:uxiorI por el enfoque de la meta-

regresién, mas general, ya que este subsume a aquellos.
Dadas las caracteristicas peculiarcs de los datos de 1111 MA, la estimacién de los
parémetros de un modelo de meta-regresién requiere ponderar cada TE en flmcién de
su precisién, de forma que los estudios con los tamafios muestrales mayores ejerzan
un mayor peso especifico en los anélisis estadisticos que los estudios con tamafios
muestrales menores. Es, pues, e1 método de estimacién por minimos cuadrados pon-
derados, en lugar del de minimos cuadrados ordinarios, el que se utiliza en Ins mode-
los de meta-regresién, en sintonia con lo que se presenté en el capitulo anterior a1 a-
borda: los modelos dc ANOVA ponderados. En este sentido, e1 factor dc ponderacién
éptimo es el que se define como la inversa de la varianza de cada TE.
Del mismo modo que se him :11 abordar en el capitulo anterior e1 anélisis de
moderadorcs cualitativos, cl anélisis dc moderadores continues mediante meta-regre-
sién se puede plantear desde dos modelos estadisticos: los modelos de eféctos fijos y
de los nwdelas de efectos mixtos. La decisién sabre qué modelo estadistico adoptar es
hnportante, ya que afecta a [as cémputos estadisticos, a la estimacién de los parame-
u'os, a los resultados de las pruebas estadisticas y a su interpretacién. Como ya se in-
dicé en el filtimo punto dc] capitulo anterior, meta decisién debe descansar en el grade
dc generalizacién que el meta-analista desee alcanzar con sus resultados y en las ca-
Iacteristicas de la base de datos meta-analitica.
En lo que sigue se presentan [as bases conceptuales y estadisticas de los modelos
dc efectos fijos (EF) y de efectos mixtos (EM) en meta-regrcsién y se flush-an con
algunos ejemplos. L03 célculos estadisticos requeridos en la aplicacién de estos mo-
delos son demasiado complejos coma para realizarlos a mano (con una calculadora),
ya que implican célculo matricia]. Por ello los ejemplos ilustrativos de estas técnicas
sc resuclvcn mediantc programas informéticos estadisticos elaborados con cstc fin. En
este capitulo todos los anélisis estadisticos se han realizado con el programa Com-
prehensive Meta-anabsis Vers. 3.0 (Borenstein, Hedges, Higgins y Rnthstein, 2013).
Otros programas que pueden utilizmse son METAREG, elaborado en Stan (Harbord y
Higgins, 2008) y METAFOR, elaborado an R (Viechtbauer, 2010a).
5.1. Modelos estadisticos de meta-regresién

Los modelos estadisticos dc efectos fijas y de efectos mixtos que presentamos a con-
tinuacibn se basan en los mismos principios que los presentados en el capitulo an-
terior en el contexto del ANOVA, con el afiadido de que los modelos dc mam-re-
gresién, cuando implican moderadores continues, se dirigen a examinar la existencia
de una relacién lineal entre mm o varies moderadores y 103 TE (Borenstein, Hedges,
Higgins y Rothstein, 2009; Hedges y Olkin, 1935; Raudenbush, 1994, 2009). Recor-
damos a1 lector que estos dos modelos fienen algunos puntos en coml'm. En primer
lugar, la(s) vmiable(s) moderadorfis) es(son) 61(105) predictofies) del modelo y se
Capltulo 5. Analisls de modaadores continues: meh-mgresidn 131
considera(n) de EF. En segundo lugar, la variable dependiente es el TE, que as con-

sidera una variable continua distribuida segfin una lay normal.
5.2. Modelos de efectos fijos

E1 modelo de meta-regresién de EF asume que disponemos de mm o varias variables
moderadoras continuas (0 mm combinacién dc moderadores continuos y cualitativos)
que podrian exhibir una relasién lineal con la variable dcpendiente, que es el vector
de TE del MA. Este modelo asume que para cada valor fijo del moderador, o combi-
nacién dc valores de varies moderadores, exists una distribucién de TE muestrales
que estiman, todos ellos, a un TE paramétrico comfin, coincidente con el predictor pa-
ramétrico del modelo (Hedges y Olldn, 1985).
La figura 4.1 del capitulo anterior puede servir como una ilustracién aproximada
(161 models dc meta-regresién dc EF con un solo predictor (X1), teniendo en cuenta
quc ahora el predictor es continua, no catcgérico, y que dicho predictor dispone de un
nfimero indeterminado dc valores (xil), no solo dos. Para cada valor del predictor se
asume que existe mm distribucién condicional dc TE muestrales (Ti), que estiman a un
efecto paramétrico 00111611 (6}), con error dc muestrco intracsmdio (ui) provocado por
el hecho de que cada estudio se basa en muestras dc individuos diferentm. Asi pues,
para 1m finico predictor, utilizando la notacién habitual de los modelos dc regresién
lineal, e1 modelo matemético dc meta-regresién de EF se formularia 3.51: Ti = 30 +
li1 + ui. El efecto paramétrico del iésimo estudio queda definido como a = Bo +
fllxu, siendo [30 e1 intercepto paramétrico del modelo, 0 e1 TE asociado a un estudio
que tenga el valor 0 en el predictor X1, y [51 es el coeficiente de regresién paraméirico
no tipificado, o pendiente, Que representa la relacién entre e1 predictor y el TE. Dado
que 105 TE se distibuyen segfin 11113. Icy normal, 10s mores dc muestrco aleatoflo
intraestudio, ui, también seguirfin una ley normal can media 0 y varianza of, [u; ~
M0; of ], lo que implica que Ti ~ MB“ + [31211; a}: ).
Una formulacién més general del modelo de meta-regresién dc EF es la que per-
mite plantear un conjunto dc r predictores (X1, ..., XI), 0 catacteristicas de los estu-
dios, cuya relacién con los TE pretende ser analizada. En notacién escalar, e1 modelo
queda formulado asi:
1; = Bo + lH + flzxiz + + tfr + “i [5-1]
siendo [31, B2, ..., [3,, 10s coeficientes de regresién paramélricos no tipificados co-
rrespondientes a cada uno de 105 r predictores del modelo, y x“, xu, ..., xi, son 10$
valores que le corrwponden al iésimo estudio en cada uno de dichos predictores.
En notacién matricial, el modelo quedaria formulado en los siguientes términos:
132 Mela-anallsis en Ciendas Soclalee y de la Salud
T = xp + u [52]
siendo T = (T1, T2, ..., I}, ..., Tk)’ 1m vector de TE muestrales, de tango kxl, X es una
matriz dc predictores de rango b:(r+l), donde r es el nfimero de predictores del
modelo, siendo r < (k— 1), fl = ([30, BI , ..., Bj, B,)’ es un vector dc coeficientes dc
regresién paramétricos no estandarizados, de tango (r+l)xl, y u es un vector dc erro-
res intraestudio, the tango kxl. De forma extensa, el modelo matemzitioo planteado an
[5.1] queda expresado de la siguiente fauna:
I; 1 x 11 I l a x1? -| “I
112 1 x21 I I 0 x 2 , “ 2
= . +
I} 1 xi] xi, u:
fir-
_TJt _ _1 x“ xb. J _uk_
T = X B + u
Asumicndo qua 103 TE, Ti, 5: distribuyen aproximadamente segl'm una Icy nor-
mal, cl vector de cum-es dc muestrm aleatorio inuaesmdio, n, también sigue una lcy
nonnal k—variada con media 0 y matriz diagonal de vafianzas-covm'ianzas, 2 ? ,
definida come
2? = dmg(0'12,0'22,...,fl'i2,..., 0:) [5.3]
siendo of 1a varianza intracstudio paramétrica del iésimo estudio. En la prictica, las

vmianzas paramétricas se dcsconocerén, por lo que se definiré una matriz estimada dc
varianzas-covarianzas de los mores del models mediante:
if? =diag(&f,&§,...,&f,...,&f) [5.4]
donde (if es una estimacién de la varianza intraestudio del iésimn estudio.

Capltulo 5. Analisls de moderadores continues: mela-mgresidn 133
A partir de los datos de un MA as posible estimar el vector de coeficientes de

regrcsién paramétricos no tipificados del modclo, fl, mediantc cl método dc esti-
macién de minimos cuadrados ponderados, con objeto de que cada TE ejerza en los
anélisis un peso proporcional a su precisién. Asi pues, cl vector dc parémctms [3 se
estima mediantc:
by = ($153?q x'firfl'r [5.5]
donde hm:- = (b9, b1, ..., b,)’ es un vector dc coeficientes de regmién estimados no
tipificados, X es la matriz (1e predictores, T es el vector dc TE estimados y W” es
una matriz diagonal dc rango kxk cuyos elementos en la diagonal principal contienen
las inversas de las varianzas estimadas de 103 TE, wf” =1fa-f:
Wm, = (if? = diag(1/&f,1/&§,...,1/&3,...,1/&:)

=ding("4?s,132i:F ,...,firfp,...,fifr) [5-6]
Téngase en cuenta que WW es una estimacién de la verdadera man-i2 de pon-

dm‘acién, w”, cuyos elementos diagonales son [as inversas de las varianzas intraes-
mdio paramétricas, wf" = 1 / o f , y que generalmente se desconocen.
Para comprobar si e1 conjunto de predictores del modelo esté estadisticamcnte
relacionado con los TE, es posible contrastar la hipétesis nula Ho: B = 0, donde 0 es
un vector de cams de tango r, mediante e1 estadistico de contraste:
Qf‘” =b'gp (iffiby [5.7]
siendo ii” In matrix estimada dc varianzas-covafianzas de los coeficientes dc re-

gresién no estandarizados del modelo, que se obtiene mediante:
if” =(X'W5Fxr‘ [5.8]
Bajo la hipébesis nula e1 estadistico Q? se distibuye segfin Chi-Guadrado de

Pearson con r grados dc libertad. Asi pues, asumiendo 1m nivel dc sigtfificacién pre-
determinado (e.g., a = 0,05), es posible rechazar dicha hipétesis si e1 nivel de pro-
babilidad p asociado a1 resultado del estadistico Qf‘” es igual o inferior a 0,05, es de-
cir, si p S a. El estadistico 9? es equivalente a la suma de cuadrados debida a la re-
gresién dc cualquier modelo dc regresién lineal, pero en est: caso ponderada por la
inverse. de la vafianza de cada TE. El rechazo de la hipétesis nula nos permits con-
cluir que el conjunto de predictores esté estadisticamente relacionado con 103 TE (Bo-
134 Meta-analisis en Ciendas Soclalea y de la Salud
renstein et (11., 2009; Hedges, 1994; Hedges y Olkin, 1985; Konstantopoulos y

Hedges, 2009).
El wtadistico Qf" es el equivalente a1 estadistico 9f? presentado en el capitulo
anterior en el contexto de los modelos de ANOVA. Del mismo mode que en nu ma-
delo dc ANOVA es posible comprobar si dicho mode-lo esté bien cspecificado con el
estadistico Qw (que no es mfis que la suma de cuadrados intracategofia ponderada),
también es posible comprobar ate supuesto en el contexts dc 1a meta-regresién. En
concrete, as posible contrastar la hipétesis nula Ho: T = X13, mediante cl estadistico:
Q3 = (T-XbE)WEF(T—Xbfl)=T'WHT-Q§F [5-9]
que no as mas que la suma de cuadrados dc error ponderada. Bajo la hipfitesis nula, el
estadistico QB se distribuye segfin Chi-cuadrado dc Pearson con k — r — l grades de
libertad. Si 61 valor dc probabilidad p asociado a1 resultado del estadistico Q; as igual
o inferior a1 nivel dc significacién preespecificado (p S at), entonces es posible recha-
zar la hipétesis nula de que el modeler dc regresién esté bicn especificado y, en conse-
cuencia, la conclusit'm seré que deben existir otros predictores relevantes no tenidos
en cuenta por el modclo.
Del mismo mode que en el capitulo anterior deciamos que los estadisticos 9;?” y
Qw aportan informacifin complementaria relativa a1 resultado del ANOVA, asi tam-
bién los estadisticos Qf" y QB 33 complementan a la hora de interpretar 10s resultados
de una meta-regresién. De hecho, se- cumple que Q = QRF” + QB, siendo Q 1a suma de
cuadrados total ponderada, que quedé definjda en la férmula [3.12] del capitulo 3. Las
siguicntcs son algunas direcuices para interpretar los resultados dc 1m modelo dc
meta-regresién:
a) Si el estadistico 9:” alcanza la significacién estadistica, entonces podemos

concluir que el conjunto de predictores estfi esmdisticamente asociado con
103 TE. Si este resultado se combina con un resultado no significativo para
el cstadistico QB, entoncw podemos afirmar que el modelo de meta-
regresién esté bien especificado, es decir, que este grupo de predictorw es
suficiente explicar la variabilidad de 105 TE. Si, por el contmrio, cl
mtadistico QB alcanza un resultado cstadisticamcnte significativo, cntonws
cabe pensar que el modelo esté. mal especificado, ya que existirén otras
variables moderadoras de- 105 TE que no se ban tenjdo en cuenm en el
modelo. Diremos en este caso que los predictores analizados son rele-
vantes, pero que no son los finicos qua explican la vafiabilidad de 105 TE.
1)) Si el wtadistico Qf" no alcanza la significacién estadistica, cntonccs la
conclusién serfi que el conjunto dc predictores del modelo no esté esta-
disticamente relacionado con 105 TE. En este case, ya no seré necesario
interpretar cl resultado del estadistico QB, porque 1a ausencia dc signi-
Capltulo 5. Anélisls de moderadoms continues: mela-regresifin 135
ficacién estadistica de Qf” ya es indicativa, 1301' si misma, de que el

modelo esté mal especificado.
El estadistico Q? defmido en [5.7] también se: puede utilizar para conu‘astar 1a

significacién estadistica de un subconjunto de 105 r predictores del modelo. Para e110
tan solo hay que definir cl vector dc coeficientes de regresién, lisp, y la correspon-
U 0 I I! J n
dlente matnz de vananzas—covananzas estlmadas, 25F .

011m 56 obtiene 1m resultado estadisticamentc significativo para el estadistico
Qf‘” , ello no quiere decir necesariamente que todos los predictorw incluidos en el
modelo ejerzan una influencia estadisticamente relevante para explicar la variabilidad
de 105 TE. El paso siguicnte consiste en analizar dc fonna individualizada cl influjo de
cada predictor una vez parcializado el influjo de los demés predictores del modelo. Si
un modelo dc meta-regresién tiene r predictores, es posible formular r hipétesis nulas
del tipo Ho: fl = 0, siendo fl e1 coeficiente dc regresién paramétrico no estandarizadu
asociado al j-ésimo predictor. El contraste de la significacién estadistica de cada
predictor se resuelve con el estadistico (Konstantopoulos y Hedges, 2009; Sénchez—
Meca y Marin-Martinez, 1998):
b! [5.10]
siendo bj e1 coeficiente de regresién estimado no tipificado corrospondiente alj-ésimo

predictor del mode-lo y &[b1) e1 error tipico estimado de dicho coeficiente dc re-
gresién. El estadistico [:5 3e extrae del vector estimado dc coeficientes dc regresién,
bgp, definido en [5.5], mientras que 5-(bj) es la raiz cuadrada del j-ésimo elemento
diagonal de la matriz estimada de varianzas-covarianzas de los coeficientes dc re-
gresién, 2b” , definida an [5.8]. Bajo la hipbtesis H0: A = 0, cl estadistico Zj se dis-
lribuye segfin una ley normal tipificada, de forma que si e1 nivel de probabilidad p
asociado a1 resultado dc dicho estadistico es igual o inferior a1 nivel dc significacién
nominal (p S 0;), se puede rechazar 1a hipétesis nula y concluir qua dicho predictor
ejerce una influencia estadisticamente significativa, una vez parcializado el influjo del
resto de predictores del modelo.
El use del estadistico Zj para realizar este tipo de contrastes se debe a que cada
coeficiente dc regresifin estimado, bj, se dish-ibuye aproximadamente segfin una ley
normal. Es por e110 qua también es posible constmjr intervalos de confianza para 105
coeficientes dc regresién estimados asumiendu dicha distribucién:
|zl-a;z 'dbx): 1" [5.11]

l' a '( b j) = { b f +
b1 il z l- w z
bj 'Izl-atzl ' 5(3)} ) = bi
siendo 21m 1a puntuacién de la distribucién normal tipificada comondienhe a1

percentil ( l — (1/2), asumiendo un nivel dc confianza ( l — a.)- 100%.
5.2.1. Ejemplo do mata-ragmsién, modolo do efoctos fljos
Para ilustrar los célculos de un modeler dc meta-regresién dc EF vamos a utilizar los

datos de un MA sobre la relacién existente entrc neuroticismo y sintomatologia dc
estrés postraumético realizado por Soler—Ferreria, Sénchez-Meca, pez-Navalm y
Navarro-Maren (2014). En este MA se localizaron 36 estudios, cada uno de los cualas
aportaba 1m coeficiente de correlacién de Pearson (rxy) enn'e las variables neuroti-
cismo y sintomatologia dc estrés postramnético, de forma qua correlaciones positivas
indicaban 1a existencia dc una relacién directa cntre ambas variables (a mayor neu-
roticismo, mayor propensién a. sufrir sintomas dc estrés postraumético), y viceversa.
Una dc las catactefisticas de los estudios quc se registré file la edad media (en afios)
de las muestras dc participantm en cada estudio. La tabla 5.1 muestra los coeficientes
de correlacién (rm) 3! las edades medias de cada estudio. Ademés, dado que no es
recomendable utilizar directamente los coeficientes de correlacién en los anélisis
estadisficos dc un MA, dicha tabla presenta también la transformacién a Z de Fisher
de cada coeficiente dc correlacién (Zr), 3 continuacién la vafianza intraestudio
é’(Zr)] y después el factor dc ponderacién dc cada confident: transformado, defi-
nido este filtimo como la inversa dc la vafianza intraestudio [ W =1/&1(Zr)]. ta] y
como hemos expuesto en el epigrafe 2.2.1.
Como primer ejemplo ilustrativo, vamos a comprobar si la edad media de las
muestras de participates en los estudios es una variable moderadora que esté esta-
disticamente relacionada con la magnitud de la relacién entre neuroticismo y sinto-
matologia de estrés postmumético. Para e110 aplicamos 1m modelo de meta-regresién
simple, tomando come variable predictora la edad media y como variable dependiente
los valores Z dc Fisher (Zr) obtenidos a partir de los coeficientes dc correlacién.
Los valores que figuran en la columna Zr de dicha tabla constituyen e1 vector de
TE, representado coma T en la notacién que estamos utilizando en este capitulo. La
columna que contiene las edades medias, si se le afiade prefiamente una comuna de
“unos” constituye la matriz dc predictores X (en este caso fomlada par un finico
predictor). Los elementos en la columna 6-2 (Zr) constituyen los elementos diagonales
de la matriz if definida en [5.4]. Los factores de ponderacién presentados en la
columna {by represem‘an los valores diagonales de la matriz de ponderacién Wm,
dcfinida an [5.6].
Capltulo 5. Anélisls de moderation: continues: mela-regresifin 137
Tabla 5.1. Dates del anélisis de rneta-regresifin simple tomados del MA de

Soler-Ferreria et at. (2014).
Esmdio N 1",“,r Zr 62(Zr) 11:5" Edad media
1 394 0,341 0,355 0,0026 39] 26,00
2 45 0,488 0,533 0,0238 42 34,41
3 1 17 0,250 0,255 0,0088 114 31,00
4 100 0,557 0,644 0,0103 97 74,10
5 409 0,487 0,532 0,0025 406 19,00
6 44 0,580 0,662 0,0244 41 31,39
7 51 0,540 0,753 0,0172 53 66,40
3 968 0,312 0,323 0,001 965 18,55
9 265 0,433 0,470 0,0033 262 3 5,20
10 65 0,280 0,288 0,0161 62 11,00
1l 254 0,500 0,549 0,004 251 42,20
12 367 0,441 0,474 0,0027 364 36,90
13 402 0,390 0,412 0,0025 399 34,19
14 303 0,300 0,310 0,0033 305 22,40
15 680 0,490 0,536 0,0015 6?? 43,40
15 112 0,072 0,072 0,0092 109 60,00
17 70 0,656 0,785 0,0149 67 27,30
13 133 0,390 0,412 0,0074 135 23,30
19 64 0,553 0,530 0,0164 61 33,46
20 92 0,190 0,192 0,0112 89 38,98
21 60 0,170 0,171 0,0175 57 38,37
22 197 0,550 0,618 0,0052 194 46,04
23 l 19 0,227 0,231 0,0036 “6 26,70
24 291 0,250 0,256 0,0035 288 38,70
25 51 0,110 0,110 0,0208 48 43,80
26 102 0,281 0,289 0,0101 99 39,40
27 51 0,200 0,203 0,0203 48 19,32
23 35 43,370 43,333 0,0313 32 20,9?
29 139 0,330 0,343 0,0074 136 34,19
30 70 0,234 0,238 0,0149 67 33,42
31 8-1 0,370 0,3 88 0,0128 78 23,40
32 1435 0,259 0,265 0,0007 1482 3 3 ,93
33 1753 0,3 27 0,339 0,0006 1750 33,93
34 23 6 0,290 0,299 0,0043 233 19,50
35 102 0,620 0,725 0,0101 99 45,66
36 214 0,430 0,460 0,0047 21] 35,08
N: tumafio mmtral. r“: coeficiente de correlacién de Pearson. Zr: transformacién a Z
dc Fisher de r“. 6'2(Zr)2 varianza immesmdio de 1a 2' dc Fisher. 13!”: factor (16 pan-
deracién de cada TE, definido como la inversa de su varianza. Edad media; variable mo-
deradom edad media de la maestro (en afios).
Como ya hemos adelantado, la complejidad de los célculos exige hacer los ané-
lisis estadisticos mediante algim programa infonnfitico. La tabla 5.2 presenta 10s
resultados de la meta-regresién simple. Mediante [5.5] sc obtiene e1 vector dc coe-
ficientes dc regresién, by, que en este caso esté compuwto por el intercepto (bu =
0,2365) y la pendiente (bl = 0,0042). Los mores tipicos estimados [a-(bjn de lo:
coeficientes del modelo asociado a la edad media se obtienen calculandu 1a raiz cua-
drada de los elementos diagonales de la matriz if” definjda an [5.8]. El propbsito de
esta meta-regesién era comprobar si la edad media de las muestras de participantes
constituye una variable estadisticamente relacionada con el TE; es decir, si la edad de
los sujetos modera la relacién existente entre neuroticismo y sintomatologia dc estrés
postraumfitico. Al tratarse de un modelo de regresién simple (un solo predictor), est:
contraste dc hipétesis se puede resolver con el estadistico Q? 0 con el estadistico Zj,
ya que son equivalentes. Asi, con la férmula [5.7] obtenemos e1 valor 9f (1)=16,140,
con probabilidad asociada p = 0,0001. Asumiendo 1m nivcl dc significacién dc 0,05,
podemos rechazar 1a hipétesis nula, concluyendo que la edad media de las muestras es
una variable estadisticamente relacionada con 431 TE. Para obtener e1 valor del esta-
distico Z} aplicamos la férmula [5.10], que consiste en dividir la pendiente de la
regresién por su error tipico, obtem'endo: Z = 0,0042/0,0010 z 4,017 (salvo redon-
deos), con probabilidad p = 0,0001, idénfica a la Obtenida con el estadistico Q? . El
signo positive de la pendiente indica que la relacién positiva entre neumticismo y sin-
tomatologia dc estrés postraumético se hace mfis intensa cuanto mayor es la edad de
los individuos.
Los limiteS confidenciales de los intervalos en tomo a los coeficientes del
modelo se obtienen aplicando [5.11]. En el caso de la pendiente, e1 intervalo dc con-
fianza sc puede también utilizar para tomar una decisién sobre el rechazo o no recha-
zo de la hipétesis nula de que la pendientc del modelo es igual a cam, Ho: [51 = 0. Si :1
valor 0 se encuenu'a dentro del intervalo dc confianza, no se rechaza la hipétesis nula;
en case contrario, dicha hipétasis se puede rechazar con el nivel de significacién es-
tablecido. En nuestro ejemplo, el intervalo de confianza en term a la pcndiente no
contiene cl valor 0 (limites confidenciales: 0,0021 y 0,0062), por lo que podemos
rechazar la hipétesis nula de que la edad media no esté estadisticamente asociada a 105
TE. Légicamente, la interpretacién del intervalo dc confianza pan la pendiente tiene
quc coincidir necesariamente con la del estadistico 21 (y con la del estadistico Q? , en
el caso de una meta-regresién simple).
Una representacién gréfica de la relanién entre la edad media y 105 TE de este
MA consiste en construir un diagrams. de dispersién. En este diagrama los puntos que
representan a cada estudio tienen 1m tamafio proporcional al factor dc ponderacién
utilizado en los anélisis, 1%,” ; es decir, a la inversa de la varianza inlraestudio de ca-
da TE, 6'2(Zr). La figura 5.1 presenta dicho diagrama dc dispersibn.
Capltulo 5. Analisls de modemdores continuos: meh-mgresifin 139
Tabla 5.2. Resultados del anélisis de meta-regresifin simple para la edad media
de las mum de los estudlos.
IC95%
Coeficiente bj 6(bj) Li L3 4 P
Intercepto 0,2365 0,2365 0,1666 0,3064 5,632 < 0,0001
Pendiente 0,0042 0,0010 0,0021 0,0052 4,017 0,0001
Q? (1) = 16,140, p = 0.0001 9,134) = 160,596, p < 0,0001
bj: ooeficientes del modelo dc regmsién. “1%): errores tipicos de los coeficientas del
modelo. Li 3* Ls: limitm confidenciales, inferior y superior, al 95% en tome a 105 one-
ficientes del modelo. Z]: estadistico de contraste de cada coeficiente del modelo. QR” :
estadisficu dc contraste del modelo global. QB: estadistico dc contraste de la especi-
ficacién del models.
Figura 5.1. Diagrama de dispersifin del modelo da meta-tegresifin simple entre la edad
media de la muestra y el TE asumiendo un modelo de EF.
ZdoFIIIIIr
c
I
Wind.
5.3. Modelo de efectos mixtos

En m1 modelo dc meta-regresién dc EF el finico término dc error que se reconoce es el
error dc muestreo aleatorio intraestudio, ui, ya que se asume que todos los estudios
que tienen un mismo valor en el predictor estiman a un mismo TE paramétflco, co-
mfin a todos ellos. En un modeler dc meta-regwién de EM, por el cont-aria, se asume
que los estudios que tienen un mismo valor en el predictor (e.g., e1 valor j del pre-
dictor X1) no estiman a un mismo efecto paramétfico, sine que 6] TE estimado de cada
estudio, Ti, wtima a un efecto paraméu-ico diferente, 0;. A su vez, para cada valor del
predictor existe una distribucién dc efectos paramétricos, 6}, que se distribuyen nor-
malmente con efecto paraméuico media p y vafianza Tins: & ~ N04; ti“), de forma
que {ii = p + ei, siendo ei e1 error dc muestreo interestudios cuya varianza es la va-
rianza interestudios residual del modclo, ti”. Ademés, cl modelo dc meta-regresién
simple implica que p = [50 + flIXI. Asi, e1 efecto paraméu'ico estimado por cada estu-
dio queda defmido come 0i = Bo + [31X] + ei. En consecuencia, el modelo matemético
de meta-regresién simple de EM queda formulado coma: Ti = Ba + ll + ei + ui, de
forma que Ti ~ N03,, + 51x1; rifl+ of). A diferencia del modelo dc meta-regresién
dc BF, el de EM contempla dos fuentes (16 error; 61 error de muestreo aleatorio intra-
estudio, definido por ui y con varianza of, y el error dc muestreo interestudjos, de-
finido por ej y con varianza rig, cumin: a todos los niveles del predictor. Asi pues,
podemos considerar el modelo dc meta-regresién dc EF como 1111 case particular del
modelo dc EM cuando la varianza interestudios residual vale 0, ti“ = 0 .
Generalizando ahora al modelo de meta-regresién dc EM con r predictores, el
modelo matemético quedaria planteado en notacibn escalar de la siguiente forma
(Hartung, Knapp y Sinha, 2008; Raudenbush, 1994, 2009):
1; =fio +131i +fi2x1'2 +'"+flrxir +3: ‘H‘i [5'12]
En notacién matricial el modelo matemético se formula 601110
T=Xfi+e+u [5.13]
donde T = (T1, T2, ..., Ti, ..., Tk)’ es el vector de TE estimados, de range kxl; X es la
matriz qua contiene 105 r predictores, siendo r < (k — l), precedida par un vector co-
lumna de “unos” y, por tanto, de tango kx(r+l); B = (Bo, B1, ..., [3,)’ es :1 vector de
coeficientes de regresién del modelo, de tango (r+1)xl; e es el vector dc errores inter-
estudios residuales, de range kxl, y u es 6] vector de mores intraesmdio, dc tango
kxl. Asumiendo que los vectores dc arrows u y e se dish-ibuyen ambos segl’m una ley
normal [It ~ N(0; If“); :3 ~ MO; 0-3)], entonccs e1 vector del TE se ajusta a la
Capitulo 5. Anélisls de modemdores continues: meh-regresifin 141
disuibucién T ~ NIXB; If,“ I + 25"- ), siendo I 111111 matriz identidad dc tango kxk, y
21‘? es una matriz diagonal de tango kxk que confine las vafianzas intraesmdio de
105 TE que ya quedé definida an [5.3]: 2%" = diag(af,a§,...,a'f ,...,o',f)-
El mode 6ptimo de estimar e1 vector de coeficientes paramétricos del modelo, [5,
implica ponderar cada TE par la inversa de su varianza. Dado que en el modelo de
meta-regresién de EM 3e contemplan dos fuentes (1:: error (interestudios e intra-
estudio), e1 factor de ponderacién 6ptimo queda definido p01" win 21/(Tiea + 0 ? )
Sin embargo, en la préctica las varianzas interesmdios residual c inIIaestudio tienen
que set estimadas, por lo qua los factores dc ponzderacién qua realrnente se utilizan
son esfimaciones de los 6ptimos: firf‘: l/(fm + a} )2
Wm =diag[ll(1'm +012):1f(7:u +6.2)" J/(Tnm +6.0” “(7:15a- + &k)]

= diag(wf",wf‘,..., wf‘,...,wf‘) [5J4]
Obsérvese e1 paralelismo entre las emaciones que definen la matriz Wm, (fbr-
mula [56]) para el modelo dc meta-regresién dc EF y la man-i7. firm (fbrmula [5.14])
para el de EM. La diferencia entre ambas esté en los componentes de varianza impli-
cados en la diagonal principal: las varianzas intraesmdio para el modelo de EF y la
suma de las varianzas interestudios c intracstudio para el de EM.
Una vez definida la matriz de ponderacién, es posible calcular cl vector dc coe-
ficientes estimados, hm =(bo, b1, ..., br)’, por minimos cuadrados ponderados me-
diante la expresién:
=(x'wnm—‘x'wnT [5.15]
Si 5:: comparan [as férmulas [5.5] 3* [5.15], la finica difcrencia estfi en la matriz
deponderaciones utilizada: W” y W“, respectivamente.
Para podcr aplicar [5.15] a: precise obtcncr estimaciones dc las varianzas intra-
estudio, 6-}, y de la vafianza interestudios residual, Eli“. La férmula para calcular las
varianzas intraestudio dependeré del indice (121 TE utilizado en el MA. En el capitulo
2 se presentaron dichas férmulas para un amplio m'nnero de indices de TE. La va-
rianza interestudios residual debs set estimada con los datos de la base meta-analitica.
Sc han propucsto en la literatura al menos media docena dc estimadorcs altemativos
de esta varianza. Aqui presentamos el de uso mas fiecuente, basado en el método de
estimacién de los mementos, y que- es una extensién del método dc DerSimonian y
Laird presentado en el epigrafe 3.1.2 para estimar 1a varianza interestudios total en un
modelo de efectos aleatorios sin moderadores, f2 (férmula 3.12):
f; _ . QE '0‘ -’:1) . [5.16]

‘ I"("ne _ #[mfi'wmm'l X'WEF]
donde 1a expresién trO indica la traza de la expmsién matricial quc figure dcntro del
paréntesis; QB es la suma dc cuadrados de enur ponderada definida an [5.9] y W” es
la matriz dc ponderaciones definida en [5.6], can factores dc ponderacién iguales a
fix? =1/6-f . E1 estimador Eli“ puede tomar valores negatives; en ese 0:150, 56 trunca
en el valor 0.
Para hacer inferencias acerca de los coeficientes paramétricos del modelo se han
propuesto vaIios procedimientos (c Huizenga, Visser y Dolan, 2011; Viechtbauer,
pez—Lépez, Sénchez—Meca y Marin-Martinez, en prensa). Aqui presentamos cl
método esténdar, que es el que con més frecuencia se utiliza, y el método propuesto
por Knapp y Hartung (2003) que, segfin los resultados de estudios dc simulacién re-
cientes, es el que muestra mejores propiedades esmdisticas.
5.3.1. Método esténdar
E1 método esténdar parte del supuesto de que los coeficientes paramétricos del 1110-
delo se dism'buyen segfin una ley normal. En consecuencia, es posible contrastar 1a
hipétasis nula de que [as r coeficientes paramétricos del modelo son iguales a 0, as
decir, Ho: [3 = II, mediante e1 estadistico:
Qfi‘ =b'm (iff‘bm [5.17]
siendo i f la matriz utimada dc vmianzas—covarianzas de los coeficientcs dc re-

gresién no tipificados del modelo, que se obtiene mediante
if = (x' Wyn-1 [5.13]
Bajo hipétesis nula verdadera, el estadistico QR“ se distribuye segt’m Chi-cun-

dmdo dc Pearson 0011 r grades dc libertad. Asi pues, si 61 nivel de probabilidadp asc-
ciado a1 reSultado del estadistico Q15" es igual o inferior al nivel dc significacién pre-
establecido (e.g., a = 0,05), se rechaza 1a hipétesis nula, pudiéndose concluir que el
conjunto dc :- predictores esté estadisticamente asociado 3] vector de TE.
Para comprobar si 61 modelo dc meta-regresién esté bien especificado es posiblc
contrastar la hipétesis nula Ho: T = Xfl con el mismo estadistico que el planteado para
el modelo de meta-regresién dc EF: e1 estadistico QB definido en [5.9]. La inter-
pretacién del resultado de este estadistico de contrasts as similar a la del modelo dc
Capltulo 5. Analisls de modaadores continues: mela-mgresidn 143
EF, y las orientaciones para la interpretacién de los resultados de los contrastcs con
los estadisticos QR“ y QE son similares también a las ofiecidas en el mode-lo de EF.
Ademés dc contrastar 1a significacién estadistica del conjunto dc r predictorw
del modelo con el estadistico Qf‘ , también es posible contrastar la significacién esta-
distica de cada predictor una vez parcializado el influjo del resto dc predictores del
modelo. Dado que el método esténdar asume que los coeficientes de regresién esti-
mados se distribuyen segfin una ley normal, este método propane contrastar hipbtesis
nulas del tipo Ho: fl = O mediante e1 wtadistico 21:
z = [5.19]
siendo b,- 61 coeficiente de regresién estimado no tipificado cmondiente alj-ésimo

predictor del modelo 3' 61b!) 61 error tipico dc dicho coeficiente dc regresién. E1
estadistico bj se extrae del vector estimado dc coeficientes dc regresién, hm, definido
an [5.15], mientras que el estadistico a-(bj) es la raiz cuadrada delj-ésimo elemento
diagonal de la matriz estimada dc varianzas-covarianzas de los coeficientes de regre-
sién, fif‘, definida en [5.18]. Bajo la hipétesis Ho: 1% = 0, el estadistico A St: dis-
tribuye segt'm una ley normal tipificada, dc fonna que se rechazaIé dicha hipétesis si
e] nivel dc probabilidad p asociado a1 resultado dc dicho estadistico es igual o inferior
a] nivel dc significacién nominal (p S a), an cuyo caso se podré concluir que dicho
predictor tiene una asociacién wtadisticamente significativa, una vez parcializado e1
influjo dcl resto dc predictores del modelo. Asi mismo, es posible construir intervalos
dc confianza para cada cocficientc del modelo mediante:
_ A =
b, + IzHul -&(bj) = b”, 5.20
b; i l ’ Z I 01b!) {bf—lzl—alzl'a'(bi
)=bi
[ ]
siendo 21m la punmacién de la disu'ibucién normal tipificada correspondiente a] per-

centil (1 - a I 2), asumiendo un nivel de confianza (1 - a.) - 100%.
Nétese que las férmulas [5.19] y [5.20] son similares a las fénnulas [5.10] y
[5.11]. La diferencia entre ambas parejas dc ecuaciones esté en la extraccién del coe-
ficiente de regresién estimado, bj, y de an error tipico, &(bj)! en el modelo de mem-
regrcsién dc EF estos valores se obtienen con [5.5] y [5.8], respectivamente, mientras
quc en cl modclo dc EM 3: obtiencn con [5.15] y [5.18].
144 Meta-anallsis en Ciendas Soclalee y de la Salud
5.3.2. Método de Knapp y Hartung

E1 méwdo esténdar asume una distribucién normal para los coeficientes dc regresién
estimados, b], y utiliza e1 estadistico Zj (férmula [520]) para contrastar la hipétesis
Ho: 1% = 0. Asi mismo, asume una distribucién Chi-cuadrado para el estadistico Qf"
(férmula [517]) en el contraste de la significacién estadistica de un conjunto dc r pre-
dictores, H9: [3 = 0. Peru [08 estadisticos dc contraste Q5” y 2.] no tienen en cuenta 1a
variabilidad provocada por el hecho de que la varianza interestudios residual tiene que
ser estimada. La consecuencia de esta circunstancia es que, por regla general, dichos
estadisticos dc contrasts suelen tener tasas dc error Tipo I superiores a1 nivel de sig-
nificacic'm nominal, conduciendo a més rechazos incorrectos de la hipétesis nula de
los preestablecidos, especialmente cuando cl nfimero de estudios es bajo. Ademés, [as
intervalos de confianza para estimar los coeficientes del modelo presentados en [5.20]
suelen tener tasas de cobertum inferiorw a1 nivel dc confianza nominal, debido a] uso
de una distribucién normal tipificada y a que el error tipico del estimador es inferior a]
real (Hammg et aL, 2008; Sidik y Jonkman, 2005; Vicchtbauer et at, e11 prensa).
Para resolver este problema Knapp y Hartung (2003) han propuesto un esti-
mador mejorado del error tipico del coeficiente de regresién estimado y asumen una
distribucién t d e Student can It — r — 1 grades dc libertad para construir intervalos de
confianza y contrastar la significacién estadistica de los coeficientes del modelo. En
concrete, el procedimiento dc Knapp-n consiste en estimaI la matriz de va-
rianzas—covarianzas de los coeficientes del modclo mediante
if” = q(X‘WmX)'l [5.21]
donde q es un estimador ponderado de la varianza de error que se obtiene mediante
q= ‘ 1 (T-nmrwm(T-xuam)= kT— ”T
r —l
[5-221
siendo T cl vector de TE, X la matriz dc predictores, 113,; el vector estimado do 108
coeficiiltes del modelo segfin el modelo de EM, [5.15], W“ 13. matriz dc ponde-
racionw, [5.14] y P es una matriz que se define coma
P = Wm — Wmmx'wflxr‘ x'fi‘vm [5.23]

Knapp y Hartung (2003) propusieron que el valor de q que se debe introducir en
la férmula [5.21] nunca deberia set inferior a 1, de forma que los errores tipicos del
procedinfiento dc Knapp-n siempre sedan mayom que los del método estim-
dar, dando lugar a resultados mfis conservadores. Por tanto, si el valor de :1 resulm set
Capltulo 5. Analisls de moderadores continues: mela-mgresidn 145
inferior a l , Knapp y Hartung recomiendan igualarlo 3 ese valor. Sin embargo, un

reciente estudio dc simulacién demuestra que el uso de [5.21] sin este truncamiento
ofrece un major ajuste de la tasa dc error Tipo I que cuando dicho valor es truncado a
1 (V iechtbauer e! (11., en prensa). En consecuencia, nuestm recomendacit’m es no trun-
car e1 valor de 91.
Al introducir estc estimador dc varianza en la matriz cstimada dc varianzas—
covarianzas de los coeficientes del modelo es posible contrastar 1a hipétesis nula de
qua elj-ésimo coeficiente del modelo es nulo, Ho: A = 0, mediante cl estadistico:
r = b; [5.24]
’ 6mm.)
siendo 13,- e1 coeficiente dc regresién estimado no estandarizado que se correspond con
el j-ésimo predictor del modelo extraido del vector bu (férmula [5.15]), 3’ 6-K” (b1)
e1 error tipico de dicho coeficiente de regresién, que es la raiz cuadrada del j-ésimo
elemento diagonal de la matriz estimada dc varianzas-covarianzas de los coeficientes
dc regresién, if!“ , definida en [5.21]. Bajo la hjpétesis Hg: ,6: = 0, e1 estadistico 1} se
distribuye segl’m una ley 1‘ dc Student con k — r — l grados dc libertad, de forma que se
rechaza la hipétesis nula si e] m'vel de probabilidad p asociado a1 resultado de dicho
estadistico es igual o inferior a1 nivel de significacién nominal (p S a), pudiéndose en
ese case concluir que dicho predictor muestra una asociacién estadisticamente signi-
ficativa, una vez parcializado el influjo del resto de predictores del modelo. Asi mis-
mo, es posible construir intervalos de conflanza para cada coeficiente del modelo me-
diaute
=
bi i | l-au tk-r-Il ' 6'” (bi)
[5.25]
= {b1 + I Hath-1| ' 5m (5;) = bl‘l’
j ) =bi nf
bf —|l-¢IZIk-r-]|'&u{(b
siendo 1—9::2 tk_r_1 1a puntuacién de la distribucién I de Student can (It — r — l) grados

de libertad correspondiente al peroentil (l — u I 2), asumiendo 1m nivel de confianza
( l — a) - 100%.
1 Hay que tenet present: esta doble modalidad del método de Knapp-Huang, ya que distintos programs
de sofiware mata-analifico implementan um: 11 utra modalidad. Asi, Bl métndo original de Knapp-Hammg,
tnmcando en el valor l, esté implementado en :1 program: METAREG elaborado par Harbord y Higgins
(2008) dentro del paquete STATA y en el programa Comprehensive Meta-analyst? vers. 3.0 (Borenstein,
Hedges, Higgins y Rothstein, 2013), mientras que la modalidad sin truncar estfi implementada en el
programa METAFOR damn del paquete R (Viechtbauer, 2010a). En cualquier case, solo se obtendrén
diferentesresultadosenu'eambas modalidadescuandoq< h y m n solo ocurrirficuandoelnfimnroda
esmdios sea bajo yin la varianza interesmdios residual tamhién sea haja.
Estudios de simulacién recientes demuestran que el procedimiento de Knapp-

Hartung con el estadistico tj definido en [5.24] ofi-ece 1m major ajuste de la tasa de
error Tipo I 31 nivel nominal que el estadistico Zj del método esténdar, [5.19], y 108
intervalos de confianza con [5.25] también presentan un mejor ajuste del nivel de
confianza nominal que los propuestos por el método esténdar (Huizenga, Visser y
Dolan, 2011; Knapp y Hartung, 2003; Ibpcz-Lépcz, Botella, Sénchez—Meca y Marin-
Martinez, 2013; Sidik y Jonkman, 2005; Viechtbauer et at, en prensa).
El procedimiento de Knapp-Hartung también ofrece 1m estadistico major que el
del método esténdar para contrastar la hipétesis de que un conjunto de r predictores
esté estadisticamente asociado a 103 TE, H]: B = fl. Esta estadistico se basa en una dis-
tribucién F de Snedecor con grades de libertad r y (k — r — 1). En concrete, estos au-
tores se basan en el hecho de que el estadisfico q (férmula [522]) es una forma Gua-
drética que wtima la variabilidad no explicada por cl modelo dc meta-regrcsién. Ade-
més, 1a expresién (k — r — 1):; se distribuye segl'm Chi-cuadrado de Pearson con 15— r —
1 grades dc libertad. En consecuencia, se puede contrastar mediante el estadistico Fla.
hipétesis nula Ho: I3 = 0 de que un conjunto de 1' predictores no esté estadisticamente
asociado a 103 TE:
F=9fl [5.26]
q
donde Qf‘ es la suma de cuadrados ponderada que explica e1 modelo de regresién,

definida en [5.17], r es cl nfimero dc predictorcs objcto dc contrasts y q es Ima esti-
macién de la varianza no explicada por el modelo defim‘da an [5.22]. Bajo la hipétesis
nula Ho: B = 0 el estadistico F se distribuye seglfm F de Snedecor con grades dc liber-
tad r y (k - r — 1). De esta forma, si e1 nivel de probabilidad p asociado a1 resultado
del estadistico dc contraste F es igual o inferior a1 nivel de significacién premta—
blecido (p S a), se puede rcchazar dicha hipétcsis nula y concluir que el conjunto dc r
predictores esté estadisticamente asociado a 103 TE.
Finalmente, para comprobar si 61 modelo esté bien especificado, e1 contraste de
la hipétcsis nula Ho: T = XB se resuelve del mismo modo que con el 1116m esténdar:
mediame e1 estadistioo QE definido en [5 .9].
5.3.3. Ejemplo do mata-mgmsién, modem do efectos mbttos
Para ilustrar las diferencias entre e1 modelo de EF y el de EM, vamos a repetir e1

ejemplo del epigrafe 5.2.1, pcro aplicando en este case 1111 modclo dc meta-regresién
dc EM. A an vez, resolvcremos este ejemplo desde el modelo dc EM con el método
esténdar y con el de Knapp-Harmng para apreciar las diferencias en los resultados en-
Ire am y otro método.
Capltulo 5. Analisls de moderadoms continues: meta-mgresifin 147
Tabla 5.3. Dates del anélisis de meta-regresién simple tomados del MA

de Soler-Ferrerla at al. (2014).
3:m N r11, 2:- &2(Zr) a,“ Edad media
1 394 0,341 0,355 0,0026 58,2834 26,00
2 45 0,433 0,533 0,0233 26,0352 34.41
3 117 0,250 0,255 0,0033 42,7364 31,00
4 100 0,567 0,644 0,0103 40,1457 74,10
5 409 0,487 0,532 0,0025 58,6062 19,00
6 44 0,530 0,662 0,0244 25,6474 31,39
7 6] 0,640 0,758 0,0172 31,4057 66,40
8 968 0,312 0,323 0,0010 63,9539 13,56
9 265 0,438 0,470 0,0033 54,2983 35,20
10 65 0,230 0,233 0,016] 32,5425 17,00
11 254 0,500 0,549 0,0040 53,3095 42,20
12 367 0,441 0,474 0,002? 57,6460 36,90
13 402 0,390 0,412 0,0025 53,4531 34,19
14 308 0,300 0,310 0,0033 55,9325 22,40
15 680 0,490 0,536 0,0015 62,2003 43,40
16 112 0,0?2 0,072 0,0092 42,0622 60,00
17 70 0,656 0,7135 0,0149 33,3692 27,30
18 138 0,390 0,412 0,0074 45,4392 23,30
19 64 0,558 0,530 0,0164 32,2649 38,46
20 92 0,190 0,192 0,0112 38,7057 38,98
21 60 0,170 0,171 0,0175 31,1101 33,37
22 197 0,550 0,4513 0,0052 50,6210 46,04
23 119 0,227 0,231 0,0036 43,0650 26,70
24 291 0,260 0,266 0,0035 55,3335 38,70
25 51 0,1 10 0,1 10 0,0203 28,2220 43,30
26 102 0,231 0,239 0,0101 40,4342 39,40
2? 51 0,200 0,203 0,0208 23,2220 19,82
28 35 41,370 41,333 0,0313 21,3103 20,97
29 139 0,330 0,343 0,0074 45,5520 34,19
30 70 0,234 0,233 0,0149 33,8692 33,42
31 81 0,370 0,333 0,0123 36,4690 23,40
32 1485 0,259 0,265 0,0007 65,4675 33,93
33 1753 0,327 0,339 0,0006 65,9134 33,93
34 236 0,290 0,299 0,0043 52,9329 19,5
35 102 0,620 0,725 0,0101 40,4342 45,66
36 214 0,430 0,460 0,004? 51,7031 35,03
N: tamaflo muestral. r“: coeficiente de correlacién de Pearson. Zr: transformacién a Z
de Fisher de r“. 62(27): vmianza intraestudio de la Z de Fisher. 12;“: factor de
panderacién de cada TE, definido como la inversa do: 311 W . Edad: variable
moderadora edad media de la muestra (en afios).
143 Meh-anélisis en Ciendas Soclalea y de la Salud
Aquel ejemplo consistia en comprobar si la edad media de las muestras de

participantes era una variable moderadora de 105 TE enu'e nemticismo y sintoma-
tologia de eslrés postraumético. Los dates estén tomados de 1111 MA realizado por
Soler-Fcrreria er a1. (2014) y se han reproducido en la tabla 5.3. En concreto, figuran
en dicha tabla, entrc otros dates, los coeficicntes de correlacién dc Pearson (rxy) entre
nem'oticismo y sintomatologia de estrés postraumético, sus u'ansformacionm a Z de
Fisher (Zr), los tamafios muestrales (N) y las vafianzas intraestudio [&’(Zr)].
Para poder realizar los célculos es precise obtener una estimacién de la varianm
interesmdios residual, 11:“, que aplicando [5.16] alcanza el valor film =0,0146. De
esta forma, es posible calcular los factores de ponderacién segim e1 modelo de EM
para cada estudio mediante 1275‘ = 1 4&2 (Zr) + 5:5,]: 1[[59 (Zr) + 0,0146]. En la tabla
5.3 se reproducen los factores dc ponderacién obtenidos para cada wtudio.
Al igual que en el ejemplo del epigrafe 5.2.1 103 valores que figuran en dicha
tabla en la columna Zr constituyen el vector de TE, T. La columna que contiene las
edades medias, si se le afiade previamente una comuna dc “Imus”, constimye la matriz
de predictores, X. Los factores dc ponderacién presentados en la columna WE”. repre-
sentan 10s valores diagonales de la matriz dc ponderacifin Wm, dcfinida en [5.14].
Los resultados dc aplicar cl método esténdar para analizar cl influjo de la edad
media sobre 105 TE (Zr) se presentan en la tabla 5.4. Mediante [5.15] 33 obtiene e1
vector de coeficientes de regresién, b“, fonnado por el intercepto (in; = 0,2247) 3; 1a
pendiente (bl = 0,0048), valores may parecidos a los obtcnidos con el modelo dc EF
(vet tabla 5.2).
Si aplicamos e1 método esténdar, entonces 103 arrows flpicos del intercepto
[5150): 0,0751] y la pendiente [&(bl) = 0,0021] se obtienen calculando la raiz cua-
drada de los elementos de la diagonal principal de la matriz estimada dc varianzas-
covarianzas de los coeficientes del modelo, @151, definida en [5.18]. Obsérvese cémo
estos dos mores tipicos son superiores a los obtenidos con el modelo de EF (vet tabla
5.2), ya que el modelo de EM tiene an enema no solo la variabilidad intraesmdio, sino
también la variabiljdad interestudios residual.
Pam comprobar si la edad media de las muw’a'as dc participantes constituye una
variable estadisticamente relacionada con :1 TE, es decir, con la relacién existente
entre neuroticismo y sintomamlogia de estrés postraumfitico, contrastamos la hipé—
tesis nula Ho: [31 = 0 con el estadistico Z] definido en [5.19]. E1 resultado cs 21 =
0,0048/0,0021 s: 2,34 (salvo error dc redondeo), can probabiljdad asociada p = 0,0194
y, por tanto, estadisticamente significativo. Al tratame de un modelo dc regresién sim-
ple (un solo predictor), este contrast: dc hipétcsis se puede lambién resolver con 61 can
tadistico Qfi" . Asi, aplicando [5.17] obtenemos el valor Q?" (l) = 5,46 , con proba-
bilidad asociada p = 0,0194, idéntica a la obtenida con el estadistico Zl. Asumjendo
un nivel dc significacién a. = 0,05 podemos rechazar la hipétesis nula y concluir que
la edad media de las mamas es una variable estadisticamente relacionada con el TE.
Capltulo 5. Analisls de modemdores continues: mela-mgresidn 149
E1 signo positivo de la pendiente indica que la correlacién positiva entre neuroticismo

y sintomatologia de estrés postraumético se hace mas intensa cuanto mayor es la edad
de los sujetos.
Tabla 5.4. Resultados del anélisis de meta-regresifin simple para la edad media de Ias
muesiras. asumiendo un modelo de afectos mixtos con el método asléndar.
IC95%_
Coeficiente bj (9(1)1) Li Ls Zj p
Intercepto 0,2247 0,0751 0,0776 0,3719 2,99 0,0028
Pendiente 0,0048 0,0021 0,0008 0,0088 2,34 0,0194
Qffl) = 5,46,p = .0194; 5:” = 0,0145; 7‘2 = 0,0157
93(34) = 160,60, p < .0001; Rim =0,0701
bj: coeficientes del modelo de regresién. 511,1): errores tipicos de los coeficientes del
modelo. Li y Ls: limites confidenciales, inferior y superior, al 95% en tome a los
ooeficientes del modelo. Zj: estadistico de contraste de cada coeficiente del modelo. i‘:
estadistico dc contaste del modelo global. QB: wtadistico dc contrasts de la especificacién
del modelo. 5:“: estimacién de la varianza interestudios residual. f2: estimacifin de la
varianza inheresmdios total (sin predictores). Rim: estimacién de la proporcifin de varianza
explicada por el modelo.
Los intervalos de confianza en tome a 10s cueficientes del modelo, por el 1116-
todo esténdar, se obtienen aplicando [5.20]. El intervalo dc confianza para la pen-
diente se puede también utilizar para oontrastar la hipétesis nula Ho: [31 = 0. Si cl valor
0 se cncuentra dentro dcl intervalo dc confianza, no se rcchaza dicha hipétcsis; en
case contrario se puede rechazar. En nueslro ejemplo, cl intervalo de confianza en
tome a la pendiente no contiene e1 valor 0 (limites confidenciales: 0,0008 3! 0,0088),
por lo quc podemos rechazar la hipétesis nula dc quc la cdad media no 6315
estadisticamente asociada a los TE. Esta interpretacién del intervalo dc confianza para
la pendiente tiene que coincidir necesariamente con la del estadistico 21 antas
comentada (y con la del estadistico QR“ , en el caso de una meta-regresién simple).
Finalmente, e1 contrasts de la especificacién del modelo, idéntico al del modelo
de EF, es 95(34) = 160,60; p < 0,0001, lo que indica que el modelo esté mal espe-
cificado, por lo que deben cxistir otras variables moderadoras relevantes en la varia-
bilidad de 105 TE.
Si en lugar del método esténdar aplicamos e1 mérodo de Knapp-Harmng, la base
de datos es cxactamentc la misma quc la que figura en la tabla 5.3. El vector dc coe-
ficientes del modelo es el mismo que el obtenido para el método esténdar: be = 0,2247
3/ b1 =0,0048. Pero los errores tipicos son diferentes, ya que se obtienen calclflando la
raiz cuadrada de los elementos diagonales de la matriz 1"f definida en [5.21]. 0h-
sérvese en la tabla 5.5 cémo e1 error tipico de la pendiente por el método de Knapp-
Harmug es mayor, 5m (bi) = 0,0026, que el obtenido con e1 1116m esténdar,
6"(bj) = 0,0021, lo que convierte al método Knapp-n en més conservador. De
hecho, a1 contrastar la hipétesis nula de que la edad no esté estadisticamente relacio-
nada con 105 TE, Ho: [31 = 0, mediante la aplicacién del wtadistico I; (férmula [524])
con (12- r — 1) = 36 — l — 1 = 34 grades de libertad, obtenemos m1 valor 1164) = 1,87,
con probabiljdad p = 0,0707. Asi puss, en este ejemplo a1 aplicar el método de
Knapp-Hammg obtenemos una significacién estadistica solo marginal (p < 0,10),
pero no a1 nivel dc significacién convencional (0,05). Al tramrse dc 1m ejemplo con
un solo predictor, llegamos a este mismo resultado con el estadistico F calculado con
[5.26]: F(1, 34) = 3,48; p = 0,0707. El estadistico F se calcula coma
F=M=m=m
g
Ed
1,569
donde 5,46 es el valor del estadistico Qlf‘ reflejado en la tabla 5.4.
El intervalo de confianza en tome a la pendiente se puede también utilizar para
contrastar 1a hipétesis nula Ho: B1 = 0. Dado quc en este case 105 limit/es confiden-
ciales contienen cl valor 0 (limites: -0,0004 y 0,01000), no se rechaza la hipétesis
nula, par lo que llegamos a la conclusién de que, asumiendo un nivel dc significacién
dc 0,05, la edad media de las muestras no esté estadisticamente relacionada con 105
TE. Este resultado coincide con el obtenido con los estadisticos 13- y F, antes cemen-
tados.
Obsérvese cémo cl método de Knapp-Hammg as 11153 conservador que el mé—
todo estzindar, ya que con este filtimo se alcanzaba la significacibn estadistica para la
edad media coma predictor de 105 TE (p = 0,0194), mientras que con el método de
Knapp-Harumg no se alcanza (p = 0,0707). Estc mayor conservadurismo del método
dc Knapp-Hartung también se aprecia en la mayor amplitud de su intervalo dc con-
fianza en torno a la pendiente [amplitud = 0,0100 —(—0,0004) = 0,0104] en com-
paracién con la (161 1116m esténdar (amplitud = 0,0088 — 0,0008 = 0,008).
La prueba para comprobar si e1 modclo esté bien especificado es la misma que
para el método esténdar y que para el modelo de EF: 93(34) = 160,60; p < 0,0001.
Las tablas 5.4 y 5.5 presentan también las estimaciones de la varianza interes-
tudios residual (21%“ =0,0146), que sc obtiene con [5.16], la varianza interestudios
total (£2 =0,0157), que se obtiene con [3.12] y la proporcic’m dc varianza explicada
por el predictor ( Rim = 0,0701), que se obtiene mediante la férmula [5.27], que expo-
nemos en el siguiente epigrafe. Por tanto, la edad media de las muestras dc parti-
cipanles explica e1 7,01% de la variabilidad de 105 TE, un pomentaje que no podemos
considera: de una elevada magnim
Capltulo 5. Anélisls de modemdores continues: meh-mgresidn 151
Tabla 5.5. Resultados del anélisis de mta-regrasién simple para la edad media de Ias
muestras, asumiendo un modelo de EM con el mébodo de Knapp-Hartung.
I. C. 31 95%
Coeficiente bj 6m (bJ ) Li Ls I] p
Intercepto 0,2247 0,0940 0,0336 0,4153 2,39 .0225
Pendiente 0,0048 0,0026 41,0004 0,0100 1,87 .0707
H1, 34) = 3.48.11 = 0,0707; q = 1,569; 5;, = 0,0146; f2 = 0,0157
QE(34) = 1150,t50,p1 < 0,0001; Rf,“ = 0,0701
bj: coeficicntes del modelo dc regresién. arm (bi): arrows tipicos de los
coeficientes del modelo. Li y La: limites confidenciales, inferior y superior, a1
95% en tome a los coeficientes del modelo. tj: estadistico de contrasts de cada
coeficicnte del model-3. F: estadistico dc contrasts del modelo global. Q3:
estadistico dc contrast: de la cspecificacién del modelo. f3“: cstimacién de la
varianza interesmdios residual. f”: estimacién de la varianza interestudios total
(sin predictorw). Rim: estimacién de la proporcién dc varianza explicada por el
modelo.
Una representacién gréfica de la relacién enuve 1a edad media y 105 TE de este

MA consiste en constmir un diagrama dc dispersifin en el que los puntos que repre-
sentan a cada estudio tienen un tamafio proporcional a1 factor dc ponderacién uti-
lizado en los anélisis, es decir, proporcional a1 tamafio muestral. La figura 5.2 presen-
ta dicho diagram de dispersién. Téngase en cuenta que este diagram de dispersién
me el que obtenemos a1 aplicar e1 modelo de meta-regresién de EM, indepen-
dientemente de que utilicemos e1 método esténdar o e] de Knapp-n para con-
Irastar los parémetros del modelo.
Si comparamos el diagrama de dispersién bajo e1 modelo de EF (figura 5.1) con
cl dc] modelo dc EM (figura 5.2) St: aprecia que en el modelo dc EM 6] tamafio de los
cimulos que representan a 10s estudios es més homogéneo que en el de EF. E110 sc
debe a que el factor dc ponderacién de EM incorpora una constante (la varianza inter-
estudios residual, 11:“) que se suma a la vaflanza intraestudio de cada TE, 61(Zr),
micntras quc cl factor dc pondcracién en cl modelo dc EF esté en funcién solo de la
varianza intraestudio. Al incorporar una constante en el factor de ponderacibn, 10 pe-
sos aspecificos de los esmdios se hacen més homogéneos (recuerde e1 lector e1 efecto
mostrado en la tabla 3.4).
Figura 5.2. Diagrama de dispersion del modelo de meta-regrasién simple ante

Ia edad media de la muestra y el TE asumiendo un modelo de EM.
1!
ZtIIII'
#3
Ethdm
5.4. Estimacién de la proporcién de varianza explicada

Del mismo mode que en el capitulo anterior presentamos an indie: para estimar la
proporcién de la varianza de los TE que es explicada por un moderador cualitativo,
asi también es flmdamental aportar una estimacién dc dicha proporcién en modelos dc
meta-regresién. El indice de la proporcién dc varianza explicada que se utiliza en
meta—regresién es, bésicamente, el mismo que el que se presentb en el capitulo ante-
rior: el indice R2
fififla’
definido an [4.28] (Aloe, Becker 3/ Pigott, 2010; Mpez-Lépez,
Marin-Martinez, Sfinchez—Meca, Van den Noongate y Viechtbauer, 2014;
Raudenbush, 2009). No obstante, lo presentamos de nuevo en este capitulo port la
terminologia cambia nn poco respecto del capitulo anterior:
.2 A2 A2
Rim _ m _ 31$ [5.27]
f2 f2
Capltulo 5. Anélisls de modaadores continues: mela-mgresidn 153
donde £12m es una estimacién de la varianza interesmdios residual, que quedé definida
en [5.16] y r” es una estimacién de la varianza interestudios total (sin predictores),
definida an [3.12]. En realidad, Eli” equivale al ténnino ff utilizado en el capitulo
anterior (fénnula [425]) para representar a1 promedio de las varianzas interestudios
residuales de los subgrupos (o categorias) de una variable moderadora cualitativa. Es
posible que Rim alcance valores negatives, en cuyo case se trunca en 0. Téngase en
cuenta que la estimacién de la proporcién dc varianza explicada en un modelo dc
meta-regresién dc EM es independiente de que se haya utilizado e1 método esta'ndar 0
el de Knapp-Hauling en los contrastes de hipétesis.
Por filtimo, no esté clam si se debe utilizar el estimador Rim de la proporcién
dc valianza cxplicada. Como ya so comenté en el capitulo anterior, hay sutures favo-
rables a que se utilice (Konstantopoulos y Hedges, 2009) y otros desfavorables a esta
préctica (Borenstein er al., 2009). Numtro criteria es el mismo que en el capitulo an-
ten'or: utilizarlo en los modelos dc EF mienlras no so proponga algim oiro indice més
apropiado.
5.5. Ejemplo de meta-regresién mflltiple

Los dos ejetnplos que hemos presentado hasta aqui eran modclos de meta-regesién
simple, ya que contenian un {mica predictor: la edad media de las mucstras. A can-
tinuacién ofi‘ecemos un ejemplo dc meta-regresién mfiltiple aplicando e1 modelo de
EM. Con este fin vamos a utilizar de nuevo los datos del MA de Soler-Ferreria et al.
(2014) sobre la relacién mire neuroticismo y sintomatologia dc estrés postraumético.
En este case, vamos a plantear un modelo dc meta-regresién mfiltiple con tres pre-
dictores (r = 3): la edad media de las muestras de participantes, 1a poblacién dc
referencia de las muestras de participantes, con dos valores posibles (0, poblacién
clinica; l , poblacién no clinics.) y el continente en el que se llevb a cabo el estudio (0,
filera dc Europa; 1, estudio realizado en Europa). Obsérvese cémo este ejemplo sirve
también para ilustrar cémo es posible combinar en un mode-lo de- meta-regresién va-
riables moderadoras continuas (la edad media) 3‘ cualitativas (la poblacién dc
referencia y el lugar d3 realizacién del estudio).
154 Mela-analisis en Ciendas Soclalea y de la Salud
Tabla 5.6. Dates del anélisis de mew-legresién mflltiple tornados del MA de

Soler-Ferreria at at (2014).
Esm- .3 ,. EA Pabla- Conti-
dio N rx, Zr 0' (Zr) w Edad cién nente
1 394 0,341 0,355 0,0026 57,8568 26,00 1 1
2 45 0,488 0,533 0,0238 29.2969 34,41 1 0
3 117 0,250 0,255 0,0088 22 .4467 31,00 1 0
4 100 0,567 0,644 0,0103 63,0615 74,10 1 o
5 409 0,487 0,532 0,0025 42,3562 19,00 1 0
6 44 0,580 0,1562 0,0244 67,6723 31,89 1 0
7 61 0,640 0,758 0,0172 55,4344 66,40 1 1
8 968 0,312 0,323 0,001 ‘71,.5576 18,56 1 0
9 265 0,438 0,470 0,0038 72,0906 35,20 1 0
10 65 0,280 0,288 0,0161 40,7565 17,00 0 0
11 254 0,500 0,549 0,004 42,7332 42,20 0 1
12 367 0,441 0,474 0,0027 26,5321 36,90 1 l
13 402 0,390 0,412 0,002.5 48,2919 34,19 1 l
14 308 0,300 0,310 0,0033 60,3184 22,40 1 1
15 680 0,490 0,536 0,0015 32,4214 43,40 1 0
16 112 0,0?2 0,072 0,0092 35,4291 60,00 1 0
17 70 0,656 0,735 0,0149 56,8445 27,80 1 o
18 138 0,390 0,412 0,0074 42.7332 23,80 1 1
19 64 0,558 0,630 0,0164 58,4222 38,46 1 l
20 92 0,190 0,192 0,01 12 29,2969 38,98 0 0
21 60 0,170 0,171 0,0175 35,4291 38,87 1 1
22 197 0,550 0,618 0,0052 54,1869 46,04 1 0
23 119 0,227 0,231 0,0086 63,2661 26,70 1 {l
24 291 0,260 0,266 0,0035 38,2841 38,70 1 n
25 5] 0,1 10 0,1 10 0,0203 62,3160 43,80 1 l
26 102 0,281 0,2239 0,0101 26,9473 39,40 1 0
27 51 0,200 0,203 0,0203 63,4395 19,82 1 n
28 35 41,370 0,388 0,0313 44,4952 20,97 1 1
29 139 0,330 0,343 0,0074 33,9801 34,19 1 l
30 70 0,234 0,238 0,0149 48,4193 33,42 1 l
31 81 0,370 0,388 0,0128 32,7425 23,40 1 1
32 1485 0,259 0,265 0,0007 59,6224 33,93 0 D
33 1753 0,327 0,339 0,0006 33 .6775 33,93 1 l
34 236 0,290 0,299 0,0043 45,3064 19,50 1 1
35 102 0,620 0,725 0,0101 45,6190 45,66 1 0
36 214 0,430 0,460 0,004? 69,7532 35,08 1 0
N: tamm‘io muestral. r“: coeficiente de cortelacién de Pearson. Zr: transformacién a Z de

Fisher dc r“. 59(3): varianza intraestudio de la 2 de Fisher. W“: factor dc ponderacién de
cada TE, definido como la inversa de su van'anza. Edad: variable moderadora edad media de la
mueslra (en afios). Poblacifin: variable moderadora pablacién de reflrencia (0: clinica; 1: no
clinica). Europa: variable moderadma canfinente an el que are realizé e! estudio (0: them de
Europe; 1: en Europa).
La tabla 5.6 pmenta los datos necesarios para aplicar cl modelo de mam-re-
gresién dc EM. El vector de TE, T, figura en la columna etiquetada coma Zr. Las tres
filtimas colmnnas de la tabla (Edad, Poblacién y Continente) contienen los tres pre-
dictores del modelo. Si 3 estas tres columnas se las precede per una columna dc
‘fimos”, tenemos 1a matriz de disefio, 0 dc predictores, del modelo dc meta-regresién,
X. Las varianzas intraestudio de los TE figumn en la columna 6'1(Zr) . Para obtener
los factores de ponderacién, estas varianzas tienen que ser madas a la estimacién de
la vafianza interestudios residual del models, iii”. Aplicando [5.16] obtenemos una
estimacién de dicha varianza: fig” = 0,0133. Por tanto, los factores de ponderacién
se obtienen mediante: if“ = 1/ 6'2(Zr;_) + fin]: ll[6'2(Zr;)+0,0133]- Los valores
que figuran en :53. columns. constituyen los elementos de la mau'iz diagonal Wm,
definida an [5.14].
Las tablas 5.7 y 5.8 present-an los resultados de aplicar los métodos esténdar y de
Knapp-Harumg, respecfivamentc, sabre este mode-lo dc meta-regesién. El vector dc
coeficientes del modelo, hm, es cumin :1 ambos métodos y se obtiene mediante
[5.15]. Si aplicamos el mérodo estdndar (tabla 5.7), 105 611mm tipicos de los coefi-
cientes del modelo, (ii-(b!) , se obtienen calculando la raiz cuadrada de los elementos
diagonales de la man-i2 estimada dc varianzas-covafianzas del modelo, Wf‘ , definida
an [5.18]. Para comprobar si [as tras predictores, tomados conjuntamente, esfin
estadisticamente asociados a 105 TE contrastamos la hipétesis nula Ho: 13 = 0 con el
estadistico Qf‘ , definido en [5.17]. El valor obtenido, Q“ (3) = 14,91, lleva asociada
una probabilidad p = 0,0019, por lo que puede afinnarse que este conjunto dc trcs
predictores esté estadisticamente asociado a 105 TE. El porcentaje dc varianza expli-
cada por el modelo es del 15.29%, segfin el resultado del indice Rim, definido en la
ffirmula [5.27].
El anélisis individualizado de los predictores se lleva a calm con los estadisticos
g (férmula [5.19]). Cada uno de estos permite contrastar la hipétmis nula Ho: Bj = 0.
Se observa que, de los tres predictores, la edad media (21 = 2,49; p = 0,0127) y la
poblacién dc referencia (Z; = 2,39; p = 0,0168) presentan una relacién estadis-
ticamente significativa con 103 TB, una vez cantmlado e1 efecto de los demés pre-
dictores dc] modelo. El signo positive del coeficientc asociado a la edad media indica
que a mayor edad, mayor es la relacién positiva enlre neuroficismo y sintomatologia
dc esh'és postramnético. A su vez, e1 signo positive asociado a la poblacién dc refe-
rencia, teniendo en cuenta cémo se codificé esta variable dicotbmica, indica que la re-
lacién positiva entre neuroticismo y sintomatologia dc estrés postraumético es més
film'te en muestras procedentes de poblacién no clinica, en comparacién con pobla-
cién clinica. Sin embargo, e1 continents donde se ha realizado el estudio no alcanzé 1a
significacién estadistica (Z; = 1,50; p = 0,1327). Observe que estas mismas inter-
pretaciones se alcanzan con los intervalos dc confianza en term a cada coeficiente del
modclo (calculados can [520]).
Tabla 5.7. Resultados del anélisis de meta-regresién mfilfiple para la adad media da las
muestras. la poblacién de referencia y el continents, asumiendo un modelo de efectos
mixtos con el método esténdar.
a o
Predictor b,- 0(1),) Limb: zj p
Intercepts 0,0077 0,1104 -0,2088 0,2241 0,07 0,9447
Edadmedia 0,0051 0,0020 0,0011 0,0091 2,49 0,0127
Poblacién 0,1959 0,0820 0,0353 0,3565 2,39 0,0168
Continents 0,0748 0,0498 -0,0227 0,1724 1,50 0,1327
f“(3) = 14.91 ,p = .0019; 6,1, =0,0133; f2 = 0,0157
95(32) = l38,08,p < 0,0001; Rim = 0,1529
bj: coeficientes del modclo dc regresién. 5-(bj): mores tipicns de los coeficientes del
modelo. Li 1; Ls: limitcs confidenciales, inferior y superior, a] 95% en tomo a los coeficientes
del modelo. A: estadistico de contraste de cada coeficiente del modelo. QR“: estadistico de
contraste del modelo global. QB: estadistico de contraste de la especificacién del mode-lo.
ii”: estimacién de la varianza interesmdios residual. f 2 : estimacién de la varianza inta'és-
tudios total (sin predictores). Rfim : estimacién de la propomién dc varianza explicada por el
modclo.
Finalmente, cl contrasts dc la cspecificacién dcl modelo (Ho: T = XB) con el

estadistico QB definido an [5.9], nos lleva a1 rechazo de la hipétcsis nula y a 13. con-
clusién de que el modelo con estos tres predictores no esté bien especificado, pu-
diendo haber otros predictores relevantes [QE(32) = 138,08; p < 0,0001].
Aplicamos ahora cl método de Knapp-Hanung para contrastar la significacién
astadistica de los predictores del modelo. Como se puede observar en la tabla 5.3, 109
errores tipicos de los coeficientes del modelo, 6-H (b1) , se ohtienen calculando 1a
raiz cuadrada de los elementos diagonales de la matriz estimada. de vaxianzas—cova—
rianzas de los coeficientes, W5" , definida an [5.21]. Obsérvese cémo estos errores ti-
picos son mayores que los obtenidos con el método esténdar (tabla 5.7). El contraste
de la significacién global del modelo se lleva a cabo con el estadistico F: F(3, 32) =
(l4,9l/3)f1,469 = 3,38, p = 0,0300, que alcanza la significacién estadistica, per-
mitiéndonos rechazar 1a hipétesis nula Ho: [3 = 0 de que el conjunto dc predictores no
wté estadisticamentc relacionado con 105 TE. Por tanto, respecto de la significacién
global del modelo, con e1 1116m Knapp-Hartung alcanzamos la misma conclusién
que con 61 111m esténdar. No obstante, el 1116m de Knapp-Hanung ofrece un re-
sultado mfis conservador que el esténdar, a juzgar por los valores p asociados a sus
reapectivos estadisticos dc contraste: p = 0,0300 3! p = 0,0019, respecfivamente.
El anélisis de la significacién estadistica de cada predictor se realiza con los
estadisticos tj dcfinidos en [5.24], can grados dc libertadk—r— 1 = 36 — 3 — 1 = 32. Si
bien con cl método csténdar 1a edad media y la poblacién dc referencia obtuvieron 1m
Capltulo 5. Anélisls de modemdoms continues: meh-mgresidn 157
resultado estadisticamente significativo, con el método de Knapp-Hammg solo 1a

edad media alcanzé 1a significacién estadistica [t1(32) = 2,06; p = 0,0481], con un
cueficiente dc regresién de signo positive. La interpretacién dc los intervalos dc con-
fianza en term a los coeficientes del modelo (calculados con [5.25] conduce a la mis-
ma conclusién: un resultado significativo solo para la edad media.
Finalmentc, la upecificacién dcl modclo se contrasta con cl mismo estadistico
que para el método esténdar: $02) = 138,08, p < 0,0001.
Tabla 5.8. Resultados del anélisis de meta-regresién mfllfiple para la edad media de las
muestras. Ia poblaclén de referencia y el continente, asumlendo un modelo de efectos
mlxtos con el método de Knapp y Hartung.
IC95%
Predictor hi 6-” (bi) Li Ls {i p
Intercepto 0,0077 0,1338 -0,2650 0,2803 0,06 0,9547
Edad media 0,0051 0,0025 0,0000 0,0101 2,06 0,0431
Poblacién 0,1959 0,0993 -0,0064 0,3982 1,97 0,0573
Continente 0,0748 0,0603 -0,0480 0,1977 1,24 0,2238
H3, 32) = 3,38,p = .0300; q = 1,469; ii“ = 0,0133; f 2 =0,0157
93(32) = 138,08, p < .0001; Rim =0,1529
bj: coeficientes del modelo de regresién. 5-“ (b1): errores tipioos de los ooeficiemes del
modelo. Li 3* Ls: limites confidenciales, inferior y superior, a1 95% en tome a los
ooeficientes del modelo. Zj: estadistico de conu'aste de cada ooeficiente del modelo. F:
estadistioo de contrasts del modelo global. QB: estadistico de contraste de la especificacién
del modelo. 6:": estimacién de la varianza interestudios residual. f 2 : estimacién de la
varianza interesmdios tatal (sin predictores). Rim: estimacién de la propomién dc varianza
explicada por el modelo.
5.6. Reflexiones finales

En este capitulo hemos presentado cémo realizar los anélisis estadisticos desde el
enfoque de la meta-regresién. Aunque 10s modelos dc regrwién lineal estén espe-
cialmcntc indicados para analizar cl influjo dc predictores continues, hemos visto con
algfin ejemplo cémo es posible combinar predictores continues y cualitativos en mo-
delos dc meta-regresién. Aunque los predictores cualitativos que hemos utilizado co-
ma ejemplo eran dicotémicos, es perfectamente posible incluir predictores cualita-
tivos con més de dos categofias u subgrupos. En ese caso, coma ocurrc en cualquicr
modelo dc regresién lineal, es precise utilizar algl'm sistema de codificacién “ficticia”
(dummy coding, ween? coding, etc.; Ate y Vallejo, 2007; Pardo y San Martin, 2010)
para rcprcscntar a1 predictor cualitativo con tantos predictorw coma m — l categorlas
tenga. Asi mismo, es posible incluir interacciones entre predictores dentro del modelo
de meta-regresién. También es posible generar modelos jerérquicos de meta-ra-
gresién, en los que el meta-analista fija dc antemano el orden en que los predictores
van entrando en el modelo, de forma que los estadisticos dc contraste presentados en
este capitulo pueden adaptarse para ser aplicados en este tipo de modelos més com-
plejos. Todas estas opciones, y otras muchas més, puedcn abordarsc £16s 103 mode-
los de meta-regresién, pero quedan filera del alcance de este libro. Remitimos a los
textos a1 use sobre el modelo lineal general para profimdizar en estos procedimientos
(Ato y Vallejo, 2007; Cohen, Cohen, West y Aiken, 2003; Pardo y Ruiz, 2012;
Pedhazur, 1997). Por otro lado, aunque los modelos y férmulas que se emplean an
MA 56 suelen exponer de forma que se comprendan bien desde las necesidades y la
filosofia de esta metodologia, no son més que otra forma més dc expresar modelos dc
regresibn clésicus. Rhodes (2012) ha rcsaltado estc hccho y hace una intercsantc re-
exposicién de los modelos y férmulas en términos dc modelos de regresién clésicos.
Otra extensién de los modelos de meta-regresién aqui desarrollados consist: en
aplicar modelos de meta-regresién multivariante (Jackson y Riley, 2014; Van Hou-
welingen, Arends y Stijnen, 2002). En este tipo de modelos el vector dc TE 56 sus-
fituye per una matriz dc TE, donde cada columna puede hacer referencia :1 TE cal-
culados sobre variables (16 resultado diferentes. El programa WTA desarrollado
por White (2009, 2011) en Stata permite hacer este tipo de anélisis.
En el filtimo apartado del capitulo anterior se comentaron algunas de las condi-
ciones que deben darse para poder llevar a cabo anélisis de moderadores en el contex-
to de an MA. En concrete, se hizo hincapié en la importancia de considerar cl nfimero
dc wtudios (0 TE) dcl MA. Este factor es todavia més importante en los modelos dc
EM, ya que la estimacién de la varianza interestudios residual es inestable cuando e1
nfimero dc wtudios cs reducido. Las rccomendacionw que se hicieron en aqucl capi-
tulo se hacen extensivas a los modelos dc meta-regresién: deberia disponerse de al
menos 20 estudios para aplicar modelos de meta-regresién, si bien hacen falta del 01'-
den de 40 estudios para que la estimacién de la proporcién dc varianza explicada con
el indice Rim sea aceptable (Aguinis, Gottfi-edson 3! Wright, 2011; Lépez-Lépez,
Marin-Martinez, Sénchez-Mcca, Van den Noortgate y Viechtbauer, 2014). Otra cues-
tién relacionada con esta es la dctenninacién de cus'mtos predictores se puedcn incor-
porar en un modelo de meta-regresién mfiltiple, ya que la incorporacién de un nfimero
excesivo dc predictores cuando e1 nfimero de estudios es bajo puede dar lugar a un
sobreajuste del modelo. A este respecto, hacemos nuestra la recomendacién de Bo-
renstein et a1. (2009) de limitarse a afiadir a1 modelo un predictor por cada 10 eswdios
que tenga el MA. Asi por ejemplo, en un MA con 40 estudios no seria aoonsejable
afiadir mfis de cuatro predictores al modelo de meta-regresién.
Por filtimo, es importante tenet en cuenta cuéles son los factores que deberian
guiar la decisiém del meta-analista a la hora de elegir e1 modelo estadistico: EF 0 EM.
A este respecto, todo lo dicho en los epigrafes 3.5 y 4.5 se hace extensible a los mo-
delos dc meta-regresién. Asi pues, e1 principal criten’o qua deberia guiar a1 meta-
analista en la eleccién dc] modelo wtadistico a: el grade en quc desea generalizar los
resultados de la meta-regresién (Borenstein, Hedges, Higgins y Rothstein, 2010). Si

105 desea generalizar solo a una poblacién de estudios con caractefisticas idénticas a
las de los estudios meta-analizados, entonces la eleccién serfi cl modelo dc EF. Si, por
el contrario, desea generalizar los resultados a una poblacién mayor de esmdios con
caracteristicas parecidas, pero no idénticas, a l a s de los estudios meta-analizados, en-
tonccs cl modelo dc EM seré cl elcgido. En situaciones realistas, lo mfis probable es
que el meta-analista desee generalizar los resultados a una poblacién mfis general de
estudios. Debe tenerse an enema, no obstante, que los modelos dc EM tienen mayores
requerimjentos en cuanto a condiciones de aplicacién que los de EF (Hedges y Pigott,
2004; Higgins y Thompson, 2004). En particular, la estimacién de la varianza interes-
tudios residual requiem de al menos 20 estudios para que su estabilidad sea aceptable.
For tanto, e1 meta-analista tiene que buscar el equilibrio entre el grade dc generali-
mién que desee alcanzar y cufiles son las condiciones bajo las que tendré que aplicar
el modelo de EM.
Meta-anélisis y psicometri'a
Si bien la utilidad principal del MA ha sido la sintesis dc resultados relacionados con

variables que podriamos llamar “sustantivas”, también se aplica habitualmente a
resultados relacionados con la metodologia y especiahnente con la medicién. La
utilidad de los instrumentos de medida depende de su calidad psicométrica; per 630 se
disefian muchos estudjos para aportar evidencias respecto a sus propiedades. El MA
centrado en estas propiedades integra resultados dc investigaciones pflmarias que
aportan valoraciones de esa calidad. Con esas valoraciones se abordan las mismas
tareas que en 103 MA dc cualquier 01:0 émbito. Se obtienen estimaciones combinadas,
se valora la heterogeneidad de los indicadores de TE y se analiza la asociacién dc wa
heterogeneidad con diversas variables moderadoras. Los procedimientos meta-ana-
liticos se adaptan para que oontemplen las peculiaridades de este campo dc estudio.
En este capitulo vamos a exponer procedimientos para realizar MA relacionados
con tres tépicos de la psicometria. En primer lugar abordaremos 1a validez, exponien—
do las principales ideas propuestas 1101' Hunter y Schmidt (2004). Después tataremos
la otra dimensién principal de la calidad: 1a fiabilidad de las puntaciones qua pro-
porciona 1111 test. Aunquc sabre esta habia algunos antecedcnms, no a: hasta finales
del siglo pasado cuando realmente despega can harm una linen de desan‘ollo
especifico sobre la misma. Por filtimo abordaremos la precisién de los instrumentos
dc clasificacién binaria, de use may extendido proccsos dc cribsje.
6.1. Validez
En el capitulo 1 heme: sefialado ya que a la vez que nacia el MA generalism de Glass
aparecié la corriente meta-analitica de Hunter y Schmidt (2004; Schmidt y Hunter,
1977). Esta corriente se centra en el estudio de la validez de las mediciones en psico-
logia. Desde e1 principio adoptaron el nombre especifico de generalizacién de la va-
lidez (GV), aunque siempre han considerado que esta forma parte del MA (Murphy,
2003; Sénchez—Meca, 1999).
El trabajo dc Hunter 3? Schmidt 110 ha consistido solo en analizar y proponer pro-
cedimientos para alcanzar respuestas cuantitativas integmdas respects a la validez de
los tests, sine qua también han desempefiado un papal muy destacado en el debate
sabre [as técnicas estadisticas que se emplean en psicologia, especialmente el contras-
te de hipétesis (Schmidt 3; Hunter, 1997). Esta perspecfiva se aprecia también en sus
propuestas, que de fauna congruent: con esa posicién relega los oontastes de- Mp6-
tesis a un papel secundario, cuando no los descarta directamente.
Las propuestas dc cstos automs sc empczaron a 00110c 611 varies articulos de
los afios 70, se desarrollamn macho en los 80 y se concretaron en su libro Methods of
meta-analysis: correcting ermr and bias in research findings, publicado en 1990, del
que aparecié una segunda edicién en 2004 y recientemente se ha publicado la temera
(Schmidt 3; Hunter, 2015). La GV tiene en comfin con el MA generalista que emplea
técnicas estadisticas para combina: estimaciones del coeficiente dc validez de un test
(este es su indice de TE) y para analizar la eventual heterogeneidad observada en
ellos. U11 coeficiente dc validez no es otra cosa que un coeficiente de correlacién entre
las puntuacioncs quc ofi‘ecc 61 test cuya validez se quicrc valorar (X) y un criterio dc
validacifm (Y) (Abad, Olea, Ponsoda y Garcia, 2011; Martinez-Alias, Heméndez-
Lloreda y Heméndez-Lloreda, 2006; Mufiiz, 1993). Par tanto, coma en este campo se
emplea coma indice de TE un coeficiente de correlacién de Pearson se podrian aplicar
todos los procedimientos que ya hemos descfito, a1 exponer el uso de r coma mdice
dc TE.
Sin embargo, cste enfoque tiene dc peculiar que, antes de analizar los coeficien-
tes, estos son tratados de formas especiales para corregir las distorsiones que ciertos
factores muy Genocidos en psicometria pueden haber producido en las estimacionw.
Precisamente, una de las principales aportaciones del trabajo dc Hunter y Schmidt es
la toma dc conciencia de la enorme cantidad dc artefactos que influycn en las esti-
maciones de la validez obtenidas a1 aplicar los tests can diferentes objetivos y en dis-
tintos contextos. Tras identificar una variedad dc fuentes (16 error que actt'lan atenuan—
do 138 correlaciones, proponen procedimientos para realizar la tarea inversa, la dc
desatenuacifin, estimando las correlaciones que se hubiesen obtenido si no hubieran
estado presentes esos factores. En este apartado vamos a exponer cuéles son 6503
factores dc atenuacién y los procedimientos dc desatenuacién asociados, para
posteriormente abordar cl MA de los cueficientes dc validez. Conviene también
explicitar desde el principio que Hunter 3; Schmidt asumen en todo memento modelos
dc efectos aleaxorios. Para ellos las variaciones observadas en los coeficientes dc vali-
Capitulo 6. Meta-aMIIsis y psicomelria 1E3
dez obtenjdos empiricamente se deben a dos fuentas diferentes: variaciones en los

valores paraméu'icos de los distintos estudios y variaciones debidas al muestreo.
6.1.1. Atenuacién y desatenuacidn de coeficientes d9 validez
E1 punto dc partida dc su argumentacién es el reconocimiento dc que en la obtcncién

de un coeficiente dc validez intervienen m1 conjunto dc factores (en este contexto se
llaman “artefactos”) que contaminan su estimacién. La correlacién observada 0 ate-
nuada (p0) es manor que la correlacién en ausencia de esos artefactos (p). E1 efecto
que tiene un artefacto sobre la estimacién de la validez se expresa como un multi-
plicador:
A, =a-p [6.1]
donde 0 < a S 1. Como e1 multiplicador del artefacto reduce e1 coeficiente de corte-
lacién, e1 efecto es de atenuacién. Cuanto mayor es el efecto atenuador de un arte-
facto, manor 3 el coeficiente observado. Si en un estudio hay varias fuentes dc error
entonces sus efectos de atenuacién se aplican de forma independiente sobre el coefi-
cientc “pure”. Como habitualmente en cada estudio intervienen vafios artefactos, e1
efccto colcctivo dc cstos sc represcnm put A, que es el producto de los cocficientes dc
atenuacién de los diferentes factores:
pa=a,-a2-as-...-p=A-p [6.2]
sicndo A = at;- (12- 03- (0 < ai S 1). Para Hunter 3! Schmidt, una parts del trabajo del
meta-analista consists en conseguir informacién relevante con la que “desatenuar” los
cueficientes aplicando de forma inversa los coeficientes a las estimaciomm obser-
vadas:
p = 19% [6.3]
En cada MA habré que identificar las fuentes de atenuacién presentes, localizar

la infonnacién adecuada y suficiente para contrarrestarlas y ajustar los coeficient/es,
desatenuéndolos. Estes rcciben cl nombrc dc cocficicntes corregidos (re) 0 ajustados.
Las 10 fuentes de artefacto més frecuentes seglfm Hunter 3! Schmidt son las siguientes.
Cada [heme se identifica con un subindice en el coeficiente. Aqui seguiremos 1a 1111-
meracién de Schmidt, Le y 0h (2009):
1B4 Meta-analisis en Ciendas Soclalea y de la Salud
:1) Error aleatorio de medida en el criteria ()9. Se acepta que la medida que se
emplea como criteria dc validez no tiene una fiabilidad perfecta. Un
conucido efecto de esta fiabilidad hnperfecta es que limita los valores del
coeficiente dc validez. E1 coeficiente dc fiabilidad del criteria ( J; ) es el
primer factor de atenuaciéu:
a1 = 5 [6.4]
11) Error aleatan'a de medida en el test (119. La impetfecta fiabilidad del propio
test que se esté estudiando es un factor dc limitacién de su validez (Abad,
Olen, Ponsoda y Garcia, 2011). El coeficiente de fiabilidad del test ( J ; )
a el segundo factor de atenuacién:
a: = J; [6.5]
Per tanto, la estimanién de la validez de un test, rxy, se ve atenuada por las fia-
bilidades tanto del test coma del criteria. Una estimacién dc 1m coeficiente
dc validez (p) que solo se viera afectada por estos dos factores quedaria
atenuada segt'm la expresién: p9 = A- p = 5.51,. Los coeficientes corre-
gidos se obtienen despejando: A = Po/ [,3 . r” .
c) Dicotomizacién unificial de la variable criteria en dos proporciones, p y :3.
En este case el coeficiente seria 1a constante biserial, que se puedc ohtener
en las tablas que se ofrecen en algunos libros dc estadistica o psicomclria
(12.3., Abad, Olea, Ponsoda y Garcia, 2011; Amén, 1993):
=¢(c) [6.6]
a’ / 1/10,. "I,
También se puede calcular coma ¢(c) = (cm/d2 - 1r , donde c es el

valor que sc correswnde con el punho de corte en una disuibucién N(0;1)
que dicotomiza e1 firea en proporciones p y q.
a) Dicotomizacién artificial del rest en dos proporcionav, p y :1. Se train del
mismo factor que en cl punts anterior, pero referida a1 propio test cuya
validez se esté estudiando:
=¢(c) [6.7]
a‘ /J x 1,
Capitulo 6. Meta-aMIIsis y psicomelria 165
e) Validez de constructo imperfizcta del criteria. La vafldez de constructo es la

correlacién de la medida del criteria con el consn'ucto real que pretende
reflejar. Asi, a5 podria set In correlacién entre- las valoraciones que hacen
unos supervisorw del rendimiento laboral con la medida criteria.
f ) Validez de constructo imperfecta del rest. Igual que en el punto anterior, pero
referido 111 test. Asi, a6 podria set 1a correlacién cntre 1111 test de velocidad
de procesamiento que estamos valorando y la capacidad cognitiva general.
g) Restriccién the range an X. Un mnocido factor de reduccién de una
correlacién es la restriccién del tango de sus puntuaciones. Al reducir 1a
varianza 1a correlacién también se reduce. Esta relacién se aplica en este
punto a las eventuales restricciones de tango en las medidas del test (X).
Como es bien conocido (Abad, Clea, Ponsoda y Garcia, 2011), el valor de
3-, depends dcl cocientc entre las dcsviaciones tipicas en la poblacién
restringida y en la poblacién no restringida, U = SHE/SM“. Una com-
plicacifin especial en este case es que el factor multiplicador depende del
propio valor de ,0. Naturalmente, para el trabajo préctico se emplearé 1a
correlacién observada (atenuada) e11 lugar de la desatenuada:
07 = Ur— [6.8]
JUf'p-pf
El valor que se sustituye en esta férmula para pa es la estimacién
media de todos los estudios sin corregir. De esta fauna, las variaciones
cntrc los estudios en cl cocficiente a; se deben exclusivamente a sus
diferencias en cuanto a la magnitud de la restriccién en el test (Ux).
Hemos asumido que la restriccién en el tango se produce
directamente en el test. Sin embargo en muchas ocasiones la seleccién se
produce indirectamente, mediante otra medida qua correlaciona
positivamente con 61 test 0 mediante mecanismos especiales dc
reclutamiento. Mantras en situaniones de restriccién directa se utiliza 1a
ffinnula [6.8] cu situaciones dc resniccién indirecta hay que hacer célculos
adicionales, més complejos, que contemplan el cociente entre las puntua-
ciones verdaderas dc ambas medidas, que hay que estimar previamente.
Remitimos a Hunter y Schmidt (2004) para consultar una exposicién més
detallada.
h) Restriccién de range en Y. Al igual que en el punto anterior, se pueden
producir restricciones de range en el criteria. El valor de a; depends
también del cociente entre las desviaciones tipicas en el criteria por parte
de la poblacién restringida y de la poblacién sin restringir. De nuevo
aparece la complicacién especial de que el multiplicador depende del
propio valor de p, put lo que volvemos a recurrir a1 valor medio de p0,
Ur [5.9]
a3= U2. 2 1_ 2
y p0+ p0
Volvemos a resaltar la diferencia ultra 1a resuiccién direcln e

indirecta, sefialando que la férmula [6.9] se aplica en cases de restriccién
directa. Ademés, Hunter 19* Schmidt (2004) subrayan dificultades
adicionales mando se oorrige el mismo coeficiente por restriccién dc tango
en ambas variables, proponiendo férmulas especificas para esta
circunStancia.
1') Sesga en el coq‘iciente de carrelacién. Se refiere a] wnocido factor dc
inflacién de los coeficientes de correlacién, cuyos efectos se consideran
despreciables con N > 20, para que en procedimientos automatizados dc
célculo se suele incluir para ser aplicado rutinariamente. En concrete,
as =1_ll‘_P2l [6.10]
(2-N—2)
j) Variacioua! especificas producia'm par 61 estudio. Se refiere a artefactos

concretos de un estudio, introducidos por sus caracterisficas especificas.
En la tabla 6.1 prescntamos 1m ejemplo numérico con 10 estudios que aportan

estimaciones independjentes de la validez de un mismo test. En las dos columnas de
la parte izquierda aparecen los tamafios muestrales y los coeficientes de validez empi-
ricos. Un MA con coeficientes sin ajustar se podria hacer con estas dos columnas. Co-
mo veremos mas adelante, Hunter y Schmidt han defendido con insistencia 1a pon-
deracién directa por N; siguiendo esta tecomendacién, la correlacién media de los
coeficientes observados (atenuados) es igual a (adelantamos este célculo porque més
adelante serfi necesario para obtener up),
n, = Z ,rm =472,80=0’2865
EN, 1650
Para aplicar los procedimientos dc Hunter y Schmidt con coeficientes corregidos

(desatenuados) hemos incluido las tres columnas del cuerpo central de la tabla: 1a
fiabilidad del criteria y del test y la razén entre las desviaciones tipicas de los valores
en las muestras de trabajo y las poblaciones de referencia. La fiabilidad que aparece
en cada estudio es distinta, ya que aunque se emplea el mismo test esta varia dc unas
aplicaciones a otras. Estamos supom'endo que en cada estudio se ha estimado la fia-
bilidad con sus propios datos y aportan el coeficiente en el informs correspondiente.
LO mismo ocurre con la fiabilidad del criteria. En la tercera columna de esta parte los
valores 1 indican qua no hay restriccién de tango (las desviaciones tipicas de la mues-
Capitulo 6. Meta-aMIIsis y psicomelria 1E7
tra de trabajo y la de la poblacién de referencia son iguales) mientras que los valores
inferiores a 1 reflejan una resu'iccién de tango. En la columna final apareoen los coe-
ficientes corregidos.
Tabla 6.1. Ejemplo da dasatanuadfin de ooeficienms de validez.

Esmdio N r, 735. 1",; Sm/Sno m: re
1 120 0,392 0,750 0,824 0,825 0,599
2 50 0,308 0,790 0,856 1 0,378
3 35 0,406 0,740 0,784 0,750 0,698
4 125 0,303 0,770 0,770 1 0,395
5 85 0,218 0,800 0,870 0,900 0,289
6 70 0,561 0,830 0,823 0,800 0,834
7 750 0,238 0,756 0,814 1 0,304
8 140 0,401 0,794 0,835 0,650 0,721
9 95 0,153 0,720 0,792 1 0,204
10 180 0,285 0,800 0,790 1 0,359
Veamos con dctallc los calculos relatives al primer mtudio, a mode dc cjemplo.
Los coeficientes de atenuacién correspondientes a la fiabilidad del test y el criteria, a
la restriccién de tango y el ajuste por sesgo, asi como el coeficiente combinado, son
a, =1/o,7so =0,8660 a, = 0,324 =o,9o77

_ 2
a7 = "325 =o,ssso a,=1— 1 "392 =0,9964
40,8252 0,2865: +1—o,28652 (2-120-2)
A = 0,8660-0,9077'0,3360*0,9964 = 0,6548
Esto significa que para el primer estudio e1 efecto combinado de atenuacién de

los factores contemplados implica una reduccifin del 34,52% en el coeficiente de co-
rrelacién: (l — 0,6548)- 100. La correlacibn corregida o desatenuada de este estudio as
3",; = r., /A = 0,392 / 0,6548 = 0,599
En ocasiones los efectos de estos coeficientes se van aplicando dc manera se-

cuencial, de forma que 8.] llegar a los factores en los que estzi involucrada la propia
conelacién el resultado puede vafiar ligermnente. P01" ejemplo, en el primer estudio
de la tabla se podria obtener primero e1 efecm combinado de los tres primates
factores, qua seria igual a 0,8660—0,9077-0,8360 = 0,6572; la correlacién desatenuada

con respecto a estus tres factores as 0,3921 0,6572 = 0,5965; sustituyendo abora ese
valor en a; da igual a 0,9973 3; la correlacién corregida por todos los factores seré
0,5965 / 0,9973 = 0,598, un valor casi indistinguible del obtenido més arriba.
6.1.2. Meta-ana'II'sis de con'elaciones con-egidas
E1 objetivo principal de un estudio de GV es estimar la validez de un test. Como por

razones tanto histéricas come conceptuales nunca sc- asume un modelo dc efecto fijo,
sine uno de efectos alcatorios, est: objetivo se induce en obtencr una estimacién de la
validez media de las aplicaciones del test (p.) y de la varianza de los valores dc vali-
dez de esas aplicaciones (a: ). Con estos dos dates se puede proporcionar la informa-
cién necesaria: e1 valor poblacional medic y (:1 grade de oscilacién esperado en la va-
lidez poblacional de un conjunto de estudios primaries similares.
Para proceder se obtienen las correlaciones corregidas (como hemos indicado en
el apartado anterior), la correlacién corregida media 3! la varianza de las correlacionw
poblacionales (con-igiendo por el error dc muesh'eu). Veamos cada uno de estos
pasos.
1. Coeficientes corregidos. Asumiendo que los informes publicados en la

literaulra sabre validez aportasen toda la informacién que debieran, de cada
astudio (i) se dispondria de HES valores (aparte de la informacién relativa a
las variables moderadoras que se van a analizar): r0,- (con'elacién empirica u
observada en el estudio, o correlacién atenuada), Ai (multiplicador dc
artefactos compuesto del estudio) y M- (tamafio de la muestra). Tras aplicar
las fénnulas de desatenuacién segl’m hemos expuesto en el epigrafe 6.1.1,
también habremos calwlado para cada estudio rd (conelacién corregida o
desatenuada del estudio).
2. Correlacién corregida media. La estimacién combinada se obtiene mediante
la integracibn de los resultados de los estudios localizados. Con e110 se
conseguiria representa: 1a validez del test con un finico valor. Siguiendo la
misma légica que en otros campos del MA, no se debe dar a todos los
estudios la misma importancia, sino que se deben ponderar en fimcién de
algfin criteria; de nuevo, el més remmendado seré alguno basado en el
tamafio de la muestra empleada, pero en este case 56 recomienda incluir e1
tamafio del artefacto compuesto del estudio. Por ejemplo, siendo otras
cosas iguales pal-ace razonable dar més peso a los estudios con més
fiabilidad. Hunter y Schmidt (2004) recomiendan emplear,
W1=N:'A:2 [611]
Capitulo 6. Meta-anéllsis y psicomelria 159
donde A,- ya ha sido definida més an-iba. También se puede ponderar solo con el
tamafio de la muestra, hacienda equivaler los pesos a los tamafios, w,- = M.
En cualquier caso, la férmula de la conelacién conegida media tienc la
misma estuctura que ya vimos en el capitulo 3:
k
W-‘P'
l
E ’ “
" : —
[6.12]
sabiendo que para obtcner mtimaciones pondcradas solo por el tamafio de

la muestra basta hacer w; = M, mientras que para tenet en cuenta los
artefactos en las ponderaciones se usaria [6.11].
La férmula de combinacién [6.12] nos proporciona la mejor afi-
macién de la correlacién poblacional corregida media. Si trabajésemos can
coeficientes sin corregir e1 sesgo dc infi'aestimacién podria set de una
magnitud bastante importante. Hunter y Schmidt (2004) destacan que con
bastante aproximacién las correlaciones medias comegida y sin corregir se
relacionan mediante,
r” = r'/Z [6.13]
donde en el denominador aparecc cl promedio do 105 artefactos compuestos

de los estudios.
3. Varianza de la: correlaciones caflegidas. Se trata de estimar la varianza
poblacional de los coeficientes corregidos, una vez eliminado cl
components dc error dc muestreo. Como el procedimiento es alga mas
complejo remitimos a1 lector a alguna dc las fuentes citadas para consultar
su justificacién, limiténdonos aqui a describir 10s pesos que se deben
segmr.
El primer paso consists en obtener 1a correlacién media de los
coeficientes conegidos (ponderando segfin [6.11]),
ror: —_ 2m
W,
[6.14]
Después se obtiene la estimacibn de la varianza de los errores de

muestreo en los coeficientes corregidos (asumiendo Im fmico valor de
correlacién sin corregir),
170 Meia-anéllsis en Ciendas Soclalee y de la Salud
1 — 2
.0
v,= ”1" A: [6.15]
lo que permite obtener una estimacién de la varianza de mar media de los

coeficientes conegidos:
v =_Z“’*“"
a 2 WI [6.16]
La varianza total de los coeficientes se obtiene mediante
ZW; ' rig - m2 [6.17]

Var(n)= *
2W:
[=1
For tanto, la estimacién de la varianza poblacional de los verdaderos

efectos se obtiene como la diferencia entre la varianza total 3* 1a varianza
media do error:
“3:17am;H, [6.18]
La conclusién final se bass. en los valores obtenidos an [6.12] y
[6.18], este filtimo habitualmcnte expresado en su raiz cuadrada, como una
desviacién tipica.
Hunter y Schmidt han insistido macho en que los procedimientos de la esmdis-

tica inferencial clésica son poco fitiles. En congruencia con esta posicién han propues—
to expresar los resultados en términos de intervalos dc credibilidad, distinguiéndolos
de los clésicos intervalos dc confianza. E1 intervalo de confianza proporciona un ran-
go cle valores que con una confianza del (l-a)% contiene e1 valor media poblacional.
Sin embargo, como se asume un modelo dc efectos aleatorios es probable que a] valor
poblacional de un estudio particular quede fuera de ese intervalo. El intervalo dc cre-
dibilidad se refiere al tango probable en el que se encontrara't e1 valor poblacional del
préximo estudio particular. Asumicndo que los valores dc con‘clacién poblacional se
ajustan a una distribucién normal y mediantc los valores obtcnidos con [6.12] y [6.18]
se puede establecer un intervalo de credibilidad con el porcentaje que se desee.
Hunter 3? Schmidt (2004) han empleado can frecuencia intervalos del 80%, calculando
para e110 las estimaciones de los percentiles 10° y 90° de la distribucién poblacional
d6 coeficientes. Con 6110 establecen conclusiones formuladas como “el coeficiente p0-
Capitulo 6. Meta-anallsis y psicomelria 171
blacional en este tipo de estmfios seré al menos igual a rim —l,28-éi"o en e190% de
las ocasiones” [i128 son los valores de la distribucién N(0;l) con percentiles 10 y
90].
Veamos 1m ejemplo para 10: coeficicntes corregidos de los mismos cstudios de
la tabla 6.]. En la tabla 62 se incluyen los calculus de cada paso.
Tabla 6.2. Ejemplo da slntesls da coaficlanhas de validaz corregidos.

Est. N r0 A re w Why 1; WV W'(rc"'u)2
1 120 0,392 ,6549 0,599 51,47 30,81 ,0165 ,8497 2,6118
2 50 0,308 ,8147 0,378 33,19 12,55 ,0259 ,8598 ,0007
3 35 0,406 ,5747 0,698 l 1,56 8,17 ,0750 ,8674 1,2833
4 125 0,303 ,7672 0,395 73,57 29,06 ,0115 ,8494 ,0345
5 85 0,218 ,7525 0,289 48,13 13,94 ,0177 ,8526 .3363
6 70 0,561 ,6679 0,834 3 1,22 26,23 ,0274 ,8548 6,8006
7 750 0,238 ,7840 0,304 460,96 139,94 ,0018 ,8437 2,2405
8 140 0,401 ,5406 0,721 40,92 30,35 ,0207 ,3486 5,5544
9 95 0,153 ,75 12 0,204 53,61 10,92 ,0159 ,8515 1,5427
10 180 0,285 ,7929 0,359 113,18 40,68 ,0075 ,8473 .0218
2 917,80 342,63 8,5247 20,4264
Con la férmula [6.11] obtcncmos la columna dc pesos, w. Tras calcular la co-

lumna de productos entre [05 pesos y los coeficientes corregidos surnames ambas
columnas y sustituimos en la férmula [6.12] para obtener la correlacifin cormgida
media:
nc __342,63
— = 0,3733
917,30
Con la férmula [6.15] obtenemos la columna v, con las valianzas de los arrows
dc mueslreo de los coeficientes corregidos (e1 valor de correlacién media observada
es igual a 0,2865; ya lo habiamos calculado para poder obtener (1}). Con la suma de
estos valores multiplicados por sus pesos (recordemos que se pondera par N: ”4:2 ),
que aparecen en la siguiente colunma, sustituimos en la fémmla [6.16]:
v _ 3.5247 = 0,0093
' 917,30
En la filtima columna de la tabla calculamos los valores del numerador de la

férmula [6.17]. Sustituycndo on 653 férmula obtenemos 1a varianza de los coeficientes
corregidos:
_ 20,4264 = 0,0223
Var{r;_.) 17 80
La estimacién de la varianza poblacional de las correlaciones corregidas es:
8: =0,0223—0,0093=0,013; 6p =0,114
En resumen, las estimaciones indican quc la conelacién poblacional corregida

tiene como media 0,373 3? desviacién tipica 0,114. El intervals de credibilidad del
80% tendré 1m limite inferior igual a
Lima = 0,373 -1,23-0,114 = 0,227

La conclusién es que el coeficiente poblacional en este tipo de wmdios seré al
menos igual a 0,227 en el 90% de las ocasiones.
6.1.3. Atenuacién y desatenuacién a nive! dc! meta-anélisis
Los procedimientos descrims en los apartados antefiores asumen que todos o casi to-
dos los estudios proporcionan suficiente informacién come para corregirlus adecuada-
mente. Sin embargo, lo més fiecuente es que haya un nfimero no despreciable de estu-
dios de los que no se disponga de esa informacién. Dejar sus coeficientes sin atenuar
podria tenet un importante efecto de sesgo a la baja. Hunter 31 Schmidt (2004) han
propuesto un procedinfiento para afiontar estos cases que se basa escncialmcnte en
promediar cl tamafio de los coeficicntes dc atenuacién y aplicar esos coeficientcs me-
dios a todos los estudios.
Para aplicar este procedimiento es necesario contar con un nfimero suficiente dc
estimaciones de esos artefactos y trabajar con su distribucién. Ademés, implica asu-
mir que los valores de estos artefactos en los esmdios son independicntes entre si e in-
dependientcs respecto a1 valor dc correlacién poblacional de cada estudio. En estas
condiciones es posible obtener una buena estimacién del “artefacto media” y aplicarlo
a todos los estudios coma coeficiente de correccién. Posteriormente se emplea mm 16—
gica similar a cuando se hacen correcciones individualizadas en cada estudio, des-
componiendo 1a varianza de los coeficientes observados en varies términos, uno de
10s cuales es la buscada varianza de los coeficientes poblacionales corregidos. Las

conclusiones se establecen en términos similares a los del epigrafe anterior.
6.2. Fiabilidad
A partir de la publicacién de un articulo dc Vacha—Haase (1998) se impulsé consi-
derablementc e1 dcsarrollo de una linea analog: 3 la de Hunter y Schmidt, pero en el
estudio de la fiabilidad. Debido 3. ese paralelismo ha recibido el nombre de Generali-
zacién de la Fiabilidad (GF) (Sénchez—Meca y Lépez-Pina, 2008). En su primera dé-
cada 1a publicacién de este tipo de MA crecié considerablemente (Sinchez-Meca,
Lépez-Pina y Lépez-Lépez, 2003).
El enfoque de la GF toma come punto de partida e1 reconncimiento de que- la
fiabilidad, contrariamente a lo que creen muchos investigadores, no es una propiedad
inherent: a1 test. M518 bien, es una propiedad de las puntuacioncs obtenidas con un test
determinado y en unas circunstancias particulates. Con fi'ecucncia los autores de in-
vestigaciones primarias justifican la eleccién de sus instmmentos de medida adu-
ciendo e1 valor dc fiabilidad que se ofrece en el manual del test, obtenido en la fase de
construccién y baremacién. Esta préctica ha sido denunciada por Vacha-Haase y otros
autotes bajo e1 ténnino dc induccidn de lafiabilidad. Es decir, del hecho de que se ha-
yan publicado ciertos valores de fiabilidad se induce la misma fiabilidad para otras
aplicaciones del mismo test.
El debate generado sabre csta cucstién, en términos dc psychometric: versus
damen'ics (Thompson y Vacha-Haase, 2000) ha favorecido la toma dc conciencia
de que la fiabilidad de una punmacién estfi ligada a1 test an si, pero también a las cir-
cunstancias de su aplicacién, a] perfil social de los participantes, a su edad y com-
posicién por sexes, etc. For eso es importante que cuando sc emplea un test para una
investigacién siempre se obtenga y se publique la estimacién de la fiabilidad obtenida
en esa aplicacifm.
Como en otras forms de MA, 103 dos objetivos principales de un estudio de GF
son obtener estimaciones combinadas de la fiabilidad a partir de los coeficientes ob-
servados en los estudios primaries y estudiar la capacidad de las fuentes dc variacién
reflejadas en las variables moderadoras para cxplicar las variaciones en los coefi-
cientes de fiabilidad obtenidos. Sin embargo, hay una diferencia importante entre los
estudios dc GF y otras formas dc MA. En general, suelen ser bienvenidos 105 MA que
muestran que hay variables moderadoras asociadas con tamafios del efecto dc difcren-
te magnimd. Estas matizaciones mejoran nuestra comprensién de los fenémenos bajo
estudio y sefialan lineas dc investigacién fimn'as (Borenstein, Hedges, Higgins y
Rothstein, 2009; Cooper, Hedges y Valentine, 2009; Lipsey y Wilson, 2001). En
cambio, en los estudios dc GF lo que a bienvenido es el resmtado opuesto. Como se-
fialan Botella y Ponte (201 1), la ausencia de variaciones en los coeficientes explicadas
mediante variables moderadoras es una buena noticia para el test. Revels. solidez en
los constuctos y constituye una evidencia de validez de las puntuaciones que ofi‘ece.
6.2.1. Varies faunas de fiabflidad
Sc entiende por fiabilidad cl grade en que las mediciones son esmbles y rcplicables
con distintas formas del test 3: en diferentes mementos y condiciones (Abad, Ole-a,
Ponsoda y Garcia, 2011). Dentro del mama de la Teoria Clésica de los Tests se- han
propuesto esencialmente tres formas dc abordar de fonna préctica 1a valoracifin de la
fiabilidad, qua atienden a fiaentes distintas dc vafiaciém en los coeficientes (Cracker y
Algina, 1986; Feldt y Brennan, 1989). Por un lado, la correlacién entrefomms para-
!elas del test proporciona informacién del grado dc equivalencia entre versionas
diferentes del test que incluyen items distinms. Por otro, la correlacién entre dos ad-
ministraciones del mismo test a las mismas pcrsonas en dos mementos distintos, o
fiabilidad test-retest, proporciona informacién sobre la estabflidad temporal de las
mediciones. Por filtimo, la consistencia intema se refiere a1 grade en que los ele-
mentos del test miden el mismo constructo.
Para poder hacer estudios dc GF cs necwario disponer dc investigaciones pri-
marias que proporcionen estimaciones empiricas independientes de la fiabilidad. Ho-
gan, Benjamin 3; Brezinsky (2000) estudiaron la frecuencia con la que los autores de
los estudios primaries proporcionan esa informacién y encontraron que lo hacian muy
pocu y que cuando se hacia se infomaba mayoritariamente del coeficiente alfa de
Cronbach (1951), que 113d la consistencia intema. Pocas veces se proporcionan coe-
ficientes test-retest 0 de formas paralelas. Esto significa que aunque en teoria se pue-
dcn (y deben) hacer estudios dc GF para 105 trees tipos dc fiabilidad, en la précfica es
frecuentc que solo se disponga dc infonnacién adecuada para meta-analizar cocfi-
cientes de consistencia intema (Vacha—Haase y Thompson, 2011). En una revisién
sobre los estudios de GF realizados en casi una década Sénchez-Meca, Lépez-Pina y
Lépez-Lépez (2008) confirman este masivo predominio del coeficiente alfa.
Aunque al principio a veccs se mezclamn los tres tipos dc coeficientes hoy hay
un consenso en que no se debe hacer asi por dos razones principales (Henson y Thom-
pson, 2002). La primera es que los distintos coeficientes vienen en diferentm
métricas. Mientras los coeficientes de fiabilidad de faunas paralelas y test-retest son
coeficientes de correlanifin dc Pearson, e1 coeficiente alfa no lo es. A los dos primeros
se les podrian aplicar los procedimientos ya descritos en los capiuflos precedentes
para r, mientras que para meta-analizar coeficientes de consistencia interna hay que
empleaI procedimientos distintos. La segunda razfin es que se refieren a fuentes de
vafiacién dc diferente namraleza (Dimiimv, 2002) y reahnente implicaria mezclar
peras con manzanas.
6.2.2. Desarroflo de un estudio de generalizacién de la fiabifidad
Los pasos que se siguen son similares a los de otras formas de MA (Sinchez-Meca,
Lépez-Pina y Lépez-[fipez 2009). Tras especificar e1 teat cuyas mediciones se pre-
tenden meta-analizar se hace una bfisqueda de estudjos que aporten estimaciones de la
fiabiljdad. Con los estudios recuperados se registran los coeficientes y tamafios mues-
trales, pero también se codifica el tipo de fiabilidad estimada y todas aqucllas varia-
bles moderadoras que pudieran explicar una parte de la variabilidad que se observara.
En esta fonna de MA es frecuente que scan relevantes coma variables moderadoras
las diferentes versiones de un mismo test, las caracteristicas psicolégicas y
sociodemogréficas de los participanteS, los diferentw contextos dc aplicacién, etc. Las
estimaciones de la fiabilidad no aparecerén 5010 en estudios de validacién del test.
También habré. estudios en los que 61 test se emplea para medir los resultados de una
intervencién, para comparar lincas base en fase pretratamiento, come medida de co-
variables, etc. E1 objetivo del investigador es indiferente a este respecto. Lo finico re-
levante es que se haya aplicado e1 test y se proporcione una estimacién de la fiabilidad
de sus puntuaciones.
Tras aplicar los procedimientos correspondientes las conclusiones se referirén a
la fiabilidad media de las punmaciones obtenidas con 61 test y su grade dc heteroge-
neidad, asi como a1 grado en que esta se relaciona con las variables moderadoras. Por
ejemplo, Lépez-Pina, Sénchez-Meca y Rosa-Alcézar (2009) hicieron un estudio de
GF sobre la escala dc Hamilton para la depresién, concluyendo que la heterogeneidad
observada en los coeficientes esvé asociada a1 nfimero de items, a la varianza de las
puntuaciones muestrales y a] tipo de desorden esmdiado en la muesfla. Igualmente,
Botella y Ponte (2011) publicaron un estudio de GF sobre el test de Beck para la
depresién (EDI) en el que concluyeron que la fiabilidad de las puntuacionw quc
proporciona el test ha ido mejorando significativamente en las sucesivas versiones pu-
blicadas del mismo.
6.2.3. Problemas en los estudlos d9 generalizaclén do [a flabmdad
Los estudios de GF presentan algunas dificultades particulates que hay que afi‘ontar
adecuadamente. Vamos a detenernos en tree de ellas: 1a eleccién del indice dc TE, la
cuestién de la ponderacién y el problema de la heterogeneidad de las varianzas de los
estudios.
1. El tamafio del efecto en Ios astudios de GF. Cuando 61 MA se refiere a

coeficientts dc conelacién dc Pearson (fonnas paralelas o test-retest) se
pueden emplear 10s procedimientos que ya hemos descfito en capitulos
anteriores. Sin embargo, cuando se trata de coeficientes dc consistencia
176 Meia-anélisis en Ciendas Soclalea y de la Salud
intema (que casi siempre sari e1 coeficiente alfa dc Cronbach) se debe em-
plear alguna transformacién con distribucién conocida, ya que el coefi-
ciente simple no se ajusta a ninguna de las distribuciones més comfinmente
empleadas (Sénchez-Meca, Lépez-Lfipez y Lépez-Pina, 2013). Se han pro-
puesto al menos dos. La primera es la de Hakstian )7 Whalen (1976) y que
han popularizado Rodriguez y Macda (2006). Su férmula y la de su va-
rianza las hemos indicado ya en el epigrafe 2.5.3, para las repetimos aqui
par comadidad (N es el nfimero de participantes 0 respondientes y j es el
nfimero de items):
TH, =(1—as)“3 [6.19]
Vr =18-j-(N—1)-(1-a)“3 [620]
H” (j—1)-(9-N-11)2
Una alternativa es la transformacién sugerida por Bonett (2002), que

consist: en calcular e1 logaritmo natural del complementario del
coeficiente. Aunque [as fbrmulas también fueron indicadas an 2.53 de
nuevo las repetimos aqui (N yj representan lo nfismo que en [620]),
1;, =Ln(l-rz) [6-21]
_ L [6.22]
v"'(i—1)-(N—2)
Veamos un ejemplo numérico con los datos de la tabla 6.3, que se
refiere a cuatro wtudios incluidos en 61 MA dc Botella y Pontc (2011) y
que informan de la consistencia intema de aplicaciones de la primera
versién del test de depresién BDI, de 21 items. En 13. parte izquierda se
muestran los coeficientes alfa obtenidos, los tamafios de las muestras y el
nfimero dc items. En 121 parts central aparecen las transfonnaciones hechas
mediante [6.19] y [as varianzas obtenidas mediante [6.20]. En la parte
derecha se hace lo mismo con las férmulas [6.21] y [6.22].
Tabla 6. 3. Ejemplo d9 mmblnaclén da ssflmacionas de la consistencfa lntema.

Esmdia a N j Tm Varmw) 1rfl Varflh)
1 0,770 41 21 0,613 0,002214 -l,470 0,053846
2 0,890 300 21 0,479 0,000179 -2,207 0,007047
3 0,850 240 21 0,531 0,000276 4,897 0,008824
4 0,800 246 21 0,585 0,000326 4,609 0,008607
Aplicando el procedimiento dc estimacit’m combinada bajo un modelo

dc EA que hemos descrito en el capitxflo 3 (férmulas [3.10] y [311]) se
obtiene lo siguiente. Con la transfonnacién de Hakstian y Whalen 1a
estimacién de la varianza especifica mediante e1 método de los mementos
es igual a 0,002746 y la estimasién combinada es igual a 0,5446. Con la
transformacién Bonett csos mismos calculus proporcionan los valorc:
0,087585 y -1,8259, respectivmnente. Devolvemos ahora las estimacionw
combinadas a la métrica de a aplicando las transformaciones inversas dc
[6.19] y [6.21],
Hakstian y Whalen: a, = l — If" = 1— 0,54463 = 0,8385
Benet: a. =l—eT' =1—e'l'm9 =0,8389
2. La ponderacién de Ias coqficientes. Algunos autores ban cuestionado la

practical dc ponderar las estimacioncs a1 calcular las estimacioncs
combinadas, especialmente en los modclos dc efectos aleatorios (e.g.,
Bonett, 2010; Shuster, 2010). En el campo especifico de la GF se ha
propuesto abiertamente la altemativa dc no ponderar los coeficientes. Sin
embargo, hay evidencias contradictorias respecto a las virmdes de las
distintas opciones (Feldt 3! Charter, 2006; Lépcz-Pina, Sz'mchez-Meca y
Ibpez-Lépez, 2012). Es una cuestién sobre la que todavia no se ha
310m on consenso suficiente respecto a ninguna de las alternativas.
3. E! prablema de la heterogeneidad de la: varianzas muestrales. Existe la posi-
bih'dad de que el disc-flu dc la investigacién primaria y la forma de
seleccionar la muestra impliquen alguna forma de sesgo en la seleccién dc
participantes respecto :11 range y distribucién poblacional. Esto supone
introducir una heterogeneidad sistemética en las varianzas de las
puntuaciones muestrales y es bien conocido que cualquier forma de
valoracién de la fiabilidad se ve influida per este factor (Abad, 013a, Pon-
suda, Garcia, 2011).
Botella, Sueto y Gambara (2010) han estudiado este problema. Propo-
nen que antes de realizar cl cstudio dc GF propiamentc dicho so realicen
estudios meta-maliticos de los valores medics y las varianzas de las
puntuaciones muestrales. Estes MA paralelos se pueden realizar con los
procedimientos descritos en cl capitulo 3, tratando a 13. media y la varianza
de las puntuaciones en el test como indices del TE. Pelmiten identificar la
presencia de una variedad de esquemas dc muestreo en los estudios
primaries (e1 mlpuesto implicito, mm vs: cuestionado, es que a efectos
précficos se puede considerar quc las mueslras han sido seleccionadas par
muestreo aleatorio simple). Si se concluye que hay presents una vafiedad
significativa en esos esquemas, entonces cualquier explicanién de la
heterogeneidad mediante variables moderadoras podria set espuria. Basia
173 Meia-anélisis en Ciendas Soclalea y de la Salud
con que esa variable moderadora esté sisteméticamente asociada a distintas

variedades de los esquemas dc muestreo para que la heterogeneidad pueda
ser explicada par esa variedad.
Proponen e1 empleo de modelos que incluyen 1a varianza mueslral
coma moderadora base y el afiadido sucesivo de otras variablm. La
conclusién de que una vafiablc es rcalmentc cxplicativa sc alcanzaria si se
obtiene un resultado significativo 11165 3.116. de la varianza explicada por la
heterogeneidad de las varianzas muesflales. Menflas en el trabajo citado
ban empleado la transformacién [6.19], an un trabajo posterior (Botella y
Sucre, 2012) han empleado esta légica en combinacién con el indice
basado en la transfonnacién de Bonett [6.21], ya que el prooedimiento es
independiente del indice utilizado. Ambas combinaciones son adecuadas.
En cualquier case, 56 aplicarian modelos dc meta-regexién simple y
mfiltiple para comprobar si otros moderadores adcmfis de la varianza de las
puntuaciones del test estén influyendo en la heterogeneidad de los
coeficientes (Lépez-pez, Botella, Sénchez-Meca y Marin-Martinez,
2013).
6.3. Precisién de clasificaciones diagnésticas binarias

En psicologia y disciplinas afines se emplean con frecuencia instrumentos de
clasificacién binaria. E1 anélisis dc sus rcsmltados ayuda a adoptar dccisioncs (Swabs,
Dawes y Monahan, 2000). Un ejemplo tipico son los instnnnentos de cribaje en
contextos de prevencién (deteccién temprana) para identificar casos pmbables de
alguna caracteristica de interés, que probablemente son derivados a alguna otra via de
evaluacién r1155 extensa y profimda. Por ejemplo, cl test SCOFF (Hill, Reid, Morgan y
Lacey, 2010; Morgan, Reid, y Lacey, 1999) esté constituido par 5 sencillas preguntas
con formato Si/NO; se utiljza para detectar trastomos del comportamiento alimentario
no diagnosticados. Se suele emplear coma punto de corte una puntuacién igual a 2
(con X 2 2 se codifica coma positive, con X S 1 como negative). Nahuahnente, a1
aplicar e1 SCOFF daré positive en la mayuria de los participantes con un trastomo del
comportamiento alimentario, pero no en todos (falsos negatives) mientras que daré
negative en la mayofia de 105 no cases (normales, por simplificar), pero no en todos
(falsos positives). La eficacia diagnéstica dc un test como el SCOFF semi mayor
cuanto mayor scan las probabilidades de que proporcione, respectivamente, un resul-
tado positive en un case real (sensibilidad del test) y 1.111 resultado negative en un
respondiente normal (eSpecgficidad del test).
Otro ejemplo es el AUDIT (Alcohol Use Disorders Identification Test; Babor,
Higgins-Biddle, Saunders y Monteiro, 2001), an test breve para detectar el abuso dc]
alcohol que con frecuencia emplea para hombres e1 valor de 8 come punto de corte (6
para mujeres) para considerar un resultado como positive (X Z 8, SI; X < 8, NO). De
nuevo seria 1m instrumento perfecto si clasificase positivamente a todos los individuos

con problemas de abuse y negativamente a todos los demés. For $1 central-in, la regla
de clasificacién cmpleada daré Inga: a algunos falsos positives y falsos negatives.
Los resultados de este tipo de estudios primaries se resumen en tablas de fi'e-
cucncias 2x2 (figura 6.1) en las qwe se cruzan los resultados del test con las categorias
‘Werdadcras”, s c 56 dctcrmina mediantc alguna referencia (R). La referencia debe
suponer un criteria indepcndiente e idealmente debe set incuestionahle (libre dc erro-
res, llamado por eso gold standard). For simplicidad, llamaremos casos Target (T) a
los que verifican la condicién que se pretende dctectar y cases Nomales (N) a los que
no la cumplen.
Figura 6.1. Tabla da oombinacionas de ashdos y rasultado dal test.
Tat (X)
+ _
+ Verdadero Positive (VP) False Negative (FN) M

Referencia [51 [1—8] T
(R) _ False Positive (FP) Verdadero Negative (VN) M
[1 - E] [E] N
Las cuatro frecuencias involucradas son: VP (verdaderos positives), PW (falsos
negativos), FP (falsos positives) y W (verdaderos negatives). En 1m instrumento de
eficacia perfecta FF 3* FN serian nulas: todos 103 T serian detectados por el test, pero
ningfin N daria un resultado positive (véase una cxposicién més dctallada en Franco y
Vivo, 2007).
Como en los apartados sobre la validez y la fiabilidad, el objetivo del MA en
este fimbito es integrar los resultados dc estudios qua valoran la capacidad diagnéstica
de un instnlmento dc clasificacién binaria a parlir de un conjunto dc estudios pri-
maries que aportan esthnaciones independientes dc esa capacidad (para una expo-
sicién més detallada, remitimos a Botella y Huang, 2012). Vamos primero a exponer
de forma resumida 1a manera como se puede valorar la capacidad diagnéstica de un
estudio primario y luego traiaremos la cuwtién de su tratamiento meta-analitico.
6.3.1. Precisién de las instrumentos de cfasificacién binaria
La precisién de un instrumento es el grade en que clasifica conectamcnte, pero hay

dos formas dc clasificacién correcta. Ya hemos indicado que la capacidad del ins-
trumento para detectar un T [o P(+| 1)] se llama sensibilidad (S) y la de identificar un
N [0 PH N)], se llama especificidad (E) (Franco y Vivo, 2007). Como son dos pro-
babilidades en general desconocidas, e] trabajo practice se realiza sabre sus esti-
maciones, que son,
s=L =E [6.23]
VP + FN MT
=£=fl [6.24]
VN+ FP MN
Sin embargo, emplear estos indicadores supone valorar simulténeamente dos
cantidades, y puede ocurrir que un instrmnento tenga major S que otro, pero tenga
peer E. For $1 contrario, disponemos dc diversos indicadores que resumen 1a infor-
macién en un finico valor (véase Sinchez—Meca, Maxim-Martinez y Chacén-Moscoso,
2003). Butte ellos destaca la Razdn de Venmjas para respuestas positives (la RV que
ya hemos expucsto en el epigrafe 2.3). En el contexto de los instrumentos diagnfis—
ticos se llama Razén de Ventajas Diagnésfica (RVD; Diagnostic Odds Ratio, DOR).
Se puede expresar en términos dc S y E,
RVD= 570's): S”: = VP'VN [6.25]

(1-E)/E (J-E)-(I-S) FP-FW
RVD rcflcja en un I’m‘ico nfimero la precisién dcl test; si e] rendimiento es mi-
nimo (clasificacibn al azar) seré igual a l , mientras quc cl rcndimiento seré major
cuanto més exceda a1 valor 1. Otras formas de caracterizar el rendimiento (come par
ejemplo, e1 equivalents al indice :1 en este contexto; Hasselblad y Hedges, 1995;
Sénchez-Mcca, Marin-Martinez y Chasm-Moscow, 2003) so utilizan poco en este
tipo de MA.
Como ya indicamos en el epigrafe 2.3 no es habitual trabajar directamente con
RVD, sino con su logaritmo. La férmula [2.51] proporcimla la varianza para la ponde-
racién. Los estudios primaries, habitualmente mas orientados a los profesionales, sue-
len ofi'ecer ones indices de mayor interés para ellos, comp el Valor Predictive Posi-
tiva y e] Valor Predictiva Negativo. Estes reflejan las probabilidades condicionales
contain a las dc S y E. Ofrccen las probabilidades de que el caso sea un T dado un
resultado positivo en el testy la de que sea un N dado un resmtado negative; es decir,
FYI?”I +) y PmI -), respectivamente (Franco y Vivo, 2007). El trabajo préctico se rea-
liza sobre las estimaciones de estas probabilidades,
= L [6.26]
VP + FP
WON = l [6.27]
VN + FN
La importancia de estos valores altemativos reside que S y E pueden con-

fundir en la interpretacién de un resultado, ya que las fi'ecuencias observadas estén
my influidas por la prevalencia de 105 T en el estudio. Par can 105 MA de este tipo de
instrumentos se han centrado an S y E a pesar de todo.
6.3.2. Procedimientos do integracidn meta-analitica
Siguiendo a Botclla y Huang (2012) vamos a mcncionar S procedimicntos, algunos ya

en complete desuso. E1 primero es el de la agregacién directa; es decir, la suma de
las frecuencias de todos los esmdios hasta reunjrlas en una finica tabla 2 x 2, sobre la
que se calculan los indices descritos en el punto anterior. Una segunda opcién es la
integracién separada de S y E. Como ambos indicadorcs no son més qua pro-
porciones, se podrian emplear los procedimientos descritos en el epigrafe 2.5.1 para
sintetizar varias estimaciones independientes de una misma pmporcién poblacional,
aplicéndolos por separado a S y E.
Estos dos métodos son inadecuados, esencialmente porquc impiden analizar las
filentes dc variabilidad o ignoran 1a eventual relacién entre los valores de S y E. Esta
eventual relacién es un factor imprescindiblc para comprender e1 compartamiento del
test en el espacio ROC (Receiver Operating Characteristic; Franco y Vivo, 2007). En
general no 56 debe asumir ciegamente que S y E scan independientes. Dificihnente lo
serén cuando el umbral dc clasificacién sea implicito (por ejemplo, en 105 tests cuya
valoracién se basa en el juicio de un experto). Pero incluso cuando e1 umbral es un
punto de corte explicito en las puntuaciones (como en el SCOFF y el AUDIT) puede
haber diferencias en las muestras, en los evaluations 0 en aims factores dc aplicacién,
que permitan oscilaciones imperceptibles que se manifestarén en una correlacién
negativa entre S y E.
El tercer procedimiento (el mas empleado dm'ante més de una década) w el de la
curva ROG-resumen dc Moses Shapiro y Littenbcrg (MSL; Littcnbcrg 3! Mom, 1993;
Moses, Shapiro y Littenberg, 1993), que si tiene en cuenta la relacién entre S y E. Si
105 estudios no se diferencian ni en la precisién ni en el umbral, las estimaciones de S
y E deberian ser independientw. Si tienen la misma precisién pero diferentes umbra-
les (61 llamado efiecto umbraD, alga bastante probable incluso con umbrales expli-
citos, entonces es esperable una correlacién negativa entre S y E (o positiva entre S y
l-E). Un objetivo del método MSL es obtener una estimacic'm combinada de la pre-
cisién del instrumento, sabiendo que la precisién de los diferentes estudios podria va-
riar y, ademés, podria estar presente un efecto umbral. Si los estudios tienen la misma
precisién pem distinto umbral, entonces [as puntos de los estudios deberian
pertenecer a una (mica curva ROC (Franco 3; Vivo, 2007). Las desviaciones respecto a
esa curva serian meras fluctuaciones aleatorias de muesu'eo. En el método MSL se
ajusta una curva y se informa de la precisién involucrada en esa curva. En el procwo
de ajuste se determina si la curva es simétrica. Si 10 es, el valor de la precisibn
(mica, pero si no lo es, hay que elegir un valor representativo, con algfin criteria. El
efecto umbral se valora mediante la correlacién entre S y l-E.
Para estudiar el ajuste se asnme 1a distribucifm logistica. No es un supuesto més

arriesgado que el de la distribucién normal, pero con la ventaja de que la disnibucién
logistica tiene algunas propiedades que la hacen més manejable. Primero se obtienen
los logir de las proporciones de verdaderos positives )1 falsos positives. Asumiendo
una distribucién logistica, es fécil demostrar quc esos logim estén linealmente rela-
cionados. En el procedimiento MSL sc analiza 1a rclacién entrc su suma y su dife—
rencla.
SU = Logit(S) + Logitfl — E) y DI = Logit(S) — Logitfl — E)

Tras dcmostrar que si la curva es siméuica la relacién lineal entre DI y SU ten-
dré, pendiente cam, proponen estudiarlo mediante la regresién dc DI sabre SU (ad-
viértase qua DI no es més que LogRVD),
DI = A + B - SU [6.28]
donde B representa la tasa de cambio de la precisién. Los parémetros estimados para

la recta permiten trazar la curva ROC (Moses, Shapiro y Litembcrg, 1993, pég. 1297).
Si la precisién es constants, B es nula. Esta hipétesis implica que RVD es constants
para cualquier umbral. Si se mantiene esta hipétesis e‘ proporciona la estimacién
combinada de R VD.
El método MSL fienc come principal punto a favor que, a diferencia de las dos
anteriores, tiene en cuenta la relacién ultre S y E, pero sigue teniendo varies inconve-
nientes importantes. Por un lado, se basa en un indicador combinado de la eficacia, 1a
RVD, en el que sc pierden los valores concretos dc S y E. Un mismo valor dc RVD
puede proceder de mfiltiples pares dc S y E. En segundo lugar, no reconoce 1a fia-
bilidad imperfecta en la variable explicativa de la regresién (suma de los legit).
Tampoco contempla e1 estudio de la heterogeneidad y su eventual explicacién me-
diante covariables. Por filtimo, no se reconoce la diferente precisién de las estima-
ciones dc S y E; aunque con frecuencia se pondera por el inverse de la varianza de
LogRVD, esto supone tenet en cuenta el nfimero total de participantes en cada estudio.
Sin embargo, dos estudios con el mismo tamafio total pueden tenet diferentes por-
centajes de las poblaciones de T y N.
Aunque los procedimientos de integranién separada y MSL son insuficientes o
tienen aspectos inadecuados aun hay se siguen utilizando, ya sea coma procedimien-
tos fundamentales 0 en las fases de exploracién de un MA.
En los filtimos afios 3e han desarrollado dos procedimientos més rigurosos y fle-
xibles para realizar MA dc los resultados dc este tipo de estudios: cl modclo Normal
Bivariado y cl modelo Jerérquico de la curva ROC resumen.
En el modelo Normal Bivariado 0V3; Reitsma, Glas, Rutjes, Scholten, Bossuyt y
Zwinderman, 2005) se propane modelar los resultados de los estudios mediante una
regresién normal bivariada en la que 8 y E se maufienen coma valores scparados pero
se incluyen simulténeamente. Por un lado, S y E se incluyen coma efectos aleatorios;
per otro, se afiade 1m parémetro que refleja la eventual correlacién entre ellos. Otra
fuente dc variacién es el muestreo aleatorio, que genera més variacién cuanto menor
es el tamafio muestral y se modela mediante variables binomiales.
Representando per 0;; y 65; las tmnsfonnaciones legit de 19.3 S y E del estudio 1',
se asume que los logit(S) y logit(E) se distribuyen aproximadamente normal con valo-
res medias 65.- y 9m: mientras que sus varianzas intermsmdios son a": y a: . A ello se
afiade la covafianza entre los valorcs de 65; y 65,, que 36 represents. put a“ .
Par tanto, el modelo NB es
[65! ] ~ Nags J,- E], siendo E = as as"? [6.29]

93..- 91: 0'35 0';
Para emplear este procedimiento en un MA es necesario estimar cinco pari-

metros: 05, 95. 6:. a; y 0'”. Se modela la variacién interestudios como un efecto
aleatorio en el nivel de test. El modelo NB as jerérquico por contener otro nivel
correspondiente a la variacién intraestudio, cl nivel de estudio. En dicho nivel se
asume que la S y la E del estudio i siguen distribuciones binonflales y se modelan en
pares por tenet unas mismas caracteristicas propias del estudio (especialmente e1
umbral). Una manera prictica dc ajustarlo es el procedimiento NonLinear MXED
(Proc NLMIXED) dc SAS (SAS Institute, 2008). Con los parémetros estimados se
puede construir una curva ROG-resumen, previa su transformacién inversa a la
métrica dc S y E, mediante Review Manager (2008).
El modelo NB permite incorporar covariables para buscar una explicacién
adecuada de lo que pueda pal-acct como una excesiva heterogeneidad entre los estu-
dios. Representando por Z a la covariable, el modelo NB se formula come:
6,,- 6 +1: Z . [6.30]

[3;i)~N[[6:+v:Z:]’EJ
donde vs 3! v5 (que se uatan coma efectos fijos) son coeficientes que representan los
efectos de la covariable Z sabre logit(.5‘) y Iagit(E). También se puede incluir la co-
variable en solo uno de los dos indicadores, si se considera apropiado. Se pueden
crear variables dummy para codificar la covariable Z y ejecutar cl procedimiento
NLMIXED.
El quinto y filtimo procedimiento es el modelo Jerérquico de Ia curva ROC
rammen (HSROC; Hierarchical Summary Receiver Operating Characteristic). Ha
sido propuesto por Gatsonis y Paliwal (2006), Rutter y Gatsonis (1995, 2001) y
Macaslcill (2004). También es un modelo multinivel, pero en lugar dc modelar direc-
tamente S y E se ajustan los datos mediante una regresién logistica de efectos alea-
torios. Incluye dos niveles, correspondientes a la vafiacién intraestudio e interwtudio,
1B4 Meta-anallsis en Ciendas Soclalea y de la Salud
respectivamente. En el nivel 1, 1a fi'ecuencia de VP del esmdiu primario 1' se denota

por y”, y la fiecuencia de FP se denota por yin. Para cada estudio 1', se asume que la
fiecuencia dc resultados positives en los grupos T (i=1) y N (i=0) siguen 1a dis-
iribucién binomial y” ~B(n ,n'g ), j =0,l,dondc fig represents, e1 tamafio de la
muestra de la poblacién j del estudio i y Irg la probabilidad dc genera: 1m resultado
positive. Este nivel se formula coma:
Iogitfirg) = (0,. + aixfl) 1‘4““ [6.31]
donde Xg codifica 1a pertenencia, asumiendo cl valor 0,5 para la poblacién T y -0,5

para la poblacién N; de esta forma queda incorporada la variabilidad inn-aestudjo. E1
valor 6,- es el umbral de clasificacién del estudio 1' en la escala legit; es conceptual-
mente anélogo al valor SU 611 el modelo de MSL. El valor 0:; es el Iog(R m) del es-
tudio i. Representa la eficacia de la clasificacién; refleja cémo de cerca pasa la curve
ROC del punto 6ptimo (S = l , 1 — E = 0). El parémetro dc escala, )3, es anélogo a la
pendiente del modelo MSL; permite que la exactitud varie en funcién de los cambios
dc umbral. Es decir, S y E pueden cambiar a distinta velocidad. El parémetm fi 56 in-
corpora como un efecto fijo. E1 nivel 2 models. la variacibn interestudios de 0; y a;
como efectos aleatorios. Se asume que siguen distribuciones normales, permitiendo
moorporat covariables al nivel del estudio en la media de 9 y lo a. Este nivel se for-
mula coma:
ai~N(A+.1oZi,a':) 6}~N(®+y.zi,a'§)
donde Z, es el vector dc covariables. Estas se incluyen coma efectos fijos, siendo A y y
sus cocficicntcs.
A diferencia del modelo NB, el HSROC proporciona estimaciones directas de la
precisién media (A = lagRVD), del pat'émen‘o de escala (5), del umbral media (9) y
de las varianzas que representan los efectos aleatorios de la precisién y el umbral.
Como en cl modelo NB, con los parémetros cstimados sc pueden obtcner repre-
sentaciones gnificas de la curva y el punts ROC resumen mediante Review Manager
(2008). Mientras e1 modelo MB permitia incorporar covafiables directamente a S y E
(a sus logits), el modelo HSROC permits hacerlo a los paritmetros dc precisién, um-
bral y cscala del modelo. Representando de nuevo par Z a la covariable, cl modelo NB
se formula coma (véase en Botella 3; Huang, 2012, um exposicién mfis detaflada):
logifififi) = [(61i + m) + (:11. + 22,.) - Xfi] - (“WM [6.32]

Capitulo 6. mta-anéllsis y psicomelria 185
6.3.3. Valoracién de los procedimientos

Ya hemos sefialado las razones por las que el método de agregacién directa es ina-
decuado. Respecto a los procedimientos dc integracién separada y MSL, aunque son
insuficientes y en algunos aspectos inadecuados, se pueden emplear en las fases dc
exploracién, asi coma para describir los resultados de los estudios. El programa de
distfibucién gramita METADISC (Zamora, Abraira, Muriel, Khan y Coomarasamy,
2006) permits aplicar ambos, asi como otros procedimicntos complementarios, tanto
estadisticos coma gréficos.
Hay se considera imprescindible emplear 1m procedinfiento més figuroso, como
el NB 0 e1 HSROC. Harbord, Decks, Egger, Whiting y Sterne (2007) han mostrado
que estos modelers son cquivalcntcs en auscncia dc variables moderadoras. Ambos
son adecuados, ya que reconocen y diferencian entre la variacién intraestudio e inter-
estudio mediante 1m segundo nivel de efectos aleatorios (en la linea que se va impo-
niendo en los diferentfi campus en los que se aplica el MA), permitiendo ademés
incorporar una eventual correlacitbn entre S y E. Tienen varias cosas en «min For un
lado, en ambos modelos los niveles correspondientes a la variacién intraestudio son
exactamente iguales, asunflendo la distribucién binomial para 105 cases con resultados
positivos en cada grupo. Por otro, en ambos se asume una distribucién normal de los
parémetros dc] segundo nivel y se estiman las medias y vafianzas dc dichos paréme—
tros. Ademés, se pueden realizar utilizando el mismo procedimiento, NLMIXED. En
realidad, lo que han demostrado Harbord e: at. (2007) es que bajo ciertas condicionas
estos dos modelos no son més que diferentes paramtrizaciones del mismo modelo
unificado y deben proporcionar inferencias estadisticas equivalentes. Incluso propor-
cionan férmulas dc conversién de los parémetros enIIe los modelos cuando no se in-
cluyen covariables a nivel de wtudio.
Peru esto no significa que scan intercambiablcs, ya que aft-Oman problemas
difcrentcs y con distintas flexibilidades. Asi, cl modclo NB pcrmitc incorporar cova-
riables que tengan efectos an S o E, que suelen ser las caracteristicas de los estudios 0
de las muestras que afectan solo al grupo T o N (par ejemplo, 1a comorbilidad de [as T
puede afectar a S, pero no tiene nada que ver con E). For e1 contrario, puede resultar
dc interés si dcterminadas covariables estén asociadas a la precisién global (161 test
(con efectos simulténeamente en S y E) o a] umbral (por ejemplo, una traduocién
del test a otro idioma). En estas simaciones el modelo NB es inadecuado, mientras que
el HSROC permite explorar directamente este tipo de hipétesis.
En resumen, hoy disponemos dc modelos may potentes para realizar MA de la
precisién de los instrumentos de clasificacién binaria, canstruidos coma modelos je-
rérquicos y que se plantean coma modelos de efectos aleatofios.
Por desgracia, la obtencién del wtatus real de un casc- (figura 6.1) no siempre
esté excnta dc error, sino que depends de la fidelidad de la rcferencia esténdar em-
pleada (Decks, 2001; Valenstein, 1990; Walter, Irwig y Glasziou, 1999). Cuando 1a
clasificacién que ofrece la referencia es imperfecta se producen sesgos en las es-
timaciones de S y E, por lo que seré impressindible introducir correcciones en 105 mu-
delos estadisticos (Botella, Huang y Suero, en prensa). (311m el procedimiento que

se emplea coma referencia explica una parte significativa de la vaniabilidad es
probable que estemos ante un case de este tipo, en el que algunas referencias dan
lugar a més errores de clasificacién que otros. Por ejemplo, Botella, Sepfilveda,
Huang y Gambara (2013) encontraron que las estimaciones del rendimiento de
clasificacién dcl SCOFF daban lugar a valorcs superiores cuando 1a rcfcrcncia em-
pleada era una entrevista que cuando se empleaba otro test.
L03 avances en la metodologia estadistica se han vista acompafiados por avances
en los métodos de evaluacién de la calidad de los estudios que se incluyen en las revi-
siones sisteméticas. El principal avance ha sido e1 desarrollo del Quality Assessment
of Diagnostic Accuracy Studies (QUADAS; Whiting, Rutjes, Dinnes, Reitsma,
Bossuyt y Kleijnen, 2004). La iniciativa de los Standards for the Reporting of Diag-
nastic accuracy studies (STARD; Bossuyt, Reitsma, Bruns, Gatsonis, Glasziou, I n ,
Lijmer, Moher, Rennie y De Vet, 2003) proporcioné a los invesfigadores 1m marco
para el informe que, sin duda, mejoré la calidad de los estudios primaries. Par 31.!
parte, e1 QUADAS es un cuestionm-io de 14 puntos que proporciona a los inves-
tigadores un medic para evaluar los émbitos principales que afectan a la validez de un
estudio dc diagnéstico. Si 3e aplicase sisteméticamente se facilitarian las compa-
raciones entre los estudios.
Meta-anélisis
en campos especiales
Aunque los métodos que hemos expuesto hasta aqui permiten realizar MA en la
mayoria de los campos de las ciencias sociales y de la salad, hay algunos cuyas
peculiaridades exigen respuestas especificas. Vamos a detenemos en lres de estos
contextos, que humus calificado coma “especiales”. Hay muchos mas y conti-
nuamente conocemos propuestas dc nuevos desarrollos ideados para contextos con
necesidades diferentw. Peru estos [res son suficientes coma para que el lector se haga
una idea dc cémo un mismo objctivo, la sinwsis dc rcsultados dc investigaciones pri-
marias independientes, exige respuestas diferentes segfin las parficflafidades de los
estudios de cada campo.
Primero trataremos 1a sintesis de una matriz dc comalaciones, qua poste-
riormente constituiré e1 material dc enuada para el ajuste de un modelo complejo.
Después abordaremos la problemética asociada a los campos en los que se emplean
estudios dc caso (mice. Por filtimo, discutiremos e1 llamado MA acumulativo pros-
pective. Los tres tfipicos estén en plena efervmcencia, sujetos a continuas novedadas.
En los préximos afios asistiremos sin duda a importantes progrcsos en cada uno de
ellos.
7.1. Modelos multivariados

En la mayoria de 105 MA se sintetizan estudios en los que se valora 1a relacién entre
dos variables, ya sean ambas continuas (r), ambas dicotémicas (0R) 0 11113. continua y
la otra dicotbnfica (:1). Sin embargo, en muchos estudios primaries se valoran las
interrelaciones entre mfiltiples variables. Con frecuencia estos modelos complejos se
ajustan empleando coma entrada una matriz dc correlaciones o una matn'z dc varian-
zas y covarianzas. En este apartado abordamos la pregunta dc si 61 MA puede hacer
alguna aportacién en estas tradiciones de investigacién. Una primera estatcgia podria
consistir en trasladar la légica que hemos descrito y aplicado a mfiltiples situaciones
en los capitulos anteriores. Tendfia dos fases. En la primera se definiria alguna forma
de resumir los resultados de cada estudio primario en el que se haya ajustado un mis-
mn mode-lo. Se trataria del anélogo a la ubtencién de los TE, por supuesto expresado
en una métn'ca comfin, aunque exigiria una complejidad considerablemente superior a
la de los indicw que ya hemos explicado (TE multivariados; Grissom y Kim, 2012).
En la segunda fase se integraflan estos resultados con técnicas meta-analiticas espe-
cificas. Esta primera estrategia no ha recibido mucha atencién, dada 1a enorme com-
plejidad que supone en cuanto e1 nflmero de variables involucradas as mayor de 3.
Una estrategia alternativa consiste en realizar la integracién en la primera fase,
en lugar de hacerlo en la segunda. La idea es que como la entrada para aplicar estos
procedimientos es una matriz, entonces 5e podrian integrar meta-analiticamente las
matricw procedentes de los esmdios primaries. En la segunda fase se ajusta e1 modelo
a esa finica matriz sintetizada. Se asume que las conclusiones alcanzadas tras ajustar
un modelo scrén mfis vflidas, confiablcs y generalizablcs si en lugar dc partir dc la
matriz proporcionada por una finica muestra, se parte de um matriz sintetizada a par-
tir de 1215 de un conjunto dc muestras variadas. Esta matriz tendré una gran potencia-
lidad para la generalizacién, al haber sido obtenida a partir de muestras procedentes
de una vaIiedad dc estudios primaries, dc difercntes autores y en distintos contextos.
La entrada para 1m empleo éptimo dc algunas de estas técm'cas debe ser 1111a
matriz de varianzas y covafianzas, mientras que para otras puede ser una matriz dc
correlaciones. No disponemos todavia de una solucién para la sintesis de una matriz
dc varianms y covarianzas. La razfin es la misma por la que no se emplea la cova-
rianza coma indice dc TE y si la correlacién. Mantras la covarianza es especifica de
un insirumento y tiene una métrica diferente para cada instrumento, la correlacién
tiene una métrica universal. Como [as variables son medidas con diferentes ins-
trumentos o formas distintas dc operacionalizar un mismo constructo, no tiene senti-
do hablar de varianzas y covafianzas, ya que cstos estadisticos son propios de la [[16-
trica particular elegida. P01- el contrario, técnjcas multivariadas como la Regresifin
Mifltiple 0 e1 Anflisis Factorial emplean coma entrada una matriz de correlaciones.
Como ya hemos discutido, e1 coeficiente dc correlacién de Pearson es uno de 105 in-
dices dc TE més populates y cficaces, estando ya dc pct Si libre dc limitaciones m6-
tricas.
Capitulo 7. Mela-anallsis en campus eapeclales 189
En este aparmdo nos restringimos a 661:8 filtimo caso. El objetivo serfi sintetizar
una matriz dc correlaciones qua mlponga la mejor representacién de las interrelatio-
nes entre- las variables involucradas. Para ello se intenta aprovechax toda la informa-
cién disponible en los estudios que publican estimaciones de esas interrelaciones. El
resultado es alga parecido a una matriz de correlaciones medias entre las variables,
pero no cxactamente la media. Para sintetizarla se dcberé tenet en cucnta no solo lo:
coeficientes de correlacién, sino las covarianzas entre esos coeficientes. Por otro lado,
con fi-ecuencia ocurn'ré que se encontrarén estudios que ni en sus objetivos ni en su
discusién se centran (a veces ni siquiera mencionan) e1 modelo que nos interesa. A
vcces porque el objetivo es otro y a wow porque cl modelo dc interés es posterior a1
estudio primario. Este no es un aIgumento suficiente para justificar la exclusién de un
astudio. Lo importante es que aporten estimaciones de las interrelacioncs relevantes
para el modelo que centra la atencién del MA.
7.1.1. Diflcuflades pan sinteflzar una matrlz d9 canalacionos
La obtencifin de la matriz sintetizada exige superar algunas dificultades, que cemen-

taremos siguicndo la exposicién dc Card (2012). La primera seré que nos encou-
Iraremos con matrices incompletas. Supongamos que estamos interesados en valorar
la capacidad explicativa o predictiva de un modelo que involucra cuatro variables. E1
modelo implica estimar las correlaciones que reflejan las interrelaciones entre esas
variables, una matriz con cuatro filas y columnas. Si es un modelo muy conocido sari
posible enconu'ar unos cuantos estudios priman'os que aporten estimaciones de- todas
esas interrelaciones. Sin embargo, es probable que también se encuentren estudios en
los que se incluyen solo dos o tres dc ellas y no siemprc las mismas. Por supuesto,
habré quc valorar con prudencia si las operacionalizacioncs de los constructos invo-
lucrados en 3503 estudios son suficientemente homogéneas. La no homogeneidad si
que- es un argmnento de peso para excluir estudios. Habré que : 3 l de la matriz de
correlaciones aquellos coeficientes que se refieran a van'ables que no podemos aceptar
coma homogéncas. Es faicfl que la situacién sea parecida a la de la figura 7.1, en la
que aparece la estructura de la matriz buscada y las matrices procedentes de los
estudios primaries localizados.
La segunda dificultad m que 3] tratarse de una matriz sintetizada a partir de k
matrices, probablemente muchas incompletas, no es dificil quc el resultado sea una
matriz definida no positiva. Muchas técm'cas multivariadas no se pueden aplicar con
ese tipo de- matrices. Por ejemplo, dadas tres variables X}, X; 3: X3, si concretamos los
coeficientes dc correlacién de la primera con las otras dos (n; y m) entonces la
correlacién cute las dos filtimas debs ser un valor en el intervalo siguiIIte:
r23 =(ru‘fia)iwj(l—’ig )- (1-1;?) [7-1]

Figure 7.1. Slntesis de una matn‘z de correlaciones a partir de Ias matrices propor-
cionadas pot k estudios: algunas estén oompletas (9.9., estudios 1 y k) y otras in-
completas (en el estudio 2 falta Ia variable 4 y en el aqdio 3 falta la variable 2).
1 2 3 4
1 '5: '31 ru
2 In :14
3
4 2 3 4
”a“! \ 1 1 r13 '1: '14
2 [as '14
1 2 3 4 3 r“
1 q, 1-,, 4
2 l:13
3
4
Elm:
2 3 4 1 2 3 4
I 11-, IL; 1 "n [is 1'14
2 2 r23 '14
: r34 (""9 : r34
M 3 Elhllflok
Si meta condicién no se satisface en todas las combinaciones de variables de la

matriz sintefizada, entomes es una matriz anémala. U11 procedimiento dc sintesis de
varias matrices incompletas en una {mica matriz puede dar lugar a este tipo de ano—
malias.
Una tercera dificultad aparecerfi a1 confeccionar los intervalos dc conflanza de
las estimaciones de los parémetros, ya que semi necesario emplear un valor concrete
para el tamafio mucstral. La cucstién dc qué tamafio emplear semi importante a1 infor-
mal- de los resultados. Ya que la correlacién de- cada casilla es una especie de coe-
ficiente promedio, come valor dc N se podria tomar el tamafio medio de las muestras
que aportan valores a esa casilla, pero también se ha propuesto tomar otras formas de
promedio. Desde una actitud conservation-a se ha sugarido tomar el manor de los tama-
fios involucradus, pero 3 veces se ha propuesto tomar e1 mayor. Sea la que sea, habré
que adoptar una solucit'm de compromise y hacerlo explicito.
Por filtimo, tampoco debemos olvidar que a1 sintetizar 1m {mica valor dc cm
lacién para cada casilla de la matriz se estai asumiendo qua esc- valor existe. Es decir,
se esté asumiendo un modelo con un efecto fijo en cada casilla.
Capltulo 7. Meia-anéllsis en campus especlales 191
7.1.2. Procedimientos de ajuste
E1 procedimiento desarrollado por Cheung y Chan (2005, 2009) es conocido por el

acrénimo MASEM Meta-Anabzsis Structural Equation Models) y su objetivo es al-
canza: una matriz dc correlaciones para ajustar a1 mismo un modelo dc ecuaciones
estructurales. La dificultad de la ausencia dc variables en algunos estudios se resuelve
exigiendo coma criteria de aceptacién de un estudio que esté completo en cuanto a
sus variables. Es decir, si una variable csté presents en un cstudio entonccs dcbc apar-
tar los coeficientes dc correlacién enlre esa variable y todas las demés variables de me
estudio.
El procedinfiento cuestiona la homogeneidad de los coeficientes en cada casilla;
esencialmente, ajusta un modelo SEM multigrupo, representando cada esmdio un gru-
po diferente. Se emplea un enfoque dc modelos anidados, con un modelo no restrin-
gido en el que las correlaciones varian libremente y otm en el que se impone que la
correlacién de una casilla sea la misma para todos los estudios; cualquier diferencia
debs quedar dentro de las oscilaciones esperables por muestreo. La significacién del
comraste sefiala si se puede mantener la hjpétesis dc homogeneidad. En caso afir-
mativo se precede a estimar cl valor medio de cada casilla, asumiendo que tal valor
exists (un efecto fijo en cada casilla). Desde entonces Cheung ha publicado varies tra-
bajos quc desarrollan y extienden cl anterior, tanto para formula: 61 MA univariado a
Iravés (16 SEM (Cheung, 2008) coma para extender este marco :11 MA multivarado
(Chenng, 2013).
Por su parte, Becker ha explorado durante mfis de 20 31503 :1 use del MA para
evaluar modelos complejos (Becker, 1992, 2000; Raudenbush, Becker y Kalaian,
1988). Tanto en la primera edicién del Handbook of Research synthesis (Becker y
Schram, 1994) como en la segunda (Becker, 2009) ha propuesto y desarrollado un
modelo GLS (Minimas Cuadrados Generalizados) con cl que afrontar la tarca (véase
también Kalaian y Raudenbush, 1996). E1 pmcedimiento dc Becker es mfis flexible
que el MASEM, permitiendo por ejemplo modelar los efectos coma aleatorios. Se
aplica en varies pasos, pero su complejidad nos impide exponerlos aqui. Remitimos a
Card (2012) para obtener una idea general y a las fuentes originales para una expo-
sicién detallada e ilustrada con ejemplos.
7.2. Integracién de estudios de caso finico (N = 1)

En algunos campus de la psicologia y disciplinas afines se ha mantenido la tradicién
de trabajar con disefios de case finico (DCU; single-case desigm) 0 de N = 1 (Bone y
Arnau, 2014). En su versibn mas simple, la que implica dos fases (AB), la pregunta
que se intenta responder as si la intervencién que define e1 paso de la fase A a la fase
B ha producido algfm cambio y cuél 63 an magnitud (en muchas ocasioncs los disefios
son ma’ls complejos, par ejemplo ABA, ABAB, ABC, etc., pero como en ellos la finica
diferencia suele ser que la pregunta se repite para cada transicién entre fases aqui nos
centraremos en el disefio AB). La investigacién con DCU ha hecho grandes
aportaciones a la psicolngia. Sin embargo, cuando los investigadores de estos campus
han querido emplear procedimientos sisteméticos de revisic'm bajo el marco
conceptual del MA se han encontrado coma principal dificultad que no disponian de
una medida conscnsuada del TE. Como consccuencia, la investigacién con este tipo
de disefios se ha visto menus beneficiada de las oportunidades que ofi'ece el MA.
Algunos de los campus con estas tradiciones tienen su propia légica y el anélisis
de los datos ha sido especialmente peculiar. Per ejemplo, desde perspectivas conduc-
tistas ortodoxas cl anélisis de los datos descansa en las inferencias que hace e1 experto
con la mera inspeccién visual de la representacién gréfica de los datos (Hersen y
Barlow, 1976; Parsonson y Baer, 1992). El criteria del experto es el que permits de-
ducir si hay 1m cambio entre las fases de un discfio AB; por ejemplo, la simple ins-
peccién no deja clam que haya cambio entre las fases A y B de la figura 7.2a, pero si
que se deduce con razonable claridad en 133 de la figura 7.2b. Aunque e1 criteria vi-
sual es muy discutible, en diversos campus se ha mantenido a lo largo de los aflos 3/
boy en dia se pueden encontrar numerosos ejemplos en revistas de prestigio (e.g.,
Journal of Applied Behavior Analysis, Behavior Modification, Journal of Autism and
Developmental Disorders, eta).
Pero pasemos a la cuestibn del TE. Si bien un experto en anélisis visual puede
apreciar cambio relevante entre dos fases, no parece razonable que de esta misma for-
ma asigne un nfimero que refleje 1a magnitud del Gambia. Desde luego, se pueden
mantener los resultados en términos dicotémicos (cambio o no cambio; efecto vet-ms
no efecto), pero entonces volveriamos a la época pre-meta-analitica del recuento de
votes, en la que los estudios eran clasificados seglfm ofiecieran 1m efecto significativo
o no. Uno dc los grandcs avances del MA ha sido precisamentc quc 10s cstudios no sc
traten de esta forma, sine qua cada uno aporte una estimacién del TE.
Dentro de estos mismos campos se ha manifestado la preocupacién par sustimir
la inspeccién visual por procedimientos estadisticos més rigurosos y objetivos. A e110
responde en parts 1a gran cantidad dc aportaciones de los I’Jltimos 30 afios a] anéfisis
de series temporales interrumpidas. El establecimiento de un método estadistico con-
sensuado y sélido podria permitir la derivacién inmediata de indices de TE asociados
a 65:13 técnicas dc anélisis, ta] y como ha ocurrido en otros campus. En estos cases :1
debate sobre el indice adecuado del TE no es mas quc una cxtensién del debate sobre
la técnica estadistica més adecuada para los estudios primaries.
En resumen, la poca presencia del MA en los campus dc investigacién en los
que dominan los DCU se debe a la ausencia dc indices consensuados dc TE. Por un
lado, porque en algunos de esos campus se mantiene la inspeccién visual como ins-
trumento fundamental dc anélisis en los estudios primaries. Por otro, porque en los
que se emplean pmcedimientos estadisticos mmpoco se ha alcanzado un consenso su-
ficiente sobre el procedimiento de anélisis més adecuado (Bone y Arnau, 2014).
Capltulo 7. Mela-anéllsis en campus especlales 193
Figura 7.2. Ejemplos de multados obtenidos con el disefio AB con

presencia de tendencia en la fase A.
I I
' ( ) hunt | Fuse]!
1. - :
' I
I a a c I
I
U C O I O O
6 ' o | a o a
. I
I
.
4- I '
. I
I
I
I
I
1 1 3 4 5 6 7 8 9 1 i l 1 1 1 1 3 1 4 1 5 1 5
(b) II
' Fund» FueB
I. ' I
. I
I
I c o a I
o a o I
I
E - o I a
- I
4 ' : o
. | o o
I
I
|
I I I I I I I I I I I I I ’ I F
1 3 3 4 5 6 7 8 9 1 0 l 1 1 2 1 3 1 4 1 5 1 ‘
En este apartado vamos a sefialar las principales propuestas siguiendo la clasi-

ficacién dc Maggin, Swaminathan, Rogers, O’Keefi'e, Sugai y Homer (2011) en tres
grupos (diferencia dc medias, medidas no paramétficas y medidas paraméh‘icas) y
después expondremos algunos criterios que deberian ser tenidos en cuenta para esta-
blecer una medida definitiva. En términos generales, [as medidas no paramétdcas se
han derivado para afi‘ontar 61 MA con esmdios primaries basados en la inspeccién vi-
sual, mientras que los ottos dos grupos se basan en estadisticos proporcionados por
estudios en los que se aplican anélisis estadisticos. Sin embargo, hay que hacer notar
una caracteristica peculiaI de este campo. En términos generales se entiende por MA
una metodologia que tiene entre sus caracteristicas el hecho de basarse en los anéfisis
estadisticos de los estudios primaries; los datos brutos de los estudios primaries son
desconocidos. En los estudios con DCU tampoco se suele informar de los datos di-
rectos, pero la herramienta basic-.3 de anésis es la representacién gréfica completa de

los datos, ordenados en fases y mementos. Esta ha llevado a la costumbre dc deducir
a partir de esas figuras, mediante herramientas grfificas informatizadas o manualmente
con simples reglas milimetradas, los datos directos. Este procedimiento se ha most-a-
do altamente fiable, lo que ha justificado un use bastante extendido. Una conse-
cuencia de esta préctica es que para analizar la evidencia ya no se depende de que se
informs dc anélisis estadisticos, ni siquiera de que estos hayan sido rcalizados en el
estudio primario. Aunque el autor haya hecho un anéfisis visual sus datos se pueden
reanalizar con la técnica que el auto!" (161 MA considers més oportuna, por ejemplo
hallando los promedios de las fases 0 las tendencias lineales dentro de ellas. En el
filtimo apartado de esta seccién u'ataremos una alternativa reciente que explota este
hecho ajustando un mode-lo multinive1(Hox, 2010).
7.2.1. Diferencia de medias
Siendo a’ el indice dc TE més utilizado 3; popular an MA parece légico que se inten-

tase aplicar en los estudios con DCU. A primera vista parece sencillo y, de hecho, en
las primeras épocas del MA se aplicé directament/c como en 01105 campus: la di-
ferencia entre las medias de las dos fases expresada en la métrica de la desviacién ti-
pica (de la combinada 0 de la lines. base; Busk y Serlin, 1992; Gingerich, 1984). Sin
embargo, esta medida no es adecuada par dos razones principales (Faith, Allison y
601111311, 1996). La primera es que solo expresa la diferencia en el nivel general ob-
servado en las dos fases, a pesar de que en muchas ocasiones [as valores de la primera
fase muestran una tendencia (creciente o decreciente). Siendo asi, cl hecho dc ob-
servar una diferencia entre las medias es trivial y no demuestra que la intervencién
haya surtido efecto alguno, ya que seguramente esa diferencia hubiera aparecido tam-
bién sin intervenir, por el mero paso del tiempo. El efecto de la intervencién no se de-
be valorar estudiando solo la presencia dc cambios en el nivel pmmedio de las fame,
sino también en la tendencia. Asi, en la figura 7.2a se observa una difcrencia entre los
valores medics de las dos fases. Sin embargo, si aceptamos que hay una tendencia de-
creciente dentro dc la fase A, entonces los valores de la fase B paracen una conti-
nuacién de esa tendencia.
Hay bastante acuendo en que el anfilisis del cambio entre dos fases debs prestar
atcncién al menos a tree aspectos. Si no hay ninguna tendencia en la linen base, 56
debe prestar atencién al cambio en la magnitud general de los valores. Si hay ten-
dencia en la linea base, se debs prestar atencién a cambios dc tipo “escalén” entre las
fases (cambio brusco en el primer valor de la segunda fase) y/o a cambios en la ten-
dencia. La figura 7.3 muestra ejemplos idealizados de estos Ire-s aspectos de los dates.
Figure 7.3. Palmnw altemativos idealizados de datos. En Ias figuras (a) y (b) no hay
mndencia en la fase A, mientras que en las figures (0), (d). (e) y (f) sf la hay. En la figura (a)
no hay Gambia en la magnitud media entre las fases, mientras que en la figura (b) hay un
incremento. En la figura (c) 53 mantiena en la fasa B la misma tendencia que en la fase A.
com continuacién de aqualla, por lo que se deduce qua no ha habido efecta de la
Intervancién. En la figura (d) hay una inversion de la tandencia (pero no hay camhio en las
medias d9 Ias fases). En la figura (a) no Gambia la tandencia (pendiente) para el cambio de
fase Ileva asouiado un cambio bmsoo en el valor absoluto (amalén). En la figura (f) hay una
oombinacibn de efecto escalén con cambio de tendencia.
FaseA FaseB FaseA Fuel!

(3) (b)
( d ) \ /
e) : (1)
/
La segunda dificultad es que el fimdamento estadistico de ti implica que las

observaciones son independientes dentro de cada grupo, alga que no se cumple en es-
te disefio. Los valores observados dentro de cada fase estén ordenados temporalmente
(con fi'ecuencia son dias, pem pueden ser semanas o simplemente sesiones). En estas
condiciones aparece un efecto dc autocorrelacién (correlacién positiva). Es decir, 1a
distribucién de los valores en cada registro no es independiente del valor observado
en el registro anterior. Est: efecto debe set tenido en cuenta dc alguna fonna, ya que
suponc una impoflante violacién dc uno de los supucstos flmdamcntales dc las téc-
nicas estadisticas tradicionales de comparacién de medias (Am y Vallejo, 2007). En
particular, la automrrelacién afecta a la varianza del estimador y, por tame, 3] es-
quema de ponderacién de los estudios. No es que este aspecto del modelo estadistico
filera ignorado; de 11t Gingefich (1984) advierte sobre el pelig'ro de la presencia dc
automrrelacién. Sin embargo, aduciendo los resultados dc anélisis realizados sabre m1

extenso conjunto de series de datos reales publicados concluye que en la préctica es-
tos efectos son despreciables y se pueden obviar. De ahi su propuesta dc aplicar la co-
nocida férmula de a' come TE, dividiendo por la desviacién tipica de la primera serie
0 dc linea base (véase e1 capitulo 2).
Recicntcmcnte, Hedges, Pustejovsky y Shadish (2012) han hecho una.
interesante propuesta cuya utilidad aun no podemos valorar par no tenet suficiente
perspectiva. Tras subrayar 1a dificultad de que una sola forma de obtener e1 TE sea
vflida para todos los pan‘ones dc datos (coma los patrones de la figura 7 .3) proponen
elaborar indices especificos para los distintos patrones. Ellos se central: en 61 11155
simple, aqua] en el que se produce un cambio en la magnitud general 0 valor medic,
pero sin tendencias en ninguna de las dos fases (figures 7.3a 3.1 b). Proponen una
versién dc d para estc patrbn en la que sc contemplan los problems dc
autocorrelacién que hemos sefialado. Ello implica también la estimacién de la
varianza de es:- estimador en prasencia de autocorrelacién, alga flmdamental para
poder emplear e1 esquema de ponderacién por el inverse de la varianza. Es una linea
dc desarrollo prometedora y de may probable proyeccién en los préximos afios.
7.2.2. Medidas no paramétricas
La propuesta dc medidas no paramétricas intenta capitalizar e1 hecho de que estas no

tienen la limitacién de tenet quc asumir supuestos dc distribucién. Esta a veces se ha
confimdido indebidamente con la cuestién de la independencia de las observaciones,
aduciendo esa libertad para obviar e1 supuesto de independencia. Se podria decir que
estas medidas son intentos por traducir en operaciones objetivas lo que el experto
rcalmcntc valora mediantc la inspcccién visual. Son las medidas quc més se han
utilizado a lo largo de los afios, a pesar de tenet importantes limitaciones, coma su
alta sensibilidad a los datos extremes a su dificultad para detectar tendencias.
Hay muchos de estos indices, pero vamos a detenemos en uno de ellos, el mils
conocido, para quc cl lector sc haga una idea de su naturaleza y de por qué tienen las
importantes limitaciones que hemos indicado. Se trata del Porcentaje de Datos Na
Solapados (PDN; Scruggs, Mastropieri y Caste, 1987). Si e1 efecto asperado es una
disminucién en los valores (puede ser un amnento), entonces se obtiene como el por-
centaje dc puntos de la fase B que no superan (o que superan, si se espera un aumen—
to) el valor més extreme de la fase A a de linea base en la direccién del efecto. Can
los datos de la figura 7.2a e1 indice es igual a 315% ya que 3 de 10$ 8 puntos de la fa-
se B no se solapan (en la direccién dc] efecto esperado) con el tango de datos de la
fase A (son inferiores a 6, cl menor valor observado en la fase A). En cambio, en la fi-
gura 7.2b e1 indice seria igual a 87,5%, ya que son 7 sabre 8 105 puntos no solapados.
Con objeto dc facilitar su valoracién, los autores ban propumto incluso una escala
ordinal en cuatro categorias; seglfm wtas, la intervencién introducida seria: altamente
efectiva (PDN 2 90%), efectiva (70% s PDN < 90%), de efectividad cuestionable
(50% S PDN <1 70%) o inefectiva (PDN < 50%).
Es fécil comprender que los indices de este tipo son may sensibles a circums-
tancias que poco tienen que ver con lo que se busca. Por ejemplo, el tango de los va-
lores dc PDN en una fase es una fimcién directa del nfimero dc observaciones de ma
fase; por tanto, cuantos mas puntos se recojan en una. de las fasw 0 en las dos, manor
tenderé a set e1 valor de esta medida.
Otros indices no paramétricos recientes ban intentado resolver algunas de las li-
mitaciones del PDN, coma por ejemplo e1 Parcentaje de Datos que Exceden Ia Me-
dium: (Ma, 2006), el Porcentaje Total de Baths No Solapados (PaIker, Hagan-Burke
y Vannest, 2007), 1a Dg'ferencia en la Tasa de Mejon'a (Parker, Vannest y Brown,
2009), el Porcentaje de Datos Corregidos No Solapados (Manolov y Solanas, 2009),
el Parcenraje que Exceden [a Linea de Tendencia Media (Wolcry, Busick, Reichow y
Barton, 2010) y otros. Aunque algunas de estas altemativas han supuesto avanm
respecto a1 PDN, siguen adoleciendo de casi todas sus limitaciones, como la dificultad
para detectar tendencias y/o para representar la magnitud del cambio. Ademés, los
intentos por conocer sus propiedades estadisticas ignoran los efectos de autocorre-
lacién, lo que supone una dificultad adicional para derivar su distribucién mucstal.
Del desconocimiento de la distribucién muestral del estadistico se deriva también 1a
imposibilidad de emplear el esquema dc ponderacién por el inverse de la varianza del
estimador, ya que la varianza es desconocida. Como alternativas, Faith, Allison y
German (1996) discuten la posibilidad de ponderar por el nfimero dc puntos en el
estudio o, incluso, cambiar a un esquema dc ponderacién por la calidad del esmdio.
Diversos cstudios han mostrado que, en general, las medidas no paraméu-icas no
son una buena opcién para el MA. Wolery et al. (2010) concluyen mcomendando
directamentc cl abandono dc este tipo de medidas, centrando los esfilerzos en otras
lineas. Nosotros creemos que su use descriptive y exploratorio no se debe descartar
por ahora. De hecho, otros autores no 11311 encontrado que estas medidas fimcionen
peor que las medidas paramétricas en un abanico de situacioues bastante creibles
(Manolov y Solanas, 2008). Adcmés, no debe-mos olvidar que los proccdimientos
meta-analflicos deben set convincentes para sus usuarios, y el punto fuerte de estas
medidas es que coinciden bastante con los resultados de la inspeccién visual de los
cxpcrtos. Lo mils prfictico seria contar con procedimientos en los que coincidieran los
resultados de la inspeccién visual de los expertos con el rigor metodolégico exigible a
walquier practical pmfesional que quiera set considerada dentro del movimiento
“basado en la evidencia” (Manolov, Sierra, Solanas y Botella, 2014).
Un problema adicional con este tipo de medidas es que :1 TE expresado
mediante alguno de estos indices no paramétricos no es comparable con los indices
habituales an MA, a pesar de los intentos por hacer que aqucllos scan interpretablas
desde 1a (uptica de estos (Parker y Hagan-Burke, 2007). Esto hace que cuando se
localizan tanto estudios con DCU como de comparacién de grupos las estimaciones
combinadas de los dos conjuntos dc esmdios no puedan a su vez integrarse en estima-
ciones conjuntas.
7.2.3. Medidas paramétn'cas
Aparte del caso de la diferencia dc medias, que ya hemos comentado, las dificultades
de las medidas no paramétricas han propiciado e1 desarrollo dc adaptaciones de
modelos lineales, especialmente de regresién, que tengan en cuenta las tendencias
intrafase. Son las técnicas estadisticas para el anilisis dc series temporales
intcrrumpidas. Estas adaptaciones pretenden capturar la magnimd del impacto dc una
intervencién micntras tiencn en cucnta las tendencias y cambios “mcalén” yfo los
efectos dc autocorrelacién. Las primeras permiten incrementar 1a validez intema, 31
separar el efecto del cambio de fase de lo que hubiera sido observado en case de no
intervenir. Las segundas hay que contemplarlas para poder emplear modelos estadis-
ticos apropiados, que recojan las propiedades do 105 dates. Par ejemplo, en la figura
7.4 56 muestra 1a proyeccién sobre la fase B dc la recta dc regresién obtenida con los
datos de la fase A (con el dia como variable independiente) de los ejemplos de 13. fi-
gura 7.2 (la ecuacién es Y’ = 8,36 — 0,19 -X). La recta de regresién confinna lo que
sugiere cl anilisis visual: que en la fuse A 105 valores tienen una tendencia decre-
ciente. Mientras en la figura 7.4a los valom de la fase B 56 parecen a los que cabria
esperar por mera continuidad de la tendencia en la fase A, en la figura 7.4b se aprecia
que el cambio de fase ha producido una interrupcién en esa tendencia. Si se valora
ciegamente por la diferencia de medias habria que concluir que en ambos cases hay
un efecto, ya que en ambos cases la media de la fase B as inferior a la de- la fase A,
pero en la figura 7.4a esa diferencia queda explicada por la tendencia y en la figura
7.4b no.
Una primera linea dc dwan'ollo afronté la cuestién de los cambios escalén y de
tendencia, pero no la de la autocorrelacién. Fue primate propuesta por Center, Skiba y
Casey (1985-1986) y después modificada y mejorada unto pct Allison y German
(1993) came par Faith, Allison 3! German (1996), ya que en su forma original no se
contemplaban los efectos inversos.
La propuesta consists en ajustar modelos dc regresién lineal con la fase, la ten-
dencia (de la fase A) y de la interaccién. Se obtiene e1 coeficiente R2 incremental al
incluir la fase come predictora. El valor dc R2 as conviertc en un valor d, que fi-
nalmente es el indie: dc TE mpleado.
Como ya hemos indicado, este procedimiento sigue sin afiontar adecuadamente
limitaciones esenciales, como el hecho de que en el MA modemo se asumen casi de
oficio los modclos dc efectos aleatorios, mientras que en este procedimiento se asume
uno de efecto fijo, 0 e1 efecto de la. automnelacién, esencial para una correcta estima-
cién de la varianza del indice de TE. Ademés, algunos autores (3.3., Campbell, 2004)
no encuentran que un indice basado en regresién genera 1m mayor acuerdo que alga-
nos indices no paramétricos.
Una linea de dcsatmllo altemativa ha sido e1 empleo de modelos estadisticos de
series temporales interrumpidas. Su punto m es que si modelan el efecto de auto-
correlacién. Muchos autores que han discutido cl problema han sefialado que ningl'm
indicc dc TE puede ser adecuado si ignora cl efecto dc autocon'elacién, pero pocos
Capitulo 7. Mela-anéllsis en campus eapeclales 199
diemn e1 paso de proponer procedimientos précticos para hacerlo. El mas importante

es :1 dc Crosbie (1993, 1995), quien tomando coma punto de partida cl trabajo dc
Gottman (1981) desaxrolla el procedimienm ITSACORR, incluyendo una aplicacién
informética que permite ajustar cl modelo y estimar los parimetros. La légica es pa-
recida a la del procedimiento de Allison y Gorman en cuanto a que ajusta modelos y
compara los coeficientes de determinacién, pero con la ventaja afiadida de que
introduce cl efccto dc autocorrelacién. No obstantc, ha recibido también severas
criticas (e.g., Huitema, 2004).
Figura 7.4. Un ejemplo non tendencia lineal dacreciante en la fees A y con una difemncia
antre las medias de Ios valores en las fases. En la figura (3) I05 dates de la fase B sun
congmentas con la proyaccién da Ia recta da ragresién sabre esa fase. En la figura (b) no
ocun'a asl; la diferencia entre las medias as mayor de la que saria asperabla incluso si la
tendencia da Ia fase A tuviase oontinuidad en la fasa B.
. (a)
FaseA FaseB
: -
1 2 3 4 5 G '1 I I 1011 1 2 1 3 1 4 1 5 1 5
(I!) II
' Fun! Fuel!
10' I
. . I
_ I
i -I 9 o |
N
5 ' o I—'- - - - - - - - -
I I - - - - - - - -
4 ' : o
' I o I
. I
3 I
- | a a
I
I I I I I I I I I I I I I ' I F
1 2 3 4 5 5 1 8 9 1 0 1 1 1 2 1 3 1 4 1 5 1 5
200 Meta-anallsis en Ciendas Saclalea y de la Salud
7.2.4. Caractefisticas deseables en un indice de TE en disefios the N = 1
A la vista de la complejidad de los problems que se suscitan para derivar un indice

apropiado algunos autores han hecho explicitas algunas caracteristicas deseables en
un indice ideal, para que cumpla a plena satisfaccién con su cometido. Primero fueron
Homer, Swaminathan, Sugai y Smolkowski (2009) y después Wolery et at. (2010).
Nosotros seguiremos la sintesis y clasificacién que posteriormente hicieron Maggin e:
at. (2011) en Ires grupos de caracteristicas que resumimos en el tabla 7.1.
El propio hecho de que se elaboren listas dc caracteristicas deseables refleja la
preocupacién por el problem y las dificultades encontradas. Sin duda en los primi-
mos afios seguiremos asistiendo a la inversién dc grandes mfilerzos en el desarrollo
de buenos indjces dc TE para este tipo de discfios.
Tabla 7.1. Las 10 caracteristicas deseables de un buen Indioe de TE para edudios

can DCU. sagL'In la clasificacifin propuesta por Maggin eta}. (2011).
Categoria Caractenkticas
1. Utiliza todos los datos

Coherencia con la 2. Explica [as caracteristicas gréficas de los dams,
légica del anélisis incluyendo e1 nivel, 1a tendencia y la variabilidad
visual 3. Permite estimar la consistencia del efecto en
diversas demostraciones dc control experimental
Control de las 4. La autocorrelacién

principales amenazas 5. Las tendencias intrafase
a la intclprctacién 6. No se vc dcmasiado influido por los valorcs extremes
7. Fécilmente intelpretable por investigadormc de un

abanico amplio de disciplinas y con diferentes for-
maciones
P i I les 8. (:5; de captm'ar d1ferencms en la magmtud del
estadlstlcas 9. Permits hacer anélisis precisos y fiables de las va-

riables moderadoras
10. Tiene caracteristicas distribucionales bien funda-
mentadas en la teoria estadistica
Capitulo 7. Mela-anéllsis en campus especlales 201
7.2.5. Una altemativa: ana’lisis con un modelo multinivel
La ripida expansién de los modelos jerérquicos o mulfinivel ha incluido también pro-

puestas dc aplicacién en este campo, proclamfindose como una major solucién que las
precedentes. Ya hemos indicado que los estudios primaries con DCU a veces pro-
porcionan los datos directos, para lo que casi siempre aportan son figuras como la 7.2
desde las que es posible deducir los datos con bastante exactitud. Una vez que se ham
deducido los dates as posible abordar cl problema mediantc un modelo multinivcl
(Hex, 2010), aunque este se salga del émbito estricto del MA. Este enfoque ya no as
propiamente MA porque no se analizan los anéh'sis y resfimenes estadisticos de los es-
tudios primaries, sino los datos directos (en esto se parece 11153 a un anélisis se-
cundario). En cambio, si tiene en cumin con 31 MA que se combinan los datos dc
varies estmlios independjentes y se analizan en funcién de las caracteristicas de 105
estudios.
Van den Noortgate y Onghena (2003, 2008) han propuesto una altemativa de
este tipo que consists en un modelo con dos nivelwe. En el m'vel 1 aparecen los datos
dc fase, mientras que en el segundo aparecen los individuos. Esto permite que las
diferencias entre- los participantes se modelen como un factor de efectos aleatorios.
Igualmente, en ese nivel se pueden incluir las caracteristicas del procedimiento y de la
intervencién quc son propias de cada participante o estudio primario. Los autores pro-
ponen la inclusién de un factor que contempla e1 efecto de automrrelacién. Aunque
todavia no se ha aplicado suficientemente a casos précficos, el uso de modelos mul-
tinivel constimye una altemativa muy prometedora.
7.3. Meta-anélisis acumulativo prospectivo

La expresién “meta-anélisis acumulativo” se ha empleado para hacer referencia a dos
cosas bien distintas. Por un lado, a] forest plot acumulativo y al tipo de inferencias
que permits hacer. Por otro, a una forma de MA en la que se disefia y planifica la in-
corporacién dc nuevos estudios a medida que se van realizando y publicando, lo que
implica mfiltiples reanélisis y una regla dc parada. La primera acepcién no tiene nada
de especial. Consistc en una variants del forest plot en la que los estudios se ordenan
con algl'm criteria relevant: y los dates se analizan de forma acumulativa; ya la hemos
mencionado en el epigrafe 3.3. La segunda se llama “meta-anélisis acumulativo pros-
pective” y si que merece un sitio en el capitulo dc MA “especiales”.
El meta-anélisis acumulativo prospective tiene dos caractcristicas pcculiares. La
primera es que los anfilisis se actualizan a medida que 56 van publicando nuevos estu-
dios primaries. La segunda es que se aplica una regla de parada previamente esta-
blecida que identifica e1 memento en que la acumulacién conduce a resultados con-
cluyentes. Precisamente se usa el término “prospective” porque se disefia con esta in-
tencién y asi se prepara e1 protocolo. Esta disefio se enfrenta a un problema especifico
que no hemos tratado hasta aqui pero que es anflogo a1 que aparece en los estudios
primaries de diversas {wees de la psicologia. Por e110 comenzaremos por exponer
cémo aparece e1 problema en la investigacién primaria y 111c abordaremos su
extensic'm a1 MA.
7.3.1. Anilisis y muestreo secuencial en estudios primaries
En 1m estudio primario un pmcedinfiento habitual para fijar e1 tamafio de la muestra

que se va a emplear consiste en asumir una cierta estimacién del TE a partir de estu-
dios antefiorcs, dc aims fuentcs o tomando cl asociado a ou'as variables similares,
fijar la probabilidad dc error tipo I (a) con la que se va a trabajar y la potencia que se
desca tenet en el contraste (116'). Sustituyendo estas cantidades en la férmula apro-
piada se obtiene e1 tamafio adecuado de la(s) muestras(s) (3.3:, Allison, Silverstein y
Gorman, 1996; Paul, Erdfelder, Lang y Buchner, 200?; Hays, 1988; Kirk, 1995;
Winer, 1971). Esta es la llamada regla del tamar‘ia prefijado (Botella, iénez,
Revuelta y Suero, 2006). Cuando se emplea esta regla e1 tamafio de la muestra queda
establecido antes de comenzar a recoger datos y el contrasts estadistico solo se realiza
sobre la muestra total, una vez concluida la fase dc recogida de dams.
Aunque la regla del tamafio prefijado es el procedimiento “ortodoxo”, hay mu-
chas situaciones en las que no es adecuada, especialmente cuando hay un gran interés
por emplear cl manor nfimero dc unidades necesario para alcanzar una conclusién
sabre la hipétesis nula. Asi, cuando la recogida de dates as costosa (e.g., ciertas téc-
nicas dc neuroimagen, anilisis genético), cuando la intervencién es desagradable u
dolorosa (e.g., estimulacién aversiva), cuando implica 1m dafio colateral que conviene
minimizar (e.g., operaciones e11 animales para esmdiar sus consecucncias) o Guando
se estudian cases rams, dificiles dc encontrar (3.3., lesiones cerebrales may espe-
cificas) no es prficfico esperar a tener una muestra de un cierto tamafio preespe—
cificado para analizar los datos.
Un procedimiento alternativo a1 de la regla del tamafio prefijado podria consistir
en reanalizar los dams de la forma csténdar tras la incorporacién de cada participante
y segl'm lo que se va obteniendo se decide si afiadir més unidades o no, hasta que se
alcanza una conclusién. Esta forma de actuar es considerada 1111a “mala préctica” cien-
tifica (Francis, 2012), ya que su empleo produce anomalias estadisticas. Las princi-
pales son que la tasa dc error tipo I se dispara y sobrepasa con mucho e1 valor nominal
del nivel a adoptado en cada contraste y que se producer) sesgos de sobreestimacién
del TE (Botella, Ximénez, Sucre y Revuelta, 2006; Braschi, Botella y Suero, 2014;
Frick, 1998; Francis, 2012; Strube, 2006). For 61 contran'o, los procedimientos
especificamente ideados para el anélisis y muwtreo secuencial y de panda u‘atan dc
alcanzar cl doble objetivo de minimizar cl mmafio de la muestra final mientras se
mantiene controlada la mas. de error tipo I.
Capitulo 7. Mela-anéllsis en campus eapeclales 203
Tras el trabajo seminal de Wald (1947) se ha producido un importante dam-0110

de este campo (e.g., Ghosh 3; Sen, 1991; Lai, 2001; Proschan, Wittes y Lan, 2006;
Siegmund, 1935, 1994; Wetherill y Glazebrook, 1986). Debido a que el tipo de
circunstancias en las que son apropiadas son més frecuentes en medicina es esta dis~
ciplina la que ha liderado el desarrollo de procedimientos dc anélisis secuencial (3.3:,
Lachin, 1981; O’Brien y Fleming, 1979; Whitehead, 1997a). Sin embargo, en psi-
cologia también a veces concmren circunstancias similares y se han desarrollado al-
gtmas reglas de anélisis semencial y de panda (e.g., Rubella, Ximénez, Revuelta y
Suero, 2006; Pitts, 2010, 2011; Frick, 1998; Ximénez y Revuelta, 2007).
Veamos, p01- ejemplo, en qué consists la regla CLAST propuesta por Botella,
Ximénez, Revuelta y Suero (2006). Para concluir sobre el valor de verdad de la
hipétesis nula can a = 0,05 se comienza por realizar el cmerimento con la mitad de
los participantes quc indicaria 1a regla del tamafio prefijado. Se analizan los dates y se
adopta una decisién con un criteria conservation si en el contrasts se obtiene p 5 0,01
se rechaza H, y si se obtiene p 2 0,25 se- mantiene. Peru si 0,01 <p < 0,25 entonces se
administra la tarea a otro participante, se reanalizan los datos y se aplica la misma
regla de decisién. Esto se repite una y otra vez hasta que p queda fuera del intervalo
dc indecisién [0,0]; 0,25] 0 se alcanza cl méxhno tamafio aceptado (1,5 veces el de la
regla del tamafio prefijado). Las simulaciones muesn'an que esta regla genera aproxi-
madmente 1m 5% dc mores tipo I, mientras qua mantiene una buena potencia y se
alcanza una decisién aharrando en tome a un 40% de los participantes. Es decir, cum-
ple con el doble objetivo buscadol.
7.3.2. Anélisis secuencial y meta-anélisis acumulativo
El traslado al érnbito del MA dc 1a pregunta dc partida y la lbgica dc estas reglas

secuenciales file ya planteado por Olkin (1995) en sus reflmciones sobre :1 film de
esta metodologia. Habitualmente pensamos en 61 MA como una metodologia para sin-
tetizar los resultados de los estudios ya publicados (come metodologia retrospectiva).
Sin embargo, e1 émbito de las colaboraciones es una plataforma desde la que no es
ram que se planifiquen MA prospectivos en los que de forma cooperativa 10s autorcs
dc diferentes centres de investigacién van aportando sus resultados. Si se dan algunas
de las circunstancias anteriores, cl objetivo de alcanzar una conclusién con el minimo
nfimero posible dc unidades (participantes, estudios) es totalmente pertinente. Par
ejemplo, los estudios con lesiones cerebrales suelen basarse en muestras pequefias de
pacicntes quc sufi'cn lwiones similarw. Igualmcnte, trastomos dc baja frecucncia
como el de Asperger acousejan emplear procedimientos can los que alcanzar
‘Enesbepunw cabepreguntarsepurhsadaptaciomqueaedabminmduweaAcuandolos
estmfios primal-ins se han realizado con un prooedimiunto anaemia], otra linen dc investigacic’m qua apenas
ha dado sus primms pas-as (Buschi, Botella y Sucre, 2014).
conclusiones sin esperar hasta obtener e1 tamafio muestral derivado de la regla del
tamafio prcfijado.
Un procedimiento para realizar el MA con el minimo nfimero de participantes
podria consistir, sencillamente, en afiadir los participantes de cada estudio a una finica
muestra e ir reanalizando. Su aplicacién exige conocer los datos individuales de cada
participante. Este enfoque reconvertiria e1 problema del anélisis secuencial en MA en
un problcma dc anélisis sccuencial de una mumtra finica, como en un cstudio prima-
rio. En este case se podrian aplicar los mismos procedimientos secuenciales que a los
estudios primaries. Peru en muchos casos solo 86 comes la. infonnacién de agregado
muestral de cada esmdio, no los datos individuales.
Es fécil que esta forma de proceder sea incorrecta, tanto si se conocen los datos
individuales coma los agrupados, ya que en ella 5e asume un efecto fijo, comfin a to-
dos los estudios. Por ejemplo, e1 procedimicnto propuesto por Pogue y Yusuf (1997)
asume un efecto comfm para todos los estudios. Adoptan como limits maiximo para la
parada lo que llaman e1 optimum information size, que no es otra cosa que el tamaflo
que se deriva de la regla del tamafio prefijado aplicado a1 total de participantes en el
conjunto de los estudios.
Ya hemos indicado reiteradamente a lo largo del libro que an MA son més
creibles los modelos dc efectos aleatorios. Es razonable esperar que el efecto en cada
estudio sea diferentc y que la variabilidad interestudios poblacional no sea nula. En
mtas condiciones cl principal problema del MA acumulativo con anélisis secuencial y
decisiones condicionadas dc parada consiste- en que hay que obtener una estimacién,
también secuencial, de la vaIianza interesmdios. Whitehead (1997b) ha propuesto una
forma de adaptar :11 MA 311 regla secuencial (basada en el llamado test triangular;
Whitehead, 1997a). Sus simulaciones muestran que si e] cumpouente dc efectos alea-
torios exists 3] no es trivialmente pequefio, entonces ignorarlo puede tenet importantes
consecuencias en las decisiones. Higgins, Whitehead y Simmonds (2011) proponen
un prooedimiento a1 que se refieren coma “semibayesiano” porque la légica secuen-
cial es fi'ecucntista, pew la varianza intercstudios se actualiza por procedimientos ba-
yesianos u'as la incorporacién de cada estudio.
La impormncia de no ignorar las consecuencias de la realizacién de mfiltiples
cont-aster, con los mismos dates (0 parte de ellos) se ha destacado muchas veces e11
relacit'm con los estudios primarios. Hay ya 56 reconoce también esa importancia en el
émbito del MA (e.g., Bender, Blmce, Clarke, Gates, Lange, Pace y 'I'horlund, 2008;
Higgins, Whitehead y Simmonds, 2011; Van der Tweed, 2010). Algunos autores (e.g.,
Brok, Thorlund, Wetterslev y Gluud, 2009) han mosuado con dates reales esas
consecuencias. El deemollo dc procedinfientos estadisticos apropiados para el MA
acumulativo prospective es una linea de investigacibn en pleno desarrollo. Aunque
am: no hay 1m procedimiento establecido con el mlficiente consenso as probable que
en los préximos afios ese procedimiento vea 1a tuz.
No queremos ccrrar esta seccién sin hacer algunos commuting que surgen a1
hilo de las reflexiones sobre :1 MA prospective. Con frecuencia se publican MAS que
son actualizaciones de otl‘os MAS realizados unos afios atrés y que incorporan un nfi-
mere significativo dc nuevos estudios publicados desde entonces. Légicamente, no so
Irata de una actualizacién planificada, ya que es incluso probable que sea llevada a
cabo por autores diferentes. Sin embargo, es licito preguntarse por algunos extremes
relacionados con 10 natado en este apartado.
Per 1111 lado, dcbemos hacer notar que si un MA crece indefinidamente con
nucvos estudios, la. probabilidad dc quc la cstimacién combinada sea signifi-
cativamente distinta de cero tiende a 1. Es lo mismo que ocune en los estudios pri-
maries; una correlacién tan pequefia come r = 0,05 es estadisticamente significativa
(a = 0,05) si la muestm es de al menos N = 1535. Basta afiadir cases indefinidamente
para que en algt'm momenta alcance la significacifin estadistica, aunque la correlacién
sea muy baja: en un esmdio primario basta con incremental- sin limite cl nfimero de
participantes para alcanzar un efecto significativo. Por tanto, una actualizacién in-
definida llevaré ineludiblemente a la conclusién de que el efecto existe. Desde luego,
esto no tiene que ver con la estimacién del TE, que puede ser un valor muy pequefiu
aun siendo significativo. Tiene que ver con la potencia del contraste meta-analitico,
que areas a medida que aumenta el nfimero dc estudios, k (Pigott, 2012). Cabe pre-
guntarse si tiene sentido continuar este proceso indefinidamente o merece la pena es-
tablecer un tamafio del intervalo que se pueda considerar “suficiente”, en el sentido
précfico del término. El autor de un MA puede concluir sefialando la escasez de
wtudios primaries y animando a realizar mfis, o puede sefialar que ya hay suficientes
para establecer una conclusién sélida. La conclusién de an MA puede tener reper-
cusiones en la decisién de realizar nuevos estudios primaries. Para e110 los inves-
tigadores deben conocer cuéndo hay suficiente informacién sobre una determinada
pregunta y el afladir nuevos esmdios primaries no la va a modificar significa-
tivamente. De esta forma podrén central" sus esfilerzos en Dims problemas Inés ne-
cesitados dc investigaciones primarias.
Validez del meta-anélisis
La calidad de la investigacién cientifica se suele analizar en el marco construido en

torno al concepto dc validez, un marco que se planted en cl trabajo seminal dc Camp-
bell y Stanley (1963), que luego se actualizé en el libro de Cook y Campbell (1979) y
mils recientemente en el de Shadish, Cook 3* Campbell (2002). El anilisis en tome a la
validez consists, esencialmente, en el desglose de este constructo en varies subtipos
de validez, la identificacién de amenazas potencialcs a cada subtipo que podrian redu-
cir 1a credibilidad de las conclusiones y, por filtimo, la propuesta de acciones y deci-
siones ideadas coma proteccién ante esas amenazas. En la filtima de- las obras citadas
aparece ya 1m apartado dedicado especificamente a] MA.
El MA comparte algunas amenazas con otras metodologias, pero tiene también
las suyas propias. Matt y Cook (1994, 2009) abundan en el mismo esquema que
Shadish, Cook y Campbell (2002), proponiendo una clasificacibn de las amenazas en
tres grapes: en el primal-o se incluyen las que se refieren a las infemncias respecto a la
existencia de una asociacién entre dos variables. El segundo lo constituyen las ame-
nazas que se reficren alas inferencias especificas sobre la relacién causal ante varia-
bles. El tcrcero tiene que ver con la generalizacz‘én. Remitimos al lector interesado a
las obtas citadas, especialmente a1 capitulo de Matt y Cook (2009) por set In versién
més actualizada.
En este capitulo vamos a centrarnos en tres filentes dc preocupacién especificas
del MA y que han sido sefialadas coma su talén dc Aquiles (e.g., Sharpe, 1997): la ca-
lidad de los estudios primaries que se sintetizan, la cuestién de la homogeneidad y el
grave problem del sesgo dc publicacién. Después abordaremos la cuestién de las in-
ferencias meta-unaliticas y de los peligros de su inadecuacién. Por filtimo, tratarernos
brevemente las pruebas de sensibilidad y su pap-cl coma elemento de proteccién

cont-a potenciales mas de validez; estas pruebas aportan solidez al MA redu-
ciendo 1a probabilidad de que las amenazas se: conviertan en realidades.
8.1. La calidad de los estudios primarios

Desde el mismo nacimiento dc] MA se alzaron criticas por lo que algunos conside-
Iamn como una excesiva permisividad con la calidad para la inclusién de estudios en
los primates MA. La efectiva sentencia garbage in — garbage out, con la que se quie-
re decir que si lo que entra es basura lo que salga no puede ser otra cosa que basura,
resume esta critica. La aplicacién dc técnjcas meta-analiticas no puede convertir ma-
las investigaciones en una buena sintesis. Muy pronto se intenté afiontar formalmcnte
la cuestién con diversas propuestas (e.g., Chalmers et al., 1981; Worlman, 1983), lo
quc ha llcvado a profundas y extensas reflexiones accrca del propio concepto dc ca-
lidad y su significado (Conn y Ratz, 2003; Shadish, Cook y Campbell, 2002;
Verhagen, De Vet, De Bic, Boers 3! Van den Brandt, 2001; West, King, Carey, Lohr,
McKay, Sutton 3; Lux, 2002).
La cuestién de- la calidad es un problem real que no se debe ignorar, pues cons-
tituye sin duda una de las amenazas especificas més clams a la validez del MA. Para
afi'ontarla es necesario asumir previamentc alguna definicién del propio concepto dc
calidad y desarrollar indicadores operatives con los que manejarla. Una primera dis-
tincién que debcmos hacer cs entrc calidaa‘ del esmdio y calidad de reporte. La
calidad deI esmdio hace referencia al grade en que un estudio se ha diseflado 6 im-
plementado de una forma metodolégica correcta, es decir, protegiéndose de las ame-
nazas contra la validez de los resultados. Dicho dc otra forma, un estudio tiene buena
calidad metodolégica si las estimaciones dc los efcctos estén libres de los sesgos que
pucden provocaI las amenazas contra su validez interns. y extema. La calidad del
reporte se refiere al grade en que el informe escrito del estudio contiene todos los
datos y toda la infonnacibn necesaria para que pueda set replicado por otros investi-
gadores. Aunque la calidad metodolbgica puedc estar condicionada por la calidad del
reports, ambas no tienen por qué ir de la mano. Un estudio puede tenet buena calidad
del reporte- (informa de todos los aspectos metodolégicos del estudjo) pero baja cali-
dad metodolégica, y vioeversa.
En este apartado nucstra atencién se centra en la calidad metodolégica, ya que es
la que puede afectar a la calidad (ausencia de sesgos) de las estimaciones de los efec-
tos. Hay dos formas generales dc tratar su operacionalizacifin: coma escalas y como
checklists. Las escalas estén compuestas por items referidos a aspectos especificos de
la calidad; los valorcs asignados en estos items 36 agregan para alcanzar una finica
puntuacién global que mide un constructo general de calidad (aunque se puede desa-
gregar en varias subescalas). La suma simple implica flat el mismo peso a todos 105
items, mientras que ponderarlos de forma no homogénea supone haber hecho 1111 and-
Capltulo B. Valldez del meta-anéllsls 209
lisis y justificacién de ese esquema dc ponderacién, alga dificil de argumentar sin una
gran dosis dc subjetividad. También implica asumir 1m constructs especifico dc cali-
dad, pero se ha puestn en duda que sea posible medir tal construct) de forma fiable y
vilida (V erhagen, De Vet, De Bic, Boers y Van den Brandt, 2001). De hecho, e1 em-
pleo dc escalas estfi desaconsejado desde entidades como la Cochrane Collaboration
(Higgins y Altman, 2008). Por su parte, los checklists también son listas dc items,
pero no se convierten en magnitudes que se agregan; simplemente se verifica su cum-
plimiento, ya sea dicotémicamente (Si/NO) 0 can varias categorias.
Con 103 indicadores de la calidad obtenidos sc puede actuar de varias formas.
Conn y Rantz (2003; véase también Sutton y Higgins, 2008) sefialan Hes estrategias
generales: (a) emplear la calidad como mnbral dc inclusién, (b) aplicarla coma cri-
teria de ponderacién, y (c) tratarla como una cuestit'm empirica sujeta al anélisis de su
relacién con los resultados. Lejos dc ser cxcluyentes, estas tres aetrategias se pueden
combinar dc mfiltiples formas.
El empleo de la calidad coma umbral de inclusién suele conllevar una severa
restriccién, ya sea aplicando un punto de corte en los valores obtenidos con una escala
o estableciendo el cumplimiento dc algunos items de un checklist coma condicit'm
necesaria para la inclusién. Algunos autores han defendido que 61 MA se deberia
realizar solo con los estudios disponibles que cumplan los més altos niveles de calidad
metodolégica (2.3., Crowe y Sheppard, 2011; Slavin, 1986, 1995). Esta fuerte
restriccién puede reducir drésticamente el nfimero de estudios admitidos y, en
consecuencia, la potencia de los anélisis estadisticos y la validez de las conclusiones;
pero no esté demoslrado que estas resuicciones conduzcan 3 1111213 conclusiones més
convincentes o incluso diferentes.
La segunda estratcgia, en la que se emplea la calidad some criteria dc ponde-
racz'én, ha sido sugerida por varies autores (especialmentc Rosenthal, 1991), pcro se
ha aplicado pocas veces y tampoco se ha demostrado eficaz en el tratamiento del pro—
blema.
En la tercera estrategia la calidad se trata como una cuestién empirica cuya re-
lacién con los resultados as objeto dc estudio en el propio MA (Valentine, 2009). Se
puede emplear tanto con modelos de meta-regesién que incorporan las puntuacionas
en una escala dc calidad como variable moderadora, coma con modelos categorialw
quc aprovechan las categorias creadas por los elementos de un checklist (e.g., Kahn,
Daya y Jadad, 1996; Schulz, Chalmers, Hayes y Altman, 1995). Si estos anilisis indi-
can que las dimensiones dc calidad no explican una parts significativa de la varianza
entonces la calidad se puede ignorar en anélisis postefiores; en ese caso e1 meta-ana-
lista se habré protegido de esta amenaza (estudiando sus potenciales efectos) pero sin
sufi'ir la pérdida dc potencia que acompafia a la exclusién de una parte de los estudios.
En cambio, si 103 resultados demuestran que las estimaciones del TE estén rela-
cionadas con la calidad entonces puede estar justificado el empleo de un filtro. Ade-
mfis, si se observa que la baja calidad wtfi asociada a ciertos tipos de disefios, de
muesn’eo, de instrumentos, etc., se dispondré de nuevas oportlmidades para analizar e1
arisen de la heterogeneidad
Como ya hemos indicado, estas estrategias se pueden combinar de varias for-

mas. Una dc ellas consists en emplear coma criteria dc inclusién mm o varies ele-
mentos metodolégicos de gran importancia y luego emplear los demés para ponderar
0 para un anilisis empirico. Esta es lo que ocurre en el fondo con los instrumentos
especificos para las distintas metodologias. Hay instrumentos para ensayos clinicos
alcatorizados (Dccharu‘cs, Charles, Hopewell, Ravaud y Altman, 2011; Olivo,
Macedo, Gadotti, Fuentes, Stanton y Magee, 2008) en los que primero hay que cons-
tatar que el estudio cumple con los criterios que identifican :1 ese tipo de estudios para
que sea incluido en el MA; después se aplican esos instrumentos para valorar la cali-
dad. Algo parecido se ha hecho con los estudios correlacionalw y observacionales
(Shamliyan, Kane )1 Dickinson, 2010). West, King, Carey, Lohr, McKay, Sutton y
L111 (2002) realizan una revisién pormenorizada de los insumnentos en fimcién de la
metodologia a la que se adscribcn los cstudios primaries.
Con respecto a los elementos en los que se basa la valoracién de la calidad, esm
suele descansar en un examen del grado en que el estudio esté amenazado respecto a
las cuatro for-mas bésicas de validez: interna, extema, dc constructo y de la conclusién
estadistica. Pongamos el foco en la validez interna. Si la baja calidad de los wtudios
precede dc que no se ban aplicado elemenms que permitan realizar inferencias cau-
sales can garantia (e.g., no hay asignacién aleatoria de los participantes a las con-
diciones), entonces no se puede considerar un elemento de validez reducida si en el
propio MA también las inferencias se restringen a la covariacién y no hacen infe-
rencias injustificadas de causalidad. Muchas de las limitaciones que proceden de los
disefios empleados en los estudios primaries se arrastran 211 MA y se cunviertcn en li-
mitaciones del propio MA. En términos generales sc puede decir que las limitaciones
del disefio (validez intema) de los estudios primaries se arrastran coma limitaciones a1
MA. Algo parecido ocurrc con la validcz dc constructo.
Pero esto no es asi con todos los tipos de validez. Ejemplo de e110 son muchas de
las amenazas a la validez de la conclusién matadistica. Asi, e1 hecho de que en los es-
tudios primaries se empleen técnicas estadisticas inadecuadas (muchas veces porque
asumen indebidamente supucstos distibucionales) son irrelevantes para el MA, ya
que en este se suelen ignorar los anélisis estadisticos inferenciales de los estudios pri-
maries. Igualmente, e11 muchos estudios primaries se emplean tamafios muestrales
que implican baja potencia de los contrastcs. Esta problem no solo no se arrastra :11
MA, sino que en muchas ocasiones se resuelve, ya que el contrasts sobre el TE
combinado de muchos estudios as 11153 potente que los cont-astes realizados sabre ca-
da muestra en su estudio primal-i0. De la misma forma, si la debilidad de los estudios
primaries se refiere a que han empleado insmentos de medida dc baja fiabilidad o
validez también se puedcn afrontar desde el MA; como hemos vista en el capitulo 6,
disponemos dc pmcedimientos para corregir las estimaciones del TE afectadas par
egos artefactos.
En el caso de la validez extema, [as limitaciones de los estudios primaries tam-
poco se mastrarén necesariamente al MA. La critica a los estudios primaries suele set
que las condiciones en las que se demuesn'a una relacién causal son may restringidas
y no hay garanfias de que se puedan generalizar a variaciones incluso pequefias en los

procedimientos, muestras y formas dc medida. Precisamcnte el MA recoge estudios
que, aunque se centran en la misma relacién entre constructos, muesn‘an variaciones
relevantes en cuanto a las formas dc operacionalizar esos constructos, a las caracte—
risticas de las muestras, etc. Si el efecto se muestra robusto a través de esas condi-
cioncs y estas no covaflan con 61 TE cntonces 61 MA wtfi apoflando una validez ex-
tema que no habia en los estudios primaries.
El problema que nos encontramos en la prictica meta-analitica para valorar la
calidad metodolégica de los estudios empiricos csté en que se han propuesto en la li-
teratma multitud dc estategias, escalas y checklists para valorarla. Asi, Decks er a].
(2003) han identificado hasta 194 estategias diferentes, entre escalas y dimensiones 0
items individuales, para valorar la calidad de estudios evaluativos. Cent‘fmdonos en
las mcalas dc calidad, Mohet er a1. (1995) identificamn 25 6803133 utilizadas en el
émbito médico. Jfini, Witschi, Bloch y Egger (1999) completaron dicha bfisqueda
afladiendo l4 escalas mils encontradas en cuatro prestigiosas revistas médicas. Pods-
mos afirmar que actualmente se han identificado unas 100 escalas dc calidad (Conn y
Rantz, 2003; Saunders et at, 2003). En el contexto de los estudios no experimentales,
Jardc, Losilla y Vives (2012a, 2012b) realizaron 1111a revisién sistemética en la quc
identificamn 74 instrumentos para valorar la calidad de este tipo de estudios.
Ademfis, se ha encontrado evidencia de que a] aplicar varias de estas escalas so-
bre una misma muestra dc estudios se encuentran resultados altamente discrepantes,
afectando de forma contradictoria a su relacién con el tamafio del efecto. Asi, Jfini et
al. (1999) aplicaron las 25 escalas de calidad identificadas por Moher at at. (1995) a
los 17 ECAs (ensayos controlados aleatorizados) de un meta-anilisis sobre la eficacia
de la heparina de bajo peso molecular fi‘ente a la heparina esténdar para evitar trom-
bosis en pacientcs de cirugia general, encontrando que con unas escalas 10s ECAs dc
mayor calidad presentaban resultados favorables a la heparina de bajo peso molecular,
nflentras que con otras escalas 10s ECAs de alta calidad obtenian el resultado opuesto,
e incluso con otras escalas no se observaban diferencias en las estimaciones de los
efectos ant-e los ECAs clasificados coma de alta y de baja calidad. Herbison, Hay-
Smith y Gillespie (2006) aplicaron 43 escalas de calidad a los estudios de 65 meta-
anélisis contenidos en 18 revisiones sisteméticas y ninguna de dichas escalas file
capaz dc clasificar de forma fiablc los csmdios en las categorias de alta versus baja
calidad.
Las discrepancias entre las escalas de calidad pueden deberse a varias razonas,
tales como el hecho de que las escalas midan diferentes aspectos de la calidad, el que
se hayan construido pensando en diferentes contextos de investigacién, 0 el que pre-
senten serias deficiencias psicométricas. N0 e11 vane resulta may complejo determinar
la validez de estos instrumentos, ya que, al no existir 1m “esténdar dc 01'0”, no se
puede establecer la validez dc criteria. Solo en contadas ocasiones se han estudiado
las propiedades psicométlicas de las escalas, incluida 1a fiabilidad intercodificadores.
Especial mencién merece la guia CONSORT (CONsolidated Standards 0f
Reporting Trials) elaborada par un grupo de investigations y editores médicos con el
propésito de mejorar 1a caJidad del reporte de los ECAs (Moher, Cook, Eastwood,
Olkin, Rennie 3; Stamp, 1999). Esta guia, compuesta par 22 items 3; un diagrama de
flujo orientativo, ha sido adoptada por numerosos consejos editoriales dc prestigiosas
revistas médicas (qfl Moher, Jones y Lepage for the CONSORT Group, 2001; Muller,
Schulz y Altman for the CONSORT Group, 2001). De especial interés para el fimbito
de las Ciencias dcl Comportamicnto es la adaptacibn dc 1a guia CONSORT para 511
aplicacién a estudios evaluativos sabre intervenciones psicolégicas (cf Boutmn er al.
for the CONSORT Group, 2008). En esta misma linea se ha desarrollado la guia
TREND (Transparent Reporting of Evaluations with Nonrandomized Designs), diri-
gida a mejorar cl reporte de los estudios evaluativos no aleatofizados en ciencias del
comportamiento (c Des Jarlais, Lyles, Crepaz and the TREND Group, 2004).
En el émbito de las Ciencias Sociales y del Comportamiento también se han pro-
pumto, aunque en manor cuantia, cscalas y sistcmas para valorar la calidad de los es-
mdios evaluativos, que podrian aplicarse en meta-anélisis. Asi, Miller y Wilbourne
(2002) 11311 elaborado la Methodological Quality Rating Scale (MQRS), la cual ha Si-
do adaptada para 511 user an mfiltiples meta-anélisis en ciencias sociales. Esta escala
incluye items sabre disefio del estudio, mortalidad, duracién dc] seguimiento, tipos dc
medidas dc resultado 3; control dc la calidad de la intervencién. Contiene 12 items que
dan una puntuacién entre 0 y 17.
Gabe también mencionar la propuesta pot Valentine y Cooper (2008) del sistema
Design and Implementation Assessment Device (DIAD), financiado por el Mat
Work; Clearinghouse (WWC), una organizacién auspiciada por el U S . Department of
Educationis Institute of Education Sciences. La guia DIAD pretende solventar los
problemas dc ambigfiedad de las wealas anteriorcs en el proccso de valoracién, codi-
ficacién y asignacién final de las puntuaciones sobre 105 items de calidad. Para e110
propane 1m sistema jcrérquico dc identificacién dc dimensiones dc calidad, quc co-
mienza con cuatro preguntas en su nivel méximo de abstraccién (los cuatro tipos de
validez de la invastigacifin), para vertebrar a continuacién cada una de ellas en otras
dos preguntas més especificas y, finalmente, en un filtimo nivcl de méxima especi-
ficidad, se proponen 32-34 items dc calidad que penniten operacionalizar la valora-
cién de la calidad del disefio e implementacién de los estudjos evaluativos.
Son ejemplos de otras escalas de valoracién de la calidad cl STARD para estu-
dios dc precisién dc clasificaciones diagnésticas binarias (véasc cl epigrafe 6.3;
Bossuyt, Reitsma, Bruns, Gatsonis et al., 2003), la escala de calidad para estudios
sabre dolor de Yates, Morley, Eccleston y Williams (2005) o la escala Q-Cah ela-
borada por Jarde, Losilla, Vives y Rodrigo (2013) para valorar la calidad de esmdios
de cohortes. Asi mismo, es muy frecuente que se elaboren escalas ad hac, adaptadas
a] tipo de estudios primarios implicados y alas caracteristicas especificas del campo
dc estudio a1 que se refiere e1 MA.
En resumen, la cuestién de la calidad no esté resuelta, pues no hay consenso
sabre qué serian unas buenas précticas al respecto. Sin embargo, esto no debe llevar a
ignorarla. En todo MA se debe afrontar dc alguna forma y se debs hacer explicita en
el informs. Para elln hay muchos recursos.
Can propésitos meramente ilustrativos, presentamos en la tabla 8.] mm escala de

valoracién de la calidad metodolégica elaborada por el equipo de la Unidad de Meta-
anélisis de la Universidad de Murcia (Lépez-Lépez, Sénchez-Meca, Lépez-Pina et (11.,
2013, septiembre). Su propésito es valorar las amenazas contra la validez de los estu-
dios empiricos sobre la eficacia dc tratamientos psicolégicos ylo farmacolégicos dc
tastornos mentalcs. La escala consta de 10 items dicotémicos quc valoran la asig—
nacibn aleatofia de los palticipantes a los grupos, si se comprobé que los grupos esta-
ban equilibrados en el pretest en las variables relevantes, si se incluyeron medidas
pretest de las variables dependientes, si se incluyé un grupo de comm-01 placebo psioo-
légico yfo farmacolégico, si 105 cvaluadores heron enmascarados resPecto del Inta-
miento aplicado, si se utilizamn instrumentos de medida debidamente validados, si e1
tamafio muestral era grande o pequefio, si la mortalidad en el postest fue inferior a1
10%, y si se realizaron anélisis por intencién dc tratar. Ademés dc obtencr una pun-
macién total de calidad, se puede analizar de forma individual la posible relacién
entre cada item y los tamafios del efecto, con objeto de detectar los aspectos de la ca-
lidad que pueden provocar sesgos en las estimaciones del MA.
Tabla 8.1. Escala do mlldad para valarar las amenazas da sasgo an Ias aslimacinnas dal TE.
item Si No
1. gAsignacién aleatoria a los grapes?
2. 1,86 comprobé que los grupos estaban igualados en el pretest en

variables relevantes?
3. {.86 incluycron medidas pretest de lafs variablels dependiente?
4. LS: incluyé grupo de control placebo psicolégico?
5. (,Se incluyé grupo de control placebo farmacolégioo?
6. gHubo enmascaramiento del evaluador?

7. 3,86 utilizaron instrumentos de evaluacién validados?
8. LTamafio muestral alto?“
9. LMortalidad en el postest igual o inferior al 10%?
10. L88 aplicaron anélisis por intencién de tratar?
Suma Total de las puntuaciones =
" Se dicommiza la distribucién de los lamafios muestrales de los eswdios del MA en
flmcifin de la mediana y se asigna la categoria “alto” a los tamafios muestmles supm'ioraa
a use valor. La mpuwta “si” se puntfia con m1 1, la respuesta “no” se puntfia con 0.
8.2. El problema de la heterogeneidad de los estudios

También esta cuestién se suele resumir con una expresién eficaz, a1 referirse a una
eventual mezcla de perm con manzcmas. Una revisién sistemfitica debe comenzar
definiendo el problema que va a abordar, lo cual implica establecer limites entre la
que pretende incluir y lo que no y, en consecuencia, a qué se van a referir 135 can-
clusiones. L03 estudios que se incluyen en un MA nunca son idénticos. Siempre supo-
nen variaciones en las formas de definir 0 dc traducir los oonstructos en operaniones
précticas dc medicién. Sin embargo, eso no quiere decir que no se refieran a los
mismos constructos. El meta-analista tiene que decidir cuél seré e1 margen dc tole-
rancia alas variaciones que va a establecer en su revisién. Los estudios deben set 110-
mogéneos, en el sentido de mantenerse dentro de esos limites; traspasarlos implicaré
una mezcla inadecuada. La metéfora de las paras y las manzanas se ha explotado mas
aun paIa sefialar que mezclar paras con manzanas es adecuado si se va a trabajar con
la categon'a fiuta (también habré que incluir naranjas, melocotones y otras). En cam-
bio, a veces lo quc interesa es una clase especial dc manzanas y qucdarse con todas
las manzanas implica también incurrir en un problema de heterogeneidad.
Esta critica procede del primer MA, sobre la eficacia de las intervenciones cli-
nicas en psicologia (Glass 3* Smith, 1977). En él se compararon gmpos dc estudios an
funcién de la escuela psicolégica de la que se deriva la técnica terapéutica (con-
ductista, cognitiva, humanism, psioodinémica). Aunque esta agrupacién puede dar una
idea general sobre esas grandes categorias, la critica sefialaba que en cada categoria se
mezclaban intervenciones largas y cortas para problems severos dc larga duracién y
leves, con adultos y con m'fios, etc. Proporcionar un valor dc TE asociado a una de es-
tas categorias era decir muy poco, puss era dificil saber bien a qué se refeflan.
Esta file una critica cartera al primer MA y, a partir de ella, los meta-analistas
empezaron a aprender que para ser creibles debian ser transparentes a1 establecer e1
problem 3; rigurosos a la hora dc aplicar criterios dc inclusién y exclusién de los
estudios.
En realidad no es una critica consustancial 31 MA. En an MA se pueden mezclar
indebidamente elementos heterogéneos y por e110 hay que presmr atencifin a la cues-
tién y evitar la circunstancia. Pero lo mismo ocurre con las investigaciones primarias.
A vanes las muestras dc pacientes qua participan en un ensayo clinjco mac-Stan dife-
rancias importantes. Ningl'm paciente es idéntioo a otro y los criterios dc inclusién 5e
establecen para que la heterogeneidad se mantenga dentro de ciertos niveles que se
consideren razonables. Sin cmbaxgo, una seleccién defectlwsa, que no tcnga en cuenta
par ejemplo que haya variaciones sustanciales en los niveles dc severidad, de croni-
cidad 0 en comorbilidades, puede hacer que las conclusiones se refieran a trade 0 a na-
da. Como en cualquier tipo de metodologia e1 MA debs respetar los niveles de ané-
lisis establecidos. Si se quiere estudiar la depresién y concluir sabre intervenciones en
depresién, en general, entonces no solo no hay que buscar pacientes idénticos; més
bien hay que tratar de oonseguir que en la muestra mtén adecuadamente representadas
[as variaciones que muestra este constructo y a lo largo de las cuales se pretenden ex-
tender las conclusiones.
En resume-n, consideramos que la critica de la heterogeneidad no es una critica
especifica a la metodologia meta-analitica coma tal, sino una dimensién més para
analizar la calidad de 1111 MA concrete. Implica valorar en qué medida cl meta-analism
ha establccido adccuadamente cl nivcl dc generalizacién quc pretends y si 10 ha res-
petado en las decisiones adoptadas y en las conclusiones alcanzadas.
8.3. El sesgo de publicacién

E1 sesgo dc publicacién es un fenémenu conucido desde hace bastante tiempo (e.g.,
Sterling, 1959) y los autores involucrados en el nacimiento y los primeros pasos del
MA se dieron cuenta muy pronto de su importancia para esta metodologia. El proceso
quc transcurrc desdc que sc completa una investigacién hasta quc sc publica es largo,
laborioso y lleno dc dificultades. No todos los cstudios realizados superan con éxito
todas las etapas y terminan viendo la 1112 en las revistas cientiflcas. Desde el punts
inicial, en el quc los autores pueden decidir no enviarlo a publicar, hasta la decisién
final del editor ejecutivo, que puede ser de aceptacién o rechazo, una parte de los es-
tudios se quedan por el camino. A esto hay que afiadir que los estudios publicados tie-
nen myor probabilidad de acabaI fonnando pane de la base de datos de 1111 MA.
Si en esta carrera dc obstéculos el éxito (la publicacién) se produjese aleaxo-
riamcntc sobrc los cstudios rcalizados la finica consecuencia seria quc al final 36
dispondria dc menus estudios de los que se han llevado a cabo. Esta conllevaria una
reduccién en la potencia de los anilisis estadisticos subsigtfientes y una pérdida de
precisién en las estimaciones de 105 TE poblacionales, para los publicados serian una
muestra representativa do 105 estudios realizados. For 61 contrario, este proceso (y la
base final de estudios) tendré un carécter mgado si en 61 actl'lan filtros que modifican
la probabilidad de que los estudios con caracteristicas especificas acaben siendo pu-
blicados en los medias més habitlmles y visibles de un fimbito de investigacién. Estes
filtros puedcn estar asociados a caracteristicas relacionadas con las tcméticas, los
procedimientos, los autores, los resultados, e1 idioma dc origen, etc. En el émbito del
MA, cl filtro dc mayor interés ha side el que se asocia a los resxfltados, a] que dedica-
remos este apartado. A] hahlar dc sesgo de publicacién nos referiremos a partir de
aqui a la conocida relacién entre la probabilidad dc publicacién por un lado y per 0111)
6] TE observado, cl tamafio de la muestra empleada y la decisién adoptada respecto a
si e1 contrasts es estadisticamente significativo. Aunque estas tree caracteristicas estén
relacionadas, la mfis frecuentemente reconocida por su visibflidad ha sido la signi-
ficacién estadistica.
Esté bien establecido y aoeptado que las rcvistas cientificas son reacias a publi-
car estudios cuyos resultados no son estadisticamente significativos (Francis, 2012).
Podriamos decir que hay un guion implicito del éxito cientifico que se articula sabre
e1 planteamiento dc 1m experimento o astudio critico que es capaz de proporcionar

evidencia finica, nueva hasta el momenta, que da una respuesta especialmente distinta
y cualitativamente may infonnativa, sobre el problema en cuestién. Este guién no se
cumple si no se encuentra e1 efecto o, muy probablemente, si 105 anilisis estadisticos
no culminan con el rechazo de la hipétcsis dc nulidad (Nosek, Spies y Motyl, 2012).
Hasta tal punto se ha venido asumiendo este guion que los propios autores de las in-
vmtigaciones primarias han estado colaborando con este sesgo, autocensurando e1
envio de manuscritos cuando el resultado final no consiste en rechazar la hipétesis
nula. McLeod y Weisz (2004) compaxaron estudios publicados con tesis doctorales no
publicadas sabre intervcnciones clinicas en jévenes y adolescentes. El resultado
muestra que el TE medio de los estudios publicados duplica 31 de las tesis doctorales.
Tras todo lo que hemos expuesto en los capitulos anteriores los lectures ya at:
habrén pcrcatado de la importancia de un filtro dc estc tipo. Las conclusiones de un
MA solo pueden ser adecuadas si la muestra de cstudios en la que se basa es sufi-
cientemente grands y, sabre todo, representativa. Esta no es 1111 problem intrinseco
del MA, sine de las formas en que la ciencia acumula, infanna y disemina sus resul-
tados. De hecho, este mismo problema estaria presente en cualquier fonna de rewi-
sién, sistenlética o narrativa, pace todas se basan en los informes disponibles. Ningfin
procedimiento meta-analitico va a resolver 6] problem, ya que la finica solucién
auténtica y definitiva seria que no hubiese sesgo de publicacién. Lo que si puede ha-
cer e1 meta-analjsta es pregtmtarse si cl sesgo de publicacién es una amenaza para las
conclusiones de su MA y puede trata: de inferir su eventual impacto en los resultados.
Para e110 emplearé la informacién disponible y a veces asumiré algunos supuestos res-
pecto a cémo se ha producido la censura. Vamos a ver la fonna como el sesgo puede
actual", su impacto cuantitativo y varias formas précticas dc afrontarlo. Es habitual re-
conocer en un MA la posibilidad de que esta amenaza 6316 present: 6 incluir en el in-
forme alguna forma de afrontarlo. Para 1111a exposicibn mas extensa y detallada remi-
timos al libro de Rothstein, Sutton y Borenstein (2005), una obra especificamente
centrada en este problema.
8.3.1. Valoracién de la amenaza: los mimeros de seguridad

Ya desde los primeros afios del MA Rosenthal (1979) se planted 1a pregunta dc si 31
sesgo de publicacién (que abordé bajo e1 término prablema del archivador) puede
estar condicionando las conclusiones del MA. Su propuesta para afiontar la cuestién
se basa en insumnentos analiticos que hay esta'm obsoletos y no se utilizan en MA,
pero como el proccdimiento dc Rosenthal se sigue empleando bastante vamos a ex-
ponerlo aqui. Fue el primero de los llamados mimeros de seguridaal, de los que vamos
a exponer tres: el de Rosenthal, el de Orwin y el de Rosenberg.
Capltulo B. Valldez del meta-anéllsls 21?
En la época en la que Rosenthal propuso su nfimero de seguridad se empleaba

todavia e1 método a’e Stoufier (Stouffer, Suchman, DeWinney, Star y Williams, 1949)
para (131' una respuesta finica a la pregunta dc si 103 resultados combinadus de 103 k
estudios de un MA son estadisticamente significativos. Esta método consiste en
obtener e1 valor p del contrasts de cada estimacién independiente, asi como el valor 2
dc la distribucién normal tipificada asociado a cada valor dc p. Esos valores dc 2 se
promedian y 151 p asociada 3 ese valor promedio es la base para responder a la
pregunta (Botella y Gambara, 2002). La f6rm1fla es
2% = E; [3.1]
En el ejemplo de la tabla 8.2 aparecen 12 estudios primaries con el nfimero total

de participantes, los tamafios de los dos grupos (en este ejemplo son siempre iguales),
la diferencia media tipificada (d) y la vaflanza estimada de 0’. En las columnas EC, p y
2 dc la tabla se incluyen los calculus intermedios; e1 valor dc] cstadistico
z = 22; = 22,4215=
6,474
W «E 45
Asumiendo a = 0,05 este valor es estadisticamente significativo (6,474 > 1,64),
indicando que el resultado de un contraste de la hipétesis dc nulidad sobre la eviden-
cia combinada apunta a que hay un efecto no nulo (significativo).
Rosenthal propuso valorar 1a amenaza del sesgo dc publicacién calculando an
111?e de seguridad Ohil-safe number), que se define como el nfimero de wtudios
quc debefian haber quedado sin publicar, guardados en los archivadores (de ahi e1
nombrc), con rcsultados no significativos y que unidos a 105 k cstudios cncontrados
harian que el efecto dejase de ser significativo. Es algo asi coma si nos preguntamos
cémo de grande es la parte del iceberg sumergida, a partir del tamafio visible. Lamen-
tablemente la analogia del iceberg no es perfecta, puesto que en estos siempre emerge
aproximadamente el 11% dc su volumen. Si en nuestro case la parte visible fuera una
fraccién consulate de los estudios realizados la tarea se simplificaria bastante.
La férmula para obtener el nfimero de seguridad se alcanza a partir de la si-
guiente igualdad, que no as 11165 que el estadistico de Stoufl'er aplicado conjuntamente
a los estudios recuperados (lg) y a los guardados en los archivadores (kg):
k k
22, +22,
i=1
[3.2]
1Nu, +k, =2”
213 Mela-anallsis en Ciendas Soclalea y de la Salud
Table 8.2. Base de dates para at ejempa‘o do!89n do publicacién.

6.2
Estudio NW NE NC of EC P Z W
1 40 20 20 0,230 0,1010 0,885 0,191 0,375 9,90 2,77

2 40 20 20 0,590 0,1044 1,866 0,035 1,313 9,53 5,65
3 100 50 50 0,490 0,0412 2,450 0,008 2,403 24,27 1 1,89
4 SO 40 40 0,320 0,0506 1,431 (1,078 1,417 19,75 6,32
5 30 15 15 0,360 0,1355 0,936 0,155 0,959 7,33 2,66
6 150 75 75 0,350 0,0271 2,143 0,017 2,123 36,93 12,93
'7 70 35 35 0,470 0,0587 1,966 0,027 1,932 17,03 3,00
8 50 20 20 0,350 0,1090 2,638 0,005 2,581 9,17 7,80
9 40 12 12 0,750 0,1734 1,837 0,037 1,786 5,61 4,20
10 80 40 40 0,540 0,0518 2,415 0,009 2,364 19,30 10,42
ll 120 60 60 0,460 0,0342 2,520 0,007 2,431 29,23 13,44
12 60 30 30 0,440 0,0683 1,704 0,047 1,675 14,65 6,44
2 5,900 22,426 202,80 92,54
EC: Estadistico dc contraste.
En ella se expresa coma si hubiera en los archivadores un nfimero de esmdios,

kc, con un efecto medic nulo que :1] afiadirse a 103 k, estudios recuperados e1 valor dc]
estadistico de Stouffer quedaria en el limite de la significacién con el valor de a esta-
blecido. Como se asume un valor combinado nulo en los estudios del archivador, e1
segundo elemento dc] numerador se iguala a 0; despejando cl valor buscado, kg, a] que
se designa como nfimero de seguridad (NS) se obtiene la férmula:
NS: (22$)
2 —k [8.3]
2
zl-at
Aplicando esta férmula al ejemplo de la tabla 8.2 can a = 0,05 obtenemos:
_ 22,4252
NS —12 = 173,85 #3174 estudios
1,6452
Esto quiere decir quc para cambiar cl sentido de la conclusibn (de la cxistencia
de m efecto no 111110 a un efecto nulo) con un nivel dc significacién dc 0,05 deberism
haberse quedado en el camino (en e “archivador”) coma consecuencia de la censura
al menos 174 estudios con un efecto media igual a cam.
Capltulo B. Validez del meta-anéllsls 219
Peru, we creible que la censura haya sido um severa y que solo hayan llegado
a las revistas 12 de 105 186 realizados? (menus del 7%). Rosenthal propane coma
regla préctica establecer coma limite 5 -k + 10; as decir, considera que un proceso de
sesgo tipico podria dejar fuera cinco estudios por cada estudio publicado, ms nu mi-
nimo de 10. Segfm esto, el proceso dc censura cuando k = 12 podria implicar 1111 total
dc 5 - 12 + 10 = 70 estudios perdidos. Como haria falta quc hubiera 174 en los archi-
vadores podemos establecer que la conclusién de este estudio respecto a la presencia
de un efecto significativo es robusta respecto a la amenaza del sesgo de publicacién.
Una critica a este procedimiento es que en realidad no habria que asumir que el
valor medio de 103 estudios no publicados es cert), sino algl'm valor pequefio pew ne-
gative. Se hace asi porque asmnir e1 valor cero es una posicién conservadora, pues de
asumir m1 valor medic negative 56 obtendrian valores dc N3 aim mayores. E1 mimero
de seguridad dc Roscnthal se sigue calculando con frecuencia, a pcsar de que se basa
en el anélisis de los valores dc p, una légica que ya no 36 emplea casi en MA.
Mucho més en consonancia con los métodos actuales dc MA esté la variante
propuesm por Orwin (1983), que emplea la misma légica pero aplicada a los valores
de TE. Si 111] conjunto de k estudios produce una estimacién oombinada diferente del
valor dc no efecto (3.3., «1.), e1 procedimiento pennite responder a la pregunta dc
cuéntos astudios censurados con TE medic igual a 0 serian necesarios para que a] afia—
dirlos a 108 k estudios observados :1 TE combinado se redujese hasta una cantidad es-
pecificada.
Lo ideal seria que se emplease cl valor dc no efecto (0 para :1 o r; 1 para RV),
pero se suele aplicar a valores que se consideran representativos dc efectos dc im-
portancia prictica despreciable. De hecho, cs imposible afiadir unos estudios con un
valor medio de 0' igual a O que a] combinarlos can I: estudios con una media mayor de
0 produzcan una media total igual a 0. For 6110 el tamafio media dc los cstudios en lo:
archivadores, 3(0)’ tendria que haber sido manor de 0 (efecto inverse).
Al igual que el procedimienm de Rosenthal, el de Orwin es una media pon-
derada de los dos grupos de estudios, lus recuperados (k,) y los censurados que per-
manecen en el archivador (kg); esta media ponderada se iguala a1 valor critico del TE
(do):
a =M [8.4]
‘ k, + kn
Despejando se obtiene la férmula para kn, que es el nfimero de seguridad

buscado (también se suele represenmr por NS),
NS = M [3.5]
d“ _ df‘!’
Aplicamos la férmnla [8.5] a los datos de la tabla 8.2, donde el valor media (110
ponderado) de los 12 estudio: es Em = 5.90/12 = 0,491'734r se considera que un efecto
de ti = 0,05 seria irrelevante a efectos précticos,
N
_12-(o,4917—o,05) -106012 106 estudios
3 0,05 —0
El rcsultado indica que haria falta quc hubicra 106 estudios con un TE medic
nulo en los archivadores para que a1 unirlos a los que si se ban recuperado se obmvie-
se una estimacién combinada igual a 0,05. De nuevo nos encontramos con que hay
que valorar la amenaza tomando coma base la estimacién de un nfimero de estudios
‘pcrdidos’. Podemos aplicar de nuevo cl cfiterio dc Rosenthal; recordemos qua en este
ejemplo ese criteria proporcionaba e1 valor 70. Como tendria que haber 106 estudios
perdidos para cambiar e1 sentido del multado, debemos concluir que el mmltado
obtenido no esté amenazado por el sesgo de publicacién.
Més recientemente, Rosenberg (2005) ha destacado el hecho de que en el
célculo de Ns, ya sea por el procedimiento de Rosenthal 0 por el de Orwin, no se tiene
en cucnta un aspecto que ha sido fimdamental en el desarrollo del MA, coma es que
las wtimaciones (16] TB tienen diferentfls varianzas y por tanto deberian tenet pesos
distintos a1 valorar e1 sesgo de publicacién. Rosenberg (2005) analiza la cuestifin y
propane que en lugar dc responder a la pregunta en términos de un m'unero de es-
Indies (asumiendo el mismo peso para todos ellos) se responda en términos de la can-
tidad dc peso (en cl fondo, la cantidad de participantes) que se debe afiadir para que el
TE media no sea estadisticamente diferente dc cero. De hecho, la férmula [3.2] se
puede ver como el nfimero dc wtudios, kg, que se deben afiadir a1 denominador para
que el valor medio de 2 se reduzca hasta el valor critico del contraste (e.g., z = 1,645).
La férmula [8.4] 56 pucde interpretar de una forma similar.
Como ya hemos visto en capitulos anteriores, 1a estimacién combinada del TE y
su varianza se obtienen mediante
him-mm y 52(T.)=1/Zw,-
El contaste de significacién del valor nulo se puede realizar mediante e1 si-
guiente estadistico:
t — —T'
—0
6(1‘.)
Sustituyendo con las férmulas de la media y el error tipico y elevando a] cun-
drado se obtiene:
Capltulo 8. Valldez del meta-anallsls 221
2_(Z_W'_:
T )2 [315]
W:
—Z—
Empleando cl valor critico dc t (tn), que se distribuye I de Student con (Ir-1)
grades de libertad, se puede expresar:
—
_ € w -T.)2 [8.7]
“(gy— W’—+ZwI
dondc W’ representa la cantidad dc “peso” que se debe afiadir mediante estudios con
1m 1'} combinado igual a cero para que el cstadistico de contraste (con nuns nuevos
grados de libertad, g!) 36 desplace basin el valor limite de la significacién estadistica.
Despejando,
W _ M _-2“, [3.3]
Iago
Queda pendiente 1a espinosa cuestién de los grades de libertad. En dis-

Iribuciones como 1 dc Smdent mite no es relevante a partir de ciertos grados dc liber-
tad (k > 30) puesto que los valores Gambian muy poco. Sin embaIgo, la cuestién tiene
hnportancia en la forma de expmsar los resultados. Una forma de hacerlo seria
interpretar W’ como el peso que deberia tenet un {mica estudio adicional con TE nulo
para que a1 afiadirlo al denominador an [8.6] e1 estadistico de contraste deje de ser sig-
nificativo (este peso se puede IIaducir después a nfimero de- participantes); en este
case 103 grados dc libertad son 3010 11110 11155 (k- 1 + 1 = k).
Otra forma de expresarlo es calcular e1 peso medio de los estudios disponibles y
calcular cuéntos cstudios con cse mismo peso media serian necesarios para cumplir
ese mismo criteria. Como el peso medio de los estudios disponibles es igual a Zwflr,
dividiendo W’ entre ese peso media obtenemos e1 nfimem dc mmdios buscado:
“EL [89]
W:
4
En este caso los grados de libertad sedan g! = k + N - 1. La solucién numéfica
se obtiene de forma iterativa, aunque converge can rapidez par la razén ya expuesta.
E1 nfimero dc cstudios con peso media necesario para devolver e1 estadistico dc can-
taste a un valor no significativo seria e1 nfimero dc segufidad. A falta de otro criteria,
este nfimero se puede valorar con la regla de Rosenthal, igual que los m'uneros de se-
guridad anteriores. Rosenberg (2005) reconoce que tampoco este método contempla
todas las caracteristicas dc los métodos dc mayor aplicacién actual an MA, ya que en
él se asume Lm modelo de efecto fijo. Remitimos a1 lector a su trabajo original para

acceder a una exposicién detallada de cémo adapta e1 1116m al models de efectos
aleatorios.
En el ejemplo de la tabla e1 valor de W’ obtenido mediante [8.8] y asumiendo un
finico estudio (g! = k + 1 — 1 = 12) seria igual a 2494. Es decir, haria falta un finico es-
tudio con peso igual a we valor (quc podcmos traducir a un nfimero dc participantes).
Si se asumen estudios adicionales dc peso medic similar al peso medio de los estudjos
localizados, se puede simplificar de la siguiente fauna. Podemos asumjr (alga nada
arriesgado a la In: de los célculos anteriores) que el nfimero de estudios total seré
mayor de 30 y que, por tanto, se puede emplear par aproximacién la distribucién nor-
mal en lugar de la 1‘ de Student (con el valor z = 1,645). Sustituyendo ahera ese valor
[8.8] se obtiene,
- 92,542 — 202,80 = 2962

m_
1,6452
Por otro lado, e1 peso medic dc los 12 estudios as 202,80! 12 = 16,9. La férmula
[8.9] nos proporciom e1 valor buscado,
=—2962 =175,27 as 175 estudius

202,80/12
En rmm, harian falm 175 estudios con un peso medic igual a1 peso medio de
los 12 estudios localizados para que el temltado combinado pasara a set no signifi-
cativo. Con la regla de Rosenthal valveriamos a conduit que los resultados estén a
salvo del sesgo dc publicacién (175 > 70).
Como se puede apreciar, en el ejemplo de la tabla 8.2 103 resultados de 105 pm-
cedimientos dc Rosenthal, Orwin y Rosenberg (efecto fijo) conducen a la misma con-
clusién, para los nfimeros de seguridad difieren bastante de un procedimiento a otro.
En nuns ejemplos estos nfimeros pueden conducir a conclusiones distintas.
8.3.2. Deteccién de la presencia de sesgo: asimefl'l'a del funnel plot

Para afirmar que en una. base de datos hay presente Lma amenaza de sesgo dc publi-
cacién hay que encontrar indicios de censura no aleatoria. Para e110 se ban propuesto
herramientas gréficas y estadisticas, pero ninguno de esos indicios seré inequivoco ya
que puedcn haber sido producidos por OIICIS factores.
La principal hemlienta gréfica se llama fimnel plot (Light 3* Pillemcr, 1984); as
1111 diagrama de dispersién con la estimacién del TE en abscisas y en ordenadas una
medida de la vatiabilidad del indice en el estudio (1a varianza 0 61 error tipico) 0 el
Capltulo B. Valldez del meta-anallsls 223
tamafio muestral (relacionado con la variabilidad). La palabra inglesa fimnel hace

referencia a la apariencia de embudo que tiene el diagrama de dispersién cuando no
ha},r censura a esta es complement: aleatoria (véase la figura 8.1a). Cuando la pro-
babilidad de censura es mayor con resultados no significativos en contrastes uni-
laterales entonces e1 lado contrario a1 efecto esperado muestra una ausencia dc puntos
0 mm dcnsidad manor dc la csperada. Si la censura rcspeta a los rcsultados extremes
por ambas oolas (contrastes bilaterales), entonces e1 sesgo se refleja en un aclarado
(qua puede llegar a ser un hueco) en la parte central de la figura. En pocas palabras, se
asume que en un escenario sin censura 0 sin sesgo en la censura la figura debiera ser
simém'ca en tome a1 valor pablacional. El grade dc asimetria de los puntos es una
medida del sesgo en contrastes unilaterales (que son los més frecuentes).
Elfimne! plot ha sido disefiado para reflejar sesgos dc publicacién asociados a la
significacibn estadistica dc los resultados. Es decir, a una menor probabilidad de que
un estudio sea publicado cuando sus resultados no son estadisticamente significativos.
Natm'almente, e1 filtm no actfia con un mmcamiento absoluto (publicacifin de todos
los resultados significativos y de ninguno no significativo). Su accién as 11153 sutil, lo
que hace més dificil su deteccién. Por ejemplo, seré més probable que se publique si p
es un valor may extrema. Esa probabilidad puede ser alga mayor si 61 valor dc p esté
entre 0.05 y 0.01, mientras que cuando excede en poco a] valor habitual dc 0.05 to-
davia tendrfi una probabilidad resaltable, aunquc manor (muchos autores emplean 1a
expresién “marginalmcnte significativo” para referirse a esta situacién, con la espe-
ranza de que esta fi'ase ablande a1 editor que decide sobre la aceptacién del articulo).
Por utro lado, los valores dc TE empiricos de los estudios que superan el film)
no dependen 5010 (1:1 valor dcl TE poblacional, sino del tamafio de la muestra emplea-
da. Como ya vimos en el capitulo 2, las pruebas de significacién dependen esencial—
mente dc dos factores: cl TE y el tamafio mussn‘al (N). Veémoslo mediante una repre-
sentacién gréfica. En la figura 8.1a aparecen los resultados de una simulacién que re-
presenta [as resultados de 200 estudios con un TE (correlacién de Pearson trans-
formada a Z de Fisher) poblacional de ,0 = 0,30 y con tamafios muestrales variados.
Para simplificar hemos emplcado un modelo dc EF. Con valores pequefios dc N as
menus probable que el estadistico dc contraste sea estadisticamente significativo. Se
realiza un contraste unilateral derecho sabre cada extraccién. El promedio de los TEs
obtenidos (su transformacién inversa al coeficiente dc correlacién) pondcrados por el
inverse de su varianza ha resultado ser r = 0,288 3; cl intervalo dc confianza es IC95%
[0,267; 0,308].
Supongamos ahora que el filtro fimcionase de la siguiente forma (esquema de
Censural ). Hay una probabilidad dc 0,20 de que el estudio se publique si cl resulmdo
fiene asociado un p-value mayor dc 0,10, mientras que sube hasta 0,50 si es “mar-
ginalmen ” significativo (0,05 < p 5 0,10) y alcanza la probabilidad de l (publi-
cacibn segura) si es significativo con (1 = 0,05. A1 aplicar este filtro cl nfimero de
estudios “perdidos” en la simulacién ha side 65 (325%), mientras que sc publicarian
135 (615%). En la figura 3.113 se presenta la gréfica correspondiente, distinguiendo
entre- los esmdios pcrdidos (circulos vacios) y los publicados (circulos oscuros). En
ella se aprecia una asimetria en los puntos oscuros que no aparecia en la figura 8.1a;
esta asimetria se interpreta come un indicio de que se ha producido un sesgo de pu-
blicacién asociado a 10s resultados. E1 impacto en la cstimacién es también impor-
tante, como veremos en la tabla 8.3.
Figure 8.1. Funnel plot de 200 estudios simulados con un valor poblacional de p = 0,30
cuando no se aplican censuras (a) y con tres esquemas de censure de rigor cmciente (b. c
y d; véase en el texto). Los circulos negras representan Ios estudios qua son publicados,
mhnh'as que los cirmlos vaclas rapresantan los estudios qua quedan en el archivador.
(a) (b)
w o .2 .-.i: ' m o 0: ' : . : .'

i .: g *1- ?- g a: d w .
. I. .c. ' F . 9° ' F
uun- .rl x00 : I . «III- or. O : o '
. .0...'2..:lfi.‘o o . 0 : gap}. ‘ 0 o
'3' 0'. :0 o . W ° 2". :u I .
u- m an: m m I... on an: on! m w w
(c) (d)
In ° : . : 3 ' ’. amo- "Zo; . '.

E
a In
. «r.3 gat are";
°r§h
-~'
- . o
g W
~~ #53- :.
$5
°r° '
'
o . 0
a l " : 3 % .5 5 ' " Q . °l°°iq§¥t°§eu .

w" and: .-o I W o“, ..I I .
Hemos empleado dos esquemas dc censura adicionales. En el esquema Censuraz

la probabilidad de que sea publicado es ahora solo 0,10 si e1 p-value es mayor de 0,10
y de 0,30 si es “marginalmente” significativo (0,05 < p 5 0,10) y se mantiene en I si
es significativo con 0; = 0,05. A1 aplicar este filtro cl nfimero dc estudios perdidos en
la simulacién se incrementa hasta 79 (39,5%), mientras que se publicarian 121
(60,5%). En la figura 8.1a se presenta e1 flannel plot que representa los resultados. El
esquema CensuraS es en extrema estricta (no es realista), puesto que el estudio se
publica seguro si p < 0,05 y con segufldad no se publica en case comrade. Con esia
estricta regla se perderian 93 estudios (465%) y se publicarian 107 (31 53,5%). Los
resultados se presentan en la figura 8.1d.
En la tabla 8.3 se resumen los estadisticos asuciados a cada case. En ellos se
aprecia que, a medida que el esquema de censura se hace més atticto, més acusada a;
la sobreestimacién combinada del TE. No olvidemos quc la censura fiends a dejar
filera los estudios con valom bajos dc TE, dc forma que los quc permaneccn tienen
una media superior.
Tabla 8.3. Estimacién combinada e intervals de confianza con Ios estudius

publicados en los cuairo cases contemplados en la simulacién.
k r. IC95%
Sin mm 200 0,288 0,267; 0,308

Ccnsural 135 0,345 0,322; 0,368
CensuIaZ 121 0,361 0,337; 0,384
Censura 3 107 0,379 0,354; 0,404
Naturalmente, el funnel plot es una herramienta exploratoria que aporta indicios

de la pmmcia de sesgo, pero como se puede intuit al observar las figuras, no es fitil
cuando e1 nfimero de estudios es pequefio o cnando los tamafios muestrales son muy
homogéneos. Adermis, al ser 1111 criteria subjetivo necesita set complementado con
otros més rigurosos. Se han propuesto contrastcs estadisticos para reforzar la detec-
cién visual de la asimetria. Entre ellos vamos a destacar dos: la correlacién ordinal dc
Kendall y la regresién del TE sobre la precisién.
El coeficiente de correlacién ordinal tau de Kendall (Begg y Mazumdat, 1994)
se calcula was obtener para cada estudio dos valores: su estimacién del TE (tipificada;
9:) y la estimacién de su varianza (6"). Si las estimaciones del TE 3’ la varianza (re-
cordemos que esta se relaciona estrechamentc con el tamafio muestral) fueran inde-
pendientes, entonces estus pares dc valores mostrarian esa independencia. El coefi-
cientf: (16 Kendall proporciona un valor nulo cuando los casus concordantes con una
direccién de la asociacién igualan los de la direccién contraria, ambos expresados en
(ardenes. Una vez transformados los pares dc valores en 6rdenes se obtiene el coefi-
ciente. Con 1111 nfimero dc cases moderadamente grande (N 2 10) la distfibucién del
coeficiente se aproxima a la distribucién normal. Una fc'mnula que compacta el coe-
ficiente y su estadistico de contrasts es la siguiente, cuya distribucién se aproxima 3.
N(0; 1):
2: 0-D [8.10]
Jk«(k—1)-(2.k+5)/13
Los valores C y D son [as frecuencias de pares Consordantcs y Discordantes y k

es el nfimero dc estudios (k = C + D). Cuando cl cstadistico as significativo se puede
concluir que hay presencia de asimetria. En el ejemplo de la tabla 8.2 e] nfimero dc
comparaciones posibles es k- (k—1)I'2 = 66. El nfimero de comparaciones concordantes
es 45, mientras que hay 21 discordantes (no hay empates). Sustituyendo an [8.10],
——1,64645—21 _
1[12-11-(2-12+5)/1:a:
Como la distribucibn dc este estadistico es aproximadamente N(0; 1) compa-

ramos este valor con 1,96 y mantenemos 1a hipétesis nula dc independencia con un ni-
Vel dc significacién de 0,05. La conclusién es que este test no refleja indicios dc asi-
metria (no hay sesgo de publicacién).
Sterne, Gavaghan y Egger (2000) mostmron que este procedimiento puede tenet
baja potencia, especialmente cuando e1 nfimero dc estudios es pequefio. Par su pane,
Egger, Smith, Schneider 31 Minder (1997) propusieron una altemativa que consiste en
realizar un andlisis de regresién lineal de TE (tipificado) sobre la precisién (61 in-
verse del error tipico). En ausencia de asimetria dicha recta debs cruzar por el origen,
asi que el contrasts de la hipétesis dc nulidad para el origen es una prueba de la
presencia de sesgo. En el ejemplo de la tabla 8.2 se obtiene la ecuacién de regresién
TE" = 0,921 + 0,240-( m ); cl valor del origen no es significativamente distinto dc
care [(10) = 1,637; p = 0,133], per lo que se concluye que tampoco este test sefiala
indicios dc asimetria (no hay sesgo dc publicaciénf.
8.3.3. Pmcedlmlantos para carrogir a! sasgo
En relacién con los métodos para valorar e1 sesgo que hemos expuesto en el punto
anterior, hay que sefialar que algunos autores ban criticado el empleo rutinario de un
finico método para todos los casos. También han rcsaltado cl hecho dc que como la
valoracién del impacto que pudiera tenet e1 sesgo dc publicacién en un caso concrete
esté muy ligada al mecanismo de censura involucrado, se debe disefiar un modelo
especifico para cada caso que contemple esos mecanismos involucrados y obtener una
estimacién de su impacto adaptado a1 mismo (Vevca 3; Woods, 2005). Existe 1111 con-
siderable riesgo asociado a cstos procedimientos, en la medida en quc el modelo dc
produccién implique asumir supuestos exigentcs y no comprobables (Terrin, Schmid,
Lau y Ollcin, 2003). Aunque no podemos extendemos macho aqui sabre estos proce-
‘EstecontmstesepremtaaveoescomounoonflastesobrehpendiempuroconelvalordeTsintipificar
y 5-I coma predictora lugar de su invma. Son algebraicamm equivalentes.
Capltulo B. Valldez del meta-anallsls 227
dimientos, al menos vamos a mencionar un método que ha tenido buena acogida enlre
los meta-analistas. Se trata del Genocido coma Trim-andfill (TaF) de Duval y
Tweedie (20003 y b; se puede traducir coma Recorte-y—rellena), que se basa preci-
samente en el fimnel plot.
El métodn TaF se aplica en varies pasos, una vez que se ha decidido que el
fimnel plot rcvcla una asimetria anémala y relevante. Consists en recortar los valores
mfis extremes de la cola asociada a1 efecto (habitualmente la derecha; en contrastes iz-
quierdos se haria en la otra cola). Tras cada supresibn se recalcula el estadistico que
valora la asimetria y se repite e1 ciclo hasta que el conjunto de estudios restante ya no
muestra asimeu'ia significativa. E1 TE medio de los estudios supervivientes es la nuc-
va estimaciém, supuestamente no sesgada, del TE poblacional buscado.
Este procedimiento tiene el efecto deseado de corregir la estimacién combinada,
pero también tienc el efccto no descado dc reducir la varianza dc la estimacién (par
tanto, cl intervalo seré artificialmente estrecho). Para compensar este efecto se aplica
la fase dc relleno. Esta consiste en devolver los esmdios que se reconaron, afiadiendo
una imputacién de estudios con TE similar pero de signo coutrario (valores espejo).
Con ate conjunto incrementado de estudios se obtiene la varianza con la que 56 con-
fecciona e1 intervalo dc confianza. Es decir, que los estudios devueltos a1 conjunto
més los imputados no intervienen en el célculo del TE combinado; solo intervienen en
el célculo de la varianza. La valoracién del impacto del sesgo y sus consecuencias en
un estudio concreto so basa en la comparacién entre el valor combinado (y su inter-
valo) con todos los estudios y el obtenido (y su intervalo) con la aplicacién del proce-
dimiento TaF (véase cl apartado siguiente, sobre 103 tests de sensibilidad).
LTiene e1 sesgo dc publicacién un impacto importante en la psicologia y
disciplinas afines? Recientementc Ferguson y Brannick (2012) han analizado 061110 86
aborda cstc problema en una mucstra de 91 MA publicados cu revistas dc psicologia.
Aunque en el 70% se analiza dc alguna forum, 105 procedimjentos empleados para
detectarlo y analizarlo son muy variados y a veces inconsistentes. Nos surnames a su
propuesta, que consiste en emplear al menos dos de los procedimientos que hemos
descrito en were apartado, amunicndo que ninguno de ellos alcanza un nivel adecuado
de eficiencia y que obtener resultados positives en al menos dos es un indicador més
fiable de la presencia dc sesgo.
El sesgo dc publicacién es una dc las principales amenazas a [as conclusiones
del MA, pero en realidad no se restringe a esta metodologia. Debido a las dudosas
précficas que se han instalado en las ciencias empiricas en general, 133 conclusiones
derivadas de la evidencia publicada, sin importar cémo se han alcanzado esas
conclusiones, estén en riesgo por esta amenaza.
En algunos émbitos de la medicina se han propuesto estategias altemativas ba-
sadas en la prevencién. Por ejemplo, se va extendiendo la necesidad de registrar los
ensayos clinicos en ciertas entidades antes de ser realizados. De esta forma el resul-
tado acabaria siendo conocido necesariamente. Aunque esta préctica podria ser fitil en
algunos fimbitos de la psicologia, no parece viable en la mayoria de sus campus de in-
vestigacién.
8.4. Las inferencias meta-analiticas

Toda metodologia cientifica tiene entre sus objetivos filtimos el de legitimar afir—
maciones relacionadas con su objeto de estudio (Popper, 1985). Estas afinnaciones
proceden sabre todo de las inferencias que el investigador realiza a1 valorar la evi-
dencia empirica que ha observado. Pero e1 propio proceso inferencial es también una
filente potencial dc invalidez en cualquier metodologia. Matt 3/ Cook (2009) orga-
nizan las amenazas en tome a tres grapes. Vamos a exponer brevemente la idea prin-
cipal de cada uno de estos grupos, que se refieren alas inferencias respects) a la exis-
tencia de una covariacién entre dos variables, alas que se refieren a la namraleza de la
relacién entre las variables que covafian y a las que se refieren a su generalizabilidad.
Remitimos a1 lector interesado a la obra citada, en la que cada uno de estos grupos se
discute en detalle y se desglosa en varias amenazas especificas.
Las amenazas relacionadas con las inferencias respecto a la existencia de una
relacién entre la: variables no son otra cosa que las clésicas amenazas a la validez de
la conclusién estadistica (Shadish, Cook y Capbell, 2002), pero en cl contexto meta-
analitico. En los capitulos 3, 4 y 5 hemos expuesto numcrosos proccdimientos quc fi-
nalmente permiten alcanzar conclusiones basadas en contrastes de la hipétesis de
nulidad. Al concluir estableciendo afirmaciones de este tipo se pueden cometer dos
errores, afirmar la presencia de una asociacién que en realidad es inexistente (error
tipo I) o mantener equivocadamente que no hay relacién entre las variables (error tipo
II). Como a estas afirmaciones se llega por medio de contrastes de hipétesis, todos los
factores que tipicamente amenazan a este tipo de validez en los estudios primarios
estén también presentcs en 61 MA: cl cmpleo dc instrumcntos dc baja fiabilidad en los
estudios primaries sintefizados, 103 déficits de informacién adecuada en los informca
inadecuada interpretacién de la infomacién en el célculo de los tamafios del efecto, los
meros errores dc célculo, el uso de sistemas dc codificacifin dc baja fiabilidad, la baja
potencia asuciada a mucstms pequefias, 1a violacién del supuesto dc independencia, etc.
Cabe decir que una amenaza tipica en los estudios primaries, come es la baja potencia
debida a1 empleo de mumh‘as pequefias, en MA puede aparecer de la forma contraria.
Agtegando un nfimero relativamente pequefio de estudios con nmestras de tamafio mo-
derado se alcanza Ifipidamente nna potencia muy alta en los conu'astes (Pigofl, 2012),
alga que rara vez se plantean los meta-analislas.
El segundo grupo de amenazas se refiere alas infirencias sobre la natwaleza de
la relacién entre la: variables. En la mayoria de los estudios primaries se abordan
cuestiones sobre la relacién entre dos (o mfis) variables. Las relaciones enu'e dos
variables 36 pueden establecer, esencialmente, en términos causales 0 en términos de
meta covariacibn. La condicién més importante para legitimar la inferencia de una
relacién causal entre variables es que el investigador haga una manipulacién de la
variable a la que pretends atribuir e1 estatus dc causa (Leén y Monteru, 2003). Aun-
que con menus solidez, a veces se admiten también las inferencias causales cuando
coinciden tres circunstancias: covariacién entre las variables, antecedencia temporal y
ausencia dc interpretaciones altemativas creibles (Shadish, Cook y Campbell, 2002).
A la pregunta de qué tipo de inferencias son legitimas en un MA, la respuesta

suele set que estas pueden ser del mismo tipo que las de los estudios primaries in-
volucrados. Par ejemplo, en psicologia de la salud muchos estudios primaries son
ensayos conkolados aleatorizados disefiados para valorar e1 impacto de una interva-
cién. Para 6110, en su disefio minimo se conforman dos grupos de participantes aleato-
riamcnte y 56 aplica cl tratamiento a uno dc los grupos micntras que 3] olro (grupo de
control) no se le aplica nada, se le aplica un placebo 0 se le administra un tratamiento
alternative. Si aparece una diferencia significativa en el estado de los participantes
después de- estas intervenciones (covariacién entre el tratamiento y el estado) se
concluye que- el tammiento ha causado 1a mejoria. Se asumc que el hecho dc haber
manipulado la aplicacién de los tratamientos es lo que legitima la inferencia de la
relacién dc causa—efecto.
Por cl contrario, sc asume que en general (:11m no se manipula ninguna va-
riable no es legitimo inferir relaciones de causalidad, debiendo limitarse a la cons-
tatacién de una relacién dc covariacién entre las variables. For ejemplo, supongamos
que en un estudio se encuentra que los m'flos con tendencias mfis agresivas prefieren
juegos de ordenador més Violentos (nivel dc violencia atribuido por jueces inde-
pendientes) que los nifios menus agresivos. De esta evidencia 5010 se puede concluir
quc existe esa covafiacién, pero no que una de las variables (tipicamentc, 1a violencia
de los juegos preferidos) sea 13. causa de la otra (la agresividad de los njfios). La evi-
dencia observada es también compatible con que la relacién causal sea la contraria o
incluso bidireccional.
Pues bien, habitualmente sc admits an un MA el mismo nivel dc inferencia res-
pecto a las relaciones causales que la que se deriva en los estudios primaries que se
sintetizan (Cooper 3; Hedges, 2009). E5 decir, silos estudios primaries emplean dise-
fio: que permitcn lcgitimamente mfercncias causalcs, entonces los resultados dc 1a
sintesis meta-analitica se podrfin también establecer en términos causales. For e1 con-
trario, si 133 inferencias en los estudios primal-ins deben restringirse a la presencia o
ausencia dc covariacibn, entonces e1 mem-anéliais debe limitarse también a ese tipo
de inferencias en sus conclusions.
Pen) en MA no solo se plantean inferencias “dominé”, en las que se arrastmn [as
inferencias realizadas en los estudios primaries. También hay que plantearse 1a
cucstién dc las inferencias relativas a relacioncs entre variables quc no son estudiadas
en los estudios primaries. Ya hemos vista en capitulos anteriores que Ima de las lineas
principales dc exploracién de la evidencia an MA consiste en el estudjo del papel de
las variables moderadoras. En los estudios primaries estas variables pueden haber te-
nido e1 estatus de variables 0 se pueden haber mantenido constantes. Por ejemplo, en
muchos MAS se estudian los cfectos de intervenciones. Los estudios primaries em-
plean come minimo un grupo tratado y otro de control. Sin embargo, en algunos estu-
dios la intervencién se realiza en grupo y en otros se realiza individualmente. Es
decir, el hecho de que se aplique de una forma particular (individual 0 en gmpo) es
una constants en ese estudio primario. En el MA los estudios se pueden clasificar se-
gfin esa caracteristica, analizando su papal come eventual moderadora del TE. La
cuestién que nos planteamos es la de and] es el nivel legitimo de las inferencias si se

encuentra una cavariacién (diferencia significativa en el TE media entrc 103 estudios
que han administrado cl Iratamiento individualmente y en grupo). La respuesta es que
no se deben hacer inferencias causales. Esa comparacién no fue realizada en los estu-
dios primaries y a nivel (161 MA no ha habido manipulacién del fonnato dc] trata—
micnto. Por tanto, no 3:: dan las circ1mstancias para una inferencia causal. Las infe-
rencias deben ser de mera covariacién.
Nunca hay que olvidar que el MA es una metodologia esencialmente correla-
cional. En ella nunca se manipulan variables. Solo se recoge evidencia generada por
los investigadores pfimaIios, se ordena, se categofiza y se analiza estadisticamente.
Las inferencias de nivel meta-malitico deben ser estrictamente correlacionales
(Cooper, 1998). Solo en el 0350 de que los estudios priman'os hayan empleado una
metodologia experimental que autoricc las inferencias causales tendrén cabida ese
tipo de inferencias en el MA que los sintetiza, pero limiténdose a trasladar las infe-
rencias causales de los estudios primaries y sin ir nunca més allé dc 61133.
El (ultimo grupo de amenazas se refiere a las inferencias sabre Ia generaliza-
bilidad de las conclusiones, especiahnente respecto a las caracteristicas de los parti-
cipantes y del contexto. Con frecuencia en los cstudios primaries las muestras dc par-
ticipantes este’m limitadas a detenninados segmentos sociales (e.g., nivel educativo, de
edad, socioeconémico, o incluso de edad y sexo) o a subpoblaciones con caracte-
risticas especificas (e.g., personas con un cierto diagnéstico, que han pasado per una
experiencia concreta, que son defivadas desde ciertos cent-cs, etc.). Las conclusiones
de esos estudios primaries 3e deben restringir a la subpoblacién de referencia para esa
limitada muestra. Cuando todos los esmdios primarios que se sintetizan en un MA 3e
basan en muestras restringidas de la misma forma, las conclusiones también se deben
limitar a sus subpoblaciones. Sin embargo, es muy fi'ecuente que los estudios prima-
rios hayan sido realizados can muestras muy distintas, de tal suerte que la compo-
sicién final se aproxima a lo que hubiera side 1111 muestreo representative de pobla-
ciones mucho més amplias. En esas circunstancias, e1 meta-analista tiene la capacidad
de establecer generalizaciones qua van mucho més allé de lo que podiau it cada uno
de los estudios primaries. La amenm se materializa cuando el meta-analista genera-
liza sus conclusiones de forma injustificada. El meta-analista debe proporcionar tablas
con estadisticos qua remunan la informacién de las variables moderadoras. De las va-
riables cuantitativas (e.g., 1a edad media de la maestra, e1 nfimero de sesiones de un
Iratamiento, etc.) el promedio, la desviacién tipica y el tango. De las variables cualita-
tivas (e.g., mode de adminisn-acién de un natanliento, pais donde se ha realizado, etc.)
la fi'ecuencia de cada categoria. Esta informacién ayuda a hacerse una idea dc] émbito
al que es razonable hacer generalizaciones y permite detectar las lagunas (Lipsey y
Wilson, 2001).
En resumen, las conclusiones que se establecen en 1111 MA a partir de las infe-
rencias realizadas desde 1a efidencia recogida pueden estar contaminadas por haber
establecido incorrectamente que dos variables estén relacionadas, por haber atribuido
hnpropiamente e1 estatus dc relacién causal entre dos vaflables qua muestran cova-
riacién y f0 1301‘ haberlas generalizado més allfi de lo razonable. E1 meta-analista (y el
lector de 103 MA) debe prestar atencién a estas amenazas.
Capltulo 8. Validez del meta-anallsls 231
8.5. Los tests de sensibilidad

La realizacién de una revisién sistemfitica implica un proceso largo y complejo, pla-
gado de decisiones que al final pueden tenet 1m impanto importante en las conclu-
siones. Una forma de valorar ese impacto es compmbar lo que hubiera ocm‘rido 611
case dc adoptar una decisién diferente. Los tests dc sensibilidad no son otra cosa que
un “hégalo dc ambas faunas”, que se realiza con objeto de conocer e1 efecto que una
decisién tiene sabre las conclusiones (Borenstein, Hedges, Higgins y Rothstein, 2009;
Egger, Smith y Phillips, 1997; Greenhouse y Iyengar, 2009). Tanto si las conclusiones
Gambian en funcibn de esa decisién como si no cambian, se debe informar de e110
para que el lector del MA se haga su propia composicibn de lugar.
Un case may frecuente es aquel en el que el nfimero de estudios combinados es
relativamente pequefio y hay un estudio con una estimacién del TE marcadamente
diferente de las demés. Este valor atipico (outlier) puede ser un valor perteneciente a
la misma distribucién pero extreme en su magnitud o puede ser una inlrusién (por
ejemplo, un error tipogréfico). Sea cual sea su namraleza lo acousejado es reanalizar
los datos sin este cstudio y comparar los rfiultados y las conclusiones, para conoccr
en qué medida dependent de la inclusifin de ese estudio.
L03 tests de sensibih'dad 3e pueden realizar también respecto a decisiones rela-
cionadas con la bfisqueda y localizacién de los estudios, con los criterios de inclusién
y exclusién, con la fauna de considerar las estimaciones de los valores, con las cate-
gorizaciones empleadas para las variables moderadoras, con el modelo estadistico
utilizado, etc. Ademés, a veces hay 1m nfimero no despreciable dc estudios para los
quc no se conocc cl valor dc alguna dc las moderadoras. La submucstra dc cstudio:
sobre la que se analjza esa variable moderadora puede no 861' 111121 muestra aleatoria de
los estudios localizados. Son muchos Ins aspectos de una revisién sistemética suscep-
tibles de ser analizados de esta forma. En ningim MA se plantea la colosal tarea dc ha-
cer pruebas dc sensibilidad rcspccto a todos esos aspectos. Sin embargo, se debe pres-
tar atencién a esta cuestién, realizar anélisis exploratorios capaces dc porter a1 descu—
bierto posibles dependencias y afrontar las que scan més obvias.
Los tests de sensibilidad son tma herranflenta poderosa para train 138 tres gran-
des fuentes dc invalidez especificas del MA que hemos destacado en este capitulo: la
calidad de los estudios primaries, 1a hetemgeneidad y el sesgo dc publicacién (pot
ejemplo, e1 método aim-and-fill para corregir e1 sesgo es la base para una prueba de
sensibilidad, comparando los resultados corregidos y sin corregir).
El empleo dc anilisis dc sensibilidad para valorar e1 impacto de las decisions as
imprescindible en MA. Valera: las consecuencias dc las decisiones adoptadas durante
el proceso es una exigencia ética del investigador; informar al lector de las conse-
cuencias de esas valoraciones es un rasgo dc honestidad intelectual. Pero ademfis as
practice porque sea cual sea el resultado se obtienen beneficios. Si las conclusiones
no Gambian a1 valorar su sensibilidad a una variedad dc aspectos, entonces ganan en
robustcz y credibilidad. Si 133 pruebas demuestran que las conclusiones son sensibles
a esas decisionme, entoncas se pmentan nuevas oportunidades de invastigacién, ya

que sefialan nuevas hipétesis respecto a variaciones sisteméticas en los resultados.
Tépicos especiales
Dedicamos este capitulo final 11 varies asnntos que no ban encontrado acomodo en los
anteriorcs, pero cuya relevancia les hace merecedores de ser objeto dc comentario o
discusién. En primer lugar mencionaxemos los principales recursos informéticos quc
se cmplean an MA. Después destacammos las caracteristicas especificas del informe
meta-analitico. En tercer lugar comentaremns algunas criticas hechas a] MA a las que
no hemos hecho referencia todavia. For filtimo, unos pérrafos dedicados a las pro-
bables lineas dc desarrollo en el future préximo.
9.1. Software para meta-anélisis

Una vez seleccionados los estudios que van a formar pane del MA hay que precede!
a] tratamiento estadistico, previo cfilculo de los valores del indicc dc TE elegido.
Disponemos de muchos recursos informéficos para calcular los indices de TE, 01103
que permiten realizar los anélisis estadisticos y algunos que permiten hacer ambas
cosas. Incluso disponemos dc programs quc sirvcn dc apoyo a toda la tarea, inclu-
yendo la elaboracién del cuadro base y el informe.
234 Meta-anallsis en Ciendas Saclalea y de la Salud
9.1.1. Calculations de indfces de tamafio del efecto
La gran variedad de indices de TE existentes, unida a la también enonne cantidad dc

situaciones distintas para cada uno de ellos respecto a la informacién disponible, hace
que sea materialmente imposible que exists. an finico programa que los cubra todos.
Sin embargo, hay programs que abarcan todos los de uso mfis fiecuente e incluyen
algunos de uso menus frecuente. El més interesante de estos es sin duda el programa
que preparé David Wilson en Excel y que puso a disposicién gratuita de los usuarios,
llamado ES_CalcuIator. Posteriormente ha preparado una calculadora on-Iine también
dc acceso gratuito, que es muy fécil de utilizax, cuyo nombre Practical Meta-Analysis
Efect Size Calculcmuv‘l hace referencia a1 titulo de su libro (Lipsey y Wilson, 2001).
En interact hayr muchos sitios en los quc sc pueden encontIm rccursos dc célculo, pero
con frecuencia abarcan solo dos o tres indices y no tenemos garantias de su fiabilidad.
Otto programa para el cilculo de una amplia variedad dc indices de TE es :1 pro-
grama ES elaborado par Shadish, Robinson y Lu (1999).
Algunos progrmnas (16 0111011105 estadisticos meta-analiticos incluyen un médulo
para el célculo de los indices (16 TB. Los oomentaremos a medida que los vayamos
Iratando en el apartado dedicado a los programas especificos.
9.1.2. Programas generates
Existen recursos asociados a los grandes paquetes estadisticos que permiten realizar la
mayoria de los anilisis mtadisticos que hemos descrito en los capitulos anteriores.
Aunque hay varios, dcstacamos los de David Wilson, asociados a su texto sobre MA
(Lipsey y Wilson, 2001); se trata de varias macros que permiten ejecutar cstos anélisis
en algunos de los paquetes mas importantes: SPSS, SAS y STATAZ. Primero hay que
calcular con otros recursos los valores dc TE y sus varianzas. Sobre el archive con es-
tos valores se ejecutan las macros. Permiten ajustar modelos mediante varies precedi-
micntos dc cstimacién, pero no incorporan los desarrollos estadisticos més recientes.
En el marco del programa de uso general STATA se ha desarrollado un amplio
nfimero de programas especificos dirigidos a realizar célculos meta-analiticos dc Inuy
diverse. indole, desde gréficos y anélisis més rutinarios hasta modelos estadisticos
multivariantes de nannaleza mas compleja. Una descripcién exhaustiva de todos estos
programas puede consultarse en Sterne (2009).
1 http:lfoebcp.orglpracfical-meta-amlysis-effect—size-calculamrl (A em paging se puede accede: mmbifi:

dude la pégina de la Gumbel! Collaboration: www.camphellcullahorafio.org).
" htqa:flmasan.g:nu.edul~dwilsonblma.htmL
Capitulo 9. Topioos especlales 235
9.1.3. Programas especificos
Contamos también con algunos programas especificos para MA. Seguramente e1 mfis
conocido es Comprehensive Meta-anabmis’, cuya versién 3.0 estaba prevista para
principios de 2015. Se trata de un programa comercial desan'ollado por Michael
Borenstein y su grupo, que emplean asociado a su texto sobre MA (Borenstein,
Hedges, Higgins y Rothstcin, 2009). Incluye 1m médulo dc célculo dc indices dc TE
con una gran varicdad dc indiccs y esccnafios analiticos. Respecto a1 anélisis
estadistico, incluye précticamente todos los procedimientos que hemos descrito en
este libro 3/ 111105 cuantos mfis que no ban tem'do cabida en las péginas material-as.
Ademzis, realiza unos gréficos de alta calidad (forest plot y flame! p100.
Una segunda altemau'va, también comercial, w META W. Como la anterior,
permite calcular diversos indices de TE y aplicar las técnicas estadisticas meta-
analiticas; también aporta los recursos para realizar mfiltiples representaciones gréfi-
cas (Rosenberg, Adams 3; Gurevitch, 2000).
El programa W (Bax, Yu, Ikeda, Tsuruta y Moons, 2006) comenzé siendo
una herramienta gratuita, para las filtimas versiones ya son comerciales. Se basa en
elementos Excel y es de gran versatilidad. Permite calcular los principales indices dc
TE 3; qjustar un buen nfimero de 105 modelos estadisticos més conocidos.
Algunos entomos generales dc célculo, notablemente R (R Development Core
Team, 2010), han facilitado cl desarrollo de potentma herramientas que 3.] set dc
acceso gratuito se han hecho muy populates. Entre ellas destacamos METAFOR
(Viechtbauer, 2010a, 2010b), que en sus sucesivas versiones ha ido afiadiendo
elmentos hasta convertirse en un paquete de gran potencia y versatilidad. También
cabe mencionar DIIOS dos programas implementados en el entomo del program R:
MTA (Lumley, 2009) y 114E134 (Schwarzer, 2010). Viechtbauer (2010a) compara
las propiedades dc esms tres programs dcl enmmo R.
El progmma gratuito Review Manager (RcvMan, 2008) es el dcsannllado desdc
la Cochrane Collaboration. El hecho dc haber sido desarrollado desde 1a disciplina
médica ha condicionado algunas de- sus elecciones en cuanto a los indices dc TE que
se ofrecen y la tenninologia que emplean. Tiene la ventaja de que en realidad a un
programa para rcalizar todo cl trabajo, desdc la inclusién dc los trabajos primaries
hasta la elaboracién del informe. Al contar con campus de texto y otros interrela-
cionados, permite que se vaya confonnando cl informe dc acuerdo a una plantilla pre-
establecida. Sus gréficos forest plot son may notables.
También existen alglmos programas para realizar meta-anélisis especiales, come
por ejemplo los que se refieren a la precisién de los instrumentos dc clasificacién bi-
naria (véase cl epigrafe 6.3). Entre ellos destacan METADISC (Zamora, Abraira,
Muriel, Khan y Coomarasamy, 2006) y mm“, del entomo R.
3 htm:flwww.meta-aualysis.comfindex.php.
‘ htlfwwwmetawinsofiwm.
5 hflp:llwww.meta~analysis-made-easy.cum.
‘ hflpfllmm—projectormblpackageslmadwrigneflesfmdmpdfi
Se han desarrollado diversos programas dc sofhmre para realizar meta-anélisis

psicométrico, es decir, meta-anélisis en los que se con-igen artefactos estadisticos tales
como el error de medida en las variables implicadas o la resu'iccién del tango.
Schmidt y Hunter (2015, cap. 11) hacen una revisién somera de estos programas. De
todos ellos cabe destacar cl elaborado por estos mismos autores para dar soporte a los
métodos meta-analiticos desanollados en su recicntc libro. Estes autores lo han deno-
minado Programas de Meta-anilisis de Hunter-Schmidt Vets. 2.0 (Hunter-Schmidt
Meta-anabsir Programas Vers. 2.0) y cubre las métodos estadisticos mfis avanzados
denim del enfoque del MA psicométrico.
9.2. El informe meta-analitico

Como en cualquier investigacién, un aspecto fimdamental cuando se hace un MA a
su correcto reports. El informc dc un MA tienc que incluir todas las decisiones que se
han tomado durantc su rcalizacién, con objeto dc garantizar su replicabilidad por otros
investigadores. No en vane una de las caracteristicas fimdamenmles en la aplicacién
del método cientifico es precisamente garantizar qua otros investigadores puedan
replica: la investigacién. En el epigrafe 1.3 se him una breve alusién a cémo se debe
escribir un MA. Las partes de un infome meta-malitico son las tipicas de una in-
tigacién empirica: introduccién, método, resultados y discusifin. Para ampliar lo
alli dicho se pueden consultar numerosas fuentes (e.g., Clarke, 2009; Cooper, 2010,
cap. 8; Rothstein, Lortie, Stewart 3: al., 2013; Sénchcz—Meca y Botella, 2010;
Whitehead, 2002, cap. 7).
En este apartado vamos a profimdizar en cuéles son los aspectos en los que nos
debemos fijar para valorar la calidad de un MA. Al haccrlo estaremos tratando de
alcanzar dos objetivos. Pot una parts, las rewmendaciones que vamos a presentar en
este punto servirén de orientaciones a aquel meta-analista que tenga que redactar el
informe de un MA. Por otra, estas orientaciones se pueden utilizar come dilectrices a
tener en cuenta cuando estamos leyendo 1111 MA publicado y poder asi valorar 1a cali-
dad de su reporte y/o la calidad metodolégica en su ejecucién. La mayoria de los es-
filBI'ZOS por proponer direcflices para valurar la calidad del reporte dc estudius meta-
analiticos ban surgido en el émbito de las ciencias de la salud y, més en concrete, en
los MAS de ensayos clinicos aleatorizados sobre la eficacia de intervenciones. Asi
Shea, Dubé y Maker (2001), en su revisién sistemética de instrumentos para valorar la
calidad de los MAS, identificaron 23 checklists y tres escalas.
En el émbito de las ciencias de la salud e1 insmunento més utilizado actualmente
para valorar la calidad del report: dc MAS es la Declaracién PRISMA (Preferred
Reporting Items for systematic reviews and Meta-Anabwes). Esta guia fue elaborada
por Moher, Liberati, Tetzlaff, Altman y el Grupo PRISMA (2009) y constituye una
actualizacién de la Declaracién QUOROM (QUality 0f Reporting QfMeta-analyses),
elaborada par Mohcr, Cook, Eastwood, Olkin, Rennie er a1. (1994). Mientras que la
Capitulo 9. Topicos especlales 237
Declaracién QUOROM estaba centrada en MAS dc ensayos clinicos aleatorizados

sobre la eficacia dc intervenciones en el fimbito de la salud, la Declaracién PRISMA
pretende ser un instrumento dc aplicacién més extensa, cubriendo tanto revisiones
sisteméticas cualitativas coma MAS, no necesariamente de ensayos controlados alea-
torizados. Consta de dos hemmientas. Por una parte, 1a Declaracién PRISMA ofi'ecc
un diagrama dc flujo en el que el meta-analista describe cl proccso dc selcccibn de los
estudios a lo largo de sus cuatro fases: identificacién de estudios, cribado, aplicacién
de los criterios de seleccién y decisién sobre la inclusién final de los estudios". Par
olra parte, la Declaracién PRISMA esté compuesta par 27 items que el meta-analista
deberia atender a la hora dc redactar cl informe meta-audition, o que deberia tomar en
consideracién un potencial revisor de un estudio de esta naturaleza para 311 publi-
cacién en una revista, O que podria considerar un potencial lector del MA para valorar
la calidad dc] rcporte dcl mismo.
Los items hacen referencia a la adecuacibn del titulo del estudio (1 item), del
abstract (1 item), de la innoduccién (2 items), de la metodologia (12 items), de la pre-
sentacién de los resultados (7 items), de la discusién de los resultados (3 items) y un
filtirno item esté dedicado a la declaracién dc posibles conflictos dc int/erases debidos
a la financiacién (161 MA por parte de alguna entidad pfiblica o privada, o a la per-
tenencia dc alguno de los autores a alguna entidad que pudiera tener intereses particu-
lame en los rfiultados de la investigacién. Especial cuidado debe ponerse en la des-
cripcién de los aspectos metodolégicos que la Declaracién PRISMA valora en 12
items. Esos aspectos hacen referencia a los criterios de seleccién de los estudios, a1
procesa de bfisqueda de los estudios, a la exuaccién de los dates (register de las
variables moderadoras), a la definicién y célculo del tamafio dcl efccto, a1 modelo
estadistico asumido (efecto fijo versus efectos aleamrios) y a la realizacién dc anélisis
dc scnsihilidad (anélisis dc] sesgo dc publicacién, anélisis por subgrupos, meta-regre-
sién, etc.) Una descripcién detallada de oémo se valora cada item de la Declaracién
puede consultarse en Liberati, Altman, Tetzlaff er a1. (2009). Existe alguna evidencia
de que el uso de la Declaracién PRISMA en el émbito de la salud parece haber
incrementado la calidad del reports do las revisions sistemfiticas y los MAS (e.g.,
Panic, Leoncini, de Belvis, Ricciardi y Boccia, 2013).
Otto instrumento elaborado en el émbito de la salud es la guia AMSTAR (Shea,
Grimshaw, Wells et at, 2007). Micntras quc 1a Declaracién PRISMA pretends
valorar la calidad del reporte de un MA, la guia AMSTAR se dirige a valorar la
calidad metodolégica de un MA. Consta de 11 items dirigidos a valorar 1a adecuacién
de los métodos utilizados en las diferentes fases de realizacién de un MA: la bfisqueda
y seleccién de los estudios, la inclusién de estudios no publicados, la extraccién de las
caractefisticas de los estudios, la valoracién de la calidad metodolégica de los estu-
dios meta-analizados, los métodos estadisticos aplicados en la integracién cuan—
titativa, la comprobacién del sesgo dc publicacién como una posible amenaza contra
la validez de las conclusiones y la declaracién sabre posiblm conflictos de intereses.
La guia AMSTAR parece haber demosflado tenet bumas propiedades métricas en
7 E1 diagramn dc flujo puede obtenerse libremente en el sitio web: m.prisma-stnt¢ment.org.

términos dc validez aparente y de constructo, y de fiabih‘dad (Shea, Bouter, Peterson

91 mt, 2007; Shea, Hamel, Wells et al., 2009). Asi mismo, exists alguna evidencia de
que el uso de PRISMA o AMSTAR en el émbito de la salad parecen haber incre-
mentado la calidad del reporte de las revisiones sisteméticas y los MAS (e.g., Panic et
(IL, 2013).
Los instrumentos PRISMA y AMSTAR estén especialmcnte pcnsados para su
aplicacién en MAS sobre la eficacia de intervenciones. Dado que mmbién se estén
realizando MAS de estudios observacionales, Stroup, Berlin, Morton et al. (2000) han
propuesto 1a guia MOOSE (Meta-anabsr’s 0f Observational Studies in Epidemiologfl
como un instumento que puede ser utilizado por autores dc MAS, asi coma por re-
visores, editores y lectures dc MAS dc estudios observaciones (e.g., estudios de
cohortes, estudios de cases y controles, estudios correlacionales, etc.)
Finalmentc, en cl contaxto dc las cicncias socialcs y en particular an psicologia,
cabe destacar la guia MARS (Meta-Analwis Reporting Standards; APA Publications
and Communications Board Working Group on Journal Article Reporting Standards,
2008). La elaboracién de esta guia file liderada por el profesor Harris Cooper y se
basé en las guias QUORUM, PRISMA y MOOSE, asi como en las orientaciones pro-
puestas en la reunién celebrada en Potsdam sabre MA (Cook, Sackett y Spitzer,
1995). Ademés, en la elaboracién dc 1a guia MARS se conté con la colaboracién de
los miembros de la Sociegz for Research Synthesis Methodology. La guia MARS as
una lista de items qua incluye recomendaciones acerca del titulo, el posible conflicto
dc intereses, la redaccién del abstract, de la introduccién, del método, de los resul-
tados y de la discusién. Se puede utilizar tanto coma guia para redactar un MA coma
para hacer lectura critica de un MA. En el Anexo al final de este capiuflo se recogen
todos 105 items de la guia MARS.
9.3. Criticas al meta-anélisis

En el capitulo 8 11311103 tratado algtmas de las principales amenazas a la validez de las
conclusiones de un MA. En concrete, hemos abordado 1a cuestién de la calidad de los
estudios primarios, los efectos que tendria una excesiva heterogeneidad de- esos estu-
dios, las consecuencias del sesgo dc publicacién contra los estudios con resultados
que no son estadisticamente significativos y la realizacién dc inferencias inadecuadas,
ya sea en su naturaleza 0 en su generalizacién. Algunas de las criticas més reiteradas
:11 MA se refieren a estas amenazas. Lamentablemente, todas ellas son reales; no
podemos decir que estas cirmmstancias no se puedan presentar en un MA. Pero para
nosotros estas criticas no son argumentos que invaliden 1a metodologia. Las tomamos,
mfis bien, como un recordatorio y un acicate para redoblar los esfiJerzos encaminados
a evitarlas. Precisamente pet can, el hecho de que estas amenazas se afionten
explicitamente de alguna fauna en 1111 MA es un critefio de calidad de este.
Capitulo 9. Toplcos especlales 239
Peru ademés de esas cuatro amenazas, mfis conocidas y debatidas, hay otras
criticas 31 MA que merece la pena comentar en este capitulo. Recordemos que el MA
me: en los afios 70 com altemativa a las revisiones narrativas, can voluntad de
aportar precisién, rigor y sistematicidad a la tarea de sintetizar la evidencia respecto a
una pregunta especifica dc investigacién. Ademés, la tarea dc sintesis se ha hecho
cada vez mfis imprcscindiblc, dado cl incremento acclerado dc la produccién en cual-
quier disciplina. Ante cada critica 31 MA nosotros nos preguntamos si hemos avan—
zado o hemos retrocedido 3 ese respecto.
A veces se dice que 105 MA se hacen con poco rigor y que su gran complejidad
hace qua sea muy fécil cometer can-ores. Sin duda que es una metodologia compleja,
pero nadie esté més interesado en que 105 MA se realicen bien que los propios meta-
analistas. Desde los propios manuales de esta metodologia se propane y fomenta que
se introduzcan controlcs dc calidad, coma por ejemplo 1a estimacibn dcl acuerdo
inteljueces en los procesos dc codificacién 0 en los calculus de los indices dc TE. De
igual forma, se incentiva 1a bfisqueda de indicios de sesgo dc publicacién y su ma-
nejo. En cualquier caso, la respuesta a la pregunta comparativa es que sin duda esta-
mos mejor que con las revisiones narrativas. En estas no hay establecidos unos proce-
dimientos cxplicitos para manejar la informacién, por lo que ademés de ser igual—
mente propicia a los arrows, estos no se pueden rastear ni estudiar su origen. For 61
contrario, si an MA esté bien realizado y el informe es complete, debe set almmente
replicable.
También se dice :1 veces que un I'mico valor, e1 TE combinado, no puede resumir
un campo dc investigacién. Ciertamente, 1111 MA debe apartar més cosas que un valor
dc TE. La idea de que un promedio puede ser muy desorientador es especialmente
aplicable a1 MA (Lipsey y Wilson, 2001). Si 33 han obscrvadn variaciones importan-
tes en las estimacioncs, cntonccs a1 valor combinado as debt: afiadir informacién re-
lativa a su dispersién (por ejemplo, con la varianza especifica estimada desde 105 mu-
delos de efectos aleatorios). Igualmente, si hay tendencias asociadas a las variables
moderadoras se debs informar de las variaciones en las estimaciones combinadas para
las catcgofias de un modelo qua clasifica mediante cualidades 0 de la asociacién enm-
el TE y los de alguna variable cuantitativa. Peru hay més; esa infonnacién debe ex-
plicitar también 13. forum operativa como se han clasificado los estudios o cémo se ha
medido 1a variable moderadora cuantitativa. Toda esta infannacién quc acompafia a la
estimacién combinada global seré. mas precisa que la quc se aporta en una revisién
narrativa, en la que siempre quedaré el importante margen dc indefinicién que acum-
pafia alas descripciones verbales.
Otra limitacién del MA, sefialada por Wachter y Straf (1990), so refiere al em-
pleo redundante de la evidencia para generar hipétesis y para contrastarlas. Las hipé—
tesis que se generan al observar la evidencia contenida en unos estudios primaries no
se deberian evaluar con esa misma evidencia, pues seria una argumentacién circular.
Las hipétesis se deben generar antes y con infonnacibn independiente. Si 133 hipétesis
sm'gen en el proceso de an MA, entonces hay que planificar estudios que aparten esa
evidencia independiente qua permita evaluar las hipétesis y teorias derivadas en el

proceso.
La dureza y reiteracién de las criticas al MA ha hecho que los meta-analistas
hayan sido especialmente sensibles y escrupulosos con su propia metodologia. Han
estudiado exhaustivamente sus potenciales amenazas, llegando a malizarlas hasta sus
filtimos dctalles. Siemprc han tratado de ser autocriticos y dc dwarrollar pro-
cedimientos para protegerse dc esas amenazas. Curiosamente, dado que los meta-
analistas ban estudiado en profundidad ciertos problems metodolégicos algunas per-
sonas creen que esos problemas son propios del MA. Pero no es asi. Simplemente,
esos problemas son mas visibles an MA porque los meta-analistas se han dedicado a
estudiarlos, valorarlos y buscarles solucién. El ejemplo més destacado es el del sesgo
de publicacit'm. Algunos investigadores creen que este es un problema del MA. Muy
a] contrario, es 1111 problem para cualquier investigador, no hnporta la mctodologia
que utilice, pues todos se basan en los estudios accmibles (publicados). Pero solo e1
MA 10 ha analizado en profundidad y ha ofi‘ecido formas de afi'ontarlo.
9.4. El futuro del meta-anélisis

En capitulos antefiores ya 53 11311 presentadn algunos de los tépicos més actuales sobre
los que se esté. invatigando en MA para mejorar su metodologia. Ta] es el caso dc
cémo incorporar la calidad de 105 esmdios primarios an MA (epigrafe 8.1), 0 661110
evaluar y tratar cl problem do] sesgo dc publicacién (cpigrafe 8.3), o cémo im-
plementar modelos estadisticos multivariantes para tratar de forma conjunta TEs
dependientes, es decir, TEs calculados sabre las mismas muestras de datos (epigrafe
7.1). 0 cémo llevar a cabo MAs sobre la precisién dc pruebas dc clasificacién binaria
(epigrafe 6.3). El propésito de esta seccién es ptwentar brevcmcnte 011-05 tépicos
punteros an MA que no han tenido cabida en los capitulos anteriores.
Un tipo de MA del quc no hemos hablado en los capitulos anteriores es el que se
conoce coma ‘ineta-anélisis con dates de participantes individuales” (DPI; indmdual
participant data meta-unabasis). Los meta-anilisis convencionales calculan cl TE a
partir de los dams agregados reportados en los estudios (medias, desviaciones tipicas,
proporciones, pruebas de significacién, etc.). En un MA con DPI se tiene acceso a los
datos individuales de cada estudio, de forma que esos célculos pueden hacerse con
mayor seguridad a partir de los datos originales de los estudios. Ibgicamente, un MA
con DPI es una cmpresa colaborativa que requiem de la participacién activa de lo:
autores de los estudios primaries, ya que son ellos quienes tienen que aceptar par-
ticipar en el MA aportando sus datos originales. Un MA con DPI ofi-ece ciertas ven-
tajas sabre 1111 MA convencional. En primer lugar, evita que el reporte pot-re o in-
complete de 103 resultados de un estudio ml como son publicados obligue a1 meta-
analista a su exclusién. En segundo lugar, permite reanalizar los datos originalw de
los esmdios con el objeto, par ejemplo, dc alcanzar una mayor homogeneidad entrc
Capitulo 9. Topicos especlales 241
10s anélisis wtadisticos de los estudios incluidos en el MA. En tercer lugar, permite
aplicar modelos cstadisticos més complejos (e.g., modelos multim'vel) que ofi‘ecen
una informacién més rica sobre los resultados de 103 estudios. Finalmentc, disponer
de los datos individuales de los participantes en cada estudio permite analizar de una
forma més potente la presencia de interacciones entre los efectos de los tratamientos y
cicrtas caractcristicas personales de los participantw (Cooper 5/ Fatal, 2009; Stewart y
Tierney, 2002; Stewart, Tierney y Clarke, 2008; Whitehead, 2002, cap. 5). El anilisis
estadistico en un MA con DPI se puede abordar de dos formas: en dos empas 0 en
3010 una etapa. E1 anélisis estadistico “en dos etapas” consiste en calcular primate e1
TE de cada estudio por separado tomando los dams de 654: estudio 3; Image pro-
cediendo como en 1111 MA convencional. El anilisis “en una etapa” consiste en aplicar
modelos multinivel para realizar los anilisis estadisticos con los datos individuales de
los participantes. Es una linen dc investigacién puntcra 1a comprobacién dc qué mé-
todo es mas apropiado, asi como el desarrollo de procedimientos para integrar en 1111
111131110 MA estudios con dates dc participantes individuales y esmdios con dates
agregados (e.g., Debray, Moons, Abo-Zaid, Koffijbetg y Riley, 2013; Riley, Kauser,
Bland e! at, 2013; Riley, Lambert, Staessen e: 611., 2008; Stewart, Altman, Askie er
al., 2012). La principal dificultad dc llevar a cabo 1111 MA con DPI estzi en su
naturaleza colaborativa. Si no todos los autores de los estudios primaries aceptan co-
laborar en la investigacién, entonccs las estimaciones de los efectos del MA podrian
sufrir sesgos.
Uno de 105 terms més recientes an MA es un tipo de MA denominado “meta-
anélisis prospectivo” (prospective meta-anabsis). Un MA prospectivo es un meta-
anélisis que integra un conjunto dc estudios(genera1mente, estudios experimentales, o
ensayos controlados aleatorizados) que fueron identificados y seleccionados antes de
que sc conozcan los rcsultados dc dichos metudios. En un MA prospective cl meta-
analista busca estudios que se estén llevando a cabo, 0 se van a iniciar, y la in-
tegracién meta-analitica fiene lugar una vez finalizados los estudios. La principal
ventaja dc planificar un MA antes de disponer de los resultados de los estudios es que
protege de la posibilidad dc qua e1 meta-analista incun'a en sesgos durante la plani-
ficacién del MA; sesgos debidos a] conocimiento dc dichos resultados. En concrete,
un MA prospective previene de incun'ir en sesgos a1 fijar los criterios de seleccién
relatives a 111(5) poblaci6n(es) objeto dc astudio, los tipos dc tratamicnto, los tipos dc
disefio, 0 las variables de resultado que se van a considerar. La ejecucién de un MA
prospective requiem del compromfiso previo de los investigadores primaries que estén
realizando (0 van a realizar) los estudios que postefionnente se van a integrar en el
MA. E110 implica adherirse a unos criterios minimos que den cierta homogeneidad a
los protocolos dc actuacién de cada estudio. Asi mismo, 1111 MA prospective previene
contra el scsgo de reporte selective de los resultados de los estudios primaries. La
naturaleza colaboraflva del MA prospective convierte a este en un tipo de MA sobre
el que se podrian aplicar perfectamente las estrategias analiticas que ofrece 1111 MA
con DPI. La principal dificultad en la ejecucién de un MA prospective esté en la
localizacién delos estudios que se encuenuan en fase dc disefio a dc realizacién antes
de su publicacibn. Se trata, pues, de una empresa colaborativa que se wté aplicando

en el fimbito de las Cicncias Médicas y que, hasta donde sabemos, todavia no se ha
aplicadu en el contexto de la Psicologia. Para profundizar en 61 MA prospective
pueden consultarse Ghersi, Berlin y Askie (2008), Berlin 3; Ghersi (2005), Turok,
Espey, Edelman er a1. (2011) y Valsecchi y Masera (1996).
Finalmentc, cabs mencionar 1m tipo de MA denominado “mcta—anélisis en red"
(network meta-anabmis). Los meta-anélisis convencionales sobre la eficacia de trata—
mientos alternatives sabre un determinado problema se basan en la obtencién de- in-
dices del TE en los que cada tratamiento se compara con un grupo de control; pos-
terionnente, mediante un anéh'sis dc subgrupos (ANOVA) se compara cl efecto medio
de un tatamiento con el del otro iratamiento para comprobar si 105 dos tratamientos
en cuestién exhiben una eficacia similar. El case més simple es el que se daria cuando
se pretende comprobar la eficacia difcrcncial dc dos tratamientos alternativos, A y B,
pero no so dispone dc estudios que los hayan comparado directamente, sino que se
dispone de mmdios que han comparado e1 tratanfiento A con un determinado com-
parador (e.g., un grupo de control placebo, C) y de- estudios que han comparado cl
u'atamiento B con un comparador similar a] anterior. La comparacién de los efectos
medics AC y BC se denomina “comparacién indirecta” acerca de los tratamientos A y
B. Si ademés de estas comparaciones indirectas se dispone dc estudios que compamn
los tratamientos A y B, entonces se podria obtener un efecto media AB quc se da-
nomina “comparacién directa” AB. En 1111 MA en red se trata dc aprovechar todas las
comparaciones posibles, directas e indirectas, entre u-atamientos alternativos, para
ofrecer una estimacién més precisa de las diferencias entre los tratamientos alter-
natives. Para e110, se aplican procedirnientos dc anélisis estadistico cSpeciales me-
diante los cuales se combinan los TEs procedentes de las comparaciones indirectas
(6.3., AC 3! BC) con los TEs procedentes de las comparaciones directas (e.g., AB), de
forma que el resultado final se denomina “comparaciones mix ”. En su imple-
mentacién el MA en red requiem del cmnplimientu dc ciertos supuestos, coma son 61
de transitividad (similjtud en las caracteristicas de los estudios procedentes de las
comparaciones directas y las indirectas) y el dc consistencia (las evidencias pro-
cedentes de las comparaciones directas e indirectas deben ser consistentes entre 5i). El
MA en red constituye, pues, una de las lineas de investigacién més punteras en la ac-
malidad dentro del meta-anélisis, que ya cstfi (1m 3113 frutos sabre todo en el émbito
de las Ciencias Médicas y quc es de esperar que se vaya extrapolando al émbito de la
Psicologia. Un trammiento més extenso de este- tipo de meta-anélisis queda fuera del
alcance de este libro. Pueden consultarse los trabajos dc Caldwell, Ades y Higgins
(2005), Dias, Walton, Caldwell y Ades (2010), Lu 3! Ade-s (2004), Salami, Ades y
Ioannidis (2011), Salanti, Higgins, Ades y Ioannidis (2003) o Tobias, Catalé-pez y
Roqué (2014).
Capitulo 9. Topioos especlales 243
Anexo: Gula MARS
Lista de items de la guia MARS Meta-Analysis Reporting Standards) elaborada por

el APA Publications and Communications Board Working Group on Journal Article
Reporting Standards (2008).
item st N0
1. Titula. El titulo debe contener alguno de los terminus “meta-am’tlisis” (meta-
anabwis), ‘refisién sistemfitica’ (systematic review) 0 ‘sintesis de la inves-
tigacién' (research synthesis)
2. Fuente/s de financiacién. Si e1 trabajo ha sido financiado (ya scan fondos

pfiblicos o privados), debe inclujrse una declaracién explicita de posible
conflicto de intenses de los autores
3. Abstract. Debe incluir de forma abreviada los siguientes aspectos:

3.1 A] menus se dedica una frase para dficn'bir cuél fue el problem 0 12/3
relaciém’es objeto de investigaciém
3.2 Deben especificarse, a] means, 103 principales miterios de seleocifin de
los estudios
3.3 Deben identificarsc elflos tipofs dc participantes incluidos en los cstudios
primaries meta-analizados
3.4 Deben describirse brevemente Ins métodos estadisticos utilizados en el
meta-anélisis (efectos fijus versus efectos aleatorios)
3.5 Deben describirse los principales resultados, incluyendo los Inmafios dal
efecto més relevantes y su relacién con [08 moderadores
3.6 Deben explicarse brevementc las principalm conclusions, incluyendo
las limitaciones del estudio
3.7 A] menus debe indicarse que en el meta-anilisis se discuten [as impli-
caciones para la teofia, la politica ylo la practical clinica
4. Ina-adamcién. Debe incluir una descripcién Clara y comprehensiva de la
pregunm yin dc lafs relaciénles objeto dc estudio:
4.1 Debe presentarse una descripcién comprehensiva del desarrollo histérico
del problema objeto dc estudio
4.2 Deb-e incluirse Lma reflexifin exhaustive de las cuestiones tafiricas,
politicas y lo précficas relacionadas con la pregunm de interés
4.3 Deben incluirse argumentos que justifiquen la seleccifm de [as variables
moderadoras de los resultados incluidas en el meta-anilisis
4.4 Deben describime los diferentes tipos de disefios utilizados en los
estudios primaries, asi coma sus ventajas y limitaciones
4.5 Debcn describirse las variables dc resultado (outcomes) de los estudios
primaries, asi coma de sus propiedades psicométdcas
4.6 Debs aclararse cuélles es/son lals poblacién/es (de personas) para lais
que la preglmta objeto dc invesfigacién as relevant:
4.7 Deb- plantearse de forma clam y precisa las hipétesis objeto de estudio,
case de que haya hipétcsis
Item Si NO
5. Mézodo. Critefim dc inclusién y exclusidn de Io: esmdios primaries:
5.] Se incluye una descripcifin de las variables de resultado (outcomes) y
de lafs variable/'3 independientefs o predictorals (e.g., intervenciones)
5.2 St: incluye una descripcién clam dc [as camctedsticas de las mumtras
de participantes, es decir, de cuzills esfson lafs poblaciénies de refe-
renc1a
5.3 Se indica qué tipos de disefios son aceptables (e.g., asignacifin alea-
tofia, tamafio mucstra] minimo, inclusién dc grupo de control, etc.)
5.4 Se especifica con claridad cuél es el pefiodo temporal en el que los
estudios primarios mvieron que set realizados para ser incluidos
5.5 En su case, 56 especifican las resnicciones de tipo geogrfifico yfo
cultural eidgidas a los estudios primaries
6. Métado. Estrafegias dc bthqueda d3 Ia: estudias primaries:
6.1 Deben especificarse todas las bases de dates, indioes dc citacién y de
referencias que se hayan utilizado
6.2 Deben especificarse las bases de datos eleclrénicas consultadas,
indicando las palabras clave utilizadas y el sofiware de bfisqueda
6.3 Debe especificarse e1 periodo temporal en el que los estudios tenian
que haber side realizados para ser seleccionados
6.4 Deben indicarse ou'os procedimientos dc bfisqueda utilizados (92.3..
contactos con aumres, revisién dc referencias dc articulos, etc.)
6.5 En su case, debe indicarse si se admitieron estudios ficritos en otros
idioms aparte del inglés
6.6 Debe explicarse el promo mediante el cual se heron seleccionando
los estudios (e.g., lectura del abstract, lectm'a del texto complete, etc.)
6.7 Debe describirse cémo se analizé la fiabilidad del proceso de
seleccién de estudios y cémo se resolvieron [as desacuardos
6.8 Debe explicarse si se aceptaron estudios no publicados o solo
publicados y cémo 3e identificaron 103 no publicados
7. Métada. Procedimientos de codg‘icacidn de 105 estudios:
7.1 Deben definirse todas las categorias de codificacién utilizadas para
analizar cl influjo dc moderadores de lals relaciénfes de interés
7.2 Debe hacerse mencién cxplicita del nfimero y nivel dc cualificacién de
los codificadores (e.g., nivel de experiencia, nivel de entrenami-to)
13 Deben reportarse estimaciones de la fiabilidad 0 grade de acuerdo
entre los codificadores
7.4 Debe indicaxsc si todos los estudios filemn oodificados doblemente o
solo un subconjunto de ellos, y 061110 se resolvieron 10s desacuerdos
7.5 Debe describirse cémo se valoré la calidad de los estudios, con
indicacién pmcisa de los indicadores de calidad utilizados
7.6 Debe hacetse mencién dc cémo se trataron los dates ausentes, o
faltantes, en el promo dc codificacién de los model-adores
Capltulo 9. Taploos especlales 245
Item Si N0
8. Método. Métodos estadisticas:
8.1 Deben dwcn'birse elflos indice del tamafio dc] efecto utilizados,
hacienda mencién express: de las férmulas dc célculo, dates
estadisticos utilizados (e.g., medias, desviacioncs tipicas, pruebas T,
etc.), asi como de las correcciones para muestras pequefias utilizadas
8.2 Bebe mpecificme cémo se- calculé cl tamafio del efecto media y, en
su case, qué método de ponderacién se utilizé
8.3 Debt: describirse cémo 3e calculamn los mores tipicos de los
intervalos de confianza de los tamafios dc] efecto
8.4 En su case, deb: indicarse cémo se calcularon los intervalos dc
credibilidad
3.5 Debs explicarse cémo se resolvié e1 problem de la dependencia Guan-
do un estudio aportaba mfis de un tamafio del efecto
8.6 Debe especificarse si se utilizb un modelo de efectos fijos 0 dc efectos
aleatorios, y la justificacién de su eleccit’m
8.7 Debe describirse cémo se evalué la heterogeneidad em los tamafios
del efecto de los estudios (e.g., estadistioo Q, indice 11)
8.8 Si 51: aplicé un meta-anilisis psicométrico para la estimacifin dc
relaciones entre cousin-notes, deben aportarse [as medias y desvia-
ciones tipicas de las distribuciones de los artefactos dc medida
8.9 Debe describirse si se aplicaron ajustes contra datos fallmtes (e.g.,
sesgo dc publicacién, reporte selectivo de resultados, etc.)
8.10 Debs indicarse si se realizamn anélisis asbedistioos para detectar la
presencia de datos extremos (outliers)
8.11 Debe wpecificarse si se llevé a cabo algl'm anélisis para comprobar la
potencia estadistica de los anfilisis aplicados en el meta-anélisis
8.12 Deben indicarse cuélfes filelron eLflos pmgramafs de saflware
esmdistico utilizadofs para realizar los anélisis
9. Remdtados:
9.1 Debe especificarse e1 nfimero total de refercncias examinadas en la fase
dc bfisqueda de los estudios para su posible inclusién
9.2 Debe aportarse 1a relacién dc referencias de los estudios incluidos en el
meta-anilisis
9.3 Debe indicarse e1 nfimero dc referencias que heron excluidas del meta-
anfilisis por no cumplir alguno de los criterios dc inclusién
9.4 Debe reporlnrse e1 nfimero de estudios excluidos par no cumplir cada
uno de los criterios de inclusién (2.3., no se pudo calcular e1 mmnfio del
efecto), describiendo algunos ejemplos
9.5 Debe reportarse una tabla que contenga infomacién descriptiva de cada
mm de los estudios incluidos, incluyendo elflos tamafiofs del efecm y el
mafia muestral
9.6 Si se hizo, deben reporlarse los datos relativns a la valoracién de la
calidad metodolégica de cada estudio
Item Si N0
9. Resultados (continuacidn):
9.7 Deben reporlmse tablas y/o gréficos que contengan:
- Caracteristicas descriptivas de la base de datos (6.3., nfimero de estu-
dios can diferentes disefios de investigacibn)
- Estimaciones del tamafio del efecto medic, incluyendo medidas de
incertidumbre (e.g., intervalos de confianza ylo dc credibilidad}
9.8 Deben reportarse los remltados de los mflisis de modemdores que
contengan:
- El nfimero de estudios y los tamafios mueslrales totales para cada
anfifisis dc moderadores
- La evaluacién de la interrelacién entre las variables utilizadas para el
anélisis de los moderadores
9.9 Debcn reportarse los remfltados dc los anilisis de la evaluacién dc po-
sibles wages, come cl saga de publicacifin, e1 sesgo de reports, etc.
10. Dwmién:
10.1 Debe presenmrse un resumen de cuéles ban sido los principales
resultados alcanzados en el meta-anéfisis
10.2 Deben discmirse explicaciones altemativas de los resultados obte-
nidos (e.g., debido a la existencia de datos faltantes)
10.3 Debe discufirse cl grade en que los resultados pueden generalizarse:
- a las poblaciones dc parficipantes’pacientes relevantes
- a las vafiaciones de los tratamientosfintervenciones
- a las variables dependientes 0 de resultado (outcomes)
- a los disefios dc investigacién, etc.
10.4 Deben discutirse las limitaciones del meta-anilisis (incluyendo al-
guna referencia a la calidad metodolégica de los estudios)
10.5 Deben discutirse [as implicaciones y la interpretacién de los resul-
tados para lafs medals, la politica ylo la prfictica profesional
10.6 Deben presentarse algunas recommdaciones para las investigaciones
futures en este campo
Referencias bibliogréficas
Abad, F. 1., Olea, J., Ponsoda, V., y Garcia, C. (2011). Medicién en ciencias saddles y de la
salad. Madrid: Sintesis.
Aguinis, H., Gottfredson, R. K, y Wright, TA. (2011). Best-practice recommendations for
estimating interaction effects using meta-analysis. Journal of Organizational Behavior,
32, 1033-1043.
Allison, D. B., y German, B. S. (1993). Calculating effect sizes for meta-analysis: The case of
the single case. Behaviour Research and Mercy, 31, 621-631.
Allison, D. B., Silvetstein, J. M., y German, B. S. (1996). Power, sample size estimation, and
early stopping rules. In R. D. Franklin, D. B. Allison y B. 8. German (Eds), Design and
analysis ofsingfe case research (pp. 335-371). Mahwah, NJ: Erlbamn.
Aloe, A , Becker, B. 1., y Pigott, T. (2010). An alternative to R2 for assessing linear models of
effect size. Research synthesis Methods, 1, 272-283.
Amén, J. (1993): Estadistica pampsicéiagos I. Estadis'tica descrfiativa, Madrid: Pirfimide.
APA Publications and Communications Board Working Group on Joumal Article Reporting
Standards (2008}. Reporting standards for research in psychology: Why do we need
them? What might they be? American Psychologist, 63, 839-851.
Ato, M., y Vallejo, G. (2007). Disefios eJqJerimentaIes en psicologia. Madrid: Pirémide.
Babor, T. F., Higgins-Biddle, J. (3., Saunders, J. B., y Monteim, M. G. (Eds) (2001). AUDIT:
The Alcohol Use Disorders Identification Test: Guidelines for use in primal); care, 2nd
edition, WHO Document No. WHOMSDMSB!01.63, Geneva, Switzerland: World
Health Organization, 2001.
Bax, L., Yu, L. M., Ikeda, N., Tsmuta, H., y Moons, K. G. (2006). Development and validation
of MIX: comprehensive free software for meta-analysis of causal research data. BMC
medical research methodalay, 6(1), 50.
Becker, B. I. (1988). Synthesizing standardized mean-change measures. British Journal of
Mathematical and Stan'stical Psychology, 41, 257-278.
Becker, B. J. (1992). Using results from replicated studies to estimate linear models. Journal of
Educational Statistics, 17, 341-362.
Becker, B. J. (2000). Multivariate meta-analysis. En H. E. A. Tinsley y S. D. Brown (Eds),
Handbook of applied muItz'variate stamfics and mathematicai modeling (pp. 499-525).
San Diego, CA: Academic Press.
Becker, B. J. (2009). Model-based meta-analysis. En H. Cooper, L. V. Hedges y J. C. Valentine
(Eds), The handbook of research mike“! and meta-anabm's (23' ed., pp. 377-395).
Nueva York: Russell Sage Foundation.
Becker, B. J., y Schram, C. M. (1994). Examining explanatory models through research
synthesis. En H. Cooper y L. V. Hedges (Eds). The handbook ofreseamh synthesis (pp.
357-381). Nueva York: Russell Sage mdation.
Begg, C. B., y Mazumdar, M. (1994). Operating characteristics of a rank correlation best for
publication bias. Biometrics, 50, 1088-1101.
Bender, R., Bunce, C., Clarke, M., Gates, 8., Lange, 8., Pace, N. L., y Thorlund, K. (2008).
Attention should be given to multiplicity issues in systematic reviews. Jmal of Clinical
Epidemiolay, 61, 857-865.
Berlin, 1., y Ghersi, D. (2005). Preventing publication bias: Registries and prospective meta-
analysis. En H. R. Rothstein, A. J. Sutton y M. Borenstein (Eds.), Publication bias in
meta-analysis: Prevention, assessment and adjustments (pp. 35-48). Chichmter, UK:
Wiley.
Bender, R., Bunce, (L, Clarke, M., Gates, 3., Lange, 8., Pace, N. L., y Thorbund, K. (2008).
Attention should be given to multiplicity issues in systematic reviews. Joumal of Clinical
Epidemiology, 61, 857-865.
Biggerstafl', B. 1., y Tweedie, R. L. {1997). Incorporating variability in estimates of
heterogeneity in the random efibcts model in meta-analysis. Statistics in Medicine, 16,
753-768.
Bonett, D. G. (2002). Sample size requirmnents for testing and estimating coefiicient alpha.
Journal of Educational and Behavioral Statistics, 27, 335-340.
Bonett, D. G. (2008). Meta-analytic interval “titration for bivariate correlations. Psychological
Methods. 13, 173-181.
Bunett, D. G. (2009). Meta-analytic interval estimation for standardized and Imstandardized
mean difl'erences. Psychological Methods, 14, 225-238.
Bonett, D. G. (2010). Varying coefficient meta-analytic methods for alpha reliability.
talogical Methods, 15, 363-385.
Bonn, 1L, 3! Arnau, J. (2014). Disefios de casa tinico en ciencias saddles y de la salad. Madrid.
Sintesis.
Borenstein, M. (2009). Effect sizes for continuous data. En H. Cooper, L. V. Hedges y J. C.
Valentine (eds), The handbook afresew'ch synthesis, 2.‘ ed. (pp. 221-235). Nueva York:
Russell Sage Foundation.
Borenstein, M., Hedges, L. V., Higgins, J. P. T., y Rothstein, H. R. (2009). Introduction to
meta-analysis. Chichester, UK: John Wiley and sons.
Bonenstein, M., Hedges, L. V., Higgins, J. P. T., y Rothsbein, H. R. (2010). A basic intmdnction
to fixed-effects and random-effects models for meta-analysis. Research synthesis
Methods, 1, 97-1 11.
Borcnstein, M., Hedges, L. V., Higgins, J. P. T., y Rothstein, H. R. (2013}. Cawrehmive
Meta-analytic Vmion 3.0. Biosmt Inc.
Borenstein, M., y Higgins, J. P. T. (2013). Meta-analysis and subgroups. Preventive Science,
14, 134-143.
Bossuyt, P. M., Reitsma, J. B., Bruns, D. E., Gatsonis, C. A, Glasziou, P. P., Irwig, L. M.,
Lijmer, J. (3., Moher, D., Rennie, D., y de Vet, H. C. (2003). Towards complete and
accurate reporting of studies of diagnostic accuracy: the STARD initiative. British
Medical Journal, 326, 41-44.
Botella, 1., y Gambara, H. (2002). Qué as e! metanandlis-is. Madrid: Bibliotcca Nueva.
Botella, 1., y Gambara, H. (2006a). El meta-anilisis: una metodologia de nuesu'o tiempo.
Infocop, 29 mayo.
Bate-Ila, 1., y Gambara, H. (2006b). Doing and reporting a meta-analysis. International Journal
of Clinical andHeaIrh Psychologa, 6, 425-440.
Botella, 1., y Huang, H. (2012}. Procedjnfientos para realiar mfla-anflisis de la precisién de
insmnnentos de clasificacién binaria. Psicathema, 24(1) 133-141.
Referencias blbllogréflcas 249
Botella, J., Huang, H., 5! Sum, M. (en prensa). Meta-analysis of the accuracy of tools for
binary classification when the studies employ varied references. Psychological Methods.
Botella, J., y Ponte, G. (2011). Effects of the heterogeneity of the vafiances on reliability
generalization: An example with the Beck Deplession Inventory. Psicothema, 23(3), 516-
522.
Botella, J., Sepfilveda, A. 11., Huang, H., y Gambara, H. (2013). A meta-analysis of the
diagnostic accuracy of the SCOFF. Spanish Jamal afPSJmhoIogy, 16, 0392, 1-3.
Botella, L, y Sucre, M. (2012). Managing Heterogeneity of Variance in Studies of Reliability
Gnaralization with Alpha Coefficients. Methodafagr, 8, 71-30.
Botella, 1., Suero, M., y Gambara, H. (2010). Psychometric inferences firm a meta-analysis of
reliability and intemal consistency coefficients. Psychological Methods, 15, 386-397.
Botella, 1., Sum, M., y Ximenez, C. (2012). Andfisis de datos en psicologia I. Madrid:
Pirémide.
Botella, J., Xirnénez, M. C., Revuelta, 1., y Suero, M. (2006). Optimization of sample size in
controlled experiments: the CLAST rule. Behavior Research Methods, Instruments &
Computers, 38(1), 65-76.
Boutmn, I., Moher, D., Alunan, D. (3., Schulz, K. E, y Ravaud, P., for the CONSORT Group
(2008). Extending the CONSORT statement to randomized trials of nonpharmacologic
u‘eatment: Explanation and elaboration. Annals ofInremaI Medicine, 148, 295-309.
Braschi, L., Botella, 1., y Sucre, M. (2014). Consequences of sequential sampling for meta-
analysis. Behavior research methods, 1-17.
Brockwell, S. E., y Gordon, I. R. (2001). A comparison of statistical methods for meta-analysis.
Statistics in Medicine, 20, 825-840.
Brok, 1., Thorlund, K., Wetterslev, J., y Gluud, C. (2009). Apparently conclusive meta-analyses
may be inconclusive—Trial sequential analysis adjustment of random error risk due to
repetitive testing of accumulating data in apparently conclusive neonatal meta-analyses.
Intemationai Journal apidemioIogy, 38, 287-293.
Husk, P. L., y Serlin, R. C. (1992). Meta-analysis for single-case research. En T. R. Kralochwill
& J.R. Levin (Eds.), Single-case research dwign and wmbvsis: New directions for
psycholog’ and education @p. 187-212). Hillsdale, NJ: Lawrence Erlbaum Associates.
Caldwell, D. M., Adana, A. E., y Higgins, J. P. T. (2005). Simultanemas comparison of multiple
treatments: Combining direct and indirect evidence. British Medical Journal, 331, 897-
900.
Campbell, D. T., y Stanley, J. C. (1963). Experimental and quasiflperimenral designs jbr
research. Chicago, Rand McNally.
Campbell, J. M. (2004). Statistical Comparison of Four Effect Sizes for Single-Subject
Designs. Behaviour Modification 28, 234-246.
Card, N. A. (2012). Applied meta-analysis for social science research. Nueva York: Guilford
press.
Carlson, K. D., 3: Schmidt, F. L. (1999). Impact of experimental design an effect size: Findings
from the research literature on training. Journal of Applied tology, 84, 851-862.
Castillo, M. D. (2009). La atencién. Madrid: Pirémide.
Center, B. J., Skiba, R. 1., 3; Casey, A. (1985-1986). A methodology for the quantitative
synthesis of inn-subject design research. Journal offiyecial Educafian, 19, 387-400.
Chalmers, 1., y Altman, D. G. (1995). systematic reviews. Londres: BMJ Publishers group.
Chalmers, T. C., Smith, H. Jr, Blackburn, B, Silverman, B., Schroeder, B., Reitman, D., y
Ambroz, A. (1981). A method for assessing the quality of a randomized comml trial.
Controlled Clinical Trials, 2, 31-49.
Cheung, M. W. L. (2008). A model for integrating fixed-, mdom-, and mixed-effects meta-
analyses into structural equation modeling. Psychological Methods, 13, 182-202.
Cheung, M. W. L. (2013). Multivariate Meta-Analysis as Structural Equation Models.
Structural Equation Modeling, 20, 429-454.
Cheung, M. W. L, 5! Chan, W. (2005). Meta-analytic structural equation modeling: A two-
stage approach. Psychological Methods, 10, 40-64.
Chenng, M. W. L., y Chan, W. (2009). A two-stage approach to synthesizing covariance
matrices in meta-analytic stmctural equation modeling. Structural Equation Modeling, 6,
28-53.
Clarke, M. (2009). Reporting format. En H. Cooper, L. V. Hedges j; J. C. Valentine
(Eds.){2009), The handbook of research synthesis' and mid-anabsis 2.a ed. (pp. 521-
534). Nueva York: Russell Sage Foundation.
Cohen, J. (1988). Statistical power anabsisfor the behavioural sciences; 2.a ad. Nueva York:
Academic Press.
Cohen, J., Cohen, R, West S. G., y Aiken, L. S. (2003). Applied muffiple regression/correlation
ambrsisfir the behavioraf sciences (31' ed). Mahwah, NJ: Erlbaum.
Conn, V. 5., y Rantz, M. J. (2003). Research methods: managing primary study quality in meta-
analyses. Research in Nursing & Health, 26(4), 322-333.
Cook, D. J., Sackett, D. L., y Spitzer, W. O. (1995). Methodologic guidelines for systematic
reviews of randimized control tirals in helath care from the Potsdam consultation on
meta-analysis. Journal afCiinical Epidemiology, 48, 167-171.
Cook, T. D., 3; Campbell, D. T. (1979). Quasi-experimentafion: design and Wm“: issuesjbr
field settings. Chicago, Rand McNally.
Cooper, H. M. (1998). Synthesizing research: A guidefor literature reviews (3.“ ed.). Thousand
Oaks, CA: Sage.
Cooper, H. M. (2010). Research synthesis and meta-anabisis: A step-Mm: approach (4.“ ed.)
Thousand Oaks, CA: Sage.
Cooper, H. M., y Hedges, L. V. (1994). Handbook of research synthesis. New York: Russell
Sage Foundation.
Cooper, H. M., y Hedges, L. V. (2009). Potentials and limitations. En H. Cooper, L. V. Hedges
y J. C. Valentine (Eds.). The handbook afrasearch synthesis and max-mabzsis (2.ll ed,
pp. 561-572). Nueva York: Russell Sage Foundation.
Cooper, H. M., Hedges, L.V., y Valentine, LC. (Eds.)(2009). The handbook of rasearch
synthesis and meta-anabsis (2.“ ed). Nueva York: Russell Sage Foundation.
Cooper, H. M., y Patall, E. A. (2009). The relative benefits of meta-analysis conducted with
individual participant data versus aggregated data. Psychological Methods, 14, 165-176.
Cortina, J. M., y Nouri, H. (2000). Efi‘éct sizefor ANOVA designs. Thousand Oaks, CA: Sage.
Cracker, L., y Algina, J. (1986). IntroMtian to classical and modem test theory. New York:
Holt, Rinehan and Winston.
Cronbach, L. J. (1951). Coefficient alpha and the internal structure of tests. Psychometrika, 16,
297-334.
Crosbie, J. (1993). Interrupted time-series analysis with brief single-subject data. Journal of
Consulting and Clinical tm‘ogy. 61, 966-974.
Crusbie, J. (1995). Interrupted time-series analysis with short series: Why it is problematic;
how it can be improved. En J. M. Gottman Ed), The swabs-is afchange app. 36I-395).
Mahwah, NJ: Erlbaum.
Crows, M., y Sheppard, L. (2011). A review of critical appraisal tools show they lack rigor:
alternative tool structure is proposed. Journal of Clinical Epidemiologr. 64(1), 79-89.
Referencias bibllogréflcas 251
Cumming, G. (2012). Understanding the new statistics. Efi'ecr sizes, corgfidence intervals, and
meta-analysis. Nueva York: Routledge, Taylor & Francis group.
Debray, T. P. A... Moons, K. G. M., Abo-Zaid, G. M. A, Koffijberg, H., y Riley, R. D. (2013).
Individual participant data meta-analysis for a binary outcome: One-stage or five-stage?
PLoS ONE 8(4): e60650. doi:10.1371ljomnal.pone.0060650.
Dechartres, A., Charla, P., Hopewell, 3., Ravaud, P., y Altman, D. G. (2011). Reviews
assessing the quality or the reporting of randomized controlled trials are increasing over
time but raised questions about how quality is assessed. Journal of Clinical
Epidemiolog, 64(2), 136-144.
Decks, J. J. (2001). Systematic reviews of evaluations of diagnostic and screening tests. En M.
Egger, G. D. Smith, y D. Altman (eds): systematic reviews in health care: meta-anaiysfi
in context, 2.3 ed. Londrm: BMJ Books.
Decks, J. J., y Altman, D. G. (2001). Efl‘ect measures for meta-analysis of trial with binary
outcomes. En M. Egger, Davey Smith, G., y D. G. Altman (Eds.), mmm reviews in
health care: Meta-anabwis in context (pp. 313-335). Inndres: BMJ Publishing Group.
Decks, J. J ., Dinnes, J., D’Anfico, R., Sowden, A. J., Sakarovitch, 0., Song, F ., Petticrew, M.,
y Altman, D. G. (2003). Evaluating non-randomised intervention studies. Health
Technology Assessment, 7(27), 1-179.
DerSimonian, R., y Laird, N. (1986). Meta-analysis in clinical trials. Connolled Clinical Tnhfs,
7, I'M-188.
Des Jarlais, D. CL, Lyles, C., Crepaz, N., y el TREND Group (2004). Improving the reporting
quality of nonrandomized evaluations of behavioral and public health interventions: The
TREND statement. American Journal ofPublic Health, 94, 361-366.
Dias, S., Walton, N. J., Caldwell, D. M., y Aden, A. E. (2010). Checking consistency in mixed
treatment comparison meta-analysis. Statistics in Medicine, 29, 932-944.
Dinfitmv, D. M. (2002). Reliability: arguments for multiple perspectives and potential
problems with generalization across studies. Educational and Psychological
Measurement, 62(5), 783-801.
Dunlap, W. P., Cortina, J. M., Vaslow, J. B., y Burke, M. J. (1996). Meta-analysis of
experiments with matched groups or repeated measures designs. Psychaiagical Methods,
1, 170-177.
Duval, 8., y 'I‘weedie, R. (2000a). A non-parametric “trim and fill” method of assessing publi-
cation bias in meta-analysis. Journal ofthe American Statistical Association, 95, 89-98.
Duval, 5., y Tweedie, R. (2000b). Trim and fill: a simple funnel-plot-based method of testing
and adjusting for publication bias in meta-analysis. Biometrics, 56, 455-463.
Egger, M., Smith, G. D., 3! Aliman, D. G. (eds) (2001). systematic reviews in health care:
meta-analysis in context, 2.“ ed. Londres: BMJ Publishing group.
Eggcr, M., Smith, G. D., 5: Phillips, A. N. (1997). Meta-analysis: Principles and pmoedum.
British Medical Journai, 315, 1533-1537.
Egger, M., Smith, G. D., Schneider, M., y Minder, C. (1997). Bias in Meta-Analysis Detected
by a Simple Graphical Test. British Medical Journal, 315, 629-634.
Ellis, P. D. (2010). The essential guide to efi‘éct sizes. Nueva York: CambridgeUniversity Press.
Faith, M. 5., Allison, D. B., 31 German, B. S. (1996). Meta-analysis of single-case research. In
R. D. Franklin, D. B. Allison, & B. S. Gorman (EdsJ, Design and analysis afsingIe-case
research (pp. 245-277). Hillsdale, NJ: Erlbaum.
Paul, F., Erdfelder, E., Lang, A. G., 3; Buckner, A. (2007). G*Power 3: A flexible statistical
power analysis program for the social, behavioral, and biomedical sciences. Behavior
Research Methods, 39, ITS-191.
Feldt, L. S., y Brennan, R. L. (1989). Reliability. In R. L. Linn (Bi), Educational measurement

{3rd ed., pp. 105-146). New York: American Council on Education and Macmillan.
Feldt, L. S., y Charter, R. A. (2006). Averaging internal consistency reliability coefficients.
Educational and Psychological Measurement, 66, 215-227.
Ferguson, C. J., y Brannick, M. T. (2012). Publication bias in psychological science:
Prevalence, methods for identifying and controlling, and implications for the use ofmeta—
Analyses. Psychological Methods, 17(1), 120-128.
Field, A. P. (2003). The problems of using fixed-effects models of meta-analysis on real-world
data. Understanding Statistics, 2, 77-96.
Field, A. P. (2005). Is the meta-analysis of correlation coefficients accurate when population
correlations vary? Psychological Methods, 10, 444-467.
Field, A. P., y Gillett, R. (2010). Hawr to do a meta-analysis. British Journal of Mathematical
and Statistical Psychology, 63, 665-694.
Fitts, D. A. (2010). Improved stopping 11.11% for the design of efficient small-sample expe-
riments in biomedical and biobehavioral research. Behawar Research Methods, 42, 3-22.
Fitts, D. A. (2011). Minimizing animal numbers: the variable-criteria sequential stopping rule.
Comative medicine, 61, 206—218.
Fleiss, J. L., 3! Berlin, J. A. (2009). Efl‘ect sizes for dichotomous data. En H. Cooper, L. V.
Hedges y I. C. Valentine (eds.), The handbook of research mthemis, 2.“ ed (pp. 237-253).
Nueva York: Russell Sage Foundation.
Francis, G. (2012). The Psychology of Replication and Replication in Psychology. Perspective!
on Psychological Science, '7, 585-594.
Franco, M., 5? Viva, J. (2007). Amih‘sis dc was ROG. Princg‘pios bdsicos y apficaciom.
Madrid: La Muralla.
Prick, R. W. (1998). A better stopping rule for conventional mfistical tests. Behafiar Research
Methods, Instruments, & Computers, 30, 690-697.
Gatsonis, C., y Paliwal, P. (2006). Meta-Analysis of Diagnostic and Screening Test Accuracy
Evaluations: Methodological Primer. American Journal ofRoentgenoIogy, 187, 271-281.
Ghersi, D., Berlin, 1., y Askie, L. (2008). Prospective meta-nalysis. En J. P. T. Higgins y S.
Green (Eds.), Cachrane handbaokfitr sgm‘emafic reviews of interventions (pp. 559-570).
Chichester, UK: Wiley.
Ghosh, B. K., 31 Sen, P. K. (Eds.) (1991). Handbook of sequential armlysis. Nueva York:
Dekker.
Gibbons, R. D., Hedeker, D. R., y Davis, J. M. (1993). Estimation of effect size from a series of
experiments involving paired comparisons. Journal of Educational Statistics, 18, 271-279.
Gingerich, W. J. (1984). Meta-Analysis of Applied Time Series Data. Journal of Applied
Behavioral Science, 20, 71-79.
Glass, 6. V. (1976). Primary, secondary, and meta-analysis of research. Educational
Researcher, 5, 3-3.
Glass, G. V., McGaw, B., 3? Smith, M. L. (1981). Meta-anabms fbr social research. Beverly
Hills, CA: Sage.
Glass, G. V., y Smith, M. K. (1979). Meta-analysis of march on class size and achievement.
Educational Evafum‘ion and Policy Anabwis, 1, 2-16.
Gottman, I. M. (1981). fime—series anab'sis: A comprehensive infloductian for social
scientists. New York: Cambridge University Press.
Greenhouse, J. B., y Iyengar, S. (2009). Sensitivity analysis and diagnostics. En H. Cooper, L.
V. Hedges, y J. C. Valentine (Eds.). The handbook of research synthesis? and meta-
analysis (2' ed., p. 417-433). Nueva York: Russell Sage Foundation.
Griasom, R. 1., y Kim, J. J. (2012). Efi'ect Sizes for Research: Univariate and Multivariate
Applications. Nueva York: Routledge.
Hakstian, A. R., 3/ Whalen, T. E. (1976). A k—sample significance test for independent alpha
coefficients. tometrika, 41, 219-231.
Harbord, R. M., Decks, I. J., Egger, M , Whiting, P., y Sterne J. A. (2007}. A unification of
models for meta-analysis of diagnostic accuracy studies, Bianatmim, 8(2), 239-251.
Harbord, R. M., y Higgins, J. P. T. (2008). Meta-regrwsion in Stata. Slam Journal, 8, 493-519.
Hartung, J. (1999). An alternative method for meta-analysis. Biometrical Journal, 41, 901-906.
Hartung, J., Knapp, G., y Sinha, B. K. (2008). Statistical meta-analysis with applications.
Hoboken, NJ: Wiley.
Hasselblad, V., y Hedges, L. V. (1995). Meta-analysis of screening and diagnostic tests.
Psychological Bulletin, 117, 167-173.
Hays, W. L. (1988). Statistics (4th ed.). Filadelfia: Holt, Rinehart & Winston.
Hedges, L. V. (1981). Distribution theory for Glass's estimator ef efl‘ect size and relamd
estimators. Journal ofEducationa! Statistics, 6(2), 107-128.
Hedges, L. V. (1994). Fixed effects models. En H. Cooper, y L. V. Hedges (Eda), The
handbook ofrasearch synthesis (pp. 285-299). Nucva York: Russell Sage Foundation.
Hedges, L. V., Gurevitch, 1., y Curtis, P. S. (1999). The meta-analysis of response ratios in
experimental ecology. Ecology, 80, 1150-1156.
Hedges, L. V., y Olkin, I. (1985). Statistical methods for meta-analysis. Orlando, FL:
Academic Press.
Hedges, L. V., y Pigott, T. (2004). The power of statistical tests for moderators in meta-
analysis. Psychological Methods, 9, 426-445.
Hedges, L. V., Pustejovsky, J. E., y Shadish, W. R. (2912). A standardizes mean difference
effect size for single case designs. Research Synthesis Methods, 3, 224—239.
Hedges, L. V., y Vevea, J. L. (1998). Fixed- and random-efi'ects models in meta-analysis.
Psychologica! Methods, 3, 436-504.
Henmi, M., y Copas, J. B. (2010). Confidence intervals for random effects meta-analysis and
robustness to publication bias. Statistics in Medicine, 29, 2969-2983.
Hanson, R. K. (2008). Effect-size measures and meta-analytic thinking in counseling
psychology research. He Counseling Psychologist, 34, 601-629.
Henson, R. K., y Thompson, E. (2002). Characterizing measurement error in scores across
studies: Some recommendations for conducting ‘reliahility generalization’ studia.
MeasurementandEvaluation in Counseling and Development, 35, 113-126.
Herbison, P., Hay-Smith. 1., y Gillespie, W. J. (2006). Adjusunent of meta-analyses on the
basis of quality scores should be abandoned. Journal afCIinicaI Epidemiology, 59, 1249-
1256.
Hersen, M., y Barlow, D. H. (1976). Single-case experimental designs: Skategiesfbr studying
behavior. New York: Pcrgamon Press.
Higgins, J. P., y Altman, D. (2008). Assessing the risk of bias in included studies. En J.
Higgins, y S. Green (eds). Cochrane handbook fiJr .systenmtic refiews of interventions
5.0.}. (pp. 187-241). Chichester, UK: John Wiley 8: Sons.
Higgins, J. P. T., y Thompson, S. G. (2002). Quantifying heterogeneity in a metamalysis.
Statistics in Medicine, 21, 1539-1558.
Higgins, J. P. T., 3* Thompson, S. G. (2004). Controlling the risk of spurious findings from
meta-regression. Statistics in Medicine, 23, 1663-1682.
Higgins, J. P. T., Thompson, S. G., Decks, J. 1., y Altman, D. G. (2003). Measuring
inconsistency in meta-analyses. British MedicaIJouml, 327, 557-560.
Higgins, J. P. T., Whitehead, A., y Simmonds, M. (2011). Sequential methods for random-
efl‘ects meta-analysis. Statistics in Medicine, 30, 903-921.
Hill, C. 1., Bloom, H. S., Black, A. R., y Lipsey, M. W. (2008). Empirical benchmarks for
intclpreting effect sizes in research. Child Deveiapment Parapecmws, 2, 172-177.
Hill, L. 8., Reid, F., Morgan, J. E, y Lacey, J. H. (2010). SCOFF, the development of an
Eating Disorder Screening Questionnaire. International Journal of Eating Disorders, 43,
344-351.
Hogan, T. P., Benjamin, A., y Brezinsky, K. L. (2000). Reliability methods: A note on the
frequency of use of various types. Educational and Psychological Measurement, 60,
523-531.
Homer, R. H., Swaminathan, H., Sugai, G., y Smolkowski, K. (2009). Expanding analysis and
use of single-case research. Washington, DC: Institute for Education Sciences, U.S.
Deparlment of Education.
Hex, J. J. (2010). Multilevel analyst's. Techniques and applications. Hove: Routledge.
http:/lwww.trialsjoumal.comfcontentil 2f1l104.
Huedo-Medina, T., Sénchez—Mcca, 1., Mafln—Martinez, F ., y Botella, J. (2006). Assessing hera-
rogeneity in meta-analysis: Q statistics or 12 index? Psychological Methods, 11, 193-206.
Huitema, B. E. (2004). Analysis of interrupted time series experiments using ITSE: A critique.
Understanding Statistics, 3, 27-445.
Huizenga, H. M., Visser, I., y Dulan, C. V. (2011). Testing overall and moderator efl‘ects in
random effects meta-regression British Journal of Mathematical and Statistical
Psychalay, 64, 1-19.
Hunt, M. (1997). How science takes stock: The story of mfla-anabwis. Nueva York: Russell
Sage Foundation.
Hunter, J. E., y Schmidt, F. L. (2000). Fixed effects vs. random efibcts meta-analysis models:
Implications for cumulative research knowledge. International Journal of Selection and
Assessment, 8, 275-292.
Hunter, J. E., y Schmidt, F. L. (2004). Methods ofmem-anaiysis: correcting error and bias in
mmhfindings 2.“ed. Thousand Oaks, CA: Sage.
Jackson, D., y Riley, R. D. (2014). A refined method for multivariate meta-analysis and meta-
regression. Statistics in Medicine, 20, 541-554.
Jarde, A, Losilla, J. M., y Vives, J. (20123). Methodological quality assessment tools of non-
experimemal studies: A systematic review. Annie: de Psicalagia, 28, 617-628.
11111163, A., Losilla, J. M, y Vives, J. (2012b). Suitability of three different tools for the
assessment of methodological quality in ex post facto studies. International Journal of
Clinical and Health Psychology, 12, 97-108.
Jarde, A , Losilla, J. M., Vives, L, y Rodrigo, M. F. (2013). Q—Coh: A tool to screen the
methodological quality of cohort studies in systematic reviews and meta-analyses.
International Journal of Clinical and Health Psychology 13, 138-146.
Jfini, P., Witschi, A, Bloch, 11., y Egger, M. (1999). The hazards of scoring the quality of
clinical trials for memaanalysis. Journal of the American Medical Association, 282,
1054-1060.
Kalaian, H., y Raudenbush, S. W. (1996). A multivariate mixed linear model for meta-analysis.
Psychological Methods, 1, 227-235.
Kelley, K., y Preacher, K. J. (2012). 011 Effect Size. Psychological Methods, 17, 137-152.
Khan, K. 3., Days, 8., y Jadad, A. (1996). The importance of quality of primaxy studies in
producing unbiased systematic reviews. Archives of Internal Medicine, 156, 661-666.
Kirk, R. E. (1995). Expen'mentaf design: Procedure: for the behavioral sciences (3rd ed_).
Belmont, CA: Brooksole.
Knapp, 6., y Hartung, J. (2003). Improved tests for a random effects meta-regression with a
single covariate. Statistics in Medicine, 22, 2693-2710.
Konstantopoflos, S., y Hedges, L.V. (2009). Analyzing effect sizes: Fixed-effects models. En
H. Coop-er, LN. Hedges y J.C. Valentine (Eds), The handbook of research synthesis and
meta-analysis (2.“ ed.) (pp. 279-293). Nueva York: Russell Sage Foundation.
Koricheva, J., Gurevitch, J., y Mengersen, K. (2013). Handbook of meta-analwis in ecology
and evolution. Princeton, NJ: Princeton University Press.
Lachin, J. M. (1981). Introduction to sample size determination and power analysis for clinical
trials. Conn-oiled Clinical Hats, 2, 93-113.
Lai, T. L. (2001). Sequential analysis: Some classical problems and new challenges. Statisfica
Sinica, 11, 303-408.
Laird, N. M., y Mosteller, F. (1990). Some statistical methods for combining experimental
results. International Journal of Technology Assessment in Health Care, 6, 5-30.
Lefin, 0. G., y Montem, I. (2003). Métoa‘as de investigacién en psicolagia y educacién (3‘I ed).
Madrid: McGraw-I-Iill.
bvine, T. IL, Asada, K. J., y Carpenter, C. (2009). Sample sizes and effect sizes are negatively
comlated in meta-analyses: Evidence and implications of a publication bias against
nonsignificant findings. Communication Monographs, '76, 286-302.
Lewis, 3., y Clarke, M. (2001). Forest plots: trying to see the wood and the trees. EMU: British
Medical Journal, 322(7300), 1479-1430.
Liberati, A., Altman, D. G., Tetzlaff, J., Mulrow, C., Gatzsche, P. C., Ioannidis, J. P. A.,
Clarke, M., Devereaux, P. J., Kleijnen, J., y Moher, D. (2009). The PRISMA statement
for reporting systematic reviews of studies that evaluate health care interventions:
Explanation and elaboration. Journal of Clinical Epidemiology, 62, 61-634.
Light, R. J., y Pillemer, D. B. (1971). Accumulating evidence: procedures for resolving
contradictions among difl'erent research studies. Harvard Educational Review, 41(4),
429-471.
Light, R. J., y Pillemer, D. B. (1984). Summing up. The science of reviewing research.
Cambridge, MA: Harvard University Press.
Lipsey, M. W. (1994). Identifying potentially interesting variables and analysis opportunities.
En H. Cooper and L. V. Hedges (Eds), The handbook of research synthesis (pp. 111-
123). New York: Russell Sage Foundation.
Lipsey, M. W., y Wilson, D. B. (2001). Practical meta-analysis. Thousand Oaks, CA: Sage.
Littell, J. H., Corcoran, J., y Pillai, V. (2008). systematic reviews and meta-analysis. Oxford,
UK: Oxford University Press.
Littenberg, B., y Moses, L. E. (1993). Estimating diagnostic accuracy fmm multiple conflicting
reports: a new meta-analytic method. Medical Decision Making, 13, 313-321.
Lépez-Lépez, J. A., Botella, J., Sénchez—Meca, J., y Man'n-Martinez, F. (2013). Alternatives for
mixed-effects mam-ragession models in the reliability generalization approach: A
Simulation study. Journal of Educational and Behavioral $atistfm, 38, 443-469.
[bpez-Ibpez, J. A., Marin-Maninez, F., Sénchez-Meca, J., van den Noongate, W., y
Viechtbauer, W. (2014}. Estimation of the predictive power of the model in mixed-effects
meta-regession: A simulation study. British Jouma! of Mathematical and Statistical
Psychology, 67, 30-48.
Lépez-pu, J. A., samba-Mew, J., pez-Pina, J. A., Marin-Martina, F., Rosa-Alum, A.
1., Gémez-Conesa, A... Rubia-Aparicio, M., Garcia, D. A., y Cuesta-Barriuso. R. (2013,
septic-bra). Fiabilz'dad inter-juecas de um: escaIa para la valomcz'én de la calidad

metodolégica de lo: esmdios en meta-amilisis'. Comunicacién presentada 211 X111
Congreso dc Metodologia de las Ciencias Sociales y de la Salud, La Laguna (Tenerife).
Mme-Fina, I. A., Sénchez—Meca, 1., y Mpez—[bpez I. A. (2012). Métodos para promediar
coeficientes alfa en los estudios de generalizacién de la fiabilidad. Psicothema, 24(1),
161-166.
Lépez-Pina, J. A , Sinchez—Meca, 1., y Rosa-Alcézar, A. I. (2009). The Hamilton Rating Scale
for Deprmsion: A meta-analytic reliability generalization study. International Journal of
Clinical and Health tology, 9, 143-159.
Lu, 6., y Ades, A. E. (2004). Combination of direct and indirect evidence in mixed irealment
comparisons. Statistics in Medicine, 23, 3105-3124.
Lumley, T. (2009'). Rmeta meta-analysis. R package version 2.16. http:/ICRANR—
projecLorg/packagfimeta.
Ma, H. H. (2006). An alternative method for quantitative synthesis of single-subject researches:
Percentage of data points exceeding the median. Behavior Modification, 30, 598-617.
Macaskill, P. (2004). Empirical Bayes estimates generated in a hierarchical summary ROC
analysis agreed closely with those of a full Bayesian analysis. Journal of Clinical
Epidemiology, 57, 925-932.
Maggin, D. M., Swaminathan, H., Rogers, H. 1., O'Keeffe, B. V., Sugai, 6., y Homer, R. H.
(2011). A generalized least squares regression approach for computing efi'ect sim in
single-case research: Application examples. Jame! ofSchaaI tology. 49, 301-321.
Manolov, R., Sierra, V., Solanas, A , y Botella, J. (2014). Assessing Functional Relations in
Single-Case Designs: Quantitative Proposals in the Context of the Evidence-Based
Movement. Behavior Mody‘ication, 38(6), 878-913.
Manolov, R., 3! 80131135, A. (2008). Comparing N = 1 Effect Size Indices in France of
Aluocorrelation. Behavior Modification, 32, 860-875.
Manolov, B... y Solanas, A. (2009). Percentage of nonoverlapping corrected data. Behavior
Research Methods. 41, 1262-1271.
Marin-Mattinez, E, y Sfinchez—Meca, J. (1998). Testing for dichotomous moderators in meta-
analysis. Journal afExperimenml Education, 67, 69-81.
Martinez-Arias, M. IL, Heméndez-Lloreda, M. 1., y Hemfindez-Lloreda, M. V. (2006).
Psicametria. Madrid: Alianza editorial.
Matt, G. E., y Cook, T. D. (1994). Threats to the validity of mseamh synthesis. En H. Cooper y
L. V. Hedges (Eda). like handbook of research anthems (pp. 503-520). Nueva York:
Russell Sage Foundation.
Matt, G. E., y Cook, T. D. (2009). Threats to the validity of generalized inferences. En H.
Cooper, L. V. Hedges 5? J. C. Valentine (Eds.). The handbook of research syntham and
meta-analysis (2.a ed., pp. 537-560). Nueva York: Russell Sage Foundation.
McLeod, B. D., y Weisz, J. (2004). Using dissertations to examine potential bias in child and
adolescent clinical trials. Journal of Consulting and Clinical Psycholoy, 72, 235-251.
hfiller, W., y Elboume, P. (2002). Mesa Grande: A methodological analysis of clinical trials of
Ireahnents for alcohol use disorders. Addiction, 9?, 265-277.
Moher, D., Cook, D. J., Eastwood, S., Olkin, 1., Rennie, D., y Stroup, D. F. (1999). Improving
the quality of reports of meta-analyses of randomized controlled trials: the QUORUM
stalement. Quality of Reporting of Meta-analyses. Lancet, 354, 1896-1900.
Moher, D., Jadad, A. R., Nichol, (3., Penman, M., Tugwell, P., y Walsh, S. (1995). Assessing
the quality of randomized controlled trials: An annotated bibliography of scales and
checklists. Controlled Clinical Trick, 16, 62-73.
Moher, D., Jones, A., y Lepage, L. for the CONSORT Group (2001). Use of the CONSORT
statement and quality of reports for randomized trials: A comparative before-and-afber
evaluation. Journal of the American Medical Association, 285, 1992-1995.
Maker, [1, Liberati, A., Tetzlafi, 1., Altman, D. (3., The PRISMA Group (2009). Preferred
reporting items for systematic reviews and meta-analyses: The PRISMA statement.
Journal of Clinical Epidemiology, 62, 1006-1012.
Moher, D., Schulz, K. F., Altman, D. G., for the CONSORT Group (2001). The CONSORT
statement: revised recommendations for improving the quality of reports of parallel group
randomised trials. Journal afrhe American Medical Association, 285, 1987-1991.
Morgan, 1. F., Reid, E, y Lacey, J. H. (1999). The SCOFF questionnaire: assessment of a new
screening tool for eating disorders. British Medicine Jaumai, 319, 1467-1468.
Morris, S. B. (2000). Distribution of the standardized mean change effect size for mam-analysis
on repeated measures. British Journal of Mathematical and Stanistical Psychaiay, 53,
17-29.
Mon-is, S. B. (2008). Estimating effect sizes from pretest-posttest-control group designs.
Organizational Research Methods, 11, 364-386.
Morris, S. B., y DeShon, R. P. (1997). Contacting effect sizes computed from factor analysis of
variance for use in meta-analysis. Psychological Methods, 2, 192-199.
Morris, S. B., y DeShon, R. P. (2902). Combining effect size estimates in meta-analysis with
repeated measures and independent-group designs. Psychological Methods, ‘7, 105-125.
Moses, L. E., Shapiro, D., 3! Littenberg, B. (1993). Combining independent studies of a
diagnostic test into a summary ROC curve: Dam-analytical approaches and some
additional considerations. Statistics in Medicine, 12, 1293-1316.
Mufiiz, J. (1998). Teofia chisica de 103 tests (3." ed). Madrid: Pirémide.
Murphy, K. R. (Eds) (2003). Vaiidig’ generalization: A cfinhal review. Mahwah, NJ: Erlbaum.
Newcombe, R. G. (2012). Confidence intervals fiJr proportions and related m m ofqfl'ect
size. CRC Press.
Nook, M. K., Jam's, I. B., y Wedig, M. M. (2008). Research Designs. En A. M. Nezn y C. M.
Nezu (eds): EWdence-Based Outcome Research. A practical guide to conducting
randomized controlled trials for pmhasaciai interventions (pp. 201-213). Nueva York:
Oxford University Press.
Nosek, B. A., Spies, J. R., 5! Motyl, M. (2012). Scientific utopia II. Restructuring incentives and
practices to promote truth over publishability. Perspectives on Psychological Science, 7,
615-631.
O’Brien, P. C., y Flaming, T. R. (1919). A multiple wiring pmcedune for clinical trials.
Biometrics, 35, 549-556.
O’Rourke, K. (2007). An historical perspective on meta-analysis: dealing quantitatively with
varying study results. Journal ofthe Raya! Society of Medicine, 100, 579-582.
Olivo, 5., Macedo, L. G., Gadotti, I. C., Fuentes, 1., Stanton, T., y Magee, D. J. (2008). Scales
to assess the quality of randomized controlled trials: a systematic review. Physical
Therapy, 88(2), 156-175.
Olkin, I. (1990). History and Goals. En K. W. Wachter y Straf, M. L. (eds): Thefidure afmeta-
mb’sis. Nueva York: Russell Sage Fomdation.
Olkin, I. (1995). Statistical and theoretical considerations in meta-analysis. Journal of Clinical
Epidemiology 48, 133-146.
Orwin, R. G. 1983. A fail-safe N for effect size in meta-analysis. Jamal of Educational
Statistics, 8, 157-159.
Panic, N., Leoncini, E., de Belvis, G., Ricciardi, W., y Boocia, S. (2013). Evaluation of the
endorsement of the merreed Reporimg items for Systematic Reviews and Meta-
Analysis (PRISMA) statement on the quality of published systematic review and meta-
analyses. PLOS 0M. 8(12). doi: 10.1371fjournal.pone.0083138.
Pardo, A, y Ruiz, M. A. (2012). Miller's d2 dams en Ciencias Sociales y de la Saiud III.
Madrid: Sintesis.
Pardo, A, Ruiz, M. A, y San Martin, R. (2009): Anéllisis :13 Data: can Cicadas Socials: y de la
SaludI, Madrid: Sintesis.
Pardo, A., y San Martin, R. (2010): AME“? dc Dams en Ciencias Saddles y de la Salud 11’,
Madrid: Sintesis.
Parker, R. 1., y Hagan-Burke, S. (2007). Useful effect size interpretations for single-case
research Behavior Therapy, 38, 95-105.
Parker, R. I., Hagan-Burke, 3., y Vannest, K. I. (2007). Parent of all non-overlapping data
(PAND): An altemative to PND. Journal afbpecial Education 40, 194-204.
Parker, R. 1., Vannest, K. 1., y Brown, L. (2009). The “improvement rate difference” for single-
case research. Exceptional Children, 75, 135-150.
Parsonson, B. 5., y Baer, D. M. (1992). The visual analysis of data, and current research into
the stimuli controlling it. En T. R. Kmbochwill y J. R. Levin (BdsJ, Single-case research
design and analysis: Nev directionsfbr psycholoy and education (pp. 15-40). Hillsdale,
NJ: Lawrence Erlbaum Associates.
Pedhazur, E. I. (1997). Multgvle regression in behavioral research (3.a oi}. Orland, FL: Holt,
Rinehart & Winston.
Pigott, T. (2012). Advances in meta-anabm's. Springer.
Pogue, J. M., y Yusuf, S. (1997). Cumulating Evidence from Randomized Trials: Utilizing
Sequential Monitoring Boundaries for Cumulaxive Meta-Analysis. Controlled Ciinical
Trials, 18, 580-593.
Popper, K R. (1985). La Idgica de [a investigacién cientifica. Editorial Tecnos.
Proschan, M. A., Wittes, J. T., y Lan, K. K. (2006). Statistical monitoring of clinical trials.
Springer.
R Development Core Team (2010). R: A Language and Environmentfor Statistical Cumming.
R Foundation for Statistical Computing, Vienna, Austria. ISBN 3-900051-07-0. URL
http:llwww.R-project.org.
Raudenbush, S. W. (1994). Random effects models. En H. Cooper y L.V. Hedgw (Eds.), The
handbook ofrasearch ganthesis (pp. 301-321). Nueva York: Russell Sage Foundation.
Raudenbush, S. W. (2009). Analyzing effect sizes: Random-effects models. En H. Cooper, LV.
Hedges y J .C. Valentine (Eds.), The handbook of research synthesis and meta-analytic
(2! ed.) (pp. 295-315}. Nueva York: Russell Sage Foundation.
Raudenbush, S. W., Becker, B. 1., y Kalaian, H. (1988). Modeling multivariate effect sizes.
Psychoiagical Bulletin, 102, 111-120.
Reitsma, J. B., Glas, A. S., Rutjes, A. W., Scholten, R. 1., Bossuyt, P.M., y Zwindelman A. H.
(2005). Bivariate analysis of sensitivity and specificity produces informative slmnnary
measures in diagnostic reviews. Journal of Clinical Epidemialay, 58, 982-990.
Refiew Manager (RevMan) (2008) [Computer program]. Version 5.0. Copenhagen: The Nordic
Cochrane Centre, The Cochrane Collaboration.
Rhodas, W. (2012). Meta-analysis: An introduction using regression models. Evaluation
Review, 36, 24-71.
Ried, K. (2006). Interpreting and understanding meta-analysis graphs: A practical glide.
Australian Fmib; Physician, 35(8), 635-638.
Riley, R. D., Kmer, 1., Bland, M., Thijs, L., Stamen, J. A., Wang, J., Gueyffier, F., 3; Decks,
J. J. (2013). Meta-analysis of randomized trials with a continuous outcome according to
baseline imbalance and availability of individual participant data. Statistics in Medicine,
32, 2747-2766.
Riley, R. D., Lambert, P. C., Stamsen, I. A., Wang, J., Gueyflier, F., Thijs, L., y Boutitie, F.
(2008). Meta-analysis of continuous outcomes combining individual patient data and
aggregate data. Statistics in Medicine, 27, 1870-1893.
Rodriguez, M., y Maeda, Y. (2006). Meta-analysis of coefficient alpha. Psychological Methods.
11(3), 306-322.
Rosenberg, M. S. (2005). The file-drawer problem revisited: A general weighted method for
calculating fail-safe numbers in Meta-analysis. Evolution, 59, 464-468.
Rosenberg, M. S., Adams, D. C., y Gurevitch, J. (1999). MemWin: Statistical safiware for
meta-analysis with resampling tests (V cm. 2.0). Sunderland, MA: Sinauer Associates.
Rosenberg, M. S., Adams, D. C., y Gurevitch, J. (2000). MetaWin: Statistical soflware for
meta-analwis Vem. 2.0. Sunderland, MA: Simmer Associates, Inc.
Rosenthal, R. (19913). Meta-analytic procedures for social research (ed. rem). Newbury Park,
CA: Sage.
Rosenthal, R. (19911:). Quality-weighting of studies in meta-analytic research. Psychotherapy
Research, 1, 25-28.
Rasenthal, R. (1994). Parametric measures of effect size. En H. Cooper and L. V. Hedges
(Eds.), The handbook of research synthesis (pp. 231-244). Nueva York: Russell Sage
Foundation.
Rosenthal, R. (1995). Writing meta-analytic reviews. Psychological Bulletin, 18, 183-192.
Rosenthal, R. 1979. The “file drawer probl-” and tolerance for null results. Psychological
Bulletin, 86, 638-641.
Rosenthal, R., Roanow, R. L., y Rubin, D. B. (2000). Comm and fleet sizes in behafiaural
research: A car-relational approach. Cambridge, RU: Cambridge University Press.
Rosenthal, 11., y Rubin, D. B. (1978). Interpersonal expectancy effects: the first 345 studies.
The Behavioral and Brain Sciences, 1(3), 37?-386.
Rothstein, H. IL, Lortie, C. J., Stewart, G. B., Koricheva, 1., y Gurevitch, J. (2013). Quality
standards for research syntheses. En J. Koricheva, J. Gurevitch y K. Mengersen (Eds.),
Handbook of meta-army“: in Ecology and Evolution (pp. 323-338). Princeton, NJ:
Princeton University Press.
Rothstein, H. R., Sutton, A. J., y Borenstein, M. (Eds.) (2005). Publication bias in meta-
mbrsis: Prevention, assessment, and atymtmenm. Nueva York: Wiley.
Rutter, C. M., y Gaisonis, C. A. (1995). Regression methods for meta—analysis of diagnostic
test data. Academic Radiology, 2 (Suppl 1), 348-56.
Rutter, C. M., y Gatsonis, C. A. (2001}. A hierarchical regression approach to meta-analysis of
diagnostic test accuracy evaluations. Statistics in Medicine, 20, 2865-2884.
Salami, G., Ade-s, A. E., y Ioannidis, J. P. A. (2011). Graphical methods and numerical
summaries for presenting results fi-om multiple-fleatment meta-analysis: An overview
and tutorial. Journal of Clinical Epidemialay, 64, 163-171.
Salami, 6., Higgins, I. P. T., Ades, A. 1-3., y Ioannidis, J. P. A. (2008). Evaluation of networks
of randomized trials. Statistical Methods in Medical Research, 17, 279-301.
Sénchez-Meca, J. (1999'). Meta-anilisis para la investigacién cientifica. En F. J. Sarahia—
Sénchez (Could), Metodaiagia para la inmtigacidn en mdrketing y direccidn de en:-
presas (pp. 173-201). Madrid: Pirfimide.
Sinchez—Meca, J., y Ato-Garcia, M. (1989). Meta-Maia: una alternativa metodolégica a [as

revisiones tradicionales de la investigacifin. En J. Amau y H. Carpintero (Eds), 'D'atado
de Psicolagz'a General Vol. I (pp. 617-669). Madrid. Alambra.
Sinchez—Meca, J., Baruch, R. F., Petrosino, A., y Rosa, A. I. (2002). La Colabm'acién
Campbell y la practica basada en la evidencia. Papefes del Psicdloga, 83, 44-48.
Sinchez-Meca, J ., y Botella, J. (2010). Revisiones sisteméticas y meta-anilisis: Hemmienlas
para la practical profesional. Papefas def Psicéloga, 31, 7-17.
Sinchez—Meca, J., Lépez-Lfipez, J. A, y Lépez-Pina, J. A. (2013). Some recommended
statistical analytic practices when reliability generalization studies are conducted. British
Journal of Mathematical and Statistical tologv, 66, 402-425.
Sinchez—Meca, J., y Lépez-Pina, J. A. (2008). El enfoque meta-analitico de generalizacién de
la fiahilidad. Accidn Psicotégica, 5(2), 37-64.
Sinchez-Meca, J., Lépez-Pina, J. A , y Lépez-pez, J. A. (2008). Una revisién de los esmdios
meta-analiticos dc generalizacién de la fiabilidad. Est-rims d2 Psicologz'a, 2(1), 110-121.
Sénchez—Meca, J., Lépez-Pina, I. A, y Lépez-Lépez, I. A. (2009). Generalizacién de la
fiabilidad: Un cnfoque meta-analitico aplicado a la fiabilidad. Ftls'ioterapia, 31, 262-270.
SincheZoMeca, J ., y Marin-Martinez, F. (1997). Homogeneity tests in meta-analysis: A Monte
Carlo comparison ofstatistical power and Type I error. Quality & Quantigi, 31, 385-399.
Sinchez—Meca, J., y Marin-Martinez, F. (1998). Testing continuous moderators in meta-
analysis: A comparison of procedures. British Journal of Mathematical and Statistical
Psycholoy, 51, 311-326.
Sénchez—Meca, J., y Marin-Martinez, F. (2008). Confidence intervals for the overall effect size
in random-efi'ects meta-analysis. Psychological Methods, 13, 31-48.
Sinchez-Meca, J., y Marin-Martinez, F. (2010). Meta-analysis. En P. Peterson, E. Baker 3! B.
McGaw (Eds.), International Encyclopedia of Education (3.a ed.), volumen 7 (pp. 274-
282). Oxford: Elsevier.
Sinchez—Meca, J., Main-Martinez, E, y Chasm-Moscow, S. (2003). Effect-size indices for
dichotomized outcomes in meta-analysis. Psychological Methods, 8, 448-467.
Sénchez—Meca, J., Marin-Martinez, E, y Huedo, T. (2006). Modelo de efectos fijos y modelo
dc efectos aleatorios. En J. L. R. Martin, A. Tobias 3: T. Swans (Guards), Revisiones
Sicteméticas en Ciencias de la Vida (pp. 189-204). Toledo: FISCAM.
Sinchez-Meca, J., Marin-Martinez, E, y Lépez-Lépez, J. A. (2013). Metodologia del meta-
anfilisis. En F. J. Sarabia (CoordJ, Métodos de investigacién social y de Ia empresa (pp.
447-470). Madrid: Pirémide.
Sinchez-Meca, J., Rosa-Mam, A. 1., Iniesta-Sepfilveda, M., y Rosa-Alcézar, A. (2014).
Psychological and pharmacological treatment of pediatric obsessive-compulsive disorder:
A meta-analysis. Journal afAnxiety Disorders, 28, 31-44.
SAS Institute Inc. (2008). The SAS system for Windows. Version 9.2 Cary, NC: SAS Institute
Inc.
Saunders, L., Soomro, (3., Buckingham, J., Jamtvedt, 6., y Raina, P. (2003). Assessing the
meflmdological quality of 1 1 0 m d intervention studies. Westem Journal of
Nursing Research, 25, 223-237.
Schmidt, F. L. (2010). Detecting and correcting the lies that data tell. Perspectives on
Psychological Science, 5, 233-242.
Schmidt, F. L., y Hunter, J. E. (1977). Development of a general solution to the problem of
validity generalization. Journal apph'ea' Psychology, 62, 529-540.
Schmidt, F. L., y Hunter, J. E. (1997). Eight common but false objections to the discontinuation
of significance testing in the analysis of research data. En L. L. Harlow, S. A. Mulaik y J.
H. Steiger (eds): What if there were no significance tests? (pp. 37-64). Mahwah, NJ:
Lawrence Erlbaum Associates.
Schmidt, F. L., y Hunter, J. E. (2015). Methods afmeta—anabsis: Camcting ermr and bias in
research mthesis (3.“ ed.) Los Angeles, CA: Sage.
Schmidt, F. L., Le, 11., y 011, 1-8 (2009). Correcting for the distorting effects of study artifacts
in meta-analysis. En H. Cooper, L. V. Hedges y I. C. Valentine (Eds.). The handbook of
research synthesis and meta-analysis (2.a ed.) (pp. 317-333). Nueva York: Russell Sage
Fomdation.
Schmidt, F. L., Oh, I.-S., y Hayes, T.L. (2009). Fixed- versus random-effects models in meta-
analysis: Model properties and an empirical comparison of differences in results. British
Journal ofMathematica! and Statistical Psychology, 62, 97-128.
Schriger, D. L., Altman, D. G., Vetter, J. A., Heafiler, T., y Moher, D. (2010). Forest plots in
reports of systematic reviews: a cross-sectional study reviewing current practice.
International Journal opidemioIogv, 39(2), 421-429.
Schulz, K. F., Chalmers, 1., Hayes, R. 1., y Altman, D. G. (1995). Empirical evidence of bias.
Dimmsions of Methodological quality associated with estimates of treatment efi'ects in
controlled trials. Journal of the American Medical Association, 273, 408-412.
Schulze, R. (2004). Mem-anabwis: A comparison of approaches. Hogrefe & Huber Pub.
Schulze, R. (2007). The state and the art of meta-analysis. Zeitwchnfiffir Psychologie/Joumal
of Psychology, 215, 87-89.
Schwamer, G. (2010). Meta: Meta-analysis with R (R package version 1.6-0). httpzla’CRANR-
projectory’packagFmeta.
Scruggs, T. E., Mash-opieri, M. A., y Caste, G. (1987). The quantitative synthesis of single-
subject research. Methodology and validation. Remedial and Special Education, 8, 24-33.
Shadish, W. R., Cook, T. D., y Campbell, D. T. (2002). Experimental and quasi-experimental'
design for generalized causal inference. Boston. Houghton Mifilin.
Shadish, W. FL, 34* Haddock, D.M. (2009). Combining estimates of effect sizes. En H. Cooper,
L. Hedgw y J.C. Valentine (Eds.), The handbook of research synthais and meta-anabms
(2.“ edJ (pp.557- 578). Nueva York: Russell Sage Foundation
Shadish, W. R., Robinson, L., 3; Lu, C. (1999). ES: A comder program for qfi'ect size
calculation. St. Paul, MN: Assessment Systems Corporation.
Shamliyan, T., Kane, R. L., y Dickinson, 5. (2010). A systematic review of tools used to asses:
the quality of observational studies that examine incidence or prevalence and risk factors
for diseases. Journal afCiinical Epidemiafogy, 63(10), 1061-1070.
Sharpe, D. (1997). Of applm and oranges, file drawers and garbage: Why validity issues in
meta-analysis will not go away. Ch'uical Psychology Review, 17, 881-901.
Shea, B. J., Router, L. M., Peterson, 1., Boers, M., Andetsson, N., Ortiz, Z., Ramsay, T., Bai,
A, Shukla, V. K., y Grimshaw, J. W. (2007). External validation of a measurement tool
to assess systemaxic reviews (AMSTAR). PLoS ONE, 2( 12): e1350.
Shea, B. 1., Dubé, C., y Moher, D. (2001}. Assessing the quality of reports of systematic
reviews: The QUORUM statement compared to other tools. En M. Egger, G. D. Smith y
D. G. Altman (EdsJ, Systematic reviews in health care: Meta-mama: in context (pp.
122-139). BM] Books.
Shea, B. 1., Grimshaw, J. M., Wells, G. A, Boers, M., Andersson, N., Hamel, C., Porter, A. C.,
Tugwell, P., Moher, D., y Router, L. M. (2007). Development of AMSTAR: A
measurement tool to assess the methodological quality of systematic reviews. BMC
Medical Research Methodology, 7(10), doi:10.l 1861‘1471-2288-7-10.
Shea, B. 1., Hamel, C., Wells, G. A., Router, L. M., Kristjansson, E., Grimshaw, J. W., Henry,
D. A, y Boers, M. (2009). AMSTAR is a reliable and valid measurement tool to asues
the methodological quality of systematic reviews. Journal of Ch'm'ca! Epidemiafagy, 62,
1013-1020.
Shuster, J. J. (2010). Empirical vs natural weighting in random effects meta-analysis. Staflrflm
in Medicine, 29, 1259-1265.
Sidik, K., y Jonkman, J. N. (2005). A note on variance mfimation in random effects mem-
regression. Journal afBiophamaL-eutical Statistics, 15, 823-838.
Siegmund, D. (1985). Sequential anabm's: Tests and confidence intervals. Nueva York:
Springer.
Siegmund, D. (1994). A retospective of Wald’s sequential analysis: Its relation to challenge-
point detection and sequential clinical trials. En S. S. Gupta 5! J. 0. Berger (Edi),
Statistical decision theory and related topics (pp. 9-33). Nueva Yotk: Springer.
Slavin, R. E. (1986). Best-evidence synthesis: An alternative to meta-analytic and traditional
reviews. Educational Researchers. 15, 5—11
Slavin, R. E. (1995). Best evidence synthesis: An intelligent alternative to meta-analysis.
Journal ofCIinfca! Epidemiology, 48, 9-18.
Slavin, K, y Smith, D. (2009). The relationship between sample sizes and effect sizes in sys-
tematic reviews in education. Educational Evaluation and Policy Analysis, 31, 500-506.
Smith, M., 3! Glass, G. V. (1977). Meta-analysis of psychotherapy outcome studies. American
Psychologist, 32, 752-760.
Soler—Ferreria, F., Sinchez-Meca, J., Rpm-Navarro, J. M., y Navarro-Mateo, F. (2014).
Neuroticismo y trastomo par estrés postraumfitioo: U11 estudio meta-audition. Review
Espafiola de SaiudPfiblica, 88, 17-36.
Sterling, '1". D. (1959). Publication decisions and their possible effects on inferences drawn
from tests of significance—0r vice versa. Journal ofthe American statistical association,
54(285), 30-34.
Sterne, J. A. C. (Ed.) (2009). Meta-unabasis in Stata: An undated collection firm: the State
Journal. College Station, TX: Stata Prm.
Sterne, I. A. (3., Gavaghan, D., 3: Egger, M. (2000). Publication and related bias in Meta-
analysis: power of statistical tests and prevalence in the literature. Journal of Clinical
Epidemiology, 53, 1 1 19-1 129.
Stewart, G. B., Altman, D. G., Askie, L. M., Daley, L, Simmonds, M. C., y Stewart, L. A.
(2012). Statistical analysis of individual participant data meta-analyses: A comparison of
methods and recommendations for practice. PLoS ONE, 7(10): 546042.
Stewart, L. A, y Tierney, J. F. (2002). To IPD or not to IPD? Advantages and disadvantages of
systematic reviews using individual patient data. Evaiuation and the Health Prafiessions,
25, 76-97.
Stewart, L. A., Tierney, J. E, y Clarke, M. (2008). Reviews of individual patient data. En I. P.
T. Higgins y S. Green (Eds.), Cochrane handbookfor systematic reviem' an intervention:
(pp. 547-558). Chichesuer, UK: Wiley.
Stoufl'er, S. A., Suchman, E. A., DeWinney, L. (3., Star, 8. A, 5! Williams, R. M. (1949). The
American soldier: mfmflnen: during army life {vol 1). Princeton, N. 1., Princeton
University Press.
Stroup, D. F., Berlin, 1. A... Morton, S. C., Olkin, 1., Williamson, G. D., at al. (2000). Meta-
annlysis of observational studias in epidemiology: a pmposal for reporting. Journal of the
American Medical Association, 283, 2008-2012.
Strube, M. J. (2006). SNOOP: A program for demonstrating 1116 consequences ofprematlme and
repeated null hypothesis testing. Behavior research methods, 38, 24-27.
Sutton, A. L, Abrams, K. R., Jones, D. R., Sheldon, T. A., y Song, F. (2000). Methods fin-
Meta—anabzsis in Medical Reseamh. Chichester, RU: Wiley.
Sutton, A. J., y Higgins, J. (2008). Recent developments in meta-analysis. Statistics in
medicine, 27, 625-650.
Swem, J. A , Dawes, R M., y Monahan, J. (2000). Psychological Science on improve
diagnostic decisions. Psychological Science in the Public Interest, 1(1), 1-26.
Taylor, M. J., 3; White, K. R. (1992). An evaluation of alternative methods for computing
standardized mean difference effect size. Journal ofExperimenta! Education, 61, 63-72.
Terrin, N., Schmid, C. H., Law, 1., y Olkin, I. (2003). Adjusting for publication bias in the
presence of hetcmgeneity. Statistics in Medicine, 22, 2113-2126.
Thompson, 3., y Vacha-Haase, T. (2000). Psychomcuics is datamcu'ics: The test is not reliable.
Educationa! and Psychological Measurement, 60, 174-195.
Tobias, A, Catalé-Lépaz, E, y Roqué, M. (2014). Dual-rolls de una hoja Excel para
metaanélisis dc comparaciones indirecms y mixtas. Revista Espafiala de Salud MIR-a,
88, 5-15.
Turok, D. K., Espey, E., Edelman, A. B., Lotke, P. 5., Lathrop, E. H., Teal, S. B., Jacobson, J.
C., Simonsen, S. E., y Schulz, K. F. (2011). The methodology for developing a
prospective meta-analysis in the family planning community. Trials, 12(104).
Vacha-Haase, T. (1998). Reliability generalization: Exploring variance in measurement error
affecting score reliability across studies. Educational and Psychological Mammal.
58, 6-20.
Vacha-Haase, T., y Thompson, B. (2011). Score reliability: A retrospective look back at 12
years of reliability generalinfion studies. Measurement and Evaluafion in Counseling
andDeveIopment, 44, 159-168.
Valenstein, P. N. (1990). Evaluating diagnostic tests with imperfect standards. American
Journal ofClinica! Pathology, 93, 252-258.
Valentine, J. C. (2009'). Judging the quality of primary research. En H. Cooper, L. V. Hedges y
I. C. Valentine (eds.), The handbook of research synthesis, (23‘ ed.) (pp. 129-146). Nueva
York: Russell Sage Foundation.
Valentine, J. C., 3; Cooper, H. (2003). Effect size substfive interpretation guidelines: Issuas‘ in
the interpretation ofefiect sizes. Washington, DC: What Works Clearinghouse.
Valentine, J. C., 3? Cooper, H. (2008). A systematic and tansparent approach for assessing the
methodological quality of intervention effectiveness research: The Study Design and
Implementation Asmsment Device (Stud).r DIAD). Psychological Methods, 13, 130-149.
Valseochi, M. G., y Mason, G. (1996). A new challenge in clinical research in childhood ALL:
The prospective metamalysis su'ategy for intergroup collaboration. Annals of Oncalag},
7, 1005-1003.
Van den Nom'tgabe, W., y Onghena, P. (2003). Hierachical linear models for the quantitative
integration of effect sizes in single-case march. Behavior Research Methodv,
Mama, 6’: Computers, 35, 1-10.
Van den Nourtgate, W., 3: Onghena, P. (2003). A multilevel meta-analysis of single-subject
experimental design studies. Evidence-Based Commicatian Assessmnt & Intervenfl'on,
2, 142-151.
Van der Tweel, I. (2010). Sequential meta-analysis: an efficient decision-making tool. Clinical
Trials, 7, 136-146 .
Van Houwelingen, H. C., Arends, L. IL, 3! Stijnen, T. (2002). Advanced methods invmeta—
analysis: multivariate approach and meta-regression. Statistics in Medicine, 21, 589-624.
Verhagen, A. P., de Vet, H. C. W., de Bie, R. A, Boers, M., y van den Brandt, P. A. (2001).
The art of quality mment of RCTs included in systematic reviews. Journal ofCIinicaa‘
Epidemiology, 54(7), 651-654.
Vevea, J. L., 5! Woods, C. M. (2005). Publication Bias in Research Synthesis: Sensitivity
Analysis Using A Priori Weight Functions. tolagical Methods, 10(4), 428-443.
Viechtbauer, W. (2005). Bias and efficiency of meta-analytic variance estimators in the
random-circus model. Journal ofEducaflonaI and Behavioral Statistics, 30, 261-293.
Viechtbauer, W. (2010a). Conducting meta-analyses in R with the metafor package. Journal of
Statistical Sofiware, 36(3), 1-48.
Viechtbauer, W. (20101)). Metafor: Meta-Analysts Package for R. R package vasion 1.4—0,
URL httpsCRANR-projectorglpackagFmemfor.
Viechtbauer, W., Lépez-Lfipez, J. A, Sinchez—Meca, 1., y Mafln-Martinez, F. (en prema). A
comparison of procedures to test for moderators in mend-efiects meta-regession
models. Psychologies! Methods.
Wachter, K. W., 3! Stat; M. L. (Eds). (1990). The fitture of mera-anabmic. Russell Sage
Fonmdation.
Wald, W. (1947). Sequential anabwis. Nueva York: Dover.
Walter, S. D., Irwig, L., y Glasziou, P. P. (1999). Meta-analysis of diagnostic tests with
imperfect reference standards. Journal of Clinical Epidemiology, 52 (10), 943-951.
West, 8., King, V., Carey, T. S., Lohr, K. N., McKay, N., Sutton, S. E, y Lux, L. (2002, Abril).
Systems to rate the strength of scientific evidence. Evidence ReporUTechnology
Assessment No. 47 (Prepared by the Reseamh Triangle Instimte—University of North
Carolina Evidence-based Practice Center under Contract No. 290-597-0011). AHRQ
Publication No. 02-E016. Rockville, MD: Agency for Healthcare Research and Quality.
Wetherill, G. B., y Glazebrook, K. D. (1986). Sequential mthodv in statistias'. Londres:
Chapman & Hall.
White, I. R. {2009). Multivariate random-effects meta-analysis. Stata Jamal, 9, 40-56.
White, I. R. (2011). Multivariate random-effects meta-regression: Updates to mrvmeta. State
Journal, 11, 255-270.
Whitehead, A. (1997a). The Design and Anabmls afSequentz‘aI Clinical Maris, Refised second
edition. Wiley, Chichester, 1997.
Whitehead, A (1997b). A prospectively planned cumulative menu-analysis applied to a sefiw
of concurrent clinical trials. Statistics in Medicine, 16, 2901-2913.
Whitehead, A. (2002). Meta-analysis ofcontrolled clinical trials. Chichaster, RU: Wiley.
Whiting, P., Rutjes, A. W. 8., Dinnes, 1., Reitsma, J. B., Bossuyt, P. M. M., y Kleijnen, J.
(2004). Development and validation of methods for assessing the quality of diagnostic
accuracy studies. Health Technology Assessment, 8(25).
Wilcox, R. R. (2006}. Graphical methos for assessing effect size: Some alternatives to Cohen’s
d. Journal of Experimental Education, 74, 353-367.
Winer, B. J. (1971). Statistical princgplas in experimental design (2.a ed.) Nueva York:
McGraw-Hill.
Wolery, M., Busick, M., Reichow, B., y Balton, E. E. (2010). Comparison of overlap methods
for quantitatively synthesizing single subject data. Jmal affipecial Education, 44, 18-
28.
Wolf, F. M. (1986). Meta-unabsis. Beverly Hills, CA: Sage.
Wortman, P. M. {1983). Evaluation much: a Modulogical perspective. Annual review of

psychology, 34, 223-260.
Wright, R. D., y Ward, L. M. (2008}. Ofienting of attention. Nueva York: Oxford University
Press.
Ximénez, C., y Ravuelta, J. (2007). Extending the CLAST sequential rule to one-way ANOVA
under group sampling. Behavior Research Methods, 39, 86-100.
Yates, S. L., Morley, 8., Eccleston, C., 3: Williams A. C. de C. (2005). A scale for rating the
quality of psychological trials for pain. Pain. 11?, 314-325.
Zamora, 1., Abmira, V., Muriel, A., Khan, L, y Coomamsamy, A. (2006). Meta-Disc: a 501%-
ware for meta-analysis of test accuracy data. BMC Medical Research Methodology, 6, 31.

Press.

Press.

Meta-Análisis en Ciencias Sociales y de La Salud - Juan Botella Julio Sánchez Meca

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Meta-Análisis en Ciencias Sociales y de La Salud - Juan Botella Julio Sánchez Meca

Cargado por

Copyright:

Formatos disponibles

Meta-anélisis

en ciencias sociales y de la salud

Reservados todos los derechos. Fsré prohibido, bajo las sanciones

6 Juan Botella Ausina y Julio Sinchez Meca

Impreso en Espaﬁa - Printed in Spain

1. El contexto del meta-anilisls ................................................................................ 13

2. Una métrica comﬁn: indices de tamaﬁo del efecto ............................................. 21

3. Estimacién combinada y heterogeneidad .......................................................... 65

3.3.1. Elementos nucleares ................................................................. 76

4. Anilisis de moderadores cualitatlvos ........................................................... 93

5. Anilisis de moderadores conﬁnuos: meta-regresién .................................. 129

6. Meta-anéﬁsis y psicometria ........................................................................... 161

6.3.2. Procedimientos de integracién meta-analitica ......................... 181

7. Meta-anilisis en campus especiales.............................................................. 187

8. Validez del meta-anélisis............................................................................... 207

9. Topicos especiales........................................................................................... 233

E1 enorme crecimiento que la investigacién cientiﬁca experimentﬁ ttas 1a Segunda

buscar asesoramiento en la realizacién de un meta-anélisis. También ellos podrén

E1 elemento més caracteristico del proceso de generacién dc conocimiento cientiﬁco

1.1. Nota histérica

inversos de sus varianzas, lo que resolvia la violacién del supuesm de igualdad de

1.2. Objetivos y caracteristicas del meta-anélisis

1.3. Fases en su aplicacién

a) Formulacién del problem. Se trata dc traducir un enunciado, muchas veces

moderadamente expansiva. Todo lo que en esta fase no se codiﬁque y

cuantitativo que los exprese en una misma métrica. Como ya hemos

Estadzistica = Tamaﬁa del x Tamaﬁo

En esta expresién se condensa la esencia de la formulacién general de los

dondc 21.1112 es cl valor dc la distribucién normal tipiﬁcada correspondientc a1 pementil

l Enestecapituloemplearemos elbérminoviparareferimos alavari-ndel esﬁmadordeunTB. Encapi—

2.1. Indices basados en diferencias de medias

2.1.1. Diferencia de medias ﬁpiﬁcada

mientras que su estimador, segﬁn fue deﬁnido por Cohen (1988) as

at: XI}?! [2.4]

donde S es el estimador de a, que se obtiene mediante uua ponderacién de las va-

$3: ("1—1)'S12+(”2_1)'Szz [25]

A veces sc tienen indicios suﬁcientes (o la certeza) dc quc las varianzas pobla-

En el caso de un diseﬁo de dos gmpos independientes los grades de libertad son

d = c(gl)- X135 [2.7]

Esta fbrmula represenm e1 indice dc TE mﬁs utilizado en MA para integrar estu-

La fauna més directa de obtenerlo para un estudio pﬁmario a localizar en el

21:72’5 fz=65,3 §_ {49-1232+69-15,42 _142

1:19 =¢. l + i [2.9]

las qua permiten obtener d a partir de la informacién estadistica habimalmente

2.1.2. Diferencia de medias directa

A pesar dc lo expuesto en cl apartado anterior, en algunas ocasiones puede rcsultar

”D = LRZ) . 5’2 [112]

Veamos 1m ejemplo, que se reﬁere a 105 kilos perdidos en un programa de inter-

1?, =14,2 f2 =1,5 D=l4,2—l,5 =12;

nl=30 n2=30 Vo-§+§-,

Una diferencia dc medias D = 12,7 indica que en el grupo experimental 1a reduc-

2.1.3. Gambia media tipiﬁcado

dc! = ((3!) . M [2.13]

Morris y DeShon (2002) derivaron la férmula para estimar la varianza de este

Sig =Jsjn+sjm—2-r-Sm-Sm [2.16]

Sag, = 5- 2(1- r) [2.17]

siendo S 1a desviacién tipica del pret'mt y dc] postest (0 un promcdio dc ellas).

donde c(gl) ya quedé deﬁnido an [2.14].

dc! = C(31) 'XFTS'A [2,19]

1920322) = [C(31)]2 {n+3}["_‘1].[1+L452] _ d; [2.21]

Obsérvese que es precise concoct la con‘elacién entre e1 pretest y el postest, r,

base empirica independiente, es decir, segﬁn los resultados dc investigaciones previas

Participante Pretest Fastest Diferencia