Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Meta-Análisis en Ciencias Sociales y de La Salud - Juan Botella Julio Sánchez Meca
Meta-Análisis en Ciencias Sociales y de La Salud - Juan Botella Julio Sánchez Meca
Directores:
Antonio Pardo Merino
Miguel Angel Ruiz Diaz
Meta-anélisis
en ciencias sociales y de la salud
Juan Botella Ausina - Julio Sénchez Meca
Consult: nucstra pégina web: wwwsintesisxom
En clla cnconttara‘i cl catilogo complete y comcntado
9 EDITORIAL SINI'ESIS, s. A.
Vallehermoso, 34. 28015 Madrid
Teléfono 91 593 20 98
httpflwwwsinmisxom
ISBN: 9T8-84-907766-2‘9
'
R e f erenclas b'bli
1 was 247
Presentacién
Juan Botella
Julio Sinchez—Meca
Diciembre de 2014
El contexto del meta-anélisis
mas rigurosa el “estado del arte" respecto a una pregunta cientifica. En tercer lugar,
para aportar evidencias respecto a conuoversias en la interpremcién de los dates. Por
filtimo, para definir lineas dc investigacién futuras y establecer objetivos cuantitativos
para las intervenciones.
Antes dc continuar conviene mencionar la distincién que a vecw se hace entre
revisions: sisreméticas y meta-anélisis. Algunos autores (3.3., Littcll, Corcoran y
Pillai, 2008) consideran que una revisién sistemética es cualquiera que se haga de
forma figurosa, siguiendo un protocolo particular, mientras que reservan e1 térmjno
MA para aquellas revisiones sisteméticas que se realizan con métodos cuantitativos
estadisficos. De esta forum, so hablaria también dc revisién sistemética al haccr refe-
rencia a cualquiera que, siguiendo un protocolo, aplicase procedimientos narratives. A
10 largo de este libro emplearemos cl término MA para referimos a todo el proceso, es
decir, a una revisién sistemética realizada con procedimientos cuantitativos.
psicologia, una discipljna con éreas que estaban muy necesitadas dc rigor. Esta déficit
de rigor en algunas de sus parcelas, cl marge-11 dc subjetividad dc algunos de sus pro-
cedimientos, sus endémicos debates epistemolégicos y el vertiginoso crecimiento que
estaba experimentando, constituyeron el perfecto caldo dc cultivo para que filera en
esta disciplina en la que naciera. Una prueba de que se daban las condiciones adecua-
das para 511 nacimiento es que, de hecho, se puede decir que nacié casi a la vez en dos
lugarm difcrentes y por autores dc especialidades distintas en la segunda mitad de los
afios 70. For 1111 lado, la linea iniciada por Glass; por el otro, e1 trabajo de Hunter y
Schmidt sobre la generalizacién de la validez de [as tests (Hunter )1 Schmidt, 2004),
que expondremos en el capitulo 6 (Hunt, 1997).
El primer MA designado con ese nombre fue presentado 1301' Glass en su confe-
rencia de 1976 y fue publicado al afio siguicnte (Smith 3* Glass, 1977); tenia per
objeto integral" los resultados de investigaciones que valoraban la eficacia de las tera-
pias psicolégicas, tratando dc responder a dos preguntas, la de si las terapias psico—
légicas eran eficaces y la de si las terapias derivadas de diferentes escuelas de la psi-
cologia conseguian niveles diferenciables dc eficacia. Las conclusionas fueron que las
terapias psicolégicas tienen un efecto apreciable y que aunque hay algunas diferencias
entre los diferentes tipos de terapia esas diferencias no son muy grandes. Esta segunda
conclusién provocé 1m auténtico tnnemoto entre los profesionales. Los agrios debates
que se produjeron en tome a estc trabajo no fueron nada beneficiosos para la recién
nacida metodologia meta-analitica, pero finalmente sobrevivié, fue sensible a las cri-
ticas, mejoré sus procedimientos y hay se ha convertido en una herramienta impres-
cindible. Casi de inmediato comenzaron a aparecer estudios meta-analiticos: Glass y
Smith (1979) publicaron un MA sobre los cfectos del tamafio del grupo escolar sobre
el rendimiento académico; Schmidt y Hunter (1977), an trabajo sobre la generali-
zacién de la validez de los instrumentals dc seleccién dc personal en contextos labo-
ralcs; y Rosenthal y Rubin (1978), 811 integracién dc rasultados sobre los efectos de
las expectativas interpersonales.
En otras disciplinas se camprendié pronto que esta metodologia podria aportar
grandes beneficios y la adoptaron desan'ollando soluciones especificas para sus nece-
sidades. Hay es la medicina 1a disciplina que mas la utiliza (Schulze, 2007) y desde la
que se han propuesto muchos de sus procedimientos més sofisticados (Chalmers y
Altman, 1995; Egger, Smith 3; Altman, 2001; Sutton, Abrams, Jones, Sheldon 3; Song,
2000; Sutton y Higgins, 2008; Whitehead, 2002).
Una vez ya en el periodo del MA propiamente dicho, la historia de su desarrollo
se puede organizar en torno a algunos hitos principales. Los primates son e1 propio
nacimiento en 1976 y la publicacién del primer MA en 1977, en donde los resultados
de los estudios ya se expresan mediante e1 tamafio del efecto. Pronto quedé clam que
aquel mtudio tenia defectos técnicos, pues no era correcto emplear los mismos
procedimientos quc en los anélisis cstadisticos de los estudios primaries. Por e110 e1
siguiente 11t se puede establecer en la publicacién del libro de Hedges y Olkin
(1935) en el que proponian procedimientos dc ponderacién de los esmdios por los
15 Meta-anallsis en Glenda: Sociales y de la Salud
‘ Puede conmfltarse su sifio web en: wwwwoochraneorg. Bajo m auspicios, en Espafia se crab e1 Centre
Cochrane Iberoamericano (www.mchrane.es).
1httpflfjcannabriggsmg.
3 www.campbellooflaborafiomorg.
‘ htpWarsmorg.
Capfhllo 1. Elcunteno delmeta-anallsls 17
ficas, capitulos de libro, twis doctorales, mmdios técnicos, informes internos, etc). La
segunda es que la naulraleza del origen de esas evidencias obliga a replantear los
supuestos de las formas dc medi: y de: analizar estadisticamente los resultados, ya que
el contexto es muy diferente del de las investigaciones prim-arias habituales.
Ann asi, las fases ue ( : 0 a e1 proceso de un MA se parecen bastante a las
dc las investigaciones primarias. Como ya las hemos dcscrito en otros lugarw (Botclla
y Gambara, 2002; Sinchez—Meca y Botella, 2010; Sénchez-Meca, Marin-Martinez y
pez-Lépez, 2013), aqui solo las sefialamos sucintamente:
Més allé del propio nombre de esta; metodologia, la ptincipal aportacién dc Glass a1
meta-anilisis fue la solucién que propuso a las dificulmdes para comparar y combinar
los resultados de los estudios (Glass, McGaW y Smith, 1981). En su primer MA
constaté que los esmdios que valoran la eficacia de las intervenciones tempéuticas
emplean medidas may variadas. A veces son tests psicoméu'ioos, pero en otras aca-
siones son cscalas, checklists, registros dc conductas, etc. Si 105 diferentes estudios
emplean distintas medidas, los estadisticos obtenidos no son directamente compa-
rables. Aunque en cierto sentido los valorcs dc p asociados a sus contrastw cstadis—
ticos si se podrian considerar un elemento comparable, son valores demasiado condi-
cionados por los tamafios de las muestras empleadas.
Glass propuso transformar los resultados de todos los estudios a una métrica
comfin, independientc del insmunento y de las unidades dc medida: e1 tamaiio del
efecto (TE). Antes dc exponer sus caracteristicas y propiedades queremos resaltar una
relacién de gran importancia para comprender cl papel del TE y la muy relativa
importancia que se debs dar en la infercncia a1 valor dc p asociado a1 contrasts
(Cumming, 2012; Ellis, 2010). Esta relacién, dcstacada especialmcntc por Rosenthal
(1991a), es la siguiente:
Mia S J
I : X‘_X2 =X“X2. 1 [2.1]
n, n2 "1 ”2
Como veremos un poco mils adelante, el primer cociente es uno de los indicts de
TE més popularcs. En cambio, cl scgundo cocicnte solo incluye los tamafios dc las
dos muestras; en él no aparecen valores asociados a njnna diferencia entre los
gmpos en la cmcteflstica que se estudia. Cuanto mayor son n; y n; mayor es el valor
del estadistico de contrastc. Para un mismo TE, cuanto mayor son las muesu‘as em-
pleadas mas probable es que el estadistioo dc conuaste proporcione un valor estadis-
ticamente significativo. Paralelamente, para unos mismos tamafios muestrales, cuanto
mayor sea e1 TE més fécil es obtcner un resultado estadisticamente significativo.
Dado que los tamafios muestrales son establecidos por los investigadores (con
los limites que imponga la dispom'bilidad), este factor no deberia contaminar el
anélisis de los remfltados. Par eso la eleccién del TE coma indicador generalizado
para los resultados supuso una aportacién definitiva que facilité el despegue del MA.
Pero centrémonos en el concepto de TE. Siguiendo 8. Cohen (1988), algunos
autores han definido a1 TE como un indicador que refleja cl grade en que una hipé—
tesis nula es falsa (e.g., Gfissom y Kim, 2012; Wolf, 1986). Si la hipétesis nula esta-
blece 1a ausencia de una asociacién, se puede decir que el TE establece cl grade en
que esa hipétesis es falsa, puesto qua refleja en cufinto se separa del valor nulo cl
grade de asociacién. Sin embargo, esta definicién queda demasiado ligada a los
comrastes dc nulidad, cuando en realidad se pueden analizar con independencia de
que con esos mismos datos se realice o no un contraste. Otros autores prefieren
sefialar simplemente quc un indice dc TE refleja cémo de estrecha es la relacién entre
do: variables; scria una medida dc 1a filerza dc la asociacién cnIIc variables. En esta
idea se basa la definicién que proporciona Cohen (1988) al afirmar que el TE es 1m
indice cuantitativo que representa el grado en que existe e] fenémeno que se esté
investigando.
Aunque esta definicién es més apropiada, también resulta alga limitada, ya que
no es aplicable a aquellos casos en los que el objeto de interés no es la asociacién
ante dos variables. En cambio, Kelley y Preacher (2012) lo definen como una repre-
sentacién cuantirativa de la magnimd d2 unfenémeno que se utilize: para responder a
Capitulo 2. Una méIflea uomfln: lndloes de tamafio del efecto 23
una pregunta de interés. Esta definicién es mucho més amplia, ya que abarca también
105 TE que se refieren a una sola variable 0 a constructos de nanJraleza psicoméu-ica
(como la fiabilidad), en lugar dc limitarse alas relaciones entre dos variables.
Hay que reconocer que si a veces se proponen definiciones restrictivas es porque
en una abrumadom mayoria de 105 MA que se realizan en las ciencias sociales y de la
salad cl fenémeno dc intcrés sc refiere a la relacién entrc dos variables. Los prin-
cipales indices para este tipo de preguntas se suelen clasificar en tres grandes grupos:
las indices de la familia d, las indices de la familia r y las indices especificos para va-
riables dicotémicas. El indice 0' se origina en el escenario de la diferencia entre las
medias de dos grupos en una variable mmtitativa. En el préximo apartado expon-
dremos su definicién, ptopiedades y caracteristicas, asi como los procedimientos para
obtenerlo y algunas variaciones del mismo. En el epigrafe 2.2 expondremos e1 indice
r, o correlacién dc Pearson, deteniéndonos de nuevo en sus propiedades, sus catac-
teristicas y los procedimientos para su use an MA. Después expondremos algunos
indices especificos para variables que representan dicotomias naturales. Tras dedicar
el epigrafc 2.4 a la relacién entre- d, r 3; RV (Razbn de Ventajas), en el epigrafe 2.5
sefialaremos indices dc TE que se pueden emplear en situaciones en las que la pre-
gunta no se refiere a la relacién entre dos variables. Dedicaremos los dos filtimos
apartados a los criterios para elegir un indice dc TE y a la valoracién del valor
obtenido.
No debemos perder de vista que nuestro interés siempre estaré. en el valor
paramétrico del indice de TE elegido, pero trabajaremos con las estimaciones dc aquel
obtenidas en las estudios primaries. Especialmente important: seré obtener de cada
estudio primario una cstimacién puntual dcl TE més 1a varianza dc esa estimacién. Es
decir, si estamos interesados en el parémeu‘o 1: y disponemos de A: estudios, entonces
contaremos con 1: cstimacioncs dc ese valor (1}) y las k estimaciones de sus varianzas
(v91. La vafianza de cada estimacifin, vi, seré 1111a funcién inversa del tamafio de la
muestra con la que se ha obtenido I}. A 10 largo de los préximos apartados iremos
indicando para cada indice de TE la férmula de su vafianza. Ademés, para cada indice
dc TE consimiremos su intervalo dc confianza mediante la siguiente aproximacién:
T+ _ - v =T
1; :I:|zl—¢h"2|"\/1I"—tr = {1: _||:1 “fill .JJ; — T: [2.2]
i l-a 2 i _
1 Con un afén descdptivo, los valores muestrales ae resumen fipicamente medium doe esmdisficos: la
media y la varianza:
f=ZX/n S==Z(X—f)’/n
Sinembargo,cuandohayunaféninferencialyestos estadisfioosseinterpretanoomo estimadoresdesus
padmetros la fbrmula de la varianza Gambia ligeramente, pasando e1 denominadm'do n a (11-1); si se divide
par {re-1} antennas S2 es un estimador insesgado de 61. Los estudios primaries suelen incluir las varianms (o
dmviaciones tipicas) sin especificar si se ban obtenido dividiendo put I: 0 pm- (u-l). Muchos program
estadisticos de uso fi'ecuentc (ag. SPSS) obtienen por defecto e1 estimador insesgado. Asumir que el valor
informado es uno en Inga: del 01m afecta poco a1 resultado numérioo, pero con mesh-as pequefias podria
set apreciable y, en cualquier caso, algunas férmulas que vam a presentar pueden parecer incorrectas si
nosetieneencuenmestehecho.
Capitulo 2. Una mélflea oomfln: lndloes de hmaflo del efeato 25
Como su propio nombre indica, es una diferencia entree dos medias, expresada en
unidades de desviacién tipica. Si las distribuciones de las poblaciones tienen pani-
metros centrales m y pg, mientras que ticnen un parémeim dc dispersién coml’m, 6 (es
decir, 01 = 52), entonces este indice de TE se define coma (Cohen, 1988),
a: #1 nu; [2.3]
0'
3
C(gl) = 1 _ 4.31:1 [2.6]
represents también por d, para indicando que se ha hecho la correccién por sesgo;
incluso a veces see representa per (1“ (cl superindice reflcja que es la esfimacién insea-
gada, unbiased). En resumen, e1 indice de TE que cmplearemos para la diferencia de
medias tipificada as,
= 1n + 1 : 2 + (172
2.8
”.1
”1'”2 2'(":+"2) [ ]
v _ 50+ 70 + 0,5042
= 0,0353
" 50-70 2-120
0,872
IC95%:0,504:|:1,96-‘/0,0353 = {0,136
Capitulo 2. Una méIflea uomfln: lndloes de tamafio del efecto 2?
Un valor de ti obtenido indica que 121 media de la condicién 1 se sitfia 0,504 uni-
dades tipicas por encima de la media de la condicién 2. Ademés, e1 hecho de que el
intervalo dc confianza no contenga e1 valor 0 (efecto nulo) permite afinnar que en
esta investigacién se ha podido generalizar a la poblasién la existencia dc diferencias
estadisticamcnte significativas entre las medias de las dos categorias definidas por la
agrupacién.
En muchos informes de investigacién no se ofrecen todos los estadisticos
necesarios para emplear este procedimiento directo de cilculo, lo que obliga a una
labor casi detectivesca qua permita obtenerlo a partir de otros dams. Un buen conc-
cimiento de las relaciones entre férmulas estadisticas, tanto de estadisticos descrip-
tivos come dc estadisticos dc contrasts, permitc muchas veces rescatar para el MA
estudios que dc otra forma tendrian quc quedar cxcluidos por carcccr dc informacién
suficiente. En muchas obras (3.3., Borenstein, 2009; Borenstein, Hedges, Higgins y
Rothstein, 2009; Card, 2012; Cortina y Nomi, 2000; Glass, McGaw y Smith, 1981;
Gfissom y Kim, 2012; Lipsey 3? Wilson, 2001; Morris y DeShon, 1997; Sénchez-
Meca y Ato-Garcia, 1989) se proporcionan mfiltiples soluciones paIa una gran varie-
dad de situaciones. Por ejemplo, es muy tipico que se incluya e1 estadistico de con-
traste para dos medias independientes, pero no las medias y desviaciones tipicas de
las muestras. Con el estadistico dc contraste mfis los tamafios muestralcs sc puede
deducir el valor de d (no corregido) con la férmula [2.1]. Supongamos que en el ejem-
p10 anterior solo se proporciona e1 remfltado de la pmeba I de comparacién de medias,
junta con la siguiente afirmacién: “la diferencia es estadisticamente significativa a
favor del grupo experimental [t(113) = 2,74; p < 0.01]” y en la seccién dc método se
dice que las muesiras eran de 50 y 70 paxficipantes, respectivmncnte. Con esta
informacién podemos deducir cl valor de ti, ya que de [2.1] deducimos que
:1 =o,994-2,74-1’i+i =0,504
so 70
un valor que coincide con el obtenido anteriormente.
En ocasiones, e1 disefio del estudio involucra mfiltiples factores (inter e intrasu-
jeto) y aplica técnjcas dc ANOVA factorial. De esos factores solo uno de ellos es el
que se requiem para calcular la diferencia dc medias tipificada. La defivacién de la
desviacién tipica apropiada para el indice d a partir de disefios dc ANOVA complejos
no es sencilla. Pueden consultarsc las fucntes arriba mefiadas para cnconlmr férmu-
23 Meia-anélisis en Glendas Socialee y de la Salud
D =f1—fz [2.10]
Como se trata dc grapes independientes su varianza no es mas que la suma de
las varianzas de las medias, VD = (Of/M)+(0'22/"2)’ que se estimamediante,
2 1
VD=S_1+S_2 [2.11]
"1 "2
Si se asume que las varianzas poblacionales son iguales (of = 0:) se puede uti-
lizm' la férmula [2.5] para obtener la estimacién oonjunta, 32, aplicando dospués la ex-
presién siguiente:
14,8
IC95%:12,7i1,96'-\’1,104 ={10 6
Algunos estudios primarios valoran el efecto comparando las medias de dos muestras
relacionadas. Todo lo que se expone en este apartado se aplica a cualquier forma de
emparejamiento, pero como el caso mas frecuente es aquel en el que las medidas se
toman en los mismos participantes antes y después de una intervencién, la termino-
logia que emplearemos se referiré a [as medidas pre y las medidas past. La principal
diferencia con respecto a los dos indices anteriores es que en los anteriores se asume
la independencia estadistica entre los dos grupos de participantes, mientras que en
este case los valores pre 3! past son de los mismos participantes, lo que hace may pro-
bable qua entre ellos haya una covariacién no nula.
Becker (1988) propuso el nombre cambio media tipg'ficado (standardized mean
change) para referime a este indice del TE, basado en la diferencia entre las medias
del pretest y del postest de un grupo, dividida par um desviacibn tipica: 8 = (pm —
Wye. Se han propuesw varies indices alternatives dependiendo dc qué desviacién
tipica utilicen en el denominador. Asi, Gibbons, Hedeker y Davis (1993) proponcn
utilizar la desviacién tipica de las ptmmaciones de cambio, Sm. Para no confimdirlo
con otros indices de la familia d, representaremos a este indice del TE coma dd (la
letra c del subindice es la inicial de cambio). Su férmula es,
siendo c(gl) e1 factor de correccién del sesgo, definido coma (adviértase que aqui n es
el nfimero dc pares de valores):
30 Meia-anéllsis en Glendas Socialee y de la Salud
3
C(31) = l _ 4(n—l)—l [2.14]
1
fwd)=[43012-[—]-["—';]-(1+n-d31)—d31
n —
[1151
Es habitual que los estudios informen de las medias del pretest y del postest,
pero es posible que no informen de la desviacién tipica de las puntuaciones dc cam-
bio, Sdif. Si se dispone de las desviaciones tipicas del pretest y del postest, Sp“, 3! SW,
asi como del coeficientc dc correlacibn dc Pearson entre las puntuaciones del pretest y
el postest, r, se puede calcular Sm mediante
dd “(mi [2.1a]
donde C(31) welve a set e1 valor que proporciona [2.14]. Si e1 estudio no aporta 1a
desviacién tipica del pretest, Sm (ni del postest), pero si informa de la desviacién flpi-
ca de las puntuaciones de cambio, SdJ-f, y de la correlacién enIIe el pretest y el postest,
r, se puede obtcner un valor aproxirnado dc Sm despejando S de la férmula [2.17]:
h i [2.20]
donde S seria una estimacién (16 SM que se podn'a sustituir en el denominador dc]
indice dc; (fénnula [2. 19]). En la férmula [2.17] se asume que las desviaciones tipicas
son iguales. Si este supuesto filera incorrecto, e1 valor dc S obtem'do con [2.20] no
coincidiré con el verdadem valor dc Sm para 33 aproximaré ms 3. él cuanto més
similares scan las desviaciones tipicas del pretest y del postest.
Morris (2000) derivé 1a férmula para estimar la varianza de deg:
2 2 2
P”
= Sm + Spa‘ 3-H [2.22]
2-5,,” Spa,
Si en lugar de las desviacioncs tipicas del pretest y el postest conooemos e1
promedio de sus varianzas, 5a, enhances se despeja en la férmula [2.20]:
r=l— s;
2-52 [2.23]
Por filtimo, muchos estudios no aportan los datos necesarios para calcular 13. co-
rrelacibn pretest-postest. En esos cases, e1 meta-analista se veré obligado a imputar
dicho valor a partir de infonnacién extema a1 estudio. Una solucién es imputar e]
valor promedio de las correlaciones entre e1 pretest y el postest obtenidas en aquellos
astudios del MA que informan de ella. Otra solucién cs imputar un valor sabre Ima
32 Meia-anélisis en Clenclas Suclales y de la Salud
3 l 3
= 0,8421
CQD=1_4(n—1)—1= —4{6—l)—1
Con la férmula [2.13] obtenemos e1 indioe d“:
dcl = 0 ( 3I)
E," —E,,,, = 0 8421.13’33_9’67 = 1,891
Sage 1,63
&2(d¢1)=[c(gI)]“{B-U—flllw-dfl- d;
= 0,84212 {1] -[fl]- (1 + 6-1,8912)-1,8912 = 0,8474
6 6 3
El intervalo dc oonfianza 3e obtiene sustituyendo estos valores en [2.2]:
3,695
IC95% : 1,891 i 1,96 - {0,8474 = {0 087
34 Meia-anéllsis en Clenclas Sociales y de la Salud
sag. =‘/s;"+s;N—2.r.sm.sm
= J2me: +3,012 —2-o,351-2,16-3,01=1,63
A continuacién, mediante [2.13] se obtiene dc]. En el ejemplo, e1 promedio de
las desviaciones tipicas del pretest 3/ del postast vale:
En cuanto a1 indice deg, 13. férmula [2.19] nos permit: obtenerlo a partir de las
medias pretest y postest y de la desviacién tipica del pretest:
Nétese que el indice dc: = 1,427 as manor que dd = 1,891. Ella se debe a que la
correlacién entre las puntuaciones del pretest y el postest en este ejemplo es mayor
que 0,5 (r = 0,851). La varianza del indice dc; se obtiene mediante [2.21]:
Capitulo 2. Una mélflea comfln: lndloes de hmaflo del efeato 35
62(dcz)=[c(g1)]‘.[@]{"_‘1].[1+ "'dczz ] _ :2
11-3 2-(1-r)
2
= 0,34211.[2(1'—0’851)][.6_‘1.] ” fl 4,4273 = 0,4291
6 6—3 2-(1-0,851)
2,711
IC95% :1,427 -|_-1,96 - 40,4291 = {
0,143
S= Say = 1,63 =
Jza —r) J20 — 0,351) ’
Obsérvese cémo S = 2,99 no coincide con la dwviacién tipica real del pretest,
Sure = 2,16. Ello se dcbc a que la fbrmula [2.20] solo daré. el valor exacto cuando las
desviaciones tipicas del pretest y el postest scan idénticas. En consecuencia, a1 sus-
tituir S en la férmula [2.19] para obtener dd, obtenemos dc; = 1,034, un valor que es
solo aproximado (e1 valor exacto seria dc; = 1,427).
PaIa el célculo de la vafianza del indice dc; es precise conocer la correlacién
entre e1 pretest y el postest. Si esta se desconoce pero e1 estudio reporta las des-
vianionm tipicas del pretest, del postmt y de las puntuaciones dc cambio, obtenemos r
mediantc [2.22]:
utilizada para tipificar las medidas. Cuando la correlacién dc Pearson entre e1 pretest
y el postest, r, es mayor que 0,5, entonces Sm seré manor que Sm, por lo que d“ seré
mayor que- dcz. Si la correlacién es manor que 0,5 ocurriré 10 contain: Sm seré mayor
que Sm y, en consecuencia, dd seré menor que (la. Los indices dd y dc; coincidirén
cuando 1a correlacién valga 0,5, ya que en ese caso Sah— semi igual a SP“. En general, 1a
correlacién pretest-postcst suelc set mayor quc 0,5 por lo quc lo més habitual cs quc
dc] sea mayor que dd (Becker, 1988; Morris 3; DeShon, 2002).
La eleccién de mm 11 otro indica- del TE por parte del meta-analjsta dependeré de
qué parémetro desea estimar en el MA. En ocasiones se incluyen en un MA tanto
estudios con disefios de dos grapes independientcs, donde la diferencia media tipifi-
cada seria e1 indice idéneo ((1), come estudios con disefios pretest-postest de un solo
gmpo, donde se podria elegir dd 0 dc; coma indice del TE. Si en 1111 MA 36 van a inte-
grar indices d, procedentes dc grupos independientes, con indices dc cambio medic
tipificado, la mejor eleccibn es dc; para estos filtimos. E110 se debs a que la desviacifin
tipica del pretest es el estadistico dc variabilidad més parecido a la desviacién flpica
conjunta de 103 gmpos experimental y control que se utiliza en el indice d (Dunlap e1
al.,l996; Morris y DeShon, 2002). Bien es cierto que integrar en un mismo MA
indices d con indices dc cambio media tipificado, dcz, es una estrategia arriesgada, ya
que ambos indices estiman parimetros diferentes. A pesar dc esto, si se puede demos-
trar que los indices dc; aportan estimaciones similares a las obtenidas con 10: indices d
mete modo dc proceder no invalidaria las conclusiones del MA. Por otra pane, dd
fiende a ofiecer estimaciones del TE mayores que da, de forma que 1111 made de evitar
sobreestimaciones de los efectos consiste en utilizar dc; en Inga: dc do]. Seria apro-
piado utilizar el indice dc] en situaciones may particulates, tales como en un MA diri-
gido a estimar cl cambio (o la mejora) pretest-postest producido por un tratamiento y
todos los estudios aportan 1a desviacién tipica de las puntuaciones dc cambio.
d“ =c(gIE)-———X”'§‘X’“’E [2.241
dig-fig
donde flux y EM; son las medias del grupo experimental en el pretwt y 61 pos-
test, imp 3* Elm; son las medias del grupo de control en el pretcst y el postest,
SdifiE y SW; son las desviaciones tipicas de las puntuaciones de cambio de los grapes
experimental y de control, 3* C(glE) y C(glc) son los factores de correccién de los indi-
ces del TE, que sc obticnen aplicando [2.14] a cada grupo. La diferencia dc cambio:
medics tipificados quedaria definida coma (Morris y DeSohn, 2002):
Y -}
dsl = dour _dcl,C = C(glg) '[ W ]—
W3 [2.26]
3 , -f
—C(glc)‘[%]
m:
01(dcu)=[c(gls)]z-[—]-[E—3] (1+"s'dfl.x)—d§.z
.. 1 n —l
[2-281
&=(d¢1,c)=[c(gtc)]‘ {HiM "c -;].(1+ nc 'dfi.c)- die
C nC
[2.29]
i —Y
dgz = «:21 _ doze = C(glz) [ M ] —
SP";
[2.30]
— we){—c
S
‘ KM] pre,C
Lavarianzadedszesigualalasumadelasvarianzasdedflydgp,
[as cuales 3e calculan mediante sendas aplicaciones de la f6rm1fla [2.21] a each grupo:
&1(dcu)=[c(gtg)]‘-[%][g—J][1+;affi]_dgu [2.321
_ _ d2
E E E
we case. Aunque en [2.32] y [2.33] aparecen valom dc r diferentes (rE 3* re), 10 més
fiecuente seré imputar un mismo valor dc r en ambas férmulas (e.g., 3-3 = rc = r = 0,7,
segfin la recomendacién de Rosenthal, 1991a).
Si 56 puede asumir que las desviacioncs tipicas del pretest en los gmpos experi-
mental y control son similares, es major utilizar el indice propuesto par Morris (2008)
y que aqui representaremos por dag. Este indice del TE divide las diferencias entre 105
cambios medics pro-post de los dos grupos per una desviacién tipica dcl pretest pro-
mediada, Em , a partir de las de los dos grupos, Sp“; y 8mg:
1 =1 _ 3 — [2.36]
“(g 5-“) 40::E + nc — 2) —1
Veamos un ejemplo en el que vamos a ilustrar 061m se calculan estos tres in-
dices del TE y sus respectivas varianzas, asi coma los intervalos de confianza corres-
pondientes. Supongamos un estudio en el que se compara el cambio, corno reduccién
40 Meia-anélisis en Clenclas Suclales y de la Salud
Grupa experimental
Pamhipante Pretest Fastest serencia
1 10 6 4
2 12 10 2
3 13 7 6
4 15 12 3
5 14 9 5
6 16 14 2
E," = 13,33 in. = 9,67 5 = 3,67
Célculos SW = 2,16 SW = 3,01 Say =1,63
1'; = 0,851
Gmpo control
Participante Pretest Pastas: Diferencia
'7 l1 11 0
8 10 9 1
9 12 13 -l
10 14 12 2
11 16 15 1
12 15 15 0
Ems =13,00 f,” = 12,50 5 = 0,50
Célculos SP,“ = 2,37 Smfi = 2,35 Si” = 1,05
P'C = 0,901
Para obtener el indice d5] (fénnula [226]} calculamos primero los factores dc
correccién, C(glg) y (131:), y aplicamos [2.24] 3! [2.25]:
Capitulo 2. Una mélflea oomfln: lndloes de hmaflo del efeato 41
Para obtener 1a vafianza dc dgl (férmula [227]) calculamos primero las varian-
zas de dc”; y dc”: con las férmulas [2.28] y [2.29]:
3,521
IC95% : L490:|:1,96- #143736 = { 0 541
= c(gIE) .[ @ J _ C(glc){ w }=
m3 prefi
_0,8421. 13’00—12’50 =
=0,8421- M
2 2,37
= 1,427 — 0,178 = L249
Para obtener la vafianza dc d3; con [2.31] calculamos primero las varianzas de
los indices dd; y dc2,C con la férmulas [2.32] y [2.33] 3; Image aplicamos [2.31]:
=0,34211H[m][fl] “ fl 4,4272 =
6 6—3 _ 2-(1—0,851)
=0,4291
. 2(1—r)
c _ . 1 +
C .]["c_3]
: 1 .|: _ ”c _ n —1 _
, _ d 2c2,C Nadia
( e 2 , € ) = [C(gcfl
U 2:! - 20—53)
2,598
[695% : 1,249 :l: 1,96 - ‘/0,4739 ={ 0 100
Finalmente, para obtener cl indice d3; (férmula [235]) primero hay que calcular
el pmmedio de las dos dwviaciones tipicas del pretest mediante [2.34]:
Capitulo 2. Una méiflea oomfln: lndloes de hmaflo del efeato 43
E = (nE—1)-s;,,g+(nc—1)-s;w
W n£+nc—2
=\/(6-1)«2,16’ +(6—1)-2,372 = 2,257
6+6-2
Calculamos e1 factor de correccién con [2.36]:
3 3
((31536) = 1 — =1— =0 231
4(nE+nc—2)—l 4(6+6—2)—1 ’9
Y obtenemos el indice c133 con [2.35]:
Spa
= 21-
(13,33—9,67)-(13,00-12,50)] = 1,287
0’9 3 [ 2,267
xm
nE+nC—4
. “Led; 4:3:
2(l—r)(nE+nc) ‘1
El intervalo de confianza as
2,155
IC95%:1,287 iL96-1I0J960 ={0 419
44 Meia-anéllsis en Clenclas Sociales y de la Salud
Comparando los tres indices del TE comprobamos que dgl = 1,490, que se basa
en las desviaciones tipicas de las puntuaciones dc cambio, es mayor qua d3; = 1,249 y
dz; = 1,287, que se basan en las desviaciones tipicas del pretest. E110 se debt: a que la
correlacién pre-post es superior a 0,5, en cuyo caso la desviacién tipica dc] pretest
serfi mayor que la de las puntuaciones dc cambio, dando lugar al patrén dc resultados
observado en el ejemplo. También es digna de mencién la similitud entre los indices
dag, y dgg, ya que ambos se basan en las mismas desviaciones tipicas (las del pretest).
La diferencia entre- uno u otro indice esté en que en dz; no promediamos las
desviaciones tipicas del pretest, mientras que en d3; las promediamos. En general, es
més anonsejable utilizar dag qua £182, debido a que aquel es un estimador mzis eficients
quc este; es decir, tiene menor varianza. De hecho, como se puede observar en nucstro
ejemplo, la vafianza dc d3; fue 0,4739, mientras que la de d3; fue muy inferior:
0,1960. Esta propiedad, unida a1 hecho de que d3; es un wtimador robusm ante 1a
violacién del supuesto dc homogeneidad de varianzas, lo convierten en el indice
preferido para este tipo de disefios Morris, 2008).
Aunque ya hemos indicado en qué circunstancias es apropiado utilizar cada uno de los
indices de la familia d, can frecuencia los estudios recopilados sobre una misma
cuestién se han realizado con disefios distintos o aportan informaciones diferentes que
impiden calcular el mismo indice en todos 61103. For ejemplo, para valorar una misma
intervencién algunos estudios pueden haber empleado un disefio dc grupos inde-
pendientes con medidas solo post, mientras que otros han empleado 1m disefio simple
pre-post sin grupo de control 3! otros pueden haber empleado el disefio 6ptimo, que
incluye grupo dc control y medidas pre y post. Mientras para los primeros lo ade-
cuado es emplear d, para los segundos hay que utilizar dc y para los filtimos 10 11158
adecuado es emplear dg.
Calcular diferentes indices para distintos estudios es un problema. Como nonna
general no se deben mezclar indices diferentes en un mismo MA, ya qw: estiman
parémetros distintos. Si en la gran mayoria de los estudios solo hay medidas post 3? en
unos pocos estudios hay medidas pre (con gmpo de control), probablemente 10 major
sea ignorar las medidas pre de los pocos estudios que las aportan y calcular d an todos
los estudios. Si la situacién es la contraria (gran mayoria de estudios con medidas pre
3/ grupo de control 3: unos paces sin medidas pre), quizés sea major dejar fuera los
pocos estudios que no aportan las medidas pre y emplear d3 para el MA. Si 105 estu-
dios se reparten cute esos dos disefios de forma més equilibrada, entonces la mejor
opcién es analizar los dos gmpos dc esmdios por separado. Habra'. que tenerlo en
cuenta en la interpretacién de los resultados. Otra opcién que 3 veces fimciona con-
siste en codificar cl disefio coma variable categfirica y analizar si cada uno de- estos
Capitulo 2. Una méIflea uomfln: lndloes de tamafio del efecto 45
disefios tiene asociado 1m TE medic diferente (véanse estas técnicas en el capitulo 4).
Si e1 resultado sefiala que el TE media no mté asociado a1 tipo de disefio, enhances se
cuenta con un argumento para analizarlos todos juntos, aunque es improbable que esto
ocurra.
Si entre los estudios hay algunos en los que solo se puede calcular d y otros en
los que solo se puede calcular dc, la situacién es mas complicada. Aqui no se puede
ignorar parte de la informacién para calcular el mismo indice en todos. Lo més
probable es que haya que analizar los resultados por separado, en dos grupos de
wtudios. De nuevo se puede analizar el papcl del disefio en los TE calculados, para 10
més probable es que se encuenu'en diferencias significativas entre los valores medics
obtenidos con esos dos tipos dc disefio.
33’ [2.38]
,. = v [2.39]
v Alli [2.40]
' 71—1
El trabajo con este indice de TE no se suele hacer directamente con los valom
de r, dado que si p ¢ 0 su distribucién es asimétrica. Para corregir esta distribucién y
convertirla en una més adecuada para las técnicas estadisticas de MA el procedimien-
to més empleado es aplicar 1a transformacién dc Fisher (Botella, Suero y Ximénez,
2012f. Para un valor de r su transformacién a la Z de Fisher as
2,4.log, ”—r
2 l—r
[2.41]
mavm'ianzaesmpmximadamente:
v5 = _ [2.42]
1 l + 0,74
= 0,74 Zr =—-1 =o,9505
'31" 45 2 °g1- 0,74
n =
v —L — 0 02331
5 45—3 ’
1,253
IC95% : 0,9505 :l:1,96« 40.02381 = 0 648
3 No hay un writerio unfinime a at: raspechu. Antares coma Schmidt y Hunter (2015) no recomiendan cl
uso de la tmnsformacibn Z d: Fisher, sino utilize: dimclmnente las comlaciones.
Capitulo 2. Una méIflea uomfln: lndloes de tamafio del efecto 47
resmfltados (sabre todo las estimaciones combinadas y los limites de los intervalos de
confianza) se deben devolver a valores dc r, aplicando la transformacién inversa a la
de Fisher, mediante 1a férmula inversa dc [2.41]:
r—— em
‘1
3” +1
[2'43]
en la que 3 as la base de los logaritmos naturales. Por ejemplo, si la estimacién final
combinada dc valores de Zr nos da igual a 1,26 entonces el valor correspondiente de r
es igual 3.:
24,26 _ 1
r = 0,851
621.26 +1
La fémmla [2.43] se puede utilizar también para devolver a la métrica del coe-
ficiente de correlacién los limites confidenciales en tome a la Z de Fisher de cada
estudio (y de la estimacién combinada). De esta fonna la gréficafarest plot (véase e1
epigrafe 3.4.3) puede presentar los intervalos de confianza de cada estudio individual
la propia métrica dc r en lugar dc hacerlo en la métrica de la Z dc Fisher, 10 quc
facilita la mterpretacién de los resultados. En el ejemplo numérico dc més aniba, los
limites confidenciales transformados a la méu'ica dc r mediantc la fénnula [2.43]
serian 0,849 y 0,570.
Ademés del coeficiente de correlacién de Pearson, la familia :- incluye un amplio
nfimero de coeficientes dc correlacién, algunos de los cuales son mera aplicacién del
coeficiente de correlacién de Pearson cuando una de las variables, 0 ambas, es ordinal
o dicotémica (e.g., correlacién ordinal dc Spearman, correlacién biscrial-puntual, coe-
ficiente phi), mientras qua otros son adaptaciones dc aqua] al caso de variables dicoto-
mizadas (e.g., correlacién biserial, correlacién teu'acérica, correlacién biserial-phi).
Todos estos coeficientes dc correlacién pueden ser utilizados como indices del TE,
para para que esto sea posible e1 meta-analista tendré también que disponer de su
varianza muestral (e.g., Rosenthal et £11., 2000; Sénchez-Meca, Main-Martinez y
Chaoén—Moscoso, 2003).
pg=50/200=0,25 pNag=601400=0,15
dh-fln = p1 — p” [2.44]
v =P1'(1‘P1)+Po'(1—Po) [145]
dPI'Po ”I no
El valor qua: refleja ausencia dc efecto es 0, valor que se obtiene cuando 133 pm-
porciones son igualw. Aplicando las férmulas [2.44] y [2.45] a1 ejemplo del apartado
anterior obtenemos los valores, mientras que con la férmula genérica [2.2] obtenemos
e1 intervalo de confianza‘.
4 La férmula [2.2] deb: aplicarse aqui con prudencia. Solo fimciona adecuadamente cuando n1 y no son
grandesytantop; oomopnaonvaloresalejndosdesuslinfites ( 0 y l).Enelcasopmiculardequela
pmporcién sea igual a 0 o 1 no se puede calcular la varianza. Ademés, Ins limites del intervalo dc cunfin
calculados can esta fénmfla pueden quadar filera de sus limites [0;1] (Newcombc, 2012).
50 Meia-anéllsis en Clenclas Sociales y de la Salud
Esta indice time la dosventaja de que el tango de valores posibles esfi limitado
ante —1 y +1, ya que las propias proporciones tienen 1m tango limitado [0;1]. Esta
hacc que a vecm una difcrcncia aparente sea cngafiosa.
En este case e1 valor qua refleja 1a ausencia de efecto cs 1, valor que se ubtiene
a] calcular e1 cociente entre dos proporciones iguales. Sin embargo, e1 efecto nulo
cuando se transform logaritmicamcntc pasa de 561' 1 a ser 0. En cl ejcmplo anterior
RP, su logaritmo, 1a varianza de este filtimo y el intervalo de confianza serian (véase
la nota 4, que se aplica también a RP),
=— 0,75 0,85
—=o,02917
+
Conocido por sus iniciales en inglés (OR; odds ratio), In razén de ventajas, que
nosotros representaremos por RV, no obtiene cl cocicnte entre dos proporciones sino
entre dos ventajas. Una proporcién es un cociente entre- dos frecuencias en el que la
fiecuencia del numerador csté incluida en la del denominador (par ejemplo, los
valorw (16 p; y p; d: los dos indices ant/crimes). Por e1 contrario, una ventaja as un
cociente entre una proporcién y su complementaria: V=p/(1 — p). Es decir, tomando
como referencia la nomenclature. de la figura 2.1, la ventaja del valor 1 sabre e10 es
pI/(I —p,) [otambiénafb]enelg1‘upodsx= l,mientmsque es igual apg/(I —pa)
[otambiéncfd] enelgrupodeX=0. Enconsecuencia, laRVmiguala
LagRV =Loge[%] c a
[2.50]
52 Meia-anéllsis en Clenclas Suclalee y de la Salud
1 l l 1
=—+—+—+— [2.51]
mg? a b c J
De nuevo aqui el valor que refleja ausencia de efecto es 1, por la misma razén
que antes. Con los datos del ejemplo anterior obtenemos 1a RV, su logaritmo, 1a
varianza de este logaritmo y el intervalo dc confianza (remitimos al lector de nuevo a
la nota 4):
En el grupo de 103 que tienen algl’m padre obese, 1a ventaja dc sufrir un TCA
frente a no sufiirlo as: V1 =p1 / (1 -p1) = 0,25 1(1 — 0,25) = 0,333. Obsérvese que el
hecho de que V1 sea manor que 1 indica que, afornmadamente, la proporcién de los
que sufi'en obesidad en el grupo de los que tiene un padre obeso es manor que la.
proporcién de los que no la sufren. En el grupo de los que no tiencn un padre obese,
la ventaja de sufrir obesidad frente a no sufrirla es: V0 = p D / (1 —p0) = 0,15 f ( l —
0,15) = 0,176. En este grupo 1a (des)ventaja de sufrir obesidad fiente a no sufi'irla es
todavia mayor que en el grupo de los padres obesos, lo que indica que hay mayor
probabilidad dc sufl'ir obesidad en el grupo de padres obesos quc en el grupo de pa-
dres no obesos. En concrete, unaRV= V1 / V0 = 0,333 1' 0,176 = 1,889 significa que la
ventaja de que en el grupo expuesto ocurra un TCA fi'ente a que no ocurra es 1,889
veces mayor que csa misma ventaja en cl grupo no cxpucsto. Al igual quc la razén dc
proporciones, la razén de ventajas es un indice estadistico que puede adoptar valores
entre 0 y +00, siendo el valor 1 el efecto nulo (igual que en la razbn dc proporciones).
Su transfonnacién logaritmica hace que el efecto nulo pase a ser e1 0 y que su tango
dc valores sea, en teoria, entre -oo y +00. Al igual que con la razén de proporciones,
dado que se trabaja meta-analiticamentc con la transformacién logaIitmica, es
habitual que para informar de los remltados el valor transformado se devuelva a la
escala de la razén de ventajas mediante la férmula inversa a [2.50]: RV = My. Asi
pm, en el ejemplo numéricu los limites confidenciales una vez deweltos a la métrica
de la RV sedan: em” = 2,331 y 30‘2” = 1,239.
Capitulo 2. Una méirlca comfln: lndloes de hmaflo del efeato 53
Los tres indices aqui expuestos son fitiles para disefios de dos gmpos independientw
cuando la variable dependienlae es dicotémica. Para elegir cl indice mils apropiado es
precise tener en cuenta cl disefio del estudio. Vamos a contemplar aqui los tres dise-
fios mas habituales con cams caracteristicas: e1 disefio experimental, el disefio de co-
hortes y el disefio de cases y controles.
Si 3: tram de un disefio de dos grupos con asignacién aleatoria (1m discfio
experimental 0 un ensayo clinico aleatorizado) se puede utilizar cualquiera de los tres
indica. Si interesa obtener un indice absolute que compare las dos proporciones, en-
tonccs cl major indie: del TE m6 la diferencia entre las dos proporciones, DP. Por
ejemplo, supongamos que se dispone de dos grupos de pacientes con un trastorno de-
presivo, uno de los grupos ha recibido e1 férmaco A y el otro ha recibido el férmaco
B. La variable de resultado es la presencia versus ausencia de eventos adversos provo-
cados por la medicacién. Si las pmporciones dc eventos adversos fileron PA = 0,15 y
P3 = 0,05, entonces DP = 0,15 — 0,05 = 0,10 se interpreta afinnando que con el
fénnaco A se ha dado un 10% més de eventos adversos que con en el férmaco B. Si
interesa un indice relative, entonces la mejor opcién es la razén dc proporciones, RP.
En nuestro ejemplo, el valor RP = 0,15 I 0,05 = 3 se interpreta afirmando qua con el
férmaco A es tras veces mfis probable sufrir 1m evento adverse que con el B. Aunque
la razém de ventajas también se podria utilizar coma indice relative, es preferible RP
debido a que R V e s una aproximacién de RP cuando esta no se puede calcular debido
a] tipo de disefio.
Cuando cl disefio dcl estudio es de cohortes, se dispone de dos grupos de per-
sonas: uno que ha estado expuesto a un factor de riesgo para contraer en 61 future
algfin trastomo o problema de salud y otro que no ha estado expuesto a dicho factor.
La variable dependiente se registra una vez transcurrido un cierto periodo de tiempo y
es dicotémica; por ejemplo, haber versus no haber contraido e1 trastorno en cuestién.
En estos cases e1 indice més apropiado es la razén dc proporciones. Aunque también
se podria calcular la razén dc ventajas, de nuevo es preferible RP, ya que RV es una
aproximacién dc RP cuando csta no se puede calcular p01" razones del disefio. Si en el
ejemplo la proporcién de los que contraen 1a enfermedad en el grupo expumto as p 3 =
0,18 1; la del grupo no expuesto es pa = 0,08, el valor RP = 0,18 1 0,08 = 2,25 indica
que en el grupo expuesto es 2,25 veces mfis probable contract e1 trastorno que en el no
expuesto.
Cuando el disefio del estudio es de cases y controles, 10$ dos grupos de parti-
cipantes se generan en funcién de la variable dependiente, no del factor dc exposicién.
Por ejemplo, se forma un grupo de personas que han contraido un trastomo (los cases)
y otro grupo quc no 10 ha contraido (los controlcs). A continuacién sc indaga para
averiguar quiénes de un grupo y del otro esmfleron expuestos y no expuestos al factor
54 Meia-anélisis en Glendas Sociales y de la Salud
Tabla 2.1. Férmulas para converlir Ios Ires indim principam de TE entre si.
d a r r : d : a=(nl+n1)z v = fl
[a=M]=4,1143 r = i w m
50 -70 1./0,5(1I4‘l + 4,1143
4,11432 -0,0353
v : = 0,00 2
(0,5042 +4,1143)’ 7
Conversidn de r a d. En el ejemplo dc r contébamos con un valor igual 3 0,74. Vamos
a calcular e1 valor dc d equivalente a1 valor empirico obtenido an r. Es necesariu fijar
unos tamafios de los grupos para hacer los célculos; lo menus comprometido es
asumir que los dos grapes scan del mismo tamafio. Adviértase que cuando 105
tamafios son iguales (n; = r12) entonccs a = 4. También vamos a calcular 1a vmianm
del valor convertido, obtcniendo previamente la varianza dc r mediante [2.40]:
d=M = 2,200
1.)] - 0,7’42
Ninguno de los indices anteriores sirve, par ejemplo, cuando se pretende sintetizar un
valor puntual. Asi, en los esmdjos epidemiolégicos interesa estimar la proporcién de
los que presentan una detenninada caracteristica, o prevalencia. En el estudio dc]
comportamiento puede interesar, por ejemplo, la proporcién dc personas que sucum-
ben a la prasién de la autoridad en la tarea dc Milgram o la de los m'fios de un tramo
concrete de edad que muestran cierta ilusibn perceptiva u optan por tma interpretacién
concreta de ma figura ambigum En estos cases each estudio proporciona 1a
proporcién dc cases que cumplen una cierta camcteristica, por lo que esta misma
proporcién se conviette directamente en el indice de TE. Si :2 es el nfimero dc
individuos eswdiados y 11,, el de los que presentan 1a caracteristica A, la proporcién y
su varianza estimada son
p="_a [2.52]
n
”p = P '(1— F) {2,513}
K
Logw)=Log,[fi] [2.54]
Su varianza estimada es
1 + 1 = l [2.55]
”Leeann; =
"-17 n-(l-p) n-P-(l-p)
Naturalmente, tras realizar todos los anilisis estadisticos los valores finales se
deben flansformar inversamente, de nuevo del valor del legit a1 de la proporcién,
em)
= . 2.56
p emJ+l [ ]
X = if [2571
v_ =5: [2.53]
n
o 20 - 0 80 2,32
=o,ooss
_fl _ v = ; =o,00027 v3 = —
_ 600 ‘ p 500 600
= 0’20 12 93
IC95%(f) :12,s :l: 1,96 - Joposs = { ’
12,62
X = 12,8
= —1 = 0,01042
MW 600 - 0,20 - 0,30
IC95%[Logit(P)]1'L336i1’96' 0'01"“ ={—1,186
1586
80,619
P=m=°fis
La férmula [2.56] también se pucdc utilizar para devolve: a la métrica de las
proporciones los limites confidenciales calculados en tome al log-it. En el ejemplo nu-
mérico, 105 limitcs confidenciales, —l,186 3? —1,586, transformados a proporcionw con
la férmula [2.56] sedan 0,234 y 0,170, respectivamente.
también coeficientes dc correlacién dc Pearson, por lo que se pueden aplicar los pro-
cedimientos indicados en apaxmdos anteriores. Sin embargo, no ocurre lo mismo con
la consistencia interna, que :1] no ser un coeficicnte dc correlacién exigirfi indices
wpecificos. Ademés, debido a la facilidad para obtenerlo, lo mas frecuente ha sido
que la fiabilidad se haya valorado con el cueficiente alfa de Cronbach, el principal
indice de la consistencia interna de 1111 test (Hogan, Benjamin y Brezinsky, 2000). En
estas condiciones se deben cmplear transfonnacioncs adecuadas del cocficientc alfa,
entre las que podemos destacar la de Hakstian y Whalen (1976) y la propuesta par
Bonett (2002), cuyas fénnulas y las de sus vafiauzas son las siguientes:
_ 2'} [2.62]
v”_(j—1)-(N—2)
En ms férmulas N es el nfimero de individuos a los que se ha administrado 31
test y j es el nfimero de items. Nahualmente, una vez obtenidos los indices com-
binados y sus intervalos dc cunfianza can cualquiera de estos indices, para informar
de los resultados finales se aplican [as u’ansfonnaciones inversas para expresarlos en
valores de 0.. Asi, los indices THW y T]; se devuelven a la métrica del coeficiente alfa
mediante las férmulas:
a = 1—13, [2.63]
o: =1—e"- [2.64]
. __13-4o-119-(1—0,s4)’” =0,000567
HWYWGH 12,. (40-1).(9.120_11)2
0,5896
[695% :0,5429 :l:1,96 - 1/ 0.000567 = {0 4962
Efecto nulo 0 0 1
Efecto bajo $0.20 $0.10 0’72 0 L40
Efecto medic $050 10,30 0,44 0 2,28
Efecto alto i030 i0,50 0,27 0 3,74
Cohen (1988) renounce que estos valores son bastante arbitrafios y pueden con-
ducir a conclusionw poco fitiles. Sin embargo, mantiene que se pueden considerar
coma criteria-5 razunables para persouas razonables. A falta dc otras guias, estos crite-
rios tienen la ventaja de que son fijos y cémodos, pennitiendo hacer comparaciones
compartidas dento de un mismo campo y con respects a otms campus. Otra estra-
Capitulo 2. Una méIflea nomfln: lndloes de tamafio del efecto 63
tegia para dal- una interpretacibn préctica 3.] TE obtenido en un asmdio, 0 al efecto
medic obtenido en un MA, as compararlo con 103 TE obtenidos en investigaciones
previas 0 con los resultados dc MA previos sobrc el tema o temas similares. En resu-
men, la principal recomendacién que debe hacerse cuando se interpreta un tamafio del
efecto, sea de un estudio individual 0 de un MA, es contextualizarlo en el campo pro-
pio de estudio. En este sentido se pronuncian numerosos trabajos recientemente publi-
cados (3.3., Henson, 2008; Hill, Bloom, Black 3; Lipsey, 2008; Valentine y Cooper,
2003; Wilcox, 2006).
Estimacién combinada
y heterogeneidad
Con cste capitulo iniciamos 1a presentacién de los métodos estadisticos de uso més
frecuente e11 MA. Para iniciar dichos anéflsis es precise disponer previamente de la
base de datos meta-analitica sobre la que se va a trabajar (véase e1 epigrafe 1.3). La
base de datos adopta la forma de una matriz en la que cada fila contiene los datos
extraidos de cada estudio y las columnas nos permiten identificar las diversas va-
riables que se pretenden analizar. De entre dichas variables cabe mencionar la que
contendré 105 TE obtenidos en cada estudiol. Otra variable estrechamente relacionada
con la anterior es la varianza intraestudio dc cada TE (es decir, la varianza debida a1
error de muestreo aleatorio; en el capitulo 2 hemos expuesto las férmulas de 103 in-
dices dc TE de uso més fi'ecuente). En m1 MA e1 TE constituye la variable dependien—
te cuya variabilidad se pretends estimat- y explicar. Para explicar la variabilidad de 103
TE, la base de datos debe contener también las variables moderadoras que se han
codificado de cada estudio y que ounstituirain las variables independientes o
predictoras (e.g., el tipo de tratamienm, su duracic'm e intensidad, e1 tipo de disefio, 1a
mortalidad experimental, la edad madia de la muestra, el porcentaje de wanes, etc.).
I For simplicidad en la exposicién, hare-mos alusién a1 TE cmno si fuera una finica variable registrada en
cada estudio. Esta sci-Ia lo cal-recto 3i Ins estudios empirioos repm'tuan un I'mioo resultado (£23., mm finica
variable dependiente). Pero es habitual que en un MA. se disponga dc varias variables dependienm, tuna:
COED difmntes TE 33 hayan tenido que calcular en los estudios primaries (2.3., m1 TE para medidas d:
ansiedad, otro para medidas de depresién, atro para autoestima, etc).
65 Meia-anéllsis en Clenclas Suclales y de la Salud
E1 modelo de efecto fijo (EF) se basa en el supuesto de que los estudios incluidos en
an MA wtiman un TE paraméu'ico comfin a todos ellos. Es decir, la vafiabilidad que
puede observarse entre 105 TE de los estudios se debe solo 31 error de muestreo, o va-
riabilidad intraestudio o, lo que es lo mismo, al hecho de que los estudios han
utilizado muestras de sujetos diferentes (Konstantopoulos y Hedges, 2009).
El planteamiento formal del modelo dc EF implica asumjr que disponemos de un
conjunto de 1: estudios independientes, en el quc T1, T2, ..., Ti, ..., Tk, son las estima-
ciones del TE poblacional comfin a todos ellos, 6. Téngase en cuenta que aqui el tér-
mino Ti se puede referir a cualquier indice del TE tipicamente utilizado an MA (e.g.,
la diferencia dc medias estandarizada, cl coeficiente dc correlacién dc Pearson, 1a
M611 dc ventajas, etc). La fignra 3.1 ilustra de forma gréfica el modelo dc EF.
Figura 3.1. Representacién gréfica del modelo de EF. Los valores T1. T2. ..., T}, Tx
representan estimaclonas dal TE obtenldas en los estudios primaries. 9 represent al
TE paraméuico. que es swim a todas las astimadonas, T1.
Estudio 1 Estudio 2
l
Estudio i Esmdio 1:
Hedges y Olldn, 1985) de fies la media de los valores dc Ti, ponderada por la inversa
de sus mpectivas varianzas intraesmdio, of:
ZwFF-T.
Tm») = x [3.1]
' 2w.”
.I'
wF-_ _ [3.2]
0':
“a” = L2 [3.3]
T” _ZWEFT [3.4]
Z—‘wf’
1 For ejemplo, e1 indies dgferencia media tipl'ficada, tal come as via en el capitulo 2, requiem del 00-
nacimiento delostamafiosmuesu'alesydelTEparaméuioo, tialqueptretende esfimarparacalcularsuva—
rianza intraestudio, w. A] desoonooerse este parémeim, la vmianza intraeatudio se eatima impumndo en la
férmula [2.8] la estimacién d obtenida para use estudio. En los capitulos 3, 4 y 5 sustituimos v; par 5-} para
reflrimns a la varim inflamdio, pot razones expositivas.
Capflulo 3. Estlmaclfin comblnada y heterogeneldad 69
EF _ A E? = TEF+|z_
t l at:|-6'TEF
a :1"up 35
111m): 5W [3.6]
z __ 3—)
1'1”
1;“ [3.7]
que bajo Ho se distribuye aproximadamente segfin 1ma Icy normal tipificada, MO; 1).
Los programas estadisticos a1 uso reportan e1 nivel critico de probabilidad, p,
asociado al valor dc] estadistico de contraste, z, de forma que para 111: determinado
nivel dc significacién (a) la hipétesis nula seré rechazada si se curnple quep < a.
sociodemogrfificas de las muestras. Rmulta mas realista asumir que los estudios difie-
ten entre si en funcién de dos fuentes dc variabilidad: la variabilidad debida :11 error
dc muesu‘eo, o variabilidad intraestudio (tal coma asume cl modelo dc EF) 3! la varia-
bilidad interestudios, que se debe al hecho de que cada estudio estima a 1m efecto
paranlétrico propio fli‘ield, 2003; Hedges y Vevea, 1998; Hunter 3! Schmidt, 2000;
Schmidt, 0h y Hayes, 2009).
El modelo dc EA contempla estas dos fuentes de variabilidad. En concrete, des-
de este modelo se- asume que el TE obtenido en cada estudio, Ti, estima a un efecto
patmnétrico propio, 6}, y que a su vez los efectos paramétricos que son estimados por
los estudios constituyen una muestra aleatoria (0 al menos representativa) de una
poblacién dc efectos paramétricos. En la figuta 3.2 se ilustra gréficamentc cl modelo
dc EA.
Flgura 3.2. Represantacidn gréfin dal modelo de EA. Los values T1, T2, ..., T; ...,
Tx repmsentan aslimacianes del TE obtenidas en Ios estudias primarius. 01. 02,
9i. ..., 9n, representan los TE paramétfioos que son estimados por Ice TE mues-
Iralas. Ts. A an vez, Ios TE paramétricos 5e suponen repmentativos de una distribu-
clon da TE poblaclonales, ajustada a una lay normal con media [19 y varianm 12.
9i “ N019; 72)
9 1 9
/ 2 © 6
\ i © 6
\
k
Tum) = i i [3.8]
siendo wf" cl factor dc pondcracién dcl iésimo estudio, que sc calcula como la in-
versa de la suma de las varianzas intraestudio e interestudios paraméu'icas de los es-
tudios:
m _ 1 [3.9]
w, of + r2
W-r
m_; ' ‘ [3.11]
52 = m [3.12]
C
Q=ZW(1}-11”)2 [3-131
dc forma que if” y T,” quedan definidos pot [3.3] y [3.4], respectivamente. El
valor dc c se obtiene mediante
(w
c = 211,!” _Z::_‘)2 [3.14]
Téngase en cuenta que el célculo dc] estimador f 2 podria dar lugar a valm
negativos, en cuyo caso se iguala a 0. Una vez disponibles 103 TE individuales, Ti, 3118
varianzas inhaesmdio, &f , y una estimacién de la varianza interestudios, f 2 , es
posible estimar e1 efecto media paraméu-ico, flg, mediante las férmulas [3.10] y
[3.11].
A partir del TE medic estimado, T,“ , cl siguiente paso en el anilisis estadistico
consistiré en construir un intervalo de confianza en torno a este para estimar el para-
mm #9. El procedimiento habitual an MA es asumir una distribucién normal para el
astimador 11E” , dc fauna que el intervalo de confianza se obtiene mediante (Shadish y
Haddock, 2009)
Ed _ A EA =
T“+|z_ |-&(TE" =1"
i 1 ME I up 115
6w“): 1 [3.16]
2%.“
El inter-vale dc confianza permite, a su vez, contrastar la hipétesis nula de que el
efectn media paramétrico es nulo, Ho: #9 = 0, comprobanda si e1 valor 0 se encuentra
dentro de los limites confidenciales. Esta hipétwis también se puede contrastar me-
diante e1 estadistico de contraste:
E!
z = “Ti“ [3.17]
bajo cuya hipbtesis nula se distribuye aproximadamente segt'm una ley normal tipi-
ficada, N(0;1). La decisién estadistica sigue los mismos pasos qua con el modelo dc
EF: la hipétesis nula seré rechazada si se cumple que el nivel dc probabilidad
asociado a1 estadistico dc contraste, p, es menor que a.
El intervalo de confianza definido en [3.15] y el estadistico de contraste
plantcado en la fémlula [3.17] asumcn lma distribucién normal para cl mtimador 1:54 .
Sin embargo, taste supuesto no tiene en cuenta la incertidumbre que se produce en los
célculos por el hecho dc tenet que estimar la varianza interestudios (y también las
varianzas intraestudio), de forma que la féqla para la construccifin del intervalo de
conflanza basada en la distribucién nonnal 3 veces prescnta un pobrc ajustc dcl nivel
dc confianza nominal, tanto mfis cuanto mayor we 61 valor de la varianza interestudios.
Par e110 Hartung (1999) propuso una fénnula para la construccién de intervalos de
confianza que en lugar de emplear la disuibucién normal asume una distribucién tde
Student con k — 1 grades dc libertad, y un estimador mejorado dcl error tipico dc Tf“
(Sénchez-Meca y Main-Martinez, 2008, 2010):
M m: . 1m |-&‘(T“
T“+|r_ - =1"m [3.18]
T. iltl—WZI a b : ) {EH—Ir kmfi'filfi ‘g Tin:
siendo 6-111“) e1 error tipico mejorado del TE combinado, que se obtiene mediante
74 Meia-anéllsis en Glendas Socialee y de la Salud
EA
r: .31TH [3.201
0'
Q=zwo(z-2:H)‘ ma]
Bajo la hipétesis nula, el estadistico Q se distribuye segfin Chi-cuadrado de
Pearson con (k — l ) grados dc libertad. En consecuencia, se rechaza dicha hipbtesis si
e] valor p asociado a1 resultado del estadistico Q es inferior al nivel de significacién;
as decir, sip < a.
El contraste de esta hipétesis nula con el estadistico Q 5010 nos informa dc si
existe o no heterogeneidad estadisticamente significativa, para no nos informa del
grado de heterogeneidad exhibida por 105 TE. Ademés, el estadistico Q tiene baja po-
tencia estadistica (:11m e] m'lmero dc estudios es pequefio (k < 30; Sénchez—Meca y
Marin-Martinez, 199D. Para paliar estos problems, Higgins y Thompson (2002;
Higgins, Thompson, Decks y Altman, 2003) propusieron e1 indice 12, que es un esta-
distico qua informa del grado dc heterogeneidad real exhibido por 105 TE. La hete-
rogeneidad “real” so refiere a la provocada, no por el error de muestreo aleatorio
inflaestudio, sine 1301' la existencia de un conjunto dc caracteristicas que hacen que los
estudios scan diferentes entre si (e.g., diferentes edades, diferente distribucién por
géncro, diferente gravedad del trastorno, diferentes manipulaciones experimentales,
etc.) E1 indice 12 se calcula mediantc
I: = w x l o m / a [3.21]
que proporcionan los estudios primarios (obtenidos en su mayoria con la férmula ge-
nérica [22]). El aspecto es una especie do “basque” dc intervalos, lo que da nombre a
la figura. E1 tamafio minimo dc estudios para poderlo emplear es 2, ya que con uno
solo ni siquiera hay un “bosque”. No hay acuerdo sobre una fecha concreta o una
publicacién especifica en la que fuera propuesta por primera vez con el nombre forest
plot. Parcce set que los primcros bocetos apareccn en los afios ochcnta, pero cl tér—
mino es utilizado pot pfimera vez en 1996, mientras que la forma bésica definitiva es
de 1998 (Lewis 3] Clarke, 2001).
E1 form: plot (FP) se construye dibujando tantas filas coma estudios se integran en el
MA. En la pane inferior se incluye una escala que permits interpretar [as magnitudes.
En cada linea se representa cl intervalo dc confianza del cstudio correspondientc, me-
diante una linen cuyos extremes se corresponden con los limites del intervalo de con-
fianza asociado a la estimacién del TE dc ese estudio. La estimacién puntual se repre-
senta con algl'm simbolo convencional (circulos, cuadrados, wcténgulos). También 3e
incluye una linen vertical que representa la ausencia dc efecto o efecto nulo.
Los primeros FP empleaban cuadrados del mismo tamafio para representar 1a
estimacifin puntual de todos los estudios. Peru de esa forum 105 estudios visuahnente
mils llamativos (lineas més largas) y que podian sesgar 1a interpretacién visual de los
resultados eran los de intervalos mayores. El problem es que los estudios can inter-
valo mayor son los que emplean manor tamaflo muestral. Lo que se pretends as pre-
cisamente lo contrario, que en la valoracién global los estudios tengan tanto mayor
peso cuanto mayor sea su muestra. Para corregir esta dificultad se adopté 1a forma que
aparecc en las figuras 3.3 y 3.4, en las que los estudios dc mayor tamafio mucstral
(mayor peso) se representan con un simbolo (un cuadrado) mas grande. El grade de
homogeneidad entre los resultados de los estudios se refleja gréficamente en el grado
en que los simbolos que representan las estimaciones estén en verticales préximas.
Aunque las lineas asociadas a los estudios individualw constimyen el elemento nu-
clear del forest plot, hasta el punto de haber servido para darle Hombre, hay en dia in-
cluye casi obligadamente ottos elementos que completan al basque dc intervalos y
que facilitan su interpretacién. Otros elementos estén mas ligados a las preferencias
del meia—analista (Ried, 2006). De entre todos ellos los mas importantes y de uso més
fi'ecuente son los siguientes:
Capflulo 3. Estlmacldn comblnada y heterogeneldad 77
Si hemos decidido aplicar el modeler de EF, para obtener una estimacién del TE
medic tendremos que: (a) calcular la cstimacién de la inversa de la varianza intraes-
tudio, a!” (4_. columna de la tabla 3.1), de cada TE segfin la férmula [3.3]; (b)mu1-
tiplicar cada TE, d1, por dicha inversa (5fI columna de la tabla 3.1) y (c) aplicar 1a
férmula [3.4]:
,. J.
ZWF ‘‘ = 122,915
2:H = — — =1,572
2w,” 78,171
4 En el capitulo 2, este indies figura represenlado comp dd: (filmula [135]) y su val-in so calafla
mediante [2.37]. For simplicidad, aqui nos refefiremns a este indie: coma d.
Capflulo 3. Estlmacldn comblnada y heterogeneidad 79
1
W1): fi‘ m = 0,113
A continuacién consu'uimos e1 intervalu de confianza con la férmula [3.5]:
1,572+o 21 = 1,793
1,572i(1,96)(0,113)= ’2
1,572 - 0,221 = 1,351
La puntuacién 1,96 componde a1 percentil 0,975 (es decir, l — a ! 2) de la
distribucién normal tipificada. Por tanto, asumiendo cl modclo dc EF 1a estimacién
del TE paraméirico es df” = 1,572 , con limites confidenciales al 95% [1,351; 1.793].
A1 no encontrarse el valor 0 (efecto nulo) dentro del intervalo dc confianza, podemos
generalizar la cficacia del tratamiento a la poblacién dc estudios idénticos a 103
incluidos en el MA. Esta misma decisic'm estadistica se puede alcanzar conuastando 1a
hipétwis nula Ho: 0= 0 con el estadistico de contrasts planteado en la férmula [3.7]:
. ,.
“it"w—Z—“WF
2%”?
= 78,171 _722,710=
73,171 68,926
{hm-d
a ‘_21,391
2.:
d =r—_—=1,777
' 2w? 12,036
i
Tabla 3.2. calculus bésious en el rmdelo the EA asumiendo una distribucién normal.
La estimacién par intervalo del efecto medic paraméu-ico puede hacerse de dos
forums. La 11155 habitual consiste en asumir una distribucién normal para el estimador
df“. En ese caso, 61 error tipico de dicho estimador se obtiene mediante la férmula
[3.16]:
a{d, )_ W _ — W 0,288
A m _ l _ l =
o,564=2,341 1,777+
1,777_(1.96)(0,288) {L777_0,5
+
=
54=1,213
encontrarse e1 valor 0 (efecto nulo) dentro del intervalo de confianza, podemos ge-
neralizar la eficacia dc] Iratamiento a una poblacién dc estudios no exactamente
idénticos a los incluidos en el MA. Esta misma decisit'm estadistica se alcanza con-
trastando la hipétesis nula Ho: pg= 0 con el estadistico planteado en la férmula [3.17]:
Z: a“ 1777
- =’—=6 7; <0,0001
a“a?) 0,288 ’1 P
Mejor que asumir una distribucién normal as aplicar cl procodimiento propuesto
pot Hartung (1999) para construir m1 intervalo de confianza en torno al efecto media,
el cual asume una distribucién I de Student con k — 1 grades de libertad y un esti-
mador mejorado del error tipico de df“. Los célculos necesarios para aplicar el
procedimiento de Hartung se muestran en la tabla 3.3.
df" _ 1,777
df‘ — 0,303 —5,86,p—0,0002
——(—]&,
Tabla 3.4. Comparacifin de Ins pesos asignados a Ins astudios sagfin Ias modalos
da EF y EA.
Esmdio di wf" 13:?" mm) mm)
1 3,233 4,900 1,075 6,27 3,93
2 3,076 5,741 1,111 7,34 9,23
3 1,306 3,333 1,013 4,90 3,42
4 1,330 9,823 1,203 12,56 10,03
5 1,075 12,422 1,240 15,90 10,30
6 0,916 9,253 1,199 11,86 9,96
7 1,270 1,734 0,768 2,22 6,38
8 0,637 14,306 1,256 18,30 10,44
9 2,044 3,331 1,192 11,36 9,91
10 3,432 2,735 0,921 3,56 7,66
11 0,942 4,473 1,053 5,73 3,75
Totalw -- 73,171 12,036 100,00 100,00
Si comparamos 10s resultados obtenidos con los tres modelos de anfilisis aplica—
dos (EF, EA normal y EA mejorado) observamos que, en general, se alcanzan las mis-
mas conclusiones: e1 efecto media es de magnitud alta, estadisticamente significativo
y reflejando una magnitud muy elevada a favor de la eficacia de los tratamientos. Sin
embargo, también se observan diferencias que es precise comentar. La tabla 3.5 re-
sume cstas diferencias. Aunque los efectos medias obtenidos con los modelos dc EF y
Capflulo 3. Estlmacldn comblnada y heterogeneldad 85
EA son mu}.r similares (1,572 3; 1,777, respectivamentef, los errores tipicos discrepan
entre si. Asi, el error tipico bajo el modelo de EF (0,113) siempre seré. manor (0, a lo
sumo, igual) que el obtenido bajo cl mode-lo dc EA en sus dos modalidades (0,283 y
0,303). E110 se debe a que el modelo de EF solo reconoce vadabilidad intraestudio,
mienu'as que el modelo dc EA incluye dos fuentes dc variabilidad al pretender estimar
a] cfccto medio de una poblacién (hipotética) dc cfectos paramétricos: la variabilidad
intraestudio y la interwtudios. Como consecuencia, la amplitud del intervalo de
confianza bajo el modelo dc EF (0,442.) siempre seré manor (0, a lo sumo, igual) que
la del modelo de EA (1,128 y 1,350).
A an vez, dent-o del mode-lo dc EA vemos que el procedimiento nonnal reco-
noce una menor variabilidad (0,288) que el procedimiento mejorado (0,303). Esta
diferencia se hace todavia mayor a1 comparar la amplitud de sus respectivos inter-
valos dc confianza (1,128 y 1,350, respectivamentc). E110 se debe a que los proce-
dimientos “normal” y “mejorado” dentro del modelo dc EA 110 solo difieren entre si
en la estimacién del error tipico, sine también en la disuibucién teérica asumida
(nonnal y 1 dc Student, respectivamente). Esta hace que el procedimiento dc EA
mejorado presents siempre rmltados més conservadores que el de EA con
distribucién normal. Ello se debe a que el procedinfiento mejorado reconoce la incar-
tidumbre que se produce a1 tenet que estimar la varianza interestudios, mientras que el
modelo dc EA basado en la distribucién normal 110 renounce tal vatiabilidad.
Mgicamente, cuando se decide aplicar un modelo de EA es mas apropiado utilizar el
procedimiento mejoradofi.
Tabla 3.5. Rasuman comparative de Ins rasultados obtanidos con los diferentes modalos
estadlstioos.
Estadistico de
Mode-Io estadistica k d. &(d_) AI contraste
EF 11 1,572 0,113 0,442 13,9]
EA: Normal 11 1,777 0,233 1,128 6,17
EA: Mejorado 11 1,777 0,303 1,350 5,86
1:: nfimem de esmdios. (1.: TE media. 61d): error tipico del TE media. AI: amplitud
dc] intervalo dc oonfianza.
5ObservequelosdosmodelosdeEAielnormalyelmejmado)no difierenentresienelmododecflculo
del TE media; en ambos cste se obtiene con la farmula [3.8].
‘Larazéndepresentar e1 modelodeEA normalapesardeno serelmfisrecommdahlesedebe aqua,
desafomnmdmnente, la inmensa mayoria dc [05 MA que se publican aplicau este pmoedimiemto en lugar
del mejorado. Nuesu'a intencién a1 incluirlo en nueslra exposicifm 03, pm, permitir a1 lector la pusibilidad
de replicar los resfludos dc cualquier MA qua haya aplicado est: procedhniento.
86 Meia-anélisis en Clenclas Somalis y de la Salud
_
2v?" 4F”] _
[I
. _ (d;E F) 2 _ —Zfi’rfl _122,91 51_
53—;w 453,307 73,171 -6o,o4
i
de confianza al 95%. Los pesos estén en ftmcién del modelo estadistico asumido. En
este caso hemos representado e1 forest plot asumiendo un modelo dc EA. En la parte
inferior del gréfico figura e1 efecto medic obtenido (1,78), junta con su intervalo de
confianza (1,21 — 2,34; utilizando e1 procedimiento normal, no el mejorado de
Hartung), asi como la varianza interestudios (T1am2 = 0,73), cl estadistico Q dc hete-
rogeneidad (Chi2 = 60,05), sus grados dc libcrtad ( d f = 10), 311 nivcl dc probabilidad
(p < 0,00001), e1 indice [2 = 83% y la prueba dc siglfificacién del efecto medic para
contrastar la hipétesis nula de un efecto media en la poblacién igual a 0 (Z = 6,17, p <
0,00001). Salvo diferencias por redondeo, obsérvese la similitud de los resultados
obtenidos en los aparlados anteriores y los presentados en el gréfico, que se ha
confeccionado mediante el programa de MA RevMan 5.2, de la Colaboracién
Cochrane (Review Manager, 2008).
Del mismo 1110110,“. pucde confeccionar elforest plot asumiendo un modelo de
EA mejorado, o también asumiendo un modelo dc EF. Las diferencias entre estos
fires: plats estarian finicmnente en el valor del efecto media, 511 intervalo de
confianza y la pmeba de significacién estadistica del efecto media. A efectos com-
parativos, la figura 3.4 presents. e1 forest plot para el mismo ejemplo, pero asumiendo
un modclo dc EF.
Figura 3.3. Forest plotde los 11 istudios del ejemplo. Std. Mean Dlfi‘emnce: indioe del TE 'dife-
rancia media tipificada". SE: errnrtipino. Weight peso especifiou asignado a cada TE. iv, Random,
95%01: modelo de EA (Random) mediante Ia aplicacién de pesos dafinidas como la inversa de la
varianza (M a lntervalos da confianza al 95% (95% Cl). Tauz: esflmacién 63 la varianza interes-
tudios por al méhodo da DerSimonian y Laird. Chiz: estadlstico Q. df: grados de Iibertad del esta-
disfioo 0.
Std. Moan lknnnn Std. Hun Eiffel-mo
M or Wow 8w. Ian u m SE W W, Random. 9515 CI W, Random, 95% Cl
Edudo 01 3.233 0.4517 8.9% 323 [2.35. 4.12] —'—"
Esludo 02 3.013 0.411'4 92% 3.08 [226, 3.89] —'—
Estmio 03 1.306 05108 8.4% 131 9.30, 2.31] —'_
Esmdo 04 1.38 0.3191 10.0% 1.88 [1.25, 2.51] —'—
Estudo 05 1.075 02836 10.3% 1.0? [052. 1.63] —'—
Ealmlo 06 0.918 0.3284 10.0% 0.92 [027, 1.56] —'—
Eslucio 07 1.27 0.7594 6.4% 1.27 [-022, 2.76] '
Eetudo 05 0.68? 02644 10.4% I169 [0.17, 1.21] “'—
Esludo 09 2.044 0.3355 9.9% 2.04 [1.39. 2.70] —'—
Estudo 10 3.482 0.5992 7.7% 3.48 [2.31. 4.66] — "
Esmdo 11 0.942 04725 8.8% I194 [0.02 1.87] —'—
Figura 3.4. Forest plotde los 11 esludios del ejemplo. Std. Mean Difl‘emnoe: indice del TE 'dife-
rencia media tipificada'. SE: error tipico. Weight peso especifico asignado a cada TE. IV, Fixed,
95%Ct rnudelo do EF (Fixed) mediante la aplicacién d9 pesos definidos oomo la inversa de la va-
rianza (IV) a intervalos de canfianza al 95% (95% CI). ChF: astadisfioo 0. df. grades da liberlad clel
estadistico Q.
m u m Diflmnea sun-mm
Morfiubgmn magnum 8E Weight mmmu N,F|ud.!§%¢l
Esmdn m 3233 0.4517 3.3% 323[2.35,4.12] —-|>
Eamon: 3.076 was 7.3% mamas] —-—
Estuclooa 1.306 05103 4.9% 1.31m.3o,2.31] —-—
swam 1.33 03191 12.6% 1m[1.25,251] -—
59mm 1.075 0.2335 15.9% 1.07m.52,1.sa] - -
EstucInOB 0.915 03234 11.9% o.92m.27,1.sa] —-—
ammo? 127 0.7594 2.29; 127141.22, 2.76] -—-—
EetudoOB 0.637 02644 18.3% om[0.17,1.21] - -
Issuance 2.044 03355 11.4% magnum —-—
swam we 05592 3.5% a43[z31,¢.ss] —-*
Estudo11 0.942 0.4725 m 0.54 [0.011.371 —-—
9 La razén de que la existencia dc sesgo dc publicacifin dé Inga: a una ounelacién negativa enu'e TE 3
tamafio mnestral s: explica por el siguienm argumeuto. El sesgo de publicacién se da cuando 5010 se
publican estudios con resultados estadisticamente significafivos. Los resultados estadisticamente
significativos se dan cuando los mmdios animal] TE bajos can tamafios muestrales altos, o bien TE
mediosfaltos con tannins muesh‘ales de walquier magnimd. L03 estudios con TE bajos y mas
muesu'ales bajos nu aluanzan la significacifm estadistica y, en cunsecuencia, no logran publicame. Esta
desequilibrio hace que los esmdios publicados (que son los que alcanzamn la significacién estadistica)
Capflulo 3. Estlmaclfin comblnada y heterogeneldad 91
EA debe hacerse con extrema precaucién. Se han propuesto otras solucionas a este
problema, tales coma las recogidas en Bonett (2009), Shuster (2010) 0 en Henmi y
Copas (2010) que, por limitaciones de cspacio, no podemos presentar aqui.
Flgura 4.1. Ramsentacldn gréflm dal modele- da EF para una variable modaradora cualihtiva con
dos mtagorias. Los valoras Tu: T21: - ' -: 1;” Tm representan esflmaclonas del TE obtanldas
Categona 1 Categorla 2
81 6'2
2*? 4;,
5" = . - _ [4-1]
T“ 2»?
siendo 1.1;?" = 1/5}; cl factor dc ponderacién de cada TE pertenecientc a @611 categoria
de la variable mode-radon. La varianza de cada efecto media estimado viene dada per
l [4.2]
&1(1:‘1")= .
’ 5w?
lAunqucWWdeesbempfidoyaapmciemnmelmtmimJumpcfimmaquipmficflimh
locum.
Capitulo 4. Anallsls de moderadoree cualilatlvos 97
E? RF _ a
T3? ilzl—mrzl ‘ 6(11?)= {11" + '21—"l . a?" )— Twp [4.3]
11-5}? — lzl—afz '&£?) =Tinf
TEF
z = _ "H. [4.4]
3(a- )
bajo cuya hipétcsis nula se distribuye aproximadamente segfin una ley normal tipi-
ficada, MO; 1), de forma que, pm 1111 determinado nivel dc significacién (a), la
hipétesis nula seré rechazada si se cumple que p S a.
Una vez que tenemos una estimacién puntual y por intervalo del efecto para-
méuico de cada categoria de la variable moderadora, e1 siguicntc paso en los anélisis
implica comprobar mediante un contraste de hipétesis si 105 efectos paramétricos dc
dichas categorias son estadisticamente diferentes entre si, o si por el contrario son ho-
mogéneos. Si los efectos paramétricos son diferentes entre si, entonces podremos con-
cluir que la variable moderadma objeto de estudio realmente explica parte de la varia-
bilidad de los tamafios del efecto de los estudios. Alcanzariamos la conclusién con-
Iraria si se diera e1 rwultado opuesto (ausencia de diferencias estadisticamente signi-
ficativas entre los efectos paraméu-icos). El estadisfico que nos pennite realizar e1
conuaste de la hipétesis nula Ho: 61 = 6 = = 6!", viene dado por (Borcnstein et at,
2009; Hedges y Olldn, 1985; Marin-Martinez y Sénchez-Meca, 1998)
cf=iwfr-(rf-n”)z
1:1
[4-5]
donde If," es el efecto combinado estimado para la categoriaj y definido [4.1];
wf; representa In sum de los pesos de ponderacién de los tamafios del cfecto indivi-
duales correspondientes a la categoria j:
I:
~ ff = in"? [4.6]
H
93 Meh-anéllsls en Clendas Sociales y de la Salud
El término 1;” representa e1 efecto media estimado tomando todos los tamafios
dcl cfecto, independicntemente de la catcgofla a la que perteneoen (56 corresponds
con la férmula 3.1 aplicada coma si nodes 103 estudios pefleneciesen a una finica cate-
goria):
zw-z; [4-71
T. =—.
E" i j
2.3;”?
En la terminologia dc los modelos de ANOVA, e1 estadistico Qfi” representa 1a
suma dc cuadrados intergrupos, si bien en este caso es una suma de cuadrados pon-
derada por la inversa de la varianza intrawtudio de cada TE. El estadistico Q5”
puede denominarse “estadistico dc homogeneidad intercategorias” o “intergrupos”. Al
set Q? on si mismo una ratio entrc variabilidad inter- e intragrupo, se puede utilizar
sin necesidad de recurrir a1 estadistico F tipico del ANOVA para contrasmr la
hipétesis nula. Asi puss, bajo la hipétesis nula de que todas las categoflas de la varia-
ble moderadora tienen cl mismo efccto pammétrico, cl estadistico Q? 36 distribuye
segfin Chi-cuadrado dc Pearson con m —- l grades dc libertad, siendo m e] mime-re de
categorias dc dicha variable moderadora. En consecuencia, dicha hipéteSis se rechaza
si el valor p asociado a1 resultado del mtadistico QfF es inferior al nivel dc significa-
cién, a; as decir, si p s a.
El modelo dc ANOVA dc un factor ponderado que estamos presentando permite
también comprobar si, para cada categoria de la 1variable moderadora, los tamafios del
efecto individuales son homogéneos en tame a su valor media o si, por el contrario,
todavia exhiben heterogeneidad més allé de la que se puede explicar por 61 error (16
muestreo aleatorio. Con este propésito, para cada categoria de la variable moderadora
se calcula un estadistico dc “homogeneidad intracategoria”, Q”, que se obtiene me-
diante (Konstantopoulos y Hedges, 2009) (se corresponde con la. férmula [3.13], pero
aplicada por separado a 103 1;,- mtudios de cada categoria)
Esta hipétesis nula global se contrasta con el estadistico QW, definido como In
sum de los estadisticos Q.“ definidos en la férmula 4.8:
Q=Q§F+Qw [4.11]
0705: has) entre los efectos medics. El procedimiento a seguir as similar a] que se
lleva a cabo en una investigacién primaria (Konstantopoulos y Hedges, 2009).
Para cada comparacién o contrast: entre efectos medics se define e1 contrasts pa-
ramétrico que se pretende examinar mediante
&2(y})=c3&1(1;”)+c§“2(2:§F)+..-§a+c (Efflu-
4.14
+c26'2( ,EF)= c fi fl f [ ]
donde las varianzas de 105 TE} medics, 6-2(If?), quedamn definidas an [4.2].
Dc esta forma, es posible realizar contastes de hipétesis simulténeos del tipo Ho:
yr= 0, para explorar entre qua efectos medias existen diferencias estadisticamente sig-
nificativas mediante el estadistico:
a:
X2 = ”f’ .. [4.15]
a (w)
Bajo la hipétesis nula de 110 diferencia entre los efectos medics, e1 estadistico Xi
se distribuye segfin Chi-cuadrado dc Pearson con on grade dc libertad. Si cl contraste
en cuestién se hubiera planeado antes de la recogida de los dates (16] MA, entonces
estan’amos ante un contraste- a priori y el rechazo de la hipétesis nula tendré lugar
cuando e1 valor p de probabilidad asociado al resultado de la prueba estadistica sea in-
ferior a1 nivel dc significacién seleccionado; es decir, cuando p s a.
Si e1 contrasts as a posterior-i (no se ha planeado previamente), entonoes hay que
controlar la inflacifin qua sufre la tasa dc error Tipo I 31 realizar mfilfiples contrastes
dc hipétesis silnulténeos (Pardo y San Martin, 2010). En MA 56 ban propuasto dos de
los diversos procedimientos de comparaciones a posteriori existentes en la literatura:
los procedimientos de Bonferroni y de Schefi'é (Konstantopoulos y Hedges, 2009).
102 Mew-anélisis en Clendas Soclalas y de la Salud
tratamiento una variable cualitativa, el modo més apropiado de abordar esta pregunta
es aplicando un ANOVA meta-analflico. En este caso vamos a asumir que los datos se
ajustan a las condiciones del modelu dc EF y mils adelante reanalizaremos estos mis-
mos dates asumiendo e1 modelo de EM.
Tabla 4.1. Dates del MA sabre la aficacia do! tratamiento del tras’mrna massive-compulsive
an nifios y adolesoanlaas. agmpados sagfin el lipo de tratamianto.
Tabla 4.2. Célculo do Ins efactos medias d9 mda catagoria da la variable moderation y de sus
intervalas do confianza.
Mtamimm k,- dfi-p a'zwff (if i135 ' 5161.15?)
me 11 122,914ns,171 = 1,572 1fl8,171 = 0,0128 1,350; 1,794
Farms. 10 135,970!193,147 = 0,636 “198,147 = 0,0050 0,547; 0,825
Combinadu 3 5238784323 = 1,531 ”34,023 = 0,0294 1,195; 1,867
Total 24 3103701310541 = 1,002 1310,341=o,0032 0,891;1,113
TCC: terapia cognitive-conductual. Farmac; tratamiento farmacolfigico.
Tabla 4.3. Contrasts de la signification estadistim dal efecto medio de cada categoria de la
variable moderadora.
Para contrastar la hipétesis nula de que los tres efectos paramétricos son homo-
géneos, Ho: 61 = 92 = .93, aplicamos cl estadistico dc contraste definido en la férmula
[4.5]:
Q? =f1fiff-(s’ 41”)“ =
j-1
10
Farmac. 10 Q“ =21»?(du 41.686): =11,0011(1,619—0,686)2 +...=19,33
i=1
3
Combinado 3 s = Zfivg’wfi —1.531).2 =14,9477(0,355—1,531)‘ +... = 18,42
II]
Bajo la hipétasis nula de homogeneidad de los tamafios del efecto denim de cada
categofla de la variable moderadora, los estadisticus Q“; so disu'ibuyen segfin Chi-
105 Meta-anélisis en Clendas Soclales y de la Salud
cuadrado de Pearson can A; — l grades dc libertad (en numtro ejemplo, con 10, 9 y 2
grados de libertad, respectivamente). Los niveles criticos dc probabilidad obtenidos
can cada estadistico han side: Qw;(10)= 60,04, p < 0,00001; 9,919) = 19,33, p = 0,02;
3! 91.30.) = 18,42, p < 0,0001. Para m1 nivel dc significacibn a = 0,05 todos ellos re-
sultan ser estadisticamente significativos. Por tanto, podemos afirmar que los tamafios
del efecto de cada modalidad dc tratamiento no filerun homogéneos en term a su
efecto medic y, en consecuencia, qua deben existir otras variables moderadoras de la
heterogeneidad de los tamafios del efecto. Asi mismo, e1 estadistico dc homogeneidad
intracategorias global obtuvo e1 valor Q w = 97,79, que con k — m = 24 - 3 = 21 grades
de libertad, arrojé 1m valor p < 0,0001, llevéndonos a la conclusién de que no existe
homogeneidad global intracategorias en el ajuste de este modelo dc ANOVA.
Ademés de comprobar si existcn diferencias globalmente significativas 611m: 103
efectos medias con el estadistico Q33” , es posible realizar comparaciones a posteriori
para indagar qué categorias presentan efectos medics estadisticmnente diferentes. La
tabla 4.5 rccoge los calculus de las tres comparaciones simples posiblcs en nucstro
cjemplo: las comparaciones entre tratamicnto cognitive-conductual (TCC) var-m tra-
tamiento farmacolégico, entre TCC versus tratamiento combinado y entre 108 mm-
mientos farmacolégico y combinado. En dicha tabla se han utilizado las férmulas
[4.13] y [4.14] para calcular cada comparacién y su varianza. Téngase en cuenta que
en el cailcuh) de las vaIianzas, a] set comparaciones simples, los pesos de pondera-
cién, c}, valen +1 y -1 y que, a] ir estos elevados al cuadrado, equivalen a sumar las
varianzas de los dos efectos medics implicados en cada comparacién.
TCC “‘1
combmado
v7: = LTD-1.531 = 0,041 arm;2) = o,o123+ 0,0294 = 0,0422
Farmac. vs. . ..1 .
0 bin 1 V3 = 0,686 — 1:531 = 41,845 0' (W3) = 0,0050 + 0,0294 = 0,0344
Figura 4.2. Forestplofde Ins tamafios del efecto agrupados en funcibn del tipo de tratamiento
asumiendo un modelo de EF.
ammonium» “Immune:
Mora-gm MIL-Imam sew-m max-mama mmogmcl
11.1 Tupi: cum-comm
Emdln n1 3.233 0.4518 3.3% 323 [235, 4.12] —I—.
#5--
mound W W W ]
Capmflo 4. Analisls de moderadores cualllatlvos 109
T“ 2%}; [416]
" =W '
siendo 137:" una estimacién del factor de ponderacién 6ptimo, definido como la in-
versa de la suma de la varianza intraestudio del TE, as, y una estimacién de la va-
110 Meta-anélisis en Glendas Soclales y de la Salud
rianza interestudios, ff: #54 =V(&; +612). La varianza (161 TE medio de cada
categoria se define come
1. [4.17]
5201?) =
2%?"
Figura 4.3. Representacién gréfica del modelo de EM para una variable moderadora con solo dos
catagorias. Los valnres 1;], Tu: ,, ,, 1%., ,. ,, 1112 rapresentan esfimaciones del TE obtenidas an
Ins estudlos primaries, agrupadas an funclfin da la catagnria da panenencia. Los efectos parama-
trioos medias de cada cahegoria se representan por 14.1 y [192.
Wriable modsradora
cualitativa
Categoria 1 Categoria 2
Q1”N(flq;fia) 62w N04913:)
all - @ m
Muestreo aleatorio de Mucstrcu alcaturio dc
individuos individuos
[4.19]
Una vez que disponemos de 105 tamafios del efecto medias de cada categoria y
de sus varianzas (férmulas [4.16] y [417]), es posible contrastar la hipétesis nula de
que los efectos medics paraméu'icos de las m categofias son homogéneos, es decir,
Ho 1,11% = pa: = = F‘o. , mediantxe e1 estadistico Qf" (Borenstein et (11., 2009):
{5" —T.54Y
#l3-1‘
1 :
[4-201
donde wf" representa la suma de los pesos de ponderacién de los tamafios dcl efecto
individuales conespondientes a la categoriaj:
1:
El tén‘nino 1:“ rcprcscnta cl cfecto media cstimado tomando todos los tamafios
del efecto, independientemente de la categoria a la que pertenecen:
Eli—22w“ T
[4.22]
Z—‘w‘
El estadistico Qf“ definido en [4.20] represent: 13. suma dc cuadrados intergru-
pos ponderada. Bajo la hipétesis nula de que todas las categorias de la variable mode-
mdora tienen el mismo efecto media paramétrico, e1 estadistico Q“ 3e distribuye se-
gl'm Chi-cuadrado dc Pearson con m - l grades (1: libertad, siendo 2:: e1 nfimem dc ca-
tegorias dc dicha variable moderadora. En consecuencia, se podré rechazar dicha
112 Meia-anélisis en Clendas Soclales y de la Salud
La primera opcién que vamos a considerar consists en utilizar en los factorw de pon-
deracién de 105 tamafios del efecto 1a varianza interestudios estimada desde cada cate-
Capitulo 4. Mllsls de moderadores cuallhtlvos 113
goria del moderador par separado. De esta forma tendremos que calcular las varianzas
interestudios £12 , f: , ..., £13,. Siendo ff. 1a vafianza interestudios de la categoriaj, e1
método de los mementos nos permite calcularla mediante la férmula dc DerSimonian
y Laird (1986)
$1. =W
J C}
[4.23]
. 2W
c, £1w _::—w” [4.24]
i9“:‘20” ‘1)
If = j m j [4.25]
2";
J
114 Meia-anélisis en CIenclas Soclalas y de la Salud
Con objeto de poder comparar los resultados del ANOVA de EF con los del ANOVA
dc EM, vamos a reanalizar los datos del MA presentado en el epigrafc 4.2.1. En este
MA 53 comparaban los tamafios del efecto obtenidos en 11 estudios que aplicaron te-
rapia cognitive-conductual, 10 estudios que administraron tratamiento farmacolégico
y 3 estudios qua combinaron ambos tratanfientos en nifios y adolescentes con Imstor—
no obsesivo—compulsivo (Sénchez-Mcca et at, 2014).
Tabla 4.9. Célculo de las varianzas Intarestudios de cada camgorla da la variable maderadora.
Trafa— ..
mien” 1 Qua! 9; r: = [Q1 ‘0‘; ‘91”;
m: 11 60,04 68,9258 ff =[60.04—(11—1)]I68,9258=0.7260
Farmac. 10 19,33 166,8299 f: =[19,33—(10—1)]/166,8299=0,0619
Combinado 3 18,42 21,6192 ff = [18,42—(3—l)]/ 21,6192 = 0,7595
Una vez que tenemos las estimaciones de las varianzas interesmdios, el siguiente
paso consiste e11 calcular los pesos de ponderacién, fif‘, para cada TE, mediante la
fémrula 132;” = ma; + f j ) . Los calculus se- resmnen en la tabla 4.10. Obsérvese
cémo para cada categoria e1 factor de ponderacién se calcula con su correspondiente
varianza interesmdios.
Tabla 4.10. Resumen de los calculus de Ios factoras da ponderaoibn para el modalo de EM
utilizando astimaciones saparadas de la varianza interastudios.
El siguiente paso consist: en calcular [as tamafios del efecto medias de cada ca-
tegoria, sus varianzas y sus intervalos de confianza. El efecto medio de cada categoria
se calcula mediante [4.16], la varianza de cada efecto media mediante [4.17] y e] in-
tervalo de confianza mediante [4.18]. Partiendo de los datos recogidos en la tabla
4.10, wto: calculus se resmnen en la tabla 4.11.
La terapia cognifivo—conductual y el tratamiento combinado presentan efectos
medias de alta magnitud (1,777 y 1,747, respectivamente), mientras que el trata-
miento farmacolégico obtuvo un efecto medio de magnitud inferior (0,731), si bien
las tres modalidades dc Iratamiento obtuvieron intervalos de confianza en team a sus
efecms medias estadisticmnente significativos (ninguno de ellos contiene e] valor ce-
ro). Con propésitos ilustrativos, 1a tabla 4.11 también presenta cl efecto medic global
agregando todos los tamafios del efecto, que también resulté de elevada magnitud y
wadisticamente significativo.
Tabla 4.11. Célculo de Ios efectos medias de cada categorla de la variable moderadora y de
sus intervalos de oonfianza.
Trara-
miem k] d”m or«2 (du.
EA
) .-
d3 :l:1,96 .awfi‘
TCC 11 21.395611 2,0380 = 1,777 1f 1 2,0381 = 0.0831 1,212; 2,342
Farm. 10 56,1866f76,8454 = 0,731 1176,8454 = 0,0130 0,508; 0,954
Combimdo 3 6,113 113,499? = 1,747 13,4997 = 0,285? 0,699; 2,795
Total 24 83,6953l92,3831 = 0,906 1192,3831 = 0,0108 0,?02; 1,110
TCC: terapia cognitive-continual. Farmac.: u'atamiento fammcolégico.
Para conuastar 1a hipétesis nula de que 103 was efectos paramétricos son homo-
géneos, Ho: pa] = pm = p.193, aplicamos e1 estadistico de contraste definido en [4.20]:
113 Meta-anélisis en Glendas Soclalee y de la Salud
&2(d§‘)+...+cj&2(dfi‘)+...+c:ar (df: =
&2(y7)= c l “ 2(.s1.',‘f‘)+c§ar
=2 wi
[4.27]
quedando lus cfectos medias, d3 , y las vafianzas, 6-2013), de cada catcgoria defi-
nidos por las férmulas [4.16] y [4.17], respectivamente. La tabla 4.13 resume los cél-
culos de estos estadisticos.
Cap 4. Mllsls de moderadores cualllatlvos 119
Si comparamo: lo: resultados de la tabla 4.14 con los obtenidos en la tabla 4.6
resultantes de aph'car e1 método de Bonferroni desde el modelo de EF 53 observan al-
gunas diferencias que merece la pena resaltar. Mientras que en el modelo de BF se
obmvieron difcrencias significativas entre TCC y tratamiento farmacolégico y entre
Uammiento farmacolégico y combinado, en el modelo de EM solo la primera
comparacién resulté estadisticamente significativa. Los resultados inferenciales desde
el modelo dc EM tienden a set més conservadores que los que se obtienen desde un
modclo dc EF, pucs sc reconocc una mayor vatiabilidad cntrc los efectos dc los estu-
dios individuales. Algunos contrastes que resultan estadisticamente significativos bajo
un modelo de EF dejan dc serlo cuando e1 ajuste se realiza bajo un modelo de EA.
120 Mew-anélisis en Clendas Soclala y de la Salud
Can los datos de la tabla 4.15 aplicamos la férmula [4.25] para obtener una esti-
macién conjunia de la varianza interestudios:
29w] _ 2 ( k j ‘1)
if: j mJ =97’79_21=0,2984
Z 257,3749
c;
j
Tabla 4.16. Resumen de los calculus de los factores de ponderacién para el modelo de EM
ulil'mando esfimaciones separadas de la varianza interestudius.
Tabla 4.11 Célculo de los efectos medias de cada categoria de la variable moderadora y
de sus intervalos de confianza.
Tram-
mienta k5 d3 6'2 (do?! d5? :tl,96-a"-( 5‘)
TCC ll 403619233241 = 1,742 1f23,2241 = 0,0431 1,335; 2,149
Farmac. 10 19,4384!26,0599 = 0,746 1126,0599 = 0,0384 0,362; 1,130
Combin. 3 13309375062 = 1,710 15,6022 = 0,1315 0,999; 2,421
Total 24 723096563902 = 1,282 1515,3984 = 0,0176 1,022; 1,542
TCC: terapia cognitive-comma]. Farmac.: tratamiento farmacolégico. Combin.:
tratamiento combinado
Tabla 4.18. Contrasts de la significacién estadislica del efecto media da cada categoria
da la variable moderadora.
Para contrastar la hipétesis nula de que los tres efectos paraméiricos medias son
homogéneos, Ho: #91 = pa; = mg, aplicamos el estadistico de contrasts definido en la
férmula [4.20]:
9:“ =iwfj(r.§‘
j=l
—T.“)’ =
1 l 1
0,04 31(1,742 4,232)“ + 84(0;?46-1382)2 + (1,710 — 1,282)’ =
0,03 0,1315
= 13,784
Figura 4.4. Forest p10! de los tamafins del efecto agrupados en funcién del Iipo de
iratamiento asumiendo un models de EM.
Std. than Dlflmnu em. Mun Mar-m
Mammal) MID-Imam SE mum Mllmdomfi‘fifl MMUNU
1m Templ- Dogma-Goldman]
5mm 91 3233 04513 as» 323 [2.35, 4.12] —-—r
Emulonz 3.073 mm 9.2% 3.03 [223, ml —-—
Efludiofls ma 0.5103 ms 131 [030, 231] —-—
Enludioflll 133 0.3191 10.0% 13: [125, 251] —-—
Esludiofls mars 0253? 10.3% 1.07 mm 1.53] —-—
Esmalons 0.915 0.3235 10.01:. 0.92 5:27. 1.56] —-—
Esludlo at 1.27 0.7593 1145:. 1.27 [-022 2.7a] -—-—
Emulons 0.687 0.2644 10.4% 0.69m.17.1.21l —-—
Esmdlooa 2.044 0.3356 9.9% 2.04 [139. 2.701 —-—
Esludlo 10 3.432 0.5392 ms 3.45 12.31, 4.96] —H
Estudlo 11 0342 was ms 034 [0.02. 1.37] —-—
3mm {95-5 OI) 100.0% 1.15 [121.134] u.»
mm1u=amw=aumdr=1mp<omom P=331£
Tostformil m z = 5.17 (P 4 mean
tun-alum.W
Esludlo 12 1519 0.3015 we 1m mm 2.21] —-—
Eamulo 13 am 114309 4.4% m [4132. 1.56] -—-—
Esludlo14 0.225 02453 10.6% 0.23 [am l.‘.'1] ---
Ealudlo15 1.04 02255 11.51:. 1.04 [0.00, ml —-—
Eamdlo16 am mus 15.715 ass was, 0.93] '-'
Esludlo 17 1.009 0.3279 ms 1.01 [037. 1.35] —-—
Enludln18 0.417 0.1437 15.5% ma [0.19, 0.77] --
Emilie-19 mac-1 02793 9.31:. am ms, 1.35] —-—
Emma 0327 mans 13% 0.33 [-m, 115] —-—
Esludlo 21 0539 0.1373 1345:. use [0.22. 0.95] --
smoul [95% cu 100.0% m. [0.51. 0.95] O
WMTHF=QEfiW=19fidI=NP=ILOZE F=5396
Testforovotallmctbsfl {P‘flWl
13.3 Trdlm. um
Emulozz 0355 02537 was 0353135, 1.351 -I-
Emuiozs 1.642 02537 34.0% 1m [1m 120] —I-
Efludio 24 2342 0.3377 31.4% 234 pm, m] —-—
3mm [95% on 100.0% m [0.70.119] « . -
aalmTaP-QTB;WI18AZ dl-2{P-II.0.'I31]: P - M
Tadformdlmt-SHIP-OM]
L-—
45--
5:.--
-2 u
Favours cum F mm m
124 Mew-anélisis en Clendas Soclales y de la Salud
este estadistico con R2 adeptamos aqui el ténnino Rim propuesto por Aloe, Becker y
Pigott (2010). La fbrmula para su célculo viene dada por (Raudenbush, 1994, 2009)
A1 *2 “2
2 _ 2' _T+ _ 7+
Rum - - ‘72
.—2
7: T
[4'28]
.3? fig”):
22 g—gw
En la filtima linen de la tabla 4.7 tenemos los valores 2 2 W =310’341 y
i I
r c as
22(13p = 7350,118 - Por tauto, el valo
i J
2W”)z
222
y
—=310,341—3fl”—8=236,657
310,341
c: 5?”? 2‘, w
‘2 = Q—(k—l) _152,66—(24—1)
- = 0,4523
c 286,657
n2
12;,” =1—’—+ =1— 03984 = 0,340
f2 0,4523
siendo [31, B2, ..., [3,, 10s coeficientes de regresién paramélricos no tipificados co-
rrespondientes a cada uno de 105 r predictores del modelo, y x“, xu, ..., xi, son 10$
valores que le corrwponden al iésimo estudio en cada uno de dichos predictores.
En notacién matricial, el modelo quedaria formulado en los siguientes términos:
132 Mela-anallsis en Ciendas Soclalee y de la Salud
T = xp + u [52]
siendo T = (T1, T2, ..., I}, ..., Tk)’ 1m vector de TE muestrales, de tango kxl, X es una
matriz dc predictores de rango b:(r+l), donde r es el nfimero de predictores del
modelo, siendo r < (k— 1), fl = ([30, BI , ..., Bj, B,)’ es un vector dc coeficientes dc
regresién paramétricos no estandarizados, de tango (r+l)xl, y u es un vector dc erro-
res intraestudio, the tango kxl. De forma extensa, el modelo matemzitioo planteado an
[5.1] queda expresado de la siguiente fauna:
I; 1 x 11 I l a x1? -| “I
112 1 x21 I I 0 x 2 , “ 2
= . +
I} 1 xi] xi, u:
fir-
T = X B + u
Asumicndo qua 103 TE, Ti, 5: distribuyen aproximadamente segl'm una Icy nor-
mal, cl vector de cum-es dc muestrm aleatorio inuaesmdio, n, también sigue una lcy
nonnal k—variada con media 0 y matriz diagonal de vafianzas-covm'ianzas, 2 ? ,
definida come
donde hm:- = (b9, b1, ..., b,)’ es un vector dc coeficientes de regmién estimados no
tipificados, X es la matriz (1e predictores, T es el vector dc TE estimados y W” es
una matriz diagonal dc rango kxk cuyos elementos en la diagonal principal contienen
las inversas de las varianzas estimadas de 103 TE, wf” =1fa-f:
Q3 = (T-XbE)WEF(T—Xbfl)=T'WHT-Q§F [5-9]
que no as mas que la suma de cuadrados dc error ponderada. Bajo la hipfitesis nula, el
estadistico QB se distribuye segfin Chi-cuadrado dc Pearson con k — r — l grades de
libertad. Si 61 valor dc probabilidad p asociado a1 resultado del estadistico Q; as igual
o inferior a1 nivel dc significacién preespecificado (p S at), entonces es posible recha-
zar la hipétesis nula de que el modeler dc regresién esté bicn especificado y, en conse-
cuencia, la conclusit'm seré que deben existir otros predictores relevantes no tenidos
en cuenta por el modclo.
Del mismo mode que en el capitulo anterior deciamos que los estadisticos 9;?” y
Qw aportan informacifin complementaria relativa a1 resultado del ANOVA, asi tam-
bién los estadisticos Qf" y QB 33 complementan a la hora de interpretar 10s resultados
de una meta-regresién. De hecho, se- cumple que Q = QRF” + QB, siendo Q 1a suma de
cuadrados total ponderada, que quedé definjda en la férmula [3.12] del capitulo 3. Las
siguicntcs son algunas direcuices para interpretar los resultados dc 1m modelo dc
meta-regresién:
b! [5.10]
Como ya hemos adelantado, la complejidad de los célculos exige hacer los ané-
lisis estadisticos mediante algim programa infonnfitico. La tabla 5.2 presenta 10s
resultados de la meta-regresién simple. Mediante [5.5] sc obtiene e1 vector dc coe-
ficientes dc regresién, by, que en este caso esté compuwto por el intercepto (bu =
0,2365) y la pendiente (bl = 0,0042). Los mores tipicos estimados [a-(bjn de lo:
coeficientes del modelo asociado a la edad media se obtienen calculandu 1a raiz cua-
drada de los elementos diagonales de la matriz if” definjda an [5.8]. El propbsito de
esta meta-regesién era comprobar si la edad media de las muestras de participantes
constituye una variable estadisticamente relacionada con el TE; es decir, si la edad de
los sujetos modera la relacién existente entre neuroticismo y sintomatologia dc estrés
postraumfitico. Al tratarse de un modelo de regresién simple (un solo predictor), est:
contraste dc hipétesis se puede resolver con el estadistico Q? 0 con el estadistico Zj,
ya que son equivalentes. Asi, con la férmula [5.7] obtenemos e1 valor 9f (1)=16,140,
con probabilidad asociada p = 0,0001. Asumiendo 1m nivcl dc significacién dc 0,05,
podemos rechazar 1a hipétesis nula, concluyendo que la edad media de las muestras es
una variable estadisticamente relacionada con 431 TE. Para obtener e1 valor del esta-
distico Z} aplicamos la férmula [5.10], que consiste en dividir la pendiente de la
regresién por su error tipico, obtem'endo: Z = 0,0042/0,0010 z 4,017 (salvo redon-
deos), con probabilidad p = 0,0001, idénfica a la Obtenida con el estadistico Q? . El
signo positive de la pendiente indica que la relacién positiva entre neumticismo y sin-
tomatologia dc estrés postraumético se hace mfis intensa cuanto mayor es la edad de
los individuos.
Los limiteS confidenciales de los intervalos en tomo a los coeficientes del
modelo se obtienen aplicando [5.11]. En el caso de la pendiente, e1 intervalo dc con-
fianza sc puede también utilizar para tomar una decisién sobre el rechazo o no recha-
zo de la hipétesis nula de que la pendientc del modelo es igual a cam, Ho: [51 = 0. Si :1
valor 0 se encuenu'a dentro del intervalo dc confianza, no se rechaza la hipétesis nula;
en case contrario, dicha hipétasis se puede rechazar con el nivel de significacién es-
tablecido. En nuestro ejemplo, el intervalo de confianza en term a la pcndiente no
contiene cl valor 0 (limites confidenciales: 0,0021 y 0,0062), por lo que podemos
rechazar la hipétesis nula de que la edad media no esté estadisticamente asociada a 105
TE. Légicamente, la interpretacién del intervalo dc confianza pan la pendiente tiene
quc coincidir necesariamente con la del estadistico 21 (y con la del estadistico Q? , en
el caso de una meta-regresién simple).
Una representacién gréfica de la relanién entre la edad media y 105 TE de este
MA consiste en construir un diagrams. de dispersién. En este diagrama los puntos que
representan a cada estudio tienen 1m tamafio proporcional al factor dc ponderacién
utilizado en los anélisis, 1%,” ; es decir, a la inversa de la varianza inlraestudio de ca-
da TE, 6'2(Zr). La figura 5.1 presenta dicho diagrama dc dispersibn.
Capltulo 5. Analisls de modemdores continuos: meh-mgresifin 139
Tabla 5.2. Resultados del anélisis de meta-regresifin simple para la edad media
de las mum de los estudlos.
IC95%
Coeficiente bj 6(bj) Li L3 4 P
Intercepto 0,2365 0,2365 0,1666 0,3064 5,632 < 0,0001
Pendiente 0,0042 0,0010 0,0021 0,0052 4,017 0,0001
Q? (1) = 16,140, p = 0.0001 9,134) = 160,596, p < 0,0001
bj: ooeficientes del modelo dc regmsién. “1%): errores tipicos de los coeficientas del
modelo. Li 3* Ls: limitm confidenciales, inferior y superior, al 95% en tome a 105 one-
ficientes del modelo. Z]: estadistico de contraste de cada coeficiente del modelo. QR” :
estadisficu dc contraste del modelo global. QB: estadistico dc contraste de la especi-
ficacién del models.
Figura 5.1. Diagrama de dispersifin del modelo da meta-tegresifin simple entre la edad
media de la muestra y el TE asumiendo un modelo de EF.
ZdoFIIIIIr
c
I
Wind.
140 Meta-anallsis en Ciendas Soclalea y de la Salud
T=Xfi+e+u [5.13]
donde T = (T1, T2, ..., Ti, ..., Tk)’ es el vector de TE estimados, de range kxl; X es la
matriz qua contiene 105 r predictores, siendo r < (k — l), precedida par un vector co-
lumna de “unos” y, por tanto, de tango kx(r+l); B = (Bo, B1, ..., [3,)’ es :1 vector de
coeficientes de regresién del modelo, de tango (r+1)xl; e es el vector dc errores inter-
estudios residuales, de range kxl, y u es 6] vector de mores intraesmdio, dc tango
kxl. Asumiendo que los vectores dc arrows u y e se dish-ibuyen ambos segl’m una ley
normal [It ~ N(0; If“); :3 ~ MO; 0-3)], entonccs e1 vector del TE se ajusta a la
Capitulo 5. Anélisls de modemdores continues: meh-regresifin 141
disuibucién T ~ NIXB; If,“ I + 25"- ), siendo I 111111 matriz identidad dc tango kxk, y
21‘? es una matriz diagonal de tango kxk que confine las vafianzas intraesmdio de
105 TE que ya quedé definida an [5.3]: 2%" = diag(af,a§,...,a'f ,...,o',f)-
El mode 6ptimo de estimar e1 vector de coeficientes paramétricos del modelo, [5,
implica ponderar cada TE par la inversa de su varianza. Dado que en el modelo de
meta-regresién de EM 3e contemplan dos fuentes (1:: error (interestudios e intra-
estudio), e1 factor de ponderacién 6ptimo queda definido p01" win 21/(Tiea + 0 ? )
Sin embargo, en la préctica las varianzas interesmdios residual c inIIaestudio tienen
que set estimadas, por lo qua los factores dc ponzderacién qua realrnente se utilizan
son esfimaciones de los 6ptimos: firf‘: l/(fm + a} )2
Obsérvese e1 paralelismo entre las emaciones que definen la matriz Wm, (fbr-
mula [56]) para el modelo dc meta-regresién dc EF y la man-i7. firm (fbrmula [5.14])
para el de EM. La diferencia entre ambas esté en los componentes de varianza impli-
cados en la diagonal principal: las varianzas intraesmdio para el modelo de EF y la
suma de las varianzas interestudios c intracstudio para el de EM.
Una vez definida la matriz de ponderacién, es posible calcular cl vector dc coe-
ficientes estimados, hm =(bo, b1, ..., br)’, por minimos cuadrados ponderados me-
diante la expresién:
=(x'wnm—‘x'wnT [5.15]
Si 5:: comparan [as férmulas [5.5] 3* [5.15], la finica difcrencia estfi en la matriz
deponderaciones utilizada: W” y W“, respectivamente.
Para podcr aplicar [5.15] a: precise obtcncr estimaciones dc las varianzas intra-
estudio, 6-}, y de la vafianza interestudios residual, Eli“. La férmula para calcular las
varianzas intraestudio dependeré del indice (121 TE utilizado en el MA. En el capitulo
2 se presentaron dichas férmulas para un amplio m'nnero de indices de TE. La va-
rianza interestudios residual debs set estimada con los datos de la base meta-analitica.
Sc han propucsto en la literatura al menos media docena dc estimadorcs altemativos
de esta varianza. Aqui presentamos el de uso mas fiecuente, basado en el método de
estimacién de los mementos, y que- es una extensién del método dc DerSimonian y
Laird presentado en el epigrafe 3.1.2 para estimar 1a varianza interestudios total en un
modelo de efectos aleatorios sin moderadores, f2 (férmula 3.12):
142 Mela-anallsis en Ciendas Soclalee y de la Salud
donde 1a expresién trO indica la traza de la expmsién matricial quc figure dcntro del
paréntesis; QB es la suma dc cuadrados de enur ponderada definida an [5.9] y W” es
la matriz dc ponderaciones definida en [5.6], can factores dc ponderacién iguales a
fix? =1/6-f . E1 estimador Eli“ puede tomar valores negatives; en ese 0:150, 56 trunca
en el valor 0.
Para hacer inferencias acerca de los coeficientes paramétricos del modelo se han
propuesto vaIios procedimientos (c Huizenga, Visser y Dolan, 2011; Viechtbauer,
pez—Lépez, Sénchez—Meca y Marin-Martinez, en prensa). Aqui presentamos cl
método esténdar, que es el que con més frecuencia se utiliza, y el método propuesto
por Knapp y Hartung (2003) que, segfin los resultados de estudios dc simulacién re-
cientes, es el que muestra mejores propiedades esmdisticas.
E1 método esténdar parte del supuesto de que los coeficientes paramétricos del 1110-
delo se dism'buyen segfin una ley normal. En consecuencia, es posible contrastar 1a
hipétasis nula de que [as r coeficientes paramétricos del modelo son iguales a 0, as
decir, Ho: [3 = II, mediante e1 estadistico:
EF, y las orientaciones para la interpretacién de los resultados de los contrastcs con
los estadisticos QR“ y QE son similares también a las ofiecidas en el mode-lo de EF.
Ademés dc contrastar 1a significacién estadistica del conjunto dc r predictorw
del modelo con el estadistico Qf‘ , también es posible contrastar la significacién esta-
distica de cada predictor una vez parcializado el influjo del resto dc predictores del
modelo. Dado que el método esténdar asume que los coeficientes de regresién esti-
mados se distribuyen segfin una ley normal, este método propane contrastar hipbtesis
nulas del tipo Ho: fl = O mediante e1 wtadistico 21:
z = [5.19]
_ A =
b, + IzHul -&(bj) = b”, 5.20
b; i l ’ Z I 01b!) {bf—lzl—alzl'a'(bi
)=bi
[ ]
q= ‘ 1 (T-nmrwm(T-xuam)= kT— ”T
r —l
[5-221
siendo T cl vector de TE, X la matriz dc predictores, 113,; el vector estimado do 108
coeficiiltes del modelo segfin el modelo de EM, [5.15], W“ 13. matriz dc ponde-
racionw, [5.14] y P es una matriz que se define coma
r = b; [5.24]
’ 6mm.)
siendo 13,- e1 coeficiente dc regresién estimado no estandarizado que se correspond con
el j-ésimo predictor del modelo extraido del vector bu (férmula [5.15]), 3’ 6-K” (b1)
e1 error tipico de dicho coeficiente de regresién, que es la raiz cuadrada del j-ésimo
elemento diagonal de la matriz estimada dc varianzas-covarianzas de los coeficientes
dc regresién, if!“ , definida en [5.21]. Bajo la hjpétesis Hg: ,6: = 0, e1 estadistico 1} se
distribuye segl’m una ley 1‘ dc Student con k — r — l grados dc libertad, de forma que se
rechaza la hipétesis nula si e] m'vel de probabilidad p asociado a1 resultado de dicho
estadistico es igual o inferior a1 nivel de significacién nominal (p S a), pudiéndose en
ese case concluir que dicho predictor muestra una asociacién estadisticamente signi-
ficativa, una vez parcializado el influjo del resto de predictores del modelo. Asi mis-
mo, es posible construir intervalos de conflanza para cada coeficiente del modelo me-
diaute
=
bi i | l-au tk-r-Il ' 6'” (bi)
[5.25]
= {b1 + I Hath-1| ' 5m (5;) = bl‘l’
j ) =bi nf
bf —|l-¢IZIk-r-]|'&u{(b
1 Hay que tenet present: esta doble modalidad del método de Knapp-Huang, ya que distintos programs
de sofiware mata-analifico implementan um: 11 utra modalidad. Asi, Bl métndo original de Knapp-Hammg,
tnmcando en el valor l, esté implementado en :1 program: METAREG elaborado par Harbord y Higgins
(2008) dentro del paquete STATA y en el programa Comprehensive Meta-analyst? vers. 3.0 (Borenstein,
Hedges, Higgins y Rothstein, 2013), mientras que la modalidad sin truncar estfi implementada en el
programa METAFOR damn del paquete R (Viechtbauer, 2010a). En cualquier case, solo se obtendrén
diferentesresultadosenu'eambas modalidadescuandoq< h y m n solo ocurrirficuandoelnfimnroda
esmdios sea bajo yin la varianza interesmdios residual tamhién sea haja.
146 Meta-analisis en Ciendas Soclalea y de la Salud
F=9fl [5.26]
q
Tabla 5.4. Resultados del anélisis de meta-regresifin simple para la edad media de Ias
muesiras. asumiendo un modelo de afectos mixtos con el método asléndar.
IC95%_
Coeficiente bj (9(1)1) Li Ls Zj p
Intercepto 0,2247 0,0751 0,0776 0,3719 2,99 0,0028
Pendiente 0,0048 0,0021 0,0008 0,0088 2,34 0,0194
Qffl) = 5,46,p = .0194; 5:” = 0,0145; 7‘2 = 0,0157
93(34) = 160,60, p < .0001; Rim =0,0701
bj: coeficientes del modelo de regresién. 511,1): errores tipicos de los coeficientes del
modelo. Li y Ls: limites confidenciales, inferior y superior, al 95% en tome a los
ooeficientes del modelo. Zj: estadistico de contraste de cada coeficiente del modelo. i‘:
estadistico dc contaste del modelo global. QB: wtadistico dc contrasts de la especificacién
del modelo. 5:“: estimacién de la varianza interestudios residual. f2: estimacifin de la
varianza inheresmdios total (sin predictores). Rim: estimacién de la proporcifin de varianza
explicada por el modelo.
Los intervalos de confianza en tome a 10s cueficientes del modelo, por el 1116-
todo esténdar, se obtienen aplicando [5.20]. El intervalo dc confianza para la pen-
diente se puede también utilizar para oontrastar la hipétesis nula Ho: [31 = 0. Si cl valor
0 se cncuentra dentro dcl intervalo dc confianza, no se rcchaza dicha hipétcsis; en
case contrario se puede rechazar. En nueslro ejemplo, cl intervalo de confianza en
tome a la pendiente no contiene e1 valor 0 (limites confidenciales: 0,0008 3! 0,0088),
por lo quc podemos rechazar la hipétesis nula dc quc la cdad media no 6315
estadisticamente asociada a los TE. Esta interpretacién del intervalo dc confianza para
la pendiente tiene que coincidir necesariamente con la del estadistico 21 antas
comentada (y con la del estadistico QR“ , en el caso de una meta-regresién simple).
Finalmente, e1 contrasts de la especificacién del modelo, idéntico al del modelo
de EF, es 95(34) = 160,60; p < 0,0001, lo que indica que el modelo esté mal espe-
cificado, por lo que deben cxistir otras variables moderadoras relevantes en la varia-
bilidad de 105 TE.
Si en lugar del método esténdar aplicamos e1 mérodo de Knapp-Harmng, la base
de datos es cxactamentc la misma quc la que figura en la tabla 5.3. El vector dc coe-
ficientes del modelo es el mismo que el obtenido para el método esténdar: be = 0,2247
3/ b1 =0,0048. Pero los errores tipicos son diferentes, ya que se obtienen calclflando la
raiz cuadrada de los elementos diagonales de la matriz 1"f definida en [5.21]. 0h-
150 Meta-analisis en Ciendas Soclalea y de la Salud
sérvese en la tabla 5.5 cémo e1 error tipico de la pendiente por el método de Knapp-
Harmug es mayor, 5m (bi) = 0,0026, que el obtenido con e1 1116m esténdar,
6"(bj) = 0,0021, lo que convierte al método Knapp-n en més conservador. De
hecho, a1 contrastar la hipétesis nula de que la edad no esté estadisticamente relacio-
nada con 105 TE, Ho: [31 = 0, mediante la aplicacién del wtadistico I; (férmula [524])
con (12- r — 1) = 36 — l — 1 = 34 grades de libertad, obtenemos m1 valor 1164) = 1,87,
con probabiljdad p = 0,0707. Asi puss, en este ejemplo a1 aplicar el método de
Knapp-Hammg obtenemos una significacién estadistica solo marginal (p < 0,10),
pero no a1 nivel dc significacién convencional (0,05). Al tramrse dc 1m ejemplo con
un solo predictor, llegamos a este mismo resultado con el estadistico F calculado con
[5.26]: F(1, 34) = 3,48; p = 0,0707. El estadistico F se calcula coma
F=M=m=m
g
Ed
1,569
donde 5,46 es el valor del estadistico Qlf‘ reflejado en la tabla 5.4.
El intervalo de confianza en tome a la pendiente se puede también utilizar para
contrastar 1a hipétesis nula Ho: B1 = 0. Dado quc en este case 105 limit/es confiden-
ciales contienen cl valor 0 (limites: -0,0004 y 0,01000), no se rechaza la hipétesis
nula, par lo que llegamos a la conclusién de que, asumiendo un nivel dc significacién
dc 0,05, la edad media de las muestras no esté estadisticamente relacionada con 105
TE. Este resultado coincide con el obtenido con los estadisticos 13- y F, antes cemen-
tados.
Obsérvese cémo cl método de Knapp-Hammg as 11153 conservador que el mé—
todo estzindar, ya que con este filtimo se alcanzaba la significacibn estadistica para la
edad media coma predictor de 105 TE (p = 0,0194), mientras que con el método de
Knapp-Harumg no se alcanza (p = 0,0707). Estc mayor conservadurismo del método
dc Knapp-Hartung también se aprecia en la mayor amplitud de su intervalo dc con-
fianza en torno a la pendiente [amplitud = 0,0100 —(—0,0004) = 0,0104] en com-
paracién con la (161 1116m esténdar (amplitud = 0,0088 — 0,0008 = 0,008).
La prueba para comprobar si e1 modclo esté bien especificado es la misma que
para el método esténdar y que para el modelo de EF: 93(34) = 160,60; p < 0,0001.
Las tablas 5.4 y 5.5 presentan también las estimaciones de la varianza interes-
tudios residual (21%“ =0,0146), que sc obtiene con [5.16], la varianza interestudios
total (£2 =0,0157), que se obtiene con [3.12] y la proporcic’m dc varianza explicada
por el predictor ( Rim = 0,0701), que se obtiene mediante la férmula [5.27], que expo-
nemos en el siguiente epigrafe. Por tanto, la edad media de las muestras dc parti-
cipanles explica e1 7,01% de la variabilidad de 105 TE, un pomentaje que no podemos
considera: de una elevada magnim
Capltulo 5. Anélisls de modemdores continues: meh-mgresidn 151
Tabla 5.5. Resultados del anélisis de mta-regrasién simple para la edad media de Ias
muestras, asumiendo un modelo de EM con el mébodo de Knapp-Hartung.
I. C. 31 95%
Coeficiente bj 6m (bJ ) Li Ls I] p
Intercepto 0,2247 0,0940 0,0336 0,4153 2,39 .0225
Pendiente 0,0048 0,0026 41,0004 0,0100 1,87 .0707
H1, 34) = 3.48.11 = 0,0707; q = 1,569; 5;, = 0,0146; f2 = 0,0157
QE(34) = 1150,t50,p1 < 0,0001; Rf,“ = 0,0701
bj: coeficicntes del modelo dc regresién. arm (bi): arrows tipicos de los
coeficientes del modelo. Li y La: limites confidenciales, inferior y superior, a1
95% en tome a los coeficientes del modelo. tj: estadistico de contrasts de cada
coeficicnte del model-3. F: estadistico dc contrasts del modelo global. Q3:
estadistico dc contrast: de la cspecificacién del modelo. f3“: cstimacién de la
varianza interesmdios residual. f”: estimacién de la varianza interestudios total
(sin predictorw). Rim: estimacién de la proporcién dc varianza explicada por el
modelo.
#3
Ethdm
.2 A2 A2
Rim _ m _ 31$ [5.27]
f2 f2
Capltulo 5. Anélisls de modaadores continues: mela-mgresidn 153
donde £12m es una estimacién de la varianza interesmdios residual, que quedé definida
en [5.16] y r” es una estimacién de la varianza interestudios total (sin predictores),
definida an [3.12]. En realidad, Eli” equivale al ténnino ff utilizado en el capitulo
anterior (fénnula [425]) para representar a1 promedio de las varianzas interestudios
residuales de los subgrupos (o categorias) de una variable moderadora cualitativa. Es
posible que Rim alcance valores negatives, en cuyo case se trunca en 0. Téngase en
cuenta que la estimacién de la proporcién dc varianza explicada en un modelo dc
meta-regresién dc EM es independiente de que se haya utilizado e1 método esta'ndar 0
el de Knapp-Hauling en los contrastes de hipétesis.
Por filtimo, no esté clam si se debe utilizar el estimador Rim de la proporcién
dc valianza cxplicada. Como ya so comenté en el capitulo anterior, hay sutures favo-
rables a que se utilice (Konstantopoulos y Hedges, 2009) y otros desfavorables a esta
préctica (Borenstein er al., 2009). Numtro criteria es el mismo que en el capitulo an-
ten'or: utilizarlo en los modelos dc EF mienlras no so proponga algim oiro indice més
apropiado.
La tabla 5.6 pmenta los datos necesarios para aplicar cl modelo de mam-re-
gresién dc EM. El vector de TE, T, figura en la columna etiquetada coma Zr. Las tres
filtimas colmnnas de la tabla (Edad, Poblacién y Continente) contienen los tres pre-
dictores del modelo. Si 3 estas tres columnas se las precede per una columna dc
‘fimos”, tenemos 1a matriz de disefio, 0 dc predictores, del modelo dc meta-regresién,
X. Las varianzas intraestudio de los TE figumn en la columna 6'1(Zr) . Para obtener
los factores de ponderacién, estas varianzas tienen que ser madas a la estimacién de
la vafianza interestudios residual del models, iii”. Aplicando [5.16] obtenemos una
estimacién de dicha varianza: fig” = 0,0133. Por tanto, los factores de ponderacién
se obtienen mediante: if“ = 1/ 6'2(Zr;_) + fin]: ll[6'2(Zr;)+0,0133]- Los valores
que figuran en :53. columns. constituyen los elementos de la mau'iz diagonal Wm,
definida an [5.14].
Las tablas 5.7 y 5.8 present-an los resultados de aplicar los métodos esténdar y de
Knapp-Harumg, respecfivamentc, sabre este mode-lo dc meta-regesién. El vector dc
coeficientes del modelo, hm, es cumin :1 ambos métodos y se obtiene mediante
[5.15]. Si aplicamos el mérodo estdndar (tabla 5.7), 105 611mm tipicos de los coefi-
cientes del modelo, (ii-(b!) , se obtienen calculando la raiz cuadrada de los elementos
diagonales de la man-i2 estimada dc varianzas-covafianzas del modelo, Wf‘ , definida
an [5.18]. Para comprobar si [as tras predictores, tomados conjuntamente, esfin
estadisticamente asociados a 105 TE contrastamos la hipétesis nula Ho: 13 = 0 con el
estadistico Qf‘ , definido en [5.17]. El valor obtenido, Q“ (3) = 14,91, lleva asociada
una probabilidad p = 0,0019, por lo que puede afinnarse que este conjunto dc trcs
predictores esté estadisticamente asociado a 105 TE. El porcentaje dc varianza expli-
cada por el modelo es del 15.29%, segfin el resultado del indice Rim, definido en la
ffirmula [5.27].
El anélisis individualizado de los predictores se lleva a calm con los estadisticos
g (férmula [5.19]). Cada uno de estos permite contrastar la hipétmis nula Ho: Bj = 0.
Se observa que, de los tres predictores, la edad media (21 = 2,49; p = 0,0127) y la
poblacién dc referencia (Z; = 2,39; p = 0,0168) presentan una relacién estadis-
ticamente significativa con 103 TB, una vez cantmlado e1 efecto de los demés pre-
dictores dc] modelo. El signo positive del coeficientc asociado a la edad media indica
que a mayor edad, mayor es la relacién positiva enlre neuroficismo y sintomatologia
dc esh'és postramnético. A su vez, e1 signo positive asociado a la poblacién dc refe-
rencia, teniendo en cuenta cémo se codificé esta variable dicotbmica, indica que la re-
lacién positiva entre neuroticismo y sintomatologia dc estrés postraumético es més
film'te en muestras procedentes de poblacién no clinica, en comparacién con pobla-
cién clinica. Sin embargo, e1 continents donde se ha realizado el estudio no alcanzé 1a
significacién estadistica (Z; = 1,50; p = 0,1327). Observe que estas mismas inter-
pretaciones se alcanzan con los intervalos dc confianza en term a cada coeficiente del
modclo (calculados can [520]).
156 Meta-analisis en Ciendas Soclalea y de la Salud
Tabla 5.7. Resultados del anélisis de meta-regresién mfilfiple para la adad media da las
muestras. la poblacién de referencia y el continents, asumiendo un modelo de efectos
mixtos con el método esténdar.
a o
Predictor b,- 0(1),) Limb: zj p
Intercepts 0,0077 0,1104 -0,2088 0,2241 0,07 0,9447
Edadmedia 0,0051 0,0020 0,0011 0,0091 2,49 0,0127
Poblacién 0,1959 0,0820 0,0353 0,3565 2,39 0,0168
Continents 0,0748 0,0498 -0,0227 0,1724 1,50 0,1327
f“(3) = 14.91 ,p = .0019; 6,1, =0,0133; f2 = 0,0157
95(32) = l38,08,p < 0,0001; Rim = 0,1529
bj: coeficientes del modclo dc regresién. 5-(bj): mores tipicns de los coeficientes del
modelo. Li 1; Ls: limitcs confidenciales, inferior y superior, a] 95% en tomo a los coeficientes
del modelo. A: estadistico de contraste de cada coeficiente del modelo. QR“: estadistico de
contraste del modelo global. QB: estadistico de contraste de la especificacién del mode-lo.
ii”: estimacién de la varianza interesmdios residual. f 2 : estimacién de la varianza inta'és-
tudios total (sin predictores). Rfim : estimacién de la propomién dc varianza explicada por el
modclo.
Tabla 5.8. Resultados del anélisis de meta-regresién mfllfiple para la edad media de las
muestras. Ia poblaclén de referencia y el continente, asumlendo un modelo de efectos
mlxtos con el método de Knapp y Hartung.
IC95%
Predictor hi 6-” (bi) Li Ls {i p
Intercepto 0,0077 0,1338 -0,2650 0,2803 0,06 0,9547
Edad media 0,0051 0,0025 0,0000 0,0101 2,06 0,0431
Poblacién 0,1959 0,0993 -0,0064 0,3982 1,97 0,0573
Continente 0,0748 0,0603 -0,0480 0,1977 1,24 0,2238
H3, 32) = 3,38,p = .0300; q = 1,469; ii“ = 0,0133; f 2 =0,0157
93(32) = 138,08, p < .0001; Rim =0,1529
bj: coeficientes del modelo de regresién. 5-“ (b1): errores tipioos de los ooeficiemes del
modelo. Li 3* Ls: limites confidenciales, inferior y superior, a1 95% en tome a los
ooeficientes del modelo. Zj: estadistico de conu'aste de cada ooeficiente del modelo. F:
estadistioo de contrasts del modelo global. QB: estadistico de contraste de la especificacién
del modelo. 6:": estimacién de la varianza interestudios residual. f 2 : estimacién de la
varianza interesmdios tatal (sin predictores). Rim: estimacién de la propomién dc varianza
explicada por el modelo.
tenga. Asi mismo, es posible incluir interacciones entre predictores dentro del modelo
de meta-regresién. También es posible generar modelos jerérquicos de meta-ra-
gresién, en los que el meta-analista fija dc antemano el orden en que los predictores
van entrando en el modelo, de forma que los estadisticos dc contraste presentados en
este capitulo pueden adaptarse para ser aplicados en este tipo de modelos més com-
plejos. Todas estas opciones, y otras muchas més, puedcn abordarsc £16s 103 mode-
los de meta-regresién, pero quedan filera del alcance de este libro. Remitimos a los
textos a1 use sobre el modelo lineal general para profimdizar en estos procedimientos
(Ato y Vallejo, 2007; Cohen, Cohen, West y Aiken, 2003; Pardo y Ruiz, 2012;
Pedhazur, 1997). Por otro lado, aunque los modelos y férmulas que se emplean an
MA 56 suelen exponer de forma que se comprendan bien desde las necesidades y la
filosofia de esta metodologia, no son més que otra forma més dc expresar modelos dc
regresibn clésicus. Rhodes (2012) ha rcsaltado estc hccho y hace una intercsantc re-
exposicién de los modelos y férmulas en términos dc modelos de regresién clésicos.
Otra extensién de los modelos de meta-regresién aqui desarrollados consist: en
aplicar modelos de meta-regresién multivariante (Jackson y Riley, 2014; Van Hou-
welingen, Arends y Stijnen, 2002). En este tipo de modelos el vector dc TE 56 sus-
fituye per una matriz dc TE, donde cada columna puede hacer referencia :1 TE cal-
culados sobre variables (16 resultado diferentes. El programa WTA desarrollado
por White (2009, 2011) en Stata permite hacer este tipo de anélisis.
En el filtimo apartado del capitulo anterior se comentaron algunas de las condi-
ciones que deben darse para poder llevar a cabo anélisis de moderadores en el contex-
to de an MA. En concrete, se hizo hincapié en la importancia de considerar cl nfimero
dc wtudios (0 TE) dcl MA. Este factor es todavia més importante en los modelos dc
EM, ya que la estimacién de la varianza interestudios residual es inestable cuando e1
nfimero dc wtudios cs reducido. Las rccomendacionw que se hicieron en aqucl capi-
tulo se hacen extensivas a los modelos dc meta-regresién: deberia disponerse de al
menos 20 estudios para aplicar modelos de meta-regresién, si bien hacen falta del 01'-
den de 40 estudios para que la estimacién de la proporcién dc varianza explicada con
el indice Rim sea aceptable (Aguinis, Gottfi-edson 3! Wright, 2011; Lépez-Lépez,
Marin-Martinez, Sénchez-Mcca, Van den Noortgate y Viechtbauer, 2014). Otra cues-
tién relacionada con esta es la dctenninacién de cus'mtos predictores se puedcn incor-
porar en un modelo de meta-regresién mfiltiple, ya que la incorporacién de un nfimero
excesivo dc predictores cuando e1 nfimero de estudios es bajo puede dar lugar a un
sobreajuste del modelo. A este respecto, hacemos nuestra la recomendacién de Bo-
renstein et a1. (2009) de limitarse a afiadir a1 modelo un predictor por cada 10 eswdios
que tenga el MA. Asi por ejemplo, en un MA con 40 estudios no seria aoonsejable
afiadir mfis de cuatro predictores al modelo de meta-regresién.
Por filtimo, es importante tenet en cuenta cuéles son los factores que deberian
guiar la decisiém del meta-analista a la hora de elegir e1 modelo estadistico: EF 0 EM.
A este respecto, todo lo dicho en los epigrafes 3.5 y 4.5 se hace extensible a los mo-
delos dc meta-regresién. Asi pues, e1 principal criten’o qua deberia guiar a1 meta-
analista en la eleccién dc] modelo wtadistico a: el grade en quc desea generalizar los
Capltulo 5. Analisls de modemdores continues: mela-mgresidn 159
6.1. Validez
En el capitulo 1 heme: sefialado ya que a la vez que nacia el MA generalism de Glass
aparecié la corriente meta-analitica de Hunter y Schmidt (2004; Schmidt y Hunter,
1977). Esta corriente se centra en el estudio de la validez de las mediciones en psico-
logia. Desde e1 principio adoptaron el nombre especifico de generalizacién de la va-
lidez (GV), aunque siempre han considerado que esta forma parte del MA (Murphy,
2003; Sénchez—Meca, 1999).
El trabajo dc Hunter 3? Schmidt 110 ha consistido solo en analizar y proponer pro-
cedimientos para alcanzar respuestas cuantitativas integmdas respects a la validez de
los tests, sine qua también han desempefiado un papal muy destacado en el debate
sabre [as técnicas estadisticas que se emplean en psicologia, especialmente el contras-
te de hipétesis (Schmidt 3; Hunter, 1997). Esta perspecfiva se aprecia también en sus
propuestas, que de fauna congruent: con esa posicién relega los oontastes de- Mp6-
tesis a un papel secundario, cuando no los descarta directamente.
Las propuestas dc cstos automs sc empczaron a 00110c 611 varies articulos de
los afios 70, se desarrollamn macho en los 80 y se concretaron en su libro Methods of
meta-analysis: correcting ermr and bias in research findings, publicado en 1990, del
que aparecié una segunda edicién en 2004 y recientemente se ha publicado la temera
(Schmidt 3; Hunter, 2015). La GV tiene en comfin con el MA generalista que emplea
técnicas estadisticas para combina: estimaciones del coeficiente dc validez de un test
(este es su indice de TE) y para analizar la eventual heterogeneidad observada en
ellos. U11 coeficiente dc validez no es otra cosa que un coeficiente de correlacién entre
las puntuacioncs quc ofi‘ecc 61 test cuya validez se quicrc valorar (X) y un criterio dc
validacifm (Y) (Abad, Olea, Ponsoda y Garcia, 2011; Martinez-Alias, Heméndez-
Lloreda y Heméndez-Lloreda, 2006; Mufiiz, 1993). Par tanto, coma en este campo se
emplea coma indice de TE un coeficiente de correlacién de Pearson se podrian aplicar
todos los procedimientos que ya hemos descfito, a1 exponer el uso de r coma mdice
dc TE.
Sin embargo, cste enfoque tiene dc peculiar que, antes de analizar los coeficien-
tes, estos son tratados de formas especiales para corregir las distorsiones que ciertos
factores muy Genocidos en psicometria pueden haber producido en las estimacionw.
Precisamente, una de las principales aportaciones del trabajo dc Hunter y Schmidt es
la toma dc conciencia de la enorme cantidad dc artefactos que influycn en las esti-
maciones de la validez obtenidas a1 aplicar los tests can diferentes objetivos y en dis-
tintos contextos. Tras identificar una variedad dc fuentes (16 error que actt'lan atenuan—
do 138 correlaciones, proponen procedimientos para realizar la tarea inversa, la dc
desatenuacifin, estimando las correlaciones que se hubiesen obtenido si no hubieran
estado presentes esos factores. En este apartado vamos a exponer cuéles son 6503
factores dc atenuacién y los procedimientos dc desatenuacién asociados, para
posteriormente abordar cl MA de los cueficientes dc validez. Conviene también
explicitar desde el principio que Hunter 3; Schmidt asumen en todo memento modelos
dc efectos aleaxorios. Para ellos las variaciones observadas en los coeficientes dc vali-
Capitulo 6. Meta-aMIIsis y psicomelria 1E3
A, =a-p [6.1]
donde 0 < a S 1. Como e1 multiplicador del artefacto reduce e1 coeficiente de corte-
lacién, e1 efecto es de atenuacién. Cuanto mayor es el efecto atenuador de un arte-
facto, manor 3 el coeficiente observado. Si en un estudio hay varias fuentes dc error
entonces sus efectos de atenuacién se aplican de forma independiente sobre el coefi-
cientc “pure”. Como habitualmente en cada estudio intervienen vafios artefactos, e1
efccto colcctivo dc cstos sc represcnm put A, que es el producto de los cocficientes dc
atenuacién de los diferentes factores:
pa=a,-a2-as-...-p=A-p [6.2]
sicndo A = at;- (12- 03- (0 < ai S 1). Para Hunter 3! Schmidt, una parts del trabajo del
meta-analista consists en conseguir informacién relevante con la que “desatenuar” los
cueficientes aplicando de forma inversa los coeficientes a las estimaciomm obser-
vadas:
p = 19% [6.3]
:1) Error aleatorio de medida en el criteria ()9. Se acepta que la medida que se
emplea como criteria dc validez no tiene una fiabilidad perfecta. Un
conucido efecto de esta fiabilidad hnperfecta es que limita los valores del
coeficiente dc validez. E1 coeficiente dc fiabilidad del criteria ( J; ) es el
primer factor de atenuaciéu:
a1 = 5 [6.4]
11) Error aleatan'a de medida en el test (119. La impetfecta fiabilidad del propio
test que se esté estudiando es un factor dc limitacién de su validez (Abad,
Olen, Ponsoda y Garcia, 2011). El coeficiente de fiabilidad del test ( J ; )
a el segundo factor de atenuacién:
a: = J; [6.5]
Per tanto, la estimanién de la validez de un test, rxy, se ve atenuada por las fia-
bilidades tanto del test coma del criteria. Una estimacién dc 1m coeficiente
dc validez (p) que solo se viera afectada por estos dos factores quedaria
atenuada segt'm la expresién: p9 = A- p = 5.51,. Los coeficientes corre-
gidos se obtienen despejando: A = Po/ [,3 . r” .
c) Dicotomizacién unificial de la variable criteria en dos proporciones, p y :3.
En este case el coeficiente seria 1a constante biserial, que se puedc ohtener
en las tablas que se ofrecen en algunos libros dc estadistica o psicomclria
(12.3., Abad, Olea, Ponsoda y Garcia, 2011; Amén, 1993):
=¢(c) [6.6]
a’ / 1/10,. "I,
=¢(c) [6.7]
a‘ /J x 1,
Capitulo 6. Meta-aMIIsis y psicomelria 165
07 = Ur— [6.8]
JUf'p-pf
El valor que se sustituye en esta férmula para pa es la estimacién
media de todos los estudios sin corregir. De esta fauna, las variaciones
cntrc los estudios en cl cocficiente a; se deben exclusivamente a sus
diferencias en cuanto a la magnitud de la restriccién en el test (Ux).
Hemos asumido que la restriccién en el tango se produce
directamente en el test. Sin embargo en muchas ocasiones la seleccién se
produce indirectamente, mediante otra medida qua correlaciona
positivamente con 61 test 0 mediante mecanismos especiales dc
reclutamiento. Mantras en situaniones de restriccién directa se utiliza 1a
ffinnula [6.8] cu situaciones dc resniccién indirecta hay que hacer célculos
adicionales, més complejos, que contemplan el cociente entre las puntua-
ciones verdaderas dc ambas medidas, que hay que estimar previamente.
Remitimos a Hunter y Schmidt (2004) para consultar una exposicién més
detallada.
h) Restriccién de range en Y. Al igual que en el punto anterior, se pueden
producir restricciones de range en el criteria. El valor de a; depends
también del cociente entre las desviaciones tipicas en el criteria por parte
de la poblacién restringida y de la poblacién sin restringir. De nuevo
aparece la complicacién especial de que el multiplicador depende del
propio valor de p, put lo que volvemos a recurrir a1 valor medio de p0,
166 Mela-anallsis en Ciendas Soclalee y de la Salud
Ur [5.9]
a3= U2. 2 1_ 2
y p0+ p0
as =1_ll‘_P2l [6.10]
(2-N—2)
n, = Z ,rm =472,80=0’2865
EN, 1650
tra de trabajo y la de la poblacién de referencia son iguales) mientras que los valores
inferiores a 1 reflejan una resu'iccién de tango. En la columna final apareoen los coe-
ficientes corregidos.
Veamos con dctallc los calculos relatives al primer mtudio, a mode dc cjemplo.
Los coeficientes de atenuacién correspondientes a la fiabilidad del test y el criteria, a
la restriccién de tango y el ajuste por sesgo, asi como el coeficiente combinado, son
A = 0,8660-0,9077'0,3360*0,9964 = 0,6548
W1=N:'A:2 [611]
Capitulo 6. Meta-anéllsis y psicomelria 159
donde A,- ya ha sido definida més an-iba. También se puede ponderar solo con el
tamafio de la muestra, hacienda equivaler los pesos a los tamafios, w,- = M.
En cualquier caso, la férmula de la conelacién conegida media tienc la
misma estuctura que ya vimos en el capitulo 3:
k
W-‘P'
l
E ’ “
" : —
[6.12]
r” = r'/Z [6.13]
ror: —_ 2m
W,
[6.14]
1 — 2
.0
v =_Z“’*“"
a 2 WI [6.16]
“3:17am;H, [6.18]
La conclusién final se bass. en los valores obtenidos an [6.12] y
[6.18], este filtimo habitualmcnte expresado en su raiz cuadrada, como una
desviacién tipica.
blacional en este tipo de estmfios seré al menos igual a rim —l,28-éi"o en e190% de
las ocasiones” [i128 son los valores de la distribucién N(0;l) con percentiles 10 y
90].
Veamos 1m ejemplo para 10: coeficicntes corregidos de los mismos cstudios de
la tabla 6.]. En la tabla 62 se incluyen los calculus de cada paso.
nc __342,63
— = 0,3733
917,30
Con la férmula [6.15] obtenemos la columna v, con las valianzas de los arrows
dc mueslreo de los coeficientes corregidos (e1 valor de correlacién media observada
es igual a 0,2865; ya lo habiamos calculado para poder obtener (1}). Con la suma de
estos valores multiplicados por sus pesos (recordemos que se pondera par N: ”4:2 ),
que aparecen en la siguiente colunma, sustituimos en la fémmla [6.16]:
v _ 3.5247 = 0,0093
' 917,30
172 Meh-anélisis en Ciendas Soclalea y de la Salud
_ 20,4264 = 0,0223
Var{r;_.) 17 80
8: =0,0223—0,0093=0,013; 6p =0,114
Los procedimientos descrims en los apartados antefiores asumen que todos o casi to-
dos los estudios proporcionan suficiente informacién come para corregirlus adecuada-
mente. Sin embargo, lo més fiecuente es que haya un nfimero no despreciable de estu-
dios de los que no se disponga de esa informacién. Dejar sus coeficientes sin atenuar
podria tenet un importante efecto de sesgo a la baja. Hunter 31 Schmidt (2004) han
propuesto un procedinfiento para afiontar estos cases que se basa escncialmcnte en
promediar cl tamafio de los coeficicntes dc atenuacién y aplicar esos coeficientcs me-
dios a todos los estudios.
Para aplicar este procedimiento es necesario contar con un nfimero suficiente dc
estimaciones de esos artefactos y trabajar con su distribucién. Ademés, implica asu-
mir que los valores de estos artefactos en los esmdios son independicntes entre si e in-
dependientcs respecto a1 valor dc correlacién poblacional de cada estudio. En estas
condiciones es posible obtener una buena estimacién del “artefacto media” y aplicarlo
a todos los estudios coma coeficiente de correccién. Posteriormente se emplea mm 16—
gica similar a cuando se hacen correcciones individualizadas en cada estudio, des-
componiendo 1a varianza de los coeficientes observados en varies términos, uno de
Capitulo 6. Meta-aMIIsis y psicomelria 173
6.2. Fiabilidad
A partir de la publicacién de un articulo dc Vacha—Haase (1998) se impulsé consi-
derablementc e1 dcsarrollo de una linea analog: 3 la de Hunter y Schmidt, pero en el
estudio de la fiabilidad. Debido 3. ese paralelismo ha recibido el nombre de Generali-
zacién de la Fiabilidad (GF) (Sénchez—Meca y Lépez-Pina, 2008). En su primera dé-
cada 1a publicacién de este tipo de MA crecié considerablemente (Sinchez-Meca,
Lépez-Pina y Lépez-Lépez, 2003).
El enfoque de la GF toma come punto de partida e1 reconncimiento de que- la
fiabilidad, contrariamente a lo que creen muchos investigadores, no es una propiedad
inherent: a1 test. M518 bien, es una propiedad de las puntuacioncs obtenidas con un test
determinado y en unas circunstancias particulates. Con fi'ecucncia los autores de in-
vestigaciones primarias justifican la eleccién de sus instmmentos de medida adu-
ciendo e1 valor dc fiabilidad que se ofrece en el manual del test, obtenido en la fase de
construccién y baremacién. Esta préctica ha sido denunciada por Vacha-Haase y otros
autotes bajo e1 ténnino dc induccidn de lafiabilidad. Es decir, del hecho de que se ha-
yan publicado ciertos valores de fiabilidad se induce la misma fiabilidad para otras
aplicaciones del mismo test.
El debate generado sabre csta cucstién, en términos dc psychometric: versus
damen'ics (Thompson y Vacha-Haase, 2000) ha favorecido la toma dc conciencia
de que la fiabilidad de una punmacién estfi ligada a1 test an si, pero también a las cir-
cunstancias de su aplicacién, a] perfil social de los participantes, a su edad y com-
posicién por sexes, etc. For eso es importante que cuando sc emplea un test para una
investigacién siempre se obtenga y se publique la estimacién de la fiabilidad obtenida
en esa aplicacifm.
Como en otras forms de MA, 103 dos objetivos principales de un estudio de GF
son obtener estimaciones combinadas de la fiabilidad a partir de los coeficientes ob-
servados en los estudios primaries y estudiar la capacidad de las fuentes dc variacién
reflejadas en las variables moderadoras para cxplicar las variaciones en los coefi-
cientes de fiabilidad obtenidos. Sin embargo, hay una diferencia importante entre los
estudios dc GF y otras formas dc MA. En general, suelen ser bienvenidos 105 MA que
muestran que hay variables moderadoras asociadas con tamafios del efecto dc difcren-
te magnimd. Estas matizaciones mejoran nuestra comprensién de los fenémenos bajo
estudio y sefialan lineas dc investigacién fimn'as (Borenstein, Hedges, Higgins y
Rothstein, 2009; Cooper, Hedges y Valentine, 2009; Lipsey y Wilson, 2001). En
cambio, en los estudios dc GF lo que a bienvenido es el resmtado opuesto. Como se-
fialan Botella y Ponte (201 1), la ausencia de variaciones en los coeficientes explicadas
174 Meta-anallsis en Ciendas Soclalea y de la Salud
mediante variables moderadoras es una buena noticia para el test. Revels. solidez en
los constuctos y constituye una evidencia de validez de las puntuaciones que ofi‘ece.
Sc entiende por fiabilidad cl grade en que las mediciones son esmbles y rcplicables
con distintas formas del test 3: en diferentes mementos y condiciones (Abad, Ole-a,
Ponsoda y Garcia, 2011). Dentro del mama de la Teoria Clésica de los Tests se- han
propuesto esencialmente tres formas dc abordar de fonna préctica 1a valoracifin de la
fiabilidad, qua atienden a fiaentes distintas dc vafiaciém en los coeficientes (Cracker y
Algina, 1986; Feldt y Brennan, 1989). Por un lado, la correlacién entrefomms para-
!elas del test proporciona informacién del grado dc equivalencia entre versionas
diferentes del test que incluyen items distinms. Por otro, la correlacién entre dos ad-
ministraciones del mismo test a las mismas pcrsonas en dos mementos distintos, o
fiabilidad test-retest, proporciona informacién sobre la estabflidad temporal de las
mediciones. Por filtimo, la consistencia intema se refiere a1 grade en que los ele-
mentos del test miden el mismo constructo.
Para poder hacer estudios dc GF cs necwario disponer dc investigaciones pri-
marias que proporcionen estimaciones empiricas independientes de la fiabilidad. Ho-
gan, Benjamin 3; Brezinsky (2000) estudiaron la frecuencia con la que los autores de
los estudios primaries proporcionan esa informacién y encontraron que lo hacian muy
pocu y que cuando se hacia se infomaba mayoritariamente del coeficiente alfa de
Cronbach (1951), que 113d la consistencia intema. Pocas veces se proporcionan coe-
ficientes test-retest 0 de formas paralelas. Esto significa que aunque en teoria se pue-
dcn (y deben) hacer estudios dc GF para 105 trees tipos dc fiabilidad, en la précfica es
frecuentc que solo se disponga dc infonnacién adecuada para meta-analizar cocfi-
cientes de consistencia intema (Vacha—Haase y Thompson, 2011). En una revisién
sobre los estudios de GF realizados en casi una década Sénchez-Meca, Lépez-Pina y
Lépez-Lépez (2008) confirman este masivo predominio del coeficiente alfa.
Aunque al principio a veccs se mezclamn los tres tipos dc coeficientes hoy hay
un consenso en que no se debe hacer asi por dos razones principales (Henson y Thom-
pson, 2002). La primera es que los distintos coeficientes vienen en diferentm
métricas. Mientras los coeficientes de fiabilidad de faunas paralelas y test-retest son
coeficientes de correlanifin dc Pearson, e1 coeficiente alfa no lo es. A los dos primeros
se les podrian aplicar los procedimientos ya descritos en los capiuflos precedentes
para r, mientras que para meta-analizar coeficientes de consistencia interna hay que
empleaI procedimientos distintos. La segunda razfin es que se refieren a fuentes de
vafiacién dc diferente namraleza (Dimiimv, 2002) y reahnente implicaria mezclar
peras con manzanas.
Capitulo 6. Meta-aMIIsis y psicomelria 175
Los pasos que se siguen son similares a los de otras formas de MA (Sinchez-Meca,
Lépez-Pina y Lépez-[fipez 2009). Tras especificar e1 teat cuyas mediciones se pre-
tenden meta-analizar se hace una bfisqueda de estudjos que aporten estimaciones de la
fiabiljdad. Con los estudios recuperados se registran los coeficientes y tamafios mues-
trales, pero también se codifica el tipo de fiabilidad estimada y todas aqucllas varia-
bles moderadoras que pudieran explicar una parte de la variabilidad que se observara.
En esta fonna de MA es frecuente que scan relevantes coma variables moderadoras
las diferentes versiones de un mismo test, las caracteristicas psicolégicas y
sociodemogréficas de los participanteS, los diferentw contextos dc aplicacién, etc. Las
estimaciones de la fiabilidad no aparecerén 5010 en estudios de validacién del test.
También habré. estudios en los que 61 test se emplea para medir los resultados de una
intervencién, para comparar lincas base en fase pretratamiento, come medida de co-
variables, etc. E1 objetivo del investigador es indiferente a este respecto. Lo finico re-
levante es que se haya aplicado e1 test y se proporcione una estimacién de la fiabilidad
de sus puntuaciones.
Tras aplicar los procedimientos correspondientes las conclusiones se referirén a
la fiabilidad media de las punmaciones obtenidas con 61 test y su grade dc heteroge-
neidad, asi como a1 grado en que esta se relaciona con las variables moderadoras. Por
ejemplo, Lépez-Pina, Sénchez-Meca y Rosa-Alcézar (2009) hicieron un estudio de
GF sobre la escala dc Hamilton para la depresién, concluyendo que la heterogeneidad
observada en los coeficientes esvé asociada a1 nfimero de items, a la varianza de las
puntuaciones muestrales y a] tipo de desorden esmdiado en la muesfla. Igualmente,
Botella y Ponte (2011) publicaron un estudio de GF sobre el test de Beck para la
depresién (EDI) en el que concluyeron que la fiabilidad de las puntuacionw quc
proporciona el test ha ido mejorando significativamente en las sucesivas versiones pu-
blicadas del mismo.
Los estudios de GF presentan algunas dificultades particulates que hay que afi‘ontar
adecuadamente. Vamos a detenernos en tree de ellas: 1a eleccién del indice dc TE, la
cuestién de la ponderacién y el problema de la heterogeneidad de las varianzas de los
estudios.
intema (que casi siempre sari e1 coeficiente alfa dc Cronbach) se debe em-
plear alguna transformacién con distribucién conocida, ya que el coefi-
ciente simple no se ajusta a ninguna de las distribuciones més comfinmente
empleadas (Sénchez-Meca, Lépez-Lfipez y Lépez-Pina, 2013). Se han pro-
puesto al menos dos. La primera es la de Hakstian )7 Whalen (1976) y que
han popularizado Rodriguez y Macda (2006). Su férmula y la de su va-
rianza las hemos indicado ya en el epigrafe 2.5.3, para las repetimos aqui
par comadidad (N es el nfimero de participantes 0 respondientes y j es el
nfimero de items):
Vr =18-j-(N—1)-(1-a)“3 [620]
H” (j—1)-(9-N-11)2
_ L [6.22]
v"'(i—1)-(N—2)
Veamos un ejemplo numérico con los datos de la tabla 6.3, que se
refiere a cuatro wtudios incluidos en 61 MA dc Botella y Pontc (2011) y
que informan de la consistencia intema de aplicaciones de la primera
versién del test de depresién BDI, de 21 items. En 13. parte izquierda se
muestran los coeficientes alfa obtenidos, los tamafios de las muestras y el
nfimero dc items. En 121 parts central aparecen las transfonnaciones hechas
mediante [6.19] y [as varianzas obtenidas mediante [6.20]. En la parte
derecha se hace lo mismo con las férmulas [6.21] y [6.22].
s=L =E [6.23]
VP + FN MT
=£=fl [6.24]
VN+ FP MN
Sin embargo, emplear estos indicadores supone valorar simulténeamente dos
cantidades, y puede ocurrir que un instrmnento tenga major S que otro, pero tenga
peer E. For $1 contrario, disponemos dc diversos indicadores que resumen 1a infor-
macién en un finico valor (véase Sinchez—Meca, Maxim-Martinez y Chacén-Moscoso,
2003). Butte ellos destaca la Razdn de Venmjas para respuestas positives (la RV que
ya hemos expucsto en el epigrafe 2.3). En el contexto de los instrumentos diagnfis—
ticos se llama Razén de Ventajas Diagnésfica (RVD; Diagnostic Odds Ratio, DOR).
Se puede expresar en términos dc S y E,
= L [6.26]
VP + FP
WON = l [6.27]
VN + FN
my influidas por la prevalencia de 105 T en el estudio. Par can 105 MA de este tipo de
instrumentos se han centrado an S y E a pesar de todo.
DI = A + B - SU [6.28]
per otro, se afiade 1m parémetro que refleja la eventual correlacién entre ellos. Otra
fuente dc variacién es el muestreo aleatorio, que genera més variacién cuanto menor
es el tamafio muestral y se modela mediante variables binomiales.
Representando per 0;; y 65; las tmnsfonnaciones legit de 19.3 S y E del estudio 1',
se asume que los logit(S) y logit(E) se distribuyen aproximadamente normal con valo-
res medias 65.- y 9m: mientras que sus varianzas intermsmdios son a": y a: . A ello se
afiade la covafianza entre los valorcs de 65; y 65,, que 36 represents. put a“ .
Par tanto, el modelo NB es
donde vs 3! v5 (que se uatan coma efectos fijos) son coeficientes que representan los
efectos de la covariable Z sabre logit(.5‘) y Iagit(E). También se puede incluir la co-
variable en solo uno de los dos indicadores, si se considera apropiado. Se pueden
crear variables dummy para codificar la covariable Z y ejecutar cl procedimiento
NLMIXED.
El quinto y filtimo procedimiento es el modelo Jerérquico de Ia curva ROC
rammen (HSROC; Hierarchical Summary Receiver Operating Characteristic). Ha
sido propuesto por Gatsonis y Paliwal (2006), Rutter y Gatsonis (1995, 2001) y
Macaslcill (2004). También es un modelo multinivel, pero en lugar dc modelar direc-
tamente S y E se ajustan los datos mediante una regresién logistica de efectos alea-
torios. Incluye dos niveles, correspondientes a la vafiacién intraestudio e interwtudio,
1B4 Meta-anallsis en Ciendas Soclalea y de la Salud
ai~N(A+.1oZi,a':) 6}~N(®+y.zi,a'§)
donde Z, es el vector dc covariables. Estas se incluyen coma efectos fijos, siendo A y y
sus cocficicntcs.
A diferencia del modelo NB, el HSROC proporciona estimaciones directas de la
precisién media (A = lagRVD), del pat'émen‘o de escala (5), del umbral media (9) y
de las varianzas que representan los efectos aleatorios de la precisién y el umbral.
Como en cl modelo NB, con los parémetros cstimados sc pueden obtcner repre-
sentaciones gnificas de la curva y el punts ROC resumen mediante Review Manager
(2008). Mientras e1 modelo MB permitia incorporar covafiables directamente a S y E
(a sus logits), el modelo HSROC permits hacerlo a los paritmetros dc precisién, um-
bral y cscala del modelo. Representando de nuevo par Z a la covariable, cl modelo NB
se formula coma (véase en Botella 3; Huang, 2012, um exposicién mfis detaflada):
Aunque los métodos que hemos expuesto hasta aqui permiten realizar MA en la
mayoria de los campos de las ciencias sociales y de la salad, hay algunos cuyas
peculiaridades exigen respuestas especificas. Vamos a detenemos en lres de estos
contextos, que humus calificado coma “especiales”. Hay muchos mas y conti-
nuamente conocemos propuestas dc nuevos desarrollos ideados para contextos con
necesidades diferentw. Peru estos [res son suficientes coma para que el lector se haga
una idea dc cémo un mismo objctivo, la sinwsis dc rcsultados dc investigaciones pri-
marias independientes, exige respuestas diferentes segfin las parficflafidades de los
estudios de cada campo.
Primero trataremos 1a sintesis de una matriz dc comalaciones, qua poste-
riormente constituiré e1 material dc enuada para el ajuste de un modelo complejo.
Después abordaremos la problemética asociada a los campos en los que se emplean
estudios dc caso (mice. Por filtimo, discutiremos e1 llamado MA acumulativo pros-
pective. Los tres tfipicos estén en plena efervmcencia, sujetos a continuas novedadas.
En los préximos afios asistiremos sin duda a importantes progrcsos en cada uno de
ellos.
133 Meta-anallsis en Ciendas Soclalea y de la Salud
En este aparmdo nos restringimos a 661:8 filtimo caso. El objetivo serfi sintetizar
una matriz dc correlaciones qua mlponga la mejor representacién de las interrelatio-
nes entre- las variables involucradas. Para ello se intenta aprovechax toda la informa-
cién disponible en los estudios que publican estimaciones de esas interrelaciones. El
resultado es alga parecido a una matriz de correlaciones medias entre las variables,
pero no cxactamente la media. Para sintetizarla se dcberé tenet en cucnta no solo lo:
coeficientes de correlacién, sino las covarianzas entre esos coeficientes. Por otro lado,
con fi-ecuencia ocurn'ré que se encontrarén estudios que ni en sus objetivos ni en su
discusién se centran (a veces ni siquiera mencionan) e1 modelo que nos interesa. A
vcces porque el objetivo es otro y a wow porque cl modelo dc interés es posterior a1
estudio primario. Este no es un aIgumento suficiente para justificar la exclusién de un
astudio. Lo importante es que aporten estimaciones de las interrelacioncs relevantes
para el modelo que centra la atencién del MA.
Figure 7.1. Slntesis de una matn‘z de correlaciones a partir de Ias matrices propor-
cionadas pot k estudios: algunas estén oompletas (9.9., estudios 1 y k) y otras in-
completas (en el estudio 2 falta Ia variable 4 y en el aqdio 3 falta la variable 2).
1 2 3 4
1 '5: '31 ru
2 In :14
3
4 2 3 4
”a“! \ 1 1 r13 '1: '14
2 [as '14
1 2 3 4 3 r“
1 q, 1-,, 4
2 l:13
3
4
Elm:
2 3 4 1 2 3 4
I 11-, IL; 1 "n [is 1'14
2 2 r23 '14
: r34 (""9 : r34
M 3 Elhllflok
diferencia suele ser que la pregunta se repite para cada transicién entre fases aqui nos
centraremos en el disefio AB). La investigacién con DCU ha hecho grandes
aportaciones a la psicolngia. Sin embargo, cuando los investigadores de estos campus
han querido emplear procedimientos sisteméticos de revisic'm bajo el marco
conceptual del MA se han encontrado coma principal dificultad que no disponian de
una medida conscnsuada del TE. Como consccuencia, la investigacién con este tipo
de disefios se ha visto menus beneficiada de las oportunidades que ofi'ece el MA.
Algunos de los campus con estas tradiciones tienen su propia légica y el anélisis
de los datos ha sido especialmente peculiar. Per ejemplo, desde perspectivas conduc-
tistas ortodoxas cl anélisis de los datos descansa en las inferencias que hace e1 experto
con la mera inspeccién visual de la representacién gréfica de los datos (Hersen y
Barlow, 1976; Parsonson y Baer, 1992). El criteria del experto es el que permits de-
ducir si hay 1m cambio entre las fases de un discfio AB; por ejemplo, la simple ins-
peccién no deja clam que haya cambio entre las fases A y B de la figura 7.2a, pero si
que se deduce con razonable claridad en 133 de la figura 7.2b. Aunque e1 criteria vi-
sual es muy discutible, en diversos campus se ha mantenido a lo largo de los aflos 3/
boy en dia se pueden encontrar numerosos ejemplos en revistas de prestigio (e.g.,
Journal of Applied Behavior Analysis, Behavior Modification, Journal of Autism and
Developmental Disorders, eta).
Pero pasemos a la cuestibn del TE. Si bien un experto en anélisis visual puede
apreciar cambio relevante entre dos fases, no parece razonable que de esta misma for-
ma asigne un nfimero que refleje 1a magnitud del Gambia. Desde luego, se pueden
mantener los resultados en términos dicotémicos (cambio o no cambio; efecto vet-ms
no efecto), pero entonces volveriamos a la época pre-meta-analitica del recuento de
votes, en la que los estudios eran clasificados seglfm ofiecieran 1m efecto significativo
o no. Uno dc los grandcs avances del MA ha sido precisamentc quc 10s cstudios no sc
traten de esta forma, sine qua cada uno aporte una estimacién del TE.
Dentro de estos mismos campos se ha manifestado la preocupacién par sustimir
la inspeccién visual por procedimientos estadisticos més rigurosos y objetivos. A e110
responde en parts 1a gran cantidad dc aportaciones de los I’Jltimos 30 afios a] anéfisis
de series temporales interrumpidas. El establecimiento de un método estadistico con-
sensuado y sélido podria permitir la derivacién inmediata de indices de TE asociados
a 65:13 técnicas dc anélisis, ta] y como ha ocurrido en otros campus. En estos cases :1
debate sobre el indice adecuado del TE no es mas quc una cxtensién del debate sobre
la técnica estadistica més adecuada para los estudios primaries.
En resumen, la poca presencia del MA en los campus dc investigacién en los
que dominan los DCU se debe a la ausencia dc indices consensuados dc TE. Por un
lado, porque en algunos de esos campus se mantiene la inspeccién visual como ins-
trumento fundamental dc anélisis en los estudios primaries. Por otro, porque en los
que se emplean pmcedimientos estadisticos mmpoco se ha alcanzado un consenso su-
ficiente sobre el procedimiento de anélisis més adecuado (Bone y Arnau, 2014).
Capltulo 7. Mela-anéllsis en campus especlales 193
I I
' ( ) hunt | Fuse]!
1. - :
' I
I a a c I
I
U C O I O O
6 ' o | a o a
. I
I
.
4- I '
. I
I
I
I
I
1 1 3 4 5 6 7 8 9 1 i l 1 1 1 1 3 1 4 1 5 1 5
(b) II
' Fund» FueB
I. ' I
. I
I
I c o a I
o a o I
I
E - o I a
- I
4 ' : o
. | o o
I
I
|
I I I I I I I I I I I I I ’ I F
1 3 3 4 5 6 7 8 9 1 0 l 1 1 2 1 3 1 4 1 5 1 ‘
Figure 7.3. Palmnw altemativos idealizados de datos. En Ias figuras (a) y (b) no hay
mndencia en la fase A, mientras que en las figures (0), (d). (e) y (f) sf la hay. En la figura (a)
no hay Gambia en la magnitud media entre las fases, mientras que en la figura (b) hay un
incremento. En la figura (c) 53 mantiena en la fasa B la misma tendencia que en la fase A.
com continuacién de aqualla, por lo que se deduce qua no ha habido efecta de la
Intervancién. En la figura (d) hay una inversion de la tandencia (pero no hay camhio en las
medias d9 Ias fases). En la figura (a) no Gambia la tandencia (pendiente) para el cambio de
fase Ileva asouiado un cambio bmsoo en el valor absoluto (amalén). En la figura (f) hay una
oombinacibn de efecto escalén con cambio de tendencia.
( d ) \ /
e) : (1)
/
efectiva (PDN 2 90%), efectiva (70% s PDN < 90%), de efectividad cuestionable
(50% S PDN <1 70%) o inefectiva (PDN < 50%).
Es fécil comprender que los indices de este tipo son may sensibles a circums-
tancias que poco tienen que ver con lo que se busca. Por ejemplo, el tango de los va-
lores dc PDN en una fase es una fimcién directa del nfimero dc observaciones de ma
fase; por tanto, cuantos mas puntos se recojan en una. de las fasw 0 en las dos, manor
tenderé a set e1 valor de esta medida.
Otros indices no paramétricos recientes ban intentado resolver algunas de las li-
mitaciones del PDN, coma por ejemplo e1 Parcentaje de Datos que Exceden Ia Me-
dium: (Ma, 2006), el Porcentaje Total de Baths No Solapados (PaIker, Hagan-Burke
y Vannest, 2007), 1a Dg'ferencia en la Tasa de Mejon'a (Parker, Vannest y Brown,
2009), el Porcentaje de Datos Corregidos No Solapados (Manolov y Solanas, 2009),
el Parcenraje que Exceden [a Linea de Tendencia Media (Wolcry, Busick, Reichow y
Barton, 2010) y otros. Aunque algunas de estas altemativas han supuesto avanm
respecto a1 PDN, siguen adoleciendo de casi todas sus limitaciones, como la dificultad
para detectar tendencias y/o para representar la magnitud del cambio. Ademés, los
intentos por conocer sus propiedades estadisticas ignoran los efectos de autocorre-
lacién, lo que supone una dificultad adicional para derivar su distribucién mucstal.
Del desconocimiento de la distribucién muestral del estadistico se deriva también 1a
imposibilidad de emplear el esquema dc ponderacién por el inverse de la varianza del
estimador, ya que la varianza es desconocida. Como alternativas, Faith, Allison y
German (1996) discuten la posibilidad de ponderar por el nfimero dc puntos en el
estudio o, incluso, cambiar a un esquema dc ponderacién por la calidad del esmdio.
Diversos cstudios han mostrado que, en general, las medidas no paraméu-icas no
son una buena opcién para el MA. Wolery et al. (2010) concluyen mcomendando
directamentc cl abandono dc este tipo de medidas, centrando los esfilerzos en otras
lineas. Nosotros creemos que su use descriptive y exploratorio no se debe descartar
por ahora. De hecho, otros autores no 11311 encontrado que estas medidas fimcionen
peor que las medidas paramétricas en un abanico de situacioues bastante creibles
(Manolov y Solanas, 2008). Adcmés, no debe-mos olvidar que los proccdimientos
meta-analflicos deben set convincentes para sus usuarios, y el punto fuerte de estas
medidas es que coinciden bastante con los resultados de la inspeccién visual de los
cxpcrtos. Lo mils prfictico seria contar con procedimientos en los que coincidieran los
resultados de la inspeccién visual de los expertos con el rigor metodolégico exigible a
walquier practical pmfesional que quiera set considerada dentro del movimiento
“basado en la evidencia” (Manolov, Sierra, Solanas y Botella, 2014).
Un problema adicional con este tipo de medidas es que :1 TE expresado
mediante alguno de estos indices no paramétricos no es comparable con los indices
habituales an MA, a pesar de los intentos por hacer que aqucllos scan interpretablas
desde 1a (uptica de estos (Parker y Hagan-Burke, 2007). Esto hace que cuando se
localizan tanto estudios con DCU como de comparacién de grupos las estimaciones
combinadas de los dos conjuntos dc esmdios no puedan a su vez integrarse en estima-
ciones conjuntas.
193 Meta-anallsis en Ciendas Soclalea y de la Salud
Aparte del caso de la diferencia dc medias, que ya hemos comentado, las dificultades
de las medidas no paramétricas han propiciado e1 desarrollo dc adaptaciones de
modelos lineales, especialmente de regresién, que tengan en cuenta las tendencias
intrafase. Son las técnicas estadisticas para el anilisis dc series temporales
intcrrumpidas. Estas adaptaciones pretenden capturar la magnimd del impacto dc una
intervencién micntras tiencn en cucnta las tendencias y cambios “mcalén” yfo los
efectos dc autocorrelacién. Las primeras permiten incrementar 1a validez intema, 31
separar el efecto del cambio de fase de lo que hubiera sido observado en case de no
intervenir. Las segundas hay que contemplarlas para poder emplear modelos estadis-
ticos apropiados, que recojan las propiedades do 105 dates. Par ejemplo, en la figura
7.4 56 muestra 1a proyeccién sobre la fase B dc la recta dc regresién obtenida con los
datos de la fase A (con el dia como variable independiente) de los ejemplos de 13. fi-
gura 7.2 (la ecuacién es Y’ = 8,36 — 0,19 -X). La recta de regresién confinna lo que
sugiere cl anilisis visual: que en la fuse A 105 valores tienen una tendencia decre-
ciente. Mientras en la figura 7.4a los valom de la fase B 56 parecen a los que cabria
esperar por mera continuidad de la tendencia en la fase A, en la figura 7.4b se aprecia
que el cambio de fase ha producido una interrupcién en esa tendencia. Si se valora
ciegamente por la diferencia de medias habria que concluir que en ambos cases hay
un efecto, ya que en ambos cases la media de la fase B as inferior a la de- la fase A,
pero en la figura 7.4a esa diferencia queda explicada por la tendencia y en la figura
7.4b no.
Una primera linea dc dwan'ollo afronté la cuestién de los cambios escalén y de
tendencia, pero no la de la autocorrelacién. Fue primate propuesta por Center, Skiba y
Casey (1985-1986) y después modificada y mejorada unto pct Allison y German
(1993) came par Faith, Allison 3! German (1996), ya que en su forma original no se
contemplaban los efectos inversos.
La propuesta consists en ajustar modelos dc regresién lineal con la fase, la ten-
dencia (de la fase A) y de la interaccién. Se obtiene e1 coeficiente R2 incremental al
incluir la fase come predictora. El valor dc R2 as conviertc en un valor d, que fi-
nalmente es el indie: dc TE mpleado.
Como ya hemos indicado, este procedimiento sigue sin afiontar adecuadamente
limitaciones esenciales, como el hecho de que en el MA modemo se asumen casi de
oficio los modclos dc efectos aleatorios, mientras que en este procedimiento se asume
uno de efecto fijo, 0 e1 efecto de la. automnelacién, esencial para una correcta estima-
cién de la varianza del indice de TE. Ademés, algunos autores (3.3., Campbell, 2004)
no encuentran que un indice basado en regresién genera 1m mayor acuerdo que alga-
nos indices no paramétricos.
Una linea de dcsatmllo altemativa ha sido e1 empleo de modelos estadisticos de
series temporales interrumpidas. Su punto m es que si modelan el efecto de auto-
correlacién. Muchos autores que han discutido cl problema han sefialado que ningl'm
indicc dc TE puede ser adecuado si ignora cl efecto dc autocon'elacién, pero pocos
Capitulo 7. Mela-anéllsis en campus eapeclales 199
Figura 7.4. Un ejemplo non tendencia lineal dacreciante en la fees A y con una difemncia
antre las medias de Ios valores en las fases. En la figura (3) I05 dates de la fase B sun
congmentas con la proyaccién da Ia recta da ragresién sabre esa fase. En la figura (b) no
ocun'a asl; la diferencia entre las medias as mayor de la que saria asperabla incluso si la
tendencia da Ia fase A tuviase oontinuidad en la fasa B.
. (a)
FaseA FaseB
: -
1 2 3 4 5 G '1 I I 1011 1 2 1 3 1 4 1 5 1 5
(I!) II
' Fun! Fuel!
10' I
. . I
_ I
i -I 9 o |
N
5 ' o I—'- - - - - - - - -
I I - - - - - - - -
4 ' : o
' I o I
. I
3 I
- | a a
I
I I I I I I I I I I I I I ' I F
1 2 3 4 5 5 1 8 9 1 0 1 1 1 2 1 3 1 4 1 5 1 5
200 Meta-anallsis en Ciendas Saclalea y de la Salud
que no hemos tratado hasta aqui pero que es anflogo a1 que aparece en los estudios
primaries de diversas {wees de la psicologia. Por e110 comenzaremos por exponer
cémo aparece e1 problema en la investigacién primaria y 111c abordaremos su
extensic'm a1 MA.
‘Enesbepunw cabepreguntarsepurhsadaptaciomqueaedabminmduweaAcuandolos
estmfios primal-ins se han realizado con un prooedimiunto anaemia], otra linen dc investigacic’m qua apenas
ha dado sus primms pas-as (Buschi, Botella y Sucre, 2014).
204 Meta-anallsis en Ciendas Soclalea y de la Salud
conclusiones sin esperar hasta obtener e1 tamafio muestral derivado de la regla del
tamafio prcfijado.
Un procedimiento para realizar el MA con el minimo nfimero de participantes
podria consistir, sencillamente, en afiadir los participantes de cada estudio a una finica
muestra e ir reanalizando. Su aplicacién exige conocer los datos individuales de cada
participante. Este enfoque reconvertiria e1 problema del anélisis secuencial en MA en
un problcma dc anélisis sccuencial de una mumtra finica, como en un cstudio prima-
rio. En este case se podrian aplicar los mismos procedimientos secuenciales que a los
estudios primaries. Peru en muchos casos solo 86 comes la. infonnacién de agregado
muestral de cada esmdio, no los datos individuales.
Es fécil que esta forma de proceder sea incorrecta, tanto si se conocen los datos
individuales coma los agrupados, ya que en ella 5e asume un efecto fijo, comfin a to-
dos los estudios. Por ejemplo, e1 procedimicnto propuesto por Pogue y Yusuf (1997)
asume un efecto comfm para todos los estudios. Adoptan como limits maiximo para la
parada lo que llaman e1 optimum information size, que no es otra cosa que el tamaflo
que se deriva de la regla del tamafio prefijado aplicado a1 total de participantes en el
conjunto de los estudios.
Ya hemos indicado reiteradamente a lo largo del libro que an MA son més
creibles los modelos dc efectos aleatorios. Es razonable esperar que el efecto en cada
estudio sea diferentc y que la variabilidad interestudios poblacional no sea nula. En
mtas condiciones cl principal problema del MA acumulativo con anélisis secuencial y
decisiones condicionadas dc parada consiste- en que hay que obtener una estimacién,
también secuencial, de la vaIianza interesmdios. Whitehead (1997b) ha propuesto una
forma de adaptar :11 MA 311 regla secuencial (basada en el llamado test triangular;
Whitehead, 1997a). Sus simulaciones muestran que si e] cumpouente dc efectos alea-
torios exists 3] no es trivialmente pequefio, entonces ignorarlo puede tenet importantes
consecuencias en las decisiones. Higgins, Whitehead y Simmonds (2011) proponen
un prooedimiento a1 que se refieren coma “semibayesiano” porque la légica secuen-
cial es fi'ecucntista, pew la varianza intercstudios se actualiza por procedimientos ba-
yesianos u'as la incorporacién de cada estudio.
La impormncia de no ignorar las consecuencias de la realizacién de mfiltiples
cont-aster, con los mismos dates (0 parte de ellos) se ha destacado muchas veces e11
relacit'm con los estudios primarios. Hay ya 56 reconoce también esa importancia en el
émbito del MA (e.g., Bender, Blmce, Clarke, Gates, Lange, Pace y 'I'horlund, 2008;
Higgins, Whitehead y Simmonds, 2011; Van der Tweed, 2010). Algunos autores (e.g.,
Brok, Thorlund, Wetterslev y Gluud, 2009) han mosuado con dates reales esas
consecuencias. El deemollo dc procedinfientos estadisticos apropiados para el MA
acumulativo prospective es una linea de investigacibn en pleno desarrollo. Aunque
am: no hay 1m procedimiento establecido con el mlficiente consenso as probable que
en los préximos afios ese procedimiento vea 1a tuz.
No queremos ccrrar esta seccién sin hacer algunos commuting que surgen a1
hilo de las reflexiones sobre :1 MA prospective. Con frecuencia se publican MAS que
Capitulo 7. Mela-anallsis en campus eapeclales 205
son actualizaciones de otl‘os MAS realizados unos afios atrés y que incorporan un nfi-
mere significativo dc nuevos estudios publicados desde entonces. Légicamente, no so
Irata de una actualizacién planificada, ya que es incluso probable que sea llevada a
cabo por autores diferentes. Sin embargo, es licito preguntarse por algunos extremes
relacionados con 10 natado en este apartado.
Per 1111 lado, dcbemos hacer notar que si un MA crece indefinidamente con
nucvos estudios, la. probabilidad dc quc la cstimacién combinada sea signifi-
cativamente distinta de cero tiende a 1. Es lo mismo que ocune en los estudios pri-
maries; una correlacién tan pequefia come r = 0,05 es estadisticamente significativa
(a = 0,05) si la muestm es de al menos N = 1535. Basta afiadir cases indefinidamente
para que en algt'm momenta alcance la significacifin estadistica, aunque la correlacién
sea muy baja: en un esmdio primario basta con incremental- sin limite cl nfimero de
participantes para alcanzar un efecto significativo. Por tanto, una actualizacién in-
definida llevaré ineludiblemente a la conclusién de que el efecto existe. Desde luego,
esto no tiene que ver con la estimacién del TE, que puede ser un valor muy pequefiu
aun siendo significativo. Tiene que ver con la potencia del contraste meta-analitico,
que areas a medida que aumenta el nfimero dc estudios, k (Pigott, 2012). Cabe pre-
guntarse si tiene sentido continuar este proceso indefinidamente o merece la pena es-
tablecer un tamafio del intervalo que se pueda considerar “suficiente”, en el sentido
précfico del término. El autor de un MA puede concluir sefialando la escasez de
wtudios primaries y animando a realizar mfis, o puede sefialar que ya hay suficientes
para establecer una conclusién sélida. La conclusién de an MA puede tener reper-
cusiones en la decisién de realizar nuevos estudios primaries. Para e110 los inves-
tigadores deben conocer cuéndo hay suficiente informacién sobre una determinada
pregunta y el afladir nuevos esmdios primaries no la va a modificar significa-
tivamente. De esta forma podrén central" sus esfilerzos en Dims problemas Inés ne-
cesitados dc investigaciones primarias.
Validez del meta-anélisis
lisis y justificacién de ese esquema dc ponderacién, alga dificil de argumentar sin una
gran dosis dc subjetividad. También implica asumir 1m constructs especifico dc cali-
dad, pero se ha puestn en duda que sea posible medir tal construct) de forma fiable y
vilida (V erhagen, De Vet, De Bic, Boers y Van den Brandt, 2001). De hecho, e1 em-
pleo dc escalas estfi desaconsejado desde entidades como la Cochrane Collaboration
(Higgins y Altman, 2008). Por su parte, los checklists también son listas dc items,
pero no se convierten en magnitudes que se agregan; simplemente se verifica su cum-
plimiento, ya sea dicotémicamente (Si/NO) 0 can varias categorias.
Con 103 indicadores de la calidad obtenidos sc puede actuar de varias formas.
Conn y Rantz (2003; véase también Sutton y Higgins, 2008) sefialan Hes estrategias
generales: (a) emplear la calidad como mnbral dc inclusién, (b) aplicarla coma cri-
teria de ponderacién, y (c) tratarla como una cuestit'm empirica sujeta al anélisis de su
relacién con los resultados. Lejos dc ser cxcluyentes, estas tres aetrategias se pueden
combinar dc mfiltiples formas.
El empleo de la calidad coma umbral de inclusién suele conllevar una severa
restriccién, ya sea aplicando un punto de corte en los valores obtenidos con una escala
o estableciendo el cumplimiento dc algunos items de un checklist coma condicit'm
necesaria para la inclusién. Algunos autores han defendido que 61 MA se deberia
realizar solo con los estudios disponibles que cumplan los més altos niveles de calidad
metodolégica (2.3., Crowe y Sheppard, 2011; Slavin, 1986, 1995). Esta fuerte
restriccién puede reducir drésticamente el nfimero de estudios admitidos y, en
consecuencia, la potencia de los anélisis estadisticos y la validez de las conclusiones;
pero no esté demoslrado que estas resuicciones conduzcan 3 1111213 conclusiones més
convincentes o incluso diferentes.
La segunda estratcgia, en la que se emplea la calidad some criteria dc ponde-
racz'én, ha sido sugerida por varies autores (especialmentc Rosenthal, 1991), pcro se
ha aplicado pocas veces y tampoco se ha demostrado eficaz en el tratamiento del pro—
blema.
En la tercera estrategia la calidad se trata como una cuestién empirica cuya re-
lacién con los resultados as objeto dc estudio en el propio MA (Valentine, 2009). Se
puede emplear tanto con modelos de meta-regesién que incorporan las puntuacionas
en una escala dc calidad como variable moderadora, coma con modelos categorialw
quc aprovechan las categorias creadas por los elementos de un checklist (e.g., Kahn,
Daya y Jadad, 1996; Schulz, Chalmers, Hayes y Altman, 1995). Si estos anilisis indi-
can que las dimensiones dc calidad no explican una parts significativa de la varianza
entonces la calidad se puede ignorar en anélisis postefiores; en ese caso e1 meta-ana-
lista se habré protegido de esta amenaza (estudiando sus potenciales efectos) pero sin
sufi'ir la pérdida dc potencia que acompafia a la exclusién de una parte de los estudios.
En cambio, si 103 resultados demuestran que las estimaciones del TE estén rela-
cionadas con la calidad entonces puede estar justificado el empleo de un filtro. Ade-
mfis, si se observa que la baja calidad wtfi asociada a ciertos tipos de disefios, de
muesn’eo, de instrumentos, etc., se dispondré de nuevas oportlmidades para analizar e1
arisen de la heterogeneidad
210 Meh-anélisis en Ciendas Soclalea y de la Salud
propésito de mejorar 1a caJidad del reporte de los ECAs (Moher, Cook, Eastwood,
Olkin, Rennie 3; Stamp, 1999). Esta guia, compuesta par 22 items 3; un diagrama de
flujo orientativo, ha sido adoptada por numerosos consejos editoriales dc prestigiosas
revistas médicas (qfl Moher, Jones y Lepage for the CONSORT Group, 2001; Muller,
Schulz y Altman for the CONSORT Group, 2001). De especial interés para el fimbito
de las Ciencias dcl Comportamicnto es la adaptacibn dc 1a guia CONSORT para 511
aplicacién a estudios evaluativos sabre intervenciones psicolégicas (cf Boutmn er al.
for the CONSORT Group, 2008). En esta misma linea se ha desarrollado la guia
TREND (Transparent Reporting of Evaluations with Nonrandomized Designs), diri-
gida a mejorar cl reporte de los estudios evaluativos no aleatofizados en ciencias del
comportamiento (c Des Jarlais, Lyles, Crepaz and the TREND Group, 2004).
En el émbito de las Ciencias Sociales y del Comportamiento también se han pro-
pumto, aunque en manor cuantia, cscalas y sistcmas para valorar la calidad de los es-
mdios evaluativos, que podrian aplicarse en meta-anélisis. Asi, Miller y Wilbourne
(2002) 11311 elaborado la Methodological Quality Rating Scale (MQRS), la cual ha Si-
do adaptada para 511 user an mfiltiples meta-anélisis en ciencias sociales. Esta escala
incluye items sabre disefio del estudio, mortalidad, duracién dc] seguimiento, tipos dc
medidas dc resultado 3; control dc la calidad de la intervencién. Contiene 12 items que
dan una puntuacién entre 0 y 17.
Gabe también mencionar la propuesta pot Valentine y Cooper (2008) del sistema
Design and Implementation Assessment Device (DIAD), financiado por el Mat
Work; Clearinghouse (WWC), una organizacién auspiciada por el U S . Department of
Educationis Institute of Education Sciences. La guia DIAD pretende solventar los
problemas dc ambigfiedad de las wealas anteriorcs en el proccso de valoracién, codi-
ficacién y asignacién final de las puntuaciones sobre 105 items de calidad. Para e110
propane 1m sistema jcrérquico dc identificacién dc dimensiones dc calidad, quc co-
mienza con cuatro preguntas en su nivel méximo de abstraccién (los cuatro tipos de
validez de la invastigacifin), para vertebrar a continuacién cada una de ellas en otras
dos preguntas més especificas y, finalmente, en un filtimo nivcl de méxima especi-
ficidad, se proponen 32-34 items dc calidad que penniten operacionalizar la valora-
cién de la calidad del disefio e implementacién de los estudjos evaluativos.
Son ejemplos de otras escalas de valoracién de la calidad cl STARD para estu-
dios dc precisién dc clasificaciones diagnésticas binarias (véasc cl epigrafe 6.3;
Bossuyt, Reitsma, Bruns, Gatsonis et al., 2003), la escala de calidad para estudios
sabre dolor de Yates, Morley, Eccleston y Williams (2005) o la escala Q-Cah ela-
borada por Jarde, Losilla, Vives y Rodrigo (2013) para valorar la calidad de esmdios
de cohortes. Asi mismo, es muy frecuente que se elaboren escalas ad hac, adaptadas
a] tipo de estudios primarios implicados y alas caracteristicas especificas del campo
dc estudio a1 que se refiere e1 MA.
En resumen, la cuestién de la calidad no esté resuelta, pues no hay consenso
sabre qué serian unas buenas précticas al respecto. Sin embargo, esto no debe llevar a
ignorarla. En todo MA se debe afrontar dc alguna forma y se debs hacer explicita en
el informs. Para elln hay muchos recursos.
Capltulo B. Valldez del meta-anéllsls 213
Tabla 8.1. Escala do mlldad para valarar las amenazas da sasgo an Ias aslimacinnas dal TE.
item Si No
1. gAsignacién aleatoria a los grapes?
[as variaciones que muestra este constructo y a lo largo de las cuales se pretenden ex-
tender las conclusiones.
En resume-n, consideramos que la critica de la heterogeneidad no es una critica
especifica a la metodologia meta-analitica coma tal, sino una dimensién més para
analizar la calidad de 1111 MA concrete. Implica valorar en qué medida cl meta-analism
ha establccido adccuadamente cl nivcl dc generalizacién quc pretends y si 10 ha res-
petado en las decisiones adoptadas y en las conclusiones alcanzadas.
2% = E; [3.1]
z = 22; = 22,4215=
6,474
W «E 45
Asumiendo a = 0,05 este valor es estadisticamente significativo (6,474 > 1,64),
indicando que el resultado de un contraste de la hipétesis dc nulidad sobre la eviden-
cia combinada apunta a que hay un efecto no nulo (significativo).
Rosenthal propuso valorar 1a amenaza del sesgo dc publicacién calculando an
111?e de seguridad Ohil-safe number), que se define como el nfimero de wtudios
quc debefian haber quedado sin publicar, guardados en los archivadores (de ahi e1
nombrc), con rcsultados no significativos y que unidos a 105 k cstudios cncontrados
harian que el efecto dejase de ser significativo. Es algo asi coma si nos preguntamos
cémo de grande es la parte del iceberg sumergida, a partir del tamafio visible. Lamen-
tablemente la analogia del iceberg no es perfecta, puesto que en estos siempre emerge
aproximadamente el 11% dc su volumen. Si en nuestro case la parte visible fuera una
fraccién consulate de los estudios realizados la tarea se simplificaria bastante.
La férmula para obtener el nfimero de seguridad se alcanza a partir de la si-
guiente igualdad, que no as 11165 que el estadistico de Stoufl'er aplicado conjuntamente
a los estudios recuperados (lg) y a los guardados en los archivadores (kg):
k k
22, +22,
i=1
[3.2]
1Nu, +k, =2”
213 Mela-anallsis en Ciendas Soclalea y de la Salud
NS: (22$)
2 —k [8.3]
2
zl-at
_ 22,4252
NS —12 = 173,85 #3174 estudios
1,6452
Esto quiere decir quc para cambiar cl sentido de la conclusibn (de la cxistencia
de m efecto no 111110 a un efecto nulo) con un nivel dc significacién dc 0,05 deberism
haberse quedado en el camino (en e “archivador”) coma consecuencia de la censura
al menos 174 estudios con un efecto media igual a cam.
Capltulo B. Validez del meta-anéllsls 219
Peru, we creible que la censura haya sido um severa y que solo hayan llegado
a las revistas 12 de 105 186 realizados? (menus del 7%). Rosenthal propane coma
regla préctica establecer coma limite 5 -k + 10; as decir, considera que un proceso de
sesgo tipico podria dejar fuera cinco estudios por cada estudio publicado, ms nu mi-
nimo de 10. Segfm esto, el proceso dc censura cuando k = 12 podria implicar 1111 total
dc 5 - 12 + 10 = 70 estudios perdidos. Como haria falta quc hubiera 174 en los archi-
vadores podemos establecer que la conclusién de este estudio respecto a la presencia
de un efecto significativo es robusta respecto a la amenaza del sesgo de publicacién.
Una critica a este procedimiento es que en realidad no habria que asumir que el
valor medio de 103 estudios no publicados es cert), sino algl'm valor pequefio pew ne-
gative. Se hace asi porque asmnir e1 valor cero es una posicién conservadora, pues de
asumir m1 valor medic negative 56 obtendrian valores dc N3 aim mayores. E1 mimero
de seguridad dc Roscnthal se sigue calculando con frecuencia, a pcsar de que se basa
en el anélisis de los valores dc p, una légica que ya no 36 emplea casi en MA.
Mucho més en consonancia con los métodos actuales dc MA esté la variante
propuesm por Orwin (1983), que emplea la misma légica pero aplicada a los valores
de TE. Si 111] conjunto de k estudios produce una estimacién oombinada diferente del
valor dc no efecto (3.3., «1.), e1 procedimiento pennite responder a la pregunta dc
cuéntos astudios censurados con TE medic igual a 0 serian necesarios para que a] afia—
dirlos a 108 k estudios observados :1 TE combinado se redujese hasta una cantidad es-
pecificada.
Lo ideal seria que se emplease cl valor dc no efecto (0 para :1 o r; 1 para RV),
pero se suele aplicar a valores que se consideran representativos dc efectos dc im-
portancia prictica despreciable. De hecho, cs imposible afiadir unos estudios con un
valor medio de 0' igual a O que a] combinarlos can I: estudios con una media mayor de
0 produzcan una media total igual a 0. For 6110 el tamafio media dc los cstudios en lo:
archivadores, 3(0)’ tendria que haber sido manor de 0 (efecto inverse).
Al igual que el procedimienm de Rosenthal, el de Orwin es una media pon-
derada de los dos grupos de estudios, lus recuperados (k,) y los censurados que per-
manecen en el archivador (kg); esta media ponderada se iguala a1 valor critico del TE
(do):
a =M [8.4]
‘ k, + kn
NS = M [3.5]
d“ _ df‘!’
220 Meta-analisis en Ciendas Soclalea y de la Salud
Aplicamos la férmnla [8.5] a los datos de la tabla 8.2, donde el valor media (110
ponderado) de los 12 estudio: es Em = 5.90/12 = 0,491'734r se considera que un efecto
de ti = 0,05 seria irrelevante a efectos précticos,
N
_12-(o,4917—o,05) -106012 106 estudios
3 0,05 —0
El rcsultado indica que haria falta quc hubicra 106 estudios con un TE medic
nulo en los archivadores para que a1 unirlos a los que si se ban recuperado se obmvie-
se una estimacién combinada igual a 0,05. De nuevo nos encontramos con que hay
que valorar la amenaza tomando coma base la estimacién de un nfimero de estudios
‘pcrdidos’. Podemos aplicar de nuevo cl cfiterio dc Rosenthal; recordemos qua en este
ejemplo ese criteria proporcionaba e1 valor 70. Como tendria que haber 106 estudios
perdidos para cambiar e1 sentido del multado, debemos concluir que el mmltado
obtenido no esté amenazado por el sesgo de publicacién.
Més recientemente, Rosenberg (2005) ha destacado el hecho de que en el
célculo de Ns, ya sea por el procedimiento de Rosenthal 0 por el de Orwin, no se tiene
en cucnta un aspecto que ha sido fimdamental en el desarrollo del MA, coma es que
las wtimaciones (16] TB tienen diferentfls varianzas y por tanto deberian tenet pesos
distintos a1 valorar e1 sesgo de publicacién. Rosenberg (2005) analiza la cuestifin y
propane que en lugar dc responder a la pregunta en términos de un m'unero de es-
Indies (asumiendo el mismo peso para todos ellos) se responda en términos de la can-
tidad dc peso (en cl fondo, la cantidad de participantes) que se debe afiadir para que el
TE media no sea estadisticamente diferente dc cero. De hecho, la férmula [3.2] se
puede ver como el nfimero dc wtudios, kg, que se deben afiadir a1 denominador para
que el valor medio de 2 se reduzca hasta el valor critico del contraste (e.g., z = 1,645).
La férmula [8.4] 56 pucde interpretar de una forma similar.
Como ya hemos visto en capitulos anteriores, 1a estimacién combinada del TE y
su varianza se obtienen mediante
him-mm y 52(T.)=1/Zw,-
El contaste de significacién del valor nulo se puede realizar mediante e1 si-
guiente estadistico:
t — —T'
—0
6(1‘.)
Sustituyendo con las férmulas de la media y el error tipico y elevando a] cun-
drado se obtiene:
Capltulo 8. Valldez del meta-anallsls 221
2_(Z_W'_:
T )2 [315]
W:
—Z—
Empleando cl valor critico dc t (tn), que se distribuye I de Student con (Ir-1)
grades de libertad, se puede expresar:
—
_ € w -T.)2 [8.7]
“(gy— W’—+ZwI
dondc W’ representa la cantidad dc “peso” que se debe afiadir mediante estudios con
1m 1'} combinado igual a cero para que el cstadistico de contraste (con nuns nuevos
grados de libertad, g!) 36 desplace basin el valor limite de la significacién estadistica.
Despejando,
W _ M _-2“, [3.3]
Iago
“EL [89]
W:
4
En este caso los grados de libertad sedan g! = k + N - 1. La solucién numéfica
se obtiene de forma iterativa, aunque converge can rapidez par la razén ya expuesta.
E1 nfimero dc cstudios con peso media necesario para devolver e1 estadistico dc can-
taste a un valor no significativo seria e1 nfimero dc segufidad. A falta de otro criteria,
este nfimero se puede valorar con la regla de Rosenthal, igual que los m'uneros de se-
guridad anteriores. Rosenberg (2005) reconoce que tampoco este método contempla
todas las caracteristicas dc los métodos dc mayor aplicacién actual an MA, ya que en
222 Meta-analisis en Ciendas Soclalea y de la Salud
Por otro lado, e1 peso medic dc los 12 estudios as 202,80! 12 = 16,9. La férmula
[8.9] nos proporciom e1 valor buscado,
En rmm, harian falm 175 estudios con un peso medic igual a1 peso medio de
los 12 estudios localizados para que el temltado combinado pasara a set no signifi-
cativo. Con la regla de Rosenthal valveriamos a conduit que los resultados estén a
salvo del sesgo dc publicacién (175 > 70).
Como se puede apreciar, en el ejemplo de la tabla 8.2 103 resultados de 105 pm-
cedimientos dc Rosenthal, Orwin y Rosenberg (efecto fijo) conducen a la misma con-
clusién, para los nfimeros de seguridad difieren bastante de un procedimiento a otro.
En nuns ejemplos estos nfimeros pueden conducir a conclusiones distintas.
ella se aprecia una asimetria en los puntos oscuros que no aparecia en la figura 8.1a;
esta asimetria se interpreta come un indicio de que se ha producido un sesgo de pu-
blicacién asociado a 10s resultados. E1 impacto en la cstimacién es también impor-
tante, como veremos en la tabla 8.3.
Figure 8.1. Funnel plot de 200 estudios simulados con un valor poblacional de p = 0,30
cuando no se aplican censuras (a) y con tres esquemas de censure de rigor cmciente (b. c
y d; véase en el texto). Los circulos negras representan Ios estudios qua son publicados,
mhnh'as que los cirmlos vaclas rapresantan los estudios qua quedan en el archivador.
(a) (b)
(c) (d)
estricta regla se perderian 93 estudios (465%) y se publicarian 107 (31 53,5%). Los
resultados se presentan en la figura 8.1d.
En la tabla 8.3 se resumen los estadisticos asuciados a cada case. En ellos se
aprecia que, a medida que el esquema de censura se hace més atticto, més acusada a;
la sobreestimacién combinada del TE. No olvidemos quc la censura fiends a dejar
filera los estudios con valom bajos dc TE, dc forma que los quc permaneccn tienen
una media superior.
2: 0-D [8.10]
Jk«(k—1)-(2.k+5)/13
226 Meta-analisis en Ciendas Soclalea y de la Salud
——1,64645—21 _
1[12-11-(2-12+5)/1:a:
En relacién con los métodos para valorar e1 sesgo que hemos expuesto en el punto
anterior, hay que sefialar que algunos autores ban criticado el empleo rutinario de un
finico método para todos los casos. También han rcsaltado cl hecho dc que como la
valoracién del impacto que pudiera tenet e1 sesgo dc publicacién en un caso concrete
esté muy ligada al mecanismo de censura involucrado, se debe disefiar un modelo
especifico para cada caso que contemple esos mecanismos involucrados y obtener una
estimacién de su impacto adaptado a1 mismo (Vevca 3; Woods, 2005). Existe 1111 con-
siderable riesgo asociado a cstos procedimientos, en la medida en quc el modelo dc
produccién implique asumir supuestos exigentcs y no comprobables (Terrin, Schmid,
Lau y Ollcin, 2003). Aunque no podemos extendemos macho aqui sabre estos proce-
‘EstecontmstesepremtaaveoescomounoonflastesobrehpendiempuroconelvalordeTsintipificar
y 5-I coma predictora lugar de su invma. Son algebraicamm equivalentes.
Capltulo B. Valldez del meta-anallsls 227
dimientos, al menos vamos a mencionar un método que ha tenido buena acogida enlre
los meta-analistas. Se trata del Genocido coma Trim-andfill (TaF) de Duval y
Tweedie (20003 y b; se puede traducir coma Recorte-y—rellena), que se basa preci-
samente en el fimnel plot.
El métodn TaF se aplica en varies pasos, una vez que se ha decidido que el
fimnel plot rcvcla una asimetria anémala y relevante. Consists en recortar los valores
mfis extremes de la cola asociada a1 efecto (habitualmente la derecha; en contrastes iz-
quierdos se haria en la otra cola). Tras cada supresibn se recalcula el estadistico que
valora la asimetria y se repite e1 ciclo hasta que el conjunto de estudios restante ya no
muestra asimeu'ia significativa. E1 TE medio de los estudios supervivientes es la nuc-
va estimaciém, supuestamente no sesgada, del TE poblacional buscado.
Este procedimiento tiene el efecto deseado de corregir la estimacién combinada,
pero también tienc el efccto no descado dc reducir la varianza dc la estimacién (par
tanto, cl intervalo seré artificialmente estrecho). Para compensar este efecto se aplica
la fase dc relleno. Esta consiste en devolver los esmdios que se reconaron, afiadiendo
una imputacién de estudios con TE similar pero de signo coutrario (valores espejo).
Con ate conjunto incrementado de estudios se obtiene la varianza con la que 56 con-
fecciona e1 intervalo dc confianza. Es decir, que los estudios devueltos a1 conjunto
més los imputados no intervienen en el célculo del TE combinado; solo intervienen en
el célculo de la varianza. La valoracién del impacto del sesgo y sus consecuencias en
un estudio concreto so basa en la comparacién entre el valor combinado (y su inter-
valo) con todos los estudios y el obtenido (y su intervalo) con la aplicacién del proce-
dimiento TaF (véase cl apartado siguiente, sobre 103 tests de sensibilidad).
LTiene e1 sesgo dc publicacién un impacto importante en la psicologia y
disciplinas afines? Recientementc Ferguson y Brannick (2012) han analizado 061110 86
aborda cstc problema en una mucstra de 91 MA publicados cu revistas dc psicologia.
Aunque en el 70% se analiza dc alguna forum, 105 procedimjentos empleados para
detectarlo y analizarlo son muy variados y a veces inconsistentes. Nos surnames a su
propuesta, que consiste en emplear al menos dos de los procedimientos que hemos
descrito en were apartado, amunicndo que ninguno de ellos alcanza un nivel adecuado
de eficiencia y que obtener resultados positives en al menos dos es un indicador més
fiable de la presencia dc sesgo.
El sesgo dc publicacién es una dc las principales amenazas a [as conclusiones
del MA, pero en realidad no se restringe a esta metodologia. Debido a las dudosas
précficas que se han instalado en las ciencias empiricas en general, 133 conclusiones
derivadas de la evidencia publicada, sin importar cémo se han alcanzado esas
conclusiones, estén en riesgo por esta amenaza.
En algunos émbitos de la medicina se han propuesto estategias altemativas ba-
sadas en la prevencién. Por ejemplo, se va extendiendo la necesidad de registrar los
ensayos clinicos en ciertas entidades antes de ser realizados. De esta forma el resul-
tado acabaria siendo conocido necesariamente. Aunque esta préctica podria ser fitil en
algunos fimbitos de la psicologia, no parece viable en la mayoria de sus campus de in-
vestigacién.
223 Meta-anallsis en Ciendas Soclalee y de la Salud
Dedicamos este capitulo final 11 varies asnntos que no ban encontrado acomodo en los
anteriorcs, pero cuya relevancia les hace merecedores de ser objeto dc comentario o
discusién. En primer lugar mencionaxemos los principales recursos informéticos quc
se cmplean an MA. Después destacammos las caracteristicas especificas del informe
meta-analitico. En tercer lugar comentaremns algunas criticas hechas a] MA a las que
no hemos hecho referencia todavia. For filtimo, unos pérrafos dedicados a las pro-
bables lineas dc desarrollo en el future préximo.
Existen recursos asociados a los grandes paquetes estadisticos que permiten realizar la
mayoria de los anilisis mtadisticos que hemos descrito en los capitulos anteriores.
Aunque hay varios, dcstacamos los de David Wilson, asociados a su texto sobre MA
(Lipsey y Wilson, 2001); se trata de varias macros que permiten ejecutar cstos anélisis
en algunos de los paquetes mas importantes: SPSS, SAS y STATAZ. Primero hay que
calcular con otros recursos los valores dc TE y sus varianzas. Sobre el archive con es-
tos valores se ejecutan las macros. Permiten ajustar modelos mediante varies precedi-
micntos dc cstimacién, pero no incorporan los desarrollos estadisticos més recientes.
En el marco del programa de uso general STATA se ha desarrollado un amplio
nfimero de programas especificos dirigidos a realizar célculos meta-analiticos dc Inuy
diverse. indole, desde gréficos y anélisis més rutinarios hasta modelos estadisticos
multivariantes de nannaleza mas compleja. Una descripcién exhaustiva de todos estos
programas puede consultarse en Sterne (2009).
Contamos también con algunos programas especificos para MA. Seguramente e1 mfis
conocido es Comprehensive Meta-anabmis’, cuya versién 3.0 estaba prevista para
principios de 2015. Se trata de un programa comercial desan'ollado por Michael
Borenstein y su grupo, que emplean asociado a su texto sobre MA (Borenstein,
Hedges, Higgins y Rothstcin, 2009). Incluye 1m médulo dc célculo dc indices dc TE
con una gran varicdad dc indiccs y esccnafios analiticos. Respecto a1 anélisis
estadistico, incluye précticamente todos los procedimientos que hemos descrito en
este libro 3/ 111105 cuantos mfis que no ban tem'do cabida en las péginas material-as.
Ademzis, realiza unos gréficos de alta calidad (forest plot y flame! p100.
Una segunda altemau'va, también comercial, w META W. Como la anterior,
permite calcular diversos indices de TE y aplicar las técnicas estadisticas meta-
analiticas; también aporta los recursos para realizar mfiltiples representaciones gréfi-
cas (Rosenberg, Adams 3; Gurevitch, 2000).
El programa W (Bax, Yu, Ikeda, Tsuruta y Moons, 2006) comenzé siendo
una herramienta gratuita, para las filtimas versiones ya son comerciales. Se basa en
elementos Excel y es de gran versatilidad. Permite calcular los principales indices dc
TE 3; qjustar un buen nfimero de 105 modelos estadisticos més conocidos.
Algunos entomos generales dc célculo, notablemente R (R Development Core
Team, 2010), han facilitado cl desarrollo de potentma herramientas que 3.] set dc
acceso gratuito se han hecho muy populates. Entre ellas destacamos METAFOR
(Viechtbauer, 2010a, 2010b), que en sus sucesivas versiones ha ido afiadiendo
elmentos hasta convertirse en un paquete de gran potencia y versatilidad. También
cabe mencionar DIIOS dos programas implementados en el entomo del program R:
MTA (Lumley, 2009) y 114E134 (Schwarzer, 2010). Viechtbauer (2010a) compara
las propiedades dc esms tres programs dcl enmmo R.
El progmma gratuito Review Manager (RcvMan, 2008) es el dcsannllado desdc
la Cochrane Collaboration. El hecho dc haber sido desarrollado desde 1a disciplina
médica ha condicionado algunas de- sus elecciones en cuanto a los indices dc TE que
se ofrecen y la tenninologia que emplean. Tiene la ventaja de que en realidad a un
programa para rcalizar todo cl trabajo, desdc la inclusién dc los trabajos primaries
hasta la elaboracién del informe. Al contar con campus de texto y otros interrela-
cionados, permite que se vaya confonnando cl informe dc acuerdo a una plantilla pre-
establecida. Sus gréficos forest plot son may notables.
También existen alglmos programas para realizar meta-anélisis especiales, come
por ejemplo los que se refieren a la precisién de los instrumentos dc clasificacién bi-
naria (véase cl epigrafe 6.3). Entre ellos destacan METADISC (Zamora, Abraira,
Muriel, Khan y Coomarasamy, 2006) y mm“, del entomo R.
3 htm:flwww.meta-aualysis.comfindex.php.
‘ htlfwwwmetawinsofiwm.
5 hflp:llwww.meta~analysis-made-easy.cum.
‘ hflpfllmm—projectormblpackageslmadwrigneflesfmdmpdfi
236 Meta-analisis en Ciendas Soclalea y de la Salud
Peru ademés de esas cuatro amenazas, mfis conocidas y debatidas, hay otras
criticas 31 MA que merece la pena comentar en este capitulo. Recordemos que el MA
me: en los afios 70 com altemativa a las revisiones narrativas, can voluntad de
aportar precisién, rigor y sistematicidad a la tarea de sintetizar la evidencia respecto a
una pregunta especifica dc investigacién. Ademés, la tarea dc sintesis se ha hecho
cada vez mfis imprcscindiblc, dado cl incremento acclerado dc la produccién en cual-
quier disciplina. Ante cada critica 31 MA nosotros nos preguntamos si hemos avan—
zado o hemos retrocedido 3 ese respecto.
A veces se dice que 105 MA se hacen con poco rigor y que su gran complejidad
hace qua sea muy fécil cometer can-ores. Sin duda que es una metodologia compleja,
pero nadie esté més interesado en que 105 MA se realicen bien que los propios meta-
analistas. Desde los propios manuales de esta metodologia se propane y fomenta que
se introduzcan controlcs dc calidad, coma por ejemplo 1a estimacibn dcl acuerdo
inteljueces en los procesos dc codificacién 0 en los calculus de los indices dc TE. De
igual forma, se incentiva 1a bfisqueda de indicios de sesgo dc publicacién y su ma-
nejo. En cualquier caso, la respuesta a la pregunta comparativa es que sin duda esta-
mos mejor que con las revisiones narrativas. En estas no hay establecidos unos proce-
dimientos cxplicitos para manejar la informacién, por lo que ademés de ser igual—
mente propicia a los arrows, estos no se pueden rastear ni estudiar su origen. For 61
contrario, si an MA esté bien realizado y el informe es complete, debe set almmente
replicable.
También se dice :1 veces que un I'mico valor, e1 TE combinado, no puede resumir
un campo dc investigacién. Ciertamente, 1111 MA debe apartar més cosas que un valor
dc TE. La idea de que un promedio puede ser muy desorientador es especialmente
aplicable a1 MA (Lipsey y Wilson, 2001). Si 33 han obscrvadn variaciones importan-
tes en las estimacioncs, cntonccs a1 valor combinado as debt: afiadir informacién re-
lativa a su dispersién (por ejemplo, con la varianza especifica estimada desde 105 mu-
delos de efectos aleatorios). Igualmente, si hay tendencias asociadas a las variables
moderadoras se debs informar de las variaciones en las estimaciones combinadas para
las catcgofias de un modelo qua clasifica mediante cualidades 0 de la asociacién enm-
el TE y los de alguna variable cuantitativa. Peru hay més; esa infonnacién debe ex-
plicitar también 13. forum operativa como se han clasificado los estudios o cémo se ha
medido 1a variable moderadora cuantitativa. Toda esta infannacién quc acompafia a la
estimacién combinada global seré. mas precisa que la quc se aporta en una revisién
narrativa, en la que siempre quedaré el importante margen dc indefinicién que acum-
pafia alas descripciones verbales.
Otra limitacién del MA, sefialada por Wachter y Straf (1990), so refiere al em-
pleo redundante de la evidencia para generar hipétesis y para contrastarlas. Las hipé—
tesis que se generan al observar la evidencia contenida en unos estudios primaries no
se deberian evaluar con esa misma evidencia, pues seria una argumentacién circular.
Las hipétesis se deben generar antes y con infonnacibn independiente. Si 133 hipétesis
sm'gen en el proceso de an MA, entonces hay que planificar estudios que aparten esa
240 Meta-anallsis en Ciendas Soclalea y de la Salud
10s anélisis wtadisticos de los estudios incluidos en el MA. En tercer lugar, permite
aplicar modelos cstadisticos més complejos (e.g., modelos multim'vel) que ofi‘ecen
una informacién més rica sobre los resultados de 103 estudios. Finalmentc, disponer
de los datos individuales de los participantes en cada estudio permite analizar de una
forma més potente la presencia de interacciones entre los efectos de los tratamientos y
cicrtas caractcristicas personales de los participantw (Cooper 5/ Fatal, 2009; Stewart y
Tierney, 2002; Stewart, Tierney y Clarke, 2008; Whitehead, 2002, cap. 5). El anilisis
estadistico en un MA con DPI se puede abordar de dos formas: en dos empas 0 en
3010 una etapa. E1 anélisis estadistico “en dos etapas” consiste en calcular primate e1
TE de cada estudio por separado tomando los dams de 654: estudio 3; Image pro-
cediendo como en 1111 MA convencional. El anilisis “en una etapa” consiste en aplicar
modelos multinivel para realizar los anilisis estadisticos con los datos individuales de
los participantes. Es una linen dc investigacién puntcra 1a comprobacién dc qué mé-
todo es mas apropiado, asi como el desarrollo de procedimientos para integrar en 1111
111131110 MA estudios con dates dc participantes individuales y esmdios con dates
agregados (e.g., Debray, Moons, Abo-Zaid, Koffijbetg y Riley, 2013; Riley, Kauser,
Bland e! at, 2013; Riley, Lambert, Staessen e: 611., 2008; Stewart, Altman, Askie er
al., 2012). La principal dificultad dc llevar a cabo 1111 MA con DPI estzi en su
naturaleza colaborativa. Si no todos los autores de los estudios primaries aceptan co-
laborar en la investigacién, entonccs las estimaciones de los efectos del MA podrian
sufrir sesgos.
Uno de 105 terms més recientes an MA es un tipo de MA denominado “meta-
anélisis prospectivo” (prospective meta-anabsis). Un MA prospectivo es un meta-
anélisis que integra un conjunto dc estudios(genera1mente, estudios experimentales, o
ensayos controlados aleatorizados) que fueron identificados y seleccionados antes de
que sc conozcan los rcsultados dc dichos metudios. En un MA prospective cl meta-
analista busca estudios que se estén llevando a cabo, 0 se van a iniciar, y la in-
tegracién meta-analitica fiene lugar una vez finalizados los estudios. La principal
ventaja dc planificar un MA antes de disponer de los resultados de los estudios es que
protege de la posibilidad dc qua e1 meta-analista incun'a en sesgos durante la plani-
ficacién del MA; sesgos debidos a] conocimiento dc dichos resultados. En concrete,
un MA prospective previene de incun'ir en sesgos a1 fijar los criterios de seleccién
relatives a 111(5) poblaci6n(es) objeto dc astudio, los tipos dc tratamicnto, los tipos dc
disefio, 0 las variables de resultado que se van a considerar. La ejecucién de un MA
prospective requiem del compromfiso previo de los investigadores primaries que estén
realizando (0 van a realizar) los estudios que postefionnente se van a integrar en el
MA. E110 implica adherirse a unos criterios minimos que den cierta homogeneidad a
los protocolos dc actuacién de cada estudio. Asi mismo, 1111 MA prospective previene
contra el scsgo de reporte selective de los resultados de los estudios primaries. La
naturaleza colaboraflva del MA prospective convierte a este en un tipo de MA sobre
el que se podrian aplicar perfectamente las estrategias analiticas que ofrece 1111 MA
con DPI. La principal dificultad en la ejecucién de un MA prospective esté en la
localizacién de- los estudios que se encuenuan en fase dc disefio a dc realizacién antes
242 Meta-anallsis en Ciendas Soclalea y de la Salud
item st N0
1. Titula. El titulo debe contener alguno de los terminus “meta-am’tlisis” (meta-
anabwis), ‘refisién sistemfitica’ (systematic review) 0 ‘sintesis de la inves-
tigacién' (research synthesis)
Item Si NO
5. Mézodo. Critefim dc inclusién y exclusidn de Io: esmdios primaries:
5.] Se incluye una descripcifin de las variables de resultado (outcomes) y
de lafs variable/'3 independientefs o predictorals (e.g., intervenciones)
5.2 St: incluye una descripcién clam dc [as camctedsticas de las mumtras
de participantes, es decir, de cuzills esfson lafs poblaciénies de refe-
renc1a
5.3 Se indica qué tipos de disefios son aceptables (e.g., asignacifin alea-
tofia, tamafio mucstra] minimo, inclusién dc grupo de control, etc.)
5.4 Se especifica con claridad cuél es el pefiodo temporal en el que los
estudios primarios mvieron que set realizados para ser incluidos
5.5 En su case, 56 especifican las resnicciones de tipo geogrfifico yfo
cultural eidgidas a los estudios primaries
6. Métado. Estrafegias dc bthqueda d3 Ia: estudias primaries:
6.1 Deben especificarse todas las bases de dates, indioes dc citacién y de
referencias que se hayan utilizado
6.2 Deben especificarse las bases de datos eleclrénicas consultadas,
indicando las palabras clave utilizadas y el sofiware de bfisqueda
6.3 Debe especificarse e1 periodo temporal en el que los estudios tenian
que haber side realizados para ser seleccionados
6.4 Deben indicarse ou'os procedimientos dc bfisqueda utilizados (92.3..
contactos con aumres, revisién dc referencias dc articulos, etc.)
6.5 En su case, debe indicarse si se admitieron estudios ficritos en otros
idioms aparte del inglés
6.6 Debe explicarse el promo mediante el cual se heron seleccionando
los estudios (e.g., lectura del abstract, lectm'a del texto complete, etc.)
6.7 Debe describirse cémo se analizé la fiabilidad del proceso de
seleccién de estudios y cémo se resolvieron [as desacuardos
6.8 Debe explicarse si se aceptaron estudios no publicados o solo
publicados y cémo 3e identificaron 103 no publicados
7. Métada. Procedimientos de codg‘icacidn de 105 estudios:
7.1 Deben definirse todas las categorias de codificacién utilizadas para
analizar cl influjo dc moderadores de lals relaciénfes de interés
7.2 Debe hacerse mencién cxplicita del nfimero y nivel dc cualificacién de
los codificadores (e.g., nivel de experiencia, nivel de entrenami-to)
13 Deben reportarse estimaciones de la fiabilidad 0 grade de acuerdo
entre los codificadores
7.4 Debe indicaxsc si todos los estudios filemn oodificados doblemente o
solo un subconjunto de ellos, y 061110 se resolvieron 10s desacuerdos
7.5 Debe describirse cémo se valoré la calidad de los estudios, con
indicacién pmcisa de los indicadores de calidad utilizados
7.6 Debe hacetse mencién dc cémo se trataron los dates ausentes, o
faltantes, en el promo dc codificacién de los model-adores
Capltulo 9. Taploos especlales 245
Item Si N0
8. Método. Métodos estadisticas:
8.1 Deben dwcn'birse elflos indice del tamafio dc] efecto utilizados,
hacienda mencién express: de las férmulas dc célculo, dates
estadisticos utilizados (e.g., medias, desviacioncs tipicas, pruebas T,
etc.), asi como de las correcciones para muestras pequefias utilizadas
8.2 Bebe mpecificme cémo se- calculé cl tamafio del efecto media y, en
su case, qué método de ponderacién se utilizé
8.3 Debt: describirse cémo 3e calculamn los mores tipicos de los
intervalos de confianza de los tamafios dc] efecto
8.4 En su case, deb: indicarse cémo se calcularon los intervalos dc
credibilidad
3.5 Debs explicarse cémo se resolvié e1 problem de la dependencia Guan-
do un estudio aportaba mfis de un tamafio del efecto
8.6 Debe especificarse si se utilizb un modelo de efectos fijos 0 dc efectos
aleatorios, y la justificacién de su eleccit’m
8.7 Debe describirse cémo se evalué la heterogeneidad em los tamafios
del efecto de los estudios (e.g., estadistioo Q, indice 11)
8.8 Si 51: aplicé un meta-anilisis psicométrico para la estimacifin dc
relaciones entre cousin-notes, deben aportarse [as medias y desvia-
ciones tipicas de las distribuciones de los artefactos dc medida
8.9 Debe describirse si se aplicaron ajustes contra datos fallmtes (e.g.,
sesgo dc publicacién, reporte selectivo de resultados, etc.)
8.10 Debs indicarse si se realizamn anélisis asbedistioos para detectar la
presencia de datos extremos (outliers)
8.11 Debe wpecificarse si se llevé a cabo algl'm anélisis para comprobar la
potencia estadistica de los anfilisis aplicados en el meta-anélisis
8.12 Deben indicarse cuélfes filelron eLflos pmgramafs de saflware
esmdistico utilizadofs para realizar los anélisis
9. Remdtados:
9.1 Debe especificarse e1 nfimero total de refercncias examinadas en la fase
dc bfisqueda de los estudios para su posible inclusién
9.2 Debe aportarse 1a relacién dc referencias de los estudios incluidos en el
meta-anilisis
9.3 Debe indicarse e1 nfimero dc referencias que heron excluidas del meta-
anfilisis por no cumplir alguno de los criterios dc inclusién
9.4 Debe reporlnrse e1 nfimero de estudios excluidos par no cumplir cada
uno de los criterios de inclusién (2.3., no se pudo calcular e1 mmnfio del
efecto), describiendo algunos ejemplos
9.5 Debe reportarse una tabla que contenga infomacién descriptiva de cada
mm de los estudios incluidos, incluyendo elflos tamafiofs del efecm y el
mafia muestral
9.6 Si se hizo, deben reporlarse los datos relativns a la valoracién de la
calidad metodolégica de cada estudio
246 Meta-analisis en Ciendas Soclalea y de la Salud
Item Si N0
9. Resultados (continuacidn):
9.7 Deben reporlmse tablas y/o gréficos que contengan:
- Caracteristicas descriptivas de la base de datos (6.3., nfimero de estu-
dios can diferentes disefios de investigacibn)
- Estimaciones del tamafio del efecto medic, incluyendo medidas de
incertidumbre (e.g., intervalos de confianza ylo dc credibilidad}
9.8 Deben reportarse los remltados de los mflisis de modemdores que
contengan:
- El nfimero de estudios y los tamafios mueslrales totales para cada
anfifisis dc moderadores
- La evaluacién de la interrelacién entre las variables utilizadas para el
anélisis de los moderadores
9.9 Debcn reportarse los remfltados dc los anilisis de la evaluacién dc po-
sibles wages, come cl saga de publicacifin, e1 sesgo de reports, etc.
10. Dwmién:
10.1 Debe presenmrse un resumen de cuéles ban sido los principales
resultados alcanzados en el meta-anéfisis
10.2 Deben discmirse explicaciones altemativas de los resultados obte-
nidos (e.g., debido a la existencia de datos faltantes)
10.3 Debe discufirse cl grade en que los resultados pueden generalizarse:
- a las poblaciones dc parficipantes’pacientes relevantes
- a las vafiaciones de los tratamientosfintervenciones
- a las variables dependientes 0 de resultado (outcomes)
- a los disefios dc investigacién, etc.
10.4 Deben discutirse las limitaciones del meta-anilisis (incluyendo al-
guna referencia a la calidad metodolégica de los estudios)
10.5 Deben discutirse [as implicaciones y la interpretacién de los resul-
tados para lafs medals, la politica ylo la prfictica profesional
10.6 Deben presentarse algunas recommdaciones para las investigaciones
futures en este campo
Referencias bibliogréficas
Abad, F. 1., Olea, J., Ponsoda, V., y Garcia, C. (2011). Medicién en ciencias saddles y de la
salad. Madrid: Sintesis.
Aguinis, H., Gottfredson, R. K, y Wright, TA. (2011). Best-practice recommendations for
estimating interaction effects using meta-analysis. Journal of Organizational Behavior,
32, 1033-1043.
Allison, D. B., y German, B. S. (1993). Calculating effect sizes for meta-analysis: The case of
the single case. Behaviour Research and Mercy, 31, 621-631.
Allison, D. B., Silvetstein, J. M., y German, B. S. (1996). Power, sample size estimation, and
early stopping rules. In R. D. Franklin, D. B. Allison y B. 8. German (Eds), Design and
analysis ofsingfe case research (pp. 335-371). Mahwah, NJ: Erlbamn.
Aloe, A , Becker, B. 1., y Pigott, T. (2010). An alternative to R2 for assessing linear models of
effect size. Research synthesis Methods, 1, 272-283.
Amén, J. (1993): Estadistica pampsicéiagos I. Estadis'tica descrfiativa, Madrid: Pirfimide.
APA Publications and Communications Board Working Group on Joumal Article Reporting
Standards (2008}. Reporting standards for research in psychology: Why do we need
them? What might they be? American Psychologist, 63, 839-851.
Ato, M., y Vallejo, G. (2007). Disefios eJqJerimentaIes en psicologia. Madrid: Pirémide.
Babor, T. F., Higgins-Biddle, J. (3., Saunders, J. B., y Monteim, M. G. (Eds) (2001). AUDIT:
The Alcohol Use Disorders Identification Test: Guidelines for use in primal); care, 2nd
edition, WHO Document No. WHOMSDMSB!01.63, Geneva, Switzerland: World
Health Organization, 2001.
Bax, L., Yu, L. M., Ikeda, N., Tsmuta, H., y Moons, K. G. (2006). Development and validation
of MIX: comprehensive free software for meta-analysis of causal research data. BMC
medical research methodalay, 6(1), 50.
Becker, B. I. (1988). Synthesizing standardized mean-change measures. British Journal of
Mathematical and Stan'stical Psychology, 41, 257-278.
Becker, B. J. (1992). Using results from replicated studies to estimate linear models. Journal of
Educational Statistics, 17, 341-362.
Becker, B. J. (2000). Multivariate meta-analysis. En H. E. A. Tinsley y S. D. Brown (Eds),
Handbook of applied muItz'variate stamfics and mathematicai modeling (pp. 499-525).
San Diego, CA: Academic Press.
Becker, B. J. (2009). Model-based meta-analysis. En H. Cooper, L. V. Hedges y J. C. Valentine
(Eds), The handbook of research mike“! and meta-anabm's (23' ed., pp. 377-395).
Nueva York: Russell Sage Foundation.
Becker, B. J., y Schram, C. M. (1994). Examining explanatory models through research
synthesis. En H. Cooper y L. V. Hedges (Eds). The handbook ofreseamh synthesis (pp.
357-381). Nueva York: Russell Sage mdation.
243 Meta-analisis en Ciendas Soclalea y de la Salud
Begg, C. B., y Mazumdar, M. (1994). Operating characteristics of a rank correlation best for
publication bias. Biometrics, 50, 1088-1101.
Bender, R., Bunce, C., Clarke, M., Gates, 8., Lange, 8., Pace, N. L., y Thorlund, K. (2008).
Attention should be given to multiplicity issues in systematic reviews. Jmal of Clinical
Epidemiolay, 61, 857-865.
Berlin, 1., y Ghersi, D. (2005). Preventing publication bias: Registries and prospective meta-
analysis. En H. R. Rothstein, A. J. Sutton y M. Borenstein (Eds.), Publication bias in
meta-analysis: Prevention, assessment and adjustments (pp. 35-48). Chichmter, UK:
Wiley.
Bender, R., Bunce, (L, Clarke, M., Gates, 3., Lange, 8., Pace, N. L., y Thorbund, K. (2008).
Attention should be given to multiplicity issues in systematic reviews. Joumal of Clinical
Epidemiology, 61, 857-865.
Biggerstafl', B. 1., y Tweedie, R. L. {1997). Incorporating variability in estimates of
heterogeneity in the random efibcts model in meta-analysis. Statistics in Medicine, 16,
753-768.
Bonett, D. G. (2002). Sample size requirmnents for testing and estimating coefiicient alpha.
Journal of Educational and Behavioral Statistics, 27, 335-340.
Bonett, D. G. (2008). Meta-analytic interval “titration for bivariate correlations. Psychological
Methods. 13, 173-181.
Bunett, D. G. (2009). Meta-analytic interval estimation for standardized and Imstandardized
mean difl'erences. Psychological Methods, 14, 225-238.
Bonett, D. G. (2010). Varying coefficient meta-analytic methods for alpha reliability.
talogical Methods, 15, 363-385.
Bonn, 1L, 3! Arnau, J. (2014). Disefios de casa tinico en ciencias saddles y de la salad. Madrid.
Sintesis.
Borenstein, M. (2009). Effect sizes for continuous data. En H. Cooper, L. V. Hedges y J. C.
Valentine (eds), The handbook afresew'ch synthesis, 2.‘ ed. (pp. 221-235). Nueva York:
Russell Sage Foundation.
Borenstein, M., Hedges, L. V., Higgins, J. P. T., y Rothstein, H. R. (2009). Introduction to
meta-analysis. Chichester, UK: John Wiley and sons.
Bonenstein, M., Hedges, L. V., Higgins, J. P. T., y Rothsbein, H. R. (2010). A basic intmdnction
to fixed-effects and random-effects models for meta-analysis. Research synthesis
Methods, 1, 97-1 11.
Borcnstein, M., Hedges, L. V., Higgins, J. P. T., y Rothstein, H. R. (2013}. Cawrehmive
Meta-analytic Vmion 3.0. Biosmt Inc.
Borenstein, M., y Higgins, J. P. T. (2013). Meta-analysis and subgroups. Preventive Science,
14, 134-143.
Bossuyt, P. M., Reitsma, J. B., Bruns, D. E., Gatsonis, C. A, Glasziou, P. P., Irwig, L. M.,
Lijmer, J. (3., Moher, D., Rennie, D., y de Vet, H. C. (2003). Towards complete and
accurate reporting of studies of diagnostic accuracy: the STARD initiative. British
Medical Journal, 326, 41-44.
Botella, 1., y Gambara, H. (2002). Qué as e! metanandlis-is. Madrid: Bibliotcca Nueva.
Botella, 1., y Gambara, H. (2006a). El meta-anilisis: una metodologia de nuesu'o tiempo.
Infocop, 29 mayo.
Bate-Ila, 1., y Gambara, H. (2006b). Doing and reporting a meta-analysis. International Journal
of Clinical andHeaIrh Psychologa, 6, 425-440.
Botella, 1., y Huang, H. (2012}. Procedjnfientos para realiar mfla-anflisis de la precisién de
insmnnentos de clasificacién binaria. Psicathema, 24(1) 133-141.
Referencias blbllogréflcas 249
Botella, J., Huang, H., 5! Sum, M. (en prensa). Meta-analysis of the accuracy of tools for
binary classification when the studies employ varied references. Psychological Methods.
Botella, J., y Ponte, G. (2011). Effects of the heterogeneity of the vafiances on reliability
generalization: An example with the Beck Deplession Inventory. Psicothema, 23(3), 516-
522.
Botella, J., Sepfilveda, A. 11., Huang, H., y Gambara, H. (2013). A meta-analysis of the
diagnostic accuracy of the SCOFF. Spanish Jamal afPSJmhoIogy, 16, 0392, 1-3.
Botella, L, y Sucre, M. (2012). Managing Heterogeneity of Variance in Studies of Reliability
Gnaralization with Alpha Coefficients. Methodafagr, 8, 71-30.
Botella, 1., Suero, M., y Gambara, H. (2010). Psychometric inferences firm a meta-analysis of
reliability and intemal consistency coefficients. Psychological Methods, 15, 386-397.
Botella, 1., Sum, M., y Ximenez, C. (2012). Andfisis de datos en psicologia I. Madrid:
Pirémide.
Botella, J., Xirnénez, M. C., Revuelta, 1., y Suero, M. (2006). Optimization of sample size in
controlled experiments: the CLAST rule. Behavior Research Methods, Instruments &
Computers, 38(1), 65-76.
Boutmn, I., Moher, D., Alunan, D. (3., Schulz, K. E, y Ravaud, P., for the CONSORT Group
(2008). Extending the CONSORT statement to randomized trials of nonpharmacologic
u‘eatment: Explanation and elaboration. Annals ofInremaI Medicine, 148, 295-309.
Braschi, L., Botella, 1., y Sucre, M. (2014). Consequences of sequential sampling for meta-
analysis. Behavior research methods, 1-17.
Brockwell, S. E., y Gordon, I. R. (2001). A comparison of statistical methods for meta-analysis.
Statistics in Medicine, 20, 825-840.
Brok, 1., Thorlund, K., Wetterslev, J., y Gluud, C. (2009). Apparently conclusive meta-analyses
may be inconclusive—Trial sequential analysis adjustment of random error risk due to
repetitive testing of accumulating data in apparently conclusive neonatal meta-analyses.
Intemationai Journal apidemioIogy, 38, 287-293.
Husk, P. L., y Serlin, R. C. (1992). Meta-analysis for single-case research. En T. R. Kralochwill
& J.R. Levin (Eds.), Single-case research dwign and wmbvsis: New directions for
psycholog’ and education @p. 187-212). Hillsdale, NJ: Lawrence Erlbaum Associates.
Caldwell, D. M., Adana, A. E., y Higgins, J. P. T. (2005). Simultanemas comparison of multiple
treatments: Combining direct and indirect evidence. British Medical Journal, 331, 897-
900.
Campbell, D. T., y Stanley, J. C. (1963). Experimental and quasiflperimenral designs jbr
research. Chicago, Rand McNally.
Campbell, J. M. (2004). Statistical Comparison of Four Effect Sizes for Single-Subject
Designs. Behaviour Modification 28, 234-246.
Card, N. A. (2012). Applied meta-analysis for social science research. Nueva York: Guilford
press.
Carlson, K. D., 3: Schmidt, F. L. (1999). Impact of experimental design an effect size: Findings
from the research literature on training. Journal of Applied tology, 84, 851-862.
Castillo, M. D. (2009). La atencién. Madrid: Pirémide.
Center, B. J., Skiba, R. 1., 3; Casey, A. (1985-1986). A methodology for the quantitative
synthesis of inn-subject design research. Journal offiyecial Educafian, 19, 387-400.
Chalmers, 1., y Altman, D. G. (1995). systematic reviews. Londres: BMJ Publishers group.
Chalmers, T. C., Smith, H. Jr, Blackburn, B, Silverman, B., Schroeder, B., Reitman, D., y
Ambroz, A. (1981). A method for assessing the quality of a randomized comml trial.
Controlled Clinical Trials, 2, 31-49.
250 Meta-analisis en Ciendas Soclalea y de la Salud
Cheung, M. W. L. (2008). A model for integrating fixed-, mdom-, and mixed-effects meta-
analyses into structural equation modeling. Psychological Methods, 13, 182-202.
Cheung, M. W. L. (2013). Multivariate Meta-Analysis as Structural Equation Models.
Structural Equation Modeling, 20, 429-454.
Cheung, M. W. L, 5! Chan, W. (2005). Meta-analytic structural equation modeling: A two-
stage approach. Psychological Methods, 10, 40-64.
Chenng, M. W. L., y Chan, W. (2009). A two-stage approach to synthesizing covariance
matrices in meta-analytic stmctural equation modeling. Structural Equation Modeling, 6,
28-53.
Clarke, M. (2009). Reporting format. En H. Cooper, L. V. Hedges j; J. C. Valentine
(Eds.){2009), The handbook of research synthesis' and mid-anabsis 2.a ed. (pp. 521-
534). Nueva York: Russell Sage Foundation.
Cohen, J. (1988). Statistical power anabsisfor the behavioural sciences; 2.a ad. Nueva York:
Academic Press.
Cohen, J., Cohen, R, West S. G., y Aiken, L. S. (2003). Applied muffiple regression/correlation
ambrsisfir the behavioraf sciences (31' ed). Mahwah, NJ: Erlbaum.
Conn, V. 5., y Rantz, M. J. (2003). Research methods: managing primary study quality in meta-
analyses. Research in Nursing & Health, 26(4), 322-333.
Cook, D. J., Sackett, D. L., y Spitzer, W. O. (1995). Methodologic guidelines for systematic
reviews of randimized control tirals in helath care from the Potsdam consultation on
meta-analysis. Journal afCiinical Epidemiology, 48, 167-171.
Cook, T. D., 3; Campbell, D. T. (1979). Quasi-experimentafion: design and Wm“: issuesjbr
field settings. Chicago, Rand McNally.
Cooper, H. M. (1998). Synthesizing research: A guidefor literature reviews (3.“ ed.). Thousand
Oaks, CA: Sage.
Cooper, H. M. (2010). Research synthesis and meta-anabisis: A step-Mm: approach (4.“ ed.)
Thousand Oaks, CA: Sage.
Cooper, H. M., y Hedges, L. V. (1994). Handbook of research synthesis. New York: Russell
Sage Foundation.
Cooper, H. M., y Hedges, L. V. (2009). Potentials and limitations. En H. Cooper, L. V. Hedges
y J. C. Valentine (Eds.). The handbook afrasearch synthesis and max-mabzsis (2.ll ed,
pp. 561-572). Nueva York: Russell Sage Foundation.
Cooper, H. M., Hedges, L.V., y Valentine, LC. (Eds.)(2009). The handbook of rasearch
synthesis and meta-anabsis (2.“ ed). Nueva York: Russell Sage Foundation.
Cooper, H. M., y Patall, E. A. (2009). The relative benefits of meta-analysis conducted with
individual participant data versus aggregated data. Psychological Methods, 14, 165-176.
Cortina, J. M., y Nouri, H. (2000). Efi‘éct sizefor ANOVA designs. Thousand Oaks, CA: Sage.
Cracker, L., y Algina, J. (1986). IntroMtian to classical and modem test theory. New York:
Holt, Rinehan and Winston.
Cronbach, L. J. (1951). Coefficient alpha and the internal structure of tests. Psychometrika, 16,
297-334.
Crosbie, J. (1993). Interrupted time-series analysis with brief single-subject data. Journal of
Consulting and Clinical tm‘ogy. 61, 966-974.
Crusbie, J. (1995). Interrupted time-series analysis with short series: Why it is problematic;
how it can be improved. En J. M. Gottman Ed), The swabs-is afchange app. 36I-395).
Mahwah, NJ: Erlbaum.
Crows, M., y Sheppard, L. (2011). A review of critical appraisal tools show they lack rigor:
alternative tool structure is proposed. Journal of Clinical Epidemiologr. 64(1), 79-89.
Referencias bibllogréflcas 251
Cumming, G. (2012). Understanding the new statistics. Efi'ecr sizes, corgfidence intervals, and
meta-analysis. Nueva York: Routledge, Taylor & Francis group.
Debray, T. P. A... Moons, K. G. M., Abo-Zaid, G. M. A, Koffijberg, H., y Riley, R. D. (2013).
Individual participant data meta-analysis for a binary outcome: One-stage or five-stage?
PLoS ONE 8(4): e60650. doi:10.1371ljomnal.pone.0060650.
Dechartres, A., Charla, P., Hopewell, 3., Ravaud, P., y Altman, D. G. (2011). Reviews
assessing the quality or the reporting of randomized controlled trials are increasing over
time but raised questions about how quality is assessed. Journal of Clinical
Epidemiolog, 64(2), 136-144.
Decks, J. J. (2001). Systematic reviews of evaluations of diagnostic and screening tests. En M.
Egger, G. D. Smith, y D. Altman (eds): systematic reviews in health care: meta-anaiysfi
in context, 2.3 ed. Londrm: BMJ Books.
Decks, J. J., y Altman, D. G. (2001). Efl‘ect measures for meta-analysis of trial with binary
outcomes. En M. Egger, Davey Smith, G., y D. G. Altman (Eds.), mmm reviews in
health care: Meta-anabwis in context (pp. 313-335). Inndres: BMJ Publishing Group.
Decks, J. J ., Dinnes, J., D’Anfico, R., Sowden, A. J., Sakarovitch, 0., Song, F ., Petticrew, M.,
y Altman, D. G. (2003). Evaluating non-randomised intervention studies. Health
Technology Assessment, 7(27), 1-179.
DerSimonian, R., y Laird, N. (1986). Meta-analysis in clinical trials. Connolled Clinical Tnhfs,
7, I'M-188.
Des Jarlais, D. CL, Lyles, C., Crepaz, N., y el TREND Group (2004). Improving the reporting
quality of nonrandomized evaluations of behavioral and public health interventions: The
TREND statement. American Journal ofPublic Health, 94, 361-366.
Dias, S., Walton, N. J., Caldwell, D. M., y Aden, A. E. (2010). Checking consistency in mixed
treatment comparison meta-analysis. Statistics in Medicine, 29, 932-944.
Dinfitmv, D. M. (2002). Reliability: arguments for multiple perspectives and potential
problems with generalization across studies. Educational and Psychological
Measurement, 62(5), 783-801.
Dunlap, W. P., Cortina, J. M., Vaslow, J. B., y Burke, M. J. (1996). Meta-analysis of
experiments with matched groups or repeated measures designs. Psychaiagical Methods,
1, 170-177.
Duval, 8., y 'I‘weedie, R. (2000a). A non-parametric “trim and fill” method of assessing publi-
cation bias in meta-analysis. Journal ofthe American Statistical Association, 95, 89-98.
Duval, 5., y Tweedie, R. (2000b). Trim and fill: a simple funnel-plot-based method of testing
and adjusting for publication bias in meta-analysis. Biometrics, 56, 455-463.
Egger, M., Smith, G. D., 3! Aliman, D. G. (eds) (2001). systematic reviews in health care:
meta-analysis in context, 2.“ ed. Londres: BMJ Publishing group.
Eggcr, M., Smith, G. D., 5: Phillips, A. N. (1997). Meta-analysis: Principles and pmoedum.
British Medical Journai, 315, 1533-1537.
Egger, M., Smith, G. D., Schneider, M., y Minder, C. (1997). Bias in Meta-Analysis Detected
by a Simple Graphical Test. British Medical Journal, 315, 629-634.
Ellis, P. D. (2010). The essential guide to efi‘éct sizes. Nueva York: CambridgeUniversity Press.
Faith, M. 5., Allison, D. B., 31 German, B. S. (1996). Meta-analysis of single-case research. In
R. D. Franklin, D. B. Allison, & B. S. Gorman (EdsJ, Design and analysis afsingIe-case
research (pp. 245-277). Hillsdale, NJ: Erlbaum.
Paul, F., Erdfelder, E., Lang, A. G., 3; Buckner, A. (2007). G*Power 3: A flexible statistical
power analysis program for the social, behavioral, and biomedical sciences. Behavior
Research Methods, 39, ITS-191.
252 Meta-analisis en Ciendas Soclalea y de la Salud
Griasom, R. 1., y Kim, J. J. (2012). Efi'ect Sizes for Research: Univariate and Multivariate
Applications. Nueva York: Routledge.
Hakstian, A. R., 3/ Whalen, T. E. (1976). A k—sample significance test for independent alpha
coefficients. tometrika, 41, 219-231.
Harbord, R. M., Decks, I. J., Egger, M , Whiting, P., y Sterne J. A. (2007}. A unification of
models for meta-analysis of diagnostic accuracy studies, Bianatmim, 8(2), 239-251.
Harbord, R. M., y Higgins, J. P. T. (2008). Meta-regrwsion in Stata. Slam Journal, 8, 493-519.
Hartung, J. (1999). An alternative method for meta-analysis. Biometrical Journal, 41, 901-906.
Hartung, J., Knapp, G., y Sinha, B. K. (2008). Statistical meta-analysis with applications.
Hoboken, NJ: Wiley.
Hasselblad, V., y Hedges, L. V. (1995). Meta-analysis of screening and diagnostic tests.
Psychological Bulletin, 117, 167-173.
Hays, W. L. (1988). Statistics (4th ed.). Filadelfia: Holt, Rinehart & Winston.
Hedges, L. V. (1981). Distribution theory for Glass's estimator ef efl‘ect size and relamd
estimators. Journal ofEducationa! Statistics, 6(2), 107-128.
Hedges, L. V. (1994). Fixed effects models. En H. Cooper, y L. V. Hedges (Eda), The
handbook ofrasearch synthesis (pp. 285-299). Nucva York: Russell Sage Foundation.
Hedges, L. V., Gurevitch, 1., y Curtis, P. S. (1999). The meta-analysis of response ratios in
experimental ecology. Ecology, 80, 1150-1156.
Hedges, L. V., y Olkin, I. (1985). Statistical methods for meta-analysis. Orlando, FL:
Academic Press.
Hedges, L. V., y Pigott, T. (2004). The power of statistical tests for moderators in meta-
analysis. Psychological Methods, 9, 426-445.
Hedges, L. V., Pustejovsky, J. E., y Shadish, W. R. (2912). A standardizes mean difference
effect size for single case designs. Research Synthesis Methods, 3, 224—239.
Hedges, L. V., y Vevea, J. L. (1998). Fixed- and random-efi'ects models in meta-analysis.
Psychologica! Methods, 3, 436-504.
Henmi, M., y Copas, J. B. (2010). Confidence intervals for random effects meta-analysis and
robustness to publication bias. Statistics in Medicine, 29, 2969-2983.
Hanson, R. K. (2008). Effect-size measures and meta-analytic thinking in counseling
psychology research. He Counseling Psychologist, 34, 601-629.
Henson, R. K., y Thompson, E. (2002). Characterizing measurement error in scores across
studies: Some recommendations for conducting ‘reliahility generalization’ studia.
MeasurementandEvaluation in Counseling and Development, 35, 113-126.
Herbison, P., Hay-Smith. 1., y Gillespie, W. J. (2006). Adjusunent of meta-analyses on the
basis of quality scores should be abandoned. Journal afCIinicaI Epidemiology, 59, 1249-
1256.
Hersen, M., y Barlow, D. H. (1976). Single-case experimental designs: Skategiesfbr studying
behavior. New York: Pcrgamon Press.
Higgins, J. P., y Altman, D. (2008). Assessing the risk of bias in included studies. En J.
Higgins, y S. Green (eds). Cochrane handbook fiJr .systenmtic refiews of interventions
5.0.}. (pp. 187-241). Chichester, UK: John Wiley 8: Sons.
Higgins, J. P. T., y Thompson, S. G. (2002). Quantifying heterogeneity in a metamalysis.
Statistics in Medicine, 21, 1539-1558.
Higgins, J. P. T., 3* Thompson, S. G. (2004). Controlling the risk of spurious findings from
meta-regression. Statistics in Medicine, 23, 1663-1682.
Higgins, J. P. T., Thompson, S. G., Decks, J. 1., y Altman, D. G. (2003). Measuring
inconsistency in meta-analyses. British MedicaIJouml, 327, 557-560.
254 Meta-analisis en Ciendas Soclalea y de la Salud
Higgins, J. P. T., Whitehead, A., y Simmonds, M. (2011). Sequential methods for random-
efl‘ects meta-analysis. Statistics in Medicine, 30, 903-921.
Hill, C. 1., Bloom, H. S., Black, A. R., y Lipsey, M. W. (2008). Empirical benchmarks for
intclpreting effect sizes in research. Child Deveiapment Parapecmws, 2, 172-177.
Hill, L. 8., Reid, F., Morgan, J. E, y Lacey, J. H. (2010). SCOFF, the development of an
Eating Disorder Screening Questionnaire. International Journal of Eating Disorders, 43,
344-351.
Hogan, T. P., Benjamin, A., y Brezinsky, K. L. (2000). Reliability methods: A note on the
frequency of use of various types. Educational and Psychological Measurement, 60,
523-531.
Homer, R. H., Swaminathan, H., Sugai, G., y Smolkowski, K. (2009). Expanding analysis and
use of single-case research. Washington, DC: Institute for Education Sciences, U.S.
Deparlment of Education.
Hex, J. J. (2010). Multilevel analyst's. Techniques and applications. Hove: Routledge.
http:/lwww.trialsjoumal.comfcontentil 2f1l104.
Huedo-Medina, T., Sénchez—Mcca, 1., Mafln—Martinez, F ., y Botella, J. (2006). Assessing hera-
rogeneity in meta-analysis: Q statistics or 12 index? Psychological Methods, 11, 193-206.
Huitema, B. E. (2004). Analysis of interrupted time series experiments using ITSE: A critique.
Understanding Statistics, 3, 27-445.
Huizenga, H. M., Visser, I., y Dulan, C. V. (2011). Testing overall and moderator efl‘ects in
random effects meta-regression British Journal of Mathematical and Statistical
Psychalay, 64, 1-19.
Hunt, M. (1997). How science takes stock: The story of mfla-anabwis. Nueva York: Russell
Sage Foundation.
Hunter, J. E., y Schmidt, F. L. (2000). Fixed effects vs. random efibcts meta-analysis models:
Implications for cumulative research knowledge. International Journal of Selection and
Assessment, 8, 275-292.
Hunter, J. E., y Schmidt, F. L. (2004). Methods ofmem-anaiysis: correcting error and bias in
mmhfindings 2.“ed. Thousand Oaks, CA: Sage.
Jackson, D., y Riley, R. D. (2014). A refined method for multivariate meta-analysis and meta-
regression. Statistics in Medicine, 20, 541-554.
Jarde, A, Losilla, J. M., y Vives, J. (20123). Methodological quality assessment tools of non-
experimemal studies: A systematic review. Annie: de Psicalagia, 28, 617-628.
11111163, A., Losilla, J. M, y Vives, J. (2012b). Suitability of three different tools for the
assessment of methodological quality in ex post facto studies. International Journal of
Clinical and Health Psychology, 12, 97-108.
Jarde, A , Losilla, J. M., Vives, L, y Rodrigo, M. F. (2013). Q—Coh: A tool to screen the
methodological quality of cohort studies in systematic reviews and meta-analyses.
International Journal of Clinical and Health Psychology 13, 138-146.
Jfini, P., Witschi, A, Bloch, 11., y Egger, M. (1999). The hazards of scoring the quality of
clinical trials for memaanalysis. Journal of the American Medical Association, 282,
1054-1060.
Kalaian, H., y Raudenbush, S. W. (1996). A multivariate mixed linear model for meta-analysis.
Psychological Methods, 1, 227-235.
Kelley, K., y Preacher, K. J. (2012). 011 Effect Size. Psychological Methods, 17, 137-152.
Khan, K. 3., Days, 8., y Jadad, A. (1996). The importance of quality of primaxy studies in
producing unbiased systematic reviews. Archives of Internal Medicine, 156, 661-666.
Referencias bibllogréflcas 255
Kirk, R. E. (1995). Expen'mentaf design: Procedure: for the behavioral sciences (3rd ed_).
Belmont, CA: Brooksole.
Knapp, 6., y Hartung, J. (2003). Improved tests for a random effects meta-regression with a
single covariate. Statistics in Medicine, 22, 2693-2710.
Konstantopoflos, S., y Hedges, L.V. (2009). Analyzing effect sizes: Fixed-effects models. En
H. Coop-er, LN. Hedges y J.C. Valentine (Eds), The handbook of research synthesis and
meta-analysis (2.“ ed.) (pp. 279-293). Nueva York: Russell Sage Foundation.
Koricheva, J., Gurevitch, J., y Mengersen, K. (2013). Handbook of meta-analwis in ecology
and evolution. Princeton, NJ: Princeton University Press.
Lachin, J. M. (1981). Introduction to sample size determination and power analysis for clinical
trials. Conn-oiled Clinical Hats, 2, 93-113.
Lai, T. L. (2001). Sequential analysis: Some classical problems and new challenges. Statisfica
Sinica, 11, 303-408.
Laird, N. M., y Mosteller, F. (1990). Some statistical methods for combining experimental
results. International Journal of Technology Assessment in Health Care, 6, 5-30.
Lefin, 0. G., y Montem, I. (2003). Métoa‘as de investigacién en psicolagia y educacién (3‘I ed).
Madrid: McGraw-I-Iill.
bvine, T. IL, Asada, K. J., y Carpenter, C. (2009). Sample sizes and effect sizes are negatively
comlated in meta-analyses: Evidence and implications of a publication bias against
nonsignificant findings. Communication Monographs, '76, 286-302.
Lewis, 3., y Clarke, M. (2001). Forest plots: trying to see the wood and the trees. EMU: British
Medical Journal, 322(7300), 1479-1430.
Liberati, A., Altman, D. G., Tetzlaff, J., Mulrow, C., Gatzsche, P. C., Ioannidis, J. P. A.,
Clarke, M., Devereaux, P. J., Kleijnen, J., y Moher, D. (2009). The PRISMA statement
for reporting systematic reviews of studies that evaluate health care interventions:
Explanation and elaboration. Journal of Clinical Epidemiology, 62, 61-634.
Light, R. J., y Pillemer, D. B. (1971). Accumulating evidence: procedures for resolving
contradictions among difl'erent research studies. Harvard Educational Review, 41(4),
429-471.
Light, R. J., y Pillemer, D. B. (1984). Summing up. The science of reviewing research.
Cambridge, MA: Harvard University Press.
Lipsey, M. W. (1994). Identifying potentially interesting variables and analysis opportunities.
En H. Cooper and L. V. Hedges (Eds), The handbook of research synthesis (pp. 111-
123). New York: Russell Sage Foundation.
Lipsey, M. W., y Wilson, D. B. (2001). Practical meta-analysis. Thousand Oaks, CA: Sage.
Littell, J. H., Corcoran, J., y Pillai, V. (2008). systematic reviews and meta-analysis. Oxford,
UK: Oxford University Press.
Littenberg, B., y Moses, L. E. (1993). Estimating diagnostic accuracy fmm multiple conflicting
reports: a new meta-analytic method. Medical Decision Making, 13, 313-321.
Lépez-Lépez, J. A., Botella, J., Sénchez—Meca, J., y Man'n-Martinez, F. (2013). Alternatives for
mixed-effects mam-ragession models in the reliability generalization approach: A
Simulation study. Journal of Educational and Behavioral $atistfm, 38, 443-469.
[bpez-Ibpez, J. A., Marin-Maninez, F., Sénchez-Meca, J., van den Noongate, W., y
Viechtbauer, W. (2014}. Estimation of the predictive power of the model in mixed-effects
meta-regession: A simulation study. British Jouma! of Mathematical and Statistical
Psychology, 67, 30-48.
Lépez-pu, J. A., samba-Mew, J., pez-Pina, J. A., Marin-Martina, F., Rosa-Alum, A.
1., Gémez-Conesa, A... Rubia-Aparicio, M., Garcia, D. A., y Cuesta-Barriuso. R. (2013,
256 Meta-analisis en Ciendas Soclalea y de la Salud
Moher, D., Jones, A., y Lepage, L. for the CONSORT Group (2001). Use of the CONSORT
statement and quality of reports for randomized trials: A comparative before-and-afber
evaluation. Journal of the American Medical Association, 285, 1992-1995.
Maker, [1, Liberati, A., Tetzlafi, 1., Altman, D. (3., The PRISMA Group (2009). Preferred
reporting items for systematic reviews and meta-analyses: The PRISMA statement.
Journal of Clinical Epidemiology, 62, 1006-1012.
Moher, D., Schulz, K. F., Altman, D. G., for the CONSORT Group (2001). The CONSORT
statement: revised recommendations for improving the quality of reports of parallel group
randomised trials. Journal afrhe American Medical Association, 285, 1987-1991.
Morgan, 1. F., Reid, E, y Lacey, J. H. (1999). The SCOFF questionnaire: assessment of a new
screening tool for eating disorders. British Medicine Jaumai, 319, 1467-1468.
Morris, S. B. (2000). Distribution of the standardized mean change effect size for mam-analysis
on repeated measures. British Journal of Mathematical and Stanistical Psychaiay, 53,
17-29.
Mon-is, S. B. (2008). Estimating effect sizes from pretest-posttest-control group designs.
Organizational Research Methods, 11, 364-386.
Morris, S. B., y DeShon, R. P. (1997). Contacting effect sizes computed from factor analysis of
variance for use in meta-analysis. Psychological Methods, 2, 192-199.
Morris, S. B., y DeShon, R. P. (2902). Combining effect size estimates in meta-analysis with
repeated measures and independent-group designs. Psychological Methods, ‘7, 105-125.
Moses, L. E., Shapiro, D., 3! Littenberg, B. (1993). Combining independent studies of a
diagnostic test into a summary ROC curve: Dam-analytical approaches and some
additional considerations. Statistics in Medicine, 12, 1293-1316.
Mufiiz, J. (1998). Teofia chisica de 103 tests (3." ed). Madrid: Pirémide.
Murphy, K. R. (Eds) (2003). Vaiidig’ generalization: A cfinhal review. Mahwah, NJ: Erlbaum.
Newcombe, R. G. (2012). Confidence intervals fiJr proportions and related m m ofqfl'ect
size. CRC Press.
Nook, M. K., Jam's, I. B., y Wedig, M. M. (2008). Research Designs. En A. M. Nezn y C. M.
Nezu (eds): EWdence-Based Outcome Research. A practical guide to conducting
randomized controlled trials for pmhasaciai interventions (pp. 201-213). Nueva York:
Oxford University Press.
Nosek, B. A., Spies, J. R., 5! Motyl, M. (2012). Scientific utopia II. Restructuring incentives and
practices to promote truth over publishability. Perspectives on Psychological Science, 7,
615-631.
O’Brien, P. C., y Flaming, T. R. (1919). A multiple wiring pmcedune for clinical trials.
Biometrics, 35, 549-556.
O’Rourke, K. (2007). An historical perspective on meta-analysis: dealing quantitatively with
varying study results. Journal ofthe Raya! Society of Medicine, 100, 579-582.
Olivo, 5., Macedo, L. G., Gadotti, I. C., Fuentes, 1., Stanton, T., y Magee, D. J. (2008). Scales
to assess the quality of randomized controlled trials: a systematic review. Physical
Therapy, 88(2), 156-175.
Olkin, I. (1990). History and Goals. En K. W. Wachter y Straf, M. L. (eds): Thefidure afmeta-
mb’sis. Nueva York: Russell Sage Fomdation.
Olkin, I. (1995). Statistical and theoretical considerations in meta-analysis. Journal of Clinical
Epidemiology 48, 133-146.
Orwin, R. G. 1983. A fail-safe N for effect size in meta-analysis. Jamal of Educational
Statistics, 8, 157-159.
253 Meta-analisis en Ciendas Soclalea y de la Salud
Panic, N., Leoncini, E., de Belvis, G., Ricciardi, W., y Boocia, S. (2013). Evaluation of the
endorsement of the merreed Reporimg items for Systematic Reviews and Meta-
Analysis (PRISMA) statement on the quality of published systematic review and meta-
analyses. PLOS 0M. 8(12). doi: 10.1371fjournal.pone.0083138.
Pardo, A, y Ruiz, M. A. (2012). Miller's d2 dams en Ciencias Sociales y de la Saiud III.
Madrid: Sintesis.
Pardo, A, Ruiz, M. A, y San Martin, R. (2009): Anéllisis :13 Data: can Cicadas Socials: y de la
SaludI, Madrid: Sintesis.
Pardo, A., y San Martin, R. (2010): AME“? dc Dams en Ciencias Saddles y de la Salud 11’,
Madrid: Sintesis.
Parker, R. 1., y Hagan-Burke, S. (2007). Useful effect size interpretations for single-case
research Behavior Therapy, 38, 95-105.
Parker, R. I., Hagan-Burke, 3., y Vannest, K. I. (2007). Parent of all non-overlapping data
(PAND): An altemative to PND. Journal afbpecial Education 40, 194-204.
Parker, R. 1., Vannest, K. 1., y Brown, L. (2009). The “improvement rate difference” for single-
case research. Exceptional Children, 75, 135-150.
Parsonson, B. 5., y Baer, D. M. (1992). The visual analysis of data, and current research into
the stimuli controlling it. En T. R. Kmbochwill y J. R. Levin (BdsJ, Single-case research
design and analysis: Nev directionsfbr psycholoy and education (pp. 15-40). Hillsdale,
NJ: Lawrence Erlbaum Associates.
Pedhazur, E. I. (1997). Multgvle regression in behavioral research (3.a oi}. Orland, FL: Holt,
Rinehart & Winston.
Pigott, T. (2012). Advances in meta-anabm's. Springer.
Pogue, J. M., y Yusuf, S. (1997). Cumulating Evidence from Randomized Trials: Utilizing
Sequential Monitoring Boundaries for Cumulaxive Meta-Analysis. Controlled Ciinical
Trials, 18, 580-593.
Popper, K R. (1985). La Idgica de [a investigacién cientifica. Editorial Tecnos.
Proschan, M. A., Wittes, J. T., y Lan, K. K. (2006). Statistical monitoring of clinical trials.
Springer.
R Development Core Team (2010). R: A Language and Environmentfor Statistical Cumming.
R Foundation for Statistical Computing, Vienna, Austria. ISBN 3-900051-07-0. URL
http:llwww.R-project.org.
Raudenbush, S. W. (1994). Random effects models. En H. Cooper y L.V. Hedgw (Eds.), The
handbook ofrasearch ganthesis (pp. 301-321). Nueva York: Russell Sage Foundation.
Raudenbush, S. W. (2009). Analyzing effect sizes: Random-effects models. En H. Cooper, LV.
Hedges y J .C. Valentine (Eds.), The handbook of research synthesis and meta-analytic
(2! ed.) (pp. 295-315}. Nueva York: Russell Sage Foundation.
Raudenbush, S. W., Becker, B. 1., y Kalaian, H. (1988). Modeling multivariate effect sizes.
Psychoiagical Bulletin, 102, 111-120.
Reitsma, J. B., Glas, A. S., Rutjes, A. W., Scholten, R. 1., Bossuyt, P.M., y Zwindelman A. H.
(2005). Bivariate analysis of sensitivity and specificity produces informative slmnnary
measures in diagnostic reviews. Journal of Clinical Epidemialay, 58, 982-990.
Refiew Manager (RevMan) (2008) [Computer program]. Version 5.0. Copenhagen: The Nordic
Cochrane Centre, The Cochrane Collaboration.
Rhodas, W. (2012). Meta-analysis: An introduction using regression models. Evaluation
Review, 36, 24-71.
Ried, K. (2006). Interpreting and understanding meta-analysis graphs: A practical glide.
Australian Fmib; Physician, 35(8), 635-638.
Referencias bibllogréflcas 259
Riley, R. D., Kmer, 1., Bland, M., Thijs, L., Stamen, J. A., Wang, J., Gueyffier, F., 3; Decks,
J. J. (2013). Meta-analysis of randomized trials with a continuous outcome according to
baseline imbalance and availability of individual participant data. Statistics in Medicine,
32, 2747-2766.
Riley, R. D., Lambert, P. C., Stamsen, I. A., Wang, J., Gueyflier, F., Thijs, L., y Boutitie, F.
(2008). Meta-analysis of continuous outcomes combining individual patient data and
aggregate data. Statistics in Medicine, 27, 1870-1893.
Rodriguez, M., y Maeda, Y. (2006). Meta-analysis of coefficient alpha. Psychological Methods.
11(3), 306-322.
Rosenberg, M. S. (2005). The file-drawer problem revisited: A general weighted method for
calculating fail-safe numbers in Meta-analysis. Evolution, 59, 464-468.
Rosenberg, M. S., Adams, D. C., y Gurevitch, J. (1999). MemWin: Statistical safiware for
meta-analysis with resampling tests (V cm. 2.0). Sunderland, MA: Sinauer Associates.
Rosenberg, M. S., Adams, D. C., y Gurevitch, J. (2000). MetaWin: Statistical soflware for
meta-analwis Vem. 2.0. Sunderland, MA: Simmer Associates, Inc.
Rosenthal, R. (19913). Meta-analytic procedures for social research (ed. rem). Newbury Park,
CA: Sage.
Rosenthal, R. (19911:). Quality-weighting of studies in meta-analytic research. Psychotherapy
Research, 1, 25-28.
Rasenthal, R. (1994). Parametric measures of effect size. En H. Cooper and L. V. Hedges
(Eds.), The handbook of research synthesis (pp. 231-244). Nueva York: Russell Sage
Foundation.
Rosenthal, R. (1995). Writing meta-analytic reviews. Psychological Bulletin, 18, 183-192.
Rosenthal, R. 1979. The “file drawer probl-” and tolerance for null results. Psychological
Bulletin, 86, 638-641.
Rosenthal, R., Roanow, R. L., y Rubin, D. B. (2000). Comm and fleet sizes in behafiaural
research: A car-relational approach. Cambridge, RU: Cambridge University Press.
Rosenthal, 11., y Rubin, D. B. (1978). Interpersonal expectancy effects: the first 345 studies.
The Behavioral and Brain Sciences, 1(3), 37?-386.
Rothstein, H. IL, Lortie, C. J., Stewart, G. B., Koricheva, 1., y Gurevitch, J. (2013). Quality
standards for research syntheses. En J. Koricheva, J. Gurevitch y K. Mengersen (Eds.),
Handbook of meta-army“: in Ecology and Evolution (pp. 323-338). Princeton, NJ:
Princeton University Press.
Rothstein, H. R., Sutton, A. J., y Borenstein, M. (Eds.) (2005). Publication bias in meta-
mbrsis: Prevention, assessment, and atymtmenm. Nueva York: Wiley.
Rutter, C. M., y Gaisonis, C. A. (1995). Regression methods for meta—analysis of diagnostic
test data. Academic Radiology, 2 (Suppl 1), 348-56.
Rutter, C. M., y Gatsonis, C. A. (2001}. A hierarchical regression approach to meta-analysis of
diagnostic test accuracy evaluations. Statistics in Medicine, 20, 2865-2884.
Salami, G., Ade-s, A. E., y Ioannidis, J. P. A. (2011). Graphical methods and numerical
summaries for presenting results fi-om multiple-fleatment meta-analysis: An overview
and tutorial. Journal of Clinical Epidemialay, 64, 163-171.
Salami, 6., Higgins, I. P. T., Ades, A. 1-3., y Ioannidis, J. P. A. (2008). Evaluation of networks
of randomized trials. Statistical Methods in Medical Research, 17, 279-301.
Sénchez-Meca, J. (1999'). Meta-anilisis para la investigacién cientifica. En F. J. Sarahia—
Sénchez (Could), Metodaiagia para la inmtigacidn en mdrketing y direccidn de en:-
presas (pp. 173-201). Madrid: Pirfimide.
260 Meta-analisis en Ciendas Soclalea y de la Salud
H. Steiger (eds): What if there were no significance tests? (pp. 37-64). Mahwah, NJ:
Lawrence Erlbaum Associates.
Schmidt, F. L., y Hunter, J. E. (2015). Methods afmeta—anabsis: Camcting ermr and bias in
research mthesis (3.“ ed.) Los Angeles, CA: Sage.
Schmidt, F. L., Le, 11., y 011, 1-8 (2009). Correcting for the distorting effects of study artifacts
in meta-analysis. En H. Cooper, L. V. Hedges y I. C. Valentine (Eds.). The handbook of
research synthesis and meta-analysis (2.a ed.) (pp. 317-333). Nueva York: Russell Sage
Fomdation.
Schmidt, F. L., Oh, I.-S., y Hayes, T.L. (2009). Fixed- versus random-effects models in meta-
analysis: Model properties and an empirical comparison of differences in results. British
Journal ofMathematica! and Statistical Psychology, 62, 97-128.
Schriger, D. L., Altman, D. G., Vetter, J. A., Heafiler, T., y Moher, D. (2010). Forest plots in
reports of systematic reviews: a cross-sectional study reviewing current practice.
International Journal opidemioIogv, 39(2), 421-429.
Schulz, K. F., Chalmers, 1., Hayes, R. 1., y Altman, D. G. (1995). Empirical evidence of bias.
Dimmsions of Methodological quality associated with estimates of treatment efi'ects in
controlled trials. Journal of the American Medical Association, 273, 408-412.
Schulze, R. (2004). Mem-anabwis: A comparison of approaches. Hogrefe & Huber Pub.
Schulze, R. (2007). The state and the art of meta-analysis. Zeitwchnfiffir Psychologie/Joumal
of Psychology, 215, 87-89.
Schwamer, G. (2010). Meta: Meta-analysis with R (R package version 1.6-0). httpzla’CRANR-
projectory’packagFmeta.
Scruggs, T. E., Mash-opieri, M. A., y Caste, G. (1987). The quantitative synthesis of single-
subject research. Methodology and validation. Remedial and Special Education, 8, 24-33.
Shadish, W. R., Cook, T. D., y Campbell, D. T. (2002). Experimental and quasi-experimental'
design for generalized causal inference. Boston. Houghton Mifilin.
Shadish, W. FL, 34* Haddock, D.M. (2009). Combining estimates of effect sizes. En H. Cooper,
L. Hedgw y J.C. Valentine (Eds.), The handbook of research synthais and meta-anabms
(2.“ edJ (pp.557- 578). Nueva York: Russell Sage Foundation
Shadish, W. R., Robinson, L., 3; Lu, C. (1999). ES: A comder program for qfi'ect size
calculation. St. Paul, MN: Assessment Systems Corporation.
Shamliyan, T., Kane, R. L., y Dickinson, 5. (2010). A systematic review of tools used to asses:
the quality of observational studies that examine incidence or prevalence and risk factors
for diseases. Journal afCiinical Epidemiafogy, 63(10), 1061-1070.
Sharpe, D. (1997). Of applm and oranges, file drawers and garbage: Why validity issues in
meta-analysis will not go away. Ch'uical Psychology Review, 17, 881-901.
Shea, B. J., Router, L. M., Peterson, 1., Boers, M., Andetsson, N., Ortiz, Z., Ramsay, T., Bai,
A, Shukla, V. K., y Grimshaw, J. W. (2007). External validation of a measurement tool
to assess systemaxic reviews (AMSTAR). PLoS ONE, 2( 12): e1350.
Shea, B. 1., Dubé, C., y Moher, D. (2001}. Assessing the quality of reports of systematic
reviews: The QUORUM statement compared to other tools. En M. Egger, G. D. Smith y
D. G. Altman (EdsJ, Systematic reviews in health care: Meta-mama: in context (pp.
122-139). BM] Books.
Shea, B. 1., Grimshaw, J. M., Wells, G. A, Boers, M., Andersson, N., Hamel, C., Porter, A. C.,
Tugwell, P., Moher, D., y Router, L. M. (2007). Development of AMSTAR: A
measurement tool to assess the methodological quality of systematic reviews. BMC
Medical Research Methodology, 7(10), doi:10.l 1861‘1471-2288-7-10.
252 Meta-analisis en Ciendas Soclalea y de la Salud
Shea, B. 1., Hamel, C., Wells, G. A., Router, L. M., Kristjansson, E., Grimshaw, J. W., Henry,
D. A, y Boers, M. (2009). AMSTAR is a reliable and valid measurement tool to asues
the methodological quality of systematic reviews. Journal of Ch'm'ca! Epidemiafagy, 62,
1013-1020.
Shuster, J. J. (2010). Empirical vs natural weighting in random effects meta-analysis. Staflrflm
in Medicine, 29, 1259-1265.
Sidik, K., y Jonkman, J. N. (2005). A note on variance mfimation in random effects mem-
regression. Journal afBiophamaL-eutical Statistics, 15, 823-838.
Siegmund, D. (1985). Sequential anabm's: Tests and confidence intervals. Nueva York:
Springer.
Siegmund, D. (1994). A retospective of Wald’s sequential analysis: Its relation to challenge-
point detection and sequential clinical trials. En S. S. Gupta 5! J. 0. Berger (Edi),
Statistical decision theory and related topics (pp. 9-33). Nueva Yotk: Springer.
Slavin, R. E. (1986). Best-evidence synthesis: An alternative to meta-analytic and traditional
reviews. Educational Researchers. 15, 5—11
Slavin, R. E. (1995). Best evidence synthesis: An intelligent alternative to meta-analysis.
Journal ofCIinfca! Epidemiology, 48, 9-18.
Slavin, K, y Smith, D. (2009). The relationship between sample sizes and effect sizes in sys-
tematic reviews in education. Educational Evaluation and Policy Analysis, 31, 500-506.
Smith, M., 3! Glass, G. V. (1977). Meta-analysis of psychotherapy outcome studies. American
Psychologist, 32, 752-760.
Soler—Ferreria, F., Sinchez-Meca, J., Rpm-Navarro, J. M., y Navarro-Mateo, F. (2014).
Neuroticismo y trastomo par estrés postraumfitioo: U11 estudio meta-audition. Review
Espafiola de SaiudPfiblica, 88, 17-36.
Sterling, '1". D. (1959). Publication decisions and their possible effects on inferences drawn
from tests of significance—0r vice versa. Journal ofthe American statistical association,
54(285), 30-34.
Sterne, J. A. C. (Ed.) (2009). Meta-unabasis in Stata: An undated collection firm: the State
Journal. College Station, TX: Stata Prm.
Sterne, I. A. (3., Gavaghan, D., 3: Egger, M. (2000). Publication and related bias in Meta-
analysis: power of statistical tests and prevalence in the literature. Journal of Clinical
Epidemiology, 53, 1 1 19-1 129.
Stewart, G. B., Altman, D. G., Askie, L. M., Daley, L, Simmonds, M. C., y Stewart, L. A.
(2012). Statistical analysis of individual participant data meta-analyses: A comparison of
methods and recommendations for practice. PLoS ONE, 7(10): 546042.
Stewart, L. A, y Tierney, J. F. (2002). To IPD or not to IPD? Advantages and disadvantages of
systematic reviews using individual patient data. Evaiuation and the Health Prafiessions,
25, 76-97.
Stewart, L. A., Tierney, J. E, y Clarke, M. (2008). Reviews of individual patient data. En I. P.
T. Higgins y S. Green (Eds.), Cochrane handbookfor systematic reviem' an intervention:
(pp. 547-558). Chichesuer, UK: Wiley.
Stoufl'er, S. A., Suchman, E. A., DeWinney, L. (3., Star, 8. A, 5! Williams, R. M. (1949). The
American soldier: mfmflnen: during army life {vol 1). Princeton, N. 1., Princeton
University Press.
Stroup, D. F., Berlin, 1. A... Morton, S. C., Olkin, 1., Williamson, G. D., at al. (2000). Meta-
annlysis of observational studias in epidemiology: a pmposal for reporting. Journal of the
American Medical Association, 283, 2008-2012.
Referencias bibllogréflcas 253
Strube, M. J. (2006). SNOOP: A program for demonstrating 1116 consequences ofprematlme and
repeated null hypothesis testing. Behavior research methods, 38, 24-27.
Sutton, A. L, Abrams, K. R., Jones, D. R., Sheldon, T. A., y Song, F. (2000). Methods fin-
Meta—anabzsis in Medical Reseamh. Chichester, RU: Wiley.
Sutton, A. J., y Higgins, J. (2008). Recent developments in meta-analysis. Statistics in
medicine, 27, 625-650.
Swem, J. A , Dawes, R M., y Monahan, J. (2000). Psychological Science on improve
diagnostic decisions. Psychological Science in the Public Interest, 1(1), 1-26.
Taylor, M. J., 3; White, K. R. (1992). An evaluation of alternative methods for computing
standardized mean difference effect size. Journal ofExperimenta! Education, 61, 63-72.
Terrin, N., Schmid, C. H., Law, 1., y Olkin, I. (2003). Adjusting for publication bias in the
presence of hetcmgeneity. Statistics in Medicine, 22, 2113-2126.
Thompson, 3., y Vacha-Haase, T. (2000). Psychomcuics is datamcu'ics: The test is not reliable.
Educationa! and Psychological Measurement, 60, 174-195.
Tobias, A, Catalé-Lépaz, E, y Roqué, M. (2014). Dual-rolls de una hoja Excel para
metaanélisis dc comparaciones indirecms y mixtas. Revista Espafiala de Salud MIR-a,
88, 5-15.
Turok, D. K., Espey, E., Edelman, A. B., Lotke, P. 5., Lathrop, E. H., Teal, S. B., Jacobson, J.
C., Simonsen, S. E., y Schulz, K. F. (2011). The methodology for developing a
prospective meta-analysis in the family planning community. Trials, 12(104).
Vacha-Haase, T. (1998). Reliability generalization: Exploring variance in measurement error
affecting score reliability across studies. Educational and Psychological Mammal.
58, 6-20.
Vacha-Haase, T., y Thompson, B. (2011). Score reliability: A retrospective look back at 12
years of reliability generalinfion studies. Measurement and Evaluafion in Counseling
andDeveIopment, 44, 159-168.
Valenstein, P. N. (1990). Evaluating diagnostic tests with imperfect standards. American
Journal ofClinica! Pathology, 93, 252-258.
Valentine, J. C. (2009'). Judging the quality of primary research. En H. Cooper, L. V. Hedges y
I. C. Valentine (eds.), The handbook of research synthesis, (23‘ ed.) (pp. 129-146). Nueva
York: Russell Sage Foundation.
Valentine, J. C., 3; Cooper, H. (2003). Effect size substfive interpretation guidelines: Issuas‘ in
the interpretation ofefiect sizes. Washington, DC: What Works Clearinghouse.
Valentine, J. C., 3? Cooper, H. (2008). A systematic and tansparent approach for assessing the
methodological quality of intervention effectiveness research: The Study Design and
Implementation Asmsment Device (Stud).r DIAD). Psychological Methods, 13, 130-149.
Valseochi, M. G., y Mason, G. (1996). A new challenge in clinical research in childhood ALL:
The prospective metamalysis su'ategy for intergroup collaboration. Annals of Oncalag},
7, 1005-1003.
Van den Nom'tgabe, W., y Onghena, P. (2003). Hierachical linear models for the quantitative
integration of effect sizes in single-case march. Behavior Research Methodv,
Mama, 6’: Computers, 35, 1-10.
Van den Nourtgate, W., 3: Onghena, P. (2003). A multilevel meta-analysis of single-subject
experimental design studies. Evidence-Based Commicatian Assessmnt & Intervenfl'on,
2, 142-151.
Van der Tweel, I. (2010). Sequential meta-analysis: an efficient decision-making tool. Clinical
Trials, 7, 136-146 .
254 Meta-anallsis en Ciendas Soclalea y de la Salud
Van Houwelingen, H. C., Arends, L. IL, 3! Stijnen, T. (2002). Advanced methods invmeta—
analysis: multivariate approach and meta-regression. Statistics in Medicine, 21, 589-624.
Verhagen, A. P., de Vet, H. C. W., de Bie, R. A, Boers, M., y van den Brandt, P. A. (2001).
The art of quality mment of RCTs included in systematic reviews. Journal ofCIinicaa‘
Epidemiology, 54(7), 651-654.
Vevea, J. L., 5! Woods, C. M. (2005). Publication Bias in Research Synthesis: Sensitivity
Analysis Using A Priori Weight Functions. tolagical Methods, 10(4), 428-443.
Viechtbauer, W. (2005). Bias and efficiency of meta-analytic variance estimators in the
random-circus model. Journal ofEducaflonaI and Behavioral Statistics, 30, 261-293.
Viechtbauer, W. (2010a). Conducting meta-analyses in R with the metafor package. Journal of
Statistical Sofiware, 36(3), 1-48.
Viechtbauer, W. (20101)). Metafor: Meta-Analysts Package for R. R package vasion 1.4—0,
URL httpsCRANR-projectorglpackagFmemfor.
Viechtbauer, W., Lépez-Lfipez, J. A, Sinchez—Meca, 1., y Mafln-Martinez, F. (en prema). A
comparison of procedures to test for moderators in mend-efiects meta-regession
models. Psychologies! Methods.
Wachter, K. W., 3! Stat; M. L. (Eds). (1990). The fitture of mera-anabmic. Russell Sage
Fonmdation.
Wald, W. (1947). Sequential anabwis. Nueva York: Dover.
Walter, S. D., Irwig, L., y Glasziou, P. P. (1999). Meta-analysis of diagnostic tests with
imperfect reference standards. Journal of Clinical Epidemiology, 52 (10), 943-951.
West, 8., King, V., Carey, T. S., Lohr, K. N., McKay, N., Sutton, S. E, y Lux, L. (2002, Abril).
Systems to rate the strength of scientific evidence. Evidence ReporUTechnology
Assessment No. 47 (Prepared by the Reseamh Triangle Instimte—University of North
Carolina Evidence-based Practice Center under Contract No. 290-597-0011). AHRQ
Publication No. 02-E016. Rockville, MD: Agency for Healthcare Research and Quality.
Wetherill, G. B., y Glazebrook, K. D. (1986). Sequential mthodv in statistias'. Londres:
Chapman & Hall.
White, I. R. {2009). Multivariate random-effects meta-analysis. Stata Jamal, 9, 40-56.
White, I. R. (2011). Multivariate random-effects meta-regression: Updates to mrvmeta. State
Journal, 11, 255-270.
Whitehead, A. (1997a). The Design and Anabmls afSequentz‘aI Clinical Maris, Refised second
edition. Wiley, Chichester, 1997.
Whitehead, A (1997b). A prospectively planned cumulative menu-analysis applied to a sefiw
of concurrent clinical trials. Statistics in Medicine, 16, 2901-2913.
Whitehead, A. (2002). Meta-analysis ofcontrolled clinical trials. Chichaster, RU: Wiley.
Whiting, P., Rutjes, A. W. 8., Dinnes, 1., Reitsma, J. B., Bossuyt, P. M. M., y Kleijnen, J.
(2004). Development and validation of methods for assessing the quality of diagnostic
accuracy studies. Health Technology Assessment, 8(25).
Wilcox, R. R. (2006}. Graphical methos for assessing effect size: Some alternatives to Cohen’s
d. Journal of Experimental Education, 74, 353-367.
Winer, B. J. (1971). Statistical princgplas in experimental design (2.a ed.) Nueva York:
McGraw-Hill.
Wolery, M., Busick, M., Reichow, B., y Balton, E. E. (2010). Comparison of overlap methods
for quantitatively synthesizing single subject data. Jmal affipecial Education, 44, 18-
28.
Wolf, F. M. (1986). Meta-unabsis. Beverly Hills, CA: Sage.
Referencias bibllogréflcas 255