Está en la página 1de 89
Psicologia Experimental 16/17 Meta-Anadlisis Figura 2, Fone pi.) tas del efeewo medio obvi paras diferentes Uraameentn pssokogkn, 9 combina detain, del ahwso sual fan para lames ylbhul de sulla de cuca, indie Je cumblo mas estan aho feomedio ps cada atari cy lmtes condenses ineroey supenor pte aman de fcc meio Tratamiento oo & Indiceder.c.al8e% ‘Terapia Cognitwo-Conduct, (TCC) 626 484 768 = pl se nye Go) SS toe ia ple de Azo 19) os no Ger = le Pecngeamca TP) fas aD4 1108 | | ple Moana eo 2 ese . teeta treo fae 278 tod Tec* 1 624 268 960 “ge 166213 TA veo ber 1887 te| ene ead be NoTiawmiene wor cs |S * 2.00 -100 0.00 100 200 | ToC + TA TP 556-333. 1.449 —s EnConta A Favor Furnel Pot of Stanaard Error by Log rsk iatio fof ob 2045 70 05 obo os 1b +5 20 Log risk ato Figura 10. Grafico de embudio fuire! 2100). Metandlisis: conceptos basicos y algo mas Dr. Gustavo Pera Torbay Psicologia Experimental (Mayo, 2008) Introduccion Meta-analysis refers to the analysis of analyses . .. the statistical analysis of a large collection of analysis results from individual studies for the purpose of integrating the findings. It connotes a rigorous alternative to the ‘casual, narrative discussions of research studies which typify our attermpts to ‘make sense of the rapidly expanding research Iterature. (Glass, 1976. p 3) Es un lugar comin que la investigacién empirica contemporanea, al menos en su sentido operativo, parte de una etapa de documentacién 0 revision de literatura; “todo proceso de biisqueda del saber requiere por lo menos de una fase de revision de la bibliografia existente sobre el asunto que se pretende investigar” (Alfonso, 2005, p.142). Pero, por una parte, hay diferentes acepciones del término revision bibliografica; como dicen Sdnchez y Ato (1989) El término revision de literatura abarca una amplia gama de significados. Basicamente, pueden istinguirse tres tipos de revision (Cooper, 1984; Jackson, 1980). En primer lugar, las revisiones de investigacién integran la Investigacion dedicadas a un tépico y extraen conclusiones globales a partir de un conjunto de trabajos que tratan hipétesis similares. En segundo lugar, las revisiones teéricas recogen las teorias formuladas para la explicacién de un fenémeno y contrastan su grado de generalidad, su consistencia interna y la naturaleza de sus predicciones. Por ultimo, las revisiones ‘metodologicas tienen como objetivo examinar la adecuacién de los métodos de investigacién y las definiciones operativas aplicados aun tema de Investigacion. (p. 618 Negritas y cursivas en el original) Y, por otra parte, igualmente hay discrepancias en lo que respecta a cémo se debe realizar el proceso de revision de literatura; mas especificamente, se debate el modo de sintetizar la informacion. En este sentido, no son pocos los que dicen que en este momento se pueden identificar tres generaciones de métodos para este fin: “las aproximaciones cldsicas para resumir la evidencia incluyen revisiones narrativas, revisiones sistematicas y meta-andlisis" (Metandlisis s.f. p.3). Grafica 1: Modos de resumir la evidencia Revisién narrativa: cualquier sintesis de Investigaciones cuyo modo de integracién no incluye métodos estadisticos. f paisarnssitenitias Ny Revision sistematica: es la busqueda y evaluacién critica de todos los estudios Revisiones primarios que dan respuesta a una misma hipétesis, Meta-analisis: es la sintesis cuantitativa de NS dos 0 mas estudios primarios que dan respuesta a una misma hipétesis mediante un mismo diseno, Una revisién sistematica intenta minimizar los elementos de arbitrariedad de las revisiones narrativas tradicionales, describiendo en detalle el proceso de revision para que, en principio, otra persona con Metanslisis: conceptos basics y algo mas Dr. Gustavo Pera Torbay acceso a los mismos recursos pueda realizarla y llegar, generalmente a las mismas conclusiones. Esto requiere que tenga objetivos claros y establecidos, que la estrategia de busqueda de la evidencia esté documentada y sea comprensible, que la evidencia obtenida sea sometida a una evaluacién de calidad mediante un sistema explicito, y que la forma de combinar la evidencia de los estudios individuales sea clara Definiciones de metandlisis Por su parte, “el meta-andlisis se considera como la 3. generacién del articulo de revision (después de la revision narrativa y la sistematica)’ (Conejero, 2001, p.374). Dicho de modo mas especifico, Un metandlisis es un tipo particular de revision sistematica de estudios, que no se limita a resumir los hallazgos cualtativamente, sino que utliza procedimientos estadisticos para expresar los resultados en forma cuantitativa. Las revisiones sistematicas son investigaciones en si mismas, s6lo que los sujetos de estudio no son individuos sino a su vez otras investigaciones, por lo que el meta~ andiisis se ha dado en llamar “estudio de estudios” (Manterota y Demirdjian, 1999, p.4) Vale decir, de un modo més amplio, Basicamente, los meta-analisis aportan un conjunto de técnicas que sistematizan la busqueda de toda la evidencia cientifica disponible acerca de un problema concreto, la seleccién y revision de los resultados relevantes, y su combinacién en medidas de efecto para resumir de forma cuantitativa la evidencia (Guayar, 2008) Es decir, el metanalisis es una metodologia para el anslisis de informacién que contribuye a identificar, ocalizar, recuperar, describir, analizar, sintetizar, destilar, condensar e integrar sistémica y sinérgicamente los resultados e miltiples investigaciones primarias sobre un tema especifico. (Aviés, Morales y Pacheco sf.) Finalmente, segun el creador del témino, Gene V. Glass (1976), el metandlisis tiene tres caracteristicas esenciales (Glass, McGaw y Smith, 1981): 1. En un aproximacién cuantitativa porque se vale de una variedad de métodos estadisticos para organizar y extraer informacion de trabajos de investigacion primaria 2. No prejuzga los hallazgos de investigacién en términos de calidad del estudio; por el contrario, su posible influencia puede ser empiricamente corroborada 3. Busca conclusiones generales; para ello, debe integrar resultados de trabajos con diferencias superficiales, pero en una fase posterior del andlisis se pueden examinar las caracteristicas de tales trabajos. Caracteristicas - Permite agrupar y analizar datos procedentes de ensayos investigativos diferentes — Permite generar resultados cuantificables sobre el efecto del tratamiento de modo mas preciso - Permite probar la coherencia de sus resultados —_ Es un estudio observacional No puede tener mayor fortaleza metodologica que los estudios primarios Objetivos ~_ Incrementar el poder de un test estadistico — Mejorar la estimacién de los efectos observados, conceptos basicos y algo mas Dr. Gustavo Pefia Torbay = Resolver resultados conflictivos procedentes de diversos estudios - Generar nuevas hipétesis 0 responder nuevas cuestiones ~ Exploracién de subgrupos — Explicar la heterogeneidad de los resultados Limitaciones metodolégicas del meta-andlisis (Metandlisis, s.., p.4-5) Los técnicas meta-analiticas presentan ciertas limitaciones propias de su metodologia, Estas limitaciones deben conocerse y tenerse en cuenta ala hora de interpretar sus resultados. En primer lugar, e! meta-andlisis puede onginar resultados distorsionados debido a posibles sesgos de seleccién y de publicacién de los estudios. Por otro lado, la validez de los resultados y las conclusiones del ‘meta-andlisis dependen de la calidad de los estudios individuales de modo que la combinacién de estudios sesgados puede potenciar atin mas el sesgo. Por ultimo, Ia interpretacion del meta-andlisis en caso de heterogeneidad o variabilidad entre los estudios es dificil y controvertida. La obligacién de Quienes utiizan el meta-analisis es conocer estas limitaciones, asi como explicitarlas y discutirlas en cada caso concrete. A continuacion se describen brevemente dos de sus principales problemas ‘metodolégicos. Heterogeneidad entre estudios. Una primera critica metodolégica al meta-andlisis consiste en intentar una combinacién estadistica de resultados que provienen de estudios que exhiben una gran Variabilidad (heterogeneidad) entre ellos. Esta no es una dificultad exclusiva del metanalisis, ya que es compartida por toda investigacién donde la amplia variedad de caracteristicas inherentes a los sujetos de estudio hace necesario disefiar un protocolo uniforme, realizar un riguroso proceso de seleccién de los sujetos de estudio y posteriormente efectuar un andlisis cuidadoso de la influencia sobre los resultados de los casos extremos. Esto se hace particularmente dificil al integrar evidencia derivada de numerosos estudios que fueron a su ver realizados en distintos contextos, con dise/ios variados, incluyendo sujetos diferentes en cuanto a caracteristicas sociodemograficas, comparando con grupos testigo diferentes. También podemos observar heterogeneidad midiendo resultados o efectos distintos; esto es, cuando los estimadores de efecto de los diferentes estudios individuales van en direcciones opuestas, 0 que un estudio no encuentre un efecto y otros encuentren un efecto de magnitud muy importante. Sesgo de publicacién. El sesgo de publicacién, es decir, la publicacién selectiva de estudios en base (2 81s hallazgos, representa un riesgo para la validez de cualquier meta-analisis. Es bien sabido que muchos trabajos de investigacién terminados no llegan a publicarse. Esto es mas frecuente cuando el resultado del ensayo es “negativo", es decir, cuando no se muestran diferencias significativas entre los, grupos comparados o bien cuando es desfavorable a un tratamiento, En estos casos, el investigador susle tener menos interés en preparar un articulo para publicar. Por otra parte, los directores de revistas tienen mas tendencia a rechazar su publicacién, porque Ios resultados “negativos" no suelen ser noticia. También se ha comprobado que los estudios en los que no se hallan diferencias significativas tardan mas tiempo en ser publicados. Por estos motivos, los meta-andlisis que sélo incluyen los trabajos publicados sobre la cuestién objeto de estudio tienden a dar un resultado sesgado. También puede ocurrir que un mismo estudio haya sido pubicado mas de una vez, en formas aparentemente diferentes: la publicacién duplicada también puede introducir un sesgo, que favorece la tendencia de los resuitados de los estudios que han sido objeto de publicacién duplicada demas, se ha comprobado que en una proporcién importante de meta-andlisis se ignoran los trabajos publicados en idiomas distintos del inglés, y se ha visto que la proporcién de estudios, “negativos" es mayor en otras lenguas. Dada su naluraleza, es muy dificil impedir el sesgo de publicacién, 0 por lo menos hacerse una idea de su magritud Etapas de un estudio Meta-Analitico Hay diferentes formas de esquematizar las etapas de un estudio metanalitico; por ejemplo, en las gréficas que siguen se muestra, primero, un croquis de la distribucién de los trabajos de investigacion que se podrian tomar en el estudio (Grafico 2) y, segundo, un diagrama de flujo de las etapas que se siguen en un metanalisis (Grafico 3). conceptos basicos y algo mas 5 Dr. Gustavo Petia Torbay TORTS ee wah (state, | oofos | | | | Grafico 2: Distribucion de los trabajos relacionados con el tema en estudio (Otero, 2004) Grafico 3: Etapas de un metanalisis > Ademas, segun Pértega y Pita (2005, p.110-11), de seguido se detalla cada una de las etapas de un estudio metanalitico Establecimiento de la pregunta que se desea responder y razones para ello: Como en cualquier proceso de investigacién, debe establecerse de forma lo mas clara y concisa posible la pregunta de Investigacion que se intenta responder Cuantieacién de os efectos: Los investigaores deborin concetar qué medidas se van a utizar [Ey are oc fete co iter, on fnon el ipo do respuesta extuoury occa des estan revisados. Asi, por ejemplo, si la respuesta es binaria (como por ejemplo enfermedad/no-enfermedad, Imucrolsupevivenca) le meas de fete wilzaess sulon ser dferencla de propercones, el Toso rela ofa odds alo, Por el contr, sla reapueslaes un parsmeto numero (por ombl, (2 dolerminacn ee un patsmero aalice) sees. suelo medice, modano le dierenaa colancaizada de medias on los gupos deere, Dabo ionerse en cuetia quo en los estidos experimentales, con grupos aleatorizados, el propio disefio controla la confusién y los efectos pueden Imedoe con resltadse eros: com ns deseios Pore contare, en metals realeaos a par de evidencia observacional, el control del sesgo en el andlisis debera hacerse mediante técnicas de regresién multivariante, siendo los resultados de estos modelos los que deben combinarse en la etapa Gal meters praetor med global coiteres Filer. es tambion acoso on cr romento e\paniescn do ln ventgocon ae os eferenele rina on lavarielefspucsia Localizacién de los estudios de investigacién: Se debe realizar una busqueda exhaustiva, objetiva y reproducible de los trabajos originales sobre el tema, que ademas de bases de datos electrénicas incluya busquedas detalladas en las revistas relacionadas y busquedas manuales de la llamada “iteratura gris" (referencias bibliogrficas, tesis doctorales, comunicaciones a congresos, informes de instituciones pablicas o privadas, trabajos no publicados 0 publicados en revistas no indexadas, etc) Metanslisis: concoptos basicos y algo mas Dr. Gustavo Paria Torbay La exhaustividad y el rigor de la busqueda bibliografica determinara en gran medida la calidad y validez final del metandlisis. Criterios de inclusién/exclusion de los estudios: Los investigadores deben establecer cuales de los trabajos recuperados seran incluides finalmente en el metandlisis, elaborando una lista de criterios de inclusidn y exclusion que debera ser lo mas objetiva posible. Para evitar el denominado sesgo de seleccién, es importante aplicar dichos criterios rigurosamente a cada estudio, siendo recomendable que esta evaluacion sea realizada de forma ciega e independiente por varios evaluadores. Entre los criterios de seleccién utlizados con mayor frecuencia en el metandlisis estan: el tipo de disefio de los trabajos, e! tamafio muestral estudiado, la exhaustividad de la informacién que presentan o la comparabilidad en la definicién de los factores de exposicion, de las intervenciones y de las respuestas estudiadas. Aunque algunos autores sugieren utilizar la calidad metodolégica de los trabajos como un criterio de inclusién, es mas aconsejable considerarlo como una variable mas a tener en cuenta en la interpretacién de los resultados del metandlisis mediante un andlisis de sensibilidad, Busqueda de informacién y datos relevantes de cada estudio: En cada uno de los articulos originales que se revisan, se debe buscar informacion de interés referente a las caracteristicas de los estudios (disefo, criterios de inclusién/exclusién 0 de seleccién de casos y controles, periodo de seleccidn, periodo de seguimiento, aleatorizacién, tipo de intervencién, etc.), a las caracteristicas de la poblacion de estudio, a su calidad metodoldgica (incluyendo los métodos de andlisis estadistico utiizados) y a sus resultados, con especial énfasis a la descripcién de las variables del efecto de interés. Como en cualquier otro proyecto de investigacién, es aconsejable elaborar un formulario con los datos que deben consignarse para cada trabajo y que la recogida de datos sea realizada por mas de un investigador, a fin de evaluar la consistencia de los resultados y consensuar posibles discrepancias. Evaluacién de Ia calidad de los estudios incluidos: Junto con la estrategia de busqueda de informacién, la calidad metodolégica de los articulos revisados es otro elemento clave a la hora de determinar la validez del metandlisis. Existen publicadas diversas escalas de valoracién de la calidad de los estudios, que si bien valoran generalmente los mismos aspectos (disefio del estudio, control de sesgos, tamafo muestral, seguimiento, aleatorizacién, enmascaramiento, etc.), pueden llegar a resultados discrepantes. En cualquier caso, una vez valorada la calidad metodolégica de cada trabajo, algunos autores proponen utilizar las puntuaciones asignadas como pesos en el metandlisis, mientras {ue otros defienden la utiizacién en su lugar de un andlisis de sensibilidad Analisis de la heterogeneidad de los estudios: La evaluaciin del grado de heterogeneldad de los estudios puede llevarse a cabo mediante aistintas pruebas estadisticas, entre las que destaca la prueba Q propuesta por Der Simonian y Laird. No obstante, estos tests presentan una potencia muy baja, dado que ademas en la mayoria de los casos los metandlisis incluyen un némero relativamente pequerio de estudios, aumentando asi la posibilidad de cometer un error de Tipo Il, Por todo ello, el analisis de a heterogeneidad suele llevarse 2 cabo mediante métodos graficos como el grafico de L’Abbé 0 el grafico de Galbraith que permiten inspeccionar visualmente la falta de homogeneidad entre los estudios recopilados. En caso de que exista heterogeneidad entre los estudios incluidos en la revisién, los investigadores pueden optar simplemente por no realizar el metanalisis, por obtener una medida agregada del efecto de interés indicando una medida de la variablidad entre estudios 0 bien por realizar un andlisis por subgrupos homogéneos de ser posible identificar la causa de la heterogeneidad Combinacién de resultados: EI método elegido para combinar los resultados de los diferentes estudios en una medida global del efecto vendra determinado fundamentalmente por el tipo de respuesta a estudiar (binaria o continua) y, también, por los resultados derivados de! andlisis de heterogeneidad. En la mayoria de los casos, el estimador del efecto combinado se calcula como una media ponderada de los estimadores de cada estudio, donde los pesos se asignan en base a la precision de cada trabajo, generalmente el inverso de la varianza de la estimacion correspondiente. De esta forma, los estudios con mayor variabilidad (por ejemplo, aquellos con un tamafio muestral mas reducido), tienen una contribucién menor en el estimador global. La heterogeneidad entre estudios puede ser tenida en cuenta en estos célculos utiizando el llamado modelo de efectos aleatorios, 0 no ser incluida mediante el uso del modelo de efectos fijos. La principal diferencia es que Metanélisis: concoptos basicos y algo mas 7 Dr. Gustavo Pena Torbay on este iitimo se considera que no existe heterogeneidad entre estudios, mientras que con el modelo de efectos aleatorios se consideran dos posibles fuentes de variabilidad, la variabilidad intra-estudio y la variabilidad entre-estudios, que se incorporan al estimador combinado a través de los pesos correspondientes. No obstante, debe tenerse en cuenta que cuando existe una gran heterogeneidad entre estudios el metandlisis, aun bajo la suposicién de efectos aleatorios, no es apropiado y lo que Procede es identificar las fuentes de variabilidad y realizar un andlisis por subgrupos. Finalmente, los, resultados obtenidos suelen representarse tipicamente en una gréfica que muestra las estimaciones del efecto individuales de cada estudio, ademas del valor global obtenido al combinar todos los resultados y su correspondiente intervalo de confianza Identificacién del sesgo de publicacién: Como en cualquier otro estudio, en un metandlisis debera valorarse la existencia de posibles sesgos entre los que el sesgo de publicacién es uno de los ms importantes. Entre los métodos disponibles para valorar el sesgo de publicacién el gréfico en embudo © funnel plot es quizé el mas utiizado, en el que se representa el tamafo muestral de cada trabajo frente al tamafio del efecto detectado. Este tipo de gréficos, puesto que pueden dar lugar a interpretaciones poco objetivas, suelen complementarse con técnicas estadisticas como la prueba de Bogg 0 de Egger. Andlisis de sensibilidad: El andlisis de sensibilidad permite estudiar la influencia individual de cada estudio al resultado de! metandlisis y, por lo tanto, determinar si los resultados pueden verse sesgados or estudios con escasa calidad metodolégica, trabajos no publicados o que no cumplan estrictamente los criterios de seleccién, etc. Consistiria en replicar el metandlisis quitando en cada paso uno de los. estudios incluidos, para ver si se obtienen o no resultados similares de forma global. Grafico 4: Esquema de! proceso general deja realizacién de un trabajo metanalitico (Avilés, Morales Morején, y Pacheco s.f.) wean X 7 Medida de los resultados Hasta ahora se han considerado discursivamente algunos de los aspectos relevantes de la técnica metanalitica, pero, como se ha indicado, este es un procedimiento cuantitativo, estadistico; por ello, tal como dicen Botella y Gambara (2002), “una vez preparada la base de datos llega el momento de analizarios y valorarlos, buscando regularidades que permitan extraer las conclusiones pertinentes. Metandlisis: conceptos basicos y algo mas 8 Dr. Gustavo Peta Torbay Algunos autores dirian que ha llegado la hora del meta-analisis propiamente dicho: la aplicaci6n de técnicas estadisticas” (p.113). En fin, no queda de otra, en algtin momento es preciso sefialar el formulario para los calculos que supone el metandlisis. Este objetivo tiene dos dificultades, por una parte, se han ido diferenciando de modo muy amplio las diferentes formas de céilculo, las formulas y las gréficas; y, por la otra, se han especializado, en cierta medida, segin el campo donde se aplican; de hecho, hay dos grandes contextos de aplicacién, como son la ciencias del comportamiento y sociales, ambito en el cual se origind, y las ciencias médicas, donde en los ultimos afios ha alcanzado una gran popularidad, sobre todo como base de la llamada medicina basada en evidencias Ahora bien, en lo conereto, como es posible imaginar, la cantidad y complejidad de las formulas necesarias es ciertamente muy grande y desbordan los alcances de este documento. En su defecto, de seguido se da una direccién electronica en la cual se puede disponer de una aplicacion para la realizacién de los calculos, asi como disponer de los elementos conceptuales basicos. De hecho, de ese material se indica, en idioma original, el listados de los pasos para un metandlisis, indicando donde correspande el tipo de cdloulo que se deberian realizar en el enfoque de Hunter y Schmidt. Meta - Analysis: Methods of Accumulating Results Across Research Domains Larry C. Lyons y Manassas, VA (2003) ( bitzziwww.lyonsmorris com/MetaA/index him Steps Involved in Conducting a Meta-Analysis 1. Define the domain of research + By independent variable + By commonly researched variables. + By causes and consequences of important variables. 2. Establish criteria for including studies in the review * Published vs. unpublished study. + The time period covered in the review. * Operational definitions of the variables. +The quality of a study. + etc. 3. Determine type of effect size to use. + Cohen's d + Pearson's Product Moment or Point Biserial Correlation. 4. Search for relevant studies. + Computer search. + Manual search, * Conference and Technical Symposium Presentations + Letters to researchers in the area to be studied, 5. Select the final set of studies. * Do individually + Do by more than one individual. + Note inter rater reliabilities will need to be reported 6. Extract data on variables of interest, sample sizes, effect sizes, reliability of measurement and other noteworthy characteristics of each study. ‘+ Note when gathering reliability and range departure information, you do not need to restrict the search to the studies used in the meta-analysis. + Use all the data when multiple measures are reported + Use a subset of the data + Average multiple study measures to one outcome measure. 7. Code each study for characteristics that might be related to the effect size reported in the study. + Research design factors + Sample Characteristics + Type of dependent variable. + ele. Metanslisis: conceptos basicos y algo mas 9 Dr. Gustavo Pefia Torbay 8. Conduct Reliability checks on the coding procedures. With a subset of the data, using 1 to 4 other coders. With all the data, using 1 to 4 other coders. 9, When there are multiple measures of independent &/or dependent variables, decide whether to group them a priori or not. Theoretical diversity among variables. Operational measurement diversity among variables. 10, Determine the mean and variance of effect sizes across studies. Mean effect size weighted by sample size. Calculate Chi Square test for homogeneity. Calculate Fail Safe N Between-studies variance in effect size for determining moderator variables. Estimation of arlifactual sources of between studies variance (sampling error, attenuation due to measurement ertor, andlor range restriction) Estimation of true between-studies variance. Estimation of true mean effect size corrected for measurement and sampling error, and range restriction, 11. Decide whether to search for moderator variables, Significance Test (Chi Square test) ‘Amount of between-studies variation that is artifactual Rule of thumb: if the variance accounted for by the error variance is less than 75% of the variance of the ‘sample weighted correlations than there may be a moderator variable otherwise the variation is mainly due to random error (e.g. range restriction, sampling error, or measurement ertor. 12. Select Potential Moderators (if warranted). Theoretical considerations Operational measurement considerations. 13. Determine the mean and variance of effect sizes within moderator subgroups —Procedure similar to Step 10. Como un ejemplo del formulario, tomado de la pagina antes citada, a continuacién se indican los procedimientos para la convertir los estadisticos usuales en contraste de hipdtesis a coeficiente de correlacién (r), el cual es un indicador usual en metandlisis de la magnitud del efecto Co aero Forman ortanstommton oz Noes Canvered ‘Gan wee vit either pale t a or ungalied twat “fare Use ony with one vay F fan ANOVAS, a= Main Effect of laerest fe af for A. Two-Way Fb = Second Main Effect anova ore \ (ame Te RPE TTY aio =as for B Fb = Invractoneffects feb = Interaction af af (e) = enorat n= sample size ie Use only when af = 1 a 4=Cohen's 4; a 1. Jee oe 1N scombined sample sizes. 1) Convert he 2 tiled p value int a one tailed Can use for either exact p > pide. 2) values or vhen the autor 2) Look up the associated Z ina normal sports an approximate p Probability tbl (ez.,9< 05), Metanslisis: conceptos basicos y algo mas 40 Dr. Gustavo Pera Torbay Por supuesto, ademas de esta propuesta hay una gran variedad de paginas Web en las cuales se puede encontrar mucha informacién sobre los procedimientos de estimacién, tanto en términos de os formulas como de aplicaciones computacionales para el célculo; un buen ejemplo de estas ‘aginas es la Betty C. Web Site, cuya referencia electronica es: http://www, bettyciung netfindex. htm, Iguaimente, algunos programas especificos, asi como la direccién para su localizacién, se indican en la siguiente lista: Freely available software packages This information was provided by Alex Sutton. Further details can be found at hitaulwebserver.prw.le ac-uk/epidemio/personalais22/metal EasyMA (DOS) Restricted to binary outcomes only. Possesses a wide range of plots and analyses with some customization possible. Allows possibility of entering multiple endpoints. Easy to use menu driven interface, however printing limited to PostScript. Potential users may find problems running this program on newer ‘computers. This package is described in: Cucherat M, Boissel JP, Leizorovicz A, Haugh MC. EasyMA: a program for the meta-analysis of clinical trials. Comput Methods Programs Biomed 1997;53:187-90, Epi Meta DOS based package, Available to download from hitpnww cde. gov/eso/dpram/apimeta/epimeta,ntm Meta ‘Simple DOS program for conducting basic meta-analysis procedures written by Ralf Schwarzer. Available to download from httpsi/www.fu-berlin.de/gesundigesu_eng/meta_@ him Meta-Analyst DOS package to carry out basic meta-analysis procedures. Available on request from: Dr J Lau, New England Medical Center, Box 63, 750 Washington St, Boston, MA 02111, USA. email ‘psegh lau@es.neme.org Meta-Test This unique program, also written by Dr J Lau, carries out meta-analysis of diagnostic test data, Available for download at httpilfhiru memaster.ca/cochrane/cochrane/sadt, htm A modo de cierre EI metandlisis tiene mas de 30 afios, nacié oficialmente en 1976 en el contexto de la metodologia en psicologia y, con el paso del tiempo, ha impactado de modo tal el procesamiento secundario de datos que el tradicional aforismo, Jos buenos datos siempre son separables, con respecto a sus importancia cientifica, de los propésitos para los cuales se los recolecté (Sidman, 1960), se puede [Dez atresear hoy dia como sigue, fas buenas bases de datos siempre son separables, con respecto 4 Isu importancia cientifica, de los propositos por los cuales fueron ensambladas originalmente. Es decir, con el advenimiento del metandlisis, las buenas bases de datos, como los diamantes, son para siempre, en tanto que adecuados procedimientos permiten seguir empleandolos hasta que el tiempo los desborde. demas, con el surgimiento de nuevos procedimientos para extraer conocimiento util y comprensible, Previamente desconocido, desde grandes cantidades de datos almacenados en distintos formatos. ‘como es el caso de la mineria de datos, se potencia de modo muy sensible la capacidad del metandlisis para colaborar en el logro del progreso y desarrollo ordenado de las ciencias, ya que Metanilisis: conceptos basicos y algo mas 1" Dr. Gustavo Pefia Torbay facilita la consecucién de la inagotable tarea de mostrar el efecto practico de los tratamientos, por pequefios que ellos sean, y de acumular el conocimiento de modo adecuado, Por ultimo, habiendo revisado los conceptos basicos del metanidlisis, luego de la bibliografia, se incluye algo mas: ‘A. Glosario de Metanalisis (Delgado, 2002), que incluye muchos de los de términos técnicos basicos empleados en los estudios de tipo metanalitico; B. una copia del articulo clasico de Robert Rosenthal (1991), en el cual se detallan y ejemplifican los procedimientos y férmulas empleados por el autor; y C un articulo de corte metanalitico, El problema de las adiccién al tabaco: meta-analisis de las intervenciones conductuales en Espaiia (Sanchez, Olivares y Alcazar, 1998), como ejemplo de los productos finales de este tipo de investigacién. Bibliografia ‘Alfonzo, |, (2008) El texto informativo. Suma Libros: Caracas. Avilés, R.. Morales-Morején, M. y Pacheco, Y. (s.f) Meta-Andlisis: herramionta metodolégica para la evidencia informacional. Recuperado el 15/05/08, en ttov/wow.biblociencias cu/gsdlicollecveventos/inder/assocHASHBacb dir/doc.pdf Botella, J. y Gambara, H. (2002) Qué es ef meta-anéliss. Biblioteca Nueva: Madrid Conejero, J. (2001) Meta-andlisis. Rehabilltacion: Revista de la Sociedad Espanola de Rehabiltacion y Medicina Fisica, 36, 4, 373-382 Delgado, M. (2002) Glosario de Metanalisis, Panace@, 3, 8, 19-22. Glass, G. (1976) Primary, secondary and meta-analysis of research. Educational Researcher, 5, 3-8. Glass, G., McGaw, B. y Smith, M. (1981) Meta-analysis in social research. Sage: Beverly Hills. Guayar, E. (2008) E/ meta-andiisis, piedra angular de la Medicina Basada en la Evidencia. En hitei//atencionprimaria wordpress, com/2007/10/20/el-meta-analisis-piedra-angular-de-la-medicina-basada- en-la-evidencial Manterota, A. y Demirdjian, G. (1999) Medicina Basada en Evidencias y Meta-Andlisis. En hito//www sap org.ar/staticfiles/organizacion/subcomisiones/epimbe y me.pdf Metandlisis(s.f) (S.a) p.1-42. Recuperado el 15/05/08 hitos//dxsp sergas es/ApliEdalos/E pidat/Ayudel11-Ay Pértega, S. y Pita, S. (2005) Revisiones sistematicas y Meta-analisis. Cad Aten Primaria 12(2), 109-112 %20Meta-an%E tlisis.pat Sanchez, J. y Ato, M. (1989) Meta-Andlisis: una alternativa metodolégica a las revisiones tradicionales de la Investigacion. En J. Amau y H. Carpintero (Edt) Historia, teoria y método. Alhambra: Madrid Sanchez, J., Olivares, J. y Alcazar, A. (1998) El problema de las adiccién al tabaco: meta-analisis de las intervenciones conductuales en Espana. Psicothema, 10, 3, 535-549. Otero, P (2004) Desmitiicando los meta-anélisis y niveles de evidencia Biblioteca Cochrane y Guias de practica clinica. En hitp flvawv.colmedsa,com ar/descargas/imedica2007/mota 2 Rosenthal, R. (1991) Meta-Analysis: A Review. Psychosomatic Medicine, 53, 247-271 Metandlisis: conceptos basicos y algo mas Dr. Gustavo Pea Torbay Glosario de Metanilisis (Deigado, 2002) El presente glosario es una actualizacion en castellano de un glosario previamente publicado en inglés (Delgado, M. 2001 Glossary on meta- analysis. J Epidemiol Commun Health, 55, 534- 536), Entre paréntesis se indica la equivalencia de los términos en este idioma anilisis de sensibilidad (sensitivity analysis): ‘existen diferentes tipos. En la valoracion de la heterogeneidad, el analisis de sensibilidad trata de la inclusiGniexclusin de estudios especificos. En el uso de técnicas estadisticas de combinacién, consiste en la repeticion del analisis, de combinacién mediante varios métodos, para valorar si se alcanzan los mismos resultados y si éstos se alteran por la calidad de los estudios individuales y el sesgo de publicacién. calidad de un estudio (study quality): valoracién global de un estudio segiin un protocole prabado y validado. Dado que las diferentes escalas de calidad dan resultados divergentes, deben interpretarse con precaucién los andlisis basados en una puntuacién global de la calidad. Resulta mas facil en los ensayos clinicos que en los estudios de observacién, Los evaluadores deberian utilizar procedimientos que los mantuvieran enmascarados con respecto ala informacién que puede influir en la evaluacién. Colaboracién Cochrane (Cochrane Collaboration): organizacion internacional llamada asi en honor a Archibald Cochrane y cuyo objetivo es ayudar a los profesionales a ‘adoptar decisiones bien informadas sobre la asistencia sanitaria por medio de la preparacion, diseminacién y actualizacién continua de revisiones sistematicas de ensayos clinicos sobre los efectos de las intervenciones sanitarias. Estas revisiones se publican en la Cochrane Database of Systematic Reviews, disponible en CDROM. Se pueden encontrar mas detalles en la sigulente direccién de Internet nw. cochrane. org, combinacién (pooling): estimacion de una magnitud de efecto resumen (o combinada) tras la agregacion de las magnitudes de efecto de los estudios individuales estadistico Q (Q statistic): prueba de la ji al cuadrado para valorar la heterogeneidad de los estudios incluidos en un metanalisis, en la que la magnitud del efecto de cada estudio 12 individual se compara con el estimador combinado. Por su validez, potencia estadistica y facilidad de calculo, esta prueba de heterogeneidad es ia mejor eleccién, Glass, Gene V..: psicélogo de la educacién que acuné el término «meta-analysis» (metandlisis en castellano) en 1976. gréficos en drbol de navidad (Christmas tree plots): grafico que se utiliza para detectar el sesgo de publicacién, en el que en el eje de ordenadas se representa el tamafio del estudio (0 el error estnder del parametro que se pondera en sentido decreciente) y en el de abscisas el parametro que mide la magnitud del efecto. Se traza un eje vertical que pasa por el valor ponderado global. La asimetria con relacién al eje (sobre todo en la parte baja del arbol) indica sesgo de publicacién aréficos en embudo (funnel plots): conjunto de métodos gréficos para representar a existencia de un posible sesgo de publicacién. Muestra la relacion entre la magnitud del ‘efecto (eje de ordenadas) y el tamafo del estudio (@je de abscisas), que se puede medi de distintas maneras (error esténdar de ta magnitud del efecto, su inverso, el tamaiio de la muestra o el numero de efectos observados). Se dibuja una linea horizontal que pasa por el valor ponderado global. Sino hay sesgo de publicacion aparece la forma de un embudo tipico (simetria con relacién a la linea dibujada) heterogeneidad (heterogeneity): significa que hay variabilidad estadistica entre los estudios que se combinan, Puede proceder de muchas fuentes (mas numerosas en los estudios de observacién que en los diserios experimentales): caracteristicas de la poblacion del estudio (por ejemplo, el riesgo subyacente del efecto 0 subgrupos diferentes de alto 0 bajo riesgo), variaciones en el disefio del estudio (tipo de disefio, métodos de seleccién, fuentes de informacién, manera de reunir la informacion), diferentes métodos estadisticos y distintos esquemas de ajuste de los factores de confusion. Dado que las pruebas estadisticas de heterogeneidad tienen poca potencia estadistica, se recomienda utilizar como punto de corte una p < 0,1 (no 0,08). Si hay heterogeneidad, el ‘estimador ponderado no tiene sentido, ya que ello significa que hay mas de una magnitud de efecto verdadera en los estudios que se combinan homogeneidad (homogeneity): lo opuesto 2 heterogeneidad, Metandlisis: conceptos basicos y algo mas Dr. Gustavo Pefia Torbay inverso de la varianza (inverse of variance): el tipo mas comin de ponderacion utiizado para ‘combinar diferentes estudios individuales en un estimador ponderado. Se puede aplicar a muchas medidas de magnitud del efecto. magnitud del efecto (effect size): estimador estandarizado no escalar de la relacién entre una exposicién y un efecto. En sentido general, este término se aplica a cualquier medida de la diferencia en el resultado entre los grupos de estudio; de tal manera que el riesgo relativo (relative risk), la razon de odds (odds ratio) y a diferencia de riesgos (risk difference) son «magnitudes de efecto». Cuando la magnitud del efecto se aplica @ mediciones de variables continuas (como la media), su estimador comin mas usado es la diferencia media estandarizada, que se calcula como la diferencia de medias dividida por la desviacion estandar. Esto es sobre todo util cuando no hay una medida comin a todos los estudios. metandlisis (meta-analysis, overview): e! prefijo meta significa «después de». Se puede definir como la sistematica identificacion, valoracion, sintesis y, si es pertinente, la agregacion estadistica de todos los estudios sobre el mismo tema, siguiendo un método explicito y Predeterminado. metandlisis acumulado (cumulative ‘metaanalysis); tipo de metandlisis en el que los estudios se combinan secuencialmente mediante la adicién cada vez de un estudio nuevo segun una variable ordinal. Por ejemplo, sila variable ordinal es el afio de publicacién, los estudios se ordenaran por ella, ya continuacién se realizara un analisis, ‘combinado cada vez que aparezca un estudio. ‘Muestra la evolucion del estimador ponderado segin Ia variable ordinal. Otras variables frecuentemente usadas en e! metandlisis acumuulado son la calidad del estudio, la frecuencia del efecto en el grupo de referencia, el tamafo de la diferencia entre los grupos y otras variables (por ejemplo, cl tiempo medio transcurrido hasta e! tratamiento). Mide la contribucién de un nuevo estudio a lo ya existente y también se puede utilizar como procedimiento para explicar la heterogeneidad. metanélisis cualitativo (qualitative ‘metaanalysis): parte del metandlisis que se refiere a la valoracion de los métodos utilizados en cada estudio individual. En la actualidad se considera practicamente sindnimo 13 del concepto de revision sistematica, metarregresién (meta-regression): coleccién de metodos estadisticos (regresién lineal ponderada (© no, regresién logistica) para valorar la heterogeneidad, en los que la magnitud del efecto se enfrenta a una o mas covariables. Es un procedimiento que se Puede utilizar cuando el numero de estudios no es muy abundante (< 20). método de DerSimonian-Laird (DerSimonian- Laird's method): fue descrito por vez primera por Cochrane en 1954. Fue el primer modelo de efectos aleatorios y se aplicd a lun modelo aditivo (diferencia de riesgos), onderado por el inverso de la varianza método de Egger (Egger's method): procedimiento para detectar un sesgo de publicacién. Consiste en una regresién lineal simple de la magnitud del efecto dividida Por su error estandar sobre el inverso del error estandar, en la que se prueba si a ordenada en el origen es estadisticamente significativa con p < 0,1 método de Macaskill, Walter e Irwig (Macaskil et al's mothod): es mejor que el método de Egger para detectar un sesgo de publicaci. Se realiza una regresion lineal simple entre la magnitud del efecto y el tamafio del estudio (el clasico funnel plot). Se recomienda onderar la regresién por el inverso de la varianza de! efecto global observado en cada estudio individual, Se investiga sila pendiente de la recta de regresin es distinta de coro 0 no. En el caso de estudios experimentales o de cohortes, ol efecto es la enfermedad (curacion, etc); en estos casos se suman jos efectos observados fen los grupos que se comparan y el resultado se divide por el tamaao total del estudio (incidencia acumulada o tasa total) método de Mantel-Haenszel (Mantel-Haenszel’s method): método estadistico de combinacién de riesgos relativos y razén de odds de estudios individuales, que se describid para combinar estratos de un mismo estudio. Hay que conocer la distribucion cruda de los datos, por lo que suele ser apropiado ara los estudios experimentales aleatorizados, pero si los autores de los estudios originales proporcionan la informacién necesaria, puede aplicarse a cualquier tipo de estudio. método de Peto (Poto's method): método estadistico ara combinar estudios individuales, derivado del metodo de Mantel-Haenszel, en el que los efectos observados en el grupo indice se comparan con los conceptos basicos y algo mas Dr. Gustavo Pefia Torbay esperados, ponderando por la varianza. Deberia usarse s6lo cuando el tamafio de muestra de las ramas de un estudio es similar y cuando la magnitud de efecto es préxima al valor nulo; en otras situaciones da un resultado sesgado (que es lo mas habitual) modelo de efectos aleatorios (random effects ‘model): método de combinacién de magnitudes de efecto individuales en el que la heterogeneidad Se incorpora al estimador resumen mediante la inclusion de un componente de la variabilidad entre los estudios. Supone que la muestra de estudios incluidos en el andlisis se extrae de una poblacion de estudios. Este modelo no supone homogeneidad en las magnitudes de efecto de los estudios que se combinan; esto es, cada muestra de estudio tiene una verdadera magnitud de efecto. No hay acuerdo sobre si este modelo es mas apropiado que el de efectos fijos para combinar estudios. Se recomienda cuando el numero de estudios es pequerio, siempre y cuando no haya sesgo de publicacién, ya que es un método que da mas importancia a los estudios pequerios. modelo de efectos fijos (fixed effects mode): cualquier modelo estadistico en el que se asumehomogeneidad del efecto en los diferentes. estudios que se combinan, esto es, cn el que la verdadera magnitud del efecto tiene un valor comin y real para todos los estudios. En el estimador ponderado s6lo se considera la varianza de cada estudio individual peso (weighting): la influencia dada a cada estudio individual en el andlisis combinado. Hay diferentes tipos de ponderaciones: inverso de la varianza, por la distribucién de los datos (Mantel- Haenszel), por la vatianza de los casos ‘esperados en la referencia (Peto), etcétera. problema de la extraccién de archivos (file drawer problem): término acufiado por Rosenthal para referirse al nimero de estudios con resultados no significativos estadisticamente (p> 0,05) que no se han publicado. revision sistematica (systematic reviow) sintesis de los resultados de varios estudios primarios mediante técnicas que limitan los se8gos y el error aleatorio. Estas técnicas incluyen la busqueda de todos los estudios potenciaimente relevanies y el uso de criterios explicitos y fiables en la seleccién de las investigaciones. La revisién sistematica 14 cualitativa resume las investigaciones primarias u originales sin combinacién estadistica (metandlisis cualitativo). La revision sistematica cuantitativa es sinénimo de metanalisis. sesgo de buisqueda (bias, search): err sistematico introducido cuando la busqueda se centra en una sola base de datos (normalmente Medline). Las revistas escritas en inglés estan mas representadas en Medline; ademas, las revistas de un pals (y de paises vecinos o de similar idioma o cultura) donde se confecciona la base de datos también estan proporcionalmente mas representadas. Es recomendable consultar mas e una base de datos, junto con una bisqueda manual de las referencias localizadas, encada estudio, sesgo de idioma (bias, languago): error sistematico introducido cuando la busqueda de estudios potenciales de un metandlisis se centra en un solo idioma, en general el inglés, Es posible que los resultados significativos alcanzados en paises de habla no inglesa se publiquen més frecuentemente en inglés que en su idioma nativo, por la mayor difusién alcanzada. sesgo de publicacién (bias, publication): sesgo introducido cuando los estudios publicados no representan adecuadamente todos los estudios realizados sobre un tema especifco. Puede deberse a muchos hechos, ‘aunque el mejor conocido es la tendencia a publicar resultados estadisticamente signifcativos (p< 0,05) 0 clinicamente relevantes (magritud det efecto alta, aunque no significativa). Otras variables que influyen en el sesgo de publicacion son el tamario de muestra (mayor sesgo en estudios pequefios), tipo de diseno (menor en los ensayos lnicos aleatorizados), financiacién, conflicto de intereses, prejulcio frente a una asociacién y e! patrocinio. 162014 Sociedad de Gstioentrlogi del Pei Introducci6n al meta-andlisis tradicional Introduction to traditional meta-analysis Rafael Bolafios Diaz 1, Maria Calderén Cahua * ide ay Gneracin de vies Sai Pb UMAGES sto Kcr Sl in, en "Gyan Media pr ol esa dea al (0008 PES). Lia Pv *UnersiddPrn Cayeo Here (UP ina Pe. M0 Se RESUMEN ‘Actualmente existe un crecimiento sostenido de la ioformacién cientiica en medicina que imposbilta que se tenga ‘conocimiento de Ia totaidad de los articulos publicados, Los meta-andlisis son estudios que tienen la finalidad de compl toda la informacién disponible, agrupandola Segin un tema expectico y evaludndola a través de herramientas de eaidad metodolpca, El objetivo principal consiste en estimar un tamaro de efecto resumen después de combinar los resultados individuaies de cada estudio seleccionado bajo un andl estaistico suicientemente vaido. Flsiguientewrticulotiene por inlidad describ ls canceptos biskcasyfundamentales del meta-andlss tradicional, tomsindose ‘esta nformaciéa como insumo paralaspréximas reviiones sobre "métodosavanzados en meta-andlisis" que se estan utiizando 8 partir de éste, tal como el metarandlissindiectoo el metaandlisis network (meta-andlsis en red) Palabras clave: Metals; Acceso ala informacin; Proteinas publicaciones cents y técicas vente: DeCS BIREMB, ABSTRACT Currently thee isa stealy growth of scientific information in medicine which unable complete knowledge ofall the articles published. Meta-analysis te studies that aim to compile all available information, grouping them according to a specific Dutcome, and evaluating it through methodological qualty tools. lis main objective fo eximate a summary effect size ater ‘combining the individual results ofeach tudy selected under a suficintly valid statistical analy, ‘The following article i to describe the basic and fundamental concepts of tadtional meta-analysis, taking this formation as input for future reviews of “advanced methods in meta-analysis", such a indirect meta-analysis or network anays Key words: Metz analysis; Aces to information; Scenic and technical publications (source: MeSH NLM. INTRODUCCION En 1992 el grupo “Evidence-Based Medicine Working Group" introdujo el concepto de Medicina Basada en Evidencia (MBE) por primera vez ". A partir de ese momento, la practica médica ha suftido cambios 50%) Inoue a mets-andisis raion! Vorazarteesudos ata > Vareca onre-esuos baa Varian oats Boao etal Varnzanvoresuisos tala > Votancaeneesis ata Variarza total alta Vatanza ina-etaos bja > Vatenza enreesisos 2a Vavana total alla Vater i-esaos bia > Vasancaenteextucos baa Varanza ttl baja Figura 12. Dispersin de tamafos de efecto vaianzasinta-y entre-estudis. Para controlar la heterogeneidad primero se debe hacer una revisién de los datos y determinar si el MA se realiz6 de la forma correcta “”"*, Después se debe ‘evaluar la causa de esta heterogeneidad realizando un andlisis de subgrupos o una meta regresién (MR) entre otras "®. La MR es una extension del MA tradicional ‘que investiga basicamente la extensién en la cual la heterogeneidad estadistica entre los estudio podria estar relacionada a una o més caracteristicas del estudio , Aigunos autores consideran que el MA de estudios de intervencién deberta inclur solamente ensayos clinicos aleatorizados y controlados, ya que este tipo de estudios consttuye un disefio més valido para la inferencia ‘causal en comparacién con el disefo observacional. Sin ‘embargo, la revsiGn de los principales elementos que sustentan este concepto (que la aleatorizacion despeja la posbiidad de confusion y que el doble-cegamiento rminimiza el sesgo causado por el efecto placebo} sugiere que ambos tipos de diseiio tienen fortalezas y debilidades y que la inclusién de informacién a partir de estudio observacionales puede mejorar la inferencia, basada solamente en ensayos clinicos aleatorizados. Mas adn, una revisiin de estudios emplricos sugiere que el MA basado en estudios observacionales produce tna estimacién de efecto similar a aquella proveniente del MA de ensayos clinicos aleatorizados. Las ventajas. ov Gaon Pes, 29183248) 45.51 de inluir tanto estudios observacionales como estudios aleatorizados en un metaandlisis pueden superat a las desventajas en muchos casos, de manera que, los estudios obsenacionales no deben descartase a prit 5, Asi, la. combinacién de los resultados de ensayos dliicos (disefos experimentales) con los de estudios prospectvos de cohortts)(disefios observacionaes) 6 un artiicio al cual se recurte siempre que exsta compatbildad en los objetvos de estudio y siempre que cada disefo tenga’ la calidad. sufciente para ingresarlo al andliiscombinado. Esta tendencia epidemioligica actual es muy importante resakarla, ya que la combinacién de ambos diseftos permite ganar informacion clave al respecto de os objetivas de ‘studio. CONCLUSIONES Este articulo nos permite tener una mayor ‘comprensién sobre los fundamentos basicos del MA, Hay que tener en cuenta que esta revisién ha sido realizada de una manera amigable a través de grficos tratando de tomar las principales definiciones que son pilares para la comprensin global de lo que es un MA, pero detras de la metodologia existe una amalgama de ‘métodos matematicos que no consideramos importantes, para esta revisién. De esta forma entendemos cémo lun MA se inica luego de formular correctamente una Towed a met nis adios para esta revisiGn. De esta forma entendemos cémo lun MA se inicia luego de formular correctamente una pregunta de investigacin, definir las variables, revisar sistematicamente la literatura, y finalmente concluir fen un resultado combinado través de un andlisis ‘estadistico, teniendo en cuenta la evaluacion de sesgo de publicacion y heterogeneidad, BIBLIOGRAFIA 1. Evidence-Based Medicine Working Group. fxidence-based medicine A-new agysoach to teaching the acice of medicine, JAMA, 1992:26011 724205. 2. Sackett DL Rosenberg WM, Gray IA, Haynes RB, Richardson ‘WS. Evidence based mexicine: what iis ad what it Ene 1996, BM) 199631217023). 712. 3. Bletiner M, Sauebre Wi. [Metaanalssis of eidemiologc Suds Med Kn Onin, 388971423. trie 4, Sods HS, Beier, Reitman O, Ancona-Betk VA, Chalmers TC: Meta-analss of randomized controlled ia, N Engl Mea. 1987316184505 5. Crowther M, Lim W, Crowther MA. Systematic eyiew and ‘melaanalyésmethodolo. Blood, 201611617) 31406. 6 Leandro Maa-anchalsin Medical Research Thehandboa forthe understanding and pace of met-anlys. Oxon ‘Blackwell Publishing, 2008, 7. Boren M. Hedges LY, Higgins JPT, Rothstein HR ‘roduc to Meta Anais Unted Kingdom: Wey, 2009. {8 Bown Suton. yal -conol ins emai cevew and smeta-analss Furl Vase Endovasc Sug 2010405): 669-7 9. Giyatt GH, Onman AD, Kunz Ry Vist GE, Faldter ¥ Shunemann Het. Whatis "ais ot evidence” and wh 'stimgorantio cincans? BML 2008,336(76511995-8 10, Bwan K, Cambie C, Willamson PR, Kirkham Ir Reporting jew ofthe emrital evidence of one rept bas = anc revicn: Pos One. 2015807 6084 Boats Reta 17 Kicinshi M, Publication bias in recent owta-analses. MoS ‘One. 2013;8(11:<81823. 12, DickersinK,The existence of jablication bis and rk factors for ts occurence, JAMA, 1990;263(10 138539. 13. Dwan K, Akman DG, maz A, Bloom J, Chan AW, Cronin eal. Spiematc review ofthe ems iia evidence of suey ableton bias and_ovtcome reverting bas. PloS One. 20083823081 14. Eager M, Smith GD, Schneider M, Minder C. Bis metaanahss detected by a simgle’ sayhical tet. 8M 1997 3157 109):620-34 15. van Briel ML, De Sutter A, De Maesencer J, ChristiaensT ‘Searching for unjablished tal a Sepia mei aa Coch ee Epidemiol. 2008;62(0036- fees. 16, tere IA, Eager M, Funnel slots for detectin: bas in meta tai dice ora | Gin fom 200T 540) 10465, 17. Hedges ty Olin Statstker M,Olkin |, kin Statistica ‘methods for meta-analysis. New York: Academic Press 159s. 16. Bieter M, Sauerbrel W, Schlehofer 8, Scheuchenpflug 1, Tredemeich C.Tadtional reviews -nictaanahset and pooled analses i jogs, ie) Epidemiol ‘To99:2600-1-9, 19, Cooper H, Hexiges 1 Valentine JC. Handbook of research synthesis and. eteanalss New York Russell Sage Foundation 2008, 20, Higgins IR Green 8, Colabortion C. Cochrane handbook forspstematic eviews ofinerventons: Wiley Online rary, 2008, 2. Svier 1, Boivin J Steele J, Patt RW, Furlan A, Kakuma Ret al. Should’ metanalses of interventions inciale cbsenational sudies in addition to randomized contraled (Tab? A erical examination of undelgng cng. Am | Epidemiol 2007; 166110) 1203-9 Correspondencia: Fatal Bolo iar ‘Emallcom: rbolanosisins ob 2 rbolanosd woddsyer.com Fev Gasol era, 214341)4551 51 ‘ia Abert 2010, Vol 98, i. 2, x. 52-84 ‘39n: 0010-273 {cE Unvarscne e Ovedo istematica Cémo realizar una revisi6n s un meta-anilisis* Julio Sénchez-Meca Universidad de Murcia Las revisiones sistematcas y,en especial, los meta-andisis son un tipo de investigacin cient fica que tiene como propésitointegrar de forma objetivay sistemstica los resultados de los es- tudios empiricas sabre un determinado problema de investigacién, con objeto de determinar ef “estado de arte" en ese campo de estudio. Para aleanzar este objetivo, la reaizacién de un me- ta-andlisisrequiere desarollar una serie de ctapas similares a las de cuslquierinvestignciGn em- pirica: (1) formulacign del problema, (2) definicién de los eriterios de inclusiOn y bisqueda de Tas estudios, (3) codificacidn de las caractertstieas de los estadios que puedan moderarlosresul- tados; (4 edlcul del tamafo del efecto; (5) técnicas de anliss estadistico einterpretacién y (6) publicacién del meta-andlisis. Dada la relevancia que esté adquriendo esta metodologf, el pro- pésito de este articulo es acerer las revisiones sstemsticas y los meta-andlisis a los profesiona- les de cualquier discplina empirica. Con este propésito, en este articulo se describen las fases en que se lleva cabo un meta-andlisis y seilutran con un ejemplo real del dmbito de las cien- cas de la educacisn, Palabras clave: revisign sistemstice, meta-andliss, sintesis de la investigacin, tamafo del efec- to, calidad de Ia investigacion How to carry out a systematic review and a meta-analysis. Systematic reviews and, in partct- lar, meta-analyses are a kind of scientific research aimed to objectively and systematically inte- ste the results ofa sot of empirical studies about a given research problem, with the purpose ‘of determining the ‘state ofthe ar’ in that research field. To accomplish that objective, carying ‘out a meta-analysis requires to develop a series of phases very similar to those of any empirical research: (1) formulating the problem, (2) defining the inclusion erteri and searching forthe studies; 3) coding the study characteristics that can moderate the results (4) calculating an ef: {ect size index, (5) defining the statistical analysis techniques and interpreting their results, and (© publishing the meta-analysis. Due to the relevance that this methodology is reaching, the pur- ‘pose ofthis article was to approximate systematic reviews and meta-analyses to professionals in every empirical discipline. With this vein, in this ancl the phases of a meta-analysis are des- cribed and they are also ilustrated witha real example from the education sciences. Keywords: systematic review, meta-analysis, research synthesis, effect size, research quality. Introduccién t6pico en el ambito de las ciencias sociales y de Ia salud era un proceso que descansaba Hasta hace relativamente poco tiempo, _en la subjetividad del revisor y en el que no Inrevisi6n dela literatura cientifica sobre un _existfan unas. normas que garantizaran su —<$$<— objetividad. Esta prictica llev6 a la conclu- Focta deep: 332010+Fecteaapacie: 1442010 iG de que en las ciencias sociales y de la (Conrponteei hai Sint Mes Dayana de Pilot iss y Metoslga Ue ar * ha Boatnce a ac tase ys oa PE (Canes Exar 2010 Maca DER open PIR, Eat omecr umes 54 salud el conocimiento cientifico se acumula- ba muy pobremente, resultando dificil al canzar conclusiones solidas sobre las evi dencias cientficas obtenidas en las investi- gaciones (Rosenthal, 1991). Las dificultades, de las revisiones subjetivas se acrecentaron conforme se produjo un incremento expo- nencial del volumen de estudios empiricos que se publican sobre cualquier émbito, Es- ta explosiGn de ta literatura cientifica que se produjo a partir de la década de 1970 hizo précticamente imposible la tarea de revisar Ta literatura cientifica sobre un t6pico sino ayuda de estrategias objetivas y Como una altemativa a tas revisiones subjetivas, también denominadas narrativas, surgié el meta-andlisis, y las revisiones sis- teméticas, como una metodologia objetiva y rigurosa para llevar a cabo el proceso de re- visiGn de Ia investigacién en un campo con- creto de conocimiento y lograr de esta forma una eficiente acumnulacién de las evidencias (Hunt, 1997), Esta revolucién en el proceso de revisin de Ia literatura tuvo lugar a prin- Cipios de la década de 1980, con los traba- {Jos, entre otros, de Gene V. Glass sobre la eficacia de la psicoterapia (Smith y Glass, 1977) y sobre el efecto del tamafio de los ‘grupos sobre el rendimiento de los alumnos (Smith y Glass, 1983), as{ como los de John E, Hunter y Frank L. Schmidt sobre la vali- dex de 108 tests de seleccién de personal (Schmidt y Hunter, 1977), los de Janet S. Hyde sobre las diferencias sexuales en di- vversas habilidades cognitivas (Hyde y Linn, 1986), los de Robert Rosenthal sobre los efectos de las expectativas del experimenta- or sobre los resultados de las investigacio- nes (Rosenthal y Rubin, 1978), o los de Ste- phen W. Raudenbush sobre los efectos de las expectativas del maestro sobre el rendimien- to escolar esperado de sus alumnos (Rau- enbush, 1984), Una revisidn sistemdtica es un tipo de in- vestigacin cientifica mediante Ia cual se re- visa la literatura cientfica sobre un t6pico partiendo de una pregunta formulada de for- ‘ma clara y objetiva,utilizando métodos sis- temiticos y explicitos para locatizar, selec- ccionar y valorar eriticamente las investiga- cones relevantes a dicha pregunta y aplican- do protocolos sistematicos para la recogida de datos ¢ informacién de dichas investiga- cones, con ef objetivo de alcanzar conclu- siones validas y objetivas sobre que es lo que dicen las evidencias sobre dicho t6pico. En palabras de Last (2001, pp. 176-177), una re- visiGn sistemtica “es 1a aplicacién de estra- tegias que limitan la comisiGn de sesgos al integrar, analizarcriticamente y sintetizarto- dos los estudios relevantes sobre un tépico. 1 meta-anélisis puede, aunque no necesaris- ‘mente, formar parte de este proceso” ‘Si en una revisi6n sistematica se obtiene tun fndice cuantitativo de la magnitud det efecto que cada estudio esté investigando y se aplican técnicas de andlisis estadfstico pa- ra integrar dichos efectos, entonces la revi- sin sistemitica se denomina meta-anélisis. Asi pues, podemos definir el meta-andlisis como “el andlisis estadistico de una gran co- Jeccién de resultados de trabajos individus- les con el propésito de integrar los hallazgos obtenidos” Giass, 1976, p. 3), 0 también co- ‘mo “la sintesisestadistica de los datos de es- tudios diferentes pero similares, es deci, es- tudios comparables, que proporciona un re- sumen numérico de tos resultados globales” (Chalmers, Hedges y Cooper, 2002, p. 17). En lo que sigue, se presenta una descrip- ci6n de cudles son las fases en que se lleva a cabo un meta-anélisis 0 una revisiGn siste- rmatica, Para profundizar en esta metodolo- ‘gia existen actualmente numerosos textos a los que remitimos al lector interesado en profundizar més alld de los contenidos de este articulo (Borenstein, Hedges, Higgins y Rothstein, 2009; Botella y Gambara, 2002; Cooper, 2010; Cooper, Hedges y Valentine, 2009; Hedges y Olkin, 1985; Higgins y Gre- en, 2008; Lipsey y Wilson, 2001; Martin, ‘Tobias y Seoane, 2006; Torgerson, 2003). Fases de un meta-andlisis La realizaci6n de un meta-anilisis 0 de una revisiGn sistemética pasa necesariamen- te por las mismas fases que las que se re- uieren para llevar a cabo un estudio empf- cio Reon rico. No obstante, dado que la unidad de andlisis en un meta-andlisis es el estudio empitico, mientras que en los estudias em- Dlricos 1a unidad de andlisis suelen ser los participantes seleccionados a partir de una o varias poblaciones, las fases de un meta- andlisis presentan ciertas peculiaridades que es preciso clarificar. En términos generales, podemos plantear la realizacién de un meta- anilisis siguiendo estas seis etapas: Formulacién del problema Buisqueda de los estudios Codificacién de los estudios Célculo del tamaio del efecto Anilisisestadistco e interpretacion Publicacién del meta-andlisis Formulacién del problema ‘Como en cualquier investigacién empi- rica Ia primera fase consiste en plantear el problema que se pretende investigar. Un meta-andlisis no es distinto de los demés ti pos de investigacién a este respecto. En pri- ‘mer lugar, debe formularse de forma clara la pregunta que se pretende responder, asf co- ‘mo definir los constructos y conceptos im- plicados en la misma. De la formulacién de la pregunta surgen a continuacién los objeti- vyos que se pretenden alcanzar con el meta- andlisis y, en su caso, las hip6tesis que se quieren contrastar (Cooper, 2010). En el mbito de las ciencias sociales y de Ia salud, incluidas las ciencias de a edi- ccacién,e1 meta-andlisis se est4 aplicando pa- +a responder a preguntas de muy diversa in- dole, pero la més comin es evaluarlaefica- cia de programas, tratamientos ¢ interven- ciones en general para prevenir, resolver 0 paliar problemas educativos, psicol6gicos, de salud 0 sociales. Como ejemplo ilustrati- vo vamos a describir el meta-andisis reali zado por Erion (2006) para evaluar la effca- cia de los programas de tutorizacién paren- tal en casa como un medio de mejorar el ren- dimiento escolar de los hijos. Los objetivos cconeretos que perseguan con el meta-andli- sis eran: (a) cul es la efectividad general de la tutorizacién parental?; (6) jestin los resultados. de los programas relacionados SV SSTEMATEA YUN NETADELSS 58 con la duracién de los mismos, as{ como con caracteristicas tales como ta disponibilidad de instrucciones escritas, de practica super- visada o de realizar consultas al profesor? y (©) estén los resultados de los programas relacionados con otras caracteristicas de los estudios, tales como el curso, el érea de co- nocimiento estudiada, el modo de evalua ign de la eficacia ola fuente de publicacién del estudio? Bisqueda de los estudios Una vez planteados los objetivos del ‘meta-andlisis, el siguiente paso consiste en localizar los estudios empiricos que hayan abordado la pregunta objeto de investiga- ién, Esta fase pasa necesariamente por la definicion de los crterios de inclusién y ex- clusién de 1os estudios. Estos criterios de- penden del objetivo del meta-andlisis, pero nunca pueden faltar los siguientes: (a) iden- tificar los disefios de los estudios admisibles para el meta-andlisis (e.g., ¢s6lo se aceptar rin estudios experimentales con asignacién aleatoria o también se admitirin estudios ‘cuasi-experimentales?); (b) definir 1s tipos de programas, tratamientos o intervenciones ue se pretenden investigar; (c) definir las caracteristicas de los participantes en los es- tudios (¢g,, 2s6lo se admitiran estudios que hhan trabajado con muestras de nifios y ado- lescentes,0 con adultos, o con pacientes que tienen un determinado trastorno médico 0 educativo?); (d) determinar los datos esta- Aisticos que deben aportar los estudios para poder calcular Ios tamatios del efecto (eg., ‘medias, desviaciones tipicas, proporciones, pruebas 1, pruebas F de ANOVA, etc.) y (@) ‘dentificar cémo han de venir medidas las variables de resultado (eg. escalas psicol6- ices, pruebas de rendimiento debidamente bbaremadas, medidas de autoinforme, etc). Finalmente, otros dos criterios de inclusién que no pueden faltar son el idioma en el que tiene que estar escrito el estudio y el rango temporal que se pretende examinar. Partiendo de los criterios de inclusién y exclusién de los estudios, se procede a reali- zar una biisqueda bibliogréfica lo més am- plia posible para identificar los estudios que 56 ADSHOR IE pueden cumplir con los criterios de selec- ci6n. Se recomienda en esta fase combinar procedimientos formales e informales de bisqueda de estudios. De entre las fuentes formales, no puede faltar la consulta de ba- ses bibliograficas electrénicas, como ERIC, Psyclnfo, MedLine, CINAHL, etc., depen- diendo del Ambito de estudio del meta-ané- Tisis. Otras fuentes formales se basan en la consulta directa de revistas especialmente sensibles al problema investigado, asf como la revisién de las referencias de los estudios ue se vayan localizando. Con objeto de pa- liar los posibles efectos nocivos del fenéme- no del sesgo de publicacién, se recomienda complementar el uso de fuentes formales con fuentes informales de brisqueda, tales ‘como contactar con expertos de reconocido prestigio en el campo para solicitares estu- dios no publicados, acceder a los ‘colegios invisibles’ o consultar libros de actas de congresos, tesis doctorales y otras estrate- sas que permitan acceder, en la medida de lo posible, ala ‘literatura fugitiva’ (Roths- tein y Hopewell, 2009). Con objeto de ana- lizar la fiabilidad del proceso de scleceién de los estudios, al menos dos codificadores deben realizar dicho proceso de forma inde~ pendiente y comprobar el grado de acuerdo En el meta-analisis de Erion (2006) se efinieron los siguientes criterios de inclu- sién de los estudios: (a) el estudio tenfa que incluir dos grupos de estudiantes, uno de ellos actuando como grupo de control; (b) el programa de intervencién tenia que implicar tareas de tutorizacién realizadas por los pa- des, u otros miembros de la familia, en el hogar; (c) los partcipantes tenfan que en- ccontrarse en edad escolar, (d) las variables dependientes tenfan que referirse a habilida- des escolares basicas (e.g., lectura, pronun- ciacién, mateméticas y expresién escrita); (©) debia aportar los datos estacisticos pert- nentes para poder calcular el tamaio det efecto, y (D tenfa que estar escrito en inglés. Respecto de los procedimiento de bisqueda ‘de estudios, el meta-anélisis de Erion (2006) realiz6 biisquedas electrénicas en las bases ERIC, Psyclnfo y Dissertation Abstracts Online entre los afios 1970 y 2004. Ademés, se revisaron las referencias de los estudios cempiricos que se fueron seleccionando, Codificacién de tos estudios Una vez seleccionados los estudios que cumplen con los criterios establecidos en el mera-andlisis, el paso siguiente es elaborar un Manual de Codificacién en el que se ha- gan explicitos los criterios mediante los cua- les se van a codificar las caracteristicas de los estudios. La razén de examinar dichas caracteristicas no es otra que comprobar qué caracteristicas de los estudios pueden estar moderando 0 afectando a los resultados. La codificacién de las caracteristicas de los es- tudios es, pues, una tarea imprescindible si queremos explicar por qué los estudios so- bre un mismo tema alcanzan resultados dife- rentes, ¢ incluso en ocasiones contradicto- tos (Lipsey y Wilson, 2001) Con este propésito se elabora un Proto- colo de Registro de as variables moderadoras de las estudios y se aplica a todos ellos. Aten- diendo a su procedencia conceptual es habi- tual distinguir entre caracteristicas metodol6- gicas, sustantivas y extrinsecas. Las caracte- Tisticas metodoldgicas son aquéllas que tic- nen que ver con la metodotogia y el disco 03}, por lo que puede concluirse que el modelo esta bien especificado. Estos resultados permiten con- cluir que las diferentes modalidades de tratamiento, y sus combinaciones, puestas a prueba cn la literatura del abuso sexual infantil arojan resultados de eficacia cla- ramente diferentes entre si, por lo que la préctica pro- fesional con estos menores deberia tomar en conside- racién estas evidencias cientificas a la hora de decidir ‘qué tratamientos son los més adecuados para mejorar la salud mental y el bienestar personal de los menores que han sido vietimas de abusos sexuales. El andlisis de variables moderadoras continuas se aborda desde modelos de regresién ponderada (simple ¥ multiple), que iiltimamente se estin denominando ‘modelos de ‘meta-regresién’. Ademas de obtener una estimacién de la pendiente de regresién que relaciona Ia variable moderadora con los tamaiios del efecto, el estadistico Q,, que se distribuye segiin Chi-cuadrado de Pearson con grados de libertad igual al nimero de predictores del modelo, permite comprobar si existe tuna asociacién estadisticamente significativa entre ambos. Asi mismo, el estadistico Q,, que se distribuye segin Chi-cuadrado de Pearson con grados de libertad iguales al nimero de estudios menos el mimero de pre- dictores, permite comprobar si el modelo esta bien especificado. Los estadisticos Q, y Q, se corresponden con las sumas de cuadrados ponderados del modelo de regresion En el meta-andlisis de Sénchez-Meca et al. (2011) una de las variables moderadoras continuas que se ana~ lizaron fue la duracién (en semanas) del tratamiento, La Figura 3 presenta un diagrama de dispersion de la Figura 3. Representacn grifia, mediante un dagrama de dispersi, dela mea-egresin simple realzad sobre ls tamafos del efero en funcign ea drain de ratamient (ode semanas) 308 238 nor a os 082 a0 4900 6028 7166 e284 94.12 10540 Duracién del tratamiento (n? semanas) ‘Copyright 2011 by the Colegio Oficial de PsieSlogo de Maid ISSN! 1132-0559 - DOF 10'50935n201 1209 Psychosocial Intervention Vol. 20, No.1, 2011 =p. 98-07 104 Mera-a\Aiss YL TeERVENCIONPsicasocL relacién entre la duracién del tratamiento y el tamaio del efecto obtenido. Se observé una tendencia positiva entre ellas, que result estadisticamente significatva y con un 10% de varianza explicada [Q,(1) = 4.24 p = (039; R= .10]. Ademds, el resultado de la prueba de especificacién del modelo indicd que éste estaba bien especificado [0,(40) = 39.92 p = .385]. Este resultado permite concluir que los tratamientos mas prolongados logran alcanzar efectos més beneficiosos que los mas breves, esto dicho dentro del rango de duraciones de los programas analizados, que se situ6 entre las 2 y 96 semanas, con una duracién mediana de 12 semanas. ‘Modeio de efectos fjos versus modelo de efectos ale- atorias. Los métodos estadisticos ponderados tipica- ‘mente aplicados en meta-andlisis se clasifican, a su vez, en funcién del modelo estadistico asumido, distinguien- do entre los modelos de efectos fijos y de efectos alea- torios, La cleccién entre uno u otto depende de varios factores, El mas importante de ellos es el grado de ‘generalizaciOn que el meta-analista pretende alcanzar en sus conclusiones. Si el meta-analista quiere genera~ lizar sus resultados a una poblacién mayor de estudios Jos representados en el propio meta-andlisi, entonces el modelo de efectos aleatorios es el adecuado (Hedges y Vevea, 1998; Raudenbush, 2009). Pero asumir este ‘modelo implica también asumir que los estudios inclui- dos en el meta-andlisis constituyen una muestra razona- blemente representativa de esa poblacién mayor de studios realizados en dicho campo de investigacién, 0 «que podrian hacerse en el futuro. Adems, los procesos de estimacién de los parémetros en el modelo de efec- tos aleatorios requieren que el meta-andlisis disponga de un nimero minimo razonable de estudios para que dichas estimaciones sean lo suficientemente precisas como para que sean informativas. Aunque el nimero ‘minimo de estudios requerido para poder aplicar un modelo de efectos aleatorios dependerd de las condicio- nes concretas del meta-andlisis, podemos decir que, en general, cl minimo de estudios aconsejable estard en tomo a 30 (Borenstein et al, 2009), Si el meta-analista pretende generalizar los resulta- dos.a una poblacién de estudios idénticos 2 los incl dos en el meta-andlisis, entonces debe aplicarse cl modelo de efectos fijos. Este modelo es mas restrict ‘vo en el grado de generalizacién de los resultados (Konstantopoulos y Hedges, 2009). Porregla general, cel meta-analista deseard alcanzar unas conclusiones Jo més generalizables posible, por lo que el modelo més apropiado suele ser cl’ de efectos aleatorios (Schmidt, Oh y Hayes, 2009). Pero si el mimero de studios del meta-andlisis es pequeiio, 0 no se puede definir razonablemente bien la poblacién mayor de cstudios hacia la que se desea generalizar los resulta- dos, entonces el modelo de efectos fijos seré el més indicado (Borenstein, Hedges, Higgins y Rothstcin, 2010). Laeleccién de un modelo u otto tiene también conse- ccuencias en los métodos estadisticos aplicados y en las Peyehoroil Intervention ‘Vol. 20, No.1 2011 =p. 95-107 estimaciones de los pardmetros. En el modelo de efectos aleatorios los procedimientos estadisticos dan lugar a intervalos de confianza més anchos y a resultados mas conservadores en los contrastes de hip6tesis, en compa- racién con el modelo de efectos fijos. Asi, por ejemplo, en el meta-andlisis de Sinchez-Meca et al. (2011) se aplicaron modelos de efectos aleatorios, ya que se pre- tendia generalizar los resultados a una poblacién mayor de estudios ya realizados o que se puedan realizar en el futuro. Si se hubiera aplicado un modelo de efectos fijos, el tamaiio del efecto medio que se habia obtenido para el cémputo global de todas las variables dependien- tes hubiera sido d ~.600, y sus limites confidenciales 529 y 671. Si comparamos la anchura del intervalo de confianza con los dos modelos estadisticas, el de efectos aleatorios es claramente mayor (d = 64; limites confi- denciales: 535 y .745; anchura del intervalo ~.21) que cl de efectos fijos (142). 6, Publicacién La fase final de un meta-andlisis, como de cualquier investigacién, es publicarlo. Dado que un meta-andli- sis es un tipo de investigacién empirica, su publicacin sigue el mismo formato que el de cualquier estudio ‘empirico: (1) introduccién, (2) método, (3) resultados y (4) discusién y conclusiones (Botelia y Gambara, 2006; Clarke, 2009; Sénchez-Meca y Botella, 2010). Ena introduccién del informe debe plantearse con cla- ridad y contextualizarse el problema objeto de estudio, Debea definirse conceptual y operativamente los cons- tructos implicados en cl problema: las intervenciones, los participantes o receptores de los programas y ei contexto de aplicacién de los tratamientos. En la Introduccién también se debe hacer una revisin tebri- ca de la literatura, se tienen que plantear los objetivos cconcretos del meta-andlisis y, en su caso, las hipdtesis de partida En Ia seccién de Método, se incluyen varios aparta- dos. En primer lugar, se deben especificar los citerios de seleccin de los estudios y las estrategias de bis- queda de los estudios que se han utilizado, donde no puede faltar el rango temporal que ha cubierto dicha bbisqueda. En otro apartado de la seccién Método se debe detallar el proceso de codificacién de las varia- bles moderadoras y caracteristicas de los estudios que posteriormente se pondrén en relacién con los tamatios del efecto, asi como los resultados del andlisis de la fia- bilidad del proceso de codificacién. En este apartado debe offecerse el Manual de Codificacién de las varia- bles, por si algin lector estuviese interesado en solici- tarlo a los autores. En el proceso de codificacién de variables no puede faltar la inclusin de un conjunto de indicadores de la calidad metodolégica de los estudios, con objeto de poder comprobar si los efectos de los studios pueden estar sujetos a sesgos de estimacién El siguiente apartado debe explicar el indice del tama- ‘Copytight 201 by th Colegio Oficial de Prcslogos de Madrid [SSN 1132-0589 - DOL 105093/n2011v200109 Juul Shncnez Mca, FoLcencio Martie Magrvez Jost Aono Lorz-LOraz 105 fio del efecto utilizado, sobre qué variables dependien- tes se ha calculado y si se han inchuido céleulos del tamao del efecto para las medidas de seguimiento. El ‘lltimo apartado de la seccién Método debe explicar el modelo estadistico asumido en los célculos meta-ana- litcos (de efectos fijos versus aleatorios), una justfi ign de su eleccién y que técnicas estadisticas concre- tas se han aplicado (e.g, intervalos de confianza, prue- ‘bas de heterogeneidad, ANOVAs, modelos de regre- sion, ete.) La seccién de Resultados debe comenzar con una descripcién de las caracteristicas de los estudios, para Jo cual se presentan tablas de frecuencia en las que se reportan las variables moderadoras de los estudios. De esta forma, es posible comprobar qué tipos de trata- miento se han aplicado y con qué frecuencia, con qué duracién ¢ intensidad, cual ha sido el rango de varia- cién de las edades de los partcipantes, su distribucién por género o por etnia, qué tipos de disefios han utili- zado los estudios, los tamafios muestrales, la mortali- dad experimental, etc. Esta descripeién oftece una panordmica de los estudios evaluativos integrados en el meta-andlisis, asi como defini el estudio prototipi- El siguiente apartado de Ia seccién de Resultados debe ofrecer una panordmica de los tamatios del efec- to obtenidos en los estudios, para lo cual el forest plot una técnica grfica idonea. En dicho gréfico se sucle incluirel tamafio del efecto medio obtenido por el con- Jjunto de estudios, junto con su intervalo de confianza. Con objeto de comprobar si el sesg0 de publicacién puede ser una amenaza contra la validez del tamafio del efecto medio obtenido, el siguiente apartado debe presentar los resultados de algun andlisis del sesgo de ublicacién, A continuacién, se presentan los resulta- os de las prucbas de heterogeneidad, y si éstas apun- tana la presencia de una elevada heterogeneidad entre los tamatios del efecto entonces el siguiente apartado debe presentar los resultados de los ANOVAS y de los modelos de regresiGn que examinan el influjo de varia- bles moderadoras que puedan explicar al menos parte 4e Ia variabilidad de los tamaiios del efecto. El reporte de un meta-andlisis finaliza con la sec- cién de Discusién y Conclusiones. Este apartado debe comenzar con un breve resumen de los principales resultados alcanzados. A continuacién, éstos se ponen en relacién con los de estudios y revisiones previas del tema, discutiéndose las coincidencias y contradiccio- nes. Los meta-andlisis sobre la eficacia de intervencio- nes en el Ambito psicosocial deben incluir una secciOn sobre cuales son las principales implicaciones clinicas de los resultados de cara a la prictica profesional. El informe del meta-andlisis debe finalizar con algunas indicaciones y recomendaciones para la investigacién futura en el campo, tales como la deteccién de defi- ciencias metodolégicas en los disefios de los estudios o vacios en la literatura que deberian solventarse. No debemos olvidar que el meta-andlisis es una mirada al ‘Copight 2011 by the Colegio Oil de sclogos de Madd ISN 1132.0559 - DOK: 10S05Hn20¥20n99. pasado para ayudar a drigir adecuadamente [a invest- gacién futura. En la seccién de Referencias se deben incluir todas, las referencias de los estudios incluidos en el meta- anlisis (generalmente, precedidas por un asterisco para su mejor identificacin). Finalmente, si las limita- ciones de espacio lo permiten, es aconsejable incorpo- rar un apéndice que recoja la base de datos meta-ana- litica completa, es decir, ls tamaiios del efecto indivi- duales de los estudios junto con las variables modera- doras. De esta forma, cualquier lector interesado puede replicar los resultados del meta-andlisis. Conelusién y reflexiones finales El propésito de este articulo era ofrecer una panori- ica de qué es el meta-andlisis, cémo se lleva a cabo, qué informacién es capaz de ofrecernos y cual es su vinculacién con el enfoque de la Practica Basada en la Evidencia, No cabe duda de que los meta-andlisis sobre la eficacia de intervenciones en el Ambito psico- social estén aportando una informacién de gran utili- dad para su puesta en prictica por los profesionales que tienen que tomar decisiones dia a dia acerca de ccémo mejor interveniro tratar en los problemas socia- les, educativos y psicolégicos que forman parte de su quehacer cotidiano. Al basarse en una muestra muy amplia de participantes, las conclusiones de los meta- ‘anilisis son més fiables y generalizables que las de los estudios evaluativos individuales. Los estudios indivi- duales pueden considerarse como las piezas del puz- le, mientras que un meta-analisis puede configurar dicho puzzle. No obstante, los meta-andliss estan tam- bién sujetos a deficiencias y a sesgos en sus estimacio- nes, por lo que es fundamental saber hacer una lectura critica de un meta-andlisis, siendo capaz de depurar su calidad metodolégica. Una cuestién crucial para la correcta interpretacion de los resultados de un meta- analisis es la calidad metodoldgica de los estudios eva- Iuativos incluidos en él. Si los estudios empiricos son metodolégicamente débiles, las conclusiones del meta- andlisis también lo serdn. Por ello, los meta-andlisis ‘mas validos son aquéllos basados en estudios experi- mentales, en los que los participantes se han asignado aleatoriamente a las condiciones de tratamiento, En ‘cualquier caso, los meta-andlisis estin offeciendo evi- dencias de gran valor que pueden ser aprovechadas desde el enfoque de la Prdctica Basada en la Eviden- ia para repercutir en la prictica profesional de los pro- fesionales del Ambito de la intervencién psicosocial. Agradecimientos Este articulo ha sido financiado por el Ministerio de Ciencia ¢ Innovacién y los Fondos FEDER (Proyecto ne: PS12009-12172), Prychosocial Inerveton VoL. 20, No. 1,2011 =p. 95-107 106 DMericaNALISS I LA IVTERVENCION PSICOSOCAL Referencias Borenstein, M. J, Hedges, L. V, Higgins, J. PT. y Rothstein, H.R. (2009). Introduction to meta-analysis. (Chichester, UK: Wiley. Borenstein, M. J, Hedges, L. V, Higgins, J. PT. y Rothstein, H. R. 2010). A basic introduction to fixed- cffect and randomeffects models for meta-analysis. Research Synthesis Methods, 1, 97-111 Botella, J. y Gambara, H. (2002). Qué es ef meta-andlsis “Madrid: Biblioteca Nueva. Botella, J. y Gambara, H. (2006). Doing and reporting a ‘meta-analysis. International Journal of Clinical and Health Psychology, 6, 425-440. ‘Clarke, M. 2008). Reporting format. En H. Cooper, L. V. Hedges y J. C. Valentine (Eds), The handbook of research synthesis and metaanaiysis (2* 4.) (pp. 279- 293), Nueva York: Russell Sage Foundation. Cohen, J. (1988). Statistical power analysis forthe behav- ioral sciences (2 ed). Hillsdale, NJ Erlbaum, Cooper, H. 2010) Research synthesis and meta-anabsis: A step-by-step approach (3" ed). Thousand Oaks, CA: Sage. Cooper, H., Hedges, L. V. y Valentine, J.C. (Eds) (2009). The handbook of research synthesis and meta-analysis (2" d,). Nueva York: Russell Sage Foundation. Deeks, J. 5. y Altman D. G. @001), Effect measures for ‘meta-analysis of trials with binary outcomes. En M. Egger, D. Smith y D. G. Altman (Eds), Systematic reviews in health care (pp. 313-335). Londtes: BMJ Pub. Group. Fleiss, J. L. (1994). Measures of effect size for categorical data. En H. Cooper y L-V. Hedges (Eds), The handbook of research synthesis (pp. 245-260). Nueva York: Russell Sage Foundation. Frias Navarro, M.D. y Pascual Llobell J. (2003). Psicologia clinica basada en pruebas: Efecto del tratamiento Papeles del Psicdtogo, 85, 11-18. Gass, G. V, McGaw, B.y Smith, ML. (1981). Meta-analy- sis in socal research. Beverly Hills, CA: Sage Grissom, R. y Kim, 5. J. (2005), fet sizes for research. A ‘broad practical approach. Mahwah, NI: LEA. Hedges, L. V. y Olkin, 1. (1985) Statistical methods for ‘meta-analysis. Orlando, FL: Academic Press. Hedges, L. V. y Vevea, J. L. (1998) Fixed- and random- ‘effects models in meta-analysis, Psychological Methods, 3, 486-504, Higgins, J.P. T. y Green, S. (Eds) (2008). Cochrane hand- ‘book for systematic reviews of interventions. Chichester, UK: Wiley-Blackwell Higgins, J PT. y Thompson, S. G. (2002). Quantifying het- exogencity in a meta-analysis. Statsis in Medicine, 21, 1539-1558 Konstantopoulos, S. y Hedges, L. V, (2009). Analyzing cffect sizes: Fixed-effects models. En H. Cooper, LV. Hedges y J. C. Valentine (Eds.), The handbook of research sythesis and meta-analysis (2° e.) (pp. 279- 293), Nueva York: Russell Sage Foundation Lipsey, M. W.y Wilson, D. B. (2001), Practica! meta-analy- Paychoscil Intervention ‘Vel. 20, No. 1,2011 =p. 95-107 sis, Thousand Oaks, CA: Sage Littell, J. H., Corcoran, J. y Pillai, V. (2008). Systematic reviews and meta-analysis. Oxford, UK: Oxford University Press Martin, J. L. R, Toblas, A. y Seoane, T: (Coords) (2006). ‘Revisiones sistematicas en las ciencias dela vida. Toledo: FISCAM. Mortis, 8. B. (2008). Estimating effect sizes from pretest- Posttest-control group designs. Organizational Research Methods, 11, 364-386. Morris, S. B. y DeShon, R. P. (2002). Combining effect size ‘estimates in meta-analysis with repeated measures and independent-groups designs. Psychological Methods, 7, 105-125, Orwin, RG. y Vevea, J. L. (20089). Evaluating coding deci- sions. En H. Cooper, L. V. Hedges y J. C. Valentine (Bis), The handbook of research synthesis and meta- analysis (2* ed) (pp. 177-203). Nueva York: Russell Sage Foundation. Pascual Llobell, J., Frias Navarro, M. D. y Monterde, H. (2004), Tratamientos psicoldgicas con apoyo empirico y prictica clinica basada en la evidencia. Papeles del Psicélogo, 87, 1-8. Petosine, A., Boruch, R. F, Soydan, H., Duggan, L. y ‘Snchez-Meca, J. (2001). Meeting the challenges of evi- ‘dence-based policy: The Campbell Collaboration. Annals of the American Academy of Political and Social Science, 578, 14-34, Petticrew, M. y Roberts, H. (2006). Systematic reviews inthe social sciences: A practical guide. Malden, MA: Blackwell Raudenbush, S. W. (2009). Random effects model. En H. Cooper, L. V. Hedges y J.C. Valentine (Eds), The hand. book of research synthesis and meta-analysis (pp. 295- 315). Nueva York: Russell Sage Foundation. Ray, J. W. y Shadish, W. R. (1996). How interchangeable are different estimators of effect size? Journal of Consulting ‘and Clinical Psychology, 64, 1316-1325. Rosenthal, R, Rosnow, R. L. y Rubin, D. B. (2000). Contrasts and effect sizes in behavioral research: A cor~ relational approack. Cambridge, UK: Cambridge Uni- versity Press Rothstein, H. R., Sutton, A. J. y Borenstein, M. J. (Eds) (2005). Publication bias in meta-analysis: Prevention, assessment, and adjustments. Chichester, UK: Wiley. ‘Sichez-Meca, J. (1999). Meta-andlisis para la investigacién cientifica, En F. J. Sarabis-Sénchez (Coord), Metodolo- ‘gia para la investigacin en marketing y divecclin de empresas (pp. 173-201). Madrid: Pirémide. ‘Sinchez-Meca, J. 2008). Mets-andlisis de la investigacién, En M. A. Verdugo, M. Crespo, M. Badia y B. Arias (Coords), Metodologia en la investigacién sobre disca- pacidad: Introduccién al uso de las ecuaclones estructu- rales. Salamanca: Publicaciones del INICO. ‘Sinchez-Meca, J. 2010). Cémo realizar una revisin siste- mitica y un meta-andlisis. Aula Abierta, 38, 53-64, ‘Sanchez-Mecs, J. y Ato, M. (1989). Meta-andlisis: Una alter- nativa metodoiégica a las revisiones tradicionales de Ia Copytight 201 by the Colegio Oficial de Paicdogos de Madrid ISSN:1132-0889 - DOL: 105093/n2011v20n1@9 Jou Sincnsz Mca, Fuucencio Math Martz v Jost Aon Lorz-Loraz 107 investigacién. En J. Amau y H. Carpintero (Eds.), Tratado de Psicologia General (pp. 617-669). Maria: Albarbra, Sinchez-Meca, J., Boruch, RF, Petrosino, A. y Rosa- Aleézar, A. 1. (2002). La Colaboracién Campbell y la prdctica basada en la evidencia. Papeles del Psicdlogo, 83, 44-48, ‘Sinchez-Mecs, J.y Botella, J, (2010), Revisiones sistemati- as y meta-andlisis: Herramientas para la prctica profe- sional. Papeles del Psicélogo, 31,7-17. ‘Sinchez-Meca, J.y Marin-Martinez, F.(2010a). Meta-analy- sis. En P. Peterson, E. Baker y B. McGaw (Eds), International Encyclopedia of Education, Volumen 7 (3* cd, (pp. 274-282). Oxford: Elsevier. ‘Siinchez-Meca, J. y Marin-Martinez (2010b). Meta-analysis in psychological research. International Journal of Psychological Research, 3, 151-163. Sinchez-Meca, J, Rosa-Alcizar, A. I. y Lopez-Soler, C. (2011). The psychological treatment of sexual abuse (Copyright 2011 bythe Colegio Oficial de Psicologs de Madrid 18S 1152-0589 - DOK: 105093in2011v200139, in children and adolescents: A meta-analysis. Inter ‘national Journal of Clinical and Health Psychology, 11, 67.93. ‘Schmit, F L., Oh, I-S. y Hayes, T. L. (2009). Fixed versus random effects models in meta-analysis: Model proper~ ties and an empirial comparison of difference in results British Journal of Mathematical and Statistical Psychology, 62, 97-128 ‘Vizquez, C. y Nieto, M. (2003). Psicologia (clinica) basada en la evidencia (PBE): Una revisi6n conceptual y meto- dolégica. En J. L. Romero (Ed), Psicdpolis: Paradigmas ‘actuales y alternativas en la psicologia contempordnea. Barcelona: Keiros. Notas "Puede consular eu sto web oficial en: www campbelleallabors tionng Manuscrito Recibido: 23/11/2010 Revision Recibida: 19/01/2011 Manuscrito Aceptado: 20/01/2011 Peychosocialnervention ‘Vol. 20, No.1, 2011 pp 95-107 Ronerr Rosewriat, PHD. -An empirical eetuntion of ms ‘Macatee a tlt sigtcanca,efaework for mete-aalyic procedures. am -anavtcproctdurs. dfning retulsof individual sds, * {nd combining studiae the Ble drawer problem, the evasion af flac sane. he tue of Sadygualy scummy ample INTRODUCTION It is @ common criticism of the behav- foral and biomedical sciences that they ‘cumulate poorly. Our sciences do not seem to show the orderly progress and development shown by the physical sci- ences. The newer work of these “harder” sciences is soon to build directly on the teatlier work of these sciences. Our sci- ‘ences, on the other hand seem nearly to be starting anew with each succeeding volume of the behavioral and biomedical science journals. While appears that the Physical sciences have problems of their ‘own when it comes to successful cumu- lation (1-7), there is no denying that in the matter of cumulating evidence we hhave much to be modest about. Poor cumulation does not seem to be primarily due to lack of replication or to failure to recognize the need for replica- tion. Indeed, the clarion calls for further research with which we so frequently end our articles are carried wherever our From the Department of Peycholoy, Harvard "Addtest repeat requests te: Robert Rosenthal PRD. Department of Payehlogy. Marvard Univer ‘iy. 33 Klan Stoel Combrdge. MA 02138 Recaved for publication Noversbet 28 1990: viet reeivedBecenbe 11900. Prychosomatc Medicine 53:247-271 (1991) scholarly journals are read. It seems, rather, that we have been better at issuing such calls than at knowing what to do with the answers. There are many areas ofthe behavioral and biomedical sciences for which we do have available the results of two, 10, or many more studies all ad- dressing essentially the seme question. (Our summaries of the results of these sets ofstudies. however, have not been neath 4s informative as they might have been, either with respect to summarized signif. icance levels oF with respect to summa- ‘ized effect sizes. Even the best reviews of research by the most sophisticated ‘workers have rarely told us more about each study in a sot of studies then the direction of the relationship between the variables investigated and whether or not ‘given p level was attained, This state of affairs is beginning to change. ‘The most general purpose ofthis review article isto present the concepts and pro- cedures that are likely to improve the process of the cumulation of evidence in the behavioral and biomedical sciences. The more specific purposes ofthis chapter include: 1. Defining the conceptofastudy’s “re- sults” more clearly than is our custom. 2. Providing a general framework for conceptualizing the quantitative sum- ‘mary of research domains 3, Mlustrating the quantitative proce- a dures within this framework so they can be applied by the reader and/or under stood more clearly when applied by oth- 4. Discussing the concepts and proce- ares developed to desl with the "fle ¢rawer problem” of unrotrieved research. results, 5. Evaluating the practical and scien. tific importance of various effect sizes. Ifvee were to trace historically (and ever so briefly) the development of the move: ‘ment toquantify runs of studies, we might ‘well begin with Fisher (8), for his thinking about the combination of the significance levels of independent studies. We would then move through Mosteller and Bush (0) for their broadening of the Fisher per. spective both in (1) introducing several new methods of combining independent probability levels to social and behavioral Scientists in goneral and to social pey- chologists in particular, and (2) showing that effect sizes as well as significence levels could be usefully combined. We ‘would end in the present day with an expending numbor of investigators (10- 51) and the many others cited in the ro. erences of these workers. AN EMPIRICAL EVALUATION OF META-ANALYTIC PROCEDURES ‘An experiment was conducted to assess ‘empirically the effects ofemploying meta- ‘analytic procedures on the conclusions fawn by investigators in training (Le. graduate students) and experienced in- Vestigators (ve., faculty members) (12) ‘The basic idea was to ask the participants to conduct a review of tho literature to ‘address the question of sex differences in task persistence, Some of the participants ‘were randomly assigned to tho meta 28 2 ROSENTHAL ‘analytic procedure condition, and some were randomly assigned tothe traditional procedure condition, All of the partic pants were given the same seven studies that we knew beforehand significantly supported overall the hypothesis tha rales showed greater (ask persistence. ‘Thore was a total of 41 participants ini- tially blocked on sex and faculty (versus duate student) status. However, since neither of these variables affected the re- sults of the experiment, results were re- ported for all 41 participents combined. Participants assigned to the meta-analytic procedure condition were asked to record the significance level of each study and were given detailed instructions on how to combine these significance levels to ‘obtain an overall test of significance for the entire set of seven studies, Partici pants assigned to the traditional proce- ‘dure condition were asked to employ whatever procedures they would nor mally employ to conduct @ review of the literature After participants completed their re views, they dence supported U males were more task persistent than ‘males. They could respond: definitely yes, probably yes, can't tel, probably no, or definitely no. Participants were also asked. {estimate the magnitude ofthe relation: ship between gender and persistence. To this question they could respond: none at all, very small, small, moderate large, and vory large. Despite the fact that the set of seven, studies reviewed showed a clearly signif. icant relationship between sex and task persistence, 73% of the traditional re- viewers found probably or definitely no ‘support for the hypothesis compared to only 22% of the meta-analytic reviewers, ‘That difference (significant at p< 0.008), Prychosomate Medicine 53:247-271 (1991) (META-ANALYSIS suggests that traditional methods of re- viewing may suffer a very considerable loss of power relative to metaanalytic methods. Put another way. the incidence of type Terrors (failing to reject null hy- potheses that are false) may be far greater for the traditional then for the mets analytic procedures of summarizing re- search domains. DEFINING RESULTS OF INDIVIDUAL STUDIES Before we can discuss meaningfully the various procedures for comparing and combining the results of a series of stud- Jes, we must be expli ing of the term “results single study. We begin by stating what we shall not mean when we refer to the re sults of a study. We shall not mean the conclusion drawn by the investigator since that is often only somewhat vaguely related to the actual results. Something ‘else wo shall not mean is the result of an omnibus F test with df>1 in the numer- ator or an omnibus test with df > 1. In both those cases wo are gelting quantita tive answers to questions that are often, pethaps usually, hopelessly imprecise Only rarely are we really interested in knowing for any fixed-factor analysis of variance or covariance that somewhere in the thicket of df, there lurk one or more meaningful answers to meaningful ques- tions that we had not the foresight to ask of our data. Similarly there are few occa sions when what we really want to know is that somewhere ina contingency table, there is an obtained frequency or two that has strayed too far from the frequency ‘expected for that coll under the null hy- pothesis, What we shall mean by “the results” Is Psychosomatic Medicine 53:247-271 (1991) the answer to the question: What is the relationship between any variable X and ‘any Vatlable Y? The variables X and Y a chosen with only the constraint that their relationship be of interest 1o us. The an- swer to this question, however, must come in two parts: (1) the estimate of the ‘magnitude of the relationship (the offect size) and (2) an indication of the accuracy or reliability of the estimated effect size (asin aconfidence interval placed around the estimate). An alternative othe second part of the answer, one not intrinsically ‘more useful but one more consistent with the existing practices of psychological re- searchers, i the test of significance of the difference between the obtained effect size and the effect size expected under the null hypothesis of no relationship be- tween Variables X and ¥. EFFECT SIZE AND STATISTICAL SIGNIFICANCE. se the argument has been made that “the results” of a study with respect to any given relationship can be expressed as en estimate of an effect size plus a test Of significance we should make explicit the relationship between these two quan- tities. The general relationship ls ‘Test of Significance lect Size X Size of Study (One example of this gen ship is: I relation- xa) = 0x N cy ‘That is, x? on df'= 1 is the product of the sizeof the effect expressed by the product moment correlation squared multiplied bythe number of samplingunits. Other ‘examples illustrating the general relation- Me ship between tosis of significance and ef fect size estimates include: 2 oxWN @ te oy — mys x \/ BE a) Fu, a = [Ms = Mays} x @ Equation 2 shows that the standard nor- ‘mal deviate Z (i... the square root of x* fon 1 df) is the product of the product moment correlation and VN. Equation 3 shows that tis the product of 1) the effect size (My ~ My/S, Sometimes called d or, more accurately, g defined as the differ ‘ence between the means divided by the square root of the pooled variance, and (2) fan index of the size of the study taking ‘account of unequal sample sizes (16, 22, 36, 52-54). If the sample sizes of the two groups were equal, this second term ‘would simplify to vn72. Equation 4 shows that F with one df in the numerator is the product of the squared ingredients of the right hand side of equation 3. That is just it should be, of course. given that * — ‘when df= 1 in the numerator. Tn the interpretation of the results of any study, we shall always want to com= [pute and report some estimate of the size (of tho effecs. Cohen (52,53) has a detailed discussion of a variety of such effect size ‘estimates, of which the most generally Useful in behavioral sclence research ap- pear tobe those based on (1) product mo- ment correlations and (2) standardized differences between the means. The product moment correlations are widely used, easily computed from test statistics, and very general in applicabil- ity. Thus, product moment correlations ‘can be used when both variables are con- tinuous (Pearson 1), when both variables R. ROSENTHAL are in ranked form (Spearman tho), when both variables are dichotomous (phi or #) for when one variable is continuous and fone is dichotomous (point biserial r) Product moment corzelations can be com puted from x“), t, Fl, ~) very readily from the following (85, 56) Ve 6 Viwg \ (i) a Fan) + df error (One problem with the Interpretation of + stems from our inclination to square r ‘and then to misinterpret seriously the practical importance associated with any ‘ven F. Ina later section of this review Article, a method for the display and inter- pretation of Fis presented that seers to be substantially more intuitive and in- formative than most of our current pro- cedures for reporting effect sizes (57) Standardized differences between the ‘means represent an alternative metcie for reporting effect sizes, The difference be tween the means of two groups is divided cither by the square root of the mean square for error or by the standard devia- tion (Le. « rather than S) common to the two treatment conditions. The complex issues governing the choice of the stand- ardizing denominator, complications aris Ing from the use of repeated measures designs, and the value of the BESD (a ‘method for displaying the practical im- portance af the size of an obtained effect Which is described later) have led me to lean more and more to the use of rs the effect size estimate of choice. In most . @ Psychosomatic Medicine 53:247-271 (1991) (META-ANALYSIS ceases ris very easily derived from d by a {formula given by Cohen (52): ® by Cy) ‘A FRAMEWORK FOR META. ANALYTIC PROCEDURES Table 1 provides a summary of four types of meta-analytic procedures that are applicable to the special case where just two studies ae tobe evaluated. It is useful to list the two-study case separately be- ‘cause there aro some especially conven: {ent computational procedures for this sit uation. The two columns of Table 1 show that there are two major ways to evaluate the results of research studies—in terms of their statistical significance (eg. p lev ls) and in terme of thet effect sizes (e. the difference between means divided by the common standard deviation oS, in dices employed by Cohen (52) and by Glass (16) or the Pearson r). The two rows of Table 1 show that there are {wo major ‘TABLES. Fo yp of Maa-Anatye Pracedures Applicable Koa Set ot we Suan ‘anaicProcens Sapieance Elect Size Coma Studer [A = Combining stuces [ o Peychosomatic Medicine $3:247-271 (1991) Rests Deine in Tes msi Process Seance Elec Sze Comparing Stace ‘ise Teste A 8 omaengstutis: | Toca Tse € > Combing Studies © i analytic processes applied to the set of studios to be evaluated, comparing and combining. The cell labeled A in Table 1 represents the procedure that evaluates whether the significance level of one study differs significantly from the signif- {cance level of the other study. The cell labeled B represents the procedure that avalualas whether the effect size (eg, d or} of one study differs significantly from the effect size ofthe other study. Calls C and D represent the procedures that are used to estimate the overall level of sig nificance and the average size of the ef- fect, respectively. Mlustrations of these procedures will be given below, Table 2 provides a more general sum. mary of six types of meta-analytic proc Gures that are applicable to the case Where three or more studies ate to be ovaluated. The columns areas in Teble 1 but the row labeled "Comparing Studie ’m Table 1 has now been subdivided into two rows—one for the case of diffuse tests 1nd one for the case of focused tests, When studies are compared as to the significance levels (Cell A) or their effect sizes (Coll B) by diffuse tests, we Tearn whether they differ significantly among, ast themselves with respect to significance lovels or effect sizes, respectively, but we do not learn how they differ or whether they differ according to any systematic basis. When studies are compared as to their significance levels (Cell C) or their effect sizes (Cell D) by focused tests, or contrasts, we learn whether the studies differ significantly among themselves in a theoretically predictable or meaningful ‘way. Thus, important tess of hypotheses can be made by the use of focused tests Calls B and F of Table 2 are simply ana- logues of Cells C and D of Table 2 repre- senting procedures used to estimate over- all level of significance and average size of the effec. respectively. COMPARING TWO STUDIES the results of a single study, we are often prone to ert in the interpretation of two oF more studies. For example, Smith may report a significent effect of some biomed- ical or social intervention only to have Jones publish rebuttal demonstrating that there is no such effect. A closer look atboth their results may show the follow- ing: ‘Smith's Study: (78) a p< 00s, d=050, r= 024 Jones's Study: t(18) = 1.08, p>030, d= 050, r= 024 Smith's results were more significant than Jones's to be sure, but the studies ‘were in perfect agreement as to their es Limated sizes of effect defined by either d or r. A comparison of their respective significance levels reveals furthermore, R. ROSENTHAL that these p's are not significantly differ- ent (p = 0.42). Cleerly Jones was quite ‘wrong in claiming that he had failed to replicate Smith's results. We shall begin this section by considering some proce- dures for comparing quantitatively the re- sults of two independent studies, i studies conducted with different research participants. The examples we shall be examining in this review article are in ‘most eases hypothetical, constructed spe- cifically to illustrate a wide range of situ- ations that occur when working on meta- analytic problems in the behavioral and biomedical sciences, ‘Significance Testing Ordinarily when we compare the re: salls of two studies, we are more inte ested in comparing their effect sizes than theit p values. However, sometimes we ‘cannot doany better than comparing their values, and here is how we do it (68) For each of the two test statistics, we obtain a reasonably exact one-tailed p Tevel. (All of the procedures described in this article roquire that p levels be corded as one-tailed. Thus (100) = 1.98 is recorded as p = 0.025, not p= 0.05) Then, ttn illustration of being "reasonably ws fact" if we obtain t(30) = 303 we give p ‘85 0.0025, not a8 "<0.05." Extended tables ‘of thet distribution are helpful here (e.g, 50-61). Also very useful are inexpensive hand-held calculators with built-in distri- butions oft, Z. F, and x*. For each p. we find Z, the standard normal deviate cor- responding to the p value. Since both p's ‘must be one-tailed, the corresponding Z's will have the same sign if both studies show effects in the same direction, but different signs If the results are in the Paychosomatic Medicine 53:247-271 (1931) META-ANALYSIS opposite direction. The difference be- tween the two Z's when divided by V2, Z that corresponds to the p ‘value thet the difference betwoon the 2's could be so large, of larger, if the two Z's did not really differ. Recapping hah =2 09) Exomple 1. Intervention studios A and B yield results in opposite directions and neither is “significant.” One pis 0.05, one- tailed, the other is 0.12, one-tailed but in the opposite tail, The Z's corresponding to these p's are found in a table of the normal curve to be +1.56 end ~1.18 (note the opposite signs to indicate results in ‘opposite directions). Then, from the pre ceding equation (10) we have as the Zof the difference between the two P values or their corresponding 2's. The value associated with a Zof 194s 0.026 bne-tailed of 0.052 two-tailed, The two p values thus may be seen to differ signif cantly, suggesting that the results of the twostudies are not consistent even allow- ing for normal sampling fluctuations. Effect Size Estimation When we ask whether two studios are ling the same story, what we usvally consistent with each other or whether they are significantly heterogeneous, For the purpose ofthe present article the dis- ‘cussion will be restricied tor as the effect size indicator, but analogous procedures fre available for comparing such other Psychosomatic Medicine 59:247-271 (1999) affect size indicators as Cohen's (52) d, Hodges's g, or differences between pro- portions (41, 62) For each of the two studies to be com- pared, we compute the effect size r and find for each of these r's the associated Fisher z defined as ¥ log (1 + r/(1 ~ #)} Tables to convert our obtained 1's to Fisher 2's are available in most introduc: tory textbooks of statistics. Then, when Ny and Nj represent the number of sam- pling units (e.g, subjects) in each of our two studies, the quantity Se a Mas (Snedecor & Cochran, (62-65)), Example, Studies Aand B yield results {in opposite directions with effect sizes of = 060(N =15] and r=~0.20 (N= 100), respectively. The Fisher 2's correspond: ing to these r's are 0.69 end -0.20, respee- tively (note the opposite signs of the 2's to correspond to the opposite signs of the ¥°5). Then, from the preceding equation we ha = 291 ” 35 the Z of the difference between the two effect sizes. The p value associated with 127 0f2.91 is 0.002 one-tailed or 0.004 two: lulled. These two offect sizes, then, differ significantly 253 COMBINING TWO STUDIES Significance Testing ‘After comparing the results of any two independent studies itis an easy matter 30 10 combine the p levels of the two Studios. Thus, we got an overall estimate Of the probability that the two p levels might have boen obtained ifthe mull hy- pothesis of no relationship between X and Yweretrue Meny methods orcombiaing the results of two oF more studies are available and have been summerized clsownere (30-32, 36}. Here itis necessary te give only the simplest and most versa- {ile of the procedures, the method of add- ing2’s called the Stoufer method by Mos- teller and Bush (9). This method, jst like the method of comparing p values, asks usfist toabtaia accurate plevels for each of our two studies and then to find the Z corresponding to each of these p level Both p's mus be given in one-tailed fom, and the corresponding Z's will have the Same signif both studies show effects in the seme direction. They will have difer ent signs ifthe results ae inthe opposite direction, The sum of the two Z's when divided by v2, yields @ new Z, This new Z corresponds to tho p value that the esults of the two sludies combined, or results even further out in the seme tail ‘ould have occurred ifthe null hypothesis Athee 2) ‘Should we want to doo, we could weight each Z by its df. its estimated quality, or by any other desired weights assigned be- fore inspection of the data (9, 22) Example, Studies A and B yield results {in opposite directions and both are signif. st One p is 0.05, one-tailed, the other 24 R. ROSENTHAL site tail, The Z's corresponding to these p’sare found in a table of normal deviates to be ~1.04 and 5.20, respectively (note the opposite signs to indicate results in ‘opposite directions). Then from the pre- ceding equation we have Zi +s (164) + (520) 5 % ial asthe Zof the combined results of studios ‘A and B. The p value associated with a Z of 2.52 is 0.008 one-tailed or 0.012 two {ajled. Thus, the combined p supports the result of the more significant of the two rosults. If theso wore actual results we ‘would want to be very cautious in inter. preting our combined p both because the two p’s ware significant in opposite direc: tions and because the two p’s were so very significantly different from each other. We would try to discover what differences between studies A and B might have led to results so significantly different. Effect Size Estimation ‘When we want to combine the results ‘of two studies, we are as interested in the ‘combined ettimate of the effec size as we @ in the combined probability. Just as ‘was the case when we compared two ef- fect size estimates, we shall consider t as ‘ur effect size estimate in the combining of effect sizes. However, we note that many other estimates are possible (e.g, Cohen's d, Hedges's g, or differences be- tweoon proportions) For each of the two studies to be com bined, we compute r and the associated Peychosomatc Medicine $3:247-271 (1991) META-ANALYSIS Fisher 2 and have atu, z (03) asthe Fisher z corresponding o our mean fF. We use an t to 2 of 210 r table to look up the r associated with our mean 2 ‘Tables are handier than computing from 2, but, if necessary, this can be done ‘with the following equation: r= (e ~ 2/ (@ + 1). Should we want to do s0, we could weight each z by ts df. its estimated duality, of by any other weights assigned Dofore inspection of the data (63-65). Example. Studies Aand B yield results in opposite directions, one r = 0.80, the other r= 0.30. The Fisher 2's corre: sponding to these r's are 1.10 and -0.31, respectively. From the preceding equa: tion we have 24% _(.10) + (031) | sm tao 0.395 fas the mean Fisher 2, From a z tor table ‘we find a 2 of 0.398 associated with an F of 0.38 COMPARING THREE OR MORE STUDIES: DIFFUSE TESTS Although we can do quite a lot in the ‘way of comparing and combining the re sults of sets of studies with just the pro- cedures given so far, it does happen often that we have three or more studies of the lationship that we want to com- pare and/or combine. The purpose ofthis Section is to present generalizations of the procedures given in the last section so that ‘we can compare and combine the results of any number of studies. Agtin, the ex- amples are hypothetical, constructed to illustrate a wide range of situations oc ccurting in meta-analylie work in behav. Prychosomatic Medicine §3:247-271 (1991) toral and biomedical disciplines. Often, of course, the number of studies entering into our analyses will be larger than the ‘number roquired to illustrate the various rmeta-analytic procedures. Significance Testing, Given three or more p Levels to co Wwe first find the standard normal deviat 2, corresponding to each p level. All p levels must be one-tailed, and the corr sponding 2's will have the same siga if all studios show offects in the same direction, but different signs if the results are not ali in the same direction. The statistical sig- nificance of the heterogeneity of the 2's ‘can be obtained from a x* computed as fellows (58) BG — 2 = x! with K-12 df a) In this equation 2, is the Z for any one study, Z is the mean of all the 2's ob- tained, and Kis the number of studies being combined. Example 5. Studies A, B,C. and D yield ‘one-tailed p values of 0.15, 0.05, 0.01, and 0.001, respectively. Study C, however, shows results opposite in direction from those of studies A, 8, and D. From a nor- mal table we find the 2's corresponding tothe four p levels to be 1.04, 1.64, ~2.33, and 3.09. (Note the negative sign for the Z associated with the result in the opposite irection.) Then, from the preceding equation we have 2g — ZF = (0.09 ~ (20? + [(.64) ~ (0.86)7 + (233) - 0.20)" + (@.09) ~ (086) =1579 as our x! value which forK—1=4—1 3 dfis significant at p = 0.0013. The four P values we compared, then, are clearly significantly heterogeneous. Effect Size Estimation Here we want to assess the statistical hhoterogencity of three or more effect size estimates. We again restric our discus sion to r as tho effect sizo estimator, ‘though analogous procedures are avail- able for comparing such other effect size estimators as Cohen’s (52) d, Hedges's g, fr differences betwoen proportions (32, 41, 62), For each of tho throe or more studies to ‘be compared we compute the effect size 1 its associated Fisher 2, and N~ 3, where NN is the mumber of sampling units on ‘each ris based. Then the statistical ficance of the heterogeneity of cean be obtained from a x’ computed as follows (63-65) BUN ~ az, ~ af = ax¢ with K-14f (05) In this equation 2, is the Fisher 2 oo responding lo any r, and 2s the weighted = LN, — S)e/EIN, ~ 3) Bxomple 6. Studies A, B,C, and D yield effect sizes of r = 0.70 (N= 30), ~ 0.45, (N= 45), r= 0.10 (N = 20) and r= ~0.5 (N= 25), respectively. The Fisher 2's cor- responding to these r's are found from tables of Fisher 2to be 0.87, 0.48, 0.10 and 0.15, respectively. The weighted mean 2 's found from the equation just above (a5) 256 ROSENTHAL tobe (2710.87) + 4240.48) + 1710.10) + 2a{-0rsy/[27 +42 +17 + 22) = 42.05/108 = 0.39 ‘Then, from the equation for x* above (equation 15), we have UN, ~ 3K ~ a = 271087 - 0.39)" + 42(0.48 - 0.39)" + 1710.10 ~ 0.39)" + 22(-0:5 ~ 0.39) 1441 1s our x? value which for K ~1 significant at sizes we compared, then, are clearly sig- nificantly hoterogencous. COMPARING THREE OR MORE STUDIES: FOCUSED TESTS (CONTRASTS) Significance Testing Although we know how to answer the diffuse question ofthe significance of the difforences among a collection of signif- cance levels, we are often able to ask a ‘more focused and more useful question (lor a general discussion of contrasts, s 66). For example, given a set of p levels for studies of teacher expectancy effects, ‘we might want to know whether results from younger children show greater de- grees of statistical significance than do results from older children (29), (Nor mally we would have greater scientific interest in focused questions relevant to effect sizes than to significance levels) ‘As was the caso for diffuse tests, we begin by finding the standard normal de- viate. Z, corresponding to each p level. Al p levels must bo one-talled, and the cor- Psychosomatic Medicine 53:247-271 (1991) META-ANALYSIS ‘responding 2's will have the same sign if all studies show effects inthe same direc: tion, but different signs if the results are rot all in the same direction. The statis- Uical significance of the contrast testing any specific hypothesis about the set of p levels can be obtained from a Z computed as follows (58) BAZ, =z 7 In this equation is the theoretically dorived prodiction or contrast weight for any one study, chosen such that the sum of the b's will be zero, and Z is the Z for any one study. Example 7. Studies A. B, C, and D yield ‘one tailed p values of 1/107, 0.0001, 0.21, ‘and 0.007, respectively. all with results in the same direction. From a normal table we find the 2's corresponding to the four P levels to be 6.20, 3.72, 0.8, and 2.48. Suppose that studies A, B. C, and D had involved differing amounts of therapist contact such thet studies A, B, C, and D hadinvolved , 6,4, and? hours of contact por month, respectively. We might, there- ‘ask whether there was a linear re- lationship betwoen number of hours of ‘contact and statistical significance of the result favoring tho intervention. The ‘weights of linear contrast involving four re 3, 1, 1, and ~3, (These are objained from a table of orthogonal poly- nomials, eg, 60, 61, 65) Therefore, from the proceding equation we have daz Sx _ (9520+ (3.72 + (c1yoa1 + -3]245 OFF Os CI 1116 20 Peychosomalic Medicine $2:247-271 (1991) as our Z value, which is significant at p= 0.008, one-tailed. The four p values. then, tend to grow linearly more 5 the number of hours of contact time in- Effoct Size Estimation Here we want to ask a more focused question of a tet of effect sians. For ex- ample, givona set of effect sizes for studios of therapy intervention, we might want toknow whether these effects are increas- Ing or decreasing linearly with the num- ber of hours of contact per month. We again restrict our discussion to r as the sffect size estimator, though analogous procedures are available for comparing ‘other effect size estimators (32, 3, 43), ‘As was the case for diffuse tests, we begin by computing the effect size r, its associated Fisher z, and N— 3, where N isthe number of sampling units on which ‘eachr is based. The statistical significance of the contrast, testing any specific hy- pothesis about the set of effect sizes, can be abtained from a Z-computed as follows (ay: =z (19) In this equation 2, isthe contrast woight determined from some theory or any one study, chosen such that the sury of the As will be zer0, The 21s the Fisher 2 for any one study and isthe inverse of the vatiance ofthe effet size for each study For Fishor 2 transformation ofthe effect size tthe variance is 1/1, ~ 3) #0, = m3 Example 8. Studies A, B,C, and D yield sffoct sizes ofr = 0.89, 0.76,0.23, 204.059, Fospectively. all with N= 12. The Fisher 2's corresponding to these r's are found from tables of Fisher 2 to be 1.42, 1.00, 0.23, and 0.68, respectively. Suppose that studies A, B, C, and D had invelved dif- fering amounts of therapist contact such that studies A, B, C, and D had involved 6,4, and 2 houts of contact pet month, respectively. We might. therefore, ask whether there was a linear relationship between number of hours of contact and size of effect favoring the intervention. AS in example 7, the appropriate weights, o Ns, are 3,1, ~1, and ~3. Therefore, from the preceding equation we have TAR Vin (on.42 + ayn.00 + toa + (99068 for, OF car ot as ourZ value which is significant at p = 0.022, one tailed. The four effect sizes, therefore, ond to grow linearly larger as the number of houts of contact time in- ‘creases. Interpretation of this relationship must be very cautious. After all, studies ‘were not assigned at random to the four conditions of contact hours. Itis generally the case that variables moderating the ‘magnitude of effects found should not be interpreted as giving strong evidence for any causal relationships. Moderator rela- tionships can. however, be very valuable in suggesting the possibility of causal re- lationships, possibilities that can then be R. ROSENTHAL studied experimentally or as neatly e: perimentally as possible. Before leaving the topic of focused tests it should be noted that their use is more efficient than the more common proce: dure of counting each effect size or signif: cance level as a single observation (e.g 14,19, 39,47) In that procedure we might, for example, compute a correlation be- tween the Fisher 2 values and the }’s of Example 8 to test the hypothesis of greater fect size being associated with greater contact time. Although that r is substan- tual (0.77), it does not even approach sig- nificance because of the small number of af upon which the ris based. The proce- dures employing focused tests, of con- trasts, employ much more of the infor- ‘ation available and, therefore, are less likely to lead to Type Tl errors COMBINING THREE OR MORE STUDIES Significance Testing, After comparing the results of any set of three or more studies it Is an easy matter also to combine the p levels of the sot of studios to got an overall estimate of the probability that the sot of p levels might have beon obtained if the null hy: pothesis of no relationship between X and Y were true. Of the various methods available and described elsewhere in de- tail (90-92, 36, we present here only the generalized version of the method pre: ‘ented earlier in our discussion of com- Dining the results of two groups. ‘This method requires only that we ob- tain a one-tailed 2 for each of our p levels. Z's disagreeing in direction from the bulk of the findings are given negative signs. ‘Then, the sum of the Z's divided by the Psychosomatic Medicine 53:247-271 (1991) META-ANALYSIS ‘square root of the number (K) of studies yields a now statistic distributed as 2 Recapping, salRez (19) Should we want to do 0, we could weight each of the 2's by its df, its estimated quality or any other desired weights so Jong as they are assigned prior to inspec- tion of the results (8, 30,32, 36) Example 9. Studies A. B.C, and D yield ‘onectailed p values of 015, 0.05. 01, and 0.001, respectively. Study C, however shows results opposite in direction from the results of the remaining studies. The four 2's associated with these four p's, then, are £04, 1.64, ~2.33, and 3.09. From the preceding equation we have Ba/vR (1.04) + (1.64) + (233) + (3.09) va <1 ‘sour new Z value which has an associ- ated p value of 0.043 one-tailed, or 0.088 twortailed. This combined p supports the results of the majority of the individual studies, However, even if these p values (0.043 and 0.088) wore more significant, we would want to be very cautious about drawing any simple overall conclusion because of the very great heterogeneity of the four p values Example 5, which employed the same p significant at p = 0.0013. It ized, however, that this great h cerogencity of p values could be due to heterogeneity of effect sizes, heterogene- ity of sample sizes, or both. To find out about the sources of heterogeneity, we ‘would have to look carefully at the effect Psychosomatic Medicine 53:267-271 (1991) sizes and sample sizes of each ofthe stud- ies involved. Effect Size Estimation When we combine the results of three for more studies we are as interested in the combined estimate of the effect size as weare in the combined probability. We follow here our earlier procedure of co sidering ¢ as our effect size estimator ‘while recognizing that many other est mates are possible. For each of the three (or more studies to be combined we com: pute r and the associated Fisher z and have Bek 0) 1s the Fisher 2 corresponding to our mean (where K refers to the number of studies combined). We use a tablo of Fisher = 10 find the r associated with our mean 2 Should we want to give greater weight to larger studies we could weight each 2 by ats df (N — 3) (63-65), or by any other desired weights. Example 10. Studies A, B,C. and yield fect sizes of r = 0.70, 0.45, 0.10, and 0.18, respectively. The Fisher 2 values corresponding to these 1's are 0.87, 0 010, and ~0.15, respectively. Then, from the preceding equation we have Dek _ 0.87) + (0.48) + (0.10) + (-015} 3 = 032 as our mean Fisher 2 From a table of Fisher 2 values we find a 2 of 0.32 to correspond to an F of 0.31. Just as in the previous example of combined p levels, 29 however, we would want to be very cau ious in our interpretation of this com- bined effect size. If the r's we have just ‘averaged wore based on substantial sam- ple sizes, as was the case in Example 6, they would be significantly hotero ‘neous. Therefore, averaging without spe- cial thought and comment would be in- ‘appropriate, COMPARING AND COMBINING RESULTS THAT ARE NOT INDEPENDENT. have discussed so far it has been assumed that the studies being compared or com- bined were separate, independent studi Thal is, we have assumed that different subjects for other sampling units) w found in the studies being compared or summarized. Sometimes, however, the same subjects (or other sampling units) contribute data to (wo or more studies or to (wo or more dependent variables within the samo study. In such cases the results of the two or more studies or the results based on two oF more dependent variables are not Independent and the mota-analytic Procedures wo have do- scribed so far cannot be applied without ‘adjustment ‘Two common methods for summarizing the results ofa single study with mult effect sizes have been simply (0 compat the mean and/or median of the effect sizes. Both of these procedures are quite conservative in practice, however (67) More accurate and more useful. proc dures for comparing and combining non- Independent results have been described Isewhore by Strubs (68) for the case of significance lovels and by Rosenthal and Rubin (67) for the case of effect sizes (38) 260 1 ROSENTHAL ‘THE FILE DRAWER PROBLEM Both behavioral researchers and statis- Uicians have long suspected thatthe stud- published in the behavioral and social sciences are a biased sample ofthe studies that are actuelly carried out (69-72). The extreme view of this problem, the file Grower problem. is that the journals ai filled with the 5% ofthe studies that show ‘Type errors, while the file drawers back ‘at the lab are filled with the 95% of the studies that show nonsignificant (2.8, p> 0.05) results (48, 73,74). Im the past there was very little we ‘could do t assess the net effect of studies tucked aveay in file drawers that did not make the magic 0.05 level (75-77). Now, however, although no definitive solution to tho problem is available, we can estab- lish reasonable bounderies on the prob- lom and estimate the degree of damage to ‘any fetearch conclusion that could be done by the file drawer problem. The fundamental idea in coping with the file ‘drawer problem is simply to calculate the number of studies averaging null results that must be in the file drawers before the overall probability of a Type I error can bbe just brought to any desired level of significance, say p= 0.05, This number of filed studies, or the tolerance for future ‘ull results is then evaluated for whether such 8 tolerance level is small enough t0 threaten the overall conclusion drawn by the reviewer, Ifthe overall level of signif- fcance of the research review will be brought down to the level of just signifi ‘cent by the addition of just a few mor null results, the finding isnot resistant to the file drawer threat Computation To find the number (X) of new, filed, or ‘unretrieved studies averaging null ruts Psychosomatic Medicine 53:247-271 (1991) META-ANALYSIS required tobring the new overall p to any desired level, say, just significant at p (0.05 (Z= 1.645), one simply writes: 1.645 = KL MEF where k is the number of studies com- bined and Z; is the mean Z obtained for ing both sides and rearranging shows that X= (k/2.706k(Z" ~ 2.708) (21) ‘An alternative formula that may be ‘more convenient when the sum of the 2's (22) is given rather than the mean Z, is as follows: X= [02/2705] -k (22) (One method based on counting rather than adding Z's may be easier to compute and can be employed when exact p levels, fare not available, If X is the number of new studies required to bring the overall t0 050 (not to 0.05), sis the number of ‘summarized studies significant at p <0.05, and n is the number of summarized stud- Jes not significant at 0.05, then Xn 190-0 e) Another conservative alternative when ‘exact p levels are not available is to set Z 0.00 for any nonsignificant result and to sot Z= 1.645 for any result significant at p<0.05. ‘The equations above all assume that ‘each of the k studies is independent ofall other k ~ 1 studies, at least in the sense fof employing different sampling units, ‘There are other senses of independence, however, For example, we can think of two or more studies conducted in a given laboratory as less independent than two for more studies conducted in different laboratories. Such nonindependence can ‘be assessed by such procedures as intra- Psychosomatic Medicine $3:247-271 (1991) class correlations. Whether nonindepend- fence of this type serves to increase Type Yor Type il errors appears to depend in parton the relative magnitude of the 2's ‘obtained from the studies that are “cor- related” or "too similar.” Ifthe correlated 2'sare, on the average, es high (or higher) {as the grand mean Z corrected for nonin- dependence, the combined Z we compute treating all studies as independent will be too lerge, Ifthe correlated 2's are, on the ‘average, clearly low relative to the grand mean Z corrected for nonindependence, the combined Z we compute treating all studies as independent will tend to be too small istration In 1978, 345 experiments examining the effects of interpersonal self-fulfilling prophecies were summarized (39). The mean Z of these studies was 1.22, k was 345, and Z for the studies combined was 22.66 = 945 (1.22)/045)% How many new, filed, or unretrieved studies (X) would be required to bring this very large Z down to a barely significant level (Z = 1.645)? From the second equa- tion of the preceding section (equation 2. X = (645/2.706)[345(1.22"° = 2.706) 65,123 (One finds that 65,123 studies averaging ull results (Z = 0.00) must be crammed into file drawers before one would con- clude thatthe overall results were due to sampling bias in the studies summarized by the reviewer. In a more recent sum- mary ofthe same area of research (78) the mean Zof 443 studios was 1.30, k was 443, and X was 122,778. Thus, over 120,000 ‘Unreported studies averaging null result 261 ‘would have to exist somewhere before the overall results could reasonably be as- cribed to sampling bias. AL the present time no firm guidelines can be givon as to what constitutes an unlikely number of unretrieved and/or unpublished studies. For some areas of research 100 or even $00 unpublished and unretrieved studies may be a plausible state of affairs while for others even 10 oF 20 seems unlikely. Probably any rough ‘and ready guide should be based partly ‘on ko thal as more studies are known it ‘becomes more plausible that other studios ‘in that area may be in those fle drawers. Perhaps we could regard as robust to the fle drawer problem any combined results for which the tolerance level (X) reaches 5 k + 10. That seems a conservative but reasonable tolerance level the k portion suggests that it is unlikely thet the file drawers have more than five times as ‘many studies as the reviewer, and the +10 sets the minimum numbor of studies that could be fled away at 15 (when k =1), Ttappears that more and more review- ors of resoarch literatures will be estimat- ing average offect sizes and combined p's of the studies they summarize. It would be very helpful to readers for each com- bined p they presented, reviewers also gave the tolorance for future null results BSssoclated with thel? overall significance level It is of interest to note that recent re- ‘search suggests that the magnitude of the file drawer problem may be somewhat Joss than had been feared (74). While stud- atthe time ofa meta-analy- to yield significant studies unpublished at 2 time of the meta-analysis, this bias may well shrink aver time since a very 1 proportion of the originally unpub- lished studies may eventuelly be pub- 262 R. ROSENTHAL lished. Ina large meta-analysis, therefore, it may be useful to conduct a sub-analysis with a cut-off date for study retrieval ap- proximately five years earlier than the ato of the actual mota-analysis. It is likely that the file drawer problem will be lessened appreciably at least for this sub-analyss (74) ‘THE EVALUATION OF EFFECT SIZES Most of this review article has so far beon concerned with concepts and meth- ‘ds designed to help us improve the esti- mates of effect sizes and of significance levels of our culating evidence. In the present section we try to evaluate more Usefully the practical meaning of any of fect size estimate end especially those that ‘we derive from our meta-analytic proce- dures (73), Despite the growing awareness of the ‘importance of estimating effect sizes there isa problem in evaluating various effect size estimators rom the point of view of practical usefulness (90). Rosenthal and Rubin (57, 81} found that neither experi- fenced behavioral researchers nor experi- enced statisticians had good intultive feel for the practical meaning of such common effect size estimators as ‘omega’, epsilon’, and similar estimates. ‘The Physicians’ Aspirin Study Ata special meeting held on December 16, 1987, it wat decided (0 end proma- turely, a randomized double-blind expe {ment on the effects of aspirin on reducing, hheart attacks (82) The reason for this un Usual termination of such an experiment ‘was that it had become so clear that as- Paychovomatic Medicine 53:247-271 (1991) (META-ANALYSIS pirin prevented heart attacks (and deaths from heart attacks) that it would be ‘unethical to continue to give half the phy- sician research subjects a placebo. And ‘what was the magnitude of the experi- mental effect that was s0 dramatic as 10 call for the termination of this research? Was + 0.90, oF 0.80, of 0.70, oF 0.60, 0 that the corresponding 1's would have ‘been 0.95, 0.89, 0.84, or 0.777 Was r* 0.50, (040, 0.30, or even 0.20, so that the corre- sponding r's would have been 0.71, 0.63, 055, oF 0.45% No, none of these. Actually was 0.0011, with a corresponding + of 1034 Table 3 shows the results ofthe aspirin study in terms of raw counts, percentages, and as a Binomial Effect Size Display (BESD), This display is a way of showing the practical importance of any effect Gexed by a correlation coefficient. The correlation is shown to be the simple dif ference in outcome rates between the ex- perimental and the control groups in this Handard table which always adds Up to column totals of 100 and row totals of 100 (7 ‘This type of result seen in the physi- clans’ aspirin study is not at all unusual {in biomedical research. Some years ear- lier, on October 29, 1981, the National Heart, Lung, and Blood Institute discon- {inued its placabo-controlled study of pro- pranolol because results were so favorable to the treatment that it would be unethi- cal to continue withholding the life-sav- ing drug from the control patients. Once ‘again the effect size r was 0.08, and the leading digits of the r were 0.00! As be- havioral researchers we are not used 10 thinking of 's of 0.08 as reflecting effect sizes of practical importance. But when ‘wa think of an r of 0.04 as reflecting 4% ecrease in heart attacks, the interpre tion given rin a Binomial Effect Size Dis- play, the r does not appear to be quite so small; especially ifwe cancountourselves famong the 4 per 100 who manage to sur- vive (82, 36) Additional Results ‘Table 4 gives three further examples of Binomial Effect Size Displays. In a recent study of 4,462 Army voterans of the Viet- ‘nam War ora (1965-1971), the correlation bbotweon having served in Vietnam (rather than elsewhere) and hi “TABLE 2_Efet of Aspirin om Heat Atacke Among 22071 Physicians Pncebo 1s tones nom igen ose s50% 100 Pacebo 7 5825 10 1H. Binomial fect Sie Dip Peo Bed 3 100 Peychoromatic Medicine 53:247-271 (1981), 263 R. ROSENTHAL Sie Dieleye No Problem Tost Toa! 100) 00 N. AZT inthe Tene of DS az os "90 cabo ms 100 Foul 10 200 1, Benet of Paychothrpy r= 0.32" Less deneit Crestron Toss Peyhotnerpy a ‘6 ‘00 Tie arlogpus for 6 wuts oirerpersnal pecan elec wat 0.30 axe prem alcohol abuse or dependence was 0.07 (63). The top display of Table shows that the difference between the problem rates of $3.5 and 46.5 per 100 is equal to the correlation coofficient of 007. ‘The center display of Table 4 shows the results ofa study of the effects of AZT on ‘tho survival of 282 patients sufering from AIDS oF AIDS-related complex (ARC) (64), ‘This result of a correlation of 0.22 be- tweon survival and receiving AZT (an r* ‘of 0.054) was 50 dramatic as to lead to the ‘premature termination ofthe clinical rial on the ethical grounds that it would be Improper to continue to give placebo to the control group patients, ‘As a footnote to this display let me add the result of an informal poll of some physicians spending the year 1988-1089 ft the Center for Advanced Study in the Behavioral Sciences. They were asked to tell of some medical breakthrough that ‘was of very great practical importance, ‘Their consensus was that the break- through was the effect of cyclosporine in {increasing the probability that the body ‘would not reject an organ transplant and that the recipiant patient would not di A multi-center randomized experiment a6 was published in 1969 (85). The results of this breakthrough experiment were less Gramatic than the results of the AZT study. For the dependent variable of or- ejection the effect size r was 0.9 (¢* 0.036); for the dependent variable of patient survival the effect size r was 0.15, (= 0.022) The bottom display of Table 4 shows the results of a famous meta-analysis of paychotherapy outcome studies reported bby Smith and Glass (46). An eminent critic believed that the resulis of their analysis sounded the “death knell" for psychother. apy because of the modest size of the elfect. This modest effect size was an r of 0.32 accounting for “only 10% of the var. Examination of the bottom display of ‘Table 4 shows that itis not very realistic to label as “modest indeed” an effect size equivalent to increasing a success rate from 34% to 65% (for example, reducing ‘death rate or a failure rate from 66% to 54%). Indeed. as we have seen, the dra- matic effecis of AZT were substantially smaller (= 0.23), and the “breakthrough” cffects of cyclosporine were smaller still (r= 019, Peychosomatlc Medicine 53:247-271 (1991) META-ANALYSIS Telling How Well We're Doing. The Binomial Effect Size Display is a useful way to display the practical meg: nitude of an effect size regardless of ‘whether the dependent variable is di- cchotomous or continuous (57), An espe: cially useful feature ofthe display is how easily we can go ftom the display to an r (just take the difference betwoon the suc- cess rates of the experimental versus the control group) and how easily we can go from an effect sizer to the display (just ‘compute the treatment success rate as (050 plus one-half of r and the control success rate as 0.50 minus one-half oft) One effect of the standard use ofa dis- play procedure such as the Binomial Ef. fect Size Display to Index the practical value of our research results would be to give us more useful and more realistic assessments of how wall we are really ‘doing as researchers in the psychological and related sciences. Employment of the ‘Binomial Effect Size Display has. in fact shown thal we are doing considerably bot. ter than we may have thought we were doing. 1t would help keep us better ap- prised of how we are doing in our sciencas Mf we routinely translated the typical an- ‘swers to our research questions to effect sizes such as r (and to its equivalent dis- plays) and compared them with other ‘well-established findings such as those shown in Tables $ and 4 ‘THE ISSUE OF STUDY QUALITY ‘One of the most important issues raised in the evaluation of meta-anelytic proce- duresis the throwing together of bad stud. les and good studies. The issue raises two Auestions: (1) What isa bad study? and (2) shall wo do about bad studies? Paychosomatic Medicine 53 7-271 (1991) Defining "Bad" Studies ‘Too often, deciding what is a bad study fs a procedure unusually susceptible to bias or to claims of bias (88). Bad studios are too often those whose results wa do ‘no! like or, as Glass ot a. (17) have put it, the studies of our “enemies.” Therefore when reviewers of research tell us they have omitted the bad studies, we should satisfy ourselves that this has been done by nteria we find acceptable. A discus- sion ofthese criteria (and the computation of their reliability) can be found else- where (92, 2). Dealing with Bad Studies ‘The distribution of studies on a dime sion of quality is of course not really di- chotomous (good versus bed) but contin- ‘uous with all possible degrees of quality ‘The fundamental method of coping with ‘bad studies or. mote accurately, varia- tions in the quality of research, is by aif. forential weighting of studies. Dropping studies is merely the special cate of 2270 ‘weighting (22, 6, 87) ‘The most important question to ask about study quality is asked by Glass (15) Is there a relationship between quality of research and effect size obtained? Ifthe is not, the inclusion of poorer quality studies will have no effect on the estimate of the average effect size though it will help to decrease the size of the confidence interval around that mean. If there ie relationship between the quality of re- search and effect sizo obtained, we can employ whi ting sy find reasonable (and that we can persuade ur colleagues and critics also tofind rea sonable} 265 ‘A SUMMARIZING EXAMPLE Iis not possible within the span of this, ‘all the questions that y the Practicing meta- analyst. However, many of these quos- tions may be addressed by the detailed exposition of a manageable example. “Table 5 presents the hypothetical re sults of five studies of the effect of a new psychological intervention on psychophy- siological responding. In study 1, for ex: tenis were assigned at ran- ‘new intervention while the remaining 21 patients were assigned (0 the treatment usually offered. In study 2, 2 repeated measures design was employed in which 61 patients were randomly as- signed to soveral sequences of treatment and control eg, ABA, BAB and for each patient a difference score was formed to index the superiority of the treatment ‘ver the control condition. Regardless of the design employed in each of the stud- ies, a t test was computed to test the treatment hypothesis, In studies 1, 3, and S this t was a between subjects t with df R. ROSENTHAL = ny + ny ~ 2 and in studies 2 and 4 this ‘was a repeated measures (or matched- palr) twith df =N ~ 1. For each t, Table 5 shows the associated one-tail p, the r= Jet Gj). Finally the Fisher 2 ‘transformation of each r is shown since ‘most of ove calculations will be carr out on these 2's rather than on the raw ‘while preserving the basic effect size data (82, 36, 61; Tukey (88] is the fundamental source) Table 6 summarizes information about the central tendency and variability of the ‘esearch results In this example, the me. ian and weighted mean r are in good ‘agreement and noticeably higher than the ‘unwelghted mean r which is lowered sub. stantially by the lone reversed result being weighted as heavily as the most TABLES. Reval of Five Experiments Seay De Farween ule Repesied messues Between suet Between sues oo amt oo oor tas 027028, ory Ose ata Prychosomatic Medicine $3:247-271 (1999) (META-ANALYSIS positive result although based only on df ‘one-sixth as many (10 versus 60). ‘This smal st of five results shows con- siderable variability. The conservative confidence interval counting each study as only a single observation ranges from heless, the overall null hypoth: sis that the new treatment is no better than the old can be rejected employing equation 19. BNE (0.17) + (2.39) + (-0.58) + (1.48) + (0.96) eo 0.0083, one-tall 1 was equation 20 that yielded the un- ‘woighted moan r of 0.15, (0.28) + (0.30) + (-0.19) pee + (026) + (021) 0356 which is associated with an r of 0.155 (ounded to 0.16), ‘Equation 24 shows how to get the mean, sffect size weighted by the df for the t test weighted For our example, th woighted 2 40(0.18} + 60(0.30) + 10(-0.19) + 30(0.28) + 20(0.21) 40+ 60 + 10+ 20420 0228 LdfeyEdf, (24) which is associated with an of 0.220. We have now examined the average cffect sizes of our set of results (ranging from 1's of 0.16 to 0.22, unweighted a weighted means, respectively) and the Paychosomatic Medicine 53:247-271 (1991) TABLE 8 Summary Statistic for Table 3 end Tendency ‘Medan or oa Uneigied mean ror Ox6 Weighed by mean oz oa Propotion oatve rrr 80 varsity "ange oz -019 10030 11005 25int0 75th pereentle) 00010029 Sole 020 Stondod erro 5) v5) 009 SSieConidencewtenallors 00319047 overall combined level of significance (p = 0.0083). Next we may want to get sense of the heterogeneity of the results In terms of statistical significance to aug- ‘ment the information on heterogeneity or variability given in Table 6. To this end ‘we employ equations 18 and 16. Equation 16 yields (a2 ~ 3)0.18 + (61 - 390.30 +(2~3)- 019 + (31 3)0.28 + (22 ~ s)0.21 @- a+ 1-94 02-9) +@1= 942-9) = 0226 which differs only slightly from the ear: lier mean 2 we computed weighting each by df forthe | tost rather than Ny ~ 3(2 (0.224 rather than 0.226), Equation 15, then yields 30(0.18 ~ 0.226} + sa(0.30 ~ 0.226)" +4+9(-0.19 - 0.226)! + 2/028 ~ 0.226)" + 19(0.21 - 0.226)" =xk-) =x) 2084, p= 0.73. ‘This set of five 2's, then, doss not show heterogeneity even close to statistical sig- ‘Assume, however, that from the outset cd

También podría gustarte