Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Tesista
Directores
Prof. Oscar DIESTE (UPM) y Prof. Ramón GARCÍA MARTÍNEZ (UNLP-UNLa)
Codirectora
Prof. Patricia PESADO (UNLP)
FACULTAD DE INFORMÁTICA
UNIVERSIDAD NACIONAL DE LA PLATA
AGOSTO, 2012
RESUMEN
Objetivo: Desarrollar un proceso de agregación propio para la Ingeniería del Software, tomando en
cuenta en las características específicas de los experimentos realizados en esta área de la ciencia.
Método: Para poder construir el procedimiento de agregación, se han identificado los principales
problemas para realizar un trabajo de esta naturaleza en Ingeniería del Software; se ha evaluado y
analizado como trabajan en otras ramas de la ciencias (como son, por ejemplo, las ciencias sociales
o la ecología); se han identificado técnicas de agregación alternativas a la que habitualmente se
utiliza en Ingeniería del Software; se ha evaluado el desempeño de estas técnicas en contextos como
el que presenta la Ingeniería del Software mediante un procesos de simulación, estableciendo los
niveles de exactitud y potencia empírica de cada una de ellas; y se han definido un conjunto de
heurísticas para poder determinar con que técnica de Meta-Análisis combinar los resultados de los
experimentos identificados, para generar así una conclusión en base a la mejor evidencia disponible.
Resultados: Se han identificado tres técnicas de Meta-Análisis nuevas para la IS: Ratio de
Respuesta Paramétrico, Ratio de Respuesta no Paramétrico y Conteo de Votos Estadístico. Se ha
determinado como es el comportamiento de estas técnicas y la técnica Diferencias Medias
Ponderadas, evaluando su exactitud y potencia empírica, en función del tamaño de Meta-Análisis
(cantidad de experimentos y sujetos por experimentos), el tamaño de efecto y los niveles de
varianza. Finalmente, se ha desarrollado un proceso de agregación de experimentos acorde al
contexto experimental de la IS.
Background: Although the meta-analysis or aggregation of experimental studies is not a new topic
in software engineering, derives its current practice of medicine only recommendations, science,
which in many ways, is far from the current context of Software Engineering (IS). In general,
experiments in medicine containing many subjects. It is also common conducting replications. In
these circumstances, the meta-analysis techniques used, especially weighted mean differences, are
reliable.
Objective: To develop a aggregation process specific for software engineering, taking into account
the particular characteristics of the experiments conducted in this area of science.
Method: In order to build the aggregation procedure, we have identified the main problems for a
work of this nature in Software Engineering, it has been evaluated and tested in other branches of
science (such as, for example, science social or ecological). It has been identified alternative
aggregation techniques to habitually used in Software Engineering, we have evaluated the
performance of these techniques in contexts like the one with the Software Engineering through a
simulation process. It has been established accuracy levels and empirical power each. And it has
been defined a set of heuristics to determine which technique of meta-analysis have to be used to
combine the results of the experiments identified, in order to generate a conclusion based on the
best available evidence .
Results: We have identified new three meta-analysis techniques to be used in Sotware Engineering:
parametric response ratio, non-parametric response ratio, and statistical vote counting. It has been
determined as is the behavior of these techniques and weighted mean differences technique. It has
been evaluated the empirical accuracy and power, depending on the size of meta-analysis (number
of experiments and subjects for experiments), the effect size and levels of variance. Finally, we
have developed a process of aggregation of experiments according to software engineering
experimental context.
Conclusions: The aggregation process developed allows to to leverage best available empirical
evidence in the context of the Software Engineering, allowing the aggregation of results of
experiments reports with shortcomings . Although the behavior of the aggregation techniques, in
general terms, has established in our work by using simulation, there is not accurate enough to
determine exactly which is the level of error for all possible combinations of experiments sizes.
DEDICATORIA
Al Centro de Ingeniería del Software e Ingeniería del Conocimiento del Instituto Tecnológico de
Buenos Aires por apoyarme en las instancias iniciales del desarrollo de mis estudios de postgrado.
A mis tres directores de tesis: al Dr. Oscar Dieste por dirigir mi trabajo con la dedicación del
maestro y el afecto del amigo; sin cuyas cualidades, no hubiera sido posible culminar la presente
obra; al Dr. Ramón García-Martínez por sus siempre acertados consejos en las encrucijadas de vida
que acompañan todo proyecto de investigación, sumando a la exactitud del científico la calidez del
docente de alma; y a la Lic. Patricia Pesado por sus valiosas aportaciones en la descripción de las
problemáticas de la Ingeniería de Software, haciendo gala de permanente presencia e
inquebrantable disposición.
A la Dra. Natalia Juristo por haberme guiado en mis primeros pasos del trabajo del doctorado y por
su colaboración en el desarrollo de los trabajos de investigación.
A mi compañera y amiga Paola Britos por su gran aporte en mi formación y por todo el apoyo que
me brindó para que pudiera realizar el doctorado.
A mis compañeros de ruta Hernán Merlino y Alejandro Hossian, con quienes he realizado cursos de
doctorado y me han prestado su ayuda siempre que la necesité.
A Florencia Pollo y Pablo Pytel con quienes trabajamos en esta área de la ciencia en sus tesis de
maestría.
ÍNDICE
1. INTRODUCCIÓN 1
1.1. Área de Investigación 1
1.2 Antecedentes 3
1.3. Definición del problema 5
1.4. Objetivos de la Tesis 6
1.5 Visión General de la Tesis 7
2. ESTADO DE LA CUESTIÓN 9
2.1 Necesidad del Meta-Análisis 9
2.2 Desarrollo Histórico del Meta-Análisis 12
2.3 Concepto de Meta-Análisis 14
2.3.1. MODELO DE EFECTO FIJO 16
2.3.2. MODELO DE EFECTOS ALEATORIOS 18
2.3.3. CUANDO APLICAR UN MODELO DE EFECTO FIJO O EFECTOS 20
ALEATORIOS
2.4 Meta-Análisis en Ingeniería del Software 21
2.5 Meta-Análisis Realizados en Ingeniería del Software 23
3. OBJETIVOS Y METODOLOGÍA DE TRABAJO 25
3.1. Preguntas de Investigación 25
3.2. Metodología de Trabajo 27
3.2.1 Revisión Sistemática de Literatura 29
3.2.2 Simulación de Montecarlo 30
3.3. Mapeo de preguntas de investigación y publicaciones 32
3.4. Contribuciones 34
4. RESUMEN DE RESULTADOS 37
4.1 Objetivo 1: Identificar técnicas de Meta-Análisis Alternativas a DMP 37
4.1.1 Actividad 1- Identificación de técnicas de Meta-Análisis alternativas a DMP 37
4.1.2 Actividad 2 – Verificación de la aplicabilidad de las técnicas de agregación 39
cuando hay problemas de calidad en los reportes
4.2 Objetivo 2: Estudiar el Comportamiento de las Técnicas de Meta-Análisis para el 40
Contexto Experimental de IS
4.2.1 - Caracterización del contexto experimental de la IS 40
4.2.2 Por que la Exactitud y la Potencia Empírica son estudiados 42
4.2.3 Actividad 3 – Evaluar la Exactitud y Potencia Empírica de las técnicas de 43
Meta-Análisis ignorando la Heterogeneidad
4.2.4 Actividad 4 – Evaluar la potencia empírica de las técnicas para determinar 47
Heterogeneidad en un Meta-Análisis
TESIS DOCTORAL EN CIENCIAS INFORMATICAS ENRIQUE FERNANDEZ
i
INDICE PROCESO DE AGREGACIÓN PARA ESTUDIOS EXPERIMENTALES EN INGENIERIA DEL SOFTWARE
ÍNDICE DE FIGURAS
ÍNDICE DE TABLAS
NOMENCLATURA
1. INTRODUCCION
Este capítulo tiene como objetivo introducir al lector en la problemática de la tesis. En el mismo se
presenta el área de investigación (sección 1.1), se describen los antecedentes que justifican la
realización de esta investigación (sección 1.2), se define el problema a resolver (Sección 1.3), se
definen los objetivos de investigación (sección 1.4) y, finalmente, se presenta la estructura del
documento de tesis (sección 1.5).
Para poder tener decisiones objetivas, es necesario conocer con precisión cómo es el
comportamiento de los métodos, técnicas y herramientas de IS. Para ello, existen distintas
aproximaciones que permiten obtener la información necesaria. A modo de ejemplo, una
demostración matemática puede determinar la complejidad de un algoritmo, o una simulación
puede demostrar cuál, de un conjunto de métodos de optimización, es preferible. Sin embargo, hay
muchos otros casos de investigación en IS, donde las metodologías de investigación son
inapropiadas o cubren la tarea en partes. Principalmente, por que muchas de las tareas vinculadas a
la construcción de Software están relacionadas con las personas que las realizan. Por lo tanto la IS
requiere que se desarrollen metodologías de investigación propias a sus características y contexto de
trabajo [Wohlin, C.; et al.; 2000].
Un experimento es una investigación formal, rigurosa y controlada. Siendo uno de sus factores
clave la identificación y manipulación. En un experimento, las variables bajo estudio toman
distintos valores, y el objetivo es normalmente comparar dos situaciones [Wohlin, C.; et al.; 2000],
por ejemplo la influencia de la experiencia en los programadores, comparando los resultados de un
novatos contra los de un programador experimentados.
Actualmente es razonable estimar que el número de experimentos en IS crece a una tasa del 10%
anual. Por ejemplo, entre los años 1993 y 2003 solo se publicaron 93 experimentos [Dyba, T.;
Kampenes, V.; Sjoberg, D.; 2006] en journal y conferencias de primer nivel, como es por ejemplo
IEEE Transactions on Software Engineering. Sin embargo, la cantidad de experimentos
desarrollados dentro del campo de la IS fue mucho mayor, duplicando o incluso triplicando la cifra
antes mencionada [Dieste, O.; Griman, A.; 2007].
1.2. ANTECEDENTES
El hecho de que un simple experimento produzca ciertos resultados no puede tomarse como
evidencia suficiente para creer que él mismo es una verdad universal. La replicación de
experimentos llevada a cabo por diferentes investigadores, en distintos sitios bajo similares
condiciones permite mejorar la confianza de los conocimientos generados [Judd, C.; Smith E.;
Kidder, L.; 1991]. Mediante la combinación de los resultados de estas replicaciones, de manera total
o parcial, los investigadores pueden analizar si los resultados son consistentes o no entre las
mismas, e identificar las variables que influyen en el comportamiento fenómeno bajo estudio. Las
distintas estrategias de combinación de resultados experimentales se conocen con el nombre
genérico de métodos de síntesis [Chalmers, I.; Hedges, L.; Cooper H.; 2002] o métodos de
agregación [Cochrane; 2011], como típicamente acostumbran a denominarse en IS.
Existen diversas técnicas de Meta-Análisis, aplicables a distintos conjuntos de datos. Por ejemplo,
el Odds Ratio [Hedges, L.; Olkin, I.; 1985] se aplica cuando los datos experimentales son discretos.
Para datos continuos, la técnica utilizada son las Diferencias Medias Ponderadas (DMP) [Hedges,
L.; Olkin, I.; 1985]. La técnica DMP ha sido ampliamente utilizada en ciencias como la psicología o
medicina, es la recomendada por organismos como [Cochrane, 2011] y es la indicada por
[Kitchenham, B.; 2004] en sus recomendaciones para el desarrollo de revisiones sistemáticas en
Ingeniería del Software. A la fecha es la única técnica de Meta-Análisis aplicada en Ingeniería del
Software.
Como toda técnica estadística, el DMP tiene ciertas condiciones de aplicación. En primer lugar, el
conjunto de experimentos a agregar debe cumplir ciertas restricciones [Hedges, L.; Olkin, I.; 1985]:
contener un número mínimo de estudios (típicamente 10); un número mínimo de sujetos (unos 10
sujetos por nivel); estar adecuadamente reportados (como mínimo: número de sujetos
experimentales, medias y varianzas); y ser homogéneos (esto es, que no existan variables
moderadoras que interaccionen con los factores).
En segundo lugar, la técnica DMP asume que las muestras utilizadas son grandes. Esta asunción es
necesaria debido al carácter asintótico (esto es, basado en la teoría de los grandes números) con el
que la técnica DMP fue creada. Sin embargo, las técnicas estadísticas basadas en grandes muestras,
no necesariamente arrojan resultados fiables cuando se aplican a pequeñas muestras [Cohen J.;
1988]. Las consecuencias de aplicar técnicas estadísticas asintóticas a pequeñas muestras consisten
en diferencias entre los valores nominales (los esperados según la teoría) y empíricos (los que
ocurren en la práctica) de diversos parámetros, tales como [Cohen J.; 1988]:
Los efectos de pequeñas muestras son a menudo pasados por alto cuando se aplican las técnicas
estadísticas. En el campo del Meta-Análisis con DMP los efectos de pequeñas muestras apenas se
han estudiado (con excepción de [Hedges, L.; 1982]). En general, puede afirmarse que
Por diversas razones (por ejemplo: costos de realización de un experimento en IS, ausencia de un
programa de investigación en ISE, etc.), las cuales están fuera del alcance de esta tesis, a menudo
las agregaciones de experimentos en IS no cumplen con las condiciones de aplicación de la técnica
DMP.
Por ejemplo, en el trabajo de [Ciolkowski, M.; 2009], se identifican 21 experimentos sobre técnicas
de inspección, los cuales son agregados en tres grupos, el primero conteniendo 7 experimentos, el
segundo 9 y el tercero 5, dichos experimentos poseen tamaños variados, conteniendo el menor 3
sujetos experimentales por nivel, el mayor 45 sujetos por nivel, mientras que el promedio asciende a
6 sujetos por nivel.
Si bien el trabajo de [Ciolkowski, M.; 2009] ha sido publicado, y puede ser considerado exitoso, lo
cierto es que el número de experimentos por agregación, y sujetos por nivel, está por debajo de los
niveles recomendados (10 experimentos por agregación; 10 sujetos por nivel) indicados
anteriormente, por lo que un meta-análisis realizado con DMP en estas condiciones puede sufrir
cualquiera de los errores indicados anteriormente (por ejemplo: cometer un error tipo I o II mayor
del nominal, o presentar un intervalo de confianza que no contenga al valor poblacional).
Otro ejemplo es el trabajo de [Dieste, O., Juristo, N.; 2009], donde se identificaron 30 experimentos
sobre educción de requisitos. El menor contiene 2 sujetos experimentales por nivel, el mayor 21,
mientras que el promedio asciende a 11 sujetos por nivel. Para cada grupo de experimentos
agregables, menos del 20% publicaban las varianzas. Por consiguiente, en este trabajo no pudo
aplicarse meta-análisis con DMP.
Podrían citarse otros ejemplos, pero, el caso es que la ISE se caracteriza, en la actualidad, por
desarrollar pocas replicaciones de experimentos, que a su vez emplean tamaños muestrales muy
reducidos, y que en algunos casos tienen falencias de reporte (principalmente ausencia de
2. En los casos en que la técnica DMP es aplicable, el número de experimentos por agregación
y sujetos por nivel suelen ser demasiado pequeños, lo que provoca que los resultados
obtenidos (por ejemplo: tamaños de efecto, o intervalos de confianza) puedan no ser
correctos.
El objetivo general de esta tesis consiste en definir un nuevo procedimiento de Meta-Análisis que
pueda ser utilizado para agregar de forma más eficiente experimentos en IS. Este procedimiento
permitirá solventar los problemas de reporte y evitar (en la medida de lo posible) los efectos de
pequeñas muestras, lo que redundará en un aumento en la cantidad y calidad de las piezas de
conocimiento empíricamente fundadas en ISE.
Este objetivo general se divide en tres objetivos detallados, los cuales se presentan a continuación:
Objetivo 3: desarrollar un proceso de Meta-Análisis propio para Ingeniería del Software que
permita determinar mediante que técnica agregar los experimentos identificados.
El Capitulo Estado de la Cuestión, tiene como objetivo describir como es el contexto de trabajo en
cual se inserta esta tesis, permitiendo al lector adquirir los conocimientos necesarios para
comprender la problemática de la misma, como así también el por qué de la solución adoptada. En
el mismo se describe porque es necesarios agregar o Meta-Analizar los experimentos, como ha sido
el desarrollo histórico del Meta-Análisis, se indica en qué consiste concretamente el Meta-Análisis
y cuáles son las variantes para agregar experimentos en función de las características del contexto
en el cual fueron generados, se detallada como ha sido la aplicación del Meta-Análisis en IS, y se
presentan los trabajos de Meta-Análisis desarrollados hasta el momento en IS.
El capítulo Objetivos y Metodología de Trabajo, tiene como objetivo describir en detalle los
objetivos de investigación y las preguntas de investigación detalladas que se derivan de ellos. El
núcleo de la investigación consiste en identificar técnicas de Meta-Análisis alternativas a DMP y
caracterizar su funcionamiento en contextos de pequeñas muestras, como es el caso de la Ingeniería
del Software, los métodos de investigación utilizados serán la revisión sistemática de literatura y la
simulación de Monte Carlo. Finalizará el capítulo con la relación entre las publicaciones realizadas
y las preguntas de investigación y, finalmente, se presentan las contribuciones realizadas.
El capítulo Resumen de Resultados, tiene como objetivo describir como se ha dado respuesta a cada
una de las preguntas de investigación planteadas, se presentan las técnicas de Meta-Análisis
alternativas a DMP identificadas y a continuación se muestran como varía el comportamiento en
función de las características del contexto, tomando como base las aportaciones anteriores, se
propone un proceso de agregación de experimentos específico para experimentos realizados en IS.
El capítulo Demostración de la Solución, tiene como objetivo presentar un caso de estudio teórico
donde se aplica el procedimiento de agregación definido en la sección 4, y un caso de aplicación
real en el cual se toma como base una revisión sistemática desarrollada dentro del contexto de esta
tesis.
El capítulo Discusión, tiene como objetivo discutir los conocimientos generados en esta tesis, se
analizan los resultados obtenidos en el desarrollo de las actividades realizadas para dar respuestas a
las preguntas de investigación, se analiza la aplicabilidad del procedimiento desarrollado y se
detallan los beneficios de la utilización del procedimiento presentado.
El capítulo Conclusiones y Futuras Líneas de Investigación, tiene como objetivo presentar las
contribuciones de esta tesis a la comunidad científica en Ingeniería del Software y analizar futuros
trabajos ampliatorios al presente trabajo.
El Anexo C, tiene como objetivo describir cómo se realizó el trabajo de búsqueda y selección de las
técnicas de agregación alternativas a DMP.
El Anexo D, tiene como objetivo describir cómo funcionan las técnicas de agregación alternativas a
DMP.
El Anexo E, tiene como objetivo presentar todas las publicaciones realizadas en el contexto de la
presente tesis.
2. ESTADO DE LA CUENTION
Este capítulo tiene como objetivo describir como es el contexto de trabajo en cual se inserta esta
tesis, permitiendo al lector adquirir los conocimientos necesarios para comprender la problemática
de la misma, como así también el por qué de la solución adoptada. En el mismo se describe porque
es necesarios agregar o Meta-Analizar los experimentos (sección 2.1), como ha sido el desarrollo
histórico del Meta-Análisis (sección 2.2), se indica en qué consiste concretamente el Meta-Análisis
y cuáles son las variantes para agregar experimentos en función de las características del contexto
en el cual fueron generados (sección 2.3), se detallada como ha sido la aplicación del Meta-Análisis
en IS (sección 2.4), y se presentan los trabajos de Meta-Análisis desarrollados hasta el momento en
IS (sección 2.5).
A continuación se presentan dos definiciones de dos autores diferentes respecto de por qué es
necesario el Meta-Análisis:
1. Según [Chalmers I., Hedges L., Cooper H.; 2002] los experimentos aislados proporcionan
únicamente resultados parciales y solamente la acumulación de resultados parciales
(replicaciones del experimento y combinación de los resultados) permite obtener resultados
fiables y generalizables.
2. Según [Borenstein, M., Hedges, L., Rothstein, H.; 2007] al realizar un Meta-Análisis, se
busca hallar un resultado que sea resumen representativo de los resultados de los estudios
individuales, y por tanto que signifique una mejora sobre las estimaciones individuales.
Idealmente, se debe partir de los estudios individuales -con sus virtudes y defectos- y
obtener un resultado que sea más fiable que los resultados individuales de los que partíamos.
En ambos casos los autores coinciden en señalar que el Meta-Análisis es una mejora a la calidad de
los conocimientos de los estudios individuales, ya que de esta forma se logra generar conocimientos
que posean realmente una visión general y se minimiza el impacto del error experimental en el cual
puede caer un investigador a la hora de desarrollar un experimento.
Al realizar un experimento comparando los niveles de un factor, se obtiene una respuesta precisa: o
bien afirmar la hipótesis nula H0, o bien afirmar la hipótesis alternativa H1. Sin embargo, nada
asegura que esta respuesta sea la verdadera, ya que los experimentos se aplican sobre una pequeña
cantidad de sujetos experimentales y no sobre toda la población. En consecuencia, existen cuatro
posibles resultados de un experimento en lo relativo a su veracidad, tal y como indica la Tabla 2.1.
Dos de los cuatro posibles resultados son errores, conocidos como errores tipo I y II.
El error tipo I ocurre cuando el experimento arroja que la hipótesis alternativa H1 es verdadera,
cuando en realidad es cierta la hipótesis nula H0. Para un investigador, éste error es el más
importante. La razón es muy sencilla: Todos nosotros intentamos desarrollar nuevos métodos y
técnicas que hagan más eficiente el desarrollo de software, pero necesitamos demostrar que dichos
métodos y técnicas son efectivamente mejores, razón por la cual acudimos a la realización de
experimentos confiando que H1 sea cierta. Si el experimento arroja que H1 es cierto, deseamos que la
probabilidad de cometer un error de tipo I sea la menor posible. Por otra parte, cometer un error de
tipo II consiste en indicar que H1 es cierto cuando en realidad en la población se corrobora lo
contrario.
La probabilidad de cometer un error tipo I se denota como α. A la hora de aplicar test estadísticos a
los datos experimentales, los investigadores son libres de determinar el valor de α, por lo tanto, el
riesgo de cometer un error tipo I. Es habitual que el valor de α se fije en valores muy pequeños,
tales como: 0,1; 0,05 o incluso 0,01 (10%, 5% y 1% respectivamente), pero pocas veces se define el
nivel de β.
Lamentablemente, nuestra capacidad para asignar un valor a α es limitada. Los test de hipótesis, se
caracteriza por 5 factores [Cohen, J.; 1988]: α, β (del que hablaremos a continuación), la diferencia
entre las medias d, el nivel de variación de la variable respuesta s (medido a través de la varianza o
la desviación típica) y el número de sujetos experimentales n. La relación entre estos factores se
muestra en la ecuación 2.1, donde z representa la distribución normal tipificada:
n (2.1)
z1−β = d − z1−α
2
Estos 5 factores forman un sistema cerrado, haciendo que una disminución o incremento en
cualquiera de los factores provoque incrementos o disminuciones en los demás. Por lo tanto, a
medida que el investigador requiere valores más pequeños de α, tiende a aumentar el parámetro β
(ya que tanto d como s son propios del contexto experimental y por lo tanto no pueden ser
manipulados, mientras que n no puede incrementarse fácilmente en la práctica).
β es la probabilidad del error tipo II. Este error, tal y como indica la Tabla 2.1, significa que el
experimento determina que la hipótesis nula H0 es cierta, cuando en la población se verifica
realmente la hipótesis alternativa H1. En otras palabras: Existe una probabilidad β de que el
experimento arroje resultados no significativos erróneamente. Esto no debería ser un problema si no
fuera porque β tiene habitualmente un valor muy alto. A este respecto, véase la Figura 2.1, donde se
representa la relación entre β y n para α = 0,05 (la situación más común en experimentación) para
unos valores d y s representativos de los experimentos en IS [Dieste, O; et al., 2010].
90
80
70
60
50
β
40
30
20
10
4
24
40
56
72
88
8
10
n
Puede apreciarse en la Figura 2.1 que un experimento con n = 40 (esto es, 40 sujetos
experimentales) tiene un β ≈ 0,4. Esto implica que, en promedio, si realizamos 10 experimentos de
este tipo, obtendremos 6 resultados significativos (60%) y 4 no significativos (40%, esto es, el
parámetro β considerado como un porcentaje).
La cuestión es, entonces, cómo determinar qué resultado, de entre todos los obtenidos en un
conjunto de experimentos relacionados, es el correcto.
La primera síntesis de experimentos data de 1904 y fue realizada por K. Pearson [Cooper, H.;
Hedges, L.; 1994]. Se trató de reconciliar 11 estudios acerca de la vacunación contra el tifus, para lo
cual Pearson utilizó un enfoque completamente objetivo promediando los resultados. Por la década
del 30’ se realizaron varios intentos de Meta-Análisis. No obstante, no es hasta la década de los 80
que el Meta-Análisis se comenzó a aplicar de forma masiva en Medicina y a partir de los 90 es muy
frecuente encontrar artículos de estas características en la mayoría de las ramas de la ciencia como
son: las ciencias sociales [Petrosino, A.; et al; 2001], la psicología [Sanchez-Meca, J.; Botella, J.;
2010], la psiquiatría [Navarro, F.; et al; 1999], la educación [Davies, P.; 1999] y la ecología
[Miguez, E.; Bollero, G.; 2005] entre otras.
Pero las técnicas no se desarrollaron en plenitud ni adquirieron gran difusión hasta fechas muy
recientes. La persona clave en este proceso fue G.V. Glass, que en 1976 propuso el uso del tamaño
del efecto y la diferencia de medias ponderada (DMP) para la combinación de experimentos en
educación [Glass, G.; 1976]. Y lo que no es menos importante, también propuso el nombre por el
que esta técnica, así como otras similares, se conocen hoy en día: Meta-Análisis [Hunt, M.; 1997].
Para comprender mejor la importancia de las aportaciones del trabajo de Glass, hay que considerar
como era el contexto en el cual hace sus aportaciones. Durante la década del 60’ se produce la
“explosión” de la experimentación, sobre todo en ciencias sociales, [Chalmers I., Hedges L.,
Cooper H.; 2002]. Una década más tarde, el panorama en ciencias sociales era desalentador: Los
experimentos realizados ofrecían resultados totalmente contradictorios, hasta el punto de cuestionar
la idoneidad de la investigación experimental aplicada a las ciencias sociales, llevando a los
organismos gubernamentales a plantearse la posibilidad de cortar los fondos para el desarrollo de
este tipo de trabajos.
Visto desde la perspectiva actual, las dudas suscitadas en aquel entonces parecen pueriles. Hoy
sabemos que la probabilidad de error tipo II (β) de aquellos experimentos, desarrollados con pocos
sujetos experimentales, era muy alta, lo que explica su carácter contradictorio. Sin embargo, en
aquel entonces se sabía poco acerca del error de tipo II, ya que el desarrollo de la teoría estadística
relacionada se produjo en 1962 y sólo fue popular a partir de 1977 [Cohen, J.; 1988].
La intuición superior de Glass consistió en entender que no había estudios correctos o incorrectos,
sino que cada uno poseía en sí parte de la verdad [Glass, G.; 2000]. Y que la combinación objetiva
era lo que iba a permitir obtener las evidencias necesarias para validar las teorías que la ciencia
necesita para poder funcionar.
Existen métodos para el tratamiento de variables continuas y discretas [Hedges, L.; Olkin, I.; 1985],
los primeros asociados a mediciones en las cuales es factible establecer un promedio, por ejemplo
cantidad de promedio de fallas detectadas en un programa, cantidad promedio de líneas de código
utilizadas, etc.; y los segundos a variables asociadas a alguna tasa o relación entre casos exitosos
sobre casos totales, utilizada habitualmente en medicina para avaluar, por ejemplo, la cantidad de
pacientes con sobre vida respecto de la cantidad total de pacientes evaluados que fueron expuestos a
un tratamiento. Si bien ambos tipos de variables pueden ser utilizadas en IS, el campo de aplicación
de las variables discretas se circunscribe a un campo de aplicación muy reducido, como podría ser
el análisis de tráfico en redes, donde no existen inconvenientes a la hora de realizar una prueba de
gran volumen. Por ello, la presente tesis solo se centrará en los métodos aplicables a variables
continuas que son los que más inconvenientes tienen a lo hora de ser aplicado en el actual contexto
de IS.
Hay que tener en cuenta que si todos los estudios incluidos en el proceso de agregación fueran
igualmente precisos, bastaría con promediar los resultados de cada uno de ellos para obtener así una
conclusión final. Sin embargo, en la práctica no todos los estudios tienen la misma precisión, por
ello cuando se los combine se debe asignar un mayor peso a los estudios que permiten obtener
información más fiable. Esto se logra combinando los resultados mediante un promedio ponderado
[Borenstein, M.; Hedges, L.; Rothstein, H.; 2007], donde cada experimento es calificado en base a
alguna propiedad, generalmente la inversa de su varianza. Para poder lograr realizar este promedio
ponderado, los experimentos individuales deben brindar un resultado cuantitativo que además
permita compatibilizar diferencias de escalas entre los experimentos, ya que los resultados de los
diferentes estudios pueden medirse en diferentes escalas de la variable respuesta [Cochrane; 2011].
Por lo tanto, la variable dependiente en un Meta-Análisis debe poder compatibilizar estos aspectos,
lo cual se logra mediante la estimación de un “tamaño de efecto” (o mejora), el cual consiste en un
estimador estandarizado no escalar de la relación entre una exposición y un efecto. En sentido
general, este término se aplica a cualquier medida de la diferencia en el resultado entre los grupos
de estudio [Borenstein, M.; Hedges, L.; Rothstein, H.; 2007].
Las figura 2.2 y 2.3 ilustran lo dicho anteriormente, mostrando en la figura 2.2 un único tamaño de
efecto poblacional, donde la diferencia entre el tamaño de efecto poblacional y de los experimentos
se debe únicamente a un problema experimental. Por su parte, la figura 2.3 muestra varios tamaños
de efecto, todos reales para el contexto en el cual fueron realizados los experimentos, lo que los
hace “heterogéneos” entre si y resalta la existencia de variables no controladas que afectan al
comportamiento del fenómeno (para mayores respecto de la heterogeneidad dirigirse al anexo B).
En estas condiciones lo que se puede obtener a nivel general es un promedio de los tamaños de
efecto [Schmidt, F.; Hunter, J.; 2003].
En las siguientes subsecciones se explica con mas detalla en qué consiste cada una de las
estrategias.
Como ya se mencionó, para el modelo de efecto fijo existe un único tamaño de efecto al cual
pertenecen todos los experimentos que van a ser agregados. Por ende cualquier diferencia en los
resultados obedece únicamente a un error experimental aleatorio propio de la experimentación
[Borenstein, M.; Hedges, L.; Rothstein, H.; 2007]. Por ello dentro de este enfoque la ponderación de
los experimentos se realiza únicamente en base a la inversa de su varianza, asumiendo que cuanto
menor sea la varianza más preciso es el experimento. Dado que, en general, la varianza es
inversamente proporcional al tamaño del experimento (cantidad de sujetos que posee) tendremos
que los experimentos de mayor tamaño tendrán una mayor representatividad en la conclusión que
los pequeños, por ejemplo un experimento con 1.000 sujetos experimentales tendrá una ponderación
10 veces mayor que la que tiene una de 100 sujetos experimentales [Borenstein, M.; Hedges, L.;
Rothstein, H.; 2007]. Esto produce que la conclusión general se vuelque hacia el resultado
particular de un estudio cuando este es mucho más grande que los demás.
La técnica de modelo de efecto fijo aplicada en IS es la DMP, cuyo cálculo consta de dos pasos,
primeramente se debe estimar el tamaño de efecto de cada uno de los experimentos, y una vez
estimados los mismos, podrá estimarse el tamaño de efecto global. A continuación se presenta la
función de estimación del tamaño de efecto para un experimento (o efecto individual) [Hedges, L.;
Olkin, I.; 1985], mediante la ecuación 2.2:
Luego de estimar el tamaño de efecto, se estima el error típico, y en base a este se establece el
intervalo de confianza asociado al efecto para el nivel de fiabilidad deseado, generalmente del 95%,
lo que equivale a un error de tipo I del 5% (α = 0,05), mediante la ecuación 2.3:
d − Zα / 2 v ≤ λ ≤ d + Zα / 2 v es 1,96 (α = 0,05)
Una vez estimados los tamaños de efectos de los estudios individuales se puede estimar el tamaño
de efecto global mediante la ecuación 2.4:
d* =
∑ d /σ i
2
i (d ) d* representa el tamaño de efecto global (2.4)
∑1 / σ 2
i (d ) ∑ d / σ (d ) es la sumatoria de los efectos individuales
i
2
i
v = (1/ ∑ 1 / σ 2
i (d ) ) ∑ 1 / σ ( d ) es la sumatoria de la inversa varianza
2
i
Una vez estimado el tamaño de efecto global, se estima el intervalo de confianza asociado al
mismo, mediante la ecuación 2.5:
A diferencia del modelo de efecto fijo, para el modelo de efectos aleatorios existe más de un tamaño
de efecto, debido a que los experimentos no son homogéneos, es decir, los resultados de cada
experimentos están condicionados por un conjunto de variables no controladas, por ende existen
dos tipos de errores, el error propio de cada uno de los experimentos producto de la
experimentación (como sucede con el modelo de efectos fijo) y el error producido por la
combinación de estudios provenientes de distintos contextos que poseen diferentes tamaños de
efecto [Borenstein, M.; Hedges, L.; Rothstein, H.; 2007]. Este se traduce en la estimación de dos
tipos de varianzas, la varianza interna de los estudios y la varianza entre estudios. De esta forma los
experimentos reciben una “doble ponderación”, la cual tiende a mitigar la influencia de los
experimentos grandes en la conclusión general haciendo más representativos a los experimentos con
menos sujetos, ya que a diferencia del otro modelo cada experimento puede estar aportando un
tamaño de efecto diferente.
La inclusión de la varianza entre experimentos trae aparejado un nuevo problema, el error asociado
a su estimación, el cual se incremente cuando el Meta-Análisis posee pocos experimentos. Por ello,
autores como [Borenstein, M.; Hedges, L.; Rothstein, H.; 2007], no recomiendan su uso cuando el
Meta-Análisis posea pocos experimentos (en la práctica menos de 10).
La técnica de modelo de efectos aleatorios aplicada en IS es una versión de DMP que incluye la
estimación de la varianza entre estudios para el cálculo del tamaño de efecto global. Dado que la
función para el cálculo del efecto individual es la misma que para el modelo de efecto fijo,
ecuación 2.2, solo se describe la estimación del tamaño de efecto global [Borenstein, M.; Hedges,
L.; Rothstein, H.; 2007] [Hedges, L.; Olkin, I.; 1985], mediante la ecuación 2.6:
Δ=
∑d /γ i
2
i Δ representa el tamaño de efecto global (2.6)
∑1 / γ 2
i
∑1 / γ 2
i representa la sumatoria de la inversa de las varianzas
entre-estudios e intra-estudios
Una vez estimado el tamaño de efecto global, se debe estimar el intervalo de confianza asociado al
mismo, mediante la ecuación 2.7:
Es alta mente probable que un conjunto de experimentos que analizan el desempeño de un par de
tratamientos arrojen resultados diferentes, esto se debe fundamentalmente a la selección y
asignación de sujetos experimentales de manera aleatoria. Pero también es esperable que estas
diferencias no sean demasiado notorias, ya que si esto sucediera sería esperable que exista algún
factor no controlado que está condicionando el resultado del estudio. En cuyo caso se dirá que los
experimentos son heterogéneos. Si la heterogeneidad es confirmada, se debe tomar una decisión de
cómo tratarla, para ello se pueden aplicar 3 estrategias distintas [Cochrane; 2011]:
a) Ignorar la heterogeneidad (esto es, asumir que la varianza entre estudios τ2 = 0). Esto
implica que el Meta-Análisis se lleva a cabo utilizando técnicas de efectos fijos.
b) Incorporar la heterogeneidad (esto es, calcular y añadirla a la varianza intra-
estudios σ2). Esto implica que el Meta-Análisis se lleva a cabo mediante técnicas de efectos
aleatorios.
c) Explicar la heterogeneidad (esto es, calcular si Q > (k-1) y, en caso de que este resultado
sea significativo, hipotetizar la existencia de una variable moderadora hipotética). Esto
implica descomponer el conjunto inicial de experimentos en tantos subgrupos distintos1
como valores posee la variable moderadora, y repetir el análisis de heterogeneidad para cada
subgrupo.
Según la teoría, para poder optar por una de las estrategias, es necesario determinar si existe o no
heterogeneidad estadística (Para más detalle de cómo estimar la heterogeneidad ver anexo B). Para
ello, es necesario utilizar el test Q que permite determinar si existe o no la misma. El problema aquí
radica en que el test Q carece de potencia cuando se aplica a Meta-Análisis hechos con pocos
1
Es igualmente posible realizar una correlación entre los resultados experimentales y la variable moderadora (meta-
regresión), aunque el número de experimentos necesarios para proceder de este modo es tan elevado que ni siquiera es
de uso habitual en medicina. Por esto, la meta-regresión no se aborda en el presente trabajo de tesis.
experimentos, por ello es casi imposible determinar con precisión si existe o heterogeneidad en los
trabajos realizados en IS. Como solución a este problema [Schmidt, F.; Hunter, J.; 2003]
recomienda que se usen los efectos aleatorios siempre, lo cual contradice en parte lo dicho por
[Borenstein, M.; Hedges, L.; Rothstein, H.; 2007] quien indica que si el Meta-Análisis posee menos
de 10 experimentos el error asociado a este método es demasiado alto y no debería aplicarse.
2 Él sólo aplicó DMP pero generalizó erróneamente el resultado de su estudio, sin considerar que existen otras técnicas
de meta-análisis.
3 Nótese que revisión sistemática y Meta-Análisis son conceptos relacionados, pero distintos. Una revisión sistemática
es: “a means of identifying, evaluating and interpreting all available research relevant to a particular research question,
or topic area, or phenomenon of interest” [Kitchenham, B.; 2004]. Esto es; una revisión sistemática comprende todo el
que, a pesar del gran número de revisiones sistemáticas realizadas, sólo se ha aplicado meta-análisis
en el 2% de casos. Pero aún, de las citadas 100 revisiones sólo se aplicó alguna técnica de síntesis
(estadística o no) en unos cinco casos como máximo [Cruzes, D.; Dyba, T.; 2010], tratándose el
95% de los casos restantes de lo que recientemente se ha dado en denominar mapping studies, para
diferenciarlos de las revisiones sistemáticas puras donde la agregación de resultados es una parte
consustancial.
Si bien este trabajo de [Miller, J.; 2000] fue el pionero en cuanto a la aplicación de un Meta-
Análisis en Ingeniería del Software, solo combino los resultados de cuatro experimentos, por cuanto
la aplicación real de los conocimientos generados fue escaza. Más recientemente, en el trabajo de
[Dyba, T.; et al.; 2007], se identifican 20 experimentos sobre programación de a pares, los cuales
son agregados en tres grupos, el primero de 11 experimentos, el segundo de 11 experimentos y el
tercero de 10 experimentos, donde el experimento más pequeño contiene 4 sujetos por tratamiento,
el mayor 35 sujetos por tratamiento, mientras que el promedio asciende a 13 sujetos por
tratamiento.
Así como se menciona el trabajo de [Dyba, T.; et al.; 2007], hay una gran cantidad de autores que,
si bien pudieron desarrollas las tareas de búsqueda y selección de estudios experimentales, no
pudieron agregar los resultados para generar una conclusión basada en un mayor nivel de evidencia
utilizando el método DMP. Por ejemplo: en [Dieste, O.; Juristo, N.; 2009] se analizaron un conjunto
de experimentos vinculados a las técnicas de educción de requisitos y, debido a que la gran mayoría
de los reportes no publicaba las varianzas, se generan un conjunto de recomendaciones respecto del
uso de las mismas mediante un conteo de votos (el tratamiento que tenía mayor cantidad de estudios
que indicaban que era mejor era proclamado como el más adecuado); en [Mohagheghi, P.; Conradi ,
R.; 2004] se analizó la reutilización del software en la modificación y/o creación de nuevos
productos, como había problemas de compatibilidad en las variables respuesta analizadas en cada
proceso de revisión, mientras que el Meta-Análisis se circunscribe al proceso de síntesis (interpretation, en palabras de
Kitchenham).
estudios y falencias en los reportes, se recurrió a un conteo de votos como estrategia para generar
las conclusiones.
Hasta el presente se han realizado 2 Meta-Análisis en IS, los cuales ya han sido mencionados, pero
a continuación se los describe con mayor detalle:
1. [Dyba, T.; et al.; 2007], en este trabajo se identifican 20 experimentos sobre programación
de a pares, los cuales son agregados en tres grupos, el primero de 11 experimentos, el
segundo de 11 experimentos y el tercero de 10 experimentos, donde el experimento más
pequeño contiene 4 sujetos por tratamiento, el mayor 35 sujetos por tratamiento, mientras
que el promedio asciende a 13 sujetos por tratamiento. Los resultados son agregados
mediante DMP en sus dos versiones modelo de efecto fijo y aleatorio.
2. [Ciolkowski, M.; 2009], en este trabajo se identifican 21 experimentos sobre técnicas de
inspección, los cuales son agregados en tres grupos, el primero conteniendo 7 experimentos,
el segundo 9 y el tercero 5, dichos experimentos poseen tamaños variados, conteniendo el
menor 3 sujetos experimentales por tratamiento, el mayor 45 sujetos por tratamiento,
mientras que el promedio asciende a 6 sujetos por tratamiento. Los resultados son agregados
mediante una variante del método DMP para modelo de efecto fijo.
El objetivo general de esta tesis es determinar que técnica de Meta-Análisis debe ser utilizada para
agregar un conjunto particular de experimentos en Ingeniería del Software. Este objetivo general se
descompone de forma natural en tres sub-objetivos y un número variable de preguntas de
investigación.
Pregunta 1.2: ¿Existen técnicas de agregación aplicables cuando hay problemas de reporte?
El primer objetivo de esta tesis es identificar técnicas de Meta-Análisis distintas de DMP que, como
ya se ha indicado, es la única técnica utilizada hasta el momento en Ingeniería del Software. Es de
especial importancia que dichas técnicas puedan aplicarse en situaciones de carencia de reporte, ya
que de lo contrario, un número significativo de los escasos experimentos existentes en Ingeniería
del Software no podrán ser utilizados para la generación de piezas de conocimiento empírico.
Pregunta 2.3: ¿Es factible mejorar la calidad de los conocimientos empíricos utilizados en
Ingeniería del Software mediante Meta-Análisis?
El segundo objetivo consiste en determinar si existen desviaciones entre los niveles nominales
(basados en la Ley de Grandes Números) y empíricos (en contextos de pequeñas muestras) en los
errores tipo I (α) y II (β) de las técnicas de Meta-Análisis. Estas desviaciones pueden ser de varios
tipos, siendo las más relevantes para la inferencia estadística la exactitud y la potencia empírica.
Dependiendo de los niveles concretos de exactitud y potencia empírica, las técnicas de Meta-
Análisis podrán (o no) generar piezas de conocimiento, fiables y empíricamente fundadas.
Objetivo 3: desarrollar un proceso de Meta-Análisis propio para Ingeniería del Software que
permita determinar mediante que técnica agregar los experimentos identificados
Pregunta 3.1: ¿Es factible determinar cuál es la mejor técnica a aplicar en función de las
características de los experimentos a agregar?
Pregunta 3.2: ¿Es factible definir un procedimiento que permita a investigadores en ISE
sin formación específica en estadística aplicada seleccionar la técnica
óptima para realizar un Meta-Análisis?
El tercer objetivo persigue definir un procedimiento de agregación que englobe todas las técnicas de
Meta-Análisis identificadas. Para definir tal procedimiento, se utilizaran los valores de exactitud y
potencia empírica calculados anteriormente. En primer lugar, se deberá comprobar si existe algún
criterio que permita identificar la técnica óptima en un contexto determinado. En segundo lugar,
dicho criterio deberá ser protocolizado para ser utilizado rutinariamente por investigadores de
Ingeniería del Software sin conocimientos específicos de la estadística de pequeñas muestras.
Las actividades a realizar pueden derivarse casi directamente de las preguntas de investigación
indicadas anteriormente. Dichas actividades, así como sus relaciones con las publicaciones más
representativas, detalladas en la tabla 3.1, se muestran en la figura 3.1.
Las actividades 1 y 2 se corresponden directamente con las preguntas de investigación 1.1 y 1.2
respectivamente:
Finalmente, las actividades 6 y 7 se corresponden con las preguntas de investigación 3.1 y 3.2
respectivamente:
• La actividad 6 persigue determinar si existe algún criterio que permita diferenciar qué
técnicas de meta-análisis son preferibles en un contexto determinado. A priori, se espera que
mera la comparación de los valores de exactitud y potencia empírica sean suficientes,
aunque no es descartable que otras variables puedan intervenir (por ejemplo: heterogeneidad
En las siguientes secciones se describen de forma sintética los métodos de investigación (Revisión
Sistemática de Literatura y Simulación de Monte Carlo) utilizados en la presente tesis.
Una revisión sistemática de literatura es un medio para identificar, evaluar e interpretar toda la
investigación disponible relevante a una pregunta de investigación particular, un área temática o un
fenómeno de interés. Las revisiones sistemáticas se consideran estudios secundarios, pues su
población de estudio la constituyen trabajos previamente publicados en la literatura científica, los
cuales se denominan estudios primarios [Kitchenham, B.; 2004].
Las revisiones sistemáticas aplican estrategias específicas para limitar los sesgos (esto es, la
utilización selectiva de información) durante el proceso de revisión [Goodman, C.; 1996]. Las
estrategias más relevantes aplicadas en una revisión sistemática son las siguientes [Kitchenham, B.;
2004]:
1
Conviene indicar en este punto que la investigación realizada ha puesto de manifiesto que la heterogeneidad
estadística no es útil para diferenciar entre técnicas de meta-análisis. Véase sección 6.1.2 para más detalles.
• La revisión sistemática se lleva a cabo mediante un proceso bien definido, que consta de las
siguientes actividades: planificación, búsqueda, evaluación de la calidad de los estudios
primarios, extracción de datos, síntesis y reporte.
• Durante la actividad de planificación, se confecciona un protocolo de revisión. Este
protocolo define de antemano todos los aspectos importantes (cadenas de búsqueda, criterios
de inclusión/exclusión, etc.) con los que llevar a cabo el proceso de revisión.
• Las tareas donde la posibilidad de sesgo es mayor, como por ejemplo la selección de
estudios primarios o la valoración de la calidad, se realizan por más de una persona cuando
es posible, tomando las decisiones por mayoría o consenso.
Los resultados de una revisión sistemática se consideran más fiables, por su repetibilidad y
transparencia, que las revisiones clásicas de la literatura científica, en las que un experto revisa los
estudios publicados, decide cuáles son relevantes y presenta sus resultados, sin que se describa
habitualmente el proceso seguido hasta llegar a las conclusiones [Kitchenham, B.; 2004].
Por último, conviene indicar que aunque a veces se utilizan los vocablos revisión sistemática y
Meta-Análisis indistintamente, el término meta-análisis se restringe a la síntesis cuantitativa de los
resultados de los estudios primarios [Chalmers I.; Hedges L.; Cooper H.; 2002], cuando ésta es
posible (lo cual es, precisamente, el problema afrontado en la presente tesis; véase sección 1.4 a este
respecto). Por tanto, la revisión sistemática constituye un proceso de investigación más amplio, que
va desde la formulación del objetivo de revisión hasta la interpretación de los resultados, siendo el
Meta-Análisis únicamente una de sus actividades.
El método de Monte Carlo (o simulación de Monte Carlo, como también se denomina) [Metropolis,
N.; Ulam, S.; 1949] es un tipo de algoritmo probabilístico que permite encontrar soluciones a
problemas que no poseen una formulación explícita pero pueden plantearse en términos de
experimentos aleatorios. Un ejemplo bien conocido es el cálculo de π mediante la Buffon’s Needle
[Brassard, G.; Bratley, P.; 1988].
1. Se definen los parámetros de la(s) población(es) sobre las que se desea probar la con
exactitud del estimador. Entre estos parámetros se encuentra el tipo de distribución de
probabilidad (por regla general se escoge la distribución normal), así como el tamaño de
efecto poblacional δ. Otros parámetros poblacionales (medias, varianzas, etc.) pueden
definirse si la simulación así lo exige.
2. Se extraen muestras de dicha(s) población(es), utilizando para ello una tabla o generador de
números aleatorios. El número de muestras extraídas depende de los parámetros de la
simulación.
3. Se calculan los valores del estimador estadístico correspondiente (por ejemplo: tamaño de
efecto global d* calculado mediante WMD, intervalos de confianza de d*, etc.). Nótese que
estos valores son calculados utilizando las fórmulas asintóticas (basadas en la Ley de
Grandes Números) del estimador bajo estudio.
4. Se comparan los valores del estimador con los valores poblacionales. Por ejemplo, para
obtener la exactitud del estimador, habría que comprobar si el intervalo de confianza de d*
contiene el tamaño de efecto poblacional δ. En caso afirmativo, se incrementaría el valor de
una variable numero_aciertos. Para la potencia empírica se procedería de modo análogo.
5. Se repiten los pasos 2-4 un número indeterminado pero elevado de veces, ya que la precisión
de una simulación de Monte Carlo es directamente proporcional al número de veces que se
ejecuta [Brassard, G.; Bratley, P.; 1988].
Publicación Tipo
I. Fernández. E. (2007). Agregation Process with Multiple Evidence Levels for Experimental Studies in Congreso
Software Engineering. Proceedings 2nd International Doctoral Symposium on Empirical Software Internacional
Engineering. Pag. 75-81. ISBN 978-84-690-7340-7.
II. Fernández, E., Diez, E., Malacrida, J., Britos, P., Dieste, O., García Martínez, R. (2008). Uso de Congreso
Revisiones Sistemática como Estrategia de Generación de Conocimientos para Mejora Continua. Nacional
Proceedings del XIV Congreso Argentino de Ciencias de la Computación, Workshop de Ingeniería de
Software y Bases de Datos, Artículo 1924. ISBN 978-987-24611-0-2.
III. Dieste, O., Fernández, E., Pesado, P., García-Martínez, R. (2009). Analysis of Inspection Technique Congreso
Performance. Proceedings XV Congreso Argentino de Ciencias de la Computación. Workshop de Nacional
Ingeniería de Software. Págs. 961-970. ISBN 978-897-24068-4-1.
IV. Fernández, E., Dieste, O., Pesado, P., García-Martínez, R. (2009). Pautas para Agregar Estudios Congreso
Experimentales en Ingeniería del Software. Proceedings XIV Jornadas de Ingeniería del Software y Internacional
Bases de Datos. Pág. 91-102. ISBN 978-84-692-4211-7.
V. Dieste, O., Fernández, E., Pesado, P., García-Martínez, R. (2010). Desarrollo de una Revisión Congreso
Sistemática aplicando Métodos de Agregación Alternativos para el Análisis de las Técnicas de Regional
Inspección. Un Caso Testigo. Actas del XIII Congreso Iberoamericano en Software Engineering. Pág
121-134. ISBN 978-9978-325-10-0.
VI. Fernández, E., Pollo, M., Amatriain, H., Dieste, O., Pesado, P., García-Martínez, R. (2010). Ingeniería Capítulo de
de Software Empírica. Aplicabilidad de Métodos de Síntesis Cuantitativa. En Ingeniería de Software e Libro
Ingeniería del Conocimiento: Tendencias de Investigación e Innovación Tecnológica en Iberoamérica
(Editores: R. Aguilar, J. Díaz, G. Gómez, E- León). Pág. 287-297. Alfaomega Grupo Editor. ISBN 978-
607-707-096-2.
VII. Dieste, O., Fernandez, E., Garcia-Martínez, R., Juristo, J. (2010). Hidden Evidence Behind Useless Congreso
Replications. 1st International Workshop on Replication in Empirical Software Engineering Research Internacional
CORE A
(RESER) en ACM/IEEE 32nd International Conference on Software Engineering (ICSE).
VIII. Dieste, O., Fernández, E., García, R., Juristo, N. (2011). Comparative analysis of meta-analysis Congreso
methods: when to use which?”. 6th EASE Durham (UK) Pág. 36-45. Internacional
CORE A
IX. Dieste, O., Fernández, E., García, R., Juristo, N. (2011). The risk of using the Q heterogeneity estimator Congreso
for software engineering experiments. Proceedings 5th International Symposium on Empirical Software Internacional
CORE A
Engineering and Measurement. Paper Nber. 56. Sep. 22-23. Max Bell (MB) Building. Banff, Alberta,
Canada
X. Amatriain H., Dieste O., Fernández E., García-Martínez R. (2011). Evaluación de La Aplicabilidad del Congreso
Meta-Análisis de Efectos Aleatorios en Ingeniería del Software. Proceedings XVII Congreso Argentino Nacional
de Ciencias de la Computación. Pág. 770-779. ISBN 978-950-34-0756-1.
XI. Dieste, O., Fernández, E., García, R., Juristo, N. (2012). Comparison of meta-analysis methods: Revista
understanding the influence of experiments’ statistical parameters. EMSE, Presentado Internacional
En la tabla 3.2 se presenta la relación existente entre las publicaciones y las preguntas de
investigación definidas, donde “P” significa que la preguntas de investigación ha sido respondida
parcialmente en ese artículo y “C” que la misma fue respondida completamente en el artículo.
Preguntas de Investigación
1.1 ¿Existen técnicas de agregación
alternativas a DMP?
P P P C
1.2 ¿Existen técnicas de agregación
aplicables cuando hay problemas de P P P C
reporte?
2.1 ¿Poseen las técnicas de Meta-
Análisis exactitud en el contexto de la P P P P C
IS?
2.2 ¿Poseen las técnicas de Meta-
Análisis potencia empírica en el P P P P P C
contexto de la IS?
2.3 ¿Es factible mejorar la calidad de los
conocimientos empíricos utilizados en
Ingeniería del Software mediante
P P C
Meta-Análisis?
3.1 ¿Es factible determinar cuál es la
mejor técnica a aplicar en función de
las características de los
P P P C
experimentos a agregar?
3.2 ¿Es factible definir un procedimiento
que permita a investigadores en ISE
sin formación específica en
estadística aplicada seleccionar la
P P C
técnica óptima para realizar un Meta-
Análisis?
Tabla 3.2: Aplicación de los Artículos a las preguntas de investigación
3.4. CONTRIBUCIONES
Una de las primeras contribuciones realizadas en esta tesis, tiene que ver con la identificación de un
conjunto de técnicas alternativas a DMP, las cuales son menos difundidas y, en algunos casos,
menos restrictivas y por ende más acordes al contexto experimental que hoy vive la Ingeniería del
Software. Estas técnicas son: Conteo de Votos Estadístico (CVE) propuesto por [Hedges, L.; Olkin,
I.; 1985] (esta técnicas permite estimar un “tamaño de efecto” partiendo del signo de la diferencia
de las medias y la cantidad de sujetos experimentales utilizados en cada estudio), y Ratio de
Respuesta (del inglés Response Ratio (RR)) propuesto por [Gurevitch, J.; Hedges, L.; 2001] (el cual
consiste en estimar un “tamaño de efecto” en base al cociente de las medias), que posee dos
versiones, una paramétrica (RRP) y otra no paramétrica (RRNP) [Miguez, E.; Bollero, G.; 2005] las
cuales comparten la forma de estimar el tamaño de efecto de cada experimento, pero utilizan
diferentes estrategias para ponderar a los experimentos en la sumatoria general. Sobre estas técnicas
no se tiene conocimiento de su uso en Ingeniería del Software mas allá de los trabajos publicados
con relación a esta tesis. A continuación se describen las contribuciones hechas a este respecto en
cada uno de los trabajos indicados en la tabla 3.1:
• Publicación I - presenta por primera vez los nuevas técnicas a la comunidad de Ingeniería de
Software Empírica, esbozando además una primer versión del procedimiento de agregación
propio para la IS.
Algunas de las nuevas técnicas de Meta-Análisis, por definición, podían aplicarse en condiciones de
defectos de publicación, como es por ejemplo, la falta de estimación de la varianza. Lo cual las
convertía en una interesante alternativa para agregar experimentas con reportes defectuosos. A
continuación se describen las contribuciones hechas a este respecto en cada uno de los trabajos
indicados en la tabla 3.1:
Si bien estas técnicas eran prometedoras, en los ensayos realizados se detectaban inconsistencias en
los resultados que las mismas arrojaban cuando se aplicaban a un mismo grupo de experimentos.
Por ejemplo, algunas indicaban resultados significativos y otras no. Esto hecho se debía a
características propias de las técnicas, las cuales había que analizar. Esta tarea se realizó a través de
un conjunto de trabajos de simulación tendientes a medir como es la exactitud y potencia empírica
de las técnicas de Meta-Análisis en un contexto de pequeñas muestras como el que hoy presenta la
IS. Dado que la heterogeneidad se presente como un factor crítico a la hora de realizar un Meta-
Análisis, los trabajos de simulación buscaron mostrar como es el comportamiento de las técnicas
cuando se ignorar la heterogeneidad, se intenta medir la heterogeneidad y cuando se quiere
incorporar la heterogeneidad. A continuación se describen las contribuciones hechas en cada uno de
los trabajos indicados en la tabla 3.1:
• Publicación VI – presenta un trabajo de simulación que permite ver que no todas las técnicas
de agregación poseen los mismos niveles de exactitud y potencia empírica, ignorando en
este caso la existencia o no de heterogeneidad.
• Publicación VII – mediante un trabajo de simulación se muestra como mejora la calidad de
los conocimientos cuando varios experimentos son combinados mediante un Meta-Análisis.
• Publicación VIII – presenta un trabajo de simulación que permite establecer cuáles son los
niveles de exactitud y potencia empírica de las nuevas técnicas de agregación juntamente
con la técnica DMP, en un contexto donde se ignora la heterogeneidad. Este trabajo fue
distinguido como: “Best paper award –EASE 2011”.
• Publicación IX – presenta un trabajo de simulación tendiente a determinar cómo tratar la
heterogeneidad experimental en los trabajos de Meta-Análisis que actualmente se
desarrollan en Ingeniería del Software.
• Publicación X – presenta un trabajo de simulación en el cual se comparan el modelo de
efecto fijo, que la existencia de heterogeneidad, y el modelo de efectos aleatorios, que
incorpora la heterogeneidad.
Si bien, en el primer trabajo publicado, donde se presentaban las nuevas técnicas de agregación, se
presentó un procedimiento de cómo utilizar estas técnicas en forma conjunta, en ese momento no se
tenía el conocimiento necesario para poder discernir si era mejor agregar 4 experimentos con una
técnica o 6 experimentos con otra técnica alternativa que permitía incluir trabajos con defecto de
publicación. Esto pudo lograrse luego de desarrollar los trabajos de simulación que aportaron
información respecto de los niveles de error de las técnicas y de esta forma poder saber que riesgos
se toman cuando se asume como verdadero el resultado de uno de ellos. En relación a este tema se
ha presentado un trabajo (se está al aguardo de la respuesta del tribunal evaluador), referenciado en
la tabla 3.1, que se describe a continuación:
4. RESUMEN DE RESULTADOS
En este capítulo, se describe como se ha llevado a cabo el trabajo de investigación en función de las
actividades definidas en la metodología de trabajo: Se presentan las técnicas de Meta-Análisis
alternativas a DMP identificadas (sección 4.1); a continuación se muestran como varía el
comportamiento en función de las características del contexto (sección 4.2); tomando como base
las aportaciones anteriores, se propone un proceso de agregación de experimentos específico para
experimentos realizados en IS (sección 4.3).
El primer hito de esta tesis ha consistido en identificar técnicas de Meta-Análisis (para variables
continuas) distintas a DMP, así como mostrar la capacidad de dichas técnicas para agregar
experimentos con carencia de reporte.
Se han identificado tres nuevas técnicas de Meta-Análisis para variables continuas, ninguna de las
cuales ha sido utilizado previamente en IS (con excepción a los trabajos vinculados a esta tesis):
Como su nombre indica, el RRP es una técnica de tipo paramétrica y por tanto requiere para ser
aplicado de normalidad en la distribución y homoesticidad (igualdad de las varianzas de los grupos
experimental y de control), al igual que DMP.
Por otra parte, al ser el RRNP una técnica no paramétrica, no requiere conocer o hacer suposiciones
acerca de cómo es la población. En concreto, no es necesario que se verifiquen las propiedades de
homoesticidad. Así mismo como la ponderación la hace en base a cantidad de sujetos
experimentales, no requiere de la publicación de varianzas.
El CVE es una técnica que requiere de muy poca información para ser aplicada [Hedges, L.; Olkin,
I.; 1985]. El mismo consiste en la aplicación de un procedimiento de Máxima Verosimilitud
tendiente a determinar cuál es el tamaño de efecto (dentro de un rango de -0,5 a 0,5), que hubiera
estimado el método DMP, conociendo solamente si el resultado de cada experimento favorece o no
al tratamiento experimental y el tamaño del mismo (cantidad de sujetos experimentales).
Por ser una técnica no paramétrica no requiere que exista homosticidad y normalidad [Hedges, L.;
Olkin, I.; 1985]. Tampoco requiere conocer las varianzas de los experimentos.
La tabla 4.1 resume los parámetros requeridos por las técnicas de agregación identificadas:
Al igual que DMP, RRP requiere que los reportes experimentales publiquen la cantidad de sujetos,
medias y varianzas por cada grupo (tratamiento y control) experimental. Por lo tanto, el RRP no
supone una mejora frente al DMP en situaciones de defecto de reporte, como ocurre en IS.
Por el contrario, tanto el RRNP como el CVE tienen menores exigencias que DMP y RRP. El
RRNP solo requiere de la publicación de la cantidad de sujetos y medias de los grupos de
tratamiento y control. El CVE tiene todavía menos restricciones, al requerir únicamente la cantidad
de sujetos experimentales y si existen o no diferencias entre las medias.
El segundo hito de este trabajo consistió en evaluar el comportamiento de las nuevas técnicas
identificadas y DMP para poder establecer criterios de cuando y como utilizar cada uno de ellas,
esta tarea se ha realizado bajo tres condiciones distintas de heterogeneidad. Previamente a describir
los resultados del trabajo de simulación, se va a definir como ha sido la caracterización del contexto
de trabajo en el cual las técnicas han sido evaluadas.
A lo largo de esta tesis se ha hecho referencia a dos características salientes de dicho contexto: las
falencias de reportes y las pequeñas muestras, lo primero está razonablemente claro (en general,
muchos experimentos no publican las varianzas). En lo que respecta al segundo punto es
conveniente aclarar cuando el número de sujetos por experimentos (o nivel) y el número de
experimentos por agregación es lo suficientemente pequeño para que exista el riesgo de que el
comportamiento real de las técnicas de Meta-Análisis no coincida con las predicciones de la teoría
(asintótica). A continuación se describen los aspectos evaluados en cada punto:
Dado que existe una clara falta de acuerdo, hemos decidido tomar una postura intermedia, y
estudiar experimentos que posean unos 40 sujetos totales (20 por grupo). Con valores
mayores de 20 por grupo, se estaría muy cerca ya de los 30 sujetos que habitualmente se
consideran suficientes para asumir normalidad [García, R.; 2004]. Nótese adicionalmente
que en la práctica, la mayoría de estudios en IS están por debajo de los valores anteriores, a
modo de ejemplo [Sjoberg, D.; 2005] reporta que la mediana de la distribución del número
de sujetos por experimentos es de 30, estando la media muy por debajo de este valor. Así
mismo, los Meta-Análisis realizados hasta el momento en IS muestran los siguientes
valores: en [Dyba, T.; et al.; 2007] el promedio de sujetos por experimento asciende a 13
sujetos por brazo y en [Ciolkowski, M.; 2009] el promedio asciende a solo 6 sujetos por
brazo.
Por tanto los valores de sujetos por brazo por experimento analizados varían entre 4 y 20.
b) Número de experimentos por Meta-Análisis
Respecto de este caso, la referencia a que cantidad de experimentos conforman una pequeña
muestre o no es menos clara que en el caso de la cantidad de sujetos por experimento. Sin
embargo algunos autores coinciden en señalar [Borenstein, M., Hedges, L., Rothstein, H.;
2007] que si el Meta-Análisis posee menos de 10 experimentos los riesgos de caer en un
error son altos, al punto que no se recomienda utilizar el modelo de efectos aleatorios si la
cantidad de experimentos es inferior a 10. Los Meta-Análisis realizados hasta el momento
en IS muestran los siguientes valores: en [Dyba, T.; et al.; 2007] se realizaron dos
agregaciones de 11 experimentos y una de 10 y en [Ciolkowski, M.; 2009] se realizaron 3
agregación con 5, 7 y 9 experimentos.
Por tanto los rangos de exploración definidos van de 2 a 10 experimentos. La cota inferior
del rango ha sido fijada en la cantidad mínima de experimentos que puede incluir un Meta-
Análisis.
c) Otros parámetros
Para poder explorar el efecto del número de sujetos por experimento y número de
experimento por Meta-Análisis, es necesario establecer las características de la población a
partir de la cual van a realizarse las simulaciones. Dichos parámetros son:
• Tamaño de efecto: 0.2, 0.5, 0.8 (correspondientes a tamaños de efectos bajo, mediano y
alto como se define en [Cohen, J.; 1988]), además se agregaron tamaños de 1.2 (debido a
que cerca del 30% de los experimentos publicados en IS poseen un tamaño de efecto
superior a 1 [Kampenes, V.; et al.; 2007])
• Desvío estándar : 10% (varianza baja), 40% (varianza media), 70% (alta varianza) de la
media poblacional. Hemos tomado los valores de [Friedrich, J.; Adhikari, N.; Beyene, J.;
2008] al no existir referencias al respecto en IS.
• Nivel de confianza: α = 0.95, β = 0.20 (dado que son los valores que habitualmente se
recomiendan [Cohen, J.; 1988]).
• La tasa de rechazo determina la probabilidad empírica del error tipo I, esto es, la
probabilidad de indicar la existencia de un efecto (rechazar la hipótesis nula H0) cuando éste
no existe. El impacto de este error es reducido, ya que en el peor de los casos puede llevar a
la realización de replicaciones que, eventualmente, demostrarán la no existencia del efecto.
En otras palabras: la tasa de rechazo puede implicar la realización de esfuerzos baldíos, pero
no al rechazo de tecnologías software relevantes. Es por este motivo que en nuestra
simulación no ensayamos el caso de δ = 0.
• El bias determina el error sistemático inducido por el método de meta-análisis. Si bien esta
desviación es relevante para la toma de decisiones en IS (piénsese, por ejemplo, que un bias
de -0.3 implica invertir a efecto bajo producido por dos tratamientos), este problema sólo
tiene impacto en estimaciones puntuales, que no son habituales en IS. En IS es más normal
trabajar con niveles de significación o intervalos de confianza, motivo por el cual los efectos
negativos del bias se subsumen en la exactitud y pueden ser obviados.
Las simulaciones realizadas muestran la técnica RRNP tiene una exactitud muy cercana al 100%.
Lo que lo convierte en la técnica más fiable, por su parte las técnicas DMP y RRP arrojaron valores
similares, con algunas ventajas para DMP cuando los tamaños de efecto son bajos y con ventajas
para RRP cuando los tamaños de efecto son altos. Por su parte la técnica CVE solo mostró
viabilidad en contextos de tamaños de efecto medio (d = 0,5) convirtiéndose en la técnicas menos
fiable.
sujetos por totales, tamaño de efecto y varianza) de la simulación. Por este motivo reflejaremos en
esta sección solo si la técnica posee un poder superior al 80% (valor típico esperado para este
parámetro). En la tabla 4.3, se presenta un resumen de la potencia empírica.
Donde con “+” se representan los casos en los cuales la técnica mostro potencia igual o superior al
80% y “-“ en los casos en que la potencia no alcanzó el nivel esperado.
Las simulaciones realizadas muestran que la técnica CVE fue la técnica que más potencia posee,
mientras que la técnica RRNP prácticamente no posee potencia, y las técnicas DMP y RRP tienen
un comportamiento similar, mostrando potencia a partir de que la acumulación de sujetos totales
supere los 80 sujetos por grupo.
Si bien las tablas muestran una mejora en el nivel de potencia de las técnicas a medida que se
incorporan experimentos, esto puede verse más claramente si se representa en una gráfica. A modo
de ejemplo, en la gráfica de la figura 4.1, que muestra como aumenta la potencia empírica de los
resultados de la técnica DMP a medida que se incremente la cantidad de sujetos totales que incluye
el Meta-Análisis en un contexto donde el tamaño de efecto poblacional es medio al igual que la
varianza.
100
80
Potencia
60
40
20
0
10 20 30 40 50 60 70 80 90 100
Sujetos por brazo
Si bien los valores representados en la figura 4.1 son propios de la técnica DMP, con las demás
técnicas suceda lo mismo, a medida que la masa crítica de sujetos se incremente, la potencia del test
mejora y por ende la calidad de los conocimientos que del mismo se desprenden, solo cambian los
niveles de corte (cantidad de sujetos necesarios para alcanzar la potencia deseada). Mostrando de
esta manera que Meta-Analizando experimentos, aunque sean estos pequeños, se puede mejorar la
calidad de los conocimientos generales que de ellos se desprenden.
Dado que la única crítica que se hace a las técnicas de evaluación de heterogeneidad es su falta de
potencia (no su exactitud), se desarrollo un trabajo de simulación tendiente a determinar si es
factible o no evaluar este aspecto en los Meta-Análisis hechos en IS. Para este caso las únicas
variables relevantes han sido: la diferencia de efecto entre los experimentos, la cantidad de
experimentos y la cantidad de sujetos que los experimentos poseen. En la tabla 4.4 se resumen los
resultados de esta simulación, donde los casos señalados con “+” indican que la técnica mostro
potencia superior al 80%, los señalados con “+/-“ indican que la técnica tuvo un nivel de potencia
entre 60 y 80% (valor señalado como aceptable por [Schmidt, F.; Hunter, J.; 2003]) y los señalados
con “–“ los casos en que la potencia fue inferior al 60%.
Cantidad de Sujetos
Diferencia en el Cantidad de
Experimentales por Poder estadístico
Tamaño de efecto Experimentos
Experimento
1 10 [20] +
Tabla 4.4: Poder estadístico del test Q (α=0.05)
Como resultado de este trabajo se concluyó que este tipo de técnica no tiene potencia para ser
aplicado en el actual contexto de la IS. Dado que para detectar la existencia de heterogeneidad la
diferencia entre los tamaños de efectos debe ser igual a superior a 1.
el modelo de efectos aleatorios muestra mayor exactitud en contextos de tamaño de efecto alto y
muy alto.
Donde con “+” se representan los casos en los cuales la técnica mostro potencia igual o superior al
80% y “-“ en los casos en que la potencia no alcanzó el nivel esperado.
Las simulaciones realizadas muestran que la técnica DMP para modelo de efecto fijo, logra alcanzar
potencia a partir del tamaño de efecto medio, si el Meta-Análisis acumula al menos 80 sujetos
experimentales para una varianza alta y 112 para los otros valores de varianza. Como era de
esperarse, a medida que aumenta el tamaño de efecto, se reduce la cantidad de sujetos necesarios
para que el método logre la potencia esperada. Contrariamente a lo que sucede con el modelo de
efecto fijo, el modelo de efectos aleatorios no logró alcanzar potencia en ninguno de los casos
evaluados, lo cual lo convierte en una técnica no aplicable a este contexto de trabajo, algo simular a
lo sucedido con el método Q.
El último de los hitos consiste en desarrollar un conjunto de heurísticas o teorías tendientes a poder
determinar en qué casos es conveniente utilizar una u otra técnica de agregación, las cuales son la
base para el desarrollo de un procedimiento de agregación final.
Para determinar si una técnica es mejor o no que otra hay que analizar sus niveles de exactitud y
potencia empírica. Ahora bien, la interpretación de estos valores no es simple, ya que muchas veces
las técnicas que poseen mayor exactitud poseen menos potencia y viceversa.
Si tomamos como base las definiciones de la teoría estadística, lo que se debe buscar es que las
técnicas posean una exactitud del 95% y una potencia empírica del 80%. En estas condiciones todas
las técnicas son equivalentes. Por debajo de estos valores, es necesario establecer nuevos niveles de
cota acordes a la criticidad del fenómeno que se está analizando (no es lo mismo tomar una decisión
de cambio cuando existen riesgos de vida asociados que cuando no lo existen, o se sabe que el
cambio no genera grandes pérdidas o inconvenientes) así pues, se puede bajar el nivel de fiabilidad
al 90% o el de potencia al 60%. Es decir, los valores de exactitud y potencia nos dan una medida de
cómo es el desempaño de la técnica en el contexto, y se considera que se debe tomar como mejor a
aquella técnica que superado los valores de cota definidos posea mayor potencia.
A lo largo del trabajo de investigación se han ido desarrollando varias versiones del proceso de
agregación, primeramente se planteo el uso de un modelo con múltiples niveles de evidencia, el
cual carecía de un criterio concreto para determinar cuál era el mejor resultado. A medida que se
tenía mayor información de cómo se trabaja en el campo experimental en Ingeniería del Software y
cómo se comportan las técnicas de Meta-Análisis el procedimiento se fue refinando incorporado
criterios para poder discriminar si un resultados es mejor o no que otro, quedando conformado el
proceso por cinco actividades principales:
Actividad 1: Agrupar experimentos, tiene como objetivo analizar, organizar y agrupar los
estudios experimentales identificados;
Actividad 2: Agregar experimentos, tiene como objetivo agregar los estudios de cada grupo;
Actividad 3: Definir nivel de varianza, tiene como objetivo definir el nivel de varianza. Para
este caso, si no se cuenta con experimentos para el primer grupo, se deberá
estimar la misma en base a publicaciones como la de [Sjoberg, D.; 2005] donde
se establecen valores promedios de los experimentos en IS.
Actividad 4: Calcular K y N y estimar nivel de efecto, tiene como objetivo calcular la cantidad
de experimentos y sujetos de cada grupo e interpretar el tamaño de efecto (en
base a una tabla de conversión);
Actividad 5: Determinar mejor resultado, tiene como objetivo aplicar un conjunto de
heurísticas para determinar qué grupo de estudios aporta el mejor resultado para
las necesidades del investigador. Las cuales se apoyan en la exactitud y potencia
empírica de las técnicas evaluadas en el proceso de simulación;
En las siguientes subsecciones se describe en qué consiste cada uno de las actividades que
componen el proceso de Agregación.
• Características de Contexto: Este aspecto se vincula con dos factores básicos para la
aplicación de las técnicas paramétricos: normalidad en la distribución y homogeneidad
entre las varianzas (homoesticidad).
• Completitud del Reporte: Este aspecto es muy importante, ya que por bien construido que
esté el estudio, si el reporte no refleja un conjunto mínimo de parámetros las técnicas de
agregación no podrán ser aplicadas. Los parámetros son: Medias, Varianzas (o Desvío
Estándar) y cantidad de sujetos experimentales. También puede resultar de utilidad
identificar si el reporte indica si las diferencia entre los tratamientos son significativas o no
mediante algún test de hipótesis. Asimismo, en caso de que el reporte no publique las
medias, puede ser un paliativo saber si existió o no diferencias entre las mismas.
Grupo “A” que incluye los experimentos que publiquen las Medias, Varianzas (o Desvío
Estándar) y la cantidad de sujetos experimentales;
Grupo “B” que incluye los experimento del grupo “A” más los experimentos que publiquen
las Medias y la cantidad de sujetos experimentales, pero no las varianzas;
Grupo “C” que incluye los experimentos del grupo “B” más los experimentos que publiquen
la cantidad de sujetos experimentales e indiquen si existen diferencia entre las medias de los
tratamientos, pero no detallan las Medias ni publican las Varianzas.
Condiciones R1 R2 R3 R4
Características Normalidad y No Normalidad o ---- ---
de contexto homosticidad No homosticidad
El Reporte Medias (Y), Medias (Y), Medias (Y), y Diferencia de
publica Varianzas (s) y Varianzas (s) y cantidad de medias y
cantidad de cantidad de Sujetos (n) Cantidad de
Sujetos (n) Sujetos (n) Sujetos (n)
Acciones
Categoría A A B C
Tabla 4.7: Tabla de Decisión para Determinar la Categoría de los Estudios
Los niveles de varianza definidos para buscar en las tablas desarrolladas en el proceso de
simulación son: Baja, cuando el desvío estándar es del 10% del valor de la media del tratamiento de
control; Media, cuando el desvío estándar es del 40% del valor de la media del tratamiento de
control; y Alta, cuando el desvío estándar es del 70% del valor de la media del tratamiento de
control. Dado que solo en el grupo A se cuenta con experimentos que publiquen las varianzas, la
estimación se hará solo sobre este grupo y se asume que es representativa para todo el conjunto de
experimentos. En caso de no contar con experimentos en el grupo A, se asume un nivel de varianza
media (40%) dado que este es el valor más frecuente en SE [Kampenes, V.; et al., 2007].
Para el caso de DMP y CVE existe independencia respecto del nivel de varianza del grupo, y los
mismos se asignan como se indica en la tabla 4.8:
Por su parte, las técnicas basadas en Ratios requieren conocer el nivel de varianza para poder
determinar cuál es el tamaño de efecto asignado para la búsqueda en las tablas de exactitud y
potencia empírica. En la tabla 4.9 se presenta la relación existente entre los niveles de efecto y RR
estimados:
Las alternativas 1 y 2 son consideradas aplicables a la toma de decisión, pero las alternativa 3 y 4
denotan que la evidencia con que se cuenta es insuficiente y deben ampliarse los trabajos de campo,
por tanto no debería tomarse una decisión en estas condiciones.
5. DEMOSTRACION DE LA SOLUCION
En este capítulo se presenta un caso de estudio teórico donde se aplica el procedimiento de
agregación definido en la sección 4 (sección 5.1), y un caso de aplicación real en el cual se toma
como base una revisión sistemática desarrollada dentro del contexto de esta tesis (sección 5.2).
Supóngase que un investigador necesita agregar los siguientes experimentos (tabla 5.1):
Q = 1,304
Tabla 5.2: Resultados de la agregación mediante DMP
Como puede observase en la tabla 5.2, el valor de Q es inferior a la cantidad de experimentos menos
1, por tanto no hay evidencias de heterogeneidad, esto implica que es correcto agregar los
experimentos mediante el modelo de efecto fijo.
El resultado final indica que existen diferencias significativas a favor del tratamiento experimental y
que las mismas se encuentran apoyadas por 4 experimentos que acumulan 54 sujetos por
tratamiento.
Actividad 1: Se han definido tres grupos, el grupo A conformado por los experimentos 1 a 4
(afectados por la Regla de decisión número R1 ya que no tienen problemas de reporte), el grupo B
conformado con los experimentos de 1 a 8 (afectados por la Regla de decisión número R3 ya que
los experimentos 5 a 8 no publican las varianzas), y el grupo C conformado con los experimentos de
1 a 10 (afectados por la Regla de decisión número R4 ya que los experimentos 9 y 10 no publican
las medias).
Actividad 2: En la tabla 5.3 se presenta los resultados de las agregaciones de las diferentes técnicas
a los grupos especificados. Dichos resultados se complementan con los ya indicados en la tabla 5.2,
dado que nuestro procedimiento también incluye al DMP.
Actividad 3: Se establece que el nivel de varianza es medio, ya que la misma ronda el 40% de la
media del tratamiento de control.
Actividad 5: Para poder establecer los niveles de error de las técnicas se toman las tablas de
exactitud y potencias asociadas a tamaños de efecto medio y se determina el nivel de exactitud y
potencia en base a ellas. En la tabla 5.4, se resumen los resultados, donde “E” en el ítem Exactitud
indica que la técnica alcanzo el nivel de exactitud del 95% y nE que no ha alcanzado este valor,
mientras que un valor de P en el ítem Potencia Empírica indica que la técnica ha alcanzado una
potencia del 80% y nP indica que la potencia es inferior a este valor.
Grupo A A B C
Técnica de Meta-Análisis DMP RRP RRNP CVE
Tamaño de efecto Medio Medio Medio Medio
Varianza Medio Medio Medio Medio
Número de experimentos 4 4 8 10
Promedio de sujetos 14 14 12 11
Exactitud E E E E
Poder empírico nP nP nP P
Tabla 5.4: Exactitud y potencia empírica de las técnicas del ejemplo de la tabla 5.1
cumple con los niveles de exactitud y potencia necesarios para asegurar que la conclusión obtenida
es correcta.
Para el presente ejemplo, se ha tomado como base el trabajo de Revisión [Malacrida, I.; et al; 2008]
del cual se extrajeron cuatro experimentos que analizan el desempeño de las técnicas basadas en
listas de comprobación (CBR) vs. las basadas en perspectivas (PBR) aplicadas al análisis de
documentos de diseño. En la tabla 5.5 se resumen los resultados de dichos experimentos.
Resultados
Cantidad de Sujetos
Experimentos Media (m) Desvío estándar (SD)
(n)
CBR PBR CBR PBR CBR PBR
1 [Sabaliauskaite, G.; et al.; 2002] 21 38 70,2 69,1 11,5 15,3
2 [Sabaliauskaite, G.; et al.; 2004]
(Experimento 1) 15 12 52,3 48,1 6,44 3,85
3 [Sabaliauskaite, G.; et al.; 2004]
(Experimento 2) 12 15 62,5 62,9 8,99 11,7
4 [Laitenberger, O.; et al.; 2000] 9 9 43 58
Tabla 5.5: Resultados de los Experimentos
En la tabla 5.6, se presenta el resultado de la agregación de los tres experimentos agregables por
DMP y estudios de heterogeneidad:
Q = 2,44; P =0,29
Como puede observase en la tabla 5.6, en este caso el valor de Q es superior a la cantidad de
experimentos menos 1, pero como el P asociado al mismo es superior a 0,05 podemos afirmar que
Actividad 1: Se han definido dos grupos, el grupo A conformado por los experimentos 1 a 3
(afectados por la Regla de decisión número R1 ya que no tienen problemas de reporte), y el grupo B
conformado con los experimentos de 1 a 4 (afectados por la Regla de decisión número R3 ya que el
experimentos 4 posee defectos de reporte).
Actividad 2: En la tabla 5.7 se presenta los resultados de las agregaciones de las diferentes técnicas
a los grupos especificados. Dichos resultados se complementan con los ya indicados en la tabla 5.6,
dado que nuestro procedimiento también incluye al DMP.
Actividad 3: Se establece que el nivel de varianza es bajo, ya que la misma ronda el 10% de la
media del tratamiento de control.
Actividad 5: Para poder establecer los niveles de error de las técnicas se toman las tablas de
exactitud y potencias asociadas a tamaños de efecto bajo y medio, según corresponda, y se
determina el nivel de exactitud y potencia en base a ellas. En la tabla 5.8, se resumen los resultados:
Grupo A A B C
Técnica de Meta-Análisis DMP RRP RRNP CVE
Tamaño de efecto Bajo Medio Bajo Bajo
Varianza Bajo Bajo Bajo Bajo
Numero de experimentos 3 3 4 4
Promedio de sujetos 19 19 16 16
Exactitud E E E nE
Poder empírico nP P nP nP
Tabla 5.8: Exactitud y potencia empírica de las técnicas del ejemplo de la tabla 5.5
6. DISCUSION
En esta sección se discuten los conocimientos generados en esta tesis. Se analizan los resultados
obtenidos en el desarrollo de las actividades realizadas para dar respuestas a las preguntas de
investigación (sección 6.1); se analiza la aplicabilidad del procedimiento desarrollado (sección 6.2);
se detallan los beneficios de la utilización del procedimiento presentado (sección 6.3).
En la presente subsección se discuten los resultados obtenidos a cada una de las actividades de la
metodología desarrolladas.
Por ello, el primer objetivo planteado fue identificar técnicas de Meta-Análisis alternativas a DMP
que permitieran aprovechar mejor los experimentos disponibles en IS. Este objetivo se ha
descompuesto en dos preguntas de investigación.
El ratio de respuesta, en sus dos variantes (paramétrico y no paramétrico) parecen haberse utilizado
principalmente en Ecología, aunque no puede excluirse su uso anecdótico en otras áreas (por
ejemplo: medicina). El conteo de votos estadístico no parece haberse utilizado nunca en la práctica.
En cualquier caso, ninguna de estas tres técnicas ha sido aplicada en IS.
• El RRNP sólo requiere para su aplicación el número de sujetos y las medias por tratamiento,
pudiendo prescindir, por lo tanto, de la varianza de los tratamientos.
• El CVE sólo requiere para su aplicación el número de sujetos y si un tratamiento ha arrojado
mejores resultados que el otro. El CVE puede prescindir, en consecuencia, tanto de las
medias como de la varianza de los tratamientos.
El RRP es de tipo paramétrico, al igual que DMP, y posee sus mismas restricciones en lo que
respecta al reporte de los experimentos.
La técnica DMP, además de exigir que los experimentos reporten ciertos parámetros (número de
sujetos, medias y varianzas), requiere que los experimentos agregar cumplan ciertas condiciones de
volumen: el Meta-Análisis debe contener como mínimo 10 experimentos, cada uno con al menos 10
sujetos por tratamiento. Cuando esto no ocurre, la potencia empírica y la exactitud de DMP pueden
variar respecto a sus valores teóricos; esto es: los resultados del DMP no son fiables. Las mismas
críticas pueden potencialmente realizarse a las técnicas de Meta-Análisis identificadas en el seno de
esta tesis (CVE, RRP, RRNP), ya que todas ellas están basadas, en última instancia, en el teorema
central del límite.
• La mayoría de las técnicas de meta-análisis posee una exactitud razonable, con la excepción
de la técnica CVE que solo mostró un nivel de exactitud teórico esperado cuando el tamaño
de efecto de la población es medio.
• Las técnicas basadas en ratios (RRP y RRNP), superando en muchos casos los niveles de
exactitud de DMP. De hecho, la técnica RRNP mostró exactitud en todos los casos
evaluados.
• La técnica DMP posee baja exactitud cuando el contexto de trabajo posee tamaños de efecto
muy altos, aspecto apenas indicado en la bibliografía y desconocido en general. Este hecho
provoca que
Se debe hacer notar que, para todos los contextos estudiados, siempre existe al menos una técnica
con una exactitud adecuada. Esto implica que con un procedimiento de búsqueda adecuado es
factible obtener resultados con el nivel de exactitud esperado.
Ahora bien, la potencia empírica es el mayor problema de las técnicas de Meta-Análisis cuando son
aplicadas en el contexto actual de la IS. La variabilidad del comportamiento de las técnicas es
mayor que en el caso de la exactitud, pero de nuevo pueden señalarse algunas regularidades:
• Los ratios no superan al DMP, es mas para este caso la técnica RRNP carece de potencia en
casi todos los casos, y solo podría considerarse adecuada su utilización en contextos de alta
varianza.
• La técnica CVE es la que mejor comportamiento mostró, indicando buenos niveles de
potencia aún cuando el Meta-Análisis posee pocos experimentos con pocos sujetos.
• La técnica RRP mostró un comportamiento muy similar a DMP de efecto fijo con una ligera
ventaja para RRP cuando el tamaño de efecto es bajo y viceversa cuando el tamaño de
efecto es medio o alto.
Un aspecto de máxima importancia que conviene destacar es que existen contextos donde ninguna
de las técnicas evaluadas mostró una adecuada potencia empírica. Por ejemplo, cuando el tamaño
de efecto es bajo y el Meta-Análisis acumula menos de 160 sujetos totales. Este aspecto tan
negativo, puede verse paliado en partes con los resultados del método CVE que si bien no llego a la
potencia teórica deseado (80%), alcanzó el piso del 60% a partir de los 4 experimentos con 8 sujetos
experimentales. Es decir, el mayor problema con la potencia del Meta-Análisis se encuentra cuando
se agregan menos de 4 experimentos.
Es importante destacar que aun en el caso de que una técnica determinada posea la potencia
empírica requerida, ello no implica que la misma técnica posea exactitud en el mismo contexto. En
consecuencia, no todas las agregaciones alcanzarán niveles de exactitud y potencia empírica
adecuados (esto es, cuyos niveles empíricos coincidan con los nominales esperados α = 0.05 y β =
0.20), sino que ello dependerá del contexto particular (numero de experimentos, sujetos, tamaños de
efecto y varianzas) en el que se realice el Meta-Análisis. En otras palabras: los resultados de un
Meta-Análisis particular no son siempre fiables (esto es, los errores tipo I o II pueden estar
inflados).
Es de hacer notar que algunos autores como [Takkouche, B.; Cadarso-Suarez, C.; Spiegelman, D.;
1999] [Liang, K.; Self, S.; 1985] [Jones, M.; et al.; 1989] ya habían advertido de que le método Q
carece de potencia y que la heterogeneidad estadística es un aspecto difícil de medir sobre todo con
pequeñas muestras. Las simulaciones realizadas refrendan dicha advertencia. Por ende se concluye
que no es factible medir si existe o no heterogeneidad en los Meta-Análisis que actualmente se
desarrollan en IS.
Esta estrategia es la recomendada por [Borenstein, M., Hedges, L., Rothstein, H.; 2007] ya que
teóricamente si los experimentos son homogéneos los resultados de ambos enfoques deberían ser
iguales, lo cual se ha demostrado que no es cierto en el proceso de simulación.
El modelo de efectos aleatorios posee un nivel de exactitud menor al modelo de efecto fijo.
Comportando de manera similar cuando los tamaños de efecto son bajos o medios y de forma
opuesta cuando son altos o muy altos, esto es el modelo de efectos fijo pierde exactitud a medida
que el Meta-Análisis acumula mayor cantidad de sujetos, mientras que el modelo de efectos
aleatorios mejora en estas condiciones.
Pero el mayor problema de esta técnica radica en el nivel de potencia empírica alcanzado, la cual es
muy baja, aún inferior a RRNP, donde en casi todos los casos arrojó diferencias no significativas a
pesar de que el tamaño de efectos poblacional fuera muy alto.
Por lo tanto, en el caso de experimentos heterogéneos, los modelos de efectos fijos son preferibles
al modelos de efectos aleatorios, dado que la potencia empírica y la exactitud alcanzadas son
mayores que la del modelo de efectos aleatorios.
(potencialmente, una sola de ellas) serán preferibles en una situación determinada. Es necesario
determinar que técnicas son las preferibles con el propósito de que el Meta-Análisis posea la mayor
exactitud posible.
Los resultados obtenidos en la presente tesis se han alcanzado mediante la aplicación de dos
métodos de investigación bien definidos: a) una revisión sistemática de literatura y b) diversas
simulaciones de Monte Carlo.
La única excepción consiste en que la búsqueda de estudios primarios y la aplicación de los criterios
de inclusión/exclusión han sido realizadas en exclusiva por el autor de la tesis, sin que otro colega
valide las decisiones realizadas. En estas circunstancias, es posible que se produzca un sesgo de
selección, esto es, que el autor haya dado preferencia a ciertos trabajos en detrimento de otros y ello
altere los resultados de la revisión sistemática.
En opinión del tesista, lo ideal sería que las simulaciones realizadas fuesen replicadas por grupos
independientes, con la finalidad de comprobar la precisión de los resultados obtenidos. A este
respecto, se han establecido contactos con el Grupo de Ingeniería del Software Experimental de la
Universidad Federal de Rio de Janeiro, liderado por el Dr. Guilherme Travassos, para la realización
de dichas replicaciones.
Si bien se ha logrado generar un proceso de agregación acorde a las características del contexto
experimental de la IS y de las propiedades que las técnicas de Meta-Análisis presentan, es
importante destacar que el tema no acaba aquí, se requiere que desde la estadística surjan nuevas
aportaciones que incorporen nuevas técnicas y métodos de trabajo acorde para el tratamiento de
pequeñas muestras.
El proceso de agregación desarrollado posee dos ventajas principales, por un lado permite tener en
cuenta todas las evidencias empíricas identificadas, dado que incluye técnicas de agregación con
diferentes niveles de restricción, y por otro asocia a cada resultado un nivel de exactitud y potencia
empírica, permitiendo de esta forma quedarse con el mejor resultado. Este resultado no
necesariamente será el vinculado al grupo que mas experimentos posea o al vinculado al que sea
tratado por una técnica paramétrica, sino que busca un equilibro entre ambos aspectos para definir
así la mejor evidencia disponible.
Esta tesis, además de contestar de forma detallada a las preguntas de investigación planteadas (las
cuales se han discutido extensivamente en la sección anterior), realiza tres contribuciones
sustanciales a la ISE:
1. Por lo que se ha podido averiguar, se ha puesto de manifiesto por primera vez en el ámbito
de la ISE los efectos de las pequeñas muestras, esto es, la desviación de los valores
empíricos de los errores α y β desde sus valores nominales. Estas desviaciones se han
demostrado para las técnicas de meta-análisis, pero podrían existir igualmente para otros
tipos de test (por ejemplo: ANOVA) y podrían inducir cuestiones similares a las planteadas
en la presente tesis (por ejemplo: priorización de los tests estadísticos).
2. Hasta el presente, los experimentos con defectos de reporte no podían ser agregados
mediante meta-análisis y, por lo tanto, no podían contribuir a la creación de un cuerpo de
conocimientos en IS. La identificación de métodos de análisis alternativos al DMP y
tolerantes a defectos de reporte permite un mejor aprovechamiento del conjunto de
experimentos disponibles actualmente.
Por último, y de forma no completamente marginal, es interesante indicar que el DMP de efectos
aleatorios es el procedimiento recomendado por diversos autores (por ejemplo: [Schmidt, F.;
Hunter, J.; 2003]) e instituciones (por ejemplo: [Cochrane; 2012]) para la realización de meta-
análisis. La razón de esta recomendación es la imposibilidad práctica de que un conjunto de
experimentos comparta el mismo tamaño de efecto δ, ya que siempre existirán aspectos (por
ejemplo: diseño experimental, fiabilidad de las medidas, etc.) que alteren dicho valor δ (lo que a si
vez justifica el uso de modelos de efectos aleatorios). Sin embargo, en esta tesis, hemos podido
demostrar (tal y como autores como [Borenstein, M., Hedges, L., Rothstein, H.; 2007] sugieren) que
la imprecisión en la determinación de la varianza entre estudios τ2 en contextos de pequeñas
muestras producen que el DMP de efectos fijos no posea apenas potencia empírica, lo que implica
que otras técnicas de meta-análisis (por ejemplo: DMP de efectos fijos) puedan ser preferibles.
La presente tesis ha mostrado varios caminos por los que proseguir la investigación, aunque dos de
ellos merecen especial atención:
Las pequeñas muestras utilizadas con frecuencia en los experimentos de ISE se consideran como
una amenaza a la validez, en lugar de como una característica propia de la ISE que es necesario
abordar utilizando las herramientas adecuadas.
Cuando un experimento utiliza pocos sujetos, lo más habitual es que: 1) se señale la no normalidad
de la muestra (como se indica en [García, R.; 2004]) y 2) se utilicen procedimientos no
paramétricos (por ejemplo: Mann-Whitney) para realizar las pruebas de inferencia (como se indica
en [García, R.; 2004]). Lo primero es totalmente incorrecto (se trata de una confusión bastante
habitual entre la distribución de la población base y la Ley de Grandes Números). Lo segundo es
completamente correcto pero, cuando la población base es normal, supone un desperdicio de los
datos obtenidos en el experimento, ya que el poder estadístico de los tests no paramétricos es
reducido por norma general [García, R.; 2004].
Una aproximación más adecuada, en opinión del autor, sería reconocer la imposibilidad práctica de
obtener muestras más amplias y, en consecuencia, aplicar las herramientas más efectivas para
obtener el máximo rendimiento de los datos. Así, por ejemplo, si se sabe (o supone con un grado
razonable de certidumbre) que la población es normal, en lugar de un test no paramétrico podrías
aplicarse un test t, el cual es robusto y diseñado precisamente para pequeñas muestras [Good, P.;
Hardin, J. ; 2006]. Si se ignora la distribución de la población base, una estimación de las medianas
(en lugar de las medias) utilizando bootstrapping podría ser igualmente efectiva.
En consecuencia, el estudio de las características de las pequeñas muestras, su uso en ISE y los
mecanismos más adecuados de análisis constituye una prometedora futura línea de investigación.
Los tests de hipótesis acostumbran a utilizarse de forma acrítica en ISE. En prácticamente todos los
casos, el nivel de significación α se fija siempre al mismo nivel (5%, o incluso inferior), y cualquier
criterio de decisión utilizado se restringe a aceptar o rechazar la hipótesis nula.
En la presente tesis, se ha tenido la oportunidad de observar que los errores tipo I (α) y II (β) no son
entes inamovibles, sino que sus valores dependen del contexto. Y así como dependen del contexto,
también pueden depender de la conveniencia.
La razón por la cual α acostumbra a tener un valor del 5% es muy sencilla: todos nosotros
intentamos desarrollar nuevos métodos y técnicas que hagan más eficiente el desarrollo del
software. No obstante, necesitamos demostrar que dichos métodos y técnicas son efectivamente
mejores, ya que en caso contrario podríamos inducir a la comunidad del software a realizar un
cambio innecesario que solo generaría gastos. Por este motivo, cuando el test estadístico utilizado
arroja que la hipótesis alternativa H1 es cierta (esto es, la técnica bajo estudio es mejor), la
posibilidad de cometer un error debería ser lo menor posible (por ello α se fija en un valor igual o
menor del 5%).
Ahora bien; cuando los efectos involucrados son pequeños, o los tamaños muestrales reducidos, el
poder estadístico de los tests es también reducido. En estas circunstancias, es difícil rechazar la
hipótesis nula H0, lo que puede producir que se abandonen muchas investigaciones prometedoras al
confiar demasiado en el carácter significativo/no-significativo de los resultados del test.
Una alternativa que podría ser útil para la investigación en ISE es que, en lugar de establecer el
nivel α = 0.05, se utilizasen niveles superiores α = 0.10 o incluso α = 0.20. Esto provocaría que el
poder estadístico aumentara y por lo tanto el test fuese más sensible ante desviaciones de la
normalidad o la existencia de pequeños efectos. No obstante, un error de tipo I del 10% o 20% es
inaceptable en la mayoría de las circunstancias, por lo que esta manera de proceder no puede
utilizarse de forma general: debe protocolizarse adecuadamente para que la investigación en ISE sea
fiable (por ejemplo, estableciendo secuencias de ensayos con errores tipo I progresivamente
menores [Good, P.; Hardin, J. ; 2006]). En opinión del autor, esta segunda línea de investigación
puede resultar de la máxima relevancia en ISE.
8. REFERENCIAS
En esta sección se presentan las referencias bibliográficas citadas a lo largo del documento de tesis.
Arulambalam, a.; Chen, X; 1996; Llocating Fair Rates for Available Bit Rate Service in ATM
Networks; IEEE Communications. Vol.34, No.11, pp.92-100.
Bailey, J.; Basili, V.; 1981; A Meta-Model for Software Development Resource Expenditures; IEEE
Press; 107-116
Basili, V.; Weiss, D.; 1981; Evaluation of a Software Requirements Document by Analysis of
Change Data; IEEE Press; 314-323
Borenstein, M.; Hedges, L.; Rothstein, H.; 2007; Meta-Analysis Fixed Effect vs. random effect;
http://www.meta-
analysis.com/downloads/Meta%20Analysis%20Fixed%20vs%20Random%20effects.pdf.
Brassard, G.; Bratley, P.; 1988; Algorithmics: Theory and Practice; Prentice-Hall
Burton, A.; Shadbolt, N.; Hedgecock, A.; Rugg, G.; 1988; A Formal Evaluation of Knowledge
Elicitation Techniques for Expert Systems: Domain 1. Proceedings of Expert Systems '87
on Research and Development in Expert Systems IV. Pág. 136-145.
Burton, A.; Shadbolt, N.; Rugg, G.; Hedgecock, A.; 1990. The Efficacy of Knowledge Elicitation
Techniques: A Comparison Across Domains and Level of Expertise. Knowledge
Acquisition 2(2): 167-178.
Cabrero García, L.; Richart Martínez, M.; 1996; El debate investigación cualitativa frente a
investigación cuantitativa Enfermería clínica; 6: 212-217.
Chalmers I.; Hedges L.; Cooper H.; 2002; A brief history of research synthesis; Eval Health Prof
March;25(1):12–37.
Ciolkowski, M.; 2009; What do we know about perspective-based reading? An approach for
quantitative aggregation in software engineering; 3rd International Symposium on
Empirical Software Engineering and Measurement, pp. 133-144.
Cochran, W.; 1954; The combination of estimates from different experiments; Biometrics, 10, 101–
129.
Cohen, J.; 1988; Statistical Power Analysis for the Behavioral Sciences (2nd ed.); ISBN 0-8058-
0283-5.
Cooper, H.; Hedges, L.; 1994; The Handbook of Research Synthesis; Russell Sage Foundation: New
Cork, NY.
Corbridge, C.; Rugg, G.; Major, P.; Shadbolt, N.; Burton, A.; 1994; Laddering: Technical and Tool
in Knowledge Acquisition; Department of Psychology; University of Nottingham.
Cruzes, D.; Dybå, T.; 2010; Synthesizing evidence in software engineering research; Proceedings of
ACM-IEEE International Symposium on Empirical Software Engineering and
Measurement.
Davies, P.; 1999; What is evidence-based education?; British Journal of Educational Studies; 47:
108-121.
Davis, A.; Dieste O.; Hickey, A.; Juristo, N.; Moreno, A.; 2006; Effectiveness of Requirements
Elicitation Techniques: Empirical Results Derived from a Systematic Review; 14th IEEE
International Requirements Engineering Conference (RE'06) pp. 179-188
DerSimonian R.; Laird N.; 1986; Meta-analysis in clinical trials; Control Clin Trials; 7: 177-88.
Dieste,O.; Griman,A.; 2007; Developing Search Strategies for Detecting Relevant Experiments for
Systematic Reviews; IEEE Press
Dieste, O.; Juristo, N.; 2009; Systematic Review and Aggregation of Empirical Studies on
Elicitation Techniques; IEEE Transactions on Software Engineering, TSE-2009-03-0052;
http://main.grise.upm.es/reme/publicaciones_download.aspx?type=REV&id=64
Dixon-Woods, M.; Agarwal, S.; Jones, D.; Young, B.; Sutton, A.; 2005; Synthesising qualitative
and quantitative evidence: a review of possible methods; Journal of Health Services
Research and Policy, 10, 1, 45-53B(9)
Dyba, T.; Aricholm, E.; Sjoberg, D.; Hannay J.; Shull, F.; 2007; Are two heads better than one? On
the effectiveness of pair programming. IEEE Software;12-15.
Dyba, T.; Kampenes, V.; Sjoberg, D.; 2006; A systematic review of statistical power in software
engineering experiments; Information and Software Technology; vol. 48, ejemplar 8,
página 745-755
El Emam, K.; Laitenberger, O.; 2001; Evaluating Capture-Recapture Models with Two Inspectors; IEEE
Transaction on Software Engineering; 27(9): 851-864.
Everitt, B.; 2003; The Cambridge Dictionary of Statistics; CUP; ISBN: 0-521-81099-x
Fenton, N.; Pfleeger, S.; 1997; Software metrics. A rigurous and practical approachFuente;PWS
Publishing Company
Friedrich, J.; Adhikari, N.; Beyene, J.; 2008; The ratio of means method as an alternative to mean
differences for analyzing continuous outcome variables in meta-analysis: A simulation
study; BMC Medical Research Methodology
García, R.; 2004; Inferencia Estadística y Diseño de Experimentos; eudeba; Buenos Aires
Argentina
Gavaghan D.; Moore A.; McQay H.; 2000; An evaluation of homogeneity tests in meta-analysis in
pain using simulations of patient data; Pain, vol. 85, pp. 415-424.
Glass, G.; 1976; Primary, secondary, and meta-analysis of research; Educational Researcher 5: 3-8
Good, P.; Hardin, J.; 2006; Common Errors in Statistics (and How to Avoid Them); second edition;
wiley & Sons; ISBN-13: 978-0-471-79431-8.
Goodman, C.; 1996; Literature Searching and Evidence Interpretation for Assessing Health Care
Practices; SBU; Stockholm.
Graham, J.; Schafer, J.; 1999; On the Performance of Multiple Imputation for Multivariate Data
With Small Sample Size; v-29, Sage PublicationsCarpetas
Gurevitch, J.; Hedges, L.; 2001; Meta-analysis: Combining results of independent experiments;
Design and Analysis of Ecological Experiments (eds S.M. Scheiner and J. Gurevitch), pp.
347–369; Oxford University Press, Oxford.
Hedges, L.; 1982; Fitting categorical model to effect size from a series of experiments; journal
educational statistics; 7; 119-137.
Hedges, L.; 1993; Statistical Considerations; Russell Sage Foundation; First edition
Hedges, L.; Gurevitch, J.; Curtis, P.; 1999; The Meta-Analysis of Response Ratio in Experimental
Ecology; The Ecological Society of America
Hedges, L.; Olkin, I.; 1985; Statistical methods for meta-analysis. Academic Press
Higgins J.; Green S.; 2011; Cochrane Handbook for Systematic Reviews of Interventions Version
5.1.0; The Cochrane Collaboration
Hunt, M.; 1997; How Science takes stock: the story of meta-analysis; Russell Sage Foundation:
New York
Hunter, J.; Schmidt, F.; 2004; Methods of meta-analysis: correcting error and bias in research
findings; Sage Publications
Ioannidis, J.; Patsopoulos, N.; Evangelou, E.; 2007; Uncertainty in heterogeneity estimates in meta-
analyses; BMJ, 335 : 914 doi: 10.1136/bmj.39343.408449.80
Jones, M.; O'Gorman, T.; Lemke, J.; Woolson, R.; 1989; A Monte Carlo Investigation of
Homogeneity Tests of the Odds Ratio under Various Sample Size Configurations;
Biometrics, Vol. 45, No. 1
Jørgensen, M.; 2004; A Review of Studies on Expert Estimation of Software Development Effort;
Journal of Systems and Software; (70): 1-2, pp. 37-60.
Judd, C.; Smith E.; Kidder, L.; 1991; Research Methods in Social Relations; Hartcourt Brace
Jovanovich College Publishers, Orlando, Florida
Juristo, N., Moreno A.; 2001; Basics of Software Engineering Experimentation. Boston: Kluwer
Academic Publisher.
Juristo, N., Moreno, A.: 2002; Reliable Knowledge for Software Development; IEEE Software
19(5):98-99.
Juristo, N.; Moreno, A.; Vegas, S.; 2004; Towards building a solid empirical body of knowledge in
testing techniques; Acm Sigsoft Software Engineering Notes (Sigsoft) 29(5):1-4
Juristo, N.; Vegas, S.; 2011; The Role of Non-Exact Replications in Software Engineering
Experiments; Journal: Empirical Software Engineering
Kampenes, V.; Dyba, T.; Hannay J.; Sjøberg, D.; 2007; A systematic review of effect size in
software engineering experiments; Information and Software Technology 49 1073–1086
Kitchenham, B.; 2004; Procedures for performing systematic reviews. Keele University; TR/SE-
0401. Keele University Technical Report.
Laitenberger, O.; Atkinson, C.; Schlich, M.; El Emam, K.; 2000; An experimental comparison of
reading techniques for defect detection in UML design documents; J.Syst.Software; 53, 2,
183-204
Laitenberger, O.; Rombach, D.; 2003; (Quasi-)Experimental Studies in Industrial Settings; World
Scientific
Lajeunesse, M.; Forbes, M.; 2003; Variable reporting and quantitative reviews: a comparison of
three meta-analytical techniques. Ecology Letters, 6: 448-454.
Liang, K.; Self, S.; 1985; Tests for Homogeneity of Odds Ratio When the Data are Sparse;
Biometrika; Vol. 72, No. 2
Lipsitz S.; Dear K.; Laird N.; Molenberghs, G.; 1998; Tests for homogeneity of the risk difference
when data are sparse; Biometrics, vol. 54, pp. 148-160.
Metropolis, N.; Ulam, S.; 1949; The Monte Carlo Method; Journal of the American Statistical
Association; 44(247): 335-341.
Miguez, E.; Bollero, G.; 2005; Review of Corn Yield Response under winter cover cropping systems
using Meta-Analytic Methods; Crop Science Society of America
Miller, J.; 1999; Can Results from Software Engineering Experiments be Safely Combined?; IEEE
METRICS, 152-158
Mohagheghi, P.; Conradi, R.; 2004; Vote-Counting for Combining Quantitative Evidence from
Empirical Studies - An Example. Proceedings of the International Symposium on Empirical
Software Engineering (ISESE'04).
Morales Vallejo, P.; 2011; Tamaño necesario de la muestra ¿Cuántos sujetos necesitamos?;
disponible en: www.upcomillas.es/personal/peter/investigacion/TamañoMuestra.pdf, al 26
de agosto de 2012
Myers,D.; Lamm,H.; 1975; The polarizing effect of group discussion; American Scientist, 63, 297-
303
Navarro, F.; Giribet, C.; Aguinaga, E.; 1999; Psiquiatría basada en la evidencia: Ventajas y
limitaciones; Psiquiatría Biológica; 6: 77-85.
Pearson, K.; 1904; Report on certain enteric fever inoculation statistics; BMJ 3:1243-1246.
Petrosino, A.; Boruch, R.; Soydan, H.; Duggan, L.; Sánchez-Meca, J.; 2001; Meeting the challenges
of Evidence-Based Policy: The Campbell Collaboration; Annals of the American
Academy of Political & Social Science; 578: 14-34.
Pfleeger, S.;1999; Albert Einstein and Empirical Software Engineering; Computer; 32-37.
Reichart, C.; Cook, T.; 1986; Hacia una superación del enfrentamiento entre los métodos
cualitativos y cuantitativos; En: Cook TD, Reichart ChR (ed). Métodos cualitativos y
cuantitativos en investigación evaluativa. Madrid: Morata.
Richy, F.; Ethgen, O.; Bruyere, O.; Deceulaer, F.; Reginster, J.; 2004; From Sample Size to Effect-Size:
Small Study Effect Investigation (SSEi); The Internet Journal of Epidemiology, 1, 2
Rogers, D.; 2006; Fifty years of Monte Carlo simulations for medical physics; Physics in Medicine and
Biology; 51: R287-R301
Sabaliauskaite, G.; Kusumoto, S.; Inoue, K.; 2004; Assessing defect detection performance of
interacting teams in object-oriented design inspection; Information and Software
Technology 46 (2004) 875–886; Available online at: www.sciencedirect.com
Sabaliauskaite, G.; Matsukawa, F.; Kusumoto, S.; Inoue, K.; 2002; An experimental comparison of
checklist-based reading and perspective-based reading for UML design document
inspection; Empirical Software Engineering; 148-157
Sackett, D.; Wennberg, J.; 1997; Choosing the best research design for each question; BMJ, 315:
1636
Sanchez-Meca, J.; Botella, J.; 2010; Revisiones Sistemáticas y Meta-Análisis: Herramientas Para
La práctica Profesional; Papeles del Psicólogo, Vol. 31, Núm. 1, pp. 7-17
Sawilowsky, S.; Fahoome, G.; 2002; Statistics Through Monte Carlo Simulation with Fortran; ed:
JMASM.
Schweickert, R.; Burton, A.; Taylor, N.; Corlett, E.; Shadbolt, N.; Rugg, G.; Hedgecock, A.; 1987;
Comparing Knowledge Elicitation Techniques: A Case Study; Artificial Intelligence
Review (1): 245-253.
Schmidt, F.; Hunter, J.; 2003; Handbook of Psychology, Research Methods in Psychology; Chapter
21, “Meta-Analisis”; Schinka, J., Velicer, W., Weiner, I. Editors, Volume 2
Sidhu, D.; Leung, T.; 1989; Formal Methods for Protocol Testing: A Detail Study; IEEE Transaction on
Software Engineering; 15(4): 413-426.
Sjoberg, D.; 2005; A survey of controlled Experiments in Software Engineering; IEEE Transactions
on Software Engineering; Vol 31 Nro. 9.
Song, F.; Sheldon, T.; Sutton, A.; Abrams, K.; Jones, D.; 2001; Methods for Exploring
Heterogeneity in Meta-Analysis; Evaluation and The Health professions, vol. 24 no. 2, pp.
126-151.
Strain, D.; Lee, J.; 1984; Variance Component Testing in the Longitudinal Mixed Effects Model;
Biometrics, vol. 50, pp. 1171-1177.
Takkouche, B.; Cadarso-Suarez, C.; Spiegelman, D.; 1999; Evaluation of old and new tests of
heterogeneity in epidemiologic meta-analysis; Am. J. Epidemiol; 150, 206–215; PubMed
ChemPort
Thalheimer W.; Cook S.; 2002; How to calculate effect sizes from published research: A simplified
methodology; A Work-Learning Research Publication.
Tichy, W.; 1971; Should computer scientists experiment more?; IEEE Computer, vol. 31, ej. 5, pag.
32-40
Tichy, W.; 1998; Should Computer Scientists Experiment More?; IEEE Computer; vol. 31, ej. 5,
pag. 32-40
Vander Wiel, S.; Votta, L.; 1993; Assessing Software Design Using Capture-Recapture Methods; IEEE
Transaction on Software Engineering, 19(11): 1045-1054.
Weinberg, G.; 1971; The Psychology of Computer Programming; Van Nostrand Reinhold, New
York
Un conjunto de experimentos es homogéneo si las diferencias entre los resultados de los estudios se
deben a un error aleatorio propio de la experimentación y no a un efecto producido por algún factor
externo no controlado que está introduciendo ruido en el resultado final [Hunter, J.; Schmidt, F.;
2004].
La heterogeneidad puede apreciarse en un forest plot, gráfico con el que habitualmente se presentan
los resultados del Meta-Análisis. Un forest plot representa los tamaños de efectos de los
experimentos incluidos en un meta-análisis, así como el tamaño de efecto global, juntamente con
sus respectivos intervalos de confianza [Sjoberg, D.; 2005]. En las figuras 1 y 2 se presentan
ejemplos de forest plots (homogéneos y heterogéneos, respectivamente).
Por el contrario, cuando algún experimento no se solapa con los intervalos de confianza de los otros
experimentos, nos encontramos en un escenario completamente distinto. A modo de ejemplo,
considérese el experimento 2 en la figura 2. El efecto reportado en dicho experimento es 0,8, muy
alejado del 0,3 de los restantes experimentos. El intervalo de confianza del experimento 2 está
centrado en 0,8, pero muy alejado de los restantes intervalos de confianza. Es por lo tanto bastante
probable que el experimento 2 sea “distinto” que los demás, ya sea por azar o, dada la enorme
diferencia con los restantes experimentos y el estrecho intervalo de confianza que posee (lo que
denota precisión), debido a algún motivo sistemático.
Aunque el examen visual de un forest plot permite vislumbrar la presencia de heterogeneidad, los
estudios realizados en otras disciplinas desaconsejan su uso [Ioannidis, J.; Patsopoulos, N.;
Evangelou, E.; 2007], ya que se ha comprobado que el resultado de una inspección visual dependen
en gran medida de la opinión subjetiva del investigador que la aplica [Ioannidis, J.; Patsopoulos, N.;
Evangelou, E.; 2007]. Para determinar el carácter homogéneo o heterogéneo de un conjunto de
estudios, es preferible emplear tests estadísticos de heterogeneidad.
2
K: Número de estudios
⎛ k ⎞
⎜ ∑ wi Ei ⎟ k: Número de estudios
( )
k k
⎝ ⎠ = w E −E 2
QT = ∑ wi Ei −
2 i =1
k ∑ i i wi: Peso del estudio i B.1
i =1
∑ wi
i =1
i =1
Ei : Efecto del estudio i
E: Efecto global
El test Q posee una distribución χ2 con (k–1) grados de libertad. Q puede utilizarse de dos formas
distintas. En su vertiente más simple, un resultado significativo del test Q denota la presencia de
heterogeneidad. Q también puede utilizarse para calcular la varianza entre estudios τ2. Ambos
hechos están profundamente interrelacionados, aunque en este trabajo nos centraremos en el
primero de los casos. El nivel de significación habitual es α = 0.05, aunque algunos autores
recomiendan utilizar α = 0.1 para aumentar la potencia del test [Schmidt, F.; Hunter, J.; 2003].
Existen otros test estadísticos para estudiar la heterogeneidad de un conjunto de experimentos, tales
como Z2k [Lipsitz, S.; et al.; 1998] o LTR [Strain, D.; Lee, J.; 1984]. No obstante, dichos métodos
han sido poco utilizados por el momento y nunca han sido usados en SE. Aunque algunos de estos
métodos son prometedores [Jones, M.; et al.; 1989], parece prematuro abordar dichos tests en el
presente trabajo.
H0: d = 0
H1: d > 0
Supongamos que, tras ejecutar el experimento, se obtiene que el valor empírico del tamaño de
efecto es d. Dado que d no alcanza la región crítica (α, marcada en verde) para rechazar H0, se
acepta la hipótesis nula. Esto ocurre siempre que se encuentre en la región roja. El área de esta
región es lo que determina la probabilidad de error tipo II (β).
Los errores α y β son inversamente proporcionales al valor del parámetro d y tamaño muestra N.
Esto es lógico ya que, a medida que d aumenta, la separación entre las curvas H0 y H1 aumenta,
disminuyendo de esta forma el área β (supóngase que α está fijo al 5%, aunque no es realmente
necesario, tarde o temprano, el tamaño de α deberá disminuir igualmente). N está relacionado con la
anchura de las curvas (esto es, la varianza). A medida que aumente N, la anchura de las curvas
disminuye, produciendo el mismo efecto de achique de las áreas α y β.
Sin embargo, en lo que respecta a la presente tesis, la clave está en el tipo de test utilizado. En la
figura C.1 puede apreciarse fácilmente que las curvas H0 y H1 son normales. Es uso de curvas
normales es muy frecuente en estadística debido a la ley de los grandes números, que afirma en
esencia que, cuando N es grande, la distribución de muchos parámetros (entre ellos el tamaño de
efecto d) se aproxima a una distribución normal. De hecho, todas las técnicas de Meta-Análisis
(DMP, RRP, RRNP y CVE) emplean aproximaciones normales.
El problema surge cuando N no es tan grande como la ley de los grandes números exige, esto es,
cuando los experimentos utilizan pequeñas muestras. No está claro que es una pequeña muestra.
Algunos autores indican 30 sujetos, otros 50, etc. [Morales Vallejo, P.; 2011]. En cualquier caso,
ambos valores son superiores a los empleados, en muchos casos, en ISE hoy día.
Las distribuciones basadas en pequeñas muestras poseen colas (esto es, extremos en la distribución)
más pesadas (esto es, de mayor amplitud) que la distribución normal. A modo de ejemplo, véase de
nuevo la figura C.2. El área α (en rojo) por debajo de la curva normal es notoriamente más pequeña
que el área α1 (verde) por debajo de la distribución real.
PI: ¿Que técnicas de Meta-Análisis para variables continuas existen, aparte de DMP?
Las cadenas de búsqueda se van a aplicar al: título del trabajo, palabras clave y resumen. Como lo
que se busca identificar en este trabajo son publicaciones de nivel internacional, los términos a
utilizar serán escritos en inglés. A continuación se detalla como quedaron conformadas las tres
cadenas de búsqueda:
Como resultado de aplicar las cadenas de búsqueda se identificaron las siguientes cantidades de
estudios:
Una vez unificados los resultados de la búsqueda en una planilla EXCEL y ordenados los artículos
por nombre se procedió a eliminar los artículos duplicados, quedando el total de artículos en 579.
Una vez eliminados los artículos duplicados se procedió a preseleccionar los artículos en función de
lo que indicaban en el resumen eliminando fundamentalmente trabajos de aplicación estándar
(básicamente trabajos hechos en medicina). Como resultado de esta depuración se preseleccionaron
22 artículos. Siendo eliminados 557 artículos. Estos 557 artículos consistían mayoritariamente en
trabajos de aplicación de la técnica DMP, notablemente encuadrados en el área de la medicina.
Los 22 artículos seleccionados fueron leídos en profundidad, lo que permitió seleccionar 3 artículos,
los cuales se detallan a continuación:
• Friedrich, J., Adhikari, N., Beyene, J.; 2008; The ratio of means method as an alternative to
mean differences for analyzing continuous outcome variables in meta-analysis: A simulation
study; BMC Medical Research Methodology
• Lajeunesse, M., Forbes, M.; 2003; Variable reporting and quantitative reviews: a
comparison of three meta-analytical techniques. Ecology Letters, 6: 448-454.
• Miguez, E. & Bollero, G; 2005; Review of Corn Yield Response under winter cover
cropping systems using Meta-Analytic Methods; Crop Science Society of America
• El trabajo de Friedrich, J., et al, compara mediante una simulación de Monte Carlo el
comportamiento de las técnicas DMP y Ratio de Respuesta, indicando que esta última
técnica puede ser una alternativa válida para desarrollar Meta-Análisis en medicina;
Luego de analizar las expresiones analíticas de las técnicas de Meta-Análisis empleadas en cada
trabajo, se puede afirmar que la técnica Ratio de Respuesta utilizada en el trabajo de Friedrich, J., et
al, es la misma técnica que en el trabajo de Lajeunesse, M. y Forbes, M. Por otro lado la técnica
Ratio de Respuesta versión no paramétrica aplicada en el trabajo de Miguez, E. y Bollero, G. es la
misma técnica que se analiza en el trabajo de Lajeunesse, M. y Forbes, M. Para evitar confusiones
entre los distintos tipos de Ratio de Respuesta, denominaremos al primer Ratio de Respuesta
paramétrico.
En base al seguimiento de las referencias bibliográficas, se han identificado dos publicaciones de:
Las cuales si bien, no aportan nuevas técnicas, explican en mayor detalle cómo funcionan las
técnicas ya identificadas.
C.3. CONCLUSIONES
Como resultado de esta RSL, se ha logrado identificar tres nuevas técnicas de Meta-Análisis
cuantitativas aplicables a variables continuas:
Como su nombre lo indica, es una técnica de tipo paramétrica y por tanto requiere para ser aplicado
normalidad en la distribución y homoesticidad (igualdad de las varianzas).
Dado que los resultados aportados por esta técnica consisten en un cociente, su interpretación es
directa, así, por ejemplo, un ratio de 1.3 indicará que el tratamiento experimental es un 30% mejor
que el de control o un ratio de 1 indica que ambos tratamientos son iguales.
En las siguientes subsecciones se describen las funciones de estimación de la técnica y las ventajas
y desventajas asociadas a su posible uso en IS.
La aplicación de la técnica consta de dos pasos, primeramente se debe estimar el Ratio de cada uno
de los experimentos, y una vez estimado el mismo, podrá estimarse el Ratio o efecto global
[Gurevitch, J.; Hedges, L.; 2001]. A continuación vamos a presentar como se estima el tamaño de
efecto o ratio individual (ver función D.1):
Luego de estimar el tamaño de efecto, se estima el error típico, y en base a este se establece el
intervalo de confianza asociado al mismo para el nivel de exactitud deseado, generalmente del 95%,
lo que equivale a un error de tipo I del 5% (α = 0,05). Ver función D.2.
Para que la combinación del conjunto de estudios sea más precisa se le incorporó a la estimación
del efecto global el logaritmo natural [Hedges, L.; Gurevitch, J.; Curtis, P.; 1999]. Lo cual permite
linealizar los resultados y normalizar su distribución, convirtiéndolo en una técnica apropiada para
estimaciones de efectos cuando el conjunto de experimentos es pequeño. Ver función D.3.
k
*
∑ Wi Li L* representa el tamaño de efecto global (D.3)
L* = i =1
* Li representa el tamaño de efecto individual con la
∑ik=1Wi
aplicación de logaritmo ( l = Ln (RR ) )
v= 1
∑1/W ) i
Wi representa el factor de peso del experimento (1/v )
v representa el error típico
S2‘s representa a las varianzas del grupo experimental (E) y
de control (C)
Y‘s representa a las medias del grupo experimental (E) y de
control (C)
n‘s representa la cantidad de sujetos del grupo experimental
(E) y de control (C)
Una vez estimado el tamaño de efecto global, se debe estimar el intervalo de confianza asociado al
mismo, para ello se utiliza la función D.4.
Por último, luego de estimar el tamaño de efecto y su intervalo de confianza, se debe aplicar el anti-
logaritmo a los resultados para obtener así el índice de efecto final.
En esta sección se presentan una serie de ventajas que se espera obtener si un conjunto de
experimentos es agregado mediante Ratio de Respuesta, y luego un conjunto de desventajas o
inconvenientes para su aplicación:
Ventajas
• No requiere de tablas para comprender el significado del resultado final
• Es utilizado en ámbitos de la ciencia donde los experimentos suelen incluir pocos sujetos
experimentales, como sucede actualmente en IS.
Desventajas
• Requiere la publicación de todos los parámetros estadísticos (medias, varianzas y cantidad
de sujetos experimentales)
• Se debe verificar o suponer homoesticidad y normalidad [Gurevitch, J.; Hedges, L.; 2001].
El Conteo de votos estadísticos (CVE) es una técnica que requiere muy poca información para
poder ser aplicado, básicamente conocer si existe o no diferencia entre las medias de los
tratamientos y la cantidad de sujetos experimentales utilizados en cada experimento [Hedges, L.;
Olkin, I.; 1985]. Es importante destacar que esta técnica es más que una simple suma de votos, ya
que el objetivo es estimar el tamaño de efecto (el mismo que se hubiera podido estimar si se contara
con todos los datos necesarios para aplicar DMP) partiendo del signo de las diferencias de las
medias y la cantidad de sujetos experimentales, los cuales se combinan mediante la aplicación de un
proceso de inferencia iterativo que intenta determinar, para un rango de tamaños de efectos posibles
(en general entre -0,5 y 0,5), cuál es el tamaño efecto de mayor probabilidad de ser real.
Esta técnica es considera una técnica no paramétrica, y por ende no requiere conocer o hacer
suposiciones de cómo es el comportamiento de la población.
Como se mencionó anteriormente, esta técnica permite estimar un tamaño de efecto a semejanza de
DMP, por lo cual sus resultados deben interpretarse de la misma forma, mediante una tabla de
conversión. A continuación, en la tabla D.1, se indican los valores de corte asociados a cada nivel
de tamaño de efecto.
A diferencia de las dos técnicas descriptas anteriormente, para el CVE solo se estima el tamaño de
efecto global, no requiere estimar los tamaños de efecto de cada experimento [Hedges, L.; Olkin, I.;
1985]. El primer paso para la estimación del tamaño de efecto es definir como determinar que un
voto es positivo o no, esto pude hacerse a través de los resultados de un test de hipótesis o
simplemente mediante la comparación directa de las medias de ambos tratamientos. El primero de
los casos dará resultados más conservadores, mientras que el segundo tenderá a sobre estimar el
tamaño de efecto. Dado que en el contexto de la Ingeniería del Software los experimentos utilizan
pocos sujetos experimentales, lo cual condiciona la potencia de los test de hipótesis, nuestra
recomendación es trabajar con la diferencia de las medias como base para definir el voto. Así pues
si la media del tratamiento experimental es mayor a la de control se asignará un voto positivo al
experimento (un valor de 1) y en caso contrario el voto será negativo (un valor de 0).
Definidos los votos de los experimentos se realiza un proceso interactivo en el cual se evalúa la
probabilidad de ser cierto de un tamaño de efecto dentro de un rango de -0,5 a 0,5, variando de 0,1.
La función D.5, permite determinar cuál es la probabilidad de cada tamaño de efecto.
[ (
k ⎧ X ln 1 − φ −
L(δ | X 1 ,....., X i ) = ∑ ⎨
⎪ i )]
ñδ + ⎪⎫ L(δ|X1,….Xn) representa la (D.5)
⎬
( )
⎩(1 − X i ) ln φ − ñδ ⎪⎭
i =1 ⎪
probabilidad del tamaño de efecto
evaluado
δ representa el tamaño de efecto a
n E + nC testear
ñ= E C
n *n
Xi es el valor del voto de cada
experimento
n‘s representa la cantidad de
sujetos del grupo experimental (E)
y de control (C)
Una vez estimado el tamaño de efecto global, se debe estimar el intervalo de confianza asociado al
mismo, para ello se utiliza la función D.6.
En esta sección se presentan una serie de ventajas que se espera obtener si un conjunto de
experimentos es agregado mediante el CVE, y luego un conjunto de desventajas o inconvenientes
para su aplicación:
Ventajas
• El resultado final estimado no es un simple conteo de votos, sino que es una técnica que
permite inferir, con muy pocos datos, un tamaño de efecto como lo hacen las técnicas de
agregación más formales.
• Requiere conocer pocos datos para poder ser aplicado
• Por ser una técnica no paramétrica no requiere que exista homoesticidad y normalidad
[Hedges, L.; Olkin, I.; 1985]
• El hecho de requerir pocos datos para poder ser aplicado facilita su uso en el actual contexto
experimental de la IS, donde muchos estudios no publican las varianzas.
Desventajas
Esta versión del Responde Ratio, comparte de esencia de la versión paramétrica, consiste en estimar
un índice de mejora, o Ratio, entre un tratamiento Experimental y otro de Control mediante el
cociente de ambas medias, y luego su agregación mediante una suma ponderada. En este último
punto radica la diferencia entre ambas técnicas, en la versión paramétrica se pondera a los
experimentos en base a la inversa de su varianza, mientras que en la versión no paramétrica se
ponderan en base a su tamaño [Miguez, E.; Bollero, G.; 2005], es decir, a la cantidad de sujetos
experimentales que posea. Pero el procedimiento es el mismo en ambos casos.
Por otra parte, al ser este una técnica no paramétrica, no requiere conocer o hacer suposiciones de
cómo es el comportamiento de la población.
k
*
∑ Wi Li L* representa el tamaño de efecto global (D.7)
L* = i =1
* Li representa el tamaño de efecto individual con la
∑ik=1Wi
aplicación de logaritmo (L = Ln YC/YE)
nC + nE Ln( RR 2 )
v= + Wi representa el factor de peso del experimento (1/v )
nE nC 2(nC + nE )
v representa el error típico
En esta sección se presentan una serie de ventajas que se espera obtener si un conjunto de
experimentos es agregado mediante Ratio de Respuesta no paramétrico, y luego un conjunto de
desventajas o inconvenientes para su aplicación:
Ventajas
• No requiere de tablas para comprender el significado del resultado final
• No requiere conocer como es el comportamiento de la población (conocer la distribución o
si existe homogeneidad)
• El hecho de no requerir la publicación de la varianzas facilita su uso en el actual contexto
experimental de la IS, donde muchos estudios no publican las varianzas.
La identificación de técnicas de Meta-Análisis alternativas a DMP se ha realizado mediante una
Revisión Sistemática de Literatura (RSL), siguiendo el procedimiento establecido por [Kitchenham,
B.; 2004].
ANEXO E – PUBLICACIONES
En este anexo se presentan las publicaciones desarrolladas en el marco de esta tesis.
Publicación Tipo
I. Fernández. E. (2007). Agregation Process with Multiple Evidence Levels for Congreso
Experimental Studies in Software Engineering. Proceedings 2nd International Internacional
Doctoral Symposium on Empirical Software Engineering. Pag. 75-81. ISBN
978-84-690-7340-7.
II. Fernández, E., Diez, E., Malacrida, J., Britos, P., Dieste, O., García Martínez, Congreso
R. (2008). Uso de Revisiones Sistemática como Estrategia de Generación de Nacional
Conocimientos para Mejora Continua. Proceedings del XIV Congreso
Argentino de Ciencias de la Computación, Workshop de Ingeniería de
Software y Bases de Datos, Artículo 1924. ISBN 978-987-24611-0-2.
III. Dieste, O., Fernández, E., Pesado, P., García-Martínez, R. (2009). Analysis of Congreso
Inspection Technique Performance. Proceedings XV Congreso Argentino de Nacional
Ciencias de la Computación. Workshop de Ingeniería de Software. Págs. 961-
970. ISBN 978-897-24068-4-1.
IV. Fernández, E., Dieste, O., Pesado, P., García-Martínez, R. (2009). Pautas Congreso
para Agregar Estudios Experimentales en Ingeniería del Software. Internacional
Proceedings XIV Jornadas de Ingeniería del Software y Bases de Datos. Pág.
91-102. ISBN 978-84-692-4211-7.
V. Dieste, O., Fernández, E., Pesado, P., García-Martínez, R. (2010). Desarrollo Congreso
de una Revisión Sistemática aplicando Métodos de Agregación Alternativos Regional
para el Análisis de las Técnicas de Inspección. Un Caso Testigo. Actas del
XIII Congreso Iberoamericano en Software Engineering. Pág 121-134. ISBN
978-9978-325-10-0.
VI. Fernández, E., Pollo, M., Amatriain, H., Dieste, O., Pesado, P., García- Capítulo de
Martínez, R. (2010). Ingeniería de Software Empírica. Aplicabilidad de Libro
Métodos de Síntesis Cuantitativa. En Ingeniería de Software e Ingeniería del
Conocimiento: Tendencias de Investigación e Innovación Tecnológica en
Iberoamérica (Editores: R. Aguilar, J. Díaz, G. Gómez, E- León). Pág. 287-
297. Alfaomega Grupo Editor. ISBN 978-607-707-096-2.
VII. Dieste, O., Fernandez, E., Garcia-Martínez, R., Juristo, J. (2010). Hidden Congreso
Evidence Behind Useless Replications. 1st International Workshop on Internacional
Replication in Empirical Software Engineering Research (RESER) en CORE A
ACM/IEEE 32nd International Conference on Software Engineering (ICSE).
VIII. Dieste, O., Fernández, E., García, R., Juristo, N. (2011). Comparative analysis
Congreso
of meta-analysis methods: when to use which?”. 6th EASE Durham (UK) Internacional
Pág. 36-45. CORE A
IX. Dieste, O., Fernández, E., García, R., Juristo, N. (2011). The risk of using the Congreso
Q heterogeneity estimator for software engineering experiments. Proceedings Internacional
5th International Symposium on Empirical Software Engineering and CORE A
Measurement. Paper Nber. 56. Sep. 22-23. Max Bell (MB) Building. Banff,
Alberta, Canada
XI. Dieste, O., Fernández, E., García, R., Juristo, N. (2012). Comparison of meta- Revista
analysis methods: understanding the influence of experiments’ statistical Internacional
parameters. EMSE, Presentado