Proceso de Agregación para Estudios Experimentales en Ingenieria Del Software

PROCESO DE AGREGACIÓN PARA ESTUDIOS
EXPERIMENTALES EN INGENIERIA DEL

SOFTWARE
Tesista
Mg. Enrique FERNÁNDEZ
Directores
Prof. Oscar DIESTE (UPM) y Prof. Ramón GARCÍA MARTÍNEZ (UNLP-UNLa)
Codirectora
Prof. Patricia PESADO (UNLP)
TESIS PRESENTADA PARA OBTENER EL GRADO

DE
DOCTOR EN CIENCIAS INFORMÁTICAS
FACULTAD DE INFORMÁTICA
UNIVERSIDAD NACIONAL DE LA PLATA
AGOSTO, 2012
RESUMEN
Antecedentes: Si bien el Meta-Análisis o agregación de estudios experimentales no es un tema

nuevo en Ingeniería del Software, la práctica actual deriva sus recomendaciones exclusivamente de
la medicina, ciencia que en muchos aspectos dista bastante del contexto actual de la Ingeniería del
Software (IS). En general los experimentos en medicina contienen muchos sujetos. Asimismo, es
frecuente la realización de replicaciones. En estas circunstancias, las técnicas de Meta-Análisis
utilizadas, en especial las diferencias medias ponderadas, son fiables.
Objetivo: Desarrollar un proceso de agregación propio para la Ingeniería del Software, tomando en
cuenta en las características específicas de los experimentos realizados en esta área de la ciencia.
Método: Para poder construir el procedimiento de agregación, se han identificado los principales
problemas para realizar un trabajo de esta naturaleza en Ingeniería del Software; se ha evaluado y
analizado como trabajan en otras ramas de la ciencias (como son, por ejemplo, las ciencias sociales
o la ecología); se han identificado técnicas de agregación alternativas a la que habitualmente se
utiliza en Ingeniería del Software; se ha evaluado el desempeño de estas técnicas en contextos como
el que presenta la Ingeniería del Software mediante un procesos de simulación, estableciendo los
niveles de exactitud y potencia empírica de cada una de ellas; y se han definido un conjunto de
heurísticas para poder determinar con que técnica de Meta-Análisis combinar los resultados de los
experimentos identificados, para generar así una conclusión en base a la mejor evidencia disponible.
Resultados: Se han identificado tres técnicas de Meta-Análisis nuevas para la IS: Ratio de
Respuesta Paramétrico, Ratio de Respuesta no Paramétrico y Conteo de Votos Estadístico. Se ha
determinado como es el comportamiento de estas técnicas y la técnica Diferencias Medias
Ponderadas, evaluando su exactitud y potencia empírica, en función del tamaño de Meta-Análisis
(cantidad de experimentos y sujetos por experimentos), el tamaño de efecto y los niveles de
varianza. Finalmente, se ha desarrollado un proceso de agregación de experimentos acorde al
contexto experimental de la IS.
Conclusiones: El proceso de agregación desarrollado permite aprovechar mejor las evidencias

empíricas disponibles en el contexto de la IS, permitiendo agregar experimentos con falencias de
reporte. Si bien mediante los trabajos de simulación se ha establecido como es el comportamiento
de las técnicas de agregación a nivel general, no se cuenta con la suficiente precisión como para
determinar con exactitud cuál es el nivel de error de las mismas para todas las posibles
combinaciones de tamaños de experimentos.
ABSTRACT
Background: Although the meta-analysis or aggregation of experimental studies is not a new topic
in software engineering, derives its current practice of medicine only recommendations, science,
which in many ways, is far from the current context of Software Engineering (IS). In general,
experiments in medicine containing many subjects. It is also common conducting replications. In
these circumstances, the meta-analysis techniques used, especially weighted mean differences, are
reliable.
Objective: To develop a aggregation process specific for software engineering, taking into account
the particular characteristics of the experiments conducted in this area of science.
Method: In order to build the aggregation procedure, we have identified the main problems for a
work of this nature in Software Engineering, it has been evaluated and tested in other branches of
science (such as, for example, science social or ecological). It has been identified alternative
aggregation techniques to habitually used in Software Engineering, we have evaluated the
performance of these techniques in contexts like the one with the Software Engineering through a
simulation process. It has been established accuracy levels and empirical power each. And it has
been defined a set of heuristics to determine which technique of meta-analysis have to be used to
combine the results of the experiments identified, in order to generate a conclusion based on the
best available evidence .
Results: We have identified new three meta-analysis techniques to be used in Sotware Engineering:
parametric response ratio, non-parametric response ratio, and statistical vote counting. It has been
determined as is the behavior of these techniques and weighted mean differences technique. It has
been evaluated the empirical accuracy and power, depending on the size of meta-analysis (number
of experiments and subjects for experiments), the effect size and levels of variance. Finally, we
have developed a process of aggregation of experiments according to software engineering
experimental context.
Conclusions: The aggregation process developed allows to to leverage best available empirical
evidence in the context of the Software Engineering, allowing the aggregation of results of
experiments reports with shortcomings . Although the behavior of the aggregation techniques, in
general terms, has established in our work by using simulation, there is not accurate enough to
determine exactly which is the level of error for all possible combinations of experiments sizes.
DEDICATORIA
A mis hijos Mariana y Julián
A mi padre Ramón y a mi madre Carmen
A mis hermanos María del Carmen y Diego
A mis mentores y amigos Oscar y Ramón

AGRADECIMIENTOS
A la Facultad de Informática de la Universidad Nacional de la Plata por acogerme con generosidad

de “alma mater” para que pudiera llevar a cabo mis estudios de Doctorado en Ciencias
Informáticas.
Al Centro de Ingeniería del Software e Ingeniería del Conocimiento del Instituto Tecnológico de
Buenos Aires por apoyarme en las instancias iniciales del desarrollo de mis estudios de postgrado.
Al Grupo de Investigación en Sistemas de Información del Departamento de Desarrollo Productivo

y Tecnológico de la Universidad Nacional de Lanús por recibirme para realizar la pasantía de
investigación y desarrollo, proveyendo un estimulante ambiente de intercambio de ideas con otros
tesistas de postgrado, y apoyarme en todas las instancias finales del proceso para obtener el grado
de Doctor.
A mis tres directores de tesis: al Dr. Oscar Dieste por dirigir mi trabajo con la dedicación del
maestro y el afecto del amigo; sin cuyas cualidades, no hubiera sido posible culminar la presente
obra; al Dr. Ramón García-Martínez por sus siempre acertados consejos en las encrucijadas de vida
que acompañan todo proyecto de investigación, sumando a la exactitud del científico la calidez del
docente de alma; y a la Lic. Patricia Pesado por sus valiosas aportaciones en la descripción de las
problemáticas de la Ingeniería de Software, haciendo gala de permanente presencia e
inquebrantable disposición.
A la Dra. Natalia Juristo por haberme guiado en mis primeros pasos del trabajo del doctorado y por
su colaboración en el desarrollo de los trabajos de investigación.
A mi compañera y amiga Paola Britos por su gran aporte en mi formación y por todo el apoyo que
me brindó para que pudiera realizar el doctorado.
A mis compañeros de ruta Hernán Merlino y Alejandro Hossian, con quienes he realizado cursos de
doctorado y me han prestado su ayuda siempre que la necesité.
A Hernán Amatriain por su colaboración en el desarrollo de los trabajos de investigación, y con

quien nos queda un largo camino por recorrer todavía.
A Darío Rodríguez por su desinteresada colaboración.
A Florencia Pollo y Pablo Pytel con quienes trabajamos en esta área de la ciencia en sus tesis de
maestría.
A las secretarias de la Escuela de Postgrado de la Facultad de Informática de la Universidad

Nacional de La Plata, Natalia y Alejandra por su paciencia y eficiencia.
A mis compañeros de trabajo del Banco Ciudad.
A mis compañeros de la Facultad de Ingeniería en la Universidad de Buenos Aires, Alejandra y

Jorge.
INDICE PROCESO DE AGREGACIÓN PARA ESTUDIOS EXPERIMENTALES EN INGENIERIA DEL SOFTWARE
ÍNDICE
1. INTRODUCCIÓN 1
1.1. Área de Investigación 1
1.2 Antecedentes 3
1.3. Definición del problema 5
1.4. Objetivos de la Tesis 6
1.5 Visión General de la Tesis 7
2. ESTADO DE LA CUESTIÓN 9
2.1 Necesidad del Meta-Análisis 9
2.2 Desarrollo Histórico del Meta-Análisis 12
2.3 Concepto de Meta-Análisis 14
2.3.1. MODELO DE EFECTO FIJO 16
2.3.2. MODELO DE EFECTOS ALEATORIOS 18
2.3.3. CUANDO APLICAR UN MODELO DE EFECTO FIJO O EFECTOS 20
ALEATORIOS
2.4 Meta-Análisis en Ingeniería del Software 21
2.5 Meta-Análisis Realizados en Ingeniería del Software 23
3. OBJETIVOS Y METODOLOGÍA DE TRABAJO 25
3.1. Preguntas de Investigación 25
3.2. Metodología de Trabajo 27
3.2.1 Revisión Sistemática de Literatura 29
3.2.2 Simulación de Montecarlo 30
3.3. Mapeo de preguntas de investigación y publicaciones 32
3.4. Contribuciones 34
4. RESUMEN DE RESULTADOS 37
4.1 Objetivo 1: Identificar técnicas de Meta-Análisis Alternativas a DMP 37
4.1.1 Actividad 1- Identificación de técnicas de Meta-Análisis alternativas a DMP 37
4.1.2 Actividad 2 – Verificación de la aplicabilidad de las técnicas de agregación 39
cuando hay problemas de calidad en los reportes
4.2 Objetivo 2: Estudiar el Comportamiento de las Técnicas de Meta-Análisis para el 40
Contexto Experimental de IS
4.2.1 - Caracterización del contexto experimental de la IS 40
4.2.2 Por que la Exactitud y la Potencia Empírica son estudiados 42
4.2.3 Actividad 3 – Evaluar la Exactitud y Potencia Empírica de las técnicas de 43
Meta-Análisis ignorando la Heterogeneidad
4.2.4 Actividad 4 – Evaluar la potencia empírica de las técnicas para determinar 47
Heterogeneidad en un Meta-Análisis
TESIS DOCTORAL EN CIENCIAS INFORMATICAS ENRIQUE FERNANDEZ
i
4.2.5 Actividad 5 – Evaluar la Exactitud y Potencia Empírica de las técnicas de 48

Meta-Análisis incorporando la Heterogeneidad
4.3 Objetivo 3: Desarrollar un Proceso de Meta-Análisis Propio para Ingeniería del 50
Software que Permita Determinar Mediante que Técnica Agregar los Experimentos
Identificados
4.3.1 Actividad 6 – Establecer criterios para determinar cuál es la mejor técnica a 51
aplicar en función de las características de los experimentos a agregar
4.3.2 Actividad 7 – Desarrollar un procedimiento que permita a investigadores en 51
ISE seleccionar la técnica óptima para realizar un Meta-Análisis
5. DEMOSTRACIÓN DE LA SOLUCIÓN 57
5.1 Presentación de un Problema Teórico 57
5.1.1 Resolución mediante DMP 58
5.1.2 Resolución mediante el nuevo procedimiento 58
5.2 Presentación de un Caso Real 61
5.2.1 Resolución mediante DMP 61
5.2.2 Resolución mediante el nuevo procedimiento 62
6. DISCUSIÓN 65
6.1 Evaluación de los Resultados de las actividades 65
6.1.1 Objetivo 1: Identificar Técnicas de Meta-Análisis Alternativas a DMP 65
6.1.2 Objetivo 2: Estudiar el Comportamiento de las Técnicas de Meta-Análisis para 67
el Contexto Experimental de IS
6.1.3 Objetivo 3: Desarrollar un Proceso de Meta-Análisis Propio para Ingeniería del 70
Software que Permita Determinar Mediante que Técnica Agregar los
Experimentos Identificados
6.2 Validez de los Resultados 72
6.3 Implicaciones para la investigación 73
6.4 Implicaciones para la práctica 74
7. CONCLUSIONES Y FUTURAS LÍNEAS DE INVESTIGACIÓN 75
7.1 Contribuciones del Trabajo 75
7.2 Futuras Líneas de Investigación 76
8. REFERENCIAS 79
ANEXO A – CONCEPTO DE HETEROGENEIDAD 89
ANEXO B – ERROR EXPERIMENTAL 93
ANEXO C – IDENTIFICACIÓN DE TÉCNICAS ALTERNATIVAS DE 97

META-ANÁLISIS
ANEXO D – DESCRIPCIÓN DE LAS TÉCNICAS DE META- 103
ANÁLISIS ALTERNATIVAS
ANEXO E – ARTÍCULOS 111

ii
ÍNDICE DE FIGURAS
Figura 1: Reducción del valor de β 12

Figura 2.2: Supuestos del Modelo de Efecto Fijo 16
Figura 2.3: Supuestos del Modelo de Efectos Aleatorios 16
Figura 3.1: Secuencia de desarrollo de las tareas 27
Figura 4.1: Incremento de la Potencia Empírica en un Meta-Análisis 46
Figura 4.2: Secuencia de Ejecución de las Actividades del Proceso de Agregación 52
Figura B.1: Forest plot de un conjunto de estudios homogéneo 90
Figura B.2: Forest plot de un conjunto de estudios heterogéneo 90
Figura C.1: Origen de los errores α y β 94
Figura C.2: Distorsión producida por una pequeña muestra en la distribución 95

iii

iv
ÍNDICE DE TABLAS
Tabla 2.1: Tipos de Errores de un Test Estadístico 10

Tabla 3.1: Contribuciones de la tesis 32
Tabla 3.2: Aplicación de los Artículos a las preguntas de investigación 33
Tabla 4.1: Aplicación de los Artículos a las preguntas de investigación 39
Tabla 4.2: Comparación de Exactitud de la técnicas de Meta-Análisis 44
Tabla 4.3: Comparación de Potencia Empírica de las técnicas de Meta-Análisis 45
Tabla 4.4: Poder estadístico del test Q (α=0.05) 47
Tabla 4.5: Comparación de Exactitud de la técnicas de Meta-Análisis 48
Tabla 4.6: Comparación de Potencia Empírica de las técnicas de Meta-Análisis 49
Tabla 4.7: Tabla de Decisión para Determinar la Categoría de los Estudios 54
Tabla 4.8: Interpretación de Tamaños de Efectos para DMP y CVE 55
Tabla 4.9: Interpretación de Tamaños de Efectos para RRP y RRNP 55
Tabla 5.1: Resultados de los experimentos 57
Tabla 5.2: Resultados de la agregación mediante DMP 58
Tabla 5.3: Resultados de la agregación mediante las técnicas alternativas 59
Tabla 5.4: Exactitud y potencia empírica de las técnicas del ejemplo de la tabla 5.1 60
Tabla 5.5: Resultados de los Experimentos 61
Tabla 5.6: Resultados de la agregación mediante DMP 61
Tabla 5.7: Resultados de la agregación mediante las técnicas alternativas 62
Tabla 5.8: Exactitud y potencia empírica de las técnicas del ejemplo de la tabla 6.5 63
Tabla C.1: Tipos de Errores de un Test Estadístico 93
Tabla D.1: Interpretación del Tamaño de Efecto 107

v

vi
NOMENCLATURA MODELO DE PROCESO DE CONCEPTUALIZACION DE REQUISITOS
NOMENCLATURA
CVE: Conteo de Votos Estadístico

DMP: Diferencias Medias Ponderadas
IEEE: Instituto de Ingenieros en Electricidad y Electrónica
IS: Ingeniería del Software
ISE: Ingeniería del Software Experimental
RR: Ratio de Respuesta
RRNP: Ratio de Respuesta No Paramétrico
RRP: Ratio de Respuesta Paramétrico
UNLa: Universidad Nacional de Lanús
UNLP: Universidad Nacional de La Plata
UPM: Universidad Politécnica de Madrid (España)

vii
NOMENCLATURA MODELO DE PROCESO DE CONCEPTUALIZACION DE REQUISITOS

viii
INTRODUCCIÓN PROCESO DE AGREGACIÓN PARA ESTUDIOS EXPERIMENTALES EN INGENIERIA DEL SOFTWARE
1. INTRODUCCION
Este capítulo tiene como objetivo introducir al lector en la problemática de la tesis. En el mismo se
presenta el área de investigación (sección 1.1), se describen los antecedentes que justifican la
realización de esta investigación (sección 1.2), se define el problema a resolver (Sección 1.3), se
definen los objetivos de investigación (sección 1.4) y, finalmente, se presenta la estructura del
documento de tesis (sección 1.5).
1.1. ÁREA DE INVESTIGACIÓN
La Ingeniería en Software (IS), de acuerdo a la norma 610.12 de la IEEE, debe aplicar

conocimiento científico para el desarrollo, operación y mantenimiento de los sistemas software.
Esto implica poder seleccionar de modo objetivo, dentro de un conjunto de métodos, técnicas y
herramientas, cuál se debe utilizar en cada actividad de un proyecto de acuerdo a las condiciones o
características de dicha actividad [Juristo, N.; Vegas, S.; 2011]. Lamentablemente, no se cuenta con
la suficiente evidencia para apoyar la mayoría de los reclamos que habitualmente se reciben sobre la
construcción de software. Algunos ejemplos de tecnologías que se aplican en la IS sin haber sido
probados son los paradigmas funcionales, el paradigma de orientación a objetos y los métodos
formales [Tichy, W.; 1998]. No hay confirmaciones empíricas respecto de cuanto son los beneficios
que pueden alcanzar las organizaciones con su utilización [Fenton, N.; Pfleeger, S.; 1997]. Ante la
ausencia de datos objetivos, las decisiones se manejan en base a opiniones subjetivas y rutinarias.
En estas condiciones se tiende a generar productos software de baja calidad y la constricción de
estos productos y su mantenimiento queda atada a las personas que lo desarrollaron [Laitenberger,
O.; Rombach, D.; 2003].
TESIS DOCTORAL EN CIENCIAS INFORMATICAS 1 ENRIQUE FERNANDEZ

Para poder tener decisiones objetivas, es necesario conocer con precisión cómo es el
comportamiento de los métodos, técnicas y herramientas de IS. Para ello, existen distintas
aproximaciones que permiten obtener la información necesaria. A modo de ejemplo, una
demostración matemática puede determinar la complejidad de un algoritmo, o una simulación
puede demostrar cuál, de un conjunto de métodos de optimización, es preferible. Sin embargo, hay
muchos otros casos de investigación en IS, donde las metodologías de investigación son
inapropiadas o cubren la tarea en partes. Principalmente, por que muchas de las tareas vinculadas a
la construcción de Software están relacionadas con las personas que las realizan. Por lo tanto la IS
requiere que se desarrollen metodologías de investigación propias a sus características y contexto de
trabajo [Wohlin, C.; et al.; 2000].
La Ingeniería del Software Experimental (ISE) traslada a la IS el paradigma experimental que ha

sido aplicado con éxito no ya en disciplinas científicas clásicas (Física, Química, Medicina, etc.)
sino que ha permitido avanzar en disciplinas tradicionalmente no experimentales como la Psicología
[Myers, D.; Lamm, H.; 1975] o la Economía [Davis, D.; Holt C.; 1992]. Los orígenes de la ISE se
remontan a los trabajos de [Weinberg, G.; 1971] y [Tichy, W. ; 1971]. En estos trabajos se observo
y evaluó métodos de desarrollo de software. Sin embargo, el primer experimento fue desarrollado a
principio de los 80 por el grupo de investigación de Victor Basili [Basili, V.; Weiss, D.; 1981]
[Bailey, J.; Basili, V.; 1981] en la universidad de Maryland con el laboratorio de Ingeniería de
Software de la NASA.
Un experimento es una investigación formal, rigurosa y controlada. Siendo uno de sus factores
clave la identificación y manipulación. En un experimento, las variables bajo estudio toman
distintos valores, y el objetivo es normalmente comparar dos situaciones [Wohlin, C.; et al.; 2000],
por ejemplo la influencia de la experiencia en los programadores, comparando los resultados de un
novatos contra los de un programador experimentados.
Actualmente es razonable estimar que el número de experimentos en IS crece a una tasa del 10%
anual. Por ejemplo, entre los años 1993 y 2003 solo se publicaron 93 experimentos [Dyba, T.;
Kampenes, V.; Sjoberg, D.; 2006] en journal y conferencias de primer nivel, como es por ejemplo
IEEE Transactions on Software Engineering. Sin embargo, la cantidad de experimentos

desarrollados dentro del campo de la IS fue mucho mayor, duplicando o incluso triplicando la cifra
antes mencionada [Dieste, O.; Griman, A.; 2007].
1.2. ANTECEDENTES
El hecho de que un simple experimento produzca ciertos resultados no puede tomarse como
evidencia suficiente para creer que él mismo es una verdad universal. La replicación de
experimentos llevada a cabo por diferentes investigadores, en distintos sitios bajo similares
condiciones permite mejorar la confianza de los conocimientos generados [Judd, C.; Smith E.;
Kidder, L.; 1991]. Mediante la combinación de los resultados de estas replicaciones, de manera total
o parcial, los investigadores pueden analizar si los resultados son consistentes o no entre las
mismas, e identificar las variables que influyen en el comportamiento fenómeno bajo estudio. Las
distintas estrategias de combinación de resultados experimentales se conocen con el nombre
genérico de métodos de síntesis [Chalmers, I.; Hedges, L.; Cooper H.; 2002] o métodos de
agregación [Cochrane; 2011], como típicamente acostumbran a denominarse en IS.
Los métodos de síntesis se dividen en integrativos e interpretativos [Dixon-Woods, M.; et al;

2005]. Los métodos integrativos son típicamente cuantitativos y permiten realizar sistemáticamente
la combinación de los datos de los experimentos individuales. Los métodos interpretativos son de
naturaleza cualitativa, y como su propio nombre lo indica poseen un alto nivel de subjetividad. Es
por ello que los métodos integrativos son preferidos para combinar experimentos, en especial el
Meta-Análisis [Chalmers I., Hedges L., Cooper H.; 2002].
Existen diversas técnicas de Meta-Análisis, aplicables a distintos conjuntos de datos. Por ejemplo,
el Odds Ratio [Hedges, L.; Olkin, I.; 1985] se aplica cuando los datos experimentales son discretos.
Para datos continuos, la técnica utilizada son las Diferencias Medias Ponderadas (DMP) [Hedges,
L.; Olkin, I.; 1985]. La técnica DMP ha sido ampliamente utilizada en ciencias como la psicología o
medicina, es la recomendada por organismos como [Cochrane, 2011] y es la indicada por
[Kitchenham, B.; 2004] en sus recomendaciones para el desarrollo de revisiones sistemáticas en
Ingeniería del Software. A la fecha es la única técnica de Meta-Análisis aplicada en Ingeniería del
Software.

Como toda técnica estadística, el DMP tiene ciertas condiciones de aplicación. En primer lugar, el
conjunto de experimentos a agregar debe cumplir ciertas restricciones [Hedges, L.; Olkin, I.; 1985]:
contener un número mínimo de estudios (típicamente 10); un número mínimo de sujetos (unos 10
sujetos por nivel); estar adecuadamente reportados (como mínimo: número de sujetos
experimentales, medias y varianzas); y ser homogéneos (esto es, que no existan variables
moderadoras que interaccionen con los factores).
En segundo lugar, la técnica DMP asume que las muestras utilizadas son grandes. Esta asunción es
necesaria debido al carácter asintótico (esto es, basado en la teoría de los grandes números) con el
que la técnica DMP fue creada. Sin embargo, las técnicas estadísticas basadas en grandes muestras,
no necesariamente arrojan resultados fiables cuando se aplican a pequeñas muestras [Cohen J.;
1988]. Las consecuencias de aplicar técnicas estadísticas asintóticas a pequeñas muestras consisten
en diferencias entre los valores nominales (los esperados según la teoría) y empíricos (los que
ocurren en la práctica) de diversos parámetros, tales como [Cohen J.; 1988]:
• Diferencia entre la probabilidad real de cometer un error de tipo I y el nivel de

significación α (lo que se denomina tasa de rechazo (del inglés rejection rate)).
• Diferencia entre las probabilidades reales de cometer un error de tipo II y β (lo que
se denomina tasa de aceptación (del inglés acceptance rate) o, expresado en
términos del poder estadístico (1- β), potencia empírica (del inglés empirical
power))
• Diferencia entre el valor del parámetro estimado (por ejemplo el tamaño de efecto) y
el valor poblacional respectivo. Este efecto acostumbra a denominarse bias.
• Diferencia entre la probabilidad real de que un intervalo de confianza contenga al
parámetro de interés y el intervalo de confianza teórico al nivel (1- α). Este efecto
acostumbra a denominarse exactitud (del inglés accuracy).
Los efectos de pequeñas muestras son a menudo pasados por alto cuando se aplican las técnicas
estadísticas. En el campo del Meta-Análisis con DMP los efectos de pequeñas muestras apenas se
han estudiado (con excepción de [Hedges, L.; 1982]). En general, puede afirmarse que

desconocemos virtualmente todo acerca del funcionamiento de DMP en contextos de pequeñas

muestras.
1.3. DEFINICIÓN DEL PROBLEMA
Por diversas razones (por ejemplo: costos de realización de un experimento en IS, ausencia de un
programa de investigación en ISE, etc.), las cuales están fuera del alcance de esta tesis, a menudo
las agregaciones de experimentos en IS no cumplen con las condiciones de aplicación de la técnica
DMP.
Por ejemplo, en el trabajo de [Ciolkowski, M.; 2009], se identifican 21 experimentos sobre técnicas
de inspección, los cuales son agregados en tres grupos, el primero conteniendo 7 experimentos, el
segundo 9 y el tercero 5, dichos experimentos poseen tamaños variados, conteniendo el menor 3
sujetos experimentales por nivel, el mayor 45 sujetos por nivel, mientras que el promedio asciende a
6 sujetos por nivel.
Si bien el trabajo de [Ciolkowski, M.; 2009] ha sido publicado, y puede ser considerado exitoso, lo
cierto es que el número de experimentos por agregación, y sujetos por nivel, está por debajo de los
niveles recomendados (10 experimentos por agregación; 10 sujetos por nivel) indicados
anteriormente, por lo que un meta-análisis realizado con DMP en estas condiciones puede sufrir
cualquiera de los errores indicados anteriormente (por ejemplo: cometer un error tipo I o II mayor
del nominal, o presentar un intervalo de confianza que no contenga al valor poblacional).
Otro ejemplo es el trabajo de [Dieste, O., Juristo, N.; 2009], donde se identificaron 30 experimentos
sobre educción de requisitos. El menor contiene 2 sujetos experimentales por nivel, el mayor 21,
mientras que el promedio asciende a 11 sujetos por nivel. Para cada grupo de experimentos
agregables, menos del 20% publicaban las varianzas. Por consiguiente, en este trabajo no pudo
aplicarse meta-análisis con DMP.
Podrían citarse otros ejemplos, pero, el caso es que la ISE se caracteriza, en la actualidad, por
desarrollar pocas replicaciones de experimentos, que a su vez emplean tamaños muestrales muy
reducidos, y que en algunos casos tienen falencias de reporte (principalmente ausencia de

publicación de varianza). Ello da lugar a 3 problemas fundamentales a los cuales se enfrenta un

investigador en IS cuando realiza un meta-análisis:
1. La técnica DMP no es aplicable en muchos casos debido a falencias en los reportes

experimentales.
2. En los casos en que la técnica DMP es aplicable, el número de experimentos por agregación
y sujetos por nivel suelen ser demasiado pequeños, lo que provoca que los resultados
obtenidos (por ejemplo: tamaños de efecto, o intervalos de confianza) puedan no ser
correctos.
3. Cuando la técnica DMP no es aplicable, o es aplicable pero no fiable, la realización del

Meta-Análisis es imposible, al no existir técnicas de meta-análisis alternativas en IS.
1.4. OBJETIVOS DE LA TESIS
El objetivo general de esta tesis consiste en definir un nuevo procedimiento de Meta-Análisis que
pueda ser utilizado para agregar de forma más eficiente experimentos en IS. Este procedimiento
permitirá solventar los problemas de reporte y evitar (en la medida de lo posible) los efectos de
pequeñas muestras, lo que redundará en un aumento en la cantidad y calidad de las piezas de
conocimiento empíricamente fundadas en ISE.
Este objetivo general se divide en tres objetivos detallados, los cuales se presentan a continuación:
Objetivo 1: identificar técnicas de Meta-Análisis alternativas a DMP (aplicables cuando hay

problemas de reportes)
Objetivo 2: estudiar el comportamiento de las técnicas de Meta-Análisis para el contexto

experimental de Ingeniería del Software
Objetivo 3: desarrollar un proceso de Meta-Análisis propio para Ingeniería del Software que
permita determinar mediante que técnica agregar los experimentos identificados.

1.5. VISIÓN GENERAL DE LA TESIS
El Capitulo Introducción, tiene como objetivo introducir al lector en la problemática de la tesis. En

el mismo se presenta el área de investigación, se describen los antecedentes que justifican la
realización de esta investigación, se define el problema a resolver, se definen los objetivos de
investigación y, finalmente, se presenta la estructura del documento de tesis.
El Capitulo Estado de la Cuestión, tiene como objetivo describir como es el contexto de trabajo en
cual se inserta esta tesis, permitiendo al lector adquirir los conocimientos necesarios para
comprender la problemática de la misma, como así también el por qué de la solución adoptada. En
el mismo se describe porque es necesarios agregar o Meta-Analizar los experimentos, como ha sido
el desarrollo histórico del Meta-Análisis, se indica en qué consiste concretamente el Meta-Análisis
y cuáles son las variantes para agregar experimentos en función de las características del contexto
en el cual fueron generados, se detallada como ha sido la aplicación del Meta-Análisis en IS, y se
presentan los trabajos de Meta-Análisis desarrollados hasta el momento en IS.
El capítulo Objetivos y Metodología de Trabajo, tiene como objetivo describir en detalle los
objetivos de investigación y las preguntas de investigación detalladas que se derivan de ellos. El
núcleo de la investigación consiste en identificar técnicas de Meta-Análisis alternativas a DMP y
caracterizar su funcionamiento en contextos de pequeñas muestras, como es el caso de la Ingeniería
del Software, los métodos de investigación utilizados serán la revisión sistemática de literatura y la
simulación de Monte Carlo. Finalizará el capítulo con la relación entre las publicaciones realizadas
y las preguntas de investigación y, finalmente, se presentan las contribuciones realizadas.
El capítulo Resumen de Resultados, tiene como objetivo describir como se ha dado respuesta a cada
una de las preguntas de investigación planteadas, se presentan las técnicas de Meta-Análisis
alternativas a DMP identificadas y a continuación se muestran como varía el comportamiento en
función de las características del contexto, tomando como base las aportaciones anteriores, se
propone un proceso de agregación de experimentos específico para experimentos realizados en IS.

El capítulo Demostración de la Solución, tiene como objetivo presentar un caso de estudio teórico
donde se aplica el procedimiento de agregación definido en la sección 4, y un caso de aplicación
real en el cual se toma como base una revisión sistemática desarrollada dentro del contexto de esta
tesis.
El capítulo Discusión, tiene como objetivo discutir los conocimientos generados en esta tesis, se
analizan los resultados obtenidos en el desarrollo de las actividades realizadas para dar respuestas a
las preguntas de investigación, se analiza la aplicabilidad del procedimiento desarrollado y se
detallan los beneficios de la utilización del procedimiento presentado.
El capítulo Conclusiones y Futuras Líneas de Investigación, tiene como objetivo presentar las
contribuciones de esta tesis a la comunidad científica en Ingeniería del Software y analizar futuros
trabajos ampliatorios al presente trabajo.
En el capítulo Referencias se presentan las referencias bibliográficas citadas a lo largo del

documento de tesis.
El Anexo A, tiene como objetivo explicar en qué consiste la Heterogeneidad.
El Anexo B, tiene como objetivo explicar en qué consiste el Error Experimental
El Anexo C, tiene como objetivo describir cómo se realizó el trabajo de búsqueda y selección de las
técnicas de agregación alternativas a DMP.
El Anexo D, tiene como objetivo describir cómo funcionan las técnicas de agregación alternativas a
DMP.
El Anexo E, tiene como objetivo presentar todas las publicaciones realizadas en el contexto de la
presente tesis.

ESTADO DE LA CUESTION PROCESO DE AGREGACIÓN PARA ESTUDIOS EXPERIMENTALES EN INGENIERIA DEL SOFTWARE
2. ESTADO DE LA CUENTION
Este capítulo tiene como objetivo describir como es el contexto de trabajo en cual se inserta esta
tesis, permitiendo al lector adquirir los conocimientos necesarios para comprender la problemática
de la misma, como así también el por qué de la solución adoptada. En el mismo se describe porque
es necesarios agregar o Meta-Analizar los experimentos (sección 2.1), como ha sido el desarrollo
histórico del Meta-Análisis (sección 2.2), se indica en qué consiste concretamente el Meta-Análisis
y cuáles son las variantes para agregar experimentos en función de las características del contexto
en el cual fueron generados (sección 2.3), se detallada como ha sido la aplicación del Meta-Análisis
en IS (sección 2.4), y se presentan los trabajos de Meta-Análisis desarrollados hasta el momento en
IS (sección 2.5).
2.1. NECESIDAD DEL META-ANÁLISIS
A continuación se presentan dos definiciones de dos autores diferentes respecto de por qué es
necesario el Meta-Análisis:
1. Según [Chalmers I., Hedges L., Cooper H.; 2002] los experimentos aislados proporcionan
únicamente resultados parciales y solamente la acumulación de resultados parciales
(replicaciones del experimento y combinación de los resultados) permite obtener resultados
fiables y generalizables.
2. Según [Borenstein, M., Hedges, L., Rothstein, H.; 2007] al realizar un Meta-Análisis, se
busca hallar un resultado que sea resumen representativo de los resultados de los estudios
individuales, y por tanto que signifique una mejora sobre las estimaciones individuales.

Idealmente, se debe partir de los estudios individuales -con sus virtudes y defectos- y
obtener un resultado que sea más fiable que los resultados individuales de los que partíamos.
En ambos casos los autores coinciden en señalar que el Meta-Análisis es una mejora a la calidad de
los conocimientos de los estudios individuales, ya que de esta forma se logra generar conocimientos
que posean realmente una visión general y se minimiza el impacto del error experimental en el cual
puede caer un investigador a la hora de desarrollar un experimento.
Al realizar un experimento comparando los niveles de un factor, se obtiene una respuesta precisa: o
bien afirmar la hipótesis nula H0, o bien afirmar la hipótesis alternativa H1. Sin embargo, nada
asegura que esta respuesta sea la verdadera, ya que los experimentos se aplican sobre una pequeña
cantidad de sujetos experimentales y no sobre toda la población. En consecuencia, existen cuatro
posibles resultados de un experimento en lo relativo a su veracidad, tal y como indica la Tabla 2.1.
Dos de los cuatro posibles resultados son errores, conocidos como errores tipo I y II.
Hipótesis que se verifica en la población

H0 H1
H0 Resultado correcto Error tipo II (con
Respuesta del experimento probabilidad β)
H1 Error Tipo I (con probabilidad α) Resultado correcto
Tabla 2.1: Tipos de Errores de un Test Estadístico
El error tipo I ocurre cuando el experimento arroja que la hipótesis alternativa H1 es verdadera,
cuando en realidad es cierta la hipótesis nula H0. Para un investigador, éste error es el más
importante. La razón es muy sencilla: Todos nosotros intentamos desarrollar nuevos métodos y
técnicas que hagan más eficiente el desarrollo de software, pero necesitamos demostrar que dichos
métodos y técnicas son efectivamente mejores, razón por la cual acudimos a la realización de
experimentos confiando que H1 sea cierta. Si el experimento arroja que H1 es cierto, deseamos que la
probabilidad de cometer un error de tipo I sea la menor posible. Por otra parte, cometer un error de
tipo II consiste en indicar que H1 es cierto cuando en realidad en la población se corrobora lo
contrario.

La probabilidad de cometer un error tipo I se denota como α. A la hora de aplicar test estadísticos a
los datos experimentales, los investigadores son libres de determinar el valor de α, por lo tanto, el
riesgo de cometer un error tipo I. Es habitual que el valor de α se fije en valores muy pequeños,
tales como: 0,1; 0,05 o incluso 0,01 (10%, 5% y 1% respectivamente), pero pocas veces se define el
nivel de β.
Lamentablemente, nuestra capacidad para asignar un valor a α es limitada. Los test de hipótesis, se
caracteriza por 5 factores [Cohen, J.; 1988]: α, β (del que hablaremos a continuación), la diferencia
entre las medias d, el nivel de variación de la variable respuesta s (medido a través de la varianza o
la desviación típica) y el número de sujetos experimentales n. La relación entre estos factores se
muestra en la ecuación 2.1, donde z representa la distribución normal tipificada:
n (2.1)
z1−β = d − z1−α
2
Estos 5 factores forman un sistema cerrado, haciendo que una disminución o incremento en
cualquiera de los factores provoque incrementos o disminuciones en los demás. Por lo tanto, a
medida que el investigador requiere valores más pequeños de α, tiende a aumentar el parámetro β
(ya que tanto d como s son propios del contexto experimental y por lo tanto no pueden ser
manipulados, mientras que n no puede incrementarse fácilmente en la práctica).
β es la probabilidad del error tipo II. Este error, tal y como indica la Tabla 2.1, significa que el
experimento determina que la hipótesis nula H0 es cierta, cuando en la población se verifica
realmente la hipótesis alternativa H1. En otras palabras: Existe una probabilidad β de que el
experimento arroje resultados no significativos erróneamente. Esto no debería ser un problema si no
fuera porque β tiene habitualmente un valor muy alto. A este respecto, véase la Figura 2.1, donde se
representa la relación entre β y n para α = 0,05 (la situación más común en experimentación) para
unos valores d y s representativos de los experimentos en IS [Dieste, O; et al., 2010].

90
80
70
60
50
β
40
30
20
10
4
24
40
56
72
88
8
10
n
Figura 1: Reducción del valor de β
Puede apreciarse en la Figura 2.1 que un experimento con n = 40 (esto es, 40 sujetos
experimentales) tiene un β ≈ 0,4. Esto implica que, en promedio, si realizamos 10 experimentos de
este tipo, obtendremos 6 resultados significativos (60%) y 4 no significativos (40%, esto es, el
parámetro β considerado como un porcentaje).
En consecuencia, es habitual que un conjunto de experimentos relacionados (sean éstos

replicaciones o no) arrojen resultados contradictorios (significativos y no significativos) por
motivos puramente estadísticos [Hunter, J.; Schmidt, F.; 2004]. En IS, esto es además
especialmente frecuente, ya que resulta difícil ensamblar cohortes de 40 sujetos, lo que provoca que
el error β sea muy alto.
La cuestión es, entonces, cómo determinar qué resultado, de entre todos los obtenidos en un
conjunto de experimentos relacionados, es el correcto.
2.2. DESARROLLO HISTÓRICO DEL META-ANÁLISIS
La primera síntesis de experimentos data de 1904 y fue realizada por K. Pearson [Cooper, H.;
Hedges, L.; 1994]. Se trató de reconciliar 11 estudios acerca de la vacunación contra el tifus, para lo
cual Pearson utilizó un enfoque completamente objetivo promediando los resultados. Por la década
del 30’ se realizaron varios intentos de Meta-Análisis. No obstante, no es hasta la década de los 80
que el Meta-Análisis se comenzó a aplicar de forma masiva en Medicina y a partir de los 90 es muy
frecuente encontrar artículos de estas características en la mayoría de las ramas de la ciencia como
son: las ciencias sociales [Petrosino, A.; et al; 2001], la psicología [Sanchez-Meca, J.; Botella, J.;

2010], la psiquiatría [Navarro, F.; et al; 1999], la educación [Davies, P.; 1999] y la ecología
[Miguez, E.; Bollero, G.; 2005] entre otras.
Pero las técnicas no se desarrollaron en plenitud ni adquirieron gran difusión hasta fechas muy
recientes. La persona clave en este proceso fue G.V. Glass, que en 1976 propuso el uso del tamaño
del efecto y la diferencia de medias ponderada (DMP) para la combinación de experimentos en
educación [Glass, G.; 1976]. Y lo que no es menos importante, también propuso el nombre por el
que esta técnica, así como otras similares, se conocen hoy en día: Meta-Análisis [Hunt, M.; 1997].
Para comprender mejor la importancia de las aportaciones del trabajo de Glass, hay que considerar
como era el contexto en el cual hace sus aportaciones. Durante la década del 60’ se produce la
“explosión” de la experimentación, sobre todo en ciencias sociales, [Chalmers I., Hedges L.,
Cooper H.; 2002]. Una década más tarde, el panorama en ciencias sociales era desalentador: Los
experimentos realizados ofrecían resultados totalmente contradictorios, hasta el punto de cuestionar
la idoneidad de la investigación experimental aplicada a las ciencias sociales, llevando a los
organismos gubernamentales a plantearse la posibilidad de cortar los fondos para el desarrollo de
este tipo de trabajos.
Visto desde la perspectiva actual, las dudas suscitadas en aquel entonces parecen pueriles. Hoy
sabemos que la probabilidad de error tipo II (β) de aquellos experimentos, desarrollados con pocos
sujetos experimentales, era muy alta, lo que explica su carácter contradictorio. Sin embargo, en
aquel entonces se sabía poco acerca del error de tipo II, ya que el desarrollo de la teoría estadística
relacionada se produjo en 1962 y sólo fue popular a partir de 1977 [Cohen, J.; 1988].
La intuición superior de Glass consistió en entender que no había estudios correctos o incorrectos,
sino que cada uno poseía en sí parte de la verdad [Glass, G.; 2000]. Y que la combinación objetiva
era lo que iba a permitir obtener las evidencias necesarias para validar las teorías que la ciencia
necesita para poder funcionar.

2.3. CONCEPTO DE META-ANÁLISIS
La agregación o síntesis cuantitativa de estudios experimentales o Meta-Análisis, consiste en la

integración de los resultados de un conjunto de experimentos, previamente identificados, que
analizan el desempeño de un par de tratamientos predefinidos con el fin de dar una estimación
cuantitativa sintética de todos los estudios disponibles [Goodman, C.; 1996].
Existen métodos para el tratamiento de variables continuas y discretas [Hedges, L.; Olkin, I.; 1985],
los primeros asociados a mediciones en las cuales es factible establecer un promedio, por ejemplo
cantidad de promedio de fallas detectadas en un programa, cantidad promedio de líneas de código
utilizadas, etc.; y los segundos a variables asociadas a alguna tasa o relación entre casos exitosos
sobre casos totales, utilizada habitualmente en medicina para avaluar, por ejemplo, la cantidad de
pacientes con sobre vida respecto de la cantidad total de pacientes evaluados que fueron expuestos a
un tratamiento. Si bien ambos tipos de variables pueden ser utilizadas en IS, el campo de aplicación
de las variables discretas se circunscribe a un campo de aplicación muy reducido, como podría ser
el análisis de tráfico en redes, donde no existen inconvenientes a la hora de realizar una prueba de
gran volumen. Por ello, la presente tesis solo se centrará en los métodos aplicables a variables
continuas que son los que más inconvenientes tienen a lo hora de ser aplicado en el actual contexto
de IS.
Hay que tener en cuenta que si todos los estudios incluidos en el proceso de agregación fueran
igualmente precisos, bastaría con promediar los resultados de cada uno de ellos para obtener así una
conclusión final. Sin embargo, en la práctica no todos los estudios tienen la misma precisión, por
ello cuando se los combine se debe asignar un mayor peso a los estudios que permiten obtener
información más fiable. Esto se logra combinando los resultados mediante un promedio ponderado
[Borenstein, M.; Hedges, L.; Rothstein, H.; 2007], donde cada experimento es calificado en base a
alguna propiedad, generalmente la inversa de su varianza. Para poder lograr realizar este promedio
ponderado, los experimentos individuales deben brindar un resultado cuantitativo que además
permita compatibilizar diferencias de escalas entre los experimentos, ya que los resultados de los
diferentes estudios pueden medirse en diferentes escalas de la variable respuesta [Cochrane; 2011].

Por lo tanto, la variable dependiente en un Meta-Análisis debe poder compatibilizar estos aspectos,
lo cual se logra mediante la estimación de un “tamaño de efecto” (o mejora), el cual consiste en un
estimador estandarizado no escalar de la relación entre una exposición y un efecto. En sentido
general, este término se aplica a cualquier medida de la diferencia en el resultado entre los grupos
de estudio [Borenstein, M.; Hedges, L.; Rothstein, H.; 2007].
Existen dos estrategias bien diferenciadas a la hora de agregar un conjunto de experimentos. La

primera de ellas parte del supuesto de que las diferencias en los resultados de un experimento a otro
obedecen a un error aleatorio propio de la experimentación y de que existe un único resultado o
tamaño de efecto que es compartido por toda la población. La segunda estrategia parte del supuesto
de que no existe un único tamaño de efecto representativo de toda la población, sino que
dependiendo del origen o momento en que se realicen los experimentos los resultados van a
modificarse debido a la influencia de variables no controladas, a pesar de esto puede obtenerse un
promedio de los distintos resultados para una conclusión general. A la primera de las estrategias se
la denominada modelo de efecto fijo y a la segunda se la denominada modelo de efectos aleatorios
[Borenstein, M.; Hedges, L.; Rothstein, H.; 2007].
Las figura 2.2 y 2.3 ilustran lo dicho anteriormente, mostrando en la figura 2.2 un único tamaño de
efecto poblacional, donde la diferencia entre el tamaño de efecto poblacional y de los experimentos
se debe únicamente a un problema experimental. Por su parte, la figura 2.3 muestra varios tamaños
de efecto, todos reales para el contexto en el cual fueron realizados los experimentos, lo que los
hace “heterogéneos” entre si y resalta la existencia de variables no controladas que afectan al
comportamiento del fenómeno (para mayores respecto de la heterogeneidad dirigirse al anexo B).
En estas condiciones lo que se puede obtener a nivel general es un promedio de los tamaños de
efecto [Schmidt, F.; Hunter, J.; 2003].

Figura 2.2: Supuestos del Modelo de Efecto Fijo
Figura 2.3: Supuestos del Modelo de Efectos Aleatorios
En las siguientes subsecciones se explica con mas detalla en qué consiste cada una de las
estrategias.
2.3.1. MODELO DE EFECTO FIJO
Como ya se mencionó, para el modelo de efecto fijo existe un único tamaño de efecto al cual
pertenecen todos los experimentos que van a ser agregados. Por ende cualquier diferencia en los
resultados obedece únicamente a un error experimental aleatorio propio de la experimentación
[Borenstein, M.; Hedges, L.; Rothstein, H.; 2007]. Por ello dentro de este enfoque la ponderación de
los experimentos se realiza únicamente en base a la inversa de su varianza, asumiendo que cuanto
menor sea la varianza más preciso es el experimento. Dado que, en general, la varianza es

inversamente proporcional al tamaño del experimento (cantidad de sujetos que posee) tendremos
que los experimentos de mayor tamaño tendrán una mayor representatividad en la conclusión que
los pequeños, por ejemplo un experimento con 1.000 sujetos experimentales tendrá una ponderación
10 veces mayor que la que tiene una de 100 sujetos experimentales [Borenstein, M.; Hedges, L.;
Rothstein, H.; 2007]. Esto produce que la conclusión general se vuelque hacia el resultado
particular de un estudio cuando este es mucho más grande que los demás.
La técnica de modelo de efecto fijo aplicada en IS es la DMP, cuyo cálculo consta de dos pasos,
primeramente se debe estimar el tamaño de efecto de cada uno de los experimentos, y una vez
estimados los mismos, podrá estimarse el tamaño de efecto global. A continuación se presenta la
función de estimación del tamaño de efecto para un experimento (o efecto individual) [Hedges, L.;
Olkin, I.; 1985], mediante la ecuación 2.2:
YE −YC d representa el tamaño de efecto (2.2)

d=J
SP J representa el factor de corrección
3 Y‘s representa a las medias del grupo experimental (E) y de control
J = 1− (C)
4N − 9
Sp representa el desvió estándar conjunto
N representa el total de sujetos experimentales incluidos en el
experimento
Luego de estimar el tamaño de efecto, se estima el error típico, y en base a este se establece el
intervalo de confianza asociado al efecto para el nivel de fiabilidad deseado, generalmente del 95%,
lo que equivale a un error de tipo I del 5% (α = 0,05), mediante la ecuación 2.3:
ñ + d2 v representa el error típico (2.3)

v=
2( n E + n C ) d representa el tamaño de efecto
n‘s representa la cantidad de sujetos experimentales del
n +n
E C
grupo experimental (E) y de control (C)
ñ=
n E * nC
Z representa la cantidad de desvíos estándar que separan, al
nivel de significancia dado, la media del límite. En general

d − Zα / 2 v ≤ λ ≤ d + Zα / 2 v es 1,96 (α = 0,05)
Una vez estimados los tamaños de efectos de los estudios individuales se puede estimar el tamaño
de efecto global mediante la ecuación 2.4:
d* =
∑ d /σ i
2
i (d ) d* representa el tamaño de efecto global (2.4)
∑1 / σ 2
i (d ) ∑ d / σ (d ) es la sumatoria de los efectos individuales
i
2
i
v = (1/ ∑ 1 / σ 2
i (d ) ) ∑ 1 / σ ( d ) es la sumatoria de la inversa varianza
2
i
v representa el error típico
Una vez estimado el tamaño de efecto global, se estima el intervalo de confianza asociado al
mismo, mediante la ecuación 2.5:
d * −Zα / 2 v ≤ λ ≤ d * + Zα / 2 v d* representa el tamaño de efecto global (2.5)

Z representa la cantidad de desvíos estándar que separan,
al nivel de significancia dado, la media del límite. En
general es 1,96 (α = 0,05)
2.3.2. MODELO DE EFECTOS ALEATORIOS
A diferencia del modelo de efecto fijo, para el modelo de efectos aleatorios existe más de un tamaño
de efecto, debido a que los experimentos no son homogéneos, es decir, los resultados de cada
experimentos están condicionados por un conjunto de variables no controladas, por ende existen
dos tipos de errores, el error propio de cada uno de los experimentos producto de la
experimentación (como sucede con el modelo de efectos fijo) y el error producido por la
combinación de estudios provenientes de distintos contextos que poseen diferentes tamaños de
efecto [Borenstein, M.; Hedges, L.; Rothstein, H.; 2007]. Este se traduce en la estimación de dos
tipos de varianzas, la varianza interna de los estudios y la varianza entre estudios. De esta forma los

experimentos reciben una “doble ponderación”, la cual tiende a mitigar la influencia de los
experimentos grandes en la conclusión general haciendo más representativos a los experimentos con
menos sujetos, ya que a diferencia del otro modelo cada experimento puede estar aportando un
tamaño de efecto diferente.
La inclusión de la varianza entre experimentos trae aparejado un nuevo problema, el error asociado
a su estimación, el cual se incremente cuando el Meta-Análisis posee pocos experimentos. Por ello,
autores como [Borenstein, M.; Hedges, L.; Rothstein, H.; 2007], no recomiendan su uso cuando el
Meta-Análisis posea pocos experimentos (en la práctica menos de 10).
La técnica de modelo de efectos aleatorios aplicada en IS es una versión de DMP que incluye la
estimación de la varianza entre estudios para el cálculo del tamaño de efecto global. Dado que la
función para el cálculo del efecto individual es la misma que para el modelo de efecto fijo,
ecuación 2.2, solo se describe la estimación del tamaño de efecto global [Borenstein, M.; Hedges,
L.; Rothstein, H.; 2007] [Hedges, L.; Olkin, I.; 1985], mediante la ecuación 2.6:
Δ=
∑d /γ i
2
i Δ representa el tamaño de efecto global (2.6)
∑1 / γ 2
i
∑d i / γ 2 i representa la sumatoria de los efectos individuales
∑1 / γ 2
i representa la sumatoria de la inversa de las varianzas
entre-estudios e intra-estudios
Una vez estimado el tamaño de efecto global, se debe estimar el intervalo de confianza asociado al
mismo, mediante la ecuación 2.7:
Δ − Zα / 2 v ≤ Δ ≤ Δ + Zα / 2 v Δ representa el tamaño de efecto global (2.7)
1 Z representa la cantidad de desvíos estándar que separan, al

v=
∑1 / γ 2 i nivel de significancia dado, la media del límite. En general
es 1,96 (α = 0,05)

2.3.3. CUANDO APLICAR UN MODELO DE EFECTO FIJO O EFECTOS

ALEATORIOS
Es alta mente probable que un conjunto de experimentos que analizan el desempeño de un par de
tratamientos arrojen resultados diferentes, esto se debe fundamentalmente a la selección y
asignación de sujetos experimentales de manera aleatoria. Pero también es esperable que estas
diferencias no sean demasiado notorias, ya que si esto sucediera sería esperable que exista algún
factor no controlado que está condicionando el resultado del estudio. En cuyo caso se dirá que los
experimentos son heterogéneos. Si la heterogeneidad es confirmada, se debe tomar una decisión de
cómo tratarla, para ello se pueden aplicar 3 estrategias distintas [Cochrane; 2011]:
a) Ignorar la heterogeneidad (esto es, asumir que la varianza entre estudios τ2 = 0). Esto
implica que el Meta-Análisis se lleva a cabo utilizando técnicas de efectos fijos.
b) Incorporar la heterogeneidad (esto es, calcular y añadirla a la varianza intra-
estudios σ2). Esto implica que el Meta-Análisis se lleva a cabo mediante técnicas de efectos
aleatorios.
c) Explicar la heterogeneidad (esto es, calcular si Q > (k-1) y, en caso de que este resultado
sea significativo, hipotetizar la existencia de una variable moderadora hipotética). Esto
implica descomponer el conjunto inicial de experimentos en tantos subgrupos distintos1
como valores posee la variable moderadora, y repetir el análisis de heterogeneidad para cada
subgrupo.
Según la teoría, para poder optar por una de las estrategias, es necesario determinar si existe o no
heterogeneidad estadística (Para más detalle de cómo estimar la heterogeneidad ver anexo B). Para
ello, es necesario utilizar el test Q que permite determinar si existe o no la misma. El problema aquí
radica en que el test Q carece de potencia cuando se aplica a Meta-Análisis hechos con pocos
1
Es igualmente posible realizar una correlación entre los resultados experimentales y la variable moderadora (meta-
regresión), aunque el número de experimentos necesarios para proceder de este modo es tan elevado que ni siquiera es
de uso habitual en medicina. Por esto, la meta-regresión no se aborda en el presente trabajo de tesis.

experimentos, por ello es casi imposible determinar con precisión si existe o heterogeneidad en los
trabajos realizados en IS. Como solución a este problema [Schmidt, F.; Hunter, J.; 2003]
recomienda que se usen los efectos aleatorios siempre, lo cual contradice en parte lo dicho por
[Borenstein, M.; Hedges, L.; Rothstein, H.; 2007] quien indica que si el Meta-Análisis posee menos
de 10 experimentos el error asociado a este método es demasiado alto y no debería aplicarse.
2.4. META-ANÁLISIS EN INGENIERÍA DEL SOFTWARE
La aplicación del Meta-Análisis en IS es bastante tardía, en consonancia con la también tardía

utilización de la experimentación como herramienta metodológica de investigación. El primero en
señalar su posible uso en IS fue [Miller, J.; 1999], que empleó DMP para combinar 5 experimentos
que exploraban distintas técnicas de prueba de software. Pero, el Meta-Análisis tardó bastantes años
en calar en la comunidad de IS, en buena parte debido a la deprimente presentación que Miller
realizó pues concluyó que el Meta-Análisis2 no era aplicable porque no se cumplían las condiciones
formales que exige. En consecuencia, la síntesis estadística de resultados experimentales quedaba
descartada para la ISE. Las consecuencias de esta conclusión fueron demoledoras, y durante
muchos años en los artículos de síntesis [Davis, A.; et al.; 2006] [Juristo, N.; Moreno, A.; Vegas,
S.; 2004][ Jørgensen, M.; 2004] hubo una total ausencia de aplicación de Meta-Análisis. En su lugar
se realizaban combinaciones de los resultados experimentales mediante técnicas, que podríamos
denominar, narrativas por su total ausencia de formalidad.
En 2004, Kitchenham publica su bien conocido reporte acerca de revisión sistemática de

experimentos [Kitchenham, B.; 2004]. En la actualidad, se estima que se han publicado unas 100
revisiones sistemáticas en IS [Cruzes, D.; Dyba, T.; 2010]. Sería esperable, por lo tanto, que el
número de meta-análisis hubiera aumentado en concordancia3. Sin embargo, la realidad muestra
2 Él sólo aplicó DMP pero generalizó erróneamente el resultado de su estudio, sin considerar que existen otras técnicas
de meta-análisis.
3 Nótese que revisión sistemática y Meta-Análisis son conceptos relacionados, pero distintos. Una revisión sistemática
es: “a means of identifying, evaluating and interpreting all available research relevant to a particular research question,
or topic area, or phenomenon of interest” [Kitchenham, B.; 2004]. Esto es; una revisión sistemática comprende todo el

que, a pesar del gran número de revisiones sistemáticas realizadas, sólo se ha aplicado meta-análisis
en el 2% de casos. Pero aún, de las citadas 100 revisiones sólo se aplicó alguna técnica de síntesis
(estadística o no) en unos cinco casos como máximo [Cruzes, D.; Dyba, T.; 2010], tratándose el
95% de los casos restantes de lo que recientemente se ha dado en denominar mapping studies, para
diferenciarlos de las revisiones sistemáticas puras donde la agregación de resultados es una parte
consustancial.
Si bien este trabajo de [Miller, J.; 2000] fue el pionero en cuanto a la aplicación de un Meta-
Análisis en Ingeniería del Software, solo combino los resultados de cuatro experimentos, por cuanto
la aplicación real de los conocimientos generados fue escaza. Más recientemente, en el trabajo de
[Dyba, T.; et al.; 2007], se identifican 20 experimentos sobre programación de a pares, los cuales
son agregados en tres grupos, el primero de 11 experimentos, el segundo de 11 experimentos y el
tercero de 10 experimentos, donde el experimento más pequeño contiene 4 sujetos por tratamiento,
el mayor 35 sujetos por tratamiento, mientras que el promedio asciende a 13 sujetos por
tratamiento.
Así como se menciona el trabajo de [Dyba, T.; et al.; 2007], hay una gran cantidad de autores que,
si bien pudieron desarrollas las tareas de búsqueda y selección de estudios experimentales, no
pudieron agregar los resultados para generar una conclusión basada en un mayor nivel de evidencia
utilizando el método DMP. Por ejemplo: en [Dieste, O.; Juristo, N.; 2009] se analizaron un conjunto
de experimentos vinculados a las técnicas de educción de requisitos y, debido a que la gran mayoría
de los reportes no publicaba las varianzas, se generan un conjunto de recomendaciones respecto del
uso de las mismas mediante un conteo de votos (el tratamiento que tenía mayor cantidad de estudios
que indicaban que era mejor era proclamado como el más adecuado); en [Mohagheghi, P.; Conradi ,
R.; 2004] se analizó la reutilización del software en la modificación y/o creación de nuevos
productos, como había problemas de compatibilidad en las variables respuesta analizadas en cada
proceso de revisión, mientras que el Meta-Análisis se circunscribe al proceso de síntesis (interpretation, en palabras de
Kitchenham).

estudios y falencias en los reportes, se recurrió a un conteo de votos como estrategia para generar
las conclusiones.
2.5. META-ANÁLISIS REALIZADOS EN INGENIERÍA DEL

SOFTWARE
Hasta el presente se han realizado 2 Meta-Análisis en IS, los cuales ya han sido mencionados, pero
a continuación se los describe con mayor detalle:
1. [Dyba, T.; et al.; 2007], en este trabajo se identifican 20 experimentos sobre programación
de a pares, los cuales son agregados en tres grupos, el primero de 11 experimentos, el
segundo de 11 experimentos y el tercero de 10 experimentos, donde el experimento más
pequeño contiene 4 sujetos por tratamiento, el mayor 35 sujetos por tratamiento, mientras
que el promedio asciende a 13 sujetos por tratamiento. Los resultados son agregados
mediante DMP en sus dos versiones modelo de efecto fijo y aleatorio.
2. [Ciolkowski, M.; 2009], en este trabajo se identifican 21 experimentos sobre técnicas de
inspección, los cuales son agregados en tres grupos, el primero conteniendo 7 experimentos,
el segundo 9 y el tercero 5, dichos experimentos poseen tamaños variados, conteniendo el
menor 3 sujetos experimentales por tratamiento, el mayor 45 sujetos por tratamiento,
mientras que el promedio asciende a 6 sujetos por tratamiento. Los resultados son agregados
mediante una variante del método DMP para modelo de efecto fijo.


OBJETIVOS Y METODOLOGIA DE TRABAJO PROCESO DE AGREGACIÓN PARA ESTUDIOS EXPERIMENTALES EN INGENIERIA DEL SOFTWARE
3. OBJETIVOS Y METODOLOGÍA DE TRABAJO

Esta tesis es un estudio exploratorio acerca del proceso de agregación estadístico de experimentos
en Ingeniería del Software. En este capítulo, se describen en detalle los objetivos de investigación y
las preguntas de investigación detalladas que se derivan de ellos (sección 3.1). El núcleo de la
investigación consiste en identificar técnicas de Meta-Análisis alternativas a DMP y caracterizar su
funcionamiento en contextos de pequeñas muestras, como es el caso de la Ingeniería del Software.
Los métodos de investigación utilizados serán la revisión sistemática de literatura y la simulación de
Monte Carlo (sección 3.2). Luego se presenta la relación entre las publicaciones realizadas y las
preguntas de investigación (sección 3.3) y, finalmente, se presentan las contribuciones realizadas
(sección 3.4).
3.1. PREGUNTAS DE INVESTIGACIÓN
El objetivo general de esta tesis es determinar que técnica de Meta-Análisis debe ser utilizada para
agregar un conjunto particular de experimentos en Ingeniería del Software. Este objetivo general se
descompone de forma natural en tres sub-objetivos y un número variable de preguntas de
investigación.
Objetivo 1: identificar técnicas de Meta-Análisis alternativas al DMP
Pregunta 1.1: ¿Existen técnicas de agregación alternativas a DMP?
Pregunta 1.2: ¿Existen técnicas de agregación aplicables cuando hay problemas de reporte?

El primer objetivo de esta tesis es identificar técnicas de Meta-Análisis distintas de DMP que, como
ya se ha indicado, es la única técnica utilizada hasta el momento en Ingeniería del Software. Es de
especial importancia que dichas técnicas puedan aplicarse en situaciones de carencia de reporte, ya
que de lo contrario, un número significativo de los escasos experimentos existentes en Ingeniería
del Software no podrán ser utilizados para la generación de piezas de conocimiento empírico.
Objetivo 2: estudiar el comportamiento de las técnicas de Meta-Análisis en el contexto

experimental de IS
Pregunta 2.1: ¿Poseen las técnicas de Meta-Análisis exactitud en el contexto de la IS?
Pregunta 2.2: ¿Poseen las técnicas de Meta-Análisis potencia empírica en el contexto de

la IS?
Pregunta 2.3: ¿Es factible mejorar la calidad de los conocimientos empíricos utilizados en
Ingeniería del Software mediante Meta-Análisis?
El segundo objetivo consiste en determinar si existen desviaciones entre los niveles nominales
(basados en la Ley de Grandes Números) y empíricos (en contextos de pequeñas muestras) en los
errores tipo I (α) y II (β) de las técnicas de Meta-Análisis. Estas desviaciones pueden ser de varios
tipos, siendo las más relevantes para la inferencia estadística la exactitud y la potencia empírica.
Dependiendo de los niveles concretos de exactitud y potencia empírica, las técnicas de Meta-
Análisis podrán (o no) generar piezas de conocimiento, fiables y empíricamente fundadas.
Objetivo 3: desarrollar un proceso de Meta-Análisis propio para Ingeniería del Software que
permita determinar mediante que técnica agregar los experimentos identificados
Pregunta 3.1: ¿Es factible determinar cuál es la mejor técnica a aplicar en función de las
características de los experimentos a agregar?
Pregunta 3.2: ¿Es factible definir un procedimiento que permita a investigadores en ISE
sin formación específica en estadística aplicada seleccionar la técnica
óptima para realizar un Meta-Análisis?

El tercer objetivo persigue definir un procedimiento de agregación que englobe todas las técnicas de
Meta-Análisis identificadas. Para definir tal procedimiento, se utilizaran los valores de exactitud y
potencia empírica calculados anteriormente. En primer lugar, se deberá comprobar si existe algún
criterio que permita identificar la técnica óptima en un contexto determinado. En segundo lugar,
dicho criterio deberá ser protocolizado para ser utilizado rutinariamente por investigadores de
Ingeniería del Software sin conocimientos específicos de la estadística de pequeñas muestras.
3.2. METODOLOGÍA DE TRABAJO
Las actividades a realizar pueden derivarse casi directamente de las preguntas de investigación
indicadas anteriormente. Dichas actividades, así como sus relaciones con las publicaciones más
representativas, detalladas en la tabla 3.1, se muestran en la figura 3.1.
Figura 3.1: Secuencia de desarrollo de las tareas

Las actividades 1 y 2 se corresponden directamente con las preguntas de investigación 1.1 y 1.2
respectivamente:
• La actividad 1 persigue identificar las técnicas de Meta-Análisis alternativas al DMP. Para

ello, se realizará una revisión sistemática de literatura, siguiendo el procedimiento
establecido por B.A. Kitchenham [Kitchenham, B.; 2004]. La modalidad concreta de
revisión a realizar es un mapping o scoping study. Este tipo de revisión se caracteriza por
recabar, a un alto nivel de granularidad, la evidencia en un dominio; en este caso, las
técnicas de meta-análisis existentes.
• Una vez identificadas las técnicas de meta-análisis alternativas al DMP, durante la actividad
2 se desarrollaron casos de estudio para comprender las restricciones de aplicación de las
mismas. Dichas restricciones tales como: si requieren o no conocer la distribución
estadística de la muestra o los parámetros estadísticos necesarios (medias, varianza, etc.).
Las actividades 3, 4 y 5 no se corresponden con ninguna pregunta de investigación concreta, sino

que conjuntamente contribuyen a responder a las preguntas 2.1 a 2.3. Las actividades 3, 4 y 5
persiguen calcular la exactitud y potencia empírica de las técnicas de agregación en tres contextos
diferentes: el primero de ellos en el cual la heterogeneidad es ignorada, el segundo donde la
heterogeneidad existe y se intente medirla, y el tercero donde la heterogeneidad es incorporada.
Para llevar a cabo las actividades 3 a 5, se utilizarán simulaciones de Monte Carlo. Las
simulaciones de Monte Carlo permiten comprobar el comportamiento de estimadores estadísticos
(en este caso, las distintas técnicas de Meta-Análisis) en contextos de pequeñas muestras.
Finalmente, las actividades 6 y 7 se corresponden con las preguntas de investigación 3.1 y 3.2
respectivamente:
• La actividad 6 persigue determinar si existe algún criterio que permita diferenciar qué
técnicas de meta-análisis son preferibles en un contexto determinado. A priori, se espera que
mera la comparación de los valores de exactitud y potencia empírica sean suficientes,
aunque no es descartable que otras variables puedan intervenir (por ejemplo: heterogeneidad

estadística1). Para realizar esta actividad, no se aplicará ningún método de investigación

específico, sino que los criterios de decisión se definirán de modo inductivo a partir de los
valores de exactitud y potencia empírica obtenidos.
• La actividad 7 tiene como propósito construir un procedimiento algorítmico que permita a
investigadores sin experiencia seleccionar la técnica de meta-análisis óptima. Dicho
procedimiento estará basado en los criterios de decisión definidos en la actividad 6, pero
estableciendo para cada uno de ellos mecanismos de evaluación (por ejemplo: acceso a
valores en tablas por filas/columnas, cálculo de valores, etc.) que permitan su aplicación de
forma determinista.
En las siguientes secciones se describen de forma sintética los métodos de investigación (Revisión
Sistemática de Literatura y Simulación de Monte Carlo) utilizados en la presente tesis.
3.2.1. REVISIÓN SISTEMÁTICA DE LITERATURA
Una revisión sistemática de literatura es un medio para identificar, evaluar e interpretar toda la
investigación disponible relevante a una pregunta de investigación particular, un área temática o un
fenómeno de interés. Las revisiones sistemáticas se consideran estudios secundarios, pues su
población de estudio la constituyen trabajos previamente publicados en la literatura científica, los
cuales se denominan estudios primarios [Kitchenham, B.; 2004].
Las revisiones sistemáticas aplican estrategias específicas para limitar los sesgos (esto es, la
utilización selectiva de información) durante el proceso de revisión [Goodman, C.; 1996]. Las
estrategias más relevantes aplicadas en una revisión sistemática son las siguientes [Kitchenham, B.;
2004]:
1
Conviene indicar en este punto que la investigación realizada ha puesto de manifiesto que la heterogeneidad
estadística no es útil para diferenciar entre técnicas de meta-análisis. Véase sección 6.1.2 para más detalles.

• La revisión sistemática se lleva a cabo mediante un proceso bien definido, que consta de las
siguientes actividades: planificación, búsqueda, evaluación de la calidad de los estudios
primarios, extracción de datos, síntesis y reporte.
• Durante la actividad de planificación, se confecciona un protocolo de revisión. Este
protocolo define de antemano todos los aspectos importantes (cadenas de búsqueda, criterios
de inclusión/exclusión, etc.) con los que llevar a cabo el proceso de revisión.
• Las tareas donde la posibilidad de sesgo es mayor, como por ejemplo la selección de
estudios primarios o la valoración de la calidad, se realizan por más de una persona cuando
es posible, tomando las decisiones por mayoría o consenso.
Los resultados de una revisión sistemática se consideran más fiables, por su repetibilidad y
transparencia, que las revisiones clásicas de la literatura científica, en las que un experto revisa los
estudios publicados, decide cuáles son relevantes y presenta sus resultados, sin que se describa
habitualmente el proceso seguido hasta llegar a las conclusiones [Kitchenham, B.; 2004].
Por último, conviene indicar que aunque a veces se utilizan los vocablos revisión sistemática y
Meta-Análisis indistintamente, el término meta-análisis se restringe a la síntesis cuantitativa de los
resultados de los estudios primarios [Chalmers I.; Hedges L.; Cooper H.; 2002], cuando ésta es
posible (lo cual es, precisamente, el problema afrontado en la presente tesis; véase sección 1.4 a este
respecto). Por tanto, la revisión sistemática constituye un proceso de investigación más amplio, que
va desde la formulación del objetivo de revisión hasta la interpretación de los resultados, siendo el
Meta-Análisis únicamente una de sus actividades.
3.2.2. SIMULACIÓN DE MONTECARLO
El método de Monte Carlo (o simulación de Monte Carlo, como también se denomina) [Metropolis,
N.; Ulam, S.; 1949] es un tipo de algoritmo probabilístico que permite encontrar soluciones a
problemas que no poseen una formulación explícita pero pueden plantearse en términos de
experimentos aleatorios. Un ejemplo bien conocido es el cálculo de π mediante la Buffon’s Needle
[Brassard, G.; Bratley, P.; 1988].

Un uso bastante corriente de las simulaciones de Monte Carlo es comprobar el comportamiento de

estimadores estadísticos (en este caso, las distintas técnicas de meta-análisis) en situaciones no
asintóticas [Sawilowsky, S.; Fahoome, G.; 2002], como la ausencia de normalidad o pequeñas
muestras, que es el caso que nos atañe. De hecho, la simulación de Monte Carlo ha sido utilizada en
todos las investigaciones similares a la presente [Hedges, L.; 1982] [Lajeunesse, M.; Forbes, M.;
2003] [Friedrich, J.; Adhikari, N.; Beyene, J.; 2008] [Takkouche, B.; Cadarso-Suarez, C.;
Spiegelman, D.; 1999] [Liang, K.; Self, S.; 1985] [Jones, M.; et al.; 1989] realizadas hasta la fecha.
En líneas generales, la simulación de Monte Carlo para una técnica de meta-análisis se realizaría del
modo siguiente:
1. Se definen los parámetros de la(s) población(es) sobre las que se desea probar la con
exactitud del estimador. Entre estos parámetros se encuentra el tipo de distribución de
probabilidad (por regla general se escoge la distribución normal), así como el tamaño de
efecto poblacional δ. Otros parámetros poblacionales (medias, varianzas, etc.) pueden
definirse si la simulación así lo exige.
2. Se extraen muestras de dicha(s) población(es), utilizando para ello una tabla o generador de
números aleatorios. El número de muestras extraídas depende de los parámetros de la
simulación.
3. Se calculan los valores del estimador estadístico correspondiente (por ejemplo: tamaño de
efecto global d* calculado mediante WMD, intervalos de confianza de d*, etc.). Nótese que
estos valores son calculados utilizando las fórmulas asintóticas (basadas en la Ley de
Grandes Números) del estimador bajo estudio.
4. Se comparan los valores del estimador con los valores poblacionales. Por ejemplo, para
obtener la exactitud del estimador, habría que comprobar si el intervalo de confianza de d*
contiene el tamaño de efecto poblacional δ. En caso afirmativo, se incrementaría el valor de
una variable numero_aciertos. Para la potencia empírica se procedería de modo análogo.
5. Se repiten los pasos 2-4 un número indeterminado pero elevado de veces, ya que la precisión
de una simulación de Monte Carlo es directamente proporcional al número de veces que se
ejecuta [Brassard, G.; Bratley, P.; 1988].

6. Se calcula la desviación de interés (por ejemplo: exactitud = numero_aciertos ÷

numero_casos_totales).
3.3. MAPEO DE PREGUNTAS DE INVESTIGACIÓN Y

PUBLICACIONES
Las preguntas de investigación presentadas se han ido desarrollando mediante el conjunto de

publicaciones presentadas, que se transcriben en la tabla 3.1.
Publicación Tipo
I. Fernández. E. (2007). Agregation Process with Multiple Evidence Levels for Experimental Studies in Congreso
Software Engineering. Proceedings 2nd International Doctoral Symposium on Empirical Software Internacional
Engineering. Pag. 75-81. ISBN 978-84-690-7340-7.
II. Fernández, E., Diez, E., Malacrida, J., Britos, P., Dieste, O., García Martínez, R. (2008). Uso de Congreso
Revisiones Sistemática como Estrategia de Generación de Conocimientos para Mejora Continua. Nacional
Proceedings del XIV Congreso Argentino de Ciencias de la Computación, Workshop de Ingeniería de
Software y Bases de Datos, Artículo 1924. ISBN 978-987-24611-0-2.
III. Dieste, O., Fernández, E., Pesado, P., García-Martínez, R. (2009). Analysis of Inspection Technique Congreso
Performance. Proceedings XV Congreso Argentino de Ciencias de la Computación. Workshop de Nacional
Ingeniería de Software. Págs. 961-970. ISBN 978-897-24068-4-1.
IV. Fernández, E., Dieste, O., Pesado, P., García-Martínez, R. (2009). Pautas para Agregar Estudios Congreso
Experimentales en Ingeniería del Software. Proceedings XIV Jornadas de Ingeniería del Software y Internacional
Bases de Datos. Pág. 91-102. ISBN 978-84-692-4211-7.
V. Dieste, O., Fernández, E., Pesado, P., García-Martínez, R. (2010). Desarrollo de una Revisión Congreso
Sistemática aplicando Métodos de Agregación Alternativos para el Análisis de las Técnicas de Regional
Inspección. Un Caso Testigo. Actas del XIII Congreso Iberoamericano en Software Engineering. Pág
121-134. ISBN 978-9978-325-10-0.
VI. Fernández, E., Pollo, M., Amatriain, H., Dieste, O., Pesado, P., García-Martínez, R. (2010). Ingeniería Capítulo de
de Software Empírica. Aplicabilidad de Métodos de Síntesis Cuantitativa. En Ingeniería de Software e Libro
Ingeniería del Conocimiento: Tendencias de Investigación e Innovación Tecnológica en Iberoamérica
(Editores: R. Aguilar, J. Díaz, G. Gómez, E- León). Pág. 287-297. Alfaomega Grupo Editor. ISBN 978-
607-707-096-2.
VII. Dieste, O., Fernandez, E., Garcia-Martínez, R., Juristo, J. (2010). Hidden Evidence Behind Useless Congreso
Replications. 1st International Workshop on Replication in Empirical Software Engineering Research Internacional
CORE A
(RESER) en ACM/IEEE 32nd International Conference on Software Engineering (ICSE).
VIII. Dieste, O., Fernández, E., García, R., Juristo, N. (2011). Comparative analysis of meta-analysis Congreso
methods: when to use which?”. 6th EASE Durham (UK) Pág. 36-45. Internacional
CORE A
IX. Dieste, O., Fernández, E., García, R., Juristo, N. (2011). The risk of using the Q heterogeneity estimator Congreso
for software engineering experiments. Proceedings 5th International Symposium on Empirical Software Internacional
CORE A
Engineering and Measurement. Paper Nber. 56. Sep. 22-23. Max Bell (MB) Building. Banff, Alberta,
Canada
X. Amatriain H., Dieste O., Fernández E., García-Martínez R. (2011). Evaluación de La Aplicabilidad del Congreso
Meta-Análisis de Efectos Aleatorios en Ingeniería del Software. Proceedings XVII Congreso Argentino Nacional
de Ciencias de la Computación. Pág. 770-779. ISBN 978-950-34-0756-1.
XI. Dieste, O., Fernández, E., García, R., Juristo, N. (2012). Comparison of meta-analysis methods: Revista
understanding the influence of experiments’ statistical parameters. EMSE, Presentado Internacional
Tabla 3.1: Contribuciones de la tesis

En la tabla 3.2 se presenta la relación existente entre las publicaciones y las preguntas de
investigación definidas, donde “P” significa que la preguntas de investigación ha sido respondida
parcialmente en ese artículo y “C” que la misma fue respondida completamente en el artículo.
Publicaciones: I II III IV V VI VII VIII IX X XI
Preguntas de Investigación
1.1 ¿Existen técnicas de agregación
alternativas a DMP?
P P P C
1.2 ¿Existen técnicas de agregación
aplicables cuando hay problemas de P P P C
reporte?
2.1 ¿Poseen las técnicas de Meta-
Análisis exactitud en el contexto de la P P P P C
IS?
2.2 ¿Poseen las técnicas de Meta-
Análisis potencia empírica en el P P P P P C
contexto de la IS?
2.3 ¿Es factible mejorar la calidad de los
conocimientos empíricos utilizados en
Ingeniería del Software mediante
P P C
Meta-Análisis?
3.1 ¿Es factible determinar cuál es la
mejor técnica a aplicar en función de
las características de los
P P P C
experimentos a agregar?
3.2 ¿Es factible definir un procedimiento
que permita a investigadores en ISE
sin formación específica en
estadística aplicada seleccionar la
P P C
técnica óptima para realizar un Meta-
Análisis?
Tabla 3.2: Aplicación de los Artículos a las preguntas de investigación
3.4. CONTRIBUCIONES
Una de las primeras contribuciones realizadas en esta tesis, tiene que ver con la identificación de un
conjunto de técnicas alternativas a DMP, las cuales son menos difundidas y, en algunos casos,
menos restrictivas y por ende más acordes al contexto experimental que hoy vive la Ingeniería del
Software. Estas técnicas son: Conteo de Votos Estadístico (CVE) propuesto por [Hedges, L.; Olkin,
I.; 1985] (esta técnicas permite estimar un “tamaño de efecto” partiendo del signo de la diferencia
de las medias y la cantidad de sujetos experimentales utilizados en cada estudio), y Ratio de

Respuesta (del inglés Response Ratio (RR)) propuesto por [Gurevitch, J.; Hedges, L.; 2001] (el cual
consiste en estimar un “tamaño de efecto” en base al cociente de las medias), que posee dos
versiones, una paramétrica (RRP) y otra no paramétrica (RRNP) [Miguez, E.; Bollero, G.; 2005] las
cuales comparten la forma de estimar el tamaño de efecto de cada experimento, pero utilizan
diferentes estrategias para ponderar a los experimentos en la sumatoria general. Sobre estas técnicas
no se tiene conocimiento de su uso en Ingeniería del Software mas allá de los trabajos publicados
con relación a esta tesis. A continuación se describen las contribuciones hechas a este respecto en
cada uno de los trabajos indicados en la tabla 3.1:
• Publicación I - presenta por primera vez los nuevas técnicas a la comunidad de Ingeniería de
Software Empírica, esbozando además una primer versión del procedimiento de agregación
propio para la IS.
Algunas de las nuevas técnicas de Meta-Análisis, por definición, podían aplicarse en condiciones de
defectos de publicación, como es por ejemplo, la falta de estimación de la varianza. Lo cual las
convertía en una interesante alternativa para agregar experimentas con reportes defectuosos. A
continuación se describen las contribuciones hechas a este respecto en cada uno de los trabajos
indicados en la tabla 3.1:
• Publicación II – presenta un caso de aplicación de las técnicas alternativas a DMP con

experimentos con falencias de reporte y un posible uso de los conocimientos generados de
esta forma en la industria del software;
• Publicación III – presenta un Meta-Análisis desarrollado con las técnicas alternativas a un
conjunto de experimentos reales, con falencias de reporte.
• Publicación IV – presenta un Meta-Análisis sobre un conjunto de experimentos identificados
en una revisión sistemática hecha previamente, en la cual no se pudo realizar la agregación
de los experimentos debido a que la técnica DMP (única conocido en ese momento) no
podía aplicarse por problemas en la calidad de los reportes de los experimentos. Lo cual
permitió mostrar la versatilidad de las nuevas técnicas.
• Publicación V – presenta el desarrollo de una Revisión Sistemática completa con la
aplicación de las técnicas de Meta-Análisis alternativas.

Si bien estas técnicas eran prometedoras, en los ensayos realizados se detectaban inconsistencias en
los resultados que las mismas arrojaban cuando se aplicaban a un mismo grupo de experimentos.
Por ejemplo, algunas indicaban resultados significativos y otras no. Esto hecho se debía a
características propias de las técnicas, las cuales había que analizar. Esta tarea se realizó a través de
un conjunto de trabajos de simulación tendientes a medir como es la exactitud y potencia empírica
de las técnicas de Meta-Análisis en un contexto de pequeñas muestras como el que hoy presenta la
IS. Dado que la heterogeneidad se presente como un factor crítico a la hora de realizar un Meta-
Análisis, los trabajos de simulación buscaron mostrar como es el comportamiento de las técnicas
cuando se ignorar la heterogeneidad, se intenta medir la heterogeneidad y cuando se quiere
incorporar la heterogeneidad. A continuación se describen las contribuciones hechas en cada uno de
los trabajos indicados en la tabla 3.1:
• Publicación VI – presenta un trabajo de simulación que permite ver que no todas las técnicas
de agregación poseen los mismos niveles de exactitud y potencia empírica, ignorando en
este caso la existencia o no de heterogeneidad.
• Publicación VII – mediante un trabajo de simulación se muestra como mejora la calidad de
los conocimientos cuando varios experimentos son combinados mediante un Meta-Análisis.
• Publicación VIII – presenta un trabajo de simulación que permite establecer cuáles son los
niveles de exactitud y potencia empírica de las nuevas técnicas de agregación juntamente
con la técnica DMP, en un contexto donde se ignora la heterogeneidad. Este trabajo fue
distinguido como: “Best paper award –EASE 2011”.
• Publicación IX – presenta un trabajo de simulación tendiente a determinar cómo tratar la
heterogeneidad experimental en los trabajos de Meta-Análisis que actualmente se
desarrollan en Ingeniería del Software.
• Publicación X – presenta un trabajo de simulación en el cual se comparan el modelo de
efecto fijo, que la existencia de heterogeneidad, y el modelo de efectos aleatorios, que
incorpora la heterogeneidad.
Si bien, en el primer trabajo publicado, donde se presentaban las nuevas técnicas de agregación, se
presentó un procedimiento de cómo utilizar estas técnicas en forma conjunta, en ese momento no se
tenía el conocimiento necesario para poder discernir si era mejor agregar 4 experimentos con una

técnica o 6 experimentos con otra técnica alternativa que permitía incluir trabajos con defecto de
publicación. Esto pudo lograrse luego de desarrollar los trabajos de simulación que aportaron
información respecto de los niveles de error de las técnicas y de esta forma poder saber que riesgos
se toman cuando se asume como verdadero el resultado de uno de ellos. En relación a este tema se
ha presentado un trabajo (se está al aguardo de la respuesta del tribunal evaluador), referenciado en
la tabla 3.1, que se describe a continuación:
• Publicación XI – presenta una ampliación de la publicación IX, incorporando nuevas

conclusiones y proponiendo un nuevo procedimiento de agregación acorde a los nuevos
conocimientos generados.

RESUMEN DE RESULTADOS PROCESO DE AGREGACIÓN PARA ESTUDIOS EXPERIMENTALES EN INGENIERIA DEL SOFTWARE
4. RESUMEN DE RESULTADOS
En este capítulo, se describe como se ha llevado a cabo el trabajo de investigación en función de las
actividades definidas en la metodología de trabajo: Se presentan las técnicas de Meta-Análisis
alternativas a DMP identificadas (sección 4.1); a continuación se muestran como varía el
comportamiento en función de las características del contexto (sección 4.2); tomando como base
las aportaciones anteriores, se propone un proceso de agregación de experimentos específico para
experimentos realizados en IS (sección 4.3).
4.1. OBJETIVO 1: IDENTIFICAR TÉCNICAS DE META-

ANÁLISIS ALTERNATIVAS A DMP
El primer hito de esta tesis ha consistido en identificar técnicas de Meta-Análisis (para variables
continuas) distintas a DMP, así como mostrar la capacidad de dichas técnicas para agregar
experimentos con carencia de reporte.
4.1.1. ACTIVIDAD 1- IDENTIFICACIÓN DE TÉCNICAS DE META-

ANÁLISIS ALTERNATIVAS A DMP
Se han identificado tres nuevas técnicas de Meta-Análisis para variables continuas, ninguna de las
cuales ha sido utilizado previamente en IS (con excepción a los trabajos vinculados a esta tesis):
• Ratio de Respuesta Paramétrico (RRP)

• Ratio de Respuesta No Paramétrico (RRNP)
• Conteo de Votos Estadístico (CVE)

El Ratio de Respuesta Paramétrico es actualmente la técnica de Meta-Análisis para variables

continuas recomendada en los procesos de agregación desarrollados dentro del ámbito de la
ecología [Sánchez-Meca, J.; Marín-Martínez, F.; 1998] [Miguez, E.; Bollero, G.; 2005]. Esta
técnica consiste en estimar un índice de mejora, denominado Ratio, individual que representa el
porcentaje de mejora entre un tratamiento Experimental y otro de Control. Los ratios de los
experimentos individuales se agregan mediante una suma ponderada (donde cada experimento es
ponderado por la inversa de su varianza) para obtener así el ratio global.
Como su nombre indica, el RRP es una técnica de tipo paramétrica y por tanto requiere para ser
aplicado de normalidad en la distribución y homoesticidad (igualdad de las varianzas de los grupos
experimental y de control), al igual que DMP.
La versión no paramétrica del Ratio de Respuesta es muy similar a la versión paramétrica. En

ambos casos, se estima el Ratio entre un tratamiento Experimental y otro de Control mediante el
cociente de ambas medias, siendo luego agregados mediante una suma ponderada. En este último
punto radica la diferencia entre ambas técnicas. En la versión paramétrica (RRP) se pondera a los
experimentos en función de la inversa de la varianza, mientras que en la versión no paramétrica
(RRNP) se ponderan en función de la cantidad de sujetos experimentales que posea [Miguez, E.;
Bollero, G.; 2005].
Por otra parte, al ser el RRNP una técnica no paramétrica, no requiere conocer o hacer suposiciones
acerca de cómo es la población. En concreto, no es necesario que se verifiquen las propiedades de
homoesticidad. Así mismo como la ponderación la hace en base a cantidad de sujetos
experimentales, no requiere de la publicación de varianzas.
El CVE es una técnica que requiere de muy poca información para ser aplicada [Hedges, L.; Olkin,
I.; 1985]. El mismo consiste en la aplicación de un procedimiento de Máxima Verosimilitud
tendiente a determinar cuál es el tamaño de efecto (dentro de un rango de -0,5 a 0,5), que hubiera
estimado el método DMP, conociendo solamente si el resultado de cada experimento favorece o no
al tratamiento experimental y el tamaño del mismo (cantidad de sujetos experimentales).

Por ser una técnica no paramétrica no requiere que exista homosticidad y normalidad [Hedges, L.;
Olkin, I.; 1985]. Tampoco requiere conocer las varianzas de los experimentos.
4.1.2. ACTIVIDAD 2 – VERIFICACIÓN DE LA APLICABILIDAD DE LAS

TÉCNICAS DE AGREGACIÓN CUANDO HAY PROBLEMAS DE
CALIDAD EN LOS REPORTES
La tabla 4.1 resume los parámetros requeridos por las técnicas de agregación identificadas:
Cantidad de sujetos Medias Varianzas

DMP X X X
RRP X X X
RRNP X X
CVE X Solo si existen
diferencias
Tabla 4.1: Aplicación de los Artículos a las preguntas de investigación
Al igual que DMP, RRP requiere que los reportes experimentales publiquen la cantidad de sujetos,
medias y varianzas por cada grupo (tratamiento y control) experimental. Por lo tanto, el RRP no
supone una mejora frente al DMP en situaciones de defecto de reporte, como ocurre en IS.
Por el contrario, tanto el RRNP como el CVE tienen menores exigencias que DMP y RRP. El
RRNP solo requiere de la publicación de la cantidad de sujetos y medias de los grupos de
tratamiento y control. El CVE tiene todavía menos restricciones, al requerir únicamente la cantidad
de sujetos experimentales y si existen o no diferencias entre las medias.

4.2. OBJETIVO 2: ESTUDIAR EL COMPORTAMIENTO DE LAS

TÉCNICAS DE META-ANÁLISIS PARA EL CONTEXTO
EXPERIMENTAL DE IS
El segundo hito de este trabajo consistió en evaluar el comportamiento de las nuevas técnicas
identificadas y DMP para poder establecer criterios de cuando y como utilizar cada uno de ellas,
esta tarea se ha realizado bajo tres condiciones distintas de heterogeneidad. Previamente a describir
los resultados del trabajo de simulación, se va a definir como ha sido la caracterización del contexto
de trabajo en el cual las técnicas han sido evaluadas.
4.2.1. CARACTERIZACIÓN DEL CONTEXTO EXPERIMENTAL DE LA IS
Antes de proceder a describir el comportamiento (exactitud y potencia empírica) de las técnicas de

Meta-Análisis, es preciso caracterizar el contexto experimental de la IS.
A lo largo de esta tesis se ha hecho referencia a dos características salientes de dicho contexto: las
falencias de reportes y las pequeñas muestras, lo primero está razonablemente claro (en general,
muchos experimentos no publican las varianzas). En lo que respecta al segundo punto es
conveniente aclarar cuando el número de sujetos por experimentos (o nivel) y el número de
experimentos por agregación es lo suficientemente pequeño para que exista el riesgo de que el
comportamiento real de las técnicas de Meta-Análisis no coincida con las predicciones de la teoría
(asintótica). A continuación se describen los aspectos evaluados en cada punto:
a) Número de sujetos por experimento (o nivel)

Desde un punto de vista teórico, el concepto de pequeña muestra (o small simple) es
bastante impreciso. Hoyle proporciona la cifra general de 150 sujetos como representativa
de las pequeñas muestras [Hoyle, R.; 1999], si bien existen estudios que rebajan esta cifra a
50 [Graham, J.; Schafer, J.; 1999] [Richy, F.; et al.; 2004]. En meta-análisis las cifras
manejadas son incluso menores, en el orden de los 10-20 sujetos por estudio [Hedges, L.;
1993].

Dado que existe una clara falta de acuerdo, hemos decidido tomar una postura intermedia, y
estudiar experimentos que posean unos 40 sujetos totales (20 por grupo). Con valores
mayores de 20 por grupo, se estaría muy cerca ya de los 30 sujetos que habitualmente se
consideran suficientes para asumir normalidad [García, R.; 2004]. Nótese adicionalmente
que en la práctica, la mayoría de estudios en IS están por debajo de los valores anteriores, a
modo de ejemplo [Sjoberg, D.; 2005] reporta que la mediana de la distribución del número
de sujetos por experimentos es de 30, estando la media muy por debajo de este valor. Así
mismo, los Meta-Análisis realizados hasta el momento en IS muestran los siguientes
valores: en [Dyba, T.; et al.; 2007] el promedio de sujetos por experimento asciende a 13
sujetos por brazo y en [Ciolkowski, M.; 2009] el promedio asciende a solo 6 sujetos por
brazo.
Por tanto los valores de sujetos por brazo por experimento analizados varían entre 4 y 20.
b) Número de experimentos por Meta-Análisis
Respecto de este caso, la referencia a que cantidad de experimentos conforman una pequeña
muestre o no es menos clara que en el caso de la cantidad de sujetos por experimento. Sin
embargo algunos autores coinciden en señalar [Borenstein, M., Hedges, L., Rothstein, H.;
2007] que si el Meta-Análisis posee menos de 10 experimentos los riesgos de caer en un
error son altos, al punto que no se recomienda utilizar el modelo de efectos aleatorios si la
cantidad de experimentos es inferior a 10. Los Meta-Análisis realizados hasta el momento
en IS muestran los siguientes valores: en [Dyba, T.; et al.; 2007] se realizaron dos
agregaciones de 11 experimentos y una de 10 y en [Ciolkowski, M.; 2009] se realizaron 3
agregación con 5, 7 y 9 experimentos.
Por tanto los rangos de exploración definidos van de 2 a 10 experimentos. La cota inferior
del rango ha sido fijada en la cantidad mínima de experimentos que puede incluir un Meta-
Análisis.
c) Otros parámetros
Para poder explorar el efecto del número de sujetos por experimento y número de
experimento por Meta-Análisis, es necesario establecer las características de la población a
partir de la cual van a realizarse las simulaciones. Dichos parámetros son:

• Tamaño de efecto: 0.2, 0.5, 0.8 (correspondientes a tamaños de efectos bajo, mediano y
alto como se define en [Cohen, J.; 1988]), además se agregaron tamaños de 1.2 (debido a
que cerca del 30% de los experimentos publicados en IS poseen un tamaño de efecto
superior a 1 [Kampenes, V.; et al.; 2007])
• Desvío estándar : 10% (varianza baja), 40% (varianza media), 70% (alta varianza) de la
media poblacional. Hemos tomado los valores de [Friedrich, J.; Adhikari, N.; Beyene, J.;
2008] al no existir referencias al respecto en IS.
• Nivel de confianza: α = 0.95, β = 0.20 (dado que son los valores que habitualmente se
recomiendan [Cohen, J.; 1988]).
4.2.2. POR QUE LA EXACTITUD Y LA POTENCIA EMPÍRICA SON

ESTUDIADOS
En nuestra simulación hemos decidido estudiar únicamente la exactitud y la potencia empírica, al

considerar que la tasa de rechazo y el bias son poco importantes en IS:
• La tasa de rechazo determina la probabilidad empírica del error tipo I, esto es, la
probabilidad de indicar la existencia de un efecto (rechazar la hipótesis nula H0) cuando éste
no existe. El impacto de este error es reducido, ya que en el peor de los casos puede llevar a
la realización de replicaciones que, eventualmente, demostrarán la no existencia del efecto.
En otras palabras: la tasa de rechazo puede implicar la realización de esfuerzos baldíos, pero
no al rechazo de tecnologías software relevantes. Es por este motivo que en nuestra
simulación no ensayamos el caso de δ = 0.
• El bias determina el error sistemático inducido por el método de meta-análisis. Si bien esta
desviación es relevante para la toma de decisiones en IS (piénsese, por ejemplo, que un bias
de -0.3 implica invertir a efecto bajo producido por dos tratamientos), este problema sólo
tiene impacto en estimaciones puntuales, que no son habituales en IS. En IS es más normal
trabajar con niveles de significación o intervalos de confianza, motivo por el cual los efectos
negativos del bias se subsumen en la exactitud y pueden ser obviados.
Por el contrario, la exactitud y la potencia empírica, si son relevantes en IS:

• La exactitud es la probabilidad empírica de que el intervalo de confianza obtenido por un

método de meta-análisis contenga al valor poblacional δ. Este valor si es relevante en SE, ya
que determina la confianza que podemos tener en el valor arrojado por el método de meta-
análisis. Por ejemplo, supóngase que el intervalo de confianza obtenido por el WMD en un
meta-análisis fuera (0.1, 0.3) con una exactitud del 95%. Esto implica que el tamaño de
efecto poblacional está entre 0.1 y 0.3 el 95% de las veces o, lo que es lo mismo, es muy
probable que exista un efecto en el tratamiento ensayado. Esto implica adicionalmente que
es poco probable (exactamente, un 5%) que bias sea mayor de 0.2. (ya que de lo contrario,
el intervalo de confianza no contendía el tamaño de efecto poblacional).
• El tasa de aceptación es la probabilidad empírica del error tipo II, esto es, rechazar la
existencia de un efecto (aceptar la hipótesis nula H0) cuando éste si existe. Esto es: un error
tipo II ocurre cuando el análisis estadístico indica (erróneamente) que la diferencia entre dos
tratamientos no es significativa cuando si lo es. Evidentemente, este error es de la máxima
relevancia en SE, ya que implica el riesgo de abandonar la investigación de tecnologías
prometedoras. En nuestra simulación no manejaremos la tasa de acepatción, sino la medida
más habitual potencia empírica = (1 – tasa de aceptación).
4.2.3. ACTIVIDAD 3 – EVALUAR LA EXACTITUD Y POTENCIA

EMPÍRICA DE LAS TÉCNICAS DE META-ANÁLISIS IGNORANDO
LA HETEROGENEIDAD
El desarrollo de esta actividad ha sido separado en dos apartados, en el primero se presenta el

análisis de la Exactitud y en el segundo el análisis de la Potencia Empírica.
4.2.3.1 Análisis de la Exactitud del Meta-Análisis ignorando la Heterogeneidad

En la tabla 4.2 se presenta un resumen de los resultados de la evaluación de exactitud de las técnicas
de Meta-Análisis. Las características contextuales que han resultado determinantes de la exactitud
son: el tamaño de efecto (o ratio de respuesta), el número de sujetos por grupo y el número de
sujetos totales. Curiosamente, aunque el número de sujetos totales si resulta relevante, el número de
experimentos totales no lo es. Finalmente la varianza no mostró ser una característica determinante

de la exactitud de las técnicas. Los valores de exactitud varían ampliamente dependiendo de la

técnica y configuración concreta (número de sujetos por grupo, número de experimentos y tamaño
de efecto) de la simulación. Por este motivo reflejaremos en esta sección solo si la técnica posee un
error tipo I mayor o no que el nominal α = 0,05. En concreto, en la tabla 4.2, marcaremos con “+”
los casos en los cuales la técnica mostro exactitud igual o superior al 95% y “-“ en los casos en que
la exactitud fue inferior.
Tamaño de Subjetos por Subjetos DMP RRP CVE RRNP

efecto grupo totals
Bajo [4 – 8) Irrelevante + - - +
[8 – 20] Irrelevante + + - +
Medio [4 – 8) Irrelevante + - - +
[8 – 20] [8 – 80) + + - +
[8 – 20] [80 – 200] + + + +
Alto y Muy [4 – 8) Irrelevante - - - +
Alto [8 – 20] Irrelevante - + - +
Tabla 4.2: Comparación de Exactitud de la técnicas de Meta-Análisis
Las simulaciones realizadas muestran la técnica RRNP tiene una exactitud muy cercana al 100%.
Lo que lo convierte en la técnica más fiable, por su parte las técnicas DMP y RRP arrojaron valores
similares, con algunas ventajas para DMP cuando los tamaños de efecto son bajos y con ventajas
para RRP cuando los tamaños de efecto son altos. Por su parte la técnica CVE solo mostró
viabilidad en contextos de tamaños de efecto medio (d = 0,5) convirtiéndose en la técnicas menos
fiable.
4.2.3.1 Análisis de la Potencia Empírica del Meta-Análisis ignorando la

heterogeneidad
En la tabla 4.3, se presenta un resumen de los resultados de la evaluación de potencia empírica de
las técnicas de Meta-Análisis. Las características contextuales que han resultado determinantes de la
potencia son: el tamaño de efecto (o ratio de respuesta), el número de sujetos totales, no así la
cantidad de sujetos por experimento o la cantidad de experimentos, y la varianza, que para este caso
mostró ser determinante a la hora de establecer la potencia de las técnicas. Los valores de potencia
empírica varían ampliamente dependiendo de la técnica y configuración concreta (número de

sujetos por totales, tamaño de efecto y varianza) de la simulación. Por este motivo reflejaremos en
esta sección solo si la técnica posee un poder superior al 80% (valor típico esperado para este
parámetro). En la tabla 4.3, se presenta un resumen de la potencia empírica.
Nivel de Tamaño de Subjetos totals DMP RRP CVE RRNP

varianza efecto efecto
fijo
[8 – 160) - - - -
Bajo
[160 – 200] - - + -
[8 – 40) - - - -
[40 – 80) - - + -
Medio [80 – 120) + - + -
[120 – 160) + + + -
[160 – 200] + + + +
Alta
[8 – 20) - - - -
[20 – 48) - - + -
Alto
[48 – 80) + - + -
[80 – 200] + + + +
[8 – 32) - - + -
Muy Alto [32 – 48) + + + -
[48 – 200] + + + +
[8 – 160) - - - -
Bajo
[160 – 200] - - + -
[8 – 48) - - - -
[88 – 112) - - + -
Medio
[112 – 140) + - + -
[140 – 200] + + + -
Media [8 – 20) - - - -
[20 – 48) - - + -
Alto
[48 – 100) + + + -
[100 – 200] + + + +
[8 – 32) - - + -
Muy Alto [32 – 80) + + + -
[80 – 200] + + + +
[8 – 160) - - - -
Bajo
[160 – 200] - - + -
[8 – 32) - - - -
[32 – 48) - - + -
Medio
[48 – 112) - + + -
[112 – 200] + + + -
Baja [8 – 16) - - - -
[16 – 48) - - + -
Alto
[48 – 64) - + + -
[64 – 200] + + + -
[8 – 16) - - + -
Muy Alto [16 – 32) - + + -
[32 – 200] + + + -
Tabla 4.3: Comparación de Potencia Empírica de las técnicas de Meta-Análisis

Donde con “+” se representan los casos en los cuales la técnica mostro potencia igual o superior al
80% y “-“ en los casos en que la potencia no alcanzó el nivel esperado.
Las simulaciones realizadas muestran que la técnica CVE fue la técnica que más potencia posee,
mientras que la técnica RRNP prácticamente no posee potencia, y las técnicas DMP y RRP tienen
un comportamiento similar, mostrando potencia a partir de que la acumulación de sujetos totales
supere los 80 sujetos por grupo.
Si bien las tablas muestran una mejora en el nivel de potencia de las técnicas a medida que se
incorporan experimentos, esto puede verse más claramente si se representa en una gráfica. A modo
de ejemplo, en la gráfica de la figura 4.1, que muestra como aumenta la potencia empírica de los
resultados de la técnica DMP a medida que se incremente la cantidad de sujetos totales que incluye
el Meta-Análisis en un contexto donde el tamaño de efecto poblacional es medio al igual que la
varianza.
100
80
Potencia
60
40
20
0
10 20 30 40 50 60 70 80 90 100
Sujetos por brazo
Figura 4.1: Incremento de la Potencia Empírica en un Meta-Análisis
Si bien los valores representados en la figura 4.1 son propios de la técnica DMP, con las demás
técnicas suceda lo mismo, a medida que la masa crítica de sujetos se incremente, la potencia del test
mejora y por ende la calidad de los conocimientos que del mismo se desprenden, solo cambian los
niveles de corte (cantidad de sujetos necesarios para alcanzar la potencia deseada). Mostrando de
esta manera que Meta-Analizando experimentos, aunque sean estos pequeños, se puede mejorar la
calidad de los conocimientos generales que de ellos se desprenden.

4.2.4. ACTIVIDAD 4 – EVALUAR LA POTENCIA EMPÍRICA DE LAS

TÉCNICAS PARA DETERMINAR HETEROGENEIDAD EN UN
META-ANÁLISIS
Dado que la única crítica que se hace a las técnicas de evaluación de heterogeneidad es su falta de
potencia (no su exactitud), se desarrollo un trabajo de simulación tendiente a determinar si es
factible o no evaluar este aspecto en los Meta-Análisis hechos en IS. Para este caso las únicas
variables relevantes han sido: la diferencia de efecto entre los experimentos, la cantidad de
experimentos y la cantidad de sujetos que los experimentos poseen. En la tabla 4.4 se resumen los
resultados de esta simulación, donde los casos señalados con “+” indican que la técnica mostro
potencia superior al 80%, los señalados con “+/-“ indican que la técnica tuvo un nivel de potencia
entre 60 y 80% (valor señalado como aceptable por [Schmidt, F.; Hunter, J.; 2003]) y los señalados
con “–“ los casos en que la potencia fue inferior al 60%.
Cantidad de Sujetos
Diferencia en el Cantidad de
Experimentales por Poder estadístico
Tamaño de efecto Experimentos
Experimento
<1 Irrelevante Irrelevante -
1 10 [10 – 20) +/-
1 10 [20] +
Tabla 4.4: Poder estadístico del test Q (α=0.05)
Como resultado de este trabajo se concluyó que este tipo de técnica no tiene potencia para ser
aplicado en el actual contexto de la IS. Dado que para detectar la existencia de heterogeneidad la
diferencia entre los tamaños de efectos debe ser igual a superior a 1.

4.2.5. ACTIVIDAD 5 – EVALUAR LA EXACTITUD Y POTENCIA

EMPÍRICA DE LAS TÉCNICAS DE META-ANÁLISIS
INCORPORANDO LA HETEROGENEIDAD
El desarrollo de esta actividad ha sido separado en dos apartados, en el primero se presenta el

análisis de la Exactitud y en el segundo el análisis de la Potencia Empírica.
4.2.5.1. Análisis de la Exactitud del Meta-Análisis incorporando la

heterogeneidad
En la tabla 4.5 se presenta un resumen de los resultados de la evaluación de exactitud de los dos
modelos de técnicas de Meta-Análisis. Las características contextuales que han resultado
determinantes de la exactitud son: el tamaño de efecto y el número de sujetos por grupo. Por su
parte, la varianza no mostró ser una característica determinante de la exactitud de las técnicas. Los
valores de exactitud varían dependiendo de la técnica y configuración concreta de la simulación.
Por este motivo reflejaremos en esta sección solo si la técnica posee un error tipo I mayor o no que
el nominal α = 0,05. En concreto, en la tabla 4.5, marcaremos con “+” los casos en los cuales la
técnica mostro exactitud igual o superior al 95% y “-“ en los casos en que la exactitud fue inferior.
Tamaño de Sujetos por Sujetos totales DMP efecto DMP efectos

efecto grupo fijo aleatorios
Bajo [4 – 8) Irrelevante + -
[8 – 20] Irrelevante + +
Medio [4 – 8) Irrelevante + -
[8 – 20] Irrelevante + +
Alto y Muy [4 – 8) Irrelevante - -
Alto [8 – 20] Irrelevante - +
Tabla 4.5: Comparación de Exactitud de la técnicas de Meta-Análisis
Según la teoría estadística, agregar mediante el modelo de efectos aleatorios un conjunto de

experimentos que provienen de una población única implica obtener resultados similares al que se
obtienen mediante el modelo de efectos fijo, ya que la varianza entre experimentos debería ser
mínima. El trabajo de simulación realizado, muestra que con pequeñas muestras esto no es así, el
modelo de efecto fijo tiene mayor exactitud cuando los experimentos son pequeños. Por otra parte,

el modelo de efectos aleatorios muestra mayor exactitud en contextos de tamaño de efecto alto y
muy alto.
4.2.3.2. Análisis de la Potencia Empírica Exactitud del Meta-Análisis

incorporando la heterogeneidad
En la tabla 4.6, se presenta un resumen de los resultados de la evaluación de potencia empírica de
los dos modelos de técnicas de Meta-Análisis. Las características contextuales que han resultado
determinantes de la potencia son: el tamaño de efecto, el número de sujetos totales, no así la
cantidad de sujetos por experimento o la cantidad de experimentos, y la varianza, que para este caso
mostró tener alguna influencia a la hora de establecer la potencia de la técnica, pero no es
demasiado influyente. Los valores de potencia empírica varían dependiendo de la técnica y
configuración concreta (número de sujetos por totales, tamaño de efecto y varianza) de la
simulación. Por este motivo reflejaremos en esta sección solo si la técnica posee un poder superior
al 80% (valor típico esperado para este parámetro). En la tabla 4.6, se presenta un resumen de la
potencia empírica.
Nivel de Tamaño de Sujetos DMP efecto DMP efectos

varianza efecto totales fijo aleatorios
Bajo Irrelevante - -
[8 – 80) - -
Medio
Alta [80 – 200] + -
[8 – 48) - -
Alto
[48 – 200] + -
[8 – 32) - -
Muy Alto
[32 – 200] + -
[8 – 112) - -
Medio
[112 – 200] + -
Media [8 – 48) - -
Alto
[48 – 200] + -
[8 – 32) - -
Muy Alto
[32 – 200] + -
[8 – 112) - -
Medio
[112 – 200] + -
Baja [8 – 64) - -
Alto
[64 – 200] + -
[8 – 32) - -
Muy Alto
[32 – 200] + -
Tabla 4.6: Comparación de Potencia Empírica de las técnicas de Meta-Análisis

Donde con “+” se representan los casos en los cuales la técnica mostro potencia igual o superior al
80% y “-“ en los casos en que la potencia no alcanzó el nivel esperado.
Las simulaciones realizadas muestran que la técnica DMP para modelo de efecto fijo, logra alcanzar
potencia a partir del tamaño de efecto medio, si el Meta-Análisis acumula al menos 80 sujetos
experimentales para una varianza alta y 112 para los otros valores de varianza. Como era de
esperarse, a medida que aumenta el tamaño de efecto, se reduce la cantidad de sujetos necesarios
para que el método logre la potencia esperada. Contrariamente a lo que sucede con el modelo de
efecto fijo, el modelo de efectos aleatorios no logró alcanzar potencia en ninguno de los casos
evaluados, lo cual lo convierte en una técnica no aplicable a este contexto de trabajo, algo simular a
lo sucedido con el método Q.
4.3. OBJETIVO 3: DESARROLLAR UN PROCESO DE META-

ANÁLISIS PROPIO PARA INGENIERÍA DEL SOFTWARE
QUE PERMITA DETERMINAR MEDIANTE QUE TÉCNICA
AGREGAR LOS EXPERIMENTOS IDENTIFICADOS
El último de los hitos consiste en desarrollar un conjunto de heurísticas o teorías tendientes a poder
determinar en qué casos es conveniente utilizar una u otra técnica de agregación, las cuales son la
base para el desarrollo de un procedimiento de agregación final.
4.3.1. ACTIVIDAD 6 – ESTABLECER CRITERIOS PARA DETERMINAR

CUÁL ES LA MEJOR TÉCNICA A APLICAR EN FUNCIÓN DE LAS
CARACTERÍSTICAS DE LOS EXPERIMENTOS A AGREGAR
Para determinar si una técnica es mejor o no que otra hay que analizar sus niveles de exactitud y
potencia empírica. Ahora bien, la interpretación de estos valores no es simple, ya que muchas veces
las técnicas que poseen mayor exactitud poseen menos potencia y viceversa.

Si tomamos como base las definiciones de la teoría estadística, lo que se debe buscar es que las
técnicas posean una exactitud del 95% y una potencia empírica del 80%. En estas condiciones todas
las técnicas son equivalentes. Por debajo de estos valores, es necesario establecer nuevos niveles de
cota acordes a la criticidad del fenómeno que se está analizando (no es lo mismo tomar una decisión
de cambio cuando existen riesgos de vida asociados que cuando no lo existen, o se sabe que el
cambio no genera grandes pérdidas o inconvenientes) así pues, se puede bajar el nivel de fiabilidad
al 90% o el de potencia al 60%. Es decir, los valores de exactitud y potencia nos dan una medida de
cómo es el desempaño de la técnica en el contexto, y se considera que se debe tomar como mejor a
aquella técnica que superado los valores de cota definidos posea mayor potencia.
4.3.2. ACTIVIDAD 7 – DESARROLLAR UN PROCEDIMIENTO QUE

PERMITA A INVESTIGADORES EN ISE SELECCIONAR LA
TÉCNICA ÓPTIMA PARA REALIZAR UN META-ANÁLISIS
A lo largo del trabajo de investigación se han ido desarrollando varias versiones del proceso de
agregación, primeramente se planteo el uso de un modelo con múltiples niveles de evidencia, el
cual carecía de un criterio concreto para determinar cuál era el mejor resultado. A medida que se
tenía mayor información de cómo se trabaja en el campo experimental en Ingeniería del Software y
cómo se comportan las técnicas de Meta-Análisis el procedimiento se fue refinando incorporado
criterios para poder discriminar si un resultados es mejor o no que otro, quedando conformado el
proceso por cinco actividades principales:
Actividad 1: Agrupar experimentos, tiene como objetivo analizar, organizar y agrupar los
estudios experimentales identificados;
Actividad 2: Agregar experimentos, tiene como objetivo agregar los estudios de cada grupo;
Actividad 3: Definir nivel de varianza, tiene como objetivo definir el nivel de varianza. Para
este caso, si no se cuenta con experimentos para el primer grupo, se deberá
estimar la misma en base a publicaciones como la de [Sjoberg, D.; 2005] donde
se establecen valores promedios de los experimentos en IS.

Actividad 4: Calcular K y N y estimar nivel de efecto, tiene como objetivo calcular la cantidad
de experimentos y sujetos de cada grupo e interpretar el tamaño de efecto (en
base a una tabla de conversión);
Actividad 5: Determinar mejor resultado, tiene como objetivo aplicar un conjunto de
heurísticas para determinar qué grupo de estudios aporta el mejor resultado para
las necesidades del investigador. Las cuales se apoyan en la exactitud y potencia
empírica de las técnicas evaluadas en el proceso de simulación;
En la figura 4.2, se muestra como es la secuencia de ejecución de estas actividades:
Figura 4.2: Secuencia de Ejecución de las Actividades del Proceso de Agregación
En las siguientes subsecciones se describe en qué consiste cada uno de las actividades que
componen el proceso de Agregación.

4.3.2.1. Agrupar Experimentos

Visto que existen diversas restricciones para la aplicación de las técnicas de Meta-Análisis, se
deberán agrupar los estudios en grupos acordes a estas restricciones para de esta manera poder
identificar con claridad bajo que restricciones de contexto se aplica la técnica. Las principales
restricciones para la aplicación de las técnicas son:
• Características de Contexto: Este aspecto se vincula con dos factores básicos para la
aplicación de las técnicas paramétricos: normalidad en la distribución y homogeneidad
entre las varianzas (homoesticidad).
• Completitud del Reporte: Este aspecto es muy importante, ya que por bien construido que
esté el estudio, si el reporte no refleja un conjunto mínimo de parámetros las técnicas de
agregación no podrán ser aplicadas. Los parámetros son: Medias, Varianzas (o Desvío
Estándar) y cantidad de sujetos experimentales. También puede resultar de utilidad
identificar si el reporte indica si las diferencia entre los tratamientos son significativas o no
mediante algún test de hipótesis. Asimismo, en caso de que el reporte no publique las
medias, puede ser un paliativo saber si existió o no diferencias entre las mismas.
En base a estas restricciones, los experimentos se organizan en tres grupos:
Grupo “A” que incluye los experimentos que publiquen las Medias, Varianzas (o Desvío
Estándar) y la cantidad de sujetos experimentales;
Grupo “B” que incluye los experimento del grupo “A” más los experimentos que publiquen
las Medias y la cantidad de sujetos experimentales, pero no las varianzas;
Grupo “C” que incluye los experimentos del grupo “B” más los experimentos que publiquen
la cantidad de sujetos experimentales e indiquen si existen diferencia entre las medias de los
tratamientos, pero no detallan las Medias ni publican las Varianzas.
La asignación de los estudios a cada categoría se hace de modo completamente determinista

utilizando la tabla de decisión descripta en la tabla 4.7:

Condiciones R1 R2 R3 R4
Características Normalidad y No Normalidad o ---- ---
de contexto homosticidad No homosticidad
El Reporte Medias (Y), Medias (Y), Medias (Y), y Diferencia de
publica Varianzas (s) y Varianzas (s) y cantidad de medias y
cantidad de cantidad de Sujetos (n) Cantidad de
Sujetos (n) Sujetos (n) Sujetos (n)
Acciones
Categoría A A B C
Tabla 4.7: Tabla de Decisión para Determinar la Categoría de los Estudios
4.3.2.2. Agregar Experimentos

Dado que para poder determinar la exactitud y potencia empírica de una técnica, se debe conocer,
entre otras cosas, el tamaño de efecto, se deben agregar los experimentos para luego poder
determinar qué grupo es el que aporta los mejores resultados. Estableciéndose los siguientes
criterios de agregación: los experimentos del grupo “A” se agregan mediante las dos técnicas
paramétricas DMP y RRP, y se debe estimar el nivel de heterogeneidad mediante la técnica Q; los
experimentos del grupo “B” se agregan mediante la técnica RRNP; y los experimentos del grupo
“C” se agregan mediante la técnica CVE.
4.3.2.3. Definir Nivel de Varianza

La varianza es un factor que influye fundamentalmente en la potencia de las técnicas de Meta-
Análisis, ya que a mayor variación entre los datos, más conservadores se vuelven las mismas a la
hora de afirmar que un tratamiento es mejor que otro.
Los niveles de varianza definidos para buscar en las tablas desarrolladas en el proceso de
simulación son: Baja, cuando el desvío estándar es del 10% del valor de la media del tratamiento de
control; Media, cuando el desvío estándar es del 40% del valor de la media del tratamiento de
control; y Alta, cuando el desvío estándar es del 70% del valor de la media del tratamiento de
control. Dado que solo en el grupo A se cuenta con experimentos que publiquen las varianzas, la
estimación se hará solo sobre este grupo y se asume que es representativa para todo el conjunto de
experimentos. En caso de no contar con experimentos en el grupo A, se asume un nivel de varianza
media (40%) dado que este es el valor más frecuente en SE [Kampenes, V.; et al., 2007].

4.3.2.4. Calcular K y N y Estimar Nivel de Efecto

Para poder acceder a las tablas de exactitud y potencia de las técnicas, se requiere conocer la
cantidad de experimentos y sujetos promedio por experimento, como así también el nivel del
tamaño de efecto. Los dos primeros parámetros se obtienen mediante sumarización, mientras que
para estimar el nivel de efecto de los grupos agregados se utilizan dos tablas, la primera aplicable al
DMP y CVE y la segunda a las técnicas RRP y RRNP. Las cuales permiten determinar a cuál de los
cuatro niveles de tamaño de efecto se corresponde el efecto estimado: Bajo, Medio, Alto o Muy
alto.
Para el caso de DMP y CVE existe independencia respecto del nivel de varianza del grupo, y los
mismos se asignan como se indica en la tabla 4.8:
Nivel de Tamaño de efecto Valor de d

Bajo 0.2
Medio 0.5
Alto 0.8
Muy alto 1.2
Tabla 4.8: Interpretación de Tamaños de Efectos para DMP y CVE
Por su parte, las técnicas basadas en Ratios requieren conocer el nivel de varianza para poder
determinar cuál es el tamaño de efecto asignado para la búsqueda en las tablas de exactitud y
potencia empírica. En la tabla 4.9 se presenta la relación existente entre los niveles de efecto y RR
estimados:
Nivel de varianza Nivel de Tamaño de efecto Valor de d

Baja Bajo 1.02
Medio 1.05
Alto 1.08
Muy alto 1.12
Media Bajo 1.08
Medio 1.2
Alto 1.32
Muy alto 1.48
Alta Bajo 1.14
Medio 1.35
Alto 1.56
Muy alto 1.84
Tabla 4.9: Interpretación de Tamaños de Efectos para RRP y RRNP

4.3.2.5. Determinar Mejor Resultado

Alcanzado este punto, en base a la información aportada por las tablas del artículo VII se debe
determinar cuál es el mejor resultado, para lo cual se ha establecido el siguiente ranking, en el cual
se custodia la exactitud por sobre la potencia debido a que los costos de no cambio, en general, son
menores al de cambio innecesario:
1. La técnica posee exactitud y potencia para el grupo de estudios aplicado

2. La técnica posee exactitud pero la potencia se encuentra entre el 60% y 80%
3. La técnica posee exactitud pero la potencia es inferior al 60%
4. La técnica no posee exactitud
Las alternativas 1 y 2 son consideradas aplicables a la toma de decisión, pero las alternativa 3 y 4
denotan que la evidencia con que se cuenta es insuficiente y deben ampliarse los trabajos de campo,
por tanto no debería tomarse una decisión en estas condiciones.

DEMOSTRACION DE LA SOLUCION PROCESO DE AGREGACIÓN PARA ESTUDIOS EXPERIMENTALES EN INGENIERIA DEL SOFTWARE
5. DEMOSTRACION DE LA SOLUCION
En este capítulo se presenta un caso de estudio teórico donde se aplica el procedimiento de
agregación definido en la sección 4 (sección 5.1), y un caso de aplicación real en el cual se toma
como base una revisión sistemática desarrollada dentro del contexto de esta tesis (sección 5.2).
En cada demostración se resolverá el caso aplicando exclusivamente la técnica DMP y el

procedimientos de agregación propuesto en la presente tesis.
5.1. PRESENTACIÓN DE UN PROBLEMA TEÓRICO
Supóngase que un investigador necesita agregar los siguientes experimentos (tabla 5.1):
Exp. Media Media Sujetos Sujetos Desvío Desvío Dif.

Exp. Control Exp. Control Std. Exp. Std. Entre
Control Medias
1 90 75 16 16 28 30 --
2 115 90 20 20 40 35 --
3 100 75 10 10 42 33 --
4 100 100 8 8 39 40 --
5 130 100 10 10 ---- ---- --
6 100 90 10 10 ---- ---- --
7 95 100 12 12 ---- ---- --
8 95 90 8 8 ---- ---- --
E>
9 ---- ---- 10 10 ---- ---- Y Yc
10 ---- ---- 8 8 ---- ---- YE > Yc
Tabla 5.1: Resultados de los experimentos

5.1.1. RESOLUCIÓN MEDIANTE DMP
La agregación por esta técnica implica realizar tres pasos:
1- Agregar los experimentos de 1 a 4 (los demás experimentos no publican las varianzas),

2- analizar si existe o no heterogeneidad,
3- En caso de no existir heterogeneidad tomando el resultado final como conclusión, en caso
contrario buscar alguna estrategia alternativa, como puede ser agregar los estudios mediante
la versión de modelo de efectos aleatorios o descomponer en subgrupos.
En la tabla 5.2, se presenta el resultado de la agregación y estudios de heterogeneidad:
Q = 1,304
Tabla 5.2: Resultados de la agregación mediante DMP
Como puede observase en la tabla 5.2, el valor de Q es inferior a la cantidad de experimentos menos
1, por tanto no hay evidencias de heterogeneidad, esto implica que es correcto agregar los
experimentos mediante el modelo de efecto fijo.
El resultado final indica que existen diferencias significativas a favor del tratamiento experimental y
que las mismas se encuentran apoyadas por 4 experimentos que acumulan 54 sujetos por
tratamiento.
5.1.2. RESOLUCIÓN MEDIANTE EL NUEVO PROCEDIMIENTO
A continuación se resumen los resultados de las actividades del nuevo procedimiento:
Actividad 1: Se han definido tres grupos, el grupo A conformado por los experimentos 1 a 4
(afectados por la Regla de decisión número R1 ya que no tienen problemas de reporte), el grupo B

conformado con los experimentos de 1 a 8 (afectados por la Regla de decisión número R3 ya que
los experimentos 5 a 8 no publican las varianzas), y el grupo C conformado con los experimentos de
1 a 10 (afectados por la Regla de decisión número R4 ya que los experimentos 9 y 10 no publican
las medias).
Actividad 2: En la tabla 5.3 se presenta los resultados de las agregaciones de las diferentes técnicas
a los grupos especificados. Dichos resultados se complementan con los ya indicados en la tabla 5.2,
dado que nuestro procedimiento también incluye al DMP.
RRP – aplicado a grupo A
RRNP - aplicado a grupo B
CVE - aplicado a grupo C
Tabla 5.3: Resultados de la agregación mediante las técnicas alternativas

Actividad 3: Se establece que el nivel de varianza es medio, ya que la misma ronda el 40% de la
media del tratamiento de control.
Actividad 4: Se establece que el grupo A está conformado por 4 experimentos con

aproximadamente 14 sujetos en promedio, el grupo B está conformado por 8 experimentos con
aproximadamente 12 sujetos en promedio y el grupo C está conformado por 10 experimentos con
aproximadamente 11 sujetos en promedio. Para todos los casos el tamaño de efecto es medio.
Actividad 5: Para poder establecer los niveles de error de las técnicas se toman las tablas de
exactitud y potencias asociadas a tamaños de efecto medio y se determina el nivel de exactitud y
potencia en base a ellas. En la tabla 5.4, se resumen los resultados, donde “E” en el ítem Exactitud
indica que la técnica alcanzo el nivel de exactitud del 95% y nE que no ha alcanzado este valor,
mientras que un valor de P en el ítem Potencia Empírica indica que la técnica ha alcanzado una
potencia del 80% y nP indica que la potencia es inferior a este valor.
Grupo A A B C
Técnica de Meta-Análisis DMP RRP RRNP CVE
Tamaño de efecto Medio Medio Medio Medio
Varianza Medio Medio Medio Medio
Número de experimentos 4 4 8 10
Promedio de sujetos 14 14 12 11
Exactitud E E E E
Poder empírico nP nP nP P
Tabla 5.4: Exactitud y potencia empírica de las técnicas del ejemplo de la tabla 5.1
En función de lo indicado en las tablas de exactitud y potencia el mejor resultado es el de la técnica

CVE, que además es la que más experimentos incluye. Por tanto se puede afirmar que el tratamiento
experimental es mejor que el tratamiento de control.
Si comparamos los resultados obtenidos en la agregación basada en DMP con el procedimiento

propuesto, podemos afirmar que con el nuevo procedimiento se logra aprovechar 6 experimentos
que en el caso anterior debían desecharse, además se identifica una técnica de agregación que

cumple con los niveles de exactitud y potencia necesarios para asegurar que la conclusión obtenida
es correcta.
5.2. PRESENTACIÓN DE UN CASO REAL
Para el presente ejemplo, se ha tomado como base el trabajo de Revisión [Malacrida, I.; et al; 2008]
del cual se extrajeron cuatro experimentos que analizan el desempeño de las técnicas basadas en
listas de comprobación (CBR) vs. las basadas en perspectivas (PBR) aplicadas al análisis de
documentos de diseño. En la tabla 5.5 se resumen los resultados de dichos experimentos.
Resultados
Cantidad de Sujetos
Experimentos Media (m) Desvío estándar (SD)
(n)
CBR PBR CBR PBR CBR PBR
1 [Sabaliauskaite, G.; et al.; 2002] 21 38 70,2 69,1 11,5 15,3
2 [Sabaliauskaite, G.; et al.; 2004]
(Experimento 1) 15 12 52,3 48,1 6,44 3,85
3 [Sabaliauskaite, G.; et al.; 2004]
(Experimento 2) 12 15 62,5 62,9 8,99 11,7
4 [Laitenberger, O.; et al.; 2000] 9 9 43 58
Tabla 5.5: Resultados de los Experimentos
5.2.1. RESOLUCIÓN MEDIANTE DMP
En la tabla 5.6, se presenta el resultado de la agregación de los tres experimentos agregables por
DMP y estudios de heterogeneidad:
Q = 2,44; P =0,29
Tabla 5.6: Resultados de la agregación mediante DMP
Como puede observase en la tabla 5.6, en este caso el valor de Q es superior a la cantidad de
experimentos menos 1, pero como el P asociado al mismo es superior a 0,05 podemos afirmar que

no hay evidencias de heterogeneidad. Lo cual se corrobora en la gráfica donde los IC se solapan

entre sí. Por tanto es correcto agregar los experimentos mediante el modelo de efecto fijo. El
resultado final indica que no existen diferencias significativas y dicho resultado se encuentra
avalado por 3 experimentos que en promedio acumulan aproximadamente 57 sujetos por
tratamiento.
5.2.2 Resolución mediante el nuevo procedimiento

A continuación se resumen los resultados de las actividades del nuevo procedimiento:
Actividad 1: Se han definido dos grupos, el grupo A conformado por los experimentos 1 a 3
(afectados por la Regla de decisión número R1 ya que no tienen problemas de reporte), y el grupo B
conformado con los experimentos de 1 a 4 (afectados por la Regla de decisión número R3 ya que el
experimentos 4 posee defectos de reporte).
Actividad 2: En la tabla 5.7 se presenta los resultados de las agregaciones de las diferentes técnicas
a los grupos especificados. Dichos resultados se complementan con los ya indicados en la tabla 5.6,
dado que nuestro procedimiento también incluye al DMP.
Resultados Diagrama de árboles
RRP – aplicado a grupo A
RRNP – aplicado a grupo B
Tabla 5.7.a: Resultados de la agregación mediante las técnicas alternativas

CVE – aplicado a grupo B
Tabla 5.7.b: Resultados de la agregación mediante las técnicas alternativas
Actividad 3: Se establece que el nivel de varianza es bajo, ya que la misma ronda el 10% de la
media del tratamiento de control.
Actividad 4: Se establece que el grupo A está conformado por 3 experimentos con

aproximadamente 19 sujetos en promedio y el grupo B está conformado por 4 experimentos con
aproximadamente 16 sujetos en promedio. Para las técnicas DMP, RRNP y VCE el tamaño de
efecto es bajo mientras que para RRP el tamaño de efecto es medio.
Actividad 5: Para poder establecer los niveles de error de las técnicas se toman las tablas de
exactitud y potencias asociadas a tamaños de efecto bajo y medio, según corresponda, y se
determina el nivel de exactitud y potencia en base a ellas. En la tabla 5.8, se resumen los resultados:
Grupo A A B C
Técnica de Meta-Análisis DMP RRP RRNP CVE
Tamaño de efecto Bajo Medio Bajo Bajo
Varianza Bajo Bajo Bajo Bajo
Numero de experimentos 3 3 4 4
Promedio de sujetos 19 19 16 16
Exactitud E E E nE
Poder empírico nP P nP nP
Tabla 5.8: Exactitud y potencia empírica de las técnicas del ejemplo de la tabla 5.5
En función de lo indicado en las tablas de exactitud y potencia el mejor resultado es el de la técnica

RRP, ya que es la única que reúne exactitud y potencia.

Si comparamos los resultados obtenidos en la agregación basada en DMP con el procedimiento

propuesto, si bien en esta caso la mejor técnica disponible, RRP, no permite agregar más
experimentos que DMP, aporta un resultado que tiene exactitud y potencia empírica de manera tal
que el investigador puede estar tranquilo que el resultado no se debe a un problema de la técnica de
agregación (como sucedería con DMP que no posee potencia), sino que las evidencias disponibles
indican que los métodos de testing evaluados no se sacan ventajas concretas.

DISCUSION PROCESO DE AGREGACIÓN PARA ESTUDIOS EXPERIMENTALES EN INGENIERIA DEL SOFTWARE
6. DISCUSION
En esta sección se discuten los conocimientos generados en esta tesis. Se analizan los resultados
obtenidos en el desarrollo de las actividades realizadas para dar respuestas a las preguntas de
investigación (sección 6.1); se analiza la aplicabilidad del procedimiento desarrollado (sección 6.2);
se detallan los beneficios de la utilización del procedimiento presentado (sección 6.3).
6.1. EVALUACIÓN DE LOS RESULTADOS DE LAS

ACTIVIDADES
En la presente subsección se discuten los resultados obtenidos a cada una de las actividades de la
metodología desarrolladas.
6.1.1. OBJETIVO 1: IDENTIFICAR TÉCNICAS DE META-ANÁLISIS

ALTERNATIVAS A DMP
DMP es la única técnica de meta-análisis utilizada en IS para la agregación de variables continuas.

Sin embargo, DMP posee ciertos requisitos para su aplicación que no siempre se cumplen en las
agregaciones de experimentos en IS, en particular, los experimentos deben reportar el número de
sujetos, medias y varianzas por tratamiento, esto es, no deben poseer carencias de reporte.
Por ello, el primer objetivo planteado fue identificar técnicas de Meta-Análisis alternativas a DMP
que permitieran aprovechar mejor los experimentos disponibles en IS. Este objetivo se ha
descompuesto en dos preguntas de investigación.

6.1.1.1. Actividad 1- Identificación de técnicas de Meta-Análisis alternativas a

DMP
La revisión sistemática de literatura realizada ha permitido identificar tres técnicas de meta-análisis
alternativas a DMP y aplicables, como ésta, a variables continuas:
• Conteo de votos estadístico (CVE).

• Ratio de respuesta paramétrico (RRP).
• Ratio de respuesta no paramétrico (RRNP).
El ratio de respuesta, en sus dos variantes (paramétrico y no paramétrico) parecen haberse utilizado
principalmente en Ecología, aunque no puede excluirse su uso anecdótico en otras áreas (por
ejemplo: medicina). El conteo de votos estadístico no parece haberse utilizado nunca en la práctica.
En cualquier caso, ninguna de estas tres técnicas ha sido aplicada en IS.
6.1.1.2. Actividad 2 – Verificación de la aplicabilidad de las técnicas de

agregación cuando hay problemas de calidad en los reportes
Al igual que ocurre en la estadística inferencial, las técnicas no paramétricas en Meta-Análisis son
más flexibles que sus alternativas paramétricas (por ejemplo: DMP), y pueden aplicarse a pesar de
que los experimentos no reporten ciertos parámetros. De las tres técnicas identificadas, dos de ellas
son de tipo no paramétrico: RRNP y CVE.
• El RRNP sólo requiere para su aplicación el número de sujetos y las medias por tratamiento,
pudiendo prescindir, por lo tanto, de la varianza de los tratamientos.
• El CVE sólo requiere para su aplicación el número de sujetos y si un tratamiento ha arrojado
mejores resultados que el otro. El CVE puede prescindir, en consecuencia, tanto de las
medias como de la varianza de los tratamientos.
El RRP es de tipo paramétrico, al igual que DMP, y posee sus mismas restricciones en lo que
respecta al reporte de los experimentos.

6.1.2. OBJETIVO 2: ESTUDIAR EL COMPORTAMIENTO DE LAS

TÉCNICAS DE META-ANÁLISIS PARA EL CONTEXTO
EXPERIMENTAL DE IS
La técnica DMP, además de exigir que los experimentos reporten ciertos parámetros (número de
sujetos, medias y varianzas), requiere que los experimentos agregar cumplan ciertas condiciones de
volumen: el Meta-Análisis debe contener como mínimo 10 experimentos, cada uno con al menos 10
sujetos por tratamiento. Cuando esto no ocurre, la potencia empírica y la exactitud de DMP pueden
variar respecto a sus valores teóricos; esto es: los resultados del DMP no son fiables. Las mismas
críticas pueden potencialmente realizarse a las técnicas de Meta-Análisis identificadas en el seno de
esta tesis (CVE, RRP, RRNP), ya que todas ellas están basadas, en última instancia, en el teorema
central del límite.
Por ello, el segundo objetivo planteado ha consistido en caracterizar el poder empírico y la

exactitud de las distintas técnicas de Meta-Análisis, para comprobar con ello su aplicabilidad en el
contexto actual de la IS.
6.1.2.1. Actividad 3 – Evaluar la Exactitud y Potencia Empírica de las técnicas

de Meta-Análisis ignorando la Heterogeneidad
Desde el punto de vista de la Exactitud, dependiendo de las características del contexto (numero de
experimentos, sujetos, tamaños de efecto y varianzas), las cuatro técnicas de meta-análisis poseen
diferentes niveles de exactitud. Existe una gran casuística, por lo que no es posible enunciar una
regla general. Sin embargo, se pueden señalar ciertas regularidades:
• La mayoría de las técnicas de meta-análisis posee una exactitud razonable, con la excepción
de la técnica CVE que solo mostró un nivel de exactitud teórico esperado cuando el tamaño
de efecto de la población es medio.
• Las técnicas basadas en ratios (RRP y RRNP), superando en muchos casos los niveles de
exactitud de DMP. De hecho, la técnica RRNP mostró exactitud en todos los casos
evaluados.

• La técnica DMP posee baja exactitud cuando el contexto de trabajo posee tamaños de efecto
muy altos, aspecto apenas indicado en la bibliografía y desconocido en general. Este hecho
provoca que
Se debe hacer notar que, para todos los contextos estudiados, siempre existe al menos una técnica
con una exactitud adecuada. Esto implica que con un procedimiento de búsqueda adecuado es
factible obtener resultados con el nivel de exactitud esperado.
Ahora bien, la potencia empírica es el mayor problema de las técnicas de Meta-Análisis cuando son
aplicadas en el contexto actual de la IS. La variabilidad del comportamiento de las técnicas es
mayor que en el caso de la exactitud, pero de nuevo pueden señalarse algunas regularidades:
• Los ratios no superan al DMP, es mas para este caso la técnica RRNP carece de potencia en
casi todos los casos, y solo podría considerarse adecuada su utilización en contextos de alta
varianza.
• La técnica CVE es la que mejor comportamiento mostró, indicando buenos niveles de
potencia aún cuando el Meta-Análisis posee pocos experimentos con pocos sujetos.
• La técnica RRP mostró un comportamiento muy similar a DMP de efecto fijo con una ligera
ventaja para RRP cuando el tamaño de efecto es bajo y viceversa cuando el tamaño de
efecto es medio o alto.
Un aspecto de máxima importancia que conviene destacar es que existen contextos donde ninguna
de las técnicas evaluadas mostró una adecuada potencia empírica. Por ejemplo, cuando el tamaño
de efecto es bajo y el Meta-Análisis acumula menos de 160 sujetos totales. Este aspecto tan
negativo, puede verse paliado en partes con los resultados del método CVE que si bien no llego a la
potencia teórica deseado (80%), alcanzó el piso del 60% a partir de los 4 experimentos con 8 sujetos
experimentales. Es decir, el mayor problema con la potencia del Meta-Análisis se encuentra cuando
se agregan menos de 4 experimentos.
Es importante destacar que aun en el caso de que una técnica determinada posea la potencia
empírica requerida, ello no implica que la misma técnica posea exactitud en el mismo contexto. En
consecuencia, no todas las agregaciones alcanzarán niveles de exactitud y potencia empírica

adecuados (esto es, cuyos niveles empíricos coincidan con los nominales esperados α = 0.05 y β =
0.20), sino que ello dependerá del contexto particular (numero de experimentos, sujetos, tamaños de
efecto y varianzas) en el que se realice el Meta-Análisis. En otras palabras: los resultados de un
Meta-Análisis particular no son siempre fiables (esto es, los errores tipo I o II pueden estar
inflados).
Una forma (relativamente) sencilla de solucionar la falta de exactitud de un Meta-Análisis es añadir

más experimentos al mismo, ya que se ha observado que tanto la potencia empírica como la
exactitud crecen monótonamente en función del número de experimentos y sujetos por grupo (con
la excepción del DMP en el caso de tamaños de efecto muy altos), hasta alcanzar los valores
nominales esperados. No obstante, para proceder de esta forma es necesario contar con
experimentos extra, los cuales no estarán disponibles inmediatamente (ya que, en ese caso, ya
habrían sido incorporados al Meta-Análisis). Por lo tanto, esta medida correctiva trasciende los
límites de la presente tesis y se enmarca en la realización de programas de investigación en ISE.
6.1.2.2. Actividad 4 – Evaluar la potencia empírica de las técnicas para

determinar Heterogeneidad en un Meta-Análisis
El carácter homogéneo o heterogéneo de un conjunto de experimentos se determina mediante el test
Q de Cochran. En las simulaciones realizadas, se ha detectado que el estimador Q apenas posee
potencia empírica en el contexto actual de la IS. Esto implica que, desde un punto de vista
puramente estadístico, es imposible determinar el carácter homogéneo o heterogéneo de un
conjunto de experimentos.
Es de hacer notar que algunos autores como [Takkouche, B.; Cadarso-Suarez, C.; Spiegelman, D.;
1999] [Liang, K.; Self, S.; 1985] [Jones, M.; et al.; 1989] ya habían advertido de que le método Q
carece de potencia y que la heterogeneidad estadística es un aspecto difícil de medir sobre todo con
pequeñas muestras. Las simulaciones realizadas refrendan dicha advertencia. Por ende se concluye
que no es factible medir si existe o no heterogeneidad en los Meta-Análisis que actualmente se
desarrollan en IS.

6.1.2.3. Actividad 5 – Evaluar la Exactitud y Potencia Empírica de las técnicas

de Meta-Análisis incorporando la Heterogeneidad
La agregación de un conjunto de experimentos heterogéneos debe realizase mediante una técnica de
efectos aleatorios, la cual incorpora la incertidumbre inducida por la varianza entre experimentos τ2
a la varianza dentro del experimento σ2.
Esta estrategia es la recomendada por [Borenstein, M., Hedges, L., Rothstein, H.; 2007] ya que
teóricamente si los experimentos son homogéneos los resultados de ambos enfoques deberían ser
iguales, lo cual se ha demostrado que no es cierto en el proceso de simulación.
El modelo de efectos aleatorios posee un nivel de exactitud menor al modelo de efecto fijo.
Comportando de manera similar cuando los tamaños de efecto son bajos o medios y de forma
opuesta cuando son altos o muy altos, esto es el modelo de efectos fijo pierde exactitud a medida
que el Meta-Análisis acumula mayor cantidad de sujetos, mientras que el modelo de efectos
aleatorios mejora en estas condiciones.
Pero el mayor problema de esta técnica radica en el nivel de potencia empírica alcanzado, la cual es
muy baja, aún inferior a RRNP, donde en casi todos los casos arrojó diferencias no significativas a
pesar de que el tamaño de efectos poblacional fuera muy alto.
Por lo tanto, en el caso de experimentos heterogéneos, los modelos de efectos fijos son preferibles
al modelos de efectos aleatorios, dado que la potencia empírica y la exactitud alcanzadas son
mayores que la del modelo de efectos aleatorios.
6.1.3. OBJETIVO 3: DESARROLLAR UN PROCESO DE META-ANÁLISIS

PROPIO PARA INGENIERÍA DEL SOFTWARE QUE PERMITA
DETERMINAR MEDIANTE QUE TÉCNICA AGREGAR LOS
EXPERIMENTOS IDENTIFICADOS
El contexto (numero de experimentos, sujetos, tamaños de efecto y varianzas) determina la

exactitud y potencia empírica de las técnicas de meta-análisis. En consecuencia, ciertas técnicas

(potencialmente, una sola de ellas) serán preferibles en una situación determinada. Es necesario
determinar que técnicas son las preferibles con el propósito de que el Meta-Análisis posea la mayor
exactitud posible.
6.1.3.1. Actividad 6 – Establecer criterios para determinar cuál es la mejor

técnica a aplicar en función de las características de los experimentos a
agregar
Se ha podido tabular la exactitud y potencia empírica de todas las técnicas de meta-análisis, en
diversos contextos y para los casos de experimentos homogéneos y heterogéneos. Por lo tanto, es
posible determinar qué técnica de meta-análisis posee mayor exactitud (o potencia empírica) en un
contexto determinado, simplemente acudiendo a las tablas y recuperando los valores de exactitud (o
potencia empírica) correspondientes.
Un problema que no ha podido ser resuelto es la maximización de ambos parámetros (exactitud y

potencia empírica) simultáneamente. Para ello, sería necesario hacer lo que indica la teoría
estadística, determinar el tamaño mínimo de la muestra en base a las características propias del
contexto y los niveles de error tipo I y II deseados. Este problema queda planteado como una futura
línea de investigación.
6.1.3.2. Actividad 7 – Desarrollar un procedimiento que permita a

investigadores en ISE seleccionar la técnica óptima para realizar un
Meta-Análisis
Las tablas de exactitud y potencia empírica tienen criterios de entrada bien definidos, los cuales
coinciden con los parámetros estadísticos relevantes del conjunto de experimentos a agregar (lo que
se ha venido denominando contexto). Estos parámetros pueden calcularse con bastante
aproximación (aunque no de forma exacta) de antemano. Por lo tanto es necesarios trabajar en el
construcción de un estimador de exactitud y potencia empírica para cada una de las técnicas o
ampliar las tablas de simulación para minimizar los errores de interpretación. Este problema queda
planteado como una futura línea de investigación

6.2. VALIDEZ DE LOS RESULTADOS
Los resultados obtenidos en la presente tesis se han alcanzado mediante la aplicación de dos
métodos de investigación bien definidos: a) una revisión sistemática de literatura y b) diversas
simulaciones de Monte Carlo.
a) Revisión sistemática de literatura
La revisión sistemática de literatura se ha realizado siguiendo el procedimiento recomendado por

[Kitchenham, B.; 2004]. Este procedimiento está especialmente diseñado para evitar amenazas a la
validez, en especial los sesgos inducidos por el investigador. Para ello, se toman diversas medidas,
en especial la confección de un protocolo de revisión que define los aspectos clave de la misma,
tales como: las cadenas de búsqueda, criterios de inclusión/exclusión, etc. Todas estas medidas, con
una sola excepción, se han aplicado en la presente tesis.
La única excepción consiste en que la búsqueda de estudios primarios y la aplicación de los criterios
de inclusión/exclusión han sido realizadas en exclusiva por el autor de la tesis, sin que otro colega
valide las decisiones realizadas. En estas circunstancias, es posible que se produzca un sesgo de
selección, esto es, que el autor haya dado preferencia a ciertos trabajos en detrimento de otros y ello
altere los resultados de la revisión sistemática.
No obstante, incluso trabajando aisladamente, la probabilidad de que el tesista haya provocado un

sesgo de selección es muy reducida. En primer lugar, el tesista no posee una agenda particular en lo
que respecta a la investigación en meta-análisis, ya que no es autor ni patrocina ninguna de las
técnicas estudiadas. Tampoco ha propuesto técnicas alternativas. Adicionalmente, en los foros en
los que se han publicado los distintos artículos derivados de esta tesis, nunca ha surgido la
existencia de técnicas distintas a las tratadas en esta tesis. Todo ello habla en contra de la existencia
de sesgo de selección.

b) Simulación de Monte Carlo
Como metodología de investigación, la simulación de Monte Carlo es un procedimiento

sólidamente establecido que proporciona soluciones aproximadas a una gran variedad de problemas.
Adicionalmente, la Ley de Grandes Números permite establece una cota de error a los resultados de
una simulación. Esta cota depende del problema particular a resolver, pero en general su magnitud
es proporcional a , siendo n la cantidad de muestreos realizados [Metropolis, N.; Ulam, S.; 1949].
En otras palabras: a medida que el número de muestreos se incrementa, la precisión de la

simulación aumenta en consecuencia. Con 300 muestreos se alcanza una precisión razonable
[Morales Vallejo, P.; 2011]. En el caso de esta tesis, en cada simulación se han realizado 1,000
muestreos, los cuales aseguran la validez de los resultados obtenidos.
La única amenaza a la validez surge del proceso de generación de números aleatorios. Si el

generador es muy pobre (esto es, los números aleatorios generados no son independientes),
entonces los resultados pueden ser puestos en entredicho. Para las simulaciones realizadas en esta
tesis, se ha usado el generador de números aleatorios basado en una tabla [García, R.; 2004].
En opinión del tesista, lo ideal sería que las simulaciones realizadas fuesen replicadas por grupos
independientes, con la finalidad de comprobar la precisión de los resultados obtenidos. A este
respecto, se han establecido contactos con el Grupo de Ingeniería del Software Experimental de la
Universidad Federal de Rio de Janeiro, liderado por el Dr. Guilherme Travassos, para la realización
de dichas replicaciones.
6.3. IMPLICACIONES PARA LA INVESTIGACIÓN
Si bien se ha logrado generar un proceso de agregación acorde a las características del contexto
experimental de la IS y de las propiedades que las técnicas de Meta-Análisis presentan, es
importante destacar que el tema no acaba aquí, se requiere que desde la estadística surjan nuevas

aportaciones que incorporen nuevas técnicas y métodos de trabajo acorde para el tratamiento de
pequeñas muestras.
6.4. IMPLICACIONES PARA LA PRÁCTICA
El proceso de agregación desarrollado posee dos ventajas principales, por un lado permite tener en
cuenta todas las evidencias empíricas identificadas, dado que incluye técnicas de agregación con
diferentes niveles de restricción, y por otro asocia a cada resultado un nivel de exactitud y potencia
empírica, permitiendo de esta forma quedarse con el mejor resultado. Este resultado no
necesariamente será el vinculado al grupo que mas experimentos posea o al vinculado al que sea
tratado por una técnica paramétrica, sino que busca un equilibro entre ambos aspectos para definir
así la mejor evidencia disponible.
El proceso desarrollado logra un equilibrio entre la cantidad de evidencia identificadas y la robustez

de las técnicas de agregación para que la Ingeniería del Software pueda desarrollar así piezas de
conocimiento validadas empíricamente.
De esta forma se puede lograr hacer Meta-Análisis de manera confiable.

CONCLUSIONES Y FUTURAS LINEAS DE INVESTIGACION PROCESO DE AGREGACIÓN PARA ESTUDIOS EXPERIMENTALES EN INGENIERIA DEL SOFTWARE
7. CONCLUSIONES Y FUTURAS LINEAS DE

INVESTIGACION
En este capítulo se presentan las contribuciones de esta tesis a la comunidad científica en Ingeniería
del Software (sección 7.1); se analizan futuros trabajos ampliatorios al presente trabajo (sección
7.2).
7.1. CONTRIBUCIONES DEL TRABAJO
Esta tesis, además de contestar de forma detallada a las preguntas de investigación planteadas (las
cuales se han discutido extensivamente en la sección anterior), realiza tres contribuciones
sustanciales a la ISE:
1. Por lo que se ha podido averiguar, se ha puesto de manifiesto por primera vez en el ámbito
de la ISE los efectos de las pequeñas muestras, esto es, la desviación de los valores
empíricos de los errores α y β desde sus valores nominales. Estas desviaciones se han
demostrado para las técnicas de meta-análisis, pero podrían existir igualmente para otros
tipos de test (por ejemplo: ANOVA) y podrían inducir cuestiones similares a las planteadas
en la presente tesis (por ejemplo: priorización de los tests estadísticos).
2. Hasta el presente, los experimentos con defectos de reporte no podían ser agregados
mediante meta-análisis y, por lo tanto, no podían contribuir a la creación de un cuerpo de
conocimientos en IS. La identificación de métodos de análisis alternativos al DMP y
tolerantes a defectos de reporte permite un mejor aprovechamiento del conjunto de
experimentos disponibles actualmente.

3. La decisión acerca de aplicar en la práctica una u otra técnica de meta-análisis (hasta el

momento, el DMP de efectos fijos o aleatorios) se basaban tradicionalmente en criterios mal
definidos (por ejemplo: la suposición de la existencia de un efecto fijo δ común a todos los
experimentos), que propiciaban una interpretación subjetiva de los mismos. En esta tesis, se
han establecido criterios objetivos basados en los errores empíricos α y β para la selección
de la técnica óptima de meta-análisis a aplicar, aunque ello no es privativo (de hecho, es
algo alentado por el autor) para la incorporación de nuevos criterios en futuros trabajos de
investigación.
Por último, y de forma no completamente marginal, es interesante indicar que el DMP de efectos
aleatorios es el procedimiento recomendado por diversos autores (por ejemplo: [Schmidt, F.;
Hunter, J.; 2003]) e instituciones (por ejemplo: [Cochrane; 2012]) para la realización de meta-
análisis. La razón de esta recomendación es la imposibilidad práctica de que un conjunto de
experimentos comparta el mismo tamaño de efecto δ, ya que siempre existirán aspectos (por
ejemplo: diseño experimental, fiabilidad de las medidas, etc.) que alteren dicho valor δ (lo que a si
vez justifica el uso de modelos de efectos aleatorios). Sin embargo, en esta tesis, hemos podido
demostrar (tal y como autores como [Borenstein, M., Hedges, L., Rothstein, H.; 2007] sugieren) que
la imprecisión en la determinación de la varianza entre estudios τ2 en contextos de pequeñas
muestras producen que el DMP de efectos fijos no posea apenas potencia empírica, lo que implica
que otras técnicas de meta-análisis (por ejemplo: DMP de efectos fijos) puedan ser preferibles.
7.2. FUTURAS LÍNEAS DE INVESTIGACIÓN
La presente tesis ha mostrado varios caminos por los que proseguir la investigación, aunque dos de
ellos merecen especial atención:
a) Estudiar el modo más efectivo para analizar pequeñas muestras en ISE
Las pequeñas muestras utilizadas con frecuencia en los experimentos de ISE se consideran como
una amenaza a la validez, en lugar de como una característica propia de la ISE que es necesario
abordar utilizando las herramientas adecuadas.

Cuando un experimento utiliza pocos sujetos, lo más habitual es que: 1) se señale la no normalidad
de la muestra (como se indica en [García, R.; 2004]) y 2) se utilicen procedimientos no
paramétricos (por ejemplo: Mann-Whitney) para realizar las pruebas de inferencia (como se indica
en [García, R.; 2004]). Lo primero es totalmente incorrecto (se trata de una confusión bastante
habitual entre la distribución de la población base y la Ley de Grandes Números). Lo segundo es
completamente correcto pero, cuando la población base es normal, supone un desperdicio de los
datos obtenidos en el experimento, ya que el poder estadístico de los tests no paramétricos es
reducido por norma general [García, R.; 2004].
Una aproximación más adecuada, en opinión del autor, sería reconocer la imposibilidad práctica de
obtener muestras más amplias y, en consecuencia, aplicar las herramientas más efectivas para
obtener el máximo rendimiento de los datos. Así, por ejemplo, si se sabe (o supone con un grado
razonable de certidumbre) que la población es normal, en lugar de un test no paramétrico podrías
aplicarse un test t, el cual es robusto y diseñado precisamente para pequeñas muestras [Good, P.;
Hardin, J. ; 2006]. Si se ignora la distribución de la población base, una estimación de las medianas
(en lugar de las medias) utilizando bootstrapping podría ser igualmente efectiva.
En consecuencia, el estudio de las características de las pequeñas muestras, su uso en ISE y los
mecanismos más adecuados de análisis constituye una prometedora futura línea de investigación.
b) Establecer procedimientos de decisión más efectivos en ISE
Los tests de hipótesis acostumbran a utilizarse de forma acrítica en ISE. En prácticamente todos los
casos, el nivel de significación α se fija siempre al mismo nivel (5%, o incluso inferior), y cualquier
criterio de decisión utilizado se restringe a aceptar o rechazar la hipótesis nula.
En la presente tesis, se ha tenido la oportunidad de observar que los errores tipo I (α) y II (β) no son
entes inamovibles, sino que sus valores dependen del contexto. Y así como dependen del contexto,
también pueden depender de la conveniencia.
La razón por la cual α acostumbra a tener un valor del 5% es muy sencilla: todos nosotros
intentamos desarrollar nuevos métodos y técnicas que hagan más eficiente el desarrollo del

software. No obstante, necesitamos demostrar que dichos métodos y técnicas son efectivamente
mejores, ya que en caso contrario podríamos inducir a la comunidad del software a realizar un
cambio innecesario que solo generaría gastos. Por este motivo, cuando el test estadístico utilizado
arroja que la hipótesis alternativa H1 es cierta (esto es, la técnica bajo estudio es mejor), la
posibilidad de cometer un error debería ser lo menor posible (por ello α se fija en un valor igual o
menor del 5%).
Ahora bien; cuando los efectos involucrados son pequeños, o los tamaños muestrales reducidos, el
poder estadístico de los tests es también reducido. En estas circunstancias, es difícil rechazar la
hipótesis nula H0, lo que puede producir que se abandonen muchas investigaciones prometedoras al
confiar demasiado en el carácter significativo/no-significativo de los resultados del test.
Una alternativa que podría ser útil para la investigación en ISE es que, en lugar de establecer el
nivel α = 0.05, se utilizasen niveles superiores α = 0.10 o incluso α = 0.20. Esto provocaría que el
poder estadístico aumentara y por lo tanto el test fuese más sensible ante desviaciones de la
normalidad o la existencia de pequeños efectos. No obstante, un error de tipo I del 10% o 20% es
inaceptable en la mayoría de las circunstancias, por lo que esta manera de proceder no puede
utilizarse de forma general: debe protocolizarse adecuadamente para que la investigación en ISE sea
fiable (por ejemplo, estableciendo secuencias de ensayos con errores tipo I progresivamente
menores [Good, P.; Hardin, J. ; 2006]). En opinión del autor, esta segunda línea de investigación
puede resultar de la máxima relevancia en ISE.

REFERENCIAS PROCESO DE AGREGACIÓN PARA ESTUDIOS EXPERIMENTALES EN INGENIERIA DEL SOFTWARE
8. REFERENCIAS
En esta sección se presentan las referencias bibliográficas citadas a lo largo del documento de tesis.
Arulambalam, a.; Chen, X; 1996; Llocating Fair Rates for Available Bit Rate Service in ATM
Networks; IEEE Communications. Vol.34, No.11, pp.92-100.
Bailey, J.; Basili, V.; 1981; A Meta-Model for Software Development Resource Expenditures; IEEE
Press; 107-116
Basili, V.; Weiss, D.; 1981; Evaluation of a Software Requirements Document by Analysis of
Change Data; IEEE Press; 314-323
Borenstein, M.; Hedges, L.; Rothstein, H.; 2007; Meta-Analysis Fixed Effect vs. random effect;
http://www.meta-
analysis.com/downloads/Meta%20Analysis%20Fixed%20vs%20Random%20effects.pdf.
Brassard, G.; Bratley, P.; 1988; Algorithmics: Theory and Practice; Prentice-Hall
Burton, A.; Shadbolt, N.; Hedgecock, A.; Rugg, G.; 1988; A Formal Evaluation of Knowledge
Elicitation Techniques for Expert Systems: Domain 1. Proceedings of Expert Systems '87
on Research and Development in Expert Systems IV. Pág. 136-145.

Burton, A.; Shadbolt, N.; Rugg, G.; Hedgecock, A.; 1990. The Efficacy of Knowledge Elicitation
Techniques: A Comparison Across Domains and Level of Expertise. Knowledge
Acquisition 2(2): 167-178.
Cabrero García, L.; Richart Martínez, M.; 1996; El debate investigación cualitativa frente a
investigación cuantitativa Enfermería clínica; 6: 212-217.
Chalmers I.; Hedges L.; Cooper H.; 2002; A brief history of research synthesis; Eval Health Prof
March;25(1):12–37.
Ciolkowski, M.; 2009; What do we know about perspective-based reading? An approach for
quantitative aggregation in software engineering; 3rd International Symposium on
Empirical Software Engineering and Measurement, pp. 133-144.
Cochran, W.; 1954; The combination of estimates from different experiments; Biometrics, 10, 101–
129.
Cochrane collaboration; 2011; Open learning material; http://www.cochrane-

net.org/openlearning/html/mod0.htm; disponible al 26 de agosto de 2012.
Cohen, J.; 1988; Statistical Power Analysis for the Behavioral Sciences (2nd ed.); ISBN 0-8058-
0283-5.
Cooper, H.; Hedges, L.; 1994; The Handbook of Research Synthesis; Russell Sage Foundation: New
Cork, NY.
Corbridge, C.; Rugg, G.; Major, P.; Shadbolt, N.; Burton, A.; 1994; Laddering: Technical and Tool
in Knowledge Acquisition; Department of Psychology; University of Nottingham.
Cruzes, D.; Dybå, T.; 2010; Synthesizing evidence in software engineering research; Proceedings of
ACM-IEEE International Symposium on Empirical Software Engineering and
Measurement.

Davies, P.; 1999; What is evidence-based education?; British Journal of Educational Studies; 47:
108-121.
Davis,D.; Holt C.; 1992; Experimental Economics; Princeton University Press
Davis, A.; Dieste O.; Hickey, A.; Juristo, N.; Moreno, A.; 2006; Effectiveness of Requirements
Elicitation Techniques: Empirical Results Derived from a Systematic Review; 14th IEEE
International Requirements Engineering Conference (RE'06) pp. 179-188
DerSimonian R.; Laird N.; 1986; Meta-analysis in clinical trials; Control Clin Trials; 7: 177-88.
Dieste,O.; Griman,A.; 2007; Developing Search Strategies for Detecting Relevant Experiments for
Systematic Reviews; IEEE Press
Dieste, O.; Juristo, N.; 2009; Systematic Review and Aggregation of Empirical Studies on
Elicitation Techniques; IEEE Transactions on Software Engineering, TSE-2009-03-0052;
http://main.grise.upm.es/reme/publicaciones_download.aspx?type=REV&id=64
Dixon-Woods, M.; Agarwal, S.; Jones, D.; Young, B.; Sutton, A.; 2005; Synthesising qualitative
and quantitative evidence: a review of possible methods; Journal of Health Services
Research and Policy, 10, 1, 45-53B(9)
Dyba, T.; Aricholm, E.; Sjoberg, D.; Hannay J.; Shull, F.; 2007; Are two heads better than one? On
the effectiveness of pair programming. IEEE Software;12-15.
Dyba, T.; Kampenes, V.; Sjoberg, D.; 2006; A systematic review of statistical power in software
engineering experiments; Information and Software Technology; vol. 48, ejemplar 8,
página 745-755
El Emam, K.; Laitenberger, O.; 2001; Evaluating Capture-Recapture Models with Two Inspectors; IEEE
Transaction on Software Engineering; 27(9): 851-864.
Everitt, B.; 2003; The Cambridge Dictionary of Statistics; CUP; ISBN: 0-521-81099-x

Fenton, N.; Pfleeger, S.; 1997; Software metrics. A rigurous and practical approachFuente;PWS
Publishing Company
Friedrich, J.; Adhikari, N.; Beyene, J.; 2008; The ratio of means method as an alternative to mean
differences for analyzing continuous outcome variables in meta-analysis: A simulation
study; BMC Medical Research Methodology
García, R.; 2004; Inferencia Estadística y Diseño de Experimentos; eudeba; Buenos Aires
Argentina
Gavaghan D.; Moore A.; McQay H.; 2000; An evaluation of homogeneity tests in meta-analysis in
pain using simulations of patient data; Pain, vol. 85, pp. 415-424.
Glass, G.; 1976; Primary, secondary, and meta-analysis of research; Educational Researcher 5: 3-8
Glass, G.; 2000; Meta-analysis at 25; http://glass.ed.asu.edu/gene/papers/meta25.html
Good, P.; Hardin, J.; 2006; Common Errors in Statistics (and How to Avoid Them); second edition;
wiley & Sons; ISBN-13: 978-0-471-79431-8.
Goodman, C.; 1996; Literature Searching and Evidence Interpretation for Assessing Health Care
Practices; SBU; Stockholm.
Graham, J.; Schafer, J.; 1999; On the Performance of Multiple Imputation for Multivariate Data
With Small Sample Size; v-29, Sage PublicationsCarpetas
Gurevitch, J.; Hedges, L.; 2001; Meta-analysis: Combining results of independent experiments;
Design and Analysis of Ecological Experiments (eds S.M. Scheiner and J. Gurevitch), pp.
347–369; Oxford University Press, Oxford.
Hedges, L.; 1982; Fitting categorical model to effect size from a series of experiments; journal
educational statistics; 7; 119-137.
Hedges, L.; 1993; Statistical Considerations; Russell Sage Foundation; First edition

Hedges, L.; Gurevitch, J.; Curtis, P.; 1999; The Meta-Analysis of Response Ratio in Experimental
Ecology; The Ecological Society of America
Hedges, L.; Olkin, I.; 1985; Statistical methods for meta-analysis. Academic Press
Higgins J.; Green S.; 2011; Cochrane Handbook for Systematic Reviews of Interventions Version
5.1.0; The Cochrane Collaboration
Higgins, J.; Thompson S.; 2002; Quantifying heterogeneity in a meta-analysis; Statistics in

Medicine, vol. 21, pp. 1539-1558
Hoyle, R.; 1999; Preface; v-vii, Sage Publications
Hunt, M.; 1997; How Science takes stock: the story of meta-analysis; Russell Sage Foundation:
New York
Hunter, J.; Schmidt, F.; 2004; Methods of meta-analysis: correcting error and bias in research
findings; Sage Publications
Ioannidis, J.; Patsopoulos, N.; Evangelou, E.; 2007; Uncertainty in heterogeneity estimates in meta-
analyses; BMJ, 335 : 914 doi: 10.1136/bmj.39343.408449.80
Jones, M.; O'Gorman, T.; Lemke, J.; Woolson, R.; 1989; A Monte Carlo Investigation of
Homogeneity Tests of the Odds Ratio under Various Sample Size Configurations;
Biometrics, Vol. 45, No. 1
Jørgensen, M.; 2004; A Review of Studies on Expert Estimation of Software Development Effort;
Journal of Systems and Software; (70): 1-2, pp. 37-60.
Judd, C.; Smith E.; Kidder, L.; 1991; Research Methods in Social Relations; Hartcourt Brace
Jovanovich College Publishers, Orlando, Florida
Juristo, N., Moreno A.; 2001; Basics of Software Engineering Experimentation. Boston: Kluwer
Academic Publisher.

Juristo, N., Moreno, A.: 2002; Reliable Knowledge for Software Development; IEEE Software
19(5):98-99.
Juristo, N.; Moreno, A.; Vegas, S.; 2004; Towards building a solid empirical body of knowledge in
testing techniques; Acm Sigsoft Software Engineering Notes (Sigsoft) 29(5):1-4
Juristo, N.; Vegas, S.; 2011; The Role of Non-Exact Replications in Software Engineering
Experiments; Journal: Empirical Software Engineering
Kampenes, V.; Dyba, T.; Hannay J.; Sjøberg, D.; 2007; A systematic review of effect size in
software engineering experiments; Information and Software Technology 49 1073–1086
Kitchenham, B.; 2004; Procedures for performing systematic reviews. Keele University; TR/SE-
0401. Keele University Technical Report.
Laitenberger, O.; Atkinson, C.; Schlich, M.; El Emam, K.; 2000; An experimental comparison of
reading techniques for defect detection in UML design documents; J.Syst.Software; 53, 2,
183-204
Laitenberger, O.; Rombach, D.; 2003; (Quasi-)Experimental Studies in Industrial Settings; World
Scientific
Lajeunesse, M.; Forbes, M.; 2003; Variable reporting and quantitative reviews: a comparison of
three meta-analytical techniques. Ecology Letters, 6: 448-454.
Liang, K.; Self, S.; 1985; Tests for Homogeneity of Odds Ratio When the Data are Sparse;
Biometrika; Vol. 72, No. 2
Lipsitz S.; Dear K.; Laird N.; Molenberghs, G.; 1998; Tests for homogeneity of the risk difference
when data are sparse; Biometrics, vol. 54, pp. 148-160.
Meta-Analysis 2011; dispoible en http://www.meta-analysis.com/

Metropolis, N.; Ulam, S.; 1949; The Monte Carlo Method; Journal of the American Statistical
Association; 44(247): 335-341.
Miguez, E.; Bollero, G.; 2005; Review of Corn Yield Response under winter cover cropping systems
using Meta-Analytic Methods; Crop Science Society of America
Miller, J.; 1999; Can Results from Software Engineering Experiments be Safely Combined?; IEEE
METRICS, 152-158
Miller, J.; 2000; Meta-analytical Procedures to Software Engineering Experiments; Journal of

Systems and Software; 54, 1, 29-39
Mix; 2011; disponible en http://www.mix-for-meta-analysis.info/
Mohagheghi, P.; Conradi, R.; 2004; Vote-Counting for Combining Quantitative Evidence from
Empirical Studies - An Example. Proceedings of the International Symposium on Empirical
Software Engineering (ISESE'04).
Morales Vallejo, P.; 2011; Tamaño necesario de la muestra ¿Cuántos sujetos necesitamos?;
disponible en: www.upcomillas.es/personal/peter/investigacion/TamañoMuestra.pdf, al 26
de agosto de 2012
Myers,D.; Lamm,H.; 1975; The polarizing effect of group discussion; American Scientist, 63, 297-
303
Navarro, F.; Giribet, C.; Aguinaga, E.; 1999; Psiquiatría basada en la evidencia: Ventajas y
limitaciones; Psiquiatría Biológica; 6: 77-85.
Pearson, K.; 1904; Report on certain enteric fever inoculation statistics; BMJ 3:1243-1246.
Petrosino, A.; Boruch, R.; Soydan, H.; Duggan, L.; Sánchez-Meca, J.; 2001; Meeting the challenges
of Evidence-Based Policy: The Campbell Collaboration; Annals of the American
Academy of Political & Social Science; 578: 14-34.

Pfleeger, S.;1999; Albert Einstein and Empirical Software Engineering; Computer; 32-37.
Reichart, C.; Cook, T.; 1986; Hacia una superación del enfrentamiento entre los métodos
cualitativos y cuantitativos; En: Cook TD, Reichart ChR (ed). Métodos cualitativos y
cuantitativos en investigación evaluativa. Madrid: Morata.
Richy, F.; Ethgen, O.; Bruyere, O.; Deceulaer, F.; Reginster, J.; 2004; From Sample Size to Effect-Size:
Small Study Effect Investigation (SSEi); The Internet Journal of Epidemiology, 1, 2
Rogers, D.; 2006; Fifty years of Monte Carlo simulations for medical physics; Physics in Medicine and
Biology; 51: R287-R301
Sabaliauskaite, G.; Kusumoto, S.; Inoue, K.; 2004; Assessing defect detection performance of
interacting teams in object-oriented design inspection; Information and Software
Technology 46 (2004) 875–886; Available online at: www.sciencedirect.com
Sabaliauskaite, G.; Matsukawa, F.; Kusumoto, S.; Inoue, K.; 2002; An experimental comparison of
checklist-based reading and perspective-based reading for UML design document
inspection; Empirical Software Engineering; 148-157
Sackett, D.; Wennberg, J.; 1997; Choosing the best research design for each question; BMJ, 315:
1636
Sanchez-Meca, J.; Botella, J.; 2010; Revisiones Sistemáticas y Meta-Análisis: Herramientas Para
La práctica Profesional; Papeles del Psicólogo, Vol. 31, Núm. 1, pp. 7-17
Sánchez-Meca, J.; Marín-Martínez, F.; 1998; Testing continuous moderators in meta-analysis: A

comparison of procedures; British Journal of Mathematical and Statistical Psychology;
51:311–26.
Sawilowsky, S.; Fahoome, G.; 2002; Statistics Through Monte Carlo Simulation with Fortran; ed:
JMASM.

Schweickert, R.; Burton, A.; Taylor, N.; Corlett, E.; Shadbolt, N.; Rugg, G.; Hedgecock, A.; 1987;
Comparing Knowledge Elicitation Techniques: A Case Study; Artificial Intelligence
Review (1): 245-253.
Schmidt, F.; Hunter, J.; 2003; Handbook of Psychology, Research Methods in Psychology; Chapter
21, “Meta-Analisis”; Schinka, J., Velicer, W., Weiner, I. Editors, Volume 2
Sidhu, D.; Leung, T.; 1989; Formal Methods for Protocol Testing: A Detail Study; IEEE Transaction on
Software Engineering; 15(4): 413-426.
Sjoberg, D.; 2005; A survey of controlled Experiments in Software Engineering; IEEE Transactions
on Software Engineering; Vol 31 Nro. 9.
Song, F.; Sheldon, T.; Sutton, A.; Abrams, K.; Jones, D.; 2001; Methods for Exploring
Heterogeneity in Meta-Analysis; Evaluation and The Health professions, vol. 24 no. 2, pp.
126-151.
Strain, D.; Lee, J.; 1984; Variance Component Testing in the Longitudinal Mixed Effects Model;
Biometrics, vol. 50, pp. 1171-1177.
Takkouche, B.; Cadarso-Suarez, C.; Spiegelman, D.; 1999; Evaluation of old and new tests of
heterogeneity in epidemiologic meta-analysis; Am. J. Epidemiol; 150, 206–215; PubMed
ChemPort
Thalheimer W.; Cook S.; 2002; How to calculate effect sizes from published research: A simplified
methodology; A Work-Learning Research Publication.
Tichy, W.; 1971; Should computer scientists experiment more?; IEEE Computer, vol. 31, ej. 5, pag.
32-40
Tichy, W.; 1998; Should Computer Scientists Experiment More?; IEEE Computer; vol. 31, ej. 5,
pag. 32-40

Vander Wiel, S.; Votta, L.; 1993; Assessing Software Design Using Capture-Recapture Methods; IEEE
Transaction on Software Engineering, 19(11): 1045-1054.
Weinberg, G.; 1971; The Psychology of Computer Programming; Van Nostrand Reinhold, New
York
Wohlin,C.; Runeson,P.; Hˆst,M.; Ohlsson,M.C.; Regnell,B.; WesslÈn,A.; 2000; Experimentation in

Software engineering: An Introduction; International Series in Software Engineering; id:
29; Record: 5370; Volume: 6

ANEXO A PROCESO DE AGREGACIÓN PARA ESTUDIOS EXPERIMENTALES EN INGENIERIA DEL SOFTWARE
ANEXO A – CONCEPTO DE HETEROGENEIDAD

Un conjunto de replicaciones experimentales que analizan un par de tratamientos siempre arrojaran
resultados diferentes debido al error aleatorio [Hunter, J.; Schmidt, F.; 2004]. Ello se debe a los
múltiples aspectos de un experimento (población, training, duración, etc.) que no pueden ser ni
aleatorizados ni bloqueados con total satisfacción. Además del azar, que se produce en todas las
situaciones, en algunos casos las diferencias entre replicaciones experimentales se deben a algún
motivo sistemático. Los motivos sistemáticos típicos son la presencia de variables moderadoras y
las variaciones en el diseño y ejecución experimentales.
Un conjunto de experimentos es homogéneo si las diferencias entre los resultados de los estudios se
deben a un error aleatorio propio de la experimentación y no a un efecto producido por algún factor
externo no controlado que está introduciendo ruido en el resultado final [Hunter, J.; Schmidt, F.;
2004].
La heterogeneidad puede apreciarse en un forest plot, gráfico con el que habitualmente se presentan
los resultados del Meta-Análisis. Un forest plot representa los tamaños de efectos de los
experimentos incluidos en un meta-análisis, así como el tamaño de efecto global, juntamente con
sus respectivos intervalos de confianza [Sjoberg, D.; 2005]. En las figuras 1 y 2 se presentan
ejemplos de forest plots (homogéneos y heterogéneos, respectivamente).

Figura B.1: Forest plot de un conjunto de estudios homogéneo
Cuando los experimentos incluidos en un meta-análisis son homogéneos, los intervalos de

confianza de los mismos tienden a solaparse entre sí; esto es, los experimentos arrojan resultados
muy parecidos entre sí, tanto en lo que respecta a la estimación del tamaño de efecto (en todos los
experimentos de la figura B.1, el tamaño de efecto es próximo a 0,3) como a la incertidumbre de la
estimación (el intervalo de confianza).
Figura B.2: Forest plot de un conjunto de estudios heterogéneo
Por el contrario, cuando algún experimento no se solapa con los intervalos de confianza de los otros
experimentos, nos encontramos en un escenario completamente distinto. A modo de ejemplo,
considérese el experimento 2 en la figura 2. El efecto reportado en dicho experimento es 0,8, muy
alejado del 0,3 de los restantes experimentos. El intervalo de confianza del experimento 2 está
centrado en 0,8, pero muy alejado de los restantes intervalos de confianza. Es por lo tanto bastante
probable que el experimento 2 sea “distinto” que los demás, ya sea por azar o, dada la enorme

diferencia con los restantes experimentos y el estrecho intervalo de confianza que posee (lo que
denota precisión), debido a algún motivo sistemático.
Aunque el examen visual de un forest plot permite vislumbrar la presencia de heterogeneidad, los
estudios realizados en otras disciplinas desaconsejan su uso [Ioannidis, J.; Patsopoulos, N.;
Evangelou, E.; 2007], ya que se ha comprobado que el resultado de una inspección visual dependen
en gran medida de la opinión subjetiva del investigador que la aplica [Ioannidis, J.; Patsopoulos, N.;
Evangelou, E.; 2007]. Para determinar el carácter homogéneo o heterogéneo de un conjunto de
estudios, es preferible emplear tests estadísticos de heterogeneidad.
El método más conocido y ampliamente usado para determinar la heterogeneidad de un conjunto de

estudios es el test Q propuesto por [DerSimonian, R.; Laird, N.; 1986] el cual se basa en el test
desarrollado por Cochrane [Cochran, W.; 1954]. Este test es recomendado por cuestiones de validez
y sencillez computacional, así como por su independencia de la métrica de efecto (effect size, odds
ratios, etc.) [Higgins J.; Green S.; 2011]. La expresión analítica del test Q se muestra en la ecuación
B.1.
2
K: Número de estudios
⎛ k ⎞
⎜ ∑ wi Ei ⎟ k: Número de estudios
( )
k k
⎝ ⎠ = w E −E 2
QT = ∑ wi Ei −
2 i =1
k ∑ i i wi: Peso del estudio i B.1
i =1
∑ wi
i =1
i =1
Ei : Efecto del estudio i
E: Efecto global
El test Q posee una distribución χ2 con (k–1) grados de libertad. Q puede utilizarse de dos formas
distintas. En su vertiente más simple, un resultado significativo del test Q denota la presencia de
heterogeneidad. Q también puede utilizarse para calcular la varianza entre estudios τ2. Ambos
hechos están profundamente interrelacionados, aunque en este trabajo nos centraremos en el
primero de los casos. El nivel de significación habitual es α = 0.05, aunque algunos autores
recomiendan utilizar α = 0.1 para aumentar la potencia del test [Schmidt, F.; Hunter, J.; 2003].
Existen otros test estadísticos para estudiar la heterogeneidad de un conjunto de experimentos, tales
como Z2k [Lipsitz, S.; et al.; 1998] o LTR [Strain, D.; Lee, J.; 1984]. No obstante, dichos métodos
han sido poco utilizados por el momento y nunca han sido usados en SE. Aunque algunos de estos

métodos son prometedores [Jones, M.; et al.; 1989], parece prematuro abordar dichos tests en el
presente trabajo.
Asimismo, existen formulaciones alternativas de Q, tales como el conocido I2 [Gavaghan, D.;

Moore, A.; McQay, H.; 2000]. I2 es muy popular ya que es más fácilmente interpretable que Q. Sin
embargo sufre en general de los mismos problemas que el test Q del cual se deriva [Higgins, J.;
Thompson S.; 2002], por lo que no trata aquí.

ANEXO B PROCESO DE AGREGACIÓN PARA ESTUDIOS EXPERIMENTALES EN INGENIERIA DEL SOFTWARE
ANEXO B – ERROR EXPERIMENTAL

Cualquier test de hipótesis está sometido a dos tipos de errores [Cohen, 1988]: α, o error de tipo I, y
β, o error de tipo II. Tal y como indica la tabla C.1, α es el error asociado a aceptar la hipótesis
alternativa (H1) cuando en la población se verifica la hipótesis nula (H0); y β es la probabilidad
asociada al evento justamente inverso.
Hipótesis que se verifica en la población

H0 H1
H0 Resultado correcto Error tipo II (con probabilidad β)
Respuesta del H1 Error Tipo I (con Resultado correcto
experimento probabilidad α)
Tabla C.1: Tipos de Errores de un Test Estadístico
Los errores de α y β se producen por la incertidumbre asociada a estimar un parámetro de un

experimento (por ejemplo, el tamaño de efecto) a partir de los datos recabados mediante una
muestra relativamente reducida de sujetos experimentales. Tómese como ejemplo el esquema
planteado en la figura C.1. Este esquema representa un experimento donde se ensayan dos
tratamientos cuales quiera y cuyo parámetro de interés es el tamaño de efecto (esto es: diferencia
entre tratamientos).

Figura C.1: Origen de los errores α y β
El tamaño de efecto real, aunque desconocido, es d > 0. La hipótesis experimentales son:
H0: d = 0
H1: d > 0
Supongamos que, tras ejecutar el experimento, se obtiene que el valor empírico del tamaño de
efecto es d. Dado que d no alcanza la región crítica (α, marcada en verde) para rechazar H0, se
acepta la hipótesis nula. Esto ocurre siempre que se encuentre en la región roja. El área de esta
región es lo que determina la probabilidad de error tipo II (β).
El resultado contrario (aceptar H0 cuando H1 es cierta) se razona de modo análogo. No obstante, en

la práctica α posee un valor fijo (típicamente 5%) que es fijado de antemano por el investigador,
dejando que β flote más o menos libremente, dependiendo de las circunstancias. Más
concretamente, la magnitud de los errores α y β dependen de tres factores [García, R.; 2004]:
1. El valor del parámetro a estimar (por ejemplo d)

2. El tamaño muestral N (esto es, el número de sujetos experimentales involucrados)
3. El tipo particular de test aplicado
Los errores α y β son inversamente proporcionales al valor del parámetro d y tamaño muestra N.
Esto es lógico ya que, a medida que d aumenta, la separación entre las curvas H0 y H1 aumenta,

disminuyendo de esta forma el área β (supóngase que α está fijo al 5%, aunque no es realmente
necesario, tarde o temprano, el tamaño de α deberá disminuir igualmente). N está relacionado con la
anchura de las curvas (esto es, la varianza). A medida que aumente N, la anchura de las curvas
disminuye, produciendo el mismo efecto de achique de las áreas α y β.
Sin embargo, en lo que respecta a la presente tesis, la clave está en el tipo de test utilizado. En la
figura C.1 puede apreciarse fácilmente que las curvas H0 y H1 son normales. Es uso de curvas
normales es muy frecuente en estadística debido a la ley de los grandes números, que afirma en
esencia que, cuando N es grande, la distribución de muchos parámetros (entre ellos el tamaño de
efecto d) se aproxima a una distribución normal. De hecho, todas las técnicas de Meta-Análisis
(DMP, RRP, RRNP y CVE) emplean aproximaciones normales.
El problema surge cuando N no es tan grande como la ley de los grandes números exige, esto es,
cuando los experimentos utilizan pequeñas muestras. No está claro que es una pequeña muestra.
Algunos autores indican 30 sujetos, otros 50, etc. [Morales Vallejo, P.; 2011]. En cualquier caso,
ambos valores son superiores a los empleados, en muchos casos, en ISE hoy día.
En un contexto de pequeñas muestras, las aproximaciones normales reflejan pobremente la

distribución real del test utilizado. Un ejemplo ficticio se muestra en la figura C.2 (exagerando
notablemente las diferencias). Sin embargo, en lo que a esta tesis respecta lo que importa no es la
diferencia en la forma, sino el impacto de la distribución real en los errores α y β.
Figura C.2: Distorsión producida por una pequeña muestra en la distribución
Las distribuciones basadas en pequeñas muestras poseen colas (esto es, extremos en la distribución)
más pesadas (esto es, de mayor amplitud) que la distribución normal. A modo de ejemplo, véase de

nuevo la figura C.2. El área α (en rojo) por debajo de la curva normal es notoriamente más pequeña
que el área α1 (verde) por debajo de la distribución real.
En consecuencia es perfectamente posible que el error tipo I de un test, en un contexto de pequeñas

muestras como ocurre en ISE, sea igual a un valor α nominal (por ejemplo 5%), mientras que el
valor α1 real sea netamente mayor. Debido a la relación que existe entre α y β, la magnitud real β1
del error tipo II puede diferir igualmente.

ANEXO C PROCESO DE AGREGACIÓN PARA ESTUDIOS EXPERIMENTALES EN INGENIERIA DEL SOFTWARE
ANEXO C – IDENTIFICACION DE TECNICAS

ALTERNATIVAS DE META-ANALISIS
La identificación de técnicas de Meta-Análisis alternativas a DMP se ha realizado mediante una
Revisión Sistemática de Literatura (RSL), siguiendo el procedimiento establecido por [Kitchenham,
B.; 2004].
C.1. PROTOCOLO DE REVISIÓN
C.1.1. PREGUNTA DE INVESTIGACIÓN
PI: ¿Que técnicas de Meta-Análisis para variables continuas existen, aparte de DMP?
C.1.2. ESTRATEGIA DE BÚSQUEDA
La definición de la cadena de búsqueda acostumbra a redactarse siguiendo PICO (Population –

Intervention – Control – Outcoment) [Sackett, D.; Wennberg, J.; 1997]. Sin embargo en el caso de
esta RSL, la recomendación PICO no puede aplicarse ya que los estudios primarios objetivo no son
de tipo experimental. Por este motivo, se han derivado los términos de búsqueda directamente de las
palabras clave usadas en la pregunta de investigación, incluyendo los posibles sinónimos.
Se han definido tres cadenas de búsqueda. La primera derivada directamente de la pregunta de

investigación, en la cual se utilizan los términos “Meta-Análisis” y “variables continuas”. La
segunda utiliza el único sinónimo de Meta-Análisis que se ha podido localizar (Meta-Analytic).
Para asegurar que los artículos recuperados sean relevantes, se completa el término Meta-Analytic

con el término “Method”. La tercer cadena de búsqueda es similar a la segunda, sustituyendo el

término “Method” por “Technique”.
Las cadenas de búsqueda se van a aplicar al: título del trabajo, palabras clave y resumen. Como lo
que se busca identificar en este trabajo son publicaciones de nivel internacional, los términos a
utilizar serán escritos en inglés. A continuación se detalla como quedaron conformadas las tres
cadenas de búsqueda:
a) Query aplicado: TITLE-ABS-KEY(Meta-Analysis AND "Continuous Outcome")

b) Query aplicado: TITLE-ABS-KEY("Meta-Analytic Methods")
c) Query Aplicado: TITLE-ABS-KEY("Meta-Analytical Techniques")
C.1.3. CRITERIOS DE INCLUSIÓN Y EXCLUSIÓN
Se han definidos los siguientes criterios de inclusión de trabajos:
• Los trabajos deben referenciar o describir técnicas estadísticas de Meta-Análisis

• Las técnicas estadísticas de Meta-Análisis deben ser de tipo cuantitativo
• Las técnicas estadísticas de Meta-Análisis deben ser aplicables a variables continuas
Los criterios de exclusión de trabajos son los siguientes:
• Las técnicas de Meta-Análisis propuestas requieran de parámetros que no se reportan

habitualmente en publicaciones de tipo experimental (esto es, medias, varianzas, cantidad de
sujetos experimentales, etc.).
• La técnica de Meta-Análisis es DMP.
C.1.4. PROCESO DE SELECCIÓN DE ARTÍCULOS
El proceso de selección será desarrollado de la siguiente forma:
a) Ejecutar el proceso de búsqueda en la base de datos bibliográfica

b) Unificación de resultados y depuración de duplicados: Dado que las cadenas de búsqueda se

van a aplicar en forma independiente, los resultados de los tres procesos serán exportados a
EXCEL, donde los artículos serán ordenados por nombre para de esta forma poder detectar
la existencia de artículos duplicados entres las diferentes búsquedas
c) Leer el título y abstract de los artículos y aplicar los criterios de inclusión/exclusión para
preseleccionar los artículos
d) Leer el cuerpo de los artículos preseleccionados y volver a aplicar los criterios de
inclusión/exclusión sobre los mismos
e) Descripción de los artículos seleccionados y descripción de las técnicas de Meta-Análisis
utilizadas.
f) Revisión de la bibliografía de los artículos seleccionados y vuelta al punto c).
C.2. DESARROLLO DE LA REVISIÓN SISTEMÁTICA
C.2.1. EJECUCIÓN DEL PROCESO DE BÚSQUEDA
Como resultado de aplicar las cadenas de búsqueda se identificaron las siguientes cantidades de
estudios:
a- Como resultados aplicar la cadena: Meta-Analysis AND "continuous outcome", se

identificaron 288 artículos
b- Como resultados aplicar la cadena: "Meta-Analytic Methods", se identificaron 209 artículos
c- Como resultados aplicar la cadena: "meta-analytical techniques", se identificaron 112
artículos
El total de artículos identificados en el proceso de búsqueda fue de 609.
C.2.2. UNIFICACIÓN DE RESULTADOS
Una vez unificados los resultados de la búsqueda en una planilla EXCEL y ordenados los artículos
por nombre se procedió a eliminar los artículos duplicados, quedando el total de artículos en 579.

C.2.3. PRESELECCIÓN DE ARTÍCULOS
Una vez eliminados los artículos duplicados se procedió a preseleccionar los artículos en función de
lo que indicaban en el resumen eliminando fundamentalmente trabajos de aplicación estándar
(básicamente trabajos hechos en medicina). Como resultado de esta depuración se preseleccionaron
22 artículos. Siendo eliminados 557 artículos. Estos 557 artículos consistían mayoritariamente en
trabajos de aplicación de la técnica DMP, notablemente encuadrados en el área de la medicina.
C.2.4. SELECCIÓN DE ARTÍCULOS
Los 22 artículos seleccionados fueron leídos en profundidad, lo que permitió seleccionar 3 artículos,
los cuales se detallan a continuación:
• Friedrich, J., Adhikari, N., Beyene, J.; 2008; The ratio of means method as an alternative to
mean differences for analyzing continuous outcome variables in meta-analysis: A simulation
study; BMC Medical Research Methodology
• Lajeunesse, M., Forbes, M.; 2003; Variable reporting and quantitative reviews: a
comparison of three meta-analytical techniques. Ecology Letters, 6: 448-454.
• Miguez, E. & Bollero, G; 2005; Review of Corn Yield Response under winter cover
cropping systems using Meta-Analytic Methods; Crop Science Society of America
C.2.5. DOCUMENTACIÓN DE ARTÍCULOS
A continuación se resume el contenido de los artículos seleccionados:
• El trabajo de Friedrich, J., et al, compara mediante una simulación de Monte Carlo el
comportamiento de las técnicas DMP y Ratio de Respuesta, indicando que esta última
técnica puede ser una alternativa válida para desarrollar Meta-Análisis en medicina;

• El trabajo de Lajeunesse, M. y Forbes, M. compara mediante una simulación de Monte

Carlo cuatro técnicas de Meta-Análisis: DMP, Ratio de Respuesta, Ratio de Respuesta
versión no paramétrica (RRNP) y Conteo de Votos estadístico. Este artículo concluye que el
nivel de error de las técnicas basadas en Ratios es similar al de DMP, y que puede ser una
buena alternativa. No ocurriendo lo mismo con la técnica basa en conteo de votos, que posee
un alto nivel de error de tipo I.
• El trabajo de Miguez, E. y Bollero, G. consiste en la aplicación concreta de las técnicas
Ratio de Respuesta y Ratio de Respuesta versión no paramétrica en el campo de la ecología.
Mostrando que la segunda versión de la técnica es una buena alternativa para trabajos con
defectos de publicación.
Luego de analizar las expresiones analíticas de las técnicas de Meta-Análisis empleadas en cada
trabajo, se puede afirmar que la técnica Ratio de Respuesta utilizada en el trabajo de Friedrich, J., et
al, es la misma técnica que en el trabajo de Lajeunesse, M. y Forbes, M. Por otro lado la técnica
Ratio de Respuesta versión no paramétrica aplicada en el trabajo de Miguez, E. y Bollero, G. es la
misma técnica que se analiza en el trabajo de Lajeunesse, M. y Forbes, M. Para evitar confusiones
entre los distintos tipos de Ratio de Respuesta, denominaremos al primer Ratio de Respuesta
paramétrico.
C.2.6. REVISIÓN DE LAS REFERENCIAS BIBLIOGRÁFICAS
En base al seguimiento de las referencias bibliográficas, se han identificado dos publicaciones de:
• Gurevitch, J., Hedges, L.; 2001; Meta-analysis: Combining results of independent

experiments; Design and Analysis of Ecological Experiments (eds S.M. Scheiner and J.
Gurevitch), pp. 347–369; Oxford University Press, Oxford.
• Hedges, L., Gurevitch, J., Curtis, P.; 1999; The Meta-Analysis of Response Ratio in
Experimental Ecology; The Ecological Society of America
Las cuales si bien, no aportan nuevas técnicas, explican en mayor detalle cómo funcionan las
técnicas ya identificadas.

C.3. CONCLUSIONES
Como resultado de esta RSL, se ha logrado identificar tres nuevas técnicas de Meta-Análisis
cuantitativas aplicables a variables continuas:
a) Ratio de Respuesta Paramétrico (RRP)

b) Ratio de Respuesta no Paramétrico (RRNP)
c) Conteo de Votos estadístico (CVE)
En el anexo D, se describe en detalla cómo funciona cada una de estas técnicas.

ANEXO D PROCESO DE AGREGACIÓN PARA ESTUDIOS EXPERIMENTALES EN INGENIERIA DEL SOFTWARE
ANEXO D – DESCRIPCION DE LAS TECNICAS DE

META-ANALISIS ALTERNATIVAS
D.1. RATIO DE RESPUESTA PARAMÉTRICO
El Responde Ratio Paramétrico es actualmente la técnica de agregación para variables continuas

recomendada en los procesos de agregación desarrollados dentro del ámbito de la ecología
[Sánchez-Meca y Marín-Martínez, 1998; Miguez y Bollero, 2005], pero no se tiene conocimiento
de su aplicación en el ámbito de la IS, a excepción de los trabajos vinculados a esta tesis. Esta
técnica consiste en estimar un índice de mejora (también llamado Ratio o tamaño de efecto)
individual (representa la tasa de mejora de un tratamiento respecto del otro para cada uno de los
experimentos) entre un tratamiento Experimental y otro de Control mediante el cociente de ambas
medias, y agregar estos ratios mediante una suma ponderada (donde cada experimento es ponderado
por la inversa de su varianza) para obtener así el ratio, o tamaño de efecto, global.
Como su nombre lo indica, es una técnica de tipo paramétrica y por tanto requiere para ser aplicado
normalidad en la distribución y homoesticidad (igualdad de las varianzas).
Dado que los resultados aportados por esta técnica consisten en un cociente, su interpretación es
directa, así, por ejemplo, un ratio de 1.3 indicará que el tratamiento experimental es un 30% mejor
que el de control o un ratio de 1 indica que ambos tratamientos son iguales.
En las siguientes subsecciones se describen las funciones de estimación de la técnica y las ventajas
y desventajas asociadas a su posible uso en IS.

D.1.1. DESCRIPCIÓN DE LA TÉCNICA
La aplicación de la técnica consta de dos pasos, primeramente se debe estimar el Ratio de cada uno
de los experimentos, y una vez estimado el mismo, podrá estimarse el Ratio o efecto global
[Gurevitch, J.; Hedges, L.; 2001]. A continuación vamos a presentar como se estima el tamaño de
efecto o ratio individual (ver función D.1):
YE RR Representa el tamaño de efecto (D.1)

RR =
YC Y‘s representa a las medias del grupo experimental (E) y de control
(C)
Luego de estimar el tamaño de efecto, se estima el error típico, y en base a este se establece el
intervalo de confianza asociado al mismo para el nivel de exactitud deseado, generalmente del 95%,
lo que equivale a un error de tipo I del 5% (α = 0,05). Ver función D.2.
S 2E S 2C V representa el error típico (D.2)

v= +
n EY E n C Y C S2‘s representa a las varianzas del grupo
experimental (E) y de control (C)
l = Ln(RR)
Y‘s representa a las medias del grupo experimental
l − Zα / 2 v ≤ λ ≤ l + Zα / 2 v (E) y de control (C)
n‘s representa la cantidad de sujetos del grupo
l representa el logaritmo natural del RR
Z representa la cantidad de desvíos estándar que
separan, al nivel de significancia dado, la media del
límite. En general es 1,96 (α = 0,05)
Para que la combinación del conjunto de estudios sea más precisa se le incorporó a la estimación
del efecto global el logaritmo natural [Hedges, L.; Gurevitch, J.; Curtis, P.; 1999]. Lo cual permite

linealizar los resultados y normalizar su distribución, convirtiéndolo en una técnica apropiada para
estimaciones de efectos cuando el conjunto de experimentos es pequeño. Ver función D.3.
k
*
∑ Wi Li L* representa el tamaño de efecto global (D.3)
L* = i =1
* Li representa el tamaño de efecto individual con la
∑ik=1Wi
aplicación de logaritmo ( l = Ln (RR ) )
v= 1
∑1/W ) i
Wi representa el factor de peso del experimento (1/v )
S2‘s representa a las varianzas del grupo experimental (E) y
de control (C)
Y‘s representa a las medias del grupo experimental (E) y de
control (C)
n‘s representa la cantidad de sujetos del grupo experimental
(E) y de control (C)
mismo, para ello se utiliza la función D.4.
L * −Zα / 2 v ≤ λ ≤ L * +Zα / 2 v L* representa el tamaño de efecto global (D.4)

Z representa la cantidad de desvíos estándar que
separan, al nivel de significancia dado, la media
del límite. En general es 1,96 (α = 0,05)
Por último, luego de estimar el tamaño de efecto y su intervalo de confianza, se debe aplicar el anti-
logaritmo a los resultados para obtener así el índice de efecto final.
D.1.2. VENTAJAS Y DESVENTAJAS DE LA TÉCNICA
En esta sección se presentan una serie de ventajas que se espera obtener si un conjunto de
experimentos es agregado mediante Ratio de Respuesta, y luego un conjunto de desventajas o
inconvenientes para su aplicación:

Ventajas
• No requiere de tablas para comprender el significado del resultado final
• Es utilizado en ámbitos de la ciencia donde los experimentos suelen incluir pocos sujetos
experimentales, como sucede actualmente en IS.
Desventajas
• Requiere la publicación de todos los parámetros estadísticos (medias, varianzas y cantidad
de sujetos experimentales)
• Se debe verificar o suponer homoesticidad y normalidad [Gurevitch, J.; Hedges, L.; 2001].
D.2 CONTEO DE VOTOS ESTADÍSTICO
El Conteo de votos estadísticos (CVE) es una técnica que requiere muy poca información para
poder ser aplicado, básicamente conocer si existe o no diferencia entre las medias de los
tratamientos y la cantidad de sujetos experimentales utilizados en cada experimento [Hedges, L.;
Olkin, I.; 1985]. Es importante destacar que esta técnica es más que una simple suma de votos, ya
que el objetivo es estimar el tamaño de efecto (el mismo que se hubiera podido estimar si se contara
con todos los datos necesarios para aplicar DMP) partiendo del signo de las diferencias de las
medias y la cantidad de sujetos experimentales, los cuales se combinan mediante la aplicación de un
proceso de inferencia iterativo que intenta determinar, para un rango de tamaños de efectos posibles
(en general entre -0,5 y 0,5), cuál es el tamaño efecto de mayor probabilidad de ser real.
Esta técnica es considera una técnica no paramétrica, y por ende no requiere conocer o hacer
suposiciones de cómo es el comportamiento de la población.
Como se mencionó anteriormente, esta técnica permite estimar un tamaño de efecto a semejanza de
DMP, por lo cual sus resultados deben interpretarse de la misma forma, mediante una tabla de
conversión. A continuación, en la tabla D.1, se indican los valores de corte asociados a cada nivel
de tamaño de efecto.

Tamaño de efecto Nivel de diferencia

0 Nulo
0.2 Bajo
0.5 Medio
0.8 Alto
Tabla D.1: Interpretación del Tamaño de Efecto
A diferencia de las dos técnicas descriptas anteriormente, para el CVE solo se estima el tamaño de
efecto global, no requiere estimar los tamaños de efecto de cada experimento [Hedges, L.; Olkin, I.;
1985]. El primer paso para la estimación del tamaño de efecto es definir como determinar que un
voto es positivo o no, esto pude hacerse a través de los resultados de un test de hipótesis o
simplemente mediante la comparación directa de las medias de ambos tratamientos. El primero de
los casos dará resultados más conservadores, mientras que el segundo tenderá a sobre estimar el
tamaño de efecto. Dado que en el contexto de la Ingeniería del Software los experimentos utilizan
pocos sujetos experimentales, lo cual condiciona la potencia de los test de hipótesis, nuestra
recomendación es trabajar con la diferencia de las medias como base para definir el voto. Así pues
si la media del tratamiento experimental es mayor a la de control se asignará un voto positivo al
experimento (un valor de 1) y en caso contrario el voto será negativo (un valor de 0).
Definidos los votos de los experimentos se realiza un proceso interactivo en el cual se evalúa la
probabilidad de ser cierto de un tamaño de efecto dentro de un rango de -0,5 a 0,5, variando de 0,1.
La función D.5, permite determinar cuál es la probabilidad de cada tamaño de efecto.
[ (
k ⎧ X ln 1 − φ −
L(δ | X 1 ,....., X i ) = ∑ ⎨
⎪ i )]
ñδ + ⎪⎫ L(δ|X1,….Xn) representa la (D.5)
⎬
( )
⎩(1 − X i ) ln φ − ñδ ⎪⎭
i =1 ⎪
probabilidad del tamaño de efecto
evaluado
δ representa el tamaño de efecto a
n E + nC testear
ñ= E C
n *n
Xi es el valor del voto de cada
experimento
n‘s representa la cantidad de
sujetos del grupo experimental (E)
y de control (C)

mismo, para ello se utiliza la función D.6.
δ − Z α / 2 v (δ ) ≤ λ ≤ δ + Z α / 2 v (δ ) δ representa el tamaño de efecto a (D.6)

testear
Z representa la cantidad de desvíos
estándar que separan, al nivel de
significancia dado, la media del
límite. En general es 1,96 (α =
0,05)
v(δ) representa el error típico
experimentos es agregado mediante el CVE, y luego un conjunto de desventajas o inconvenientes
para su aplicación:
Ventajas
• El resultado final estimado no es un simple conteo de votos, sino que es una técnica que
permite inferir, con muy pocos datos, un tamaño de efecto como lo hacen las técnicas de
agregación más formales.
• Requiere conocer pocos datos para poder ser aplicado
• Por ser una técnica no paramétrica no requiere que exista homoesticidad y normalidad
[Hedges, L.; Olkin, I.; 1985]
• El hecho de requerir pocos datos para poder ser aplicado facilita su uso en el actual contexto
experimental de la IS, donde muchos estudios no publican las varianzas.
Desventajas

• Como se estima a través de un proceso de inferencia iterativo, requiere un mayor esfuerzo

de cálculo
• Existen riesgos de caer en un error de sobre estimación o subestimación, fundamentalmente
cuando los niveles de significancias que se aplican a los “votos” no están en concordancia
con el nivel de significación del test general.
D.3. RATIO DE RESPUESTA NO PARAMÉTRICO
Esta versión del Responde Ratio, comparte de esencia de la versión paramétrica, consiste en estimar
un índice de mejora, o Ratio, entre un tratamiento Experimental y otro de Control mediante el
cociente de ambas medias, y luego su agregación mediante una suma ponderada. En este último
punto radica la diferencia entre ambas técnicas, en la versión paramétrica se pondera a los
experimentos en base a la inversa de su varianza, mientras que en la versión no paramétrica se
ponderan en base a su tamaño [Miguez, E.; Bollero, G.; 2005], es decir, a la cantidad de sujetos
experimentales que posea. Pero el procedimiento es el mismo en ambos casos.
Por otra parte, al ser este una técnica no paramétrica, no requiere conocer o hacer suposiciones de
cómo es el comportamiento de la población.
La estimación del tamaño de efecto de un experimento y su intervalo de confianza es la misma que

se utiliza en la versión paramétrica, para mayores detalles ver las funciones D.1 y D.2. Mientras que
la función de estimación del tamaño de efecto global solo difiere en el ponderador del experimento
el cual se establece mediante la combinación de los sujetos experimentales como se muestra en la
función D.7 [Miguez, E.; Bollero, G.; 2005].
k
*
∑ Wi Li L* representa el tamaño de efecto global (D.7)
L* = i =1
* Li representa el tamaño de efecto individual con la
∑ik=1Wi
aplicación de logaritmo (L = Ln YC/YE)
nC + nE Ln( RR 2 )
v= + Wi representa el factor de peso del experimento (1/v )
nE nC 2(nC + nE )

n‘s representa la cantidad de sujetos del grupo

RR representa el tamaño de efecto de cada experimento
La función para estimar el intervalo de confianza es la misma que la que utiliza la versión
paramétrica (Función D.4). Una vez estimados el tamaño de efecto, se debe aplicar el anti-logaritmo
a los resultados para obtener así el índice de efecto final.
experimentos es agregado mediante Ratio de Respuesta no paramétrico, y luego un conjunto de
desventajas o inconvenientes para su aplicación:
Ventajas
• No requiere de tablas para comprender el significado del resultado final
• No requiere conocer como es el comportamiento de la población (conocer la distribución o
si existe homogeneidad)
• El hecho de no requerir la publicación de la varianzas facilita su uso en el actual contexto
experimental de la IS, donde muchos estudios no publican las varianzas.
La identificación de técnicas de Meta-Análisis alternativas a DMP se ha realizado mediante una
Revisión Sistemática de Literatura (RSL), siguiendo el procedimiento establecido por [Kitchenham,
B.; 2004].

ANEXO E PROCESO DE AGREGACIÓN PARA ESTUDIOS EXPERIMENTALES EN INGENIERIA DEL SOFTWARE
ANEXO E – PUBLICACIONES
En este anexo se presentan las publicaciones desarrolladas en el marco de esta tesis.
Publicación Tipo
I. Fernández. E. (2007). Agregation Process with Multiple Evidence Levels for Congreso
Experimental Studies in Software Engineering. Proceedings 2nd International Internacional
Doctoral Symposium on Empirical Software Engineering. Pag. 75-81. ISBN
978-84-690-7340-7.
II. Fernández, E., Diez, E., Malacrida, J., Britos, P., Dieste, O., García Martínez, Congreso
R. (2008). Uso de Revisiones Sistemática como Estrategia de Generación de Nacional
Conocimientos para Mejora Continua. Proceedings del XIV Congreso
Argentino de Ciencias de la Computación, Workshop de Ingeniería de
Software y Bases de Datos, Artículo 1924. ISBN 978-987-24611-0-2.
III. Dieste, O., Fernández, E., Pesado, P., García-Martínez, R. (2009). Analysis of Congreso
Inspection Technique Performance. Proceedings XV Congreso Argentino de Nacional
Ciencias de la Computación. Workshop de Ingeniería de Software. Págs. 961-
970. ISBN 978-897-24068-4-1.
IV. Fernández, E., Dieste, O., Pesado, P., García-Martínez, R. (2009). Pautas Congreso
para Agregar Estudios Experimentales en Ingeniería del Software. Internacional
Proceedings XIV Jornadas de Ingeniería del Software y Bases de Datos. Pág.
91-102. ISBN 978-84-692-4211-7.
V. Dieste, O., Fernández, E., Pesado, P., García-Martínez, R. (2010). Desarrollo Congreso
de una Revisión Sistemática aplicando Métodos de Agregación Alternativos Regional
para el Análisis de las Técnicas de Inspección. Un Caso Testigo. Actas del
XIII Congreso Iberoamericano en Software Engineering. Pág 121-134. ISBN
978-9978-325-10-0.

VI. Fernández, E., Pollo, M., Amatriain, H., Dieste, O., Pesado, P., García- Capítulo de
Martínez, R. (2010). Ingeniería de Software Empírica. Aplicabilidad de Libro
Métodos de Síntesis Cuantitativa. En Ingeniería de Software e Ingeniería del
Conocimiento: Tendencias de Investigación e Innovación Tecnológica en
Iberoamérica (Editores: R. Aguilar, J. Díaz, G. Gómez, E- León). Pág. 287-
297. Alfaomega Grupo Editor. ISBN 978-607-707-096-2.
VII. Dieste, O., Fernandez, E., Garcia-Martínez, R., Juristo, J. (2010). Hidden Congreso
Evidence Behind Useless Replications. 1st International Workshop on Internacional
Replication in Empirical Software Engineering Research (RESER) en CORE A
ACM/IEEE 32nd International Conference on Software Engineering (ICSE).
VIII. Dieste, O., Fernández, E., García, R., Juristo, N. (2011). Comparative analysis
Congreso
of meta-analysis methods: when to use which?”. 6th EASE Durham (UK) Internacional
Pág. 36-45. CORE A
IX. Dieste, O., Fernández, E., García, R., Juristo, N. (2011). The risk of using the Congreso
Q heterogeneity estimator for software engineering experiments. Proceedings Internacional
5th International Symposium on Empirical Software Engineering and CORE A
Measurement. Paper Nber. 56. Sep. 22-23. Max Bell (MB) Building. Banff,
Alberta, Canada
X. Amatriain H., Dieste O., Fernández E., García-Martínez R. (2011). Congreso

Evaluación de La Aplicabilidad del Meta-Análisis de Efectos Aleatorios en Nacional
Ingeniería del Software. Proceedings XVII Congreso Argentino de Ciencias
de la Computación. Pág. 770-779. ISBN 978-950-34-0756-1.
XI. Dieste, O., Fernández, E., García, R., Juristo, N. (2012). Comparison of meta- Revista
analysis methods: understanding the influence of experiments’ statistical Internacional
parameters. EMSE, Presentado































































































































Proceso de Agregación para Estudios Experimentales en Ingenieria Del Software

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Proceso de Agregación para Estudios Experimentales en Ingenieria Del Software

Cargado por

Copyright:

Formatos disponibles

PROCESO DE AGREGACIÓN PARA ESTUDIOS

EXPERIMENTALES EN INGENIERIA DEL

Mg. Enrique FERNÁNDEZ

TESIS PRESENTADA PARA OBTENER EL GRADO

Antecedentes: Si bien el Meta-Análisis o agregación de estudios experimentales no es un tema

Conclusiones: El proceso de agregación desarrollado permite aprovechar mejor las evidencias

A mis hijos Mariana y Julián

A mi padre Ramón y a mi madre Carmen

A mis hermanos María del Carmen y Diego

A mis mentores y amigos Oscar y Ramón

A la Facultad de Informática de la Universidad Nacional de la Plata por acogerme con generosidad

Al Grupo de Investigación en Sistemas de Información del Departamento de Desarrollo Productivo

A Hernán Amatriain por su colaboración en el desarrollo de los trabajos de investigación, y con

A las secretarias de la Escuela de Postgrado de la Facultad de Informática de la Universidad

A mis compañeros de trabajo del Banco Ciudad.

A mis compañeros de la Facultad de Ingeniería en la Universidad de Buenos Aires, Alejandra y

4.2.5 Actividad 5 – Evaluar la Exactitud y Potencia Empírica de las técnicas de 48

ANEXO A – CONCEPTO DE HETEROGENEIDAD 89

ANEXO B – ERROR EXPERIMENTAL 93

ANEXO C – IDENTIFICACIÓN DE TÉCNICAS ALTERNATIVAS DE 97

TESIS DOCTORAL EN CIENCIAS INFORMATICAS ENRIQUE FERNANDEZ

Figura 1: Reducción del valor de β 12

TESIS DOCTORAL EN CIENCIAS INFORMATICAS ENRIQUE FERNANDEZ

TESIS DOCTORAL EN CIENCIAS INFORMATICAS ENRIQUE FERNANDEZ

Tabla 2.1: Tipos de Errores de un Test Estadístico 10

TESIS DOCTORAL EN CIENCIAS INFORMATICAS ENRIQUE FERNANDEZ

TESIS DOCTORAL EN CIENCIAS INFORMATICAS ENRIQUE FERNANDEZ

CVE: Conteo de Votos Estadístico

TESIS DOCTORAL EN CIENCIAS INFORMATICAS ENRIQUE FERNANDEZ

TESIS DOCTORAL EN CIENCIAS INFORMATICAS ENRIQUE FERNANDEZ

1.1. ÁREA DE INVESTIGACIÓN

La Ingeniería en Software (IS), de acuerdo a la norma 610.12 de la IEEE, debe aplicar

TESIS DOCTORAL EN CIENCIAS INFORMATICAS 1 ENRIQUE FERNANDEZ

La Ingeniería del Software Experimental (ISE) traslada a la IS el paradigma experimental que ha

TESIS DOCTORAL EN CIENCIAS INFORMATICAS 2 ENRIQUE FERNANDEZ

Los métodos de síntesis se dividen en integrativos e interpretativos [Dixon-Woods, M.; et al;

TESIS DOCTORAL EN CIENCIAS INFORMATICAS 3 ENRIQUE FERNANDEZ

• Diferencia entre la probabilidad real de cometer un error de tipo I y el nivel de

TESIS DOCTORAL EN CIENCIAS INFORMATICAS 4 ENRIQUE FERNANDEZ

desconocemos virtualmente todo acerca del funcionamiento de DMP en contextos de pequeñas

1.3. DEFINICIÓN DEL PROBLEMA

TESIS DOCTORAL EN CIENCIAS INFORMATICAS 5 ENRIQUE FERNANDEZ

publicación de varianza). Ello da lugar a 3 problemas fundamentales a los cuales se enfrenta un

1. La técnica DMP no es aplicable en muchos casos debido a falencias en los reportes

3. Cuando la técnica DMP no es aplicable, o es aplicable pero no fiable, la realización del

1.4. OBJETIVOS DE LA TESIS

Objetivo 1: identificar técnicas de Meta-Análisis alternativas a DMP (aplicables cuando hay

Objetivo 2: estudiar el comportamiento de las técnicas de Meta-Análisis para el contexto

TESIS DOCTORAL EN CIENCIAS INFORMATICAS 6 ENRIQUE FERNANDEZ

1.5. VISIÓN GENERAL DE LA TESIS

El Capitulo Introducción, tiene como objetivo introducir al lector en la problemática de la tesis. En

TESIS DOCTORAL EN CIENCIAS INFORMATICAS 7 ENRIQUE FERNANDEZ

En el capítulo Referencias se presentan las referencias bibliográficas citadas a lo largo del

El Anexo A, tiene como objetivo explicar en qué consiste la Heterogeneidad.

El Anexo B, tiene como objetivo explicar en qué consiste el Error Experimental

TESIS DOCTORAL EN CIENCIAS INFORMATICAS 8 ENRIQUE FERNANDEZ

2.1. NECESIDAD DEL META-ANÁLISIS

TESIS DOCTORAL EN CIENCIAS INFORMATICAS 9 ENRIQUE FERNANDEZ

Hipótesis que se verifica en la población

Tabla 2.1: Tipos de Errores de un Test Estadístico

TESIS DOCTORAL EN CIENCIAS INFORMATICAS 10 ENRIQUE FERNANDEZ

TESIS DOCTORAL EN CIENCIAS INFORMATICAS 11 ENRIQUE FERNANDEZ

Figura 1: Reducción del valor de β