9.manual Básico para El Residente Investigador Novel PDF

COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
1
1ª edición: julio 2013
© Comisión de Docencia-Comisión de Investigación del Complejo Hospitalario

de Toledo. 2013.
Edita: Complejo Hospitalario de Toledo

Avda. Barber nº30. 45.111. España.
Depósito Legal: TO-397-2013

2
Coordinador:
Agustín Julián Jiménez
Comité Editorial:
Pedro Beneyto Martín
Raúl Borrego Domínguez
María Luisa Alonso Martín
Javier Guzmán Blázquez
Rafael Cuena Boy
José Manuel Martínez Sesmero
Alica Hanzeliková Pogrányivá
3
4
Con gran admiración y respeto a

D. Aurelio Tomás Sánchez Heredero (TOMÁS)
por su trabajo, compromiso y esfuerzo…
y su dedicación, de manera ejemplar,
durante cincuenta años
al Complejo Hospitalario de Toledo
5
6
ÍNDICE
ÍNDICE……………………………………………………………………………………………………….…………..pág 7
PRESENTACIÓN………………………………………………………………………………….………………….pág 9
Capítulo 1. Introducción. La Investigación como fuente de conocimiento y
reconocimiento………………………………………………………………………………………………..….pág 11
Capítulo 2. La Metodología Científica………………………………………………………….….…….pág 15
Capítulo 3. Tipos de estudios……………………………………………………………………….……….pág 23
Capítulo 4. Fases de la investigación. De la idea a la publicación…………….……………pág 31
Capítulo 5. Contextualización de la investigación y búsqueda de
información………………………………………………………………………………………………………….pág 41
Mª Luisa Alonso Martín, Agustín Julián Jiménez
Capítulo 6. Los cuestionarios y las encuestas de opinión……………………………….……..pág 57
Capítulo 7. Tipología y organización de los artículos científicos…………………………..pág 67
Capítulo 8. La presentación de los resultados en reuniones y congresos. Comunicación
científica………………………………………………………………………………………………………………pág 79
Alica Hanzelikova Pogrányivá
Capítulo 9. Estadística básica para investigadores noveles I………………………….…….pág 93
Rafael Cuena Boy
Capítulo 10. Estadística básica para investigadores noveles II……………..…………….pág 103
Rafael Cuena Boy
Capítulo 11. Estadística básica para investigadores noveles III………….……..……….pág 117
Rafael Cuena Boy
Capítulo 12. Estadística básica para investigadores noveles IV………………….………pág 147
Rafael Cuena Boy
Capítulo 13. Estadística básica para investigadores noveles V……………..…….………pág 173
Rafael Cuena Boy
Capítulo 14. Estadística básica para investigadores noveles VI………………….………pág 189
Rafael Cuena Boy
7
8
PRESENTACIÓN
La triada clásica de la labor no asistencial del médico ha sido siempre la formación

continuada, la docencia y la investigación. ¿Por ese orden? Hablar de investigación
significa aún, para muchos galenos, referirse a territorios mitológicos e inaccesibles, llenos
de sabios despistados, probetas, moléculas extrañas y animalarios. Afortunadamente esa
imagen tópica cada vez tiene menos consistencia. Muchos esforzados pioneros han
descubierto que la investigación clínica no es lo mismo que la investigación básica, que
para investigar no hay que tener una dilatada experiencia y que, currículum aparte, nos
aporta algo que a veces encontramos dramáticamente a faltar en nuestra práctica diaria: un
antídoto contra la rutina. Ése es el secreto: investigar es emocionante. En España existen,
desde hace años, acreditadas líneas de investigación que encuentran eco en revistas de
reconocido prestigio, de esas que se adornan con elevados índices de impacto. Son las que
se robustecen en el tiempo, creciendo y ramificándose de forma aparentemente inagotable.
Pero aún es más gratificante observar cómo una investigación más modesta no deja de
surgir en mil rincones de nuestro medio, imponiéndose a la falta de tiempo, de medios y a
la presencia abrumadora de la labor asistencial que, precisamente aquí, entre nosotros,
parece que va a devorarlo todo. Y frente a ese empuje alentador, muchas veces nos
encontramos con una realidad inadvertida y desagradable: la falta de formación del
investigador novel y particularmente del residente. En ningún sitio se les ha enseñado: ni
en la carrera, ni en la residencia, ni en congresos, ni en ninguna parte. Tan
inadvertidamente se cuela ese déficit en su formación que muchas veces ni siquiera son
conscientes de ello y se asombran hasta lo inimaginable cuando, ya realizado un trabajo
que les ha llevado sudor y lágrimas, se les indica sus deficiencias: muestras sesgadas o
insuficientes, diseño mal realizado, conclusiones mal fundamentadas. Defectos que les
impiden rentabilizar su trabajo, publicándolo en donde pueda merecerlo. En mi experiencia
personal, después de más de quince años evaluando proyectos de investigación, era fácil
descubrir la necesidad de apoyo metodológico para un gran número de nuevos
investigadores. Nuestro objetivo es proporcionar un modelo, una hoja de ruta para depurar
ese objetivo que sólo se vislumbra de un modo general, asesorar acerca de las herramientas
metodológicas disponibles y guiar en lo posible dentro del complejo proceso editorial de la
publicación científica. El resto, será cosa vuestra.
Dr. Pedro Beneyto Martín

Presidente de la Comisión de Investigación del Complejo Hospitalario de Toledo
9
10
CAPÍTULO 1
INTRODUCCIÓN. LA INVESTIGACIÓN COMO FUENTE DE
CONOCIMIENTO Y RECONOCIMIENTO
Servicio de Urgencias, Jefe de Estudios y Presidente Comisión de Docencia, Comisión de Investigación.
Complejo Hospitalario de Toledo.
BÚSQUEDA DEL CONOCIMIENTO

El hecho de investigar es consustancial a la condición humana. Entendemos por
investigar el hacer diligencias para descubrir algo, en definitiva se trata de realizar distintas
actividades intelectuales y experimentales de modo sistemático con el propósito de llegar a
aumentar los conocimientos sobre una determinada materia o cuestión. El refinamiento que
actualmente ha alcanzado la investigación en general, y la biomédica en particular, no debe
hacernos menospreciar formas más básicas de avance en el conocimiento. La investigación
nace fruto de una duda, de una pregunta que cuestiona lo que se ha hecho hasta entonces y
abre un camino no explorado.
Desde la perspectiva de la cultura occidental, las civilizaciones que nos han
precedido nos han conducido, de la mano de la investigación y sus sucesivos
descubrimientos, a un grado de conocimiento y control de nuestro entorno inimaginable ni
siquiera hace unas generaciones. No existe nada que no sea fruto de investigación en la
actualidad.
Sin embargo, el proceso investigador tiene una serie de reglas y principios que le
son propios. Debemos prepararnos para que nuestra actividad como residentes en este
ámbito sea lo más fructífera posible, ello incluye conocer una serie de aspectos básicos
iniciales que, de alguna manera, intenta sintetizar este manual. Desde el desarrollo de una
idea, pasando por los elementos y medios necesarios de la propia investigación, el diseño
experimental que va a intentar demostrar nuestra hipótesis, los elementos estadísticos
básicos y necesarios para realizar el análisis de los resultados, la comunicación de los
mismos, hasta la difusión final del trabajo en forma de artículo científico. Todas estas son
áreas que el residente investigador novel debe aprender y familiarizarse.
FUENTES DEL CONOCIMIENTO MÉDICO

La investigación ha estado de siempre ligada al acto médico aunque se acepta que
el “gran estructurador” del método científico experimental fue Claude Bernard (fisiólogo
11
francés) que sentó las bases de su método bajo el principio del determinismo fisiológico y,
a partir de esos conocimientos, elaboró una mecánica de trabajo uniforme en torno a tres
ejes fundamentales: la observación, la experimentación y el razonamiento. La observación
permite la comprobación de un fenómeno natural. A partir de la misma el científico
propone una hipótesis que dé explicación acerca de por qué ese hecho ocurre. A
continuación procede a diseñar unos experimentos en la situación de máximo control
posible para constatar o refutar esa teoría. Es en esta fase de experimentación cuando el
investigador modifica intencionalmente las condiciones de los fenómenos naturales.
Experimentar es observar un fenómeno modificado por el experimentador. Finalmente,
hace falta razonar si los resultados de los experimentos soportan la hipótesis planteada.
Para ello, el razonamiento es esencial, ya que permite establecer el determinismo, es decir,
conocer las leyes que rigen los fenómenos estudiados. El conocer estas leyes permitirá
preverlos, variarlos o manejarlos. El razonamiento proporciona ideas explicativas, que
llevarán a nuevas hipótesis de trabajo y a nuevos experimentos para verificar su exactitud,
que se repetirán sucesivamente hasta aclarar el determinismo del fenómeno.
LA INVESTIGACIÓN COMO MOTOR DEL RECONOCIMIENTO PERSONAL Y

GRUPAL. IMPORTANCIA DE LA INVESTIGACIÓN PARA EL RESIDENTE EN
FORMACIÓN
Muchos médicos son ya reconocidos hoy en día en su entorno por su actividad
investigadora, no sólo eso, algunos alcanzan relevancia profesional y social por esta
actividad que proporciona retorno personal en muchos aspectos, que no se limitan al mero
ejercicio de la profesión. Afortunadamente hace ya años que se ha superado la lapidaria
frase “que investiguen ellos”, que encarnaba la filosofía que estuvo vigente durante
muchos años.
La investigación logra nuevos conocimientos y, en el caso de la investigación
biomédica, intenta que estos redunden en beneficio del enfermo. Además de forma
secundaria contribuye a mejorar el entorno productivo y el crecimiento económico de la
sociedad que la promueve. Finalmente, el cultivo de la investigación permite poner en
valor las mentes más preparadas y disponer del capital humano necesario para afrontar
nuevos retos en un mundo cada vez más cambiante y que plantea más y mayores retos a
resolver.
La investigación básica o clínica debe ser un compromiso de todo profesional
sanitario, sea cual sea su ámbito de trabajo y su nivel de responsabilidad, y por su puesto lo
12
es de todo especialista residente en formación. Además, la investigación sanitaria es

consustancial a la excelencia sanitaria, por lo que no se entiende esta última sin el
desarrollo de la primera.
¿Por qué debe investigar el residente? Es obvio que todo médico debe basar su
práctica clínica en el uso racional de la evidencia científica y, por tanto, debe participar en
su búsqueda. Si uno no investiga en su campo, otros lo harán, y quizás no compartan los
mismos intereses o no conozcan en profundidad las áreas peor definidas en las cuales es
necesario adquirir o mejorar conocimientos. Además, investigar produce una enorme
satisfacción personal y del grupo, mejora los resultados de calidad asistencial en todas sus
vertientes y ayuda a evitar fenómenos de desmotivación profesional (burnout). Los
residentes deben formar parte del grueso de la investigación, tutelados por sus tutores y los
miembros del servicio más influyentes o motivados en este ámbito.
La investigación permite conocer qué hacemos, cómo lo hacemos y, sobre todo, por
qué lo hacemos de una manera determinada, con lo que favorece nuestra actualización
clínica. De esta forma, nuestra ineludible obligación de formación continuada se ve
facilitada y estimulada de la mejor manera posible: con el convencimiento personal del
trabajo bien hecho y de cumplir con la responsabilidad de formarnos de la mejor y más
completa manera posible. El residente debe formarse durante su periodo de aprendizaje en
cuatro esferas de forma simultánea, para alcanzar al término de los años de la residencia
una competencia y experiencia en todas ellas: asistencial, docencia, formación e
investigación. Esperamos que este manual básico sirva de complemento inicial en la
andadura que ahora iniciáis en el Complejo Hospitalario de Toledo.
BIBLIOGRAFÍA
- Esper R.J, Machado R.A. La investigación en medicina. Bases teóricas y prácticas.
Elementos de Bioestadística. Buenos Aires: Prensa Médica Argentina; 2008.
- Miró i Andreu O. Manual básico para el urgenciólogo investigador. De la idea original a
la publicación final. Madrid: Ergón; 2013.
- Bobenrieth Astete MA. Mitos y realidades en torno a la publicación científica. Med Clin
(Barc). 2000;114:339-341.
- Jiménez Villa J, Argimon Pallàs JM, Martín Zurro A, Vilardel Tarrés M. Publicación
científica biomédica. Cómo escribir y publicar un artículo de investigación. Barcelona:
Elsevier España S.L; 2010.
13
14
CAPÍTULO 2
LA METODOLOGÍA CIENTÍFICA
Servicio de Oftalmología. Presidente Comisión de Investigación. Complejo Hospitalario de Toledo.
UN NUEVO PARADIGMA
Con la aparición de Internet, a mediados de los noventa, la cantidad de información
especializada accesible para el médico se multiplicó de manera explosiva, pero lo más
importante fue que supuso un cambio de modelo o paradigma en la forma de ejercer la
medicina. Un paradigma, según el filósofo de la ciencia Thomas Kuhn, es un conjunto de
prácticas que definen una disciplina científica durante un período específico de tiempo y
que solo pueden ser sustituidas por el nacimiento de un nuevo paradigma. Hace no
demasiado tiempo, la inmensa mayoría de la información que manejaba un médico
provenía fundamentalmente de los libros “de texto”, verdaderas biblias de cada
especialidad. Paralelamente se contaba con la opinión del colega experimentado, cuya
opinión era aceptada en muchas ocasiones como principio de autoridad y sin posteriores
comprobaciones. Las revistas científicas eran accesibles en número escaso y su principal
función era leerlas para “mantenerse al día”. Todo eso no ha desaparecido, pero el acceso
casi instantáneo a una enorme cantidad de información ha provocado enormes cambios. La
medicina basada en la evidencia supuso replantear la firmeza de los cimientos del edificio
clínico, resultando que en muchas ocasiones no era tan sólido como se creía. Los libros se
han copiado unos a otros desde siempre y eso es la causa de que muchas prácticas
habitualmente aceptadas no se basen en trabajos experimentales, sino en la tradición. La
búsqueda de evidencia que apuntalara la práctica clínica comenzó a utilizar armas de
mayor potencia: ensayos clínicos, revisiones sistemáticas y metanálisis. Actividades tales
como la búsqueda bibliográfica, el manejo de Pubmed, la lectura crítica de artículos de
investigación y la solución de problemas buscando el mayor grado posible de evidencia
fueron ganando terreno y se convirtieron en un nuevo paradigma. Como en todo cambio,
ha habido beneficiados y víctimas, entusiastas que dominan rápidamente las nuevas
herramientas (y hablan de términos MESH, “la Cochrane”, aleatorización y de índices de
impacto con fluidez y suficiencia) y médicos más tradicionales, que sienten las nuevas
técnicas como enemigos que amenazan su hábitat natural y algunas de las virtudes que
siempre se asociaron a la práctica médica: el ojo clínico, el respeto a la autoridad de los
maestros y el valor de la experiencia de muchos años de trabajo. Un cambio de paradigma
15
supone nuevos cambios en cascada. El interés por la investigación clínica se ha

multiplicado. De existir solo unos cuantos centros de referencia en los cuales se hacía
investigación hemos pasado al convencimiento de que investigar no es algo reservado a
unos pocos. Especialistas de grandes y pequeños hospitales, médicos de familia,
enfermeros, todos se lanzan a investigar con un ánimo envidiable. Y entonces comienzan
los problemas. La investigación científica es un proceso metódico. El método científico
supone que las hipótesis generadas por nuestra intuición o la observación de la realidad
deben ser corroboradas por la experiencia, es por ello que se denomina también método
experimental. Los experimentos en la práctica clínica tienen unas características propias y
de eso trata precisamente este libro. El diseño de los experimentos clínicos sigue unas
pautas bien definidas que no pueden improvisarse. Salirse de estos parámetros supone
salirse del marco de la ciencia. El ciclo de la investigación clínica se muestra en el
esquema de la Figura1. Alguien plantea una pregunta o cuestión sin respuesta (o con
respuesta contradictoria o parcial) a la luz del conocimiento de su tiempo. Esa cuestión se
expresa mediante una pregunta de investigación. Se parte entonces de una hipótesis (cree
que existe una respuesta en uno u otro sentido) y de un objetivo (se pretende contestar esa
pregunta de una determinada manera). Para ello deberá realizar un experimento, que
deberá ser cuidadosamente diseñado para evitar errores e insuficiencias. Con los datos
obtenidos se realiza un análisis que da lugar a unas conclusiones que cierran el ciclo
aumentando la cantidad del conocimiento y que pueden servir a otros investigadores para
avanzar aún más en el tema.
16
LA PREGUNTA DE INVESTIGACIÓN
A menudo el investigador novel se preocupa por la fuente de inspiración de sus
trabajos. Pueden darse dos tipos característicos, aquel que está convencido de que jamás se
le ocurrirá nada que merezca la pena y aquel otro del tipo “entusiasta”, que muestra una
confianza ilimitada en la calidad de sus muchas ideas. Ambos pasan por alto que
investigar, como cualquier otra actividad relacionada con la clínica, tiene una curva de
aprendizaje. La mejor forma de comenzar si es posible: Si existe alguien cercano con
líneas de investigación desarrolladas, muchas veces lo mejor que puedes hacer es ofrecerte
para colaborar con él. Ocho de cada diez veces serás aceptado, los investigadores escasean.
Y aún mejor es la realización de una tesis doctoral: si la dinámica ha sido positiva un
alumno tutelado para todo se transforma en un investigador autosuficiente. La cantidad de
habilidades que se adquieren realizando una tesis es ingente: hacerse preguntas, traducirlas
en hipótesis y objetivos, diseñar un experimento, aprender rudimentos de muestreo y de
estadística, interpretar los resultados, manejar bibliografía, estimular la lectura crítica...
todo un bagaje. Con ello se adquiere un plano del territorio, tal vez no se conozca en
detalle, pero se tiene una idea de su conjunto y qué hacer para no perderse. Aún mejor es el
cambio de actitud acerca de la investigación No todos se infectan por ese virus saludable,
los hay más propensos que otros, igual que ocurre con la actividad clínica o con el
quirófano, pero si tiene disposición será un “infectado” para siempre. Si incorporarse a
una línea de investigación en curso nos proporciona una manera segura de empezar, la
creación de ideas propias distingue al verdadero investigador. Esas ideas provienen de
múltiples fuentes. Conocer bien lo relacionado con un tema mediante el estudio es el
primer paso de cualquier proyecto serio, es fácil naufragar si nos adentramos alegremente
por sitios desconocidos. Las sesiones bibliográficas y la asistencia a congresos
proporcionan información reciente de dónde camina el avance del conocimiento en nuestro
campo. Las nuevas tecnologías proporcionan una nueva mirada sobre problemas clínicos
habituales, no solo de utilizadas de manera convencional, sino empleadas también
creativamente. Las conversaciones de pasillo o fuera del ambiente profesional con colegas
afines son a menudo sesiones en miniatura de “braimstrorming”. Pero con mucho la
fuente más importante es la propia línea de investigación: los hallazgos de nuestros
anteriores estudios proporcionan la fuente de nuevas preguntas. La mejor herramienta es
uno mismo, simplemente estar abierto y preparado. Trabaja duro pero también deja que tu
inconsciente funcione. Es bien conocido que muchas de nuestras mejores ideas ocurren en
17
lugares inesperados cuando estábamos pensando en otra cosa. El problema real no es la

escasez de preguntas, temor del investigador poco avezado, sino conseguir que éstas
tengan la calidad suficiente que justifique nuestro esfuerzo y produzcan resultados
relevantes. Toda idea debe someterse a una visión crítica, lo que significa que debe ser
madurada, examinada en sus múltiples facetas, sometida al juicio de expertos si es posible,
ser refrendada bibliográficamente y, después de todo eso (pero no antes) ser aceptada o
rechazada. El “entusiasta”, que se lanza a la acción inmediatamente, sin analizar la idea y
sin hacer un diseño pertinente, tiene un
vuelo muy corto. El buen investigador sabe Tabla I. Características de una buena
pregunta de investigación
instintivamente y casi de manera inmediata
qué pregunta es pertinente pero ni siquiera Precisa:
Única, expresada en términos específicos y
así mensurables. Evitar la abstracción.
Pertinente:
se precipita porque sabe que le queda No ha sido contestada antes o lo ha sido en forma
incompleta o contradictoria.
mucho trabajo por hacer.
Factible:
Las características de una buena Debe poderse contestar con los medios que
disponemos.
pregunta de investigación se resumen en la Atractiva y relevante:
Sus resultados deben tener un cierto peso en el
Tabla I. El investigador avezado las sopesa
corpus científico y el investigador debería estar
en bloque, pero para el que empieza no es motivado para contestarla.
Ética
superfluo hacer un rápido “check list”. No
Debe cumplir los preceptos éticos establecidos.
lleva más de unos y podemos evitar errores
que más tarde serían irreparables.
Algunas son puro sentido común:
¿tenemos acceso a los medios necesarios? ¿va a costar dinero? ¿cuánto? ¿Tenemos
experiencia con las técnicas requeridas, debemos aprender alguna nueva o tenemos a
alguien que nos las haga? Otras tienen una respuesta menos evidente ¿cómo sabemos si un
estudio es “pertinente”? ¿es “suficientemente” original? ¿Aporta un beneficio real, práctico
o teórico? Muchas veces las líneas de demarcación son difusas, pero el mero hecho de
hacernos las preguntas ya nos da muchas pistas sobre las respuestas.
En ocasiones se pueden utilizar varias preguntas de investigación, que determinan el
objetivo principal y los secundarios, respectivamente, pero siempre debe existir una
pregunta de investigación principal, porque esta elección determinará por completo el
diseño del trabajo. Cada una de las tres hipótesis de nuestro ejemplo determina un diseño
completamente distinto y el investigador deberá elegir qué desea demostrar en primer
lugar.
18
ETAPAS DE UN DISEÑO DE INVESTIGACIÓN

Bunge distingue ocho pasos que determinan la creación de un trabajo de
investigación. Levemente modificados son los siguientes:
1. Enunciar preguntas bien formuladas en el contexto del conocimiento existente.
2. Formular hipótesis fundadas y contrastables para contestar a esas preguntas.
3. Extraer objetivos lógicos y contrastables de esas hipótesis.
4. Diseñar un experimento para desarrollar el objetivo que nos hemos marcado
5. Comprobar la validez, relevancia y fiabilidad de las técnicas utilizadas.
6. Ejecutar el experimento.
7. Interpretar los resultados obtenidos.
8. Determinar los dominios en los son válidos nuestros hallazgos y las técnicas y formular
nuevos problemas.
Estos ocho pasos constituyen una verdadera hoja de ruta de la realización de un
trabajo de investigación. La mayor parte de las debilidades metodológicas se originan por
realizar de manera incorrecta (o no realizar en absoluto) alguno de estos pasos. Por lo
tanto, nunca insistiremos lo bastante en hacerlo de manera cuidadosa.
HIPÓTESIS Y OBJETIVOS
a) La hipótesis. Generalmente no nos preguntamos algo si no tenemos en mente una
posible respuesta. Si nos preguntamos acerca de la eficacia de un nuevo fármaco o de una
intervención quirúrgica es porque creemos que puede mostrar algún tipo de ventaja sobre
los ya existentes. En muchas ocasiones el problema es que el investigador potencial es
incapaz de “traducir” una pregunta de investigación en una hipótesis, un lenguaje
susceptible de ser manejado desde un punto de vista científico. En la asociación de dos
variables se denomina variable predictora o independiente la que se cree que antecede a la
segunda, que se llama variable de efecto, desenlace o dependiente. La hipótesis no es más
que una transformación de la pregunta de investigación que resume la variable predictora y
la variable de desenlace Las características de una buena hipótesis son muy parecidas a las
de una pregunta de investigación: simple, específica y demostrable.
Ejemplo: Un residente, con una sobrecarga de guardias evidente, cree que desde que la
lista de espera para la consulta de oftalmología ha aumentado, los pacientes acuden más a
urgencias. Su pregunta de investigación es si la lista de espera en las consultas de
oftalmología y el número de pacientes que acuden a urgencias están relacionados. Y su
19
hipótesis es que cuanto más aumenta la lista de espera mayor es el número de pacientes
que acude a urgencias.
Hemos traducido una idea en una pregunta de investigación y una hipótesis. En este
caso la variable predictora es la lista de espera para la consulta general y la variable de
desenlace los pacientes que acuden a urgencias.
Una hipótesis es simple si existe una única variable predictora y otra de desenlace y
compleja si existe más de una de cualquiera de las dos. Una hipótesis compleja sería que el
número de pacientes que van a urgencias aumenta con el aumento de la lista de espera de
la consulta de oftalmología y con la saturación de la atención primaria. La hipótesis que
intentamos demostrar se denomina hipótesis nula, y se denomina hipótesis alternativa a la
que es aceptada por exclusión si rechazamos la hipótesis nula. Nuestra hipótesis nula es
que el número de pacientes que van a urgencias aumenta con el aumento de la lista de
espera y la hipótesis alternativa es que este número no aumenta. Se denomina hipótesis
unilateral (o de una cola) la que aporta la dirección de la asociación entre las variables e
hipótesis bilateral (o de dos colas) si no se define dicha dirección. Creer que el número de
pacientes que van a urgencias aumenta con el aumento de la lista de espera es una hipótesis
de una cola, mientras que si solo pensamos que el número de pacientes que van a urgencias
está relacionado con el aumento de la lista de espera de las consultas es una hipótesis de
dos colas, porque en este caso este número puede aumentar o disminuir. Una hipótesis
unilateral tiene la ventaja de que requiere un número de pacientes menor para someterla a
prueba.
b) Los objetivos: El objetivo es el corazón de un trabajo de investigación. Si no se
dispone de mucho tiempo para leer completos todos los artículos de una revista, leer solo
sus objetivos nos hace saber inmediatamente de qué tratan exactamente y valorar si nos
interesan o no. Su definición precisa es el eje sobre el que rota el resto del trabajo. Si
fallamos al definirlo también fallaremos en las decisiones que debemos tomar más tarde
¿qué tipo de trabajo elegimos? ¿Qué variables? ¿Sobre qué población? Un objetivo no es
una vaga declaración de intenciones es una estructura ordenada, parte de una hipótesis
previa y consta de los siguientes elementos:
-Factor de estudio: Es lo que deseamos estudiar, la variable que introducimos para
observar su efecto (puede ser un fármaco, una intervención quirúrgica, un programa
educativo, la exposición a un tóxico, etc).
20
-Variable de respuesta: Nos dice cómo vamos a medir el efecto producido por el
factor de estudio (será nuestra variable principal: agudeza visual, PIO, grado de
vascularización corneal, etc)
-Población de estudio: Nos dice sobre qué grupo de sujetos trata el estudio
(recordemos de nuevo que no es lo mismo población que muestra): pacientes con
glaucoma, con queratoplastia lamelar, con NVSR, etc.
Ejemplo: En el ejemplo anterior nuestro objetivo sería estimar la relación existente entre
la lista de espera de las consultas de oftalmología (factor de estudio) y la utilización de las
urgencias oftalmológicas (variable de estudio) en un hospital de primer nivel (población
de estudio).
Los tres elementos son importantes. Vemos que hemos añadido un elemento nuevo:
nuestros datos provienen de un hospital de primer nivel. Definir exactamente nuestra
población es importante para estimar la validez externa de un estudio. En nuestro caso es
posible que los datos fueran diferentes si estudiamos en hospitales más pequeños o
consultas no hospitalarias. Muchos trabajos tienen más de un objetivo. Siempre debemos
tener un objetivo principal, pero puede completarse con objetivos secundarios que hacen
que el trabajo sea más completo. Generalmente se refieren a varios factores de estudio
(como ocurre en el último ejemplo), más de una variable de estudio (si se estudia el efecto
de un fármaco, aparte de la variable principal de estudio es frecuente que se estudien los
efectos secundarios) o más de una población de estudio (varias subtipos de una
enfermedad). Nunca hay que perder de vista que el diseño del trabajo surge del objetivo
principal, por lo que los hallazgos referentes a los objetivos secundarios son menos firmes
y no deben multiplicarse sin necesidad (por ejemplo, es muy posible que no tengamos una
muestra suficiente para observar los efectos secundarios menos frecuentes de un fármaco).
Como ya apuntamos en otra ocasión, es importante que el trabajo tenga un aspecto sólido
pero unitario.
CARACTERÍSTICAS Y TIPOS DE ESTUDIOS

Elegir el tipo de estudio es una decisión fundamental de nuestro trabajo. Para ello
debemos conocer qué características puede tener un estudio de investigación y,
dependiendo de éstas, que tipos de estudios existen.
Según la finalidad de un estudio puede ser descriptivo (no analiza relaciones causa-
efecto ni maneja hipótesis, se limita a describir los hechos) o analítico (sí lo hace). Si
intervenimos provocando el factor de estudio hablaremos de estudio experimental,
21
mientras que si no lo hacemos se denomina observacional. Con relación a la secuencia

temporal los estudios pueden ser transversales (cross-sectional) si se realizan solo en un
determinado momento, mientras que son longitudinales (longitudinal study) si existe un
seguimiento en el tiempo. Y por fin, dependiendo de si los hechos se produjeron antes de la
realización del estudio o después de él se habla de estudios retrospectivos y prospectivos
respectivamente. Es muy importante dominar esta nomenclatura, ya que sus diversas
combinaciones definirán los diferentes tipos de estudios, que estudiaremos extensamente
en capítulos sucesivos. En la tabla II se esquematizan los más importantes.
Tabla II. Tipos de estudios.
Experimental y analítico No experimentales
Descriptivos Analíticos
 Ensayos clínicos.  A propósito de un caso  Casos y controles
(Clinical trials) (Case reports) (Case control study, case
 Series de casos comparision study)
(Case series)  Cohortes
 Estudios de prevalencia (Cohort study, Follow-up
(Prevalence study) study)
La elección del tipo de estudio dependerá en primer lugar si solo deseamos

describir los hechos sin realizar hipótesis causales: en este caso nuestro trabajo será la
descripción de un caso o serie de casos clínicos o bien un estudio de prevalencia
(porcentaje de la población que muestran una determinada característica, por ejemplo
cuantos de los sujetos con trombosis de vena central de la retina presentan
neovascularización). Si en cambio manejamos una hipótesis causal, entonces nuestro
estudio será analítico. La figura 1 muestra las decisiones que debemos tomar para elegir
uno de los tipos de estudios básicos analíticos.
BIBLIOGRAFÍA
- Hulley SB, Cummings SR. Diseño de la investigación clínica. Ediciones Doyma,
Barcelona 1993.
- Argimon Pallás JM, Jiménez Villa JJ. Métodos de investigación clínica y epidemiológica.
Elsevier España, Barcelona 2010.
- Alarcón Segovia D, De la Fuente JR. Velázquez Arellano A. Fundamentos de la
investigación clínica. Siglo XXI Editores México DF 2005.
- Glasser SP. Essentials of clinical research. Springer Science AL, USA 2008.
22
CAPÍTULO 3
TIPOS DE ESTUDIOS
Servicio de Oftalmología. Presidente Comisión de Investigación. Complejo Hospitalario de Toledo.
ESTUDIOS DESCRIPTIVOS
Los estudios descriptivos son aquellos que estudian situaciones que ocurren en
condiciones naturales, recogiendo información sin cambiar el entorno (es decir, sin
manipulación experimental) y que están diseñados para describir la distribución de las
variables, sin considerar hipótesis causales o de otro tipo. Es frecuente confundir
“descriptivo” con “observacional”, pero no es lo mismo, ya que los observacionales,
aunque tampoco implican actuación externa, pueden ser descriptivos o analíticos
(dependiendo de sí tienen o no una hipótesis causal). En este tipo de estudios se describe la
frecuencia y las características más importantes del problema de salud estudiado: la edad,
el sexo, la raza, la ocupación, etc. Además son esenciales para definir hipótesis de trabajo
sobre causalidad, susceptibles de ser verificadas en una fase posterior con estudios
analíticos. Los estudios descriptivos se dividen en dos grupos: aquellos que describen
individuos que incluyen la publicación de un caso, las series de casos, los estudios
transversales o de prevalencia, los estudios longitudinales o de incidencia y los estudios de
vigilancia; y aquellos que examinan poblaciones, como los estudios de correlación
ecológica…
Los más sencillos son la descripción de un caso y de una serie de casos. Estos
estudios describen la experiencia de un paciente o un grupo de pacientes con un diagnóstico
similar.
Los estudios de prevalencia permiten estimar la magnitud y distribución de una
enfermedad o condición en un momento dado. Se definen como transversales ya que no
tienen continuidad en el tiempo y observacionales. Este tipo de diseño es de gran utilidad
para describir la salud de una población, identificar la frecuencia poblacional del fenómeno
estudiado y para formular hipótesis de trabajo. Sin embargo, no permite identificar
relaciones causales, ya que se mide simultáneamente el efecto y la exposición, perdiendo la
direccionalidad de la asociación y no siendo por lo tanto posible determinar si la
exposición precede al efecto observado o viceversa. Una de las dificultades metodológicas
de este tipo de diseño es la elección de una muestra representativa de la población de
referencia. Para salvarla, es fundamental hacer una correcta selección de los individuos que
23
forman parte de esta muestra, pero también es necesario estimar el tamaño requerido para
responder a los objetivos del estudio. Para ello, se deben tener en cuenta los siguientes
aspectos:
 Tipo de muestreo a realizar: para tomar esta decisión se deberá tener en cuenta la
distribución del fenómeno a estudiar en la población objetivo, especialmente si la
característica a medir tiene alguna relación con características poblacionales que pudieran
sesgar los resultados.
 Prevalencia estimada del fenómeno: en el caso de no tener una idea aproximada de este
dato, como regla general se asume una prevalencia del 50%, el peor escenario posible para
el cálculo del tamaño muestral.
 El nivel de confianza que se le asigna a la muestra: habitualmente, y de forma
estándar, se fija en un 95%.
Los estudios de incidencia estiman el número de casos nuevos de una enfermedad
o problema, en una población determinada en un cierto periodo de tiempo. Para poder
conocer la ocurrencia de casos nuevos debe existir una vigilancia o seguimiento a lo largo
del tiempo, principal diferencia respecto de los estudios transversales. Como resultado de
este diseño se obtienen fundamentalmente dos indicadores,
 Tasa de incidencia, calculada como el cociente entre el número de casos nuevos y el
periodo de tiempo considerado.
 Incidencia acumulada, calculada como el cociente entre número de casos nuevos y el
número de individuos en riesgo en la población durante el periodo de tiempo considerado.
El seguimiento en el tiempo no solo permite establecer la incidencia de una
enfermedad, también permite estudiar su evolución natural y relacionarla con factores
externos a ella
Dado que el objetivo de este tipo de diseños es observar, describir y documentar
una variable que ocurre de manera natural, típicamente el análisis estadístico que se llevará
a cabo será univariante y descriptivo, es decir, se tratará de resumir una única variable o de
estimar parámetros de la población de referencia relativos a esa variable a partir de una
muestra. En muestras de pequeño tamaño, por ejemplo series de pocos casos, es frecuente
mostrar toda la información disponible en cada uno de los casos. Sin embargo, en muestras
de tamaño mayor, es necesario resumir esta información, habitualmente construyendo
tablas de frecuencias y medidas descriptivas. La elección de estas medidas va a depender
del tipo de variable que se esté analizando. Si la característica estudiada es de tipo
cualitativa, por ejemplo los síntomas de una enfermedad, los resultados se mostrarán en
24
porcentajes. Las variables cuantitativas pueden expresarse a través de medidas de

localización, las más frecuentes media y mediana, acompañadas de medidas de dispersión,
habitualmente la desviación estándar. Cuando no se trata de casos o series de casos es muy
conveniente que tanto los porcentajes como las medias vengan acompañadas de su
correspondiente intervalo de confianza.
ESTUDIOS DE CASOS Y CONTROLES

El estudio de casos y controles parte de un grupo de individuos enfermos o con
determinado efecto que deseamos estudiar (casos) y otro grupo de individuos comparables
a ellos pero que no lo tienen (controles), y se estudia la exposición a distintos factores de
riesgo o factores protectores en ambos grupos (Figura 1). Representa uno de los métodos
más difundidos de análisis epidemiológico destinado a la verificación de una hipótesis de
investigación a través de modelos no experimentales. Estos estudios son de tipo
observacional, pues el investigador actúa como mero espectador y analítico, pues
establece comparación entre grupos de estudio y grupos de control, a fin de establecer
relación de causalidad. En función al seguimiento en el tiempo son de tipo trasversal, ya
que no existe seguimiento en el tiempo de los pacientes. Por último, en función del
comienzo del estudio suelen ser retrospectivos, pues el factor causal y el efecto se han
producido antes del comienzo del estudio.
Dirección de las
Realización
del estudio indagaciones
Tiempo
Figura 1. Esquema del diseño de los estudios de casos-controles
25
Hulley denomina a este tipo de estudios “el vino de la casa” de la carta de vinos de la
investigación: la mayor parte de las veces son eficaces y baratos, pero también son menos
seguros.
a) La selección de casos: Para identificar los casos, primero se debe definir la
enfermedad utilizando criterios admitidos por la comunidad científica. Es muy importante
fijar los criterios diagnósticos que definen la enfermedad, los criterios de inclusión y
exclusión, la fuente de donde se seleccionan los casos, la validez de la selección y si se
tendrán en cuenta casos incidentes o prevalentes. La selección de los casos debe conseguir
un grupo lo más homogéneo posible desde el punto de vista diagnóstico utilizando criterios
claros y reproducibles.
Idealmente, todos los pacientes afectos deberían tener la misma probabilidad de entrar
en el estudio, pero en ocasiones no es necesario que los casos incluidos sean
representativos de todos los casos. Pueden incluirse sólo los casos incidentes (recién
diagnosticados) o prevalentes (casos diagnosticados antes del inicio del estudio). En
general se recomienda incluir sólo los casos incidentes
b) La selección de controles: Paradójicamente, los mayores errores en este tipo de
estudios surgen de la selección de controles. Los controles deben ser una muestra
representativa de la población original de la que surgieron los casos. Seleccionar y
entrevistar a una muestra de controles de la población es más laborioso que utilizar otras
fuentes de controles (son más difíciles de localizar, cooperan menos y existe un porcentaje
importante de no respuestas). Entre estas últimas tenemos los sujetos que acuden a centros
sanitarios o grupos de voluntarios o grupos especiales (vecinos, amigos, familiares, etc).
Seleccionar controles entre pacientes del mismo hospital aumenta la probabilidad de que
casos y controles provengan de la misma población. Además son más fáciles de identificar,
existe mayor disponibilidad, los pacientes colaboran más, y tienden a recordar mejor su
historia de exposición. Su desventaja es, que al padecer alguna enfermedad difieren de la
población sana y pueden tener algún factor de riesgo en común con el efecto que
estudiamos. Es conveniente que los pacientes no tengan todos la misma patología.
Aunque no es obligatorio, se suelen utilizar el mismo número de casos que de
controles. Cuando el número de casos es limitado, aumentar el número de controles supone
aumentar la potencia del estudio para detectar asociaciones. La potencia aumenta hasta que
el número de controles es de cuatro en relación a cada caso, a partir de esta cifra la
potencia se aumenta de forma insignificante.
26
ESTUDIOS DE COHORTES
El investigador parte de un grupo de pacientes que aún no han desarrollado la
enfermedad, y los sigue en el tiempo, efectuando las medidas y evaluaciones adecuadas,
para averiguar quienes desarrollan la enfermedad. De esta manera, resulta razonablemente
sencillo comprobar si la presencia de algún factor de riesgo aumenta la probabilidad de
desarrollar la enfermedad, o en sentido contrario, protege de la aparición de la misma. La
diferencia fundamental de este tipo de estudios con los ensayos clínicos (diseño
experimental), es que en estos últimos, el investigador decide (generalmente empleando el
azar), qué pacientes son sometidos a un tratamiento o intervención determinado, y quienes
no (grupo control). En el diseño de cohortes (también denominado de seguimiento, o
“follow up” en inglés), el investigador se limita a evaluar en el transcurso del tiempo la
aparición o no de una enfermedad o estado patológico, o el mantenimiento de alguna
variable (como la agudeza visual, por ejemplo), en una población que ha sido sometida al
factor de riesgo a estudiar pero que aún no ha desarrollado la misma. Los estudios de
cohortes, son considerados como los más robustos de entre los estudios observacionales, y
los motivos son obvios. Podemos diseñar las pruebas a realizar antes de que éstas tengan
lugar (ventajas del diseño prospectivo), de manera que estas evaluaciones se pueden
uniformizar y estandarizar correctamente.
Tiempo
Figura 2: Esquema de un estudio de casos y controles.
27
LOS ENSAYOS CLÍNICOS

Hasta época bien reciente, la medicina era un compendio de recetas empíricas que
descansaban en el buen juicio y el “arte” de los médicos y que estaban fundamentalmente
basadas en el principio de autoridad. No fue hasta bien entrado el siglo XX cuando la
medicina y particularmente la terapéutica encontró un método objetivo y reproducible,
denominado ensayo clínico, que la equiparaba a otras disciplinas científicas. El ensayo
clínico es el estudio experimental por antonomasia. Es básicamente igual que un estudio de
cohortes (es decir, prospectivo y analítico), pero el investigador manipula la variable
predictora o independiente a fin de observar su efecto sobre la variable de desenlace o
dependiente. Su fortaleza estriba en que debido a su diseño controlado es posible
minimizar al máximo los dos “virus” que acechan la investigación clínica: la confusión y
los sesgos. Es por eso que la inferencia de la causalidad (nivel de evidencia) es máxima, lo
que lo hace idóneo para la prueba de medicamentos o medidas terapéuticas en general,
pero no solo se utiliza para ellos, también es válido para comparar pruebas diagnósticas o
campañas de cribado o screening o para valorar actuaciones preventivas. El ensayo clínico
aleatorizado es un estudio experimental cuyos participantes han sido incluidos en uno de
los grupos de comparación de manera aleatoria. Es el mejor diseño posible, el “gran
reserva” de la carta de vinos de los trabajos de investigación clínica. Se suele realizar para
preguntas de investigación precisas en temas que generalmente han sido ya muy estudiados
por otra clase de trabajos. Como sucede en otros tipos de estudios, debemos seleccionar
una muestra para extrapolar los resultados a la población de referencia. Es frecuente
utilizar unos criterios de inclusión muy estrictos a fin de asegurar que el efecto que
intentamos medir es el que efectivamente estamos midiendo, pero esto puede dar
problemas de generalización. Si solo estudiamos el efecto en un tipo de población muy
seleccionado y homogéneo, es posible que los resultados difieran en otros tipos de
población, lo que es muy importante en la práctica clínica, en donde no existen
poblaciones “puras”. Algunos ensayos utilizan un run-in-phase, un estudio previo o piloto
en los que se realiza un seguimiento a los pacientes por diversos motivos (obtención de
datos para el cálculo del tamaño muestral, exploración de variables de seguimiento, etc).
Una vez seleccionada la muestra, la aleatorización de los participantes en su asignación a
un determinado grupo tiene como fin que los grupos que se comparan sean homogéneos y
que por lo tanto no existan variables de confusión que sesguen nuestros resultados. El
medicamento o en general el efecto que deseamos analizar puede ser comparado con varias
posibles actuaciones en el grupo control: no intervención, placebo, otro tratamiento o
28
mejor tratamiento disponible. Esta última es la de elección siempre que dispongamos de

ella, por obvias razones éticas, aunque a veces el concepto de “mejor tratamiento” sea
difícil de definir. Si no existe un tratamiento eficaz conocido, la mejor opción es el
placebo, ya que evita el sesgo producido por el efecto placebo en el grupo de
administración del medicamento. El uso del placebo está regulado con exactitud en la
normativa de los ensayos clínicos.
Figura 3: Etapas de un ensayo clínico.
Tanto la administración del fármaco como la evaluación de sus resultados debería

enmascararse, es decir, hacerlo de tal forma que el paciente (simple ciego), éste y el
médico que lo administra (doble ciego) o ellos dos más el encargado de evaluar su efecto
(triple ciego) ignoren qué estaba recibiendo un paciente en particular, si el fármaco en
estudio o el control. Los métodos de enmascaramiento, descritos en el capítulo 8, evitan
que las expectativas de los pacientes y de los investigadores influyan en el resultado final.
El enmascaramiento suele ser más difícil que la aleatorización y en ocasiones es
imposible, como ocurre con las intervenciones quirúrgicas o tratamientos conductuales o
de otro tipo, pero sí es posible enmascarar la medida de la variable de los resultados
(evaluador ciego), lo que resulta muy recomendable, más cuanto más grado de subjetividad
implique (dolor, síntomas, etc). Se debe tener listo un fenómeno de desenmascaramiento
rápido y eficaz, para el caso de que sea necesario conocer por razones médicas qué
fármaco estaba tomando el paciente (alergias, nuevos datos clínicos, etc). Se denomina
29
contaminación el cambio de comportamiento de los sujetos estudiados cuando saben a qué

grupo han sido asignados.
Existe un problema con aquellos pacientes que deben ser excluidos durante la
realización del estudio por diversas causas, ya que influye en la forma de tratar los
resultados. Se denomina análisis de casos válidos o por protocolo cuando se consideran
exclusivamente aquellos pacientes que han cumplido el protocolo en su totalidad, mientras
que se denomina análisis por intención de tratar si los pacientes no son excluidos y se
mantienen en el grupo asignado, independientemente de si han cumplido o no el protocolo.
Esa estrategia es la adecuada en la realización de ensayos clínicos, ya que evita los sesgos
por pérdidas y es más difícil alcanzar la significación estadística (tiene mayor grado de
evidencia). Esto no debe confundirse con los pacientes que fueron excluidos antes de
formarse los grupos por cumplir alguno de los criterios de exclusión previamente
determinados. En todo ensayo clínico deberían existir criterios para su finalización
anticipada porque se haya alcanzado una evidencia inequívoca de beneficio o perjuicio del
tratamiento, a ser posible por un comité de expertos que no esté implicado en su diseño o
realización. No es ético continuar el ensayo si se tiene la seguridad de que el tratamiento
utilizado es eficaz y que el otro grupo puede beneficiarse de él, sobre todo si hemos
utilizado placebo. Ocurre lo mismo si otros ensayos han llegado a la misma conclusión o
han aparecido nuevos tratamientos de elección.
BIBLIOGRAFÍA
- Hulley SB, Cummings SR. Diseño de la investigación clínica. Ediciones Doyma,
Barcelona 1993.
- Argimon Pallás JM, Jiménez Villa JJ. Métodos de investigación clínica y epidemiológica.
Elsevier España, Barcelona 2010.
- Alarcón Segovia D, De la Fuente JR. Velázquez Arellano A. Fundamentos de la
investigación clínica. Siglo XXI Editores México DF 2005.
- Glasser SP. Essentials of clinical research. Springer Science AL, USA 2008.
30
CAPÍTULO 4
FASES DE LA INVESTIGACIÓN. DE LA IDEA A LA PUBLICACIÓN
UCI Pediatría, Secretario de la Comisión de Investigación. Complejo Hospitalario de Toledo.
INTRODUCCIÓN
En este capítulo lo que pretendemos es realizar una descripción práctica de los
pasos que se deben de dar desde la identificación de una idea original (pregunta de
investigación), pasando por la elaboración de un proyecto de investigación (planificación
del proyecto con discusión y mejora del mismo, operativa de recogida de datos y análisis
estadístico), y llegar a la difusión de los resultados de la investigación de diferentes
maneras.
Las etapas para el desarrollo de una investigación son:
 Identificación del problema. La idea o pregunta de investigación.
 Planificación del Proyecto:
1. Confección del Proyecto de Investigación.
2. Discusión y mejora del proyecto.
 Ejecución del proyecto de investigación.
 Procesamiento y análisis de los resultados: estadística.
 Confección del informe final.
 Publicación de resultados.
IDENTIFICACION DEL PROBLEMA. LA IDEA o PREGUNTA DE

INVESTIGACIÓN
Toda investigación se inicia con la existencia de algo que no se comprende
(problema o pregunta de investigación), y requiere reunir datos o hechos, analizarlos
rigurosamente y llegar finalmente a decisiones basadas en pruebas verdaderas. Es una
labor original, de carácter cuantitativo y que implica dedicación y perseverancia.
A la hora de formular una pregunta de investigación debemos prestar atención a los
siguientes puntos:
o Importancia de la pregunta.
o No hay una respuesta satisfactoria a la pregunta en trabajos previos.
o Posibilidad de responderla con el proyecto que vamos a realizar.
o Posibilidad de realizar el trabajo con los recursos disponibles.
31
La respuesta debe de tener importancia en la práctica clínica. Se deben buscar

resultados útiles y relevantes. De nada serviría realizar una investigación sobre algún tema
que no tenga ninguna relevancia los resultados que salgan de la misma.
Por otra parte hay que realizar una revisión exhaustiva de la literatura previa para
verificar que la investigación que vamos a llevar a cabo no está hecha. Podría, no obstante,
haber investigaciones similares que no arrojen resultados válidos porque no estén
realizadas correctamente o porque tengan muy poca muestra o tengan resultados
contradictorios. También podría realizarse la validación de resultados de otros estudios con
nuevas tecnologías.
Debemos desarrollar (lo veremos más adelante) un proyecto de investigación
completo antes de iniciar la investigación en sí, con el que creamos que podremos
responder a la pregunta de investigación inicial. Para ello, deberá de ser revisado dicho
proyecto por diferentes comités (Comisión de Investigación y Comité de Ética e
Investigación Clínica).
Deberemos disponer de recursos suficientes, tanto personales como materiales, a la
hora de iniciar el desarrollo del proyecto de investigación. Si no disponemos de los
recursos suficientes podremos intentar conseguirlos a través de Becas y Financiaciones
Externas al Hospital (ya sean de la Comunidad de Castilla la Mancha o nacionales,
públicas o privadas).
Teniendo en cuenta todo esto debemos formular una pregunta de investigación que
debe expresarse como relación de variables y en forma de pregunta.
PLANIFICACIÓN DEL PROYECTO

Confección del proyecto de investigación:
Una vez que tengamos clara la pregunta de investigación, el siguiente paso es la
redacción del proyecto de investigación. Con esto conseguiremos ver las necesidades
personales y materiales que tenemos y, la necesidad de obtener financiación.
El protocolo o proyecto de investigación es un documento forma que describe todo
el proceso y actividades que se realizarán de forma sistemática y precisa. Informa lo que se
va a investigar y la forma cómo se va a hacer, con tal de alcanzar los objetivos propuestos
y, con ello, resolver el problema de investigación que le dio origen. Es un documento
científico, legal y administrativo.
Todo proyecto de investigación tendría que tener los siguientes epígrafes:
a) Portada.
32
Identificación del estudio, nombre del investigador principal, institución y año.

b) Índice.
Para poder localizar todos los apartados del proyecto (se realiza al final, pero se
debe colocar al principio.
c) Resumen.
Cronológicamente se realiza lo último. La finalidad del resumen es que el
organismo o la persona que vaya a evaluar el proyecto se haga una idea rápida de lo que se
desea conseguir con el estudio. Habría que resumir todos los apartados del proceso de
investigación: ubicación temporal y espacial, objetivo principal, metodología, muestra,
intervenciones y análisis.
d) Introducción al tema con antecedentes y situación actual con bibliografía.
Justificación del proyecto.
En este apartado se debe realizar una revisión crítica de los estudios que han tratado
de responder a las preguntas que se pretenden dar resolución, con la explicación de los
posibles problemas y limitaciones que hayan tenido.
Se debe justificar el proyecto haciendo referencia a la conveniencia y la relevancia
de realizar la investigación propuesta, con las implicaciones prácticas, aplicabilidad real, la
aportación novedosa y la contribución al conocimiento existente.
e) Hipótesis de trabajo y Objetivos.
La hipótesis es el enunciado de una relación de causalidad o predicción que se
espera entre 2 o más variables. Ej: Los anticonceptivos orales aumentan el riesgo de cáncer
de mama.
Se deben enunciar unos objetivos generales (1 o 2) que sean precisos y que sean
susceptibles de lograrse con los medios disponibles. Se expresan en infinitivo. Ej:
Comprobar si los anticonceptivos orales aumentan el riesgo de cáncer de mama.
También se enunciarán unos específicos o secundarios más concretos que abarquen
subproblemas o partes del objetivo general (la unión de los específicos debe permitir
alcanzar el objetivo general). Estos últimos deben ser de naturaleza más operativa. Se
expresan en infinitivo. Ej: Valorar si los anticonceptivos orales consumidos de manera
precoz, antes de los 25 años, aumentan el riesgo de cáncer de mama.
f) Material y Método:
1. Diseño de investigación.
33
Se debe especificar el tipo de estudio: experimental u observacional, transversal o

longitudinal (retrospectivo o prospectivo), si hay intervención (diseño en paralelo, cruzado
u otros), definir la intervención como abierta o ciego (simple, doble o triple).
2. Sujetos del estudio.
Definir la población objeto de estudio.
Se presentan las características fundamentales de la población elegible por medio
de los criterios de inclusión y exclusión.
3. Muestra a utilizar.
Definir el tamaño de la muestra con la definición de criterios para calcular el
número de participantes y, el procedimiento aplicable a la extracción poblacional de la
muestra. Si procede también se debe describir la técnica para asignación a los grupos.
4. Lugar del estudio.
Debe hacerse mención a la localización donde se va a llevar a cabo el proyecto
tanto en la recogida de datos como en el análisis de los mismos.
5. Descripción de variables.
Se describe qué se va a registrar, cómo, cuándo, con qué y por qué; así como
detalles y especificaciones de la instrumentalización y equipo necesario.
Se recomienda identificar una o dos variables primarias y unas pocas secundarias,
tantas como objetivos fueron propuestos. Se deben coger las variables más sensibles y
estandarizadas en cuando a los métodos de medición.
6. Intervención a realizar (si procede).
En los ensayos clínicos la intervención o el tratamiento constituye la variable
independiente y, por tanto, la investigación pretende medir sus efectos. Se debe describir
con todo detalle.
Para ensayos clínicos con medicamentos hay que rellenar un apartado de eventos
adversos que puedan provocar. Además hay que notificar a la Autoridad Sanitaria cuando
son eventos graves e inesperados.
g) Plan operativo-cronograma. Etapas y distribución de tareas.
Se debe describir todo lo que va a realizarse en la investigación desde la fase de
planeación hasta la presentación del informe y su publicación o exposición final. Se suele
expresar como cronogramas (en días, semanas o meses, pero no hace falta especificar
fechas precisas) para organizar la información. Se hará énfasis en las actividades y tareas a
desarrollar durante la fase experimental o de campo.
h) Procesamiento y análisis de datos.
34
Especificar dónde y cómo se procesarán los datos obtenidos: bases de datos y

programas que se van a utilizar. Acorde con las variables y siguiendo los objetivos
planteados, se debe proponer una breve exposición del análisis estadístico a aplicar.
Se iniciará una estadística descriptiva para valorar el comportamiento general y los
resultados obtenidos con cada variable, y luego, se procedería a aplicar una estadística
inferencial aplicando las pruebas estadísticas paramétricas o no paramétricas, según el tipo
de dato disponible y las características de cada variable por analizar. Debe aparecer
definido el criterio para la toma de decisión estadística (nivel de significación).
i) Dificultades y limitaciones.
Es un apartado donde se deben describir los posibles sesgos que desplacen
artificialmente las diferencias observadas de las verdaderas, afectando a la validez interna
del diseño: sesgo de selección, sesgo de clasificación, sesgo de confusión. Se deben
describir las medidas utilizadas para minimizar o eliminar su efecto: aleatorización,
restricción y apareamiento en la fase de diseño y, la estandarización, estratificación y
utilización de modelos multivariantes en el plan de análisis.
j) Aspectos éticos y legales. Consentimiento informado. Seguros.
Todo protocolo de investigación clínica deberá ser sometido a valoración por un
Comité respecto a una evaluación ética y una evaluación de validez y significación
estadística; en nuestro caso, el Comité de Ética e Investigación Clínica y la Comisión de
Investigación.
Es fundamental seguir las normas de Buena Práctica Clínica (ver bibliografía).
Se hará especial énfasis en el Consentimiento Informado, que debe tener todo
estudio que recoja información derivada de la labor asistencial y se utilice con una
finalidad diferente de la que motivó su recopilación. Por su puesto es obligatorio en los
ensayos clínicos. Debe existir una hoja de información al paciente y otra de consentimiento
con firma propiamente dicho.
Hay que describir cómo se preserva la confidencialidad de la información.
También, dependiendo de los riesgos que pueda tener el estudio, se deberá contratar
un Seguro que cubra los posibles efectos adversos o problemas de la intervención
realizada.
k) Presupuesto.
La elaboración de un presupuesto del coste de una investigación es esencial para
solicitar una ayuda de investigación.
Se suelen dividir en:
35
 Gastos de personal: becarios, técnico de apoyo o personal sanitario.

 Gastos de ejecución:
 Bienes (material inventariable y fungible) y contratación de servicios
externos (personal que pasa cuestionarios o entrevistas, estadístico,
traductor).
 Otros gastos de ejecución: viajes, dietas, divulgación a congresos...
Y se suelen desglosar los gastos ocasionados por cada año que dure el estudio. Se
puede hacer una tabla para desglosarlos adecuadamente.
l) Información general:
Para conseguir financiación. Debe detallarse el currículum de los investigadores
principal con detalles científicos y profesionales. Se debe especificar el lugar donde se
realizará el proyecto y los permisos para uso de instalaciones o laboratorios.
Discusión y mejora del proyecto:
Una vez tengamos redactado el proyecto de investigación, previo a la ejecución del
mismo y antes de solicitar algún tipo de ayuda para financiarlo, es necesario que sea
evaluado por las siguientes comisiones:
o Comisión de Investigación del Complejo Hospitalario de Toledo.
o Comité Ético y de Investigación Clínica del Complejo Hospitalario de Toledo
(CEIC).
o Unidad de Metodología de la Investigación del Colegio de Médicos de Toledo.
o Grupo de ayuda al residente investigador del Complejo Hospitalario de Toledo.
La Comisión de Investigación está formada por personal médico y de enfermería
del Complejo Hospitalario de Toledo. La Comisión de Investigación evalúa si el Diseño y
la Metodología del estudio son adecuados para alcanzar los objetivos propuestos. Se debe
remitir el proyecto al Secretario de la Comisión de investigación que en la actualidad es el
Dr. Raúl Borrego del Servicio de Pediatría: rarobo@gmail.com. La Comisión de
Investigación no dispone de ubicación física. Se reúne mensualmente (generalmente los
primeros viernes de mes) para evaluar los proyectos entregados y elabora informe de
validez del mismo con las apreciaciones de mejora que considera oportunas.
El Comité de Ética e Investigación Clínica evalúa el cumplimiento ético y legal del
proyecto de investigación. Actualmente la Secretaria es María Ángeles Jiménez:
majimenezn@sescam.jccm.es . Está ubicada en la C/ Alicante, s/n, 1ª planta, despacho 4.
Teléfono: 925269200, Extensión 48557. Se debe enviar una serie de documentación en
soporte físico y electrónico (informarse previamente). Se reúne mensualmente y, se cita al
36
investigador principal para que haga una defensa del proyecto ante posibles dudas que se
planteen.
En el Colegio de Médicos de Toledo actualmente dispone en su cartera de servicios
de una Unidad de Metodología de la Investigación que aporta asesoramiento para la
elaboración de Estudios de Investigación. Está labor está desarrollada por el Dr. Rafael
Cuena Boy. Se sitúa en la Calle Canarias 3. Teléfono 925221619 o 925212840.
Dado que en la actualidad no se encuentra disponible en el Complejo Hospitalario
de Toledo una Unidad de Investigación para asesoramiento metodológico, en docencia y
junto con la Comisión de Investigación, se está planteando desarrollar un grupo de ayuda
al residente investigador, hasta que exista dicha Unidad de Investigación. Sobre este grupo
se debe preguntar en docencia de residentes (Secretaria: María Mercedes Peña Jiménez –
Adela- mmpena@sescam.jccm.es Teléfono: 925269200 extensión 48560. Presidente de la
Comisión Docencia y Jefe de Estudios: Agustín Julián Jiménez agustinj@sescam.jccm.es)
EJECUCIÓN DEL PROYECTO DE INVESTIGACIÓN

En este apartado nos ocuparemos del desarrollo del proyecto en sí.
Deberemos seguir las normas establecidas de la metodología científica. Debe
ejecutarse con rigor científico:
 Cumplir el protocolo de estudio.
 Realizarse con conformidad con las normas éticas establecidas.
 Registros meticulosos detallados de todas las observaciones.
 Usar métodos de medición de manera objetiva con el fin de obtener resultados
válidos y fiables.
Para esto debemos de recoger las variables que hayamos planteado en el estudio
divididas en:
 Variables relacionadas con las hipótesis del estudio. Tipificar bien las variables
de la hipótesis.
 Variables necesarias para comprobar la hipótesis:
 Posibles factores de confusión: factor de riesgo o protector.
 Otras variables:
 Variables que caractericen a la población de estudio.
 Variables que permitan la valoración de sesgos.
Lo habitual para la recolección de todos estos datos es realizar una hoja tipo por
paciente o acto en la que pueda registrarse todos los datos de cada sujeto de forma
37
individualizada. Se debe de intentar que sea una única hoja, y el menor número de datos
posibles para que sea más práctica la recogida.
Se debe extremar el cuidado en la confidencialidad con los datos recogidos y en el
enmascaramiento de los mismos si procede.
Los Ensayos Clínicos deberán regirse por la Normas de Buenas Prácticas Clínicas
que aseguran que los estudios son científica y éticamente rigurosos y, que las propiedades
clínicas del producto farmacéutico están correctamente confirmadas. Estos estudios
precisan auditorías sistemáticas.
Posteriormente las hojas individuales de recogida de datos se volcarán en un
sistema informático. Se puede utilizar hojas de cálculo (Excell®) o programas de gestión
de bases de datos (Access®) para recabar toda la información o, directamente trascribir la
información en un programa estadístico (SPSS®). Cualquiera de los dos primeros podrá
volcar los datos en el tercero sin problemas para luego realizar los cálculos estadísticos.
En otros tipos de estudios la información se recoge a través de cuestionarios:
telefónicos, en papel o, más actualmente, online con cuestionarios integrados en algún
alojamiento en red.
PROCESAMIENTO Y ANÁLISIS DE LOS RESULTADOS: ESTADÍSTICA.

Una vez que tenemos ya toda la información recogida, bien en una hoja de cálculo
o en un programa de gestión de base de datos, se debe de llevar a un programa estadístico
(o se puede recoger directamente la información en este último como hemos visto antes,
aunque puede ser algo más engorroso).
Los programas estadísticos pueden realizar cálculos muy complejos estadísticos.
Para utilizarlos precisan unos conocimientos mínimos de estadística.
Es aconsejable, si uno no tiene muchos conocimientos en la materia, que delegue en
un estadístico.
Existe la posibilidad de recibir ayuda previa cita, en la Unidad de Metodología de
Investigación del Colegio de Médicos de Toledo, o si hemos conseguido algún tipo de
financiación, probablemente podamos dedicar parte de ella a contratar un estadístico.
CONFECCIÓN DEL INFORME FINAL

Una vez que tengamos todos los datos analizados tendremos que hacer una
recopilación de todos los resultados y, posteriormente elaborar unas conclusiones.
38
Cuando nos conceden diferentes ayudas, se debe hacer unos informes o memorias
anuales y un informe final con todas las conclusiones.
PUBLICACIÓN DE RESULTADOS
Finalmente debemos de difundir los resultados. Esto puede ser de varias formas:
 En congresos:
 Posters.
 Comunicaciones orales.
 Revistas biomédicas:
 Nacionales
 Internacionales: Hará falta un traductor.
 Tesis. Aquí pasará un tribunal.
Dependiendo de dónde se quiera dirigir la información se elaborará un documento
diferente.
Para los congresos dependiendo de cada Sociedad Científica hay diferentes criterios
de admisión de los trabajos. Habitualmente hay que mandar un resumen con unos
apartados mínimos: Introducción, Objetivos, Material y Método, Resultados y
Conclusiones. En ocasiones se puede decidir por parte del investigador si quiere que el
estudio sea llevado como poster o como comunicación oral. Los posters no tienen unas
medidas estándar y las comunicaciones las hay de diferentes tipos aunque se suelen hacer
el formato del tipo de Power Point®.
En las revistas biomédicas también existen diferentes criterios de selección y
diferentes requisitos.
Si es una revista en lengua inglesa hay que cuidar mucho el inglés, por lo que se
recomienda, salvo que seas muy talentoso en inglés, contratar un traductor.
En cuanto a las tesis, en principio se salen de este capítulo. Tienen unas normas
específicas. Normalmente existe un director de tesis. Y luego se defiende el trabajo frente a
un tribunal.
BIBLIOGRAFÍA:
 Investigación científica: diseño de estudios. En: J. M. Doménech. Fundamentos de
Diseño y Estadística.Ed. Signo. 11 Edición. Barcelona 2010.
 F. Rivas. Redacción de un protocolo de investigación en ciencias de la Salud. RAPD
Online 2010. Vol 33. Nº 3: 232-238.
39
 Rodríguez del Águila MM, Pérez Vicente S, Sordo del Castillo L, Fernández Sierra
MA. Cómo elaborar un protocolo de investigación en salud. Med Clin (Barc) 2007;
129-299-302.
 M. F. Fathalla, M. F. Fatalla. Guía práctica de investigación en la salud. Publicación
Científica y Técnica nº 620. Organización Panamericana de la Salud. Washington DC
2008.
 Normas de Buena Práctica Clínica. 2002. Disponible en:
http://www.aemps.gob.es/industria/inspeccionBPC/docs/guia-BPC_octubre-2008.pdf
40
CAPÍTULO 5
CONTEXTUALIZACIÓN DE LA INVESTIGACIÓN
Y BÚSQUEDA DE INFORMACIÓN
Mª Luisa Alonso Martín

Bibliotecaria, Comisión de Biblioteca. Complejo Hospitalario de Toledo.
Servicio de Urgencias, Jefe de Estudios y Presidente Comisión de Docencia, Comisión de Investigación.
Complejo Hospitalario de Toledo.
IMPORTANCIA DE POSICIONAR LA INVESTIGACIÓN EN EL CONTEXTO

DEL CONOCIMIENTO ACTUAL
Antes de poner una investigación en marcha, debemos conocer qué se sabe en ese
momento acerca de la materia que vamos a investigar, cuáles son las principales dudas a
resolver y, si es posible, en qué sentido se están moviendo los grupos de investigación en
esa área. Este posicionamiento previo se alcanza, habitualmente, a través de la revisión de
la literatura. Aún a día de hoy, el patrón oro para la transmisión de información científica
sigue siendo la publicación de artículos científicos en revistas especializadas. Y aunque
actualmente se han acortado los tiempos que transcurren desde que se tienen los resultados
de una investigación hasta que éstos están al alcance de la comunidad científica, sigue
persistiendo el hándicap real que supone el tiempo de demora que tienen la mayoría de las
revistas biomédicas de calidad para publicar los trabajos de investigación relevantes
(meses, y en algunos casos hasta más de un año). En los últimos años este problema se ha
solventado parcialmente mediante las ediciones online previas a las publicaciones escritas
por parte de muchas revistas científicas.
Esta contextualización puede resultar fácil para el investigador con una trayectoria
larga, pues conoce bien el terreno que pisa, pero puede ser todo un reto para el que se inicia
o el que pone en marcha una nueva línea de investigación. Errores en esta fase pueden
conducir a importantes pérdidas de tiempo, recursos, impacto y, a la postre, eficiencia. En
efecto, la elección de una línea en la que existen grandes expertos y poco campo por
ahondar, realizar un estudio que ya se ha realizado en diversas ocasiones con resultados
consistentes o preparar un diseño que no contesta a la principal pregunta que subyace en
ese campo específico llevará a resultados esperados, conocidos o no trascendentes. La
forma de evitar todo esto se consigue alcanzando un conocimiento profundo de la materia
de investigación antes de ponerse en marcha. En ocasiones, puede resultar útil integrarse
41
en grupos de trabajo del Hospital o de sociedades científicas, los cuales pueden tener
planes de acogida para los investigadores noveles o los grupos emergentes, de manera que
ayudan a conseguir una visión más clara y rápida de cuál es el estado actual de
conocimiento sobre una materia. El paso siguiente debiera ser constituirse en redes de
investigación de mayor alcance, ya sean nacionales o internacionales. De hecho, la
multidisciplinariedad y la multicentricidad permiten sumar casuística y, así, garantizan una
mayor aplicabilidad clínica de los resultados de estas investigaciones en red. Fruto de ello
es la proliferación de redes de investigación en EEUU, Europa o España, como se ha
mostrado en capítulos anteriores.
El conocimiento establecido y evidente (lo que se sabe) y la experiencia adquirida
con los años de ejercicio en la profesión (lo que se hace) continúan siendo vitales, pero es
imprescindible unir a ellos el conocimiento que surge de las investigaciones actuales,
novedosas, y que confirman o establecen nuevas actuaciones o prácticas. De lo dicho se
desprende la importancia de posicionar e integrar la investigación en curso en el contexto
del conocimiento actual.
FUENTES DE INFORMACIÓN
Las necesidades de información que surgen en la práctica diaria del residente son
muy heterogéneas y afectan a múltiples disciplinas clínicas. Por ello, todos los días surgen
preguntas múltiples y variadas de ámbito clínico. La necesidad de encontrar respuestas
transciende a la propia medicina. La investigación y la evaluación de la práctica clínica
requieren una amplia revisión bibliográfica por lo que resulta imprescindible conocer y
encontrar las fuentes de información básicas. Primero debemos conocer cuál es la amplia
cartera de fuentes de información disponible y, después, debemos seleccionar la más
adecuada.
Tradicionalmente las fuentes de información se clasificaban en primarias (artículos
científicos originales, libros de texto, etc.) y secundarias (incluyen una valoración crítica
de los documentos: revisiones sistemáticas, como las realizadas por la Colaboración
Cochrane, por ejemplo). En los últimos años este tipo de recursos secundarios que se
denominan pre-evaluados han proliferado. Ello llevó a Haynes a proponer una jerarquía de
los mismos a modo de pirámide, inicialmente con 4 pisos, y que posteriormente se ha ido
ampliando hasta el actual modelo de 6 pisos, que es lo que se conoce como modelo 6S, por
las iniciales de los términos que identifican cada uno de estos 6 pisos (Figura 1).
42
Figura 1: Pirámide de Haynes
La idea es que el investigador

debería comenzar la búsqueda de
información de calidad que apoye su toma
de decisiones en la parte más alta de la
pirámide e ir descendiendo hacia la base
cuando sea necesario por falta de
respuesta en los niveles superiores o por la
necesidad de mayor exhaustividad en la
información. Esta misma idea se puede trasponer absolutamente al investigador. La S
superior (de Sistemas) representa los sistemas informatizados de apoyo a la toma de
decisiones que pueden incluso integrarse con la historia clínica y que, desgraciadamente,
están aún muy poco implantados en nuestro entorno. La segunda S (de Sumarios) incluye
recursos como Clinical Evidence (http://clinicalevidence.bmj.com/), Dynamed
(http://dynamed.ebscohost.com/), UptoDate (http://www.uptodate.com/) o guías de
práctica clínica cuyas recomendaciones se basen en pruebas con el adecuado nivel de
evidencia científica. Una buena base de datos de guías de práctica clínica es National
Guideline Clearinghouse (http://www.guideline.gov/). En España existe el proyecto
GuíaSalud (http://portal.guiasalud.es). En el tercer nivel se encuentra las sinopsis de
síntesis, que resumen los resultados de revisiones sistemáticas de calidad. Las podemos
encontrar en DARE (http://www.crd.york.ac.uk/crdweb/AboutDare.asp) o en revistas
secundarias como ACP Journal Club (http://acpjc.acponline.org/) o Evidence Based
Medicine (http://ebm.bmj.com/). Descendiendo por la pirámide, la cuarta S serían las
síntesis (revisiones sistemáticas). El recurso más conocido para localizar este tipo de
revisiones sería la Cochrane Library (http://www.thecochranelibrary.com). En España se
puede consultar la versión española (Biblioteca Cochrane Plus) gracias a la suscripción del
Ministerio de Sanidad, Servicios Sociales e Igualdad (http://www.update-
software.com/Clibplus/ClibPlus.asp). En quinto lugar estarían las sinopsis de estudios, que
ofrecen resúmenes de un único estudio de calidad y que pueden encontrarse en revistas
secundarias como las ya comentadas. Finalmente, quedaría abandonar los recursos pre-
evaluados para tener que hacer la búsqueda en las fuentes tradicionales que permitirán
localizar estudios publicados en distintos medios tradicionales (y más específicamente en
las revistas científicas). En estos casos, corre por cuenta del lector su lectura crítica para
establecer su rigor y fiabilidad.
43
Sin embargo, debe destacarse que este sexto piso es especialmente trascendente
para la investigación, ya que permite conocer los detalles de cada una de las
investigaciones llevadas a cabo, los aspectos particulares del diseño, los sesgos de
inclusión o el tipo de análisis realizado a los datos obtenidos, y ello permite copiar o evitar,
en el diseño futuro del estudio que se está planteando, aquello que nos interese. Muchos
estudios pueden replicar metodologías o diseños previos con matices importantes de
nuestro interés particular y que pueden permitir contestar preguntas no respondidas o que
sólo obtuvieron respuestas parciales o no aplicables a nuestro entorno.
Toda esta información se encuentra compilada en bases de datos, la mayoría de las
cuales tienen actualmente un acceso electrónico y unos motores de búsqueda muy potentes
que hacen que lo que hace un par de décadas requería varias semanas, ahora se consigue en
unas pocas horas. Estas bases de datos se nutren esencialmente de revistas biomédicas, y
las revistas fundamentales se encuentran en casi todas ellas. Entre las bases de datos
bibliográficos tradicionales, PubMed (http://www.ncbi.nlm.nih.gov/pubmed/) es sin duda
la más consultada en el mundo, lo cual es posible debido a su larga existencia y a su acceso
gratuito. Otras bases internacionales que deben citarse son Embase
(http://www.embase.com/), Cinahl (especializada en enfermería,
http://www.ebscohost.com/cinahl/), Scopus (que pertenece a Elsevier, grupo editorial líder
en publicaciones científicas, http://www.scopus.com/home.url) y Web of Knowledge
(http://www.accesowok.fecyt.es/) que nos permite consultar diversos recursos
bibliométricos como la Web of Science, el Science Citation Index, el Science Citation
Index Expanded y el Journal Citation Report, este último responsable del cálculo y la
difusión anuales del factor de impacto de las revistas científicas. Es importante conocer
que, a fecha de hoy, la Fundación Española para la Ciencia y la Tecnología (FECYT) pone
a disposición de la comunidad científica la Web of Knowledge (WOK) mediante la compra
de licencias de alcance nacional y que permiten el acceso desde los hospitales,
universidades y centros de investigación que así lo soliciten. De esta forma se integra
diferente información científica que se encuentra dispersa a través de herramientas
informáticas unificadas, lo que aporta un valor añadido a través de servicios de acceso a los
recursos científicos, y por ello es interesante acceder a estos recursos a través de ella
cuando sea preciso. En un ámbito más local, para búsquedas de literatura española
deberíamos recurrir al Índice Médico Español (IME, http://bddoc.csic.es:8080/), al Índice
Bibliográfico Español en Ciencias de la Salud (IBECS, http://ibecs.isciii.es/) o incluso
alguna iniciativa privada como la base de datos MEDES (medicina en español,
44
https://www.medes.com/Public/Home.aspx). Finalmente, existen metabuscadores como

TRIP (http://www.tripdatabase.com) que recogen información de diversas fuentes de
medicina basada en la evidencia dispersas por la red.
Fuera ya de este esquema, habría que sumar a lo dicho buscadores más generales y
conocidos por todos, como Google o su versión académica (http://scholar.google.com),
buscadores específicos en ciencias de la salud como HON (http://www.hon.ch) o bancos de
datos de medicamentos como el Centro de Información de Medicamentos de la Agencia
Española de Medicamentos (http://www.aemps.gob.es/cima). Y por último, la web 2.0
ofrece herramientas que pueden utilizarse para formar, informar, compartir o actualizarse a
muy diferentes niveles. Sus aplicaciones profesionales son evidentes y pueden
desarrollarse mucho más.
HERRAMIENTAS DE BÚSQUEDA
Se puede definir la búsqueda bibliográfica como el conjunto de actividades
orientadas a la localización de la mejor evidencia científica disponible sobre un tema
determinado. Para ayudar al clínico, se ha propuesto el modelo PICO (Patient –
Intervention – Comparison – Outcome). A continuación, deberíamos seleccionar la fuente
de información que vamos a consultar y traducir la pregunta a los términos más adecuados,
en función de dicha fuente. En el caso de PubMed, deberíamos consultar los términos
MeSH. Otras bases de datos pueden utilizar diferentes tesauros (EMTREE en el caso de
Embase, DeCS en Lilacs o IBECS, etc.). Los términos seleccionados se combinarán para
construir la pregunta utilizando los operadores booleanos. Los más habituales son tres:
AND (Y, que corresponde a la intersección de conjuntos, e indica que ambos términos
deberán estar obligatoriamente en los resultados obtenidos), OR (O, que corresponde a la
unión de conjuntos y que conseguirá que alguno de los términos esté presente en los
resultados) y NOT (PERO NO, EXCEPTO, y que en este caso el término consignado
nunca aparecerá en los resultados) (Figura 2). Sin embargo, hay recursos que pueden
permitir otras opciones como NEAR (ambos términos aparecerán cercanos en los
resultados, separados por un número máximo de palabras que varía según el recurso) o
NEXT (ambos términos aparecen juntos). Frecuentemente, una frase entrecomillada se
busca literalmente como ha sido escrita. Cada recurso tiene sus reglas: debemos
informarnos bien para mejorar la calidad de los resultados y optimizar al máximo las
posibilidades que nos da el recurso.
45
Figura 2: Operadores booleanos

Según el caso, deberemos optar también
entre mayor exhaustividad o mayor pertinencia.
Simplificando podríamos decir que una mayor
exhaustividad se puede conseguir planteando
búsquedas muy trabajadas que tengan en cuenta
posibles sinónimos y variantes lingüísticas de
los términos que componen la búsqueda,
combinados con el operador OR y buscando en
todos los campos disponibles (título, resumen,
texto completo si procede, palabras clave, etc.).
La búsqueda por términos clave (en el caso de
PubMed, los términos MeSH o, más aún, los
MAJR o “major MeSH”) o limitada a campos
específicos (como puede ser el título), a tipos de
documento concretos (metanálisis, revisiones sistemáticas, consensos) o a determinadas
revistas (las principales de la especialidad, por ejemplo) disminuye el número de resultados
y, si está bien planteada, éstos deberían ser más adecuados a nuestros intereses pero,
lógicamente, el riesgo de pérdida de información es mayor. Hemos de encontrar, pues, el
justo término en función de nuestras necesidades de información.
Para mejorar nuestras búsquedas puede ser útil consultar alguna guía de uso o
tutorial. La mayoría de los recursos disponen de información en sus propias páginas. El
caso de PubMed es especialmente rico: en http://www.ncbi.nlm.nih.gov/books/NBK3830/
podemos encontrar el manual de ayuda completo; en
http://nnlm.gov/training/resources/pubmedguiabreve.pdf, una guía breve en castellano, y
en http://www.nlm.nih.gov/bsd/disted/pubmed.html#qt, tours rápidos, breves tutoriales
animados con audio sobre distintos aspectos de la búsqueda en PubMed. En este sentido,
también la FECYT ha hecho un especial esfuerzo de formación de usuarios para sus
recursos contratados. En http://www.accesowok.fecyt.es/?page_id=165 pueden
encontrarse tutoriales sobre distintos temas: cómo utilizar la Web of Science, cómo
consultar el factor de impacto o cómo buscar las citas que ha tenido un determinado
trabajo, entre otros. Por su parte, la Colaboración Cochrane recoge distintos recursos
formativos, algunos en español, sobre cómo utilizar la Cochrane Library en
http://www.thecochranelibrary.com/view/0/HowtoUse.html. En el caso de la edición
46
española, la Cochrane Library Plus ofrece unas breves recomendaciones de uso en

http://www.bibliotecacochrane.com/WebHelpSpecific/Using.htm. Finalmente, merece
destacarse el esfuerzo que viene realizando Bibliosaúde, la Biblioteca Virtual del Sistema
Sanitario Público Gallego, en formación de usuarios
http://www.sergas.es/MostrarContidos_N2_T01.aspx?IdPaxina=60608 y, en concreto, en
confeccionar manuales y guías de uso de muy distintos recursos; entre otros, las de las
principales bases de datos bibliográficas.
Al ser PubMed sin duda el recurso más utilizado para revisar la bibliografía, merece
la pena añadir algunos detalles sobre su funcionamiento a las recomendaciones generales
ya señaladas. A continuación se presentan algunos de ellos:
1.- Hay que tener en cuenta que siempre que introducimos términos directamente en
la caja de búsqueda de PubMed, el sistema procede a lo que se conoce como mapeo
de dichos términos: salvo que entrecomillemos los términos y/o indiquemos en que
campo queremos que busque (por ejemplo: “Internship and Residency” [MeSH]), el
sistema traduce nuestra pregunta mediante la comparación de los términos
propuestos con sus índices internos (términos MeSH y subencabezamientos, títulos
de revistas; otros listados procedentes de títulos, resúmenes, principios activos,
nombres de autores). Hay que estar atentos, pues, a cómo se produce el mapeo: es
una herramienta que pretende mejorar la búsqueda del usuario inexperto (la
enriquece con sinónimos y con la incorporación siempre en la estrategia de búsqueda
del término MeSH correspondiente). Podemos ver en qué se ha convertido nuestra
pregunta inicial en Search details (aparece en el margen derecho y podemos verlo
con más detalle seleccionando See more). En ocasiones deberemos reconducir la
traducción, por un mal planteamiento inicial de la búsqueda o por la excesiva
exhaustividad en la misma.
2.- Consultar los términos MeSH para construir nuestra búsqueda es siempre
recomendable, pero hemos de tener en cuenta que los artículos más recientes están
aún pendientes de ser indexados por Medline (es decir, de que se les asignen los
MeSH correspondientes a cada uno). Por tanto, una búsqueda limitada al campo
MeSH conlleva la pérdida de lo recién publicado como, por ejemplo, los artículos
que incluye PubMed en su versión pre-print (es decir, aceptados para su publicación
por las revistas pero aún no asignados a un número de la publicación impresa). Éstos
son los que aparecen como [Epub ahead of print].
47
3.- Entre las herramientas de búsqueda avanzada (advanced), tenemos la posibilidad

de combinar búsquedas previas que se conservan en el historial durante 8 horas. Es
una buena alternativa para evitar ecuaciones de búsqueda excesivamente complejas.
Si combinamos varios términos con diferentes operadores booleanos, hay que tener
en cuenta que el sistema resuelve dicha ecuación de izquierda a derecha y vigilar que
los paréntesis estén correctamente situados. No es lo mismo buscar “A OR B AND
C” que “C AND A OR B” pero sí lo sería si escribimos “C AND (A OR B)”.
4.- También durante 8 horas podemos conservar los resultados de las búsquedas en el
clipboard. Se eliminan referencias duplicadas y nos permite ordenarlas por distintos
criterios antes de imprimir, enviar por correo electrónico o guardar definitivamente
en nuestras colecciones de My NCBI.
5.- Otra posibilidad interesante es utilizar los filtros metodológicos que ha creado
PubMed para determinadas búsquedas. Se accede a esta opción pinchando Clinical
Queries (dentro de More Resources, en la pantalla de búsqueda avanzada o en la
pantalla de inicio). Los filtros desarrollados hasta el momento son:
 Clinical Study Categories: basados en el trabajo de Haynes RB et al., permiten
localizar artículos que correspondan a una de las siguientes categorías: etiology,
diagnosis, therapy, prognosis o clinical prediction guides. Puede elegirse, en
función de nuestros intereses, si queremos una búsqueda sensible (más
exhaustiva) o específica (menos artículos, pero más relevantes).
 Systematic Reviews: permite localizar revisiones sistemáticas, metanálisis,
revisiones de ensayos clínicos, conferencias de consenso, medicina basada en la
evidencia y guías clínicas.
 Medical Genetics: permite hacer búsquedas específicas de temas genéticos,
según la categoría que seleccionemos (diagnóstico, consejo genético, genética
molecular, etc.)
6.- Por último, merece la pena recomendar la apertura de una cuenta personal en
PubMed. Se accede desde el enlace que aparece en la parte superior derecha “Sign in
to NCBI”. El funcionamiento es muy sencillo: la primera vez, deberemos
registrarnos “Register for a NCBI account”, siguiendo las instrucciones. A partir de
ahí y siempre que estemos identificados, podemos:
 Salvar búsquedas: basta con “pinchar” la opción Save Search que aparece
bajo la caja de búsqueda de PubMed. La búsqueda que hayamos realizado se
guardará en nuestra cuenta My NCBI. El sistema nos ofrece la posibilidad de
48
recibir correos electrónicos periódicamente con las nuevas referencias. Si no

lo deseamos, podemos entrar periódicamente en nuestra cuenta y actualizar
las búsquedas cuando nos parezca oportuno. Basta con pinchar en What's
New y veremos lo que se haya incorporado a PubMed desde la vez anterior.
 Guardar las referencias que nos interesen en carpetas ordenadas por temas,
según nuestra conveniencia. Tan sólo hay que seleccionar Collections en el
menú Send to. Los artículos que hayamos marcado se guardarán en una
carpeta nueva (el sistema nos deja que le pongamos el nombre que nos
interese) o se añaden a alguna de las que ya tengamos creadas. Además, en
My NCBI podemos decidir si una colección concreta queremos que sea
privada (por defecto) o pública. En este caso, se nos muestra una url:
cualquiera que la conozca podrá ver nuestra colección. Es una posibilidad
interesante para compartir información.
 Mantener actualizado nuestro currículo en lo relativo a publicaciones.
Tenemos la posibilidad de crear una colección especial My Bibliography. En
ella podemos incluir automáticamente (también desde Send to) nuestros
artículos incluidos en PubMed pero también añadir a mano otras referencias
(artículos que no están en PubMed, libros o capítulos de libros,
comunicaciones, etc). El sistema nos presentará en cada caso los campos
necesarios para cada tipo de publicación. Esta colección también podemos
hacerla pública si nos interesa.
 Podemos gestionar nuestros filtros favoritos lo que puede ser especialmente
cómodo ya que la nueva disposición de los antiguos Limits como Filters a la
izquierda de la lista de resultados resulta un tanto farragosa de manejar y
obliga a incorporar manualmente los que no se muestran por defecto (Show
additional filters). Los que elijamos en My NCBI aparecerán
sistemáticamente a la derecha de la lista de resultados (opción Manage
Filters).
 Podemos preguntar en nuestra biblioteca si tenemos opción de utilizar la
herramienta Outside Tool para enlazar PubMed con los fondos bibliográficos
de que ella disponga. Si es así, nos darán las instrucciones para configurar
esta posibilidad.
Una vez que tengamos hecha la búsqueda y recogidas las referencias que nos
interesan, puede ser de gran utilidad disponer de algún gestor bibliográfico. Los gestores
49
bibliográficos son programas que almacenan, organizan y gestionan referencias

bibliográficas. Estas referencias pueden incorporarse directamente desde las principales
bases de datos bibliográficas o introducirse manualmente. Permiten detectar archivos
duplicados, lo que resulta especialmente útil si buscamos en varias bases de datos. Son de
gran ayuda a la hora de publicar por cuanto permiten incorporar automáticamente las citas
y las referencias bibliográficas en los manuscritos de un procesador de textos mediante la
instalación de un software de conexión (plug-in) en el formato concreto que solicite la
revista (por ejemplo, Vancouver). En este sentido, además de los ya clásicos Reference
Manager, EndNote (su versión web está incluida en la licencia de la WOK) o Refworks,
actualmente está disponible toda una nueva generación de gestores bibliográficos gratuitos
en Internet, algunos con versión de escritorio sincronizada con la versión online, como es
el caso de Zotero (http://www.zotero.org) o Mendeley (http://www.mendeley.com).
Muchos de ellos permiten adjuntar los pdf a la referencia bibliográfica, lo que les convierte
en una estupenda herramienta para organizar nuestras colecciones personales de
documentos electrónicos. Como buenos hijos de su tiempo permiten compartir las
referencias con otros usuarios (marcación social o social bookmarking) y recolectar
referencias desde las propias páginas de la red en que las visualizamos. Hay recopilada
información sobre muchos de ellos en esta página de la Universidad Politécnica de
Valencia: http://poliscience.blogs.upv.es/investigadores-2/gestores-de-citas/tutoriales/
DISCRIMINACIÓN DE LA CALIDAD DE LA INFORMACIÓN. MEDICINA

BASADA EN LA EVIDENCIA, LECTURA CRÍTICA.
El número de nuevos artículos que se publican cada mes con potencial de interés
para el investigador es muy elevado. Las nuevas tecnologías y la aparición de internet han
revolucionado el acceso a la información y han transformado las bibliotecas virtuales de
las ciencias de la salud, pero sería imposible poder leer ni siquiera el 1% de todos ellos.
Así, se hace necesario que exista un filtro de información. Con este fin, la llamada
medicina basada en la evidencia (MBE) ha propiciado nuevas fuentes de información que
filtran y evalúan la investigación original en función de su calidad, relevancia y pertinencia
clínica.
Muchos sistemas de salud facilitan un acceso corporativo a estas fuentes de
información, lo que hace que exista un sistema homogéneo y accesible para todos los
médicos. Esto facilitaría poner en práctica la MBE, pero existen algunas barreras en contra,
como pueden ser la inaccesibilidad a las fuentes de información fiables y de calidad (el
50
buscador más común sigue siendo Google), la falta de tiempo, la necesidad de mayores
conocimientos y formación del residente investigador sobre evaluación crítica o, incluso, el
pensamiento generalizado que todavía existe de incompatibilidad entre el médico
asistencial y el investigador. Por ello se propone que el investigador tenga accesibilidad
desde su lugar de trabajo a la mejor información científica disponible a través de acceso a
internet rápido y sin limitaciones (lo que no ocurre en la actualidad en muchos centros),
que se mantenga la consulta de todos a la biblioteca Cochrane Plus (hoy en día el
Ministerio de Sanidad, Servicios Sociales e Igualdad tiene una licencia para todo el
territorio nacional) y facilitar a través de las bibliotecas virtuales la consulta a una serie de
recursos de calidad como son las revistas biomédicas relacionadas con la especialidad de
cada residente y especialidades afines, UpToDate, Clinical Evidence, Dynamed, Fisrt
Consult, Essential Evidence Plus, etc. Pero, para poder emplear correctamente este
inmenso arsenal de información, debe acompañarse de una formación básica en búsqueda
de información y lectura crítica.
Como ya hemos comentado la investigación biomédica produce actualmente una
gran cantidad de información científica, disponible en grandes bases de datos electrónicas.
El punto crucial es poder distinguir si lo que leemos es realmente creíble, es decir, si es
aceptable según la idea que poseemos sobre el tema para poderlo incorporar a nuestra
práctica diaria con seguridad. La MBE ha demostrado con claridad como la información o
el conocimiento que no ha sido verificado puede llegar a incorporarse por décadas en la
práctica clínica con resultados opuestos a los esperados o sin ser confirmados con el paso
del tiempo o, incluso, con importantes efectos secundarios no tenidos en cuenta durante
muchos años. Un ejemplo es lo que ocurrió durante mucho tiempo con la combinación de
diuréticos y digitálicos en el tratamiento de la IC (insuficiencia cardiaca) que se basó,
sobre todo, en la constatación empírica de que los pacientes tratados con ambos
experimentan rápidamente una notable mejoría en sus síntomas y signos clínicos. Dado
que ambos grupos de fármacos se utilizaban sistemáticamente en combinación, existían
pocos datos acerca del papel de cada uno de ellos por separado y dudas razonables
relacionadas con la persistencia en el tiempo de esta mejoría sintomática.
La introducción del metanálisis constituyó un notable avance en el conocimiento y
sobre todo destacó la necesidad de emprender estudios con el poder estadístico suficiente
para demostrar con robustez la hipótesis de trabajo. Las revisiones sistemáticas se sitúan en
la cima de la pirámide de la evidencia, y las revisiones Cochrane ocupan el lugar más
51
privilegiado dentro de ellas. Los profesionales sanitarios, los investigadores y los gestores
sanitarios se apoyan más que nunca en la evidencia sintetizada.
En 1992 en JAMA se publica Evidence Based Medicine Working Group
(EBMWG) donde se llama la atención sobre el nuevo paradigma de la práctica médica que
pone énfasis en el análisis de la evidencia aportada por la investigación, en lugar de la
intuición, la experiencia clínica no sistemática y el razonamiento fisiopatológico. En 1996,
Sackett definió la MBE como “la utilización consciente, explicita y juiciosa de la mejor
evidencia científica clínica disponible para tomar decisiones sobre el cuidado de los
pacientes”. El desarrollo de la MBE está fuertemente enraizado al pensamiento de un
eminente clínico y epidemiólogo británico, el doctor Archie Cochrane, que hoy en día se
mantiene latente con la organización Cochrane, un organismo internacional que intenta
ayudar a que los profesionales tomen decisiones bien informadas mediante la preparación,
actualización y garantía de la accesibilidad de las revisiones sistemáticas de los efectos de
las intervenciones de la salud. En 1997, se inauguró el centro Cochrane Español.
¿Cómo definimos hoy en día Medicina Basada en la Evidencia? Por MBE
designamos a la práctica de la medicina basada en la integración de la experiencia clínica
de cada médico (es decir, el dominio del conocimiento y el juicio clínico adquirido) con las
mejores conclusiones y descubrimientos provenientes de la investigación clínica para la
toma de decisiones en la atención de cada paciente. El conocimiento científico es crítico
porque intenta distinguir entre lo verdadero y lo falso. Al demostrar que es cierto, queda
fundamentado.
¿Y qué entendemos por lectura crítica? Se trata del proceso de evaluar e interpretar
la evidencia aportada por la literatura científica, considerando sistemáticamente los
resultados que se presenten, su validez y su relevancia para el trabajo propio. Así, su
propósito es descubrir si el método y los resultados de una investigación son
suficientemente válidos para producir información útil. Entre la gran cantidad de
información se trata de descubrir la de calidad sabiendo en qué fuentes se debe buscar y de
qué fuentes se puede uno fiar.
Debido a que la práctica basada en la investigación depende de los hallazgos de
estudios científicos publicados, cada estudio de investigación debe ser evaluado
críticamente, no solo para determinar su método científico (validez) sino también su
importancia, su novedad y su utilidad (puesta en práctica). Al concluir una lectura crítica
deben valorarse tanto los aspectos negativos como los positivos. Dado que los estudios
presentan limitaciones y debilidades, la clave es evaluar el impacto del estudio en su
52
globalidad. Se han propuesto múltiples pautas. Lo más importante es ser sistemático y

analizar, en su justa medida, todas las partes del artículo. Tanto en artículos con
metodología cuantitativa como cualitativa, existen tres fases que permitirán estructurar la
lectura crítica: 1) la del análisis preliminar de parámetros como el título, autores y
resumen; 2) la de la capacidad del artículo de responder a la pregunta clínica; y 3) la del
análisis del diseño metodológico. Todo ello facilitará la evaluación de la calidad en el
diseño y contenido de los artículos que nos encontremos, tanto si la finalidad de este
análisis es trasladarlos a la práctica clínica o ser punto de partida de nuestro futuro estudio
de investigación.
OTRAS FUENTES DE INFORMACIÓN

Aparte de las revistas científicas, que son consideradas como las fuentes de
información primarias más importantes desde el punto de vista cuantitativo y cualitativo,
hay otras que pueden resultar de interés para el investigador e incluso pueden llegar a ser
las únicas en alguna materia o momento. Es el caso de las comunicaciones a congresos,
tesis, capítulos de libros, citas de páginas web, etc. Algunas han venido formando parte de
lo que tradicionalmente se ha denominado “literatura gris” (no convencional,
semipublicada, invisible o, simplemente, no distribuida por los cauces ordinarios de
publicación comercial).
La publicación y distribución de los libros de actas de comunicaciones a congresos
ha sido manifiestamente mejorable en la era papel y tampoco acaba de resolverse en plena
era digital. Tradicionalmente, en el mejor de los casos, se publicaban como suplemento o
número especial de la revista de la sociedad científica organizadora. En otros simplemente
se entregaba en mano a los asistentes. PubMed no “vacía” estos números especiales; se
limita a recogerlos como un registro único de la base de datos. Hoy en día, en la era digital,
siguen siendo pocas las sociedades científicas que mantienen actualizado y consultable su
“histórico” de congresos aunque hay ejemplos interesantes. La ya citada WOK incorpora
dentro de la Web of Science los antiguos “ISI Proceedings” que recogen Información
bibliográfica y resumen del autor de más de 2 millones de ponencias presentadas en cerca
de 60.000 reuniones científicas desde 1990. Es una de las herramientas que más han
contribuido a “visibilizar” estos documentos. Pero, indudablemente existe una gran parte
de estos documentos que permanecen “invisibles” para el investigador o resulta muy difícil
su recuperación para ser consultados.
53
En cuanto a las tesis, el Ministerio de Educación aloja en sus servidores Teseo

(http://www.educacion.gob.es/teseo/irGestionarConsulta.do) un sistema de gestión de tesis
doctorales a nivel nacional. Recoge información de tesis doctorales desde 1976 y
proporciona herramientas para el seguimiento y consulta de cada ficha de tesis, desde que
se da de alta y se incorporan los datos de la ficha de tesis al sistema hasta que se publica en
Internet tras su lectura y aprobación (más información en
https://www.educacion.gob.es/teseo/teseo/abrirAyuda.do). Por otra parte, las universidades
españolas están apostando por la creación de sistemas que permitan difundir sus tesis
doctorales y otros materiales académicos. Algunos ejemplos son:
- Tesis Doctorales: Archivo Institucional "E-Prints Complutense"
http://eprints.ucm.es/ (Universidad Complutense de Madrid, recoge más de 6000
tesis a texto completo en acceso abierto).
- DIALNET http://dialnet.unirioja.es/servlet/portadatesis (base de datos de tesis
doctorales de la Universidad de Extremadura, Universidad de La Rioja, Universidad
Pública de Navarra).
- Tesis Doctorales en Red http://www.tesisenred.net/ (repositorio cooperativo,
patrocinado por la Generalitat de Cataluña, que tiene depositadas en formato digital
más de 13.000 tesis leídas en las universidades catalanas y de algunas otras CCAA,
como Baleares, Valencia, Murcia, Asturias, Cantabria. Pueden consultarse, además,
más de 36.000 tesis de otras universidades españolas).
Además se pueden encontrar enlaces a proyectos internacionales en estas mismas
páginas.
La accesibilidad universal a las páginas web médicas y la diversidad de su procedencia
y rigor, así como su “recuperabilidad” en el tiempo, hacen necesario que contrastemos la
calidad de los contenidos relacionados con la medicina en Internet. Con el fin de ayudar a
los pacientes y profesionales a seleccionar la información sanitaria en Internet se han
desarrollado una serie de códigos de ética y conducta que suelen acompañarse de unos
“sellos de confianza o etiquetas de calidad” que certificarían la calidad y validez de la
información y de los responsables de las páginas web médicas. El sello de calidad más
extendido a nivel internacional es el HONcode (de la Health on the Net Foundation
o“Fundación Salud en la Red”) (http://www.hon.ch/HONcode/Spanish) (Figura 3) y a
nivel nacional el que otorga el Colegio Oficial de Médicos de Barcelona a través de la Web
Médica Acreditada (WMA) (http://wma.comb.es/esp/codi.htm). (Figura 4). De esta forma
la información que consultemos de páginas web que posean estos sellos de calidad nos
54
debería ofrecer una garantía científica y de rigor tanto de los contenidos como de sus
autores y responsables.
Figura 3: Sello de Hon Code Figura 4: Sello de la Web Médica Acreditada
BIBLIOGRAFÍA
- Esper R.J, Machado R.A. La investigación en medicina. Bases teóricas y prácticas.
Elementos de Bioestadística. Buenos Aires: Prensa Médica Argentina; 2008.
- Miró i Andreu O. Manual básico para el urgenciólogo investigador. De la idea original a
la publicación final. Madrid: Ergón; 2013.
- Bobenrieth Astete MA. Mitos y realidades en torno a la publicación científica. Med Clin
(Barc). 2000;114:339-341.
- Sacket DL, Rosenberg WMC, Muir JA, Haynes RB, Richardson WS. Evidence based
Medicine: what it is and what it isn´t. Br Med J. 1996;312:71-2.
- ISI Web of Knowledge. Journal Citation Reports. (Consultado 4 Julio 2012). Disponible
en: http://sauwok.fecyt.es.
- Jiménez Villa J, Argimon Pallàs JM, Martín Zurro A, Vilardel Tarrés M. Publicación
científica biomédica. Cómo escribir y publicar un artículo de investigación. Barcelona:
Elsevier España S.L; 2010.
- Huang X, Lin J, Demner-Fushman D. Evaluation of PICO as a knowledge
representation for clinical questions. AMIA Annu Symp Proc. 2006:359-63.
- DiCenso A, Bayley L, Haynes RB. Accessing preappraised evidence: fine tunning the
5S model into a 6Smodel. ACP J Club 2009;151:JC·-2-JC3-3.
- Iñesta García A. Webs y buscadores en Ciencias de la Salud [Internet], 2ª ed. Madrid :
Escuela Nacional de Sanidad, Instituto de Salud Carlos III; 2012 [consultado 29 de
junio de 2012]. Disponible en: http://publicaciones.isciii.es/
- Haynes RB, Wilczynski NL. Optimal search strategies for retrieving scientifically
strong studies of diagnosis from Medline: analytical survey. BMJ.
55
2004;328(7447):1040. Disponible en:

http://bmj.bmjjournals.com/cgi/content/full/328/7447/1040 [Consultado:29 de junio de
2012]
- Haynes RB, McKibbon KA, Wilczynski NL, Walter SD, Werre SR; Hedges Team.
Optimal search strategies for retrieving scientifically strong studies of treatment from
Medline: analytical survey. BMJ. 2005;330(7501):1179. Disponible en:
http://bmj.bmjjournals.com/cgi/content/full/330/7501/1179 [Consultado:29 de junio de
2012]
- Montori VM, Wilczynski NL, Morgan D, Haynes RB; Hedges Team. Optimal search
strategies for retrieving systematic reviews from Medline: analytical survey. BMJ.
2005;330(7482):68. Disponible en:
http://bmj.bmjjournals.com/cgi/content/full/330/7482/68 [Consultado: 29 de junio de
2012]
56
CAPÍTULO 6
LOS CUESTIONARIOS Y LAS ENCUESTAS DE OPINIÓN

Servicio de Oftalmología, Comisión de Investigación. Complejo Hospitalario de Toledo.
EL UNIVERSO Y LA MUESTRA. TAMAÑO DE LA MUESTRA. TÉCNICAS DE

MUESTREO
1.1 EL UNIVERSO Y LA MUESTRA
Los cuestionarios y escalas son instrumentos que nos permitirán cuantificar una
gran diversidad de situaciones de forma validada y reproducible. El cuestionario es una
técnica eficaz ampliamente aplicada en investigación para recoger información en un
tiempo breve. Consiste en un formulario que se debe rellenar a través de las respuestas del
sujeto, y recoge de forma organizada los indicadores de las variables implicadas en el
objetivo de la investigación. Su construcción, aplicación y tabulación poseen un alto grado
científico y objetivo. La encuesta consiste en aplicar un cuestionario estándar a una
muestra representativa de un determinado universo poblacional.
1.2 TAMAÑO DE LA MUESTRA
El tamaño de la muestra vendrá dado por la mayor o menor homogeneidad del
universo (es decir, por la varianza poblacional), por el nivel de confianza o coeficiente de
fiabilidad con el que se quiera contar (esto es, la probabilidad con la que queremos contar
para afirmar que los datos que nos suministra la muestra son iguales a los que nos
proporcionaría el universo), y por el error de la muestra (esto es, con qué margen de error
podemos decir que el número de personas que se decantan por una u otra opción es igual al
que resultaría de haber preguntado a la totalidad del universo).
Para el cálculo del tamaño de la muestra se utilizan distintas fórmulas, dependiendo de si
se trata de poblaciones o universos infinitos (aquellas que cuentan con más de 100.000
elementos) o finitas.
1.3 TÉCNICAS DE MUESTREO
El muestreo puede ser probabilístico y no probabilístico. La diferencia radica en
que en el muestreo probabilístico todos los elementos del universo tienen las mismas
posibilidades de ser seleccionados, ya que se realiza al azar evitando el sesgo de selección
por parte del investigador. Sin embargo el hecho de que una técnica de muestreo sea
probabilística no siempre implica que sea representativa de la población que queremos
57
estudiar y también pueden obtenerse muestras representativas por muestreos no

probabilísticos.
1.3.1 Muestreo probabilístico
Existen distintos métodos para hacer un muestreo probabilístico. Los más usuales son los
siguientes:
a) Muestreo aleatorio simple: Todos los elementos de la muestra tienen la misma
posibilidad de ser elegidos. Para ello se asigna un número a cada uno de los individuos que
componen la muestra y se seleccionan mediante números aleatorios. Existen múltiples
tablas y sistemas de números aleatorios disponibles para su uso en la red.
b) Muestreo aleatorio estratificado: Intenta que la muestra presente la misma distribución
que la población en relación con determinadas variables que se sabe que pueden influir en
los resultados. Se divide en subconjuntos o estratos el universo de tal modo que el interior
de cada subconjunto es homogéneo y distinto del de los otros subconjuntos. A
continuación se escoge una muestra aleatoria de cada estrato. Pongamos el siguiente
ejemplo: Supongamos que queremos analizar la prevalencia de depresión en una población
mediante la aplicación de un cuestionario. Si sabemos que la edad y el sexo son variables
que pueden influir en los resultados debemos establecer estratos con dichas variables y que
además sean comparables con la distribución en la población de estudio. En general con el
muestreo aleatorio estratificado se obtienen estimaciones más precisas que con el muestreo
aleatorio simple. No obstante en aquellos casos en los que alguno de los estratos de la
muestra no tenga un tamaño suficiente en relación a la población, se puede modificar la
proporción de los estratos.
c) Muestreo en múltiples etapas: Esta técnica consiste en seleccionar unidades de muestreo
de una población (unidades primarias) y en una segunda etapa obtener una muestra de cada
una de las unidades primarias (unidades secundarias). Por ejemplo si tratamos de realizar
una encuesta sobre la información de la que disponen los médicos de un área sanitaria
sobre el tratamiento de la diabetes, se pueden seleccionar primero de forma aleatoria los
centros de atención primaria y después en cada centro los médicos que van a ser
encuestados. Esta técnica es muy útil cuando la población de referencia es muy grande y
dispersa, como la población escolar de Castilla la Mancha o los habitantes de Madrid por
ejemplo.
d) Muestreo sistemático: Se trata de aplicar una regla sistemática simple para elegir a uno
de cada n individuos. Pongamos un ejemplo: Si queremos obtener una muestra de 200
historias clínicas de un total de 1000, primero se calcula la constante de muestreo (k),
58
dividiendo el total de la población (1000) por el tamaño de la muestra (200), siendo el

resultado de k= 5. Se escoge al azar un número entre el 1 y el 5 y supongamos que es el 3.
A partir de ahí se sumarán 5 a cada historia sacada (la siguiente historia sería 3+5=8) y así
sucesivamente hasta sacar las 200 historias. El muestreo sistemático es más fácil de aplicar
que el muestreo aleatorio simple.
Tipo de muestreo
Ventajas Desventajas
probabilístico
-Listado previo de toda la
-Sencillo.
población.
Aleatorio simple -Cálculo rápido de medias y
-Si la muestra es pequeña puede
varianzas.
que no sea representativa.
-Muestra representativa de la -Conocer la distribución de las
población de una variable variables de estratificación en la
determinada. población.
Aleatorio estratificado
-Estimaciones más precisas -Listado previo de toda la
Distintas fracciones en cada población.
estrato. -Cálculo más complejo.
Eficiente si la población es Estimaciones menos precisas
Etapas múltiples
grande o dispersa. Cálculo complejo.
-Fácil.
-No necesita listado de toda la
población. Si la constante de muestreo está
Sistemático -Si la población está ordenada asociada con el fenómeno de
siguiendo una tendencia interés puede haber sesgos.
conocida conlleva mayor
representatividad.
Tabla 1. Tipos de muestreos probabilísticos
1.3.2 Muestreo no probabilístico

La selección de individuos para integrar la muestra no se realiza por azar con lo que no se
sabe la posibilidad de que un individuo entre a formar parte de la muestra. Existen diversos
tipos de muestreos probabilísticos:
a) Muestreo consecutivo: consiste en seleccionar a los pacientes que cumplen los criterios
de inclusión en el estudio a medida que acuden a la consulta durante un periodo
determinado. Es la técnica más utilizada en los ensayos clínicos.
b) Inclusión de voluntarios: No es la técnica más recomendable, dado que los motivos por
los que el individuo se ofrece voluntario pueden alterar la representatividad de la muestra.
c) Muestreo por cuotas: Si se conoce previamente la composición de la población de
referencia en cuanto a una variable (edad, sexo, nivel educativo, etc.) se determina el
número de personas necesario para llenar cada una de las cuotas.
d) Muestreo por criterios razonados: en los casos en los que la población y la muestra son
pequeños, se puede escoger los individuos más representativos de la muestra
59
TIPOS DE CUESTIONARIOS
2.1 CUESTIONARIO RESTRINGIDO O CERRADO
Solicita respuestas breves, específicas y delimitadas y anticipa las posibles alternativas de
respuestas. Pueden ser:
- Respuestas dicotómicas): Sí o No.
-Varias alternativas de respuestas: donde se señala uno o más ítems (opción o categoría) en
una lista de respuestas sugeridas. Como no es posible prever todas las posibles respuestas,
conviene agregar la categoría “Otros” o “Ninguna de las Anteriores”, según sea el caso. En
otras ocasiones, el encuestado tiene que jerarquizar opciones o asignar una puntuación a
una o diversas cuestiones.
Como ventajas señalar el menor esfuerzo por parte de los encuestados, limita las respuestas
de la muestra, mantiene al sujeto en el tema, es relativamente objetivo y es fácil de
clasificar y analizar.
2.2 CUESTIONARIO NO RESTRINGIDO O ABIERTO
Las preguntas abiertas no delimitan de antemano las alternativas de respuesta. Las
preguntas abiertas son particularmente útiles cuando no tenemos información sobre las
posibles respuestas de las personas o cuando esta información es insuficiente. Como
características de estos cuestionarios señalar que necesita un cierto nivel cultural por parte
del encuestado (necesita saber expresar sus ideas de forma escrita) si bien proporciona
respuestas de mayor profundidad. Es de difícil tabulación, resumen e interpretación.
2.3 CUESTIONARIO MIXTO
Incluyen en su construcción tanto preguntas cerradas como abiertas.
DISEÑO DE CUESTIONARIOS
3.1. REQUERIMIENTOS PARA LA CONSTRUCCIÓN DE UN
CUESTIONARIO:
 Describir los aspectos (variables) que se consideran importantes de incluir.
 Determinar el propósito del cuestionario: tema significativo.
 Título del proyecto, aspecto o tema a que se refiere, y breve indicación de su
contenido. Las instrucciones deben ser claras y completas.
 Datos generales: Institución, fecha, nombre del encuestador, etc.
 Establecer la mejor secuencia de dichos aspectos o temas.
 Los términos importantes deben estar definidos.
 El cuestionario no ha de ser demasiado largo.
3.2 SELECCIÓN Y REDACCIÓN DE LAS PREGUNTAS:

- Evitar preguntas ambiguas
- No usar términos vagos como: en ocasiones, a menudo.
- No formular las preguntas en forma negativa
- No formular dos preguntas en una
- Un concepto, una pregunta
- Lenguaje sencillo.
- No sobrevalorar la memoria de los encuestados
- Utilizar preguntas cerradas para las cuestiones personales
- Usar preguntas neutras
- No es conveniente iniciar el cuestionario con preguntas difíciles o muy directas.
- Evitar un número de opciones elevado en las preguntas cerradas
-Considerar todas las opciones posibles en las preguntas cerradas
- En las preguntas cerradas cuando sólo se pueda elegir una opción , estas deben ser
mutuamente excluyentes
- Ordenar lógicamente las alternativas.
VALIDACIÓN DE CUESTIONARIOS
Al aplicar un cuestionario resulta interesante que el cuestionario ya ha demostrado
su fiabilidad y validez en otros estudios para así poder comparar sus resultados. Si no lo
hubiera, es necesario diseñar un nuevo cuestionario y validarlo antes de aplicarlo.
a) VIABILIDAD
Lo deseable es que el tiempo para completar el cuestionario sea el mínimo posible. La
escala de puntuación debe ser fácil de entender así como el registro de respuestas y su
codificación.
b) FIABILIDAD
Datos fiables son aquellos que resultan creíbles porque ofrecen los mismos resultados en
diferentes ocasiones en el tiempo y por diferentes observadores. Para analizar la fiabilidad
en variables cualitativas se utiliza el índice kappa y en variables cuantitativas el índice de
correlación intraclase. Para que el cuestionario sea fiable, han de cumplirse tres
condiciones:
1. Repetibilidad o fiabilidad test- retest
Un cuestionario tendrá una buena repetibilidad cuando realizado sobre una misma
población en dos momentos diferentes en el tiempo se obtengan resultados idénticos o
61
similares. Las enfermedades crónicas pueden tener una buena repetibilidad dado que los
síntomas no suelen variar mucho en el tiempo.
2. Fiabilidad interobservador
Evalúa el grado de concordancia entre dos o más observadores.
3. Consistencia interna
Se refiere a si los ítems de un cuestionario presentan homogeneidad entre ellos. Para medir
la consistencia interna de un cuestionario se utiliza el índice alfa de Cronbach, que expresa
la consistencia interna entre tres o más variables. Los valores del índice oscilan entre 0 y 1
y se acepta que un valor por encima de 0,7 indica una buena consistencia interna. En
ocasiones para hacer el cuestionario más rápido se plantea eliminar ítems, lo cual no
siempre aumenta la consistencia interna.
c) SENSIBILIDAD AL CAMBIO
Se refiere a la capacidad de un instrumento para detectar cambios clínicos significativos en
la variable que se está midiendo. Por eso la escala con la que se miden las respuestas,
cuantas más categorías tenga, más sensible será el cuestionario.
d) VALIDEZ
Se refiere a la capacidad de un cuestionario para medir aquello para lo que ha sido
diseñado.
1. Validez lógica
La pregunta tiene mayor validez lógica cuanto más directamente identifique lo que
queremos medir.
2. Validez de contenido
Se puede considerar que un cuestionario es válido por su contenido, si contempla todos los
aspectos relacionados con el concepto a estudio. El número de preguntas de cada área
dependería de la importancia relativa de ese aspecto concreto.
3. Validez de criterio
Cuando exista un método de medida con validez demostrada, debe evaluarse la validez de
criterio del cuestionario. En algunos casos, el cuestionario puede validarse comparándolo
con pruebas bioquímicas o radiológicas, o bien con los datos de la historia clínica u otros
cuestionarios ya validados. Cuando la escala de medida es cualitativa se utilizan la
sensibilidad y especificidad para determinar la validez de criterio, y si la escala es
cuantitativa se utiliza el coeficiente de correlación intraclase.
4. Validez de concepto o constructo
62
A veces es imposible determinar la validez de criterio y en estos casos se determina la

validez de concepto o constructor. Para ello se determina la validez discriminante o la
capacidad para distinguir entre subgrupos de pacientes con distintos niveles de la situación
clínica que queremos medir. Otra opción es comparar grupos extremos seleccionado por
ejemplo los que tienen puntuaciones más altas en el test y los que tienen las más bajas. Sin
embargo esta comparación puede que no sea suficiente para determinar la validez de
concepto, puesto que alguna característica que midamos puede aparecer en diferentes
fases de la enfermedad. Otra estrategia es comprobar si en el cuestionario determinadas
características se relacionan con otras variables que según la literatura están relacionadas
(validez convergente) o no (validez divergente).
ENVIO Y RECOGIDA DE CUESTIONARIOS

La forma de obtener la información del cuestionario puede ser o bien dejando que
el propio encuestado lo rellene (autocumplimentadas) o bien con la ayuda del encuestador.
En el primer caso, la recogida de datos suele ser a través de los servicios postales o
mediante correo electrónico. Si existe un encuestador la forma más utilizada por tener un
coste aceptable, es la encuesta telefónica.
Tipo de encuesta Ventajas Desventajas
Mínimo nivel cultural.
Preguntas simples y cerradas.
Bajo coste.
No permite aclarar dudas mientras se
Mayor muestra.
realiza.
Autocumplimentadas No hay sesgo del
Dificultad en el envío por correo.
entrevistador.
No se ven respuestas emocionales.
Comodidad.
No se sabe si el encuestado contesta
sólo.
Alto porcentaje de respuestas.
Mayor control.
Alto coste.
Resuelve dudas sobre las
Con encuestador Más tiempo.
preguntas.
Sesgos del entrevistador.
Más preguntas.
Más información.
63
ESCALAS DE MEDIDA
Las escalas de medida sirven para transformar las respuestas en variables que
puedan ser analizadas estadísticamente. Los diversos ítems se suman para obtener una
única puntuación. Estos son los tipos de escalas más utilizados.
6.1 Escala de Likert: Sirve para medir la opinión o actitud del encuestado ante un tema
concreto. Consiste en un conjunto de ítems bajo la forma de afirmaciones o frases ante los
cuales se solicita la reacción (favorable o desfavorable, positiva o negativa) de los
individuos. El número usual de categorías puede variar de 4 a 7, y se da un valor a cada
respuesta, con un 1 para la respuesta más negativa y un 5 para la más positiva: Alternativa
A: Muy de acuerdo, (4) De acuerdo,(3) Ni de acuerdo, ni en desacuerdo,(2) En desacuerdo,
(1) Muy en desacuerdo.
Alternativa B: (5) Totalmente de acuerdo,(4) De acuerdo, (3) Neutral ,(2) En
desacuerdo,(1) Totalmente en desacuerdo
Alternativa C: (5) Definitivamente sí,(4) Probablemente sí,(3) Indeciso ,(2) Probablemente
no, (1) Definitivamente no
Alternativa D: (5) Completamente verdadero,(4) Verdadero,(3) Ni falso, ni verdadero ,(2)
Falso, (1) Completamente falso
Para obtener las puntuaciones, se suman los valores obtenidos respecto de cada frase.
6.2 Escalas diferenciales semánticas: Mide actitudes y creencias. Consiste en dos
adjetivos opuestos con una escala de siete puntos entre ellos. Se pide al sujeto que
seleccione un punto de la escala que sea el que mejor describe su visión del concepto que
examina.
6.3 Escalas visuales analógicas: Es una línea que termina con un ángulo recto en cada
extremo, orientada vertical u horizontalmente .Se pide al sujeto que ponga una marca en la
línea para indicar la intensidad del estímulo. Entonces se utiliza una regla para medir la
distancia entre el extremo izquierdo de la línea y la marca que ha hecho el sujeto, y ésta
medida es el valor del estímulo. Se ha utilizado para medir el dolor, estado de humor, la
ansiedad. Dado que se utiliza para medir fenómenos irregulares en el tiempo, el método de
fiabilidad test-retest es inapropiado; y a causa de que cada escala tiene un solo item, no se
puede utilizar otros métodos de determinación de la fiabilidad.
6.4. Escala de Guttman: En esta escala se escoge un número de frases de intensidad
creciente que expresan el acuerdo o desacuerdo con un tema ordenadas de tal manera que
si se está de acuerdo con una se está de acuerdo con las anteriores.
64
PRINCIPALES LIMITACIONES
Existen diversas fuentes de error que afectan a la fiabilidad de la medida. En
enfermedades crónicas, los síntomas pueden cambiar en el tiempo y depender de la
complianza del tratamiento prescrito. Las condiciones emocionales del paciente
encuestado, así como las condiciones ambientales (frío, calor, ruido) pueden influir a la
hora de contestar las preguntas y alterar la fiabilidad. Además el formato del cuestionario
debe estar escrito en un lenguaje claro y comprensible sin ambigüedades. También los
encuestadores deben estar entrenados para que el cuestionario se desarrolle siempre de la
misma manera, y la recogida de datos ha de ser sistemática para evitar errores.
FUENTES DE ERROR EN LA FIABILIDAD DE LA MEDIDA
- Cambios en el tiempo de la característica estudiada
- Cambios debidos a las condiciones de realización del cuestionario
- Variaciones por el propio cuestionario
- Cambios por el encuestador
- Errores en el manejo de datos
FUENTES DE ERROR QUE INFLUYEN EN LA VALIDEZ
- Orden de las preguntas
- Redacción de las preguntas
- Errores en la categorización de las respuestas
- Sesgo de conveniencia social
- Tendencia sistemática a dar siempre la misma respuesta
- Características del encuestador
- Elección de la categoría o puntuación intermedia
BIBLIOGRAFÍA
- Alonso J. La medida de la calidad de vida relacionada con la salud en la investigación y
la práctica clínica. Gac Sanit 2000;14(2):163-167
- Xavier Badía , Jordi Alonso. La medida de la salud. Guías de escalas de medición en
Español. 4ª edición. Fundación Lilly. Barcelona.
- Argimón Pallás JM, Jiménez Villa J. Métodos de investigación clínica y epidemiológica.
3ª edición. Madrid: Elsevier; 2004.
65
66
CAPÍTULO 7
TIPOLOGÍA Y ORGANIZACIÓN DE LOS ARTÍCULOS CIENTÍFICOS

Servicio de Farmacia. Comisión de Investigación. Complejo Hospitalario de Toledo.
Un artículo científico es un manuscrito que resume el trabajo de un investigador

sobre cualquier área del conocimiento. El objetivo es doble: en primer lugar intenta
transmitir a la comunidad científica los resultados de sus experimentos y, en segundo
lugar, debe permitir que cualquier investigador interesado en ese campo sea capaz de
reproducirlos por su cuenta. Por ese motivo es muy importante que se utilice un lenguaje
conciso y claro.
TIPOLOGÍA DE LOS ARTÍCULOS CIENTÍFICOS

La mayoría de las revistas biomédicas presentan secciones comunes:
a) Artículos originales: contienen información de tipo primario (primera divulgación de
resultados originales de una investigación).
b) Artículos de revisión: se revisan, de un modo sistemático, los avances que ha presentado
un tema durante un periodo de tiempo determinado. En función a unos criterios
previamente establecidos, se seleccionan los trabajos, se analizan, se sintetizan y se realiza
una crítica constructiva sobre la bibliografía analizada.
c) Comunicaciones breves: suelen ser datos de interés sobre un estudio limitado o un
informe sobre los resultados preliminares de un estudio.
d) Casos clínicos: suelen presentar la experiencia de diagnóstico y tratamiento de un
paciente o de series con escaso número de pacientes. No tienen validez externa (no se
pueden extrapolar los resultados) pues no son representativos de la población.
e) Otras secciones: incluyen la editorial, las cartas al director, las noticias sobre congresos
y las reseñas de libros.
ORGANIZACIÓN DE LOS ARTÍCULOS CIENTÍFICOS ORIGINALES

EL TÍTULO. Al preparar el título de un artículo, su autor hará bien en recordar un
hecho importante: ese título será leído por miles de personas. Es posible que solo pocas
personas, si es que lo hace alguna, lean el trabajo entero; pero muchas leerán el título, ya
sea en la revista original o bien en alguno de los servicios secundarios (resúmenes e índices
67
bibliográficos). Por consiguiente, deben elegirse con gran cuidado todas las palabras del
título, y se debe cuidar la forma de asociarlas. Tal vez el error más corriente en los títulos
defectuosos y, sin duda, el más perjudicial desde el punto de vista de la comprensión, sea
una mala sintaxis (un orden equivocado de las palabras). ¿Qué es un buen título? se podría
definir como el menor número posible de palabras que describen adecuadamente el
contenido de un artículo (no está recomendada la utilización de más de 15 palabras en un
título). Hay que recordar que los servicios de indización bibliográfica y resúmenes de
artículos dependen grandemente de la exactitud del título, como dependen muchos
sistemas de recuperación de obras computadorizadas que hoy se utilizan. Un artículo
titulado de forma inapropiada puede perderse prácticamente y no llegar nunca al público a
que se destina. El título del trabajo, no debe incluir información no incluida en el texto del
artículo, ni debería ser demasiado extenso, ni confuso, ni ambiguo. El título tampoco debe
sonar como una afirmación tajante y dogmática, ni deben aparecer en él las conclusiones
del artículo. No debe incluir un uso excesivo de preposiciones, artículos y subtítulos. Los
títulos se redactarán siempre en tono afirmativo. No se acepta, hoy en día, la utilización de
frases en tono interrogativo como título de un artículo original. Si bien, podría llegar a
aceptarse, excepcionalmente, la interrogación o la exclamación en una editorial, nunca se
aceptarían como válidas en el encabezamiento de un artículo original.
LOS AUTORES Y SU FILIACIÓN. La definición de la “autoría” podría resumirse
diciendo que la lista de autores debe incluir a aquellos, y solo a aquellos, que
contribuyeron realmente a la concepción general y la ejecución de los experimentos.
Además, los autores deben enumerarse normalmente por orden de importancia en relación
con los experimentos, reconociendo al primero como autor principal, al segundo como
principal asociado, y al tercero posiblemente como al segundo pero, más frecuentemente,
con una participación menor en el trabajo comunicado. Los colegas o supervisores no
deben pedir ni permitir que sus nombres se incluyan en manuscritos sobre investigaciones
en las que no hayan participado estrechamente. El autor de un artículo debe definirse como
aquel que asume la responsabilidad intelectual de los resultados de la investigación sobre
la que se informa. Sin embargo, esta definición debe matizarse teniendo en cuenta que la
ciencia moderna es, en muchos campos, colaboradora y multidisciplinaria. Sería poco
realista suponer que todos los autores pueden defender todos los aspectos de un artículo
escrito por colaboradores procedentes de diversas disciplinas. Aun así, debe considerarse a
cada autor plenamente responsable de la elección de sus colegas.
68
Según los expertos del Comité Internacional de Editores de Revistas Biomédicas

(ICMJE), para que alguien figure como autor de un trabajo debe haber participado,
inexcusablemente, en las cuatro etapas siguientes:
1. La concepción y diseño del estudio o en el análisis y la interpretación de los datos.
2. La redacción del artículo o la revisión crítica de una parte importante de su contenido.
3. La aprobación final de la versión que será publicada.
4. Estar en disposición de asumir públicamente la responsabilidad del contenido total del
artículo original.
Para los autores españoles se recomienda emplear siempre los mismos apellidos al
firmar los trabajos científicos, teniendo en cuenta que en las bases de datos internacionales
solo se recoge el último apellido por lo que los autores españoles suelen unir ambos
apellidos con un guion para garantizar la correcta indización que facilite la correcta
localización del artículo. El uso sistemático de dos apellidos tiene el inconveniente que en
los bancos de datos internacionales se incluye a los autores españoles por el apellido
materno.
Se describirá la institución académica donde se realiza el trabajo de investigación.
Así mismo, deberá registrarse el nombre completo del autor responsable de mantener la
correspondencia con los editores así como la dirección completa institucional (no se
recomienda emplear direcciones privadas de los autores).
EL RESUMEN. La confección del resumen es el reto más serio a la capacidad de
síntesis del autor. El resumen identifica el objetivo y expone brevemente la metodología,
los resultados y las conclusiones del estudio. Si a un lector le parece interesante el título de
un artículo, continuará leyendo el resumen. En función de si la impresión que le causa la
lectura de éste es suficientemente positiva, entonces continuará leyendo el resto del
artículo. Decir todo lo que hay que decir en tan pocas palabras sólo puede alcanzarse
gracias a la exigente supresión de lo superfluo. Actualmente MEDLINE, la base de datos
más consultada en biomedicina, adjunta el resumen en inglés en más del 60 % de las
referencias recuperadas. Sin embargo, aunque el resumen, tiene una gran difusión y es
fácilmente accesible, a menudo no proporciona información esencial del artículo y por lo
tanto, no puede reemplazar al texto completo.
Un buen resumen debe ser conciso, objetivo, exacto, completo e inteligible. Un
buen resumen debe evitar la utilización de abreviaturas, fórmulas, referencias, tablas,
gráficos o ilustraciones. Si es imprescindible emplear una abreviatura en el resumen,
cuando se cite en el texto del artículo, debe explicarse de nuevo pues el resumen y el
69
artículo son textos separados. Un buen resumen siempre debe destacar lo más novedoso del
trabajo, aunque no puede incluir datos, resultados o conclusiones que luego no aparezcan
en el cuerpo del artículo.
El resumen tiene que presentarse estructurado para facilitar su lectura y
compresión. Se escribirá siempre en hoja separada entre el título y la introducción. El
resumen tendrá una longitud máxima de 250 palabras (puede variar en función de la
revista), aunque suele emplearse esta medida porque es la longitud en la que MEDLINE
corta el resumen. Este resumen tiene que ser auto explicativo e independiente del texto. El
resumen tiene bastante importancia porque es la parte del artículo que se incluye en los
diversos sistemas de información bibliográfica (Medline, Índice Médico Español, Index
Medicus, Excerpta Médica…). Entre las principales características del resumen hay que
destacar las siguientes: poder actuar como sustituto del texto (si no se dispone de él),
mencionar los aspectos esenciales del artículo, estar estructurado en las mismas secciones
que el artículo, no exceder las 250 palabras, no incluir citas bibliográficas, abreviaturas,
materiales o datos no mencionados en el texto.
Entre los principales errores del apartado resumen, destacan los siguientes: omitir
elementos importantes, destacar asuntos insignificantes del trabajo, no es inteligible por si
mismo, no incluye los objetivos, no incluye el “material y métodos” , ni los resultados más
relevantes, ni las conclusiones, incluye conclusiones no mencionadas en el texto del
artículo u otra información que no figura en el texto del artículo, utiliza abreviaturas y
símbolos poco conocidos, carece de claridad, de precisión, de concisión o de sencillez, no
presenta una secuencia lógica entre las frases y los párrafos, no es auto explicativo ni
autónomo ya que no se entiende separado del artículo original, emplea nombres
coloquiales o marcas registradas de productos químicos o farmacéuticos en lugar de
denominaciones genéricas, menciona localidades geográficas poco conocidas sin indicar
denominación estatal ni país.
Al final del resumen, deben incluirse las palabras clave siendo estas un conjunto de
tres a diez palabras o frases cortas que estén directamente relacionados con el contenido
del artículo, que se utilizan para su inclusión en los índices o las bases de datos y permiten
su selección cuando se realiza una búsqueda bibliográfica. Se recomienda utilizar los
términos del Índice Médico Español o los Medical Subject Heading (MeSH) del Index
Medicus (www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=mesh).
70
LA INTRODUCCIÓN. La introducción es la primera parte del artículo

propiamente dicho y sirve como carta de presentación del resto del artículo. En una
introducción se debe encontrar cuál es el tema a investigar en el trabajo y cuáles son los
motivos que han ocasionado su estudio. En los artículos científicos publicados en nuestro
país, las introducciones sueles ser excesivamente largas y muchas veces se incluyen
aspectos sacados de un libro que con el afán de centrar el tema hacen que la entrada al
artículo sea larga, pesada y tediosa. La relación entre la investigación y el conocimiento
previo del tema se debe apoyar, exclusivamente, en las citas bibliográficas más relevantes.
Se recomienda hacer un análisis crítico de los precedentes y constatar semejanzas y
diferencias con los trabajos previamente publicados, así como las limitaciones que se han
superado con el desarrollo de esta investigación. En la introducción también debe
describirse el método empleado en la investigación de la hipótesis y las razones por la que
seleccionado este método.
El primer párrafo debe invitar al lector a seguir leyendo, por lo que la organización
de ideas debe ir estimulando una sensación de progresivo descubrimiento. El estilo de la
introducción debe ser conversacional, sincero y presentar un desarrollo lógico siempre
huyendo de la insistencia o de la exageración. La introducción debe reescribirse tantas
veces como sea necesario después de acabar el manuscrito ya que, a menudo, en la
discusión aparecen frases que podrían ser muy indicadas para la introducción. La
introducción ha de finalizar con un breve texto en el que se enuncie la hipótesis que
plantean los autores (“…por tanto, se ha llevado a cabo…”).
Se aconseja que la extensión de la introducción no sea superior a un folio y medio
con las líneas a doble espacio. La investigación sobre los antecedentes del problema
conduce a la primera búsqueda bibliográfica. Para esta primera búsqueda bibliográfica es
recomendable: seleccionar sólo las citas adecuadas; que sean recientes (no más de cinco
años); que sean publicaciones de tipo primario, que se destaquen sólo los hallazgos más
significativos y que no se excesivamente exhaustiva. No se debe hacer una revisión muy
pormenorizada, ni una reseña histórica detallada, ni la inclusión de definiciones no
indispensables. Las citas bibliográficas incluidas en la introducción no deben superar un
tercio de las referencias bibliográficas totales. Entre los principales errores que se pueden
cometer al escribir la introducción de un artículo científico destacan: inexactitud en la
identificación del problema, imprecisión en la definición del problema de identificación,
ausencia de un marco teórico de referencia conceptual, insuficiente respaldo bibliográfico,
71
falta de definición de las variables, objetivos demasiado generales, vagos o ambiguos,

hipótesis mal formuladas, limitaciones no explícitas del estudio.
Un error muy habitual en la redacción es no incluir el objetivo del trabajo como el último
párrafo de la introducción. Hay que tener en cuenta que este objetivo, corresponde a la
pregunta de investigación y su respuesta constituirá la conclusión del estudio.
LA METODOLOGÍA. Al autor poco experimentado, o al que le cuesta arrancar en
la redacción de un artículo científico, se le suele aconsejar que empiecen por lo que sería,
en principio, lo más sencillo y que no es más que describir las cosas tal cual las haya hecho
uno mismo.
Esta parte del trabajo es la parte más vulnerable del artículo ya que ocasiona la
mayoría de los rechazos de los originales en las revistas de biomedicina que utilizan el
sistema de revisión por expertos (“peer-review”). Algunas revistas de prestigio
recomiendan, que si el artículo está basado en experimentación con personas, que a este
apartado se le denomine “sujetos y métodos”, “pacientes y métodos”, “diseño y métodos”
o simplemente “métodos”.
Hay que describir los pormenores, siguiendo un orden lógico que, casi siempre,
será el orden cronológico. Este apartado debe aportar la cantidad de información suficiente
que permita al lector la completa comprensión del proceso de investigación así como
garantizar su reproducibilidad. Se darán las oportunas referencias bibliográficas relativas a
los métodos usados. Tiene que incluir información sobre las características de la muestra
seleccionada (sexo y edad), los criterios de inclusión y de exclusión utilizados, explicar la
“intervención” realizada (sin olvidar especificar cuál es la variable independiente y la
dependiente), los criterios que se han empleado para medir los efectos esperados y para
asegurar la objetividad de los observadores.
Es preferible hacer referencia a un aparato por sus características generales, a un
medicamento por su denominación genérica o a un reactivo químico por su grado de
pureza. Se mencionarán, solo cuando sea necesario, las marcas comerciales de aparatos,
reactivos o preparados farmacéuticos. Nunca podemos omitir datos esenciales como
cantidades administradas, por qué vía y con qué horario; las circunstancias en que se ha
hecho cada maniobra experimental o las condiciones de conservación, de observación y
calibrado. Finalmente, no debe olvidarse describir los instrumentos y procedimientos
empleados en la recolección de datos. Si la experimentación se ha realizado sobre animales
hay que asegurar que se ha seguido la legislación vigente sobre el cuidado y uso de
72
animales de laboratorio y si es realizada con humanos que se han cumplido las

recomendaciones en la declaración de Helsinki en la última versión revisada.
Es crucial el especificar que métodos estadísticos se han empleado para analizar los
hallazgos. Esto cobra vital importancia para la determinación de la validez interna
(capacidad del investigador de atribuir diferencias en los grupos o participantes a la
variable independiente) y de la validez externa (grado en que se pueden generalizar los
resultados de la muestra analizada a la población general). También se describirán en este
apartado los fundamentos éticos del estudio. No deben utilizarse nombres, iniciales o
números de historias clínicas, especialmente en fotografías, que pueden permitir la
identificación del paciente. Si la descripción de los métodos es muy larga, es conveniente
dividirla en subapartados titulados, de modo que aparte de facilitar su lectura y
compresión, se facilite la redacción del artículo.
Los principales errores que puedo cometer en el apartado de material y métodos son
los siguientes: diseño inapropiado para el objetivo de la investigación, diseño cuestionable
en términos éticos, definición inadecuada de la enfermedad que se estudia, falta de la
descripción correcta de la población estudiada lo que dificulta la valoración adecuada de la
validez externa de los resultados, pacientes mal seleccionados (diferencias fisiológicas o
anatómicas asociadas a la edad o el sexo) puede invalidar los resultados, falta de
asignación aleatoria a cada uno de los tratamientos, no especificar los métodos ni los
aparatos empleados así como los procedimientos con el suficiente detalle para permitir que
otros autores puedan reproducir los resultados, no identificar los fármacos o sustancias
empleados en el estudio, así como sus dosis, frecuencias y vías de administración, permitir
que los nombres de los pacientes puedan ser identificados a partir de nombres o números
de historia que pudiesen emplearse en diversas ilustraciones, anticipación de los resultados
del estudio, falta de justificación sobre las pruebas estadísticas empleadas, si se ha
realizado experimentación con seres humanos, no hacerlo de acuerdo con los principios
éticos recogidos en la Declaración de Helsinki, estilo con frases demasiado largas y
complicadas, hacer un apartado excesivamente breve, un tiempo de seguimiento corto
puede resultar en la recomendación de una modalidad de tratamiento, cuya superioridad a
largo plazo sería cuestionable, mención de aspectos interesantes, pero superfluos que no
tiene más objetivo que distraer al lector.
El “material y método”, aunque escrito con letra pequeña en la mayoría de los
artículos, es la parte del artículo que mejor mide la calidad, o la falta de calidad, tanto
científica como ética de sus autores.
73
PRESENTACIÓN DE RESULTADOS. Los resultados del artículo científico, al

igual que el resto del trabajo, deben presentarse de forma breve, clara y lógica. No es
necesario tabular los datos si son pocos y fáciles de comprender, pero cuando no es así,
convendrá mostrar los datos en el escaparate de las tablas y reservar el texto para ponerlos
en perspectiva y comentar las diferencias entre grupos. Hay que evitar la presentación
redundante de resultados (o se presentan en el texto o se presentan en tablas y figuras, pero
nunca en ambos sitios) pues lo único que se consigue es fatigar al lector y que desista de
leer el trabajo en su totalidad.
Es siempre preferible comenzar por lo más fácil de interpretar y presentar primero
los resultados del grupo control y después del grupo problema. Los resultados deben
presentarse en el mismo orden que se han presentado los diferentes apartados del método.
Entre los errores más frecuentes en la realización del apartado resultados, destacan los
siguientes: se incluye información no relacionada con los objetivos del estudio, se
confunden los hechos (que son objetivos) con las opiniones (que son subjetivas), se
presentan hallazgos sin una secuencia lógica, la información que se presenta no es
suficiente para presentar las conclusiones, el tratamiento estadístico no se menciona, no se
explica con claridad o es inapropiado, se utilizan tablas y/o gráficos inadecuados o poco
claros, excesiva cantidad de tablas y/o gráficos.
Las medidas de longitud, peso y volumen se expresan en el sistema métrico decimal
(metro, kilogramo, litro) o en sus múltiplos y submúltiplos. La temperatura se expresara en
grados centígrados y la tensión arterial en milímetros de mercurio. Los resultados de las
determinaciones hematológicas y bioquímicas se han de expresar de acuerdo con el sistema
internacional de unidades (unidades SI) y se acompañaran de las equivalencias de las
unidades convencionales. En cada resultado de laboratorio se ha de indicar siempre la
unidad de medida. Además, en las pruebas de laboratorio no usuales, es imprescindible que
se incluyan los límites de normalidad entre paréntesis.
LAS TABLAS Y FIGURAS. Texto, tablas y figuras son diferentes maneras de
presentar los datos obtenidos y debemos escoger el que permita presentar los resultados
con la mayor brevedad y claridad posibles. En una figura se incluye todo tipo de material
no tabulado (algoritmos, histogramas, fotografías, gráficos, etc.), mientras que la tabla
expresa mejor las posibles interrelaciones entre los valores numéricos del estudio. Por ello,
la tabla se utilizará cuando la precisión de los datos es importante y el gráfico cuando los
datos presenten una tendencia definida o permiten resaltar una diferencia.
74
Tanto las tablas como las figuras deben ser auto explicativas (la información que
contengan no debe volver a citarse en el texto ni en otras tablas o figuras). Las tablas y
figuras completan al texto, razón por la cual deben ubicarse lo más cerca posible del
párrafo donde se las menciona.
Las tablas se emplean en el artículo científico para comprimir en poco espacio
mucha información y hacerla fácil de comprender, comparar y analizar. Una buena tabla,
con título preciso y encabezamientos de columnas claros es una importante forma de evitar
frases y párrafos repetitivos y de ahorrar espacio en la edición de la revista. El texto debe
reservarse para destacar sólo lo más importante. Una tabla bien diseñada suele ser más
exacta, más completa y puede presentar mucha más información que un gráfico.
Para construir una tabla hay que poner en una columna las categorías o valores de
la variable y en otra columna el número de veces que se repita cada variable, bien como
frecuencias absolutas o como frecuencias relativas. Si los datos se expresan en números,
hay que expresar todos en las mismas unidades. Los números enteros deben alinearse por
la columna derecha; los números decimales deben alinearse por sus puntos decimales.
Cuando se empleen intervalos de clase para agrupar variables continuas (tiempo, edad,
presión arterial…), estos deben ser mutuamente excluyentes y utilizar agrupaciones por
edad estandarizadas o de uso frecuente en la especialidad. Al construir una tabla, hay que
tener en cuenta que un individuo solo puede pertenecer a una categoría.
La utilización de figuras puede resultar indispensable para representar procesos
complejos o imágenes que no podrían expresarse con palabras. Todo gráfico debe tener un
título el cual se presenta en la forma de una frase breve explicativa. La explicación de los
símbolos se dará después de su aparición en la leyenda. Cuando el documento contenga
varios tipos de gráficos (en barra, lineales, en sector) y otro tipo de ilustraciones
(diagramas, mapas, radiografías) es necesario rotularlos todos ellos como “Figuras” y
numerarlas consecutivamente usando números árabes. Si no es obvia, se indicará con una
flecha la orientación de la figura. Los gráficos y los esquemas deben ubicarse lo más cerca
posible de su primera referencia en el texto.
DISCUSIÓN. El capítulo de la discusión le otorga al autor la posibilidad de
convencer al lector que la investigación tiene validez interna, es decir, que las diferencias
observadas en los individuos o grupos participantes son atribuibles a la variable
independiente (causa) y no a otras variables extrañas o al azar. Otro aspecto importante del
capítulo de discusión es el de la validez externa, es decir, el grado en que se pueden
75
generalizar o extrapolar los resultados obtenidos de la muestra estudiada a la población

general de donde se extrajo la muestra.
La discusión suele empezar con un frase muy contundente (“Nuestro estudio
demuestra claramente que…”). En este apartado, deben comentarse solamente los
resultados relevantes que se han incluido en el apartado de resultados, resaltando los
aspectos novedosos de estudio. No tiene cabida en este apartado, la repetición de datos
presentados con anterioridad. Se tienen que resaltar los aspectos novedosos del estudio y
las conclusiones que de ellos se derivan. Se evitarán las afirmaciones no razonadas y se
evitaran conclusiones no apoyadas sólidamente en los resultados del estudio. Las opiniones
personales deben presentarse de forma razonada, pero siempre basándose en los resultados
previamente descritos. También se relacionarán los resultados obtenidos con los de otros
autores así como las limitaciones de nuestro estudio. No se deben ocultar las diferencias
con las observaciones u opiniones de otros autores, sino que conviene hacerlas constar y
tratar de explicarlas (o en caso contrario, admitir su propia incapacidad para hacerlo).
Analizar y comparar los datos obtenidos con la información comunicada por otros autores
implica realizar la segunda revisión bibliográfica (la primera ya se realizó en la
introducción) y que incorporará las referencias bibliográficas más actualizadas. La revisión
bibliográfica será únicamente de las publicaciones más recientes y relevantes que tengan
relación con el problema estudiado y los hallazgos presentados.
Se describirá la solidez de los resultados en función de la firmeza estadística de las
pruebas empleadas, de la metodología de la que han nacido y de su consistencia con las
investigaciones precedentes. La discusión, tiene que poder concretar una respuesta
(conclusión) a la pregunta de investigación planteada en el último párrafo de la
introducción como objetivo o hipótesis. Por ello, al final de la discusión, pero no como una
sección diferente sino incluida en ella, es preceptivo finalizar con unas líneas de conclusión
a modo de resumen del trabajo y que responda al objetivo principal de la investigación. Se
evitará realizar afirmaciones gratuitas y las aseveraciones que no estén fundamentadas en
los resultados del trabajo de investigación. Si se exponen nuevas hipótesis, estas se han de
identificar como tales. Un error bastante habitual es presentar unas conclusiones que no se
justifican con los hallazgos del estudio ni responden con las hipótesis plateadas al inicio
del trabajo de investigación.
Los agradecimientos se escriben siembre al final de la discusión y se debe redactar
con meticulosidad, ya que hay muchas personas o entidades que pueden haber colaborado
en la realización de un trabajo y no hay que olvidarlas. En los agradecimientos se citarán
76
aquellas colaboraciones, que merecen ser agradecidas (no incluir ayudas técnicas o
económicas). Las personas que son citadas en los agradecimientos de un artículo, deben
previamente conceder su autorización por escrito, para poder ser citadas.
BIBLIOGRAFÍA. En enero de 1978, un grupo de editores de varias revistas
biomédicas, publicadas en inglés, se reunieron en Vancouver y decidieron uniformar los
requisitos técnicos para la preparación de los manuscritos que debían ser considerados por
los Comités de Redacción de esas publicaciones. Estos requisitos de uniformidad han ido
modificándose con el tiempo en función del criterio del Comité Internacional de Editores
de Revistas Biomédicas (ICMJE; (http://www.icmje.org) y han desembocado en lo que
hoy se conoce como estilo Vancouver. El seguimiento de las recomendaciones por parte de
los autores contribuye a mejorar la calidad y claridad de los manuscritos, así como el
trabajo de corrección editorial.
La bibliografía se ha de presentar en hoja aparte, a doble espacio y siguiendo la
normativa aceptada por cada revista. Lo más habitual es enumerar las citas bibliográficas
consecutivamente en el orden en que se mencionan por primera vez en el texto. Los
números de las citas bibliográficas pueden escribirse bien con un número marcado como
“supranacional” o bien como un número entre paréntesis. Inclinarse por una fórmula o por
otra depende de lo que requiera la revista y que podemos encontrar en las “Instrucciones
para los autores”. Las referencias que solo se presentan en tablas o figuras deben seguir el
mismo orden correlativo que llevaban durante el texto del artículo en función del lugar que
ocuparán en la versión definitiva del manuscrito. Solo se deberían citar los trabajos que se
han leído personalmente, ya que la mención de trabajo y opiniones de autores que se
conocen por referencias de terceros puede hacer que se les acabe imputando a los primeros
afirmaciones que no han realizado nunca. No se deberían incluir citas de revistas rusas,
japonesas o alemanas si no se conocen los idiomas originales, a no ser que se mencione
específicamente que se ha leído un resumen del trabajo publicado en inglés. No se
recomienda citar libros de texto, ni resúmenes de congresos (es lo que se conoce como
“literatura gris” y suelen ser difíciles de recuperar si algún lector desea consultarlos
directamente). Tampoco debe forzarse la auto citación de trabajos previos, ni emplear citas
bajo los epígrafes de “observaciones no publicados” o “comunicaciones personales”. No es
recomendable emplear como referencias bibliográficas en un artículo científico lo que se
conocen como “revistas de divulgación general o noticias de prensa”.
Se incluirán preferentemente artículos de los últimos cinco años, en especial de los
últimos dos años. Hoy en día no se puede considerar reciente un trabajo aparecido hace
77
cinco años y ya es histórico un artículo de diez años de antigüedad. Los autores han de
repasar personalmente las citas bibliográficas, adecuarlas a la normativa de la revista
donde envían el manuscrito y cuidar que no se deslicen involuntariamente errores de
citación. El error es inevitable, pero debe intentarse minimizarse al máximo.
En un artículo científico solo deben citarse las referencias necesarias. Un exceso de
referencias bibliográficas indica inseguridad del autor y complica la lectura del artículo sin
aportar información relevante. En un trabajo original el número de referencias
bibliográficas citas debería situarse entre 20 y 40, en un caso clínico, entre 10 y 20, en una
carta al director, no se suelen aceptar más de 10, mientras que en las editoriales no
debieran incluirse más de 30. En las revisiones, aunque hay excepciones, no deberían
superar el centenar.
BIBLIOGRAFÍA
- 1000 Trucos para hablar y escribir bien. Editorial Óptima S.L. Madrid, 1995.
- Aleixandre Benavent R, Valderrama Zurian JC, Castellano Gómez M, Simó Meléndez R,
2. Navarro Molina C. Factor de impacto de la revistas médicas españolas. Med Clin (Barc)
2004; 123(18):697-701.
- Abad García MF, González Teruel A, Martínez Catalán C. Acceso abierto y revistas
médicas 3. españolas. Med Clin (Barc) 2006; 127(12):456-64.
- García AM. Autores, revisores, editores: las reglas del juego. Gac Sanit 2001:15:294-5.
- Benos DJ, Kirck KL, Hall JE. How to rewiew a paper. Adv Physiol Educ 2003; 27: 47-
52.
78
CAPÍTULO 8
LA PRESENTACIÓN DE LOS RESULTADOS EN REUNIONES Y

CONGRESOS. COMUNICACIÓN CIENTÍFICA
Alica Hanzelikova Pogrányivá
Enfermera. Hospital Virgen del Valle. Comisión de Investigación. Complejo Hospitalario de Toledo.
PRESENTACIÓN DE LOS RESULTADOS

Una de las actividades más importantes de la investigación es la difusión de los
resultados. Representa el resumen de la auténtica contribución a la ciencia del estudio.
Sólo con una buena difusión de los resultados se puede garantizar la aplicabilidad y
utilidad de los mismos. También es importante que la difusión sea amplia, porque así se da
conocer y hay más posibilidad de ampliar una línea de investigación, utilizando como
referencia el estudio /proyecto presentado.
La manera de presentar los resultados en un foro científico puede hacer de
diferentes formas entre los que destacan la comunicación oral y comunicación mediante
póster. Cualquiera que sea la forma de la presentación directa de los resultados de la
investigación hay que tener en presente que es el ensayo ideal de un artículo original. No
en vano, los resultados de la investigación serán escuchados u observados y con suerte
discutidos por unos asistentes especializados, lo que se puede convertir en una primera
revisión.
Además la presentación de los resultados en cualquiera de sus formas suele ser
similar a la de un artículo original, por el que el borrador puede ser común. Sin embargo
existen algunas limitaciones que hay que tener en cuenta a la hora de la presentación
directa de los resultados como pueden ser el tiempo limitado, la dificultad de algunos
formatos para atraer el interés de los expertos que asisten a un programa científico. Por eso
es muy importante el manejo eficaz de una presentación en directo.
Para poder afrontar con éxito la presentación de los resultados es muy importante
tener algunos conceptos de la comunicación presentes. Para ayudar a adquirir ciertas
habilidades y para ayudar a los científicos a proceder a la comunicación, el “Observatori de
la Comucació Científica de la Universitat Pompeu Fabra” con el patrocinio del Ministerio
de Ciencia e Innovación elaboró un documental, “Comunicar es fácil”. Este documental
tiene como objetivo ayudar al personal investigador a comprender las claves de una buena
comunicación. Se trata de un primer contacto sobre cómo mejorar las habilidades de
comunicación. Se puede consultar:
79
1ª parte (http://www.youtube.com/watch?v=oahrBhPb9ZY),
2ª parte (http://www.youtube.com/watch?v=6EAwgzbgRJc),
3ª parte http://www.youtube.com/watch?v=L8ZQFDaRsFg,
4ª parte http://www.youtube.com/watch?v=MbcE7z29Nzo,
5ª parte http://www.youtube.com/watch?v=HbUMDR3hRjM
En este capítulo del manual se presentan pautas para lograr una presentación
exitosa de los resultados de una investigación frente a un público.
PUESTA EN COMÚN DE LA INVESTIGACIÓN CON OTROS

INVESTIGADORES
La puesta en común de la investigación se puede dividir en dos grandes temas: la
comunicación científica y la colaboración entre los científicos. Comunicación y
colaboración llevan al óptimo avance y difusión de la ciencia y al reconocimiento universal
de la misma. Ambos conceptos están estrechamente relacionados. La comunicación
científica se realiza principalmente a través de las publicaciones científicas, que
representan el principal canal de comunicación en ciencia, y la colaboración entre
científicos es vista como un proceso social de gran importancia en la ciencia. A su vez, la
producción de tales revistas involucra a los propios científicos como autores (colaboración)
y lectores (comunicación).
Se ha comprobado, que la comunicación más eficaz entre investigadores se
consigue estableciendo una relación personal directa entre aquellos que tienen problemas
similares, ya que es imposible leer toda la literatura que se publica sobre un tema
determinado. De ahí que se haga hincapié en el interés que tienen las reuniones y
congresos especializados, y en la necesidad de favorecer el trabajo de grandes grupos de
científicos.
En la investigación es muy importante la existencia de contactos bilaterales entre
los investigadores de los distintos nodos de la red. Estos contactos deben servir para
consolidar las colaboraciones entre los integrantes de la red, preparando proyectos
conjuntos, publicaciones, etc. Las visitas de los miembros de un nodo a otro es la manera
más flexible y económica de llevar a cabo estos contactos que permitan un conocimiento
más profundo de las líneas de investigación del nodo receptor.
Además es importante cambiar el ciclo unidireccional por otro bidireccional de
comunicación de la ciencia de abajo-arriba y que sea la sociedad la que transforme a la
ciencia. Actualmente, hay una gran colaboración, e intercambio de información a niveles
80
altos y horizontales entre investigadores, pero poca entre estos y médicos, y viceversa, y
mucho menos entre investigadores y médicos con los pacientes. El modelo ideal sería
donde los flujos de información se produzcan también verticalmente, sobre todo entre
médico y paciente.
FORMATOS HABITUALES DE PRESENTACIÓN DE LOS RESULTADOS

1. Póster
Junto con el artículo científico y la presentación oral, el póster o cartel científico es
uno de los formatos más comunes de comunicación entre investigadores. Mientras que el
artículo se escribe para ser leído y la comunicación oral se pronuncia para ser escuchada, el
póster se elabora para ser visto, leído y comentado.
El póster científico es un resumen gráfico del trabajo realizado. La composición del
póster consta de un título corto, una introducción hipótesis planteada en el trabajo, una
visión general de la aproximación experimental los resultados de mayor interés, una
discusión sobre los resultados obtenidos, un listado de artículos que son importantes para
esa investigación. La defensa del póster normalmente nunca es superior a 10 minutos.
2. Comunicación oral libre
Antes de preparar una comunicación oral es importante saber el tipo de personas a
las que va a ir dirigido el mensaje, para hacer llegar una información coherente con las
expectativas de los oyentes. Casi en todos los eventos científicos se realiza una exposición
simultanea de varias comunicaciones en distintas mesas de comunicaciones, por lo que el
asistente tiene la libertad de elegir la mesa que más le interese bien por la temática o
porque le llame la atención algún título del programa.
En muchos casos el título de la comunicación oral se convierte, en el primer
atractivo para captar al auditorio. La formalidad de la presentación debe quedar
garantizada, sin embargo, la formalidad no está reñida con el ingenio; así que, queda a la
creatividad del ponente encontrar un titular claro, concreto y conciso, que, al tiempo que
ofrece una información veraz sobre el contenido de la comunicación, resulte atractivo en
sus términos.
El tiempo de la presentación es otro de los elementos importantes a tener en cuenta
por el orador y su incumplimiento suele ser la causa de la mayoría de los fracasos en la
transmisión del mensaje. La mayoría de las comunicaciones tienen un tiempo de entre 10 y
15 minutos. Por ello, debemos enviar un mensaje conciso y directo a los asistentes, con un
81
par de ideas clave que funcionen como eje de un discurso que debe estar perfectamente
escrito y cronometrado con antelación.
La estructura de la presentación oral es la misma que la de la elaboración de un
artículo científico –introducción, método, resultados y discusión. Es importante centrar la
comunicación en los resultados obtenidos, después de una breve introducción que
justifique la necesidad del trabajo y hay que hacer referencia a los objetivos concretos de la
investigación. Las referencias a lo que otros investigadores hicieron anteriormente respecto
al tema presentado pueden quedar reflejadas en la discusión con los datos obtenidos de la
investigación.
Para garantizar una comunicación eficaz es imprescindible el ensayo previo,
haciendo hincapié de distribución del tiempo y los aspectos verbales y no verbales de la
comunicación.
Los programas para presentaciones de que disponen las grandes marcas de
distribución de software suelen utilizarse de forma mayoritaria en los eventos científicos
actuales. La facilidad de su uso y la incorporación de sistemas de ayuda en los propios
programas han permitido la universalización de su uso y permiten una gran calidad en la
presentación. PowerPoint® o CorelDraw® son dos de los programas más utilizados.
3. Comunicación de los resultados en una mesa o ponencia delante de un comité o
tribunal
La presentación de los resultados de una investigación puede ser la culminación
académica de la actividad científica de un aspirante a especialista, máster o Doctor. El
momento cumbre para un aspirante lo constituye el acto de defensa de la investigación, en
el que públicamente son expuestos los aciertos y debilidades del trabajo realizado y
evaluado por un tribunal, la comunidad científica, y más tarde por la vida.
Generalmente estos tipos de trabajos deben ser sometidos a la aprobación de un
tribunal integrado por especialistas de la materia a la que el aspirante ha dedicado sus
esfuerzos investigativos. Ellos escucharán al ponente, a su tutor y también al oponente, que
mediante un análisis escrito dará a conocer su veredicto. En ese "juicio" los oponentes
resultan ser los "fiscales". Sin ellos no es posible que se conozcan, de forma rigurosa, tanto
los valores como aquellos elementos no logrados por el aspirante en su informe de
investigación.
A continuación se hace una breve explicación sobre la redacción de un perfil de
proyecto de investigación:
82
El perfil de proyecto constituye un documento breve en el que se esbozan los

aspectos básicos del mismo y que debe servir para que los evaluadores estén en
condiciones de emitir una aprobación `en principio', que representa una anuencia para que
el investigador redacte y presente el texto del proyecto.
En general, los foros en que se debate la aprobación o no de un proyecto han
encontrado muy conveniente adoptar la práctica de los perfiles o cartas de proyecto, que
ahorran un considerable tiempo al autor y a los revisores y que descargan a estos últimos
de un trabajo frecuentemente estéril.
El perfil no se diferencia mucho de lo que posteriormente ha de constituir el
resumen del proyecto, pero debe ser más explícito y poner énfasis en la necesidad y en la
factibilidad de éste. Si faltan esos dos elementos o si el proyecto no los satisface, debería
procederse a su rechazo sin más trámites. Si es necesario y factible, debe demostrar luego
que es capaz de rebasar los otros filtros que preceden a su aprobación. Reiteradamente en
este volumen se ha hecho alusión a cuatro componentes esenciales de un proyecto. De
modo sintético y cuidando de incluir los aspectos de necesidad y factibilidad, el perfil debe
contener:
(a) el QUE: donde se hace explícito cuál es el problema que la investigación se propone
abordar, cuáles son los antecedentes y cuáles los supuestos o el marco teórico en que se
sustenta dicho problema.
(b) el POR QUE: que contiene la justificación de la investigación y que permite anticipar
en qué medida y en qué sentido la investigación es capaz de generar un cambio, ya sea de
orden cognoscitivo, de orden tecnológico o ambas cosas.
(c) el PARA QUE: en donde se exponen los objetivos de la investigación, y que constituye
la referencia contra la cual han de evaluarse sus resultados.
(d) el COMO: en donde se pone en conocimiento del evaluador cuáles son las unidades de
observación y análisis, cuáles los instrumentos, cuáles las mediciones y cuál es el
procedimiento para el análisis, el procesamiento y la exposición de los resultados de la
investigación.
A partir de estos cuatro aspectos el evaluador debe tener a su disposición todos los
elementos para identificar el problema, para decidir si su solución es factible, y si la
investigación es útil y fecunda. Puesto que la tarea del evaluador es básicamente la de
asesorar a la institución que ha de aportar los recursos para la investigación, y puesto que
dicha institución debe de algún modo ejercer acciones de auditoría y control sobre la
83
marcha del proyecto, otros dos elementos son imprescindibles: los recursos necesarios y el
cronograma de realización de la investigación.
La revisión debe concluir con un dictamen que se expresa en una de las cuatro
categorías siguientes: (1) Aprobar (2) Aceptar con cambios menores (3) Aceptar con
cambios mayores y (4) Rechazar. Todas las revisiones, exceptuando aquellas que culminen
con un dictamen de `aprobado', deberán incluir una ficha que fundamenta el dictamen
emitido. Todas deben incluir el nombre de los revisores.
Algunos aspectos que deben tenerse en cuenta para el momento de la presentación:
• Poseer los medios de apoyo para la exposición, estos deben ser claros, precisos y bien
confeccionados.
• Debe cuidarse que las diapositivas no estén muy cargadas de información. Solo llevar a la
pantalla esquemas que conduzcan a los oyentes a llevar el hilo conductor de la información
que se presenta, no proyectar la imagen de dependencia del medio de que se trate para la
exposición de los contenidos, lo que le resta lucidez a la defensa.
• Al realizar indicaciones se debe utilizar un puntero (no señalar con el dedo)
• Debe coincidir lo que se dice con lo que se muestra visualmente.
Consejos para saber defender un proyecto o un resultado de investigación:
1. Elaborar un esquema
Para no ser víctima de los nervios y omitir cosas importantes es necesario elaborar
un esquema de exposición al que se debe ceñir a la hora de la defensa , este esquema
ayudará a organizar de una manera más efectiva las ideas importantes y dejar fuera los
datos prescindibles que pueden consultarse en la parte escrita entregada.
2. Equilibrar el tiempo y la información
En la mayoría de los casos las defensas de proyectos y resultados de investigación
hay un tiempo máximo de duración establecido, porque es necesario priorizar a la hora de
trasmitir la información, por eso es conveniente practicar la defensa con anterioridad con
cronometro e ir corrigiendo si hay algo que falta o que está de más.
3. Practicar
Practicar y tener la capacidad de visualizar la defensa del trabajo es muy
importante, porque eso ayuda a enfrentar la ansiedad, a detectar los errores en la defensa, a
memorizar el contenido y dar sentimiento de seguridad.
4. La ronda de preguntas
84
Toda defensa de trabajos incluye preguntas por parte del tribunal y esto es quizá lo
que más ansiedad despierta, por eso es importante la preparación para ello, hay que
imaginar la ronda de posibles preguntas.
5. Calmar los nervios
Es importante recordar que la defensa durará tan solo unos pocos minutos y que
uno está completamente capacitado para enfrentarla, y no ser presa del pánico, ni de la
ansiedad.
4. Comunicación a un grupo de trabajo
Las normas generales del contenido para la presentación del resultado de una investigación
a un grupo de trabajo se basan en los mismos apartados que la presentación oral o de un
artículo científico (introducción, método, resultados y discusión).
Sin embargo a la hora de presentarlo hay que tener en cuenta las principales claves para
una comunicación eficaz en un grupo de trabajo.
• Mantenerse en contacto siempre: A veces hay que emitir los mensajes una y otra vez.
Y además hay que reforzarlo con tantos medios y formatos como sea apropiado:
presentación del resultado, preguntas y respuestas, grabaciones, videos, publicaciones,
folletos, resultados de pruebas etc. Este es importante porque cada persona tiene diferentes
estilos de aprendizaje y escucha, por lo que hay que disponer de una variedad de canales de
comunicación para asegurar que el mensaje llegue a todos.
• Ser claro y preciso: Los mensajes deben ser transmitidos con claridad, especificidad y
coherencia. Por lo tanto, hay que tomarse el tiempo necesario para asegurarse que el
contenido de la comunicación sean planteados -y en consecuencia, sean más fácilmente
entendidos.
• Reúnase cara a cara: hay que reunirse directamente, mejor todavía si se hace más de
una vez. En algunas situaciones puede ocurrir que un interlocutor no puede escuchar
cuando lo escucha por primera vez, o puede no leer el material impreso entregado en una
primera reunión. Las sesiones de seguimiento le dan la oportunidad de repetir la
información hasta que todos la incorporen.
• Fomentar un feedback: La comunicación no puede ser solamente "de arriba hacia
abajo", Es necesario estar abierto a preguntas, inquietudes, ideas, preocupaciones,
insights de todos los miembros del grupo de trabajo.
85
NORMAS BÁSICAS PARA LA PRESENTACIÓN GRÁFICA

La mayoría de las normas para la presentación gráfica tienen el mismo valor que la
presentación oral. La estructura de la presentación debe ser similar que los usados para la
comunicación oral. En la preparación del póster es necesario seguir las instrucciones del
comité organizador del congreso en el que se presenta. La restricción en cuanto al formato
suele ser el principal condicionante para la elaboración de un póster, con unas dimensiones
que oscilan entre los 100 y los 120 cm. de altura y los 70 a 90 de ancho. Otras restricciones
quedan a criterio del comité organizador, por lo que deben ser consultadas por el autor
antes de proceder a la elaboración de su póster. Un póster debe ser visualmente atractivo.
A la hora de elaborar un póster, hay que tener en cuanta algunos factores de diseño:
-Es importante que no contenga demasiada información, el máximo recomendables son
800 palabras. Los textos claros y ordenados, que se entienda bien, que trasmita la hipótesis
y conclusiones de forma clara.
Introducción y objetivos (200 palabras)
Material y métodos (200 palabras)
Resultados (200 palabras)
Conclusión (200 palabras)
Referencias (lo estrictamente necesario)
Agradecimientos (30/40 palabras)
- Los títulos deben poderse leer a una distancia mínima de 5 metros (al menos un cuerpo de
2,5cm). El título ocupara un lugar destacado en la parte superior del póster
-Debajo del título y en letra más pequeña deben aparecer los autores por orden de
implicación, debajo de los nombres de los autores se pone la afiliación institucional
- Los textos deben poderse ver a una distancia mínima de 2 m( al menos un cuerpo de 0,75
cm).
- Distribución de los elementos dentro del póster atendiendo a los criterios de atracción del
asistente y evitación de excesos gráficos (no más de 10).
- El contraste del color del fondo con el del texto: destaca más el negro o azul marino
sobre un fondo blanco o amarillo, mientras que la combinación del rojo con el verde o el
negro suelen resultar poco legibles.
- Uso de las tablas, gráficos y figuras: Es imprescindible obtener el permiso para el uso de
ilustraciones o fotografías de otros autores. La colocación y la calidad de las ilustraciones
son también fundamentales a la hora de garantizar el éxito de un póster.
-Aspectos éticos. Mantener el anonimato y el derecho a la privacidad de los participantes.
86
Un buen diseño debería satisfacer las siguientes condiciones:

 Atractivo visual
 Personalidad
 Equilibrio
 Calidad estética
 Claridad en la explicación de las ideas
 Comprensión rápida de la jerarquía y distribución de las partes
 Síntesis
 Rigor
Para preparar un póster científico hay una regla infalible consistente en seguir SIETE
PASOS básicos:
 PASO 1. Planificar (preguntas/ideas)
 PASO 2. Componer (estructura, nº elementos gráficos, colores, letras.)
 PASO 3. Elaborar (textos, imágenes y otros elementos gráficos)
 PASO 4. Revisar (comprobar, corregir, mejorar)
 PASO 5. Imprimir (materializar las ideas)
 PASO 6. Trasladar (enviar, transportar)
 PASO 7. Presentar (comunicar, interaccionar)
El póster requiere normalmente de la presencia del investigador en los tiempos
marcados por el comité organizador, para la explicación de la información mostrada (esto
no debería ser imprescindible, el póster debe hablar por sí mismo) y para favorecer la
discusión con el resto de los asistentes.
Actualmente existen muchos programas para elaborar pósters, uno de los más
conocidos es el programa Postertoprint (http://www.postergrunenthalonline.es/). Su uso es
muy fácil. Contiene diferentes plantillas prediseñadas que garantizan el respeto a las
normas básicas del diseño de un póster científico.
A continuación se muestran dos ejemplos:
1.- Un mal ejemplo de presentación en póster
2.- Un buen ejemplo de presentación de un póster
87
Mal ejemplo:
Grafico extraído: Talleres sobre la elaboración de posters científicos

http://www.occ.upf.edu/img/imatges_cms/manualposters.pdf
88
Buen ejemplo:
Grafico extraído: Talleres sobre la elaboración de posters científicos

http://www.occ.upf.edu/img/imatges_cms/manualposters.pdf
89
NORMAS BÁSICAS PARA LA PRESENTACIÓN ORAL

Como recomendaciones para la presentación oral, son las siguientes:
• Entrenar cuidadosamente la exposición
• Adecuarla al tipo de público al que va dirigida
• Evitar dar demasiada información
• Expresar las ideas de forma clara y no repetitiva
• Ser ameno y breve
• Tener especial precaución con las presentaciones multimedia, asegurándose de que se
está familiarizado con el procedimiento.
Fases de la presentación oral:
Hay tres fases en una presentación oral: Preparación, material y estructura.
En la primera, preparación, es preciso responder a cuatro interrogantes:
1. ¿Qué voy a contar? El interés aquí se basa en el mensaje a transmitir
2. ¿Cómo lo voy a contar? A tener en cuenta los medios y procedimientos que se usarán.
3. ¿Para qué voy a hablar? Esto es, los objetivos de la conferencia.
4. ¿A quién voy a hablar? Audiencias a las que va dirigida la presentación
Hay que poner atención a los filtros de calidad del material que se va a presentar. Estos
filtros son:
• Cantidad: Ajustar el contenido al tiempo del que se dispone para la exposición.
• Relevancia: Relación del material presentado con los objetivos de la exposición
• Calidad
i. Interna: Que el material sea fiable: actual y con fuentes adecuadas
i. Externa: Adecuación de la información con los medios que se tienen.
Una exposición sigue una estructura concreta:
• Apertura: Se sugiere saludar y presentarse, para después captar la atención del público,
con algo polémico, etc.
• Introducción: Breve presentación de los puntos que se van a tratar.
• Desarrollo. Se recomienda centrar la exposición en apartados, entre tres y seis. Es
conveniente recapitular cada vez que se pase al siguiente apartado.
• Conclusión, donde se recogen las ideas más relevantes.
• Cierre, donde el conferenciante se despide, y, si procede, abre un turno de preguntas.
Un tema polémico es a quién pertenecen los datos derivados de la evaluación de
programas. Este es un punto que diferencia este tipo de trabajo con la investigación,
fundamentalmente la básica, donde el investigador tiene los derechos sobre sus datos. En
90
ocasiones, el contrato donde se establece la evaluación, expresa de forma explícita a quien

pertenecen los datos. En caso contrario, siempre se puede solicitar a la entidad que ha
contratado la evaluación, la explotación que el investigador o el evaluador puede hacer de
los datos. En todo caso, y sea como sea que se acuerde este punto, no hay que olvidar tener
un exquisito cuidado con la defensa de la identidad de los participantes.
El tamaño de la letra es fundamental. No se deben rebajar los 28 p en el formato de
la letra del texto en el cuerpo central, para garantizar su visibilidad por el auditorio. Esto
implica, además, una labor de síntesis previa, para evitar forzar las diapositivas. El número
de diapositivas debe ajustarse, además, al tiempo concedido para la presentación. Un
número elevado de diapositivas obligará al orador a pasar rápidamente por algunas de
ellas, con el consiguiente malestar del público asistente, que, al no disponer de tiempo para
leerlas, no sabe si se está perdiendo alguna información de interés. El uso de enlaces en las
presentaciones debe ensayarse con antelación, para evitar que un hipervínculo realizado en
nuestra presentación con algún sitio web no esté correctamente enlazado o la presentación
no esté disponible. Para ello, es necesario garantizar la conexión del sistema desde donde
se va a proyectar dicho enlace a la red. En el caso de presentaciones con sonido
incorporado, es igualmente necesario asegurarse con antelación de la existencia de un
sistema de amplificación del sonido y de la calidad del mismo para su emisión.
BIBLIOGRAFÍA:
-Comunicar es fácil 1ª parte. Disponible en:
(http://www.youtube.com/watch?v=oahrBhPb9ZY Fecha de acceso: 23.05.2013
http://www.youtube.com/watch?v=6EAwgzbgRJc Fecha de acceso: 23.05.2013
http://www.youtube.com/watch?v=L8ZQFDaRsFg Fecha de acceso: 23.05.2013
- Comunicar es fácil 4ª parte. Disponible en
http://www.youtube.com/watch?v=MbcE7z29Nzo Fechas de acceso: 23.05.2012
http://www.youtube.com/watch?v=HbUMDR3hRjM Fechas de acceso 23.05.2013
- Sá. D: Como defender una tesis. Disponible en
http://educacion.uncomo.com/articulo/como-defender-una-tesis
4277.html#ixzz2TvT70zm6 Fechas de acceso: 22.05.2013
- Sarriá, Diseños de Investigación en Psicología. (pág. 531-562). Madrid: UNED
91
- Fernández, M.A (2001) La comunicación verbal y no verbal en la negociación. Curso de

negociación, Otri ULL
- Talleres sobre la elaboración de pósters científicos. Disponible en
http://www.occ.upf.edu/img/imatges_cms/manualposters.pdf Fecha de acceso 20.05.2013
92
CAPÍTULO 9
ESTADÍSTICA BÁSICA PARA INVESTIGADORES NOVELES (I)

PROPÓSITO DEL TRATAMIENTO ESTADÍSTICO DE LOS DATOS.
MEDICIÓN, PRESENTACIÓN Y CODIFICACIÓN DE VARIABLES.
Rafael Cuena Boy

Farmacología Clínica. Comité Ético de Investigación Clínica. Complejo Hospitalario de Toledo.
OBJETIVOS Y JUSTIFICACIÓN
Puede llamar la atención el contenido de estos apuntes, en que se juntan la detección de
outliers, la codificación de los datos y el redondeo de valores numéricos, asuntos muy prácticos,
con un esfuerzo por exponer los conceptos básicos de la inferencia y los razonamientos que hay
tras los contrastes de hipótesis básicos, sin preocupación por su aplicación práctica. La explicación
es que esto no es un manual o texto de estadística. Lo que he intentado es ir directamente a por
aquello que, según mi experiencia, ocasiona problemas en la práctica y que creo que puede ser
fácilmente solucionado. Y en la práctica me encuentro con alguna frecuencia con compañeros que
han conseguido llegar hasta la redacción de un original, pero se olvidan de adoptar una decisión
consistente sobre el número decimales de sus resultados o redondean incorrectamente, por no saber
que estos detalles también importan; también sucede que una de las preguntas estadísticas más
frecuentes se refiere a la elaboración del fichero de datos de un estudio y, pese a ello, se pierde
bastante tiempo arreglando datos mal codificados; quizá por parecer fácil, se dedica poca atención
a la mejor forma de describir los datos, y, en consecuencia, no es raro ver que se usa la media como
única descripción de distribuciones muy sesgada, con outliers importantes o en estudios con
seguimiento incompleto...
Sin embargo, yo creo que el problema más importante con la Estadística "en nuestro
medio" es que es una herramienta cuyo uso no se puede evitar y que se utiliza más de lo que se
comprende. Por ello, la mayor parte de estos apuntes se dedica a los conceptos y el objetivo
principal es facilitar su comprensión, limitando el empleo de las matemáticas y de los detalles
teóricos al mínimo imprescindible y sin pretender que lo presentado pueda servir como guía para la
aplicación práctica de las técnicas estadísticas. Creo que, gracias a los diversos cursos y guías sobre
estadística básica y análisis de datos y, sobre todo, a la amplia disponibilidad de los ordenadores y
de software estadístico verdaderamente amigable para el usuario, la dificultad, actualmente, no está
en el manejo de los datos y en los cálculos de los índices necesarios para describir un conjunto de
datos o para realizar un contraste de hipótesis, incluso con las técnicas más "avanzadas". Lo que, en
mi experiencia, suele fallar es la comprensión real de lo que se está haciendo y, en consecuencia, la
interpretación cabal de lo que se encuentra. Por eso, presento en estos apuntes los razonamientos
93
con que me explico a mí mismo, que no soy estadístico ni matemático y que tengo un interés
estrictamente instrumental por estas cuestiones, lo que es un contraste de hipótesis y los criterios en
que me baso para elegir entre los diversos estadísticos descriptivos, pues quizá sean también útiles
para otros médicos que, como yo, no han recibido otra enseñanza reglada que el curso de
Bioestadística de la carrera.
También pienso que la mayoría de los médicos, que no se dedican al análisis de datos, no
necesitan conocer más que unos pocos conceptos estadísticos. Sin embargo, dado que están en la
base de gran parte de las "certidumbres" en que se basa la práctica clínica, para actuar con
conocimiento de causa en nuestra profesión, sea como potenciales investigadores o como reales
consumidores de la investigación que otros hacen, no hay otra alternativa que conocer, comprender
y utilizar esos pocos conceptos. Ello, además, capacita para identificar los propios límites y para
percibir, cuando llega, la necesidad de recurrir a especialistas y profesionales de la Estadística. Por
eso, creo que el que quiera iniciarse en la estadística que necesita como médico se equivocará si
rechaza estos apuntes por la única razón de que no explican cómo sacar una P o un intervalo de
confianza de los datos procedentes de unas observaciones clínicas.
El enfoque de "razonamiento personal" que he adoptado, como si me estuviera explicando
a mí mismo estas cuestiones, me ha llevado a tratar la inferencia estadística partiendo de la toma de
muestras repetidas mediante simulación informática para construir con ellas una distribución que se
"aproxima" suficientemente a la distribución muestral (DM) pertinente y "observar" sus
propiedades empíricas. Esta aproximación, que es totalmente rigurosa, me parece más asequible
que la teoría de la Inferencia Estadística y sus deducciones basadas en la Lógica Matemática sobre
la distribución de probabilidad teórica aplicable a cada supuesto, al menos para los que no somos
matemáticos. Desde la DM empírica, el camino que lleva a la solución del problema es claro y
directo, pues basta con "colocar" la muestra realmente observada en el lugar que le corresponde en
dicha distribución muestral para ver inmediatamente tanto la distancia entre la observación y la
media de la distribución como la frecuencia relativa con que se dan distancias tan grandes o
mayores en ella. Este procedimiento facilita (al menos a mí) la comprensión de conceptos como
"significación", "nivel de confianza", "error estadístico", etc. Pero es necesario un paso adicional
que una todo lo anterior con las técnicas clásicas que, al menos por el momento, son utilizadas
mayoritariamente, para que quede clara tanto la relación entre el "juego" informático descrito y las
pruebas que a cualquier médico como mínimo le suenan (la prueba t de Student, o la Chi cuadrado,
etc.) como el hecho de que esas pruebas no son otra cosa que una especie de "rodeo" necesario para
deducir las propiedades de la DM, a falta de una DM observable empíricamente (carencia que fue
absoluta hasta que aparecieron los ordenadores), y poder juzgar la posición de la muestra observada
dentro de ella. Un objetivo de estos apuntes es que quede inmediatamente claro para el lector que
tanto la prueba clásica como la basada en la generación informática de muestras utilizan
94
exactamente los mismos conceptos, y que la única diferencia está en el método utilizado para
"conocer" la DM pertinente al caso.
Estos apuntes han sido redactados con mucha prisa, intentando evitar, primero, y acortar,
cuando vi que no me era posible otra cosa, el retraso sobre el plazo que me indicó Agustín Julián,
Jefe de Estudios de los Residentes de nuestro Hospital, cuando me los encargó. Así que no he
podido revisarlos con el detalle que me hubiera gustado. Evidentemente y aunque no sea la única
causa, la prisa habrá aumentado el número de los fallos, defectos y errores. Agradecería a todo el
que identifique algún gazapo, error material o conceptual, o que tenga cualquier idea que pueda
servir para mejorar el contenido o la utilidad de estos apuntes, que me lo comunicara.
FINALIDAD DE LA ESTADÍSTICA
El tratamiento estadístico de datos pretende dos cosas:
1.- Elaborar índices, tablas y gráficos que resuman y presenten de manera inmediatamente
comprensible la información relevante de un conjunto de individuos. Ésta es la finalidad de
la Estadística Descriptiva.
2.- Partiendo de las observaciones realizadas en una muestra, calcular la probabilidad de
los distintos valores que la variable puede tener en la población, utilizando para ello los
métodos de la Estadística Inferencial.
Como la probabilidad informa de lo que cabe esperar cuando hay muchas
mediciones y los índices estadísticos se refieren a conjuntos de elementos, la Estadística
trata siempre con grupos (la estructura mínima analizable estadísticamente es un grupo de
datos de una sola variable). Pese a ello, es frecuente que, en la práctica, se utilice la
información probabilística sobre los índices estadísticos para tomar decisiones sobre
pacientes concretos.
VARIABLES Y ESCALAS DE MEDICIÓN

Como se ha dicho, cada uno de los items que componen la información que va a ser
tratada estadísticamente es una variable. A su vez, el conjunto de valores, categorías o
"contenidos" que puede tomar una variable constituye su escala de medición.
Aunque las variables pueden ser clasificadas de muchas formas, una de las más
útiles es la que se basa en el grado de detalle de la escala de medición:
1.- Escalas Dimensionales:
En ellas, cada categoría es progresivamente mayor o menor que la precedente; además, a lo
largo de toda la escala y entre todo par de categorías adyacentes existe un intervalo
95
medible y de la misma magnitud. Aunque caben sub clasificaciones de estas escalas, en la

práctica suele ser posible ignorarlas.
Ejemplos: La presión arterial en mmHg (continua), el número de hijos de las familias
(discreta), la temperatura en grados Celsius (sin cero real) o Kelvin (con cero real), etc.
Número de cuestiones contestadas correctamente por cada participante en el ejercicio
teórico-práctico de una oposición.
2.- Escalas Ordinales:
Las categorías sucesivas pueden ser ordenadas de manera monotónica (creciente o
decreciente), pero entre categorías adyacentes no existe un intervalo medible y/o de la
misma magnitud. Estas escalas se basan en el orden y o bien desprecian la magnitud de la
distancia entre los elementos ordenados, o bien tal distancia simplemente no está definida y
no es medible.
Ejemplos: Evolución medida en las siguientes categorías: curación, mejoría considerable,
mejoría leve, sin cambios, empeoramiento moderado, empeoramiento considerable,
defunción. Probabilidad de la existencia de alguna condición como, p. ej.: infarto definido,
probable, dudoso, improbable o excluido (nótese que en estos dos ejemplos varios
individuos distintos pueden tener la misma categoría). Puesto de orden de los participantes
en una oposición basado en la nota del ejercicio teórico-práctico (en casos como este hay
tantos valores -puestos de orden- distintos como individuos en la muestra).
3.- Escalas "Cuasi- Dimensionales":
Aunque lo parece, no hay un intervalo medible e igual entre valores adyacentes. Tienen
una apariencia "cuantitativa" que no es real.
Ejemplos: Suma de las puntuaciones obtenidas en varias escalas ordinales que conforman
un cuestionario o instrumento de medición, como algunos cuestionarios de calidad de vida,
de inteligencia, de discapacidad, etc. Puntuaciones como el APACHE II, el Apgar, etc.
Resultado de la aplicación de una escala analógica visual para medir cualquier síntoma.
4.- Escalas Binarias o Dicotómicas:
Como las nominales, en que sólo hay dos categorías, y los datos "existenciales", recogidos
como presencia o ausencia de alguna condición y muy frecuentes en investigación clínica.
Ejemplos: Sexo (masculino o femenino), infarto de miocardio (sí o no), etc.
5.- Escalas Nominales:
Las categorías carecen de magnitud y de orden.
96
Ejemplos: El antibiótico utilizado: macrólido, betalactámico, aminoglucósido... El

diagnóstico: pancreatitis aguda, ictericia obstructiva por litiasis biliar, cáncer de
páncreas... etc.
Como se puede ver, la diferencia entre estas escalas radica en el nivel de detalle a que llega
cada una de ellas. La escala Dimensional es de mayor precisión que la ordinal y ésta que la
nominal. Las técnicas estadísticas aplicables para la descripción y para la inferencia
dependen de la escala en que hayan sido medidas las variables a analizar.
LA "PRECISIÓN" DE LAS VARIABLES

En las frase previas se acaba de utilizar la palabra precisión, que es un término
básico en Estadística. Es importante distinguir entre la acepción habitual (y también la
científica) del término precisión, donde viene a significar "nivel de detalle", de su
significado en Estadística, donde una medida es precisa si, mientras no cambie la magnitud
de lo medido, al repetirla produce los mismos resultados o, también, un conjunto de
valores son más precisos si tienen menos variabilidad entre ellos. Por tanto, en Estadística
más "precisión" significa menos efecto del "error aleatorio".
Así, p. ej., una anamnesis precisa es una descripción con detalle de la situación clínica del
paciente. Un cálculo preciso es un cálculo en que se consiguen muchas cifras decimales
significativas. Una medición precisa, en sentido habitual o científico, de una distancia es
una medición hasta en micras. La escala dimensional es más precisa que la ordinal en la
acepción de "precisión" que significa "nivel de detalle", pues la escala dimensional,
además del orden valora también la distancia entre valores. Sin embargo, una medición de
una distancia es más precisa, en sentido estadístico, cuanto más parecidos entre sí son los
resultados de su repetición. Una estimación de una media de una población a partir de una
muestra es más precisa si existe menos dispersión entre los valores plausibles.
Por tanto, se puede decir que mientras que la cualidad "científica" de la precisión se
refiere a una única medición, la cualidad "estadística" de la precisión se refiere a un
conjunto de ellas. Estos dos usos distintos de una palabra tan importante desde el punto de
vista científico y estadístico es el origen de muchas confusiones y dificultades de
comprensión. Por ello, ha parecido conveniente aclarar ambos conceptos.
Las variables que, por su naturaleza cuantitativa, pueden ser medidas en una escala
Dimensional, también lo pueden ser en una ordinal (despreciando la parte cuantitativa de la
información) o nominal (obviando el orden y reteniendo solo la igualdad o desigualdad
entre valores). Sin embargo, la pérdida de detalle que se produce al utilizar una escala de
97
menor detalle cuando es aplicable una de más precisión puede ocasionar una pérdida de
eficiencia, haciendo necesario el estudio de un número mayor de individuos para llegar a
los mismos objetivos. Por ello, al realizar las mediciones de las variables de un estudio y al
codificar sus valores se debe conservar la escala de mayor detalle posible, salvo que
existan razones claras para lo contrario.
REDONDEO DE VALORES DE LAS VARIABLES

Para evitar sesgos, impresiones distorsionadas y problemas derivados de que la
suma de las partes sea mayor o menor que el total, se recomienda utilizar de forma
consistente el siguiente procedimiento de redondeo:
Cuando los dígitos finales son 1, 2, 3 ó 4 se eliminan y se mantiene el previo. Así; p. ej.;
23,4 se redondea a 23; 23,43 a 23,4; etc.
Cuando los dígitos finales son 6, 7, 8 ó 9 se eliminan y se aumenta en una unidad el previo.
Así; p. ej.; 23,7 se redondea a 24; 23,48 a 23,5; etc.
Cuando el dígito final es 5 se elimina y se mantiene el previo, si es par, o se aumenta en
una unidad, si es impar. Así; p. ej.; 23,5 se redondea a 24; 22,5 a 22; 23,45 a 23,4; 23,55 a
23,6; etc.
Es importante mantener todos los dígitos significativos durante los cálculos y no
realizar el redondeo hasta que se haya llegado al resultado final. De lo contrario, se pueden
producir graves errores por redondeo. Además, para evitar esta clase de errores conviene
utilizar calculadoras o programas que trabajen con, al menos, "doble precisión" (12 dígitos
decimales) y tener precaución con las calculadoras que, a veces, no son capaces de
almacenar en su memoria números de más de 9 dígitos. También se debe evitar que el
redondeo haga aparecer como idénticos resultados numéricos que son distintos; por
ejemplo, si se redondea a dos enteros una lista de porcentajes de pacientes que sufrieron
una reacción adversa a con diversos fármacos entonces los valores superiores a 0% pero
inferiores a 1% (como un 0,7%) se confundirían con la ausencia de toxicidad (0,0%), lo
cual puede ser engañoso. Otro ejemplo similar se daría si al ordenar por resultados o
valores numéricos el hiciera aparecer empates falsos.
LA TABLA DE DATOS DE UN ESTUDIO

Los resultados de las mediciones de las variables deben ser dispuestos en una tabla
de datos, similar a la de la figura 1, de forma conveniente para el tratamiento por medio de
alguno de los programas estadísticos disponibles. Aunque hay diversas posibilidades
98
válidas, es recomendable utilizar algún método que no sea dependiente de ningún sistema
operativo o programa concreto, como puede ser un archivo de texto ASCII, ya sea
creándolo directamente con un simple editor de programas o exportándolo desde una hoja
de cálculo o base de datos. Ello permite procesar los datos en cualquier ordenador y
compartirlos con otros investigadores.
Si se utiliza una hoja de cálculo (sirve cualquiera) para la creación de la tabla de
datos, la información de cada individuo de la muestra debe ir en una fila y cada variable en
una columna distinta, formando una matriz de datos o fichero rectangular a partir del cual
pueden comenzar a trabajar los paquetes de software estadístico. Es conveniente, además,
que la primera fila contenga los nombres de las variables y que estos sean cortos (hasta 8
caracteres), sin signos distintos de letras y números y sin espacios entre ellos, que
comiencen con una letra y que (en la medida de lo posible) sean indicativos del contenido
de la variable medida. También es preferible que la información sea registrada utilizando
solo dígitos. Para ello, en caso de variables medidas en una escala dimensional se escribirá
directamente su valor. Para las ordinales se registrará el puesto de orden del individuo. En
el resto de las escalas habrá que codificar asignando un código numérico a cada uno de los
posibles valores distintos. Así mismo, conviene utilizar un código específico para los
valores perdidos o ausentes y que, si es posible, éste sea el mismo para todas las variables;
para ello, se puede elegir un número que no sea un resultado plausible de ninguna de las
mediciones. Por supuesto, nunca hay que olvidar que el cero no es lo mismo que la
ausencia de medición. Siempre debe haber una variable de identificación del individuo,
pero es preferible que en la tabla de datos no figure el nombre del paciente o alguna otra
variable que permita su identificación, en su lugar se puede utilizar el número de orden de
entrada en el estudio o alguna otra clave que relacione el registro con el individuo a que
corresponde.
Un problema particular se puede presentar con las variables que pueden tener
códigos mutuamente no excluyentes. Por ejemplo, un paciente podría ser tratado con
alguno de estos antibióticos: (0) Amoxicilina, (1) eritromicina, (2) ofloxacino, (3) amoxi-
clavulanico y (4) azitromicina; o con cualquiera de las combinaciones de los mismos. Si en
un estudio se quisiera evaluar el efecto del tipo de antibiótico, en lugar de registrar el
tratamiento con una sola variable (en ese caso, la variable "tratamiento" podría tomar los
valores 0, 1, 2, 3 ó 4 y también 1 y 2, 1y 3, 1 2 y 3, etc. pero de esta forma no sería
analizable), debería haber tantas variables dicotómicas como antibióticos distintos y cada
una ser codificada como (0) no y (1) sí (o alguna alternativa equivalente).
99
Tabla 1: Ejemplo de tabla de datos de un estudio

Meses a partir de la remisión
Años cumplidos 0: No / 1: Sí
Identif Edad Mujer Estadio Qterapia Rterapia Cirugia Recidiva Tseguim · Variable m
Sujeto 1 67 0 0 1 1 1 0 14 · ·
Sujeto 2 78 0 4 1 0 1 1 17 · ·
Sujeto 3 59 1 3 1 0 0 1 10 · ·
· · · · · · · · · · ·
· · · · · · · · · · ·
Sujeto n 64 1 3 0 1 1 0 18 · ·
Finalmente, las reglas de codificación y el significado de los nombres de las

variables pueden grabarse en el propio fichero de datos, pero claramente separados de las
fila en que comienzan los códigos de los valores de las variables. En todo caso, deben
tomarse las precauciones necesarias para que no se pierdan las instrucciones que se han
seguido para la codificación ni la clave de identificación de los individuos, de forma que
sea posible, si es necesario (p. ej. para descartar o corregir errores, para inspección
administrativa, etc.) relacionar cada registro de la tabla de datos con los datos, información
y documentos originales correspondientes.
IDENTIFICACIÓN DE OUTLIERS
Un outlier es un valor extremo que "llama la atención" debido a la existencia de un
intervalo vacío grande, sin observaciones, entre él o ellos y los valores del conjunto de los
datos. Por ejemplo, en el histograma representado en la figura 1de la segunda parte de
estos apuntes se identifican dos casos separados de los demás datos en el extremo superior
de la distribución; esas dos observaciones pueden considerarse outliers. Además, los
outliers pueden ser identificados también mediante diversas técnicas estadísticas (en el
epígrafe sobre gráficos se describe un posible criterio para identificar y representar outliers
en un "gráfico de caja").
Los outliers son con frecuencia resultado de errores durante la medición o
transcripción de la información. También pueden deberse a la inclusión en el estudio de
individuos heterogéneos, que no se ajustan a los criterios de selección establecidos.
Cuando se tiene la seguridad de que un outlier (u otro dato, claro) es un error lo que hay
que hacer es corregirlo o, si no es posible, eliminarlo. A veces el valor del dato es
imposible (p. ej., en un estudio con adultos, un peso del paciente de 8,7 Kg) o se trata de
100
alguna otra equivocación obvia, pero en muchas otras ocasiones es difícil llegar a saber
con seguridad si el outlier es un error o un valor atípico pero correcto.
El problema que plantean los outliers es que unos pocos de ellos pueden llegar a
afectar de manera importante a los índices y estadísticos que, como la media o el
coeficiente de correlación de Pearson, son sensibles a los valores extremos, o empeorar el
ajuste de los modelos estadísticos utilizados para el análisis (p. ej, como en el ANOVA o
en la regresión lineal).
En general, no se debe eliminar o excluir un dato de un análisis sólo porque sea un
outlier y empeore el ajuste del modelo que se está utilizando o parezca afectar a los
resultados de una manera no conveniente. En caso de que suceda esto, se deben utilizar
métodos alternativos de análisis que sean menos afectados por los outliers, como los
basados en medianas y percentiles y las técnicas estadísticas no paramétricas. También
cabe la posibilidad de probar diversas transformaciones matemáticas de los datos, a fin de
encontrar alguna que reduzca los efectos de los valores extremos.
101
102
CAPÍTULO 10
ESTADÍSTICA BÁSICA PARA INVESTIGADORES NOVELES (II)

LA DESCRIPCIÓN DE UN GRUPO DE DATOS.
Rafael Cuena Boy

LA DESCRIPCIÓN DE UN GRUPO
La finalidad es elaborar índices resumen que permitan juzgar tanto la posición de
un individuo dentro del grupo como la del grupo con respecto a otros. Así mismo, son
importantes la forma de la distribución y la dispersión de los valores. Los instrumentos
utilizables con estos propósitos son las tablas de frecuencias, las gráficas y los índices de
tendencia central, de posición o de frecuencia relativa acumulada y de dispersión.
LA TABLA DE DISTRIBUCIÓN DE FRECUENCIAS

Útil con variables medidas con cualquier tipo de escala, resume los datos e informa
sobre la forma y dispersión de la distribución casi sin pérdida de detalle, pues a partir de
una tabla de distribución de frecuencias bien construida es posible calcular cualquier
estadístico que interese. Consiste en una tabla que incluye la frecuencia absoluta, o número
de individuos con que aparecen los valores de la variable dentro del grupo o muestra, y la
relativa, o porcentaje (o proporción) que supone ese número sobre el total de individuos
del grupo. En el caso de variables nominales, binarias y dicotómicas lo habitual es que en
la tabla se recoja la frecuencia de cada uno de sus valores. Pero en el caso de variables
cuantitativas suele ser necesario dividir el recorrido de los valores en intervalos, llamados
clases, ya que de lo contrario se obtiene una tabla con muchos valores distintos y cada uno
de ellos con una frecuencia muy pequeña, lo cual ni resume la información ni muestra el
"patrón" de la distribución.
El contenido de las tablas de frecuencia y de cualquier otra debe ser fácilmente
identificable y comprensible; para ello, no deben ser excesivamente complejas o contener
demasiada información y los títulos, encabezamientos y unidades de medida (si las hay)
tienen que ser claros; así mismo, los valores totales y la base de los porcentajes (si los hay)
deben figurar y ser fácilmente identificables. En la tabla 2 figura un ejemplo de
distribución de frecuencias de una variable ordinal.
103
Tabla 1: Tabla de distribución de frecuencias

Estadio tumoral
Valores acumulativos
Estadio TNM Frecuencia Porcentaje Frecuencia Porcentaje
I 51 25,5 51 25,5
II 27 13,5 78 39,0
IIIA 18 9,0 96 48,0
IIIB 36 18,0 132 66,0
IV 68 34,0 200 100,0
GRÁFICOS
Mientras que con buenas gráficas y tablas se consigue presentar la información de
manera más clara que con texto, también es cierto lo contrario, pues si no son
correctamente realizadas puede confundir totalmente al lector. El propósito de las gráficas
es facilitar que el destinatario perciba la información relevante de forma inmediata; por
tanto, no deben exigir al lector un proceso de meditación concentrada para interpretar y
comprender lo representado. Al realizar una gráfica, se debe evitar toda complejidad que
no añada información útil (p. ej., una falsa tercera dimensión), hay que rotular los ejes e
indicar la unidades de medida y es preferible que las escalas comiencen por cero, ya que de
lo contario se transmite fácilmente una impresión falsa (y la primera impresión trasmitida
por un gráfico debe ser la correcta).
Hay dos tipos clásicos de gráfica para la representación de los valores de una
variable en un grupo: el "histograma", para variables medidas en escala dimensional, y el
"gráfico de barras" para datos nominales y ordinales. En estos gráficos, los valores de la
variable descrita se representan en el eje de las X. Además de estas dos clases, también se
presentan a continuación los gráficos de "tallos y hojas", los de "sectores circulares" y los
de "cajas", pues son utilizados con frecuencia, y alguno con ventaja.
En la figura 1 se representa un histograma en que se recoge la distribución de los
ingresos de 295 trabajadores de determinado sector económico. En un histograma, el
recorrido de la variable se divide en un número adecuado de intervalos que se representan
en el eje de las X, el cual tiene una escala es proporcional a los valores de la variable.
Sobre el segmento del eje de las X que representa los valores de cada intervalo se levanta
un rectángulo cuya anchura es, por tanto, proporcional a la amplitud del intervalo
representado (detalle que no debe ser olvidado en caso de que no todos los intervalos
tengan el mismo tamaño) y cuya altura se ajusta de forma que el área sea proporcional a la
104
frecuencia de los valores correspondientes, lo que constituye la propiedad definitoria de

este tipo de gráfico. Actualmente, los histogramas se suelen hacer mediante programas
informáticos que tienen implementadas por defecto las normas estándar referentes a la
elección del número de intervalos, escalas, etc. normas que suelen ser adecuadas para la
mayoría de los casos. El histograma informa a la vez de la posición y dispersión de los
valores de una variable y de la forma de su distribución. Ésta última puede resultar más
aparente si se unen los puntos medios de los bordes superiores de los rectángulos de cada
clase con segmentos rectos, formando el gráfico llamado "polígono de frecuencias" (ver la
figura 5).
Aunque el histograma es el medio clásicamente empleado para presentar la
distribución de datos dimensionales, lo cierto es que el número y la anchura de las clases
representadas son arbitrarios. Además, la confección de estas gráficas es difícil si no se
dispone de un buen programa para gráficos. Pero existe una alternativa, que permite la
inspección de la forma y dispersión de una distribución y que no adolece de estos
inconvenientes. Se trata del llamado "gráfico de tallos y hojas". Para confeccionarlo, cada
valor numérico se divide en dos partes, el tallo y las hojas. Así, para representar los
ingresos de los 295 trabajadores del ejemplo, cada valor del sueldo podría ser dividido en
los miles, que serían el tallo, y las centenas, que serían las hojas. Las decenas y unidades
podrían despreciarse. Al lado de cada tallo, se colocan tantas "hojas" como individuos
distintos del grupo compartan ese tallo (p. ej., tanto en la cantidad 2.345 como en 2.395 el
tallo es "2" y las hojas son "3"; de forma que en el gráfico quedarían así: 2.33 como puede
verse más adelante; lo que representaría a dos individuos que ganan cada uno entre 2.300 y
2.399 euros). Eventualmente, cada hoja puede representar más de un caso. Como puede
verse en el gráfico de tallos y hojas de la figura 1, que representa los mismos datos que el
histograma de la figura, los tallos corresponden a miles de euros y cada hoja es un caso;
por tanto, hay (1+4+11+21+26=) 53 personas que ganan menos de 1000 euros y, de ellos,
1 gana entre 100 y 199; 4 ganan entre 300 y 399; 11 reciben entre 400 y 599 (uno entre 400
y 499 y 10 entre 500 y 599 euros), etc. La principal ventaja de este gráfico es que permite
reconocer la forma y dispersión de la distribución sin distorsiones debidas a divisiones
arbitrarias en clases de los valores de la variable.
El gráfico de barras consiste en tantas barras como valores de la variable se
representen, situadas sobre un mismo eje y cuya altura es proporcional a la frecuencia del
valor representado. Por tanto, le diferencia del histograma el hecho de que la anchura (y el
área) de las barras y sus posiciones sobre el eje (la distancia a que están entre sí) no
105
representan ninguna característica de los datos y obedecen únicamente a consideraciones

estéticas.
Es importante no confundir los gráficos de barras con los histogramas. Las
variables no dimensionales no pueden ser representadas adecuadamente con un
histograma, pues se originaría la falsa noción de que las longitudes y distancias del eje de
ordenadas son representativas de alguna característica relevante de los datos. A su vez, si
se representa una variable dimensional con un gráfico de barras se obtiene una falsa
impresión sobre la forma de la distribución.
Un gráfico equivalente al de barras y, por tanto, útil para datos ordinales y
categóricos, es el gráfico de sectores circulares. Se trata de un círculo dividido en tantos
sectores circulares como valores distintos se representen. La frecuencia es proporcional al
área del sector. En la figura 1 se recoge un ejemplo de un gráfico de barras y otro de
sectores circulares que representan los datos de la tabla de frecuencias de la tabla 2.
Figura 1: Histograma, gráfico de tallos y hojas, gráfico de barras y gráfico de sectores circulares
30
Frecuencia
20
10
0
10 00,00 20 00,00 30 00,00 40 00,00
Sueldo (e uros)
70 Estadio tumoral
60
I
50
IV 51,00
40 68,00
30
20 II
Frecuencia
27,00
10
III B III A
0 36,00 18,00
I II III A III B IV
Estadío tumoral
106
Existe un tipo de gráfico, llamado gráfico de cajas o box plot, que se basa en
cuantiles en lugar de en estadísticos paramétricos, y que informa a la vez de la posición y
dispersión del 50% de los valores centrales, de la simetría y dispersión de la distribución y
sobre los outiliers. La figura 2 es un box plot en que se representan los mismos datos que
en el histograma de la figura 1.
Figura 2: Gráfico de caja o "box plot"
5500 259
Box plot:
5000
4500
289 Los bordes superior e inferior del rectángulo son el percentil 75 y 25 (3º y 1º cuartil). La
4000
altura del rectángulo corresponde al rango intercuartílico o diferencia entre percentil
3500
3000
75 y 25; por tanto, el 50% de los valores centrales están comprendidos en él. La línea
2500 interior del rectángulo es la mediana. Las líneas verticales que parten hacia arriba y
2000 abajo desde el centro de los bordes superior e inferior del rectángulo se extienden
1500 hasta el último dato que no es considerado un outlier (se pueden utilizar diferentes
1000
criterios para esta decisión, como se explica en el texto). El programa utilizado para
Euros
500
0
realizar el gráfico señala los outliers con un símbolo distinto según estén más o menos
N= 295
alejados e identifica el caso.
Sueldo de 295 trabajadores
Los datos del box plot de la figura 2 tienen una mediana de 1494 euros y los
percentiles 25 y 75 son, respectivamente, 1056 y 2151 euros. Por tanto, estos son los
valores representados por los bordes superior e inferior del rectángulo y por la línea
interior. La distancia entre los percentiles 25 y 75 es 1095 euros, representados por la
altura del rectángulo. En este ejemplo, para determinar la longitud de las líneas verticales,
se ha utilizado el criterio propuesto por Tukey. Así, se consideran outiliers los valores que
están a más de 1,5 veces el rango intercuartílico de los bordes del rectángulo. Por arriba,
por tanto, la raya vertical llega hasta 3597 euros, pues es el dato mayor de entre los que son
inferiores a (2151 + 1,5 X 1095 =) 3793,5 euros (el "tope" horizontal sólo tiene finalidad
estética). Por debajo la raya alcanza hasta el dato más alejado, siempre que sea mayor que
(1056 - 1,5 X 1095 =) -586,5 euros, lo que corresponde a un trabajador que gana 118
euros. Los dos valores externos a estos límites son señalados como outliers (en los datos
representados nadie gana menos de -586,5 euros). Tukey propone, además, distinguir dos
clases de outiliers, los que están separados de los percentiles 25 y 75 entre 1,5 y 3 veces el
rango intercuartílico y los que están todavía más alejados. A los primeros los llama outliers
"internos" y a los segundos "externos" o valores extremos; el SPSS, programa con el que
se ha realizado el box plot de la figura 2, utiliza símbolos distintos para unos y otros y
107
señala ambos con la identificación del caso a que corresponden. Otros programas utilizan
por defecto criterios distintos para los outliers.
Los histogramas, polígonos de frecuencias, gráficos de tallos y hojas, box plots,
gráficos de barras y gráficos de sectores circulares son las herramientas principales para la
representación de una variable en un grupo de individuos. También se pueden utilizar para
representar en la misma gráfica la distribución de una variable en distintos grupos, a fin de
compararlos; ello es más fácil con polígonos de frecuencias, mediante líneas distintas para
cada grupo, y con box plots contiguos que con histogramas superpuestos, en caso de datos
cuantitativos, y con gráficos de barras que con sectores circulares, si los datos son
categóricos (ver figura 3).
Figura 3: Box plot y gráfico de barras de dos grupos
120
Sueldo según el sexo
110
5500 295
100
5000
90
4500
294
80
4000
70
3500
60
3000
Número de individuos
50
2500
40
2000
30 Sexo
1500
20
1000 Hombres
10
Euros
500 0 Mujeres
0 No Sí
N= 188 107
Hombres Mujeres T itu la ción sup eri or
Además de para representar una sola variable, también se utilizan las gráficas para
mostrar la relación entre dos o más de ellas. Así, por ejemplo, en las llamadas gráficas de
supervivencia se representa la proporción acumulada de individuos de uno o más grupos en
que ha ocurrido un evento a lo largo del tiempo; en las gráficas de dispersión se
representan los pares de valores de dos variables relacionadas, en las gráficas de
"secuencias" se recoge el valor de una variable a lo largo de intervalos de tiempo iguales,
entre otras muchas posibilidades y tipos de gráfico. En la figura 4 se recoge un ejemplo de
cada uno de los tres tipos citados.
108
Figura 4: Curva de supervivencia, diagrama de dispersión y gráfica de secuencia.
15
Supervivencia Casos de tuberculosis
1,2 14
12
1,0
10 10
,8
Duración del ingreso (días)
8
Proporción acumulada
,6
Número de casos
6
5
,4 4
2
,2
0
0,0 0 2001 2003 2005 2007 2009 2011
0 10 20 30 40 50 60 0 20 40 60 80 100 2002 2004 2006 2008 2010 2012
Semanas EDA D Año
ÍNDICES DE TENDENCIA CENTRAL

Se trata de una serie de índices que reflejan una sola característica del grupo, la
posición de los valores centrales de la distribución, y, por tanto, son adecuados como
descripción del mismo en la medida en que dicha característica sea la relevante para los
fines del investigador. Entre otras cosas, sirven para evaluar la posición de un grupo con
respecto a otro u otros.
En el caso de variables nominales, el resumen lo proporcionan los porcentajes de
las categorías más frecuentes o representativas. También se pueden utilizar los porcentajes
con las variables ordinales, pero además se puede utilizar la mediana. Además, con ambas
clases de datos se puede utilizar la moda, o valor más frecuente.
Para las variables medidas en escala dimensional, los dos índices más empleados
son la media aritmética o, simplemente, media, y la mediana. La moda se utiliza muy poco
en investigación clínica. Con respecto a la elección de un índice adecuado a los datos, lo
cierto es que si las frecuencias de los valores de los extremos de la distribución son
mayores que las de los centrales, si la distribución es más o menos uniforme (sin que
predomine claramente ningún valor), si es cóncava o si tiene dos o más modas, entonces
ningún índice de tendencia central resulta del todo conveniente, pues en estos casos los
valores más típicos no son los centrales. Sin embargo, a falta de una solución mejor, se
elegirá alguno de ellos.
La ventaja de la media es que resulta familiar a casi todos los usuarios de la
Estadística. Se obtiene sumando los valores de todos los individuos y dividiendo el
resultado de la suma entre el número de individuos. La principal desventaja es que es muy
afectada por los outliers; además, no representa adecuadamente los valores más típicos si la
109
distribución es asimétrica. Finalmente, como muchos datos con importancia clínica son de
naturaleza categórica u ordinal, la media no siempre es utilizable.
La mediana es una observación tal que la mitad de los datos están por encima de
ella y la otra mitad por debajo. Aunque hay menos técnicas estadísticas basadas en la
mediana que en la media, cada vez se usa más en investigación clínica, pues no es afectada
por los outliers, es una mejor descripción de las distribuciones asimétricas y se puede
utilizar también con datos semi-dimensionales y ordinales y en caso de datos de
seguimiento longitudinal incompleto.
Las principales diferencias entre la media y la mediana se dan en las distribuciones
excéntricas, como lo son las "centrífugas", las "centrípetas" pero asimétricas y las
simétricas pero con outliers importantes en uno de los extremos. Cuando los datos se
distribuyen de esta manera, lo que es muy frecuente con variables clínicas y biológicas, la
media, la moda y la mediana no coinciden, como puede verse en la figura 5.
Probablemente, en casos como el de la figura sea preferible la mediana, pues al ser menos
influida por los extremos está más próxima que la media a los picos de frecuencia de la
distribución, correspondientes a los datos más típicos, y siempre se sitúa entre los valores
centrales.
Figura 5: Índices de tendencia en las distribuciones sesgadas.
Peso de 11 niños
La media, la moda y la mediana son distintas cuando la
Niño Simétrica Con outlier
1 1 1
distribución es asimétrica. En distribuciones sesgadas a la
2 2 2 derecha, como la representada, el orden es: moda < mediana <
3 4 4 media; y en sesgadas a la izquierda es el contrario (media <
4 4 4 mediana < moda).
5 5 5
6 5 5
La media depende de la magnitud del dato, por ello es muy
7 5 5
8 6 6
afectada por los outliers. La mediana solo depende de la posición
9 6 6 ordinal y no cambia aunque el valor de los datos extremos se
10 8 8 modifique. En la tabla se comprueba que el cambio de 9 a 97 del
11 9 97 extremo hace que la media pase de 5 a 13 pero no modifica la
Media 5 13
mediana (Ejemplo tomado de la Ref.)
Mediana 5 5
En cuanto a la mayor aplicabilidad de la mediana, considérese la tabla de

frecuencias 1, en que se recoge la distribución del estadio tumoral de 200 pacientes. La
tabla informa directamente de que 104 de ellos tienen un estadio IIIB o IV y que los otros
96 tienen un IIIA o inferior; por tanto, la mitad tiene un estadio IIIB o superior y, en
consecuencia, es totalmente correcto decir que la mediana es "estadio IIIB". Sin embargo,
no hay posibilidad de calcular la media con datos ordinales, como lo son estos.
110
La mediana es especialmente útil en estudios de seguimiento. Por ejemplo, en la

tabla 2 se recoge el tiempo hasta la recidiva de 11 pacientes que han sido seguidos durante
los 12 meses siguientes a la remisión completa de una neoplasia. En estudios así es muy
frecuente que cuando llegan a su final y cesa el seguimiento de los pacientes, parte de estos
no hayan presentado el evento de interés (en este caso, la recurrencia), sea porque no se les
ha seguido el tiempo suficiente, porque son sujetos "resistentes" al fenómeno (en este
ejemplo, algunos sujetos podrían haberse curado definitivamente del cáncer) o porque han
sido perdidos para el seguimiento en un momento dado (p. ej., alguno puede haber
fallecido por una causa no relacionada con la neoplasia), con lo que lo único que se sabe de
ellos es que hasta entonces estuvieron libres del evento. En el estudio supuesto de la tabla 2
hay 6 eventos y 5 sujetos que al llegar a los 12 meses de seguimiento seguían en remisión.
Como el evento se ha producido en más de la mitad de los pacientes, se ha alcanzado la
mediana de la duración del periodo de remisión: 8 meses. Además, aunque se hubiera
prolongado el estudio hasta conseguir medir la duración de la remisión en los 5 sujetos que
faltan, la mediana del tiempo hasta la recaída ya no cambiaría, seguiría siendo 8 meses.
Esto prueba que éste índice se puede calcular válidamente con datos de seguimiento
longitudinal incompleto, como en este estudio. Sin embargo, si se calcula la media del
tiempo de seguimiento en las mismas circunstancias, el valor obtenido no depende sólo del
fenómeno que interesa: la duración de la remisión, sino que depende también de la
duración del estudio. Por eso, al finalizar el estudio la media de seguimiento es 7,64 meses
y si se sigue a los sujetos hasta que todos recaen aumenta a 10,18 meses. Esto prueba, por
su parte, que la media del tiempo de seguimiento con datos de seguimiento longitudinal
incompleto (como es lo habitual, hay que insistir) no es un índice interesante desde el
punto de vista médico, pues es la media del seguimiento y no de la supervivencia.
Tabla 2: La media y la mediana con datos de seguimiento incompleto.
Al finalizar el estudio
Sujeto Recidiva Meses Meses hasta la recidiva
Los estudios en que se sigue a los sujetos para medir el tiempo que tarda en aparecer un evento
2 Sí 2 2 se llaman "Estudios de Supervivencia", sea cual sea la naturaleza del evento de interés.
3 Sí 2 2
5 Sí 3 3
Si al final del estudio no se ha producido el evento en todos los sujetos, y/o no se tiene constancia
6 Sí 4 4
8 Sí 5 5
de ello en alguno por haber sido perdido previamente, entonces la media del tiempo de
11 Sí 8 8 seguimiento, sea en el total de sujetos o sólo en los que se ha dado el evento, no es útil para
1 No 12 13
valorar la incidencia del fenómeno, pues además de depender de ella también depende de la
4 No 12 15
7 No 12 17
duración del seguimiento.
9 No 12 19
10 No 12 24 Este problema no se da con la mediana (ni con otros cuantiles) del tiempo de "supervivencia" ,
Media 7,64 10,18
por lo que es preferible para la descripción del fenómeno.
Mediana 8 8
111
Quizá la principal razón por la que la mediana no tiene un papel más preponderante
es que la mayoría de las técnicas de inferencia estadística populares (contrastes de
hipótesis, estimación de intervalos de confianza,...) se basan en la media. Por eso, es
frecuente que, aunque se aprovechen sus ventajas y se utilice la mediana para la
descripción de los datos, a la hora de estimar los valores poblacionales o de realizar
comparaciones entre grupos se regrese a la media. Sin embargo, a medida que se extienden
los métodos no paramétricos y las técnicas basadas en la simulación informática de
muestras, cuya lógica es más clara y directa y cuyos resultados son más robustos (ver más
adelante), la mediana va, si no desplazando, al menos ocupando una parte del terreno que
era de la media.
ÍNDICES DE POSICIÓN O DE FRECUENCIA RELATIVA ACUMULADA Y DE DISPERSIÓN

Se trata en este epígrafe de estadísticos que permiten delimitar zonas internas
dentro de la distribución y que, por tanto, sirven para evaluar si un determinado dato está
próximo o lejano a los valores centrales. Además, por medio de la anchura de las zonas
delimitadas es posible también juzgar el grado de dispersión de la distribución y evaluar
los índices de tendencia central son adecuados o no para la descripción de los valores más
típicos. Los índices más utilizados con esta finalidad son los cuantiles, índices de
frecuencia relativa acumulada, y la Varianza y su raíz cuadrada, la desviación estándar,
como índices de dispersión.
Los cuantiles son valores de la variable que dividen los efectivos de la muestra en
proporciones concretas e iguales. Según dividan los efectivos en cuartos, mitades, tercios,
quintos o en cien partes, reciben el nombre de cuartiles, mediana, tercilas, quintiles y
percentiles. La mediana divide los efectivos en dos mitades y equivale al percentil 50 y al
2º cuartil. Hay tres cuartiles que delimitan cuatro zonas dentro de la variable, de forma que
un cuarto de los individuos tienen un valor contenido en cada una de esas zonas; el 1º, 2º y
3º cuartil equivalen al percentil 27, 50 y 75, respectivamente. En la figura 6 se representa
una distribución normal de media 50 y DS 25, en la que se han señalado los tres cuartiles.
Figura 6: Las 4 zonas delimitadas por los 3 cuartiles.
Percentiles: Es importante distinguir entre las zonas delimitadas

por los percentiles dentro de la variable y la proporción de los
datos incluidos dentro de cada una de ellas. Como se puede ver en
la figura, las zonas de la variable delimitadas por los cuantiles
pueden ser de anchura distinta, pero la frecuencia o número de
individuos de todas ellas es la misma.
112
Calculando el percentil en que se sitúa un determinado valor se puede evaluar su

posición relativa con respecto a los valores centrales de la distribución. Por ejemplo, si el
grupo tiene 35 individuos, el dato que ocupa el puesto de orden 23 está entre los
percentiles (22/35 X 100 =) 63 y (22/35 X 100 =) 66 o, usando valores más habituales, en
el percentil 75. Igualmente y por ejemplo también, el percentil que corresponde al valor de
la variable Xi es su frecuencia relativa acumulada, o suma de las frecuencias relativas de
los valores X1, X2, ..., Xi lo que permite hacerse una rápida idea tanto de la posición de una
observación relativa al resto de su grupo. Esto tiene utilidad clínica inmediata, pues sirve
para juzgar, por ejemplo, si el crecimiento de un niño es adecuado, según el percentil en
que estén su talla, peso u otra mediciones; por supuesto, los percentiles aplicables al niño
deben ser los correspondientes a la población a que pertenezca. Como se sabe, un
razonamiento semejante se hace para establecer los valores normales de muchos
parámetros clínicos y analíticos.
Como se ha mostrado con el caso particular de la mediana, los cuantiles son
utilizables con datos dimensionales, cuasi-dimensionales y ordinales y con datos de
seguimiento longitudinal incompleto. Sin embargo, al no haber ningún criterio válido para
la ordenación, no son calculables con datos categóricos.
Uno de los índices de dispersión más utilizados es la Varianza (V), que mide la
dispersión de una distribución con respecto a su media. De hecho, es el promedio de las
desviaciones de los distintos valores con respecto a la media. Para evitar que las
desviaciones positivas cancelen a las negativas y que el valor de la V sea cero, lo que se
calcula realmente es el promedio del cuadrado de las desviaciones. Por tanto, las unidades
de la V son las mismas que las de la variable, pero al cuadrado. Como eso dificulta su
comprensión intuitiva, normalmente para la descripción de los datos se utiliza la raíz
cuadrada de la V, o Desviación Estándar (DS). Es evidente, dada su forma de cálculo, que
la V y la DS sólo son válidas si los datos son dimensionales.
La DS es tan popular y tiene tanta importancia en las técnicas clásicas de estadística
inferencial como la media. Se puede decir que si se utiliza la media como índice
descriptivo de tendencia central, entonces es obligado emplear la DS para describir la
dispersión de los datos. Además de su uso en la inferencia, como índice de dispersión la
DS sirve para juzgar la distancia de un elemento en relación a los valores centrales de su
grupo y para comparar la dispersión de un grupo con respecto a otros.
113
Si se mide la distancia de un individuo con respecto a su media en unidades de DS,

entonces se obtiene un índice de posición interna dentro de la distribución, al que se puede
llamar "desviación estandarizada", "puntuación Z" , simplemente, "Z". Como el promedio
de las desviaciones con respecto a la media es cero, la media de las puntuaciones Z
también lo es; además, la DS de las Z es uno. Estos resultados son independientes del tipo
y forma de la distribución. Como consecuencia, si los valores de una variable se expresan
en términos de lo que se desvían de su media y, además, esta desviación se mide en
unidades de DS, se obtiene una distribución estandarizada de media cero y DS uno.
Aprovechando esta propiedad, se puede estandarizar cualquier distribución, lo cual facilita
la comparación entre individuos pertenecientes a poblaciones distintas. Así, en la figura 7
se muestran dos distribuciones supuestas de la edad; una corresponde a niños, con una
media y DS de 5 ± 1,1 años , y la otra a jóvenes, con 25 ± 5 años de media y DS. Por tanto,
como se puede ver en la gráfica, un niño de 6,1 años y un joven de 30 años estarán en la
misma posición relativa dentro, cada uno, de su distribución, puesto que ambos están a una
DS de su media y, por tanto, a ambos les corresponde una puntuación Z de 1.
Figura 7: Puntuación Z y distancia a la media.
Las desviaciones estandarizadas o puntuaciones Z miden la distancia entre una

observación y su media en unidades de DS. Por tanto, para calcular la "Z"
correspondiente a un valor "Xi" la fórmula es: Z = (Xi - media) / DS.
En la figura se puede ver que a un niño de 6,1 años, que está a 1,1 años de la
media, le corresponde la misma "Z" que a un joven de 30 años, que supera a la
media de su grupo en 5 años.
Las puntuaciones "Z" permiten establecer la posición relativa al grupo de un

individuo con independencia de las magnitudes y unidades de la variable.
En otro ejemplo similar, en una maternidad en que la media y DS del peso de los
neonatos fuera 2,9 ± 0, 3 Kg un niño que pesara al nacer 2.210 g sería tan "llamativo"
como uno que pesara 2.750 g en otro lugar en que la media y la DS fueran 3,9 ± 0,5 Kg,
pues la puntuación "Z" de su peso sería -2,3 en ambos niños.
Hay un diferencia importante entre los cuantiles y las puntuaciones Z. Mientras que
los primeros pueden ser interpretados como probabilidades, ello, salvo que se conozca la
forma de la distribución, no es posible con las "Z". Así, por ejemplo, si se sabe que el
percentil 25 del peso al nacer en una maternidad es 2.300 g también se sabe que la
probabilidad de que un niño pese igual o menos de 2.700 es 0,25 o, dicho de otra forma, el
114
75% de los neonatos pesarán más de 2.700 g. Sin embargo, si se sabe que la media de la
población es, por ejemplo, 2,9 Kg y la DS 0,5 Kg, se puede calcular el Z que corresponde a
cada valor del peso; así, por ejemplo, a 2.700 le corresponde un Z de [(2,7 - 2,9)/9,5=]-0,4;
pero, ¿cuál será su probabilidad? En principio, no es posible contestar a esta pregunta.
Ahora bien, si, además del valor Z, se conoce la distribución, en el sentido de que existe
una ecuación matemática de la curva de probabilidad, entonces, mediante procedimientos
de análisis matemático o mediante simulación informática, es posible calcular cuántas
veces aparece un valor de Z menor o igual a -0,4. De hecho, "todo el mundo" sabe que, si
la distribución es normal, una Z ≤ -1,96 aparece en el 2,5% de los casos y, por el mismo
método por el que se ha llegado a este resultado, se podría determinar, también, que una Z
≤ -0,4 (y, por tanto, un peso ≤ 2.700 g) aparecerá en el 34,5% de los niños de la
maternidad.
Por último, puede ser necesario también comparar la dispersión entre grupos. Si las
unidades y la magnitud de los valores son similares en una y otra muestra, entonces se
pueden utilizar directamente las DS. P. ej., la distribución de las edades es más compacta
en una ciudad en que los habitantes tienen 56 ± 34 años (media y DS) que en otra con 54 ±
59 años. Pero, ¿cómo comparar la dispersión de la distribución de, por ejemplo, los salarios
de los trabajadores de un sector económico de un país, cuya media y DS en 2012 fueron
58.993 ± 11.108 $, con los del mismo sector de otro país, con media y DS de 12.496 ±
5.993 $? En principio, la variabilidad es mayor en el primer país, pues su DS es 5.115 $
mayor. Pero, sin embargo, los salarios también son mayores en él. Cuando interesa
independizar la DS de las unidades y magnitudes de la variables se puede calcular el
"Coeficiente de Variación" (CV), que no es otra cosa que la relación entre la DS y la media
o, si se multiplica por 100, el porcentaje que la DS supone sobre la media. Así, en este
ejemplo, el CV de estos sectores económicos es (11.108/58.993=) 0,19 y (5.993/12.496=)
0,48. Por tanto, en este ejemplo la impresión que se obtiene cuando se independizan los
resultados de las diferencias entre las medias es la contraria a la inicial.
El CV puede servir también para juzgar si la media es un índice adecuadamente
representativo de los valores típicos de una distribución, pues cuando el CV es muy alto,
entonces la variabilidad es tan grande que, quizá, no se pueda hablar con propiedad de
valores centrales típicos y, en consecuencia, la media puede no ser un buen "representante"
del conjunto de los datos. No obstante, no se han establecido "puntos de corte" en los
valores del CV que distinguirían entre uno y otro caso.
115
116
CAPÍTULO 11
ESTADÍSTICA BÁSICA PARA INVESTIGADORES NOVELES (III)

INFERENCIA ESTADÍSTICA.
CONCEPTOS Y ESTIMACIÓN DE VALORES POBLACIONALES.
Rafael Cuena Boy
LA INFERENCIA ESTADÍSTICA
La razón principal por la que se toman muestras es porque se desea conocer cómo
son las poblaciones y, como éstas no son accesibles, se busca extrapolar al conjunto de los
individuos lo que se ha observado en unos cuantos de ellos. Por tanto, lo habitual es que se
disponga de una muestra de n individuos en los que se han medido las variables y atributos
de interés. Esas mediciones se resumen y presentan en la forma de algún estadístico
apropiado para los fines del investigador (la media de la presión arterial, la proporción con
cierto tipo histológico, la mediana de la supervivencia, etc.). Sin embargo, el estudio no se
ha realizado para saber lo que sucede en los n sujetos de la muestra, sino que lo que
interesa realmente es saber lo que sucedió, sucede o sucederá en todos los individuos en
una situación similar a la de los elementos de la muestra estudiada. Es decir, interesa saber
el valor en la población del mismo estadístico que se ha medido en la muestra.
Las técnicas de Inferencia Estadística (IE) deducen los valores plausibles en la
población (VP) a partir de la información contenida en una muestra, utilizando para ello la
forma en que se distribuyen los valores de dicho estadístico (VM) cuando se toma de la
misma población un número indefinidamente grande de muestras del mismo tamaño n; es
decir, utilizando las propiedades de la llamada "distribución en el muestreo" (DM) del
estadístico en cuestión.
EL ERROR DE MUESTREO
Aunque puede suceder que el VP sea igual al VM, lo esperable es que exista cierta
diferencia entre ambos, pues en la muestra no están representados todos los individuos de
la población. Por ello, si se atribuye a la población el valor observado en la muestra se
comete un error, llamado error de muestreo. Sin embargo, en la medida en que la muestra
sea representativa de la población, es posible deducir la cuantía probable de dicho error.
117
Cuando la muestra es probabilística (como, por ejemplo, lo sería una muestra aleatoria
simple), la diferencia entre el VP y el VM se debe al azar (pues el azar es el único factor
responsable de que un individuo de la población haya sido o no seleccionado). En
consecuencia, si se equipara el VP con el VM, el error muestral que se comete es también
aleatorio. Pues bien, como se ha dicho, en la medida en que el error sea aleatorio las
técnicas de IE permiten calcular la probabilidad de que ese error alcance determinado
valor. Sin embargo, cuando la muestra no es probabilística es necesario descartar que el
error de muestreo tenga algún componente debido al sesgo de selección, ya que esta clase
de error no es "acotada" por la IE. En principio, la única forma de "valorar" el error debido
al sesgo es mediante el empleo del "juicio informado" de cada receptor de los resultados.
Esta es una diferencia importante entre ambas clases de error: mientras la información
sobre el aleatorio se puede considerar objetiva, la referente al sesgo está sujeta al juicio de
cada cual.
Cuando el muestreo es representativo y, por tanto, el error de muestreo es de
naturaleza aleatoria, al tomar de forma repetida de una población muestras del mismo
tamaño e independientes entre sí, tanto la magnitud absoluta como el signo del error
cambian de unas a otras; en consecuencia la media del error de todas ellas tiende a ser cero.
Si, por el contrario, existe algún sesgo de selección se añade al error de muestreo aleatorio
un componente sistemático cuya media no es cero, ya que su valor es similar en todas las
muestras.
El error de muestreo debe reducirse hasta una magnitud tal que no suponga un
peligro inaceptable de que el estudio no logre sus objetivos. Pero la actitud del investigador
frente a sus dos componentes no debe ser la misma. Como el componente debido al sesgo
no es manejable de forma objetiva, se debe hacer lo posible para que ningún destinatario
razonable del estudio pueda considerar plausible su existencia. El error aleatorio, sin
embargo, puede ser ajustado para conseguir un compromiso aceptable entre el número de
sujetos y los medios empleados, por un lado, y la posibilidad de conseguir los objetivos
buscados, por otro, ya que, en último término y gracias a la Estadística, se podrá juzgar
objetivamente su posible influencia.
Pese a lo dicho, es muy frecuente que en investigación clínica se utilicen muestras
no probabilísticas. Ello se debe a que a menudo no existe otra alternativa viable en la
práctica (como suele ser el caso en los ensayos clínicos, en que no existe una población
identificada de pacientes de la que tomar una muestra aleatoria) y, en todo caso, es
aceptable si existen garantías razonables de ausencia de sesgo (p. ej., mediante un muestreo
118
consecutivo) o, al menos, de que no se ve afectada la validez interna del estudio. Así, por
ejemplo, en la comparación entre dos subgrupos formados por asignación aleatoria de los
miembros de una misma muestra, el hecho de que no quede clara la procedencia y
representatividad de dicha muestra dificultará la posibilidad de generalizar los resultados a
algún tipo concreto de paciente, pero puede no afectar a la validez del resultado de esa
comparación. En un caso así, la posibilidad de sesgo de selección afecta a la validez
externa, pero no a la interna.
En cuanto a la terminología, a las consecuencias del sesgo se les llama falta de
"exactitud" o de "validez" y a las del error aleatorio se les llama "imprecisión".
En lo sucesivo y salvo que se diga otra cosa, cuando se mencione a la población y a
la muestra, se entenderá que ésta última es representativa de la primera, de forma que entre
ambas solo quepan diferencias o errores aleatorios.
DISTRIBUCIONES MUESTRALES O EN EL MUESTREO DE LOS ESTADÍSTICOS:

Seguidamente, se presenta el concepto de DISTRIBUCIÓN MUESTRAL pues está
presente en y es la base de todos los procedimientos de IE.
Si tomamos muestras de forma indefinida de la misma población, todas ellas con el
mismo tamaño muestral (n) e independientes entre sí (para lo que, entre otras cosas, es
necesario retornar a la población los individuos seleccionados en una muestra antes de
tomar la siguiente), y calculamos en cada una de esas muestras un estadístico (media,
mediana, porcentaje o el que interese en cada caso) podemos formar una distribución con
todos sus valores y obtener así la DISTRIBUCIÓN MUESTRAL O EN EL MUESTREO DEL
ESTADÍSTICO (DM).
Por ejemplo, el primero de los histogramas de la figura 1 representa una población.

De esta población se ha tomado mediante simulación informática un millón de muestras
aleatorias independientes de 40 individuos cada una. En el segundo histograma de la figura
1 se recoge la distribución de las medias de este millón de muestras. Por tanto, ese
histograma representa cómo se distribuyen las medias de las muestras independientes de n
= 40 procedentes de esa población, cuando se repite el muestreo indefinidamente; por ello,
a esa distribución se le llama "distribución en el muestreo" o "distribución muestral" (DM),
en este caso de las medias (DMM). A su vez, la DM tiene una media y una DS propias; en
el caso de la DMM, su media y DS son la media y la DS de las medias individuales de
todas las muestras.
119
Si las muestras que forman la DM proceden de una población en que es correcta

cierta hipótesis (por ejemplo, cierto valor de la media poblacional), entonces la DM
recogerá cómo se distribuyen los valores del estadístico al tomar muestras aleatoria de esa
población cuando es cierta la hipótesis mencionada. Así, la DMM representada en el
segundo histograma representa cómo se distribuyen las medias al tomar muestras de una
población con cierta distribución asimétrica (en este caso es una distribución Log-Normal)
en que la media es 30,0 y la DS = 20,1 pues la población de la figura 1 tiene estas
características.
Si se conocen las propiedades de la DM correspondiente al estadístico de interés es
posible estimar la probabilidad de que en una muestra aleatoria ese estadístico tome
determinados valores. Basta para ello con calcular la proporción con que esos valores
aparecen entre los elementos de la DM (pues la probabilidad es el valor de la proporción
cuando el tamaño muestral es indefinidamente grande, como es el caso con la DM). Así,
por ejemplo, en la DMM de la figura 1 se puede comprobar empíricamente que el 95% de
sus valores están comprendidos entre 24,3 y 37,8; que el valor que corresponde al percentil
90 es 35,2; que el 15% de los valores de la DMM son inferiores a 25,9; etc. Por tanto, si es
cierta la hipótesis de que la población es Log-Normal y tiene una media de 30,0 y una DS
de 20,1, entonces la probabilidad de que en una muestra aleatoria procedente de ella la
media sea inferior a 25,9 es de 0,15; así mismo, hay una probabilidad del 0,1 de que la
media muestral sea igual mayor a 35,2 y de 0,95 de que esté entre 24,3 y 37,8...
Las técnicas de IE basan precisamente en que este cálculo puede ser hecho para
cualquier rango de valores o de probabilidades que interese, siempre que se conozcan las
propiedades de la DM del estadístico. Sin embargo, en la práctica no suele haber más que
una muestra real y la DM no existe más que en la mente del investigador. Por tanto, ¿cómo
se pueden conocer las propiedades de algo que no es más que un "objeto mental"?
Una gran parte de la teoría de la IE trata precisamente del estudio de la forma de las
DM de los distintos estadísticos en diferentes condiciones, pues las propiedades de la DM
de un estadístico dependen del tamaño muestral, del tipo de población que ha dado origen a
las muestras y del estadístico de que se trate. Por tanto, una posibilidad cuando se precisa
utilizar una DM es recurrir a la teoría estadística apropiada. Pero hay al menos otra
alternativa: la simulación informática de un número grande de muestras de la población,
como se ha hecho en el ejemplo representado en la figura 1, para aproximar la DM con
ellas y medir directamente sus propiedades.
120
En cualquier caso, lo que importa es que, sea cual sea el procedimiento utilizado
para ello, si se conocen las propiedades de la DM pertinente es posible calcular la
probabilidad de distintos valores muestrales, y esto es la base de la IE.
Así, por ejemplo, las propiedades de la DM de las medias, demostradas
matemáticamente por la teoría estadística, son las siguientes:
1.- La media de la DMM, es decir, la media de los elementos de la DMM, que son las
medias del indefinido número de muestras que se han tomado hipotéticamente, es igual a la
media poblacional (µ) que se quiere conocer.
2.- La desviación estándar de la DMM es igual a la DS de la población muestreada
dividida por la raíz cuadrada del tamaño de las muestras que la forman. A la desviación
estándar de la DMM se le llama error estándar de la media (S) y se calcula con la fórmula:
S= σ/raiz(n) (en general, a la DS de la DM de un estadístico se le llama error estándar de
dicho estadístico y su tamaño es menor cuanto mayor es el tamaño de las muestras que
forman la DM).
3.- La DMM se aproxima adecuadamente a la normalidad si la población muestreada es
normal o, aunque no lo sea, si n es suficientemente grande (debido al teorema central del
límite). El valor de n que es suficiente depende en cada caso de lo mucho o poco que se
desvíe de la normalidad la población muestreada. Para el caso de la media, se suele
considerar que con muestras de 30 o más elementos se puede tratar a la DMM como si
fuera normal.
Como puede verse, la DMM de la figura 1, formada empíricamente al generar
informáticamente muchas muestras independientes de tamaño 40, cumple bien estas
propiedades, pues la media calculada con el millón de muestras simuladas coincide con la
de la población y la DS es 3,17 cifra igual al resultado de la fórmula indicada más arriba
(S= σ/raiz(n) = 20,1/raiz(40) = 3,17). Además, aunque la población no es normal, la forma
de la DMM de la figura 2 se acerca mucho a la de la distribución normal, con lo que el
resultado empírico concuerda con la tercera propiedad de la DMM, al ser n ≥ 30.
121
En los epígrafes siguientes, dedicados a la inferencia, se van a utilizar

continuamente las DM, ya que la estimación de los estadísticos poblacionales a partir de
los observados en muestras, la prueba de hipótesis sobre los valores poblacionales y el
cálculo del tamaño muestral necesario para no superar determinado error de muestreo en
las estimaciones y contrastes se basan en la "localización" de los resultados observados de
la muestra en la DM aplicable al caso.
INTERVALOS DE CONFIANZA - ESTIMACIÓN DE VALORES POBLACIONALES

El Intervalo de confianza (IC) de un estadístico es un intervalo en torno al valor
observado en la muestra cuyos límites han sido calculados de tal forma que, aplicando el
mismo método de cálculo en cada una de las muestras individuales que forman la DM del
estadístico, un predeterminado porcentaje de esos intervalos englobará el verdadero valor
del estadístico en la población. A ese porcentaje se le llama nivel de confianza.
Se pueden calcular los IC de cualquier estadístico (media, mediana, DS, porcentaje,
coeficiente de correlación, etc.) y a cualquier nivel de confianza que se desee siempre que
se conozcan las propiedades de su DM. Por ejemplo, se dispone de una muestra de tamaño
n y media m que procede de una población normal de media µ y DS σ. La teoría estadística
nos informa de que, en estas condiciones, la DM de las medias es normal, que su media es
igual a µ y su DS (o error estándar de la media -S-) a σ/raiz(n). Sabemos, además, que la
distribución normal se caracteriza, entre otras cosas, porque el 95% de las observaciones
individuales están a una distancia de la media, en valor absoluto, menor o igual a su
desviación estándar multiplicada por 1,96. Por tanto, el 95% de las medias de las muchas
(e hipotéticas en principio) muestras cuyas medias forman la DMM estarán a una distancia
de la media de la DMM (que, a su vez, coincide con µ) menor o igual a 1,96 veces la DS
de la DMM (S). En consecuencia, m, que es una de esas medias, tiene una probabilidad de
0,95 de estar dentro del citado intervalo o, expresado de otra forma, en el 95% de los
122
valores de m se cumple que|µ-m|≤1,96XS. La expresión anterior contiene la clave del

IC95%, puesto que si la distancia entre µ y m no supera 1,96XS en el 95% de las muestras
posibles, entonces la probabilidad de encontrar a uno de estos estadísticos (µ o m) en un
intervalo de amplitud ±1,96XS en torno al otro será 0,95.
Por tanto, cuando se desea estimar un estadístico poblacional a partir de una
muestra se pueden calcular los límites del IC al nivel de confianza deseado en torno al
valor del estadístico muestral. Se obtiene así un intervalo de valores que tiene una
probabilidad igual al nivel de confianza de contener el verdadero valor de la población o,
dicho de otra forma, en un intervalo así calculado está comprendido el valor poblacional
buscado en un porcentaje de las muestras del tamaño de que se trate que se podrían obtener
igual al nivel de confianza.
En la figura 2 se han representado la media poblacional real y los límites de los
IC95% de 400 muestras aleatorias tomadas de la población de la figura 1 y distintas del
millón de muestras de la misma figura. Los límites de los IC se han calculado sumando y
restando a la media de cada una de las muestras 1,96 veces la DS de la DMM (o error
estándar de la media -S-). A su vez, S se ha hallado con la fórmula
"S=σ/raiz(n)=20,08/raiz(40)". La media poblacional es menor que el límite inferior del
IC95% en 12 de tales intervalos y mayor que el superior en otros 7; por lo que sólo en 19
de 400 muestras (4,75%) el IC95% calculado no incluye el verdadero valor de la media.
Por tanto, se cumple bien la condición de que solo el 5% de los IC95% no abarquen el
valor poblacional.
Como es lógico, si se desea una probabilidad mayor de que el intervalo de

confianza contenga el valor verdadero, entonces habrá que aumentar su anchura, y
viceversa. Así, p. ej., cuando la DMM es normal, para el IC99% de la media hay que
123
sumar y restar a la media muestral 2,58 veces el error estándar de la media (S), en lugar de
las 1,96 veces S que eran necesarias para el IC95%, mientras que para un IC90% el valor
correspondiente sería 1,64 veces S. Estos valores corresponden a los puntos de corte de la
normal que engloban el 99% y el 90% de los datos, respectivamente (sin olvidar que si no
se conoce σ ni es posible estudiar empíricamente la DMM aplicable, en lugar de los
percentiles de la Normal hay que utilizar los de la distribución de Student apropiada).
Como es también de esperar, si la estimación está basada en una muestra de tamaño
mayor, la DS de la DM pertinente para el caso es menor y la imprecisión se reduce. En
consecuencia, la amplitud del IC para un determinado nivel de confianza es menor cuanto
mayor es el tamaño muestral (n), y al contrario. No obstante, la relación entre imprecisión
o anchura del IC y n no es directa; de hecho, para la media, mediana, DS y otros
estadísticos dicha anchura es proporcional al inverso de la raíz cuadrada de n.
El razonamiento para el cálculo de los límites del intervalo de confianza de un
estadístico y para su interpretación es el mismo, sea cual sea el estadístico (media,
mediana, DS, proporción, etc.) pero, sin embargo, para su cálculo hay que atenerse a las
características de la DM apropiada, deducidas teóricamente u observadas empíricamente,
pues éstas son distintas para cada estadístico. Por ejemplo, mientras que los IC de algunos
estadísticos, como la media, son simétricos en torno a su valor muestral, los de otros, como
las proporciones, son asimétricos en uno u otro sentido.
En cuanto a la interpretación, un IC informa tanto de la magnitud de la variable o
atributo de interés, pues incluye el valor puntual del estadístico, como de la imprecisión o
error aleatorio de la estimación, pues indica el rango de valores que con cierta probabilidad
contiene el valor verdadero poblacional. Al contener a la vez la magnitud más plausible en
la población y la incertidumbre asociada, los IC son una de las mejores formas de expresar
y comunicar el resultado de la inferencia realizada a partir de una muestra. Al incluir
ambos aspectos, permiten juzgar la importancia del dato (responder con criterio médico a
la pregunta sobre si un resultado es grande/importante o pequeño/irrelevante) y hacerse una
idea de los valores que cabe descartar (no esperables) por muy improbables. Sin embargo,
para una interpretación correcta hay que tener en cuenta que los valores incluidos en un IC
son menos probables cuanto más próximos a sus límites y no olvidar que un IC informa de
la probabilidad de que el valor real del estadístico poblacional esté entre ciertos límites,
pero no, o al menos no directamente, sobre la distribución de los valores en los individuos
de la población. Así, por ejemplo, si la media de supervivencia en una muestra fuera 30
meses y los límites de su IC95% fueran 10 y 50 meses, sería mucho menos probable que el
124
verdadero valor poblacional de la media estuviera próximo a 10 ó a 50 que a 30 meses y

sería erróneo interpretar que en el 95% de los individuos la supervivencia está entre 10 y
50 meses, ya que lo que está entre esos valores con una probabilidad de 0,95 es la media,
no los valores individuales.
INTERVALO DE CONFIANZA DE UNA MEDIA CUANDO NO SE CONOCE LA DS POBLACIONAL-

MÉTODO CLÁSICO
Para explicar el concepto de IC se ha partido de una población conocida, se ha

construido una DM simulando un muestreo repetido un millón de veces a partir de la
población y, finalmente, se han tomado otras 400 muestras para mostrar empíricamente
que, efectivamente, el verdadero valor poblacional está comprendido entre los límites de
no menos del 95% de los 400 IC95% formados.
Pero esta situación no es realista ya que, en la práctica, el objetivo es conocer qué
valores son plausibles en una población, cuyas propiedades se ignoran, a partir de la
información contenida en una única muestra. Por tanto, ni se conoce σ ni, al ignorar de qué
población tomar las muestras, se puede formar empíricamente una DM apropiada. En estas
condiciones no es posible calcular S por ninguno de los procedimientos mencionados (sea
con la fórmula "S=σ/raiz(n)" o midiendo directamente la DS de la DM).
Para solucionar este problema, lo que se hace es utilizar la fórmula anterior pero
sustituyendo σ por la DS de la muestra disponible. Esto es una fuente más de error
muestral (en realidad se está sustituyendo un valor real poblacional, σ, por una estimación
del mismo a partir de una muestra) que hay que tener en cuenta a la hora de calcular la
anchura del IC, a fin de que incluya también la imprecisión derivada de la estimación de σ.
Esta corrección se basa en consideraciones de la teoría de la IE y, en el caso de la media, se
realiza sustituyendo la distribución normal por la de la t de Student (que es más dispersa) a
la hora de calcular los límites del IC. Pero este hecho no modifica en nada ni el concepto
que se ha expuesto de IC ni su interpretación, como puede observarse en el ejemplo
siguiente:
En este ejemplo se trata de conocer la edad de la población que se matricula en un
Master a partir de la edad en años cumplidos de los 40 alumnos que lo están cursando,
cuya media y DS es 24,9 ± 2,7 años y su distribución de frecuencias es la de la figura 3:
125
Un problema como este se resuelve midiendo en la DMM de muestras de n=40 la

amplitud del intervalo en torno a su media que deja fuera al 2,5% de las medias de las
muestras por defecto y al otro 2,5% por exceso. Seguidamente, se forma en torno a la
media de la muestra realmente observada un intervalo con esa misma amplitud, pues
dentro de un intervalo así calculado estaría la media de la DMM (que coincide con el
verdadero valor poblacional de la media) en el 95% de las muestras que pudiéramos tomar.
Por tanto, ese será el IC95%. Este ha sido el enfoque hasta ahora, pues permite una
exposición de forma más directa de estos conceptos.
Pero ahora, en una situación más realista, no hay más que una muestra y no es
posible simular informáticamente un número grande de ellas, ya que no conocemos de qué
población extraerlas.
Existen métodos de remuestreo (como el llamado "Bootstrap") que soslayan este
problema simulando la extracción de muchas muestras de una población igual a la muestra
disponible (por eso reciben el nombre de remuestreo). Sin embargo, como por el momento
es más frecuente que este tipo de problema se resuelva recurriendo a las propiedades de la
DM deducida por la teoría estadística, a continuación se va aplicar esta sistemática:
La teoría Estadística informa de que la DMM para tamaños muestrales a partir de
n=30 se aproxima suficientemente a la normal, sea cual sea la distribución poblacional. En
consecuencia, el 95% de las observaciones individuales de la DMM están a una distancia
de la media, en valor absoluto, menor o igual a su desviación estándar multiplicada por
1,96. Pero esta información no es útil, porque la DS de la DMM (llamada error estándar de
la media -S-) es desconocida. Tampoco es útil en este caso el saber que S es igual a la DS
de la población (σ) dividida entre la raíz del tamaño muestral, porque la DS de la población
también es desconocida. Sin embargo, la teoría estadística ha deducido que si se sustituye
σ por la DS de una muestra, entonces, en lugar del valor de S se obtiene una estimación del
126
mismo sujeta a cierta imprecisión, derivada del hecho de que se ha utilizado la DS de una
muestra en lugar de la DS de toda la población. Como consecuencia de esta imprecisión
adicional, el intervalo que contiene el 95% de las observaciones individuales de la DMM
ha de ser corregido y, así, en lugar de ser la media de la muestra ± 1,96 veces la cantidad
"σ/raiz(n)", pasa a ser la media ± t(n-1) veces la cantidad "DS de la muestra/raiz(n)". El
valor de t(n-1) depende del tamaño muestral y del nivel de confianza deseado y está tabulado
o se puede calcular mediante una fórmula (en concreto, se trata de la distribución de
probabilidad teórica llamada t de Student). Por ejemplo, en el caso de n=40 y para un nivel
de confianza del 95%, t(n-1) es igual a 2,02. Como se ha dicho, todo esto depende de que sea
cierta la normalidad de la DMM, lo cual, a su vez, puede depender directamente de que el
tamaño muestral sea de 30 o más individuos.
Por tanto, los límites del IC_95% de la media de edad serían: Lím. IC_95% =
Media muestral ± 2,02 X (DS de la muestra/raiz(n)) = 24,9 ± 2,02 X 2,7/Raiz(40) = 24,0 a
25,7 años.
El verdadero valor poblacional estará entre esos límites con una probabilidad de
0,95 o, dicho de otra forma, si se extrae una muestra aleatoria y se calcula un intervalo en
torno a su media con este método, el 95% de tales intervalos debe contener el verdadero
valor de la media de la población.
En este punto el problema está resuelto. Sin embargo, se va a comprobar si,
efectivamente, el 95% de los IC_95% calculados por el procedimiento descrito contiene en
verdadero valor de la media poblacional. Ello es posible al ser el anterior es un ejemplo
inventado en el que los 40 alumnos de los que se sabe la edad, en realidad se han obtenido
simulando informáticamente un muestreo aleatorio de una población artificial de media y
DS: 24,3 ± 2,4 años y cuya distribución se recoge en la figura 4.
Para ello, igual que se hizo en un ejemplo anterior, se han generado 400 muestras
aleatorias simuladas y se han calculado los límites de los 400 IC_95% correspondientes
127
con el mismo procedimiento que el utilizado con la muestra de 40 alumnos (Lím. IC_95%
= Media muestral ± 2,02 X (DS de la muestra/raiz(n)) ). En la figura 5 se representan los
400 límites, junto con la media poblacional.
Como puede verse en la figura 5, la media poblacional es menor que el límite
inferior del IC95% en 14 de tales intervalos y mayor que el superior en otros 5 (19
intervalos de 400: 4,75%); por lo que nuevamente se cumple bien la condición de que solo
el 5% de los IC95% no abarquen el valor poblacional, pese a que ahora sólo se conocía
para su cálculo la DS de una única muestra.
Por tanto, en este ejemplo, en lugar de generar una DMM empírica se han utilizado
la propiedad teórica de las DMM formadas con muestras de tamaño igual o superior a 30
consistente en que cuando se estima S (la DS de la DM) partir de la DS de una muestra, las
diferencias entre los individuos de la DMM (es decir, las medias de las muestras
individuales) y la media de la DMM siguen la distribución t de Student.
CONTRASTES DE HIPÓTESIS - LA SIGNIFICACIÓN DE UN VALOR MUESTRAL

Una situación frecuente es que el investigador quiera saber si puede considerar
correcto o, al menos, plausible una hipótesis sobre el valor de un estadístico de la
población, juzgando para ello la información contenida en una muestra. Un procedimiento
que se sigue muy a menudo en un caso así es calcular cuál sería la probabilidad de obtener
una muestra como la existente si el valor poblacional hipotético fuera verdadero. En caso
de que esa probabilidad sea inferior a un valor umbral predeterminado se concluye
rechazando la hipótesis. Sin embargo, aunque se haya concluido en su contra, la
probabilidad de que la distancia entre el valor poblacional y la muestra sea al menos la
especificada en la hipótesis no es cero. Por ello, si se toma esa decisión hay un riesgo de
que la conclusión sea errónea que es igual, precisamente, a esa probabilidad, llamada nivel
128
de significación del contraste (el contraste es más significativo cuanto menor sea la
probabilidad citada). El riesgo máximo admisible de esa clase de error se llama
probabilidad alfa y es, por tanto, el nivel de significación predeterminado que debe
superarse en un contraste para rechazar la hipótesis. Sin embargo, el que no se consiga
llegar al nivel de significación predeterminado no implica que el valor poblacional sea
igual al hipotético, como puede entenderse fácilmente con solo considerar que hay otros
muchos posibles valores que tampoco podrían ser rechazados con los datos de esa muestra
y utilizando la misma lógica y si eso equivaliera a la demostración de dichas hipótesis,
entonces el valor poblacional sería igual a todos esos valores a la vez, lo que es absurdo.
Por tanto, el método de decisión que se ha expuesto es capaz de descartar valores pero no
de confirmarlos. Si no se supera el nivel de significación predeterminado, el resultado, en
principio, es equivalente a no poder decidir sobre la hipótesis por no disponer de
información suficiente, pues no se puede rechazar que el valor poblacional sea el
hipotético, por exceso de riesgo de errar, pero tampoco afirmar que lo sea, pues en realidad
en estos contrastes no se juzga de forma directa esta cuestión.
En cuanto a la realización práctica de un contraste, imagínese, por ejemplo, que se
desea conocer si en los pacientes con una determinada situación clínica que acuden a cierta
consulta es más frecuente un sexo que otro y se comprueba que 9 de los 10 casos que han
sido atendidos son mujeres.
En este ejemplo, la hipótesis "científica" (H) que se desea probar es que la
proporción de hombres es distinta de la de mujeres. Evidentemente, cuando se afirma que
un sexo predomina sobre el otro, ello no se refiere a los 10 pacientes (en ellos la respuesta
es clara), sino a la población de donde proceden los pacientes que acuden a esa consulta.
La conclusión sobre H depende de lo probable o improbable que sea que en una muestra
aleatoria de 10 pacientes haya una disparidad entre las proporciones de ambos sexos tan
grande o mayor que la observada de no ser cierta H.
Para calcular esta probabilidad, se pueden extraer muchas muestras independientes
de n = 10 de una población en que la proporción de hombres sea igual a la de mujeres (y
ambas iguales a 0,5), formar la DM pertinente, y comprobar si la obtención de una muestra
en que la disparidad de sexos sea tan grande o más que la observada en los 10 pacientes de
la consulta es un evento frecuente o infrecuente en caso de que en la población no haya una
disparidad de sexos. Ello es posible actualmente gracias a que los ordenadores de uso
corriente tienen la potencia suficiente como para "simular" el proceso. En la tabla 1 se
recoge la distribución de frecuencias del número de mujeres en un millón de muestras de n
129
= 10 tomadas aleatoriamente de una población en que las mujeres son el 50% y los
hombres otro tanto.
Tabla 1: Distribución Muestral en muestras de n = 10
Mujeres Hombres N. de muestras % de muestras Distribución del número de
10 0 907 0,09% mujeres y hombres en
1.000.000 de muestras
9 1 9.823 0,98%
aleatorias de n = 10
8 2 43.920 4,39%
procedentes de una
7 3 116.691 11,67%
población con la misma
6 4 205.678 20,57% proporción de ambos sexos.
5 5 245.569 24,56%
4 6 205.797 20,58% En el 2,14% de las muestras
3 7 117.080 11,71% hay 9 ó 10 hombres (1,07%)
2 8 43.868 4,39% ó 9 ó 10 mujeres (1,07).
1 9 9687 0,97%
0 10 980 0,10%
Las muestras en que la disparidad de sexos es tan grande o más que la observada en
los 10 pacientes de la consulta son aquellas en que hay 9 ó 10 mujeres, que suponen un
1,07% del total, y las que tienen 9 ó 10 hombres, que son otro 1,07% del millón de
muestras simuladas. Por tanto, la probabilidad de una muestra tan discrepante o más que la
observada si en la población no predomina ningún sexo es igual a la suma de las
probabilidades de las discrepancias con respecto a la paridad en cada uno de los sentidos:
0,0214 (un 2,14% de las muestras). A ésta probabilidad se le llama "nivel de significación
alcanzado en el contraste" y si es muy baja se puede concluir que el resultado en los 10
pacientes no es plausible si en la población de donde provienen hay la misma proporción
de ambos sexos; por tanto, se concluye que, en realidad, no es cierto que haya una misma
proporción de hombres que de mujeres en esa población. Si, por el contrario, esta
probabilidad no es muy pequeña, entonces lo observado en los 10 pacientes "no llama la
atención" y, en consecuencia, no constituye un argumento en contra de la igualdad de las
proporciones de hombres y mujeres en la población.
Como se ha visto, el procedimiento consiste en la evaluación de una hipótesis, para
rechazarla si su probabilidad es baja o para no concluir en caso contrario. Por tanto, el
contraste no prueba ninguna hipótesis de forma directa. Sin embargo, sí lo hace
indirectamente, ya que si se descarta la hipótesis contrastada directamente queda probado
lo opuesto a lo establecido en la misma. A la hipótesis contrastada directamente se le llama
hipótesis nula (habitualmente representada como H0). Así que la única manera que existe
de probar una hipótesis por este procedimiento es conseguir rechazar su opuesta, que es la
que se juzga directamente en la prueba de significación y a la que, como se ha dicho, se le
llama H0. Por ello, para probar que la distribución de sexos es desigual, lo cual es el
130
objetivo del investigador, H0 debe establecer que la proporción de hombres es igual a la de

mujeres. En definitiva y de manera general, en un contraste estadístico de hipótesis, H0
debe ser la opción opuesta a la H científica de interés (H) y sostener lo contrario a lo que el
investigador desea probar, pues rechazando H0 quedará probada H.
Para aclarar este punto, imagínese que H0 sostenga lo mismo que H (distinta
proporción de sexos), que se calcule la probabilidad de obtener una muestra en que haya
una disparidad igual o menor a la observada en los 10 pacientes de la consulta si H0 fuera
cierta, y que esa probabilidad sea muy pequeña. La conclusión en este caso consistiría en
rechazar H0, con lo que quedaría "probado" que no predomina ningún sexo. Si, por el
contrario, la probabilidad no fuera tan pequeña y no se rechazara H0, no se conseguiría
llegar a ninguna conclusión. Pero en ninguno de estos casos se prueba lo que el
investigador desea probar; que hay una disparidad entre sexos. Por tanto, si la H se
convierte en H0 y se contrasta directamente, entonces ninguno de los resultados posibles
de la prueba implica la demostración de la hipótesis del investigador.
Supóngase ahora que el investigador considera implausible, no importante o no
interesante la posibilidad de que predominen los hombres y, por tanto, que su hipótesis
"científica" es que en la población predominan las mujeres. Como se ha dicho, la única
forma de probar esta afirmación mediante un contraste de hipótesis es conseguir rechazar
su opuesta. Por tanto, en este caso, H0 incluirá tanto la igualdad como la superioridad de la
proporción de hombres, y no solo la primera posibilidad, y las muestras que se separen de
ella tanto o más que los 10 pacientes de la consulta serán las que contengan 9 ó 10 mujeres;
el resto de los resultados será más compatible con H0 que el que realmente se ha obtenido.
Como puede verse en la tabla previa, entre un millón de muestras procedentes de una
población en que H0 es cierta, las que tienen 9 o más mujeres son el 1,07%.
A los contrastes en que se puede rechazar H0 en un sentido u otro se les llama
contrastes bilaterales y a aquellos en que solo se puede rechazar H0 en uno de los
sentidos, contrastes unilaterales. La elección de una u otra alternativa depende del interés
del investigador: si considera plausible e interesante el predominio de cualquiera de los
sexos, entonces se debe plantear un contraste bilateral (rechazo de H0 tanto si predominan
las mujeres como si lo hacen los hombres), pero si alguno de los sentidos de las diferencias
es implausible o no interesante entonces la prueba debe ser unilateral.
En este punto ya está clara la lógica del contraste: se trata de ver si es frecuente o
infrecuente que, si se toman muchas muestras de una población en que sea verdad H0,
aparezca una muestra como la observada (los 10 pacientes de la consulta). Las muchas
131
muestras mencionadas son la DM pertinente al caso y lo importante es darse cuenta de que

es la DM que se obtendría si H0 fuera correcta. Por tanto, la respuesta que da el contraste
es la frecuencia relativa (cuyo valor tiende a la probabilidad a medida que aumenta el
tamaño de la DM) de la muestra observada bajo la hipótesis nula (es decir, si es cierta H0).
De esta forma, se puede decir que la solución de esta clase de problemas (y el cálculo de
los IC) depende de la posición de la muestra observada dentro de la DM pertinente al caso.
Ya se ha calculado que una muestra tan discrepante de H0 como la observada tiene una
probabilidad de aparecer de 0,0214 en caso de "H0: igualdad en la proporción de ambos
sexos" (contraste bilateral), y de 0,0107 si "H0: igualdad o superioridad de los hombres".
Para decidir si se rechaza o no la hipótesis nula hay que decidir a partir de qué valor de esta
probabilidad se consideraría demasiado inverosímil que la muestra observada provenga de
una población en que H0 es correcta. Por convención se suele elegir un valor de 0,05 ó
0,01 aunque el investigador es libre de utilizar cualquier otra cifra que considere
justificada. El valor elegido se llama probabilidad alfa (α). Las diferencias entre muestra y
H0 se considerarán estadísticamente significativas y, en consecuencia, se rechazará H0 y se
considerará probada H cuando la probabilidad, si H0 es cierta, de unos resultados tan
alejados o más de lo especificado en H0 como los observados en la muestra sea menor que
α. La significación del contraste bilateral de H0 (paridad de sexos) es P = 0,0214, y la del
contraste unilateral de H0 (paridad o inferioridad de los hombres) es P=0,0107.
Supongamos que el investigador ha decidido aceptar como límite entre lo plausible y lo
implausible un valor de esta probabilidad de 0,05. En este caso, como las dos P son
inferiores al nivel de significación al que se ha decidido hacer el contraste (0,05), el
resultado sería estadísticamente significativo tanto en el contraste bilateral como en el
unilateral y, en consecuencia, se consideraría probada la disparidad de sexos, en el primer
caso, o la preponderancia de las mujeres, en el segundo.
Pero, ¿es imposible obtener 9 o más mujeres en una muestra de 10 pacientes
procedente de una población en que la mitad son de sexo masculino y la otra mitad
femenino? Está claro que la respuesta es no; en concreto, la probabilidad de este resultado
es precisamente el nivel de significación que se ha conseguido en el contraste de la H0 de
igualdad entre sexos: P = 0,0214. Esto quiere decir que hay una probabilidad de 0,0214 de
que la decisión adoptada de rechazar H0 sea errónea. Por tanto, el nivel de significación
que hay que conseguir para rechazar H0, llamado probabilidad α, es el riesgo máximo
admisible de cometer un error si se decide rechazar H0; a esta clase de error se le llama
error de tipo I. El contraste se considerará estadísticamente significativo cuando la
132
probabilidad real de error si se decide rechazar H0 (error de tipo I), o nivel de significación
alcanzado, sea menor que la máxima admisible (α). Antes se dijo que el investigador puede
elegir cualquier valor de α para su contraste que considere justificado. Como se acaba de
ver, alfa es la probabilidad máxima aceptable de cometer cierto tipo de error, llamado error
de tipo I. Por tanto, uno de los criterios en que se puede basar la elección de su valor puede
ser la gravedad o importancia de las consecuencias de ese error.
Imaginemos ahora que el investigador desea reducir al mínimo la probabilidad de
un error de tipo I y que, para ello, establece una α de 0,01. El contraste sólo se declarará
significativo a un nivel de significación tan elevado o mayor que el 1%, y, como en nuestra
muestra P = 0,0214 (o P = 0,0107 si hubiera sido unilateral), ahora ya no se rechazará H0.
En este caso, lo primero que resulta evidente (y es importante darse cuenta de ello) es que
eso no significa que forzosamente H0 sea correcta. Sería absurdo que si el investigador
decide que no le importa un riesgo algo mayor de error tipo I y elige un alfa de 0,05,
entonces H0 fuera errónea y que si cambia de opinión y quiere reducir el riesgo de ese
error a menos del 1%, entonces la misma H0 sea correcta. Está claro que entre una y otra
situación el único cambio que ha habido se ha producido en la mente del investigador, no
en la realidad de la población de pacientes. Además, aunque en aras de la brevedad no se
presentan los resultados, con la misma muestra de 10 pacientes y al mismo nivel de
significación del 1%, tampoco se rechazarían hipótesis nulas que incluyeran una
desproporción entre sexos del 1%, del 2%, etc. Si el no rechazar H0 equivaliera a
probarlas, entonces la misma muestra serviría a la vez para probar que no hay diferencias
entre sexos y que estas son del 1%, del 2%, etc, lo cual es absurdo. De esto se deduce que,
en principio, un contraste no significativo equivale a no haber podido concluir por falta de
información suficiente y no a haber demostrado alguna igualdad.
Lo cierto es que, se rechace o no la paridad entre sexos (H0), en la realidad esa
hipótesis puede ser correcta o incorrecta. Antes de realizar el contraste no se dispone de
una cuantificación de la incertidumbre. Así, en ausencia de más información, solo se
podría decir que la proporción de mujeres en la población puede oscilar entre el 0% y el
100%. Tras tomar una muestra de 10 sujetos y ver que un 90% son mujeres, ya se podrá
precisar que en la población hay mujeres y que no es imposible que predominen sobre los
hombres. Pero mediante la inferencia (sea contraste de hipótesis o cálculo de un IC) a
partir de esa muestra se consigue utilizar la información contenida en ella para asignar una
probabilidad a los distintos valores posibles, lo que tiene dos ventajas: una mayor precisión
(en el sentido de mayor detalle) y el uso de un método explícito, lógico y objetivo, con lo
133
que los resultados dejan de ser cuestión de opinión. En la tabla 2 se representa la situación
tras una prueba de significación con la muestra de 10 pacientes. Ya se ha visto que si se
rechaza H0 hay un riesgo de cometer un error (de tipo I) igual a P y de no cometerlo igual
a (1-P). Pero si, por el contrario, no se alcanza la significación (como sería el caso, por
ejemplo, si α = 0,001) y, en consecuencia, no se rechaza H0, puede suceder que H0 sea
cierta (H falsa), y no se cometa ningún error, o que H0 sea falsa (H correcta) y la decisión
de no rechazarla sea errónea. A esta clase de error, consistente en no rechazar H0 siendo
falsa, se le llama error de tipo II y a la probabilidad de cometerlo se le llama β (explicado
en un apartado específico).
En la tabla 2 se resume la probabilidad de rechazo y no rechazo de H0 dada una de
las dos situaciones reales posibles (que sea o no cierta H0), si se hace un contraste de
hipótesis. Por tanto, estas son las probabilidades de cada uno de los resultados del contraste
que existen antes de la realización, condicionadas a cada una de las dos realidades posibles.
Una conclusión que se deduce esta situación, interesante desde el punto de vista
metodológico, es que si al formular la hipótesis científica el investigador no especifica los
valores de una variable concreta que quedan prohibidos en la realidad si su hipótesis es
cierta, entonces no es posible plantear la hipótesis nula y, en consecuencia, no se puede
aplicar un contraste de hipótesis. Esta es una de las razones por las que en un proyecto de
investigación es necesario plantear al objetivo y la hipótesis de manera operativa.
Tabla 2: Resultados de un contraste de hipótesis
Prueba al nivel de significación: α% (H0: No predomina un sexo)
CONTRASTE
REALIDAD
Rechazo de H0 No rechazo de H0
Paridad de sexos Error tipo I (< α) Correcto (≥ 1 - α)
No paridad de sexos Correcto (1 - β) Error de tipo II (β)
Por tanto, con la muestra disponible, el contraste de la hipótesis de paridad entre

sexos (H0), con un α preestablecido = 0,05, ha alcanzado una significación de 0,0214 (P <
α), por lo que se rechaza H0 y, en consecuencia, el investigador ha conseguido probar su H
científica (disparidad de sexos). El riesgo de que esta conclusión sea errónea es del 2,14%
(en su caso, sería un error de tipo I).
El contraste de la hipótesis de que la proporción de hombres es mayor o igual a la
de mujeres en un contraste unilateral con el mismo α es también significativo (P = 0,0107),
con un riesgo de error tipo I del 1,07% si se afirma que predominan las mujeres.
134
En los dos casos anteriores, si α se reduce a 0,01, entonces no se podría rechazar H0 por
ser el riesgo de error tipo I superior al máximo aceptable. Como se puede ver, en ambos
casos una pequeña diferencia entre el riesgo real y el admisible es suficiente para cambiar
el sentido de la conclusión formal; esta rigidez puede ser una limitación de esta técnica de
prueba de hipótesis. En este caso, no se puede afirmar la disparidad de sexos por ser
excesivo el riesgo de que sea cierta la paridad (H0), en concreto, un riesgo igual a la P
alcanzada. Pero tampoco se puede considerar probada la paridad, puesto que el
procedimiento utilizado solo tiene capacidad de rechazar la hipótesis que se contrasta
directamente, no de probarla.
¿Qué hubiera sucedido si la hipótesis de interés hubiera sido que en la población
predominan los hombres? Evidentemente, en la muestra sucede lo contrario. Cuando la
muestra observada no discrepa de H0, no es necesario realizar la prueba de significación
para llegar a la conclusión de que no se debe rechazar H0 sobre el argumento de que, si es
correcta, lo observado es implausible, ya que la muestra observada cae de lleno dentro de
la hipótesis nula (H0 sería ahora el predominio de las mujeres o la igualdad de sexos) y,
por tanto, no puede contribuir de ninguna manera a desacreditarla. Pero tampoco en este
caso se podría considerar probada H0.
MÉTODOS CLÁSICOS DE INFERENCIA ESTADÍSTICA Y MÉTODOS BASADOS EN
SIMULACIONES INFORMÁTICAS
En el ejemplo anterior no se ha empleado más que la lógica y la potencia de un

ordenador. Se podría haber llegado a la solución utilizando lo que la teoría estadística
conoce sobre las propiedades de la DM de una proporción en una situación como la del
ejercicio; de hecho, ese es el enfoque que, de momento, más frecuentemente se ve en los
trabajos médicos. Pero la lógica del proceso es la expuesta hasta aquí, sea cual sea el
procedimiento, como se puede ver fácilmente al abordar este problema por un método
alternativos:
La conclusión sobre H va a depender de lo probable o improbable que sea que, si
no es cierta H, en una muestra aleatoria de 10 pacientes haya una disparidad entre las
proporciones de ambos sexos tan grande o mayor que la observada. En el ejercicio previo,
lo que se hizo fue simular un millón de tales muestras y utilizarlas para ver si la observada
era o no de las frecuentes. Pero el procedimiento para solucionar el problema, si no se
dispusiera de un ordenador personal que permitiera simular muchas muestras en poco
tiempo, hubiera tenido que ser otro:
135
La teoría estadística proporciona una fórmula para calcular la probabilidad de que

en una muestra aleatoria de n = 10 procedente de una población en que la probabilidad de
sexo femenino es 0,5 haya un número determinado de mujeres. Pues bien, en la tabla 3
figuran los valores calculados, junto con los obtenidos con el millón de muestras simuladas
(para comparación entre procedimientos de resolución del problema) .
Tabla 3: Distribución Muestral teórica y empírica en muestras de n = 10

Mujeres Hombres Probabilidad Proporción Distribución del num. de mujeres y
hombres en muestras aleatorias de
10 0 0,000977 0,000907
n = 10 procedentes de una población
9 1 0,009766 0,009823 con la misma proporción de ambos
8 2 0,043945 0,043920 sexos.
7 3 0,117188 0,116691 Probabilidad binomial exacta y
6 4 0,205078 0,205678 proporción en un millon de muestras
5 5 0,246094 0,245569 simuladas.
4 6 0,205078 0,205797 En el 2,14% de las muestras hay 9 ó
3 7 0,117188 0,117080 10 hombres (1,07%) o 9 ó 10
2 8 0,043945 0,043868 mujeres (1,07).
1 9 0,009766 0,009687
0 10 0,000977 0,000980
Como puede verse, la diferencia entre la probabilidad matemática exacta y la

proporción en muestras simuladas se puede considerar irrelevante para fines prácticos y,
además, es puramente aleatoria. Para resolver el problema de la forma clásica se hubiera
utilizado la columna de la probabilidad, y el resultado hubiera sido esencialmente el mismo
que el obtenido construyendo la DM pertinente al caso (P = 0,0215 con el método exacto y
P = 0,0214 con el basado en la simulación).
El método "clásico" que se acaba de utilizar es exacto. Pero para la utilización de
métodos exactos también es necesario disponer de una capacidad importante de cálculo
(así, p. ej., en un problema de este tipo hay que manejar factoriales del tamaño muestral y
elevar a grandes exponentes...) y, además, no en todas las situaciones existe una fórmula
que dé la distribución muestral de forma exacta. Por ello, es muy frecuente la utilización de
métodos más simples, basados en que, si se cumplen determinados supuestos, la DM se
aproxima a alguna distribución de probabilidad que es bien conocida y que, incluso, está
tabulada. En el caso de la distribución de los sexos se podría haber empleado la
aproximación normal a la binomial, basada en que cuando el tamaño muestral y la
proporción poblacional (y su complementaria) son lo suficientemente grandes como para
que su producto sea superior a 5, entonces la DM de una proporción se aproxima
136
suficientemente a la normal. En este ejemplo se cumple la condición citada (10 X 0,5 = 5 y

10 X(1 - 0,5) = 5). Por tanto, en lugar de medir exactamente la probabilidad de que haya 9
ó 10 mujeres ó 9 ó 10 hombres ( P = 0,0215), se calcula la probabilidad de que haya esa
distribución de sexos en una curva normal que tenga la misma media y DS que la DM real.
En este caso, la aproximación normal daría como resultado una significación de P = 0,0269
por lo que la conclusión sería la misma que con el método basado en el cálculo matemático
de la distribución exacta de las muestras (DM) y el basado en la simulación informática de
muchas muestras de la población.
Los métodos que se basan en la observación de las propiedades de la DM pertinente
mediante la simulación de muestras aleatorias (llamados Métodos Montecarlo) o el
remuestreo de muestras disponibles (Bootstrap, Jacknife...), son utilizables desde que
aparecieron ordenadores de suficiente potencia (actualmente, es suficiente la potencia de
un ordenador personal normal) y es previsible que vayan ganado popularidad en la
investigación médica, pues los grandes paquetes de software informático cada vez incluyen
más técnicas basadas en el remuestreo y hay ya autores que proponen que la enseñanza de
la estadística a profesionales que, como los médicos, la necesitan como herramienta, se
centre más en la simulación informática y el remuestreo que en la aplicación de técnicas
"paramétricas" dependientes de las propiedades teóricas de las DM bajo diversos
supuestos. Ello se debe a que la lógica de estos enfoques es más directa y de comprensión
más fácil, y está menos supeditada a conocimientos y habilidades matemáticas que pueden
faltar; además, la validez de estos métodos no depende de que se den determinados
supuestos. Debido a esta última ventaja, estos métodos pueden ser utilizados también en
algunas situaciones en que faltan técnicas estadísticas "paramétricas".
Por todo ello y a fin de que se sepa identificar de qué se trata cuando encuentren
estos métodos en la bibliografía, cosa que será cada vez más frecuente, y se pueda decidir
eventualmente su utilización en los propios trabajos, ha parecido conveniente hacer esta
referencia en unos apuntes básicos, como son estos. Además, en la medida en que estas
técnicas son útiles para explicar los conceptos relacionados con la IE que se presentan, se
ha recurrido a ellas en los ejemplos presentados; para ello se ha utilizado el programa
gratuito Statistics 101 resampling simulator.
RELACIÓN ENTRE INTERVALOS DE CONFIANZA Y CONTRASTES DE HIPÓTESIS

Las técnicas de IE comparten el hecho de utilizar una muestra real, observada, para
deducir las propiedades de la población. Como se ha visto, los dos procedimientos
137
principales para ello son el contraste de hipótesis y el cálculo de intervalos de confianza.

Estos dos enfoques están muy relacionados, pero no son iguales, como se va a mostrar
seguidamente.
En el caso del contraste, el investigador trata de dilucidar la plausibilidad de que en
una muestra se observen determinados valores si es cierta alguna característica concreta
(hipotética) en la población. Por ello, la DM de referencia es la que se formaría si fuera
cierta dicha hipótesis.
Con los IC, sin embargo, en principio no hay hipótesis previa sobre la muestra; lo
que se busca es, precisamente, determinar entre qué límites estará el valor del estadístico
poblacional, teniendo en cuenta el valor observado en la muestra, para lo cual, la DM
pertinente es la que se obtiene con muestras procedentes de una población igual a la
muestra realmente observada.
A continuación se desarrolla un ejemplo de cada uno de estos enfoques del mismo
problema.
1) Supóngase que la media de prevalencia de infección nosocomial (IN) en un área de
hospitalización en los hospitales de España es del 40%. En vista de este dato, si una
Comisión de Infecciosas de un hospital que cuenta con 25 camas en ese área de
hospitalización realiza una encuesta, ¿a partir de cuántos infectados deberá pensar que la
prevalencia de IN supera la nacional?
Es decir, la cuestión es: ¿Qué rango de valores muestrales son compatibles con
determinado valor poblacional? Lo que corresponde al primero de los enfoques que se
están desarrollando.
Está claro que siempre que haya más de 10 infectados (más de un 40%) la prevalencia de
IN en ese hospital será superior a la nacional. Sin embargo, lo que interesa es saber qué
diferencias entre la prevalencia nacional y la local de IN son atribuibles de forma plausible
al simple azar y, en consecuencia, a partir de qué valor lo más probable es que la
discrepancia local con respecto al 40% nacional sea debida a algún factor adicional,
distinto del error de muestreo, como pudieran ser , por ejemplo, peores medidas de higiene
hospitalaria. Porque si es probable tal factor y no cambia ninguna circunstancia relevante
(tipo de paciente, la forma de actuar del personal sanitario, las instalaciones, etc.) cabe
esperar que en futuros sujetos persista el riesgo aumentado de IN; mientras que si, por el
contrario, no hay ningún factor distinto del azar, entonces en futuros ingresos la tasa de IN
en promedio será igual a la nacional.
138
El objetivo de los que realizan esta encuesta es únicamente identificar necesidades de

mejora y, para ello, es irrelevante que en algún momento la situación pueda ser
especialmente buena. Por tanto, están interesados sólo en desviaciones por exceso con
respecto a la prevalencia nacional de IN. Además, deciden que quieren estar seguros en un
95% de que es cierto que el factor responsable de la diferencia hallada es el azar si la cifra
medida en su hospital no supera el umbral de alarma establecido o, dicho de otra forma,
quieren tener una probabilidad de equivocarse no mayor de 0,05 si llegan a la conclusión
de que en su hospital hay algún factor que produce un aumento de las infecciones en ese
área de hospitalización.
La respuesta a esta cuestión se puede conseguir comprobando las tasas de IN de las
muestras de n = 25 tomadas de una población en que la IN es un 40%. Es decir,
comprobando las tasas de IN en la DM pertinente, que es la formada a partir de una
población en que H0 es cierta. Esta DM puede "obtenerse" de tres formas:
1.- Simulando informáticamente (como se ha hecho en otros ejemplo) la extracción de
muchas muestras de n = 25 de una población con un 40% de tasa de infección,
aproximando así la DM adecuada (método Monte Carlo).
2.- Utilizando la fórmula que proporciona la teoría estadística de la distribución binomial
para calcular la probabilidad de que en muestras de n = 25 procedentes de una población
con un 40% de IN haya 1, 2, 3,.... hasta 25 casos infectados. De esta forma se obtiene la
DM exacta.
3.- Aprovechando la propiedad deducida por la teoría estadística de que cuando tanto nXP
como nX(1-P) son iguales o mayores que 5, entonces la aproximación normal a la binomial
es buena y, en consecuencia, es válido utilizar como DM del número de infectados en
muestras de n = 25 una normal con una media de 10 infectados (40%) y una DS igual a
raiz(0,4X0,6/25). Este es un método aproximado, válido en la medida en que se cumplan
sus condiciones.
A continuación, hay que calcular la probabilidad de que en una muestra de n=25 haya más
de 10, más de 11, más de 12... hasta 25 infectados, si proviene de una población con un
40% de IN. Estas probabilidades se recogen en la tabla siguiente. Como puede verse, la
coincidencia entre los tres métodos de cálculo es más que aceptable; en la práctica se
utilizará sólo uno de ellos, siendo irrelevante cuál, siempre que sea aplicable. Aquí, sin
embargo, se presentan los tres a fin de facilitar la comprensión de la sistemática y del
razonamiento utilizado.
139
Tabla 4: Distribución Muestral del num. de infectados en muestras de n=25 de una población con Pinfección=0,4
(Método exacto y aproximaciones empírica y normal)
Probabilidad de un número de infectados ≥ X
Número de infectados (X) Probabilidad exacta Proporción en 2X106 muestras simuladas Aproximación normal
11 4,142E-01 4,142E-01 4,191E-01
12 2,677E-01 2,676E-01 2,701E-01
13 1,538E-01 1,537E-01 1,537E-01
14 7,780E-02 7,795E-02 7,652E-02
15 3,439E-02 3,470E-02 3,310E-02
16 1,317E-02 1,325E-02 1,237E-02
17 4,326E-03 4,348E-03 3,982E-03
18 1,205E-03 1,212E-03 1,100E-03
19 2,807E-04 2,785E-04 2,601E-04
20 5,359E-05 5,250E-05 5,258E-05
21 8,165E-06 9,500E-06 9,071E-06
22 9,543E-07 1,000E-06 1,334E-06
23 8,033E-08 5,000E-07 1,671E-07
24 4,335E-09 0,000E+00 1,780E-08
25 1,126E-10 0,000E+00 1,614E-09
Como puede verse en la tabla 4, si en el hospital la tasa de IN es igual a la nacional,

la probabilidad de que entre 25 ingresados haya 15 o más infectados es del 3,4% (calculada
con cualquiera de los tres métodos) y, en consecuencia, la de que haya 14 o menos es del
96,6%. Sin embargo, si el punto de corte se coloca en 14 o más infectados, entonces hay
casi un 8% de probabilidad de que aparezca un resultado así, aunque en el hospital no haya
más riesgo de IN que a nivel nacional.
En vista de los resultados anteriores, la Comisión de Infección decide que no hay
motivo de alarma mientras el número de infectados en ese área de hospitalización no pase
de 14 (no obstante, si esta investigación de la Comisión de Infección se repitiera con
regularidad, entonces habría que corregir estos criterios, como se explica en el epígrafe
final de estos apuntes al hablar de las comparaciones múltiples).
Como se ha dicho, más de 14 infectados, que suponen una diferencia con respecto a
la media (10) superior a 4 pacientes, aparecen el 3,4% de las muestras si la tasa real de IN
es del 40%. Eso significa que hay un 96,6% de seguridad de que, mientras no se empeore
con respecto a la situación nacional, no habrá más de 14 infectados en la unidad de
hospitalización o, dicho de otra forma, que el valor crítico a partir del cual se rechaza H0
con una seguridad del 96,6% de estar tomando la decisión correcta es 14 (como la
posibilidad de mejorar la tasa nacional no es objeto de esta investigación, no se especifica
140
un límite inferior de infectados). De ello, se deduce que, en un contraste unilateral, el nivel

de significación que alcanzará cualquier número de infectados superior a 14 con respecto a
la hipótesis nula de que la verdadera tasa es 0,4 será inferior a 0,034 (P<0,034). Por tanto,
la "seguridad" ((1-α)%) y el nivel de significación (α%) de un contraste de hipótesis son
complementarios.
Por tanto, en un contraste al α% de nivel de significación, son compatibles (no
significativos) con respecto a H0 todos los valores incluidos dentro del IC al (1-α)% de
nivel de confianza y son significativos con respecto a ella y llevan a su rechazo el resto.
Finalmente, para aclarar mejor las pruebas bi y unilaterales, supongamos ahora que el
interés de la Comisión de Infección es la posible existencia de diferencias entre el hospital
y la población, y no solo la posibilidad de un exceso de IN. la pregunta sigue siendo: ¿a
partir de qué valor lo más probable es que la discrepancia local con respecto al 40%
nacional sea debida a algún factor adicional, distinto del azar?, pero ahora interesan tanto
las discrepancias por exceso como por defecto.
Para contestar, lo que hay que hacer es comprobar en la DM pertinente (la misma
que antes y calculada por los mismos métodos) entre qué límites en cuanto al número de
infectados, simétricos con respecto a la media de 10 (correspondiente a la tasa de IN
nacional: 0,4), aparece un determinado porcentaje de muestras si es correcta la tasa del
40% de IN. Ese porcentaje es el nivel de seguridad elegido. Para ello no basta con la tabla
anterior, es necesario también calcular las probabilidades de que en 25 sujetos haya menos
infectados que los esperados si es cierta la tasa de 0,4. Esas probabilidades se recogen en la
tabla 5:
Tabla 5: Distribución Muestral del num. de infectados en muestras de n=25 de una población con Pinfección=0,4
(Método exacto y aproximaciones empírica y normal)
Probabilidad de un número de infectados ≤ X
Número de infectados (X) Probabilidad exacta Proporción en 2X106 muestras simuladas Aproximación normal
0 2,843E-06 2,000E-06 5,258E-05
1 5,023E-05 4,550E-05 2,601E-04
2 4,293E-04 4,385E-04 1,100E-03
3 2,367E-03 2,308E-03 3,982E-03
4 9,471E-03 9,360E-03 1,237E-02
5 2,936E-02 2,918E-02 3,310E-02
6 7,357E-02 7,336E-02 7,652E-02
7 1,536E-01 1,534E-01 1,537E-01
8 2,735E-01 2,734E-01 2,701E-01
9 4,246E-01 4,243E-01 4,191E-01
141
Como puede verse, si H0 es correcta una discrepancia con respecto a la media

esperada (10 infectados) igual o mayor a ±5 sujetos aparece en el 6,4% de las muestras y,
en consecuencia, mientras el número de infectados no supere los 14 sujetos y no baje de 6
pacientes, habrá una seguridad de un 93,6% de que el riesgo de IN no es distinto en el
hospital que a nivel nacional. Además, en un contraste de hipótesis, todas las muestras con
un número de infectados de 15 o más, o de 5 o menos pacientes, alcanzarán un nivel de
significación de (P<0,064) con respeto a la hipótesis nula de un valor real de 10. Como se
ve, al igual que en el caso unilateral, no es posible conseguir un IC a un nivel exacto de
confianza del 95%, pues para ello tendría que haber un número fraccionario de infectados,
lo cual no es un evento posible. Por tanto, hay que buscar el límite que más se aproxime al
nivel de confianza elegido.
Como se ve, también en este caso se cumple que en un contraste al α% de nivel de
significación, son compatibles (no significativos) con respecto a H0 todos los valores
incluidos dentro del IC al (1-α)% de nivel de confianza y son significativos con respecto a
ella el resto.
Como es lógico, si se exige una prueba de mayor magnitud en su contra para
rechazar H0, entonces el nivel de seguridad aumenta. Así, por ejemplo, si la discrepancia
máxima fuera igual o mayor a ±6 sujetos, entonces mientras el número de infectados no
fuera superior a 15 pacientes ni inferior a 5 habría una seguridad del 97,7% en que el
riesgo de IN no es distinto del nacional. A su vez, todas las muestras en que los infectados
superen los 15 sujetos o bajen de 5 pacientes serán significativas, con P < 0,023, con
respecto a la hipótesis nula de que el verdadero valor es 10.
A continuación, se expone el mismo problema enfocándolo de otra forma: Ahora en
lugar de dilucidar si es plausible o no que una muestra provenga de una población
concreta, se tratará determinar entre qué rango de valores estará el estadístico poblacional
con un grado prefijado de seguridad, teniendo en cuenta que se ha obtenido una muestra y
en ella se ha observado un valor concreto.
Ello podría suceder si, por ejemplo, la Comisión de Infecciosas del mismo hospital
que antes, con 25 camas en cierta área de hospitalización, realiza una encuesta, comprueba
que 14 de los ingresados sufren una IN (56%) y se pregunta cuál es la tasa de IN que debe
esperar en promedio en esas camas en sucesivas encuestas mientras no cambie el riesgo
intrínseco de infección (es decir, mientras el tipo de paciente, las instalaciones, el personal
sanitario y otros factores que puedan ser relevantes no cambien), lo cual es lo mismo que
142
preguntar cuál es la verdadera tasa de IN en la población de pacientes de esa unidad de

hospitalización.
Para buscar la respuesta lo primero que hay que hacer es fijar el nivel de seguridad
en la conclusión que se desea; supongamos que se elige una de las cifras habituales: el
95%. Seguidamente, hay que darse cuenta de que al realizar sucesivas encuestas lo que se
está haciendo es generar elementos de la DM de la proporción de infectados. Cada una de
esas muestras tendrá un porcentaje de IN que se diferenciará del promedio de todas ellas en
una cantidad concreta, debido al error de muestreo. Las muestras con diferencias muy
grandes serán menos frecuentes que las muestras que discrepen menos de la media. Lo que
hay que hacer es determinar los límites por exceso y por defecto de dichas diferencias con
respecto a la media que aparecen en conjunto hasta en un 95% de las muestras. Así, la
probabilidad de que la distancia en cuanto a las tasas de IN entre la muestra observada, que
es uno de los elementos de la DM, y la población no sea superior a la marcada por dichos
límites será de un 95%.
Si se aplicaran los mismos límites a todas las muestras de n = 25 que pudieran
proceder de esa población, en el 95% de los intervalos así formados estaría comprendido el
verdadero valor de la tasa de IN de la población. Éste, precisamente, es el criterio que
define a un Intervalo de Confianza (IC) al 95% de nivel de confianza, en este caso. Por
tanto, para dilucidar entre qué valores estará un valor poblacional con un determinado
grado de seguridad, lo que hay que hacer es calcular el IC a dicho nivel de confianza en
torno al valor muestral.
Como en ejemplos anteriores, hay diversos procedimientos para dilucidar las
propiedades de la DM aplicable al caso. Lo importante es darse cuenta de que, sea cual sea
el empleado, en todos los casos se está haciendo lo mismo: tratar de conocer qué media,
DS y forma tendría la distribución de las tasas de IN si se extrajesen muchas muestras
independientes y de n=25 de la población, ya que de esa manera se puede cuantificar la
frecuencia con que aparecen los distintos valores y, en consecuencia su proporción que, a
medida que aumenta el número de muestras, equivale a su probabilidad. En este caso se va
a utilizar sólo la aproximación normal a la binomial, pues la teoría estadística informa de
que cuando tanto nxp como nx(1-p) son superiores a 4, como en este ejemplo, la
aproximación es buena.
Al utilizar la aproximación normal se está aprovechando el hecho de que si se
toman muchas muestras de n=25 de una población con una proporción de 0, 56 de IN, la
cifra correspondiente de IN en cada una se distribuye casi igual que una normal de media
143
0,56 y de DS igual a la raíz cuadrada de (px(1-p)/n) que, en este caso es igual a 0,099
(S=raiz(0,56x0,44/25)=0,099; recuérdese que a la DS de la DM de un estadístico se le
llama error estándar de dicho estadístico). De hecho, en la figura 6 siguiente se representa
el histograma de la distribución de la proporción de IN en 2 millones de muestras
simuladas de una población con una tasa de 0,56; como puede verse, esta distribución es
simétrica y su media y DS calculadas empíricamente coinciden con lo establecido por la
teoría.
Dado que en una normal, el 95% de los valores centrales están entre la media ±1,96
veces la DS, el límite inferior del IC95% de la proporción de IN es: "0,56 - 1,96 x 0,099 =
0,365" y el límite superior: "0,56 + 1,96 x 0,099 = 0,755" Aunque estos límites son
aproximados, si se comparan con los binomiales exactos, cuyo valor es 0,349 y 0,756, se
comprueba que son suficientes para fines prácticos.
Por tanto, habrá un 95% de seguridad de que la tasa de IN promedio, mientras no
cambie el riesgo "intrínseco", al repetir las encuestas de la Comisión de Infección estará
entre el 36,5% y el 75,5%.
Finalmente, ¿qué relación existe entre el contraste de hipótesis y el intervalo de

confianza?. Es claro que, dada una muestra, los valores que no estén incluidos dentro de
los límites del IC al nivel de confianza (1-α)% serán rechazados en un contraste bilateral de
hipótesis al nivel de significación α%; y viceversa. Así, en este ejemplo, dada la muestra
con un 56% de IN, se pueden considerar rechazados al nivel de significación del 5% los
valores poblacionales inferiores 36,5% y superiores a 75,5% no incluidos en el IC95%; sin
embargo, la comparación con el resto de valores posibles no será significativa, como se vio
al comprobar que la significación de esta muestra frente al valor poblacional del 40%, cifra
144
incluida dentro del IC95% calculado, no alcanza la significación estadística en un contraste

al 5%.
Sin embargo, en la práctica sucede a veces que esta "regla" parece no cumplirse en
el caso de valores muy cercanos a los límites de un IC. Por ejemplo, puede suceder que un
valor externo, pero muy próximo a un límite de un IC95% resulte con un nivel de
significación ligeramente superior a 0,05; o uno interno y cercano al límite del IC95%
alcance una significación algo inferior a 0,05. Ello no invalida la relación lógica entre IC y
contrastes y se debe a errores de redondeo y al uso de métodos de cálculo aproximados.
Por tanto, ¿qué método utilizar? Cuando se desea saber si una hipótesis es o no correcta, el
método más directo es el contraste, y si lo que se quiere es estimar la magnitud de un valor
poblacional, entonces la respuesta la da el IC. Pero en investigación clínica es muy
frecuente que se compare el "efecto" de dos intervenciones en dos grupos de pacientes. En
un caso así, si se calcula la diferencia entre los dos grupos y se contrasta su valor frente a
cero al nivel de significación α% (H0: ausencia de diferencias entre grupos) se puede llegar
a demostrar que, efectivamente, una intervención es distinta a otra, pero sin llegar a tener
una estimación de los límites probables de la diferencia. Sin embargo, si se calcula el IC a
(1-α)% nivel de confianza y se comprueba que no engloba el valor cero se obtiene a la vez
la información de que los tratamientos son distintos al mismo nivel de significación que en
el caso del contraste y una estimación de los límites de la magnitud del efecto que cabe
esperar con una seguridad del (1-α)% Es decir, el IC en general aporta más información
que el contraste; por ello, cada vez es más frecuente su utilización en los estudios clínicos.
145
146
CAPÍTULO 12
ESTADÍSTICA BÁSICA PARA INVESTIGADORES NOVELES (IV)

LA COMPARACIÓN ENTRE DOS MUESTRAS
Rafael Cuena Boy

MUESTRAS INDEPENDIENTES Y MUESTRAS RELACIONADAS

Una de las aplicaciones más frecuente de la Estadística en Medicina es la
comparación entre dos o más muestras. En estos casos, lo que se pretende es estimar los
valores plausibles de la diferencia entre los estadísticos de dos o más poblaciones dada
cierta diferencia observada entre muestras procedentes de ellas, o comprobar si es plausible
un valor hipotético de dicha diferencia, dado que se ha observado cierto valor en la
diferencia entre dos o más muestras. El primero de estos problemas se resuelve calculando
el intervalo de confianza en torno a la diferencia entre estadísticos muestrales y el segundo
comprobando la significación de la diferencia de dichos estadísticos muestrales frente a un
valor teórico.
Cuando hay algún motivo por el que a un individuo de una de las muestras le
corresponde uno en concreto de la otra entonces las muestras están relacionadas; si, por el
contrario, no hay un criterio que pueda establecer una correspondencia entre los individuos
de las distintas muestras, entonces son independientes. La asociación o relación entre
muestras puede deberse, en general, a uno de estos tres mecanismos:
- Mediciones pre -post: Una muestra está formada por las mediciones en un
momento dado y la otra por las mediciones en un momento ulterior, yo cada sujeto medido
está representado en ambas muestras. Por ello, la medición de un sujeto en una muestra se
relaciona con la del mismo individuo en la otra.
- Asociación o emparejamiento natural: Los individuos de una muestra está
relacionados con los de la otra por razones independientes de la voluntad o actividad del
investigador. Por ejemplo, comparación en 20 sujetos del tamaño de la pápula histamínica
tras uso de una pomada en un brazo frente al tamaño sin la pomada en el otro brazo del
mismo individuo, o un grupo de padres comparado con un grupo de hijos, etc.
- Asociación artificial: Los individuos de una muestra está relacionados con los de
la otra por arreglo del investigador, como puede ser la elección de controles de edad, sexo,
hábitos u otras características similares a los de cada caso.
147
Es necesario identificar si las muestras a comparar son independientes o si, por el

contrario, está relacionadas pues la DM aplicable (y, por tanto, el error estándar del
estadístico a comparar) no es la misma en un caso que en otro, como se verá en los
epígrafes siguientes.
LA COMPARACIÓN ENTRE DOS PROPORCIONES INDEPENDIENTES

La comparación entre proporciones independientes es uno de los procedimientos
más utilizados en Medicina, ya que los eventos con mayor relevancia clínica (muerte,
curación, recidiva, remisión, etc.) se cuantifican mediante el porcentaje que el número de
individuos que los presenta supone sobre el total de su grupo . Por otra parte, es habitual
que para la comparación de porcentajes los datos se presenten en una tabla de
contingencia, en que se recoge la frecuencia de cada subcategoría dentro de cada grupo.
Seguidamente se presenta un ejemplo:
En un estudio realizado hace ya muchos años se comparó la mortalidad durante los
28 días siguientes a un infarto de miocardio (IAM) de un grupo de 45 pacientes tratados
con propranolol con la de otro grupo de 46 sujetos que no recibieron el fármaco y los
resultados fueron los indicados en la tabla de contingencia siguiente:
Tabla 1: Tabla de contingencia con la distribución del núm. de eventos en cada grupo
Grupo tratado con propranolol Grupo control TOTAL
Vivos el día 29 38 29 67
Muertos antes del día 29 7 (15,6%) 17 (37,0%) 24
TOTAL 45 46 91
% de mortalidad 15,6% 37,0% 26,4%
¿Se puede afirmar que tratar con este fármaco modifica la mortalidad a 28 días tras el
IAM?
La respuesta a esta cuestión se puede obtener mediante un contraste de la
significación de la diferencia entre las dos proporciones (o porcentajes) de mortalidad.
Como no hay ningún criterio por el que a los elementos de un grupo le corresponda alguno
concreto del otro, las muestras son independientes. Además, la prueba de significación
adecuada es bilateral, ya que el interés del investigador se centra en la diferencia en
cualquiera de los dos sentidos posibles entre el grupo tratado y el grupo control.
Finalmente, para llevar a cabo el contraste hay que especificar también la probabilidad
148
alfa, o riesgo máximo aceptable de cometer un error de tipo I (rechazar H0 siendo cierta);
supongamos que se acepta el valor convencional de 0,05.
Por tanto, se va a realizar un contraste bilateral de la diferencia de dos porcentajes
(o proporciones) independientes al nivel de significación predeterminado del 5%. Los dos
porcentajes concretos que se quieren comparar son el 15,6% de mortalidad en el grupo
propranolol frente al 37,0% del grupo control.
En una prueba de significación hay que especificar cuál es la hipótesis nula (H0) o
hipótesis contrastada directamente. En este caso, dado que la única posibilidad de "probar"
una hipótesis mediante un contraste de significación es descartar la contraria, para que el
contraste de hipótesis permita demostrar diferencias entre los tratados y los no tratados, la
nula debe ser, precisamente, que no existen tales diferencias.
Por tanto, H0: "Mortalidad con propranolol = Mortalidad entre los no tratados"
Para cuantificar la magnitud de la discrepancia entre H0 y el valor observado en la muestra
(criterio del que depende la conclusión final del contraste) es necesario cuantificar H0. En
este caso, si la mortalidad fuera igual en ambos grupos, los 24 muertos se repartirían
proporcionalmente al tamaño de cada uno de ellos. Así, si globalmente esos 24 muertos
son el 26,4% del total de 91 pacientes y la mortalidad es igual en ambos grupos, entonces
deberá ser de un 26,4% también entre los 45 que reciben el fármaco y entre los 46
controles. Por tanto, al grupo tratado le corresponderían "24X45/91=11,9" muertos y al
grupo control los "24 - 11,9 = 12,1" muertos restantes. En consecuencia, si fuera correcta
H0, los valores esperados cada grupo hubieran sido los que figuran en la tabla 2:
Tabla 2: Porcentaje de eventos en cada grupo
Grupo tratado con propranolol Grupo control TOTAL
Vivos el día 29 33,1 33,9 67
Muertos antes del día 29 11,9 12,1 24
TOTAL 45 46 91
% de mortalidad 26,4% 26,4% 26,4%
La pregunta, entonces, es ¿cuál es la probabilidad de obtener una diferencia entre

dos muestras como las del estudio de magnitud tan grande o mayor que la observada si la
mortalidad real en los dos grupos es del 26,4%?
Para responder hace falta saber de cuantas formas distintas se pueden repartir los 24
muertos entre dos grupos, de forma que uno tenga 45 y otro 46 pacientes. Es importante
darse cuenta de que se trata de "identificar" las distintas formas en que se puede obtener el
149
resultado observado en el estudio: 24 muertos en total, 45 pacientes en el grupo tratado y

46 en el grupo control. A su vez, hay que distinguir, dentro de estas formas, las que
discrepan tanto o más que la observada de la hipótesis nula de aquellas otras cuya distancia
a la nula es menor que la observada en la muestra.
La discrepancia con respecto a H0 real en el estudio es "11,9 - 7 = 4,9". Por tanto,

cuando en el grupo propranolol haya 7 o menos muertos, o 17 ó más en el control, la
distancia con H0 será igual o mayor a la observada. En la tabla 3 se recogen las 25 maneras
de repartir los 24 muertos, manteniendo 45 sujetos en un grupo y 46 en otro. De las 25
alternativas posibles, en las 8 en que el número de muertos en el grupo tratado es 7 o
menos la diferencia entre grupos es igual o mayor que la diferencia observada realmente en
el estudio, en las otras 8 posibilidades con 17 o más muertos en el grupo propranolol la
discrepancia con respecto a H0 es de igual o mayor magnitud pero de sentido opuesto que
150
la observada; finalmente, en las 9 posibilidades restantes la distancia con respecto a H0 es

menor a la obtenida en el estudio.
Las posibilidades anteriores son los 25 valores distintos que pueden aparecer en la
DM pertinente para el caso. Es decir, las diferencias posibles entre la proporción de
muertos en el grupo propranolol y en el control van desde "0/45 - 24/46 = 0,522" hasta
"24/45 - 0/46 = -0,533". Bajo H0 el resultado esperado es "11,9/45 - 12,1/46 = 0,0"; pero el
error de muestreo puede originar que, aunque H0 sea correcta, en una muestra como la del
estudio haya diferencias entre ambas proporciones. ¿Es plausible que la diferencia medida
en nuestro estudio ("7/45 - 17/46 = -0,214") haya sido debida al error de muestreo? La
respuesta se consigue comprobando si las 16 alternativas de la tabla previa en que hay 7 o
menos, o 17 o más, muertos en el grupo propranolol , alternativas tan extremas o más que
el resultado observado en el estudio, aparecen dentro de la DM correspondiente a la H0
con poca o mucha frecuencia relativa. De ser baja dicha frecuencia, el hecho de haber
obtenido un resultado como el observado sería un argumento importante contra la
posibilidad de que H0 sea correcta, pues habría ocurrido algo que no suele suceder si H0 es
cierta y, por ello, lo más probable sería la falsedad de esa hipótesis; en consecuencia, se
rechazaría H0; pero habría un riesgo de estar adoptando una conclusión incorrecta (un
error de tipo I) igual, precisamente, a la probabilidad de un resultado como el observado
cuando H0 es verdadera. Si, por el contrario, la frecuencia relativa con que aparecen las 16
alternativas más extremas de la tabla previa no es baja, entonces el resultado de nuestro
estudio no sería un argumento contra H0. Sin embargo, es importante comprender que esta
situación (no poder rechazar H0) no equivale a probarla, pues en realidad se trata de que
hay que suspender el juicio sobre la misma al no poder decidir entre si la discrepancia se
debe al error muestral o si H0 es falsa, por no tener información suficiente. Ya se ha
explicado que si no se rechaza H0 siendo falsa, entonces se comete un error de tipo II (más
información en un epígrafe específico).
Por tanto, para llegar a una conclusión solo falta calcular la probabilidad de las 16
alternativas más extremas de la tabla anterior. Ello se puede hacer de diversas maneras:
1.- Simular informáticamente la repetición del estudio un número grande de veces para
aproximar la DM apropiada y comprobar en ella la proporción de cada uno de los 25
distintos resultados de la DM que aparecen en la tabla anterior (método Monte Carlo). Ello
es perfectamente posible con un PC de uso corriente, de hecho, estas proporciones se
recogen en la tabla siguiente.
151
2.- Utilizar la fórmula de la distribución teórica de probabilidad aplicable a esta situación

(la distribución hipergeométrica) y calcular exactamente la probabilidad de cada uno de los
25 resultados. La dificultad con este sistema está en que para aplicar esa fórmula hay que
manejar números enormes (p. ej., en este ejemplo, el factorial de 91, que tiene 140 cifras
significativas), lo que hace muy difícil los cálculos exactos; por ello, se suele reservar para
tablas de contingencia con pocos casos (con números pequeños). No obstante, este
problema aparte, el método es exacto, y se trata de la llamada "prueba exacta de Fisher".
Las probabilidades que aparecen debajo de cada uno de los 25 valores distintos posibles de
la DM (tabla anterior) han sido calculadas así.
3.- Utilizar el hecho de que si en una tabla como la anterior el número de esperados bajo
H0 es igual o superior a cinco en todas las celdillas, entonces una proporción se puede
aproximar con una normal de la misma media y con DS = raiz(PX(1-P)/n). En
consecuencia la DM de las diferencias entre el porcentaje de muertes de ambos grupos,
bajo H0 (ausencia de diferencias), se distribuye aproximadamente igual que una
distribución normal con media = 0 (por ser ésta la H0) y con DS igual a la raíz cuadrada de
la suma de las varianzas de las DM de las proporciones de cada uno de los dos grupos [DS
=raíz(0,264X0,736/45 + 0,264X0,736/46) = 0,0924] (porque la varianza de la distribución
de la diferencia entre dos variables aleatorias independientes es igual a la suma de la
varianza de cada una de ellas). Por tanto, la cantidad:
Z = (Diferencia de porcentajes de muertes entre grupos) /Raíz(0,264X0,736/45 +
0,264X0,736/46)
Se distribuye aproximadamente igual que una normal. En la tabla 4 se recogen
también las probabilidades de cada uno de los 25 resultados distintos posibles de la DM
calculadas por este sistema (aplicando una corrección por discontinuidad, que no está
incluida en la fórmula de más arriba, para ajustar por el hecho de que se está tratando a un
recuento de individuos como si fuera una variable continua y fraccionable hasta donde
haga falta).
Como puede verse en la tabla 4, dada H0, la probabilidad de que haya 7 o menos muertos
en el grupo propranolol, cuyo n es 45, y por tanto, 17 ó más muertos en el grupo de n=46,
en un estudio como el realizado (un total de 24 muertes entre 91 pacientes repartidos en
dos grupos a la razón 45:46) es igual a 0,018139, según el método exacto. Así mismo, la
probabilidad de una discrepancia simétrica en sentido contrario, con 17 o más muertos en
el mismo grupo, sería de "P(≥ 17 muertes en grupo propranolol) = (1 - P(< 17 muertes en
152
grupo propranolol)) = (1 - 0,98677)=0,013228", también con el método exacto (las cifras

coinciden hasta el tercer decimal con los tres métodos).
Tabla 4: Distribución Muestral de la diferencia de porcentajes entre grupos (Método exacto y

aproximaciones empírica y normal)
Reparto de las 24 muertes: Probabilidad de una diferencia de
Número y (%) por grupo porcentajes ≤ X
Diferencia de En 2X106
Propranolol Control porcentajes entre muestras Aproximaci
(n=45) (n=46) grupos (X) Exacta simuladas ón normal
0 (0,0%) 24 (52,2%) -52,2% 1,3206E-09 0,0000E+00 3,1676E-08
1 (2,2%) 23 (50,0%) -47,8% 6,3332E-08 0,0000E+00 4,0433E-07
2 (4,4%) 22 (47,8%) -43,4% 1,3707E-06 2,0000E-06 4,1469E-06
3 (6,7%) 21 (45,7%) -39,0% 1,7861E-05 1,8000E-05 3,4220E-05
4 (8,9%) 20 (43,5%) -34,6% 1,5772E-04 1,6000E-04 2,2759E-04
5 (11,1%) 19 (41,3%) -30,2% 1,0072E-03 9,9350E-04 1,2227E-03
6 (13,3%) 18 (39,1%) -25,8% 4,8501E-03 4,8055E-03 5,3214E-03
7 (15,6%) 17 (37,0%) -21,4% 1,8139E-02 1,8187E-02 1,8836E-02
8 (17,8%) 16 (34,8%) -17,0% 5,3910E-02 5,4199E-02 5,4512E-02
9 (20,0%) 15 (32,6%) -12,6% 1,2981E-01 1,2997E-01 1,2992E-01
10 (22,2%) 14 (30,4%) -8,2% 2,5789E-01 2,5808E-01 2,5753E-01
11 (24,4%) 13 (28,3%) -3,8% 4,3078E-01 4,3107E-01 4,3048E-01
12 (26,7%) 12 (26,1%) 0,6% 6,1808E-01 6,1777E-01 6,1816E-01
13 (28,9%) 11 (23,9%) 5,0% 7,8109E-01 7,8124E-01 7,8126E-01
14 (31,1%) 10 (21,7%) 9,4% 8,9494E-01 8,9496E-01 8,9476E-01
15 (33,3%) 9 (19,6%) 13,8% 9,5853E-01 9,5886E-01 9,5801E-01
16 (35,6%) 8 (17,4%) 18,2% 9,8677E-01 9,8689E-01 9,8623E-01
17 (37,8%) 7 (15,2%) 22,6% 9,9665E-01 9,9669E-01 9,9632E-01
18 (40,0%) 6 (13,0%) 27,0% 9,9934E-01 9,9934E-01 9,9920E-01
19 (42,2%) 5 (10,9%) 31,4% 9,9990E-01 9,9990E-01 9,9986E-01
20 (44,4%) 4 (8,7%) 35,7% 9,9999E-01 9,9999E-01 9,9998E-01
21 (46,7%) 3 (6,5%) 40,1% 1,0000E+00 1,0000E+00 1,0000E+00
22 (48,9%) 2 (4,3%) 44,5% 1,0000E+00 1,0000E+00 1,0000E+00
23 (51,1%) 1 (2,2%) 48,9% 1,0000E+00 1,0000E+00 1,0000E+00
24 (53,3%) 0 (0,0%) 53,3% 1,0000E+00 1,0000E+00 1,0000E+00
Por tanto, la probabilidad de un resultado tan extremo como el observado si fuera

cierta H0 es: "P(diferencia de porcentajes (≤ -21,4% ó ≥ 22,6%)) = 0,018139 + 0,013228 =
0,031367" Esta probabilidad es tan baja que es más plausible que este resultado tan
"chocante" se deba a que H0 es falsa en lugar de al error de muestreo. En todo caso, es una
probabilidad inferior al riesgo máximo de error de tipo I prefijado, por lo que el resultado
es estadísticamente significativo. En consecuencia, se rechaza H0 y se acepta que el
153
propranolol modifica la mortalidad. El riesgo de que esta conclusión sea errónea es

0,031367. Por tanto, tras este contraste se puede afirmar que en el grupo propranolol la
mortalidad es distinta que en el grupo control.
Si se hubiera utilizado la aproximación normal, la probabilidad de una diferencia de
porcentajes de -21,4% sería de 1,8836E-02. En cuanto a las desviaciones en sentido
contrario, la probabilidad de una diferencia de 21,4% sería de otro 1,8836E-02 pues la
distribución normal es simétrica. Por tanto, la significación alcanzada hubiera sido de
0,037672, muy similar a la exacta. Sin embargo este es un cálculo aproximado, pues
realmente no es posible una diferencia de porcentaje por exceso de un 21,4%, ya que para
ello sería necesario fraccionar a algún paciente. De hecho, como puede verse en la tabla
anterior, solo son posibles diferencias de 18,2% o de 22,6%.
En un contraste unilateral de la hipótesis "científica" de que el fármaco reduce la
mortalidad, H0 hubiera afirmado una mortalidad del grupo tratado mayor o igual a la del
grupo control. Bajo esta H0, la probabilidad de una muestra con 7 o menos muertos en el
grupo propranolol es de 0,018139 (ver la tabla anterior). Por tanto, el contraste alcanzaría
la significación al nivel prefijado del 5%.
LA COMPARACIÓN ENTRE DOS PROPORCIONES INDEPENDIENTES - PRUEBA DE LA CHI

CUADRADO
Sin embargo, la mayoría de las veces el método de análisis de una tabla de

contingencia se basa en la prueba de la Chi cuadrado, en lugar de utilizar alguno de los tres
métodos expuestos en el ejemplo previo, y sólo cuando la Chi cuadrado no es válida
entonces se utiliza la "prueba exacta de Fisher" ¿Qué relación tiene lo explicado en el
epígrafe previo con el enfoque práctico habitual?
La prueba exacta de Fisher, equivalente a la segunda de las formas de cálculo de la
DM del epígrafe previo, es válida y exacta en todos los casos, pero ya se dijo que se
manejan números enormes y ello dificulta su empleo cuando las frecuencias de la tabla de
contingencia son relativamente grandes. Aunque, con la generalización de los ordenadores
y de paquetes de software estadístico, esta prueba se ha hecho mucho más accesible en la
práctica, es costumbre reservarla para los casos en que falla la primera alternativa que,
como se ha dicho, es la Chi cuadrado.
La Chi cuadrado sólo es válida cuando las frecuencias de todas las celdillas de la
tabla de contingencia, si es cierta H0, son mayores de cuatro. Como se ve, esta condición
es la misma que la necesaria para que se pueda utilizar la aproximación normal (la 3ª
154
alternativa expuesta en el ejemplo del propranolol). Ello se debe a que, en el fondo, la

prueba Chi cuadrado es matemáticamente equivalente a la aproximación normal.
Así, en el caso del ejemplo del propranolol en el IAM, mientras que, como se vio
antes, para la aproximación normal se utiliza la teoría estadística que establece que bajo H0
la distribución de la diferencia entre el porcentaje de muertes de ambos grupos se
distribuye aproximadamente igual que cierta distribución normal conocida, la prueba Chi
cuadrado se basa en que la suma de las cantidad resultantes de elevar al cuadrado las
deviaciones entre lo observado (O) y lo esperado bajo H0 (E) en cada celdilla de la tabla de
contingencia, divididas por los E correspondientes, se ajusta suficientemente bien a una
distribución de probabilidad conocida: la de la Chi cuadrado. Esto quiere decir que se
conoce cómo es la DM de esas cantidades, cuando H0 es cierta, al tomar un número muy
grande de muestras y, en consecuencia, se puede saber si el valor que concretamente se ha
observado en la muestra realmente disponible es de los que aparecen con mucha o con
poca frecuencia, en caso de que H0 sea correcta. En la tabla 5 se indica la contribución a la
"Chi cuadrado" total de cada celdilla de la tabla de contingencia.
Tabla 5: Cálculo de la Χ2
Grupo tratado con propranolol Grupo control Χ2(1 gl) =
Vivos el día 29 (|O-E|-0,5)2/E =(38-33,1-0,5)2/33,1=0,58 0,56
Muertos antes del día 29 1,61 1,57
Χ2(1 gl) = 4,32
Por tanto, el razonamiento sigue siendo el mismo: se trata de buscar la manera de

conocer lo suficiente de la DM de alguna de las características de la tabla que tienen
relación con la diferencia de porcentajes entre grupos para poder comprobar si la muestra
observada es de las frecuentes o de las infrecuentes si H0 es correcta. En este caso, la
característica es el valor observado de la Chi cuadrado, pues su DM está tabulada. Así, en
concreto, la probabilidad de que en una tabla con dos filas y dos columnas las desviaciones
por exceso o por defecto con respecto a lo esperado bajo H0, si H0 es correcta, den lugar a
valores de Chi cuadrado iguales o mayores que 4,32 es de 0,03767232 cifra que coincide
exactamente con la aproximación normal calculada más arriba porque, de hecho, el
proceso de cálculo en ambos casos es aritméticamente equivalente. Sin embargo, la Chi
cuadrado tiene la ventaja sobre la aproximación normal de que es calculable también
cuando la tabla de contingencia tiene más de dos filas y/o más de dos columnas. Por ello,
al contrario que la aproximación normal, sirve para comparar más de dos porcentajes.
155
LA COMPARACIÓN ENTRE DOS PROPORCIONES RELACIONADAS - PRUEBA DE MCNEMAR

Cuando las muestras están relacionadas, la prueba Chi cuadrado que se acaba de
exponer no compara realmente las proporciones de interés. En su lugar hay que utilizar la
prueba de McNemar, como se explica en el ejemplo siguiente:
En la tabla de contingencia 6 se recogen los cambios en la prevalencia de
hipertensión arterial en 100 pacientes tras un trasplante renal.
Tabla 6: Tabla de contingencia de la distribución de hipertensos en cada periodo
Después del trasplante renal
HTA No HTA TOTAL
Antes del HTA 17 23 40
trasplante renal No HTA 3 57 60
TOTAL 20 80 100
Como se puede ver, antes de la intervención sufrían HTA el 40% y tras ella solo el
20% de los pacientes. A este resultado se ha llegado debido a que en el 26% de los
pacientes se ha producido un cambio de situación: 23 de los que eran hipertensos antes del
trasplante han dejado de serlo y en 3 de los previamente normotensos se ha producido la
evolución contraria. Si la pregunta de interés se refiere a si se modifica o no la prevalencia
de HTA tras el trasplante, entonces la comparación que procede es entre el 60% pre y el
40% post-trasplante.
Si se calculan los esperados de la misma manera que en la prueba desarrollada al
explicar la comparación de muestras independientes, entonces H0 establecerá que tras el
trasplante las proporciones de HTA entre los previamente normotensos y entre los que
antes de la intervención eran ya hipertensos son iguales. Esa hipótesis se refiere a la
asociación entre ser hipertenso antes y después del trasplante y no a los efectos netos del
trasplante sobre el porcentaje de HTA; si se rechaza se concluirá que la proporción de
HTA tras el trasplante en el grupo que previamente también lo era es distinta de la
proporción de HTA post-trasplante en el grupo que previamente era normotenso, y eso no
tiene que ver con la posibilidad de que el trasplante modifique la prevalencia de HTA.
En definitiva, la prueba de la Chi cuadrado se refiere a la asociación entre HTA pre y post-
intervención, pero para evaluar el efecto neto de la misma sobre el porcentaje de HTA lo
que hay que comprobar es si hay más cambios en un sentido que en otro, y esto es lo que
hace la prueba de McNemar.
156
Para comparar el porcentaje de HTA previo con el posterior, el razonamiento es el

siguiente: si el trasplante no produjera un efecto neto y los 26 cambios observados se
debieran al azar, entonces lo que cabría esperar es que 13 de ellos se hubieran producido en
un sentido y otros 13 en el contrario, y sería indiferente el número de casos en que no se ha
producido ninguna modificación. La DM se formaría con los distintos resultados posibles
de repartir los 26 cambios en dos sentidos: 0 a 26, 1 a 25, 2 a 24, ... 24 a 2, 25 a 1 y 26 a 0.
Además, habría que calcular la probabilidad de cada una de estas posibilidades, teniendo
en cuenta que la de cada sentido de cambio es del 50%. Ello es equivalente a calcular la
probabilidad de que aparezcan 0, 1, 2, 3,... 24, 25 y 26 caras si se tiran 26 monedas (con
una probabilidad de cara igual a la de cruz). Una posibilidad para ello es, efectivamente,
tirar 26 monedas muchas veces, contar el número de veces que aparece cada uno de esos
resultados y dividirlo entre el número de veces que se han tirado las monedas. Ello es
totalmente equivalente a la simulación informática que se ha venido utilizando en ejemplos
anteriores. Otra posibilidad sería utilizar la fórmula exacta de la distribución binomial. Sin
embargo, lo habitual es que si, como es el caso en el ejemplo, se dan las condiciones para
una buena aproximación de la normal a la binomial, se calcule el valor Chi cuadrado
correspondiente a la tabla observada. En este ejemplo se cumple efectivamente que los
esperados bajo H0 son superiores a 4 en ambas celdillas, por tanto, se puede calcular la Chi
cuadrado por el método indicado anteriormente:
Χ2 = (|23 - 13|-0,5)2/13 + (|3 - 13|-0,5) 2/13 = 6,94
(En la fórmula anterior se resta 0,5 a cada sumando para ajustar por el hecho de que se está
tratando a una variable discontinua, como lo es un recuento, como si pudiera tomar valores
fraccionarios. No obstante, ello no tiene la menor relevancia en cuanto a la lógica e
interpretación de la prueba se refiere).
Un valor tan grande o mayor de Chi cuadrado en un caso así (es decir, si se están
repartiendo 26 individuos al azar entre dos posibilidades equiprobables) solo aparece en
menos de 2 de cada 10.000 muestras (P<0,0002), como puede comprobarse con la
distribución de la Chi cuadrado. Por tanto, se rechaza la hipótesis nula y se concluye que el
trasplante renal modifica la prevalencia de HTA.
La prueba Chi cuadrado es aproximada. En este caso, el valor exacto de la significación es:
P=8,79765E-05. La diferencia entre ambos métodos es grande en términos relativos, pero
irrelevante en términos absolutos pues no parece que cambien mucho las cosas en la
práctica por el hecho de que la probabilidad de error de tipo I sea de 2 por 10.000 ó de 0,9
por 10.000.
157
LA ESTIMACIÓN DE LA DIFERENCIA ENTRE DOS PROPORCIONES - INTERVALO DE
CONFIANZA
Evidentemente, también en el caso de la diferencia de proporciones cabe

preguntarse por los valores poblacionales plausibles, dado que se ha observado cierto valor
muestral. La lógica implicada en la respuesta a esta cuestión y la interpretación del
resultado son iguales a las que se refieren a una única proporción.
Lo que cambia con respecto al contraste es que mientras en éste la DM de la diferencia de
proporciones es la formada por los resultados posibles de tomar muestras de una población
en que se cumple H0, para ver si es probable o no que la muestra observada sea uno de los
"individuos" de dicha DM; para la estimación del IC se parte de que la muestra observada
es realmente un representante fiel de la población, sea esta la que sea; por ello, el problema
se resuelve determinando de qué DM (de las diferencias de proporciones) puede ser la
observada un "individuo" típico.
En consecuencia, en el caso del propranolol en el IAM, para calcular el IC al 95%
de nivel de confianza, por ejemplo, de la diferencia de proporciones de mortalidad entre
grupos se procedería así:
Dado que la mortalidad observada es del 15,6% en el grupo propranolol y del
37,0% en los controles, la diferencia es de un -21,4%. ¿A qué DM (de diferencias de
porcentajes) pertenece este valor?, en concreto, ¿qué medias tendrán esas DM?
La respuesta será, como siempre, las medias cuya discrepancia con la diferencia
observada (-21,4%) no llame la atención por ser frecuente, entendiendo por frecuente, en
este caso, que sea una discrepancia perteneciente al 95% central dentro de la DM (no
obstante, ya se ha visto que, salvo en los decimales, un IC y el contraste correspondiente
coinciden en cuanto a los valores rechazados a determinado nivel de significación).
Como se dijo al explicar los IC, si, dada una media, cierta distancia "d" entre ella y
un individuo de la distribución aparece hasta en un 95% de los casos, también sucede que,
dado un individuo, la media de la distribución estará a una distancia igual o menor que "d"
en un 95% de los casos. Por tanto, lo que hay que hacer es determinar los valores que están
en torno al valor observado (-21,4%) con una probabilidad de 0,95.
Utilizando la aproximación normal y la teoría estadística, la DM cuya media fuera -21,4%
tendría una DS (o error estándar de la diferencia de medias) igual a:
DS =raíz(0,156X0,844/45 + 0,370X0,630/46) = 0,0894
158
Y el 95% de sus valores estarían comprendidos entre (-21,4% - 1,96 x 0,0894) y (-21,4% +
1,96 x 0,0894) Es decir, el IC95% de la diferencia de la proporción de mortalidad entre
propranolol y control sería de (-0,389 a -0,0388).
Como puede verse, el IC95% no incluye el valor cero; por tanto, la diferencia de
mortalidad es significativamente distinta de cero (P<0,05), resultado que, como era de
esperar, coincide con el del contraste de hipótesis.
En definitiva, la diferencia entre el contraste y el IC está en que mientras en el
primero se calcula un error estándar correspondiente a una DM basada en que H0 es cierta,
para el segundo se utiliza el correspondiente a una DM basada en los valores observado en
la muestra.
Para el cálculo del IC de la diferencia de proporciones relacionadas los
razonamientos son similares, utilizando para el cálculo del IC la DM basada en los valores
observados de cada uno de los dos sentidos del cambio, en lugar de los especificados por
una hipótesis nula. Así, si se toman muchas muestras de n=26 de una población en que la
probabilidad de cambio tras el trasplante desde No HTA a HTA de 3/26=0,115 se obtiene
una DM tal que el 95% de sus valores centrales tienen entre 0 y 5 casos en que el cambio
es en el sentido No HTA a HTA y en el resto de los casos, hasta 26, en sentido contrario,
de forma que se obtienen las distribuciones que figura en la tabla 7.
Tabla 7: Intervalo de confianza al 95% del número de hipertensos en cada periodo

Límite inferior del IC95% Límite superior del IC95%
Después del trasplante renal Después del trasplante renal
No No
HTA HTA TOTAL HTA HTA TOTAL
Antes del HTA 17 26 43 17 21 38
trasplante No
renal HTA 0 57 57 5 57 62
TOTAL 17 83 100 22 78 100
Por tanto, el IC95% de la diferencia de proporción de HTA entre antes y después

del trasplante es igual a (0,17-0,43 a 0,22-0,38) es decir, de (-0,26 a -0,16). El efecto de la
intervención es significativo frente a cero (P<0,05)
En cuanto a la estimación de un intervalo de confianza de la diferencia entre dos
proporciones independientes, los conceptos necesarios y la lógica en que se basa son los
159
mismos que los expuestos para el caso de muestras relacionadas y, por tanto, no se
considera necesario insistir más en ello.
LA COMPARACIÓN ENTRE DOS MEDIAS - PRUEBAS "Z" Y "t DE STUDENT" PARA
MUESTRAS INDEPENDIENTES Y RELACIONADAS
Supóngase que se trata de conocer si la edad de los que se matriculan en

determinado programa (A) de Master es distinta de la de los que se matriculan en un
programa distinto (B). La media de la edad en años cumplidos de los 40 matriculados en el
programa A es 24,9 y la DS 2,7 años. Los valores correspondientes entre los 30
matriculados en el programa B son 23,2 y 2,5 años, respectivamente.
Como, si existe, se quiere detectar una diferencia de edad, H0 será la ausencia de
diferencias. Supóngase además que se considera adecuado un riesgo máximo de error de
tipo I (α) de 0,05.
La DM pertinente para el caso estará compuesta por la diferencia entre las medias
de un número indefinidamente grande de muestras de los mismos tamaños que las
observadas y procedentes de poblaciones de matriculados en uno y otro programa, pero
bajo el supuesto de que la edad en ambas sea la misma (H0). La media de esta DM será
cero y su DS (o error estándar de la diferencia de medias) se podrá calcular con la fórmula
que proporciona la teoría estadística para ello a partir de las DS de las edades en las
poblaciones origen de las muestras, si se conocen. Además, la teoría estadística informa
también de que cuando los tamaños muestrales son iguales o mayores de 30, como sucede
en este caso, entonces la DM de la diferencia de medias se aproxima suficientemente a la
normal.
Sin embargo y como es lo habitual, en este ejemplo no se conocen las DS de las
poblaciones y hay que recurrir a una fórmula deducida por la teoría estadística que permite
estimar el error estándar de la diferencia de medias (S) a partir de las DS de las muestras
(de hecho, hay dos casos diferentes, según que las DS de las poblaciones sean iguales o
distintas, con una fórmula apropiada para cada uno).
Si S se ha calculado a partir de las DS poblacionales, entonces, para comprobar si
un valor tan distinto de cero o más que la diferencia de medias observada aparece con una
frecuencia relativa inferior o no al nivel de significación preestablecido, se podrá utilizar
como DM de la diferencia de medias una normal de media cero (según establece H0) y DS
igual a S, con sus conocidas propiedades (p. ej., entre la media menos 1,96 DS y la media
160
más 1,96 DS se hallan comprendidos el 95% de sus valores, etc.). A este contraste se le
llama "Prueba Z"
Si, por el contrario, S se ha estimado a partir de las DS muestrales, entonces la DM
de la diferencia de medias es más dispersa que una normal (debido a la incertidumbre
añadida al estimar la DS de la DM) y se ajusta a una distribución de probabilidad, llamada
t de Student, cuya dispersión, además, depende de los tamaños muestrales y del número de
valores que haya que estimar.
Aplicando lo dicho al ejemplo propuesto, la DM de la diferencia de medias
pertinente, bajo H0, será una distribución con media cero. Su DS se estimará a partir de las
DS de las muestras. En este caso, las DS de ambos grupos son muy parecidas, por lo que se
calculará una especie de media ponderada de la varianza de ambas (V común) con la que
se calcula el error estándar de la diferencia de medias ("S" ó DS de la DM de dichas
diferencias de medias). Un detalle teórico es que la validez de la t de Student en este caso
depende de que las DS de los grupos sean iguales, como se ha dado por supuesto en este
ejemplo; sin embargo, si no fuera así, lo único que habría que hacer es utilizar una
corrección apropiada; esta corrección es realizada automáticamente por muchos de los
programas que se suelen utilizar para el análisis de datos.
V común =[(2,72x(40-1) + 2,52x(30-1)]/(40-1+30-1) = 6,85
S = Raiz(6,85/40 + 6,85/30) = 0,63
Seguidamente, hay que comprobar si unas diferencias de edad como las observadas
(24,9 - 23,2 = 1,7 años) o mayores son valores frecuentes dentro de la DM pertinente. Para
ello, se utilizan la propiedades de la distribución t de Student apropiada (en este caso, será
la correspondiente a (40 + 30 -2) = 68 grados de libertad). Se puede comprobar, por
ejemplo en las tablas de dicha distribución, que entre su media y ± 2 veces su DS están
comprendidos el 95% de sus valores. Es decir, en nuestro caso, el 95% de los valores de la
DM estarán comprendidos entre cero (que es la media bajo H0) ± 2 x 0,63 es decir, entre -
1,26 años y +1,26 años. Como la diferencia realmente observada (1,7 años) está fuera de
esta intervalo, resulta estadísticamente significativa frente a cero (P<0,05), por lo que se
puede decir que es poco probable que aparezca una diferencia así, si es cierto que la media
real es cero. En consecuencia, se rechaza H0 y se asume que los matriculados en el
programa B son más jóvenes que los matriculados en el A.
El contraste realizado se llama "Prueba de la t de Student para muestras
independientes" y en este caso ha sido bilateral.
161
Si las dos muestras hubieran estado relacionadas, entonces la DM aplicable hubiera sido la
de la media de las diferencias individuales (y no la diferencia de las medias). Por ejemplo,
imaginemos que se quiere evaluar el efecto del tabaco durante la gestación sobre el peso de
los neonatos y que, para ello, se forman 15 parejas de la siguiente forma: por cada mujer
gestante que fuma se busca otra con la misma edad (± 2 años) y con la misma paridad. De
esta forma, se obtiene un grupo de 16 fumadoras y de 16 controles con la peculiaridad de
que a cada individuo de un grupo le corresponde uno concreto del otro:
Tabla 6: Peso al nacer (gramos) en dos muestras relacionadas
Pareja Fuman Controles Diferencia
1 3519 3995 -476
2 3604 3091 514
3 2601 3768 -1167
4 2744 3489 -745
5 3407 3738 -331
6 2831 3609 -779
7 3308 4043 -735
8 3415 3213 202
9 3068 3253 -185
10 3534 2907 627
11 3039 3919 -880
12 3644 3144 500
13 3180 3698 -518
14 3000 3246 -246
15 3194 3673 -478
16 2167 3634 -1466
Media 3141,04 3526,27 -385,23
DS 405,93 345,11 604,98
Como se quiere demostrar la existencia de diferencias en el peso de los neonatos de

fumadoras con respecto al de no fumadoras, H0 será que la media de las diferencias es
cero. Supóngase además que se considera adecuado un riesgo máximo de error de tipo I (α)
de 0,05.
La primera cuestión en este caso es si se puede suponer una DM normal, ya que el
tamaño muestral es inferior a 30. Si la respuesta es negativa, entonces habrá que recurrir a
métodos como los no paramétricos (ver luego) o a simulaciones informáticas. Pero si es
positiva, se puede continuar con lo indicado en este epígrafe. La teoría estadística informa,
al respecto, que cuando las muestras son pequeñas (como aquí, en que n= 16), la DM es
normal si las poblaciones también lo son y no lo es en caso contrario. Por tanto, ¿será
normal la distribución poblacional de la diferencia de peso entre niños de fumadoras y de
no fumadoras que tienen una edad semejante (± 2 años) y la misma paridad? Es preferible
162
que el juicio sobre la normalidad de la población de la diferencia de pesos se base en

consideraciones biológicas y médicas o en información de otras series más grandes... que
en un contraste de normalidad). Supongamos que la respuesta es afirmativa y que la DM es
normal.
La DM de las medias de las diferencias, bajo H0, tendrá una media de cero y una
DS ("S" o error estándar de la media de las diferencias) que, como de costumbre, se puede
calcular a partir de la DS de la población de diferencias de peso (σ) entre niños de
fumadoras y de no fumadoras que tienen una edad semejante (± 2 años) y la misma
paridad, si se conoce. En este caso, el contraste se basará en las propiedades de la
distribución normal (entre la media y ± 1,96 veces la DS están el 95% de los valores, etc.)
y será una "Prueba Z para datos apareados"
Si, como sucede aquí y, además, es lo habitual, no se conoce la DS poblacional,
entonces la DS de la DM se estima a partir de la DS observada en la muestra de diferencias
de pesos: S = 604,94/raíz(16) = 151,25 g y debido a la imprecisión añadida por la
estimación de S (en lugar de su cálculo exacto, cuando se conoce σ) se utiliza la
distribución t de Student apropiada. En este caso, la teoría estadística informa de que
corresponde la distribución t de Student con 15 grados de libertad, y en ella, entre su media
±2,13 veces la DS están comprendidos el 95% de los valores centrales. En el caso de la
DM de las diferencias de peso, este rango irá desde 0 (la media bajo H0) menos
2,13x151,25 hasta 0 más 2,13x151,25, es decir, entre -322,37 gramos y 322,37 gramos.
Como el valor observado (-385,23 g) está fuera de este rango, resulta estadísticamente
significativo frente a cero (P<0,05), por lo que se rechazará H0, pues se piensa que es
demasiado poco probable que si se toma una muestra de n=16 de una población de media
cero la media muestral sea -385,23 y en consecuencia se concluye que, efectivamente, los
niños de madres fumadoras no pesan lo mismo en promedio que los de controles apareados
por edad y paridad.
Si se quisiera más seguridad de haber llegado a la conclusión correcta en caso de
rechazo de H0, se podría haber aumentado el nivel de significación requerido a priori. Por
ejemplo, supóngase que alfa ahora es 0,01. Ahora hay que calcular entre qué límites está el
99% central de los valores de la distribución t de Student de 15 grados de libertad, los
cuales resultan ser la media ±2,95 desviaciones estándar. En el caso de la DM de las
diferencia de peso, esos límites corresponden a (-2,95x151,25 =) -445,68 g y a
(2,95x151,25 =) 445,68 g. El valor observado (385,23 g) está dentro de ellos, por lo que no
es estadísticamente significativo (P>0,05) y, en consecuencia, no se rechazará la nula ni se
163
podrá considerar probado que existen diferencias de peso al nacer entre los niños de
madres fumadoras y controles, apareadas por edad y paridad. Este resultado no equivale,
como es lógico, a haber probado la igualdad de los pesos de ambos grupos, sino que debe
ser interpretado como una insuficiente disponibilidad de información como para llegar a
una conclusión con un grado de seguridad del 99%, aunque sí resulta suficiente, como se
ha visto antes, para llegar a ella con una seguridad del 95%. El que se pueda o no rechazar
H0 con los mismos datos, dependiendo de la seguridad que se desee de estar haciendo lo
correcto, es una prueba de que el resultado no significativo no es demostración de que H0
es cierta.
Los contrastes realizados se llaman "Prueba de la t de Student para muestras
apareadas" y han sido bilaterales.
LA ESTIMACIÓN DE LAS DIFERENCIA ENTRE DOS MEDIAS - INTERVALO DE CONFIANZA

Los argumentos expuestos en el caso de los IC de las diferencias de proporciones son
válidos para las diferencias de medias. Así, si se desea un IC95% hay que dilucidar las
medias de las DM (de la diferencia de medias) en las cuales una discrepancia absoluta
entre el valor observado y dichas medias tengan una probabilidad no menor de (1 - 0,95 =)
0,05 (Figura 1).
En el caso de la diferencia de medias independientes del ejemplo del epígrafe

previo (dos grupos con 40 y 30 individuos y con medias y DS de 24,9 ± 2,7 y 23,2 ± 2,5
años, respectivamente, por lo que la diferencia entre las medias es 1,7 años y su error
estándar, estimado a partir de las DS muestrales, es 0,63 años), los límites del IC95% son
las medias de las DM en que se cumpla la condición de que el valor absoluto de la
diferencia observada entre las medias de las dos muestras: |24,9 - 23,2| = 1,7 años, o uno
164
mayor, aparezca con una probabilidad de 0,05 (0,025 por cada extremo de la DM). Como
siempre, el problema se puede resolver mediante simulación informática o mediante la
aplicación de las propiedades teóricas de las DM aplicables al caso. Mediante el segundo
enfoque y como se ha explicado previamente, se sabe que las que las DM son normales,
que su media coincide con la de la población y que, debido a que la DS poblacional no es
conocida, hay que estimar el error estándar de la diferencia entre medias (o DS de la DM) a
partir de la DS de las muestras, por lo que, para compensar la imprecisión adicional debida
a esta estimación, en lugar de aplicar las propiedades de la normal hay que utilizar la
distribución t de Student. El percentil 2,5% de esta distribución para 68 grados de libertad,
como corresponde a los tamaños muestrales y los dos parámetros estimados, es 1,97. Por
tanto , el límite inferior del IC95% es 0,5 años (LI_IC95% = 1,7 - 1,97 X 0,63 = 0,5 lo que
implica que cuando la media de la DM es 0,5, los elementos de esa DM con valores ≥ 1,7
años aparecen son el 2,5% del total) y el límite superior del IC95% es 2,9 años (LS_IC95%
= 1,7 + 1,97 X 0,63 = 2,9 por lo que si la media de la DM es 2,9 los elementos con valores
valor ≤ 1,7 años aparecen en el 2,5% de las muestras). Por tanto, hay una probabilidad ≥
0,95 de que la discrepancia entre el valor observado y el poblacional sea ≤ 1,2 (recuérdese
que: |1,7 - 0,5|=|1,7 - 2,9|=1,2) y, en consecuencia, dado que la diferencia muestral es 1,7
años, la media poblacional estará entre 0,5 y 2,9 con una seguridad del 95% (dicho de otra
forma, si se pudieran calcular de esta forma los IC95% en torno a un número
indefinidamente grande de las posibles diferencias entre medias de muestras, sólo el 5% de
ellos no incluirán el verdadero valor poblacional).
Con respecto a la media de las diferencias de peso de los neonatos del ejemplo previo, los
límites del IC95% serían: "-385,23 ±2,13x151,25" g (-707,60 a -62,86 g) y los del IC99%
"385,23 ±2,95x151,25" g (-830,91 a 60,45 g).
La interpretación de estos IC y su relación con el contraste de hipótesis es la misma que la
que ya se ha explicado para el caso de las proporciones.
LOS MÉTODOS NO PARAMÉTRICOS PARA LA COMPARACIÓN ENTRE DOS MUESTRAS

Se denomina así a un conjunto de procedimientos de IE en que no se hacen
suposiciones sobre la forma de la DM del estadístico de interés. La ventaja consiste en que
son utilizables en una variedad mayor de situaciones que los métodos clásicos, pues no es
necesario que se cumplan las suposiciones en que se basan éstos.
En investigación clínica es muy frecuente que se utilicen pruebas no paramétricas
como alternativa a las pruebas de la t de Student para la comparación de medias. A
165
continuación se desarrolla un ejemplo para el caso de muestras relacionadas y otro para el

de muestras independientes.
Supóngase que en ejemplo previo sobre la diferencia de peso entre neonatos de
madres fumadoras y no fumadoras, apareadas por edad y paridad, se llega a la conclusión
de que la población de diferencias de peso y, en consecuencia, la DM pertinente pueden no
ser normales. En ese caso, el nivel de significación aparente en la prueba t de Student
puede ser erróneo; es decir, distinto en cualquier sentido de la probabilidad real de que, si
H0 es cierta, al tomar una muestra, ésta sea tan discrepante o más de H0 que la observada.
Para obviar este problema, se ha desarrollado una prueba que se basa en que, si no hay
diferencias reales entre grupos y las observadas en la muestra se deben al azar, entonces en
la mitad de las parejas en que los pesos no coincidan pesará más el niño de la madre
fumadora que el control y en la otra mitad pesará más el control que el de la madre
fumadora. Por tanto, H0 afirma que la mediana de las diferencias de peso es cero (como
corresponde si la mitad de las diferencias son en un sentido y la otra mitad en el otro). Para
medir la discrepancia entre una muestra y lo esperado bajo H0 se ordenan de menor a
mayor los valores absolutos de las diferencias (los empates se desechan) y se les adjudica
un número igual al puesto de orden que ocupan, promediando los puestos en caso de dos o
más diferencias absolutas iguales (p. ej., si a 2 pares con la misma diferencia absoluta les
correspondieran los puestos 6 y 7 se adjudicaría a cada uno el valor 6,5). Seguidamente, se
suman por separado los números de orden de las diferencias positivas y los de las
negativas. Bajo H0 ambas cantidades serán iguales y, en consecuencia, la discrepancia con
H0 se manifestará en las diferencia entre ellas. La DM estará formada por los distintos
valores de cada una de estas sumas, obtenidos al tomar muchas muestras de una población
de diferencias de peso en que se cumple H0. Finalmente, como en cualquier contraste, hay
que calcular la probabilidad de una muestra tan discrepante de H0 o más que la observada
dentro de dicha DM. Para ello, se puede utilizar las tablas publicadas que existen o se
puede realizar simulaciones informáticas de la DM.
En la tabla 7 se desarrolla el contraste indicado para la comparación del peso de los
neonatos entre fumadoras y controles. Como puede verse, la mediana de las diferencias
entre los dos grupos es -477, la suma de los rangos positivos es 109 y la de los negativos es
27. Mediante el análisis no paramétrico del programa SPSS, utilizando la opción que
permite un procedimiento exacto, se comprueba que, si la mediana es cero, la probabilidad
de que en 16 pares discrepantes la suma de los rangos o puestos positivos sea igual o
mayor que 109 (o la de los negativos igual o menor que 27) es exactamente de 0,01677. A
166
su vez, hay también una probabilidad de 0,01677 de una discrepancia entre la muestra
observada y la esperada bajo H0 de la misma magnitud y de sentido contrario (suma de
rangos negativos ≥109 ó negativos ≤27). Por tanto, en caso de que H0 sea cierta la
probabilidad de una muestra tan alejada de H0 en valor absoluto como la observada es
exactamente de 0,03354. En consecuencia, la diferencia de peso sería significativa en un
contraste bilateral al nivel del 5% pero no al 1% (0,01 < P < 0,05), resultado que coincide
con el de la prueba t de Student para muestras apareadas. En un contraste unilateral, el
nivel de significación hubiera sido: P=0,01677.
Tabla 7: Desarrollo de la prueba de Wilcoxon para la comparación entre los pesos al nacer (gramos) de
dos muestras relacionadas.
Peso al nacer
(gramos) Orden según diferencias absolutas
Pareja Fuman Controles Diferencia Diferencia absoluta Puesto De dif. negativas De dif. positivas
1 3519 3995 -476 476 5 5
2 3604 3091 514 514 8 8
3 2601 3768 -1167 1167 15 15
4 2744 3489 -745 745 12 12
5 3407 3738 -331 331 4 4
6 2831 3609 -779 779 13 13
7 3308 4043 -735 735 11 11
8 3415 3213 202 202 2 2
9 3068 3253 -185 185 1 1
10 3534 2907 627 627 10 10
11 3039 3919 -880 880 14 14
12 3644 3144 500 500 7 7
13 3180 3698 -518 518 9 9
14 3000 3246 -246 246 3 3
15 3194 3673 -478 478 6 6
16 2167 3634 -1466 1466 16 16
Mediana= -477 Suma= 109 27
La prueba anterior se denomina "Prueba de Wilcoxon para muestras relacionadas"

(o "prueba de los rangos con signo de Wilcoxon"), puede ser uni o bilateral y, como se ha
visto, es una alternativa a la Prueba de la t de Student para muestras apareadas.
Otra de las pruebas no paramétricas muy utilizadas en Medicina es la "Prueba de Wilcoxon
para muestras independientes" (o "prueba de la suma de rangos de Wilcoxon") , aplicable a
la comparación de medias independientes, y totalmente equivalente a la prueba llamada
"Prueba U de Mann Whitney". Para ver su fundamento lógico, supóngase ahora que se está
comparando el peso de los 16 neonatos hijos de madres fumadoras con los de un grupo de
21 controles, y que ambas muestras son independientes. El riesgo α predeterminado es 0,05
167
y el interés del investigador es demostrar que hay diferencias. En la tabla 8 se presentan los
datos de este ejemplo.
Tabla 8: Peso al nacer (gramos) de dos muestras
independientes
Caso num. Fumadoras Caso num. Controles
1 3262 1 3586
2 3162 2 3849
3 3421 3 3785
4 2988 4 2921
5 2593 5 3868
6 3028 6 3153
7 3236 7 3366
8 3244 8 3821
9 3361 9 3848
10 3259 10 3579
11 3314 11 3316
12 3259 12 3465
13 3792 13 3814
14 3605 14 3720
15 2866 15 3203
16 3827 16 2917
17 3389
18 3250
19 3440
20 2965
21 3727
Media 3263,49 3475,33
DS 316,33 321,22
Mediana 3259 3465
P(prueba t de Student bilateral) = 0,05327
Mediante la prueba t de Student bilateral se ha encontrado que la diferencia entre

ambos grupos se acerca pero no supera al límite de la significación (P = 0,05327). Por
tanto, aunque se está cerca de ello, no se puede rechazar H0 (que es la igualdad de las
medias de ambos grupos).
Sin embargo, los tamaños muestrales no son suficientes para que, por "efecto" del
teorema central del límite, la DM de la diferencia de medias sea normal, salvo que la
distribución poblacional de dichas diferencias también lo sea. Por tanto, no se puede
asegurar que se cumpla uno de los supuestos necesarios para que la prueba t sea válida y,
en consecuencia, el valor de la significación calculado puede ser falso (mayor o menor que
el verdadero).
168
En un caso así, es necesario recurrir a una prueba que no precise de la normalidad

de la DM, como sucede con el contraste de la suma de rangos de Wilcoxon. La H0 en esta
prueba establece que la distribución de la población de niños de madres fumadoras es
idéntica a la de niños control. Si esto es así, lo esperado sería que si se "mezclan" los datos
de los dos grupos, se ordenan de menor a mayor, se asigna a cada uno un número igual al
puesto que ocupa en la lista y se suman por separado los números correspondientes a las
observaciones procedentes de uno y de otro grupo, los resultados de las dos sumas serán
iguales, porque bajo H0 no habrá preferencia de los datos de alguno de los grupos para
ocupar los primeros puestos. En la tabla 9 se muestra el desarrollo del contraste para la
comparación del grupo de 16 fumadoras con el de 21 controles:
Tabla 9: Desarrollo de la prueba de Wilcoxon para la comparación entre los pesos al nacer (gramos) de dos muestras
independientes.
Dato: 2593 2866 2917 2921 2965 2988 3028 3153 3162 3203 3236 3244
Orden: 1 2 3 4 5 6 7 8 9 10 11 12
Grupo: Fuma Fuma Control Control Control Fuma Fuma Control Fuma Control Fuma Fuma
Dato: 3250 3259 3259 3262 3314 3316 3361 3366 3389 3421 3440 3465
Orden: 13 14 15 16 17 18 19 20 21 22 23 24
Grupo: Control Fuma Fuma Fuma Fuma Control Fuma Control Control Fuma Control Control
Dato: 3579 3586 3605 3720 3727 3785 3792 3814 3821 3827 3848 3849
Orden: 25 26 27 28 29 30 31 32 33 34 35 36
Grupo: Control Control Fuma Control Control Control Fuma Control Control Fuma Control Control
Dato: 3868 Suma de los puestos de orden:
Orden: 37 Grupo de fumadoras = 243
Grupo: Control Grupo control = 460
Como en cualquier contraste, la conclusión depende de que el resultado observado

sea o no uno de los que aparecen frecuentemente, si H0 es cierta. Por tanto, es necesario
conocer cómo se distribuyen las sumas de los rangos de uno y otro grupo cuando se
extraen muchas muestras de 16 hijos de fumadoras y de 21 de no fumadoras de una
población en que el peso se distribuye igual entre los hijos de fumadoras y los de no
fumadoras. Con las sumas de los puestos de orden de los niños de cada grupo se formaría
la DM pertinente y ya sólo quedaría el comprobar si los valores observados en los 37 niños
de la muestra obtenida pertenecen o no al grupo de los frecuentes dentro de esa DM.
Las propiedades de la DM se pueden conocer mediante tablas publicadas en que
figura la probabilidad, si H0 es correcta, de sumas iguales o más alejadas de H0 que las
observadas para distintos tamaños muestrales, o mediante algún programa informático de
análisis estadístico. Sin embargo, en este ejemplo, a fin de exponer lo más claramente
posible la lógica de esta prueba, se ha generado una DM empírica. En el histograma de la
figura 2 se recoge la distribución de las sumas correspondientes a los puestos de orden de
169
los hijos de fumadoras en un millón de muestras aleatorias (simuladas informáticamente),

con 16 niños de fumadoras y 21 controles, procedentes de una población en que el peso al
nacer se distribuye igual entre los hijos de fumadoras y de no fumadoras.
Como el contraste es bilateral (el interés del investigador es probar diferencias en

cualquiera de los sentidos), es necesario computar la probabilidad de una discrepancia
entre la muestra observada y H0 de magnitud absoluta igual o mayor a la observada. La
media de la suma de rangos del grupo de hijos de fumadoras en el millón de muestras con
que se ha simulado la DM apropiada para el caso es 304; por tanto, la magnitud de la
discrepancia entre lo observado y H0 es |304-243| = 61. En consecuencia, hay que calcular
la frecuencia relativa de las muestras en que la suma de rangos del grupo de fumadoras sea
igual o menor a 243 y la de aquellas en que sea superior a 364. Como puede verse en la
gráfica, los valores correspondientes son 3,168% y 3,176%, respectivamente, con lo que el
nivel de significación alcanzado es del 6,344% (P=0,06344). La conclusión, por tanto, no
difiere de la alcanzada con la prueba de la t de Student. Además, dado que no existe ningún
supuesto necesario para la validez del contraste que pueda ser violado, se tiene la seguridad
de que el resultado de la prueba de Wilcoxon es correcto, en el sentido de que la
probabilidad de cometer un error de tipo I si se rechaza la igualdad de los pesos de los
niños de madres fumadoras y de los controles es realmente de un 6,344%.
En la práctica, el problema anterior se resolvería mediante la utilización de algún
programa informático. Así, por ejemplo, con la opción de análisis exacto del paquete de
software estadístico SPSS, se hubiera obtenido una significación bilateral de 0,0631
resultado que, desde el punto de vista práctico, es igual al alcanzado por simulación
informática
170
Es cierto que si el interés del investigador se hubiera centrado exclusivamente en la

posibilidad de que el tabaco reduzca el peso de los neonatos, entonces el contraste hubiera
sido unilateral y el nivel de significación alcanzado (P = 0,03168) hubiera sido menor que
el predeterminado del 5%; en consecuencia, se hubiera concluido que fumar reduce el
peso. Pero ese planteamiento debería haber sido adoptado antes de la realización del
estudio. Como se ha dicho anteriormente, no es válido cambiar el tipo de contraste una vez
obtenidos los resultados. Para que el valor de la significación calculado sea real es
necesario que el planteamiento del contraste sea independiente de lo que los resultados
"parecen decir" y que, además, se realice un sólo ensayo y no una serie de comparaciones
repetidas hasta que alguna parezca alcanzar la significación (salvo que se utilicen técnicas
especiales que corrijan o ajusten el nivel de significación de manera adecuada a estas
circunstancias).
Como se ha visto, estas pruebas utilizan solo el componente ordinal de las
mediciones, con lo que, de alguna forma, no se "aprovecha" al máximo la información
disponible. Así, por ejemplo, supónganse las tres muestras de la tabla 10:
Tabla 10: Diferencias muestrales equivalentes para la prueba de Wilcoxon
Muestra A: 3 3 2 3 3 4 3 3 . .
Muestra B: 32 26 20 32 27 35 33 32 · ·
Muestra C: 321 258 204 318 271 351 327 323 · ·
Para la prueba de Wilcoxon, la distancia entre la muestra A y la C es idéntica a la
de la existente entre la A y la B o la B y la C, ya que lo único que utiliza es el puesto de
orden. Sin embargo, con la prueba t de Student se encontraría que la diferencia entre A y B
es muy inferior a la existente entre A y C o entre B y C, ya que esta prueba utiliza no sólo
el orden, sino también la información sobre la distancia entre las mediciones. Por esta
razón, cuando ambos tipos de pruebas son válidos, suele ser más eficiente utilizar las
paramétricas, pues a menudo tienen una mayor probabilidad de alcanzar la significación si
H0 es falsa (es decir, mayor potencia estadística). Debido a ello, suelen ser necesarias
muestras mayores para conseguir un contraste significativo con las pruebas no
paramétricas que con las paramétricas. A cambio, su resultado es menos susceptible de
errores por violación de los supuestos necesarios para su aplicabilidad (a esta propiedad de
una prueba estadística se le llama "robustez"). Además, al limitarse a utilizar la
información ordinal, las pruebas no paramétricas son válidas también para el análisis de
variables medidas en escala ordinal y de mediciones en que no está claro que el intervalo
entre valores consecutivos sea igual a lo largo de toda la escala, ya sea debido a la forma
171
de medición o a su naturaleza intrínseca. Por esta misma razón, el análisis no paramétrico

es mucho menos vulnerable que sus contrapartidas paramétricas al efecto deletéreo de
valores extremos (outliers) entre las observaciones, lo que puede ser una ventaja muy
importante en la práctica. Algunos ejemplos de esta clase de datos, analizables con la
prueba de Wilcoxon pero no con la de la t de Student, son los procedentes de mediciones
con una escala verbal (por ejemplo; "nada, poco, bastante, mucho o insoportable"...), las
puntuaciones formadas por la suma de varias escalas de cuestionarios complejos (p. ej., la
calidad de vida) o las mediciones de variables esencialmente subjetivas (p. ej., la
intensidad del dolor).
En resumen, las técnicas no paramétricas en comparación a las paramétricas, son
aplicables en una mayor variedad de situaciones, sirven también para analizar mediciones
ordinales y están menos expuestas a que la significación calculada sea errónea por
problemas derivados de su aplicabilidad en el caso concreto (son más robustas). Sin
embargo, si se utilizan en lugar de las paramétricas cuando éstas son aplicables también, la
potencia estadística suele ser menor. En la práctica, sin embargo, se comprueba muy a
menudo que ambos tipos de pruebas dan resultados muy parecidos y conducen a las
mismas conclusiones. No obstante, para interpretar las eventuales discrepancias entre ellas
hay que tener en cuenta la mayor robustez de las no paramétricas, por lo que, en principio,
su resultado significativo es válido sea cual sea el de la alternativa paramétrica. Sin
embargo, en caso de que el significativo sea el contraste paramétrico y el no paramétrico
no alcance el nivel preestablecido, puede ser más difícil determinar cuál es la decisión
correcta, pues el resultado negativo del no paramétrico puede ser un error de tipo II,
consecuencia de una menor potencia estadística, y/o el positivo del paramétrico (además de
un error tipo I, cuya probabilidad sería conocida) puede deberse a una falta de validez de la
prueba por no cumplirse alguno de los supuestos con respecto a la distribución de la
población.
Además de las presentadas, hay otras dos técnicas no paramétricas que se utilizan
con frecuencia en investigación clínica: La "Prueba de Kruskal Wallis" es una alternativa
al ANOVA cuando se desea comparar más de dos grupos independientes y la "Prueba de
Friedman" permite comparar más de dos grupos relacionados o apareados. Así mismo, es
frecuente que se utilice el "coeficiente de correlación de Spearman" ("Rho de Spearman" y
representado con la correspondiente letra griega: ρ) como alternativa no paramétrica al "r
de Pearson".
172
CAPÍTULO 13
ESTADÍSTICA BÁSICA PARA INVESTIGADORES NOVELES (V)

CÁLCULO DEL TAMAÑO MUESTRAL.
EL ERROR ESTADÍSTICO DE TIPO II.
Rafael Cuena Boy

EL ERROR ESTÁNDAR
El componente aleatorio del error de muestreo, que se debe a que en la muestra no
están todos los individuos de la población, se "manifiesta" en forma de dispersión al tomar
muchas muestras. Así mismo, la variabilidad real que existe entre los individuos de la
población, cuantificada por la DS poblacional (σ), también influye en dicha dispersión. En
consecuencia, tanto el tamaño muestral (n) como σ se relacionan con el valor de la DS de
la DM, o dispersión en torno a la media de la DM. Esta DS recibe el nombre de error
estándar (S) del estadístico de que se trate en cada caso.
En general, S aumenta con σ y se reduce con n. La teoría de la IE ha deducido el
tipo de relación que existe entre n, σ y S para los distintos estadísticos, proporcionando las
fórmulas correspondientes. Así, p. ej., en el caso de la media la fórmula es: "S = σ/raíz(n)".
Como se puede ver, para la media S es inversamente proporcional a la raíz de n. Algo
similar sucede con la mediana y otros estadísticos.
Si se conoce σ es posible calcular S, dado cierto n. Sea cual sea el método de
cálculo (fórmula o determinación empírica tomando o simulando la toma de muestras), lo
importante es que conociendo S se puede hallar la probabilidad de que, al tomar una
muestra, el estadístico de interés tenga determinado valor, pues esto es lo que posibilita la
IE.
Pero en la realidad el valor de σ no suele ser conocido y, en consecuencia, nada de
lo anterior es útil, pues sólo se dispone de una muestra. No obstante, la teoría estadística
proporciona métodos para estimar S a partir de la DS de la muestra observada. En general,
al sustituir σ por la DS de la muestra, es decir, un valor exacto por uno muestral sujeto a
error, lo que sucede es que se añade un error aleatorio a la dispersión de la DM que debe
ser tenido también en cuenta. Los métodos estadísticos permiten "calcular" este
componente adicional de dispersión.
Por ejemplo, si se toman muestras de n = 16 procedentes de una población normal
con µ = 0,2 y σ = 0,2 y se forma la DM con sus media, S será (0,2/raíz(16)) = 0,05 por lo
173
que se sabe que el 95%, por ejemplo, de las muestras de n=16 tienen una media
comprendida entre 0,2±1,96x0,05 (empíricamente, generando muestras informáticamente,
se llega al mismo resultado). En consecuencia, en el 95% de las muestras de n=16 el
intervalo comprendido entre su media y ±1,96x0,05 engloba el valor de µ (0,2). Éste es el
concepto de IC al 95%.
Sin embargo, si se ignoran los valores de µ y σ y solo se dispone de una muestra
con, por ejemplo, m=0,25 y DS=0,2 entonces, para estimar el IC95% hay que sustituir el
valor de σ por el de la DS, con lo que, aunque el valor de S obtenido sigue siendo
(0,2/raíz(16)) = 0,05, ya no es el resultado de un cálculo exacto, sino que se trata de una
estimación sujeta al error de muestreo (en el sentido de que con otra muestra cualquiera se
obtendrá un valor distinto de DS y, por tanto, de S). En consecuencia, hay que ampliar el
espacio entre los límites anteriores para incluir la imprecisión añadida. En el caso de la
media, si la DM es normal la corrección se puede realizar sustituyendo la cantidad "1,96"
por el percentil adecuado de la distribución t de Student, cuyo valor es conocido y
depende, entre otras cosas, del n. En este ejemplo, el valor adecuado es (tgl=n-1=) 2,49. Por
ello, si se quiere calcular un intervalo en torno a la media de cada muestra que cumpla la
condición de que en un 95% de esas muestras englobe el valor de µ, es necesario sumar y
restar a cada media muestral ó 1,96 veces el valor de σ (que es para todas las muestras
0,05) ó 2,49 veces el valor de la DS que tenga cada muestra (y que es variable de unas a
otras).
En el caso de estadísticos distintos de la media sucede algo similar
conceptualmente, pero las fórmulas y distribuciones concretas para calcular o estimar sus
errores estándar dependen de cada caso.
En definitiva, la precisión de las estimaciones estadísticas depende del valor de S.
Una parte de S se debe a la variabilidad poblacional real (σ), la cual es una característica de
la realidad que, incluso, puede ser objeto de estudio. Pero el resto se debe al error de
muestreo y éste depende del tamaño muestral. Por tanto, se puede limitar la influencia del
error de muestreo en los resultados de una estimación ajustando el n al necesario para
conseguir la precisión deseada.
EL CÁLCULO DEL TAMAÑO MUESTRAL PARA LA ESTIMACIÓN DE VALORES
POBLACIONALES - INTERVALOS DE CONFIANZA
Como se ha visto, la amplitud de un IC depende del nivel de confianza deseado y

de S. A su vez, S depende de σ y de n. Teniendo esto en cuenta, supóngase que se desea
174
estimar la edad de la población que se matricula en un Master con una precisión tal que la
amplitud del IC95% de la media no sea mayor de ±6 años. ¿Cuál es el n mínimo necesario?
Para contestar hay que conocer las propiedades que cabe esperar de la DM de la media (o
del estadístico de que se trate en cada caso). La teoría estadística informa de que la DMM
es normal si la población también lo es, o si n≥30. En ese caso, la amplitud del IC95% a
cada lado de la media muestral será (tn-1xS). Es decir, se utiliza el valor de la distribución t
de Student, en lugar del conocido "1,96" de la normal , para ajustar por el hecho de que
para calcular S se empleará la DS de la muestra que se seleccione. Por tanto, hay que elegir
un n tal que se cumpla que (tn-1xS) ≤ 6. Como se sabe, (S = DS/raíz(n)), por tanto, para
despejar n es necesario conocer la DS que, a su vez, depende de σ.
Ésta es la principal dificultad: para calcular el tamaño muestral es necesario tener
una idea, cuanto más precisa mejor, del verdadero valor de la variabilidad poblacional.
Para conseguirlo se puede recurrir a información ya existente procedente de otros estudios
o registros, a la opinión educada o informada y justificada del investigador y,
eventualmente, a un estudio piloto. A menudo, se llega a una suposición razonable basada
en diversas fuentes de información y razonamientos.
Por tanto, el cálculo del tamaño muestral, cuyo fundamento matemático y lógico es
exacto, en la práctica es sólo una aproximación. Sin embargo, ello no le quita un ápice de
importancia, pues es imprescindible un criterio para decidir cuándo finalizar un estudio que
sea, a la vez, independiente de los resultados el mismo y racional.
A modo de ejemplo, en la tabla 1 se presentan los tamaños muestrales necesarios para que
la amplitud del IC95% a cada lado de la media muestral no supere los 6 años de edad, en
función de distintos valores previstos de la DS poblacional. Como bajo todos los valores
supuestos de σ el tamaño muestral es superior a 30, no sería necesario considerar la
posibilidad de que la DMM no sea normal y de que, en consecuencia, la t de Student no sea
aplicable. En caso contrario, se podría haber decidido que el n mínimo fuera 30, con
independencia del valor de σ.
El fundamento lógico para el cálculo del n si el objetivo es la estimación de una
proporción, de una mediana, de la diferencia entre dos medias o de cualquier otro
estadístico que pudiera interesar, es el mismo que el expuesto para la media. Al igual que
en el ejemplo, partiendo de una previsión plausible de la variabilidad real entre los
individuos de la población, se ajusta el tamaño muestral (n) para que S no supere el valor
máximo que el investigador considera admisible (una decisión "científica", no estadística),
175
utilizando en cada caso la fórmula que la teoría estadística indique (o mediante

simulaciones informáticas).
Tabla 1: Tamaños muestrales y
variabilidad poblacional .
σ t(n-1, α/2=0,025) N*
15 2,34833837 34
16 2,33631599 38
17 2,32462013 43
18 2,31548995 48
19 2,3081648 53
20 2,30108359 59
21 2,29623674 64
22 2,29136734 70
23 2,28667671 77
24 2,28330488 83
25 2,27995508 90
*
: Para determinada amplitud del
IC95%
EL CÁLCULO DEL TAMAÑO MUESTRAL PARA UN CONTRASTES DE HIPÓTESIS

En el ejemplo utilizado para explicar la prueba de Wilcoxon, en que se comparaba
el peso de 16 neonatos de madres fumadoras con el de 21 controles, el contraste quedó
cerca de la significación, pero no la alcanzó. Ante un resultado así, tendría sentido la
realización de un estudio independiente (en sujetos distintos) a fin de aclarar la situación.
Al diseñar el nuevo estudio, el investigador debería, en primer lugar, formular su
hipótesis científica (HC). En este caso, "HC" podría establecer que el peso de los hijos de
madres fumadoras es inferior al peso de niños control adecuados (concretar lo que quiere
decir "adecuados" en este caso sería una parte importante del diseño del estudio). Por tanto,
el objetivo será medir y comparar el peso de unos y otros para probar que el del grupo
control es superior, y H0 será, entonces, que los hijos de fumadoras pesan igual o más que
los controles.
El investigador podrá rechazar H0 cuando la diferencia observada en las muestras
realmente estudiadas alcance un valor que discrepe de H0 (de cero, por tanto) en una
cantidad tan grande que la probabilidad de que esa diferencia aparezca en una muestra
como la del estudio, si H0 es correcta, sea menor que el nivel de significación prefijado.
Por ello, es necesario determinar en este punto cuál va a ser la probabilidad α, o riesgo
máximo admisible de que si se rechaza H0 se cometa un error (de tipo I). Supongamos que
se elige un valor habitual: 0,05.
176
Ya está decidido que el contraste será unilateral al nivel del 5% y que H0 es la

ausencia de diferencias (o superioridad del grupo de fumadoras). Para poder continuar, hay
que elegir el tipo de técnica estadística que se utilizará para la prueba de significación, a fin
de decidir cuál será la DM de referencia. Este problema puede ser resuelto con la prueba de
t de Student y con la de Wilcoxon (entre otras) y, si se conociera la DS de la población,
con la prueba Z. Si se elige la segunda, entonces habrá que comparar el valor de la suma de
rangos de cada grupo observado en los sujetos realmente estudiados con los valores que se
obtendrían si se extrajeran muchas muestras, y si se usa la primera se comprobará el puesto
que ocupa la diferencia observada entre las medias de ambos grupos en la distribución
formada por las diferencias entre las medias de muchas muestras independientes de la
misma población. La prueba Z se desecha porque no se conoce σ. Supongamos que se elige
la prueba t de Student.
Una vez elegida la DM de referencia, hay que examinar la situación desde el punto
de vista de las dos posibilidades, que sea cierta H0 o que no lo sea.
Si H0 es cierta, la DM de la diferencia de medias tendrá una media de cero (según
deducción la teoría de la IE). Además, la variabilidad entre sus elementos (el error estándar
de la diferencia de medias -Sdiferencias -) dependerá de la variabilidad real del peso en una y
otra población de diferencias de medias (σtabaco y σcontrol) y del tamaño muestral de cada
grupo (teoría de la IE). La teoría de la IE informa de que: [Sdiferencias =Raíz(σ2control/ ncontrol +
σ2tabaco/ ntabaco)]. Sin embargo, como se van a utilizar las DS de las muestras, pues las de la
población no son conocidas, entonces la estimación de Sdiferencias es algo más compleja. Se
omiten las fórmulas, pues el objetivo de estos apuntes no va más allá de la exposición de
los conceptos comunes a todas las técnicas y, además, actualmente este cálculo se hace con
programas informáticos. En todo caso, lo importante es que Sdiferencias es mayor cuanto
mayor sean las DS de los grupos y, por el contrario, menor cuanto mayor sea el tamaño de
los grupos (la relación es inversamente proporcional a la raíz de n).
Llegado este punto, una decisión que hay que tomar es la razón entre el tamaño de
los grupos (ntabaco /ncontrol). En general, es más eficiente desde un punto de vista estadístico
que ambos grupos tengan el mismo tamaño ya que de esta forma se consigue el menor
número total de sujetos de ambos grupos; pero puede haber razones que aconsejen otra
cosa (p. ej., puede ser muy difícil encontrar neonatos de madre fumadora, puede haber
algún objetivo adicional para el que convenga un número mayor de alguno de los grupos,
etc.). Supóngase que se decide que ambos grupos sean iguales (ntabaco =ncontrol=n).
177
En la figura 1 se representan las DM de la diferencia de medias, si H0 es correcta,

para distintos valores de σtabaco y σcontrol y para muestras de tamaño n=30 y de n=50 en
ambos grupos y, en consecuencia, para varios valores de la Sdiferencias:
Como puede verse en esa gráfica, a medida que aumenta el valor de Sdiferencias es
necesario que la diferencia entre el peso de los niños de las fumadoras y los controles sea
mayor para que el contraste resulte significativo, de forma que si Sdiferencias = 40 g entonces
se rechazaría H0 a partir de una diferencia de peso de 70 g pero, sin embargo, si Sdiferencias =
100 g el valor crítico asciende hasta 170 g. Por tanto, es evidente que hay que conseguir un
diseño del estudio tal que la Sdiferencias no sea tan grande que impida detectar como
significativa la diferencia de pesos que el investigador considere plausible a la vez que
interesante.
Como se ha dicho y se puede observar en esas gráficas, la Sdiferencias depende tanto
de σtabaco y σcontrol como de ntabaco y ncontrol. Los valores de las DS poblacionales no son
modificables, a menos que se cambie de población diana del estudio (representan la
variabilidad real entre los individuos de la población); por ello, para conseguir que la
Sdiferencias no sea demasiado grande hay que ajustar los tamaños muestrales. El
razonamiento es simple: si la población que se va a estudiar tiene determinada σ, ¿qué
tamaño ha de tener la muestra para que S no supere cierto valor? Para contestar hay que
concretar la variabilidad poblacional o, al menos, tener una idea de su rango de valores
razonables. Esta idea se puede conseguir mediante el recurso a información ya existente,
procedente de otros estudios o registros, a la opinión educada o informada y justificada del
investigador, a un estudio piloto o a una mezcla de todas estas fuentes. Supóngase que el
investigador llega a la conclusión de que la DS del peso al nacer de los hijos de madre
fumadora es igual a la de los controles y que en ambos grupos la cifra es de 300 g o menor.
178
Con esta información, utilizando la fórmula apropiada o por simulación informática de un

muestreo repetido, se puede calcular el n necesario para que la Sdiferencias no sea tan grande
que el efecto que el investigador espera observar en su estudio no consiga alcanzar el nivel
de significación estadística.
¿Y qué diferencia de peso se espera? La respuesta no es estadística, sino que es
parte de la hipótesis científica del investigador. Es imprescindible que el investigador,
además de formular su hipótesis de forma "conceptual", tal y como se expuso más arriba
(HC: "...el peso de los hijos de madres fumadoras es inferior al peso de niños control
adecuados..."), la concrete cuantitativamente y especifique la diferencia mínima de peso
entre ambos grupos que cree que existe en la realidad (sobre la base de razonamientos
fisiopatológicos, observaciones epidemiológicas, etc.) y/o la diferencia mínima que, si
existe, es relevante. En este sentido por ejemplo, por más que sea real una diferencia
promedio de 1 gramo entre ambos grupos, tal valor no tendrá ninguna importancia y, por
tanto, tampoco estará justificado un estudio para probar que existe. Sin embargo, si una
diferencia de, por ejemplo, 50 gramos tiene implicaciones clínicas y cabe pensar que es
posible, entonces ese será el valor mínimo que el estudio debe ser capaz de detectar. Lo
esencial es que sin hipótesis cuantitativamente concreta no es posible planificar el tamaño
muestral de un estudio (ni, en consecuencia, muchos otros aspectos del diseño, incluyendo
el presupuesto, la duración, la viabilidad y los aspectos éticos, aunque estas
consideraciones no son de naturaleza estadística).
Supongamos que, por las razones que correspondan, el investigador cree que la
diferencia mínima que realmente produce el tabaco en la población es de 150 g en contra
de los hijos de fumadoras.
Si es cierta esta hipótesis, entonces la muestra del estudio será una de las muchas
que se podrían tomar de una población en que realmente los niños de fumadoras pesan en
promedio 150 g menos que los de no fumadoras. Si se forma la DM pertinente con todas
esas muestras, se tendrá una DM cuya media valdrá -150 g, en lugar de 0 g como
sucedería si H0 fuera correcta, y una DS que, como cuando H0 es correcta, depende del
tamaño de las muestras y de σtabaco y σcontrol. En la figura 2 se representan las dos DM para
σtabaco = σcontrol = 300 g y para tres tamaños muestrales distintos, tanto suponiendo que es
correcta H0 como bajo la hipótesis alternativa a H0 (representada como H1) que
concretamente afirma que la diferencia es de 150 g menos en el grupo de fumadoras. Si es
cierta esta hipótesis alternativa concreta, entonces cuando se haga el estudio será más
179
probable observar una diferencia próxima a -150 g que una alejada, y si, por el contrario, la
correcta es H0, entonces serán más probables los resultados próximos a cero.
Como puede observarse en las curvas de la derecha de cada gráfica de la figura 2,

que corresponde a la DM de la diferencia entre las medias de ambos grupos en caso de que
H0 sea cierta, existe un valor crítico tal que si la diferencia observada en el estudio (el
resultado real) se separa de H0 tanto o más que él, entonces se alcanza o supera el nivel de
significación predeterminado. Es decir, si H0 es cierta, una distancia hasta cero igual o
mayor que la del valor crítico aparece en el 5% o menos de las muestras. Como la anchura
de la DM (el error estándar -S-) depende del tamaño muestral, el valor crítico está más
cercano a cero cuanto mayor es dicho tamaño muestral; así, p. ej., es -120 g si el n por
grupo es de 35 individuos, -100 g con 50 por grupo y -87 g si el tamaño de cada muestra
es de 65 sujetos.
Por supuesto, todo lo anterior se refiere a diferencias de peso en contra del grupo de
fumadoras, pues el contraste es unilateral. Cualquier resultado en sentido contrario, por
mucho que se separase de cero, caería de lleno en el "terreno" de H0 y, por tanto, no sería
una prueba contra ella. Como se ha visto, el que esto sea así debe depender del interés
"científico" del investigador, que es el que debe decidir el sentido y contenido de su
hipótesis, y no del "aspecto" que puedan tener los datos o resultados.
180
La hipótesis del investigador es que la diferencia real es no menor de -150 g. La

curva de la izquierda de cada gráfica representa la DM de la diferencia entre las medias de
ambos grupos en caso de que H1 sea cierta. Evidentemente, en este caso son más probables
los valores cercanos a -150 g que a 0 g. En concreto, ¿cuál será la probabilidad de un valor
superior a los valores críticos citados antes si H1 es cierta? Recuérdese que éstos son los
que conseguirían la significación estadística por ser poco probables bajo H0. Por tanto, la
pregunta formulada se refiere a la probabilidad de que en la muestra del estudio aparezca
un resultado que no consiga la significación estadística, si es cierta H1. Este sería un
resultado falso, pues no se rechazaría H0 cuando la verdad es que los niños de las
fumadoras pesan menos que los controles. Como puede verse en la curva de la derecha, si
H1 es cierta la probabilidad de un resultado más cercano a H0 que el valor crítico
calculado para cada tamaño muestral es del 33,4% si el n por grupo es 35, del 20% si el n
es 50 y del 11,8% cuando hay 65 niños por grupo.
Al error consistente en no rechazar H0 cuando la correcta es H1 se le llama error
estadístico de tipo II y, por tanto, las probabilidades que se acaban de citar serían los
riesgos de que si H1 es -150 g (o más diferencia) se cometa tal error (no se consiga
rechazar la nula) con los distintos tamaños muestrales citados. A la probabilidad de
cometer esa clase de error se le llama probabilidad β. En concreto, es la probabilidad de no
conseguir o superar un nivel de significación del 5% a pesar de que es verdad que la
diferencia es -150 g.
Por tanto, hasta el momento, para calcular el tamaño muestral ha habido que tomar
una decisión con respecto a los siguientes puntos: Hipótesis cuantitativa concreta, sentido
del contraste (uni o bilateral), prueba estadística (en este caso se ha elegido la t de Student),
riesgo máximo aceptable de un error de tipo I (probabilidad α) y variabilidad real de la
población (σtabaco y σcontrol). Con estas condiciones fijadas se ha llegado cuantificar la
probabilidad de un error de tipo II (probabilidad β) que habrá con distintos tamaños
muestrales. Por tanto, para concretar finalmente el n del estudio solo queda decidir qué
riesgo máximo de un error de tipo II, o probabilidad β, se acepta. Se considera que, en
general, no merece la pena embarcarse en un estudio que tenga una probabilidad mayor del
20% de no conseguir encontrar algo (de no alcanzar la significación) aunque ese "algo"
exista (aunque la hipótesis del investigador sea cierta y, en consecuencia, H1 también).
Por tanto, el 20% es el valor máximo aceptable de error tipo II en general, pero puede ser
necesaria o conveniente una probabilidad inferior, según los casos.
181
Si β es la probabilidad de no conseguir un resultado significativo al nivel α que se

ha elegido pese a que realmente H1 es correcta, entonces (1-β) será la probabilidad de
conseguir un resultado significativo al nivel α que se ha elegido cuando H1 es correcta. A
(1-β) se le llama "poder estadístico" o "potencia estadística", y, por lo dicho, se considera
que el valor mínimo aceptable es del 80%.
Los cálculos realizados hasta aquí para presentar la lógica de la determinación del tamaño
muestral necesario para un contraste de hipótesis no son complejos; pero en la práctica,
este cálculo se convierte en una especie de negociación del investigador consigo mismo.
Siguiendo con el ejemplo, la historia del cálculo del n para un estudio como éste se suele
desarrollar así:
El investigador piensa que el tabaco reduce el peso al nacer y decide hacer un
estudio para probarlo; tiene claro que va a utilizar la prueba t de Student y, también, que no
cabe la posibilidad del efecto contrario (de que el tabaco aumente el peso), por lo que
también decide que su contraste será unilateral. Con estos elementos, inicia el cálculo del
n. Se encuentra, entonces, con que tiene que especificar qué diferencias espera y razona
que 50 gramos serían ya relevantes. Con respecto a la variabilidad real en la población,
razona que puede haber madres jóvenes y de avanzada edad, con cualquier paridad, con
distintas situaciones con respecto a la tolerancia a la glucosa, distinta exposición al tabaco,
etc., etc., así que concluye que la σ en cada grupo puede llegar a ser de 400 g. Con respecto
al riesgo de error, el investigador, como es lógico, no desea tolerar ninguno pero, como
para eso tendría que estudiar a todos los neonatos de la población y, obviamente, eso no es
posible, decide que quiere tener una posibilidad no menor del 99% (poder estadístico) de
encontrar esa diferencia de 50 gramos y una probabilidad no mayor del 1% (probabilidad
α) de que si parece que la encuentra, ello no sea un "falso positivo". Además de todo lo
anterior y dado que no hay una razón para hacer otra cosa, decide que el tamaño de los dos
grupos sea igual.
Con estos "ingredientes" realiza los cálculos y se encuentra con que tiene que
estudiar a 2773 neonatos en cada grupo (5544 en total). Un estudio así no le resulta factible
(y menos mal que su hipótesis no es bilateral, porque en ese caso hubiera necesitado 6154
niños en total). Por tanto, reexamina los "ingredientes" del cálculo y decide aumentar la
probabilidad α hasta el 5%, valor que está dentro del rango aceptable acostumbrado. Pero
quiere seguir teniendo un poder estadístico del 99%, es decir, una posibilidad del 99% de
conseguir una P<0,05 si las diferencias son al menos de 50 gramos.
182
Repite el cálculo y resulta que ahora ya sólo necesita 2020 niños por grupo. Se
replantea todo el estudio: piensa que si modifica los criterios de selección para que la
población diana sea más homogénea puede conseguir que σ sea menor. Así que decide
excluir a madres mayores y menores de determinadas edades, a las que tienen cualquier
tipo de intolerancia a la glucosa, a las que fumen menos (para el grupo de expuestos) de
cierta cantidad de cigarrillos por día, etc., etc., y llega a la conclusión de que de esa forma
la σ en cada grupo no será mayor de 300 g. Además, al haber aumentado la exposición al
tabaco del grupo de fumadores exigida para participar en el estudio, espera que la
diferencia mínima de peso sea de 100 g, en lugar de 50 g, (aunque, como consecuencia, el
estudio ya no se pueda llamar "Efecto del tabaco sobre el peso al nacer..." y haya que
cambiar el título a "Efecto de la exposición de gran intensidad al tabaco...").
Comprueba que con estas nuevas condiciones necesita 285 niños por grupo. Así que
continua "negociando" consigo mismo hasta llegar a la conclusión de que con las
condiciones de la tabla XX precisa 51 niños por grupo, y que de esa forma el estudio sigue
siendo útil y le resulta viable (Tabla 2).
Tabla 2: Calculo del tamaño muestral (hipótesis: Los niños de fumadoras pesan 150 g menos en promedio que los controles)
Condición
H0: 0g
Diferencia mínima: - 150 g
σ1 300 g
σ2 300 g
Prueba t de Student
Colas Una
α 0,05
Potencia (1-β) 0,8
Razón entre tamaños muestrales (n1:n2) 1
n1 calculado 51
n2 calculado 51
Además, suele ser prudente comprobar que sucedería si las suposiciones en que se
basa el cálculo son erróneas o si, finalmente y como sucede muy a menudo, la
disponibilidad de sujetos es menor de la prevista, o la pérdida de sujetos mayor, y la
muestra final no llega al valor calculado. Así, por ejemplo, este investigador es consciente
de que σ y la diferencia mínima pueden tener un valor distinto al que él imagina. Por tanto,
estudia si la potencia cambia mucho si empeoran algo las condiciones y comprueba lo
siguiente:
183
1.- Si la σ en cada grupo pasa a ser 350 g en lugar de 300 g, entonces el poder del estudio
desciende al 69%, salvo que la verdadera diferencia producida por el tabaco sea de 175 g
menos en el grupo de fumadoras, en lugar de los 150 g previstos.
2.- Si el efecto del tabaco es menor que el previsto y llega a -120 g, en lugar de los -150
que especifica su hipótesis, entonces el poder se reduce al 64%, salvo que la σ en cada
grupo sea realmente de 240 g y no los 300 g previstos.
3.- Además, si, como puede suceder, fuera difícil encontrar madres fumadoras y,
finalmente, la muestra expuesta al tabaco quedase reducida a solo 40 niños, el poder se
reduciría al 76%. Sin embargo, esto podría ser compensado aumentando el grupo de
controles hasta 68 niños.
A la vista de esta información, el investigador deberá decidir si su diseño es robusto
y tiene suficiente margen como para que no fracase aunque fallen alguna de sus
previsiones o, si por el contrario, le conviene aumentar algo más la muestra.
Además, se debe realizar una previsión de la proporción de individuos que tendrán que ser
retirados, o se perderán para el seguimiento por una u otra razón, incluyendo las
desconocidas, y corregir el tamaño calculado para que esas pérdidas no afecten a la
potencia del estudio. Por ejemplo, en un estudio clínico es muy habitual que un 10% ó un
15% de los sujetos no sean finalmente evaluables. En el caso del ejemplo sobre el efecto
del tabaco en el peso de los neonatos, una vez calculado que se necesitan 51 sujetos por
grupo se puede aumentar la cifra para compensar por un 15% de pérdidas de la siguiente
forma:
n corregido por grupo = n sin pérdidas /(1 - proporción prevista de pérdidas) = 51 / (100
- 15) =60 sujetos por grupo
Como se ha visto, el cálculo del tamaño muestral consiste en buscar un compromiso
razonable entre lo posible (lo factible y viable para el investigador) y lo interesante (lo que
merece la pena ser llevado a cabo) y en la determinación del margen de seguridad
disponible en caso de que falle alguna de las previsiones. El resultado es, evidentemente,
una aproximación. Pero eso no le quita importancia; primero, porque no hay una manera
mejor de realizar tal aproximación y ,segundo, porque cualquier otra forma de decisión
sobre cuándo se debe de dejar de añadir individuos a las muestras de un estudio no solo
puede ocasionar una probabilidad muy alta de error de tipo I, si se alcanza la significación,
o de error de tipo II, si no se llega a ella, sino que puede llegar a sesgarlo si la decisión se
toma cuando ya se han visto los datos que se van adquiriendo. Por lo dicho y porque es la
base para la determinación de los medios y presupuesto necesarios, para las previsiones
184
sobre el plazo de realización y, en último término, sobre la viabilidad del proyecto, el

cálculo del "n" necesario es una parte esencial del diseño de cualquier estudio.
Los repetidos cálculos que son necesarios en esta negociación que es la
determinación del "n" se hacen actualmente con ayuda de alguno de los muchos programas
informáticos que existen para ello. De entre las diversas alternativas gratuitas, son muy
recomendables el programa G*Power y la calculadora Granmo. Con cualquiera de ellos es
posible calcular repetidamente el "n" con distintos supuestos de forma inmediata y sin
necesidad de conocer los detalles de las pruebas estadísticas concretas; basta con
proporcionarles el valor adecuado al caso de los "ingredientes" que, en general, son los que
figuran en la tabla 2.
En resumen, a menor varianza poblacional, mayor distancia entre H0 y H1, mayor
probabilidad α y menor poder estadístico (1 - β), menor es el tamaño muestral necesario
para un contraste de hipótesis. Así mismo, el n necesario es menor en un contraste
unilateral que en uno bilateral. Además, el n depende del tipo de prueba estadística
utilizado (p. ej., ya se ha dicho que los contrastes no paramétricos suelen necesitar mayor
muestra que sus alternativas paramétricas). Finalmente, la suma del total de efectivos de
los grupos a comparar se minimiza si éstos son del mismo tamaño. El investigador puede
"jugar" con estos elementos para conseguir un diseño viable (para él) e interesante, siempre
que lo haga antes de conocer los datos que se van a analizar. Al respecto, como se ha
dicho, una de los mejores métodos para evaluar la variabilidad y las diferencias esperables
es la realización de un estudio piloto. Sin embargo, para mantener la independencia entre
los supuestos en que se basa la elección del "n" y los datos analizados, cuando dicho "n" se
calcula por medio de un estudio piloto, los datos adquiridos en él no deben añadirse a los
que forman parte del estudio definitivo. Así mismo, solo se deben realiza contrastes de
hipótesis repetidos a medida que se adquieren datos, finalizando o no la inclusión de
sujetos en función del resultado, cuando se utilicen procedimientos estadísticos especiales
de análisis secuencial, o similares, que tienen en cuenta tal hecho y, en consecuencia,
ajustan por él. De lo contrario y aunque ello no sea evidente si no se conoce la lógica de la
IE, los resultados podrían llegar a tener la misma validez que si provinieran de un estudio
en que se han "inventado" algunos casos o datos.
LA PROBABILIDAD DE UN ERROR ESTADÍSTICO DE TIPO II (Β) - INTERPRETACIÓN DE UN

CONTRASTE NO SIGNIFICATIVO
185
En las gráficas de la figura 3 se representa el mismo resultado de una prueba de

significación unilateral en la que no se ha alcanzado el nivel predeterminado de
significación del 5% (P = 0,075). Por tanto, no se puede rechazar H0.
Un resultado no significativo, en principio es un resultado no concluyente por falta

de pruebas contra H0. Por tanto, esta sería la conclusión en el caso representado en las 3
gráficas previas: si se rechaza H0 la probabilidad de que eso sea un error de tipo I es del
7,5%, demasiado alta para que el investigador se decida a concluir en ese sentido, según él
mismo decidió cuando estableció una probabilidad α del 5%. Y en este punto terminaría lo
que es la realización de una prueba de significación.
Sin embargo, cuando un contraste no es significativo es posible realizar algunos
cálculos adicionales para comprobar qué valores de H1 son compatibles con el resultado
obtenido.
S = 0,072 Es decir, en el caso representado en las gráficas de la figura 3 se sabe que el
Kg
resultado (-104 g) es compatible con un valor real de 0 g (H0), pero ¿lo será, por ejemplo,
también con un valor real en la población de -150 g? Pues bien, en la primera de las
gráficas se representa la H1 de que la diferencia verdadera sea de -150 g y, como se puede
ver, la probabilidad de que si es verdad esta H1 se obtenga un resultado de -104 g (o más
alejado de H1) es del 26,3%. Es decir, la probabilidad de que este resultado no
significativo sea un error de tipo II, si H1 (-150 g) es correcta, es del 26,3%. Como esta
probabilidad β "post hoc" es mayor de lo que se suele admitir (20%), se concluye que no
llama la atención un resultado de -104 g en una muestra procedente de una población en
que el verdadero valor es -150 g y que, por tanto, tras este contraste no se puede descartar
186
razonablemente que el verdadero valor sea -150 g (como tampoco se puede descartar que
sea 0 g). Se ve de esta forma claramente que un resultado no significativo es un resultado
no concluyente.
Pero si se examina la posibilidad de una H1 más alejada de H0, como lo es, p. ej., -
200 g, entonces se comprueba en la tercera de las gráficas que la probabilidad de un
resultado igual a -104 g es sólo del 9,3%. Aunque sigue siendo posible que el verdadero
valor poblacional sea -200 g (o, de hecho, cualquier otro de los plausibles biológicamente),
lo cierto es que ahora la β es menor que la mínima admisible y, por tanto, es mucho menos
probable que cuando se evaluó la posibilidad de que la verdadera diferencia fuera -150 g
que el contaste haya terminado en un error de tipo II. En consecuencia, se puede concluir
que el contraste ha descartado (al menos hasta el punto en que es habitual en estos
contrastes) que el verdadero valor sea -200 g.
Por último, como se ve en la segunda gráfica, el valor de H1 para el que la
probabilidad de que el resultado de este contraste sea un error de tipo II es del 20% es -165
g. En consecuencia, teniendo en cuenta el valor máximo habitualmente admisibles de error
de tipo II (el 20%), se concluiría que pese a que este contraste no haya podido rechazar la
H0 de que la diferencia es 0 g, lo cierto es que tampoco se puede rechazar (al menos a los
niveles habituales) que llegue hasta -165 g.
En definitiva, mediante este cálculo post hoc del riesgo de error de tipo II (o de la
potencia) para distintos valores hipotéticos de la diferencia, se consigue reducir algo más la
incertidumbre asociada a un contraste cuyo resultado no es significativo y, además, se
comprueba claramente que la no demostración de diferencias no es lo mismo que la prueba
de la igualdad.
187
188
CAPÍTULO 14
ESTADÍSTICA BÁSICA PARA INVESTIGADORES NOVELES (VI)

CORRELACIÓN. REGRESIÓN.
ESTIMACIONES AJUSTADAS POR COVARIABLES.
Rafael Cuena Boy

LA CORRELACIÓN
Con frecuencia, más que detectar diferencias, se desea comprobar si existe una
relación entre dos variables de muestras relacionadas. Por ejemplo, ¿existe una relación
entre el peso de los recién nacidos de madres equiparadas por edad y paridad?, ¿y entre la
concentración de creatinina plasmática y el filtrado glomerular dentro del mismo
individuo?; ¿o entre las cifras de presión arterial de un paciente antes y después de un
trasplante renal?
Existe asociación entre dos variables, X e Y, cuando la media de Y en los individuos que
tienen un valor concreto de X es distinta de la media de Y en el conjunto de los individuos,
tengan el valor de X que tengan. Por ejemplo, la creatinina (Cr) plasmática y el
aclaramiento de creatinina (Clcr) están asociados, pues la media del Clcr es distinta para
cada valor de Cr (tabla 1)
Figura 1: Aclaramiento de creatinina en hombres de 50 años y 70 Kg
Creatinina plasmática (mg/dl) Num. de individuos Media del grupo
1 30 88 ml/min
3 15 29 ml/min
5 5 18 ml/min
Media global = 63 ml/min
(Según nomograma de Crokoft-Gault)
Esta clase de asociación se cuantifica con estadísticos llamados coeficientes de

correlación. En investigación clínica dos de los más utilizados son el llamado coeficiente
de correlación "r" de Pearson (r) y el coeficiente de correlación "rho" de Spearman (ρ).
Este último es no paramétrico y, en consecuencia, es aplicable al caso de variables
ordinales o de variables cuantitativas con mediciones en que no hay el mismo intervalo
189
entre valores consecutivos a lo largo de toda la escala (ver el epígrafe de pruebas no

paramétricas).
Imagínese que se quiere cuantificar la correlación entre las cifras de presión arterial antes y
después de un trasplante y que se dispone para ello de una muestra de 4 pacientes. En la
figura 2 se representa cada uno de los cuatro pares de valores:
Figura 2: Presión arterial pre y post trasplante renal: Diagrama de dispersión y datos
Sujeto PA antes del trasplante (mm Hg) PA tras el trasplante (mm Hg)
1 75 64
2 87 72
3 95 102
4 102 91
MEDIA = 90 82
DS = 10 15
Recta de regresión: PA post-trasplante = -31,3 + 1,26 x PA pre-trasplante + e
Para ilustrar el significado del coeficiente de correlación de Pearson, supóngase el

siguiente "juego": Se conocen los cuatro valores individuales de la PA previa al trasplante,
la media de los cuatro valores posteriores y una función que relaciona la PA post-trasplante
con la previa, y se trata de "adivinar" cada uno de los valores individuales tras el trasplante,
de forma que gana el que se equivoque menos. Entre las reglas del juego se indica también
que los errores individuales se miden hallando la diferencia entre el valor supuesto por el
"jugador" y el valor real. Sin embargo, para evitar que los errores por exceso se cancelen
con los errores por defecto, para cuantificar el error total lo que se hará será elevar al
cuadrado todas las diferencias individuales y sumarlas. Ganará aquel que consiga una suma
menor de los errores al cuadrado.
Con la información disponible, hay dos posibilidades, una consiste en adjudicar a
individuo la media del grupo y la otra en utilizar la función que relaciona los valores pre y
post-trasplante para asignar a cada sujeto el valor que le corresponda según su PA previa.
En la figura 3 se representan los pares realmente observados, la media del grupo y los
errores cometidos si se utiliza ésta para predecir los valores individuales.
190
Figura 3: Desviaciones de los valores post trasplante de la presión arterial frente a su

media
PA pre trasplante PA tras el trasplante
Sujeto Observados Observados Media Errormedia Error2media

1 75 64 82 19 346
2 87 72 82 10 95
3 95 102 82 -20 394
4 102 91 82 -8 72
TOTAL 0 906
Como puede verse en esa tabla, el error total cometido, medido como la suma de las
desviaciones con respecto a su media de cada valor de PA post-trasplante elevadas al
cuadrado, es 906.
En la figura 4 siguiente se indica lo que sucedería con la otra alternativa, utilizando
la función que relaciona ambos valores de PA (y que resulta ser la ecuación de una recta).
Figura 4: Desviaciones de los valores post trasplante de la presión arterial frente a su
regresión sobre los previos
Sujeto Observados Observados Ajuste lineal Errorajuste lineal Error2ajuste lineal

1 75 64 64 0 0
2 87 72 79 6 39
3 95 102 89 -13 175
4 102 91 98 7 49
TOTAL 0 263
Recta de regresión: PA post-trasplante = -31,3 + 1,26 x PA pre-trasplante
Al utilizar la recta que relaciona los valores previos con los posteriores al trasplante
en lugar de la media de estos últimos, la predicción ha mejorado, pues el error total,
medido ahora como la suma de las desviaciones de cada valor de PA post-trasplante con
respecto al calculado con esa función y elevadas al cuadrado, es 263.
Si se estudian las diferencias entre predecir con la media del grupo o predecir con la
recta que relaciona los valores pre con los post-trasplante se comprueba que la suma de
toda ellas elevadas al cuadrado es, precisamente, la diferencia entre el error total cometido
con la media y el error cometido con la recta de regresión. En la figura 5 se presentan estos
datos.
191
Figura 5: Diferencias entre la media de los valores de PA post trasplante y los predichos
por la regresión

Ajuste (Media - (Media -
Sujeto Observados Observados Media lineal Ajuste lineal) Ajuste lineal)2
1,0 75 64 82 64 19 348
2,0 87 72 82 79 3 12
3,0 95 102 82 89 -7 44
4,0 102 91 82 98 -15 240
TOTAL 0 643
Recta de regresión: PA post-trasplante = -31,3 + 1,26 x PA pre-trasplante
Por tanto, la suma de las diferencias entre la media y los valores de la recta que
relaciona las mediciones previas y posteriores al trasplante, elevadas al cuadrado es,
precisamente, la mejora en la predicción que se consigue utilizando esa recta en lugar de la
media del grupo. En este caso, esa mejora es de 643 sobre un error total al cuadrado de 906
que se producía con la media. Como es obvio: la suma de los errores al cuadrado con
respecto a la media es igual a la suma de los errores el cuadrado con respecto a la recta más
la suma de las diferencias al cuadrado entre la recta y la media: 906 = 263 + 643.
Por otra parte, es evidente que esas sumas de errores al cuadrado miden la variación total
(al cuadrado) entre los valores de PA post-trasplante y su media (906) y entre dichos
valores y los predichos en función de los pre-trasplante utilizando la función de la recta
(263). A la función que se está utilizando en este ejemplo se le llama "función de
regresión" y, como en éste caso se ha utilizado una recta, se trata de una "función de
regresión lineal".
En vista de todo lo anterior, se puede decir que la cantidad 263 representa el error o
variabilidad residual en los valores de la PA post-trasplante que queda sin "explicar"
cuando se usa la recta de regresión; la cantidad 643 corresponde a la variabilidad explicada
por la regresión y la suma de las dos (906) es la variabilidad total.
Es habitual que la cantidad explicada por la recta se presente como porcentaje o tanto por
uno de la total. Así, en este caso, el porcentaje de la variabilidad total que es explicado por
la recta de regresión es: (100x643/906) = 71,0%. A esta cantidad expresada como tanto por
uno se le llama coeficiente de determinación (r2) y a su raíz cuadrada se le llama
coeficiente de correlación lineal de Pearson (r).
Ambos coeficientes miden hasta qué punto existe una relación lineal entre dos
variables. El r2 puede variar entre 0 (ausencia de relación rectilineal) y 1 (línea recta
192
perfecta, ninguna variabilidad residual a una recta). El r varía entre -1 y +1; en su caso, -1
significa una recta perfecta pero con pendiente negativa, y 1 implica una recta también
perfecta y una asociación positiva. El valor cero se obtiene cuando no existe relación lineal
alguna entre ambas variables. En cuanto a la interpretación del valor del r, cuanto más
próximo a 1 ó a -1 más fuerte es la asociación lineal, y cuanto más cerca de 0 más débil;
además, el signo indica el sentido de la asociación (positiva o negativa); pero el juicio
sobre si la asociación es o no grande (o importante) no es una cuestión principalmente
estadística, sino que depende del área de estudio y de la finalidad del investigador. Así, por
ejemplo, mientras que cuando se construye una recta de calibración para una
determinación analítica, el r mínimo admisible entre la concentración y la respuesta de que
se trate (p. ej., recuento radiactivo, en caso de un RIA, absorción de luz UV en HPLC, etc.)
es superior a 0,98; sin embargo, un r del orden de 0,3 - 0,4 puede ser importante cuando se
está estudiando la relación entre, p. ej., la calidad de vida, medida mediante un
cuestionario apropiado, y alguna característica sociológica, como los ingresos).
Sin embargo, es importante insistir en que estos coeficientes miden la fuerza del
componente lineal o rectilíneo de la relación entre variables, de forma que puede haber
casos en que dos variables estén muy relacionadas (o, incluso, perfectamente relacionadas)
y r sea cero, debido a que la asociación no tenga un componente lineal. Como puede verse
en la figura 6, existen asociaciones perfectas que no tienen un componente lineal y, en
consecuencia, el r de Pearson es menor de 1 ó, incluso, 0.
Además del r de Pearson, en investigación clínica se usa frecuentemente el ρ de

Spearman. Éste es un coeficiente que se interpreta igual que el r y que, por ser no
paramétrico, puede utilizarse para medir la asociación de variables ordinales entre sí, de
ordinales con cuantitativas y entre cuantitativas, dimensionales o cuasi dimensionales. Por
ejemplo, el ρ permite cuantificar la asociación entre el cociente intelectual de hermanos, o
entre la intensidad del dolor, medido con una escala analógica, antes y después de la toma
193
de un analgésico, entre la nota obtenida en un examen y el resultado de un cuestionario de

ansiedad, etc. También es válido para medir la asociación entre variables cuantitativas
como, por ejemplo, entre la presión arterial antes y después de un trasplante renal; sin
embargo, si es utilizable, suele ser preferible el r de Pearson, pues aprovecha "mejor" la
información disponible (en el epígrafe sobre pruebas no paramétricas se explica con más
detalle esta diferencia entre métodos paramétricos y no paramétricos).
Aunque para explicar el significado del r se ha utilizado una recta de regresión
lineal, la correlación y la regresión no sirven para lo mismo (aunque están muy
relacionadas). Cuando lo que se necesita es medir la asociación entre dos variables
cuantitativas se utiliza un coeficiente de correlación adecuado, sin calcular ni presentar la
ecuación de una función que las relacione (se puede y se suele calcular el r sin hallar la
recta de regresión). En la correlación ambas variables tienen el mismo papel; es decir, no
hay una que dependa de otra en ningún sentido. Sin embargo, cuando por la razón que sea,
el investigador considera que una de las variables depende de la otra, entonces el análisis
adecuado es la regresión, mediante la que se determina la función que permite predecir las
valores de la variable dependiente a partir de los de la independiente.
LA REGRESIÓN
Mediante los métodos de regresión se calcula la media de una variable, llamada

variable dependiente (Y), condicionada al valor de otras, llamadas variables independientes
(X). El resultado es la ecuación de la función que expresa el valor esperado de Y cuando
las X toman distintos valores. Por tanto, la regresión no predice el valor de un individuo,
sino que proporciona el valor de la media de Y en los distintos grupos formados en función
del valor de las X. Los valores individuales se diferencian del de la media de su grupo en
mayor o menor medida, dependiendo de la dispersión de la variable Y, de la forma de la
función que se elija (recta, polinomio, etc.) y de las variables independientes que se
incluyan.
En general, en la regresión juega el papel de variable independiente aquella que
puede ser manipulada por el investigador. Por ejemplo, en un estudio en que se administren
dosis distintas de un hipotensor, la dosis será la variable independiente y el efecto sobre la
presión arterial la dependiente. En otros casos el investigador no puede manipular la
variable que juega el papel de independiente. Un ejemplo podría ser un estudio para
determinar que sucede con la presión arterial a medida que se fuman más cigarrillos por
día. En este caso, el número de cigarrillos sería la variable independiente, aunque sus
194
valores no sean fijados por el investigador. En definitiva, la variable independiente es la

que tiene un papel parecido al causal y la dependiente es la "consecuencia", sin que esto
implique que la relación entre ellas deba ser de causa-efecto.
El análisis de regresión implica ajustar un "modelo" a los datos. En el ejemplo de la
presión arterial y el trasplante, el modelo es una línea recta, cuya ecuación general es: (Y =
a + b·X) Ajustar este modelo a los datos disponibles quiere decir buscar los mejores
valores de los parámetros de la recta: a (valor de Y cuando X es cero) y b (lo que cambia Y
cuando X cambia una unidad).
Los modelos que se utilizan en regresión se expresan en forma de funciones
matemáticas y pueden tener cualquier grado de complejidad (regresión lineal, polinómica
de cualquier grado, con funciones trigonométricas, etc.), pueden incluir más de una
variable independiente y sus funciones (regresión simple o múltiple) e, incluso, más de una
dependiente (regresión multivariante, sea simple o múltiple). Pero en investigación clínica
es raro que se utilicen modelos demasiado complejos pues, entre otras cosas, pueden llegar
a ser de interpretación muy difícil o llegar a producir resultados que son imposibles desde
el punto de vista biológico (por ejemplo, una cifra de presión arterial negativa). En
cualquier caso, las consideraciones fisiopatológicas y la facilidad de interpretación son
importantes a la hora de elegir el modelo adecuado (forma funcional y variables); de lo
contrario, el mejor sería un polinomio de grado suficiente como para "pasar" por todos los
puntos.
En cuanto al criterio para elegir los mejores valores de los parámetros de un modelo
de regresión para que se ajuste a los datos disponibles, existen diversas alternativas. El
método más empleado es el llamado "por mínimos cuadrados", que es el que se ha
utilizado para calcular la recta de regresión del ejemplo de la presión arterial pre y post-
trasplante. Cuando se realiza regresión "por mínimos cuadrados" se buscan los valores de
los parámetros del modelo que minimizan la suma de las diferencias entre los datos
observados y los predichos con la regresión, elevados al cuadrado. Así, en el modelo
ajustado a los cuatro pares de datos del ejemplo de la presión arterial y el trasplante tiene
los parámetros indicados en la figura 7.
195
Con los parámetros: a = -31,3 y b = 1,3 se consigue

que el valor de
Σi = 14(PA post-trasplantepaciente i - a + b X PA pre-
trasplante paciente i)2
sea el menor posible (en este caso es 263)
Con esos valores se minimiza la suma de los errores al
cuadrado (criterio para la regresión por mínimos
cuadrados ordinarios).
Los valores de los parámetros se calculan por medio de las fórmulas

proporcionadas al efecto por la teoría estadística. Por otra parte, en la figura 7 se puede
observar un detalle que tiene importancia: el modelo llega a predecir valores negativos de
presión arterial; ello se debe a que, en general, la validez de una regresión no se extiende
más allá del rango de valores observados. Es decir, el modelo de la gráfica se ha
desarrollado con un rango de la variable independiente que se extiende desde 75 hasta 102
mm Hg y, en consecuencia, es aventurado extrapolar y realizar predicciones con él para
cifras de PA pre-trasplante menores a 75 o mayores de 105 mm Hg.
CORRELACIÓN Y REGRESIÓN - INFERENCIA ESTADÍSTICA
Al igual que con cualquier otro estadístico, es posible calcular intervalos de

confianza de los coeficientes de correlación y de los parámetros de un modelo de regresión
y comparar sus valores frente a un hipotético o entre dos muestras. Tanto el cálculo como
la interpretación de los IC y de los contrastes se basan en la lógica que se expuso en el
epígrafe dedicado a los intervalos de confianza.
Es habitual que cuando se calcula un coeficiente de correlación con un programa de
análisis estadístico, junto a su valor se dé también el de una significación. Así, por
ejemplo, si se analizan con el SPSS las presiones arteriales pre y post-trasplante de 16
pacientes (datos no mostrados) se obtiene un r de Pearson = 0,723, con una P = 0,002, y un
ρ de Spearman = 0,710, con P = 0,002 también. Si no se especifica otra cosa, la H0
contrastada es que tanto r como ρ son 0. Por tanto, en este caso se puede afirmar que
existe una relación lineal entre ambos valores de presión arterial.
En cuanto a la regresión, los programas estadísticos suelen proporcionar la
significación de los coeficientes y la global del modelo. En el caso de los coeficientes, H0
196
es que su valor real es cero y en el caso del modelo que no tiene capacidad predictiva
alguna. Por ejemplo, en el caso de las cifras de presión arterial tras el trasplante, ajustando
los datos de los 16 pacientes, con la presión post como variable dependiente y la previa
como independiente, se obtiene la recta "PA post = -10,9 + 1,02 x PA previa"; la
significación del valor de "Y" cuando "X" es cero (-10,9) es P=0,651 y la de la pendiente
(1,02) es P=0,002. Eso quiere decir que no se puede descartar que cuando la PA-previa es
cero la media de la PA pos-trasplante también lo sea, lo cual, evidentemente, no tiene
interés clínico; pero sí se puede descartar que la pendiente sea cero, lo cual significa que,
efectivamente, la presión post depende de la presión previa.
ESTIMACIONES AJUSTADAS
En todas las pruebas explicadas hasta el momento, para estimar el "efecto" de un
factor de interés (FI) se compara la variable de respuesta (VR) entre los grupos de
individuos formados en función de los valores de dicho factor. Sin embargo, puede suceder
y, de hecho, sucede a menudo que la diferencia de VR entre dos grupos no se debe sólo a
la diferencia entre ellos en cuanto al FI, sino que influyen otros factores a la vez. En estos
casos, si se desea conocer el "efecto" propio o "independiente" de un factor, es necesario
comparar los grupos "ajustando" o "controlando por (el efecto de)" esos otros factores que
también intervienen. Cuando se hace este tipo de análisis se tiene, por tanto, una variable
dependiente o de respuesta que es analizada simultáneamente en función de varias
variables independientes.
A continuación se muestra el origen y las consecuencias del tipo de problema que
hace necesario un análisis ajustado por varias variables independientes y la manera en que
este análisis resuelve dicho problema.
Supóngase que, a igualdad de otras circunstancias, entre los trabajadores de cierto
sector económico el salario de las mujeres es, en promedio, 100 euros menor que el de los
hombres. Además, los ingresos dependen también de que el empleado sea o no titulado
superior, de sus años de experiencia laboral y de si trabaja en una empresa exportadora. En
la tabla 2 se recoge el "efecto" de los factores determinantes del salario medio citados.
Tabla 2: Determinantes del salario medio
Varón sin titulación superior que trabaja en una empresa no exportadora desde hace menos de 4 años: 900 euros
Factor adicional Euros adicionales
Sexo femenino frente a masculino -100
Estudios superiores frente a su ausencia 800
Empresa exportadora frente a no exportadora 200
Experiencia laboral (frente a <4 años)
4 a 8 años 600
> 8 años 150
197
Por tanto, la diferencia entre la media de los salarios de hombres y de las mujeres
que tengan la misma experiencia laboral y titulación y trabajen en la misma empresa es de
100 euros (menos las mujeres); de la misma forma, entre trabajadores con y sin titulación
superior con la misma experiencia, del mismo sexo y que trabajen en la misma empresa
hay una diferencia de 800 euros, etc. Partiendo de esta información, se ha simulado una
base de datos con los salarios que corresponderían a una hipotética población de 295.428
trabajadores del sector en que la distribución supuesta de los porcentajes de titulados,
empresas exportadoras y de los distintos niveles de experiencia laboral en cada sexo fuera
la que se recoge en la tabla 3, y en la que un 36,3% son mujeres. En esta supuesta
población, todos los individuos ganan una cantidad igual a la media de su categoría, de
forma que no hay dispersión entre ellos; así, por ejemplo, hay 26.038 hombres sin
titulación superior, que trabajan en una empresa no exportadora y que tienen menos de 4
años de experiencia laboral que ganan, todos ellos, 900 euros; hay otros 29.042 hombres
sin titulación y con menos de 4 años de experiencia que trabajan en empresas exportadoras
y que, todos ellos, ganan 1700 euros, etc.
Tabla 3: Distribución por sexo de los determinantes del salario
% en cada Sexoa
Titulación superior Empresa exportadora Experiencia laboral Mujer Hombre
< 4 años 5,6% 8,5%
No 4 a 8 años 5,6% 11,2%
> 8 años 4,7% 13,8%
No
< 4 años 10,3% 4,8%
Sí 4 a 8 años 10,3% 4,3%
> 8 años 7,5% 15,4%
< 4 años 5,6% 11,2%
No 4 a 8 años 10,3% 4,3%
> 8 años 5,6% 11,2%
Sí
< 4 años 10,3% 4,3%
Sí 4 a 8 años 14,0% 6,9%
> 8 años 10,3% 4,3%
TOTAL 100,0% 100,0%
a
: Distribución por sexo en la población: 36,3% mujeres y 63,7% hombres
Si esta información, que define la realidad en la supuesta población, no fuera

conocida podría ser calculada, utilizando la población de los trabajadores del sector, o
estimada, por medio de una muestra representativa.
Supóngase que un investigador desea conocer si existen diferencias sistemáticas
entre los salarios de este sector económico debidas al hecho de que el trabajador sea
198
hombre o sea mujer y que le es posible acceder a un registro con la información pertinente
de todos los empleados de las empresas correspondientes. Está claro que, de esta forma, el
resultado del análisis debe coincidir exactamente con el efecto del sexo femenino (-100
euros) que se ha utilizado para fabricar la población supuesta de este ejemplo, pues ni hay
error de muestreo ni variabilidad entre los salarios de los individuos de una misma
categoría. Y lo mismo sucede con respecto al efecto del resto de los factores.
Sin embargo, dicho investigador analiza los datos y obtiene los resultados de la tabla 4:
Tabla 4: Diferencia no ajustada entre sexos en la población
Número (%) de trabajadores Media Diferencia
Mujeres 107.155 (36,3%) 1702
196 euros
Hombres 188.272 (63,7%) 1506
TOTAL 295.428 (100%) 1577
Como puede verse en esta tabla, la diferencia de salario medio entre hombres y
mujeres calculada de esta forma no coincide con la real. Por tanto, en este caso la
comparación de la media del salario entre los grupos formados en función del factor de
interés del estudio no produce la respuesta correcta.
El error al calcular el efecto del sexo de esta forma no puede ser aleatorio, pues se
han analizado todos los individuos de la población. La diferencia entre el efecto intrínseco
real del sexo y el que se acaba de calcular se debe a que el análisis realizado no es un
método de cálculo válido si el objetivo es conocer el efecto independiente de un FI (el sexo
en este caso) cuando sobre la VR (el salario) influyen a la vez varios factores más que,
además, se asocian con el FI en los datos analizados. Por tanto, el resultado obtenido en
este caso es un resultado sesgado (afectado por un error sistemático).
Es cierto que las 107.155 mujeres de este sector económico tienen un salario que,
en promedio, es superior en 196 euros al de los 188.272 trabajadores de sexo masculino. Si
el objetivo del investigador hubiera sido conocer esto entonces el resultado obtenido sería
correcto. Pero lo que se pretendía no era saber si los hombres ganan más o menos que las
mujeres, sino que, tal y como se expresó, lo que el investigador quería saber es si el hecho
de ser de uno u otro sexo, en sí mismo, tiene influencia sobre el sueldo. Las diferencias
realmente encontradas entre el grupo de hombres y el de mujeres (196 euros a favor de éste
último) pueden deberse al diferente sexo de ambos grupos, pero, ¿no puede existir también
una asociación entre el sexo y otros factores que influyen en el salario, de forma que haya
más mujeres con título superior y/o con experiencia laboral entre 4 y 8 años y/o que ellas
trabajen preferentemente en empresas exportadoras? Si este fuera el caso, entonces ésta
podría ser también la causa de la diferencia de sueldo, y no el sexo "per se".
199
Para comprobar si ha sucedido tal cosa se puede estudiar la distribución de las

distintas combinaciones posibles de los factores citados entre los distintos sexos. En
realidad, en este caso simulado ello ya se hizo, pues esa distribución forma parte de los
supuestos utilizados para simular los datos de este ejemplo; los porcentajes de cada
subgrupo figuran en la tabla XX, en la que, efectivamente y por poner solo un ejemplo, se
comprueba que entre las mujeres hay algo más del doble de titulados superiores que
trabajan en una empresa exportadora y que tienen una experiencia laboral de entre 4 y 8
años, factores todos ellos que se asocian con un mayor salario.
Por tanto, mientras que el objetivo es conocer la diferencia de salario entre hombres
y mujeres cuando el resto de los factores relevantes para el sueldo son idénticos, la
respuesta obtenida con la comparación no ajustada o "cruda" entre sexos, donde se ha
encontrado una diferencia de 196 euros a favor de ellas, corresponde a la diferencia de
salario entre dos grupos de individuos que, además de en el sexo, difieren en otros factores.
Como, en lo que al objetivo real se refiere, el resultado alcanzado no es verdad ni siquiera
en los individuos analizados, se dice que el análisis realizado no tiene validez interna.
Para calcular válidamente el efecto intrínseco o "independiente" del sexo hay que hacer un
análisis del efecto de éste "ajustado por" o "controlando por" la titulación, la experiencia
laboral y el tipo de empresa. En este ejemplo, una posibilidad para tal análisis consiste en
calcular el salario en todas las categorías posibles formadas según la combinación de los
cuatro factores y comparar las equivalentes entre hombres y mujeres. En la tabla 5 figura el
resultado de ese análisis:
Tabla 5: Salario medio por sexo (euros) ajustado por el resto de los factores
Sexo
Titulación superior Empresa exportadora Experiencia laboral Mujer Hombre Diferencia
< 4 años 800 900 -100
No 4 a 8 años 1400 1500 -100
> 8 años 950 1050 -100
No
< 4 años 1000 1100 -100
Sí 4 a 8 años 1600 1700 -100
> 8 años 1150 1250 -100
< 4 años 1600 1700 -100
No 4 a 8 años 2200 2300 -100
> 8 años 1750 1850 -100
Sí
< 4 años 1800 1900 -100
Sí 4 a 8 años 2400 2500 -100
> 8 años 1950 2050 -100
Media global 1702 1506 196
200
Como puede verse en la tabla 5, el efecto del sexo, "céteris páribus", es de 100
euros menos las mujeres. En este ejemplo dicho efecto es constante a lo largo de todas las
demás combinaciones de los factores de la tabla; si no fuera así y, p. ej., las tituladas
ganaran 100 euros menos que los titulados, mientras que las no tituladas ganaran 50 euros
menos que los no titulados, en ambos casos a igualdad del resto de factores que influyan,
entonces se diría que existe una interacción entre las variables sexo y titulación (el estudio
de las interacciones escapa a los objetivos de estos apuntes).
Como puede verse, mediante este análisis ajustado por varias variables
independientes simultáneamente se consigue un resultado que es igual al verdadero con el
que se "fabricaron" estos datos; es decir, si se identifican, miden e incluyen en el análisis
todos los factores relevantes se llega a conocer la estructura real de los datos. Así, por
ejemplo, con los datos de la tabla anterior se puede calcular también el efecto
"independiente" del resto de los factores y comprobar que coinciden con los reales de la
tabla I, mientras que con un análisis crudo el efecto calculado de la titulación superior es
de 788 e, el de la empresa exportadora es 212 e, los que tienen entre 4 y 8 años de
experiencia ganan 612 e más que los que tienen menos de 4 años, y la cifra
correspondiente para los que tienen más de 8 años es de 123 euros. Como se ve, valores
sesgados en todos los casos, aunque en menor cuantía que para el sexo.
En definitiva, mediante el análisis múltiple, "controlando por" titulación,
experiencia y tipo de empresa se ha conseguido corregir el sesgo que afecta los resultados
no ajustados o "crudos". Esta clase de error sistemático se llama sesgo de confusión y es la
única que puede ser corregida en el análisis estadístico (si se han identificado y medido los
factores de confusión). Al respecto, es importante tener en cuenta que el análisis múltiple
no es efectivo frente al sesgo de selección o de información. Así, por ejemplo, si la
asociación con el sexo de la variable titulación superior se hubiera originado entre estos
datos por causa de una pérdida selectiva de titulados superiores entre los hombres (es decir,
que, por algún motivo, incluido el azar, se hubieran perdido para el análisis un porcentaje
mayor de titulados que de tituladas), lo que es uno de los mecanismos frecuentes de sesgo
de selección en los estudios clínicos, entonces el análisis ajustado por titulación no
resolvería el problema (que, sin embargo, podría paliarse en algunos diseños mediante el
análisis "por intención de tratar").
En cuanto a los factores que deben ser incluidos en el análisis, en principio serán
los que se sepa que pueden tener efecto sobre la variable de respuesta y que no sean
controlados de otra forma (como la estratificación, el apareamiento, la restricción o la
201
aleatorización), por lo que pueden asociarse con el FI en los datos del estudio, dando lugar
a una distribución heterogénea de las combinaciones de esos factores entre los grupos
formados en función de dicho FI. Por otra parte, cuando la estructura de los datos es
compleja puede ser difícil o imposible comprobar claramente en los propios datos del
estudio que existe una asociación entre el FI y terceros factores; pero el que no se pueda
comprobar tal cosa no elimina el problema y, por tanto, no es necesario que existan
diferencias claras, ni mucho menos significativas, en cuanto a la distribución de terceros
factores entre los grupos formados según el FI para que haya que ajustar por dichos
terceros factores. La realidad es que, en la práctica, el único criterio que permite afirmar o
negar que un factor concreto sesga la estimación del efecto del FI sobre la VR es la
existencia o inexistencia de una diferencia relevante entre el efecto medido o estimado del
FI cuando se incluye en el análisis dicho factor concreto y el obtenido cuando no se ajusta
por él.
En la realidad la estructura de los datos suele ser más compleja que en este ejemplo
y no suele ser tan fácil identificar todas las combinaciones entre los valores de los factores
de confusión, ni medir en ellas el valor de la VR. Por tanto, el método de análisis ajustado
que se ha utilizado en este ejemplo no suele ser viable. En su lugar, en investigación clínica
son muy utilizadas para obtener estimaciones ajustadas las diversas variantes de la
regresión múltiple. Así, por ejemplo, si la variable de respuesta es cuantitativa se puede
usar la regresión lineal múltiple y el "efecto", ajustado por el resto de variables
independientes del modelo, vendrá dado por el coeficiente de regresión de la variable
independiente que interese. Si la variable de respuesta es binaria se puede utilizar la
regresión logística para calcular el odds ratio ajustado. Finalmente, si la respuesta se mide
en forma de tiempo hasta un evento entonces mediante la regresión de Cox se puede
estimar el hazard ratio, también ajustado por el resto de variables incluidas en el modelo.
El desarrollo en detalle de esos métodos de análisis escapa de los objetivos de estos
apuntes. Los conceptos y razonamientos expuestos hasta aquí son válidos también para las
técnicas de análisis con más de una variable independiente y la aplicación práctica de las
mismas no plantea dificultades gracias a los paquetes de software estadístico. Sin embargo,
conviene conocer las peculiaridades, requisitos y supuestos de cada método a fin de
conseguir estimaciones válidas y precisas.
Es relativamente frecuente que se llame "multivariantes" a los métodos de análisis
en que hay una variable dependiente y más de una independiente simultáneamente. En
realidad, los métodos multivariantes en sentido estricto son aquellos en que se analiza a la
202
vez mas de una variable dependiente, sea en función de una o de más de una variable
independiente. Probablemente por su complejidad y pese a su utilidad potencial, en
investigación clínica no son frecuentes los métodos con más de una variable dependiente.
Sin embargo, casi en todos los estudios aparece alguna forma de análisis ajustado por más
de un factor o variable independiente. A este tipo de técnicas se les puede llamar análisis
múltiple (p. ej., regresión lineal, logística o de Cox, múltiples) o análisis ajustado.
Si se hubieran analizado los datos de este ejemplo mediante regresión lineal
univariante múltiple por mínimos cuadrados ordinarios se hubiera obtenido este modelo:
Salario = 900 -100 (si mujer) + 800 (si título superior) + 200 (si empresa exportadora) +
600 (si 4 a 8 años de experiencia) + 150 (si más de 8 años de experiencia)
Excluyendo la variable "titulación superior" el efecto del sexo sería 91 euros (más
las mujeres); sin la variable "empresa exportadora" el coeficiente del sexo es -73 e (menos
las mujeres) y sin el factor "años de experiencia laboral" este coeficiente pasaría a ser -16 e
(menos las mujeres). Por tanto, aunque las tres variables son factores de confusión para el
sexo (al excluirlos del análisis el efecto del sexo es muy distinto del real de -100 euros), el
sesgo es menor con la variable "empresa exportadora" (diferencia entre el efecto real y el
sesgado: (-100 -(-73) = -23)) y máximo para "titulación superior" (sesgo de (-100 -91 = -
191))
Como en este ejemplo se ha utilizado toda la población no ha sido necesario
realizar inferencia estadística. Pero si se utiliza una muestra de esta población, entonces en
la diferencia entre las estimaciones y la realidad influye también error de muestreo que, si
la muestra es realmente representativa, es aleatorio. La imprecisión resultante de este error
debe ser evaluada, como en cualquier otra situación, mediante la significación estadística y
mediante la amplitud de los intervalos de confianza de las estimaciones. Además, los
resultados del análisis no ajustado están también afectados por un sesgo de confusión
debido exactamente a los mismos mecanismos y con las mismas consecuencias que con la
población total, por lo que es necesario un análisis ajustado por los eventuales factores de
confusión. Para ilustrar estos puntos, se ha simulado informáticamente una muestra
aleatoria de 295 individuos tomando muestras de los subgrupos formados en función de las
combinaciones los cuatro factores analizados: sexo, tipo de empresa, titulación superior y
experiencia laboral y, por tanto, procedente cada una de una población con media igual a la
del subgrupo correspondiente; además, se ha supuesto que la DS de estas poblaciones es
igual a un 40% de la media y que su distribución es log normal. El tamaño de cada una de
estas muestras parciales se ha elegido de forma que la proporción de cada subgrupo dentro
203
del total sea igual en la muestra de n=295 que en la población (ver tabla II). Seguidamente,
se realizado el análisis con esta muestra. En la tabla 6 figura la comparación de salarios
entre sexos realizada con la prueba t de Student para muestras independientes
Tabla 6: Estimación no ajustada de la diferencia (euros) entre sexos
Número (%) de trabajadores Media (DS) Diferencia (IC95%) P
Mujeres 107 (36,3%) 1787 (793)
283 (112 a 455) 0,002
Hombres 188 (63,7%) 1504 (676)
TOTAL 295 (100%) 1577
Como puede verse, el resultado es muy distinto del valor real que se desea estimar.
Ahora, al sesgo de confusión hay que añadir el error de muestreo (aleatorio exclusivamente
en este caso porque la muestra es representativa) y en esta muestra concreta parece ser que
el error aleatorio es del mismo sentido que el sesgo. Según este análisis, las mujeres ganan
más que los hombres y la diferencia a su favor está, con un 95% de seguridad, entre 112 y
455 euros. En definitiva, un resultado totalmente erróneo.
Sin embargo, la imagen cambia al estimar el efecto del sexo ajustado por los otros
tres factores mediante regresión lineal múltiple. En la tabla 7 figuran los coeficientes de
regresión de cada factor calculados por este método.
Tabla 7: Regresión lineal del salario sobre el sexo y el resto de los factores
Coeficiente de regresión Límites del IC95%
B Err. estándar P Inferior Superior
0,000
Ordenada en el origena 921 69 0 785 1057
0,975
Sexo femenino 2 73 0 -141 145
0,000
Empresa exportadora 236 68 6 103 369
0,000
Titulación superior 741 68 0 606 876
Experiencia laboral (frente a < 4años)
0,000
De 4 a 8 años 554 81 0 394 714
0,089
> 8 años 140 82 0 -21 301
Variable dependiente: Sueldo
a
: Salario medio de los hombres sin titulación y con experiencia menor de 4 años que trabajan en
empresas no exportadoras.
Como se ve en la tabla anterior, el modelo estimado para el salario es:

Salario = 921 + 2 (si mujer) + 741 (si título superior) + 236 (si empresa exportadora) +
554 (si 4 a 8 años de experiencia) + 140 (si más de 8 años de experiencia)
204
El coeficiente del sexo no es significativo (H0: la diferencia de salario debida al

sexo es cero), por lo que no se puede afirmar que este factor tiene efecto independiente. De
todas formas, un resultado no significativo debe ser interpretado, en principio, como no
concluyente por insuficiencia de información. En la realidad, no sería posible saber si el
sexo no tiene efecto independiente o si se ha cometido un error estadístico de tipo II,
aunque se podría calcular la probabilidad de tal error para distintas magnitudes supuestas
del efecto, tal y como se explica en el apartado sobre determinación del tamaño muestral.
Pero, por tratarse de un ejemplo simulado en que se conoce que el sexo tiene un efecto de
100 euros (menos las mujeres), se puede saber que este estudio ha fracasado en alcanzar su
objetivo de estimar el efecto del sexo. A pesar de ello, se ha conseguido establecer con un
95% de seguridad que el efecto del sexo en la población está entre -141 y 145 euros (o
rechazar al nivel de significación del 5% que sea menor de -141 o mayor de 145 euros),
límites que incluyen al valor real (-100).
Al ajustar se obtiene también una estimación del efecto "independiente" de los
posibles factores de confusión. En la figura 8 se representan las estimaciones y los IC95%
del efecto de todos los factores. Comparando los valores medios no ajustados con los
independientes se comprueba que las variables titulación superior, tipo de empresa y
experiencia laboral están mucho menos afectadas por el sesgo de confusión que la variable
sexo.
Además del control del sesgo, con el análisis ajustado se puede conseguir también
ganar precisión en las estimaciones. De hecho, eso es lo que sucede en este ejemplo, ya
que, como se puede observar en la figura 8, la amplitud de los IC95% ajustados es menor
que la de los no ajustados. Éste es un fenómeno que depende de la estructura de los datos
y, por tanto, ni se produce siempre ni es de la misma importancia para todos los factores de
un estudio. La ganancia de precisión puede ser razón suficiente para ajustar por una tercera
variable al estimar la asociación entre la de respuesta y la de interés, aun cuando el valor de
las estimaciones crudas y ajustadas no difiera. Para aumentar la precisión de la estimación
del efecto de un FI se puede utilizar la técnica llamada "análisis de la covarianza"
(ANCOVA), ajustando por covariables no relacionadas con el FI y cuyo efecto sobre la
VR tampoco dependa de dicho FI, o un método equivalente apropiado al caso, si la
variable dependiente no es cuantitativa o no se cumplen los supuestos del ANCOVA, pues
su violación puede dar lugar a resultados erróneos. La asignación aleatoria de los
individuos a los grupos formados en función de los valores del FI proporciona la seguridad
205
de que la variable por la que se ajusta no se asocia con el FI por causas distintas del azar y,
por tanto, de que no se viola este supuesto en caso de que se realice un ANCOVA.
Figura 8: Efecto crudo y ajustado del sexo sobre el salario (euros)
En definitiva, en este ejemplo el resultado diferente del análisis crudo y del ajustado
se debe a que en el primero influyen tanto el error aleatorio como el sesgo de confusión,
mientras que en el ajustado sólo influye el error aleatorio y, además, éste es menor. Por
otra parte, el sesgo es en principio incuantificable (si se conociera en la realidad como se
conoce en este ejemplo artificial, se podría corregir y dejaría de haber error), por lo que
con sólo el análisis crudo es imposible tener una idea de los valores plausibles del efecto
del sexo. Sin embargo, como los métodos de inferencia estadística permiten "acotar" el
error aleatorio, una vez eliminado el sesgo de confusión con el análisis ajustado y pese a
que el azar (el error aleatorio) ha jugado la mala pasada de impedir la consecución del
objetivo (distinguir si el sexo tiene realmente algún efecto distinto de cero), ha sido posible
estimar un rango de valores probables para el efecto del sexo, o IC95%, que contiene de
206
hecho el valor real, cosa que no sucede con el IC95% de la estimación "cruda" (esto se
puede saber en este caso por tratarse de un ejemplo artificial). Además, se ha ganado en
precisión, pues la amplitud del IC95% ajustado es de 286 euros (desde -141 e hasta 145 e)
mientras que la del IC95% no ajustado es de 342 e (entre 112 e y 455 e).
Aunque existen otros motivos para el ajuste por variables distintas a las de interés,
las principales razones son las dos indicadas en este epígrafe: el control del sesgo de
confusión que pueden ocasionar al estimar el efecto del FI y el aumento de la precisión de
dicha estimación. No obstante, es necesario insistir en que estos procedimientos sólo
producen un resultado correcto si las disparidades entre los grupos de interés en cuanto a
los valores de esas variables no son consecuencia de un sesgo de selección o de
información. Además de servir para estas dos finalidades, el análisis con varias variables
independientes también permite estimar el efecto propio de todas ellas.
BIBLIOGRAFÍA: RECURSOS INFORMÁTICOS GRATUITOS Y MANUALES:

- Statistics 101 resampling simulator, realizado por J. Grosberg
(http://www.statistics101.net/). Lenguaje de programación que facilita la realización de
simulaciones informáticas y técnicas basadas en permutaciones y re-muestreo. El
manual del programa es un buen libro gratuito sobre métodos basados en
permutaciones, simulaciones y re muestreo.
- G*Power (http://www.psycho.uni-duesseldorf.de/abteilungen/aap/gpower3/download-
and-register). Programa para el cálculo del tamaño muestral y la potencia estadística
para una gran variedad de contrastes y estadísticos.
- Granmo (http://www.imim.cat/ofertadeserveis/es_granmo.html). Calculadora para el
cálculo del tamaño muestral dirigida a la investigación clínica.
- Unidad de Bioestadística Clínica del Hospital Universitario Ramón y Cajal
(http://www.hrc.es/investigacion/inves_unidadbio.htm). Materiales docentes y
herramientas de software para el cálculo de diversos índices de utilidad clínica como, p.
ej., para la evaluación de una prueba diagnóstica.
- UnStat (http://www.unav.es/departamento/genetica/unstat) Calculadora estadística
basada en Excel de manejo sencillo. Herramienta útil para el aprendizaje de la
Estadística y para el análisis sencillo de datos.
- StatPages (http://statpages.org/). Enlaces a toda clase de software estadístico.
- Colton, Theodore. Estadística en Medicina. SALVAT, 1979. Excelente manual básico.
207
- Feinstein, Alvan R. Principles of Medical Statistics. CHAPMAN & HALL/CRC, 2001.

No hay traducción al español. Feinstein fue uno de los "padres" de la Epidemiología
Clínica y un experto en Clinimetría (de hecho, fue autos de dos obras clásicas sobre
estas materias). Al leer este libro se nota que está escrito por un médico.
- Simon, Julian L. "Resampling: The New Statistics". Second Edition, 1997. Se puede
descargar gratuitamente de http://www.resample.com/content/text/. Simon fue el co
inventor de las nuevas técnicas de análisis llamadas "Bootstrap" y el autor de la base del
lenguaje de programación "Statistics 101". Este libro explica los métodos y conceptos
básicos mediante simulaciones informáticas, lo que en mi opinión facilita su
comprensión.
- John Grosberg. Introduction to Resampling Statistics Using Statistics101. Edición de
2012. El manual del programa Statistics101es un buen libro gratuito sobre métodos
basados en permutaciones, simulaciones y re muestreo. Se puede descargar de
http://www.statistics101.net/ Entre este libro, el anterior de Simon y el programa
"Statistics 101", se puede observar a las leyes de la Probabilidad y a la Lógica de la
Inferencia Estadística mientras están trabajando; ello facilita e independiza de las
Matemáticas su comprensión.
- McDonald John H. Handbook of Biological Statistics. Sparky House Publishing, 2008.
Un buen libro sobre medición y análisis de datos biológicos, con un enfoque práctico
basado en el uso del programa de análisis SAS.
- Field, Andy. Discovering Statistics Using SPSS. SAGE Publications Ltd, 2009. Es a la
vez una detallada guía práctica del paquete de software estadístico SPSS y un extenso,
aunque no profundo, manual de estadística.
- Field Andy, Miles Jeremy y Field Zöe. Discovering Statistics Using R. SAGE
Publications Ltd, 2012. Una buena ayuda para los que quieran pasarse al paquete
estadístico gratuito "R".
208

9.manual Básico para El Residente Investigador Novel PDF

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

9.manual Básico para El Residente Investigador Novel PDF

Cargado por

Copyright:

Formatos disponibles

COMPLEJO HOSPITALARIO DE TOLEDO

1ª edición: julio 2013

© Comisión de Docencia-Comisión de Investigación del Complejo Hospitalario

Edita: Complejo Hospitalario de Toledo

Depósito Legal: TO-397-2013

Con gran admiración y respeto a

La triada clásica de la labor no asistencial del médico ha sido siempre la formación

Dr. Pedro Beneyto Martín

BÚSQUEDA DEL CONOCIMIENTO

FUENTES DEL CONOCIMIENTO MÉDICO

LA INVESTIGACIÓN COMO MOTOR DEL RECONOCIMIENTO PERSONAL Y

es de todo especialista residente en formación. Además, la investigación sanitaria es

supone nuevos cambios en cascada. El interés por la investigación clínica se ha

lugares inesperados cuando estábamos pensando en otra cosa. El problema real no es la

ETAPAS DE UN DISEÑO DE INVESTIGACIÓN

CARACTERÍSTICAS Y TIPOS DE ESTUDIOS

mientras que si no lo hacemos se denomina observacional. Con relación a la secuencia

La elección del tipo de estudio dependerá en primer lugar si solo deseamos

porcentajes. Las variables cuantitativas pueden expresarse a través de medidas de

ESTUDIOS DE CASOS Y CONTROLES

Figura 1. Esquema del diseño de los estudios de casos-controles

Figura 2: Esquema de un estudio de casos y controles.

LOS ENSAYOS CLÍNICOS

mejor tratamiento disponible. Esta última es la de elección siempre que dispongamos de

Figura 3: Etapas de un ensayo clínico.

Tanto la administración del fármaco como la evaluación de sus resultados debería

contaminación el cambio de comportamiento de los sujetos estudiados cuando saben a qué

IDENTIFICACION DEL PROBLEMA. LA IDEA o PREGUNTA DE

La respuesta debe de tener importancia en la práctica clínica. Se deben buscar

PLANIFICACIÓN DEL PROYECTO

Identificación del estudio, nombre del investigador principal, institución y año.

Se debe especificar el tipo de estudio: experimental u observacional, transversal o

Especificar dónde y cómo se procesarán los datos obtenidos: bases de datos y

 Gastos de personal: becarios, técnico de apoyo o personal sanitario.

EJECUCIÓN DEL PROYECTO DE INVESTIGACIÓN

PROCESAMIENTO Y ANÁLISIS DE LOS RESULTADOS: ESTADÍSTICA.

CONFECCIÓN DEL INFORME FINAL

Mª Luisa Alonso Martín

IMPORTANCIA DE POSICIONAR LA INVESTIGACIÓN EN EL CONTEXTO

Figura 1: Pirámide de Haynes

La idea es que el investigador

https://www.medes.com/Public/Home.aspx). Finalmente, existen metabuscadores como

Figura 2: Operadores booleanos

española, la Cochrane Library Plus ofrece unas breves recomendaciones de uso en

3.- Entre las herramientas de búsqueda avanzada (advanced), tenemos la posibilidad

recibir correos electrónicos periódicamente con las nuevas referencias. Si no

bibliográficos son programas que almacenan, organizan y gestionan referencias

DISCRIMINACIÓN DE LA CALIDAD DE LA INFORMACIÓN. MEDICINA

globalidad. Se han propuesto múltiples pautas. Lo más importante es ser sistemático y

OTRAS FUENTES DE INFORMACIÓN

En cuanto a las tesis, el Ministerio de Educación aloja en sus servidores Teseo

Figura 3: Sello de Hon Code Figura 4: Sello de la Web Médica Acreditada

2004;328(7447):1040. Disponible en:

LOS CUESTIONARIOS Y LAS ENCUESTAS DE OPINIÓN

Javier Guzmán Blázquez

EL UNIVERSO Y LA MUESTRA. TAMAÑO DE LA MUESTRA. TÉCNICAS DE

estudiar y también pueden obtenerse muestras representativas por muestreos no

dividiendo el total de la población (1000) por el tamaño de la muestra (200), siendo el

1.3.2 Muestreo no probabilístico

3.2 SELECCIÓN Y REDACCIÓN DE LAS PREGUNTAS:

A veces es imposible determinar la validez de criterio y en estos casos se determina la

ENVIO Y RECOGIDA DE CUESTIONARIOS

TIPOLOGÍA Y ORGANIZACIÓN DE LOS ARTÍCULOS CIENTÍFICOS