Documentos de Académico
Documentos de Profesional
Documentos de Cultura
9.manual Básico para El Residente Investigador Novel PDF
9.manual Básico para El Residente Investigador Novel PDF
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
1
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
Coordinador:
Agustín Julián Jiménez
Comité Editorial:
Pedro Beneyto Martín
Raúl Borrego Domínguez
María Luisa Alonso Martín
Javier Guzmán Blázquez
Rafael Cuena Boy
José Manuel Martínez Sesmero
Alica Hanzeliková Pogrányivá
Agustín Julián Jiménez
3
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
4
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
5
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
6
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
ÍNDICE
ÍNDICE……………………………………………………………………………………………………….…………..pág 7
PRESENTACIÓN………………………………………………………………………………….………………….pág 9
Capítulo 1. Introducción. La Investigación como fuente de conocimiento y
reconocimiento………………………………………………………………………………………………..….pág 11
Agustín Julián Jiménez
Capítulo 2. La Metodología Científica………………………………………………………….….…….pág 15
Pedro Beneyto Martín
Capítulo 3. Tipos de estudios……………………………………………………………………….……….pág 23
Pedro Beneyto Martín
Capítulo 4. Fases de la investigación. De la idea a la publicación…………….……………pág 31
Raúl Borrego Domínguez
Capítulo 5. Contextualización de la investigación y búsqueda de
información………………………………………………………………………………………………………….pág 41
Mª Luisa Alonso Martín, Agustín Julián Jiménez
Capítulo 6. Los cuestionarios y las encuestas de opinión……………………………….……..pág 57
Javier Guzmán Blázquez
Capítulo 7. Tipología y organización de los artículos científicos…………………………..pág 67
José Manuel Martínez Sesmero
Capítulo 8. La presentación de los resultados en reuniones y congresos. Comunicación
científica………………………………………………………………………………………………………………pág 79
Alica Hanzelikova Pogrányivá
Capítulo 9. Estadística básica para investigadores noveles I………………………….…….pág 93
Rafael Cuena Boy
Capítulo 10. Estadística básica para investigadores noveles II……………..…………….pág 103
Rafael Cuena Boy
Capítulo 11. Estadística básica para investigadores noveles III………….……..……….pág 117
Rafael Cuena Boy
Capítulo 12. Estadística básica para investigadores noveles IV………………….………pág 147
Rafael Cuena Boy
Capítulo 13. Estadística básica para investigadores noveles V……………..…….………pág 173
Rafael Cuena Boy
Capítulo 14. Estadística básica para investigadores noveles VI………………….………pág 189
Rafael Cuena Boy
7
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
8
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
PRESENTACIÓN
10
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
CAPÍTULO 1
INTRODUCCIÓN. LA INVESTIGACIÓN COMO FUENTE DE
CONOCIMIENTO Y RECONOCIMIENTO
Agustín Julián Jiménez
Servicio de Urgencias, Jefe de Estudios y Presidente Comisión de Docencia, Comisión de Investigación.
Complejo Hospitalario de Toledo.
11
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
francés) que sentó las bases de su método bajo el principio del determinismo fisiológico y,
a partir de esos conocimientos, elaboró una mecánica de trabajo uniforme en torno a tres
ejes fundamentales: la observación, la experimentación y el razonamiento. La observación
permite la comprobación de un fenómeno natural. A partir de la misma el científico
propone una hipótesis que dé explicación acerca de por qué ese hecho ocurre. A
continuación procede a diseñar unos experimentos en la situación de máximo control
posible para constatar o refutar esa teoría. Es en esta fase de experimentación cuando el
investigador modifica intencionalmente las condiciones de los fenómenos naturales.
Experimentar es observar un fenómeno modificado por el experimentador. Finalmente,
hace falta razonar si los resultados de los experimentos soportan la hipótesis planteada.
Para ello, el razonamiento es esencial, ya que permite establecer el determinismo, es decir,
conocer las leyes que rigen los fenómenos estudiados. El conocer estas leyes permitirá
preverlos, variarlos o manejarlos. El razonamiento proporciona ideas explicativas, que
llevarán a nuevas hipótesis de trabajo y a nuevos experimentos para verificar su exactitud,
que se repetirán sucesivamente hasta aclarar el determinismo del fenómeno.
12
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
BIBLIOGRAFÍA
- Esper R.J, Machado R.A. La investigación en medicina. Bases teóricas y prácticas.
Elementos de Bioestadística. Buenos Aires: Prensa Médica Argentina; 2008.
- Miró i Andreu O. Manual básico para el urgenciólogo investigador. De la idea original a
la publicación final. Madrid: Ergón; 2013.
- Bobenrieth Astete MA. Mitos y realidades en torno a la publicación científica. Med Clin
(Barc). 2000;114:339-341.
- Jiménez Villa J, Argimon Pallàs JM, Martín Zurro A, Vilardel Tarrés M. Publicación
científica biomédica. Cómo escribir y publicar un artículo de investigación. Barcelona:
Elsevier España S.L; 2010.
13
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
14
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
CAPÍTULO 2
LA METODOLOGÍA CIENTÍFICA
Pedro Beneyto Martín
Servicio de Oftalmología. Presidente Comisión de Investigación. Complejo Hospitalario de Toledo.
UN NUEVO PARADIGMA
Con la aparición de Internet, a mediados de los noventa, la cantidad de información
especializada accesible para el médico se multiplicó de manera explosiva, pero lo más
importante fue que supuso un cambio de modelo o paradigma en la forma de ejercer la
medicina. Un paradigma, según el filósofo de la ciencia Thomas Kuhn, es un conjunto de
prácticas que definen una disciplina científica durante un período específico de tiempo y
que solo pueden ser sustituidas por el nacimiento de un nuevo paradigma. Hace no
demasiado tiempo, la inmensa mayoría de la información que manejaba un médico
provenía fundamentalmente de los libros “de texto”, verdaderas biblias de cada
especialidad. Paralelamente se contaba con la opinión del colega experimentado, cuya
opinión era aceptada en muchas ocasiones como principio de autoridad y sin posteriores
comprobaciones. Las revistas científicas eran accesibles en número escaso y su principal
función era leerlas para “mantenerse al día”. Todo eso no ha desaparecido, pero el acceso
casi instantáneo a una enorme cantidad de información ha provocado enormes cambios. La
medicina basada en la evidencia supuso replantear la firmeza de los cimientos del edificio
clínico, resultando que en muchas ocasiones no era tan sólido como se creía. Los libros se
han copiado unos a otros desde siempre y eso es la causa de que muchas prácticas
habitualmente aceptadas no se basen en trabajos experimentales, sino en la tradición. La
búsqueda de evidencia que apuntalara la práctica clínica comenzó a utilizar armas de
mayor potencia: ensayos clínicos, revisiones sistemáticas y metanálisis. Actividades tales
como la búsqueda bibliográfica, el manejo de Pubmed, la lectura crítica de artículos de
investigación y la solución de problemas buscando el mayor grado posible de evidencia
fueron ganando terreno y se convirtieron en un nuevo paradigma. Como en todo cambio,
ha habido beneficiados y víctimas, entusiastas que dominan rápidamente las nuevas
herramientas (y hablan de términos MESH, “la Cochrane”, aleatorización y de índices de
impacto con fluidez y suficiencia) y médicos más tradicionales, que sienten las nuevas
técnicas como enemigos que amenazan su hábitat natural y algunas de las virtudes que
siempre se asociaron a la práctica médica: el ojo clínico, el respeto a la autoridad de los
maestros y el valor de la experiencia de muchos años de trabajo. Un cambio de paradigma
15
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
16
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
LA PREGUNTA DE INVESTIGACIÓN
A menudo el investigador novel se preocupa por la fuente de inspiración de sus
trabajos. Pueden darse dos tipos característicos, aquel que está convencido de que jamás se
le ocurrirá nada que merezca la pena y aquel otro del tipo “entusiasta”, que muestra una
confianza ilimitada en la calidad de sus muchas ideas. Ambos pasan por alto que
investigar, como cualquier otra actividad relacionada con la clínica, tiene una curva de
aprendizaje. La mejor forma de comenzar si es posible: Si existe alguien cercano con
líneas de investigación desarrolladas, muchas veces lo mejor que puedes hacer es ofrecerte
para colaborar con él. Ocho de cada diez veces serás aceptado, los investigadores escasean.
Y aún mejor es la realización de una tesis doctoral: si la dinámica ha sido positiva un
alumno tutelado para todo se transforma en un investigador autosuficiente. La cantidad de
habilidades que se adquieren realizando una tesis es ingente: hacerse preguntas, traducirlas
en hipótesis y objetivos, diseñar un experimento, aprender rudimentos de muestreo y de
estadística, interpretar los resultados, manejar bibliografía, estimular la lectura crítica...
todo un bagaje. Con ello se adquiere un plano del territorio, tal vez no se conozca en
detalle, pero se tiene una idea de su conjunto y qué hacer para no perderse. Aún mejor es el
cambio de actitud acerca de la investigación No todos se infectan por ese virus saludable,
los hay más propensos que otros, igual que ocurre con la actividad clínica o con el
quirófano, pero si tiene disposición será un “infectado” para siempre. Si incorporarse a
una línea de investigación en curso nos proporciona una manera segura de empezar, la
creación de ideas propias distingue al verdadero investigador. Esas ideas provienen de
múltiples fuentes. Conocer bien lo relacionado con un tema mediante el estudio es el
primer paso de cualquier proyecto serio, es fácil naufragar si nos adentramos alegremente
por sitios desconocidos. Las sesiones bibliográficas y la asistencia a congresos
proporcionan información reciente de dónde camina el avance del conocimiento en nuestro
campo. Las nuevas tecnologías proporcionan una nueva mirada sobre problemas clínicos
habituales, no solo de utilizadas de manera convencional, sino empleadas también
creativamente. Las conversaciones de pasillo o fuera del ambiente profesional con colegas
afines son a menudo sesiones en miniatura de “braimstrorming”. Pero con mucho la
fuente más importante es la propia línea de investigación: los hallazgos de nuestros
anteriores estudios proporcionan la fuente de nuevas preguntas. La mejor herramienta es
uno mismo, simplemente estar abierto y preparado. Trabaja duro pero también deja que tu
inconsciente funcione. Es bien conocido que muchas de nuestras mejores ideas ocurren en
17
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
18
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
HIPÓTESIS Y OBJETIVOS
a) La hipótesis. Generalmente no nos preguntamos algo si no tenemos en mente una
posible respuesta. Si nos preguntamos acerca de la eficacia de un nuevo fármaco o de una
intervención quirúrgica es porque creemos que puede mostrar algún tipo de ventaja sobre
los ya existentes. En muchas ocasiones el problema es que el investigador potencial es
incapaz de “traducir” una pregunta de investigación en una hipótesis, un lenguaje
susceptible de ser manejado desde un punto de vista científico. En la asociación de dos
variables se denomina variable predictora o independiente la que se cree que antecede a la
segunda, que se llama variable de efecto, desenlace o dependiente. La hipótesis no es más
que una transformación de la pregunta de investigación que resume la variable predictora y
la variable de desenlace Las características de una buena hipótesis son muy parecidas a las
de una pregunta de investigación: simple, específica y demostrable.
Ejemplo: Un residente, con una sobrecarga de guardias evidente, cree que desde que la
lista de espera para la consulta de oftalmología ha aumentado, los pacientes acuden más a
urgencias. Su pregunta de investigación es si la lista de espera en las consultas de
oftalmología y el número de pacientes que acuden a urgencias están relacionados. Y su
19
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
hipótesis es que cuanto más aumenta la lista de espera mayor es el número de pacientes
que acude a urgencias.
Hemos traducido una idea en una pregunta de investigación y una hipótesis. En este
caso la variable predictora es la lista de espera para la consulta general y la variable de
desenlace los pacientes que acuden a urgencias.
Una hipótesis es simple si existe una única variable predictora y otra de desenlace y
compleja si existe más de una de cualquiera de las dos. Una hipótesis compleja sería que el
número de pacientes que van a urgencias aumenta con el aumento de la lista de espera de
la consulta de oftalmología y con la saturación de la atención primaria. La hipótesis que
intentamos demostrar se denomina hipótesis nula, y se denomina hipótesis alternativa a la
que es aceptada por exclusión si rechazamos la hipótesis nula. Nuestra hipótesis nula es
que el número de pacientes que van a urgencias aumenta con el aumento de la lista de
espera y la hipótesis alternativa es que este número no aumenta. Se denomina hipótesis
unilateral (o de una cola) la que aporta la dirección de la asociación entre las variables e
hipótesis bilateral (o de dos colas) si no se define dicha dirección. Creer que el número de
pacientes que van a urgencias aumenta con el aumento de la lista de espera es una hipótesis
de una cola, mientras que si solo pensamos que el número de pacientes que van a urgencias
está relacionado con el aumento de la lista de espera de las consultas es una hipótesis de
dos colas, porque en este caso este número puede aumentar o disminuir. Una hipótesis
unilateral tiene la ventaja de que requiere un número de pacientes menor para someterla a
prueba.
b) Los objetivos: El objetivo es el corazón de un trabajo de investigación. Si no se
dispone de mucho tiempo para leer completos todos los artículos de una revista, leer solo
sus objetivos nos hace saber inmediatamente de qué tratan exactamente y valorar si nos
interesan o no. Su definición precisa es el eje sobre el que rota el resto del trabajo. Si
fallamos al definirlo también fallaremos en las decisiones que debemos tomar más tarde
¿qué tipo de trabajo elegimos? ¿Qué variables? ¿Sobre qué población? Un objetivo no es
una vaga declaración de intenciones es una estructura ordenada, parte de una hipótesis
previa y consta de los siguientes elementos:
-Factor de estudio: Es lo que deseamos estudiar, la variable que introducimos para
observar su efecto (puede ser un fármaco, una intervención quirúrgica, un programa
educativo, la exposición a un tóxico, etc).
20
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
-Variable de respuesta: Nos dice cómo vamos a medir el efecto producido por el
factor de estudio (será nuestra variable principal: agudeza visual, PIO, grado de
vascularización corneal, etc)
-Población de estudio: Nos dice sobre qué grupo de sujetos trata el estudio
(recordemos de nuevo que no es lo mismo población que muestra): pacientes con
glaucoma, con queratoplastia lamelar, con NVSR, etc.
Ejemplo: En el ejemplo anterior nuestro objetivo sería estimar la relación existente entre
la lista de espera de las consultas de oftalmología (factor de estudio) y la utilización de las
urgencias oftalmológicas (variable de estudio) en un hospital de primer nivel (población
de estudio).
Los tres elementos son importantes. Vemos que hemos añadido un elemento nuevo:
nuestros datos provienen de un hospital de primer nivel. Definir exactamente nuestra
población es importante para estimar la validez externa de un estudio. En nuestro caso es
posible que los datos fueran diferentes si estudiamos en hospitales más pequeños o
consultas no hospitalarias. Muchos trabajos tienen más de un objetivo. Siempre debemos
tener un objetivo principal, pero puede completarse con objetivos secundarios que hacen
que el trabajo sea más completo. Generalmente se refieren a varios factores de estudio
(como ocurre en el último ejemplo), más de una variable de estudio (si se estudia el efecto
de un fármaco, aparte de la variable principal de estudio es frecuente que se estudien los
efectos secundarios) o más de una población de estudio (varias subtipos de una
enfermedad). Nunca hay que perder de vista que el diseño del trabajo surge del objetivo
principal, por lo que los hallazgos referentes a los objetivos secundarios son menos firmes
y no deben multiplicarse sin necesidad (por ejemplo, es muy posible que no tengamos una
muestra suficiente para observar los efectos secundarios menos frecuentes de un fármaco).
Como ya apuntamos en otra ocasión, es importante que el trabajo tenga un aspecto sólido
pero unitario.
21
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
BIBLIOGRAFÍA
- Hulley SB, Cummings SR. Diseño de la investigación clínica. Ediciones Doyma,
Barcelona 1993.
- Argimon Pallás JM, Jiménez Villa JJ. Métodos de investigación clínica y epidemiológica.
Elsevier España, Barcelona 2010.
- Alarcón Segovia D, De la Fuente JR. Velázquez Arellano A. Fundamentos de la
investigación clínica. Siglo XXI Editores México DF 2005.
- Glasser SP. Essentials of clinical research. Springer Science AL, USA 2008.
22
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
CAPÍTULO 3
TIPOS DE ESTUDIOS
Pedro Beneyto Martín
Servicio de Oftalmología. Presidente Comisión de Investigación. Complejo Hospitalario de Toledo.
ESTUDIOS DESCRIPTIVOS
Los estudios descriptivos son aquellos que estudian situaciones que ocurren en
condiciones naturales, recogiendo información sin cambiar el entorno (es decir, sin
manipulación experimental) y que están diseñados para describir la distribución de las
variables, sin considerar hipótesis causales o de otro tipo. Es frecuente confundir
“descriptivo” con “observacional”, pero no es lo mismo, ya que los observacionales,
aunque tampoco implican actuación externa, pueden ser descriptivos o analíticos
(dependiendo de sí tienen o no una hipótesis causal). En este tipo de estudios se describe la
frecuencia y las características más importantes del problema de salud estudiado: la edad,
el sexo, la raza, la ocupación, etc. Además son esenciales para definir hipótesis de trabajo
sobre causalidad, susceptibles de ser verificadas en una fase posterior con estudios
analíticos. Los estudios descriptivos se dividen en dos grupos: aquellos que describen
individuos que incluyen la publicación de un caso, las series de casos, los estudios
transversales o de prevalencia, los estudios longitudinales o de incidencia y los estudios de
vigilancia; y aquellos que examinan poblaciones, como los estudios de correlación
ecológica…
Los más sencillos son la descripción de un caso y de una serie de casos. Estos
estudios describen la experiencia de un paciente o un grupo de pacientes con un diagnóstico
similar.
Los estudios de prevalencia permiten estimar la magnitud y distribución de una
enfermedad o condición en un momento dado. Se definen como transversales ya que no
tienen continuidad en el tiempo y observacionales. Este tipo de diseño es de gran utilidad
para describir la salud de una población, identificar la frecuencia poblacional del fenómeno
estudiado y para formular hipótesis de trabajo. Sin embargo, no permite identificar
relaciones causales, ya que se mide simultáneamente el efecto y la exposición, perdiendo la
direccionalidad de la asociación y no siendo por lo tanto posible determinar si la
exposición precede al efecto observado o viceversa. Una de las dificultades metodológicas
de este tipo de diseño es la elección de una muestra representativa de la población de
referencia. Para salvarla, es fundamental hacer una correcta selección de los individuos que
23
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
forman parte de esta muestra, pero también es necesario estimar el tamaño requerido para
responder a los objetivos del estudio. Para ello, se deben tener en cuenta los siguientes
aspectos:
Tipo de muestreo a realizar: para tomar esta decisión se deberá tener en cuenta la
distribución del fenómeno a estudiar en la población objetivo, especialmente si la
característica a medir tiene alguna relación con características poblacionales que pudieran
sesgar los resultados.
Prevalencia estimada del fenómeno: en el caso de no tener una idea aproximada de este
dato, como regla general se asume una prevalencia del 50%, el peor escenario posible para
el cálculo del tamaño muestral.
El nivel de confianza que se le asigna a la muestra: habitualmente, y de forma
estándar, se fija en un 95%.
Los estudios de incidencia estiman el número de casos nuevos de una enfermedad
o problema, en una población determinada en un cierto periodo de tiempo. Para poder
conocer la ocurrencia de casos nuevos debe existir una vigilancia o seguimiento a lo largo
del tiempo, principal diferencia respecto de los estudios transversales. Como resultado de
este diseño se obtienen fundamentalmente dos indicadores,
Tasa de incidencia, calculada como el cociente entre el número de casos nuevos y el
periodo de tiempo considerado.
Incidencia acumulada, calculada como el cociente entre número de casos nuevos y el
número de individuos en riesgo en la población durante el periodo de tiempo considerado.
El seguimiento en el tiempo no solo permite establecer la incidencia de una
enfermedad, también permite estudiar su evolución natural y relacionarla con factores
externos a ella
Dado que el objetivo de este tipo de diseños es observar, describir y documentar
una variable que ocurre de manera natural, típicamente el análisis estadístico que se llevará
a cabo será univariante y descriptivo, es decir, se tratará de resumir una única variable o de
estimar parámetros de la población de referencia relativos a esa variable a partir de una
muestra. En muestras de pequeño tamaño, por ejemplo series de pocos casos, es frecuente
mostrar toda la información disponible en cada uno de los casos. Sin embargo, en muestras
de tamaño mayor, es necesario resumir esta información, habitualmente construyendo
tablas de frecuencias y medidas descriptivas. La elección de estas medidas va a depender
del tipo de variable que se esté analizando. Si la característica estudiada es de tipo
cualitativa, por ejemplo los síntomas de una enfermedad, los resultados se mostrarán en
24
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
Dirección de las
Realización
del estudio indagaciones
Tiempo
25
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
Hulley denomina a este tipo de estudios “el vino de la casa” de la carta de vinos de la
investigación: la mayor parte de las veces son eficaces y baratos, pero también son menos
seguros.
a) La selección de casos: Para identificar los casos, primero se debe definir la
enfermedad utilizando criterios admitidos por la comunidad científica. Es muy importante
fijar los criterios diagnósticos que definen la enfermedad, los criterios de inclusión y
exclusión, la fuente de donde se seleccionan los casos, la validez de la selección y si se
tendrán en cuenta casos incidentes o prevalentes. La selección de los casos debe conseguir
un grupo lo más homogéneo posible desde el punto de vista diagnóstico utilizando criterios
claros y reproducibles.
Idealmente, todos los pacientes afectos deberían tener la misma probabilidad de entrar
en el estudio, pero en ocasiones no es necesario que los casos incluidos sean
representativos de todos los casos. Pueden incluirse sólo los casos incidentes (recién
diagnosticados) o prevalentes (casos diagnosticados antes del inicio del estudio). En
general se recomienda incluir sólo los casos incidentes
b) La selección de controles: Paradójicamente, los mayores errores en este tipo de
estudios surgen de la selección de controles. Los controles deben ser una muestra
representativa de la población original de la que surgieron los casos. Seleccionar y
entrevistar a una muestra de controles de la población es más laborioso que utilizar otras
fuentes de controles (son más difíciles de localizar, cooperan menos y existe un porcentaje
importante de no respuestas). Entre estas últimas tenemos los sujetos que acuden a centros
sanitarios o grupos de voluntarios o grupos especiales (vecinos, amigos, familiares, etc).
Seleccionar controles entre pacientes del mismo hospital aumenta la probabilidad de que
casos y controles provengan de la misma población. Además son más fáciles de identificar,
existe mayor disponibilidad, los pacientes colaboran más, y tienden a recordar mejor su
historia de exposición. Su desventaja es, que al padecer alguna enfermedad difieren de la
población sana y pueden tener algún factor de riesgo en común con el efecto que
estudiamos. Es conveniente que los pacientes no tengan todos la misma patología.
Aunque no es obligatorio, se suelen utilizar el mismo número de casos que de
controles. Cuando el número de casos es limitado, aumentar el número de controles supone
aumentar la potencia del estudio para detectar asociaciones. La potencia aumenta hasta que
el número de controles es de cuatro en relación a cada caso, a partir de esta cifra la
potencia se aumenta de forma insignificante.
26
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
ESTUDIOS DE COHORTES
El investigador parte de un grupo de pacientes que aún no han desarrollado la
enfermedad, y los sigue en el tiempo, efectuando las medidas y evaluaciones adecuadas,
para averiguar quienes desarrollan la enfermedad. De esta manera, resulta razonablemente
sencillo comprobar si la presencia de algún factor de riesgo aumenta la probabilidad de
desarrollar la enfermedad, o en sentido contrario, protege de la aparición de la misma. La
diferencia fundamental de este tipo de estudios con los ensayos clínicos (diseño
experimental), es que en estos últimos, el investigador decide (generalmente empleando el
azar), qué pacientes son sometidos a un tratamiento o intervención determinado, y quienes
no (grupo control). En el diseño de cohortes (también denominado de seguimiento, o
“follow up” en inglés), el investigador se limita a evaluar en el transcurso del tiempo la
aparición o no de una enfermedad o estado patológico, o el mantenimiento de alguna
variable (como la agudeza visual, por ejemplo), en una población que ha sido sometida al
factor de riesgo a estudiar pero que aún no ha desarrollado la misma. Los estudios de
cohortes, son considerados como los más robustos de entre los estudios observacionales, y
los motivos son obvios. Podemos diseñar las pruebas a realizar antes de que éstas tengan
lugar (ventajas del diseño prospectivo), de manera que estas evaluaciones se pueden
uniformizar y estandarizar correctamente.
Tiempo
27
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
28
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
29
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
BIBLIOGRAFÍA
- Hulley SB, Cummings SR. Diseño de la investigación clínica. Ediciones Doyma,
Barcelona 1993.
- Argimon Pallás JM, Jiménez Villa JJ. Métodos de investigación clínica y epidemiológica.
Elsevier España, Barcelona 2010.
- Alarcón Segovia D, De la Fuente JR. Velázquez Arellano A. Fundamentos de la
investigación clínica. Siglo XXI Editores México DF 2005.
- Glasser SP. Essentials of clinical research. Springer Science AL, USA 2008.
30
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
CAPÍTULO 4
FASES DE LA INVESTIGACIÓN. DE LA IDEA A LA PUBLICACIÓN
Raúl Borrego Domínguez
UCI Pediatría, Secretario de la Comisión de Investigación. Complejo Hospitalario de Toledo.
INTRODUCCIÓN
En este capítulo lo que pretendemos es realizar una descripción práctica de los
pasos que se deben de dar desde la identificación de una idea original (pregunta de
investigación), pasando por la elaboración de un proyecto de investigación (planificación
del proyecto con discusión y mejora del mismo, operativa de recogida de datos y análisis
estadístico), y llegar a la difusión de los resultados de la investigación de diferentes
maneras.
Las etapas para el desarrollo de una investigación son:
Identificación del problema. La idea o pregunta de investigación.
Planificación del Proyecto:
1. Confección del Proyecto de Investigación.
2. Discusión y mejora del proyecto.
Ejecución del proyecto de investigación.
Procesamiento y análisis de los resultados: estadística.
Confección del informe final.
Publicación de resultados.
32
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
33
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
34
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
35
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
investigador principal para que haga una defensa del proyecto ante posibles dudas que se
planteen.
En el Colegio de Médicos de Toledo actualmente dispone en su cartera de servicios
de una Unidad de Metodología de la Investigación que aporta asesoramiento para la
elaboración de Estudios de Investigación. Está labor está desarrollada por el Dr. Rafael
Cuena Boy. Se sitúa en la Calle Canarias 3. Teléfono 925221619 o 925212840.
Dado que en la actualidad no se encuentra disponible en el Complejo Hospitalario
de Toledo una Unidad de Investigación para asesoramiento metodológico, en docencia y
junto con la Comisión de Investigación, se está planteando desarrollar un grupo de ayuda
al residente investigador, hasta que exista dicha Unidad de Investigación. Sobre este grupo
se debe preguntar en docencia de residentes (Secretaria: María Mercedes Peña Jiménez –
Adela- mmpena@sescam.jccm.es Teléfono: 925269200 extensión 48560. Presidente de la
Comisión Docencia y Jefe de Estudios: Agustín Julián Jiménez agustinj@sescam.jccm.es)
individualizada. Se debe de intentar que sea una única hoja, y el menor número de datos
posibles para que sea más práctica la recogida.
Se debe extremar el cuidado en la confidencialidad con los datos recogidos y en el
enmascaramiento de los mismos si procede.
Los Ensayos Clínicos deberán regirse por la Normas de Buenas Prácticas Clínicas
que aseguran que los estudios son científica y éticamente rigurosos y, que las propiedades
clínicas del producto farmacéutico están correctamente confirmadas. Estos estudios
precisan auditorías sistemáticas.
Posteriormente las hojas individuales de recogida de datos se volcarán en un
sistema informático. Se puede utilizar hojas de cálculo (Excell®) o programas de gestión
de bases de datos (Access®) para recabar toda la información o, directamente trascribir la
información en un programa estadístico (SPSS®). Cualquiera de los dos primeros podrá
volcar los datos en el tercero sin problemas para luego realizar los cálculos estadísticos.
En otros tipos de estudios la información se recoge a través de cuestionarios:
telefónicos, en papel o, más actualmente, online con cuestionarios integrados en algún
alojamiento en red.
38
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
Cuando nos conceden diferentes ayudas, se debe hacer unos informes o memorias
anuales y un informe final con todas las conclusiones.
PUBLICACIÓN DE RESULTADOS
Finalmente debemos de difundir los resultados. Esto puede ser de varias formas:
En congresos:
Posters.
Comunicaciones orales.
Revistas biomédicas:
Nacionales
Internacionales: Hará falta un traductor.
Tesis. Aquí pasará un tribunal.
Dependiendo de dónde se quiera dirigir la información se elaborará un documento
diferente.
Para los congresos dependiendo de cada Sociedad Científica hay diferentes criterios
de admisión de los trabajos. Habitualmente hay que mandar un resumen con unos
apartados mínimos: Introducción, Objetivos, Material y Método, Resultados y
Conclusiones. En ocasiones se puede decidir por parte del investigador si quiere que el
estudio sea llevado como poster o como comunicación oral. Los posters no tienen unas
medidas estándar y las comunicaciones las hay de diferentes tipos aunque se suelen hacer
el formato del tipo de Power Point®.
En las revistas biomédicas también existen diferentes criterios de selección y
diferentes requisitos.
Si es una revista en lengua inglesa hay que cuidar mucho el inglés, por lo que se
recomienda, salvo que seas muy talentoso en inglés, contratar un traductor.
En cuanto a las tesis, en principio se salen de este capítulo. Tienen unas normas
específicas. Normalmente existe un director de tesis. Y luego se defiende el trabajo frente a
un tribunal.
BIBLIOGRAFÍA:
Investigación científica: diseño de estudios. En: J. M. Doménech. Fundamentos de
Diseño y Estadística.Ed. Signo. 11 Edición. Barcelona 2010.
F. Rivas. Redacción de un protocolo de investigación en ciencias de la Salud. RAPD
Online 2010. Vol 33. Nº 3: 232-238.
39
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
Rodríguez del Águila MM, Pérez Vicente S, Sordo del Castillo L, Fernández Sierra
MA. Cómo elaborar un protocolo de investigación en salud. Med Clin (Barc) 2007;
129-299-302.
M. F. Fathalla, M. F. Fatalla. Guía práctica de investigación en la salud. Publicación
Científica y Técnica nº 620. Organización Panamericana de la Salud. Washington DC
2008.
Normas de Buena Práctica Clínica. 2002. Disponible en:
http://www.aemps.gob.es/industria/inspeccionBPC/docs/guia-BPC_octubre-2008.pdf
40
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
CAPÍTULO 5
CONTEXTUALIZACIÓN DE LA INVESTIGACIÓN
Y BÚSQUEDA DE INFORMACIÓN
en grupos de trabajo del Hospital o de sociedades científicas, los cuales pueden tener
planes de acogida para los investigadores noveles o los grupos emergentes, de manera que
ayudan a conseguir una visión más clara y rápida de cuál es el estado actual de
conocimiento sobre una materia. El paso siguiente debiera ser constituirse en redes de
investigación de mayor alcance, ya sean nacionales o internacionales. De hecho, la
multidisciplinariedad y la multicentricidad permiten sumar casuística y, así, garantizan una
mayor aplicabilidad clínica de los resultados de estas investigaciones en red. Fruto de ello
es la proliferación de redes de investigación en EEUU, Europa o España, como se ha
mostrado en capítulos anteriores.
El conocimiento establecido y evidente (lo que se sabe) y la experiencia adquirida
con los años de ejercicio en la profesión (lo que se hace) continúan siendo vitales, pero es
imprescindible unir a ellos el conocimiento que surge de las investigaciones actuales,
novedosas, y que confirman o establecen nuevas actuaciones o prácticas. De lo dicho se
desprende la importancia de posicionar e integrar la investigación en curso en el contexto
del conocimiento actual.
FUENTES DE INFORMACIÓN
Las necesidades de información que surgen en la práctica diaria del residente son
muy heterogéneas y afectan a múltiples disciplinas clínicas. Por ello, todos los días surgen
preguntas múltiples y variadas de ámbito clínico. La necesidad de encontrar respuestas
transciende a la propia medicina. La investigación y la evaluación de la práctica clínica
requieren una amplia revisión bibliográfica por lo que resulta imprescindible conocer y
encontrar las fuentes de información básicas. Primero debemos conocer cuál es la amplia
cartera de fuentes de información disponible y, después, debemos seleccionar la más
adecuada.
Tradicionalmente las fuentes de información se clasificaban en primarias (artículos
científicos originales, libros de texto, etc.) y secundarias (incluyen una valoración crítica
de los documentos: revisiones sistemáticas, como las realizadas por la Colaboración
Cochrane, por ejemplo). En los últimos años este tipo de recursos secundarios que se
denominan pre-evaluados han proliferado. Ello llevó a Haynes a proponer una jerarquía de
los mismos a modo de pirámide, inicialmente con 4 pisos, y que posteriormente se ha ido
ampliando hasta el actual modelo de 6 pisos, que es lo que se conoce como modelo 6S, por
las iniciales de los términos que identifican cada uno de estos 6 pisos (Figura 1).
42
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
Sin embargo, debe destacarse que este sexto piso es especialmente trascendente
para la investigación, ya que permite conocer los detalles de cada una de las
investigaciones llevadas a cabo, los aspectos particulares del diseño, los sesgos de
inclusión o el tipo de análisis realizado a los datos obtenidos, y ello permite copiar o evitar,
en el diseño futuro del estudio que se está planteando, aquello que nos interese. Muchos
estudios pueden replicar metodologías o diseños previos con matices importantes de
nuestro interés particular y que pueden permitir contestar preguntas no respondidas o que
sólo obtuvieron respuestas parciales o no aplicables a nuestro entorno.
Toda esta información se encuentra compilada en bases de datos, la mayoría de las
cuales tienen actualmente un acceso electrónico y unos motores de búsqueda muy potentes
que hacen que lo que hace un par de décadas requería varias semanas, ahora se consigue en
unas pocas horas. Estas bases de datos se nutren esencialmente de revistas biomédicas, y
las revistas fundamentales se encuentran en casi todas ellas. Entre las bases de datos
bibliográficos tradicionales, PubMed (http://www.ncbi.nlm.nih.gov/pubmed/) es sin duda
la más consultada en el mundo, lo cual es posible debido a su larga existencia y a su acceso
gratuito. Otras bases internacionales que deben citarse son Embase
(http://www.embase.com/), Cinahl (especializada en enfermería,
http://www.ebscohost.com/cinahl/), Scopus (que pertenece a Elsevier, grupo editorial líder
en publicaciones científicas, http://www.scopus.com/home.url) y Web of Knowledge
(http://www.accesowok.fecyt.es/) que nos permite consultar diversos recursos
bibliométricos como la Web of Science, el Science Citation Index, el Science Citation
Index Expanded y el Journal Citation Report, este último responsable del cálculo y la
difusión anuales del factor de impacto de las revistas científicas. Es importante conocer
que, a fecha de hoy, la Fundación Española para la Ciencia y la Tecnología (FECYT) pone
a disposición de la comunidad científica la Web of Knowledge (WOK) mediante la compra
de licencias de alcance nacional y que permiten el acceso desde los hospitales,
universidades y centros de investigación que así lo soliciten. De esta forma se integra
diferente información científica que se encuentra dispersa a través de herramientas
informáticas unificadas, lo que aporta un valor añadido a través de servicios de acceso a los
recursos científicos, y por ello es interesante acceder a estos recursos a través de ella
cuando sea preciso. En un ámbito más local, para búsquedas de literatura española
deberíamos recurrir al Índice Médico Español (IME, http://bddoc.csic.es:8080/), al Índice
Bibliográfico Español en Ciencias de la Salud (IBECS, http://ibecs.isciii.es/) o incluso
alguna iniciativa privada como la base de datos MEDES (medicina en español,
44
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
HERRAMIENTAS DE BÚSQUEDA
Se puede definir la búsqueda bibliográfica como el conjunto de actividades
orientadas a la localización de la mejor evidencia científica disponible sobre un tema
determinado. Para ayudar al clínico, se ha propuesto el modelo PICO (Patient –
Intervention – Comparison – Outcome). A continuación, deberíamos seleccionar la fuente
de información que vamos a consultar y traducir la pregunta a los términos más adecuados,
en función de dicha fuente. En el caso de PubMed, deberíamos consultar los términos
MeSH. Otras bases de datos pueden utilizar diferentes tesauros (EMTREE en el caso de
Embase, DeCS en Lilacs o IBECS, etc.). Los términos seleccionados se combinarán para
construir la pregunta utilizando los operadores booleanos. Los más habituales son tres:
AND (Y, que corresponde a la intersección de conjuntos, e indica que ambos términos
deberán estar obligatoriamente en los resultados obtenidos), OR (O, que corresponde a la
unión de conjuntos y que conseguirá que alguno de los términos esté presente en los
resultados) y NOT (PERO NO, EXCEPTO, y que en este caso el término consignado
nunca aparecerá en los resultados) (Figura 2). Sin embargo, hay recursos que pueden
permitir otras opciones como NEAR (ambos términos aparecerán cercanos en los
resultados, separados por un número máximo de palabras que varía según el recurso) o
NEXT (ambos términos aparecen juntos). Frecuentemente, una frase entrecomillada se
busca literalmente como ha sido escrita. Cada recurso tiene sus reglas: debemos
informarnos bien para mejorar la calidad de los resultados y optimizar al máximo las
posibilidades que nos da el recurso.
45
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
46
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
47
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
50
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
buscador más común sigue siendo Google), la falta de tiempo, la necesidad de mayores
conocimientos y formación del residente investigador sobre evaluación crítica o, incluso, el
pensamiento generalizado que todavía existe de incompatibilidad entre el médico
asistencial y el investigador. Por ello se propone que el investigador tenga accesibilidad
desde su lugar de trabajo a la mejor información científica disponible a través de acceso a
internet rápido y sin limitaciones (lo que no ocurre en la actualidad en muchos centros),
que se mantenga la consulta de todos a la biblioteca Cochrane Plus (hoy en día el
Ministerio de Sanidad, Servicios Sociales e Igualdad tiene una licencia para todo el
territorio nacional) y facilitar a través de las bibliotecas virtuales la consulta a una serie de
recursos de calidad como son las revistas biomédicas relacionadas con la especialidad de
cada residente y especialidades afines, UpToDate, Clinical Evidence, Dynamed, Fisrt
Consult, Essential Evidence Plus, etc. Pero, para poder emplear correctamente este
inmenso arsenal de información, debe acompañarse de una formación básica en búsqueda
de información y lectura crítica.
Como ya hemos comentado la investigación biomédica produce actualmente una
gran cantidad de información científica, disponible en grandes bases de datos electrónicas.
El punto crucial es poder distinguir si lo que leemos es realmente creíble, es decir, si es
aceptable según la idea que poseemos sobre el tema para poderlo incorporar a nuestra
práctica diaria con seguridad. La MBE ha demostrado con claridad como la información o
el conocimiento que no ha sido verificado puede llegar a incorporarse por décadas en la
práctica clínica con resultados opuestos a los esperados o sin ser confirmados con el paso
del tiempo o, incluso, con importantes efectos secundarios no tenidos en cuenta durante
muchos años. Un ejemplo es lo que ocurrió durante mucho tiempo con la combinación de
diuréticos y digitálicos en el tratamiento de la IC (insuficiencia cardiaca) que se basó,
sobre todo, en la constatación empírica de que los pacientes tratados con ambos
experimentan rápidamente una notable mejoría en sus síntomas y signos clínicos. Dado
que ambos grupos de fármacos se utilizaban sistemáticamente en combinación, existían
pocos datos acerca del papel de cada uno de ellos por separado y dudas razonables
relacionadas con la persistencia en el tiempo de esta mejoría sintomática.
La introducción del metanálisis constituyó un notable avance en el conocimiento y
sobre todo destacó la necesidad de emprender estudios con el poder estadístico suficiente
para demostrar con robustez la hipótesis de trabajo. Las revisiones sistemáticas se sitúan en
la cima de la pirámide de la evidencia, y las revisiones Cochrane ocupan el lugar más
51
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
privilegiado dentro de ellas. Los profesionales sanitarios, los investigadores y los gestores
sanitarios se apoyan más que nunca en la evidencia sintetizada.
En 1992 en JAMA se publica Evidence Based Medicine Working Group
(EBMWG) donde se llama la atención sobre el nuevo paradigma de la práctica médica que
pone énfasis en el análisis de la evidencia aportada por la investigación, en lugar de la
intuición, la experiencia clínica no sistemática y el razonamiento fisiopatológico. En 1996,
Sackett definió la MBE como “la utilización consciente, explicita y juiciosa de la mejor
evidencia científica clínica disponible para tomar decisiones sobre el cuidado de los
pacientes”. El desarrollo de la MBE está fuertemente enraizado al pensamiento de un
eminente clínico y epidemiólogo británico, el doctor Archie Cochrane, que hoy en día se
mantiene latente con la organización Cochrane, un organismo internacional que intenta
ayudar a que los profesionales tomen decisiones bien informadas mediante la preparación,
actualización y garantía de la accesibilidad de las revisiones sistemáticas de los efectos de
las intervenciones de la salud. En 1997, se inauguró el centro Cochrane Español.
¿Cómo definimos hoy en día Medicina Basada en la Evidencia? Por MBE
designamos a la práctica de la medicina basada en la integración de la experiencia clínica
de cada médico (es decir, el dominio del conocimiento y el juicio clínico adquirido) con las
mejores conclusiones y descubrimientos provenientes de la investigación clínica para la
toma de decisiones en la atención de cada paciente. El conocimiento científico es crítico
porque intenta distinguir entre lo verdadero y lo falso. Al demostrar que es cierto, queda
fundamentado.
¿Y qué entendemos por lectura crítica? Se trata del proceso de evaluar e interpretar
la evidencia aportada por la literatura científica, considerando sistemáticamente los
resultados que se presenten, su validez y su relevancia para el trabajo propio. Así, su
propósito es descubrir si el método y los resultados de una investigación son
suficientemente válidos para producir información útil. Entre la gran cantidad de
información se trata de descubrir la de calidad sabiendo en qué fuentes se debe buscar y de
qué fuentes se puede uno fiar.
Debido a que la práctica basada en la investigación depende de los hallazgos de
estudios científicos publicados, cada estudio de investigación debe ser evaluado
críticamente, no solo para determinar su método científico (validez) sino también su
importancia, su novedad y su utilidad (puesta en práctica). Al concluir una lectura crítica
deben valorarse tanto los aspectos negativos como los positivos. Dado que los estudios
presentan limitaciones y debilidades, la clave es evaluar el impacto del estudio en su
52
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
53
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
54
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
debería ofrecer una garantía científica y de rigor tanto de los contenidos como de sus
autores y responsables.
BIBLIOGRAFÍA
- Esper R.J, Machado R.A. La investigación en medicina. Bases teóricas y prácticas.
Elementos de Bioestadística. Buenos Aires: Prensa Médica Argentina; 2008.
- Miró i Andreu O. Manual básico para el urgenciólogo investigador. De la idea original a
la publicación final. Madrid: Ergón; 2013.
- Bobenrieth Astete MA. Mitos y realidades en torno a la publicación científica. Med Clin
(Barc). 2000;114:339-341.
- Sacket DL, Rosenberg WMC, Muir JA, Haynes RB, Richardson WS. Evidence based
Medicine: what it is and what it isn´t. Br Med J. 1996;312:71-2.
- ISI Web of Knowledge. Journal Citation Reports. (Consultado 4 Julio 2012). Disponible
en: http://sauwok.fecyt.es.
- Jiménez Villa J, Argimon Pallàs JM, Martín Zurro A, Vilardel Tarrés M. Publicación
científica biomédica. Cómo escribir y publicar un artículo de investigación. Barcelona:
Elsevier España S.L; 2010.
- Huang X, Lin J, Demner-Fushman D. Evaluation of PICO as a knowledge
representation for clinical questions. AMIA Annu Symp Proc. 2006:359-63.
- DiCenso A, Bayley L, Haynes RB. Accessing preappraised evidence: fine tunning the
5S model into a 6Smodel. ACP J Club 2009;151:JC·-2-JC3-3.
- Iñesta García A. Webs y buscadores en Ciencias de la Salud [Internet], 2ª ed. Madrid :
Escuela Nacional de Sanidad, Instituto de Salud Carlos III; 2012 [consultado 29 de
junio de 2012]. Disponible en: http://publicaciones.isciii.es/
- Haynes RB, Wilczynski NL. Optimal search strategies for retrieving scientifically
strong studies of diagnosis from Medline: analytical survey. BMJ.
55
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
56
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
CAPÍTULO 6
57
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
58
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
59
TIPOS DE CUESTIONARIOS
2.1 CUESTIONARIO RESTRINGIDO O CERRADO
Solicita respuestas breves, específicas y delimitadas y anticipa las posibles alternativas de
respuestas. Pueden ser:
- Respuestas dicotómicas): Sí o No.
-Varias alternativas de respuestas: donde se señala uno o más ítems (opción o categoría) en
una lista de respuestas sugeridas. Como no es posible prever todas las posibles respuestas,
conviene agregar la categoría “Otros” o “Ninguna de las Anteriores”, según sea el caso. En
otras ocasiones, el encuestado tiene que jerarquizar opciones o asignar una puntuación a
una o diversas cuestiones.
Como ventajas señalar el menor esfuerzo por parte de los encuestados, limita las respuestas
de la muestra, mantiene al sujeto en el tema, es relativamente objetivo y es fácil de
clasificar y analizar.
2.2 CUESTIONARIO NO RESTRINGIDO O ABIERTO
Las preguntas abiertas no delimitan de antemano las alternativas de respuesta. Las
preguntas abiertas son particularmente útiles cuando no tenemos información sobre las
posibles respuestas de las personas o cuando esta información es insuficiente. Como
características de estos cuestionarios señalar que necesita un cierto nivel cultural por parte
del encuestado (necesita saber expresar sus ideas de forma escrita) si bien proporciona
respuestas de mayor profundidad. Es de difícil tabulación, resumen e interpretación.
2.3 CUESTIONARIO MIXTO
Incluyen en su construcción tanto preguntas cerradas como abiertas.
DISEÑO DE CUESTIONARIOS
3.1. REQUERIMIENTOS PARA LA CONSTRUCCIÓN DE UN
CUESTIONARIO:
Describir los aspectos (variables) que se consideran importantes de incluir.
Determinar el propósito del cuestionario: tema significativo.
Título del proyecto, aspecto o tema a que se refiere, y breve indicación de su
contenido. Las instrucciones deben ser claras y completas.
Datos generales: Institución, fecha, nombre del encuestador, etc.
Establecer la mejor secuencia de dichos aspectos o temas.
Los términos importantes deben estar definidos.
El cuestionario no ha de ser demasiado largo.
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
VALIDACIÓN DE CUESTIONARIOS
Al aplicar un cuestionario resulta interesante que el cuestionario ya ha demostrado
su fiabilidad y validez en otros estudios para así poder comparar sus resultados. Si no lo
hubiera, es necesario diseñar un nuevo cuestionario y validarlo antes de aplicarlo.
a) VIABILIDAD
Lo deseable es que el tiempo para completar el cuestionario sea el mínimo posible. La
escala de puntuación debe ser fácil de entender así como el registro de respuestas y su
codificación.
b) FIABILIDAD
Datos fiables son aquellos que resultan creíbles porque ofrecen los mismos resultados en
diferentes ocasiones en el tiempo y por diferentes observadores. Para analizar la fiabilidad
en variables cualitativas se utiliza el índice kappa y en variables cuantitativas el índice de
correlación intraclase. Para que el cuestionario sea fiable, han de cumplirse tres
condiciones:
1. Repetibilidad o fiabilidad test- retest
Un cuestionario tendrá una buena repetibilidad cuando realizado sobre una misma
población en dos momentos diferentes en el tiempo se obtengan resultados idénticos o
61
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
similares. Las enfermedades crónicas pueden tener una buena repetibilidad dado que los
síntomas no suelen variar mucho en el tiempo.
2. Fiabilidad interobservador
Evalúa el grado de concordancia entre dos o más observadores.
3. Consistencia interna
Se refiere a si los ítems de un cuestionario presentan homogeneidad entre ellos. Para medir
la consistencia interna de un cuestionario se utiliza el índice alfa de Cronbach, que expresa
la consistencia interna entre tres o más variables. Los valores del índice oscilan entre 0 y 1
y se acepta que un valor por encima de 0,7 indica una buena consistencia interna. En
ocasiones para hacer el cuestionario más rápido se plantea eliminar ítems, lo cual no
siempre aumenta la consistencia interna.
c) SENSIBILIDAD AL CAMBIO
Se refiere a la capacidad de un instrumento para detectar cambios clínicos significativos en
la variable que se está midiendo. Por eso la escala con la que se miden las respuestas,
cuantas más categorías tenga, más sensible será el cuestionario.
d) VALIDEZ
Se refiere a la capacidad de un cuestionario para medir aquello para lo que ha sido
diseñado.
1. Validez lógica
La pregunta tiene mayor validez lógica cuanto más directamente identifique lo que
queremos medir.
2. Validez de contenido
Se puede considerar que un cuestionario es válido por su contenido, si contempla todos los
aspectos relacionados con el concepto a estudio. El número de preguntas de cada área
dependería de la importancia relativa de ese aspecto concreto.
3. Validez de criterio
Cuando exista un método de medida con validez demostrada, debe evaluarse la validez de
criterio del cuestionario. En algunos casos, el cuestionario puede validarse comparándolo
con pruebas bioquímicas o radiológicas, o bien con los datos de la historia clínica u otros
cuestionarios ya validados. Cuando la escala de medida es cualitativa se utilizan la
sensibilidad y especificidad para determinar la validez de criterio, y si la escala es
cuantitativa se utiliza el coeficiente de correlación intraclase.
4. Validez de concepto o constructo
62
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
63
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
ESCALAS DE MEDIDA
Las escalas de medida sirven para transformar las respuestas en variables que
puedan ser analizadas estadísticamente. Los diversos ítems se suman para obtener una
única puntuación. Estos son los tipos de escalas más utilizados.
6.1 Escala de Likert: Sirve para medir la opinión o actitud del encuestado ante un tema
concreto. Consiste en un conjunto de ítems bajo la forma de afirmaciones o frases ante los
cuales se solicita la reacción (favorable o desfavorable, positiva o negativa) de los
individuos. El número usual de categorías puede variar de 4 a 7, y se da un valor a cada
respuesta, con un 1 para la respuesta más negativa y un 5 para la más positiva: Alternativa
A: Muy de acuerdo, (4) De acuerdo,(3) Ni de acuerdo, ni en desacuerdo,(2) En desacuerdo,
(1) Muy en desacuerdo.
Alternativa B: (5) Totalmente de acuerdo,(4) De acuerdo, (3) Neutral ,(2) En
desacuerdo,(1) Totalmente en desacuerdo
Alternativa C: (5) Definitivamente sí,(4) Probablemente sí,(3) Indeciso ,(2) Probablemente
no, (1) Definitivamente no
Alternativa D: (5) Completamente verdadero,(4) Verdadero,(3) Ni falso, ni verdadero ,(2)
Falso, (1) Completamente falso
Para obtener las puntuaciones, se suman los valores obtenidos respecto de cada frase.
6.2 Escalas diferenciales semánticas: Mide actitudes y creencias. Consiste en dos
adjetivos opuestos con una escala de siete puntos entre ellos. Se pide al sujeto que
seleccione un punto de la escala que sea el que mejor describe su visión del concepto que
examina.
6.3 Escalas visuales analógicas: Es una línea que termina con un ángulo recto en cada
extremo, orientada vertical u horizontalmente .Se pide al sujeto que ponga una marca en la
línea para indicar la intensidad del estímulo. Entonces se utiliza una regla para medir la
distancia entre el extremo izquierdo de la línea y la marca que ha hecho el sujeto, y ésta
medida es el valor del estímulo. Se ha utilizado para medir el dolor, estado de humor, la
ansiedad. Dado que se utiliza para medir fenómenos irregulares en el tiempo, el método de
fiabilidad test-retest es inapropiado; y a causa de que cada escala tiene un solo item, no se
puede utilizar otros métodos de determinación de la fiabilidad.
6.4. Escala de Guttman: En esta escala se escoge un número de frases de intensidad
creciente que expresan el acuerdo o desacuerdo con un tema ordenadas de tal manera que
si se está de acuerdo con una se está de acuerdo con las anteriores.
64
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
PRINCIPALES LIMITACIONES
Existen diversas fuentes de error que afectan a la fiabilidad de la medida. En
enfermedades crónicas, los síntomas pueden cambiar en el tiempo y depender de la
complianza del tratamiento prescrito. Las condiciones emocionales del paciente
encuestado, así como las condiciones ambientales (frío, calor, ruido) pueden influir a la
hora de contestar las preguntas y alterar la fiabilidad. Además el formato del cuestionario
debe estar escrito en un lenguaje claro y comprensible sin ambigüedades. También los
encuestadores deben estar entrenados para que el cuestionario se desarrolle siempre de la
misma manera, y la recogida de datos ha de ser sistemática para evitar errores.
FUENTES DE ERROR EN LA FIABILIDAD DE LA MEDIDA
- Cambios en el tiempo de la característica estudiada
- Cambios debidos a las condiciones de realización del cuestionario
- Variaciones por el propio cuestionario
- Cambios por el encuestador
- Errores en el manejo de datos
FUENTES DE ERROR QUE INFLUYEN EN LA VALIDEZ
- Orden de las preguntas
- Redacción de las preguntas
- Errores en la categorización de las respuestas
- Sesgo de conveniencia social
- Tendencia sistemática a dar siempre la misma respuesta
- Características del encuestador
- Elección de la categoría o puntuación intermedia
BIBLIOGRAFÍA
- Alonso J. La medida de la calidad de vida relacionada con la salud en la investigación y
la práctica clínica. Gac Sanit 2000;14(2):163-167
- Xavier Badía , Jordi Alonso. La medida de la salud. Guías de escalas de medición en
Español. 4ª edición. Fundación Lilly. Barcelona.
- Argimón Pallás JM, Jiménez Villa J. Métodos de investigación clínica y epidemiológica.
3ª edición. Madrid: Elsevier; 2004.
65
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
66
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
CAPÍTULO 7
67
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
bibliográficos). Por consiguiente, deben elegirse con gran cuidado todas las palabras del
título, y se debe cuidar la forma de asociarlas. Tal vez el error más corriente en los títulos
defectuosos y, sin duda, el más perjudicial desde el punto de vista de la comprensión, sea
una mala sintaxis (un orden equivocado de las palabras). ¿Qué es un buen título? se podría
definir como el menor número posible de palabras que describen adecuadamente el
contenido de un artículo (no está recomendada la utilización de más de 15 palabras en un
título). Hay que recordar que los servicios de indización bibliográfica y resúmenes de
artículos dependen grandemente de la exactitud del título, como dependen muchos
sistemas de recuperación de obras computadorizadas que hoy se utilizan. Un artículo
titulado de forma inapropiada puede perderse prácticamente y no llegar nunca al público a
que se destina. El título del trabajo, no debe incluir información no incluida en el texto del
artículo, ni debería ser demasiado extenso, ni confuso, ni ambiguo. El título tampoco debe
sonar como una afirmación tajante y dogmática, ni deben aparecer en él las conclusiones
del artículo. No debe incluir un uso excesivo de preposiciones, artículos y subtítulos. Los
títulos se redactarán siempre en tono afirmativo. No se acepta, hoy en día, la utilización de
frases en tono interrogativo como título de un artículo original. Si bien, podría llegar a
aceptarse, excepcionalmente, la interrogación o la exclamación en una editorial, nunca se
aceptarían como válidas en el encabezamiento de un artículo original.
LOS AUTORES Y SU FILIACIÓN. La definición de la “autoría” podría resumirse
diciendo que la lista de autores debe incluir a aquellos, y solo a aquellos, que
contribuyeron realmente a la concepción general y la ejecución de los experimentos.
Además, los autores deben enumerarse normalmente por orden de importancia en relación
con los experimentos, reconociendo al primero como autor principal, al segundo como
principal asociado, y al tercero posiblemente como al segundo pero, más frecuentemente,
con una participación menor en el trabajo comunicado. Los colegas o supervisores no
deben pedir ni permitir que sus nombres se incluyan en manuscritos sobre investigaciones
en las que no hayan participado estrechamente. El autor de un artículo debe definirse como
aquel que asume la responsabilidad intelectual de los resultados de la investigación sobre
la que se informa. Sin embargo, esta definición debe matizarse teniendo en cuenta que la
ciencia moderna es, en muchos campos, colaboradora y multidisciplinaria. Sería poco
realista suponer que todos los autores pueden defender todos los aspectos de un artículo
escrito por colaboradores procedentes de diversas disciplinas. Aun así, debe considerarse a
cada autor plenamente responsable de la elección de sus colegas.
68
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
69
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
artículo son textos separados. Un buen resumen siempre debe destacar lo más novedoso del
trabajo, aunque no puede incluir datos, resultados o conclusiones que luego no aparezcan
en el cuerpo del artículo.
El resumen tiene que presentarse estructurado para facilitar su lectura y
compresión. Se escribirá siempre en hoja separada entre el título y la introducción. El
resumen tendrá una longitud máxima de 250 palabras (puede variar en función de la
revista), aunque suele emplearse esta medida porque es la longitud en la que MEDLINE
corta el resumen. Este resumen tiene que ser auto explicativo e independiente del texto. El
resumen tiene bastante importancia porque es la parte del artículo que se incluye en los
diversos sistemas de información bibliográfica (Medline, Índice Médico Español, Index
Medicus, Excerpta Médica…). Entre las principales características del resumen hay que
destacar las siguientes: poder actuar como sustituto del texto (si no se dispone de él),
mencionar los aspectos esenciales del artículo, estar estructurado en las mismas secciones
que el artículo, no exceder las 250 palabras, no incluir citas bibliográficas, abreviaturas,
materiales o datos no mencionados en el texto.
Entre los principales errores del apartado resumen, destacan los siguientes: omitir
elementos importantes, destacar asuntos insignificantes del trabajo, no es inteligible por si
mismo, no incluye los objetivos, no incluye el “material y métodos” , ni los resultados más
relevantes, ni las conclusiones, incluye conclusiones no mencionadas en el texto del
artículo u otra información que no figura en el texto del artículo, utiliza abreviaturas y
símbolos poco conocidos, carece de claridad, de precisión, de concisión o de sencillez, no
presenta una secuencia lógica entre las frases y los párrafos, no es auto explicativo ni
autónomo ya que no se entiende separado del artículo original, emplea nombres
coloquiales o marcas registradas de productos químicos o farmacéuticos en lugar de
denominaciones genéricas, menciona localidades geográficas poco conocidas sin indicar
denominación estatal ni país.
Al final del resumen, deben incluirse las palabras clave siendo estas un conjunto de
tres a diez palabras o frases cortas que estén directamente relacionados con el contenido
del artículo, que se utilizan para su inclusión en los índices o las bases de datos y permiten
su selección cuando se realiza una búsqueda bibliográfica. Se recomienda utilizar los
términos del Índice Médico Español o los Medical Subject Heading (MeSH) del Index
Medicus (www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=mesh).
70
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
71
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
72
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
73
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
74
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
Tanto las tablas como las figuras deben ser auto explicativas (la información que
contengan no debe volver a citarse en el texto ni en otras tablas o figuras). Las tablas y
figuras completan al texto, razón por la cual deben ubicarse lo más cerca posible del
párrafo donde se las menciona.
Las tablas se emplean en el artículo científico para comprimir en poco espacio
mucha información y hacerla fácil de comprender, comparar y analizar. Una buena tabla,
con título preciso y encabezamientos de columnas claros es una importante forma de evitar
frases y párrafos repetitivos y de ahorrar espacio en la edición de la revista. El texto debe
reservarse para destacar sólo lo más importante. Una tabla bien diseñada suele ser más
exacta, más completa y puede presentar mucha más información que un gráfico.
Para construir una tabla hay que poner en una columna las categorías o valores de
la variable y en otra columna el número de veces que se repita cada variable, bien como
frecuencias absolutas o como frecuencias relativas. Si los datos se expresan en números,
hay que expresar todos en las mismas unidades. Los números enteros deben alinearse por
la columna derecha; los números decimales deben alinearse por sus puntos decimales.
Cuando se empleen intervalos de clase para agrupar variables continuas (tiempo, edad,
presión arterial…), estos deben ser mutuamente excluyentes y utilizar agrupaciones por
edad estandarizadas o de uso frecuente en la especialidad. Al construir una tabla, hay que
tener en cuenta que un individuo solo puede pertenecer a una categoría.
La utilización de figuras puede resultar indispensable para representar procesos
complejos o imágenes que no podrían expresarse con palabras. Todo gráfico debe tener un
título el cual se presenta en la forma de una frase breve explicativa. La explicación de los
símbolos se dará después de su aparición en la leyenda. Cuando el documento contenga
varios tipos de gráficos (en barra, lineales, en sector) y otro tipo de ilustraciones
(diagramas, mapas, radiografías) es necesario rotularlos todos ellos como “Figuras” y
numerarlas consecutivamente usando números árabes. Si no es obvia, se indicará con una
flecha la orientación de la figura. Los gráficos y los esquemas deben ubicarse lo más cerca
posible de su primera referencia en el texto.
DISCUSIÓN. El capítulo de la discusión le otorga al autor la posibilidad de
convencer al lector que la investigación tiene validez interna, es decir, que las diferencias
observadas en los individuos o grupos participantes son atribuibles a la variable
independiente (causa) y no a otras variables extrañas o al azar. Otro aspecto importante del
capítulo de discusión es el de la validez externa, es decir, el grado en que se pueden
75
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
76
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
aquellas colaboraciones, que merecen ser agradecidas (no incluir ayudas técnicas o
económicas). Las personas que son citadas en los agradecimientos de un artículo, deben
previamente conceder su autorización por escrito, para poder ser citadas.
BIBLIOGRAFÍA. En enero de 1978, un grupo de editores de varias revistas
biomédicas, publicadas en inglés, se reunieron en Vancouver y decidieron uniformar los
requisitos técnicos para la preparación de los manuscritos que debían ser considerados por
los Comités de Redacción de esas publicaciones. Estos requisitos de uniformidad han ido
modificándose con el tiempo en función del criterio del Comité Internacional de Editores
de Revistas Biomédicas (ICMJE; (http://www.icmje.org) y han desembocado en lo que
hoy se conoce como estilo Vancouver. El seguimiento de las recomendaciones por parte de
los autores contribuye a mejorar la calidad y claridad de los manuscritos, así como el
trabajo de corrección editorial.
La bibliografía se ha de presentar en hoja aparte, a doble espacio y siguiendo la
normativa aceptada por cada revista. Lo más habitual es enumerar las citas bibliográficas
consecutivamente en el orden en que se mencionan por primera vez en el texto. Los
números de las citas bibliográficas pueden escribirse bien con un número marcado como
“supranacional” o bien como un número entre paréntesis. Inclinarse por una fórmula o por
otra depende de lo que requiera la revista y que podemos encontrar en las “Instrucciones
para los autores”. Las referencias que solo se presentan en tablas o figuras deben seguir el
mismo orden correlativo que llevaban durante el texto del artículo en función del lugar que
ocuparán en la versión definitiva del manuscrito. Solo se deberían citar los trabajos que se
han leído personalmente, ya que la mención de trabajo y opiniones de autores que se
conocen por referencias de terceros puede hacer que se les acabe imputando a los primeros
afirmaciones que no han realizado nunca. No se deberían incluir citas de revistas rusas,
japonesas o alemanas si no se conocen los idiomas originales, a no ser que se mencione
específicamente que se ha leído un resumen del trabajo publicado en inglés. No se
recomienda citar libros de texto, ni resúmenes de congresos (es lo que se conoce como
“literatura gris” y suelen ser difíciles de recuperar si algún lector desea consultarlos
directamente). Tampoco debe forzarse la auto citación de trabajos previos, ni emplear citas
bajo los epígrafes de “observaciones no publicados” o “comunicaciones personales”. No es
recomendable emplear como referencias bibliográficas en un artículo científico lo que se
conocen como “revistas de divulgación general o noticias de prensa”.
Se incluirán preferentemente artículos de los últimos cinco años, en especial de los
últimos dos años. Hoy en día no se puede considerar reciente un trabajo aparecido hace
77
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
cinco años y ya es histórico un artículo de diez años de antigüedad. Los autores han de
repasar personalmente las citas bibliográficas, adecuarlas a la normativa de la revista
donde envían el manuscrito y cuidar que no se deslicen involuntariamente errores de
citación. El error es inevitable, pero debe intentarse minimizarse al máximo.
En un artículo científico solo deben citarse las referencias necesarias. Un exceso de
referencias bibliográficas indica inseguridad del autor y complica la lectura del artículo sin
aportar información relevante. En un trabajo original el número de referencias
bibliográficas citas debería situarse entre 20 y 40, en un caso clínico, entre 10 y 20, en una
carta al director, no se suelen aceptar más de 10, mientras que en las editoriales no
debieran incluirse más de 30. En las revisiones, aunque hay excepciones, no deberían
superar el centenar.
BIBLIOGRAFÍA
- 1000 Trucos para hablar y escribir bien. Editorial Óptima S.L. Madrid, 1995.
- Aleixandre Benavent R, Valderrama Zurian JC, Castellano Gómez M, Simó Meléndez R,
2. Navarro Molina C. Factor de impacto de la revistas médicas españolas. Med Clin (Barc)
2004; 123(18):697-701.
- Abad García MF, González Teruel A, Martínez Catalán C. Acceso abierto y revistas
médicas 3. españolas. Med Clin (Barc) 2006; 127(12):456-64.
- García AM. Autores, revisores, editores: las reglas del juego. Gac Sanit 2001:15:294-5.
- Benos DJ, Kirck KL, Hall JE. How to rewiew a paper. Adv Physiol Educ 2003; 27: 47-
52.
78
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
CAPÍTULO 8
79
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
1ª parte (http://www.youtube.com/watch?v=oahrBhPb9ZY),
2ª parte (http://www.youtube.com/watch?v=6EAwgzbgRJc),
3ª parte http://www.youtube.com/watch?v=L8ZQFDaRsFg,
4ª parte http://www.youtube.com/watch?v=MbcE7z29Nzo,
5ª parte http://www.youtube.com/watch?v=HbUMDR3hRjM
En este capítulo del manual se presentan pautas para lograr una presentación
exitosa de los resultados de una investigación frente a un público.
80
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
altos y horizontales entre investigadores, pero poca entre estos y médicos, y viceversa, y
mucho menos entre investigadores y médicos con los pacientes. El modelo ideal sería
donde los flujos de información se produzcan también verticalmente, sobre todo entre
médico y paciente.
81
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
par de ideas clave que funcionen como eje de un discurso que debe estar perfectamente
escrito y cronometrado con antelación.
La estructura de la presentación oral es la misma que la de la elaboración de un
artículo científico –introducción, método, resultados y discusión. Es importante centrar la
comunicación en los resultados obtenidos, después de una breve introducción que
justifique la necesidad del trabajo y hay que hacer referencia a los objetivos concretos de la
investigación. Las referencias a lo que otros investigadores hicieron anteriormente respecto
al tema presentado pueden quedar reflejadas en la discusión con los datos obtenidos de la
investigación.
Para garantizar una comunicación eficaz es imprescindible el ensayo previo,
haciendo hincapié de distribución del tiempo y los aspectos verbales y no verbales de la
comunicación.
Los programas para presentaciones de que disponen las grandes marcas de
distribución de software suelen utilizarse de forma mayoritaria en los eventos científicos
actuales. La facilidad de su uso y la incorporación de sistemas de ayuda en los propios
programas han permitido la universalización de su uso y permiten una gran calidad en la
presentación. PowerPoint® o CorelDraw® son dos de los programas más utilizados.
3. Comunicación de los resultados en una mesa o ponencia delante de un comité o
tribunal
La presentación de los resultados de una investigación puede ser la culminación
académica de la actividad científica de un aspirante a especialista, máster o Doctor. El
momento cumbre para un aspirante lo constituye el acto de defensa de la investigación, en
el que públicamente son expuestos los aciertos y debilidades del trabajo realizado y
evaluado por un tribunal, la comunidad científica, y más tarde por la vida.
Generalmente estos tipos de trabajos deben ser sometidos a la aprobación de un
tribunal integrado por especialistas de la materia a la que el aspirante ha dedicado sus
esfuerzos investigativos. Ellos escucharán al ponente, a su tutor y también al oponente, que
mediante un análisis escrito dará a conocer su veredicto. En ese "juicio" los oponentes
resultan ser los "fiscales". Sin ellos no es posible que se conozcan, de forma rigurosa, tanto
los valores como aquellos elementos no logrados por el aspirante en su informe de
investigación.
A continuación se hace una breve explicación sobre la redacción de un perfil de
proyecto de investigación:
82
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
83
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
marcha del proyecto, otros dos elementos son imprescindibles: los recursos necesarios y el
cronograma de realización de la investigación.
La revisión debe concluir con un dictamen que se expresa en una de las cuatro
categorías siguientes: (1) Aprobar (2) Aceptar con cambios menores (3) Aceptar con
cambios mayores y (4) Rechazar. Todas las revisiones, exceptuando aquellas que culminen
con un dictamen de `aprobado', deberán incluir una ficha que fundamenta el dictamen
emitido. Todas deben incluir el nombre de los revisores.
Algunos aspectos que deben tenerse en cuenta para el momento de la presentación:
• Poseer los medios de apoyo para la exposición, estos deben ser claros, precisos y bien
confeccionados.
• Debe cuidarse que las diapositivas no estén muy cargadas de información. Solo llevar a la
pantalla esquemas que conduzcan a los oyentes a llevar el hilo conductor de la información
que se presenta, no proyectar la imagen de dependencia del medio de que se trate para la
exposición de los contenidos, lo que le resta lucidez a la defensa.
• Al realizar indicaciones se debe utilizar un puntero (no señalar con el dedo)
• Debe coincidir lo que se dice con lo que se muestra visualmente.
Consejos para saber defender un proyecto o un resultado de investigación:
1. Elaborar un esquema
Para no ser víctima de los nervios y omitir cosas importantes es necesario elaborar
un esquema de exposición al que se debe ceñir a la hora de la defensa , este esquema
ayudará a organizar de una manera más efectiva las ideas importantes y dejar fuera los
datos prescindibles que pueden consultarse en la parte escrita entregada.
2. Equilibrar el tiempo y la información
En la mayoría de los casos las defensas de proyectos y resultados de investigación
hay un tiempo máximo de duración establecido, porque es necesario priorizar a la hora de
trasmitir la información, por eso es conveniente practicar la defensa con anterioridad con
cronometro e ir corrigiendo si hay algo que falta o que está de más.
3. Practicar
Practicar y tener la capacidad de visualizar la defensa del trabajo es muy
importante, porque eso ayuda a enfrentar la ansiedad, a detectar los errores en la defensa, a
memorizar el contenido y dar sentimiento de seguridad.
4. La ronda de preguntas
84
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
Toda defensa de trabajos incluye preguntas por parte del tribunal y esto es quizá lo
que más ansiedad despierta, por eso es importante la preparación para ello, hay que
imaginar la ronda de posibles preguntas.
5. Calmar los nervios
Es importante recordar que la defensa durará tan solo unos pocos minutos y que
uno está completamente capacitado para enfrentarla, y no ser presa del pánico, ni de la
ansiedad.
4. Comunicación a un grupo de trabajo
Las normas generales del contenido para la presentación del resultado de una investigación
a un grupo de trabajo se basan en los mismos apartados que la presentación oral o de un
artículo científico (introducción, método, resultados y discusión).
Sin embargo a la hora de presentarlo hay que tener en cuenta las principales claves para
una comunicación eficaz en un grupo de trabajo.
• Mantenerse en contacto siempre: A veces hay que emitir los mensajes una y otra vez.
Y además hay que reforzarlo con tantos medios y formatos como sea apropiado:
presentación del resultado, preguntas y respuestas, grabaciones, videos, publicaciones,
folletos, resultados de pruebas etc. Este es importante porque cada persona tiene diferentes
estilos de aprendizaje y escucha, por lo que hay que disponer de una variedad de canales de
comunicación para asegurar que el mensaje llegue a todos.
• Ser claro y preciso: Los mensajes deben ser transmitidos con claridad, especificidad y
coherencia. Por lo tanto, hay que tomarse el tiempo necesario para asegurarse que el
contenido de la comunicación sean planteados -y en consecuencia, sean más fácilmente
entendidos.
• Reúnase cara a cara: hay que reunirse directamente, mejor todavía si se hace más de
una vez. En algunas situaciones puede ocurrir que un interlocutor no puede escuchar
cuando lo escucha por primera vez, o puede no leer el material impreso entregado en una
primera reunión. Las sesiones de seguimiento le dan la oportunidad de repetir la
información hasta que todos la incorporen.
• Fomentar un feedback: La comunicación no puede ser solamente "de arriba hacia
abajo", Es necesario estar abierto a preguntas, inquietudes, ideas, preocupaciones,
insights de todos los miembros del grupo de trabajo.
85
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
86
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
87
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
Mal ejemplo:
88
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
Buen ejemplo:
89
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
90
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
BIBLIOGRAFÍA:
-Comunicar es fácil 1ª parte. Disponible en:
(http://www.youtube.com/watch?v=oahrBhPb9ZY Fecha de acceso: 23.05.2013
-Comunicar es fácil 2ª parte. Disponible en:
http://www.youtube.com/watch?v=6EAwgzbgRJc Fecha de acceso: 23.05.2013
-Comunicar es fácil 3ª parte. Disponible en:
http://www.youtube.com/watch?v=L8ZQFDaRsFg Fecha de acceso: 23.05.2013
- Comunicar es fácil 4ª parte. Disponible en
http://www.youtube.com/watch?v=MbcE7z29Nzo Fechas de acceso: 23.05.2012
-Comunicar es fácil 5ª parte. Disponible en:
http://www.youtube.com/watch?v=HbUMDR3hRjM Fechas de acceso 23.05.2013
- Sá. D: Como defender una tesis. Disponible en
http://educacion.uncomo.com/articulo/como-defender-una-tesis
4277.html#ixzz2TvT70zm6 Fechas de acceso: 22.05.2013
- Sarriá, Diseños de Investigación en Psicología. (pág. 531-562). Madrid: UNED
91
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
92
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
CAPÍTULO 9
OBJETIVOS Y JUSTIFICACIÓN
Puede llamar la atención el contenido de estos apuntes, en que se juntan la detección de
outliers, la codificación de los datos y el redondeo de valores numéricos, asuntos muy prácticos,
con un esfuerzo por exponer los conceptos básicos de la inferencia y los razonamientos que hay
tras los contrastes de hipótesis básicos, sin preocupación por su aplicación práctica. La explicación
es que esto no es un manual o texto de estadística. Lo que he intentado es ir directamente a por
aquello que, según mi experiencia, ocasiona problemas en la práctica y que creo que puede ser
fácilmente solucionado. Y en la práctica me encuentro con alguna frecuencia con compañeros que
han conseguido llegar hasta la redacción de un original, pero se olvidan de adoptar una decisión
consistente sobre el número decimales de sus resultados o redondean incorrectamente, por no saber
que estos detalles también importan; también sucede que una de las preguntas estadísticas más
frecuentes se refiere a la elaboración del fichero de datos de un estudio y, pese a ello, se pierde
bastante tiempo arreglando datos mal codificados; quizá por parecer fácil, se dedica poca atención
a la mejor forma de describir los datos, y, en consecuencia, no es raro ver que se usa la media como
única descripción de distribuciones muy sesgada, con outliers importantes o en estudios con
seguimiento incompleto...
Sin embargo, yo creo que el problema más importante con la Estadística "en nuestro
medio" es que es una herramienta cuyo uso no se puede evitar y que se utiliza más de lo que se
comprende. Por ello, la mayor parte de estos apuntes se dedica a los conceptos y el objetivo
principal es facilitar su comprensión, limitando el empleo de las matemáticas y de los detalles
teóricos al mínimo imprescindible y sin pretender que lo presentado pueda servir como guía para la
aplicación práctica de las técnicas estadísticas. Creo que, gracias a los diversos cursos y guías sobre
estadística básica y análisis de datos y, sobre todo, a la amplia disponibilidad de los ordenadores y
de software estadístico verdaderamente amigable para el usuario, la dificultad, actualmente, no está
en el manejo de los datos y en los cálculos de los índices necesarios para describir un conjunto de
datos o para realizar un contraste de hipótesis, incluso con las técnicas más "avanzadas". Lo que, en
mi experiencia, suele fallar es la comprensión real de lo que se está haciendo y, en consecuencia, la
interpretación cabal de lo que se encuentra. Por eso, presento en estos apuntes los razonamientos
93
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
con que me explico a mí mismo, que no soy estadístico ni matemático y que tengo un interés
estrictamente instrumental por estas cuestiones, lo que es un contraste de hipótesis y los criterios en
que me baso para elegir entre los diversos estadísticos descriptivos, pues quizá sean también útiles
para otros médicos que, como yo, no han recibido otra enseñanza reglada que el curso de
Bioestadística de la carrera.
También pienso que la mayoría de los médicos, que no se dedican al análisis de datos, no
necesitan conocer más que unos pocos conceptos estadísticos. Sin embargo, dado que están en la
base de gran parte de las "certidumbres" en que se basa la práctica clínica, para actuar con
conocimiento de causa en nuestra profesión, sea como potenciales investigadores o como reales
consumidores de la investigación que otros hacen, no hay otra alternativa que conocer, comprender
y utilizar esos pocos conceptos. Ello, además, capacita para identificar los propios límites y para
percibir, cuando llega, la necesidad de recurrir a especialistas y profesionales de la Estadística. Por
eso, creo que el que quiera iniciarse en la estadística que necesita como médico se equivocará si
rechaza estos apuntes por la única razón de que no explican cómo sacar una P o un intervalo de
confianza de los datos procedentes de unas observaciones clínicas.
El enfoque de "razonamiento personal" que he adoptado, como si me estuviera explicando
a mí mismo estas cuestiones, me ha llevado a tratar la inferencia estadística partiendo de la toma de
muestras repetidas mediante simulación informática para construir con ellas una distribución que se
"aproxima" suficientemente a la distribución muestral (DM) pertinente y "observar" sus
propiedades empíricas. Esta aproximación, que es totalmente rigurosa, me parece más asequible
que la teoría de la Inferencia Estadística y sus deducciones basadas en la Lógica Matemática sobre
la distribución de probabilidad teórica aplicable a cada supuesto, al menos para los que no somos
matemáticos. Desde la DM empírica, el camino que lleva a la solución del problema es claro y
directo, pues basta con "colocar" la muestra realmente observada en el lugar que le corresponde en
dicha distribución muestral para ver inmediatamente tanto la distancia entre la observación y la
media de la distribución como la frecuencia relativa con que se dan distancias tan grandes o
mayores en ella. Este procedimiento facilita (al menos a mí) la comprensión de conceptos como
"significación", "nivel de confianza", "error estadístico", etc. Pero es necesario un paso adicional
que una todo lo anterior con las técnicas clásicas que, al menos por el momento, son utilizadas
mayoritariamente, para que quede clara tanto la relación entre el "juego" informático descrito y las
pruebas que a cualquier médico como mínimo le suenan (la prueba t de Student, o la Chi cuadrado,
etc.) como el hecho de que esas pruebas no son otra cosa que una especie de "rodeo" necesario para
deducir las propiedades de la DM, a falta de una DM observable empíricamente (carencia que fue
absoluta hasta que aparecieron los ordenadores), y poder juzgar la posición de la muestra observada
dentro de ella. Un objetivo de estos apuntes es que quede inmediatamente claro para el lector que
tanto la prueba clásica como la basada en la generación informática de muestras utilizan
94
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
exactamente los mismos conceptos, y que la única diferencia está en el método utilizado para
"conocer" la DM pertinente al caso.
Estos apuntes han sido redactados con mucha prisa, intentando evitar, primero, y acortar,
cuando vi que no me era posible otra cosa, el retraso sobre el plazo que me indicó Agustín Julián,
Jefe de Estudios de los Residentes de nuestro Hospital, cuando me los encargó. Así que no he
podido revisarlos con el detalle que me hubiera gustado. Evidentemente y aunque no sea la única
causa, la prisa habrá aumentado el número de los fallos, defectos y errores. Agradecería a todo el
que identifique algún gazapo, error material o conceptual, o que tenga cualquier idea que pueda
servir para mejorar el contenido o la utilidad de estos apuntes, que me lo comunicara.
FINALIDAD DE LA ESTADÍSTICA
El tratamiento estadístico de datos pretende dos cosas:
1.- Elaborar índices, tablas y gráficos que resuman y presenten de manera inmediatamente
comprensible la información relevante de un conjunto de individuos. Ésta es la finalidad de
la Estadística Descriptiva.
2.- Partiendo de las observaciones realizadas en una muestra, calcular la probabilidad de
los distintos valores que la variable puede tener en la población, utilizando para ello los
métodos de la Estadística Inferencial.
Como la probabilidad informa de lo que cabe esperar cuando hay muchas
mediciones y los índices estadísticos se refieren a conjuntos de elementos, la Estadística
trata siempre con grupos (la estructura mínima analizable estadísticamente es un grupo de
datos de una sola variable). Pese a ello, es frecuente que, en la práctica, se utilice la
información probabilística sobre los índices estadísticos para tomar decisiones sobre
pacientes concretos.
95
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
96
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
97
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
menor detalle cuando es aplicable una de más precisión puede ocasionar una pérdida de
eficiencia, haciendo necesario el estudio de un número mayor de individuos para llegar a
los mismos objetivos. Por ello, al realizar las mediciones de las variables de un estudio y al
codificar sus valores se debe conservar la escala de mayor detalle posible, salvo que
existan razones claras para lo contrario.
98
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
válidas, es recomendable utilizar algún método que no sea dependiente de ningún sistema
operativo o programa concreto, como puede ser un archivo de texto ASCII, ya sea
creándolo directamente con un simple editor de programas o exportándolo desde una hoja
de cálculo o base de datos. Ello permite procesar los datos en cualquier ordenador y
compartirlos con otros investigadores.
Si se utiliza una hoja de cálculo (sirve cualquiera) para la creación de la tabla de
datos, la información de cada individuo de la muestra debe ir en una fila y cada variable en
una columna distinta, formando una matriz de datos o fichero rectangular a partir del cual
pueden comenzar a trabajar los paquetes de software estadístico. Es conveniente, además,
que la primera fila contenga los nombres de las variables y que estos sean cortos (hasta 8
caracteres), sin signos distintos de letras y números y sin espacios entre ellos, que
comiencen con una letra y que (en la medida de lo posible) sean indicativos del contenido
de la variable medida. También es preferible que la información sea registrada utilizando
solo dígitos. Para ello, en caso de variables medidas en una escala dimensional se escribirá
directamente su valor. Para las ordinales se registrará el puesto de orden del individuo. En
el resto de las escalas habrá que codificar asignando un código numérico a cada uno de los
posibles valores distintos. Así mismo, conviene utilizar un código específico para los
valores perdidos o ausentes y que, si es posible, éste sea el mismo para todas las variables;
para ello, se puede elegir un número que no sea un resultado plausible de ninguna de las
mediciones. Por supuesto, nunca hay que olvidar que el cero no es lo mismo que la
ausencia de medición. Siempre debe haber una variable de identificación del individuo,
pero es preferible que en la tabla de datos no figure el nombre del paciente o alguna otra
variable que permita su identificación, en su lugar se puede utilizar el número de orden de
entrada en el estudio o alguna otra clave que relacione el registro con el individuo a que
corresponde.
Un problema particular se puede presentar con las variables que pueden tener
códigos mutuamente no excluyentes. Por ejemplo, un paciente podría ser tratado con
alguno de estos antibióticos: (0) Amoxicilina, (1) eritromicina, (2) ofloxacino, (3) amoxi-
clavulanico y (4) azitromicina; o con cualquiera de las combinaciones de los mismos. Si en
un estudio se quisiera evaluar el efecto del tipo de antibiótico, en lugar de registrar el
tratamiento con una sola variable (en ese caso, la variable "tratamiento" podría tomar los
valores 0, 1, 2, 3 ó 4 y también 1 y 2, 1y 3, 1 2 y 3, etc. pero de esta forma no sería
analizable), debería haber tantas variables dicotómicas como antibióticos distintos y cada
una ser codificada como (0) no y (1) sí (o alguna alternativa equivalente).
99
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
Identif Edad Mujer Estadio Qterapia Rterapia Cirugia Recidiva Tseguim · Variable m
Sujeto 1 67 0 0 1 1 1 0 14 · ·
Sujeto 2 78 0 4 1 0 1 1 17 · ·
Sujeto 3 59 1 3 1 0 0 1 10 · ·
· · · · · · · · · · ·
· · · · · · · · · · ·
Sujeto n 64 1 3 0 1 1 0 18 · ·
IDENTIFICACIÓN DE OUTLIERS
Un outlier es un valor extremo que "llama la atención" debido a la existencia de un
intervalo vacío grande, sin observaciones, entre él o ellos y los valores del conjunto de los
datos. Por ejemplo, en el histograma representado en la figura 1de la segunda parte de
estos apuntes se identifican dos casos separados de los demás datos en el extremo superior
de la distribución; esas dos observaciones pueden considerarse outliers. Además, los
outliers pueden ser identificados también mediante diversas técnicas estadísticas (en el
epígrafe sobre gráficos se describe un posible criterio para identificar y representar outliers
en un "gráfico de caja").
Los outliers son con frecuencia resultado de errores durante la medición o
transcripción de la información. También pueden deberse a la inclusión en el estudio de
individuos heterogéneos, que no se ajustan a los criterios de selección establecidos.
Cuando se tiene la seguridad de que un outlier (u otro dato, claro) es un error lo que hay
que hacer es corregirlo o, si no es posible, eliminarlo. A veces el valor del dato es
imposible (p. ej., en un estudio con adultos, un peso del paciente de 8,7 Kg) o se trata de
100
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
alguna otra equivocación obvia, pero en muchas otras ocasiones es difícil llegar a saber
con seguridad si el outlier es un error o un valor atípico pero correcto.
El problema que plantean los outliers es que unos pocos de ellos pueden llegar a
afectar de manera importante a los índices y estadísticos que, como la media o el
coeficiente de correlación de Pearson, son sensibles a los valores extremos, o empeorar el
ajuste de los modelos estadísticos utilizados para el análisis (p. ej, como en el ANOVA o
en la regresión lineal).
En general, no se debe eliminar o excluir un dato de un análisis sólo porque sea un
outlier y empeore el ajuste del modelo que se está utilizando o parezca afectar a los
resultados de una manera no conveniente. En caso de que suceda esto, se deben utilizar
métodos alternativos de análisis que sean menos afectados por los outliers, como los
basados en medianas y percentiles y las técnicas estadísticas no paramétricas. También
cabe la posibilidad de probar diversas transformaciones matemáticas de los datos, a fin de
encontrar alguna que reduzca los efectos de los valores extremos.
101
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
102
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
CAPÍTULO 10
LA DESCRIPCIÓN DE UN GRUPO
La finalidad es elaborar índices resumen que permitan juzgar tanto la posición de
un individuo dentro del grupo como la del grupo con respecto a otros. Así mismo, son
importantes la forma de la distribución y la dispersión de los valores. Los instrumentos
utilizables con estos propósitos son las tablas de frecuencias, las gráficas y los índices de
tendencia central, de posición o de frecuencia relativa acumulada y de dispersión.
103
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
GRÁFICOS
Mientras que con buenas gráficas y tablas se consigue presentar la información de
manera más clara que con texto, también es cierto lo contrario, pues si no son
correctamente realizadas puede confundir totalmente al lector. El propósito de las gráficas
es facilitar que el destinatario perciba la información relevante de forma inmediata; por
tanto, no deben exigir al lector un proceso de meditación concentrada para interpretar y
comprender lo representado. Al realizar una gráfica, se debe evitar toda complejidad que
no añada información útil (p. ej., una falsa tercera dimensión), hay que rotular los ejes e
indicar la unidades de medida y es preferible que las escalas comiencen por cero, ya que de
lo contario se transmite fácilmente una impresión falsa (y la primera impresión trasmitida
por un gráfico debe ser la correcta).
Hay dos tipos clásicos de gráfica para la representación de los valores de una
variable en un grupo: el "histograma", para variables medidas en escala dimensional, y el
"gráfico de barras" para datos nominales y ordinales. En estos gráficos, los valores de la
variable descrita se representan en el eje de las X. Además de estas dos clases, también se
presentan a continuación los gráficos de "tallos y hojas", los de "sectores circulares" y los
de "cajas", pues son utilizados con frecuencia, y alguno con ventaja.
En la figura 1 se representa un histograma en que se recoge la distribución de los
ingresos de 295 trabajadores de determinado sector económico. En un histograma, el
recorrido de la variable se divide en un número adecuado de intervalos que se representan
en el eje de las X, el cual tiene una escala es proporcional a los valores de la variable.
Sobre el segmento del eje de las X que representa los valores de cada intervalo se levanta
un rectángulo cuya anchura es, por tanto, proporcional a la amplitud del intervalo
representado (detalle que no debe ser olvidado en caso de que no todos los intervalos
tengan el mismo tamaño) y cuya altura se ajusta de forma que el área sea proporcional a la
104
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
105
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
30
Frecuencia
20
10
0
10 00,00 20 00,00 30 00,00 40 00,00
Sueldo (e uros)
70 Estadio tumoral
60
I
50
IV 51,00
40 68,00
30
20 II
Frecuencia
27,00
10
III B III A
0 36,00 18,00
I II III A III B IV
Estadío tumoral
106
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
Existe un tipo de gráfico, llamado gráfico de cajas o box plot, que se basa en
cuantiles en lugar de en estadísticos paramétricos, y que informa a la vez de la posición y
dispersión del 50% de los valores centrales, de la simetría y dispersión de la distribución y
sobre los outiliers. La figura 2 es un box plot en que se representan los mismos datos que
en el histograma de la figura 1.
5500 259
Box plot:
5000
4500
289 Los bordes superior e inferior del rectángulo son el percentil 75 y 25 (3º y 1º cuartil). La
4000
altura del rectángulo corresponde al rango intercuartílico o diferencia entre percentil
3500
3000
75 y 25; por tanto, el 50% de los valores centrales están comprendidos en él. La línea
2500 interior del rectángulo es la mediana. Las líneas verticales que parten hacia arriba y
2000 abajo desde el centro de los bordes superior e inferior del rectángulo se extienden
1500 hasta el último dato que no es considerado un outlier (se pueden utilizar diferentes
1000
criterios para esta decisión, como se explica en el texto). El programa utilizado para
Euros
500
0
realizar el gráfico señala los outliers con un símbolo distinto según estén más o menos
N= 295
alejados e identifica el caso.
Sueldo de 295 trabajadores
Los datos del box plot de la figura 2 tienen una mediana de 1494 euros y los
percentiles 25 y 75 son, respectivamente, 1056 y 2151 euros. Por tanto, estos son los
valores representados por los bordes superior e inferior del rectángulo y por la línea
interior. La distancia entre los percentiles 25 y 75 es 1095 euros, representados por la
altura del rectángulo. En este ejemplo, para determinar la longitud de las líneas verticales,
se ha utilizado el criterio propuesto por Tukey. Así, se consideran outiliers los valores que
están a más de 1,5 veces el rango intercuartílico de los bordes del rectángulo. Por arriba,
por tanto, la raya vertical llega hasta 3597 euros, pues es el dato mayor de entre los que son
inferiores a (2151 + 1,5 X 1095 =) 3793,5 euros (el "tope" horizontal sólo tiene finalidad
estética). Por debajo la raya alcanza hasta el dato más alejado, siempre que sea mayor que
(1056 - 1,5 X 1095 =) -586,5 euros, lo que corresponde a un trabajador que gana 118
euros. Los dos valores externos a estos límites son señalados como outliers (en los datos
representados nadie gana menos de -586,5 euros). Tukey propone, además, distinguir dos
clases de outiliers, los que están separados de los percentiles 25 y 75 entre 1,5 y 3 veces el
rango intercuartílico y los que están todavía más alejados. A los primeros los llama outliers
"internos" y a los segundos "externos" o valores extremos; el SPSS, programa con el que
se ha realizado el box plot de la figura 2, utiliza símbolos distintos para unos y otros y
107
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
señala ambos con la identificación del caso a que corresponden. Otros programas utilizan
por defecto criterios distintos para los outliers.
Los histogramas, polígonos de frecuencias, gráficos de tallos y hojas, box plots,
gráficos de barras y gráficos de sectores circulares son las herramientas principales para la
representación de una variable en un grupo de individuos. También se pueden utilizar para
representar en la misma gráfica la distribución de una variable en distintos grupos, a fin de
compararlos; ello es más fácil con polígonos de frecuencias, mediante líneas distintas para
cada grupo, y con box plots contiguos que con histogramas superpuestos, en caso de datos
cuantitativos, y con gráficos de barras que con sectores circulares, si los datos son
categóricos (ver figura 3).
Figura 3: Box plot y gráfico de barras de dos grupos
120
Sueldo según el sexo
110
5500 295
100
5000
90
4500
294
80
4000
70
3500
60
3000
Número de individuos
50
2500
40
2000
30 Sexo
1500
20
1000 Hombres
10
Euros
500 0 Mujeres
0 No Sí
N= 188 107
Además de para representar una sola variable, también se utilizan las gráficas para
mostrar la relación entre dos o más de ellas. Así, por ejemplo, en las llamadas gráficas de
supervivencia se representa la proporción acumulada de individuos de uno o más grupos en
que ha ocurrido un evento a lo largo del tiempo; en las gráficas de dispersión se
representan los pares de valores de dos variables relacionadas, en las gráficas de
"secuencias" se recoge el valor de una variable a lo largo de intervalos de tiempo iguales,
entre otras muchas posibilidades y tipos de gráfico. En la figura 4 se recoge un ejemplo de
cada uno de los tres tipos citados.
108
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
15
Supervivencia Casos de tuberculosis
1,2 14
12
1,0
10 10
,8
Duración del ingreso (días)
8
Proporción acumulada
,6
Número de casos
6
5
,4 4
2
,2
0
0,0 0 2001 2003 2005 2007 2009 2011
0 10 20 30 40 50 60 0 20 40 60 80 100 2002 2004 2006 2008 2010 2012
109
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
distribución es asimétrica. Finalmente, como muchos datos con importancia clínica son de
naturaleza categórica u ordinal, la media no siempre es utilizable.
La mediana es una observación tal que la mitad de los datos están por encima de
ella y la otra mitad por debajo. Aunque hay menos técnicas estadísticas basadas en la
mediana que en la media, cada vez se usa más en investigación clínica, pues no es afectada
por los outliers, es una mejor descripción de las distribuciones asimétricas y se puede
utilizar también con datos semi-dimensionales y ordinales y en caso de datos de
seguimiento longitudinal incompleto.
Las principales diferencias entre la media y la mediana se dan en las distribuciones
excéntricas, como lo son las "centrífugas", las "centrípetas" pero asimétricas y las
simétricas pero con outliers importantes en uno de los extremos. Cuando los datos se
distribuyen de esta manera, lo que es muy frecuente con variables clínicas y biológicas, la
media, la moda y la mediana no coinciden, como puede verse en la figura 5.
Probablemente, en casos como el de la figura sea preferible la mediana, pues al ser menos
influida por los extremos está más próxima que la media a los picos de frecuencia de la
distribución, correspondientes a los datos más típicos, y siempre se sitúa entre los valores
centrales.
Peso de 11 niños
La media, la moda y la mediana son distintas cuando la
Niño Simétrica Con outlier
1 1 1
distribución es asimétrica. En distribuciones sesgadas a la
2 2 2 derecha, como la representada, el orden es: moda < mediana <
3 4 4 media; y en sesgadas a la izquierda es el contrario (media <
4 4 4 mediana < moda).
5 5 5
6 5 5
La media depende de la magnitud del dato, por ello es muy
7 5 5
8 6 6
afectada por los outliers. La mediana solo depende de la posición
9 6 6 ordinal y no cambia aunque el valor de los datos extremos se
10 8 8 modifique. En la tabla se comprueba que el cambio de 9 a 97 del
11 9 97 extremo hace que la media pase de 5 a 13 pero no modifica la
Media 5 13
mediana (Ejemplo tomado de la Ref.)
Mediana 5 5
110
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
Al finalizar el estudio
Sujeto Recidiva Meses Meses hasta la recidiva
Los estudios en que se sigue a los sujetos para medir el tiempo que tarda en aparecer un evento
2 Sí 2 2 se llaman "Estudios de Supervivencia", sea cual sea la naturaleza del evento de interés.
3 Sí 2 2
5 Sí 3 3
Si al final del estudio no se ha producido el evento en todos los sujetos, y/o no se tiene constancia
6 Sí 4 4
8 Sí 5 5
de ello en alguno por haber sido perdido previamente, entonces la media del tiempo de
11 Sí 8 8 seguimiento, sea en el total de sujetos o sólo en los que se ha dado el evento, no es útil para
1 No 12 13
valorar la incidencia del fenómeno, pues además de depender de ella también depende de la
4 No 12 15
7 No 12 17
duración del seguimiento.
9 No 12 19
10 No 12 24 Este problema no se da con la mediana (ni con otros cuantiles) del tiempo de "supervivencia" ,
Media 7,64 10,18
por lo que es preferible para la descripción del fenómeno.
Mediana 8 8
111
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
Quizá la principal razón por la que la mediana no tiene un papel más preponderante
es que la mayoría de las técnicas de inferencia estadística populares (contrastes de
hipótesis, estimación de intervalos de confianza,...) se basan en la media. Por eso, es
frecuente que, aunque se aprovechen sus ventajas y se utilice la mediana para la
descripción de los datos, a la hora de estimar los valores poblacionales o de realizar
comparaciones entre grupos se regrese a la media. Sin embargo, a medida que se extienden
los métodos no paramétricos y las técnicas basadas en la simulación informática de
muestras, cuya lógica es más clara y directa y cuyos resultados son más robustos (ver más
adelante), la mediana va, si no desplazando, al menos ocupando una parte del terreno que
era de la media.
112
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
113
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
En la figura se puede ver que a un niño de 6,1 años, que está a 1,1 años de la
media, le corresponde la misma "Z" que a un joven de 30 años, que supera a la
media de su grupo en 5 años.
En otro ejemplo similar, en una maternidad en que la media y DS del peso de los
neonatos fuera 2,9 ± 0, 3 Kg un niño que pesara al nacer 2.210 g sería tan "llamativo"
como uno que pesara 2.750 g en otro lugar en que la media y la DS fueran 3,9 ± 0,5 Kg,
pues la puntuación "Z" de su peso sería -2,3 en ambos niños.
Hay un diferencia importante entre los cuantiles y las puntuaciones Z. Mientras que
los primeros pueden ser interpretados como probabilidades, ello, salvo que se conozca la
forma de la distribución, no es posible con las "Z". Así, por ejemplo, si se sabe que el
percentil 25 del peso al nacer en una maternidad es 2.300 g también se sabe que la
probabilidad de que un niño pese igual o menos de 2.700 es 0,25 o, dicho de otra forma, el
114
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
75% de los neonatos pesarán más de 2.700 g. Sin embargo, si se sabe que la media de la
población es, por ejemplo, 2,9 Kg y la DS 0,5 Kg, se puede calcular el Z que corresponde a
cada valor del peso; así, por ejemplo, a 2.700 le corresponde un Z de [(2,7 - 2,9)/9,5=]-0,4;
pero, ¿cuál será su probabilidad? En principio, no es posible contestar a esta pregunta.
Ahora bien, si, además del valor Z, se conoce la distribución, en el sentido de que existe
una ecuación matemática de la curva de probabilidad, entonces, mediante procedimientos
de análisis matemático o mediante simulación informática, es posible calcular cuántas
veces aparece un valor de Z menor o igual a -0,4. De hecho, "todo el mundo" sabe que, si
la distribución es normal, una Z ≤ -1,96 aparece en el 2,5% de los casos y, por el mismo
método por el que se ha llegado a este resultado, se podría determinar, también, que una Z
≤ -0,4 (y, por tanto, un peso ≤ 2.700 g) aparecerá en el 34,5% de los niños de la
maternidad.
Por último, puede ser necesario también comparar la dispersión entre grupos. Si las
unidades y la magnitud de los valores son similares en una y otra muestra, entonces se
pueden utilizar directamente las DS. P. ej., la distribución de las edades es más compacta
en una ciudad en que los habitantes tienen 56 ± 34 años (media y DS) que en otra con 54 ±
59 años. Pero, ¿cómo comparar la dispersión de la distribución de, por ejemplo, los salarios
de los trabajadores de un sector económico de un país, cuya media y DS en 2012 fueron
58.993 ± 11.108 $, con los del mismo sector de otro país, con media y DS de 12.496 ±
5.993 $? En principio, la variabilidad es mayor en el primer país, pues su DS es 5.115 $
mayor. Pero, sin embargo, los salarios también son mayores en él. Cuando interesa
independizar la DS de las unidades y magnitudes de la variables se puede calcular el
"Coeficiente de Variación" (CV), que no es otra cosa que la relación entre la DS y la media
o, si se multiplica por 100, el porcentaje que la DS supone sobre la media. Así, en este
ejemplo, el CV de estos sectores económicos es (11.108/58.993=) 0,19 y (5.993/12.496=)
0,48. Por tanto, en este ejemplo la impresión que se obtiene cuando se independizan los
resultados de las diferencias entre las medias es la contraria a la inicial.
El CV puede servir también para juzgar si la media es un índice adecuadamente
representativo de los valores típicos de una distribución, pues cuando el CV es muy alto,
entonces la variabilidad es tan grande que, quizá, no se pueda hablar con propiedad de
valores centrales típicos y, en consecuencia, la media puede no ser un buen "representante"
del conjunto de los datos. No obstante, no se han establecido "puntos de corte" en los
valores del CV que distinguirían entre uno y otro caso.
115
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
116
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
CAPÍTULO 11
LA INFERENCIA ESTADÍSTICA
La razón principal por la que se toman muestras es porque se desea conocer cómo
son las poblaciones y, como éstas no son accesibles, se busca extrapolar al conjunto de los
individuos lo que se ha observado en unos cuantos de ellos. Por tanto, lo habitual es que se
disponga de una muestra de n individuos en los que se han medido las variables y atributos
de interés. Esas mediciones se resumen y presentan en la forma de algún estadístico
apropiado para los fines del investigador (la media de la presión arterial, la proporción con
cierto tipo histológico, la mediana de la supervivencia, etc.). Sin embargo, el estudio no se
ha realizado para saber lo que sucede en los n sujetos de la muestra, sino que lo que
interesa realmente es saber lo que sucedió, sucede o sucederá en todos los individuos en
una situación similar a la de los elementos de la muestra estudiada. Es decir, interesa saber
el valor en la población del mismo estadístico que se ha medido en la muestra.
Las técnicas de Inferencia Estadística (IE) deducen los valores plausibles en la
población (VP) a partir de la información contenida en una muestra, utilizando para ello la
forma en que se distribuyen los valores de dicho estadístico (VM) cuando se toma de la
misma población un número indefinidamente grande de muestras del mismo tamaño n; es
decir, utilizando las propiedades de la llamada "distribución en el muestreo" (DM) del
estadístico en cuestión.
EL ERROR DE MUESTREO
Aunque puede suceder que el VP sea igual al VM, lo esperable es que exista cierta
diferencia entre ambos, pues en la muestra no están representados todos los individuos de
la población. Por ello, si se atribuye a la población el valor observado en la muestra se
comete un error, llamado error de muestreo. Sin embargo, en la medida en que la muestra
sea representativa de la población, es posible deducir la cuantía probable de dicho error.
117
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
Cuando la muestra es probabilística (como, por ejemplo, lo sería una muestra aleatoria
simple), la diferencia entre el VP y el VM se debe al azar (pues el azar es el único factor
responsable de que un individuo de la población haya sido o no seleccionado). En
consecuencia, si se equipara el VP con el VM, el error muestral que se comete es también
aleatorio. Pues bien, como se ha dicho, en la medida en que el error sea aleatorio las
técnicas de IE permiten calcular la probabilidad de que ese error alcance determinado
valor. Sin embargo, cuando la muestra no es probabilística es necesario descartar que el
error de muestreo tenga algún componente debido al sesgo de selección, ya que esta clase
de error no es "acotada" por la IE. En principio, la única forma de "valorar" el error debido
al sesgo es mediante el empleo del "juicio informado" de cada receptor de los resultados.
Esta es una diferencia importante entre ambas clases de error: mientras la información
sobre el aleatorio se puede considerar objetiva, la referente al sesgo está sujeta al juicio de
cada cual.
Cuando el muestreo es representativo y, por tanto, el error de muestreo es de
naturaleza aleatoria, al tomar de forma repetida de una población muestras del mismo
tamaño e independientes entre sí, tanto la magnitud absoluta como el signo del error
cambian de unas a otras; en consecuencia la media del error de todas ellas tiende a ser cero.
Si, por el contrario, existe algún sesgo de selección se añade al error de muestreo aleatorio
un componente sistemático cuya media no es cero, ya que su valor es similar en todas las
muestras.
El error de muestreo debe reducirse hasta una magnitud tal que no suponga un
peligro inaceptable de que el estudio no logre sus objetivos. Pero la actitud del investigador
frente a sus dos componentes no debe ser la misma. Como el componente debido al sesgo
no es manejable de forma objetiva, se debe hacer lo posible para que ningún destinatario
razonable del estudio pueda considerar plausible su existencia. El error aleatorio, sin
embargo, puede ser ajustado para conseguir un compromiso aceptable entre el número de
sujetos y los medios empleados, por un lado, y la posibilidad de conseguir los objetivos
buscados, por otro, ya que, en último término y gracias a la Estadística, se podrá juzgar
objetivamente su posible influencia.
Pese a lo dicho, es muy frecuente que en investigación clínica se utilicen muestras
no probabilísticas. Ello se debe a que a menudo no existe otra alternativa viable en la
práctica (como suele ser el caso en los ensayos clínicos, en que no existe una población
identificada de pacientes de la que tomar una muestra aleatoria) y, en todo caso, es
aceptable si existen garantías razonables de ausencia de sesgo (p. ej., mediante un muestreo
118
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
consecutivo) o, al menos, de que no se ve afectada la validez interna del estudio. Así, por
ejemplo, en la comparación entre dos subgrupos formados por asignación aleatoria de los
miembros de una misma muestra, el hecho de que no quede clara la procedencia y
representatividad de dicha muestra dificultará la posibilidad de generalizar los resultados a
algún tipo concreto de paciente, pero puede no afectar a la validez del resultado de esa
comparación. En un caso así, la posibilidad de sesgo de selección afecta a la validez
externa, pero no a la interna.
En cuanto a la terminología, a las consecuencias del sesgo se les llama falta de
"exactitud" o de "validez" y a las del error aleatorio se les llama "imprecisión".
En lo sucesivo y salvo que se diga otra cosa, cuando se mencione a la población y a
la muestra, se entenderá que ésta última es representativa de la primera, de forma que entre
ambas solo quepan diferencias o errores aleatorios.
ESTADÍSTICO (DM).
119
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
120
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
En cualquier caso, lo que importa es que, sea cual sea el procedimiento utilizado
para ello, si se conocen las propiedades de la DM pertinente es posible calcular la
probabilidad de distintos valores muestrales, y esto es la base de la IE.
Así, por ejemplo, las propiedades de la DM de las medias, demostradas
matemáticamente por la teoría estadística, son las siguientes:
1.- La media de la DMM, es decir, la media de los elementos de la DMM, que son las
medias del indefinido número de muestras que se han tomado hipotéticamente, es igual a la
media poblacional (µ) que se quiere conocer.
2.- La desviación estándar de la DMM es igual a la DS de la población muestreada
dividida por la raíz cuadrada del tamaño de las muestras que la forman. A la desviación
estándar de la DMM se le llama error estándar de la media (S) y se calcula con la fórmula:
S= σ/raiz(n) (en general, a la DS de la DM de un estadístico se le llama error estándar de
dicho estadístico y su tamaño es menor cuanto mayor es el tamaño de las muestras que
forman la DM).
3.- La DMM se aproxima adecuadamente a la normalidad si la población muestreada es
normal o, aunque no lo sea, si n es suficientemente grande (debido al teorema central del
límite). El valor de n que es suficiente depende en cada caso de lo mucho o poco que se
desvíe de la normalidad la población muestreada. Para el caso de la media, se suele
considerar que con muestras de 30 o más elementos se puede tratar a la DMM como si
fuera normal.
Como puede verse, la DMM de la figura 1, formada empíricamente al generar
informáticamente muchas muestras independientes de tamaño 40, cumple bien estas
propiedades, pues la media calculada con el millón de muestras simuladas coincide con la
de la población y la DS es 3,17 cifra igual al resultado de la fórmula indicada más arriba
(S= σ/raiz(n) = 20,1/raiz(40) = 3,17). Además, aunque la población no es normal, la forma
de la DMM de la figura 2 se acerca mucho a la de la distribución normal, con lo que el
resultado empírico concuerda con la tercera propiedad de la DMM, al ser n ≥ 30.
121
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
122
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
123
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
sumar y restar a la media muestral 2,58 veces el error estándar de la media (S), en lugar de
las 1,96 veces S que eran necesarias para el IC95%, mientras que para un IC90% el valor
correspondiente sería 1,64 veces S. Estos valores corresponden a los puntos de corte de la
normal que engloban el 99% y el 90% de los datos, respectivamente (sin olvidar que si no
se conoce σ ni es posible estudiar empíricamente la DMM aplicable, en lugar de los
percentiles de la Normal hay que utilizar los de la distribución de Student apropiada).
Como es también de esperar, si la estimación está basada en una muestra de tamaño
mayor, la DS de la DM pertinente para el caso es menor y la imprecisión se reduce. En
consecuencia, la amplitud del IC para un determinado nivel de confianza es menor cuanto
mayor es el tamaño muestral (n), y al contrario. No obstante, la relación entre imprecisión
o anchura del IC y n no es directa; de hecho, para la media, mediana, DS y otros
estadísticos dicha anchura es proporcional al inverso de la raíz cuadrada de n.
El razonamiento para el cálculo de los límites del intervalo de confianza de un
estadístico y para su interpretación es el mismo, sea cual sea el estadístico (media,
mediana, DS, proporción, etc.) pero, sin embargo, para su cálculo hay que atenerse a las
características de la DM apropiada, deducidas teóricamente u observadas empíricamente,
pues éstas son distintas para cada estadístico. Por ejemplo, mientras que los IC de algunos
estadísticos, como la media, son simétricos en torno a su valor muestral, los de otros, como
las proporciones, son asimétricos en uno u otro sentido.
En cuanto a la interpretación, un IC informa tanto de la magnitud de la variable o
atributo de interés, pues incluye el valor puntual del estadístico, como de la imprecisión o
error aleatorio de la estimación, pues indica el rango de valores que con cierta probabilidad
contiene el valor verdadero poblacional. Al contener a la vez la magnitud más plausible en
la población y la incertidumbre asociada, los IC son una de las mejores formas de expresar
y comunicar el resultado de la inferencia realizada a partir de una muestra. Al incluir
ambos aspectos, permiten juzgar la importancia del dato (responder con criterio médico a
la pregunta sobre si un resultado es grande/importante o pequeño/irrelevante) y hacerse una
idea de los valores que cabe descartar (no esperables) por muy improbables. Sin embargo,
para una interpretación correcta hay que tener en cuenta que los valores incluidos en un IC
son menos probables cuanto más próximos a sus límites y no olvidar que un IC informa de
la probabilidad de que el valor real del estadístico poblacional esté entre ciertos límites,
pero no, o al menos no directamente, sobre la distribución de los valores en los individuos
de la población. Así, por ejemplo, si la media de supervivencia en una muestra fuera 30
meses y los límites de su IC95% fueran 10 y 50 meses, sería mucho menos probable que el
124
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
125
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
126
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
mismo sujeta a cierta imprecisión, derivada del hecho de que se ha utilizado la DS de una
muestra en lugar de la DS de toda la población. Como consecuencia de esta imprecisión
adicional, el intervalo que contiene el 95% de las observaciones individuales de la DMM
ha de ser corregido y, así, en lugar de ser la media de la muestra ± 1,96 veces la cantidad
"σ/raiz(n)", pasa a ser la media ± t(n-1) veces la cantidad "DS de la muestra/raiz(n)". El
valor de t(n-1) depende del tamaño muestral y del nivel de confianza deseado y está tabulado
o se puede calcular mediante una fórmula (en concreto, se trata de la distribución de
probabilidad teórica llamada t de Student). Por ejemplo, en el caso de n=40 y para un nivel
de confianza del 95%, t(n-1) es igual a 2,02. Como se ha dicho, todo esto depende de que sea
cierta la normalidad de la DMM, lo cual, a su vez, puede depender directamente de que el
tamaño muestral sea de 30 o más individuos.
Por tanto, los límites del IC_95% de la media de edad serían: Lím. IC_95% =
Media muestral ± 2,02 X (DS de la muestra/raiz(n)) = 24,9 ± 2,02 X 2,7/Raiz(40) = 24,0 a
25,7 años.
El verdadero valor poblacional estará entre esos límites con una probabilidad de
0,95 o, dicho de otra forma, si se extrae una muestra aleatoria y se calcula un intervalo en
torno a su media con este método, el 95% de tales intervalos debe contener el verdadero
valor de la media de la población.
En este punto el problema está resuelto. Sin embargo, se va a comprobar si,
efectivamente, el 95% de los IC_95% calculados por el procedimiento descrito contiene en
verdadero valor de la media poblacional. Ello es posible al ser el anterior es un ejemplo
inventado en el que los 40 alumnos de los que se sabe la edad, en realidad se han obtenido
simulando informáticamente un muestreo aleatorio de una población artificial de media y
DS: 24,3 ± 2,4 años y cuya distribución se recoge en la figura 4.
Para ello, igual que se hizo en un ejemplo anterior, se han generado 400 muestras
aleatorias simuladas y se han calculado los límites de los 400 IC_95% correspondientes
127
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
con el mismo procedimiento que el utilizado con la muestra de 40 alumnos (Lím. IC_95%
= Media muestral ± 2,02 X (DS de la muestra/raiz(n)) ). En la figura 5 se representan los
400 límites, junto con la media poblacional.
Como puede verse en la figura 5, la media poblacional es menor que el límite
inferior del IC95% en 14 de tales intervalos y mayor que el superior en otros 5 (19
intervalos de 400: 4,75%); por lo que nuevamente se cumple bien la condición de que solo
el 5% de los IC95% no abarquen el valor poblacional, pese a que ahora sólo se conocía
para su cálculo la DS de una única muestra.
Por tanto, en este ejemplo, en lugar de generar una DMM empírica se han utilizado
la propiedad teórica de las DMM formadas con muestras de tamaño igual o superior a 30
consistente en que cuando se estima S (la DS de la DM) partir de la DS de una muestra, las
diferencias entre los individuos de la DMM (es decir, las medias de las muestras
individuales) y la media de la DMM siguen la distribución t de Student.
128
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
de significación del contraste (el contraste es más significativo cuanto menor sea la
probabilidad citada). El riesgo máximo admisible de esa clase de error se llama
probabilidad alfa y es, por tanto, el nivel de significación predeterminado que debe
superarse en un contraste para rechazar la hipótesis. Sin embargo, el que no se consiga
llegar al nivel de significación predeterminado no implica que el valor poblacional sea
igual al hipotético, como puede entenderse fácilmente con solo considerar que hay otros
muchos posibles valores que tampoco podrían ser rechazados con los datos de esa muestra
y utilizando la misma lógica y si eso equivaliera a la demostración de dichas hipótesis,
entonces el valor poblacional sería igual a todos esos valores a la vez, lo que es absurdo.
Por tanto, el método de decisión que se ha expuesto es capaz de descartar valores pero no
de confirmarlos. Si no se supera el nivel de significación predeterminado, el resultado, en
principio, es equivalente a no poder decidir sobre la hipótesis por no disponer de
información suficiente, pues no se puede rechazar que el valor poblacional sea el
hipotético, por exceso de riesgo de errar, pero tampoco afirmar que lo sea, pues en realidad
en estos contrastes no se juzga de forma directa esta cuestión.
En cuanto a la realización práctica de un contraste, imagínese, por ejemplo, que se
desea conocer si en los pacientes con una determinada situación clínica que acuden a cierta
consulta es más frecuente un sexo que otro y se comprueba que 9 de los 10 casos que han
sido atendidos son mujeres.
En este ejemplo, la hipótesis "científica" (H) que se desea probar es que la
proporción de hombres es distinta de la de mujeres. Evidentemente, cuando se afirma que
un sexo predomina sobre el otro, ello no se refiere a los 10 pacientes (en ellos la respuesta
es clara), sino a la población de donde proceden los pacientes que acuden a esa consulta.
La conclusión sobre H depende de lo probable o improbable que sea que en una muestra
aleatoria de 10 pacientes haya una disparidad entre las proporciones de ambos sexos tan
grande o mayor que la observada de no ser cierta H.
Para calcular esta probabilidad, se pueden extraer muchas muestras independientes
de n = 10 de una población en que la proporción de hombres sea igual a la de mujeres (y
ambas iguales a 0,5), formar la DM pertinente, y comprobar si la obtención de una muestra
en que la disparidad de sexos sea tan grande o más que la observada en los 10 pacientes de
la consulta es un evento frecuente o infrecuente en caso de que en la población no haya una
disparidad de sexos. Ello es posible actualmente gracias a que los ordenadores de uso
corriente tienen la potencia suficiente como para "simular" el proceso. En la tabla 1 se
recoge la distribución de frecuencias del número de mujeres en un millón de muestras de n
129
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
= 10 tomadas aleatoriamente de una población en que las mujeres son el 50% y los
hombres otro tanto.
Tabla 1: Distribución Muestral en muestras de n = 10
Mujeres Hombres N. de muestras % de muestras Distribución del número de
10 0 907 0,09% mujeres y hombres en
1.000.000 de muestras
9 1 9.823 0,98%
aleatorias de n = 10
8 2 43.920 4,39%
procedentes de una
7 3 116.691 11,67%
población con la misma
6 4 205.678 20,57% proporción de ambos sexos.
5 5 245.569 24,56%
4 6 205.797 20,58% En el 2,14% de las muestras
3 7 117.080 11,71% hay 9 ó 10 hombres (1,07%)
2 8 43.868 4,39% ó 9 ó 10 mujeres (1,07).
1 9 9687 0,97%
0 10 980 0,10%
Las muestras en que la disparidad de sexos es tan grande o más que la observada en
los 10 pacientes de la consulta son aquellas en que hay 9 ó 10 mujeres, que suponen un
1,07% del total, y las que tienen 9 ó 10 hombres, que son otro 1,07% del millón de
muestras simuladas. Por tanto, la probabilidad de una muestra tan discrepante o más que la
observada si en la población no predomina ningún sexo es igual a la suma de las
probabilidades de las discrepancias con respecto a la paridad en cada uno de los sentidos:
0,0214 (un 2,14% de las muestras). A ésta probabilidad se le llama "nivel de significación
alcanzado en el contraste" y si es muy baja se puede concluir que el resultado en los 10
pacientes no es plausible si en la población de donde provienen hay la misma proporción
de ambos sexos; por tanto, se concluye que, en realidad, no es cierto que haya una misma
proporción de hombres que de mujeres en esa población. Si, por el contrario, esta
probabilidad no es muy pequeña, entonces lo observado en los 10 pacientes "no llama la
atención" y, en consecuencia, no constituye un argumento en contra de la igualdad de las
proporciones de hombres y mujeres en la población.
Como se ha visto, el procedimiento consiste en la evaluación de una hipótesis, para
rechazarla si su probabilidad es baja o para no concluir en caso contrario. Por tanto, el
contraste no prueba ninguna hipótesis de forma directa. Sin embargo, sí lo hace
indirectamente, ya que si se descarta la hipótesis contrastada directamente queda probado
lo opuesto a lo establecido en la misma. A la hipótesis contrastada directamente se le llama
hipótesis nula (habitualmente representada como H0). Así que la única manera que existe
de probar una hipótesis por este procedimiento es conseguir rechazar su opuesta, que es la
que se juzga directamente en la prueba de significación y a la que, como se ha dicho, se le
llama H0. Por ello, para probar que la distribución de sexos es desigual, lo cual es el
130
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
131
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
132
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
probabilidad real de error si se decide rechazar H0 (error de tipo I), o nivel de significación
alcanzado, sea menor que la máxima admisible (α). Antes se dijo que el investigador puede
elegir cualquier valor de α para su contraste que considere justificado. Como se acaba de
ver, alfa es la probabilidad máxima aceptable de cometer cierto tipo de error, llamado error
de tipo I. Por tanto, uno de los criterios en que se puede basar la elección de su valor puede
ser la gravedad o importancia de las consecuencias de ese error.
Imaginemos ahora que el investigador desea reducir al mínimo la probabilidad de
un error de tipo I y que, para ello, establece una α de 0,01. El contraste sólo se declarará
significativo a un nivel de significación tan elevado o mayor que el 1%, y, como en nuestra
muestra P = 0,0214 (o P = 0,0107 si hubiera sido unilateral), ahora ya no se rechazará H0.
En este caso, lo primero que resulta evidente (y es importante darse cuenta de ello) es que
eso no significa que forzosamente H0 sea correcta. Sería absurdo que si el investigador
decide que no le importa un riesgo algo mayor de error tipo I y elige un alfa de 0,05,
entonces H0 fuera errónea y que si cambia de opinión y quiere reducir el riesgo de ese
error a menos del 1%, entonces la misma H0 sea correcta. Está claro que entre una y otra
situación el único cambio que ha habido se ha producido en la mente del investigador, no
en la realidad de la población de pacientes. Además, aunque en aras de la brevedad no se
presentan los resultados, con la misma muestra de 10 pacientes y al mismo nivel de
significación del 1%, tampoco se rechazarían hipótesis nulas que incluyeran una
desproporción entre sexos del 1%, del 2%, etc. Si el no rechazar H0 equivaliera a
probarlas, entonces la misma muestra serviría a la vez para probar que no hay diferencias
entre sexos y que estas son del 1%, del 2%, etc, lo cual es absurdo. De esto se deduce que,
en principio, un contraste no significativo equivale a no haber podido concluir por falta de
información suficiente y no a haber demostrado alguna igualdad.
Lo cierto es que, se rechace o no la paridad entre sexos (H0), en la realidad esa
hipótesis puede ser correcta o incorrecta. Antes de realizar el contraste no se dispone de
una cuantificación de la incertidumbre. Así, en ausencia de más información, solo se
podría decir que la proporción de mujeres en la población puede oscilar entre el 0% y el
100%. Tras tomar una muestra de 10 sujetos y ver que un 90% son mujeres, ya se podrá
precisar que en la población hay mujeres y que no es imposible que predominen sobre los
hombres. Pero mediante la inferencia (sea contraste de hipótesis o cálculo de un IC) a
partir de esa muestra se consigue utilizar la información contenida en ella para asignar una
probabilidad a los distintos valores posibles, lo que tiene dos ventajas: una mayor precisión
(en el sentido de mayor detalle) y el uso de un método explícito, lógico y objetivo, con lo
133
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
que los resultados dejan de ser cuestión de opinión. En la tabla 2 se representa la situación
tras una prueba de significación con la muestra de 10 pacientes. Ya se ha visto que si se
rechaza H0 hay un riesgo de cometer un error (de tipo I) igual a P y de no cometerlo igual
a (1-P). Pero si, por el contrario, no se alcanza la significación (como sería el caso, por
ejemplo, si α = 0,001) y, en consecuencia, no se rechaza H0, puede suceder que H0 sea
cierta (H falsa), y no se cometa ningún error, o que H0 sea falsa (H correcta) y la decisión
de no rechazarla sea errónea. A esta clase de error, consistente en no rechazar H0 siendo
falsa, se le llama error de tipo II y a la probabilidad de cometerlo se le llama β (explicado
en un apartado específico).
En la tabla 2 se resume la probabilidad de rechazo y no rechazo de H0 dada una de
las dos situaciones reales posibles (que sea o no cierta H0), si se hace un contraste de
hipótesis. Por tanto, estas son las probabilidades de cada uno de los resultados del contraste
que existen antes de la realización, condicionadas a cada una de las dos realidades posibles.
Una conclusión que se deduce esta situación, interesante desde el punto de vista
metodológico, es que si al formular la hipótesis científica el investigador no especifica los
valores de una variable concreta que quedan prohibidos en la realidad si su hipótesis es
cierta, entonces no es posible plantear la hipótesis nula y, en consecuencia, no se puede
aplicar un contraste de hipótesis. Esta es una de las razones por las que en un proyecto de
investigación es necesario plantear al objetivo y la hipótesis de manera operativa.
Tabla 2: Resultados de un contraste de hipótesis
Prueba al nivel de significación: α% (H0: No predomina un sexo)
CONTRASTE
REALIDAD
Rechazo de H0 No rechazo de H0
Paridad de sexos Error tipo I (< α) Correcto (≥ 1 - α)
No paridad de sexos Correcto (1 - β) Error de tipo II (β)
134
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
En los dos casos anteriores, si α se reduce a 0,01, entonces no se podría rechazar H0 por
ser el riesgo de error tipo I superior al máximo aceptable. Como se puede ver, en ambos
casos una pequeña diferencia entre el riesgo real y el admisible es suficiente para cambiar
el sentido de la conclusión formal; esta rigidez puede ser una limitación de esta técnica de
prueba de hipótesis. En este caso, no se puede afirmar la disparidad de sexos por ser
excesivo el riesgo de que sea cierta la paridad (H0), en concreto, un riesgo igual a la P
alcanzada. Pero tampoco se puede considerar probada la paridad, puesto que el
procedimiento utilizado solo tiene capacidad de rechazar la hipótesis que se contrasta
directamente, no de probarla.
¿Qué hubiera sucedido si la hipótesis de interés hubiera sido que en la población
predominan los hombres? Evidentemente, en la muestra sucede lo contrario. Cuando la
muestra observada no discrepa de H0, no es necesario realizar la prueba de significación
para llegar a la conclusión de que no se debe rechazar H0 sobre el argumento de que, si es
correcta, lo observado es implausible, ya que la muestra observada cae de lleno dentro de
la hipótesis nula (H0 sería ahora el predominio de las mujeres o la igualdad de sexos) y,
por tanto, no puede contribuir de ninguna manera a desacreditarla. Pero tampoco en este
caso se podría considerar probada H0.
SIMULACIONES INFORMÁTICAS
135
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
136
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
137
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
138
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
139
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
Tabla 4: Distribución Muestral del num. de infectados en muestras de n=25 de una población con Pinfección=0,4
(Método exacto y aproximaciones empírica y normal)
Probabilidad de un número de infectados ≥ X
Número de infectados (X) Probabilidad exacta Proporción en 2X106 muestras simuladas Aproximación normal
11 4,142E-01 4,142E-01 4,191E-01
12 2,677E-01 2,676E-01 2,701E-01
13 1,538E-01 1,537E-01 1,537E-01
14 7,780E-02 7,795E-02 7,652E-02
15 3,439E-02 3,470E-02 3,310E-02
16 1,317E-02 1,325E-02 1,237E-02
17 4,326E-03 4,348E-03 3,982E-03
18 1,205E-03 1,212E-03 1,100E-03
19 2,807E-04 2,785E-04 2,601E-04
20 5,359E-05 5,250E-05 5,258E-05
21 8,165E-06 9,500E-06 9,071E-06
22 9,543E-07 1,000E-06 1,334E-06
23 8,033E-08 5,000E-07 1,671E-07
24 4,335E-09 0,000E+00 1,780E-08
25 1,126E-10 0,000E+00 1,614E-09
140
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
141
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
142
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
143
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
0,56 y de DS igual a la raíz cuadrada de (px(1-p)/n) que, en este caso es igual a 0,099
(S=raiz(0,56x0,44/25)=0,099; recuérdese que a la DS de la DM de un estadístico se le
llama error estándar de dicho estadístico). De hecho, en la figura 6 siguiente se representa
el histograma de la distribución de la proporción de IN en 2 millones de muestras
simuladas de una población con una tasa de 0,56; como puede verse, esta distribución es
simétrica y su media y DS calculadas empíricamente coinciden con lo establecido por la
teoría.
Dado que en una normal, el 95% de los valores centrales están entre la media ±1,96
veces la DS, el límite inferior del IC95% de la proporción de IN es: "0,56 - 1,96 x 0,099 =
0,365" y el límite superior: "0,56 + 1,96 x 0,099 = 0,755" Aunque estos límites son
aproximados, si se comparan con los binomiales exactos, cuyo valor es 0,349 y 0,756, se
comprueba que son suficientes para fines prácticos.
Por tanto, habrá un 95% de seguridad de que la tasa de IN promedio, mientras no
cambie el riesgo "intrínseco", al repetir las encuestas de la Comisión de Infección estará
entre el 36,5% y el 75,5%.
144
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
145
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
146
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
CAPÍTULO 12
147
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
¿Se puede afirmar que tratar con este fármaco modifica la mortalidad a 28 días tras el
IAM?
La respuesta a esta cuestión se puede obtener mediante un contraste de la
significación de la diferencia entre las dos proporciones (o porcentajes) de mortalidad.
Como no hay ningún criterio por el que a los elementos de un grupo le corresponda alguno
concreto del otro, las muestras son independientes. Además, la prueba de significación
adecuada es bilateral, ya que el interés del investigador se centra en la diferencia en
cualquiera de los dos sentidos posibles entre el grupo tratado y el grupo control.
Finalmente, para llevar a cabo el contraste hay que especificar también la probabilidad
148
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
alfa, o riesgo máximo aceptable de cometer un error de tipo I (rechazar H0 siendo cierta);
supongamos que se acepta el valor convencional de 0,05.
Por tanto, se va a realizar un contraste bilateral de la diferencia de dos porcentajes
(o proporciones) independientes al nivel de significación predeterminado del 5%. Los dos
porcentajes concretos que se quieren comparar son el 15,6% de mortalidad en el grupo
propranolol frente al 37,0% del grupo control.
En una prueba de significación hay que especificar cuál es la hipótesis nula (H0) o
hipótesis contrastada directamente. En este caso, dado que la única posibilidad de "probar"
una hipótesis mediante un contraste de significación es descartar la contraria, para que el
contraste de hipótesis permita demostrar diferencias entre los tratados y los no tratados, la
nula debe ser, precisamente, que no existen tales diferencias.
Por tanto, H0: "Mortalidad con propranolol = Mortalidad entre los no tratados"
Para cuantificar la magnitud de la discrepancia entre H0 y el valor observado en la muestra
(criterio del que depende la conclusión final del contraste) es necesario cuantificar H0. En
este caso, si la mortalidad fuera igual en ambos grupos, los 24 muertos se repartirían
proporcionalmente al tamaño de cada uno de ellos. Así, si globalmente esos 24 muertos
son el 26,4% del total de 91 pacientes y la mortalidad es igual en ambos grupos, entonces
deberá ser de un 26,4% también entre los 45 que reciben el fármaco y entre los 46
controles. Por tanto, al grupo tratado le corresponderían "24X45/91=11,9" muertos y al
grupo control los "24 - 11,9 = 12,1" muertos restantes. En consecuencia, si fuera correcta
H0, los valores esperados cada grupo hubieran sido los que figuran en la tabla 2:
Tabla 2: Porcentaje de eventos en cada grupo
Grupo tratado con propranolol Grupo control TOTAL
Vivos el día 29 33,1 33,9 67
Muertos antes del día 29 11,9 12,1 24
TOTAL 45 46 91
% de mortalidad 26,4% 26,4% 26,4%
149
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
150
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
151
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
152
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
153
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
154
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
155
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
Como se puede ver, antes de la intervención sufrían HTA el 40% y tras ella solo el
20% de los pacientes. A este resultado se ha llegado debido a que en el 26% de los
pacientes se ha producido un cambio de situación: 23 de los que eran hipertensos antes del
trasplante han dejado de serlo y en 3 de los previamente normotensos se ha producido la
evolución contraria. Si la pregunta de interés se refiere a si se modifica o no la prevalencia
de HTA tras el trasplante, entonces la comparación que procede es entre el 60% pre y el
40% post-trasplante.
Si se calculan los esperados de la misma manera que en la prueba desarrollada al
explicar la comparación de muestras independientes, entonces H0 establecerá que tras el
trasplante las proporciones de HTA entre los previamente normotensos y entre los que
antes de la intervención eran ya hipertensos son iguales. Esa hipótesis se refiere a la
asociación entre ser hipertenso antes y después del trasplante y no a los efectos netos del
trasplante sobre el porcentaje de HTA; si se rechaza se concluirá que la proporción de
HTA tras el trasplante en el grupo que previamente también lo era es distinta de la
proporción de HTA post-trasplante en el grupo que previamente era normotenso, y eso no
tiene que ver con la posibilidad de que el trasplante modifique la prevalencia de HTA.
En definitiva, la prueba de la Chi cuadrado se refiere a la asociación entre HTA pre y post-
intervención, pero para evaluar el efecto neto de la misma sobre el porcentaje de HTA lo
que hay que comprobar es si hay más cambios en un sentido que en otro, y esto es lo que
hace la prueba de McNemar.
156
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
157
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
CONFIANZA
158
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
Y el 95% de sus valores estarían comprendidos entre (-21,4% - 1,96 x 0,0894) y (-21,4% +
1,96 x 0,0894) Es decir, el IC95% de la diferencia de la proporción de mortalidad entre
propranolol y control sería de (-0,389 a -0,0388).
Como puede verse, el IC95% no incluye el valor cero; por tanto, la diferencia de
mortalidad es significativamente distinta de cero (P<0,05), resultado que, como era de
esperar, coincide con el del contraste de hipótesis.
En definitiva, la diferencia entre el contraste y el IC está en que mientras en el
primero se calcula un error estándar correspondiente a una DM basada en que H0 es cierta,
para el segundo se utiliza el correspondiente a una DM basada en los valores observado en
la muestra.
Para el cálculo del IC de la diferencia de proporciones relacionadas los
razonamientos son similares, utilizando para el cálculo del IC la DM basada en los valores
observados de cada uno de los dos sentidos del cambio, en lugar de los especificados por
una hipótesis nula. Así, si se toman muchas muestras de n=26 de una población en que la
probabilidad de cambio tras el trasplante desde No HTA a HTA de 3/26=0,115 se obtiene
una DM tal que el 95% de sus valores centrales tienen entre 0 y 5 casos en que el cambio
es en el sentido No HTA a HTA y en el resto de los casos, hasta 26, en sentido contrario,
de forma que se obtienen las distribuciones que figura en la tabla 7.
159
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
mismos que los expuestos para el caso de muestras relacionadas y, por tanto, no se
considera necesario insistir más en ello.
160
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
más 1,96 DS se hallan comprendidos el 95% de sus valores, etc.). A este contraste se le
llama "Prueba Z"
Si, por el contrario, S se ha estimado a partir de las DS muestrales, entonces la DM
de la diferencia de medias es más dispersa que una normal (debido a la incertidumbre
añadida al estimar la DS de la DM) y se ajusta a una distribución de probabilidad, llamada
t de Student, cuya dispersión, además, depende de los tamaños muestrales y del número de
valores que haya que estimar.
Aplicando lo dicho al ejemplo propuesto, la DM de la diferencia de medias
pertinente, bajo H0, será una distribución con media cero. Su DS se estimará a partir de las
DS de las muestras. En este caso, las DS de ambos grupos son muy parecidas, por lo que se
calculará una especie de media ponderada de la varianza de ambas (V común) con la que
se calcula el error estándar de la diferencia de medias ("S" ó DS de la DM de dichas
diferencias de medias). Un detalle teórico es que la validez de la t de Student en este caso
depende de que las DS de los grupos sean iguales, como se ha dado por supuesto en este
ejemplo; sin embargo, si no fuera así, lo único que habría que hacer es utilizar una
corrección apropiada; esta corrección es realizada automáticamente por muchos de los
programas que se suelen utilizar para el análisis de datos.
V común =[(2,72x(40-1) + 2,52x(30-1)]/(40-1+30-1) = 6,85
S = Raiz(6,85/40 + 6,85/30) = 0,63
Seguidamente, hay que comprobar si unas diferencias de edad como las observadas
(24,9 - 23,2 = 1,7 años) o mayores son valores frecuentes dentro de la DM pertinente. Para
ello, se utilizan la propiedades de la distribución t de Student apropiada (en este caso, será
la correspondiente a (40 + 30 -2) = 68 grados de libertad). Se puede comprobar, por
ejemplo en las tablas de dicha distribución, que entre su media y ± 2 veces su DS están
comprendidos el 95% de sus valores. Es decir, en nuestro caso, el 95% de los valores de la
DM estarán comprendidos entre cero (que es la media bajo H0) ± 2 x 0,63 es decir, entre -
1,26 años y +1,26 años. Como la diferencia realmente observada (1,7 años) está fuera de
esta intervalo, resulta estadísticamente significativa frente a cero (P<0,05), por lo que se
puede decir que es poco probable que aparezca una diferencia así, si es cierto que la media
real es cero. En consecuencia, se rechaza H0 y se asume que los matriculados en el
programa B son más jóvenes que los matriculados en el A.
El contraste realizado se llama "Prueba de la t de Student para muestras
independientes" y en este caso ha sido bilateral.
161
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
Si las dos muestras hubieran estado relacionadas, entonces la DM aplicable hubiera sido la
de la media de las diferencias individuales (y no la diferencia de las medias). Por ejemplo,
imaginemos que se quiere evaluar el efecto del tabaco durante la gestación sobre el peso de
los neonatos y que, para ello, se forman 15 parejas de la siguiente forma: por cada mujer
gestante que fuma se busca otra con la misma edad (± 2 años) y con la misma paridad. De
esta forma, se obtiene un grupo de 16 fumadoras y de 16 controles con la peculiaridad de
que a cada individuo de un grupo le corresponde uno concreto del otro:
Tabla 6: Peso al nacer (gramos) en dos muestras relacionadas
Pareja Fuman Controles Diferencia
1 3519 3995 -476
2 3604 3091 514
3 2601 3768 -1167
4 2744 3489 -745
5 3407 3738 -331
6 2831 3609 -779
7 3308 4043 -735
8 3415 3213 202
9 3068 3253 -185
10 3534 2907 627
11 3039 3919 -880
12 3644 3144 500
13 3180 3698 -518
14 3000 3246 -246
15 3194 3673 -478
16 2167 3634 -1466
Media 3141,04 3526,27 -385,23
DS 405,93 345,11 604,98
162
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
163
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
podrá considerar probado que existen diferencias de peso al nacer entre los niños de
madres fumadoras y controles, apareadas por edad y paridad. Este resultado no equivale,
como es lógico, a haber probado la igualdad de los pesos de ambos grupos, sino que debe
ser interpretado como una insuficiente disponibilidad de información como para llegar a
una conclusión con un grado de seguridad del 99%, aunque sí resulta suficiente, como se
ha visto antes, para llegar a ella con una seguridad del 95%. El que se pueda o no rechazar
H0 con los mismos datos, dependiendo de la seguridad que se desee de estar haciendo lo
correcto, es una prueba de que el resultado no significativo no es demostración de que H0
es cierta.
Los contrastes realizados se llaman "Prueba de la t de Student para muestras
apareadas" y han sido bilaterales.
164
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
mayor, aparezca con una probabilidad de 0,05 (0,025 por cada extremo de la DM). Como
siempre, el problema se puede resolver mediante simulación informática o mediante la
aplicación de las propiedades teóricas de las DM aplicables al caso. Mediante el segundo
enfoque y como se ha explicado previamente, se sabe que las que las DM son normales,
que su media coincide con la de la población y que, debido a que la DS poblacional no es
conocida, hay que estimar el error estándar de la diferencia entre medias (o DS de la DM) a
partir de la DS de las muestras, por lo que, para compensar la imprecisión adicional debida
a esta estimación, en lugar de aplicar las propiedades de la normal hay que utilizar la
distribución t de Student. El percentil 2,5% de esta distribución para 68 grados de libertad,
como corresponde a los tamaños muestrales y los dos parámetros estimados, es 1,97. Por
tanto , el límite inferior del IC95% es 0,5 años (LI_IC95% = 1,7 - 1,97 X 0,63 = 0,5 lo que
implica que cuando la media de la DM es 0,5, los elementos de esa DM con valores ≥ 1,7
años aparecen son el 2,5% del total) y el límite superior del IC95% es 2,9 años (LS_IC95%
= 1,7 + 1,97 X 0,63 = 2,9 por lo que si la media de la DM es 2,9 los elementos con valores
valor ≤ 1,7 años aparecen en el 2,5% de las muestras). Por tanto, hay una probabilidad ≥
0,95 de que la discrepancia entre el valor observado y el poblacional sea ≤ 1,2 (recuérdese
que: |1,7 - 0,5|=|1,7 - 2,9|=1,2) y, en consecuencia, dado que la diferencia muestral es 1,7
años, la media poblacional estará entre 0,5 y 2,9 con una seguridad del 95% (dicho de otra
forma, si se pudieran calcular de esta forma los IC95% en torno a un número
indefinidamente grande de las posibles diferencias entre medias de muestras, sólo el 5% de
ellos no incluirán el verdadero valor poblacional).
Con respecto a la media de las diferencias de peso de los neonatos del ejemplo previo, los
límites del IC95% serían: "-385,23 ±2,13x151,25" g (-707,60 a -62,86 g) y los del IC99%
"385,23 ±2,95x151,25" g (-830,91 a 60,45 g).
La interpretación de estos IC y su relación con el contraste de hipótesis es la misma que la
que ya se ha explicado para el caso de las proporciones.
165
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
166
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
su vez, hay también una probabilidad de 0,01677 de una discrepancia entre la muestra
observada y la esperada bajo H0 de la misma magnitud y de sentido contrario (suma de
rangos negativos ≥109 ó negativos ≤27). Por tanto, en caso de que H0 sea cierta la
probabilidad de una muestra tan alejada de H0 en valor absoluto como la observada es
exactamente de 0,03354. En consecuencia, la diferencia de peso sería significativa en un
contraste bilateral al nivel del 5% pero no al 1% (0,01 < P < 0,05), resultado que coincide
con el de la prueba t de Student para muestras apareadas. En un contraste unilateral, el
nivel de significación hubiera sido: P=0,01677.
Tabla 7: Desarrollo de la prueba de Wilcoxon para la comparación entre los pesos al nacer (gramos) de
dos muestras relacionadas.
Peso al nacer
(gramos) Orden según diferencias absolutas
Pareja Fuman Controles Diferencia Diferencia absoluta Puesto De dif. negativas De dif. positivas
1 3519 3995 -476 476 5 5
2 3604 3091 514 514 8 8
3 2601 3768 -1167 1167 15 15
4 2744 3489 -745 745 12 12
5 3407 3738 -331 331 4 4
6 2831 3609 -779 779 13 13
7 3308 4043 -735 735 11 11
8 3415 3213 202 202 2 2
9 3068 3253 -185 185 1 1
10 3534 2907 627 627 10 10
11 3039 3919 -880 880 14 14
12 3644 3144 500 500 7 7
13 3180 3698 -518 518 9 9
14 3000 3246 -246 246 3 3
15 3194 3673 -478 478 6 6
16 2167 3634 -1466 1466 16 16
Mediana= -477 Suma= 109 27
167
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
y el interés del investigador es demostrar que hay diferencias. En la tabla 8 se presentan los
datos de este ejemplo.
Tabla 8: Peso al nacer (gramos) de dos muestras
independientes
Caso num. Fumadoras Caso num. Controles
1 3262 1 3586
2 3162 2 3849
3 3421 3 3785
4 2988 4 2921
5 2593 5 3868
6 3028 6 3153
7 3236 7 3366
8 3244 8 3821
9 3361 9 3848
10 3259 10 3579
11 3314 11 3316
12 3259 12 3465
13 3792 13 3814
14 3605 14 3720
15 2866 15 3203
16 3827 16 2917
17 3389
18 3250
19 3440
20 2965
21 3727
Media 3263,49 3475,33
DS 316,33 321,22
Mediana 3259 3465
P(prueba t de Student bilateral) = 0,05327
168
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
169
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
170
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
171
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
172
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
CAPÍTULO 13
EL ERROR ESTÁNDAR
El componente aleatorio del error de muestreo, que se debe a que en la muestra no
están todos los individuos de la población, se "manifiesta" en forma de dispersión al tomar
muchas muestras. Así mismo, la variabilidad real que existe entre los individuos de la
población, cuantificada por la DS poblacional (σ), también influye en dicha dispersión. En
consecuencia, tanto el tamaño muestral (n) como σ se relacionan con el valor de la DS de
la DM, o dispersión en torno a la media de la DM. Esta DS recibe el nombre de error
estándar (S) del estadístico de que se trate en cada caso.
En general, S aumenta con σ y se reduce con n. La teoría de la IE ha deducido el
tipo de relación que existe entre n, σ y S para los distintos estadísticos, proporcionando las
fórmulas correspondientes. Así, p. ej., en el caso de la media la fórmula es: "S = σ/raíz(n)".
Como se puede ver, para la media S es inversamente proporcional a la raíz de n. Algo
similar sucede con la mediana y otros estadísticos.
Si se conoce σ es posible calcular S, dado cierto n. Sea cual sea el método de
cálculo (fórmula o determinación empírica tomando o simulando la toma de muestras), lo
importante es que conociendo S se puede hallar la probabilidad de que, al tomar una
muestra, el estadístico de interés tenga determinado valor, pues esto es lo que posibilita la
IE.
Pero en la realidad el valor de σ no suele ser conocido y, en consecuencia, nada de
lo anterior es útil, pues sólo se dispone de una muestra. No obstante, la teoría estadística
proporciona métodos para estimar S a partir de la DS de la muestra observada. En general,
al sustituir σ por la DS de la muestra, es decir, un valor exacto por uno muestral sujeto a
error, lo que sucede es que se añade un error aleatorio a la dispersión de la DM que debe
ser tenido también en cuenta. Los métodos estadísticos permiten "calcular" este
componente adicional de dispersión.
Por ejemplo, si se toman muestras de n = 16 procedentes de una población normal
con µ = 0,2 y σ = 0,2 y se forma la DM con sus media, S será (0,2/raíz(16)) = 0,05 por lo
173
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
que se sabe que el 95%, por ejemplo, de las muestras de n=16 tienen una media
comprendida entre 0,2±1,96x0,05 (empíricamente, generando muestras informáticamente,
se llega al mismo resultado). En consecuencia, en el 95% de las muestras de n=16 el
intervalo comprendido entre su media y ±1,96x0,05 engloba el valor de µ (0,2). Éste es el
concepto de IC al 95%.
Sin embargo, si se ignoran los valores de µ y σ y solo se dispone de una muestra
con, por ejemplo, m=0,25 y DS=0,2 entonces, para estimar el IC95% hay que sustituir el
valor de σ por el de la DS, con lo que, aunque el valor de S obtenido sigue siendo
(0,2/raíz(16)) = 0,05, ya no es el resultado de un cálculo exacto, sino que se trata de una
estimación sujeta al error de muestreo (en el sentido de que con otra muestra cualquiera se
obtendrá un valor distinto de DS y, por tanto, de S). En consecuencia, hay que ampliar el
espacio entre los límites anteriores para incluir la imprecisión añadida. En el caso de la
media, si la DM es normal la corrección se puede realizar sustituyendo la cantidad "1,96"
por el percentil adecuado de la distribución t de Student, cuyo valor es conocido y
depende, entre otras cosas, del n. En este ejemplo, el valor adecuado es (tgl=n-1=) 2,49. Por
ello, si se quiere calcular un intervalo en torno a la media de cada muestra que cumpla la
condición de que en un 95% de esas muestras englobe el valor de µ, es necesario sumar y
restar a cada media muestral ó 1,96 veces el valor de σ (que es para todas las muestras
0,05) ó 2,49 veces el valor de la DS que tenga cada muestra (y que es variable de unas a
otras).
En el caso de estadísticos distintos de la media sucede algo similar
conceptualmente, pero las fórmulas y distribuciones concretas para calcular o estimar sus
errores estándar dependen de cada caso.
En definitiva, la precisión de las estimaciones estadísticas depende del valor de S.
Una parte de S se debe a la variabilidad poblacional real (σ), la cual es una característica de
la realidad que, incluso, puede ser objeto de estudio. Pero el resto se debe al error de
muestreo y éste depende del tamaño muestral. Por tanto, se puede limitar la influencia del
error de muestreo en los resultados de una estimación ajustando el n al necesario para
conseguir la precisión deseada.
174
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
estimar la edad de la población que se matricula en un Master con una precisión tal que la
amplitud del IC95% de la media no sea mayor de ±6 años. ¿Cuál es el n mínimo necesario?
Para contestar hay que conocer las propiedades que cabe esperar de la DM de la media (o
del estadístico de que se trate en cada caso). La teoría estadística informa de que la DMM
es normal si la población también lo es, o si n≥30. En ese caso, la amplitud del IC95% a
cada lado de la media muestral será (tn-1xS). Es decir, se utiliza el valor de la distribución t
de Student, en lugar del conocido "1,96" de la normal , para ajustar por el hecho de que
para calcular S se empleará la DS de la muestra que se seleccione. Por tanto, hay que elegir
un n tal que se cumpla que (tn-1xS) ≤ 6. Como se sabe, (S = DS/raíz(n)), por tanto, para
despejar n es necesario conocer la DS que, a su vez, depende de σ.
Ésta es la principal dificultad: para calcular el tamaño muestral es necesario tener
una idea, cuanto más precisa mejor, del verdadero valor de la variabilidad poblacional.
Para conseguirlo se puede recurrir a información ya existente procedente de otros estudios
o registros, a la opinión educada o informada y justificada del investigador y,
eventualmente, a un estudio piloto. A menudo, se llega a una suposición razonable basada
en diversas fuentes de información y razonamientos.
Por tanto, el cálculo del tamaño muestral, cuyo fundamento matemático y lógico es
exacto, en la práctica es sólo una aproximación. Sin embargo, ello no le quita un ápice de
importancia, pues es imprescindible un criterio para decidir cuándo finalizar un estudio que
sea, a la vez, independiente de los resultados el mismo y racional.
A modo de ejemplo, en la tabla 1 se presentan los tamaños muestrales necesarios para que
la amplitud del IC95% a cada lado de la media muestral no supere los 6 años de edad, en
función de distintos valores previstos de la DS poblacional. Como bajo todos los valores
supuestos de σ el tamaño muestral es superior a 30, no sería necesario considerar la
posibilidad de que la DMM no sea normal y de que, en consecuencia, la t de Student no sea
aplicable. En caso contrario, se podría haber decidido que el n mínimo fuera 30, con
independencia del valor de σ.
El fundamento lógico para el cálculo del n si el objetivo es la estimación de una
proporción, de una mediana, de la diferencia entre dos medias o de cualquier otro
estadístico que pudiera interesar, es el mismo que el expuesto para la media. Al igual que
en el ejemplo, partiendo de una previsión plausible de la variabilidad real entre los
individuos de la población, se ajusta el tamaño muestral (n) para que S no supere el valor
máximo que el investigador considera admisible (una decisión "científica", no estadística),
175
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
176
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
177
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
Como puede verse en esa gráfica, a medida que aumenta el valor de Sdiferencias es
necesario que la diferencia entre el peso de los niños de las fumadoras y los controles sea
mayor para que el contraste resulte significativo, de forma que si Sdiferencias = 40 g entonces
se rechazaría H0 a partir de una diferencia de peso de 70 g pero, sin embargo, si Sdiferencias =
100 g el valor crítico asciende hasta 170 g. Por tanto, es evidente que hay que conseguir un
diseño del estudio tal que la Sdiferencias no sea tan grande que impida detectar como
significativa la diferencia de pesos que el investigador considere plausible a la vez que
interesante.
Como se ha dicho y se puede observar en esas gráficas, la Sdiferencias depende tanto
de σtabaco y σcontrol como de ntabaco y ncontrol. Los valores de las DS poblacionales no son
modificables, a menos que se cambie de población diana del estudio (representan la
variabilidad real entre los individuos de la población); por ello, para conseguir que la
Sdiferencias no sea demasiado grande hay que ajustar los tamaños muestrales. El
razonamiento es simple: si la población que se va a estudiar tiene determinada σ, ¿qué
tamaño ha de tener la muestra para que S no supere cierto valor? Para contestar hay que
concretar la variabilidad poblacional o, al menos, tener una idea de su rango de valores
razonables. Esta idea se puede conseguir mediante el recurso a información ya existente,
procedente de otros estudios o registros, a la opinión educada o informada y justificada del
investigador, a un estudio piloto o a una mezcla de todas estas fuentes. Supóngase que el
investigador llega a la conclusión de que la DS del peso al nacer de los hijos de madre
fumadora es igual a la de los controles y que en ambos grupos la cifra es de 300 g o menor.
178
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
179
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
probable observar una diferencia próxima a -150 g que una alejada, y si, por el contrario, la
correcta es H0, entonces serán más probables los resultados próximos a cero.
180
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
181
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
182
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
Repite el cálculo y resulta que ahora ya sólo necesita 2020 niños por grupo. Se
replantea todo el estudio: piensa que si modifica los criterios de selección para que la
población diana sea más homogénea puede conseguir que σ sea menor. Así que decide
excluir a madres mayores y menores de determinadas edades, a las que tienen cualquier
tipo de intolerancia a la glucosa, a las que fumen menos (para el grupo de expuestos) de
cierta cantidad de cigarrillos por día, etc., etc., y llega a la conclusión de que de esa forma
la σ en cada grupo no será mayor de 300 g. Además, al haber aumentado la exposición al
tabaco del grupo de fumadores exigida para participar en el estudio, espera que la
diferencia mínima de peso sea de 100 g, en lugar de 50 g, (aunque, como consecuencia, el
estudio ya no se pueda llamar "Efecto del tabaco sobre el peso al nacer..." y haya que
cambiar el título a "Efecto de la exposición de gran intensidad al tabaco...").
Comprueba que con estas nuevas condiciones necesita 285 niños por grupo. Así que
continua "negociando" consigo mismo hasta llegar a la conclusión de que con las
condiciones de la tabla XX precisa 51 niños por grupo, y que de esa forma el estudio sigue
siendo útil y le resulta viable (Tabla 2).
Tabla 2: Calculo del tamaño muestral (hipótesis: Los niños de fumadoras pesan 150 g menos en promedio que los controles)
Condición
H0: 0g
Diferencia mínima: - 150 g
σ1 300 g
σ2 300 g
Prueba t de Student
Colas Una
α 0,05
Potencia (1-β) 0,8
Razón entre tamaños muestrales (n1:n2) 1
n1 calculado 51
n2 calculado 51
Además, suele ser prudente comprobar que sucedería si las suposiciones en que se
basa el cálculo son erróneas o si, finalmente y como sucede muy a menudo, la
disponibilidad de sujetos es menor de la prevista, o la pérdida de sujetos mayor, y la
muestra final no llega al valor calculado. Así, por ejemplo, este investigador es consciente
de que σ y la diferencia mínima pueden tener un valor distinto al que él imagina. Por tanto,
estudia si la potencia cambia mucho si empeoran algo las condiciones y comprueba lo
siguiente:
183
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
1.- Si la σ en cada grupo pasa a ser 350 g en lugar de 300 g, entonces el poder del estudio
desciende al 69%, salvo que la verdadera diferencia producida por el tabaco sea de 175 g
menos en el grupo de fumadoras, en lugar de los 150 g previstos.
2.- Si el efecto del tabaco es menor que el previsto y llega a -120 g, en lugar de los -150
que especifica su hipótesis, entonces el poder se reduce al 64%, salvo que la σ en cada
grupo sea realmente de 240 g y no los 300 g previstos.
3.- Además, si, como puede suceder, fuera difícil encontrar madres fumadoras y,
finalmente, la muestra expuesta al tabaco quedase reducida a solo 40 niños, el poder se
reduciría al 76%. Sin embargo, esto podría ser compensado aumentando el grupo de
controles hasta 68 niños.
A la vista de esta información, el investigador deberá decidir si su diseño es robusto
y tiene suficiente margen como para que no fracase aunque fallen alguna de sus
previsiones o, si por el contrario, le conviene aumentar algo más la muestra.
Además, se debe realizar una previsión de la proporción de individuos que tendrán que ser
retirados, o se perderán para el seguimiento por una u otra razón, incluyendo las
desconocidas, y corregir el tamaño calculado para que esas pérdidas no afecten a la
potencia del estudio. Por ejemplo, en un estudio clínico es muy habitual que un 10% ó un
15% de los sujetos no sean finalmente evaluables. En el caso del ejemplo sobre el efecto
del tabaco en el peso de los neonatos, una vez calculado que se necesitan 51 sujetos por
grupo se puede aumentar la cifra para compensar por un 15% de pérdidas de la siguiente
forma:
n corregido por grupo = n sin pérdidas /(1 - proporción prevista de pérdidas) = 51 / (100
- 15) =60 sujetos por grupo
Como se ha visto, el cálculo del tamaño muestral consiste en buscar un compromiso
razonable entre lo posible (lo factible y viable para el investigador) y lo interesante (lo que
merece la pena ser llevado a cabo) y en la determinación del margen de seguridad
disponible en caso de que falle alguna de las previsiones. El resultado es, evidentemente,
una aproximación. Pero eso no le quita importancia; primero, porque no hay una manera
mejor de realizar tal aproximación y ,segundo, porque cualquier otra forma de decisión
sobre cuándo se debe de dejar de añadir individuos a las muestras de un estudio no solo
puede ocasionar una probabilidad muy alta de error de tipo I, si se alcanza la significación,
o de error de tipo II, si no se llega a ella, sino que puede llegar a sesgarlo si la decisión se
toma cuando ya se han visto los datos que se van adquiriendo. Por lo dicho y porque es la
base para la determinación de los medios y presupuesto necesarios, para las previsiones
184
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
185
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
resultado (-104 g) es compatible con un valor real de 0 g (H0), pero ¿lo será, por ejemplo,
también con un valor real en la población de -150 g? Pues bien, en la primera de las
gráficas se representa la H1 de que la diferencia verdadera sea de -150 g y, como se puede
ver, la probabilidad de que si es verdad esta H1 se obtenga un resultado de -104 g (o más
alejado de H1) es del 26,3%. Es decir, la probabilidad de que este resultado no
significativo sea un error de tipo II, si H1 (-150 g) es correcta, es del 26,3%. Como esta
probabilidad β "post hoc" es mayor de lo que se suele admitir (20%), se concluye que no
llama la atención un resultado de -104 g en una muestra procedente de una población en
que el verdadero valor es -150 g y que, por tanto, tras este contraste no se puede descartar
186
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
razonablemente que el verdadero valor sea -150 g (como tampoco se puede descartar que
sea 0 g). Se ve de esta forma claramente que un resultado no significativo es un resultado
no concluyente.
Pero si se examina la posibilidad de una H1 más alejada de H0, como lo es, p. ej., -
200 g, entonces se comprueba en la tercera de las gráficas que la probabilidad de un
resultado igual a -104 g es sólo del 9,3%. Aunque sigue siendo posible que el verdadero
valor poblacional sea -200 g (o, de hecho, cualquier otro de los plausibles biológicamente),
lo cierto es que ahora la β es menor que la mínima admisible y, por tanto, es mucho menos
probable que cuando se evaluó la posibilidad de que la verdadera diferencia fuera -150 g
que el contaste haya terminado en un error de tipo II. En consecuencia, se puede concluir
que el contraste ha descartado (al menos hasta el punto en que es habitual en estos
contrastes) que el verdadero valor sea -200 g.
Por último, como se ve en la segunda gráfica, el valor de H1 para el que la
probabilidad de que el resultado de este contraste sea un error de tipo II es del 20% es -165
g. En consecuencia, teniendo en cuenta el valor máximo habitualmente admisibles de error
de tipo II (el 20%), se concluiría que pese a que este contraste no haya podido rechazar la
H0 de que la diferencia es 0 g, lo cierto es que tampoco se puede rechazar (al menos a los
niveles habituales) que llegue hasta -165 g.
En definitiva, mediante este cálculo post hoc del riesgo de error de tipo II (o de la
potencia) para distintos valores hipotéticos de la diferencia, se consigue reducir algo más la
incertidumbre asociada a un contraste cuyo resultado no es significativo y, además, se
comprueba claramente que la no demostración de diferencias no es lo mismo que la prueba
de la igualdad.
187
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
188
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
CAPÍTULO 14
LA CORRELACIÓN
Con frecuencia, más que detectar diferencias, se desea comprobar si existe una
relación entre dos variables de muestras relacionadas. Por ejemplo, ¿existe una relación
entre el peso de los recién nacidos de madres equiparadas por edad y paridad?, ¿y entre la
concentración de creatinina plasmática y el filtrado glomerular dentro del mismo
individuo?; ¿o entre las cifras de presión arterial de un paciente antes y después de un
trasplante renal?
Existe asociación entre dos variables, X e Y, cuando la media de Y en los individuos que
tienen un valor concreto de X es distinta de la media de Y en el conjunto de los individuos,
tengan el valor de X que tengan. Por ejemplo, la creatinina (Cr) plasmática y el
aclaramiento de creatinina (Clcr) están asociados, pues la media del Clcr es distinta para
cada valor de Cr (tabla 1)
Figura 1: Aclaramiento de creatinina en hombres de 50 años y 70 Kg
Creatinina plasmática (mg/dl) Num. de individuos Media del grupo
1 30 88 ml/min
3 15 29 ml/min
5 5 18 ml/min
Media global = 63 ml/min
(Según nomograma de Crokoft-Gault)
189
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
Figura 2: Presión arterial pre y post trasplante renal: Diagrama de dispersión y datos
Sujeto PA antes del trasplante (mm Hg) PA tras el trasplante (mm Hg)
1 75 64
2 87 72
3 95 102
4 102 91
MEDIA = 90 82
DS = 10 15
Recta de regresión: PA post-trasplante = -31,3 + 1,26 x PA pre-trasplante + e
190
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
Como puede verse en esa tabla, el error total cometido, medido como la suma de las
desviaciones con respecto a su media de cada valor de PA post-trasplante elevadas al
cuadrado, es 906.
En la figura 4 siguiente se indica lo que sucedería con la otra alternativa, utilizando
la función que relaciona ambos valores de PA (y que resulta ser la ecuación de una recta).
Figura 4: Desviaciones de los valores post trasplante de la presión arterial frente a su
regresión sobre los previos
Al utilizar la recta que relaciona los valores previos con los posteriores al trasplante
en lugar de la media de estos últimos, la predicción ha mejorado, pues el error total,
medido ahora como la suma de las desviaciones de cada valor de PA post-trasplante con
respecto al calculado con esa función y elevadas al cuadrado, es 263.
Si se estudian las diferencias entre predecir con la media del grupo o predecir con la
recta que relaciona los valores pre con los post-trasplante se comprueba que la suma de
toda ellas elevadas al cuadrado es, precisamente, la diferencia entre el error total cometido
con la media y el error cometido con la recta de regresión. En la figura 5 se presentan estos
datos.
191
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
Figura 5: Diferencias entre la media de los valores de PA post trasplante y los predichos
por la regresión
Por tanto, la suma de las diferencias entre la media y los valores de la recta que
relaciona las mediciones previas y posteriores al trasplante, elevadas al cuadrado es,
precisamente, la mejora en la predicción que se consigue utilizando esa recta en lugar de la
media del grupo. En este caso, esa mejora es de 643 sobre un error total al cuadrado de 906
que se producía con la media. Como es obvio: la suma de los errores al cuadrado con
respecto a la media es igual a la suma de los errores el cuadrado con respecto a la recta más
la suma de las diferencias al cuadrado entre la recta y la media: 906 = 263 + 643.
Por otra parte, es evidente que esas sumas de errores al cuadrado miden la variación total
(al cuadrado) entre los valores de PA post-trasplante y su media (906) y entre dichos
valores y los predichos en función de los pre-trasplante utilizando la función de la recta
(263). A la función que se está utilizando en este ejemplo se le llama "función de
regresión" y, como en éste caso se ha utilizado una recta, se trata de una "función de
regresión lineal".
En vista de todo lo anterior, se puede decir que la cantidad 263 representa el error o
variabilidad residual en los valores de la PA post-trasplante que queda sin "explicar"
cuando se usa la recta de regresión; la cantidad 643 corresponde a la variabilidad explicada
por la regresión y la suma de las dos (906) es la variabilidad total.
Es habitual que la cantidad explicada por la recta se presente como porcentaje o tanto por
uno de la total. Así, en este caso, el porcentaje de la variabilidad total que es explicado por
la recta de regresión es: (100x643/906) = 71,0%. A esta cantidad expresada como tanto por
uno se le llama coeficiente de determinación (r2) y a su raíz cuadrada se le llama
coeficiente de correlación lineal de Pearson (r).
Ambos coeficientes miden hasta qué punto existe una relación lineal entre dos
variables. El r2 puede variar entre 0 (ausencia de relación rectilineal) y 1 (línea recta
192
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
perfecta, ninguna variabilidad residual a una recta). El r varía entre -1 y +1; en su caso, -1
significa una recta perfecta pero con pendiente negativa, y 1 implica una recta también
perfecta y una asociación positiva. El valor cero se obtiene cuando no existe relación lineal
alguna entre ambas variables. En cuanto a la interpretación del valor del r, cuanto más
próximo a 1 ó a -1 más fuerte es la asociación lineal, y cuanto más cerca de 0 más débil;
además, el signo indica el sentido de la asociación (positiva o negativa); pero el juicio
sobre si la asociación es o no grande (o importante) no es una cuestión principalmente
estadística, sino que depende del área de estudio y de la finalidad del investigador. Así, por
ejemplo, mientras que cuando se construye una recta de calibración para una
determinación analítica, el r mínimo admisible entre la concentración y la respuesta de que
se trate (p. ej., recuento radiactivo, en caso de un RIA, absorción de luz UV en HPLC, etc.)
es superior a 0,98; sin embargo, un r del orden de 0,3 - 0,4 puede ser importante cuando se
está estudiando la relación entre, p. ej., la calidad de vida, medida mediante un
cuestionario apropiado, y alguna característica sociológica, como los ingresos).
Sin embargo, es importante insistir en que estos coeficientes miden la fuerza del
componente lineal o rectilíneo de la relación entre variables, de forma que puede haber
casos en que dos variables estén muy relacionadas (o, incluso, perfectamente relacionadas)
y r sea cero, debido a que la asociación no tenga un componente lineal. Como puede verse
en la figura 6, existen asociaciones perfectas que no tienen un componente lineal y, en
consecuencia, el r de Pearson es menor de 1 ó, incluso, 0.
193
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
LA REGRESIÓN
194
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
195
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
196
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
es que su valor real es cero y en el caso del modelo que no tiene capacidad predictiva
alguna. Por ejemplo, en el caso de las cifras de presión arterial tras el trasplante, ajustando
los datos de los 16 pacientes, con la presión post como variable dependiente y la previa
como independiente, se obtiene la recta "PA post = -10,9 + 1,02 x PA previa"; la
significación del valor de "Y" cuando "X" es cero (-10,9) es P=0,651 y la de la pendiente
(1,02) es P=0,002. Eso quiere decir que no se puede descartar que cuando la PA-previa es
cero la media de la PA pos-trasplante también lo sea, lo cual, evidentemente, no tiene
interés clínico; pero sí se puede descartar que la pendiente sea cero, lo cual significa que,
efectivamente, la presión post depende de la presión previa.
ESTIMACIONES AJUSTADAS
En todas las pruebas explicadas hasta el momento, para estimar el "efecto" de un
factor de interés (FI) se compara la variable de respuesta (VR) entre los grupos de
individuos formados en función de los valores de dicho factor. Sin embargo, puede suceder
y, de hecho, sucede a menudo que la diferencia de VR entre dos grupos no se debe sólo a
la diferencia entre ellos en cuanto al FI, sino que influyen otros factores a la vez. En estos
casos, si se desea conocer el "efecto" propio o "independiente" de un factor, es necesario
comparar los grupos "ajustando" o "controlando por (el efecto de)" esos otros factores que
también intervienen. Cuando se hace este tipo de análisis se tiene, por tanto, una variable
dependiente o de respuesta que es analizada simultáneamente en función de varias
variables independientes.
A continuación se muestra el origen y las consecuencias del tipo de problema que
hace necesario un análisis ajustado por varias variables independientes y la manera en que
este análisis resuelve dicho problema.
Supóngase que, a igualdad de otras circunstancias, entre los trabajadores de cierto
sector económico el salario de las mujeres es, en promedio, 100 euros menor que el de los
hombres. Además, los ingresos dependen también de que el empleado sea o no titulado
superior, de sus años de experiencia laboral y de si trabaja en una empresa exportadora. En
la tabla 2 se recoge el "efecto" de los factores determinantes del salario medio citados.
Tabla 2: Determinantes del salario medio
Varón sin titulación superior que trabaja en una empresa no exportadora desde hace menos de 4 años: 900 euros
Factor adicional Euros adicionales
Sexo femenino frente a masculino -100
Estudios superiores frente a su ausencia 800
Empresa exportadora frente a no exportadora 200
Experiencia laboral (frente a <4 años)
4 a 8 años 600
> 8 años 150
197
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
Por tanto, la diferencia entre la media de los salarios de hombres y de las mujeres
que tengan la misma experiencia laboral y titulación y trabajen en la misma empresa es de
100 euros (menos las mujeres); de la misma forma, entre trabajadores con y sin titulación
superior con la misma experiencia, del mismo sexo y que trabajen en la misma empresa
hay una diferencia de 800 euros, etc. Partiendo de esta información, se ha simulado una
base de datos con los salarios que corresponderían a una hipotética población de 295.428
trabajadores del sector en que la distribución supuesta de los porcentajes de titulados,
empresas exportadoras y de los distintos niveles de experiencia laboral en cada sexo fuera
la que se recoge en la tabla 3, y en la que un 36,3% son mujeres. En esta supuesta
población, todos los individuos ganan una cantidad igual a la media de su categoría, de
forma que no hay dispersión entre ellos; así, por ejemplo, hay 26.038 hombres sin
titulación superior, que trabajan en una empresa no exportadora y que tienen menos de 4
años de experiencia laboral que ganan, todos ellos, 900 euros; hay otros 29.042 hombres
sin titulación y con menos de 4 años de experiencia que trabajan en empresas exportadoras
y que, todos ellos, ganan 1700 euros, etc.
Tabla 3: Distribución por sexo de los determinantes del salario
% en cada Sexoa
Titulación superior Empresa exportadora Experiencia laboral Mujer Hombre
< 4 años 5,6% 8,5%
No 4 a 8 años 5,6% 11,2%
> 8 años 4,7% 13,8%
No
< 4 años 10,3% 4,8%
Sí 4 a 8 años 10,3% 4,3%
> 8 años 7,5% 15,4%
< 4 años 5,6% 11,2%
No 4 a 8 años 10,3% 4,3%
> 8 años 5,6% 11,2%
Sí
< 4 años 10,3% 4,3%
Sí 4 a 8 años 14,0% 6,9%
> 8 años 10,3% 4,3%
TOTAL 100,0% 100,0%
a
: Distribución por sexo en la población: 36,3% mujeres y 63,7% hombres
198
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
hombre o sea mujer y que le es posible acceder a un registro con la información pertinente
de todos los empleados de las empresas correspondientes. Está claro que, de esta forma, el
resultado del análisis debe coincidir exactamente con el efecto del sexo femenino (-100
euros) que se ha utilizado para fabricar la población supuesta de este ejemplo, pues ni hay
error de muestreo ni variabilidad entre los salarios de los individuos de una misma
categoría. Y lo mismo sucede con respecto al efecto del resto de los factores.
Sin embargo, dicho investigador analiza los datos y obtiene los resultados de la tabla 4:
Tabla 4: Diferencia no ajustada entre sexos en la población
Número (%) de trabajadores Media Diferencia
Mujeres 107.155 (36,3%) 1702
196 euros
Hombres 188.272 (63,7%) 1506
TOTAL 295.428 (100%) 1577
Como puede verse en esta tabla, la diferencia de salario medio entre hombres y
mujeres calculada de esta forma no coincide con la real. Por tanto, en este caso la
comparación de la media del salario entre los grupos formados en función del factor de
interés del estudio no produce la respuesta correcta.
El error al calcular el efecto del sexo de esta forma no puede ser aleatorio, pues se
han analizado todos los individuos de la población. La diferencia entre el efecto intrínseco
real del sexo y el que se acaba de calcular se debe a que el análisis realizado no es un
método de cálculo válido si el objetivo es conocer el efecto independiente de un FI (el sexo
en este caso) cuando sobre la VR (el salario) influyen a la vez varios factores más que,
además, se asocian con el FI en los datos analizados. Por tanto, el resultado obtenido en
este caso es un resultado sesgado (afectado por un error sistemático).
Es cierto que las 107.155 mujeres de este sector económico tienen un salario que,
en promedio, es superior en 196 euros al de los 188.272 trabajadores de sexo masculino. Si
el objetivo del investigador hubiera sido conocer esto entonces el resultado obtenido sería
correcto. Pero lo que se pretendía no era saber si los hombres ganan más o menos que las
mujeres, sino que, tal y como se expresó, lo que el investigador quería saber es si el hecho
de ser de uno u otro sexo, en sí mismo, tiene influencia sobre el sueldo. Las diferencias
realmente encontradas entre el grupo de hombres y el de mujeres (196 euros a favor de éste
último) pueden deberse al diferente sexo de ambos grupos, pero, ¿no puede existir también
una asociación entre el sexo y otros factores que influyen en el salario, de forma que haya
más mujeres con título superior y/o con experiencia laboral entre 4 y 8 años y/o que ellas
trabajen preferentemente en empresas exportadoras? Si este fuera el caso, entonces ésta
podría ser también la causa de la diferencia de sueldo, y no el sexo "per se".
199
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
200
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
Como puede verse en la tabla 5, el efecto del sexo, "céteris páribus", es de 100
euros menos las mujeres. En este ejemplo dicho efecto es constante a lo largo de todas las
demás combinaciones de los factores de la tabla; si no fuera así y, p. ej., las tituladas
ganaran 100 euros menos que los titulados, mientras que las no tituladas ganaran 50 euros
menos que los no titulados, en ambos casos a igualdad del resto de factores que influyan,
entonces se diría que existe una interacción entre las variables sexo y titulación (el estudio
de las interacciones escapa a los objetivos de estos apuntes).
Como puede verse, mediante este análisis ajustado por varias variables
independientes simultáneamente se consigue un resultado que es igual al verdadero con el
que se "fabricaron" estos datos; es decir, si se identifican, miden e incluyen en el análisis
todos los factores relevantes se llega a conocer la estructura real de los datos. Así, por
ejemplo, con los datos de la tabla anterior se puede calcular también el efecto
"independiente" del resto de los factores y comprobar que coinciden con los reales de la
tabla I, mientras que con un análisis crudo el efecto calculado de la titulación superior es
de 788 e, el de la empresa exportadora es 212 e, los que tienen entre 4 y 8 años de
experiencia ganan 612 e más que los que tienen menos de 4 años, y la cifra
correspondiente para los que tienen más de 8 años es de 123 euros. Como se ve, valores
sesgados en todos los casos, aunque en menor cuantía que para el sexo.
En definitiva, mediante el análisis múltiple, "controlando por" titulación,
experiencia y tipo de empresa se ha conseguido corregir el sesgo que afecta los resultados
no ajustados o "crudos". Esta clase de error sistemático se llama sesgo de confusión y es la
única que puede ser corregida en el análisis estadístico (si se han identificado y medido los
factores de confusión). Al respecto, es importante tener en cuenta que el análisis múltiple
no es efectivo frente al sesgo de selección o de información. Así, por ejemplo, si la
asociación con el sexo de la variable titulación superior se hubiera originado entre estos
datos por causa de una pérdida selectiva de titulados superiores entre los hombres (es decir,
que, por algún motivo, incluido el azar, se hubieran perdido para el análisis un porcentaje
mayor de titulados que de tituladas), lo que es uno de los mecanismos frecuentes de sesgo
de selección en los estudios clínicos, entonces el análisis ajustado por titulación no
resolvería el problema (que, sin embargo, podría paliarse en algunos diseños mediante el
análisis "por intención de tratar").
En cuanto a los factores que deben ser incluidos en el análisis, en principio serán
los que se sepa que pueden tener efecto sobre la variable de respuesta y que no sean
controlados de otra forma (como la estratificación, el apareamiento, la restricción o la
201
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
aleatorización), por lo que pueden asociarse con el FI en los datos del estudio, dando lugar
a una distribución heterogénea de las combinaciones de esos factores entre los grupos
formados en función de dicho FI. Por otra parte, cuando la estructura de los datos es
compleja puede ser difícil o imposible comprobar claramente en los propios datos del
estudio que existe una asociación entre el FI y terceros factores; pero el que no se pueda
comprobar tal cosa no elimina el problema y, por tanto, no es necesario que existan
diferencias claras, ni mucho menos significativas, en cuanto a la distribución de terceros
factores entre los grupos formados según el FI para que haya que ajustar por dichos
terceros factores. La realidad es que, en la práctica, el único criterio que permite afirmar o
negar que un factor concreto sesga la estimación del efecto del FI sobre la VR es la
existencia o inexistencia de una diferencia relevante entre el efecto medido o estimado del
FI cuando se incluye en el análisis dicho factor concreto y el obtenido cuando no se ajusta
por él.
En la realidad la estructura de los datos suele ser más compleja que en este ejemplo
y no suele ser tan fácil identificar todas las combinaciones entre los valores de los factores
de confusión, ni medir en ellas el valor de la VR. Por tanto, el método de análisis ajustado
que se ha utilizado en este ejemplo no suele ser viable. En su lugar, en investigación clínica
son muy utilizadas para obtener estimaciones ajustadas las diversas variantes de la
regresión múltiple. Así, por ejemplo, si la variable de respuesta es cuantitativa se puede
usar la regresión lineal múltiple y el "efecto", ajustado por el resto de variables
independientes del modelo, vendrá dado por el coeficiente de regresión de la variable
independiente que interese. Si la variable de respuesta es binaria se puede utilizar la
regresión logística para calcular el odds ratio ajustado. Finalmente, si la respuesta se mide
en forma de tiempo hasta un evento entonces mediante la regresión de Cox se puede
estimar el hazard ratio, también ajustado por el resto de variables incluidas en el modelo.
El desarrollo en detalle de esos métodos de análisis escapa de los objetivos de estos
apuntes. Los conceptos y razonamientos expuestos hasta aquí son válidos también para las
técnicas de análisis con más de una variable independiente y la aplicación práctica de las
mismas no plantea dificultades gracias a los paquetes de software estadístico. Sin embargo,
conviene conocer las peculiaridades, requisitos y supuestos de cada método a fin de
conseguir estimaciones válidas y precisas.
Es relativamente frecuente que se llame "multivariantes" a los métodos de análisis
en que hay una variable dependiente y más de una independiente simultáneamente. En
realidad, los métodos multivariantes en sentido estricto son aquellos en que se analiza a la
202
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
vez mas de una variable dependiente, sea en función de una o de más de una variable
independiente. Probablemente por su complejidad y pese a su utilidad potencial, en
investigación clínica no son frecuentes los métodos con más de una variable dependiente.
Sin embargo, casi en todos los estudios aparece alguna forma de análisis ajustado por más
de un factor o variable independiente. A este tipo de técnicas se les puede llamar análisis
múltiple (p. ej., regresión lineal, logística o de Cox, múltiples) o análisis ajustado.
Si se hubieran analizado los datos de este ejemplo mediante regresión lineal
univariante múltiple por mínimos cuadrados ordinarios se hubiera obtenido este modelo:
Salario = 900 -100 (si mujer) + 800 (si título superior) + 200 (si empresa exportadora) +
600 (si 4 a 8 años de experiencia) + 150 (si más de 8 años de experiencia)
Excluyendo la variable "titulación superior" el efecto del sexo sería 91 euros (más
las mujeres); sin la variable "empresa exportadora" el coeficiente del sexo es -73 e (menos
las mujeres) y sin el factor "años de experiencia laboral" este coeficiente pasaría a ser -16 e
(menos las mujeres). Por tanto, aunque las tres variables son factores de confusión para el
sexo (al excluirlos del análisis el efecto del sexo es muy distinto del real de -100 euros), el
sesgo es menor con la variable "empresa exportadora" (diferencia entre el efecto real y el
sesgado: (-100 -(-73) = -23)) y máximo para "titulación superior" (sesgo de (-100 -91 = -
191))
Como en este ejemplo se ha utilizado toda la población no ha sido necesario
realizar inferencia estadística. Pero si se utiliza una muestra de esta población, entonces en
la diferencia entre las estimaciones y la realidad influye también error de muestreo que, si
la muestra es realmente representativa, es aleatorio. La imprecisión resultante de este error
debe ser evaluada, como en cualquier otra situación, mediante la significación estadística y
mediante la amplitud de los intervalos de confianza de las estimaciones. Además, los
resultados del análisis no ajustado están también afectados por un sesgo de confusión
debido exactamente a los mismos mecanismos y con las mismas consecuencias que con la
población total, por lo que es necesario un análisis ajustado por los eventuales factores de
confusión. Para ilustrar estos puntos, se ha simulado informáticamente una muestra
aleatoria de 295 individuos tomando muestras de los subgrupos formados en función de las
combinaciones los cuatro factores analizados: sexo, tipo de empresa, titulación superior y
experiencia laboral y, por tanto, procedente cada una de una población con media igual a la
del subgrupo correspondiente; además, se ha supuesto que la DS de estas poblaciones es
igual a un 40% de la media y que su distribución es log normal. El tamaño de cada una de
estas muestras parciales se ha elegido de forma que la proporción de cada subgrupo dentro
203
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
del total sea igual en la muestra de n=295 que en la población (ver tabla II). Seguidamente,
se realizado el análisis con esta muestra. En la tabla 6 figura la comparación de salarios
entre sexos realizada con la prueba t de Student para muestras independientes
Tabla 6: Estimación no ajustada de la diferencia (euros) entre sexos
Número (%) de trabajadores Media (DS) Diferencia (IC95%) P
Mujeres 107 (36,3%) 1787 (793)
283 (112 a 455) 0,002
Hombres 188 (63,7%) 1504 (676)
TOTAL 295 (100%) 1577
Como puede verse, el resultado es muy distinto del valor real que se desea estimar.
Ahora, al sesgo de confusión hay que añadir el error de muestreo (aleatorio exclusivamente
en este caso porque la muestra es representativa) y en esta muestra concreta parece ser que
el error aleatorio es del mismo sentido que el sesgo. Según este análisis, las mujeres ganan
más que los hombres y la diferencia a su favor está, con un 95% de seguridad, entre 112 y
455 euros. En definitiva, un resultado totalmente erróneo.
Sin embargo, la imagen cambia al estimar el efecto del sexo ajustado por los otros
tres factores mediante regresión lineal múltiple. En la tabla 7 figuran los coeficientes de
regresión de cada factor calculados por este método.
Tabla 7: Regresión lineal del salario sobre el sexo y el resto de los factores
Coeficiente de regresión Límites del IC95%
B Err. estándar P Inferior Superior
0,000
Ordenada en el origena 921 69 0 785 1057
0,975
Sexo femenino 2 73 0 -141 145
0,000
Empresa exportadora 236 68 6 103 369
0,000
Titulación superior 741 68 0 606 876
Experiencia laboral (frente a < 4años)
0,000
De 4 a 8 años 554 81 0 394 714
0,089
> 8 años 140 82 0 -21 301
Variable dependiente: Sueldo
a
: Salario medio de los hombres sin titulación y con experiencia menor de 4 años que trabajan en
empresas no exportadoras.
204
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
205
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
de que la variable por la que se ajusta no se asocia con el FI por causas distintas del azar y,
por tanto, de que no se viola este supuesto en caso de que se realice un ANCOVA.
Figura 8: Efecto crudo y ajustado del sexo sobre el salario (euros)
En definitiva, en este ejemplo el resultado diferente del análisis crudo y del ajustado
se debe a que en el primero influyen tanto el error aleatorio como el sesgo de confusión,
mientras que en el ajustado sólo influye el error aleatorio y, además, éste es menor. Por
otra parte, el sesgo es en principio incuantificable (si se conociera en la realidad como se
conoce en este ejemplo artificial, se podría corregir y dejaría de haber error), por lo que
con sólo el análisis crudo es imposible tener una idea de los valores plausibles del efecto
del sexo. Sin embargo, como los métodos de inferencia estadística permiten "acotar" el
error aleatorio, una vez eliminado el sesgo de confusión con el análisis ajustado y pese a
que el azar (el error aleatorio) ha jugado la mala pasada de impedir la consecución del
objetivo (distinguir si el sexo tiene realmente algún efecto distinto de cero), ha sido posible
estimar un rango de valores probables para el efecto del sexo, o IC95%, que contiene de
206
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
hecho el valor real, cosa que no sucede con el IC95% de la estimación "cruda" (esto se
puede saber en este caso por tratarse de un ejemplo artificial). Además, se ha ganado en
precisión, pues la amplitud del IC95% ajustado es de 286 euros (desde -141 e hasta 145 e)
mientras que la del IC95% no ajustado es de 342 e (entre 112 e y 455 e).
Aunque existen otros motivos para el ajuste por variables distintas a las de interés,
las principales razones son las dos indicadas en este epígrafe: el control del sesgo de
confusión que pueden ocasionar al estimar el efecto del FI y el aumento de la precisión de
dicha estimación. No obstante, es necesario insistir en que estos procedimientos sólo
producen un resultado correcto si las disparidades entre los grupos de interés en cuanto a
los valores de esas variables no son consecuencia de un sesgo de selección o de
información. Además de servir para estas dos finalidades, el análisis con varias variables
independientes también permite estimar el efecto propio de todas ellas.
207
COMPLEJO HOSPITALARIO DE TOLEDO
COMISIÓN DE DOCENCIA
COMISIÓN DE INVESTIGACIÓN
208