Está en la página 1de 15

Anexo Bioestadística

Material de estudio elaborado por docentes de la cátedra de Fisiología y Física biológica de


la Fac. De Cs. Médicas, UNLP.
El presente material pretende servir como guía y resumir los aspectos básicos a conocer por un
estudiante de fisiología, contiene además algunas preguntas que resolverlas contribuye al mejor
entendimiento del tema. Si pretende estudiar el tema con mayor profundidad puede consultar la
siguiente bibliografía de referencia:

• Bioestadística Médica. Dawson-Saunders y Trapo. Ed manual Moderno.


• https://www.bioestadistica.uma.es/baron/bioestadistica.pdf
• Biostatistics: The Bare essentials. Norman & Streiner.

1) Conceptos Básicos

La bioestadística es el conjunto de métodos por medio de los cuales podemos recolectar, organizar,
resumir, presentar y analizar datos numéricos relativos a un conjunto de individuos u observaciones
de la naturaleza. Constituye una manera de pensar y tratar cierta problemática de forma metódica y
exacta que permite extraer conclusiones válidas, comparar los resultados de estudios científicos entre
sí y tomar decisiones que no dependan solo de nuestra intuición o conocimiento empírico.

La aplicación de la estadística se basa en la realización de medidas u observaciones repetidas de un


fenómeno. A pesar de que dichas medidas u observaciones se efectúen exactamente en las mismas
condiciones, el resultado suele no ser idéntico ya que existe una variabilidad que depende de múltiples
factores y no puede ser controlada por lo que se atribuye típicamente al “azar”. Es esta variabilidad
nos infunde una incerteza en nuestras observaciones, y nos obliga al uso de la estadística para el
análisis de los fenómenos naturales.

PREGUNTA: ¿Qué tipo de factores piensa que influirán en una medida de presión arterial?

Población y muestra

Es necesario introducir dos conceptos importantes a la hora de analizar estadísticamente un fenómeno


biológico. Uno de ellos es el de población o universo, que se define como el conjunto de individuos
sobre los que se pretende aplicar la hipótesis. El otro es la muestra, a la que podemos considerar como
un subconjunto de individuos que pertenece y representa a la población.

Ejemplo 1: Según la Organización Mundial de la Salud (WHO en sus siglas en inglés), en su reporte
mundial de Tuberculosis año 2018, existen 1700 millones de personas con infección latente de
tuberculosis, lo que equivale a un 23% de los habitantes del mundo.

En este ejemplo podemos definir a la población de interés como la población mundial, de la cual un
23% está infectada con el bacilo de la tuberculosis, y tiene riesgo de padecer la enfermedad activa en
algún momento de su vida. Dentro de esa población podríamos extraer muestras de distinto tamaño
y composición, por ejemplo: los habitantes de Argentina; los internados en el Hospital San Martín de
La Plata; los vecinos de Villa Elvira.

Es importante remarcar que la población, cuando hacemos bioestadística, no necesariamente es un


grupo inmenso o inabarcable como en el ejemplo 1. Analicemos el siguiente caso:
Ejemplo 2: nos proponemos estudiar la edad de los estudiantes de Fisiología de la Facultad de Ciencias
Médicas del año 2019. En ese caso la población constituye la totalidad de los alumnos inscriptos
durante ese año. Podríamos chequear la base de datos y obtener el número total o trabajar con
muestras de esa población, una de las cuáles podría ser “los alumnos de la comisión 33 de Fisiología”.

Conociendo los datos de la población general es posible calcular probabilidades y obtener datos de
distintas muestras de dicha población, utilizando simplemente razonamiento deductivo. No obstante,
lo más común en fenómenos biológicos es trabajar con una muestra de la población, muchas veces
por practicidad y otras por imposibilidad de abarcar la totalidad de la población. Un paso importante
es la obtención de la muestra, de modo que esta sea representativa de la población o universo en
estudio y para ello debe ser seleccionada en forma aleatoria (al azar) para evitar la introducción de un
sesgo.

• Busque el significado de Sesgo estadístico y reflexione sobre la importancia del diseño


experimental y toma de muestra en su génesis.
• ¿Qué criterio de selección se le ocurre que usaría para tomar una muestra representativa de
los alumnos que cursan fisiología en 2019?
• Tomando el ejemplo de “alumnos de la comisión 33 de fisiología” ¿es igualmente válido elegir
una comisión como muestra de la población en los siguientes escenarios?

1- los alumnos pueden elegir en que comisión cursar cuando se inscriben a la materia.

2- los alumnos se distribuyen en comisiones mediante sorteo.

Finalmente, el otro factor que determina cuán representativa es una muestra es su tamaño (número
de individuos que la componen). Una vez seleccionada una muestra de la población, se puede proceder
de dos formas:

*Estadística descriptiva: permite obtener nociones de posición, variabilidad, y realizar gráficos y


análisis que comprenden sólo a la muestra, y no pueden extenderse más allá de ella.

*Estadística inferencial: Basándose en la teoría de la probabilidad, y conociendo ciertas características


de la población (puntualmente su función de distribución, véase más adelante), es posible obtener
conclusiones a partir de observaciones de la muestra, y extrapolar las mismas a la población general.
Aquí reside la verdadera herramienta que aporta la bioestadística para el estudio de fenómenos
biológicos.
De la figura 1 se desprende la conclusión de que todo error o sesgo que posea la muestra afectará
negativamente las conclusiones que se infieran sobre la población. Por lo tanto, para que sean válidas
las conclusiones que se sacan a partir de las muestras, éstas deben ser representativas de la población.

Variables
Una vez seleccionados los elementos de una muestra, es necesario definir qué propiedades de estos
nos interesan en función del fenómeno en estudio. Dado que estas propiedades pueden variar de
unidad a unidad, o incluso en la misma unidad a lo largo del tiempo, reciben el nombre de “variables”,
y sobre ellas se realizan las operaciones gráficas, matemáticas y/o lógicas que conducen a las
conclusiones.

Las variables pueden clasificarse en cualitativas y cuantitativas, según puedan cuantificarse o no.

• Variables cualitativas: Representan una cualidad o característica de la unidad experimental,


que no puede ser cuantificada. Pueden dividirse en
o Cualitativas nominales: son las más simples, y consisten en “clasificar” las unidades
experimentales en categorías. Ejemplo: “Materias de la carrera de medicina”:
Anatomía, Fisiología, Bioquímica… etc.
o Cualitativas ordinales: Puede suceder que los objetos o elementos de una categoría
no sólo sean simplemente distintos de los de otras categorías, como en el caso
anterior, sino que estén en alguna relación con ellos: mayor, más alto, más importante,
etc. Por lo tanto, los valores que puede tomar la variable siguen siendo categóricos,
pero se pueden establecer relaciones de orden entre dichas categorías. Ejemplo:
“grado de deshidratación”: leve, moderado, severo.
• Variables cuantitativas: Son aquellas cuyo recorrido (valores posibles) se mide en escala
numérica.
o Discretas: Pueden adoptar un número finito de valores (o infinito contable, puesto
que se miden en números enteros). Ejemplo: frecuencia cardíaca.
o Continuas: Pueden adoptar valores infinitos, es decir pueden tomar cualquier valor,
dentro de un intervalo dado (admiten decimales). Ejemplo: peso corporal.
¿Cuáles y de qué tipo son las variables en los ejemplos 1 y 2?

Parámetros y Estimadores
Para describir un fenómeno de la naturaleza, comparar o comunicar los resultados de un experimento,
sacar conclusiones, etc., a menudo es necesario sintetizar la información con números, medidas que
representen a los datos. Entre las medidas más comúnmente utilizadas se hallan las de posición central
(media, mediana, moda) y las de dispersión (varianza, desvío estándar, error estándar, etc.).

Es importante destacar que para caracterizar los datos de la población estas medidas se denominan
parámetros, y suelen simbolizarse con letras griegas. Ahora bien, cuando se está trabajando con una
muestra de la población, se intenta extrapolar ya que no se conocen los datos de toda la población,
por esto se utilizan estimadores de los parámetros poblacionales. (Tabla 1)

Parámetros de tendencia central:

• Media aritmética (o simplemente media, ): Es el concepto clásicamente llamado


“promedio”. Formalmente se define como la suma de todos los valores que adopta una
variable, dividido por el número total de unidades experimentales.
• Mediana: Es el valor de la variable tal que queda el mismo número de datos por encima y por
debajo de dicho valor.
• Moda: Es el valor más frecuente, el más repetido.

Parámetros de dispersión: Brindan una idea de cuánto se agrupan las medidas en torno a la medida
de tendencia central, en otras palabras, cuánto se dispersan los datos.

• Varianza (): Se calcula como el cuadrado de la diferencia entre cada valor individual y la
media, dividido por el número total de datos.
∑(𝑥 − 𝜇)2
𝜎2 =
𝑁
• Desvío estándar (): Es la raíz cuadrada de la varianza.

Tabla 1

Parámetros (obtenidos de la población) Estimadores (obtenidos de la muestra)


Media () Media muestral (𝑋̅)
∑(𝑥−𝜇)2  *Varianza muestral (s2)
*Varianza 𝜎 2 = ( )
𝑁
∑(𝑥 − 𝑥̅ )2
𝑠2 =
𝑁−1

*Desvío estándar de la muestra (s o SD)


*Desvío estándar ()

Ejemplo 3: Durante el TP de Fisiología del Ejercicio, se registraron las frecuencias respiratorias basales
de los alumnos de una comisión y se obtuvieron los siguientes valores:

Alumno Frecuencia
respiratoria
(Respiraciones/min)
Juan 12
Pedro 12
Lucas 16
Ana 14
Julieta 15
Micaela 18
Valentín 16
Florencia 16
Maite 13
Romina 18

Para calcular la media, basta con sumar todos los valores y dividirlo por el número total de alumnos. Commented [AI1]: Cabe destacar que en muchas
situaciones la población es conceptual, como en una
12 + 12 + 16 + 14 + 15 + 18 + 16 + 16 + 13 + 18 observación hecha durante un experimento de laboratorio.
𝑋̅ = = 15 En ese caso, la población se visualiza como las infinitamente
10
numerosas mediciones que se obtendrían si el experimento
Para calcular la mediana conviene ordenar los valores de menor a mayor, y de esa forma identificar el fuera a repetirse una y otra vez. Si deseamos una muestra de
valor que deja a ambos lados la misma cantidad de datos. n = 10 mediciones de esa población, repetiríamos el
experimento 10 veces y esperaríamos que los resultados
12, 12, 13, 14, 15, 16, 16, 16, 18, 18 representen, con un grado razonable de aproximación, una
muestra aleatoria.
En este caso el número de datos es par, por lo que se deben tomar los dos valores del medio, y
promediarlos. La mediana en este caso es (15+16) /2= 15.5

La moda se corresponde con el valor que más veces se encuentra repetido (en este caso es 16)

El cálculo manual de los desvíos estándar es algo engorroso, y rara vez o nunca se hace, dado que con
el uso de programas tan simples como Excel se puede calcular fácilmente. No obstante, y para
comprender mejor el significado conceptual de desvío estándar, realizaremos el cálculo manual:

El desvío estándar de la muestra es la raíz cuadrada de la varianza muestral, entonces

Commented [IE2]: Creo que habría que explicar por qué


∑(𝑥 − 𝑥̅ )2 “N – 1”
𝑠=√
𝑁−1

Debemos calcular la diferencia entre cada valor y la media, que como ya calculamos es 15.

Alumno Frecuencia (𝑥 − 𝑥̅ )2 ∑(𝑥 − 𝑥̅ )2 ∑(𝑥 − 𝑥̅ )2


respiratoria 𝑠=√
(Respiraciones/min) 𝑁−1

Juan 12 (12-15)2= 9+9+16+1+0+9+1+1+4+9= √(44/9)=2.21


9 44
Pedro 12 (12-15)2=
9
Lucas 16 (16-15)2=
1
Ana 14 (14-15)2=
1
Julieta 15 (15-15)2=
0
Micaela 18 (18-15)2=
9
Valentín 16 (16-15)2=
1
Florencia 16 (16-15)2=
1
Maite 13 (13-15)2=
4
Romina 18 (18-15)2=
9

El desvío estándar es 2.21. Una forma concisa de resumir los datos del ejemplo 3 sería con su media y
desvío estándar, y podría expresarse de la forma: 15±2.21.

2) Distribuciones Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil

Comencemos por retomar el Ejemplo 3. Es Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Histograma
posible construir un histograma, o diagrama de Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
0,32
frecuencias, donde se represente en el eje x aEstudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión
los valores de la variable, y en el eje y la Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
frecuencia de cada valor. Ejemplo: el valor 12 Versión Estudiantil0,24Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Frecuencia relativa

aparece 2 veces, entonces en esta muestraVersión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
tiene una frecuencia de 2/10= 0.2 Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
0,16
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
0,08
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
0,00
Versión Estudiantil Versión Estudiantil
10 12Versión
13 Estudiantil
14 15 Versión
16 Estudiantil
17 18 Versión
20 Estudiantil
Versión Estudiantil Versión Estudiantil
FrecuenciaVersión Estudiantil
Respiratoria Versión Estudiantil Versión Estudiantil
(resp/min)
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil

La distribución de frecuencias o probabilidades de una variable es muy importante, ya que permite describir el
comportamiento de dicha variable y calcular las probabilidades de obtener un valor determinado.

Es común que las observaciones se generen mediante diferentes experimentos estadísticos que tienen el mismo tipo
general de comportamiento, y en dichos casos las variables asociadas a los experimentos se pueden describir
esencialmente con la misma distribución de probabilidad (es decir, usando una sola fórmula general). De hecho, se
necesitan sólo unas cuantas distribuciones de probabilidad importantes para describir muchas de las variables que se
encuentran en la práctica de ciencias biológicas y médicas.

Distribución Normal
De todas las distribuciones teóricas conocidas, la más utilizada es la distribución normal o de Gauss. Esto es así dado
que existen muchas variables conocidas que se comportan aproximadamente según esta distribución, esto es, si
medimos la altura, el peso, la presión arterial, los niveles de dehidroepiandrosterona (DHEA) en orina, etc., en un
número grande de individuos (grande siendo al menos 1000), la distribución de frecuencias se aproximará a una
normal. Además, sin importar la distribución de los datos, si tomamos muestras de tamaños razonables, la distribución
de las medias muestrales se comporta como una normal 1. En otras palabras, si el número de individuos de una muestra
es grande, se puede aproximar la distribución de las medias muestrales a una normal.

1
Teorema Central del Límite, enunciado por De Moivre en el año 1733 con implicancias
fundamentales para la estadística.
La distribución normal se utiliza para variables cuantitativas continuas. Su representación gráfica tiene forma de
campana invertida (comúnmente llamada “campana de Gauss”), y la misma queda completamente definida si se
conoce sus parámetros estadísticos: la media es su eje de simetría, y el desvío estándar es la distancia desde la media
hasta el punto de inflexión. (Figura 2)

Como se desprende de la Figura 2, se puede observar que la media o  coincide con la mediana (de ahí a que sea el
eje de simetría), y también es el valor más frecuente, es decir, la moda.

De la gráfica también se desprenden los porcentajes de valores que se hayan comprendidos en distintos intervalos.
Por ejemplo, si tomamos el intervalo comprendido por la media ±  , en la gráfica sombreado en color rojo, advertimos
que incluye a un 68 % de los valores posibles de la variable. Si extiendo el intervalo de valores a la media ± 2 , es decir
incluyo el área sombreada en color violeta, entonces estaré abarcando un 95% de los valores. Por último, si considero
el intervalo que abarca la media ± 3 estoy incluyendo el 99% de los valores de la variable. Además, puedo calcular
la probabilidad de que un valor “x” caiga por fuera de determinados límites. Por ejemplo, si sabemos que el 95% de
los valores se halla comprendido entre la media ± 2 , la probabilidad de que un valor al azar se halle fuera de esos
límites es de 5%, (0,05). (Tabla 2)

Estas consideraciones son muy útiles porque si la variable en estudio se distribuye aproximándose a una normal,
conocer las propiedades de la curva nos permite obtener información muy valiosa de los datos que estamos
analizando.

Tabla 2

Desvío a la media. Fracción del área total Probabilidad dentro de Probabilidad fuera de
los límites los límites (P)

±1 68% 0.68 0.32

±2 95% 0.95 0.05

±3 99% 0.99 0.01

Consideremos el caso del ejemplo 3. En ese caso la muestra era muy pequeña, de 10 alumnos, y al observar el
histograma no se puede ajustar a una normal. Pero supongamos que conocemos los valores de toda la población, es
decir que conozco  y  y que los mismos adoptan los valores de 16 y 2 respectivamente. ¿En qué intervalo de
frecuencia respiratoria se encuentra el 95% de la población?
Dado que son datos de la población, los mismos se pueden ajustar a una distribución normal, y por lo analizado
previamente sabemos que el 95% de los valores se encuentran comprendidos entre ± 2  De esta forma el 95% de
la población, en este ejemplo, tiene una frecuencia respiratoria entre 12 y 20.

Extraigamos un poco más de información de la curva. Como podemos advertir, hacia valores extremos la probabilidad
disminuye drásticamente, y tiende asintóticamente a 0. ¿Cuál es la probabilidad de que una persona tomada al azar
tenga un valor de frecuencia respiratoria mayor a 22? Un valor superior a 22 se encuentra a 3 de la media. Sabemos
por la curva que entre la media ± 3 incluimos el 99% de los valores, es decir, dejamos fuera el 1% de los valores.
Ahora bien, como sólo estamos analizando los valores MAYORES a 22 resp/min, media +3 (no me interesan los
valores menores a 3 de la media), la probabilidad de que un valor al azar sea superior a 22 es del 0,5 % (p=0,005).

Estos ejemplos básicos son sólo algunas de las potencialidades que otorga ajustar una variable a una curva normal, la
cantidad de información que se puede obtener es mucha, y continuaremos estudiándola en apartados siguientes.

Distribución de Student

Muy frecuentemente en Bioestadística se trabaja con muestras aleatorias de la población, y se trabaja con las medias
de las muestras, y no con la media de la población. Está comprobado que la media de las muestras se distribuyen
normalmente, con una media que es igual a  Además, el error estándar de las medias (ESM o SEM según sus siglas
en inglés), es decir, la dispersión de las medias muestrales con respecto a la media de la población, se calcula según la
ecuación:
𝜎
𝐸𝑆𝑀 =
√𝑛

Dado que no conocemos el valor de , sino que debe ser estimado a través de valores de la muestra, se utiliza el
estimador “S” (desvío estándar muestral).

Esto nos permite estimar el ESM, y la ecuación queda reescrita de la forma:


𝑠
𝐸𝑆𝑀 =
√𝑛

Para muestras grandes, n>30, no representa mayor problema, puesto que s es un buen estimador de  El problema
surge cuando se trabaja con muestras pequeñas. Para estas situaciones es que se inventó la distribución “t” o de
Student 2.

Esta distribución es semejante a la normal, simétrica en torno a un valor medio, pero con un desvío estándar que varía
y depende de un parámetro denominado “grados de libertad”. Cuando el tamaño de la muestra aumenta, la
desviación estándar de la distribución se aproxima a  (Figura 3). Podemos ver que para muestras pequeñas, con
grados de libertad pequeños, la curva es más ancha, tiene una dispersión mayor.

¿Qué son los grados de libertad? Es un concepto un tanto complicado de explicar, pero se podría describir como
“piezas únicas de información en un determinado set de datos”. Pongamos un ejemplo muy sencillo. Se tienen 2
hermanos y su edad promedio es 20 años. ¿Cuántos valores pueden variar libremente, sin alterar el promedio? La
respuesta es 1. Si el hermano A tomara cualquier valor, digamos 30, la edad del hermano B obligatoriamente debe ser
10, si adoptara otro valor, cambiaría el valor promedio, se dice que ese dato está fijo. Esto puede extenderse a
cualquier n. Si hubiera 3 hermanos, las edades de dos hermanos podrían variar, pero la del tercero debe quedar fija
para que se mantenga el mismo promedio. Podríamos Entonces los grados de libertad en estos casos representan
cuántos datos pueden variar libremente, y podríamos calcularlos como n-1.

2
Student era el seudónimo de William Gosset, investigador que inventó la distribución de Student, y que no pudo utilizar su
nombre porque la compañía cervecera “Guiness”, para la cual trabajaba, prohibía hacer publicaciones.
Figura 3

3) Pruebas estadísticas

En el ámbito científico las investigaciones se realizan siguiendo un orden metódico y sistemático de pasos,
comúnmente denominado método científico. En pocas palabras se podría resumir el método científico en los
siguientes puntos:

1) Observación: se analizan los fenómenos de la realidad y se plantea un problema o cuestión a resolver.


2) Hipótesis: se formula una posible respuesta para dicho problema, la cual deberá ser sometida a pruebas para
confirmarla o refutarla.
3) Experimentación: en base a un marco teórico dado, se genera un diseño experimental que permita poner a
prueba la hipótesis.
4) Análisis y conclusión: se analizan los resultados y se concluye en base a los mismos. El resultado dictaminará
si se deben realizar nuevos experimentos, si se debe reformular la hipótesis o si se encuentra evidencia que la
apoye y se pueda aceptar como respuesta válida para el problema.

Tanto en el diseño experimental, y principalmente en el análisis de los datos, la estadística juega un rol importantísimo,
ya que mediante la formulación de “hipótesis estadísticas”, podremos expresar nuestras conjeturas acerca de los
fenómenos estudiados, y concluir acerca de ellas.

Para conocer con absoluta certeza la verdad o falsedad de una hipótesis deberíamos poder estudiar toda la población,
algo que no hacemos a menudo, sino que trabajamos con información muestral. En virtud de esto, las decisiones que
tomemos en función de los datos muestrales tendrán asociado un cierto grado de incertidumbre o error. En otras
palabras, existe una probabilidad de llegar a una conclusión errónea, la cual intentaremos fijar y/o minimizar.

Para el análisis estadístico de un fenómeno, se ensayan dos hipótesis: la hipótesis nula (H0) y la hipótesis alternativa
(H1). La hipótesis que se busca probar es la hipótesis alternativa, la que enuncia el fenómeno que nosotros estudiamos.
Para lograr eso, debemos poder rechazar la hipótesis nula, que es la que afirma que la ocurrencia de un fenómeno de
nuestro interés es debida al azar, que el tratamiento que estudiamos no tiene efecto, que dos poblaciones que
estudiamos no son distintas, etc.

Ejemplo 4: De la observación cotidiana se desprende que, tras subir 3 pisos por escalera, la frecuencia respiratoria
aumenta 3. En base a esta observación podríamos plantear la hipótesis nula, y alternativa, y así ponerlas a prueba para
llegar a una conclusión.

H0: Si se registra un cambio en la frecuencia respiratoria tras subir tres pisos se debe al azar. Dicho de otro modo, no
existe un efecto sobre la frecuencia respiratoria provocado por subir 3 pisos por escaleras.

H1: Existen cambios en la frecuencia respiratoria debidos a subir 3 pisos por la escalera.

3
La evidencia experimental ha demostrado que éste aumento rápido de la frecuencia respiratoria es debido a la activación de
mecanismos propioceptivos gatillados por la contracción muscular y el movimiento articular, que estimulan el centro
respiratorio del bulbo raquídeo.
Para poder confirmar nuestra sospecha, es decir, que subir 3 pisos por escalera modifica la frecuencia respiratoria, Commented [IE3]: Para respetar el enunciado de la H1
debemos diseñar un experimento que me permita obtener evidencia suficiente para rechazar la H0, y así poder aceptar
H1. No rechazar H0 por evidencia insuficiente no implica su aceptación, simplemente no puedo rechazarla.

Tipos de errores
Dado que H0 y H1 son dos afirmaciones mutuamente excluyentes, y recordando que nuestras inferencias están basadas
en datos de la muestra, y no de la población, la toma de una decisión supone el riesgo de cometer dos tipos de errores:

H0 es cierta H0 es falsa

No rechazar H0 Decisión correcta. Error tipo II


Rechazar H0 Error tipo I Decisión correcta

Para una muestra dada no es posible disminuir ambos errores al mismo tiempo. La probabilidad de cometer un error
de tipo I se denomina nivel de significación y se simboliza con la letra 

Si no se pueden minimizar ambos errores a la vez, se debe priorizar uno de ellos. Dado que H 0 representa la decisión
más conservadora, lo establecido, y H1 la novedad o postulado que se afirma, parecería más riesgoso cometer un error
de tipo I que de tipo II, y es por ello que los test de hipótesis fijan el valor de α (Normalmente se escoge un valor de
0,05 o 0,01, es decir, una probabilidad de rechazar H0 erróneamente del 5% o 1%). El nivel de significación debe
serfijado previo al desarrollo del experimento, y no puede ser modificado luego de obtener los resultados.

La única forma de minimizar el error de tipo II, sin incrementar el error de tipo I es aumentando el n de la muestra.

p-valor
Así como explicamos que para todas las pruebas estadísticas se debe prefijar un  grado de significancia según el
cual tomaremos la decisión acerca de nuestras hipótesis, algunos software estadísticos incluyen una devolución de
resultados con el denominado “p-valor”. Éste se puede interpretar como la probabilidad de obtener un conjunto de
datos en particular dado que las muestras provienen de la distribución indicada en H0. Si el p-valor es alto, digamos,
0.6, es bastante probable que H0 sea cierta. En cambio cuanto más pequeño es el p-valor, menos probable es que H0
sea verdadera. Muchas veces fijamos un nivel de significancia de 0,05, y el software estadístico nos informa que el p-
valor es de, por ejemplo, 0,001. ¿Qué quiere decir eso? Podemos interpretar en este caso que  podría haber sido
menor al elegido, y la decisión hubiera sido la misma, rechazar H0.

Prueba t
Permite comparar las medias de dos grupos experimentales, y determinar si existen diferencias significativas entre
ambas. Las hipótesis en este caso se centran entonces en la media:

H0= 1-2= 0

H1= 1-2≠ 0

Ejemplo 5: Se desea evaluar la efectividad de dos dietas en el descenso de peso. Para ello, se pesaron individuos al
inicio del estudio y tras 15 días de establecida la dieta. La mitad de las personas, seleccionadas al azar, realizó la dieta
A y la otra mitad la dieta B. Los resultados obtenidos fueron:

Cambio de peso tras 30 d de dieta (gr)


Dieta A Dieta B
+200 -650
-100 -400
+50 -1200
-75 -350
-125 -600

Las hipótesis en este caso serían:

H0= No existe diferencia entre el cambio de peso dado por ambas dietas.
H1= Existe una diferencia en el cambio de peso producido por ambas dietas.

Para la realización de la prueba t es necesario calcular un estadístico, el estadístico t.

̅̅̅1 − ̅̅̅
(𝑋 𝑋2 )
𝑇=
2 2
√𝑆1 + 𝑆2
𝑛
Dieta A Dieta B ̅̅̅1 − ̅̅̅
(𝑋 𝑋2 ) T calculado
𝑇=
2 2
√𝑆1 + 𝑆2
𝑛

𝑋̅ -10 -640 |(−10 −640)|


=
∑(𝑥 − 𝑥̅ )2 114250 (18312.5 + 114250) 3.68
𝑠2 = 18312,5 √
𝑁−1 5

Luego uno debe contrastar este estadístico calculado a partir de los datos de nuestra muestra y compararlo con valores
tabulados. Los valores de T teóricos que figuran en las tablas varían de acuerdo a los grados de libertad y el grado de
significancia () que se haya escogido. (Ver tabla 3) Si el T calculado es mayor al T crítico (Valor tabulado de T a partir
del cual rechazaremos H0), entonces se puede rechazar H0, y aceptar la hipótesis alternativa, en este caso, aceptar que
existe un cambio de peso diferente para cada dieta.

Los grados de libertad en este caso se calculan como la suma de grados de libertad para cada muestra. Se tiene
entonces: (n1-1)+ (n2-1)= (n1+n2-2)=5+5-2= 8

Si elegimos un grado de significancia correspondiente a 0.05, para una prueba bilateral, el Tcrítico para 8 grados de Commented [IE4]: No está previamente aclarado este
libertad es: 2.306 concepto

Dado que Tcalc> Tcrítico, se puede rechazar H0, y concluir que existe una diferencia estadísticamente significativa entre
la pérdida de peso de ambas dietas.
Tabla 3: En las filas se encuentran los grados de libertad, mientras que en las columnas se debe indicar el grado de significancia.
Se encuentra diferenciado el  para una prueba unilateral, y para una prueba bilateral. A medida que nos desplazamos hacia la
derecha, los valores de t aumentan, puesto que la significancia es cada vez mayor, lo que hace al test más exigente.

Nuevamente y al igual que muchos de los cálculos estadísticos, no es común realizar una prueba t manualmente, sino
que se aprovecha el uso del software estadístico para obtener los resultados. Visualizar las ecuaciones sirve para
afianzar los contenidos teóricos y entender el resultado.

Tipos de prueba t
Hasta aquí hemos descrito conceptos básicos, pero es necesario remarcar brevemente otros detalles importantes a la
hora de realizar una prueba t, que aparecerán en distintos Software de estadística y es conveniente aclarar:

• Test a una cola (unilateral) o dos colas (bilateral): cuando se comparan dos poblaciones, es posible que sólo
nos interese comparar una porción de la distribución, (ya sea la de valores extremos inferiores o superiores)
o ambas “colas”. En general las comparaciones por default se hacen bilateralmente, porque nos interesa saber
si las medias son distintas, ya sea una mayor o menor a la otra, porque a priori no tengo información para
decir en qué sentido pueden ser distintas. Pero si se tiene algo de información previa del fenómeno de estudio,
y se supone que la diferencia entre medias se da en un solo sentido, es decir, la hipótesis alternativa define
explícitamente que una media es mayor o menor a otra (en lugar de simplemente suponer que son distintas)
puede utilizarse una comparación a una cola.
• Muestras pareadas: éste es un concepto importante también, y depende del tipo de unidades experimentales
que se usen en el análisis. Muestras pareadas o desapareadas se refiere a si es el mismo individuo el que se
está comparando o no lo es, por ejemplo antes y después de una intervención (pareada). Si medimos la
frecuencia cardíaca de los alumnos en reposo, y tras subir 5 pisos por escalera en el mismo alumno, la muestra
es pareada. Por el contrario, si separo a la comisión en dos partes, y mando a correr a una mitad, y la otra
permanece en reposo, y comparo sus frecuencias, las muestras son desapareadas.
• Varianzas iguales: la versión más simple del test de T supone que las varianzas de ambas poblaciones son
iguales, con lo cual el estadístico se simplifica. Esto no siempre es así, y en caso de que no pueda asumirse este
supuesto, debe utilizarse una modificación del estadístico que corrige los grados de libertad mediante la
fórmula de Satterthwaite. Para comprobar la homogeneidad de varianzas existe un test estadístico
denominado test de Fisher.

Con respecto al ejemplo 5, corresponde a un diseño de muestras desapareadas. ¿Por qué? ¿Cómo deberían
conformarse los grupos experimentales para que el diseño sea de muestras pareadas?

Test de Fisher
Es un test que tiene numerosas aplicaciones, una de ellas es la comparación de varianzas para descartar la
heterocedasticidad (varianzas no homogéneas) y poder aplicar la prueba t normalmente.

En este caso las hipótesis planteadas son del tipo:

H0= A = B (Las varianzas de los grupos A y B son iguales)

H1= A ≠ B (Las varianzas de los grupos A y B son diferentes)

Para comprobarlo, se calcula el estadístico F que no es otra cosa que el cociente de las varianzas, ubicando en el
numerador a la varianza más grande.
σ2𝐴
𝐹= Siendo σ𝐴2 > σ2𝐵
σ2𝐵

Para que se cumpla la H0, el cociente debe resultar cercano a 1, lo que implica que los valores de las varianzas son
similares. Para tomar la decisión de rechazar H0 o no, se compara el F calculado con un F teórico que clásicamente se
obtenía de tablas, al igual que explicamos para el T crítico, y depende del grado de significancia escogido y los grados
de libertad del numerador y del denominador (calculados como n-1). Todos estos pasos se realizan rápidamente con
programas estadísticos.
Si F es mayor a F crítico o teórico, entonces se rechaza H0 y las varianzas no son homogéneas. Como se explicó
anteriormente, en el contexto de una comparación de medias, esta situación nos obligaría a utilizar la corrección de
Satterthwaite para la prueba T.

ANOVA
El ANOVA (del inglés “analysis of variance”) es una herramienta estadística muy poderosa que permite la comparación
de más de dos medias. Hemos estudiado en el apartado anterior que para comparar dos medias utilizábamos la prueba
t; aunque para más de dos grupos experimentales no es correcto usar el mismo test, porque es engorroso y porque
conlleva un aumento del error de tipo I. En este contexto se utiliza el ANOVA, cuyas hipótesis quedarían planteadas
de la siguiente forma:

H0= 1=2=3…=

H1= Al menos una i≠ 

Las fórmulas y cálculos no serán desarrollados en este anexo, pero pueden consultarlas en la bibliografía
recomendada.

Ejemplo: Retomando el ejemplo 5 analizado en el apartado de prueba t, donde se buscaba comparar la eficacia de dos
dietas para perder peso. ¿Qué pasaría si llegara una persona y dijera que la dieta C es mejor que todas las propuestas
anteriormente? En este caso serían 3 los grupos a comparar, y como explicamos anteriormente no se puede utilizar la
prueba t. ¿Y si quisiéramos comparar otra dieta más? ¿Y otra? El análisis de varianza es la herramienta que nos
permitirá analizar múltiples grupos sin inconveniente, y podremos concluir acerca de la dieta más efectiva.

4) Regresión Lineal

A menudo en el estudio de fenómenos biológicos es de interés analizar cómo se correlacionan dos variables, si existe
algún tipo de relación entre ambas. Para ello existen coeficientes, valores numéricos que indican qué tan buena es
dicha correlación. Uno de ellos es el coeficiente de correlación de Pearson (r) que caracteriza la correlación lineal
entre dos variables, y se define:
Es una fórmula muy compleja, y al igual que con la
mayoría de las que hemos visto en éste apartado, no
la utilizaremos para el cálculo manual, gracias a la
existencia de software estadísticos. Basta afirmar
que el coeficiente r adopta valores que van desde -1
hasta +1. Un valor de R=0 indica una correlación
nula, mientras que un valor de ±1 es una correlación
lineal perfecta, siendo el signo indicativo de si la
relación es creciente o decreciente. (Ver figura 4)

Pero a menudo no sólo nos interesa establecer una correlación entre dos variables, si no generar un modelo que me
vincule las dos variables, y me permita predecir una en función de la otra. Para ello se define una variable
independiente, clásicamente graficada en el eje de abscisas (x) y una variable dependiente graficada en el eje de
ordenadas (y).

El modelo que vincula a ambas puede ser de muchos tipos, lineal, cuadrático, exponencial, depende de cómo se
relacionen las variables. En este apartado estudiaremos brevemente la regresión lineal, lo que quiere decir que la
relación entre ambas variables se puede expresar con la función lineal:

𝑌 = 𝑎𝑋 + 𝑏
Donde a es la pendiente, b es la ordenada al origen (ambos parámetros que buscaremos estimar) X es la variable
independiente e Y la variable dependiente.

Figura 4

Método de cuadrados mínimos

El método de regresión lineal, o método de cuadrados mínimos, es el análisis estadístico que nos permitirá encontrar
los valores de a y b que mejor vinculen a las dos variables, o como se dice coloquialmente, permitirá encontrar la
“mejor recta” que represente los datos experimentales. ¿Por qué se llama método de cuadrados mínimos? Porque la
recta que una los puntos será la que menor diferencia elevada al cuadrado (para evitar que las diferencias positivas se
compensen con las negativas) tenga entre los valores experimentales y los valores ajustados (fitted).

Nuevamente para determinar si la recta obtenida representa bien los datos, si existe una buena correlación, se utiliza
el coeficiente r. También es muy usado el cuadrado del coeficiente de correlación, que se denomina coeficiente de
determinación (r2). El r2 refleja cuánto de la variación total de los datos se explica por la regresión. Solo adopta valores
positivos, y cuanto más cercano a 1 sea, mejor es la relación lineal entre los datos; en cambio, cuanto más se acerca a
0 el valor, significa que las variaciones observadas en los datos son debidas al azar, y no al modelo lineal propuesto.

El desarrollo y los cálculos manuales no los estudiaremos aquí, sino que nos valdremos del uso de los programas
estadísticos para la realización de la regresión lineal.

Ejemplo: Se analizó los niveles de hormona antidiurética (ADH) y se buscó la correlación lineal con los valores de
osmolaridad plasmática. A su vez se comparó a dos grupos distintos, uno control, y un grupo de individuos con una
determinada patología. La gráfica obtenida fue la siguiente:
¿Le parece que la correlación lineal
entre las variables es buena? ¿En qué
grupo experimental es mejor?

¿Qué grupo posee mayor aumento


de niveles de ADH frente al cambio
de osmolaridad plasmática?

Por ejemplo, teniendo el valor de osmolaridad plasmática y la concentración de ADH plasmática de un individuo dado;
y conociendo los valores de estas rectas, podríamos predecir con cierto grado de certeza, si este individuo corresponde
a la población control o al grupo patológico. (les parece??)

También podría gustarte