Está en la página 1de 64

Facultad de Ciencias Veterinarias

Bioestadística

Guía auxiliar de estudio


Bioestadística 2017 FCV-UNL

Guía auxiliar de estudio

La presente guía pretende constituirse solo en un material que sirva de guía


y en ningún caso es suficiente para sustituir ninguna bibliografía específica. Es un
humilde aporte que procura brindar un material de fácil comprensión, para
posteriormente continuar con el estudio de la excelente bibliografía existente, que
jamás podrá reemplazarla.

Se tratan todos los temas del programa de la asignatura Bioestadística, tal


vez con distintos niveles de profundidad, en una suerte de material introductorio
para el estudiante de Veterinaria que, según la experiencia recogida en varios
años, tiene poca inclinación a los procedimientos usados en esta materia pero que
son de uso imprescindible.

Por ello se ha tratado de abordar los temas con la mayor simplicidad


posible, complementada con ejemplos prácticos, en un lenguaje accesible y de
fácil comprensión, sin por ello caer en expresiones inadecuadas.

INTRODUCCÍON

Definiciones

Estadística: es un área de la ciencia que se ocupa de la extracción de


información a partir de datos, y de su uso para hacer inferencia acerca de la
población de la que provienen los datos.
La estadística compila, organiza, resume, presenta y analiza datos,
obteniendo la información contenida en los mismos.
Los datos son los resultados de las mediciones o calificaciones de las variables en
estudio.
Bioestadística: es la estadística aplicada a los fenómenos biológicos.

Variable: es una característica que adquiere distintos valores en distintas


personas, animales, lugares u objetos.

Clasificación de las variables

1. Variables cuantitativas: son las que pueden ser medidas o cuantificadas


1.1. Aleatoria continúa: cuando los valores de la variable dependen de
factores fortuitos y entre dos valores son posibles infinitos valores
intermedios. En esta categoría encontramos a numerosas variables (peso,
altura, volumen, glucemia, producción de leche, de granos, etc).

1
Bioestadística 2017 FCV-UNL

1.2. Aleatoria discreta: los valores de la variable también dependen de


factores fortuitos y entre dos valores no existen valores intermedios, por
ejemplo los recuentos (37 vacas de primera parición; 279 alumnos
ingresantes).
2. Variable cualitativa: es la variable que sus resultados no pueden medirse en
forma habitual, sino que se califican o catalogan (color de pelaje, razas,
nombres, nacionalidad)
3. Variables determinísticas: en realidad se refiere a caracteres que son fijos
para cada individuo y pueden ser predeterminados, por lo que no son variables
verdaderas, como por ejemplo pelaje de la descendencia resultante de razas
puras, cantidad de ojos en un individuo, órganos del sistema digestivo, etc.
Escalas de medición de las variables

Se sintetizan en las siguientes, en orden creciente de perfección, si la


analizamos desde el punto de vista de la complejidad de operaciones matemáticas
que permiten.

1. Escala nominal o categórica: se da nombre o se califica a la variable en


categorías que no pueden variar, generalmente son variables cualitativas
(vivo-muerto, positivo-negativo, razas, actividades, nacionalidades, etc).
2. Escala ordinal: en la calificación de la variable aparecen órdenes o grados de
intensidad (estado de nutrición: MB, B, R, M; pronóstico clínico: benigno,
reservado, grave). Cuando la variable solo admite dos categorías es lo mismo
que el nominal.
3. Escala de intervalo: se asignan valores numéricos que sirven para indicar la
intensidad de una característica continúa, con unidad de medida y origen
arbitrarios. No comparten el cero. Tiene poco uso en veterinaria. Ejemplo:
temperatura en grados Celsius y en grados Fahrenheit.
4. Escala absoluta: se le designa valores numéricos enteros, se utiliza para
cuantificar variables cuantitativas aleatorias discretas. Ejemplos: n° de vacas
en un rodeo, cría por camada en cerdas.
5. Escala de relación o razón: es la que asigna valores numéricos, la unidad es
arbitraria y el origen fijo, compartiendo el cero, es usada para variables
aleatorias continuas. Mantiene siempre igualdad en las relaciones o
proporciones y permite las operaciones matemáticas más complejas. Ejemplo:
volumen medido en litros o galones, peso en kilos o libras, distancia en
kilómetros o millas son algunos ejemplos de esta escala. Esta escala de
medición es la que permite la mayor variedad de procesos matemáticos.

Se puede regresar en la escala, desde la más compleja a la más simple (de


la última a la primera), pero perdiendo información; por ejemplo en la variable peso
medida en la escala de relación o razón (kg) se puede utilizar valores en escala
absoluta (sin decimales), o puedo transformarla en una escala ordinal (pesado,
mediano, liviano), o regresar hasta la escala nominal o categórica (pesado, liviano)

2
Bioestadística 2017 FCV-UNL

Nunca se puede avanzar en la escala de medición una vez que se ha


determinado el valor o categoría si no se las unidades originales resultantes de
medir o calificar la variable de interés.

Población: es el conjunto o colección más grande de objetos, elementos o


individuos sobre los que, en un momento dado, se tiene interés.
Muestra: es una parte de una población que sirve para su estudio, y que se
conforma por unidades que son extraídas mediante procesos estadísticos u otros
métodos de acuerdo al objetivo para el cual se emplea.
Arreglo ordenado de datos: consiste en hacer una lista de los valores de una
población o muestra en orden de magnitud, desde el más pequeño al más
grande.
Estimador estadístico: medida estadística descriptiva calculada a partir de las
observaciones de una muestra.
Parámetro: medidas descriptivas calculadas a partir de observaciones de una
población.

INVESTIGACIÓN
Se pretende dar una idea de lo que implica en la Investigación la aplicación del
método científico, que permite arribar a conclusiones científicamente
comprobadas. Solo se enunciará brevemente algunas definiciones y los pasos
generales del método científico, y quien desee conocer realmente el tema debe
consultar los tratados de Epistemología y/o de Metodología de la Investigación
Científica.
Investigación es una forma de actuación humana orientada al conocimiento de la
realidad observable, del mundo que nos rodea (Sierra Bravo,1995).
Según la técnica empleada para procurar este conocimiento, la investigación
presenta subdivisiones que llamamos Formas de Conocimiento. Entre las formas
de conocimiento tenemos:
 El Ensayo-error. Es una forma elemental de descubrir una posible solución
entre varias alternativas. Su mayor inconveniente es que no existe garantía de
que la solución encontrada sea la mejor, además no sabemos en qué medida
es aplicable a situaciones y/o condiciones distintas.
 El Razonamiento Lógico. Deduce y explica otros conocimientos a partir de
hechos considerados como evidentes. Es insuficiente ya que muchas
deducciones basadas en métodos racionales son ciertas, pero otras son
erróneas.
 El Método Científico. Es la aplicación formal de procedimientos sistemáticos y
ordenados, con el fin de llegar a describir, explicar, predecir, controlar
fenómenos y demostración de la verdad.

Etapas del Método científico

1. Observación de la realidad y detección de lo que para nosotros constituye


un problema que necesita de investigación

3
Bioestadística 2017 FCV-UNL

2. Revisión de antecedentes bibliográficos relacionados con el tema en


revistas o textos especializados existentes.
3. Formulación de la/s hipótesis de trabajo. Una hipótesis es una suposición o
una proposición que se formula para explicar un fenómeno que es nuestro
problema. La hipótesis debe transformarse en una aseveración posible de
someter a pruebas estadísticas, esto es una hipótesis estadística.
4. Diseño de un modelo que me permita llegar a probar esas hipótesis.
5. Colección de datos.
6. Análisis estadísticos de los datos. Esto supone poner a prueba las hipótesis
planteadas decidiendo o no su rechazo.
7. Elaboración de conclusiones.
8. Publicación o difusión.

En la investigación de un problema particular existente en una determinada


población, en un determinado lugar y tiempo, se siguen los siguientes pasos:

1. Formulación o definición del problema: a partir de detectar algún problema


en la realidad, que a juicio del que investiga merece ser explicado o
desentrañado. A partir de ello se define qué es lo que se investigará, sobre la
población objetivo del estudio, la que es conveniente delimitar en tiempo y
espacio. Ej: ovejas Corriedale mayores de 2 años del departamento x, de la
provincia y, en el año z.

2. Diseño de la Investigación.

2.1. De acuerdo al tiempo involucrado:


2.1.1. Longitudinal implica que se realiza el estudio en un período que pueden
ser minutos, horas, días, meses o años. Involucra por lo menos dos
momentos en el tiempo, dos mediciones, un antes y un después o un
ahora y un ayer, para cada objeto o individuo en estudio. A su vez el
estudio longitudinal puede subdividirse en:
2.1.1.1. prospectivo que significa que el estudio se realiza desde un
momento hacia adelante en el tiempo, como por ejemplo el
estudio del efecto de un medicamento sobre una variable
orgánica: se mide la variable antes de incorporar el medicamento
y luego de ello en un tiempo variable. Un estudio de cohorte es un
estudio prospectivo
2.1.1.2. retrospectivo desde un momento hacia atrás, por ejemplo
investigación de una intoxicación: se parte de animales afectados
y no afectados y se estudian los factores a los que pudieron estar
expuestos o no expuestos en un período anterior.
2.1.2. Transversal significa que el estudio se realiza en un momento en el
tiempo, como por ejemplo los estudios de reactores a brucelosis, donde a
cada animal se le extrae una muestra de sangre en un momento del
tiempo, o un censo de población que se realiza en argentina cada 10
años y a cada vivienda llegan los censistas a determinada hora y

4
Bioestadística 2017 FCV-UNL

recogen los datos de la realidad de ese momento. A pesar que el estudio


completo de todas las unidades muestrales demande varios días, cada
unidad de muestreo es estudiada en un momento del tiempo. Los
estudios de prevalencia son estudios transversales

De acuerdo al número de poblaciones estudiadas:

2.1.3. Descriptivo: analiza una sola población, en la que se estudia la o las


variables de interés, describiendo las medidas de resumen de datos y/o
toda otra información que se estime de utilidad.
2.1.4. Comparativo: se estudian dos o más poblaciones de interés, de modo
que en el análisis de los datos sea posible estudiar o comparar el
comportamiento de la/s variable/s seleccionada/s en las poblaciones
bajo estudio.

2.2. De acuerdo a la intervención del operador sobre la/s población/es en


estudio:

2.2.1 Observacional: cuando el investigador se limita a trabajar con una o


más poblaciones pero sin intervención sobre la/s misma/s, de modo
que no implique una modificación respecto a la realidad de esa/s
población/es.

2.2.2 Experimental: es el estudio en el que el investigador modifica


deliberadamente el estado de las unidades o individuos, o sea que altera
la "normalidad", por ej. a través de la alimentación (diferentes
alimentaciones en los distintos grupos), el manejo, la incorporación de
medicamentos, entre otros. Cuando a una población se le controla la
variable de interés ("población tratada"), se tiene otra población a la que
no se le controla la misma para que sirva de control ("población control
o sin tratar").

Nota: un experimento típico es el que responde a las siguientes


características: longitudinal, prospectivo, comparativo y experimental.

3. Obtención y compilación de datos, que puede ser por observación directa o


por cuestionario.
4. Organización y descripción de los datos por medio de medidas de
resumen, gráficos, diagramas, etc.
5. Tratamiento estadístico mediante pruebas que permitan inferir hacia la
población de la que se extrajo la muestra.
6. Conclusión o inferencia final.
7. Difusión en medios científicos u otros.

Razonamiento inductivo (o inferencial) y razonamiento deductivo

5
Bioestadística 2017 FCV-UNL

Se habla de inferencia cuando, a partir de analizar una parte de la población


llamada muestra, es posible sacar conclusiones que sean válidas para esa
población, es decir generalizar los resultados de una parte de ella. Se razona de lo
particular a lo general. Este proceso INDUCTIVO o INFERENCIAL es
ampliamente basado en la estadística.

Por el contrario el razonamiento deductivo se refiere al proceso en que


partiendo del conocimiento que se tiene de lo general se sacan conclusiones
sobre lo particular. En probabilidad se conocen aspectos de una población para
sacar conclusiones sobre una muestra, lo que representa una DEDUCCIÓN.

Ejemplo: se necesitan reponer anualmente 40 vientres de producción


propia, sabiendo que se espera cerca del 50% de los nacimientos sean hembras;
que de las hembras nacidas se debe descontar un 2% por mortalidad más el
descarte por caracteres no deseables de un 18%. Con un cálculo sencillo puede
deducirse que se necesitará partos anuales, para tener 50 terneras y 50 terneros,
ya que teniendo descarte de 20% (2+18) de las hembras lo que es suficiente para
cubrir la necesidad planteada. Por lo tanto, al conocer la proporción de hembras y
machos en determinada cantidad de nacimientos se puede estimar cuántas
hembras dispondremos en años futuros; de algo general deducimos sobre un
problema particular.

ALGUNOS CONCEPTOS SOBRE NOTACIÓN MATEMÁTICA

Sucesión numérica: conjunto de valores ordenados en algún sentido de tal forma


que puedan ser definidos e identificables.
Si se pretende expresar simbólicamente el peso de una vaca determinada dentro
de un conjunto de pesos de vacas será: xi = peso de la vaca i-ésima;
la suma de los pesos de las vacas 1; 2 y 3 será: x1 + x2 + x3.
Pero, como se comprenderá, esta expresión no resulta práctica para representar
conjuntos grandes de observaciones, por lo que se usa la “sumatoria”: 
Entonces la suma de los pesos de las vacas 1; 2; 3; ... ; n, (se quiere sumar desde
la primera observación hasta la última), se puede expresar:
n

 Xi
i 1
donde: i=1: indica primera observación , n última observación; por consiguiente la
extensión de la sumatoria indica que se debe sumar todos los valores de las
observaciones, desde la primera hasta la última.
Si se desea conocer la suma de los pesos de las vacas 5 a 32, la notación será:
32

X
i 5
i

6
Bioestadística 2017 FCV-UNL

En adelante, cuando la extensión de la sumatoria sea desde la primera


observación hasta la última, no anotaremos la extensión, solo el símbolo
sumatoria:
La expresión  Xi implica la suma de cada uno de los valores de los pesos al
2

cuadrado de todas las vacas que nos interesan. En la siguiente se sumarán


todos los valores, cada uno de ellos previamente elevados al cuadrado.
 Xi
2
 X12  X 22  X 32  ...  X n2
Esto indica que a cada valor se lo eleva al cuadrado y posteriormente se suman
todos los valores al cuadrado.

7
Bioestadística 2017 FCV-UNL

MEDIDAS DE RESUMEN DE DATOS

Son números que resumen los valores de las observaciones (datos) con el
objeto que puedan comprenderse grandes grupos de observaciones mediante
pocas expresiones numéricas que “representan” esos datos u observaciones.

1. Medidas de tendencia central y de posición

Suponen algunas características o cantidades que representan el centro de la


distribución de los datos. Ellas son:

1.1. Media o Promedio o Media aritmética es el resultado de sumar todos


los datos u observaciones y dividirlo por la cantidad de ellos
(denominado n). Es la medida que más se usa, y es el mejor estimador
del promedio poblacional de la variable que nos interesa. Ejemplo:
promedio de producción por vaca en lactancia (Kg), promedio de
cachorros por parto, promedio de proteína en leche, etc.

Xi
N
Mu (µ) es el parámetro poblacional, pero como en la gran mayoría de los casos
trabajamos con muestras el promedio muestral tiene los mismos términos pero se
reemplazan los símbolos por los de la muestra
X
xi
n
Las características de la media son:
 Es fácil de calcular y de interpretar.
 Es única para un conjunto de datos.
 Está influenciada por los valores extremos ya que todos los valores influyen
en su resultado.

La Media Ponderada de un conjunto de observaciones x1, x2, … xn; con


ponderaciones (importancias) w1, w2, … wn esta dado por:

Xp   w .x
i i

w1.x1  w2 .x2  ...  wn xn
w i w1  w2  ...  wn

Esta medida se usa en aquellos casos en los que las observaciones no tienen el
mismo grado de importancia.

8
Bioestadística 2017 FCV-UNL

Ejemplo: Durante la primera semana de mayo, la venta de carne en un


mercado registró los siguientes valores:

TIPO DE $ POR KILO Kg.


CARNE VENDIDOS
Bovina 4,65 1000
Porcina 6,00 42
Aviar 3,50 2200

¿Cuál es el precio promedio del kilo de carne vendida durante la primera


semana de mayo?

Tipo de Carne $ Por Kg. Kg. vendidos


(xi) (wi) xi.wi
Bovina 4.65 1000 4650.00
Porcina 6.00 42 252.00
Aviar 3.50 2200 7700.00
Total 3242 12602.00

Xp 
∑w .X
i i

12602,20
 3,89
∑w i 3242

El precio promedio del precio de la carne es de $ 3,89 el Kg


Mediana: es el valor de la observación que divide un conjunto ordenado (Arreglo
Ordenado) en dos partes iguales, de tal forma que la cantidad de valores menores
que la mediana sea igual a la cantidad de valores mayores que ella. Tiene menos
uso práctico que la media o promedio, pero sin embargo es de utilidad en el
análisis de distribución y en algunas pruebas no paramétricas.
En un arreglo ordenado podremos encontrar la mediana en el valor que se
encuentra en determinada posición P.
n 1
PMed 
2
Ejemplo: Los siguientes valores se refieren a la cantidad de vacas en
ordeño en 11 establecimientos del distrito M.

190 170 290 370 230 239 260 240 280 220 290
Arreglo ordenado
170 190 220 230 239 240 260 280 290 290 370
n  1 11  1
 6
2 2
Entonces el valor que se encuentra en el sexto lugar del arreglo
ordenado, es la mediana. En este ejemplo corresponde a 240 vacas en
ordeño, Mediana = 240 vacas en ordeño

9
Bioestadística 2017 FCV-UNL

El valor que se encuentra en esa ubicación es la mediana. Cuando el “n” es un


número par, la mediana es el promedio de los dos valores centrales.

Sus características son:


 Es sencilla de calcular y de interpretar.
 Es única para una serie de datos.
 No representa a todos los datos.
 Es poco afectada por los valores extremos.

Modo o Moda: es el valor, o la característica, que más se repite en un conjunto


definido. Se usa para cualquier conjunto de observaciones y es la única medida
de tendencia central que se puede utilizar en variables cualitativas. Ejemplos:
categorías de hacienda (terneros, novillitos, novillos, vaquillonas, vacas secas,
vacas en ordeño), razas de gatos, enfermedades que afectan al lactante, nivel
socioeconómico (alto, medio, bajo) de productores, tipo de producción (agricultura,
cría, tambo, invernada), etiologías de abortos, etc.
Para el ejemplo anterior, el valor que más se repite es 290, que está dos
veces, Mo= 290

Las características de la moda son:


 Es sencillo de determinar y de interpretar.
 No representa a todos los datos.
 No está afectado por los valores extremos.
 Puede no existir, ser único, o haber dos o más modos, hablando de
distribución amodal, bimodal, trimodal.

Ejemplo: frecuencia de enfermedades, o casos de caninos atendidos en


una clínica de pequeños animales durante un mes.

Diagnóstico frecuencia absoluta


(fa)
Distemper 12
Fracturas 8
Hepatitis 1
Metritis 5
Neumonías 6
Otitis 2
Parásitos internos 6
Sarna 5
Otras 4

El modo es Distemper (Moquillo) porque es la enfermedad que más se


diagnosticó (la mayor frecuencia de casos atendidos) en el mes en esa
clínica (fa = 12)

10
Bioestadística 2017 FCV-UNL

Nótese que no puede calcularse el promedio (media) ni la mediana, siendo el


MODO la única medida de tendencia central que puede determinarse en variables
cualitativas.

Los cuartiles, deciles y percentiles son puntos que dividen una serie ordenada
de datos en cuartos, décimos y centésimos respectivamente. De esta forma la
medina es el segundo cuartil, el quinto decil y el percentil 50.

Medidas de dispersión o de variación

Son las que permiten conocer cómo están distribuidos los datos alrededor del
promedio; cuan alejados se encuentran del mismo, si están cerca de él o no.
Cuanto mayor sea la diferencia entre los valores en análisis, mayor será la
dispersión. Estas medidas son:

Rango o Recorrido: es simplemente la diferencia existente entre el valor mayor y


menor de un conjunto de datos.
𝑅 = 𝑉𝑠 − 𝑉𝑖
Siendo: Vs el valor superior o de mayor magnitud y Vi el valor inferior o de menor
magnitud.
Características del Rango:
 Es sencillo de calcular y de interpretar.
 Es único y solo representa a los valores extremos.

Varianza: es una medida de variación de los datos con respecto al promedio, es


una medida cuadrática, es decir, son unidades al cuadrado. Por ejemplo si
estamos registrando la altura a la cruz de un determinado grupo de animales,
medido en centímetros, el resultado de la varianza es en centímetros cuadrados.

  Xi   
2

 2

N
Esta fórmula es el parámetro poblacional. Para la muestra se reemplaza  2 por S2,
___
 por X y N por los grados de libertad que es n-1, así tenemos el estimador
estadístico de la varianza.

S 2  Xi  X 
 
2

n 1
En forma general, la varianza tiene como numerador una suma de cuadrados y
como denominador los grados de libertad.

Desvío Estándar: es la raíz cuadrada de la varianza y está expresado en las


mismas unidades del promedio (que es la misma que los datos originales)

11
Bioestadística 2017 FCV-UNL

  Xi   
2


N
___
De igual forma que la varianza, si reemplazamos  por S,  por X y N por n-1,
tendremos el estimador estadístico o desvío estándar muestral.

 Xi  X 
2

S
n 1
Otras fórmulas, para calcular el desvío estándar o la varianza de la muestra, más
desarrolladas pero simples de resolver y que se sugiere usen.

n Xi 2   Xi n Xi 2   Xi 
2 2

S S 
2

nn  1 nn  1

Cuando encontramos en cualquier trabajo publicado, la expresión 25  3, quiere


decir que el promedio es de 25 y el desvío estándar es de 3, de las unidades de
que se trate. Ejemplo: 25Kg.  3Kg

Coeficiente de Variación: es el desvío estándar dividido por la Media y


multiplicado por 100. Es una expresión porcentual de la variabilidad dada por el
desvío estándar, en relación al promedio. En otras palabras es una medida
porcentual de la variabilidad en función de la media.

C.V .  100

y para la muestra será:
S
C.V .  ___
100
X

Los valores que se detallan a continuación se refieren al número de


cerdas madres en 32 criaderos del Departamento Caseros, Provincia de
Santa Fe:

21 23 24 36 39 35 29 32 37 20
44 33 18 16 23 24 47 27 25 19
26 29 34 33 28 65 12 33 9 44 60

Promedio 30,483871
Mediana 29
Moda 33
Varianza 155,658065
Desvío estándar 12,4763001

12
Bioestadística 2017 FCV-UNL

Datos agrupados

Cuando se dispone de una variable cuantitativa continua o discreta y la cantidad


de observaciones (n) son elevadas, conviene realizar un agrupamiento de los
valores en función de su magnitud, en partes que se llaman Intervalos de Clase
(I.Cl) En algunos casos solo se dispone de los datos agrupados por terceras
personas y no hay otra alternativa que trabajar con ellos ya que no se dispone de
los datos originales.
Los pasos que deben seguirse para agrupar los datos en Intervalos de Clase son:
1) Se calcula el Rango o Recorrido (R)
2) Se define el número de Intervalos de Clase que necesitamos usar. Esto
depende de lo que el investigador necesite para mostrar más
adecuadamente sus observaciones. Como guía se puede seguir la Regla
de Sturges: 𝐾 = 1 + 3,322 log 𝑛
3) Cuando se tiene definido el número de I. Cl. debemos calcular la amplitud
que tendrá cada Intervalo (Amplitud). Es conveniente que todos los
intervalos que se definan para un conjunto de valores, tengan la misma
magnitud.
R
Amplitud 
K
El intervalo de clase debe ser exhaustivo y mutuamente excluyente.
Exhaustivo: Cada intervalo debe contener todos los datos que se encuentren
entre esos límites: Ls= Límite superior y Li= Límite inferior.
Además, en el conjunto de intervalos de clase deben estar incluidos todos los
valores de las observaciones, de modo que la sumatoria de ellos sea n.
Mutuamente excluyente: Los datos que se encuentran en un intervalo no pueden
estar en otro.

Se expone a continuación los datos de altura a la cruz de 27 hembras de


una raza de cabras lecheras, según una muestra extraída al azar de
animales de esa raza en la provincia de Córdoba. Las alturas están
expresadas en cm y corresponden a animales de la misma edad.

64 66,3 65,4 70,5 71,6 80,1 65,2 68,6 74,8 76,1 79,5 66,4 75,9
66,6 77,1 73,7 67 68,7 71,6 70 70,2 74,3 72,8 73,9 71,1 71,6
71,9

Rango = 80,1- 64 =16,1


Rango 16,1
Amplitud    2,3
nº deIdeCl 7

13
Bioestadística 2017 FCV-UNL

Luego se listan los valores observados en un arreglo ordenado (de menor a


mayor) y una tabla de distribución de frecuencias con 7 intervalos de clase

64 65,2 65,4 66,3 66,4 66,6 67 68,6 68,7 70 70,2 70,5 71,1
71,6
71,6 71,6 71,9 72,8 73,7 73,9 74,3 74,8 75,9 76,1 77,1 79,5
80,1

 Xi =1924,1

Posteriormente se organiza una tabla de distribución de frecuencias

TABLA DE DISTRIBUCIÓN DE VALORES PARA CÁLCULO DE


FRECUENCIAS MEDIDAS DE RESUMEN
Intervalos de Frecuencias
clase
fi fa Fr fra mi mi.fi mi2.fi
64  66,3 3 3 0,111 0,111 65,15 195.45 12733,5675
66,3  68,6 4 7 0,148 0,259 67,45 269,8 18198,01
68,6  70,9 5 12 0,185 0,444 69,75 348,75 24325,3125
70,9  73,2 6 18 0,222 0,667 72,05 432,3 31147,215
73,2  75,5 4 22 0,148 0,815 74,35 297,4 22111,69
75,5  77,8 3 25 0,111 0,926 76,65 229,95 17625,6675
77,8  80,1 2 27 0,074 1,000 78,95 157,9 12466,205
 27 xxxx 1,000 xxxxx xxxxxx 1931,55 138607,668

REFERENCIAS

fi : (frecuencia absoluta), cantidad de datos incluidos en cada intervalo de clase, según


corresponda a los valores del mismo.
fa : (frecuencia acumulada), total de datos u observaciones comprendidos entre el límite
inferior del primer intervalo y el superior del intervalo en análisis.
fr : (frecuencia relativa), proporción de la fi de cada intervalo de clase respecto del total
de observaciones o datos en análisis.
fra : (frecuencia relativa acumulada), surge de sumar las fr de los intervalos menores o
iguales al intervalo en análisis.
mi: (punto medio): valor medio del intervalo de clase.

Nótese que la sumatoria de los valores originales arrojó el total de 1924,1 cm y la


sumatoria de los valores agrupados, considerando el valor medio de cada intervalo (mi) en
función de su frecuencia absoluta (fi), da como resultado 1931,55 cm; valores muy
semejantes si se tiene en cuenta que al agrupar los datos se pierde parte de la información

14
Bioestadística 2017 FCV-UNL

Para calcular las medidas de resumen a partir de datos agrupados, se utilizan las
formulas:

Medidas de Resumen para datos agrupados


Media Varianza Coeficiente de Variación
k
k k
∑mi . fi
n.∑mi 2 .fi - ( ∑mi .fi )2
X = i =1k
2 i =1 i =1 C.V. = S
X .100
∑fi S =
n . (n - 1)
i =1
Posición de la Mediana Mediana
n 1 n1
- fai -1
PMed 
2 Mediana  Li  2
fi
. (L s - L i )
donde:
Li: límite inferior y Ls: límite superior del intervalo de clase en que se
encuentra la mediana,
Fai-1: frecuencia acumulada del intervalo anterior al que se encuentra
la mediana.

Para el modo usaremos la Clase Modal, que es el Intervalo de Clase que tiene
mayor frecuencia absoluta, y si pretendemos un valor determinado usamos el mi
del intervalo que tiene mayor frecuencia absoluta.

Para el ejemplo será:


Media:
1931,6
X  71,539
27 cm de altura a la cruz.
El intervalo de clase que contiene la mediana será aquel que contenga el
valor de la posición de la mediana.
n  1 27  1
PMed    14
2 2
La posición de la Mediana es la decimocuarta y como el cuarto intervalo
de clase contiene las posiciones entre la decimotercera y la decimoctava;
entonces el intervalo de clase que contiene la mediana es el cuarto.
27  1
 12
Mediana  70,9  2 (73,2  70,9)  71,7
6 cm de altura a la cruz.
La Clase Modal será 70,9  73,2, y el modo (mi) es 72,05 cm de
altura a la cruz.

Desvío Estándar,
27(138607,668)  (1931,55) 3742389  3730855
2
S   16,47  4,05
27(26) 702 S=
4,05 cm de altura a la cruz

15
Bioestadística 2017 FCV-UNL

La varianza será S2 = 16,4068 cm2 de altura a la cruz

Si hubiésemos calculado las medidas de resumen con los valores sin


agrupar en Intervalos de Clase, tendíamos los siguientes resultados:
Promedio 71,43
Mediana 71,6
Moda 71,6
Variancia 19,983
Desvío estándar 4,387

NOTA:
Cuando se necesite trabajar con calculadora y la variable de interés tenga valores
muy altos, como miles o mayor, es útil reducir la magnitud de los valores de la
variable. Ejemplo, si los valores son: 2000, 2800, 1950, 1940, 1870, se puede
trabajar como 2, 2,8, 1,95, 1,94, 1,87. Posteriormente a cada medida de
resumen se le debe dar la magnitud de las unidades originales
Del mismo modo se puede proceder cuando la variable está medida en unidades
menores, como gramos: 3000 gr, 2990 gr, 2,850 gr, 3015 gr, se puede trabajar
con unidades mayores como kilos, entonces será 3,0 Kg; 2,99 Kg; 2,85 Kg;
3,015Kg. En este caso se puede convertir luego a gramo o simplemente expresar
las medidas de resumen en kilogramos.
Estas consideraciones son válidas para trabajar con datos simples o agrupados.

Diferencia entre una observación y el promedio


Estandarización de valores

Para considerarlo en temas posteriores, es necesario conocer a cuántos desvíos


estándar del promedio se encuentra un valor Xi cualquiera del conjunto de datos,
que se denomina estandarización de valores de Xi. El valor resultante será
identificado con la letra Z, de tal modo que se calcula:
Xi  X
Z
S
Para el anteúltimo valor de la serie ordenada del ejemplo anterior será:
79,5  71,43
Z  1,8397
4,387
Para usar solo dos decimales decimos que Z = 1,84.
Ello significa que el valor 79,5 está a 1,84 desvíos estándar del promedio
correspondiente.

16
Bioestadística 2017 FCV-UNL

Teorema central del límite (TCL)

El TCL explica la distribución de los estimadores muestrales, como promedio,


diferencia de dos promedios, proporción, diferencia de dos proporciones.
El promedio muestral, X , es un estimador de , y se dice que es un estimador
insesgado y de mínima varianza. El TCL explica esta aseveración.

Definición del Teorema Central de Límite


1) Los promedios muestrales ( X ) se distribuyen como una Normal con
promedio  y una variabilidad / n (que es el Error Estándar de la distribución de
los promedios muestrales), cuando la población, de la que proviene la
muestra, tiene distribución normal.
2) Cuando se tiene una población con cualquier forma funcional no normal,
con promedio  y varianza  2 , los promedios muestrales se distribuyen en
forma aproximadamente normal, con media  y variabilidad expresada por
el error estándar igual a / n , cuando la muestra es grande. Se considera
una muestra grande cuando es mayor que 30 (n  30).

Para comprender el por qué de esta afirmación, pensemos en una población de


tamaño N de una dimensión importante, como los pesos de 5000 terneros. Si a
esa población de datos la agrupamos según magnitud en 70 intervalos de clase,
nos va a dar un polígono de frecuencias que será con forma de campana, con un
promedio  y varianza 2.
Si luego extraemos una muestra de tamaño n y calculamos el promedio y la
varianza, tendremos la media ( X 1 ) y la variancia (S21)
Teóricamente, si extraemos otra muestra de tamaño n y obtenemos el promedio y
la varianza ( X 2 y S22). Luego, si repetimos la operación muchas veces,
tendremos una población teórica de promedios muestrales y otra de
varianzas muestrales.

Luego, si realizamos un agrupamiento de los promedios en Intervalos de Clase, y


construimos un Polígono de Frecuencias, veremos que también aparece una
campana, que si la comparamos con el que habíamos construido con los valores
del peso de los 5000 animales originales, será más alta en el centro y las colas
menos extendidas, y si calculamos un promedio de los promedios nos dará el
promedio poblacional  y la varianza será igual a:
2
n

17
Bioestadística 2017 FCV-UNL


Siendo entonces el error estándar de la distribución de promedios:
n
___
  
En forma simbólica podemos expresar: X ~ N   ; 
 n
Obviamente que para conocer lo que ocurre en una población siempre se extrae
una sola muestra de tamaño n, pero teniendo en cuenta lo que nos explica el TCL
podemos trabajar en Inferencia Estadística usando la distribución Normal, temática
que veremos en capítulos posteriores.
Sin embargo podemos obtener algunas conclusiones que nos ayudarán en la
tarea de inferir. Si observa la fórmula del error estándar, cuando aumentamos n o
se reduce el desvío estándar, como consecuencia se reducirá el error standard. Es
decir que a medida que aumentamos n, la variabilidad de la distribución de los
promedios muestrales se reduce.

De igual forma, aunque la distribución de la población fuera no normal la


distribución de los promedios muestrales también es normal con promedio

 y variabilidad expresada por el error standard
n
___
  
X ~N  ; 
 n

En la mayor parte de los problemas de áreas relacionadas con la biología, y


Medicina Veterinaria lo es, resulta prácticamente imposible conocer el promedio y
la varianza en la población (μ y σ2), sobre todo en poblaciones muy grandes, por lo
que se usa como reemplazo el promedio muestral y la varianza muestral ( X y
S2), que son estimadores insesgados y de mínima varianza, de los parámetros
poblacionales respectivos.

18
Bioestadística 2017 FCV-UNL

PROBABILIDAD

Podemos definir a la probabilidad como la posibilidad de que un hecho o resultado


ocurra, cuando hay dos o más opciones. Esto implica que la probabilidad de
cualquier resultado dentro de un conjunto posible, es un valor numérico.
La probabilidad (P) de aparición de un suceso de un total de casos posibles (n)
igualmente factibles es la razón entre el número de ocurrencias de dicho suceso
(h) y el número total de casos posibles (n).

Características generales de Probabilidad


 En probabilidad, se habla de experimento o evento, que es cada vez que se
realiza la experiencia.
 Existe siempre incertidumbre porque por lo menos existen 2 resultados
posibles.
 El resultado es incierto o aleatorio, pero puede predecirse con cierta
probabilidad.
 Todos los resultados posibles de un experimento forman el conjunto universal
(U).

Se habla de sucesos que significan resultado. El resultado puede ser simple o


compuesto.
Ejemplo
Simple: un enfermo tiene 3 posibilidades 1) se cura, 2) se transforma en enfermo
crónico, 3) Muere.
Compuesto: un enfermo que cura puede 1) No tener recidivas, 2) Tener recidivas.

AXIOMAS generales de Probabilidad

1.  P(E)  1 Si sumamos las probabilidades de todos los resultados posibles


de un experimento dará como resultado la unidad (probabilidad del conjunto
Universal)

2. 0≤P(E)≤1 Cualquier resultado posible de un experimento tiene como mínimo 0


(cuando no ocurre nunca) y como máximo 1 (cuando ocurre con seguridad).
Esto se aplica para eventos mutuamente excluyentes.

3. 𝑃 ∅ = 0 La probabilidad del conjunto vacío es igual a cero.

4. 𝑃 ∪ = 1 La probabilidad del conjunto universal es igual a uno.

5. 𝑃 𝐴 ∪ 𝐵 = 𝑃 𝐴 + 𝑃 𝐵 − (𝑃(𝐴 ∩ 𝐵) La probabilidad del conjunto A unión la


probabilidad del conjunto B es igual a la probabilidad de A mas la probabilidad
de B, menos la probabilidad de su intersección. Cuando dos conjuntos de
probabilidades son mutuamente excluyentes, la probabilidad de la intersección
es igual a 0.

19
Bioestadística 2017 FCV-UNL

6. 𝑃 𝐴 + 𝑃 𝐴 = 1 La probabilidad de que ocurra (A) más su complemento (Ā)


es igual a 1.

TEORIAS DE PROBABILIDAD

a) Teoría clásica de probabilidad (A PRIORI): es aquella en que puede


calcularse la probabilidad de un resultado antes de realizar el experimento.
Por ejemplo, no es necesario tirar una moneda para conocer la probabilidad de
que salga cara. Sabemos que existen dos resultados posibles y que cada
resultado tiene 0,50 de probabilidad.
Ante un futuro parto de una hembra unípara la probabilidad de que nazca una
hembra será de 0,50 y de que sea un macho de 0,50.

b) Teoría de probabilidad de frecuencia relativa (A POTERIORI): es aquella


que se puede calcular la probabilidad aproximada luego de realizar el
experimento, es decir luego de tener resultados previos.
Supongamos que se quiere conocer la probabilidad de que una vacuna proteja a
los animales de una determinada enfermedad. Para poder determinar esa
probabilidad hay que probar la vacuna en un número n de individuos, y luego de
realizar el desafío con el agente etiológico de la enfermedad, determinar cuántos
fueron protegidos (ñ) de todos los vacunados. Entonces se podrá decir que la
probabilidad de que la vacuna proteja contra esa enfermedad es
aproximadamente ñ/n.

c) Teoría personalista o subjetiva: es aquella que se usa corrientemente en


medicina, veterinaria y otras profesiones relacionadas, donde el profesional asigna
una probabilidad a un resultado, sin mediar ningún cálculo; solo estará respaldada
por la experiencia y credibilidad de quien la emite.
Es común que un veterinario diga al propietario de animales que existe un 90% de
probabilidad que un animal se cure si se sigue tal o cual medicación.
Que la probabilidad de vida es de un 60% si ocurre un brote de cierta
enfermedad. Un medico que asegura que la probabilidad de salir de un coma
profundo de un determinado paciente es menor del 20%.

Esperanza o Valor Esperado (E)

Es una medida de tendencia central usado en probabilidad. Es el promedio o


media en probabilidad.

Probabilidad Marginal, Conjunta y Condicional

En numerosas oportunidades es necesario calcular la probabilidad de que algún


resultado ocurra en un conjunto finito de resultados. Al dividir un grupo de
resultados o individuos según dos características independientes y simultáneas
podemos construir una Tabla de Contingencia. La tabla de contingencia es una
tabla de doble entrada, donde en cada casilla figura el número de resultados o

20
Bioestadística 2017 FCV-UNL

individuos que poseen un nivel de una de las características analizadas y otro


nivel de la otra característica analizada.

Tabla de contingencia

Característica A
Sub-Total
Nivel 1 Nivel 2 … Nivel n
Nivel 1 X11 X12 X1n X1●
Nivel 2 X21 X22 X2n X2●
Característica B
… … … …
Nivel m Xm1 Xm2 Xmn Xm●
TOTAL
Sub-Total X●1 X●2 X●n
(N)

Probabilidad Marginal: es la probabilidad de que un individuo tomado al azar


posea un nivel de una de las características. Es decir que pertenezca a un
subgrupo. Se calcula dividiendo un el n de subtotal con el N TOTAL.

Por ejemplo
𝑛(𝐴)
𝑁
Probabilidad Conjunta: es la probabilidad de que un individuo elegido al azar
tenga, al mismo tiempo, un determinado nivel de la característica A y otro nivel de
la característica B. Se calcula dividiendo el n de una intersección de la tabla con el
N TOTAL. En este caso será:
𝑛(𝐴 ∩ 𝐵)
𝑁
Probabilidad Condicional: es la probabilidad de que un individuo elegido al azar
posea algún nivel de una característica sabiendo con anterioridad que tiene un
determinado nivel de otra característica. Se calcula dividiendo el n de una
intersección de la tabla de contingencia con el n de un subtotal correspondiente al
nivel conocido con anterioridad.
𝑛(𝐴 ∩ 𝐵)
𝑛(𝐵)

21
Bioestadística 2017 FCV-UNL

Veamos un ejemplo: se realiza un ensayo de una vacuna en 150


animales divididos en dos lotes, vacunados y no vacunados, y luego se
los desafía con el agente etiológico respectivo, puede suceder que no
enfermen, que continúen enfermos o que mueran

Muertos Enfermos No enfermos Sub-total


Vacunados 3 7 65 75
No vacunados 12 19 45 76
Sub total 15 25 110 TOTAL=151

Se puede calcular
 PROBABILIDADES MARGINALES
P(muertos) = 15/151 = 0,09933.
En la población de 151 animales existe una posibilidad del 9,93% de que
mueran por la enfermedad.
P(no enfermos) = 110/151 = 0,7284
En la población de 151 animales existe una posibilidad del 72,84% de
que no padezcan dicha enfermedad.

 PROBABILIDADES CONJUNTAS
P(enfermos y vacunados) = P(Enf ∩ Vac) = 7/151 = 0,04635
P(muertos y no vacunados) = P(Mu ∩ No vac) = 12/151 = 0,07947

 PROBABILIDADES CONDICIONALES
3
P muertos vacunados = 151 = 3 ∗ 151 = 3 ∗ 151 = 3 = 0,04
75 151 ∗ 75 151 ∗ 75 75
151
3
P vacunados muertos = 151 = 3 ∗ 151 = 3 ∗ 151 = 3 = 0,2
15 151 ∗ 15 151 ∗ 15 15
151
65
P no enfermos vacunados = 151 = 65 ∗ 151 = 65 ∗ 151 = 65 = 0,86
75 151 ∗ 75 151 ∗ 75 75
151

Distribución de Probabilidad de una variable discreta

La distribución de probabilidad de una variable aleatoria discreta es una tabla, un


gráfico, una fórmula u otro sistema utilizado para especificar todos los valores
posibles de una variable aleatoria discreta junto con sus probabilidades
respectivas. Para ello se calcula la probabilidad de que cada uno de los
acontecimientos se produzca, teniendo en cuenta la cantidad de observaciones de
dicho evento. Las observaciones de cada suceso, son denominadas Frecuencia
de Ocurrencia, en caso de que la variable esté agrupada en intervalos, es llamada
Frecuencia del Intervalo. Estas observaciones se anotan para indicar la cantidad

22
Bioestadística 2017 FCV-UNL

de veces que ocurre un evento en cada una de las categorías que se están
utilizando.

Probabilidad acumulada

Algunas veces es más conveniente trabajar con la distribución de probabilidades


acumuladas de una variable aleatoria discreta. Esta puede obtenerse sumando
sucesivamente las probabilidades, P(X=x). Se puede acumular las probabilidades
de dos formas: a) La probabilidad de que X sea un valor xi o menor, P(X≤xi); o b)
La probabilidad de que X sea un valor xi o mayor, P(X≥xi).

Ejemplo:
Se registra cada parto en un criadero de conejos, en el mes de marzo, anotando
el número de gazapos nacidos vivos en cada uno

Nº de partos Probabilidad Probabilidad Probabilidad


gazapos P(x = xi) Acumulada Acumulada
por parto P(x ≤ xi) P(x ≥ xi)
4 3 3/56= 3/56= 56/56= 1
5 7 7/56= 10/56= 53/56=
6 20 20/56= 30/56= 43/56=
7 13 13/56= 43/56= 25/56=
8 9 9/56= 52/56= 13/56=
9 4 4/56= 56/56= 1 4/56=
TOTAL 56 1

DISTRIBUCIÓN DE PROBABILIDAD BINOMIAL

Es una de las más utilizadas en estadística aplicada. Se usa en variables


cuantitativas aleatorias discretas. Deriva de un procedimiento conocido como
ensayo de Bernoulli en honor al matemático suizo que la describió.
Daniel Bernoulli (Groninga, 8 de febrero de 1700 - Basilea, 17 de marzo de 1782) fue un
matemático, estadístico, físico y médico suizo. Destacó no sólo en matemática pura, sino también
en las llamadas aplicadas. Hizo importantes contribuciones en probabilidad, hidrodinámica y
elasticidad.

Cuando un evento solo puede de tener uno de dos resultados posibles, como
enfermos y no enfermos, vivos y muertos, aprobados y aplazados, presente y

23
Bioestadística 2017 FCV-UNL

ausente, se trata de una distribución normal. Si ocurre un resultado no ocurre el


otro.

Axiomas de la Distribución Binomial

a) cada ensayo conduce a uno de dos resultados posibles, mutuamente


excluyentes.
b) A uno de los resultados se lo denomina arbitrariamente éxito y su
probabilidad se identifica con la letra P; al otro resultado se le denomina fracaso y
se identifica con la letra Q.
c) P+Q = 1; P = 1- Q ; Q = 1 – P
d) La probabilidad de éxito se mantiene constante de ensayo a ensayo
e) Los ensayos son independientes, el resultado de un ensayo no afecta ni es
afectado por el resultado de cualquier otro ensayo.
f) La probabilidad binomial queda determinada por dos parámetros, n (tamaño
de la muestra) y P (probabilidad del resultado buscado en la población de la que
se extrajo la muestra).

En las Tablas de Distribución Binomial, los valores expresados en el cuerpo de la


misma son valores acumulados desde la observación x hasta X= 0. Es decir, tiene
en cuenta todas las probabilidades de encontrar esa observación o menores, P( x
 xi / n; p), o encontrar la probabilidad de hallar xi observaciones de un total de n,
con una probabilidad de éxito p.

Ejemplo:
Se conoce que en la población de vacas adultas del departamento Castellanos
existe una proporción de animales positivos a Leucosis Bovina del 16%. Si se
extrae una muestra al azar de n = 20,
¿qué probabilidad existe que:
a) cuatro o menos de cuatro sean positivos?
b) ninguno sea positivo?
c) por lo menos cuatro sean positivos?.

Respuestas:
En primer término debemos recordar lo referente a probabilidad acumulada que se
ha visto en el tema anterior. Usaremos tablas de distribución binomial de
probabilidad que acumulan la misma desde un valor de x cualquiera hasta x = 0
a) P(X  4| 20; 0,16) = 0,7941

Para explicarlo, tenemos en cuenta la probabilidad en la población = 0,16, esa


probabilidad se encuentra en las tablas que llegan a un máximo de 0,5.
Cuando en el planteo del problema la probabilidad en menor o igual a 0,5, si no
logra comprenderse, podemos guiarnos mediante el siguiente esquema, donde
cada barra I significa un valor de x desde 0 hasta 20, y en negrita se resalta la
probabilidad acumulada de la tabla desde x = 4 hasta x = 0. Como n=20, se
busca en la parte de la tabla que tiene ese n

24
Bioestadística 2017 FCV-UNL

I I I I I I I I I I I I I I I I I I I I I
X 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
b) P(X = 0|20;0,16) = 0,0306
I I I I I I I I I I I I I I I I I
X 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16

c) P(X  4|20; o,16) = 1 – P(X  3|20; 0,16) = 1- 0,599 = 0,401


I I I I I I ……….. I I
X 0_____ 20
P=1
lo remarcado en negrita es la probabilidad INCÓGNITA

Siempre la probabilidad del conjunto universal es igual a 1, por lo tanto el


resultado que se encontró en tabla se restó de 1.

Distribución de Poisson

Es una distribución discreta muy utilizada en biología y medicina, llamada así en


honor a Simeon Denis Poisson, a quien se le acredita la deducción de esta
distribución en 1837.

Siméon Denis Poisson (Pithiviers, Francia, 21 de junio de 1781, Francia, 25 de abril de 1840), fue
un físico y matemático francés al que se le conoce por sus diferentes trabajos en el campo de
la electricidad; también hizo publicaciones sobre la geometría diferencial y la teoría de
probabilidades.

Este tipo de distribución se utiliza cuando los eventos están distribuidos al azar
en tiempo o espacio, es decir que con esta probabilidad se pueden calcular
supuestos que se presenten en una unidad de tiempo o espacio. La forma general
de expresarla es P (X  xi /), las observaciones se encuentran en la primera
columna y , se encuentra en la primera fila y en el cuerpo de la tabla están los
valores de probabilidad. Se busca igual que en la de distribución Binomial, solo
que no hay un n específico.
Como todas las probabilidades también posee ciertas características propias,
denominado Proceso de Poisson.

1. La ocurrencia de los eventos son independientes La ocurrencia de un


evento en un intervalo de tiempo o espacio no tiene efecto sobre la

25
Bioestadística 2017 FCV-UNL

probabilidad de que vuelva a ocurrir el mismo evento en el mismo intervalo o


en otro.
2. Son posibles infinitas ocurrencias del evento en dicho intervalo.
3. La probabilidad de que se presente solo una vez el evento en el intervalo
depende proporcionalmente a la longitud del mismo.
4. Cuando la porción del intervalo es muy pequeña se rechaza la probabilidad
de que el evento ocurra más de e  x
una vez.
f (x) 
x!
La probabilidad de que x ocurra, dónde x es el número de
ocurrencias y  (lambda) es el parámetro de la distribución o número promedio de
veces que ocurre el evento al azar en el intervalo. Donde e es el valor de la base
del Logaritmo Natural o Neperiano (ln). La otra opción es buscar en la tabla de
distribución de Poisson.
En esta distribución el valor de la media o promedio y la varianza son iguales.

Ejemplo
Se conoce que en un área de una ciudad existe un promedio de 17 ejemplares de
una plaga urbana por manzana. Cálculo de la probabilidad de que en una
manzana elegida al azar exista:

a) 10 o menos ejemplares
P(X≤ 10│17)= 0,049

b) Exactamente 20
P(X=20│17)= P(X≤ 20│17) – P(X ≤ 19│17)= 0,805 – 0,736= 0,069

c) 15 o más
P(X≥15│17)= 1- P(X≤ 14│17)= 1- 0,281= 0,719

Distribución Normal

También conocida como Distribución de Gauss-Laplace o Distribución de Gauss.

“Johann Carl Friedrich Gauss nació en Brunswick, Alemania, el 30 de abril de 1777 fue un matemático, astrónomo y
físico alemán que contribuyó significativamente en muchos campos, incluida la teoría de números, el análisis
matemático, la geometría diferencial, la geodesia, el magnetismo y la óptica.
Dentro de sus innumerables aportes, en matemáticas describió la campana de Gauss
La llamada Campana de Gauss es la representación gráfica de la ecuación matemática de una distribución normal.
Tiene forma de campana. Si se representa en el eje horizontal las medidas obtenidas y en el vertical el número de
veces que se obtiene cada valor, obtendremos lo que se llama un histograma de frecuencias. Si se elimina el error
sistemático, el conjunto de datos obtenido se distribuye de forma simétrica alrededor de la media, dando una curva
en forma de campana”. Fuente: Antonio Pérez Sanz, Historia de las Matemáticas

Para calcular la distribución Normal también contamos con dos formas diferentes
como son la fórmula matemática y las tablas.
1
e ( x ) / 22
2
f( x) 
2

26
Bioestadística 2017 FCV-UNL

- < x < 
dónde  y e son valores conocidos y los dos parámetros de la distribución son ,
que representa la media o promedio de las distribución, y , que es el desvío
estándar. Al ser una variable aleatoria continua los valores que pueden tomar van
de -  a .

Las características de la Distribución Normal

1- La gráfica de distribución normal produce una curva en forma de campana.


2- Los parámetros de la distribución son µ (promedio poblacional) y S (desvió
estándar)
3- El promedio es el punto más alto de la gráfica.
4- Es simétrica con respecto a su media 
5- La media, mediana y modo son iguales.
6- El área debajo de la curva es igual a 1, por ser la distribución Normal una
distribución de probabilidad.
7- El área total bajo la curva arriba del eje de las x es una unidad de área,
debido a su simetría con respecto al promedio podemos asegurar que el 50
% del área está hacia la derecha de una perpendicular trazada en la media y
el 50 % restante está hacia la izquierda de la perpendicular trazada en la
media.
8- Si se trazan perpendiculares de la media a una distancia de ésta de un
desvío estándar en ambas direcciones, el área encontrada entre ambas
perpendiculares es del 68 % del total, si extendemos a dos desvíos estándar
las perpendiculares del promedio, encontraremos el 95 % del área y si
extendemos a tres desvíos estándar la perpendicular con respecto al
promedio hallaremos el 99.7 % del área.
9- La distribución Normal está determinada por los parámetros  y , es decir
que para cada promedio y para cada desvío standar hay una curva diferente.
Los valores distintos de  provocarán un traslado de la gráfica hacia la
derecha o izquierda sobre el eje de las x. En cambio los valores de los
desvíos estándar (), determinarán la altura o aplanamiento de la gráfica.
Esta gráfica demuestra cómo varían según el valor del promedio y del
desvío estándar.

En la distribución normal se calcula la probabilidad de un área de la


campana, no un punto de la misma, por ello P(X=Xi│; )= 0

La tabla de Distribución Normal estándar, en la primera columna de la izquierda


tiene valores de la unidad y primer decimal de una variable Z, encontrando en la
primera fila el segundo decimal de la misma. En el interior de la tabla se
encuentran los valores de probabilidad para cada uno de los posibles valores de Z,
desde -3,8 a 3,8.
Como en las probabilidades que se trataron previamente, en las tablas se
encuentra la probabilidad acumulada desde un valor de Z que nos interese hasta -
3,8

27
Bioestadística 2017 FCV-UNL

La expresión general en una población es la siguiente


P (x ≤ Xi│ µ ; σ)
Como µ y σ) (parámetros poblacionales) no se conocen, se trabaja con los
estimadores, promedio y desvío estándar muestrales.

Cálculo de probabilidad usando distribución Normal

Ejemplo. Un establecimiento productor de leche tiene 345 vacas en ordeño. El


promedio de producción de leche diaria es de 24Kg con un desvío estándar de
3,8Kg.
Calcule:
a) La probabilidad de encontrar vacas que produzcan menos de 16Kg.
P(x ≤ 16│24; 3,8)=
16 − 24
𝑍= = −2,1
3,8
La expresión quedará como: P(Z ≤ 2,1), luego se va a la tabla, del lado
negativo de Z y se busca -2,1 que da la probabilidad = 0,0179
Este valor es el resultado final de la incógnita.
b) La probabilidad de que encuentren vacas con más de 27Kg.
P(x ≥ 27│24; 3,8)=
27 − 24
𝑍= = 0,79
3,8
P(Z ≥ 0,79) = 1- 0,7852 = 0,2148
c) La probabilidad de que produzcan entre 20 y 28Kg. ¿cuántas vacas
producirían entre esos dos valores de Kg de leche?
20 − 24
𝑍1 = = −1,05
3,8

28 − 24
𝑍2 = = 1.05
3,8
P(-1,05 ≤ Z ≤ 1,05) = 0,8531- 0,1469= 0,7062
Cantidad de vacas (n= P.N), que producirían entre 20 y 28Kg =
0,7062 x 345 = 244 vacas

28
Bioestadística 2017 FCV-UNL

PARTE II

Inferencia estadística

Es el procedimiento a través del cual se puede extraer conclusiones acerca de una


población, basándose en los resultados obtenidos a partir del análisis de una
muestra de esa población.

Existen dos métodos que permiten inferir sobre una o más poblaciones, intervalos
de confianza y pruebas de hipótesis. Como se llega a la misma conclusión, es
indistinto usar uno u otro método, salvo que expresamente se solicite uno de ellos.

Intervalos de Confianza
Cuando se trabaja con una muestra, se calculan las medidas de resumen de los
datos, que puede ser promedio, desvío estándar, proporción, entre otras. En esos
casos, las medidas de resumen son estimaciones puntuales del parámetro
poblacional respectivo. Así, el promedio (media) de la muestra X es un estimador
del parámetro poblacional µ, el desvío estándar muestral S es un estimador del
parámetro poblacional σ, la probabilidad de la muestra p es un estimador del la
proporción poblacional P, entre otras.

En estos casos se habla de estimación puntual, ya que es un solo valor numérico


utilizado para estimar el parámetro correspondiente de la población. En el caso del
promedio muestral se dice que es un estimador insesgado y de mínima variancia.
No obstante, quedarse solo con una estimación puntual es altamente posible que
induzca a interpretaciones erróneas.

Para evitar los problemas antes citados, se puede realizar la estimación del
parámetro poblacional buscado a través de un intervalo, donde se tenga
determinada probabilidad que en el mismo se encuentre el parámetro en cuestión.
Este procedimiento se denomina estimación por intervalo de confianza.
Pensar en un intervalo significa encontrar un segmento en una recta numérica.
Para establecer ese segmento implica encontrar los límites del mismo, que son
dos. Ello se logra a partir del estimador muestral, la confianza estadística y el error
estándar del estimador muestral. Cada estimación puntual (o estimadores
estadísticos), se vio en el apartado correspondiente.

Como esquema general para construir intervalos de confianza se sigue el


siguiente:
EE ± CE. EEEE
Estimador estadístico ± confianza estadística x Error Estándar del Estimador Estadístico

29
Bioestadística 2017 FCV-UNL

Cálculo del intervalo de confianza para un promedio, en una muestra grande

En principio se tratará la estimación por intervalo de confianza (IC) para µ, en una


muestra grande, a partir del estimador estadístico 𝑋
X  Z1- α . Sn
2

Se considera muestras grandes cuando n es igual o mayor a 30 (n ≥ 30), para


encontrar la confianza estadística se usa la distribución Normal estándar.

La confianza estadística es una probabilidad, lo mismo que la significancia (α), de


tal forma que confianza mas significancia es igual a 1. Si la significancia es igual a
0,05 la confianza será 0,95 y viceversa.

La confianza es la probabilidad de que el parámetro poblacional se encuentre


dentro de los límites marcados por el Intervalo de Confianza.
En el ejemplo anterior, se debe indicar el valor de 𝑍1−𝛼 2 ó 𝑍𝛼 2 que como se ha
tratado cuando se explicaron las características de la distribución Normal, es
simétrica con respecto al promedio, por lo que los valores indicados son iguales en
términos absolutos, uno positivo y el otro negativo.

Así, para un 0,95 de confianza, corresponde una significancia (α) de 0,05 y un


intervalo requiere de los dos límites
1 − α 2= 0,975, lo que quiere decir que en la tabla de distribución Normal se
encontró en el interior de la tabla ese valor de probabilidad, encontrando que
corresponde a 𝑍1−𝛼 2 = 1,96 y si buscamos el 𝑍1−𝛼 2 en la tabla se buscará en
una probabilidad de 0,025 correspondiendo a una 𝑍1−𝛼 2 = -1,96.
S
El error estándar del promedio de la muestra es n
Por lo tanto, a partir de un estimador estadístico o medida de tendencia central, la
media, y uno de dispersión, el desvío estándar, se puede construir un intervalo de
confianza para el promedio poblacional.

Casi siempre se tiene que calcular las medidas de resumen a partir de datos de de
una muestra que representa a una población, y luego reemplazar en la fórmula. En
ocasiones se presentan solo el promedio y el desvío estándar y no los datos
originales de la muestra. En este último caso solo hay que reemplazar en la
fórmula.

Ejemplo
En una investigación sobre contenido de un mineral en sangre se usaron 35
animales, a los que se les dio un suplemento mineral ad libitum, obteniéndose
lo siguiente: Promedio = 12 ppm S = 1,2 ppm n = 48
Obtenga los límites entre los cuales tenga 0,95 de confianza estadística de
encontrar el parámetro µ. Siga los pasos necesarios que le permitan concluir.
¿Es este promedio poblacional mayor que 11ppm? ¿y de 12,5ppm?

30
Bioestadística 2017 FCV-UNL

Resolución:
Datos: n = 48 X = 12ppm S = 1,2 ppm
1,2 12
X ± Z1- α • S
n
= 12 ± Z 0,975 • = 12 ± 1,96 • = 12 ± 0,340
2 48 48
11,660 ≤ μ ≤ 12,340

Con un 95% de confianza se puede concluir que: μ se encuentra entre 11,66


ppm y 12,34 ppm (p= 0,05)
Por ello es estadísticamente mayor que 11ppm y es menor que 12,5 ppm.

De acuerdo a los términos de la fórmula y válido para todos los intervalos de


confianza, éste disminuye cuando:
1) Aumenta n. Por ello es importante que el tamaño de la muestra sea lo más
grande posible. Sin embargo si tiene que usarse animales en la
experiencia, en tamaño de la muestra está supeditado a factores éticos
siendo necesario que reduzcan al mínimo posible en número y el
sufrimiento animal
2) Disminuye el desvío estándar. Para ello se trabaja en el diseño del
muestreo para extraer una muestra con la menor variabilidad.
3) Disminuye la confianza estadística. Esto es hasta cierto punto ya que es
muy crítico el nivel de confianza que en casi todos los casos en biología se
recomienda un 0,95. de tal forma que reducir la confianza estadística es
aumentar la significancia (aumentar la probabilidad del error estadístico).

Por lo tanto, el Intervalo de Confianza aumenta cuando:


1) Aumenta la confianza (o disminuye la significancia)
2) Aumenta el S.
3) Disminuye el n.

Siempre es deseable que el intervalo de confianza sea lo más pequeño posible, en


tanto se respete algunas cuestiones básicas como no reducir la confianza a tal
punto que pierdan valides las conclusiones, ni incrementar el n cuando se trabaja
con animales por lo que debe observarse las cinco necesidades y el principio de
las 3 Rs (ética del bienestar). El desvío estándar puede reducirse ajustando el
método de muestreo.
Cálculo de un Intervalo de Confianza para un promedio, en una muestra
chica

Cuando se trabaja con una muestra chica (n< 30), se trabaja con una distribución
que es una familia de la distribución Normal, llamada distribución t de student.
Como depende de los grados de libertad, existen diferentes curvas para cada uno
de ellos.
La distribución t fue publicada por primera vez en 1908 por William Sealy Gosset, que trabajaba en el
departamento de fermentación de la cervecería Guinness en Irlanda. Las circunstancias en las que se llevan a

31
Bioestadística 2017 FCV-UNL

cabo los procesos de fermentación en la producción de cerveza demostraron a Gosset las limitaciones de la
teoría de muestras grandes y le enfatizaron la necesidad de un método correcto para el tratamiento de
muestras pequeñas. Estas circunstancias de su trabajo dirigieron a Gosset al descubrimiento de la distribución
t, quien debido a que la compañía cervecera desaprobaba la publicación de investigaciones de sus
empleados, la publicó con el seudónimo de "student".

Características de la distribución t de student

1) Es simétrica respecto al promedio, la media,. mediana y moda son iguales


2) A cada lado del promedio existe un 0,5 de probabilidad, ya que el área total
por encima de la x u por debajo de la curva tiene una probabilidad = 1.
3) La distribución t es mas variable que z, el promedio es igual a 0 y el desvío
estándar es mayor que uno.
4) El desvío estándar se aproxima a uno a medida que aumentan los grados
de libertar
5) Cuando los grados de libertad tienden a infinito, la distribución t tiende a
una distribución normal.

La fórmula general para un Intervalo de Confianza para un promedio poblacional a


partir de una muestra pequeña, es semejante a que se explicó para distribución
normal solo que se reemplaza el valor de Z por un valor de t.
1- α2
X  t S
n n 1 .
Por ello para buscar el valor de tabla, se debe encontrar en la confianza
establecida y el n-1 de grados de libertad.
Así, para encontrar el valor de t para realizar un intervalo de confianza para el
promedio poblacional a partir de una muestra de n = 12, promedio = 25,4 y un
desvío estándar de 2 y una confianza de 0,95 debemos proceder como se indicó
en el tema anterior: primero determinar el valor de t en la tabla y luego reemplazar
en la fórmula.
1 − α 2 entonces, será 1- 0,025 = 0,975 de probabilidad y 11 grados de libertad , lo
que da un valor de t = 2,2010.

Resolviendo para encontrar el Intervalo


2
25,4  2,2010 12 = 24,4  1,271
23,129 ≤ µ ≤ 25,671 p = 0,05

32
Bioestadística 2017 FCV-UNL

Con el 0,95 de confianza el promedio poblacional µ estará entre los valores


expresados, como mínimo 23,129 y como máximo 25,671

Intervalo de confianza para diferencia de dos promedios


Se debe tener en cuenta que la diferencia de 2 promedios muestrales ( X 1 - X 2 ),
por el Teorema Central de Límite, se distribuye de forma normal con un promedio
que es la diferencia de los 2 promedios poblacionales y una variabilidad expresada
por el error estándar de la diferencia de los 2 promedios. Ello se cumple cuando
las muestras son grandes. Para construir un intervalo de confianza para diferencia
de 2 promedios poblacionales se trabaja con los estimadores estadísticos
provenientes de las muestras de esas poblaciones.

Intervalo de Confianza para la diferencia de dos promedios poblacionales en


muestras grandes
S 12 S 22
X1 - X 2 ± Z1- .α
2 n1
+n
2

Cuando en el intervalo de confianza no está contenido el 0, se interpreta que


existe diferencia entre ambos promedios poblacionales. Si el intervalo incluye el 0,
la diferencia de los promedios poblacionales podrá ser 0 por lo que se interpreta
que no hay diferencia estadística significativa entre ambos promedios
poblacionales o lo que es lo mismo que no se ha demostrado diferencia
significativa entre ambos promedios.

Ejemplo
Se tomaron dos grupos de cerdos, A y B. Al grupo A (35 cerdos) se le aplicó un
medicamento para conocer si afectaba la frecuencia respiratoria y al grupo B
(34 animales) se lo dejó como control sin tratar. Se desea conocer si el producto
aumentó la frecuencia respiratoria en forma significativa. En el grupo A la
frecuencia fue en promedio 45,1 con desvío estándar de 3,2. En el grupo B la
frecuencia fue en promedio 42,3 con desvío estándar de 3,1.

Resolución:

Datos: Grupo A: n = 35 X = 45,1 S = 3,2 (Tratados)


Grupo B: n = 34 X = 42,3 S = 3,1 (Control)
S12 S2 (3,2)2 (3,1)2
XA - XB ± Z1- α • n1 + n 22 = 45,1- 42,1± 1,96 • + = 2,8 ± 1,96 • 0,758 =
2 35 34
= 2,8 ± 1,487

1,313 ≤ µ1 - µ2 ≤ 4,287

Interpretación:

33
Bioestadística 2017 FCV-UNL

Como en el intervalo no está incluido el cero, existe diferencia entre los


promedios de los grupos. También se puede decir, hay diferencia
estadísticamente significativa (p = 0,05), entre los promedios de de ambos
grupos.

Por ser el intervalo positivo (ambos extremos positivos), X A es mayor que X B


.
El grupo tratado tiene frecuencia respiratoria mayor que la del grupo control.

Intervalo de Confianza para diferencia de dos promedios poblacionales en


nuestras chicas

Cuando se dispone de muestras chicas (n1 y/o n2 < 30), la diferencia de los
promedios poblacionales se distribuye en forma semejante a la t de student, por lo
que esa distribución la que corresponde usar
1- 2 S 2* S 2*
X1 - X2  t n1  n 2 - 2 . n1
 n2 S 2* 
(n 1 - 1) S12  (n 2 - 1) S 22
n1  n 2 - 2
Del mismo modo, cuando en el intervalo se encuentra el 0 se interpreta que no se
encontraron diferencias significativas entre ambos promedios. Si no contiene el 0
se dice que se encontraron diferencias estadísticas entre ambos promedios
poblacionales.

Ejemplo
Las siguientes medidas de resumen fueron calculadas a partir de datos de
altura de machos y hembras de una raza canina. Mediante intervalo de
confianza, determine si existen diferencias estadísticamente significativas entre
los dos sexos. Utilice una significancia del 0,01

MACHOS Xm  37 cm. S3 cm. n  20


HEMBRAS Xh  35 cm. S2,2 cm. n  15

(n1 - 1) S12  (n2 - 1) S 22 (20 - 1) 3 2  (15 - 1) 2,2 2


S 2*  S 2*   7,235
n1  n2 - 2 20  15 - 2

1- 2 S2* S 2*
X1 - X 2  t n1 n 2 -2 . n1  n2
37 - 35  2,0423. 7,235
20  715
, 235

2±1,876 0,124 ≤ µm - µh ≤ 3,876


Como en el intervalo para la diferencia de los dos promedios no está contenido
el cero (0), se interpreta que existen diferencias estadísticamente significativas
en la altura de machos y hembras de esa raza canina. Al ser ambos extremos
positivos se concluye que la altura de machos es mayor

34
Bioestadística 2017 FCV-UNL

Intervalos de confianza para una proporción y para diferencia de dos


proporciones poblacionales

Cuando se dispone de una variable cualitativa con dos resultados posibles y uno
de los cuales es el de interés, o si son más se pueden agrupar en dos, por un lado
el resultado de interés y por el otro todos los demás resultados. En esos casos se
calcula la proporción de individuos que tiene el resultado de interés.

El Teorema Central de Límite también demuestra que, cuando se dispone de


muestras grandes, las proporciones y las diferencias de dos proporciones
muestrales se distribuyen en forma normal.

IC para 1 proporción IC para diferencia de 2 proporciones


pˆ (1 - pˆ ) pˆ 1 (1 - p̂1 ) p̂ 2 (1 - p̂ 2 )
pˆ  Z1-  ( pˆ 1 - p̂ 2 )  Z1-  
2 n 2 n1 n2
Donde p̂ es la proporción estimada en la muestra, p̂1 - p̂ 2 es la diferencia entre las
proporciones de la muestra de la muestra 1 y de la muestra 2

Ejemplos
1. En una población bovina existe un 15 % de reactores positivos al test de
diagnóstico de tuberculosis, se extrajo una muestra de 200 animales. Sobre
estos datos construya un Intervalo con Confianza para la proporción
poblacional.

Resolución:
Datos: n = 200 p = 0,15 (positivo)
p̂(1- p) 0,15 • 0,85
p̂ ± Z1- α = 0,15 ± 1,96 • = 0,15 ± 1,96 • 0,0252 = 0,15 ± 0,0495
2 n 200
0,1005 ≤ ρ ≤ 0,1995 P = 0,05

Interpretación:
Con un 95% de confianza se puede concluir que ρ (proporción poblacional) se
encuentra entre 0,1005 y 0,1995.

2. En un estudio del comportamiento de animales retenidos en departamentos


pequeños. De entre los 150 perros observados 45 mostraron señales de
aburrimiento, mientras que solo 10 de los 125 gatos muestreados se mostraron
aburridos. ¿Cuál de estas dos especies sufre más al vivir en un ambiente
pequeño? Construya un intervalo de confianza con el 95 para la diferencia de
proporciones.

Resolución:
Datos: n1 = 150 pˆ1  45  0,30
150
n2 = 125 pˆ 2  10  0,08
125

35
Bioestadística 2017 FCV-UNL

pˆ1 (1 - pˆ1 ) pˆ 2 (1 - pˆ 2 )
 pˆ1  pˆ 2   Z1-    0,30  0,08  1,96
(0,30)(0,70) (0,08)(0,92)
 
2 n1 n2 150 125

 0,22  1,96 0,0014  0,00059  0,22  1,96 (0,0446)  0,22  0,0874


0,1326 ≤ ρ1 – ρ2 ≤ 0,3074

Interpretación:
Como en el intervalo no está incluido el CERO existe diferencia entre las
proporciones de los grupos, o se encontró diferencia estadísticamente
significativa entre las proporciones de perros y gatos aburridos (p = 0,05)
Si las dos proporciones son estadísticamente diferentes, significa que una es
mayor que la otra. En el Intervalo de confianza también se puede evaluar esta
situación y por ser el intervalo positivo (ambos extremos positivos) ρ 1 es mayor
que ρ2.
La proporción de los perros con aburrimiento es mayor que la proporción de
gatos aburridos por vivir en un ambiente pequeño.

Intervalo de confianza para una varianza o para la razón de las varianzas de


dos poblaciones

Así como se calculan intervalos de confianza para uno y dos promedios, para una
y dos proporciones, se puede calcular el Intervalo de Confianza para los
parámetros de variabilidad como la varianza o razón de dos varianzas y para el
desvío estándar o para la razón de dos desvíos estándar.

En principio trataremos el Intervalo de Confianza para una varianza poblacional σ2,


a partir de la varianza muestral S2. La varianza se distribuye como un ji cuadrado
χ2 con n-1 grados de libertad, cuando el muestreo se realiza sin reemplazo.

Fórmulas

IC para 1 desvío estándar IC para 1 varianza IC para 2 varianzas


(n - 1)S 2
(n - 1)S 2 (n - 1)S 2
(n - 1)S 2
S12 /S 22  12 S12 / S 22
<σ <  2   2 
X12- α X 2α
2
X 1- 
2
X 2
2
F1-  2 F
2 2 2 2

Cuando se trata de establecer el intervalo de confianza para una varianza, si se


trabaja con una confianza de 0,95, corresponderá buscar X 12-  en la tabla en la
2

2
columna de 0,975 de probabilidad y por lo tanto X  en la columna de 0,025, todo
2

según los grados de libertad n-1 que corresponda al problema.


Para el caso de un intervalo para la razón de varianzas (  1
2
) que se distribuye
 22
con una F al 0,95 de confianza, se puede buscar F1-  en tabla de F con una
2

36
Bioestadística 2017 FCV-UNL

probabilidad de 0,975 correspondiendo los grados de libertad del numerador al de


la muestra uno (n1-1) y grados de libertad del denominador al de la muestra dos
(n2-1).
Para F que debe buscarse en una probabilidad de 0,025, y si no se dispone de
2

esa tabla se busca también en la de 0,975 pero invirtiendo los grados de libertad
(n2-1); n1-1). Para colocar el verdadero valor que reemplazará al denominador del
segundo límite del intervalo, se usa la inversa del valor encontrado en la tabla.

Ejemplos
1. Se midieron las concentraciones de hemoglobina en 16 animales expuestos
a un compuesto químico nocivo. Se registraron los siguientes valores:
15.6 18.6 14.8 16.2 14.4 14.7 16.6 15.7
13.8 16.4 14.0 13.9 17.3 14.8 17.4 17.5
Construya intervalos de confianza de 95 % cierto para S2 y S

Resolución:
Datos: n = 16 S = 1,48 S 2 = 2,19
2
(n - 1)S (n - 1)S 2 (n - 1)S2 (n - 1)S2
< σ 2
< <σ <
X12- α X 2α X12- α X 2α
2 2 2 2

15 • 2,19 15 • 2,19 15 • 2,19 15 • 2,19


< σ2 < <σ <
27,488 6,262 27,488 6,262

32,85 32,85 32,85 32,85


< σ2 < <σ <
27,488 6,262 27,488 6,262
1.195 < σ 2 < 5,246 1,093 < σ < 2,290

Interpretación:
Con un 95% de confianza se puede concluir que σ2 (varianza poblacional) se
encuentra entre 1,195 y 5,246.
Con un 95% de confianza se puede concluir que σ (desvío estándar
poblacional) se encuentra entre 1,093 y 2,290. P = 0,05

2. Las siguientes medidas de resumen fueron calculadas a partir de datos de


altura de machos y hembras de una raza canina. Construya intervalos de
confianza de 95 % para la razón de varianzas.
Machos X  37 cm. S  3 cm. n  21
Hembras X  35 cm. S  2 cm. n  16

Resolución
Datos: n1 = 21 S12  9 n2 = 16 S22  4

37
Bioestadística 2017 FCV-UNL

S12 S12 9 9
4  1 
2
S 2
 2
S 22 4
2
 1

F1-   2
F 2,76  22 1
2
2
2 2,57
 2
0,8152   6,21
1
 2
2

Interpretación:
Con un 95% de confianza se puede concluir que la razón de varianzas de las
poblaciones se encuentra entre 0,8152 y 6,21.
Como en el intervalo está incluido el uno (1), significa que no existe diferencia
entre las varianzas de los grupos.

Prueba de Hipótesis, Contraste de Hipótesis o Prueba de


Significación
El objetivo de la prueba de hipótesis es ayudar al investigador a tomar una
decisión acerca de una población examinando una muestra de ella. La hipótesis
es una proposición o suposición que intenta explicar un fenómeno de interés.

Existen dos tipos de hipótesis, por un lado la hipótesis estadística o hipótesis nula
(H0) y por el otro la hipótesis de investigación o hipótesis alternativa (Ha).

La hipótesis nula niega efectos, diferencia o relaciones. Está diseñada para


ponerla a prueba mediante métodos estadísticos. En cambio, la hipótesis
alternativa (también puede ser denotada como H1), que es la que corrientemente
supone o plantea el investigador, es la que plantea efectos, diferencias o
relaciones.

La hipótesis nula puede ser verdadera o falsa y puede ser rechazada o no


rechazada, dependiendo de valores calculados, teniendo cuatro alternativas, dos
correctas y dos incorrectas o errores.

HIPÓTESIS NULA
Verdadera Falsa
No rechazo Ho Acción correcta Error tipo II
Probabilidad del Error Tipo II = β

Rechazo Ho Error tipo I Acción correcta


Probabilidad del Error Tipo I = α

La probabilidad de Error tipo I es igual a la significancia (α)


La probabilidad del Error tipo II o β, que es la potencia del test, es mayor que la
probabilidad de Error Tipo I

38
Bioestadística 2017 FCV-UNL

Cuando se trabaja con una prueba de hipótesis se sigue un procedimiento de 10


pasos que forman una sucesión lógica de acciones y decisiones que algunos de
ellos deben realizarse antes de comenzar el periodo de experimentación.
1. Datos: saber qué tipo de datos dispondremos para el diseño de la prueba, la
cantidad de los mismos, el tipo de variable en análisis, la escala en que se
van a medir y el tipo de estudio que se va a realizar.
2. Suposiciones: las suposiciones acerca de los datos, si existe o no
normalidad (ya sea semejanza o aproximación a la normal), si existe
homogeneidad o semejanza entre las varianzas, si es más de una población
y que exista independencia de las observaciones, es decir, que la medición
resultante de observar un individuo no afecte si sea influida por otra
observación de otro individuo.
3. Plantear Ho y Ha: la hipótesis que se debe probar es Ho, la que puede o no
ser rechazada. Si no se rechaza se dice que los datos utilizados en la
prueba no proporcionan evidencias suficientes para avalar el rechazo. Si se
rechaza Ho se dice que los datos disponibles no son compatibles con Ho,
por lo que ésta se rechaza y se asume la hipótesis alternativa como válida.
La Ho siempre se plantea de la misma manera, negando diferencias, efectos
o relaciones
El planteo de la Ha es en función de a contradecir lo establecido por la nula,
y rutinariamente es la hipótesis del investigador.
4. Plantear el estadístico de prueba: es realizar aquella estadística que puede
calcularse a partir de los datos obtenidos de la muestra para producir
decisiones. La decisión del estadístico de prueba a utilizar en cada caso
depende del tipo, cantidad y distribución de datos.
5. Conocer la distribución del estadístico de prueba, si es normal o tiende a
otro tipo de distribución.
6. Plantear la regla de decisión consiste en expresar en qué casos se rechaza
o no la Ho. Todas las pruebas estadísticas están diseñadas bajo el supuesto
de que la Ho es verdadera y se rechaza o no.
Se puede graficar la regla de decisión. La gráfica de la distribución del
estadístico de prueba tiene 2 áreas, una de rechazo y otra de no rechazo o
aceptación siendo los valores que están en el área de rechazo los que
tienen menos probabilidad de suceder.
Si se trata de una prueba de hipótesis para un promedio (µ) confrontado con
un promedio de referencia (µ0) se puede tener tres alternativas.

Test de una cola o unilateral: existe la posibilidad de una diferencia


unilateral, la misma se debe buscar en la cola izquierda o derecha de la
curva de probabilidad dependiendo de del símbolo utilizado en el planteo de
la Ha.

39
Bioestadística 2017 FCV-UNL

Área de
Área de Área de
aceptación Área de
rechazo aceptación
mmnnnnn rechazo
nnnnnnnn
nnnnnnnn
nnnnnnnn
nnnnnn
Test de una cola con área de rechazo a la Test de una cola con área de rechazo a la
izquierda (Ha: µ < µ0) derecha (Ha: µ > µ0)
Test de dos colas o bilateral: es cuando el área de significancia (o α está
dividida en ambas colas, α 2)

Área de Área de
rechazo Área de rechazo
aceptación

Test de 2 colas (Ha: µ ≠ µ0 )


Para los tres casos, la Ho siempre será: (H0: µ = µ0)

De igual forma se puede plantear las hipótesis para diferencias de dos


promedios:
Una hipótesis nula igual para cualquier caso (H0: µ1 = µ2) y una de las tres
hipótesis alternativas (Ha: µ1 ≠ µ2) (Ha: µ1 > µ2) (Ha: µ1 < µ2).

Para cada hipótesis alternativa, independientemente si se trabaja con distribución


normal o t de student para uno o dos promedios, existe una regla de decisión (RD)
diferente:
Cuando la hipótesis alternativa se plantea como “ ≠ ” en la regla de decisión el
estadístico de prueba calculado (“tc” o “zc”) se expresa en valor absoluto y el valor
de tabla se busca con una confianza de 1- α/2. Por ejemplo, si se trabaja con
prueba de hipótesis para diferencia de 2 promedios con n1 < 30 y/o n2 < 30, la RD
quedaría así:
1-
RD = Si t c  t nA 2nB -2 → Rechazo Ho
Por el contrario, cuando la hipótesis alternativa se expresa como “ > “, en
cualquiera de las 2 distribuciones utilizadas, el “tc” o “zc” se expresa sin valor
absoluto y el valor de tabla correspondiente se halla utilizando una confianza de 1 –
α. Ejemplo, en una prueba de hipótesis para un promedio cuyo grupo tiene un n ≥
30 la RD sería:
1-
RD = Si Z c  Z → Rechazo Ho

40
Bioestadística 2017 FCV-UNL

Por último si la hipótesis alternativa se plantea con “<” el estadístico de prueba


calculado y el valor de tabla expresado como “Zα”o “tα” y se rechaza la Ho si el valor
calculado es menor que el valor de tabla.
Como las tablas de distribución “z” y “t” arrojan valores en términos de confianza
(0.90; 0.95; 0.975; 0.99 y 0.995) y no en valores de significancia o error (α). La
forma práctica de hallar el valor de tabla correspondiente consiste en buscar el
valor para la confianza que surge de (1-α) anteponiendo el signo (-).
RD = Si tc < t n-1 → Rechazo Ho
(-) (-)

7. Calcular el estadístico de prueba con los datos obtenidos de la/s muestra/s


para darle un valor numérico y compararlo con las regiones de rechazo y
aceptación.
8. Tomar la decisión estadística de acuerdo a la regla de decisión planteada al
comienzo y al resultado del estadístico de prueba pudiendo rechazar o no
Ho, dependiendo en qué área de la gráfica se ubica el valor del estadístico
de prueba.
9. Elaborar la conclusión, la que siempre debe ser escrita de manera que
pueda ser interpretada por cualquier persona. Si rechazo la Ho la Ha es
verdadera, en cambio si no rechazo Ho, se dice que no se ha demostrado lo
contrario.
10. El valor de p se refiere a α o significancia con la que se trabajó. Si se
trabaja con 0,95 de confianza, implica una significancia de 0,05. Cuando se
rechaza la Hipótesis Nula se expresa en palabras qué es lo que se concluye
con la Hipótesis Alternativa y se indica: P< 0,05. En los casos en que no se
rechaza la Hipótesis Nula., se explica que no se ha demostrado lo
expresado por la Hipótesis Alternativa y se expresa como P> 0,05.
Ejemplos
1. En un establecimiento lechero, 18 vacas produjeron en promedio 72 Kg. de
grasa butirosa en la tercera semana post-parto, con un desvío estándar de 6 Kg.
¿Puede asegurarse, con un 0, 95 de confianza, que la producción aumentó con
respecto a la media de 67 Kg? ¿Cómo lo resolvería si el número fuese de 40
vacas ( 30)?

Resolución:
Datos: n = 18 X = 72 S=6 μ = 67
H0 → μ = μ0 H A → μ > μ0
X - μo 72 - 67 5 • 18
TC = = = = 3,536
S 6 6
n 18
1-α
Regla de decisión: Si t c > t n-1 Rechazo Ho
Como 3,536 > 1,7396 → Rechazo Ho

41
Bioestadística 2017 FCV-UNL

Interpretación:
Con un 95 % de confianza estadística se puede decir que las vacas del
establecimiento produjeron mayor promedio de grasa butirosa en la tercer
semana posparto que la media de 67 (p< 0,05).

Con n=40
Datos: X = 72 S=6 μ = 67
H0 → μ = μ0 H A → μ > μ0
X -  o 72 - 67 5. 40
ZC     5,270
S 6 6
n 40
1-
Regla de decisión: Si Z c  Z → Rechazo Ho
Como 5,270 > 1,645 → Rechazo Ho

Interpretación:
Con un 95% de confianza estadística se puede decir que las vacas del
establecimiento produjeron mayor media de grasa butirosa que la media de 67
(P < 0,05).

2. Se ha realizado un ensayo para conocer el efecto de un aditivo


(supuestamente antianémico), en el alimento balanceado, sobre los resultados
del recuento de glóbulos rojos. Para ello se formaron (al azar) dos lotes de 22
animales cada uno, al primero (grupo tratado) se le agregó el aditivo a la dieta, y
al segundo (grupo control) se le suministró balanceado.

TRATADOS CONTROL
Promedio 8,5 8,7
Desvío estándar 0,46 0,51

En función de estas medidas de resumen ¿puede tener una opinión que le sea
útil? Compruebe la existencia, o no, de diferencias estadísticas (confianza 0,95)
entre el recuento de eritrocitos de ambos grupos.

Resolución:
Datos: Tratados n = 22 X A = 8,5 S = 0,46
Control n = 22 XB = 8,7 S = 0,51
H0 → μA = μB H A →  A  B

2* (n1 - 1) S12 + (n2 - 1) S22 21• (0,46)2 + 21• (0,51)2 4,4436 + 5,4621
S = = = = 0,23
n1 + n2 - 2 22 + 22 - 2 42

42
Bioestadística 2017 FCV-UNL

X1 - X 2 8,5 - 8,7 - 0,2


TC = = = = -1,366
S 2*
S 2*
0,236 0,236 0,146
+ +
n1 n2 22 22
1-
Regla de decisión: Si tc  tn A 2n B - 2 Rechazo Ho
Como - 1,366  2,0211→ No Rechazo Ho
Como 1,366 < 2,0211→ No Rechazo Ho
Interpretación
Con un 95 % de confianza estadística no se puede decir que los resultados del
recuento de glóbulos rojos en ambos grupos sean diferentes (P > 0,05).

Prueba de hipótesis para muestras pareadas

En los casos en que a los mismos individuos se los muestrea en dos momentos
diferentes, como antes de un tratamiento determinado y luego de él, aunque
aparentemente se tiene dos conjuntos de datos que en realidad son pares de
muestras de cada individuos. Para cada par de valores, el de después de alguna
forma depende del valor que tenía antes del tratamiento. Por ese motivo, se
deben calcular la diferencia en cada par de valores, restando el de después del de
antes. Se deben respetar los signos.

Esta operación permite un conjunto de valores de diferencias, las que se


constituyen en los datos a partir de los cuales se realiza la prueba de hipótesis.
Como debe saberse la distribución para el estadístico de prueba, se asume que
ellas se distribuyen como una t de student con n-1 grados de libertad.

Ejemplo
Los valores que se presentan a continuación muestran los resultados de un
experimento para comprobar si la ingestión de alimentos tiene algún efecto
sobre la velocidad con que el hígado elimina cierta sustancia inoculada. Cada
animal se midió dos veces, una durante el ayuno y la otra después de haber
comido. Para ello se trabajó con un lote de 10 animales, inyectando la sustancia
en cuestión, midiendo la cantidad eliminada en una hora estando el animal en
ayunas. Luego se los alimentó, y nuevamente se midió la cantidad eliminada a
los 60 minutos (miligramos).

ANIMAL 1 2 3 4 5 6 7 8 9 10
EN AYUNAS 9,6 10,9 9,5 13,5 10,8 9,3 10,1 11,2 10,8 11,8
ALIMENTADO 10,2 11,6 9,3 13,5 11,9 10,1 10,9 11,9 11,5 12,4

¿A qué conclusión arribaría? Confianza 0,95.


Nótese que este ejemplo tiene los valores de 10 animales, medidos dos veces
cada uno, No son dos poblaciones independientes, sino dos sub-poblaciones
dependientes o relacionadas

43
Bioestadística 2017 FCV-UNL

Resolución

ANIMAL 1 2 3 4 5 6 7 8 9 10 Total
AYUNAS 9,6 10,9 9,5 13,5 10,8 9,3 10,1 11,2 10,8 11,8
ALIMEN 10,2 11,6 9,3 13,5 11,9 10,1 10,9 11,9 11,5 12,4
d 0,6 0,7 -0,2 0 1,1 0,8 0,8 0,7 0,7 0,6 5,8

∑d i 5,8
d= = = 0,58
n 10

Sd 
∑d i - d
2


(0,6 - 0,58) 2  (0,7 - 0,58) 2  ...  (0,6 - 0,58) 2

1,356
 0,3882
n -1 9 9
H0 → δ(diferencia) = 0 HA → δ ≠0
d 0,58
Td    4,724
Sd 0,3882
n 10
1-
td  tn -1 2
Regla de decisión: Si Rechazo Ho
4,724  2,2622
Como → Rechazo Ho

Interpretación
Con un 95 % de confianza estadística se ha demostrado que exista diferencia
sobre la velocidad con que el hígado elimina dicha sustancia inoculada, en
ayunas o luego de alimentados (p < 0,05).

44
Bioestadística 2017 FCV-UNL

Análisis de la varianza

Procedimiento estadístico que permite conocer la variabilidad total existente en un


grupo de datos extraídos de k poblaciones, dividir esa variabilidad total en partes
de modo que cada una de las partes responda a una fuente específica de
variación y así nos permita calcular la contribución de cada fuente a la variación
total.
Los fines del análisis de la varianza son estimar y probar las hipótesis acerca de
las variaciones de poblaciones y de los promedios muestrales para tres o más
poblaciones, por lo que es otra de las pruebas de hipótesis,

Planteo de hipótesis Ho = µa = µb = µc = ………... = µk


Ha = al menos un µ es diferente

Supuestos del análisis de la varianza


1) Los K conjuntos constituyen K muestras aleatorias provenientes de las
poblaciones respectivas.
2) Cada una de las poblaciones está normalmente distribuidas con un
promedio (µ) y una variancia (  ).
2

3) Las distintas poblaciones tiene igual o semejante varianza


(homosedasticidad).
4) Los Tj son constantes desconocidas.

Como es una prueba de hipótesis, luego de plantear la hipótesis nula y la


alternativa, corresponde definir el estadístico de prueba que es la Razón de
Varianzas (RV), que se distribuye como una F1-α y con k-1 y N-k como grados de
libertad.
La regla de decisión es que se rechaza la Hipótesis Nula si la RV es mayor que la
1−𝛼
𝐹𝑘−1, 𝑁−𝑘 .

45
Bioestadística 2017 FCV-UNL

El cálculo de la RV se realiza a partir de las sumas de cuadrados.

Suma de Cuadrados Dentro Suma de Cuadrados Entre


k nj k T•2j k T•2j T•2•
SCDentro = ∑ ∑ Xij2 - ∑ SCEntre = ∑ -
j =1 i =1 j =1
nj nj N
j =1
Suma de Cuadrados Total
k nj
T•2•
SCTotal = ∑ ∑ Xij
2
-
j =1 i =1
N

Fuente de Suma de Grados de Cuadrados Razón de


Tabla
Varianza Cuadrados libertad medios varianza
Tratamiento SCEntre k –1 CME =
SCE
RV =
CME
Fk1-1; N - k
k - 1 CMD
SCD
Error SCDentro N–k CMD =
N - k
Total SCTotal N–1

Si se rechaza la Hipótesis Nula se tiene que conocer cual/es promedio/os son


estadísticamente diferentes. Para ello se puede utilizar alguno de los test de
comparaciones múltiples de medias, que están diseñados para este propósito,
como Duncan, Scheffé, Tukey, entre otros

Por su robustez, se usará la prueba de DVS (diferencia verdaderamente


significativa) o Test de Tukey, es el procedimiento de comparación múltiple que se
utiliza para probar la hipótesis nula de que todas las parejas posibles de medias
de los tratamientos sean iguales cuando las muestras son del mismo tamaño. Si
se utiliza un solo valor (DVS) con el que se comparan todas las diferencias,
cualquier diferencia entre dos promedios muestrales con valor absoluto mayor al
DVS es significativa.
CMD
DMS = qkα ; N - k .
n

En forma práctica se construye un cuadro (de contraste de promedios) de doble


entrada, colocando en la primera fila los promedios muestrales ordenados desde
el mayor al menor y en la columna de la izquierda los promedios muestrales
ordenados de menor a mayor, de tal forma que sea simple expresar las diferencias
entre los promedios.

……………
X mayor X segundo X menor
X menor

X segundo
X mayor

46
Bioestadística 2017 FCV-UNL

A efectos de expresar de forma gráfica lo encontrado en diferencia de promedios,


se procede a colocar los promedios poblacionales (según lo encontrado en las
muestras) ordenados de menor a mayor. Posteriormente, se unen con un
segmento los promedios que no dieron diferencias significativas.

Otra forma de expresar el resultado del análisis es poniendo de a pares los


promedios poblacionales, uniendo con el símbolo igual (=) o diferente (≠), según
se corresponda con lo encontrado en el cuadro de contrastes de promedios.

Para elaborar la conclusión y recomendaciones, se expresa en palabras lo


encontrado como recomendable a usar de acuerdo a lo que sea más conveniente
según la variable estudiada. Así, si fuese un estudio sobre ganancias se peso
seguramente el más conveniente será el/los que mayor/es ganancia/s produzca/n.

Ejemplo
Con el objeto de evaluar 3 preparados para controlar la anemia en lechones, se
realizó un estudio midiendo el tiempo, en días, en que se normalizaron los
valores hemáticos. Los individuos se asignaron al azar en cada grupo y del
mismo modo se asignó el tratamiento. Realice la prueba de hipótesis
correspondiente y extraiga conclusiones. Si encontrara diferencias ¿Cuál/es
preparado/s recomendaría?
Preparado 1: 23 – 22 – 21 – 23 – 21 – 20 – 25 – 21 – 23
Preparado 2: 20 – 19 – 21 – 18 – 17 – 21 – 22 – 19
Preparado 3: 22 – 24 – 19 – 22 – 22 – 24 – 26 – 24

Resolución:
Preparado Preparado Preparado
2 2 2 Total
1 X 2 X 3 X
23 529 20 400 22 484
22 484 19 361 24 576
21 441 21 441 19 361
23 529 18 324 22 484
21 441 17 289 22 484
20 400 21 441 24 576
25 625 22 484 26 676
21 441 19 361 24 576
23 529
Total (∑) 199 157 183 539 (∑x)
2
Total (∑) 4419 3101 4217 11737 (∑x )
Promedio
22,11 19,63 22,88
X
n 9 8 8 N=25

H0 → μ1 = μ2 = μ3
H A → Al menos un promedio poblacional es diferente
Regla de decisión: Si RV  Fk1-1;N -k Rechazo Ho

47
Bioestadística 2017 FCV-UNL

nj
k
T•2• 5392
SCTotal = ∑ ∑ X ij2 - = 11737 - = 11737,1 - 11620,8 = 116,3
j=1 i=1 N 25
nj
k k
T•2j 1992 1572 1832
SCDentro = ∑ ∑ Xij2 - ∑n = 11737 - ( + + )=
j =1 i =1 j =1 j 9 8 8
= 11737 - 11667,3 = 69,7
k
T•2j T•2• 1992 1572 1832 5392
SCEntre = ∑ - =( + + )- = 11667,3 - 11620,8 = 46,5
j=1 nj N 9 8 8 25

Tabla de ANOVA
Grados
Fuente de Suma de Cuadrados Razón de
de Tabla
Varianza Cuadrados medios varianza
libertad
Tratamiento 46,5 2 23,25 RV  7,33 3,44
Error 69,7 22 3,17
Total 116,3 24

Como RV = 7,33 > = 3,44 Rechazo la Ho.


Conclusión: Alguna de las medias es diferente.
Test de Tukey
3  22,9 1  22,1
2  19,6 3,3 2,5
μ1  22,1 0,8
CMD 3,17
DMS  qk; N - k   3,55   2,23
n 8
Si Diferencia > DMS → μA ≠μB

Como 3,3 > 2,23 → 3 ≠2


Como 0,8 < 2,23 → 3  1
Como 2,5 > 2,23 → 2 ≠1

Interpretación:
Se encontraron diferencias significativas entre el promedio 2 (µ2) y los otros dos
promedios (µ2 ≠ µ1 y µ2 ≠ µ3) (p < 0,05)
Se recomendaría el preparado 2 por ser el que recupera los valores hemáticos
en menor tiempo.

48
Bioestadística 2017 FCV-UNL

Regresión y correlación lineales simple

El análisis de la regresión es útil para averiguar la forma probable de la relación


entre variables con el objetivo de predecir o estimar el valor de una variable que
corresponde a un valor determinado de la otra variable. El modelo de Regresión
Lineal Simple relaciona dos variable, la explicativa o independiente identificada
con la letra X y la variable de respuesta o dependiente, representada por la “Y”.
Este modelo permite conocer la forma probable de relación entre ambas.

Suposiciones de la Regresión Lineal Simple


 Los valores de la variable “X” están predeterminados por el investigador,
por lo tanto, se miden sin error o este es despreciable.
 Para cada valor de “X” existe una subpoblación de valores de “Y” que están
normalmente distribuidos (suposición de normalidad).
 Cada una de las subpoblaciones de “Y” tienen la misma varianza
(suposición de homosedasticidad).
 Los promedios de las subpoblaciones de “Y” se encuentran en una línea
recta, (suposición de linealidad).
 Los valores de “Y” son estadísticamente independientes, implica que los
valores de “Y” obtenidos para un valor de “X” no dependen de los valores
de “Y” obtenidos por otro valor de “X”, (suposición de independencia).
El Diagrama de Dispersión es un gráfico de los valores observados en ejes
coordenados (X e Y) mostrando la naturaleza básica de la dispersión de las
variables, según se encuentren en el registro.

Estos supuestos se representan en un modelo o función en la ecuación


ʏ = α + βx + ε donde “ʏ” es un valor que depende de la ordenada al origen y
la pendiente de la recta, más un error estadístico. Así α y β representan la
ordenada al origen (valor de “Y” cuando “X” vale 0) y la pendiente de la recta
(cuanto varia “Y” por cada unidad de variación de “X”) respectivamente.

Recta de regresión o de los mínimos cuadrados.


El método utilizado para obtener la recta pretendida (según el modelo antes
expuesto) es el de mínimos cuadrados ya que es la recta que minimiza las
diferencias cuadráticas entre los valores observados y la recta estimada por el
modelo, respecto a cualquier otra recta calculada con otro modelo

49
Bioestadística 2017 FCV-UNL

Ŷ Ŷ = a + bX Modelo para la muestra,


e o
e
a Ŷ = Recta calculada para los datos
f
Ῡ muestrales

a = Ordenada al origen de la muestra

b = Pendiente de la muestra

Ῡ = Promedio de las Y

e + f = Distancia entre una observación


y el promedio de las Y (Ῡ)
Para plantear las hipótesis, como modelo general es el siguiente.
Ho = las variables X e Y NO están relacionadas linealmente.
Ha = las variables X e Y están relacionadas linealmente.

Lógicamente, cuando se trata de un problema particular, en las hipótesis hay que


nombrar la variable independiente (X) y la variable dependiente (Y).
Fórmulas
Coeficiente de Coeficiente de
Ecuación de la recta Pendiente
determinación correlación
ŷ = a + b.x n.∑x.y - (∑x)(. ∑y) SCE SCE
Ordenada al origen b= r2 = r=
n.∑x 2 - (∑x )
2 SCT
a = y - b.x SCT

Suma de Cuadrados
Total Explicada Inexplicada

∑y  2 
SCE  b 2 .∑x i2 -
∑x  2

 SCI  SCT - SCE
i
SCT   y i2 -
i

n  n 
 

Fuente de Suma de Grados de Razón de


Cuadrados medios Tabla
Varianza Cuadrados libertad varianza
CME
Regresión SCE 1 CME =
SCE
RV = F11; n - 2
1 CMI
SCI
Error SCI n–2 CMI =
n - 2
Total SCT n–1

Para evaluar el modelo de regresión se aplica el coeficiente de determinación


R2 = SCE/SCT. 0 ≤ r 2≥ 1
2
R = mide la proporción de variabilidad total que esta explicada por el modelo de
regresión.

50
Bioestadística 2017 FCV-UNL

Ejemplo
Los siguientes son datos obtenidos de un estudio experimental donde se trata de
averiguar las distintas concentraciones de un compuesto y su influencia sobre la
glucemia:
ANIMAL DOSIS GLUCEMIA
1 0,2 56
2 0,6 54
3 0,9 55
4 1,2 58
5 1,5 57
6 1,8 56
Usted debe probar si existe o no influencia

Resolución:

Animal Dosis (x) x2 Glucemia (y) y2 x.y


1 0,2 0,04 56 3136 11,2
2 0,6 0,36 54 2916 32,4
3 0,9 0,81 55 3025 49,5
4 1,2 1,44 58 3364 69,6
5 1,5 2,25 57 3249 85,5
6 1,8 3,24 56 3136 100,8
Total 6,2 8,14 336 18826 349
Promedio 1,03 56

n.∑x.y -(∑x)(. ∑y) 6 • 349 - 6,2 • 336 2094 - 2083,2 10,8


b= = = = = 1,04
n.∑x - (∑x ) 6 • 8,14 - 6,2
2 2
2 48,84 - 38,44 10,4
a  y - b.x  56 - (1,04)  1,03  54,93
yˆ  54,93  1,04.x

H0 → X e Y NO están relacionadas linealmente.


En este caso: La glucemia no está relacionada linealmente con la dosis del
medicamento aplicado.
HA → X e Y están relacionadas linealmente.
En este caso: La glucemia está relacionada linealmente con la dosis del
medicamento aplicado.
1
Regla de decisión: Si RV  F1;n -2 Rechazo Ho

(∑y ) 2
(336)2
SCTotal = ∑y 2 i
i - = 18826 - = 18826 - 18816 = 10
n 6

51
Bioestadística 2017 FCV-UNL

(∑x ) 2
(6,2)2
SCExplicada = b .[ 2
∑x 2
i -
n
i
] = 1,04 2 • (8,14 -
6
) = 1,08 • (8,14 - 6,41) = 1,87

SCIn exp licada = SCT - SCE = 10 - 1,8 = 8,2

Fuente de Suma de Grados de Cuadrados Razón de


Tabla
Varianza Cuadrados libertad medios varianza
SCE
Regresión SCE= 1,8 1 = 1,8 RV = 0,91 7,71
1
SCI
Error SCI= 8,2 n – 2= 4 = 2,05
n - 2
Total SCT= 10 n – 1= 5

Como RV  0,91  F1;1n-2  7,71 NO Rechazo Ho


Interpretación:
Con un 95 % de confianza estadística no se puede afirmar que, la glucemia esté
relacionada linealmente con la dosis del medicamento aplicado, (p > 0,05).
SCE 1,87
r2    0,187
SCT 10
Interpretación:
Solamente el 18,7% de la variabilidad de la glucemia está explicada por la
variación de la dosis del medicamento aplicado.

Modelo de correlación

Permite conocer la relación supuesta entre dos variables aleatorias (X e Y), siendo
posible evaluar la intensidad de esta relación.

Los supuestos de correlación son:

 Para cada valor de “X” existe una subpoblación de valores “Y” normalmente
distribuida.
 Para cada valor de “Y” existe una subpoblación de valores de “X”
normalmente distribuida.
 La distribución conjunta de “X” e “Y” es una distribución normal Bivariada.
 Todas las subpoblaciones de los valores de “Y” tienen la misma varianza.
 Todas las subpoblaciones de los valores de “X” tienen la misma varianza
Para evaluar la recta se aplica el coeficiente de correlación (r) que mide la
intensidad de la relación entre las variables. R = 𝑅2 -1 ≤ R ≤ 1

52
Bioestadística 2017 FCV-UNL

Ejemplo
Un investigador proporcionó información acerca del espesor de la grasa del lomo
en mm (y) y el peso muerto limpio en Kg (x) de n lotes de cerdos Poland China,
alimentados con una ración especial. Extraiga conclusiones acerca de la
relación entre ambas variables.

Observación 1 2 3 4 5 6 7 8
Peso (x) 93.4 118.4 126.6 100.2 98 89.1 125.6 113.4
Espesor (y) 34 41 46 36 35 31 45 43

Resolución:
Animal Peso (x) x Espesor (y) x.y
1 93,4 8723,56 34 1156 3175,6
2 118,4 14018,56 41 1681 4854,4
3 126,6 16027,56 46 2116 5823,6
4 100,2 10040,04 36 1296 3607,2
5 98 9604,00 35 1225 3430,0
6 89,1 7938,81 31 961 2762,1
7 125,6 15775,36 45 2025 5652,0
8 113,4 12859,56 43 1849 4876,2
Total 864,7 311 34181,1
94987,45 12309
Promedio 108,09 38,875

n.∑x.y -(∑x)(. ∑y) 8 • 34181,1- 8647,7 • 311 4527,1


b= = == = 0,37
n.∑x - (∑x ) 8 • 94987,45 - 864,7
2 2
2 12193,91
a = y - b.x = 38.88 - (0,37) • 108,09 = -1,1133 ŷ = -1,113 + 0,37.x

H0 → X e Y NO están correlacionadas linealmente.


En este caso: El peso de la canal de cerdos no está correlacionado linealmente
con el espesor de la capa de grasa del lomo de los cerdos Poland China.

HA → X e Y están correlacionadas linealmente.


En este caso: El peso de la canal de cerdos está correlacionado linealmente con
el espesor de la capa de grasa del lomo de los cerdos Poland China.
1
Regla de decisión: Si RV  F1;n -2 Rechazo Ho

(∑y ) 2
(311)2
SCTotal = ∑y i2 -
i
= 12309 - = 12309 - 12090,125 = 218,875
n 8

53
Bioestadística 2017 FCV-UNL

(∑x ) 2
(864,7)2
SCExplicada = b .[2
∑x 2
i -
n
i
] = 0,37 2 • (94987,45 -
8
) = 108,668

SCIn exp licada = SCT - SCE = 218,875 - 208,668 = 10,207

Fuente de Suma de Grados de Cuadrados Razón de


Tabla
Varianza Cuadrados libertad medios varianza
Regresión 208,668 1 208,668 RV = 122.75 5,99
Error 10,207 6 1,70
Total 218,875 7
Como RV  122,75  F1;1n-2  5,99 Rechazo Ho

Interpretación:
Se encontraron evidencias para afirmar que el peso de la canal está
correlacionado linealmente con el espesor de la capa de grasa del lomo de los
cerdos Poland China (p < 0,05).

SCE 208,668
r2 = = = 0,953
SCT 218,875

SCE 208,668
r    0,953  0,976
SCT 218,875

Interpretación:
La intensidad de la relación entre el espesor de la capa de grasa del lomo de los
cerdos Poland China y el peso de la canal de los mismos y es de 97,6 %.
(P < 0,05)

54
Bioestadística 2017 FCV-UNL

Análisis de datos categóricos


Prueba de independencia y homogeneidad
En los temas anteriores se trataron sobre prueba de hipótesis sobre parámetros
de variables cuantitativas. En muchas ocasiones se trabaja con variables
cualitativas, medidas en una escala nominal o categórica, donde solo es posible
contar el número de individuos u objetos que tienen tal o cual característica.
Por ello en estos casos es imposible calcular el promedio y desvío estándar, por lo
tanto no se puede utilizar ninguna de las pruebas de hipótesis vistas. Sin
embargo, hay procedimientos estadísticos para probar hipótesis adecuadas para
estas variables cualitativas. De las pruebas existentes se tratarán solo dos,
independencia y homogeneidad.

Prueba de independencia

La prueba de independencia se utiliza cuando tratamos con criterios o categorías


de dos variables cualitativas, pretendiendo conocer si los dos criterios de
clasificación aleatorios (no deliberados) se aplican a un mismo grupo y se quiere
saber si las dos variables en análisis están o no relacionadas.

Características de la Prueba de Independencia

 En general se selecciona una sola muestra de una población y los valores


observados se clasifican de forma cruzada, según corresponda a los
criterios de clasificación de ambas variables.
 Las frecuencias esperadas se basan en la ley de probabilidad de ocurrencia
conjunta de dos eventos independientes, que dice: “Si dos eventos son
independientes, la probabilidad de que ocurran conjuntamente es igual al
producto de las probabilidades individuales”.
 Las hipótesis al igual que las conclusiones se establecen en términos de
independencia o de no independencia de las variables.

La forma general de plantear las hipótesis es la siguiente:


Ho = los dos criterios de clasificación son independientes.
Ha = los dos criterios de clasificación no son independientes.

Obviamente que para un ejemplo concreto, en las hipótesis hay que denominar
cuáles son los criterios de que trata el problema en cuestión.
(Oi - Ei )2
Estadístico de prueba: χ =∑
2
Ei
Ejemplo

En la Cátedra de Bioestadística de la Facultad de Ciencias Veterinarias de


Esperanza, se diseñó una encuesta para conocer los riesgos de accidentes y

55
Bioestadística 2017 FCV-UNL

zoonosis en los estudiantes de veterinaria de Argentina. Fueron encuestados 782


estudiantes de cinco facultades estatales y una privada. La mayoría de las
variables estudiadas fueron cualitativas, y algunas cuantitativas. Sobre estas
variables se realizaron análisis estadísticos y epidemiológicos. Si se presentan
los siguientes casos observados, ¿existe relación entre lugar de residencia del
grupo familiar del estudiante y padecer zoonosis?

Valores observados (Oi)


Padecimiento de Lugar de residencia
Urbano Rural
Zoonosis SI 18 9
Zoonosis NO 545 57

Resolución:
H0: la posibilidad de padecer zoonosis es independiente del lugar de residencia.
Ha: la posibilidad de padecer zoonosis en estudiantes de veterinaria no es
independiente (depende) del lugar de residencia.

Se completa la tabla con los totales marginales y como se tiene que estimar los
valores esperados (Ei), si la hipótesis nula fuera cierta, se identifica cada casilla
comenzando con la letra a, en este caso: a; b; c; d.
Urbano Rural Total
Zoonosis SI 18 (a) 9 (b) 27
Zoonosis NO 545 (c) 57 (d) 602
Total 563 66 629

Para calcular los valores esperados para cada casilla se multiplican los
marginales y se divide por el total.

Valores esperados (Ei) para cada casilla:


27 • 563 27 • 66 602 • 563 602 • 66
a= = 24,17 b= = 2,83 c= = 538,83 d= = 63,17
629 629 629 629
1- 
X 2   (2r -1)(c -1)
Regla de decisión: Si Rechazo Ho
(r - 1)(c - 1)
Significa los grados de libertad ((renglones – 1) por (columnas – 1)).
Estadístico de Prueba:
Oi - E i 2  (18 - 24,17) 2  (9 - 2,83) 2  (545 - 538,83) 2  (57 - 63,17) 2  15,2
X2  ∑ Ei 24,17 2,83 538,83 63,17
Decisión Estadística: Como (   15,2)  ( 
2
 3,841)  Rechazo Ho
2.....0, 95
( 2 -1)(2 -1)

Interpretación:
Con un 95 % de confianza estadística se puede afirmar que, tener zoonosis
depende del lugar de residencia (p < 0,05).

56
Bioestadística 2017 FCV-UNL

Prueba de homogeneidad

La prueba de homogeneidad se utiliza cuando un criterio de clasificación es


aplicado en dos o más muestras provenientes de diferentes poblaciones
(grupos).

Características de la prueba de homogeneidad


 Se identifican 2 o más poblaciones, de cada una de ellas se extrae una
muestra independiente.
 Los individuos (u objetos), de la muestra se colocan en las categorías
apropiadas de la variable de interés.
 El cálculo de las frecuencias esperadas se basa en que si las poblaciones
son homogéneas (Ho verdadera) la mejor estimación de la probabilidad de
que en un individuo u objeto caiga en una categoría particular de la variable
de interés puede obtenerse juntando los datos de la muestra.
La hipótesis y conclusiones se establecen en términos de homogeneidad o de no
homogeneidad de las poblaciones con respecto a la variable de interés.
(Oi - Ei )2
Estadístico de prueba: χ =∑
2
Ei

Ejemplo
Se investigó el nivel de riesgo al estudiar Medicina Veterinaria de acuerdo con la
Universidad. Se asistió a cada una de las seis Universidades en las cuales se
encuestó a los alumnos preguntándoles si padecieron y/o padecen alguna
zoonosis.
Univ. 1 Univ. 2 Univ. 3 Univ. 4 Univ. 5 Univ. 6
Zoono. SI 7 5 11 5 3 1
Zoono. NO 151 119 130 118 57 112

Resolución:
H0: Es homogénea la posibilidad de padecer zoonosis en todas las
Universidades.
Ha: No es homogénea la posibilidad de padecer zoonosis en todas las
Universidades.
Se completa la tabla con los totales marginales y como se tiene que estimar los
valores esperados (Ei), si la hipótesis nula fuera cierta, se identifica cada casilla
comenzando con la letra “a”, en este caso, hasta la “l”.
Univ. 1 Univ. 2 Univ. 3 Univ. 4 Univ. 5 Univ. 6 Total
Zoono. SI 7 (a) 5 (b) 11 (c) 5 (d) 3 (e) 1 (f) 32
Zoono. NO 151 (g) 119 (h) 130 (i) 118 (j) 57 (k) 112 (l) 687
Total 158 124 141 123 60 113 719

Para calcular los valores esperados para cada casilla se multiplican los
marginales y se divide por el total.

57
Bioestadística 2017 FCV-UNL

Valores esperados (Ei) para cada casilla:


32  158 32  124 32  141 32  123 32  60
a  7,03 b   5,52 c   6,27 d   5,47 e   2,67
719 719 719 719 719
32  113 687  158 687  124 687  141
f   5,03 g   150,97 h   118,48 i   134,72
719 719 719 719
687  123 687  60 687  113
j  117,52 k   57,33 l   107,97
719 719 719
X 2   (2r -1)(c
1- 
Regla de decisión: Si Rechazo Ho
-1)

(r - 1)(c - 1)
Significa los grados de libertad ((renglones – 1) por (columnas – 1)).
Estadístico de Prueba:
O - E i   (7 - 7,03) 2  (5 - 5,52) 2  ....  (112 - 107,97) 2  7,25
X2 ∑ i
2

Ei 7,03 5,52 107,97


Decisión Estadística: Como (  2  7,25)  ( (22.....
-1)(6 -1)  11,070)  NO Rechazo Ho
0, 95

Interpretación:
Con los datos disponibles, no se puede afirmar que no sea homogénea la
posibilidad de padecer zoonosis de los estudiantes de veterinaria en las
Universidades consideradas (p > 0,05).

58
Bioestadística 2017 FCV-UNL

Muestreo

Es el procedimiento estadístico (con base probabilista) que permite seleccionar


una parte de la población (muestra) con el objetivo de estudiar alguna/s
característica/s de ella, de tal manera que sus resultados pueden generalizarse a
la población/es de la/s que se extrajo la muestra, ya que ésta solo difiere de la
población en su tamaño. Cuando se realiza un muestreo, al aumentar el número
de individuos (n) en análisis aumenta la confianza y disminuye el error.
Es fundamental definir de manera clara y precisa la finalidad que se persigue en el
estudio para el cual se hace necesario el muestreo. Debe existir concordancia
entre lo que se desea estudiar y el tipo de muestreo a seleccionar, para lo que es
necesario tener un buen conocimiento del problema y que el planeamiento del
muestreo lo haga un equipo multidisciplinario a fin de estudiar la situación de la
manera más simple y efectiva posible. Es un procedimiento científico.

Objetivos del muestreo

 Conocer las medidas de resumen de una o más variables en una o más


poblaciones.
 Comparar estas medidas de resumen en dos o más poblaciones.
 Conocer la distribución de alguna/s enfermedad/es.
 Determinar los patrones de presentación de un fenómeno en una o más
poblaciones.
 Realizar seguimiento y evaluación de las campañas de salud.
 Evaluar resultados de tratamientos.
 Determinar calidades de alimentos.
 Determinar comportamientos, preferencias, opciones y demandas de los
diferentes sectores sociales, respecto de una serie de ofertas de índole social,
política, económica, de esparcimiento, culturales, entre otras.

Ventajas del muestreo con respecto al censo


 Bajo costo en comparación con la enumeración completa de todos los
individuos u objetos de la población.
 Ahorro de tiempo en la obtención de datos.
 Se trabaja con menos individuos u objetos, por lo que se obtienen más
detalles de los mismos.
 Se economiza personal, permitiendo contar con personas más capacitadas.
 En muchos casos es la única alternativa porque el análisis implica destruir la
unidad (por ejemplo en alimentos como latas de conserva, si se hace un censo
debería abrirse todas las latas de la partida, por lo que se debe realizar un
muestreo y el profesional no tiene otra alternativa).
 En general se obtienen resultados de mejor calidad al ser el tamaño más
pequeño.

Desventajas del muestreo

59
Bioestadística 2017 FCV-UNL

 Como no se trabaja con el total de la población, no proporciona información de


todos los elementos que la constituyen.
 Es imprescindible capacitar al personal antes de hacer la obtención de la
muestra.
 La relativa complejidad del diseño y ejecución del muestreo hace que la
mayoría de las veces deba interferir un especialista en muestreo.

Tipos de muestreo

1- Muestreo probabilístico:
Aleatorio simple o al azar: se sortea la muestra de manea que cada
unidad de la población tenga la misma posibilidad de ser elegida para formar parte
de la muestra. Es práctico cuando la población no es muy variable ni muy grande,
no se sabe de la existencia de subpoblaciones y es posible tener un listado
completo de todos los elementos componentes de la población.

Estratificado: consiste en subdividir a la población en partes de


acuerdo con diferentes criterios. Cada una de esas partes se llama estrato, el que
debe ser excluyente (no incluir un elemento en más de un estrato), exhaustivo
(debe incluir todos los elementos de la población) y lo más homogéneo posible en
el estrato, pudiendo no estar formado por el mismo número (n) de unidades. Una
vez formado los estratos se procede a tomar muestras al azar de cada uno de
ellos para constituir la muestra definitiva. Este tipo de muestreo tiene como
ventajas respecto al anterior que reduce el tamaño de la muestra para un grado de
precisión dado y viceversa y garantiza una adecuada representación en la muestra
de todas las partes de la población, generalmente reduciendo al mínimo la
variabilidad comparado con el simple al azar aplicado en este caso.

Sistemático: es una forma de sacar la muestra (n) partiendo del


tamaño de la población (N) cuando es finita. Calculado el tamaño de la muestra
(m) requerido para la variable de interés, se calcula la fracción de muestreo que
resulta el dividir el tamaño de la población (N), sobre el número calculado de la
muestra: m/N.
Por ejemplo, en un establecimiento existen 1000 vacas de cría. Se pretende
conocer la prevalencia de leucosis. Por razones operativas, es imposible investigar
a las mil vacas que no están numeradas, por lo que se decide realizar un
muestreo en el momento que se vacuna contra Fiebre Aftosa. Supongamos que el
tamaño de la muestra que se calculó fue de 71. Si se calcula la fracción de
muestreo será 1000/71 = 14. Luego se sortea un número entre 1 y 14 y si resultó
el 5, al entrar a la manga se sacará una muestra de sangre al animal que entró
quinto, luego al 19 (5+14), al 33 (19+14), al 47, 61, hasta llegar a los últimos
animales en entrar y se completará los 71 requeridos.

60
Bioestadística 2017 FCV-UNL

De esta forma, si bien no se tenía numerado a los animales, con el método


sistemático se logra que la muestra represente a toda la población de vacas,
evitando muestrear solo a las primeras o las últimas (pueden ser las más mansas
o de un potrero particular o las vacas más jóvenes o viejas)

Por conglomerados: consiste en tomar como unidades de muestreo


grupos formados por individuos de una misma especie que se diferencien por sus
características secundarias (conglomerado) para someter a examen a todos los
elementos de cada grupo. A diferencia del muestreo estratificado que busca la
mayor homogeneidad posible en cada estrato, en este se apunta a que contenga
elementos de todas las variedades distinguidas en base a ciertas características
secundarias lo más mezcladas posibles. Por ejemplo, en un engorde a corral, se
sortea un corral y se muestrea a todos los de ese corral.

En 2 etapas: consiste en aplicar un procedimiento de selección en 2


etapas, en la primera elije de forma aleatoria una muestra de establecimientos
lecheros y en la segunda se toma una submuestra sistemática de los elementos
contenidos en esos departamentos. Este tipo de muestreo suele utilizarse para
concentrar los recursos en un número limitado de unidades y disminuir los costos.
Suele presentar dificultades en el análisis de los resultados dado que las
unidades de muestreo tienen diferente número de elementos.

Con probabilidad proporcional al tamaño: es el que se usa


cuando hay gran variación en el tamaño de los estratos o en los conglomerados
para establecer en forma proporcional un número constante de elementos a
seleccionar en cada grupo incluido en el muestreo. Por ejemplo, si se quiere
conocer la proporción de animales positivos a la tuberculina. Como es una
enfermedad crónica es más probable encontrar positivos en lo animales adultos
con respecto a los jóvenes. Si el 60% de los animales son adultos y el 40% de
jóvenes, y el cálculo del tamaño de la muestra resultó que se deben muestrear
150 animales. Entonces de las 150 muestras corresponderá sacar 90 de los
adultos y 60 de los jóvenes.

Polietápico: en algunos casos especiales, se puede combinar


algunos de los métodos anteriores

2- Muestreo dirigido:
No es probabilístico ni permite sacar conclusiones respecto a la población. Los
muestreos y/o relevamientos se hacen en el lugar de sospecha que exista la
característica de interés. Generalmente se usa en casos de brotes o sospecha de
ingreso fronterizo de ciertas enfermedades.

Factores que influyen en el cálculo del tamaño de la muestra.


 La variación de la población: cuando más heterogénea es una población es
necesario incrementar el tamaño de la muestra para realizar estimaciones sin
grandes riegos de errores. En cambio si una población se distribuye

61
Bioestadística 2017 FCV-UNL

uniformemente el n puede ser menor para estimar de forma precisa lo que


ocurre.
 La precisión de la estimación: a mayor tamaño de muestreo, mayor
precisión y menor error de estimación, es de aquí que el tamaño de la
muestra debe ser tal para reducir el error standart de una estimación hasta la
magnitud elegida. O el error que se está dispuesto a cometer en la precisión
de medición de un parámetro en estudio es inverso al tamaño de la muestra.
El error de muestreo no debe ser mayor que un 20% del valor de la tasa
poblacional.
 El nivel de confianza (1- α/2): cuanto más confianza se desea tener más
grande deberá ser el tamaño de la muestra para reducir el error y no caer en
la posibilidad de obtener una muestra desafortunada que tenga un error de
muestreo mayor que el deseado.
 Tamaño de la población: solo cuando la población es finita, se considera
para calcular el tamaño de la muestra, existiendo en la fórmula de cálculo del
tamaño muestral un corrección para población finita.
Está mal cuando afirman que debe existir una relación directa entre el tamaño
de la población y de la muestra (salvo lo descripto en el párrafo anterior), o
sea en poblaciones grandes se necesitan muestras grandes y en poblaciones
pequeñas viceversa. También es erróneo cuando afirman que para sacar una
muestra “representativa” se debe calcular una muestra del 5% o del 10% de la
población. Esos porcentajes pueden ser absolutamente insuficientes según el
caso, o ser un disparate cuando la población es muy grande.
 Recursos: si bien no está entre los factores que determinan estadísticamente
el tamaño de la muestra, suele jugar un papel importante que puede llevar a
realizar una muestra de menor tamaño que determine una menor precisión. Es
aquí donde se decide si se renuncia a la precisión y se acepta la resultante de
la limitación de recursos o se destinan mayores recursos. Las 2 alternativas
son una combinación de los 2 puntos anteriores o se puede decidir no llevar
adelante el estudio en esas condiciones.

62

También podría gustarte