Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Objetivos:
♦ Sintetizar la información de la muestra a través de valores representativos.
♦ Reconocer la insuficiencia de los estadísticos de posición como únicas medidas descriptivas
de una muestra.
♦ Seleccionar los estadísticos que mejor describen una muestra.
♦ Interpretar la información brindada por los estadísticos para una situación particular.
2.1 Introducción
¿Qué número se puede calcular para tener una idea general del efecto de la nueva
dieta?, es decir ¿con qué valor numérico se podrá caracterizar esta muestra de peso de
animales sometidos a la nueva dieta?. Parece natural tomar el promedio, el cual se calcula de
la siguiente manera
muestra1 : 400 450 500 550 600 680 700 X = 554.29 kg.
muestra2 : 200 200 200 200 240 270 700 X = 287.14 kg.
muestra3 : 180 190 210 230 250 280 700 X = 291.43 kg.
Observar si el promedio (también llamado media) es realmente representativo en cada
una de las muestras, es decir si da una idea real de lo que sucede:
En la primera de ellas sí, pero en las otras dos no. En la muestra1 hay 4 animales
cuyos pesos son menores 554.29 kg. y 3 con peso mayor, en cambio en la muestra2 hay 6
animales con peso menor al promedio y 1 con peso mayor, lo mismo que en la muestra3.
Introducción a la Estadística Para las Ciencias de la Vida
Los valores con que se han caracterizado las muestras anteriores, reciben el nombre
de estadísticos de posición o medidas de tendencia central.
Estos valores proporcionan una idea de los datos de la muestra y alrededor de ellos
tienden a agruparse todas las observaciones de la misma.
1 n
X= ∑Xi
ni=1
• Mediana: es aquel valor que verifica que la mitad de los datos de la muestra son menores o
iguales a él y la otra mitad son mayores o iguales a él. Se denota por M. Para calcularla se
debe necesariamente ordenar la muestra y encontrar el valor “central” de la misma como
sigue :
1. Si n es par
Xn /2 + Xn /2 +1
M=
2
es decir es el promedio de los valores ubicados en el centro de la muestra ordenada.
2. Si n es impar
- 34 -
Estadísticos
M=X(n+1)/2
es decir es el valor ubicado en el centro de la muestra ordenada.
2.2.1 Interpretación
2) El peso que más se repite es de 200 kg. (no necesariamente esto implica que la mayoría de
los animales pesen 200 kg.).
3) Hay 3 animales que pesan 200 kg. o menos y 3 animales que pesan más de 200 kg.
Aunque desde un punto de vista puramente descriptivo las tres medidas proporcionan
información complementaria, sus propiedades son muy distintas: la media utiliza todos los datos
y es, por tanto, preferible si los datos son homogéneos; tiene el inconveniente de que es muy
sensible a observaciones atípicas (un error en los datos o un valor anormal puede modificarla
notablemente). Por el contrario, la mediana utiliza menos información que la media (sólo tiene
en cuenta el orden de los datos y no su magnitud) pero, en contrapartida, no se ve alterada si
una observación o una pequeña parte de las observaciones son valores atípicos. En tanto que
la moda es el valor descriptivo más débil, ya que en algunos casos puede no existir o puede no
ser única; es útil cuando la variable es de tipo cualitativo ya que es el único estadístico de
posición que puede calcularse.
- 35 -
Introducción a la Estadística Para las Ciencias de la Vida
Ejemplo 4: Suponga que los pesos de dos muestras de 7 novillos de raza Charolais tratados
con la nueva dieta son:
Si se calculan los estadísticos de posición para cada una de ellas, se ve que son todos iguales
a 400 kg., específicamente
X 4 = X 5 = m4 = m5 = M4 = M5 = 400
A pesar de lo anterior si se observan los pesos de los animales, se puede decir que el
efecto de la nueva dieta no fue igual en las dos muestras, lo cual indica que no son suficientes
los estadísticos de posición para describir una muestra.
Lo que se desea es medir la diferencia que se visualiza entre las dos muestras, que en
realidad proviene de la variabilidad de las mismas. Para esto se calcula la diferencia entre el
valor máximo de la muestra (denotado por Xmax) y el valor mínimo (denotado por Xmin) , es
decir Xmax−Xmin , cuyo valor para cada muestra es:
400 kg. - 400 kg. = 0 kg. 600 kg. - 200 kg. = 400 kg.
Estos valores indican que en la primera muestra todos los datos son iguales, mientras
que en la segunda no lo son, y ahí sí se puede observar el efecto diferente de la nueva dieta en
los novillos de las dos muestras. En la primera muestra (donde todos los valores son iguales) la
diferencia es cero, en tanto que, en la segunda muestra (donde no todos los valores son
iguales) el valor de la diferencia es distinto de cero (positivo). Se definirán valores que tengan
precisamente esas características:
* que resulten 0 cuando todos los datos son iguales;
* que sean positivos cuando hay al menos uno diferente.
w = Xmax - Xmin
Este estadístico no utiliza toda la información de la muestra (sólo sus extremos), por
ello se proponen otras medidas de dispersión que sí la tienen en cuenta. Una de ellas surge en
considerando la diferencia de las observaciones con respecto a la media muestral: (X i )
−X .
Sin embargo, como ésta es una medida para cada observación y se quiere estudiar la
variabilidad de todos los valores de la muestra, se deberían sumar todas estas diferencias (en
n
símbolos, ( )
∑ X i − X ). Se puede comprobar que esta suma es siempre cero cualesquiera
i = 1
- 36 -
Estadísticos
sean los datos de la muestra, motivo por el cual no puede ser una medida de variabilidad.
Entonces basados en esta idea se define el siguiente estadístico de dispersión:
• Varianza: Es un valor que mide cuanto se desvían en promedio los datos de la media
2
muestral. Se lo denota con S y en notación matemática se lo expresa así
n
(
∑ Xi − X
i = 1
) 2
S2 =
n− 1
2
Observe que S vale cero cuando los datos son todos iguales y es mayor que cero
cuando al menos uno es diferente, con lo que se logra lo que se espera de una medida de
variabilidad, utilizando además todos los valores de la muestra.
Dado que este estadístico tiene las unidades de los datos elevadas al cuadrado, se
define otro estadístico que tiene la misma magnitud que los datos.
Por otra parte, si sólo se tiene acceso a la tabla de frecuencias agrupadas de los datos
la varianza (usando la marca de clase) se calcula como
1 k
~
S2 =
n− 1 i = 1
∑fi Xi − X ( ) 2
• Desviación Estándar: Este estadístico mide, al igual que la varianza, cuanto se desvían en
promedio los datos de la media muestral, pero con la misma magnitud que los datos. Se lo
expresa de la siguiente manera:
S = + S2
• Coeficiente de Variación: Es el estadístico de dispersión que mide la variabilidad de la
muestra independientemente de la magnitud de la media, o sea determina la variabilidad en
unidades de la media. Se lo denota con CV y se lo calcula como
S
CV = • 100
X
El coeficiente de variación es un número sin unidades de medida, generalmente
expresado en porcentaje. Esta ausencia de unidades es de gran utilidad cuando se desea
comparar la variabilidad de dos o más muestras.
2.3.1 Interpretación
- 37 -
Introducción a la Estadística Para las Ciencias de la Vida
2
S52 =
(200 − 400)2 + (300 − 400 )2 + 3.(400 − 400 )2 + (500 − 400 )2 + (600 − 400 ) = 16666.67kg 2
6
y S5 = 129.10 kg.
• w = 400 kg. significa que la diferencia entre los pesos del animal más pesado y más liviano
es 400 kg.
• S5 = 129.10 kg. significa que los pesos de los 7 animales se desvían aproximadamente
129.10 kg. del peso promedio.
• CV5 = 32.275 % significa que la variabilidad de los pesos relativa al peso promedio es
aproximadamente del 32%.
Ejemplo 5: Se sospecha que el peso de las ratas es más variable que el peso de los elefantes,
para lo cual se determinó el peso medio y la desviación estándar de los pesos de los animales
en estudio, los cuales resultaron:
X E = 10406.4 kg. SE =557.68 kg.
X R = 0.46 kg. SR = 0.07 kg.
Si se tiene en cuenta el valor de las desviaciones estándar puede parecer que los pesos
de los elefantes varían mucho más que los pesos de las ratas. Sin embargo al calcular el
coeficiente de variación para cada muestra se observa que
Si bien la media y la desviación estándar son las medidas descriptivas más comunes,
existen otras que proporcionan información adicional acerca de las características de un
conjunto de datos. Por ejemplo:
- 38 -
Estadísticos
150 650
Xmin Q1 M Q3 Xmax PESO
n
∑ (X i − X)(Yi − Y)
Cov(X, Y) = i =1
n −1
El inconveniente de la covarianza como medida de asociación es su dependencia de
las unidades de medida de las variables. Por ejemplo, la covarianza entre la altura y el peso es
200 (cuando las variables se miden en centímetros y gramos respectivamente) mientras que la
covarianza resulta 0.002 (cuando se expresa la altura en metros y el peso en kilogramos).
Éstos valores tan diferentes llevarían a pensar que las observaciones medidas en ciertas
magnitudes tienen una asociación lineal diferente que cuando se expresan en otras
magnitudes, lo cual es incorrecto. Para resolver esta dificultad se construye una medida
adimensional, dividiendo la covarianza por un término con sus mismas dimensiones, dando
lugar al siguiente estadístico:
- 39 -
Introducción a la Estadística Para las Ciencias de la Vida
Ejercicios de Aplicación
1.
Los datos de la tabla corresponden a dos muestras de salarios (en $) de los empleados
en dos establecimientos ganaderos:
c) Calcular los estadísticos que crea conveniente para reflejar lo observado en b).
Establecimiento A Establecimiento B
200 300
200 300
200 300
300 300
300 300
300 300
300 300
900 400
2.
a) Dar un ejemplo de:
i) una muestra de tamaño 5, con media 5 y dispersión nula;
ii) dos muestras con igual media y distinta varianza;
iii) una muestra de 7 datos de manera que el estadístico más representativo sea la
moda.
b) Si en una granja hay pollos cuyos pesos varían entre 2.8 kg. y 3.8 kg.:
i) ¿Puede el peso medio tomar los valores 2.1 kg. ó 4.2 kg. ?. ¿Por qué?.
ii) ¿Es posible que la varianza sea nula?.
- 40 -
Estadísticos
3.
En cada uno de los siguientes ejemplos decidir si es posible que los estadísticos tomen
los valores que se informan:
4.
En el Ejercicio 6 del Capítulo 1 se presentaron datos sobre la distribución del área
sembrada entre los años 83 y 87. ¿Para que cereal hubo mayor variabilidad de la
distribución del área sembrada ?.
5.
En el Ejercicio 4 del Capítulo 1 se presentaron los números de lechones por año para
cerdas de la raza Yorkshire holandés. Repitiendo la misma experiencia pero para 30
cerdas de la raza Landrase belga, se obtuvo el siguiente conjunto de datos:
a) Calcular los estadísticos que crea conveniente para mostrar las diferencias en el
comportamiento de la variable “número de lechones por año” para ambos grupos de
cerdas.
c) En base a los diagramas de cajas para los dos conjuntos de datos presentados,
discutir lo observado en los gráficos y relacionar con los estadísticos obtenidos en el
inciso a).
- 41 -
Introducción a la Estadística Para las Ciencias de la Vida
6.
Se seleccionaron un total de 30 muestras de 100 gramos de quesos Sbrinz
determinándose el contenido de vitamina B6 (en mcg.), obteniéndose la siguiente
muestra estadística:
93 170 92 96 84 73
96 100 97 95 80 95
95 90 120 94 97 96
98 86 78 94 96 95
97 87 76 92 98 96
a) Calcular los estadísticos que crea conveniente para reflejar el comportamiento de los
datos mostrado en el histograma.
- 42 -
Estadísticos
substanciales encuentra entre este nuevo gráfico y el histograma para las muestras
de queso Sbrinz?. Intuitivamente ¿cómo se reflejaría este cambio del
comportamiento de los contenidos de vitamina B6 en los estadísticos de posición y
dispersión?.
Frec. Relativa
Vitamina B6
7.
A fin de comparar los pesos de los huevos de tres líneas de ponedoras Leghorn blanca,
A, B y C, se tomaron 5 huevos de cada una de tales líneas, observándose los
siguientes valores (en gr.):
8.
Un equipo de investigadores intenta establecer alguna relación entre el consumo de
agua y el alimento de pollas Leghorn estándar colocadas en jaulas. Para ello se midió
durante varios días el consumo diario de alimento cada 100 pollas (en kilogramos) y el
consumo diario de agua cada 100 pollas (en libras). Los datos siguientes corresponden
a la muestra estadística:
A partir del siguiente resumen de los principales estadísticos para ambas muestras
realizar un informe, que usted crea conveniente, del comportamiento de los datos:
- 43 -