Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Marigliano UNT
1
MÓDULO 1 Raúl A. Marigliano UNT
la Estadística: el Teorema Central del Límite. Sin embargo, este tema sería
popularizado por un físico de su misma época: Johann C. F. Gauss. Al estudiar los
errores de medición cometidos en los experimentos, Gauss descubrió que mediciones
repetidas, bajo condiciones análogas, arrojan diferentes resultados, si los instrumentos
son lo suficientemente sensibles. A falta de una mejor explicación para el fenómeno,
atribuyó estas variaciones a la “casualidad”, y obtuvo en su estudio de errores una
curva teórica en forma de campana que lleva su nombre. La aplicación de la teoría de
errores en mediciones experimentales, les dio un carácter de tipo científico,
diferenciándolas de las investigaciones biológicas de ese entonces, que se limitaban a
describir y clasificar especies, sin entrar a controlar la repetición de fenómenos en
laboratorios.
Un discípulo de Laplace, Siméon D. Poisson, estableció en 1837 el desarrollo
matemático de la Ley de los Grandes Números, a partir de la cual comienza la
Inferencia Estadística. Además, estudiando la probabilidad binomial para los sucesos
raros, encuentra una función que lleva su nombre: Distribución de Poisson.
La contribución de la escuela rusa, se hizo en el campo de la teoría. Autores como
Chebishev, Markoff, Kintchine y otros, completaron la base matemática de la
Estadística y es en Rusia, a fines del siglo XIX, donde se publica por vez primera la
versión completa del Teorema Central del Límite, luego de casi un siglo de búsqueda.
Sir Francis Galton (1822-1911) introdujo un método matemático para el ajuste de
curvas a puntos experimentales: el método de mínimos cuadrados. Galton utilizó éste
método en sus estudios de la herencia de padres a hijos. La propuesta era que hijos
de padres más altos que el promedio de la población eran más bajos que sus padres;
viceversa, hijos de padres bajos, crecían más que sus progenitores. O sea, la
población humana, tiende al promedio de alturas en generaciones sucesivas. Por eso
al método se lo llama: Regresión.
El heredero de la cátedra de Galton y seguidor de sus trabajos, K.R. Pearson,
descubre la distribución chi cuadrado y funda la primer revista científica del tema:
Biometrika Donde los investigadores de la época publicaban sus descubrimientos,
como William S. Gosset que usaba el seudónimo de Student, y tal vez la figura más
grande del siglo en el tema: Ronald A. Fisher (1890-1962) creador del 50% de la
Bioestadística actual. Su método de Análisis de Varianza es la herramienta básica
para las investigaciones biológicas. Desarrolló la fórmula matemática de la función
imaginada por Gosset, a la que llamó distribución t de Student, que reemplazó en la
práctica al centenario método gaussiano.
Contribuciones posteriores como las del norteamericano George Snedecor con su
distribución F (por Fisher) completaron esta rama de la Estadística a principios de
siglo.
Durante el siglo XX, la creación de instrumentos precisos para programas de salud
pública (epidemiología, bioestadística, etc.) y propósitos económicos y sociales (tasa
de desempleo, econometría, etc.) necesitó de avances sustanciales en las prácticas
estadísticas.
Hoy el uso de la estadística se ha extendido más allá de sus orígenes como un
servicio al Estado o al gobierno. Es una herramienta que puede ser aplicada para
interpretar datos y tomar decisiones en un sinnúmero de disciplinas, abarcando las
ciencias naturales y sociales, medicina, negocios y otras áreas. Personas y diferentes
organizaciones usan la estadística, entendida generalmente no como una sub-área de
las matemáticas, sino como una ciencia diferente, “asociada”.
Es asimismo el vehículo que permite dirigir el proceso relacionado con la investigación
científica, siendo su campo de acción la medición de la incertidumbre.
2
MÓDULO 1 Raúl A. Marigliano UNT
1. Introducción
En nuestro trabajo cotidiano nos encontramos frente a situaciones en las que se deben
tomar decisiones en base a la observación de fenómenos. El análisis adecuado de una
observación es fundamental para la toma de decisiones y la resolución de situaciones
de incertidumbre. Por ejemplo un psicólogo debe implementar una terapia específica
luego de un estudio de un caso particular, el médico debe establecer medidas de
acción basado en el diagnóstico de una enfermedad, el gerente de producción de una
fábrica debe solucionar problemas del proceso productivo en base a observaciones de
defectos de los productos fabricados, el bioquímico debe decidir si los resultados
proporcionados por el laboratorio son confiables, es decir si cumplen con las normas
de precisión y exactitud implementadas en su sistema de control de calidad.
Un procedimiento objetivo para tomar decisiones en situaciones de incertidumbre
puede realizarse con la ayuda de las herramientas que nos otorga el análisis
estadístico. Sus fines son describir al conjunto de datos obtenidos, y tomar decisiones
o realizar generalizaciones acerca de las características de todas las posibles
observaciones bajo consideración.
Un estudio detallado sobre la estadística constituye un campo demasiado extenso
para enfocarlo desde todos sus aspectos. Sin embargo, en este primer curso, vamos a
desarrollar los procedimientos estadísticos que consideramos de mayor utilidad
práctica en el laboratorio clínico.
2. Conceptos y definiciones
2.1. Población y muestra
Cada situación implica una población diferente. Si el problema consiste en evaluar los
pesos al nacer de todos los niños en unidades asistenciales públicas de la provincia de
Buenos Aires, entonces los pesos al nacer de todos estos niños constituye la
población.
Si la finalidad de una investigación es determinar qué proporción de todas las
unidades producidas en cierto proceso de manufactura es defectuosa, entonces la
población consiste en las mediciones de calidad de todas las unidades obtenidas
mediante este proceso.
Las poblaciones se clasifican en dos categorías: finitas e infinitas
3
MÓDULO 1 Raúl A. Marigliano UNT
4
MÓDULO 1 Raúl A. Marigliano UNT
Podemos definir una muestra como una parte representativa de una población,
que se obtiene con el propósito de estimar las características de la totalidad.
Los rasgos de una muestra son similares a los de una población, pero por supuesto no
pueden ser idénticos, dependiendo la mayor o menor similitud, de la magnitud de la
muestra. Existen métodos estadísticos de selección de muestras que nos permiten
decidir que tamaño de muestra es representativo de la población.
En estadística vamos a usar frecuentemente el término “muestra aleatoria”:
Una muestra aleatoria es aquella que se obtiene de tal manera que cada posible
observación disponible en la población tenga una probabilidad igual de ser
seleccionada.
1
Este tema será desarrollado extensamente en el Módulo 3.
5
MÓDULO 1 Raúl A. Marigliano UNT
Es frecuente el uso de estas dos palabras como sinónimos. Si bien a veces esto es
correcto, conviene puntualizar la diferencia conceptual entre ambas.
6
MÓDULO 1 Raúl A. Marigliano UNT
Las categorías pueden ser naturales, por ejemplo sexo, o estado civil, o arbitrarias,
como clasificar a las plantas en hierbas, arbustos, árboles, etc.
El mas simple en este tipo de variables tiene sólo dos categorías posibles, por
ejemplo: masculino y femenino; o referirse a la presencia o ausencia de una
determinada cualidad, por ejemplo casado o soltero; empleado o desempleado,
negativo o positivo.
Son ejemplos de este tipo de variable: nivel docente alcanzado: Profesor, Jefe de
Trabajos Prácticos, Auxiliar docente; una evaluación en un examen clasificado en
categorías como: desaprobado, aprobado, sobresaliente; el puesto conseguido en una
prueba deportiva: 1°, 2°, 3°….; una prueba de laboratorio informada como positiva +,
++, +++, etc.
Las variables discretas son aquellas que surgen por conteo, en que sólo pueden
ser obtenidos números enteros.
7
MÓDULO 1 Raúl A. Marigliano UNT
Una magnitud continua se expresa mediante números reales. Las mediciones físicas
clásicas son el mejor ejemplo de este tipo de magnitudes: peso, altura, densidad,
temperatura, presión, etc.
Por ejemplo el peso de una persona puede expresarse como: 65; 65,4; 65,387 Kg
etc., dependiendo de la precisión de la balanza utilizada. La edad puede ser
expresada en años, meses, días, etc., por lo cual es también un ejemplo típico de
variable continua.
En general:
3. Escalas de Medición
Una medición consiste en el establecimiento de números o códigos a las
observaciones mediante el empleo de una escala apropiada.
8
MÓDULO 1 Raúl A. Marigliano UNT
9
MÓDULO 1 Raúl A. Marigliano UNT
10
MÓDULO 1 Raúl A. Marigliano UNT
El peso, la estatura y medidas de distancia, que tienen un cero natural, son ejemplos
de este tipo de escala. La escala de razón es de uso frecuente en química clínica, por
ejemplo en la determinación de la concentración de sustancia.
En una escala de razón, la existencia de un punto cero definido implica que se pueden
efectuar comparaciones proporcionales.
Cualquier operación matemática apropiada para números reales puede ser aplicada a
una escala de este tipo, debido a que la escala de razón satisface todas las
propiedades de los números reales.
Ejemplo 4.1
Se estudia la distribución de gérmenes aislados de orina en un determinado período,
en pacientes ambulatorios de ambos sexos. En la siguiente tabla se presenta un
listado hipotético donde se proporcionan las especies aisladas en 30 muestras* de
orina de pacientes ambulatorios.
11
MÓDULO 1 Raúl A. Marigliano UNT
*El término “muestra” tiene en este ejemplo, el significado habitual utilizado en los
laboratorios clínicos. En estadística, los 30 resultados corresponden a una muestra de
30 observaciones de la población.
Con estos datos podemos construir una tabla de frecuencias.
Especie aislada fa
Eschericha coli 14
Estafilococo coagulasa negativo 3
Klebsiella pneumoniae 5
Enterococo 2
Proteus mirábilis 3
Pseudomonas sp 2
Estafilococo coagulasa positivo 1
Total 30
12
MÓDULO 1 Raúl A. Marigliano UNT
13
MÓDULO 1 Raúl A. Marigliano UNT
Hacemos clic en siguiente y aparece esta ventana que nos permite asignar Títulos del
gráfico, del eje de categorías (x), y del eje de valores (y):
14
MÓDULO 1 Raúl A. Marigliano UNT
Le decimos a Excel donde queremos poner nuestro gráfico. En este caso hemos
seleccionado: “Como objeto en Hoja 1”
Hacemos clic en finalizar y obtenemos por último:
El gráfico obtenido se puede modificar en tamaño, colores, tipo de fuente, formato del
área de trazado, etc.
Finalmente, nuestro gráfico de barras (o columnas) es el siguiente:
14
Frecuencia absoluta
12
10
8
fa
6
0
li (- ) m. o is . +)
co g eu oc bil sp g(
ich
a oa n roc irá as oa
er h.c ap t e m mo
n h .c
ch ap ell En us ap
s St si ote do St
E eb Pr eu
Kl Ps
Especies
15
MÓDULO 1 Raúl A. Marigliano UNT
fa
fr
n
fr % 1 fr % 2 ...... fr % n 100
Especie aislada fa fr fr %
Eschericha coli 14 0,47 47
Estafilococo coagulasa (-) 3 0,10 10
Klebsiella pneumonie 5 0,17 17
Enterococo 2 0,07 7
Proteus mirabilis 3 0,10 10
Pseudomonas sp. 2 0,07 7
Estafilococo coagulasa (+) 1 0,03 3
Total 30 1 100
16
MÓDULO 1 Raúl A. Marigliano UNT
ESPECIES AISLADAS
50,00
40,00
Porcentaje
30,00
20,00
10,00
0,00
i )
l (-) . o
lis
. (+
co m oc sp
oa
g eu oc bi g
ha .c pn r irá as oa
r ic h la
te m on h.c
he ap el En s m ap
c St si eu do St
Es le
b r ot eu
K P Ps
Especie
Ejemplo 4.2
Se efectúan 50 determinaciones de sodio en un “pool” de sueros, en un período de
diez semanas. En la siguiente tabla se presentan los datos obtenidos:
17
MÓDULO 1 Raúl A. Marigliano UNT
Na Na Na Na Na
n n n n n
mmol/L mmol/L mmol/L mmol/L mmol/L
1 138,1 11 139,2 21 139,8 31 140,0 41 140,3
2 138,5 12 139,5 22 139,8 32 140,0 42 140,6
3 138,5 13 139,5 23 139,8 33 140,1 43 140,6
4 138,8 14 139,5 24 140,0 34 140,1 44 140,8
5 138,8 15 139,5 25 140,0 35 140,1 45 140,8
6 139,0 16 139,5 26 140,0 36 140,1 46 141,0
7 139,0 17 139,5 27 140,0 37 140,1 47 141,0
8 139,2 18 139,8 28 140,0 38 140,3 48 141,1
9 139,2 19 139,8 29 140,0 39 140,3 49 141,1
10 139,2 20 139,8 30 140,0 40 140,3 50 141,2
Sin embargo, esta primera forma de organización de datos resultaría engorrosa y poco
práctica si el número de mediciones fuera mucho mayor. Esta información puede ser
resumida en una tabla de frecuencias.
Una tabla de frecuencias para variables numéricas es una tabla que asocia cada
valor de la variable con la cantidad de veces que se observa dicho valor
fa
fr
n
18
MÓDULO 1 Raúl A. Marigliano UNT
Na fa fr Porcentaje
mmol/L
138,1 1 0,02 2,0
138.5 2 0,04 4,0
138,8 2 0,04 4,0
139,0 2 0,04 4,0
139,2 4 0,08 8,0
139,5 6 0,12 12,0
139,8 6 0,12 12,0
140,0 9 0,18 18,0
140,1 5 0,10 10,0
140,3 4 0,08 8,0
140,6 2 0,04 4,0
140,8 2 0,04 4,0
141,0 2 0,04 4,0
141,1 2 0,04 4,0
141,2 1 0,02 2,0
Por ejemplo la frecuencia absoluta acumulada para el valor 139,2 mmol/L es:
Fa (139,2) = 1 + 2 + 2 + 2 + 4 = 11
Na fa fr
mmol/l
Porcentaje Fa Fr
138,1 1 0,02 2,0 1 0.02
138.5 2 0,04 4,0 3 0.06
138,8 2 0,04 4,0 5 0.10
139,0 2 0,04 4,0 7 0.14
139,2 4 0,08 8,0 11 0.22
139,5 6 0,12 12,0 17 0.34
139,8 6 0,12 12,0 23 0.36
140,0 9 0,18 18,0 32 0.54
140,1 5 0,10 10,0 37 0.64
140,3 4 0,08 8,0 41 0.72
140,6 2 0,04 4,0 43 0.76
140,8 2 0,04 4,0 45 0.80
141,0 2 0,04 4,0 47 0.84
141,1 2 0,04 4,0 49 0.88
141,2 1 0,02 2,0 50 1.00
19
MÓDULO 1 Raúl A. Marigliano UNT
En la tabla 4.7 podemos observar que el valor que más frecuencia tiene es 140,0 que
representa un 18,0 % y que los resultados de menos frecuencia son 138,1 y 141,2 con
un 2,0 % cada uno. Podríamos ser más sofisticados y decir que el 52,0 % de los datos
(12 % + 12,0% + 18,0 % + 10,0 %) están comprendidos entre 139,5 y 140,1.
Podemos ver también que el mayor valor que toma la variable es 141,2 y el menor
valor es 138,1 por ello se dice que el rango es 141,2 – 138,1 = 3,2.
Definimos el Rango como la diferencia que existe entre el mayor y el menor valor
observado de la variable en estudio
Este gran intervalo (Rango) que contiene a todos los valores registrados, es decir,
representa la variabilidad total de los datos, puede dividirse en una serie de intervalos
más pequeños.
Se puede así construir una tabla de frecuencias donde en lugar de escribir los valores
originales de la variable, se los reemplaza por intervalos de valores, llamados “clases”.
Este arreglo de los datos expresando la frecuencia de observaciones en intervalos o
clases se conoce como distribución de frecuencias.
2. Idealmente, el valor del intervalo o “célula” debe ser igual para todas las clases.
Esto no es una constante, pues la cantidad de intervalos y la amplitud de cada
uno es arbitraria, y depende de los datos involucrados.
20
MÓDULO 1 Raúl A. Marigliano UNT
Una pregunta que podría surgir en este punto es: si un valor de la variable
“concentración de sodio sérico” es 140,0 mmol/L, en qué intervalo se debe ubicar?
Como se observa en la tabla de frecuencias, podría situarse en el cuarto o quinto
intervalo de clase. La respuesta a este problema es: ubicarlo en cualquiera de los
dos intervalos, pero siguiendo siempre el mismo agrupamiento a través de todo
el proceso. Esto significa que si se decide ubicarlo en el cuarto intervalo, un valor de
139,0 mmol/L se ubicará en el segundo intervalo, y un valor de 141,0 mmol/L se debe
ubicar en el sexto intervalo.
Esta tabla muestra que los datos agrupados se concentran más o menos
simétricamente alrededor de un intervalo central que corresponde a la clase con más
frecuencia: 139,5-140,0 (Frecuencia absoluta: 15 – Frecuencia relativa 30,0 %). Este
intervalo se denomina intervalo modal.
4.3.1. Histograma
El Histograma se utiliza para graficar datos cuantitativos continuos, resumidos en
tablas de distribución de frecuencias. En el eje de las abscisas se representa la
variable que se estudia, con los datos agrupados en clases, y en el eje vertical el
número de observaciones por cada clase, es decir la frecuencia correspondiente a
21
MÓDULO 1 Raúl A. Marigliano UNT
cada intervalo. Las frecuencias de clase se representan por las alturas de las barras y
éstas se trazan adyacentes entre sí.
Para el trazado se procede de la siguiente forma: el intervalo Nº 1 (138,0-138,5) tiene
una frecuencia = 3. Comenzando en el límite inferior de este intervalo (138,0), se traza
un rectángulo con base en el eje “x”, de una altura igual a la frecuencia (3) y de una
longitud (ancho) igual a la célula de la clase: 0,50. Se procede de igual forma con el
resto de clases y frecuencias.
Este tipo de histograma es el que encontraremos usualmente y corresponde a una
población Normal o Gaussiana.
En un mismo sistema de ejes, sólo puede situarse un histograma con claridad, lo que
limita su uso con fines comparativos.
22
MÓDULO 1 Raúl A. Marigliano UNT
Con el objeto de no dejar cortada la gráfica en los extremos, se supone que existen
dos intervalos más: uno anterior al primero, y otro posterior al último,
correspondiéndoles a cada uno de ellos una frecuencia = 0
23
MÓDULO 1 Raúl A. Marigliano UNT
Polígono de frecuencias
16
14
Frecuencia absoluta
12
10
8
6
4
2
0
137 138 139 140 141 142
Na m m ol/L
HISTOGRAMA
A continuación insertamos en una nueva columna (B) las clases en las que se dividen
los datos. Estas deben incorporarse como valores numéricos en forma creciente,
ingresando solo el límite superior de cada intervalo o clase:
24
MÓDULO 1 Raúl A. Marigliano UNT
25
MÓDULO 1 Raúl A. Marigliano UNT
Pulsamos la tecla roja del cuadro Rango de entrada, y seleccionamos las celdas que
contienen la información de los valores de concentración de sodio: A1:A51.
En Rango de clases seleccionamos las clases: B1:B8.
Seleccionando la opción Rótulos, el programa considera que en la primera celda del
rango seleccionado se encuentra el título del conjunto de datos.
En Opciones de salida, se ha seleccionado que los resultados sean entregados “En
una hoja nueva”. La opción de Pareto (Histograma ordenado en forma descendente en
función de la frecuencia de resultados) no ha sido seleccionada en este caso.
Al elegir Porcentaje acumulado, estamos informando que queremos conocer la
Frecuencia Acumulada de los resultados, y con la opción de Crear gráfico elegimos la
opción de poder observar los resultados en forma gráfica.
26
MÓDULO 1 Raúl A. Marigliano UNT
Al aceptar estas opciones, se abre una nueva hoja dentro del mismo libro con el
siguiente cuadro:
Vemos que Excel nos proporciona además del histograma*, un gráfico de puntos
unidos por líneas, que representan las frecuencias acumuladas por debajo de las
fronteras superiores de cada clase. Este gráfico se denomina Ojiva o Polígono de
frecuencias acumuladas “menor que”, por la forma de acumular las frecuencias. La
escala vertical de la derecha indica las frecuencias acumuladas en porcentaje. Puede
verse que el 34% de los datos son iguales o menores a 139,5 mmol/L, o que el 82%
de los resultados son 140,5 mmol/L o menos.
* Vemos que el histograma se presenta como barras separadas, cuando en realidad,
al tratarse de una variable continua, la representación lógica es a través de barras
adyacentes. Excel 2007 permite definir esta situación, pudiéndose optar por barras
separadas, “distancia” de la separación, y/o barras adyacentes.
27
MÓDULO 1 Raúl A. Marigliano UNT
POLÍGONO DE FRECUENCIAS
El polígono de frecuencias puede graficarse con Excel, siguiendo los pasos vistos en
el ejemplo 4.1.
Comenzamos introduciendo los datos de la tabla 4.9 en la hoja de cálculos:
28
MÓDULO 1 Raúl A. Marigliano UNT
Hacemos clic en siguiente y se abre una ventana que nos permite asignar Títulos del
gráfico, del eje de categorías (x), y del eje de valores (y):
29
MÓDULO 1 Raúl A. Marigliano UNT
Le decimos a Excel donde queremos poner nuestro gráfico. En este caso hemos
seleccionado: “Como objeto en la Hoja rotulada “Polígono de frecuencias”, donde
hemos introducido los datos.
Hacemos clic en finalizar y por último obtenemos:
Resulta conveniente incluir líneas de división en ambos ejes, para crear una cuadrícula
con un espaciado acorde con los valores de las frecuencias y marcas de clase, y
poder visualizar los puntos con la mayor aproximación posible.
Para ello se hace clic con el botón derecho del Mouse dentro del área del gráfico, y se
selecciona: opciones del gráfico:
30
MÓDULO 1 Raúl A. Marigliano UNT
31
MÓDULO 1 Raúl A. Marigliano UNT
Polígono de frecuencias
16
Frecuencia absoluta
14
12
10
8
6
4
2
0
137 138 139 140 141 142
Na mmol/L
OJIVA
Si queremos utilizar Excel para graficar sólo la Ojiva, se debe introducir en una hoja de
cálculos una tabla de valores que debe contener los límites superiores de cada clase y
la frecuencia acumulada correspondiente. Se incluye el límite inferior de la primera
clase (138) que tiene una frecuencia acumulada = 0:
32
MÓDULO 1 Raúl A. Marigliano UNT
Límites de clase
33
MÓDULO 1 Raúl A. Marigliano UNT
x
x i
u
x i
Ejemplo 5.1
La siguiente tabla muestra mediciones de colesterol en una muestra de 30 pacientes
dislipémicos con valores iniciales > 250 mg/dL, sometidos a una dieta vegetariana
durante 1 año:
34
MÓDULO 1 Raúl A. Marigliano UNT
Luego de apretar Enter, sabremos cual es el promedio de esta muestra: 194,3 mg/dL
(en la celda A32 se ha rotulado “MEDIA”)
35
MÓDULO 1 Raúl A. Marigliano UNT
Pulsamos Aceptar y se abrirá una nueva ventana en la que incorporaremos los datos
que tenemos ingresados:
La opción “Agrupado por”, se refiere a la forma en que han sido cargados los datos en
la planilla, en este caso debe seleccionarse Columnas.
Debe seleccionarse la opción Rótulos en la primera fila, ya que en la celda B1 se ha
ingresado el título respectivo.
36
MÓDULO 1 Raúl A. Marigliano UNT
También deben definirse las Opciones de Salida, en este caso le pedimos a Excel que
nos arroje los resultados “En una hoja nueva”
Para obtener el resultado que necesitamos debemos seleccionar la opción Resumen
de estadísticas. Si quisiéramos conocer también cual es el mayor valor obtenido, y
cuál es el menor, marcamos K-ésimo mayor y K-ésimo menor.
Haciendo clic en Aceptar, se abre una nueva hoja de Microsoft Excel, con la siguiente
estructura:
De todos los resultados ofrecidos por Excel, nos interesa por ahora sólo el de la
media, en la primera fila de datos, que como vemos es el mismo que el obtenido a
través de la Función Promedio.
37
MÓDULO 1 Raúl A. Marigliano UNT
A partir de los valores de esta tabla, puede calcularse la media con la expresión:
x
x i fa ( x i )
n
Colesterol mg/dL fa fa . x i
169 1 169
170 1 170
172 1 172
174 1 174
175 1 175
180 1 180
181 1 181
182 2 364
183 1 183
185 1 185
187 1 187
189 1 189
190 1 190
191 2 382
193 1 193
195 3 585
199 1 199
200 1 200
204 2 408
205 1 205
209 1 209
211 1 211
215 2 430
289 1 289
Total 30 5830
38
MÓDULO 1 Raúl A. Marigliano UNT
5830
La media aritmética será: x 194,3 mg/dL
30
En el caso de tener una tabla de distribución de frecuencias con los datos agrupados
en intervalos de clase, el cálculo de la media es un promedio ponderado, que se
obtiene multiplicando el punto medio de cada intervalo por el número de
observaciones que abarca ese intervalo (frecuencia absoluta).
x
x j . fa ( x j )
n
La siguiente es una tabla de frecuencias para los datos de la Tabla 5.1, donde se ha
eliminado el dato del paciente 10. El rango (46) se redondeó a 48 y se dividió en 6
clases de 8 mg/dL:
39
MÓDULO 1 Raúl A. Marigliano UNT
( x i x)0
xi x Desviación
8 – 7,6 0,4
3 – 7,6 - 4,6
5 – 7,6 - 2,6
12 – 7,6 4,4
10 – 7,6 2,4
0
Nº de
hijos ( x i )
fa x i . fa
3 10 30
4 6 24
2 2 4
5 1 5
6 1 6
Total 20 69
40
MÓDULO 1 Raúl A. Marigliano UNT
x
x i . fa
69
3 ,45
n 20
Esto significa que la familia promedio es la que presenta entre 3 y 4 hijos. El valor 3,45
es el resultado matemático del cálculo de la media, sin embargo no es un valor
posible de la variable, por su propia definición.
MG n ( x 1 ) ( x 2 ) ( x 3 ) .... ( x n )
log MG
log x i
n
Es decir, el logaritmo de la media geométrica es igual a la media aritmética de los
logaritmos de las observaciones.
Ejemplo 5.2
Los siguientes valores (expresados como porcentajes) proporcionan la concentración
de anticuerpos en suero sanguíneo de ocho adultos sanos:
MG 10 0 ,167 = 1,47
5.1.3. Mediana
Es el valor que queda en la parte central de un grupo de observaciones ordenadas por
magnitud creciente, es decir, la mitad de los datos son menores y la otra mitad
41
MÓDULO 1 Raúl A. Marigliano UNT
mayores que ella. De acuerdo a esta definición, la mediana no puede calcularse para
variables medidas en escala nominal.
Se simboliza con Me, Md ó M, pero no tiene un símbolo convencional.
Para calcular la mediana de un conjunto de observaciones, lo primero que debe
hacerse es ordenarlos de menor a mayor. Si el número de datos es impar, la mediana
es el valor que está ubicado en el centro. Si se tiene un número par de mediciones, la
mediana se calcula como el promedio entre los dos valores centrales. La posición de
la mediana en un conjunto de datos puede calcularse:
n1
Posición de la mediana
2
Como tenemos un número reducido de datos, se puede ver fácilmente que el valor
central es el dato Nº 4, por lo tanto:
Me = 32
7 1
4
2
22 25 28 32 35 36 38 43
32 35
Me 33,5
2
Si aplicamos la fórmula para conocer que posición tiene la mediana en este caso:
8 1
4,5
2
El valor 4,5 indica que la mediana se ubica entre el cuarto y quinto lugar, exactamente
en el centro de ambos valores, y se calcula como vimos, promediando estos valores.
42
MÓDULO 1 Raúl A. Marigliano UNT
Este valor indica que la mitad de los pacientes observados tiene un resultado de
colesterol más bajo a 191 mg/dL, y la otra mitad tiene un resultado más alto.
Donde:
n/2 = semisuma del total de frecuencias absolutas (o del total de datos)
Fi 1 = es la mayor de las frecuencias acumuladas que no supera a n/2
Tomando el ejemplo de la tabla 5.3, donde hemos incluido una tercera columna con el
cálculo de la frecuencia acumulada:
43
MÓDULO 1 Raúl A. Marigliano UNT
Fi = 17
Li = 185
ai = 8
El cálculo de la mediana es:
14 ,5 11
Me 185 8 189 ,7 mg / dL 190 mg/dL
17 11
Propiedades de la mediana:
44
MÓDULO 1 Raúl A. Marigliano UNT
De este resultado se concluye que el resultado que más veces se repite en la muestra
de 30 pacientes es 195 mg/dL.
Algunas veces, existen observaciones que se repiten igual número de veces en un
conjunto de datos. Por ejemplo, consideremos los valores:
10 3 10 12 9 7 9 7 10 8 6 7
A esto se le llama distribución bimodal, debido a que hay dos modas en la serie de
datos correspondientes a los valores 7 y 10, cada uno con frecuencia 3.
Si construimos una tabla de frecuencias, tenemos:
Datos fa
3 1
6 1
7 3
8 1
9 2
10 3
12 1
La moda es un buen indicador del centro de los datos sólo si hay una frecuencia
dominante. Cuando se da el caso de una distribución bimodal, se puede interpretar
que se están considerando dos distribuciones unimodales.
También puede ocurrir que todos los valores sean el modo, debido a que cada uno
de ellos se presenta igual número de veces.
45
MÓDULO 1 Raúl A. Marigliano UNT
Algunos autores calculan la moda como el punto medio de los límites del intervalo
modal, en este caso:
139 ,5 140
139 ,8 140 mmol / L
2
f1
Moda Li a i
f1 f2
Li = 139,5
a i = 0,5
f 1 = 15 – 10 = 5
f 2 = 15 – 9 = 6
46
MÓDULO 1 Raúl A. Marigliano UNT
5
Moda 139 ,5 0 ,5 139 ,7 140 mmol / L
56
Propiedades de la moda:
Ejemplo 5.3
Supongamos que una empresa de venta de productos para diagnóstico, tiene
catalogados a los laboratorios de un determinado distrito de acuerdo a los siguientes
parámetros:
47
MÓDULO 1 Raúl A. Marigliano UNT
Índice de
Laboratorio Zona Facturación
jerarquía
A 1 4 19.000
B 2 3 20.000
C 2 5 40.000
D 4 1 10.000
E 3 4 22.000
F 4 2 13.000
G 4 5 35.000
H 5 4 17.000
I 3 1 13.500
J 2 2 11.000
Si observamos las tres variables (zona, índice de jerarquía, facturación), parecería que
puede calcularse en todos los casos, la media, la mediana y la moda.
Sin embargo, en las variables zona y jerarquía, algunas de estas medidas no
proporcionan un resultado que sea de utilidad. Por ejemplo, no tiene ninguna
interpretación lógica decir que la media aritmética de las zonas es 3, debido a que la
variable categórica zona no está medida en una escala numérica, sino en una escala
nominal.
Cuando se analiza este tipo de variable, la única medida de posición que tiene sentido
es la moda. Es apropiado decir que la zona 2 (Moda) es la que concentra mayor
cantidad de laboratorios.
Si consideramos la variable Índice de jerarquía, también la moda es una medida
comprensible. En el ejemplo, podemos decir que hay más laboratorios con Índice de
jerarquía 4. Esta variable, definida como un índice, es una variable categórica ordinal,
pero no numérica, pues no indica en que grado es más jerárquico un laboratorio de
índice 5 comparado con uno de índice 3.
En este caso también se puede calcular la mediana que es 3,5. Su única interpretación
sería que la mitad de los laboratorios tiene una jerarquía mayor que 3,5 y que la otra
mitad tiene un valor menor a 3,5.
48
MÓDULO 1 Raúl A. Marigliano UNT
Con respecto al modo, al tener cada uno de los valores de la variable la misma
frecuencia (1), no existe un valor modal.
La distribución (a) tiene la cola del lado izquierdo más prolongada que la de la
derecha, y recibe el nombre de distribución asimétrica hacia la izquierda, o distribución
con sesgo negativo. La media es menor que la mediana y la moda.
La distribución (b) es una distribución simétrica, pues las frecuencias a ambos lados
de las medidas de posición son iguales. Las tres medidas de tendencia central
coinciden.
En la distribución (c) la cola del lado derecho es más larga que la de la izquierda, y se
denomina distribución asimétrica hacia la derecha, o distribución con sesgo positivo.
La media es mayor que la mediana y la moda.
Las siguientes reglas ayudan a decidir la medida de tendencia central que conviene
utilizar para un conjunto determinado de datos:
49
MÓDULO 1 Raúl A. Marigliano UNT
CUARTILES
Son valores de la variable que dividen al conjunto de datos ordenados de menor a
mayor, en cuatro grupos que contienen igual cantidad de datos. Se simbolizan con Q.
Hay tres cuartiles (Q1, Q2 y Q3) que dividen a un conjunto de datos en cuatro
partes iguales.
Los cuartiles determinan los valores correspondientes al 25 %, 50 % y 75 % de los
datos.
Ejemplo 5.4
Se han registrado mediciones de un material de control para glucosa, obteniéndose los
siguientes valores (mg/dL) ordenados de menor a mayor en 10 días consecutivos:
50
MÓDULO 1 Raúl A. Marigliano UNT
156 157
Me = Q2 = = 156,5 mg/dL
2
El primer cuartil, divide a la primera mitad de la serie en dos partes iguales, por lo que
Q1 se ubicará en el 3° valor de la serie. Aplicando la expresión anterior:
10 1
Posición del Q1 0 ,5 3
4
Q1 = 154 mg/dL
Esta medida nos indica que el 25% del conjunto de datos mide menos que 154 mg/dL,
y el 75 % mide más que 154 mg/dL
De igual forma, el Q3 divide a la segunda mitad de datos en dos partes iguales:
10 3
Posición del Q 3 0 ,5 8
4
O sea:
Q3 = 157 mg/dL
Este valor indica que el 75% de las mediciones del control está por debajo de 157
mg/dL, y el 25% son mayores a 157 mg/dL.
DECILES
Análogamente a los cuartiles, los deciles son valores de la variable que dividen al
conjunto de datos ordenados de menor a mayor, en diez grupos que contienen igual
cantidad de datos. Se simbolizan con D.
Hay 9 deciles (D1, D2 … D9) que dividen a un conjunto de datos en diez partes
iguales
51
MÓDULO 1 Raúl A. Marigliano UNT
Los deciles son los valores correspondientes al 10 %, 20 %,...., y al 90 % de los
datos.
El quinto decil coincide con el segundo cuartil y la mediana. En general, para el cálculo
de la posición de los deciles, se utiliza la siguiente expresión:
PERCENTILES
Son valores de la variable que dividen al conjunto de datos ordenados de menor a
mayor, en cien grupos que contienen igual cantidad de datos. Se simbolizan con P.
Hay 99 percentiles (P1, P2 … P99) que dividen a un conjunto de datos en cien partes
iguales
Los tres cuartiles, Q1, Q2 y Q3, coinciden con los percentiles 25, 50 y 75. La mediana
es el percentil número 50.
Para el cálculo de la posición de los percentiles se utiliza una expresión similar que las
anteriores:
Los percentiles tienen el mismo significado que los cuartiles. Así cuando se habla del
percentil 20, se quiere expresar que es el valor de la variable que deja el 20% de los
datos a la izquierda y el 80% a su derecha.
El uso más frecuente de los percentiles es para la comparación de un valor individual
con normas establecidas. Se emplean de manera extensa para desarrollar e
interpretar tablas de crecimiento físico en pediatría y en mediciones de destreza e
inteligencia.
También se utilizan para determinar valores o límites de referencia en laboratorios
clínicos. Los valores de referencia se establecen entre los percentiles 2,5 y 97,5, de
modo que estos límites contienen el 95% central de la distribución de mediciones de
una determinada magnitud.
52
MÓDULO 1 Raúl A. Marigliano UNT
Na Na Na Na Na
Nº Nº Nº Nº Nº
mmol/L mmol/L mmol/L mmol/L mmol/L
1 138,1 11 139,2 21 139,8 31 140,0 41 140,3
2 138,5 12 139,5 22 139,8 32 140,0 42 140,6
3 138,5 13 139,5 23 139,8 33 140,1 43 140,6
4 138,8 14 139,5 24 140,0 34 140,1 44 140,8
5 138,8 15 139,5 25 140,0 35 140,1 45 140,8
6 139,0 16 139,5 26 140,0 36 140,1 46 141,0
7 139,0 17 139,5 27 140,0 37 140,1 47 141,0
8 139,2 18 139,8 28 140,0 38 140,3 48 141,1
9 139,2 19 139,8 29 140,0 39 140,3 49 141,1
10 139,2 20 139,8 30 140,0 40 140,3 50 141,2
50 50 140 140
Posición del P50 0,5 25,5 P50 140 = Q2 = Me
100 2
50 75
Posición del P75 0,5 38 P75 = 140,3 = Q3
100
53
MÓDULO 1 Raúl A. Marigliano UNT
Este valor indica que el 80% de los datos son menores o iguales a 140,3 mmol/L y el
20% restante, iguales o mayores a 140,3 mmol/L.
Obsérvese que el valor 140,3 es el mismo que habíamos calculado en el punto
anterior para el percentil 75. Esto es así, pues el valor 140,3 se repite 4 veces en la
serie de datos, ocupando las posiciones 38, 39, 40 y 41.
Algunos autores utilizan para el cálculo de la posición de fractiles las siguientes
expresiones:
50 75
Posición del P75 37 ,5
100
Lo que significa que el valor buscado se encuentra entre el dato 37 y 38, es decir:
140 ,1 140 ,3
P75 140 ,2 mmol / L
2
54
MÓDULO 1 Raúl A. Marigliano UNT
51 75
Posición del P75 38 ,25
100
140 ,3 140 ,3
P75 140 ,3 mmol / L
2
Microsoft Excel nos permite además recurrir a la herramienta Análisis de datos para el
cálculo de percentiles. La utilización de esta herramienta de Excel, ofrece una gran
utilidad en la interpretación de datos que surgen de mediciones realizadas para
evaluar puntajes en pruebas de capacidad, destreza e inteligencia. Esta función
permite establecer un umbral de aceptación.
Por ejemplo, se podrá examinar a los candidatos cuya calificación sea por ejemplo,
superior al nonagésimo percentil, o menor al quincuagésimo percentil.
Ejemplo 5.5
Supongamos que se desea establecer un orden de mérito entre 20 inscriptos al curso
de estadística en base al puntaje obtenido en la evaluación final del curso. La prueba
de evaluación consiste en 20 preguntas, cada una de las cuales tiene asignado un
puntaje de 5 puntos, de manera que el puntaje máximo para todas las respuestas
correctas es 100. Se desea seleccionar los inscriptos cuya calificación sea igual o
mayor al P50, que tendrán la posibilidad de acceder a un curso de nivel superior.
55
MÓDULO 1 Raúl A. Marigliano UNT
Haciendo clic en Aceptar, se abre la siguiente ventana, que completamos con los
datos del ejercicio.
56
MÓDULO 1 Raúl A. Marigliano UNT
57
MÓDULO 1 Raúl A. Marigliano UNT
Los inscriptos cuyo puntaje es igual o mayor al quincuagésimo percentil, son los
jerarquizados con 1, 3, 4, 6 y 8, es decir 9 de los 20 inscriptos, lo que representa un
45% del total.
Si calculamos la media, en ambos casos es 190. Pero se puede observar que el valor
190 describe mejor al primer conjunto de datos, pues los tres valores son más
parecidos entre sí, y a su vez más parecidos al promedio que cuando se observa el
segundo conjunto de datos.
58
MÓDULO 1 Raúl A. Marigliano UNT
5.2.1. Rango
Es una medida de la amplitud total de la variación. Recordemos que ya hablamos del
rango cuando calculamos intervalos de clase en una variable continua.
Se denomina rango a la diferencia entre el valor más alto y el más bajo de una serie
de datos. Se simboliza con R:
R xmax xmin
196 – 184 = 8
d i xi x
59
MÓDULO 1 Raúl A. Marigliano UNT
Si lo que se desea es tener una medida de la forma en que cada valor de la variable
se dispersa alrededor de la media, sería una buena idea calcular una medida que
resuma las desviaciones, que podría ser la desviación promedio o media de las
desviaciones. En símbolos sería:
Desviación promedio
x i x
n
d1 = 189 – 190 = 1
d2 = 190 – 190 = 0
d3 = 191 – 190 = 1
= 0
d1 = 184 – 190 = 6
d2 = 190 – 190 = 0
d3 = 196 – 190 = 6
= 0
Si quisiéramos comparar las dispersiones de ambas muestras aplicando la expresión
del promedio de las desviaciones, nos encontramos que en ambos casos el resultado
de sumar cada desviación con su signo es = 0
Lo que acabamos de comprobar, es una de las propiedades de la media aritmética ya
vista, que dice que la suma de las desviaciones de cada valor de la variable con
respecto a la media aritmética es = 0:
( x i x)0
Esto significa que el valor de esta medida sería siempre cero. Este problema puede
solucionarse de dos formas: sumando los valores absolutos de las desviaciones, o
elevando el cuadrado cada desviación antes de sumarlas.
Si consideramos el valor absoluto de las desviaciones, podemos definir lo que se
conoce como desviación media. Se simboliza con d ó Dm:
En el ejemplo citado sería:
101
d1 0 ,67
3
60
MÓDULO 1 Raúl A. Marigliano UNT
606
d2 4
3
La desviación media mide entonces el promedio de los valores absolutos de las
diferencias entre los valores observados respecto a la media de su grupo.
Se expresa como:
d
x i x
ó d
d i
n n
x x
2
i
s
n1
con y se calcula:
( x i )2
N
61
MÓDULO 1 Raúl A. Marigliano UNT
Ejemplo 5.6
Como ejemplo para cálculo, consideraremos el calibrado de una pipeta de 10 mL. Para
hacer esta experiencia, se pesa un pequeño matraz con su tapón, y se vierte en él,
mediante la pipeta que se quiere calibrar, un volumen de 10 mL de agua destilada. Se
tapa el matraz, y se pesa nuevamente. Se mide también la temperatura del agua para
establecer su densidad. Luego se calcula el peso del agua por diferencia entre las dos
pesadas; dividiendo esta diferencia por la densidad del agua se encuentra el volumen
vertido por la pipeta.
En la tabla 5.6 se muestran los datos que resultan de repetir la experiencia veinte
veces:
Para realizar el cálculo de la desviación estándar de esta muestra con Microsoft Excel
en primer lugar debemos incorporar los datos en una columna, de la misma forma que
en el ejercicio para el cálculo de media, mediana y modo:
62
MÓDULO 1 Raúl A. Marigliano UNT
Si repetimos los pasos llevados a cabo para encontrar la media: Menú Herramientas
Análisis de datos Estadística descriptiva, Excel nos devolverá el siguiente
cuadro:
63
MÓDULO 1 Raúl A. Marigliano UNT
Siempre será un valor positivo, o cero en el caso de que las observaciones sean
iguales
5.2.4. Varianza
La varianza es el cuadrado de la desviación estándar. La varianza muestral se
simboliza con s 2 , y la varianza poblacional con 2 . Las fórmulas de cálculo surgen
elevando al cuadrado las expresiones matemáticas de las desviaciones estándar
respectivas:
x x x
2 2
2 i 2 i
s
n1 N
64
MÓDULO 1 Raúl A. Marigliano UNT
s
DER
x
s
CV 100
x
0 ,072736
CV 100 0 ,73 %
9 ,9822
65
MÓDULO 1 Raúl A. Marigliano UNT
Ejemplo 5.7
La presión sistólica (ps) presenta en un grupo de pacientes con arteriosclerosis una
media de 130 mm Hg, y una varianza de 15 (mm Hg)2. Para los mismos individuos se
ha registrado la concentración de colesterol (col), obteniendo una media de 2,40 g/L y
una varianza de 0,12 (g/L)2. Cuál de las dos distribuciones presenta mayor
variabilidad?
15
CV ps 100 2 ,98%
130
0 ,12
CV col 100 14 ,4%
2 ,40
66
MÓDULO 1 Raúl A. Marigliano UNT
Si consideremos los datos del ejemplo 5.1, con los datos ordenados de menor a
mayor:
A partir de estos datos podemos construir una tabla de frecuencias. Para ello el rango
(120) se redondeó a 130 y los datos se agruparon en clases de 10 mg/dL de
amplitud*:
Clases fa
165-175 5
175-185 6
185-195 9
195-205 5
205-215 4
215-225 0
225-235 0
235-245 0
245-255 0
255-265 0
265-275 0
275-285 0
285-295 1
67
MÓDULO 1 Raúl A. Marigliano UNT
Histograma
10
8
Frecuencia
0
175 195 215 235 255 275 295
Clases
Histograma
10
8
Frecuencia
0
175 195 215 235 255 275 295
Clases
68
MÓDULO 1 Raúl A. Marigliano UNT
Como veremos más adelante, la inferencia estadística supone que los valores de la
variable fluctúan simétricamente alrededor del valor central, y por lo tanto se presume
que la distribución de frecuencias responde al siguiente modelo gráfico:
Sin embargo, este modelo teórico no ocurre con frecuencia en el trabajo cotidiano. Por
ejemplo, vimos que las mediciones de concentración de anticuerpos séricos en grupos
diferentes pueden expresarse aproximadamente como una distribución log-normal, es
decir el logaritmo de las concentraciones sigue una distribución aproximadamente
simétrica. Es aún más interesante comprobar que las mediciones repetidas sobre un
único material de ensayo (por ejemplo un calibrador), pueden presentar distribuciones
con colas acusadas como consecuencia de la presencia de valores anómalos, o por la
superposición de dos distribuciones normales con igual media, pero con una
desviación estándar significativamente más grande en una de las distribuciones.
El análisis exploratorio de datos (AED) también llamado análisis inicial de datos (AID)
ha ganado mucha popularidad desde la aparición del libro “Exploratory Análisis Data”
de Tukey.
La perspectiva del análisis exploratorio de datos centra su atención en la utilización de
índices resistentes frente a la utilización de índices clásicos a la hora de describir una
variable cuantitativa en el caso en que ésta tenga una distribución asimétrica, o bien
presente valores alejados. Vimos que los índices descriptivos clásicos por excelencia,
la media aritmética y la desviación estándar, cambian sustancialmente su valor ante la
presencia de datos anómalos, lo que los convierte en índices poco resistentes. En
cambio, los índices descriptivos resistentes se caracterizan por ser insensibles a
valores extremos, orientando su aplicación en el grupo central de los datos.
69
MÓDULO 1 Raúl A. Marigliano UNT
Q1 Q 3 P25 P75
Q Q
2 2
30 1
Posición del Q 1 0 ,5 8 Q 1 182 mg / dL
4
30 3
Posición del Q 3 0 ,5 23 Q 3 204 mg / dL
4
182 204
Q 193 mg / dL
2
TRIMEDIA
70
MÓDULO 1 Raúl A. Marigliano UNT
Me Q
TRI
2
Q 1 2 Me Q 3 P25 2 Me P75
TRI ó TRI
4 4
En nuestro ejemplo:
182 2 191 204
TRI 192 mg / dL
4
RI Q 3 Q1
RI 204 182 22 mg / dL
Este valor indica que el 50% central de la distribución tiene un rango o recorrido de 22
mg/dL.
71
MÓDULO 1 Raúl A. Marigliano UNT
COEFICIENTE DE CURTOSIS
Este coeficiente compara la distribución de frecuencia de una variable con una
distribución teórica perfectamente simétrica, llamada distribución normal.
72
MÓDULO 1 Raúl A. Marigliano UNT
Si en cambio tomamos como ejemplo los datos de la tabla 4.4, tenemos una
distribución mesocúrtica, puesto que K es prácticamente cero:
COEFICIENTE DE ASIMETRÍA
Una distribución perfectamente simétrica presenta un solo valor modal, y luego decae
a ambos lados, mostrando igual frecuencia para valores equidistantes:
73
MÓDULO 1 Raúl A. Marigliano UNT
A su vez, una distribución con sesgo negativo tiene una media menor a la mediana. El
histograma presenta una cola más larga a la izquierda de la distribución, por eso se la
conoce como sesgada a la izquierda:
74
MÓDULO 1 Raúl A. Marigliano UNT
3 x Me
SK
s
3 194 ,3 191
SK 0 ,44
22 ,1
n x i x 3
n 1n 2
As
s
75
MÓDULO 1 Raúl A. Marigliano UNT
Lo que indica, igual que en el cálculo con el coeficiente de Pearson, que la distribución
es asimétrica positiva.
Si tomamos como ejemplo los datos de la tabla 4.4, tenemos una distribución
asimétrica negativa:
76
MÓDULO 1 Raúl A. Marigliano UNT
Ejemplo 6.1
Si tuviéramos los siguientes datos numéricos ordenados de menor a mayor:
11 11 13 15 19 21 21 21 22 23 26 27 31 33 34 34
35 36 36 38 38 39 43 43 44 47 47 50 51 52 55 56
77
MÓDULO 1 Raúl A. Marigliano UNT
La extensión de las filas puede compararse con la altura de las barras del histograma
correspondiente, pero la ventaja del diagrama de Tallo y Hojas es que conserva el
valor original de cada medida. En el diagrama vemos que hay 2 datos = 11; 3 valores
= 21; 2 mediciones = 47, etc.
A fin de remarcar los distintos “saltos” en la distribución, suele separase las filas en
grupos de 5 valores de datos, en lugar de diez. Esto significa tomar para cada tallo, en
la primera fila: valores de hojas de 0 a 4, y de 5 a 9 para la segunda fila.
De esta manera se disminuye la amplitud de los intervalos a la mitad, lo que permite
visualizar mejor la presencia o ausencia de determinados valores en ciertas posiciones
de la distribución:
Se suelen usar símbolos para diferenciar el primer dígito de las hojas, de manera que
si está comprendido entre el 0 y el 4, la fila o línea se inicia por ejemplo con el signo
(*), y si está comprendido entre 5 y 9 con un signo (o).
78
MÓDULO 1 Raúl A. Marigliano UNT
Para el mismo ejemplo, los datos fueron analizados utilizando el programa SPSS, el
que arrojó el siguiente diagrama:
En este diagrama vemos que el programa SPSS resalta la presentación de los datos,
identificando separadamente posibles valores anómalos. En este caso destaca el
valor 138,1 como un “valor extremo”.
Minitab ofrece el siguiente diagrama para los datos de colesterol de la tabla 6.1:
1 16 9
5 17 0245
13 18 01223579
(8) 19 01135559
9 20 04459
4 21 155
HI 289
En este caso, el valor discrepante (289 mg/dL) aparece resaltado al final del diagrama
como “ALTO” (HIGH).
79
MÓDULO 1 Raúl A. Marigliano UNT
La mediana
Los cuartiles Q1 y Q3
Los límites superior e inferior de la distribución de datos
Figura 6.12 Diagrama de caja y patillas. (a) Escala vertical. (b) Escala horizontal
La longitud de la caja es el rango intercuartílico (Q3 – Q1), que representa la
dispersión de los valores en el 50% central de la distribución.
La mediana está marcada por una línea (o un asterisco) dentro de la caja.
Las dos líneas marcadas fuera de la caja (patillas o bigotes) se extienden desde la
observación más pequeña a la más grande.
En un boxplot se visualiza rápidamente el centro, la variabilidad y el rango total de
una distribución, lo que permite visualizar la simetría de la distribución.
80
MÓDULO 1 Raúl A. Marigliano UNT
De la misma forma puede advertirse la simetría de la distribución, comparando la
posición de la mediana con respecto a los cuartiles, o contrastando las respectivas
longitudes de las patillas.
Asimismo, en un gráfico boxplot pueden detectarse valores que se apartan del
núcleo central de una distribución, identificados como valores anómalos,
discrepantes, extremos o “outliers”.
Los valores discrepantes se definen como los datos puntuales que son más bajos
que Q1 o más altos que Q3 en más de 1,5 veces el rango intercuartílico. Los valores
que se encuentran por debajo de (Q1 – 1,5 RI), o por arriba de (Q3 + 1,5 RI) se
clasifican como “outliers”.
De modo similar a lo que vimos en el diagrama de tallo y hojas, algunos programas
identifican los valores discrepantes. Los bigotes o patillas se extienden entonces a los
límites superior e inferior o vallas, delimitados por (Q1 – 1,5 RI) y (Q3 + 1,5 RI)
respectivamente, y los datos anómalos se muestran como puntos separados.
El siguiente gráfico de caja y patillas fue obtenido con los datos de la Tabla 4.5 (sodio)
utilizando SPSS:
141,5
141,0
140,5
140,0
139,5
139,0
138,5
5
138,0
137,5
N= 50
SODIO
81
MÓDULO 1 Raúl A. Marigliano UNT
Una ventaja adicional de un gráfico de caja y patillas, es que puede utilizarse con fines
comparativos de varias distribuciones, o sea cuando tenemos más de un conjunto de
datos y el objetivo es contrastarlos. Para ello se sitúan los diversos gráficos en
82
MÓDULO 1 Raúl A. Marigliano UNT
La distribución (a) es la que presenta mayor dispersión del total de datos (mayor
rango). El largo de su patilla superior indica una asimetría a la derecha (K > 0), es
decir que existe una mayor dispersión de datos en el 25% superior de la distribución
La distribución (b) es aproximadamente simétrica, pues las longitudes de las patillas
son semejantes. Por otra parte se observa una dispersión de datos similar en las
patillas y en el interior de la caja.
La distribución (c) es la que muestra menor variabilidad. La posición de la mediana y el
largo de la patilla inferior indican un ligero sesgo negativo (K < 0)
La distribución (d) muestra menor dispersión de datos en el 50% central de la
distribución (rango intercuartílico), y mayor variabilidad en ambos extremos (longitud
de las patillas). Al igual que la distribución (b) es aproximadamente simétrica.
83
MÓDULO 1 Raúl A. Marigliano UNT
REFERENCIAS BIBLIOGRÁFICAS
CHAO, L. (1994). Introducción a la Estadística. CECSA.
HARRIS, D.C. (2007). Análisis Químico Cuantitativo 3° Edición. Ed. Reverté S.A.
MILLER, J.N. y MILLER J.C. (2002). Estadística y Quimiometría para Química Analítica. Ed.
Prentice Hall, Pearson Educación S.A.
RIUS DÍAZ, F., BARÓN LÓPEZ, F.J., SANCHEZ FONT, E. y PARRAS GUIJOSA, L. Bioestadística:
métodos y aplicaciones. Universidad de Málaga, consultado el 15 de febrero de 2011. URL:
http://www.bioestadistica.uma.es/libro/
SKOOG, D.A., WEST, D.M. y HOLLER, F.J. (1997). Fundamentos de Química Analítica. Ed.
Reverté S.A.
84
MÓDULO 1 Raúl A. Marigliano UNT
85