Está en la página 1de 85

MÓDULO 1 Raúl A.

Marigliano UNT

Breve reseña histórica


El término estadística deriva de la palabra Estado. La expresión alemana “statistik” fue
introducida por Gottfried Achenwall en el año 1749. Surge por la necesidad de
cuantificar “datos del Estado” como: características de la población, recursos
disponibles, infraestructura, etc., utilizados por el gobierno a través de los servicios de
estadística nacionales e internacionales. En el siglo XIX el término estadística adquirió
el significado de recolectar, analizar y clasificar datos, concepto que fue incorporado
por el inglés John Sinclair.
Desde los albores de la civilización, el hombre ha tratado de evaluar de alguna manera
los fenómenos que lo rodean cuantificando lo que puede observar. Se cree que en las
cavernas prehistóricas sus habitantes contabilizaban sus pertenencias, haciendo
muescas en las paredes. A medida que los pueblos evolucionaban en cantidad y
conocimientos, se requería cada vez más el uso de recopilaciones de datos, con fines
administrativos, religiosos, etc. En el antiguo Egipto existía una administración
centralizada destinada a la toma de datos y a la contabilización de todos los bienes del
faraón.
En la Biblia hay un Libro llamado de los Números donde se relata el censo que hizo
Moisés con los israelitas antes de cruzar el desierto. En el Libro de los Reyes se habla
de un censo hecho por David. En Confucio hay referencias a un rey llamado Yao
(3000 AC), quien ordenó un censo comercial y agrícola de toda la China. En la Biblia
es famosa la sentencia “Con la medida que midáis, así seréis medidos”.
En América, los incas usaban nudos en las cuerdas (quipus) para efectuar recuentos
en el manejo de sus almacenes comunitarios. Las majestuosas construcciones de
aztecas, mayas e incas, así como otros pueblos constructores, implican un alto grado
de sofisticación en el manejo de datos.
Durante la Edad Media se multiplican los ejemplos de censos, relevamiento de
propiedades, registros demográficos (nacimientos y defunciones), recolección de
impuestos, etc. Todo esto muestra como en la historia, paulatinamente, van
apareciendo intentos de usar la Estadística como una herramienta, para el manejo de
asuntos civiles, comerciales, religiosos, estatales, etc.
Los métodos estadísticos matemáticos surgieron desde la teoría de probabilidades.
Pierre de Fermat, jurista y matemático francés, descubrió el cálculo diferencial antes
que Newton y Leibniz, y fue co-fundador de la teoría de probabilidades junto a Blaise
Pascal (1654)
Jakob Bernoulli fue un matemático y científico suizo. Su obra maestra fue Ars
Conjectandi (el Arte de la conjetura), un trabajo pionero en la teoría de la probabilidad,
publicada por su sobrino Nicholas en 1713, ocho años tras su muerte. El Ars
cojiectandi de Bernoulli y la Doctrina de posibilidades (1718) de Abraham de Moivre
estudiaron la materia como una rama de las matemáticas. En la era moderna, el
trabajo de Andréi Kolmogórov ha sido un pilar en la formulación del modelo
fundamental de la Teoría de Probabilidades, el cual es usado a través de la
estadística.
La teoría de errores se puede remontar a la Ópera miscelánea (póstuma, 1722) de
Roger Cotes, y al trabajo preparado por Thomas Simpson en 1755 en el cual aplica
por primera vez la teoría de la discusión de errores de observación. La reimpresión de
este trabajo en 1757, incluye el axioma de que errores positivos y negativos son
igualmente probables y que hay ciertos límites asignables dentro de los cuales se
encuentran todos los errores; se describen errores continuos y una curva de
probabilidad.
Pierre Simon Laplace (1774) representó la ley de probabilidades de errores mediante
una curva y dedujo una fórmula para la media de tres observaciones. El francés De
Moivre halla la curva matemática de la probabilidad integral, y a principios del siglo
XIX, Laplace recopila todo lo publicado hasta entonces acerca del tema, más otros
descubrimientos propios, en particular la primera versión del teorema fundamental de

1
MÓDULO 1 Raúl A. Marigliano UNT

la Estadística: el Teorema Central del Límite. Sin embargo, este tema sería
popularizado por un físico de su misma época: Johann C. F. Gauss. Al estudiar los
errores de medición cometidos en los experimentos, Gauss descubrió que mediciones
repetidas, bajo condiciones análogas, arrojan diferentes resultados, si los instrumentos
son lo suficientemente sensibles. A falta de una mejor explicación para el fenómeno,
atribuyó estas variaciones a la “casualidad”, y obtuvo en su estudio de errores una
curva teórica en forma de campana que lleva su nombre. La aplicación de la teoría de
errores en mediciones experimentales, les dio un carácter de tipo científico,
diferenciándolas de las investigaciones biológicas de ese entonces, que se limitaban a
describir y clasificar especies, sin entrar a controlar la repetición de fenómenos en
laboratorios.
Un discípulo de Laplace, Siméon D. Poisson, estableció en 1837 el desarrollo
matemático de la Ley de los Grandes Números, a partir de la cual comienza la
Inferencia Estadística. Además, estudiando la probabilidad binomial para los sucesos
raros, encuentra una función que lleva su nombre: Distribución de Poisson.
La contribución de la escuela rusa, se hizo en el campo de la teoría. Autores como
Chebishev, Markoff, Kintchine y otros, completaron la base matemática de la
Estadística y es en Rusia, a fines del siglo XIX, donde se publica por vez primera la
versión completa del Teorema Central del Límite, luego de casi un siglo de búsqueda.
Sir Francis Galton (1822-1911) introdujo un método matemático para el ajuste de
curvas a puntos experimentales: el método de mínimos cuadrados. Galton utilizó éste
método en sus estudios de la herencia de padres a hijos. La propuesta era que hijos
de padres más altos que el promedio de la población eran más bajos que sus padres;
viceversa, hijos de padres bajos, crecían más que sus progenitores. O sea, la
población humana, tiende al promedio de alturas en generaciones sucesivas. Por eso
al método se lo llama: Regresión.
El heredero de la cátedra de Galton y seguidor de sus trabajos, K.R. Pearson,
descubre la distribución chi cuadrado y funda la primer revista científica del tema:
Biometrika Donde los investigadores de la época publicaban sus descubrimientos,
como William S. Gosset que usaba el seudónimo de Student, y tal vez la figura más
grande del siglo en el tema: Ronald A. Fisher (1890-1962) creador del 50% de la
Bioestadística actual. Su método de Análisis de Varianza es la herramienta básica
para las investigaciones biológicas. Desarrolló la fórmula matemática de la función
imaginada por Gosset, a la que llamó distribución t de Student, que reemplazó en la
práctica al centenario método gaussiano.
Contribuciones posteriores como las del norteamericano George Snedecor con su
distribución F (por Fisher) completaron esta rama de la Estadística a principios de
siglo.
Durante el siglo XX, la creación de instrumentos precisos para programas de salud
pública (epidemiología, bioestadística, etc.) y propósitos económicos y sociales (tasa
de desempleo, econometría, etc.) necesitó de avances sustanciales en las prácticas
estadísticas.
Hoy el uso de la estadística se ha extendido más allá de sus orígenes como un
servicio al Estado o al gobierno. Es una herramienta que puede ser aplicada para
interpretar datos y tomar decisiones en un sinnúmero de disciplinas, abarcando las
ciencias naturales y sociales, medicina, negocios y otras áreas. Personas y diferentes
organizaciones usan la estadística, entendida generalmente no como una sub-área de
las matemáticas, sino como una ciencia diferente, “asociada”.
Es asimismo el vehículo que permite dirigir el proceso relacionado con la investigación
científica, siendo su campo de acción la medición de la incertidumbre.

2
MÓDULO 1 Raúl A. Marigliano UNT

1. Introducción
En nuestro trabajo cotidiano nos encontramos frente a situaciones en las que se deben
tomar decisiones en base a la observación de fenómenos. El análisis adecuado de una
observación es fundamental para la toma de decisiones y la resolución de situaciones
de incertidumbre. Por ejemplo un psicólogo debe implementar una terapia específica
luego de un estudio de un caso particular, el médico debe establecer medidas de
acción basado en el diagnóstico de una enfermedad, el gerente de producción de una
fábrica debe solucionar problemas del proceso productivo en base a observaciones de
defectos de los productos fabricados, el bioquímico debe decidir si los resultados
proporcionados por el laboratorio son confiables, es decir si cumplen con las normas
de precisión y exactitud implementadas en su sistema de control de calidad.
Un procedimiento objetivo para tomar decisiones en situaciones de incertidumbre
puede realizarse con la ayuda de las herramientas que nos otorga el análisis
estadístico. Sus fines son describir al conjunto de datos obtenidos, y tomar decisiones
o realizar generalizaciones acerca de las características de todas las posibles
observaciones bajo consideración.
Un estudio detallado sobre la estadística constituye un campo demasiado extenso
para enfocarlo desde todos sus aspectos. Sin embargo, en este primer curso, vamos a
desarrollar los procedimientos estadísticos que consideramos de mayor utilidad
práctica en el laboratorio clínico.

2. Conceptos y definiciones
2.1. Población y muestra

Idealmente, la estadística estudia POBLACIONES de individuos o de observaciones.

 Se denomina “población” al conjunto total de todas las posibles mediciones u


observaciones bajo consideración, en una situación dada de un problema.

Cada situación implica una población diferente. Si el problema consiste en evaluar los
pesos al nacer de todos los niños en unidades asistenciales públicas de la provincia de
Buenos Aires, entonces los pesos al nacer de todos estos niños constituye la
población.
Si la finalidad de una investigación es determinar qué proporción de todas las
unidades producidas en cierto proceso de manufactura es defectuosa, entonces la
población consiste en las mediciones de calidad de todas las unidades obtenidas
mediante este proceso.
Las poblaciones se clasifican en dos categorías: finitas e infinitas

3
MÓDULO 1 Raúl A. Marigliano UNT

 Una población finita es aquella que incluye un número limitado de medidas u


observaciones

Son poblaciones finitas el número de bioquímicos inscriptos en el curso de Estadística,


el número de mediciones de un lote de material de control para glucosa realizados en
un determinado laboratorio en el año 2010, o el número de habitantes de un país o
territorio, sobre los que se recaban datos demográficos, económicos y sociales en un
censo.
O sea que algunas poblaciones finitas están constituidas solamente por unas cuantas
observaciones, y otras pueden ser cientos, o millones. Pero siempre que sea posible
listar o alcanzar el número total de las probables mediciones, la población se
considera finita.

 Se dice que una población es infinita si incluye un gran conjunto de medidas u


observaciones que en la práctica no pueden alcanzarse por conteo, o sea, no
pueden ser físicamente listadas.

Por ejemplo, si se considera la población constituida por la concentración de


hemoglobina de todos los niños nacidos en el mundo en las diez últimas décadas, o la
población formada por todas las personas infectadas por virus de la hepatitis B, ambas
son ejemplos de poblaciones infinitas, debido a que no existe la posibilidad real de
poder contarse.

 A las características medibles de una población se les denomina parámetros, y los


valores de éstos se consideran valores verdaderos.

 Es importante considerar que es imposible calcular el valor verdadero de cualquier


parámetro en una población infinita.

Un trabajo experimental con poblaciones no es práctico. Supongamos que el objetivo


de una investigación consiste en estudiar el nivel de PSA sérico de todos los varones
con edades comprendidas entre 50 y 70 años de la provincia de Tucumán, Argentina.
Es fácil comprender que, por limitaciones de tiempo y costo, esta tarea sería
prácticamente imposible. En situaciones como ésta, es conveniente trabajar con un
grupo reducido de individuos que representen adecuadamente a la totalidad de la
población, por ejemplo 100 individuos que reúnan las características requeridas por el
estudio. En éste caso se dice que se está trabajando con una “muestra”.

4
MÓDULO 1 Raúl A. Marigliano UNT

 Podemos definir una muestra como una parte representativa de una población,
que se obtiene con el propósito de estimar las características de la totalidad.

Los rasgos de una muestra son similares a los de una población, pero por supuesto no
pueden ser idénticos, dependiendo la mayor o menor similitud, de la magnitud de la
muestra. Existen métodos estadísticos de selección de muestras que nos permiten
decidir que tamaño de muestra es representativo de la población.
En estadística vamos a usar frecuentemente el término “muestra aleatoria”:

 Una muestra aleatoria es aquella que se obtiene de tal manera que cada posible
observación disponible en la población tenga una probabilidad igual de ser
seleccionada.

 Un estadístico o estimador es una característica medible de una muestra


aleatoria.

En el ejemplo dado, el nivel promedio de PSA de un grupo de 100 individuos de sexo


masculino de la provincia de Tucumán, seleccionados aleatoriamente, es un
estadístico.

2.2. Estadística descriptiva e inferencia estadística


El campo de la estadística está dividido en dos áreas: estadística descriptiva y
estadística inferencial.

 La estadística descriptiva se refiere a aquella parte del estudio que incluye la


obtención, organización, presentación y descripción de información numérica.

La estadística obtiene conclusiones a partir de los datos extraídos de una muestra. A


este proceso se lo denomina “Inferencia Estadística”. Es decir que a partir de
resultados obtenidos de una muestra, se infiere sobre las características
poblacionales.

 La inferencia estadística1 es una metodología mediante la cual se obtienen


generalizaciones o se toman decisiones en base a una información parcial obtenida
mediante técnicas descriptivas.

1
Este tema será desarrollado extensamente en el Módulo 3.

5
MÓDULO 1 Raúl A. Marigliano UNT

En resumen, la estadística incluye tanto técnicas descriptivas como inferenciales. Son


dos áreas que conforman a la disciplina de la estadística moderna, ambas esenciales
tanto en la investigación, como en la toma racional de decisiones.
Podemos resumir todos estos conceptos de la siguiente forma:

 El análisis estadístico se refiere a un conjunto de métodos para manejar la


obtención, presentación y análisis de observaciones numéricas. Sus fines son
describir al conjunto de datos obtenidos y tomar decisiones o realizar
generalizaciones acerca de las características de todas las posibles observaciones
bajo consideración.

2.3. Magnitudes y Variables

Es frecuente el uso de estas dos palabras como sinónimos. Si bien a veces esto es
correcto, conviene puntualizar la diferencia conceptual entre ambas.

 Una variable estadística es cada una de las características o propiedades que


varía de un elemento a otro de la población

Cualquier característica de un elemento de la población que pueda observarse, puede


ser medida de diferentes formas de acuerdo al tipo de variable.
Algunas propiedades pueden ser estudiadas de forma cualitativa o semi cuantitativa, y
asignarles un valor expresado con una palabra o signo (amarillo, escaso, sui-géneris,
negativo, ++). A veces pueden también clasificarse en categorías o clases, de utilidad
para hacer recuentos como sano-enfermo, positivo-negativo, etc.
Cuando pueden atribuirse valores expresados en números a la propiedad observada,
esta cualidad se denomina magnitud.

 Magnitud es toda característica o cualidad de un elemento integrante de la


población, susceptible de ser determinada cuantitativamente

En general, las variables son clasificadas en dos grandes grupos: categóricas o


cualitativas y cuantitativas o numéricas.

 Las variables categóricas o cualitativas no pueden ser medidas con números. Se


refieren a características o cualidades que están definidas por las clases o
categorías que las componen.

6
MÓDULO 1 Raúl A. Marigliano UNT

Podemos distinguir dos tipos de variables categóricas: variable cualitativa nominal y


variable cualitativa ordinal o “semi-cuantitativa”.

 Una variable cualitativa nominal presenta modalidades o categorías no


numéricas que no admiten un criterio de orden.

Las categorías pueden ser naturales, por ejemplo sexo, o estado civil, o arbitrarias,
como clasificar a las plantas en hierbas, arbustos, árboles, etc.
El mas simple en este tipo de variables tiene sólo dos categorías posibles, por
ejemplo: masculino y femenino; o referirse a la presencia o ausencia de una
determinada cualidad, por ejemplo casado o soltero; empleado o desempleado,
negativo o positivo.

 Las variables generadas por la forma presencia-ausencia de una categoría se


llaman dicotómicas o binarias.

 Las variables cualitativas ordinales o semi cuantitativas presentan modalidades


no numéricas en las que existe un orden.

Son ejemplos de este tipo de variable: nivel docente alcanzado: Profesor, Jefe de
Trabajos Prácticos, Auxiliar docente; una evaluación en un examen clasificado en
categorías como: desaprobado, aprobado, sobresaliente; el puesto conseguido en una
prueba deportiva: 1°, 2°, 3°….; una prueba de laboratorio informada como positiva +,
++, +++, etc.

 Las variables cuantitativas o numéricas son aquellas, que como su nombre lo


indica, se expresan por un número.

Pueden ser clasificadas a su vez en discretas y continuas, distinguiéndose entre un


número que se obtiene por conteo y un número que resulta de efectuar mediciones.

 Las variables discretas son aquellas que surgen por conteo, en que sólo pueden
ser obtenidos números enteros.

Algunos ejemplos de variables discretas son: el número de leucocitos, el número de


colonias fermentadoras, el número de laboratorios de una determinada región, o el
número de hijos de una familia, tales como: 0, 1, 2, 3... 50...6000, es decir, las
variables discretas sólo toman un número finito de valores.

7
MÓDULO 1 Raúl A. Marigliano UNT

 Las variables que surgen de mediciones efectuadas sobre cada unidad


experimental, se denominan variables continuas.

Una magnitud continua se expresa mediante números reales. Las mediciones físicas
clásicas son el mejor ejemplo de este tipo de magnitudes: peso, altura, densidad,
temperatura, presión, etc.

 En una magnitud continua hay infinitos puntos posibles dentro de un intervalo


cualquiera de la misma.

 Un importante principio sobre variables continuas es que se consignan en forma


discreta, quedando la magnitud de la distancia entre valores adyacentes,
determinada por la precisión de la medición.

Por ejemplo el peso de una persona puede expresarse como: 65; 65,4; 65,387 Kg
etc., dependiendo de la precisión de la balanza utilizada. La edad puede ser
expresada en años, meses, días, etc., por lo cual es también un ejemplo típico de
variable continua.

En general:

 Si las observaciones para una variable numérica se obtienen como resultado de


contar, la variable es discreta.

 Si los datos obtenidos son el resultado de medir, la variable es continua.

En el proceso de observación se registra para cada unidad experimental alguna


característica, y este resultado constituye un dato.

 Un dato es el resultado al medir una magnitud en un elemento de la población

Las mediciones que se describen mediante una variable discreta o continua se


designan respectivamente datos discretos y continuos.

3. Escalas de Medición
 Una medición consiste en el establecimiento de números o códigos a las
observaciones mediante el empleo de una escala apropiada.

8
MÓDULO 1 Raúl A. Marigliano UNT

Aunque tradicionalmente los métodos analíticos se han dividido en cuantitativos,


semicuantitativos y cualitativos, una mejor forma de clasificarlos es definiendo el tipo
de escala de medición.
Las escalas de medición se diferencian por propiedades de orden y de distancia.
Básicamente, se reconocen cuatro tipos de escalas de medición (S.S.Stevens, 1946):
nominal, ordinal, de intervalo y de razón.

3.1. Escala nominal


Es aquella en la no se hace ningún supuesto respecto de las relaciones que existen
entre los valores de las variables. Cada valor se asigna a una categoría diferente, la
que se define mediante un nombre.
Por ejemplo, los nombres de los elementos corpusculares en orina. Aunque podrían
ser ordenados por ejemplo por tamaño, o siguiendo “el ordenamiento usual en el
protocolo de informe”, en general, la variable “elementos corpusculares en orina” no
tiene un orden preestablecido. Otros ejemplos de variables nominales, son: sexo,
grupo sanguíneo, raza, fenotipo, etc.
Cuando los valores de las variables se asignan a categorías nominales, las
propiedades numéricas tales como tamaño relativo, suma, multiplicación, etc., no
pueden ser aplicadas. Por lo tanto el tratamiento estadístico, que supone orden o
distancia numérica entre los valores de la variable, no produce información útil sobre
este tipo de variables.
Este tipo de escala es “cualitativa” y se usa para clasificación: el término “cualitativo”
debe ser restringido para este uso.

3.2. Escala ordinal


Es aquella que surge al ordenar todas las categorías de las variables de acuerdo a
algún criterio.
Por ejemplo clasificar el nivel socioeconómico como alto, medio y bajo. Los empleados
pueden clasificarse en obreros, supervisores, gerentes, etc. Al precisar la estatura de
una persona, se está midiendo una magnitud de tipo continua, pero si los datos se
utilizan para clasificarlo en muy alto, alto, normal o bajo, entonces se transforma la
variable en ordinal al categorizar los resultados.
En estos casos lo único que se conoce es que el nivel socioeconómico alto implica un
ingreso mayor que el nivel bajo, que un gerente tiene mayor jerarquía laboral que un
obrero, o que una persona clasificada como “alto” tiene mayor estatura que el “bajo”.
Sin embargo, en ningún caso sabemos con certeza “cuanto mayor” es una categoría
de la variable respecto a otra, pues no existe una medición de distancia.

9
MÓDULO 1 Raúl A. Marigliano UNT

Un caso especial surge cuando en la escala de orden existe un cierto acuerdo


respecto a la distancia que separa una categoría de otra. Por ejemplo, si
consideramos la realización de un antibiograma, lo que se mide en realidad es el
diámetro de inhibición de crecimiento microbiano por la acción antibiótica, que es una
variable cuantitativa continua, pero los resultados se expresan generalmente en tres
categorías: “sensible”, “poco sensible” o “resistente”. Esta escala de medición es
considerada por algunos autores como ordinal, y por otros como intervalar, dado el
punto cero convencional (resistente).

3.3. Escala de intervalo


Es aquella que tiene la propiedad de establecer una medición de distancia entre los
valores de la variable. Cuando se dice que un objeto es superior a otro, se puede
especificar cuantas unidades de diferencia hay entre ambos, o por cuantas unidades
un objeto es mayor que el otro, es decir está caracterizada por una unidad de medida
común y constante.
Es importante destacar que, en la escala da intervalo, el punto de origen o punto cero
es un punto de acuerdo o punto convencional, y no refleja en ningún momento
ausencia de la magnitud que estamos midiendo. Esta escala, además de poseer las
características de la escala ordinal, permite determinar la magnitud de los intervalos
(distancia) entre todos los elementos de la escala. Las medidas de intervalo tienen
distancias interpretables entre mediciones, pero un valor cero sin significado.
Entre las variables que pueden medirse con esta escala pueden citarse: altura,
temperatura, tiempo, riqueza, coeficiente intelectual, etc. En un termómetro que mide
la temperatura en grados Celsius, la diferencia entre 37 y 38 ºC es la misma que entre
20 y 21 ºC, sin embargo el punto cero es en realidad un punto de acuerdo. Cuando
decimos que la altura de una montaña es 300 m, estamos indicando que ella se
encuentra 300 m por encima del nivel del mar o punto cero convencional.
En síntesis, la escala de medida de intervalo permite estudiar diferencias entre valores
de la variable, los intervalos tienen el mismo tamaño, pero no hay proporcionalidad
entre la medida numérica del intervalo y la magnitud de la cantidad involucrada.

3.4. Escala de razón o escala proporcional


La escala proporcional o de razón es el nivel de medida más elevado y se diferencia
de las escalas de intervalos únicamente por poseer un punto cero propio como origen;
es decir que el valor cero de esta escala representa ausencia de la magnitud que
estamos midiendo.

10
MÓDULO 1 Raúl A. Marigliano UNT

El peso, la estatura y medidas de distancia, que tienen un cero natural, son ejemplos
de este tipo de escala. La escala de razón es de uso frecuente en química clínica, por
ejemplo en la determinación de la concentración de sustancia.
En una escala de razón, la existencia de un punto cero definido implica que se pueden
efectuar comparaciones proporcionales.
Cualquier operación matemática apropiada para números reales puede ser aplicada a
una escala de este tipo, debido a que la escala de razón satisface todas las
propiedades de los números reales.

4. Organización, resumen y presentación de datos


Una vez que se ha tomado una muestra de una población, y se han realizado
mediciones de ella, se concluye la etapa de recolección de datos. Sin embargo, lo
que se ha obtenido es una serie de datos “en bruto”, los cuales rara vez son
significativos sin organización ni tabulación.

4.1. Organización de datos categóricos


Cuando tenemos una gran cantidad de datos categóricos, lo primero es ordenarlos en
una tabla de dos columnas: la primera debe contener la identificación de la unidad de
observación y la segunda el dato correspondiente a esa unidad.

Ejemplo 4.1
Se estudia la distribución de gérmenes aislados de orina en un determinado período,
en pacientes ambulatorios de ambos sexos. En la siguiente tabla se presenta un
listado hipotético donde se proporcionan las especies aisladas en 30 muestras* de
orina de pacientes ambulatorios.

TABLA 4.1. Especies bacterianas aisladas en 30 muestras* de orina

Muestra Bacteria aislada Muestra Bacteria aislada Muestra Bacteria aislada


1 Escherichia coli 11 Escherichia coli 21 Escherichia coli
2 Escherichia coli 12 Escherichia coli 22 Estafilococo coag pos
3 Estafilococo coag neg 13 Klebsiella pneumoniae 23 Klebsiella pneumoniae
4 Klebsiella pneumoniae 14 Escherichia coli 24 Escherichia coli
5 Enterococo 15 Escherichia coli 25 Escherichia coli
6 Escherichia coli 16 Pseudomonas sp 26 Estafilococo coag neg
7 Proteus mirabilis 17 Klebsiella pneumoniae 27 Proteus mirabilis
8 Escherichia coli 18 Estafilococo coag neg 28 Enterococo
9 Escherichia coli 19 Escherichia coli 29 Klebsiella pneumoniae
10 Pseudomonas sp 20 Proteus mirabilis 30 Escherichia coli

11
MÓDULO 1 Raúl A. Marigliano UNT

*El término “muestra” tiene en este ejemplo, el significado habitual utilizado en los
laboratorios clínicos. En estadística, los 30 resultados corresponden a una muestra de
30 observaciones de la población.
Con estos datos podemos construir una tabla de frecuencias.

 Una tabla de frecuencias para variables categóricas relaciona cada categoría de la


variable con el número de veces que se repite dicha categoría

 El número de veces que se repite cada categoría de la variable se denomina


frecuencia absoluta

Simbolizaremos la frecuencia absoluta con fa . Obsérvese en la tabla que la suma de


las frecuencias absolutas es igual al número de observaciones.

TABLA 4.2. Tabla de frecuencias absolutas especies aisladas

Especie aislada fa
Eschericha coli 14
Estafilococo coagulasa negativo 3
Klebsiella pneumoniae 5
Enterococo 2
Proteus mirábilis 3
Pseudomonas sp 2
Estafilococo coagulasa positivo 1
Total 30

4.1.1. Gráfico de barras


Esta tabla de frecuencias se puede presentar a través de un gráfico conocido como
gráfico de barras.

 Un gráfico de barras se utiliza para presentar datos categóricos o datos


cuantitativos de tipo discreto.

Considerando un sistema de coordenadas cartesianas, sobre el eje x se representan


las diferentes categorías de la variable (especies bacterianas), y sobre el eje y la
frecuencia correspondiente a cada categoría. Sobre cada categoría de la variable se
levante una barra con una altura proporcional a la frecuencia respectiva. La
amplitud de la barra no tiene importancia en este caso, y se escoge arbitrariamente.

12
MÓDULO 1 Raúl A. Marigliano UNT

Si queremos utilizar Microsoft Excel para graficar, comenzamos introduciendo las


categorías y las frecuencias en una hoja de cálculos:

Luego seleccionamos (“pintamos”) las columnas con las categorías de la variable


especies bacterianas (Columna A) y las frecuencias absolutas (Columna B):

Hacemos clic en el icono de la barra de herramientas que se denomina “Asistente para


gráficos”:

Seleccionamos Tipo de gráfico: Columnas, Subtipo de gráfico: la primera opción


(arriba a la izquierda). Hacemos clic en Siguiente y se abre la siguiente ventana:

13
MÓDULO 1 Raúl A. Marigliano UNT

Hacemos clic en siguiente y aparece esta ventana que nos permite asignar Títulos del
gráfico, del eje de categorías (x), y del eje de valores (y):

Hacemos un nuevo clic en siguiente y obtenemos:

14
MÓDULO 1 Raúl A. Marigliano UNT

Le decimos a Excel donde queremos poner nuestro gráfico. En este caso hemos
seleccionado: “Como objeto en Hoja 1”
Hacemos clic en finalizar y obtenemos por último:

El gráfico obtenido se puede modificar en tamaño, colores, tipo de fuente, formato del
área de trazado, etc.
Finalmente, nuestro gráfico de barras (o columnas) es el siguiente:

ESPECIES AISLADAS UROCULTIVO


16

14
Frecuencia absoluta

12

10

8
fa
6

0
li (- ) m. o is . +)
co g eu oc bil sp g(
ich
a oa n roc irá as oa
er h.c ap t e m mo
n h .c
ch ap ell En us ap
s St si ote do St
E eb Pr eu
Kl Ps

Especies

Figura 4.1. Gráfico de barras. Especies aisladas cultivo de orina ( fa )

Además de frecuencias absolutas, pueden calcularse frecuencias relativas:

15
MÓDULO 1 Raúl A. Marigliano UNT

 La frecuencia relativa de una variable categórica es la proporción de veces que se


presenta dicha categoría

Se calcula como la frecuencia absoluta dividida por el número total de observaciones.


La simbolizaremos con fr :

fa
fr 
n

La suma de las frecuencias relativas es siempre igual a 1:

fr1  fr2  ......  frn  1

Las frecuencias relativas pueden expresarse como porcentajes al multiplicarlas por


100. La suma de frecuencias relativas porcentuales es siempre igual a 100:

fr % 1  fr % 2  ......  fr % n  100

En el ejemplo desarrollado, tenemos:

TABLA 4.3. Tabla de frecuencias relativas especies aisladas

Especie aislada fa fr fr %
Eschericha coli 14 0,47 47
Estafilococo coagulasa (-) 3 0,10 10
Klebsiella pneumonie 5 0,17 17
Enterococo 2 0,07 7
Proteus mirabilis 3 0,10 10
Pseudomonas sp. 2 0,07 7
Estafilococo coagulasa (+) 1 0,03 3
Total 30 1 100

Las frecuencias relativas y/o los porcentajes pueden representarse también en un


gráfico de barras, modificando convenientemente la escala en el eje de las ordenadas.
Esto se muestra en la figura 4.2:

16
MÓDULO 1 Raúl A. Marigliano UNT

ESPECIES AISLADAS
50,00

40,00
Porcentaje
30,00

20,00

10,00

0,00
i )
l (-) . o
lis
. (+
co m oc sp
oa
g eu oc bi g
ha .c pn r irá as oa
r ic h la
te m on h.c
he ap el En s m ap
c St si eu do St
Es le
b r ot eu
K P Ps
Especie

Figura 4.2. Gráfico de barras. Especies aisladas cultivo de orina (%)

4.2 Organización de datos numéricos

Ya mencionamos que el gráfico de barras es útil para la representación gráfica de


variables numéricas discretas. A continuación veremos metodologías estadísticas
sobre organización de datos numéricos, abordando particularmente como se resumen
las variables numéricas continuas.
Cuando se efectúan observaciones de magnitudes continuas, generalmente se tiene
un registro desordenado de las mediciones efectuadas.

Ejemplo 4.2
Se efectúan 50 determinaciones de sodio en un “pool” de sueros, en un período de
diez semanas. En la siguiente tabla se presentan los datos obtenidos:

TABLA 4.4. Datos originales sodio mmol/L


Na Na Na Na Na
n n n n n
mmol/L mmol/L mmol/L mmol/L mmol/L
1 141,0 11 139,2 21 138,8 31 139,2 41 139,0
2 139,5 12 139,8 22 139,5 32 139,5 42 140,1
3 140,0 13 139,5 23 140,0 33 140,1 43 140,0
4 140,1 14 140,3 24 140,3 34 140,6 44 139,8
5 138,1 15 138,5 25 141,0 35 139,5 45 139,2
6 139,8 16 140,1 26 139,8 36 140,1 46 140,0
7 140,3 17 140,0 27 140,8 37 141,2 47 139,8
8 140,0 18 141,1 28 140,0 38 140,3 48 138,5
9 141,1 19 139,0 29 139,5 39 138,8 49 140,6
10 139,2 20 140,0 30 139,8 40 140,0 50 140,8

17
MÓDULO 1 Raúl A. Marigliano UNT

Una manera de empezar a organizar los datos es ordenarlos, colocando las


observaciones en orden de su magnitud. Esto puede ser en orden ascendente o
descendente.

 Una “ordenación” o “arreglo” es un conjunto de datos numéricos dispuestos en


orden creciente o decreciente.

En la siguiente tabla se muestra un arreglo ascendente para los 50 datos de sodio:

TABLA 4.5. Datos sodio (mmol/L) ordenados en forma ascendente

Na Na Na Na Na
n n n n n
mmol/L mmol/L mmol/L mmol/L mmol/L
1 138,1 11 139,2 21 139,8 31 140,0 41 140,3
2 138,5 12 139,5 22 139,8 32 140,0 42 140,6
3 138,5 13 139,5 23 139,8 33 140,1 43 140,6
4 138,8 14 139,5 24 140,0 34 140,1 44 140,8
5 138,8 15 139,5 25 140,0 35 140,1 45 140,8
6 139,0 16 139,5 26 140,0 36 140,1 46 141,0
7 139,0 17 139,5 27 140,0 37 140,1 47 141,0
8 139,2 18 139,8 28 140,0 38 140,3 48 141,1
9 139,2 19 139,8 29 140,0 39 140,3 49 141,1
10 139,2 20 139,8 30 140,0 40 140,3 50 141,2

Sin embargo, esta primera forma de organización de datos resultaría engorrosa y poco
práctica si el número de mediciones fuera mucho mayor. Esta información puede ser
resumida en una tabla de frecuencias.

 Una tabla de frecuencias para variables numéricas es una tabla que asocia cada
valor de la variable con la cantidad de veces que se observa dicho valor

 La suma de las frecuencias absolutas es siempre igual al número total de


observaciones.

En la tabla 4.6, además de frecuencias absolutas, se han calculado las frecuencias


relativas. Recordemos que la frecuencia relativa se calcula como la frecuencia
absoluta correspondiente a cada valor de la variable dividida por el número total de
observaciones:

fa
fr 
n

Y que además, la fr puede expresarse en porcentaje al multiplicarla por 100:

18
MÓDULO 1 Raúl A. Marigliano UNT

TABLA 4.6. Tabla de Frecuencias sodio

Na fa fr Porcentaje
mmol/L
138,1 1 0,02 2,0
138.5 2 0,04 4,0
138,8 2 0,04 4,0
139,0 2 0,04 4,0
139,2 4 0,08 8,0
139,5 6 0,12 12,0
139,8 6 0,12 12,0
140,0 9 0,18 18,0
140,1 5 0,10 10,0
140,3 4 0,08 8,0
140,6 2 0,04 4,0
140,8 2 0,04 4,0
141,0 2 0,04 4,0
141,1 2 0,04 4,0
141,2 1 0,02 2,0

En muchos casos es muy importante también, describir las frecuencias absolutas y


relativas acumuladas ( Fa y Fr )

 La frecuencia acumulada para un valor dado de la variable es la suma de las


frecuencias (absolutas y/o relativas) de los valores menores o iguales al valor que
se considera.

Por ejemplo la frecuencia absoluta acumulada para el valor 139,2 mmol/L es:

Fa (139,2) = 1 + 2 + 2 + 2 + 4 = 11

TABLA 4.7. Tabla de frecuencias y frecuencias acumuladas sodio

Na fa fr
mmol/l
Porcentaje Fa Fr
138,1 1 0,02 2,0 1 0.02
138.5 2 0,04 4,0 3 0.06
138,8 2 0,04 4,0 5 0.10
139,0 2 0,04 4,0 7 0.14
139,2 4 0,08 8,0 11 0.22
139,5 6 0,12 12,0 17 0.34
139,8 6 0,12 12,0 23 0.36
140,0 9 0,18 18,0 32 0.54
140,1 5 0,10 10,0 37 0.64
140,3 4 0,08 8,0 41 0.72
140,6 2 0,04 4,0 43 0.76
140,8 2 0,04 4,0 45 0.80
141,0 2 0,04 4,0 47 0.84
141,1 2 0,04 4,0 49 0.88
141,2 1 0,02 2,0 50 1.00

19
MÓDULO 1 Raúl A. Marigliano UNT

En la tabla 4.7 podemos observar que el valor que más frecuencia tiene es 140,0 que
representa un 18,0 % y que los resultados de menos frecuencia son 138,1 y 141,2 con
un 2,0 % cada uno. Podríamos ser más sofisticados y decir que el 52,0 % de los datos
(12 % + 12,0% + 18,0 % + 10,0 %) están comprendidos entre 139,5 y 140,1.
Podemos ver también que el mayor valor que toma la variable es 141,2 y el menor
valor es 138,1 por ello se dice que el rango es 141,2 – 138,1 = 3,2.

 Definimos el Rango como la diferencia que existe entre el mayor y el menor valor
observado de la variable en estudio

Este gran intervalo (Rango) que contiene a todos los valores registrados, es decir,
representa la variabilidad total de los datos, puede dividirse en una serie de intervalos
más pequeños.
Se puede así construir una tabla de frecuencias donde en lugar de escribir los valores
originales de la variable, se los reemplaza por intervalos de valores, llamados “clases”.
Este arreglo de los datos expresando la frecuencia de observaciones en intervalos o
clases se conoce como distribución de frecuencias.

No existe un criterio uniforme para definir el número de intervalos o clases, sin


embargo las siguientes reglas pueden ser de utilidad:

1. El número de clases no deberá ser tan pequeño (menos de 6) o tan grande


(mayor a 20), que impida visualizar la verdadera naturaleza de la distribución.

2. Idealmente, el valor del intervalo o “célula” debe ser igual para todas las clases.
Esto no es una constante, pues la cantidad de intervalos y la amplitud de cada
uno es arbitraria, y depende de los datos involucrados.

3. Puede obtenerse una idea calculando la raíz cuadrada del número de

observaciones, en nuestro ejemplo 50  7.

La única recomendación que podemos hacer, es tratar de que no queden intervalos


con frecuencia cero. Como el rango total de los intervalos de clase debe incluir a todos
los valores de la variable, se aconseja redondear el rango a un número superior para
evitar que el menor o el mayor valor queden excluidos.
En nuestro caso, redondearemos el rango a 3,5 y lo dividiremos en 7 intervalos o
clases de 0,5 mmol/l. En nuestro ejemplo, el menor valor de la variable es 138,1
mmol/L, de manera que los intervalos comenzarán a construirse desde 138 mmol/L:

20
MÓDULO 1 Raúl A. Marigliano UNT

TABLA 4.8. Distribución de frecuencias sodio (1)

Clases o Frecuencia Frecuencia


Porcentaje
Intervalos Absoluta Relativa
138,0 - 138,5 3 0,06 6,0 %
138,5 - 139,0 4 0,08 8,0 %
139,0 - 139,5 10 0,20 20,0 %
139,5 - 140,0 15 0,30 30,0 %
140,0 - 140,5 9 0,18 18,0 %
140,5 - 141,0 6 0,12 12,0 %
141,0 - 141,5 3 0,06 6,0 %

 Los límites extremos de cada intervalo se llaman “límite inferior de clase” y


“límite superior de clase”
 La “marca de clase” es el punto medio del intervalo de clase y se obtiene
promediando los límites inferior y superior de clase.
 Si determinamos el número de datos que pertenecen a cada clase,
obtendremos la “frecuencia de clase”

Una pregunta que podría surgir en este punto es: si un valor de la variable
“concentración de sodio sérico” es 140,0 mmol/L, en qué intervalo se debe ubicar?
Como se observa en la tabla de frecuencias, podría situarse en el cuarto o quinto
intervalo de clase. La respuesta a este problema es: ubicarlo en cualquiera de los
dos intervalos, pero siguiendo siempre el mismo agrupamiento a través de todo
el proceso. Esto significa que si se decide ubicarlo en el cuarto intervalo, un valor de
139,0 mmol/L se ubicará en el segundo intervalo, y un valor de 141,0 mmol/L se debe
ubicar en el sexto intervalo.
Esta tabla muestra que los datos agrupados se concentran más o menos
simétricamente alrededor de un intervalo central que corresponde a la clase con más
frecuencia: 139,5-140,0 (Frecuencia absoluta: 15 – Frecuencia relativa 30,0 %). Este
intervalo se denomina intervalo modal.

4.3. Representaciones gráficas para variables continuas


Una vez que hemos construido una tabla de distribución de frecuencias, se pueden
representar los valores en un gráfico que indique la distribución de la variable.

4.3.1. Histograma
El Histograma se utiliza para graficar datos cuantitativos continuos, resumidos en
tablas de distribución de frecuencias. En el eje de las abscisas se representa la
variable que se estudia, con los datos agrupados en clases, y en el eje vertical el
número de observaciones por cada clase, es decir la frecuencia correspondiente a

21
MÓDULO 1 Raúl A. Marigliano UNT

cada intervalo. Las frecuencias de clase se representan por las alturas de las barras y
éstas se trazan adyacentes entre sí.
Para el trazado se procede de la siguiente forma: el intervalo Nº 1 (138,0-138,5) tiene
una frecuencia = 3. Comenzando en el límite inferior de este intervalo (138,0), se traza
un rectángulo con base en el eje “x”, de una altura igual a la frecuencia (3) y de una
longitud (ancho) igual a la célula de la clase: 0,50. Se procede de igual forma con el
resto de clases y frecuencias.
Este tipo de histograma es el que encontraremos usualmente y corresponde a una
población Normal o Gaussiana.

Figura 4.2 Histograma sodio (SPSS)

En un mismo sistema de ejes, sólo puede situarse un histograma con claridad, lo que
limita su uso con fines comparativos.

4.3.2. Polígono de frecuencias


También es una gráfica donde en el eje “y” se consignan los valores de frecuencia, y
en el eje “x” la magnitud de los datos obtenidos. En el eje “x” se grafica el promedio de
cada clase o “marca” de clase. Por ejemplo el primer punto está dado por: (138,0 +
138,5)  2 = 138,25., y el último punto: (141,0 + 141,5)  2 = 141,25.

Un histograma puede transformarse en un polígono de frecuencias conectando los


puntos medios de las partes superiores de cada rectángulo (los rectángulos no son
parte del polígono; se emplean en este caso sólo como ayuda visual):

22
MÓDULO 1 Raúl A. Marigliano UNT

Con el objeto de no dejar cortada la gráfica en los extremos, se supone que existen
dos intervalos más: uno anterior al primero, y otro posterior al último,
correspondiéndoles a cada uno de ellos una frecuencia = 0

En nuestro ejemplo serían:

 137,5 - 138,0 (promedio o marca de clase = 137,75)


 141,5 - 142,0 (promedio o marca de clase = 141,75)

De esta forma, queda conformada la siguiente tabla de frecuencias:

TABLA 4.9. Distribución de frecuencias sodio (2)

Marca de clase (mmol/L) fa fr


137,75 0 0
138,25 3 0,06
138,75 4 0,08
139,25 10 0,2
139,75 15 0,3
140,25 9 0,18
140,75 6 0,12
141,25 3 0,06
141,75 0 0

La curva se construye considerando que las observaciones de cada clase están


distribuidas de modo uniforme a lo largo de la clase. En el eje vertical pueden
graficarse indistintamente las frecuencias absolutas o relativas correspondientes a
cada marca de clase. En la siguiente figura se muestra un polígono de frecuencias
absolutas:

23
MÓDULO 1 Raúl A. Marigliano UNT

Polígono de frecuencias
16
14

Frecuencia absoluta
12
10
8
6
4
2
0
137 138 139 140 141 142

Na m m ol/L

Figura 4.3 Polígono de frecuencias

Gráficamente, nos da la misma información que el Histograma. Sin embargo, el


polígono de frecuencias es muy útil para representar y comparar dos o más
distribuciones en la misma gráfica.

4.3.3. Graficando con Microsoft Excel

HISTOGRAMA

Comenzamos incorporando los datos en una columna, en el orden en que fueron


obtenidos (no es necesario que estén ordenados ni agrupados de alguna manera):

A continuación insertamos en una nueva columna (B) las clases en las que se dividen
los datos. Estas deben incorporarse como valores numéricos en forma creciente,
ingresando solo el límite superior de cada intervalo o clase:

24
MÓDULO 1 Raúl A. Marigliano UNT

En el menú Herramientas seleccionamos  Análisis de datos. Previamente debemos


comprobar que este paquete de herramientas esté activado. Para ello abrir el menú
Herramientas  Complementos y activamos Herramientas para análisis:

A partir de aquí dispondremos de la herramienta “Análisis de datos”:

25
MÓDULO 1 Raúl A. Marigliano UNT

Pulsando en Análisis de datos se abre una ventana en la que debemos seleccionar:


 Histograma

Pulsamos en Aceptar e inmediatamente se abrirá una ventana en la que se incorporan


los datos que queremos graficar:

Pulsamos la tecla roja del cuadro Rango de entrada, y seleccionamos las celdas que
contienen la información de los valores de concentración de sodio: A1:A51.
En Rango de clases seleccionamos las clases: B1:B8.
Seleccionando la opción Rótulos, el programa considera que en la primera celda del
rango seleccionado se encuentra el título del conjunto de datos.
En Opciones de salida, se ha seleccionado que los resultados sean entregados “En
una hoja nueva”. La opción de Pareto (Histograma ordenado en forma descendente en
función de la frecuencia de resultados) no ha sido seleccionada en este caso.
Al elegir Porcentaje acumulado, estamos informando que queremos conocer la
Frecuencia Acumulada de los resultados, y con la opción de Crear gráfico elegimos la
opción de poder observar los resultados en forma gráfica.

26
MÓDULO 1 Raúl A. Marigliano UNT

Al aceptar estas opciones, se abre una nueva hoja dentro del mismo libro con el
siguiente cuadro:

En la columna Frecuencia encontramos la frecuencia absoluta de cada intervalo. En la


columna llamada % acumulado, se visualiza la frecuencia porcentual acumulada.
En la misma hoja que contiene la tabla, se obtuvo el siguiente gráfico:

Figura 4.4 Histograma sodio (MS Excel)

Vemos que Excel nos proporciona además del histograma*, un gráfico de puntos
unidos por líneas, que representan las frecuencias acumuladas por debajo de las
fronteras superiores de cada clase. Este gráfico se denomina Ojiva o Polígono de
frecuencias acumuladas “menor que”, por la forma de acumular las frecuencias. La
escala vertical de la derecha indica las frecuencias acumuladas en porcentaje. Puede
verse que el 34% de los datos son iguales o menores a 139,5 mmol/L, o que el 82%
de los resultados son  140,5 mmol/L o menos.
* Vemos que el histograma se presenta como barras separadas, cuando en realidad,
al tratarse de una variable continua, la representación lógica es a través de barras
adyacentes. Excel 2007 permite definir esta situación, pudiéndose optar por barras
separadas, “distancia” de la separación, y/o barras adyacentes.

27
MÓDULO 1 Raúl A. Marigliano UNT

POLÍGONO DE FRECUENCIAS
El polígono de frecuencias puede graficarse con Excel, siguiendo los pasos vistos en
el ejemplo 4.1.
Comenzamos introduciendo los datos de la tabla 4.9 en la hoja de cálculos:

Luego seleccionamos las columnas con la marca de clase y la frecuencia absoluta:

Hacemos clic en el icono de la barra de herramientas: “Asistente para gráficos” (otra


opción para abrir esta ventana es seleccionar el menú Insertar  Gráfico):

28
MÓDULO 1 Raúl A. Marigliano UNT

Seleccionamos Tipo de gráfico: Dispersión, Subtipo de gráfico: la opción dispersión


con puntos de datos conectados por líneas. Hacemos clic en Siguiente y se abre la
siguiente ventana:

Hacemos clic en siguiente y se abre una ventana que nos permite asignar Títulos del
gráfico, del eje de categorías (x), y del eje de valores (y):

Hacemos un nuevo clic en siguiente y obtenemos:

29
MÓDULO 1 Raúl A. Marigliano UNT

Le decimos a Excel donde queremos poner nuestro gráfico. En este caso hemos
seleccionado: “Como objeto en la Hoja rotulada “Polígono de frecuencias”, donde
hemos introducido los datos.
Hacemos clic en finalizar y por último obtenemos:

Resulta conveniente incluir líneas de división en ambos ejes, para crear una cuadrícula
con un espaciado acorde con los valores de las frecuencias y marcas de clase, y
poder visualizar los puntos con la mayor aproximación posible.
Para ello se hace clic con el botón derecho del Mouse dentro del área del gráfico, y se
selecciona: opciones del gráfico:

30
MÓDULO 1 Raúl A. Marigliano UNT

Hacemos clic y se abre una ventana donde seleccionamos “Líneas de división”, y


marcamos para el eje de valores (X): Líneas de división secundarias, y para el eje de
valores (Y): líneas de división principales.

Finalmente obtenemos el siguiente gráfico para el Polígono de frecuencias:

31
MÓDULO 1 Raúl A. Marigliano UNT

Polígono de frecuencias
16

Frecuencia absoluta
14
12
10
8
6
4
2
0
137 138 139 140 141 142
Na mmol/L

Obsérvese por ejemplo el punto 2: frecuencia = 3 y 138,25 mmol/L ó el punto 7:


frecuencia = 6 y 140,75 mmol/L.

OJIVA
Si queremos utilizar Excel para graficar sólo la Ojiva, se debe introducir en una hoja de
cálculos una tabla de valores que debe contener los límites superiores de cada clase y
la frecuencia acumulada correspondiente. Se incluye el límite inferior de la primera
clase (138) que tiene una frecuencia acumulada = 0:

Seguimos la misma secuencia utilizada para el Polígono de frecuencias: “Asistente


para gráficos”  Tipo de gráfico: Dispersión, subtipo de gráfico: la tercera opción:
dispersión con puntos de datos conectados por líneas  y continuamos con los pasos
2, 3 y 4 del asistente para gráficos.

Finalmente se obtiene el siguiente gráfico:

32
MÓDULO 1 Raúl A. Marigliano UNT

POLIGONO DE FRECUENCIAS ACUMULADAS


110
100
90
80
% acumulado
70
60
50
40
30
20
10
0
137,5 138 138,5 139 139,5 140 140,5 141 141,5 142

Límites de clase

5. Medidas estadísticas descriptivas


Una vez que los datos han sido obtenidos y organizados, estamos en condiciones de
realizar un análisis descriptivo. En estadística se trabaja con ciertas medidas que se
utilizan para resumir una serie de datos o describir las características de un conjunto
de éstos. Ellas son: las medidas de tendencia central, medidas de posición, las
medidas de dispersión y las medidas de forma.

5.1. Medidas de tendencia central


Las mediciones obtenidas pueden resumirse en un solo valor central alrededor del
cual se distribuyen todos los datos muestrales.
Las medidas de tendencia central, describen la ubicación del centro de una
distribución de mediciones numéricas u ordinales.
Las tres medidas de tendencia central utilizadas con más frecuencia son: media,
mediana y moda. Las tres se emplean con datos numéricos, y la mediana y la moda
pueden utilizarse también para datos ordinales.

5.1.1. Media aritmética


La media aritmética muestral es el promedio aritmético de un conjunto de
determinaciones u observaciones de una muestra obtenida de una población de datos.
Se calcula sumando los valores de todas las observaciones y dividiendo por el número
de mediciones realizadas. Se simboliza con x :

33
MÓDULO 1 Raúl A. Marigliano UNT

x
x i

La media poblacional  es la media verdadera de la población, y se define por la


siguiente ecuación cuando N tiende a infinito:

u
x i

La media aritmética muestral x proporciona una estimación de . Frecuentemente, en

particular cuando el tamaño de la muestra es pequeño, x difiere de  debido a que


una muestra pequeña de datos no representa exactamente a su población.
La media aritmética se emplea cuando las observaciones se miden en una escala
numérica; no debe usarse con datos ordinales debido a la naturaleza arbitraria de la
escala.

Ejemplo 5.1
La siguiente tabla muestra mediciones de colesterol en una muestra de 30 pacientes
dislipémicos con valores iniciales > 250 mg/dL, sometidos a una dieta vegetariana
durante 1 año:

TABLA 5.1. Valores de colesterol en 30 pacientes dislipémicos


sometidos a dieta vegetariana

Paciente Colesterol mg/dL Paciente Colesterol mg/dL Paciente Colesterol mg/dL


1 204 11 180 21 215
2 189 12 215 22 169
3 211 13 172 23 175
4 195 14 204 24 191
5 170 15 183 25 182
6 185 16 191 26 200
7 199 17 195 27 181
8 195 18 174 28 190
9 187 19 209 29 182
10 289 20 205 30 193

Cuando se quiere calcular manualmente la media aritmética, una calculadora de


bolsillo simplifica el trabajo. Una vez que se han introducido los datos, el cálculo se
realiza fácilmente a través de la tecla “ x ”.

34
MÓDULO 1 Raúl A. Marigliano UNT

 Uso de Microsoft Excel


Cuando el número de datos es elevado, resulta conveniente el uso de planillas de
cálculo como Microsoft Excel. Para ello, primeramente se incorporan los datos en una
columna, en este caso desde la celda B2 a la B31. En la celda B1 se ha insertado el
título: “Colesterol mg/dL”

A partir de aquí podemos seguir dos caminos:


Si únicamente nos interesa conocer la media de los datos, podemos utilizar la función
“Promedio” disponible en Microsoft Excel. Para ello nos posicionamos en una celda
vacía de la misma hoja en la que están los datos (por ejemplo la celda B32) y
escribimos: = PROMEDIO (………). Donde figuran los puntos suspensivos, debemos
indicar cuales son las celdas que contienen los datos. En nuestro ejemplo, debemos
escribir: = PROMEDIO (B2:B31):

Luego de apretar Enter, sabremos cual es el promedio de esta muestra: 194,3 mg/dL
(en la celda A32 se ha rotulado “MEDIA”)

Otra forma de calcular la media a través de MS Excel es seleccionar la opción Análisis


de Datos dentro del menú Herramientas. Se abre una ventana en la que
seleccionamos: Estadística descriptiva:

35
MÓDULO 1 Raúl A. Marigliano UNT

Pulsamos Aceptar y se abrirá una nueva ventana en la que incorporaremos los datos
que tenemos ingresados:

Pulsando la flecha roja en Rango de entrada, se incorporan los datos de la siguiente


forma:

La opción “Agrupado por”, se refiere a la forma en que han sido cargados los datos en
la planilla, en este caso debe seleccionarse Columnas.
Debe seleccionarse la opción Rótulos en la primera fila, ya que en la celda B1 se ha
ingresado el título respectivo.

36
MÓDULO 1 Raúl A. Marigliano UNT

También deben definirse las Opciones de Salida, en este caso le pedimos a Excel que
nos arroje los resultados “En una hoja nueva”
Para obtener el resultado que necesitamos debemos seleccionar la opción Resumen
de estadísticas. Si quisiéramos conocer también cual es el mayor valor obtenido, y
cuál es el menor, marcamos K-ésimo mayor y K-ésimo menor.

Haciendo clic en Aceptar, se abre una nueva hoja de Microsoft Excel, con la siguiente
estructura:

De todos los resultados ofrecidos por Excel, nos interesa por ahora sólo el de la
media, en la primera fila de datos, que como vemos es el mismo que el obtenido a
través de la Función Promedio.

37
MÓDULO 1 Raúl A. Marigliano UNT

La razón para utilizar la herramienta Estadística descriptiva, en lugar de un cálculo


simple a través de la fórmula, es valerse de la posibilidad que nos ofrece Excel de
detallar en un cuadro, el resto de medidas descriptivas que aparecen en la tabla, que
serán explicadas más adelante.

MEDIA ARITMÉTICA PARA DATOS AGRUPADOS


Aún cuando hay 30 valores para la variable, si ordenamos los datos de menor a mayor
veremos que sólo hay 24 datos diferentes.
Si construimos una tabla de frecuencias absolutas, podemos incorporar una tercera
columna con el producto de cada valor de la variable por su frecuencia absoluta.

A partir de los valores de esta tabla, puede calcularse la media con la expresión:

x
x i  fa ( x i )
n

TABLA 5.2. Tabla de frecuencias colesterol 30 pacientes

Colesterol mg/dL fa fa . x i
169 1 169
170 1 170
172 1 172
174 1 174
175 1 175
180 1 180
181 1 181
182 2 364
183 1 183
185 1 185
187 1 187
189 1 189
190 1 190
191 2 382
193 1 193
195 3 585
199 1 199
200 1 200
204 2 408
205 1 205
209 1 209
211 1 211
215 2 430
289 1 289
Total 30 5830

38
MÓDULO 1 Raúl A. Marigliano UNT

5830
La media aritmética será: x  194,3 mg/dL
30

En el caso de tener una tabla de distribución de frecuencias con los datos agrupados
en intervalos de clase, el cálculo de la media es un promedio ponderado, que se
obtiene multiplicando el punto medio de cada intervalo por el número de
observaciones que abarca ese intervalo (frecuencia absoluta).

x
x j . fa ( x j )
n

Donde x j es el promedio entre los extremos de cada intervalo, es decir representa el

punto medio del intervalo de clase.

La siguiente es una tabla de frecuencias para los datos de la Tabla 5.1, donde se ha
eliminado el dato del paciente 10. El rango (46) se redondeó a 48 y se dividió en 6
clases de 8 mg/dL:

TABLA 5.3. Distribución de frecuencias colesterol 29 pacientes

Colesterol Frecuencia Punto medio


clases absoluta del intervalo
169-177 5 173
177-185 6 181
185-193 6 189
193-201 5 197
201-209 4 205
209-217 3 213
Total 29

(5  173)  (6 181)  (6 189)  (5 197)  (4  205)  (3  213)


x  190,6
29

El valor obtenido desde una tabla de distribución de frecuencias no siempre es igual al


valor obtenido de las observaciones individuales (191,1), aunque en este ejemplo los
valores se hallan muy próximos. La diferencia se debe a que cuando se agrupan los
datos en clases, se pierde precisión en el cálculo de las medidas descriptivas. Sin
embargo, estas discrepancias son en general despreciables, considerando las
ventajas ganadas al emplear una distribución de frecuencias en el cálculo de la media,
especialmente en muestras grandes.

39
MÓDULO 1 Raúl A. Marigliano UNT

Una propiedad importante de la media aritmética es que la suma algebraica de las


desviaciones entre el valor de cada observación y la media muestral es cero, es decir:

( x i  x)0

Por ejemplo, la media aritmética de los números 8, 3, 5, 12 y 10 es 7,6. Las


desviaciones respecto de su media son:

TABLA 5.4. Propiedad de la media. Sumatoria de los desvíos = 0

xi  x Desviación
8 – 7,6 0,4
3 – 7,6 - 4,6
5 – 7,6 - 2,6
12 – 7,6 4,4
10 – 7,6 2,4
 0

Otras consideraciones sobre la media:

 En un conjunto de observaciones la media es sensible a los valores extremos, ya


que todas las observaciones intervienen en su cálculo. Por ejemplo, el colesterol del
paciente 10 de la tabla 5.1 (289 mg/dL), es alto en relación a los valores del resto
de pacientes de este grupo, y como consecuencia la media se desplaza en esa
dirección. Como vimos, si este valor no estuviera presente, la media sería 191,1 en
lugar de 194,3. Este valor es más representativo de la distribución de datos. Esta
situación debe tenerse en cuenta al decidir sobre que medida de tendencia central
utilizar, o al analizar la dispersión de una serie de datos, como veremos más
adelante.

 Si examinamos el cálculo de la media en una variable discreta, el valor de la media


puede no pertenecer al conjunto de valores de la variable. Consideremos la variable
“número de hijos por familia”. Los datos pertenecientes a 20 familias seleccionadas
aleatoriamente, se resumen en una tabla de frecuencias:

TABLA 5.5. Tabla de frecuencias número de hijos por familia

Nº de
hijos ( x i )
fa x i . fa
3 10 30
4 6 24
2 2 4
5 1 5
6 1 6
Total 20 69

40
MÓDULO 1 Raúl A. Marigliano UNT

x
x i . fa

69
 3 ,45
n 20

Esto significa que la familia promedio es la que presenta entre 3 y 4 hijos. El valor 3,45
es el resultado matemático del cálculo de la media, sin embargo no es un valor
posible de la variable, por su propia definición.

5.1.2. Media geométrica


Se usa menos frecuentemente que la media o la mediana. Se simboliza como MG, y
se calcula:

MG  n ( x 1 ) ( x 2 ) ( x 3 ) .... ( x n )

En general, la media geométrica se usa con datos medidos en escala logarítmica. Si


se obtiene el logaritmo de la expresión anterior:

log MG 
 log x i

n
Es decir, el logaritmo de la media geométrica es igual a la media aritmética de los
logaritmos de las observaciones.

Ejemplo 5.2
Los siguientes valores (expresados como porcentajes) proporcionan la concentración
de anticuerpos en suero sanguíneo de ocho adultos sanos:

2,15 – 1,13 – 2,04 – 1,45 – 1,35 – 1,09 – 0,99 – 2,07

Para calcular la media geométrica es conveniente trabajar con los logaritmos


decimales de los valores obtenidos:

0,332 – 0,054 – 0,310 – 0,161 – 0,130 – 0,037 – (0,004) – 0,316

La media aritmética de estos valores logarítmicos es 0,167. Por lo tanto la media


geométrica de los valores originales es:

MG  10 0 ,167 = 1,47

5.1.3. Mediana
Es el valor que queda en la parte central de un grupo de observaciones ordenadas por
magnitud creciente, es decir, la mitad de los datos son menores y la otra mitad

41
MÓDULO 1 Raúl A. Marigliano UNT

mayores que ella. De acuerdo a esta definición, la mediana no puede calcularse para
variables medidas en escala nominal.
Se simboliza con Me, Md ó M, pero no tiene un símbolo convencional.
Para calcular la mediana de un conjunto de observaciones, lo primero que debe
hacerse es ordenarlos de menor a mayor. Si el número de datos es impar, la mediana
es el valor que está ubicado en el centro. Si se tiene un número par de mediciones, la
mediana se calcula como el promedio entre los dos valores centrales. La posición de
la mediana en un conjunto de datos puede calcularse:

n1
Posición de la mediana 
2

Si tenemos por ejemplo la siguiente serie de datos ordenados, correspondientes a una


variable discreta (n = 7):
22 25 28 32 35 36 38

Como tenemos un número reducido de datos, se puede ver fácilmente que el valor
central es el dato Nº 4, por lo tanto:
Me = 32

La aplicación de la fórmula de ubicación de la mediana nos lleva a igual resultado:

7 1
4
2

Ahora bien, si se tuviera un dato más (n = 8):

22 25 28 32 35 36 38 43

El cálculo de la mediana se realiza promediando los dos valores centrales:

32  35
Me   33,5
2

Si aplicamos la fórmula para conocer que posición tiene la mediana en este caso:

8 1
 4,5
2

El valor 4,5 indica que la mediana se ubica entre el cuarto y quinto lugar, exactamente
en el centro de ambos valores, y se calcula como vimos, promediando estos valores.

42
MÓDULO 1 Raúl A. Marigliano UNT

Es importante apreciar que, el valor central de la serie de datos, calculado a través de


la mediana es 33,5, aunque el mismo no sea un valor posible de la variable en este
ejemplo (variable discreta).
Continuando con el ejemplo 5.1, si analizamos la respuesta entregada por Excel a
través de la Herramienta Estadística descriptiva, vemos que en el mismo cuadro, en la
tercera fila, aparece la Mediana:

Este valor indica que la mitad de los pacientes observados tiene un resultado de
colesterol más bajo a 191 mg/dL, y la otra mitad tiene un resultado más alto.

MEDIANA PARA DATOS AGRUPADOS


Cuando tenemos datos continuos agrupados en clases, se utiliza la siguiente fórmula
de interpolación:
n
 Fi  1
Me  Li  2  ai
Fi  Fi  1

Donde:
n/2 = semisuma del total de frecuencias absolutas (o del total de datos)
Fi  1 = es la mayor de las frecuencias acumuladas que no supera a n/2

Fi = es la frecuencia acumulada que le sigue a Fi  1

Li = es el extremo inferior del intervalo que tiene como frecuencia acumulada Fi

a i = amplitud de dicho intervalo

Tomando el ejemplo de la tabla 5.3, donde hemos incluido una tercera columna con el
cálculo de la frecuencia acumulada:

TABLA 5.3. Distribución de frecuencias colesterol 29 pacientes

Colesterol Frecuencia Frecuencia


clases absoluta acumulada
169-177 5 5
177-185 6 11
185-193 6 17
193-201 5 22
201-209 4 26
209-217 3 29
Total 29

43
MÓDULO 1 Raúl A. Marigliano UNT

n/2 = 29/2 = 14,5


Fi  1 = 11

Fi = 17

Li = 185

ai = 8
El cálculo de la mediana es:

14 ,5  11
Me  185   8  189 ,7 mg / dL  190 mg/dL
17  11

Recordemos que el cálculo obtenido desde una tabla de distribución de frecuencias no


siempre es igual al valor obtenido de las observaciones individuales, pues se pierde
precisión en el procesamiento de datos. En este caso Excel entrega, para los 29 datos
sin agrupar, un valor para la mediana = 191 mg/dL

Propiedades de la mediana:

 Es de cálculo rápido y de interpretación sencilla

 Es independiente de la distribución, y no es afectada por valores extremos.

 Otra característica útil de la mediana es que puede utilizarse con observaciones


ordinales.

3.1.3. Moda o Modo


Es el valor de la variable que se presenta con mayor frecuencia en un conjunto de
observaciones. Se simboliza con Mo
Si consideramos el ejemplo dado en la Tabla 4.2, la moda es Escherichia coli, bacteria
aislada con mayor frecuencia en 30 muestras de orina.

44
MÓDULO 1 Raúl A. Marigliano UNT

Continuando con el ejemplo 5.1 de valores de colesterol, en el mismo cuadro de Excel


que nos proporcionaba la media y la mediana, encontramos la moda en la cuarta fila:

De este resultado se concluye que el resultado que más veces se repite en la muestra
de 30 pacientes es 195 mg/dL.
Algunas veces, existen observaciones que se repiten igual número de veces en un
conjunto de datos. Por ejemplo, consideremos los valores:

10 3 10 12 9 7 9 7 10 8 6 7

A esto se le llama distribución bimodal, debido a que hay dos modas en la serie de
datos correspondientes a los valores 7 y 10, cada uno con frecuencia 3.
Si construimos una tabla de frecuencias, tenemos:

TABLA 5.5. Distribución bimodal

Datos fa
3 1
6 1
7 3
8 1
9 2
10 3
12 1

Observaciones sobre la moda:

 La moda es un buen indicador del centro de los datos sólo si hay una frecuencia
dominante. Cuando se da el caso de una distribución bimodal, se puede interpretar
que se están considerando dos distribuciones unimodales.

 Cuando se mide una variable continua, existe la probabilidad de obtener valores


diferentes en todas las mediciones. En este caso hipotético no existe valor modal,
pues el conjunto de datos no contiene mediciones que se presenten más de una
vez.

 También puede ocurrir que todos los valores sean el modo, debido a que cada uno
de ellos se presenta igual número de veces.

45
MÓDULO 1 Raúl A. Marigliano UNT

MODA PARA DATOS AGRUPADOS


Cuando los datos están agrupados en clases, la moda se expresa como “clase modal”
que representa al intervalo de valores con mayor frecuencia.
Por ejemplo, si consideramos el ejemplo la tabla de distribución de frecuencias 4.7, se
observa que los datos agrupados se concentran más o menos simétricamente
alrededor de un intervalo central que corresponde a la clase con más frecuencia:
139,5-140,0 mmol/L. Este intervalo se denomina intervalo modal, o clase modal:

TABLA 5.6. Intervalo modal

Clases o Frecuencia Frecuencia


Porcentaje
Intervalos Absoluta Relativa
138,0 - 138,5 3 0,06 6,0 %
138,5 - 139,0 4 0,08 8,0 %
139,0 - 139,5 10 0,20 20,0 %
139,5 - 140,0 15 0,30 30,0 %
140,0 - 140,5 9 0,18 18,0 %
140,5 - 141,0 6 0,12 12,0 %
141,0 - 141,5 3 0,06 6,0 %

Algunos autores calculan la moda como el punto medio de los límites del intervalo
modal, en este caso:
139 ,5  140
 139 ,8  140 mmol / L
2

Para datos agrupados, puede calcularse la moda a través de la siguiente expresión:

f1
Moda  Li  a i
f1  f2

Siendo: Li = extremo inferior del intervalo modal

a i = amplitud del intervalo modal

f 1 = Frecuencia del intervalo modal menos la frecuencia del intervalo


anterior
f 2 = Frecuencia del intervalo modal menos la frecuencia del intervalo
posterior
Tomando los valores de la tabla 5.6:

Li = 139,5
a i = 0,5
f 1 = 15 – 10 = 5
f 2 = 15 – 9 = 6

46
MÓDULO 1 Raúl A. Marigliano UNT

Entonces, el cálculo de la moda es:

5
Moda  139 ,5  0 ,5  139 ,7  140 mmol / L
56

Propiedades de la moda:

 La moda es un valor de la variable, y la frecuencia de este valor establece su


importancia estadística.
 Es la única medida de tendencia central que puede utilizarse para datos
cualitativos, es decir para una variable medida en escala nominal.

 USO DE LAS MEDIDAS DE TENDENCIA CENTRAL


Dado un conjunto de observaciones, podemos preguntarnos qué medida de tendencia
central es mejor. Para tomar esta decisión son importantes dos factores:

11.. El tipo de variable y la escala de medición utilizada

22.. La forma de la distribución de las observaciones

Tipo de variable y escala de medición: Aunque las distribuciones se estudiarán más


adelante, puede considerarse aquí si un conjunto de datos se distribuye
simétricamente alrededor de la media, o si se sesga a la izquierda o a la derecha de la
media.

Ejemplo 5.3
Supongamos que una empresa de venta de productos para diagnóstico, tiene
catalogados a los laboratorios de un determinado distrito de acuerdo a los siguientes
parámetros:

1. La zona en que están instalados


2. Un índice de jerarquía (calculado considerando su complejidad, superficie
ocupada, número de pacientes/día y cantidad de empleados)
3. Facturación mensual en pesos.

El registro de los datos se muestra en la siguiente tabla:

47
MÓDULO 1 Raúl A. Marigliano UNT

TABLA 5.7. Laboratorios según zona, índice de jerarquía y facturación mensual

Índice de
Laboratorio Zona Facturación
jerarquía
A 1 4 19.000
B 2 3 20.000
C 2 5 40.000
D 4 1 10.000
E 3 4 22.000
F 4 2 13.000
G 4 5 35.000
H 5 4 17.000
I 3 1 13.500
J 2 2 11.000

Si observamos las tres variables (zona, índice de jerarquía, facturación), parecería que
puede calcularse en todos los casos, la media, la mediana y la moda.
Sin embargo, en las variables zona y jerarquía, algunas de estas medidas no
proporcionan un resultado que sea de utilidad. Por ejemplo, no tiene ninguna
interpretación lógica decir que la media aritmética de las zonas es 3, debido a que la
variable categórica zona no está medida en una escala numérica, sino en una escala
nominal.
Cuando se analiza este tipo de variable, la única medida de posición que tiene sentido
es la moda. Es apropiado decir que la zona 2 (Moda) es la que concentra mayor
cantidad de laboratorios.
Si consideramos la variable Índice de jerarquía, también la moda es una medida
comprensible. En el ejemplo, podemos decir que hay más laboratorios con Índice de
jerarquía 4. Esta variable, definida como un índice, es una variable categórica ordinal,
pero no numérica, pues no indica en que grado es más jerárquico un laboratorio de
índice 5 comparado con uno de índice 3.
En este caso también se puede calcular la mediana que es 3,5. Su única interpretación
sería que la mitad de los laboratorios tiene una jerarquía mayor que 3,5 y que la otra
mitad tiene un valor menor a 3,5.

Para la variable Facturación mensual, variable numérica continua, tiene sentido el


cálculo de las tres medidas de tendencia central.
El promedio de Facturación mensual es 20.050 pesos, y la mediana 15.250 pesos.
Esta diferencia en los valores de la media y la mediana, se explica por la asimetría de
la distribución como veremos más adelante.

48
MÓDULO 1 Raúl A. Marigliano UNT

Con respecto al modo, al tener cada uno de los valores de la variable la misma
frecuencia (1), no existe un valor modal.

Forma de la distribución de las observaciones: La forma que adopta la distribución


de frecuencias es otro factor que puede influir sobre la elección de la medida de
posición más adecuada:

 Cuando la distribución es bimodal, ninguna medida de posición resulta de utilidad.

 Cuando la distribución es asimétrica, de acuerdo a la dirección de la asimetría,


existen valores atípicos muy chicos o muy grandes. Estos valores distorsionan el
valor de la media aritmética y pierde representatividad. En este caso es conveniente
usar la mediana como medida de tendencia central.

En la siguiente figura se presentan distintos tipos de distribución de frecuencias,


mostrando la posición relativa de la media, la mediana y la moda:

Figura 5.1. Distribuciones simétricas y asimétricas

La distribución (a) tiene la cola del lado izquierdo más prolongada que la de la
derecha, y recibe el nombre de distribución asimétrica hacia la izquierda, o distribución
con sesgo negativo. La media es menor que la mediana y la moda.

La distribución (b) es una distribución simétrica, pues las frecuencias a ambos lados
de las medidas de posición son iguales. Las tres medidas de tendencia central
coinciden.
En la distribución (c) la cola del lado derecho es más larga que la de la izquierda, y se
denomina distribución asimétrica hacia la derecha, o distribución con sesgo positivo.
La media es mayor que la mediana y la moda.
Las siguientes reglas ayudan a decidir la medida de tendencia central que conviene
utilizar para un conjunto determinado de datos:

49
MÓDULO 1 Raúl A. Marigliano UNT

a) La media se usa para datos numéricos y distribuciones simétricas (no sesgadas).

b) La mediana se emplea para datos ordinales o numéricos con distribución


sesgada.

c) La moda se usa en general para un número grande de observaciones, donde el


investigador necesita apreciar el valor más frecuente.

5.1.4. Medidas de posición: cuantiles o fractiles


Vimos que si un conjunto de datos está ordenado por magnitud, el valor central (o el
promedio de los dos centrales) que divide al conjunto en dos partes iguales es la
mediana. Extendiendo este concepto estudiaremos a continuación medidas de
posición no centrales, que se obtienen ordenando los datos por orden creciente, y
estipulando puntos que dividan a la serie en grupos de igual cantidad de
observaciones. Estas medidas se denominan en general “fractiles” o “cuantiles”.

 CUARTILES
Son valores de la variable que dividen al conjunto de datos ordenados de menor a
mayor, en cuatro grupos que contienen igual cantidad de datos. Se simbolizan con Q.


 Hay tres cuartiles (Q1, Q2 y Q3) que dividen a un conjunto de datos en cuatro
partes iguales.


 Los cuartiles determinan los valores correspondientes al 25 %, 50 % y 75 % de los
datos.

Para el cálculo de cuartiles se sigue el mismo procedimiento que para la mediana,


salvo que ahora dividiremos a la distribución en cuatro subconjuntos iguales.

Ejemplo 5.4
Se han registrado mediciones de un material de control para glucosa, obteniéndose los
siguientes valores (mg/dL) ordenados de menor a mayor en 10 días consecutivos:

El Q2 de este grupo de datos coincide con la mediana, y se ubica entre el 5° y 6° valor


de la serie:

50
MÓDULO 1 Raúl A. Marigliano UNT

156  157
Me = Q2 = = 156,5 mg/dL
2

En general, para el cálculo de la posición del cuartil, se utiliza la siguiente expresión:

n  ordinal del cuartil


Posición del Q n   0 ,5
4

El primer cuartil, divide a la primera mitad de la serie en dos partes iguales, por lo que
Q1 se ubicará en el 3° valor de la serie. Aplicando la expresión anterior:

10  1
Posición del Q1   0 ,5  3
4

Es decir, el Q1 es el 3° valor de la serie:

Q1 = 154 mg/dL

Esta medida nos indica que el 25% del conjunto de datos mide menos que 154 mg/dL,
y el 75 % mide más que 154 mg/dL
De igual forma, el Q3 divide a la segunda mitad de datos en dos partes iguales:

10  3
Posición del Q 3   0 ,5  8
4
O sea:
Q3 = 157 mg/dL

Este valor indica que el 75% de las mediciones del control está por debajo de 157
mg/dL, y el 25% son mayores a 157 mg/dL.

 DECILES
Análogamente a los cuartiles, los deciles son valores de la variable que dividen al
conjunto de datos ordenados de menor a mayor, en diez grupos que contienen igual
cantidad de datos. Se simbolizan con D.


 Hay 9 deciles (D1, D2 … D9) que dividen a un conjunto de datos en diez partes
iguales

51
MÓDULO 1 Raúl A. Marigliano UNT


 Los deciles son los valores correspondientes al 10 %, 20 %,...., y al 90 % de los
datos.

El quinto decil coincide con el segundo cuartil y la mediana. En general, para el cálculo
de la posición de los deciles, se utiliza la siguiente expresión:

n  ordinal del decil


Posición del D n   0 ,5
10

 PERCENTILES
Son valores de la variable que dividen al conjunto de datos ordenados de menor a
mayor, en cien grupos que contienen igual cantidad de datos. Se simbolizan con P.

 Hay 99 percentiles (P1, P2 … P99) que dividen a un conjunto de datos en cien partes
iguales

 Los percentiles dan los valores correspondientes al 1 %, 2 %,… y al 99 % de los


datos

Los tres cuartiles, Q1, Q2 y Q3, coinciden con los percentiles 25, 50 y 75. La mediana
es el percentil número 50.

Para el cálculo de la posición de los percentiles se utiliza una expresión similar que las
anteriores:

n  ordinal del percentil


Posición del Pn   0 ,5
100

Los percentiles tienen el mismo significado que los cuartiles. Así cuando se habla del
percentil 20, se quiere expresar que es el valor de la variable que deja el 20% de los
datos a la izquierda y el 80% a su derecha.
El uso más frecuente de los percentiles es para la comparación de un valor individual
con normas establecidas. Se emplean de manera extensa para desarrollar e
interpretar tablas de crecimiento físico en pediatría y en mediciones de destreza e
inteligencia.
También se utilizan para determinar valores o límites de referencia en laboratorios
clínicos. Los valores de referencia se establecen entre los percentiles 2,5 y 97,5, de
modo que estos límites contienen el 95% central de la distribución de mediciones de
una determinada magnitud.

52
MÓDULO 1 Raúl A. Marigliano UNT

Para ejemplificar el cálculo de cuartiles y percentiles, tomaremos nuevamente el


ejemplo 4.5, particularmente la tabla 4.5 con los datos ordenados de menor a mayor:

Na Na Na Na Na
Nº Nº Nº Nº Nº
mmol/L mmol/L mmol/L mmol/L mmol/L
1 138,1 11 139,2 21 139,8 31 140,0 41 140,3
2 138,5 12 139,5 22 139,8 32 140,0 42 140,6
3 138,5 13 139,5 23 139,8 33 140,1 43 140,6
4 138,8 14 139,5 24 140,0 34 140,1 44 140,8
5 138,8 15 139,5 25 140,0 35 140,1 45 140,8
6 139,0 16 139,5 26 140,0 36 140,1 46 141,0
7 139,0 17 139,5 27 140,0 37 140,1 47 141,0
8 139,2 18 139,8 28 140,0 38 140,3 48 141,1
9 139,2 19 139,8 29 140,0 39 140,3 49 141,1
10 139,2 20 139,8 30 140,0 40 140,3 50 141,2

Por ejemplo, el cálculo de los percentiles 25, 50 y 75:


50  25
 Posición del P25   0,5  13  P25 = 139,5 = Q1
100

50  50 140  140
 Posición del P50   0,5  25,5  P50   140 = Q2 = Me
100 2

50  75
 Posición del P75   0,5  38  P75 = 140,3 = Q3
100

Podemos utilizar la función de Microsoft Excel llamada Percentil. En primer lugar


debemos completar una columna en la planilla de cálculos con los valores de la
concentración de sodio obtenidos:

Luego escribimos en una celda separada de la columna anterior: = Percentil (.…;..…)


En el espacio ocupado por los puntos suspensivos, se completan los datos. A la
izquierda se incluye la matriz de datos, en este caso A2:A51. A la derecha se indica

53
MÓDULO 1 Raúl A. Marigliano UNT

cuál es el percentil que necesitamos conocer. Por ejemplo, si queremos conocer el


valor del percentil 80, consignamos el valor 0,8:

Hacemos Enter y obtenemos el valor del percentil 80: 140,3 mmol/L

Este valor indica que el 80% de los datos son menores o iguales a 140,3 mmol/L y el
20% restante, iguales o mayores a 140,3 mmol/L.
Obsérvese que el valor 140,3 es el mismo que habíamos calculado en el punto
anterior para el percentil 75. Esto es así, pues el valor 140,3 se repite 4 veces en la
serie de datos, ocupando las posiciones 38, 39, 40 y 41.
Algunos autores utilizan para el cálculo de la posición de fractiles las siguientes
expresiones:

n  ordinal del fractil


Posición del fractil  (1)
100

( n  1 )  ordinal del fractil


Posición del fractil  (2)
100

Si utilizamos la expresión (1) la posición del percentil 75 quedaría:

50  75
Posición del P75   37 ,5
100

Lo que significa que el valor buscado se encuentra entre el dato 37 y 38, es decir:

140 ,1  140 ,3
P75   140 ,2 mmol / L
2

54
MÓDULO 1 Raúl A. Marigliano UNT

Si utilizamos la ecuación (2):

51  75
Posición del P75   38 ,25
100

En este caso el valor buscado se encuentra entre el dato 38 y 39, es decir:

140 ,3  140 ,3
P75   140 ,3 mmol / L
2

El cálculo de P75 utilizando la función de Excel “Percentil” es 140,25 mmol/L, que no


difiere mucho de los valores calculados manualmente (140,2 ó 140,3 mmol/L):

Microsoft Excel nos permite además recurrir a la herramienta Análisis de datos para el
cálculo de percentiles. La utilización de esta herramienta de Excel, ofrece una gran
utilidad en la interpretación de datos que surgen de mediciones realizadas para
evaluar puntajes en pruebas de capacidad, destreza e inteligencia. Esta función
permite establecer un umbral de aceptación.
Por ejemplo, se podrá examinar a los candidatos cuya calificación sea por ejemplo,
superior al nonagésimo percentil, o menor al quincuagésimo percentil.

Ejemplo 5.5
Supongamos que se desea establecer un orden de mérito entre 20 inscriptos al curso
de estadística en base al puntaje obtenido en la evaluación final del curso. La prueba
de evaluación consiste en 20 preguntas, cada una de las cuales tiene asignado un
puntaje de 5 puntos, de manera que el puntaje máximo para todas las respuestas
correctas es 100. Se desea seleccionar los inscriptos cuya calificación sea igual o
mayor al P50, que tendrán la posibilidad de acceder a un curso de nivel superior.

En la tabla siguiente se muestran los puntajes obtenidos en la prueba de evaluación:

55
MÓDULO 1 Raúl A. Marigliano UNT

Tabla 5.8. Puntajes obtenidos en la prueba de evaluación


Inscripto N° Puntaje Inscripto N° Puntaje
1 60 11 60
2 45 12 100
3 40 13 80
4 50 14 85
5 100 15 70
6 90 16 75
7 85 17 55
8 90 18 95
9 50 19 80
10 55 20 75

Incorporamos los datos en una columna:

Seleccionamos del menú Herramientas la opción Análisis de datos  elegimos:


Jerarquía y Percentil

Haciendo clic en Aceptar, se abre la siguiente ventana, que completamos con los
datos del ejercicio.

56
MÓDULO 1 Raúl A. Marigliano UNT

En Rango de entrada, incorporamos los datos. Debe seleccionarse la opción Rótulos


en la primera fila. En Opciones de Salida, le pedimos a Excel que nos arroje los
resultados “En una hoja nueva”. Hacemos clic en Aceptar, y se abrirá una nueva hoja
con los resultados:

 En la columna Posición aparece el orden en que fue ingresado cada valor de la


variable.

 La columna Puntaje muestra un arreglo de los datos en orden descendente.

 La Jerarquía es un ordenamiento de los datos que indica el tamaño de un


determinado valor en relación a los demás. La jerarquía 1 le corresponde al dato de
mayor valor (100), y la número 20 al de menor valor (40). Aquellos datos que

57
MÓDULO 1 Raúl A. Marigliano UNT

poseen un mismo valor son jerarquizados en igual categoría, lo que afecta a la


jerarquía de los valores subsiguientes. Por ejemplo, el valor 75 aparece dos veces y
tiene la jerarquía 10, entonces el dato subsiguiente (70) tendrá jerarquía 12 (ningún
valor tendrá jerarquía 11).

 La columna Porcentaje devuelve el k-ésimo percentil de los valores de un rango, es


decir nos informa el Percentil correspondiente a cada grupo de datos con
igual jerarquía. Debe notarse que a cada valor de igual jerarquía le corresponde el
mismo valor percentil, lo que origina una diferencia en los cálculos realizados
manualmente, o a través de la función “Percentil” de Excel.

 Los inscriptos cuyo puntaje es igual o mayor al quincuagésimo percentil, son los
jerarquizados con 1, 3, 4, 6 y 8, es decir 9 de los 20 inscriptos, lo que representa un
45% del total.

5.2. Medidas de dispersión


Aunque para algunos propósitos un promedio puede ser una descripción suficiente de
una población o una muestra, resulta igualmente importante describir la forma en que
las observaciones están diseminadas o dispersas a cada lado del centro.
Una característica muy importante de los datos analíticos es su variabilidad o
dispersión. Una dispersión pequeña indica un alto grado de uniformidad en las
observaciones; una dispersión grande indica poca uniformidad.
Por otra parte, podemos darnos cuenta instintivamente que una medida de tendencia
central es más representativa del total de las observaciones si la variabilidad del
conjunto es pequeña.
Por ejemplo, tomemos dos conjuntos de datos:

189 – 190 – 191

184 – 190 – 196

Si calculamos la media, en ambos casos es 190. Pero se puede observar que el valor
190 describe mejor al primer conjunto de datos, pues los tres valores son más
parecidos entre sí, y a su vez más parecidos al promedio que cuando se observa el
segundo conjunto de datos.

Las medidas de dispersión indican la concordancia entre dos o más medidas u


observaciones. Hay varias formas de expresar la dispersión:

58
MÓDULO 1 Raúl A. Marigliano UNT

5.2.1. Rango
Es una medida de la amplitud total de la variación. Recordemos que ya hablamos del
rango cuando calculamos intervalos de clase en una variable continua.
Se denomina rango a la diferencia entre el valor más alto y el más bajo de una serie
de datos. Se simboliza con R:

R  xmax  xmin

Como medida de dispersión, el rango es completamente dependiente de los dos


valores extremos que toma la variable.
En las dos series de datos considerados en el ejemplo anterior, el rango para la
primera muestra es:
191 – 189 = 2

Y en el caso de la segunda muestra:

196 – 184 = 8

El rango se utiliza en situaciones limitadas, pues depende sólo de dos valores, el


mayor y el menor, que tienden a aumentar a medida que aumenta el tamaño de la
muestra. Por otra parte no refleja la mayor o menor variabilidad de los datos entre sí, o
en relación al centro de la distribución.
El rango resulta adecuado únicamente cuando el número de datos es pequeño ( 10),
o cuando sólo se desea conocer la extensión de variaciones extremas, tales como los
precios bajo y alto de acciones, o las temperaturas extremas de un cierto día.
Vimos que Excel proporciona en la Herramienta: Análisis de datos  Estadística
descriptiva, además del Rango, los valores mínimo y máximo. Si tomamos como
ejemplo los valores de Na del ejemplo 4.2, obtenemos una tabla de valores
descriptivos. Los valores que nos interesan están en las filas 8, 9 y 10:

5.2.2. Desviación media


Una desviación, que simbolizaremos d i , es la diferencia entre cualquier resultado y un

punto de referencia, por ejemplo el promedio de la serie:

d i  xi  x

59
MÓDULO 1 Raúl A. Marigliano UNT

Si lo que se desea es tener una medida de la forma en que cada valor de la variable
se dispersa alrededor de la media, sería una buena idea calcular una medida que
resuma las desviaciones, que podría ser la desviación promedio o media de las
desviaciones. En símbolos sería:

Desviación promedio 
 x i  x
n

Es convencional restar el promedio del resultado, obteniéndose por lo tanto valores


negativos y positivos. Tomemos nuevamente el ejemplo citado de las dos series de
datos:

Primera muestra: 189 – 190 – 191  x  190

d1 = 189 – 190 =  1
d2 = 190 – 190 = 0
d3 = 191 – 190 = 1
= 0

Segunda muestra: 184 – 190 – 196  x  190

d1 = 184 – 190 =  6
d2 = 190 – 190 = 0
d3 = 196 – 190 = 6
= 0
Si quisiéramos comparar las dispersiones de ambas muestras aplicando la expresión
del promedio de las desviaciones, nos encontramos que en ambos casos el resultado
de sumar cada desviación con su signo es = 0
Lo que acabamos de comprobar, es una de las propiedades de la media aritmética ya
vista, que dice que la suma de las desviaciones de cada valor de la variable con
respecto a la media aritmética es = 0:

( x i  x)0

Esto significa que el valor de esta medida sería siempre cero. Este problema puede
solucionarse de dos formas: sumando los valores absolutos de las desviaciones, o
elevando el cuadrado cada desviación antes de sumarlas.
Si consideramos el valor absoluto de las desviaciones, podemos definir lo que se
conoce como desviación media. Se simboliza con d ó Dm:
En el ejemplo citado sería:
101
d1   0 ,67
3
60
MÓDULO 1 Raúl A. Marigliano UNT

606
d2  4
3
La desviación media mide entonces el promedio de los valores absolutos de las
diferencias entre los valores observados respecto a la media de su grupo.
Se expresa como:

d 
x i  x
ó d 
d i

n n

5.2.3. Desviación estándar


En el punto anterior vimos que la mejor forma de reflejar la mayor o menor dispersión
de los datos alrededor de un cierto punto de referencia, es utilizar la desviación de
cada valor individual con respecto al valor de referencia establecido, en el ejemplo
visto, la media. Para el cálculo de la desviación media, utilizamos los valores absolutos
de los desvíos, para evitar que el resultado sea cero.
Ahora emplearemos el segundo enfoque, y mediante otro artificio matemático,
elevaremos cada desviación al cuadrado. Se extrae luego la raíz cuadrada para
obtener la escala original de medición de la variable, y además, n – 1 reemplaza a n
en el denominador. Obtenemos así una nueva medida de dispersión muy utilizada, y
ampliamente conocida, que se denomina desviación estándar. Se usa para
distribuciones normales o gaussianas.
La desviación estándar muestral es un estimador de la desviación estándar de la
población, se simboliza con s y se calcula:

 x  x
2
i
s
n1

Para una serie infinita de datos, la desviación estándar de la población se simboliza

con  y se calcula:

( x i )2
 
N

La razón para el uso de n – 1 en lugar de N en el cálculo de la desviación estándar


muestral es complicada. Cuando el número de resultados es grande, los cálculos
resultan similares. Sólo diremos, sin demostrarlo, que el uso de n – 1 proporciona una
estimación más precisa de la desviación estándar poblacional  a través de s .

61
MÓDULO 1 Raúl A. Marigliano UNT

Por otra parte, si observamos el numerador de la primera expresión, vemos que


implica la sumatoria de las desviaciones al cuadrado de cada dato con respecto a la
media. Si hay n observaciones, también habrá n desviaciones. Puesto que la suma de
las desviaciones equivale a cero, una vez que conocemos n – 1 desviaciones, la
última desviación ya está determinada como el valor que originará que la suma de las
desviaciones sea cero. Por lo tanto, sólo n – 1 desviaciones -que se conoce como
grados de libertad- dan una medida independiente de la precisión de la serie.

Muchas calculadoras científicas y paquetes informáticos tienen incorporada la función


de desviación estándar. Si se usan estas funciones para pequeñas series de datos,
debemos asegurarnos si la función utilizada usa el número de grados de libertad ó N.
En las calculadoras de bolsillo generalmente se encuentran las funciones: n y n-1.
Debe usarse la segunda función para el cálculo de la desviación estándar de una
muestra.

Ejemplo 5.6
Como ejemplo para cálculo, consideraremos el calibrado de una pipeta de 10 mL. Para
hacer esta experiencia, se pesa un pequeño matraz con su tapón, y se vierte en él,
mediante la pipeta que se quiere calibrar, un volumen de 10 mL de agua destilada. Se
tapa el matraz, y se pesa nuevamente. Se mide también la temperatura del agua para
establecer su densidad. Luego se calcula el peso del agua por diferencia entre las dos
pesadas; dividiendo esta diferencia por la densidad del agua se encuentra el volumen
vertido por la pipeta.
En la tabla 5.6 se muestran los datos que resultan de repetir la experiencia veinte
veces:

TABLA 5.6 Calibración de una pipeta de 10 mL

Ensayo Volumen (mL) Ensayo Volumen (mL)


1 9,988 11 9,994
2 9,973 12 9,976
3 9,980 13 9,981
4 9,975 14 9,991
5 9,990 15 9,983
6 9,978 16 9,965
7 9,971 17 9,977
8 9,982 18 9,980
9 9,988 19 9,983
10 9,994 20 9,979

Para realizar el cálculo de la desviación estándar de esta muestra con Microsoft Excel
en primer lugar debemos incorporar los datos en una columna, de la misma forma que
en el ejercicio para el cálculo de media, mediana y modo:

62
MÓDULO 1 Raúl A. Marigliano UNT

Como en el ejercicio de cálculo de la media, tenemos dos opciones: nos posicionamos


en una celda vacía, por ejemplo B22, y escribimos: = DESVEST (b2:b21):

Presionamos Enter y obtenemos la desviación estándar de la muestra (en la celda A22


se ha rotulado “Desv estand”):

Si repetimos los pasos llevados a cabo para encontrar la media: Menú Herramientas
 Análisis de datos  Estadística descriptiva, Excel nos devolverá el siguiente
cuadro:

63
MÓDULO 1 Raúl A. Marigliano UNT

El resultado que buscamos está en la quinta fila:

Observaciones sobre la desviación estándar:

 Al igual que la media y la varianza, es un índice muy sensible a las puntuaciones


extremas

 Cuanto más pequeña sea la desviación estándar mayor será la concentración de


datos alrededor de la media

 Siempre será un valor positivo, o cero en el caso de que las observaciones sean
iguales

 No se recomienda su uso como medida de dispersión, cuando tampoco lo sea el de


la media como medida de tendencia central

5.2.4. Varianza
La varianza es el cuadrado de la desviación estándar. La varianza muestral se
simboliza con s 2 , y la varianza poblacional con  2 . Las fórmulas de cálculo surgen
elevando al cuadrado las expresiones matemáticas de las desviaciones estándar
respectivas:

 x  x  x  
2 2
2 i 2 i
s   
n1 N

64
MÓDULO 1 Raúl A. Marigliano UNT

Los numeradores de ambas expresiones son sumatorias de cuadrados, lo que altera la


unidad de medida de la magnitud, y de alguna forma “pierde sentido” como medida de
dispersión. En el ejemplo anterior, la varianza se encuentra en la sexta fila del cuadro
de medidas estadísticas descriptivas otorgadas por Excel. La varianza de los
volúmenes emitidos por la pipeta de 10 mL en una muestra de 20 repeticiones de la
experiencia es 5,2905  10-5 mL2 :

Su importancia se pondrá de manifiesto cuando analicemos la propagación de errores


aleatorios, y en algunas pruebas estadísticas utilizadas en estadística inferencial.

Observaciones sobre la varianza:

 Al igual que la desviación estándar, es sensible a la variación de cada una de las


observaciones, es decir, si una observación cambia, cambia con ella la varianza

 Es un índice muy sensible a los valores extremos

 No es recomendable su uso, cuando tampoco lo sea el de la media como medida


de tendencia central

5.2.5. Desviación estándar relativa. Coeficiente de variación


Es una medida muy útil de la dispersión relativa de los datos, conocida también como
desviación estándar relativa (DER), que se calcula dividiendo la desviación estándar
por la media de la serie de datos:

s
DER 
x

Cuando la DER se multiplica por 100, se denomina coeficiente de variación. Se


simboliza con CV:

s
CV   100
x

El coeficiente de variación de la serie de datos de la tabla 7.6 es:

0 ,072736
CV   100  0 ,73 %
9 ,9822

65
MÓDULO 1 Raúl A. Marigliano UNT

A medida que el CV disminuye, la serie de datos es más homogénea, o lo que es lo


mismo, los datos están más concentrados alrededor del promedio. El valor 0,73%
calculado más arriba indica una buena precisión de los datos obtenidos.
Las desviaciones estándar relativas dan una idea más clara de la calidad de los datos
que las desviaciones estándar absolutas. Dado que surge de un cociente entre dos
cantidades expresadas en la misma unidad de medida, es independiente de ella, y
proporciona una imagen real de la dispersión. Es por ello que el CV es una
herramienta muy útil en procedimientos de control de calidad, para comparar la
homogeneidad de dos o más series de datos aún cuando estén expresados en
distintas unidades de medida, y resulta nuevamente importante en los cálculos de
propagación de errores.

Ejemplo 5.7
La presión sistólica (ps) presenta en un grupo de pacientes con arteriosclerosis una
media de 130 mm Hg, y una varianza de 15 (mm Hg)2. Para los mismos individuos se
ha registrado la concentración de colesterol (col), obteniendo una media de 2,40 g/L y
una varianza de 0,12 (g/L)2. Cuál de las dos distribuciones presenta mayor
variabilidad?

15
CV ps  100  2 ,98%
130

0 ,12
CV col  100  14 ,4%
2 ,40

La distribución que presenta mayor dispersión es la de colesterol.

6. Análisis exploratorio de datos


6.1. Introducción
Hemos visto los procedimientos clásicos de la estadística descriptiva, que recoge,
ordena y representa datos utilizando tablas de frecuencia, o gráficos como
histogramas o polígonos de frecuencia. Además calcula medidas descriptivas de
posición y de dispersión basadas en la desviación de datos con respecto a una media.
Existen otras técnicas exploratorias que intentan además encontrar anomalías en las
distribuciones univariadas, determinando modelos de comportamiento de los datos.

66
MÓDULO 1 Raúl A. Marigliano UNT

Si consideremos los datos del ejemplo 5.1, con los datos ordenados de menor a
mayor:

TABLA 6.1. Colesterol 30 pacientes. Datos ordenados en orden ascendente

Paciente Colesterol mg/dL Paciente Colesterol mg/dL Paciente Colesterol mg/dL


1 169 11 185 21 199
2 170 12 187 22 200
3 172 13 189 23 204
4 174 14 190 24 204
5 175 15 191 25 205
6 180 16 191 26 209
7 181 17 193 27 211
8 182 18 195 28 215
9 182 19 195 29 215
10 183 20 195 30 289

A partir de estos datos podemos construir una tabla de frecuencias. Para ello el rango
(120) se redondeó a 130 y los datos se agruparon en clases de 10 mg/dL de
amplitud*:

TABLA 6.2. Distribución de frecuencias colesterol 30 pacientes

Clases fa
165-175 5
175-185 6
185-195 9
195-205 5
205-215 4
215-225 0
225-235 0
235-245 0
245-255 0
255-265 0
265-275 0
275-285 0
285-295 1

Como se observa en la tabla 6.2, el número de intervalos es > n . El procedimiento


en este caso fue priorizar la selección de la amplitud de cada intervalo, de manera tal
que nos permita apreciar: a) el efecto del valor discrepante (289 mg/dL) en la serie de
datos, y b) la distribución de los 29 valores restantes. Haciendo esta consideración se
definieron clases de 10 mg/dL, quedando conformados 13 intervalos de igual amplitud.
En las siguientes figuras se muestran dos Histogramas construidos a partir de la tabla
6.2, el primero obtenido con Excel 2003, y el segundo con Excel 2007, que ofrece la
posibilidad de presentar un Histograma integrado por una sucesión de rectángulos

67
MÓDULO 1 Raúl A. Marigliano UNT

contiguos. De esta forma se puede apreciar que la base de cada rectángulo


representa la amplitud del intervalo y la altura está determinada por la frecuencia de
cada clase.

Histograma
10

8
Frecuencia

0
175 195 215 235 255 275 295

Clases

Figura 6.1. Histograma Colesterol 30 pacientes (Excel 2003)

Histograma
10

8
Frecuencia

0
175 195 215 235 255 275 295
Clases

Figura 6.2. Histograma Colesterol 30 pacientes (Excel 2007)

Como advertimos, la existencia de un valor anómalo alejado del resto de datos,


proporciona un blanco en la distribución y una media distorsionada.
Aunque apliquemos la técnica estadística más compleja, los resultados no reflejarán
en realidad el promedio de valores de colesterol después de la dieta, que era el
objetivo del estudio. No debemos olvidar entonces, que la media aritmética no es una
medida representativa de una serie de datos cuando existen valores atípicos.

68
MÓDULO 1 Raúl A. Marigliano UNT

Como veremos más adelante, la inferencia estadística supone que los valores de la
variable fluctúan simétricamente alrededor del valor central, y por lo tanto se presume
que la distribución de frecuencias responde al siguiente modelo gráfico:

Figura 6.2 Histograma teórico con distribución simétrica

Sin embargo, este modelo teórico no ocurre con frecuencia en el trabajo cotidiano. Por
ejemplo, vimos que las mediciones de concentración de anticuerpos séricos en grupos
diferentes pueden expresarse aproximadamente como una distribución log-normal, es
decir el logaritmo de las concentraciones sigue una distribución aproximadamente
simétrica. Es aún más interesante comprobar que las mediciones repetidas sobre un
único material de ensayo (por ejemplo un calibrador), pueden presentar distribuciones
con colas acusadas como consecuencia de la presencia de valores anómalos, o por la
superposición de dos distribuciones normales con igual media, pero con una
desviación estándar significativamente más grande en una de las distribuciones.
El análisis exploratorio de datos (AED) también llamado análisis inicial de datos (AID)
ha ganado mucha popularidad desde la aparición del libro “Exploratory Análisis Data”
de Tukey.
La perspectiva del análisis exploratorio de datos centra su atención en la utilización de
índices resistentes frente a la utilización de índices clásicos a la hora de describir una
variable cuantitativa en el caso en que ésta tenga una distribución asimétrica, o bien
presente valores alejados. Vimos que los índices descriptivos clásicos por excelencia,
la media aritmética y la desviación estándar, cambian sustancialmente su valor ante la
presencia de datos anómalos, lo que los convierte en índices poco resistentes. En
cambio, los índices descriptivos resistentes se caracterizan por ser insensibles a
valores extremos, orientando su aplicación en el grupo central de los datos.

La ventaja de los métodos AID reside en la utilización de nuevas técnicas gráficas,


medidas de posición basadas en estadísticos de orden como los percentiles, y

69
MÓDULO 1 Raúl A. Marigliano UNT

medidas de dispersión centradas en la mediana, conocidas en general como


resistentes o robustas, incluyendo además el estudio de los índices de forma.
Estas técnicas exploratorias nos informan sobre:

 La posición, el desvío y la forma de la distribución de datos

 La simetría o asimetría de la distribución

 Localización de vacíos o blancos en las distribuciones de datos

 Presencia y número de valores atípicos

6.2. Medidas de posición robustas


 PROMEDIO DE CUARTILES
Este índice utiliza la información proporcionada por el 50% central de la distribución de
datos, eliminando la influencia de posibles valores extremos. Se simboliza con Q , y
se calcula promediando los cuartiles 1 y 3, o los percentiles 25 y 75:

Q1  Q 3 P25  P75
Q Q
2 2

Si tomamos como ejemplo los valores ordenados de colesterol de la Tabla 6.1:

30  1
Posición del Q 1   0 ,5  8  Q 1  182 mg / dL
4
30  3
Posición del Q 3   0 ,5  23  Q 3  204 mg / dL
4

182  204
Q  193 mg / dL
2

 TRIMEDIA

Pertenece a la familia de promedios conocidos con el nombre de “medias recortadas”


o “medias trimmed”. Se define como el promedio entre la mediana y el promedio de
cuartiles.
Se simboliza TRI, y se calcula como la semisuma entre la mediana y el promedio de
cuartiles:

70
MÓDULO 1 Raúl A. Marigliano UNT

Me  Q
TRI 
2

Reemplazando Q por su valor, y reordenando queda:

Q 1  2 Me  Q 3 P25  2 Me  P75
TRI  ó TRI 
4 4

En nuestro ejemplo:
182  2  191  204
TRI   192 mg / dL
4

6.3. Índices de dispersión robustos


 RANGO INTERCUARTÍLICO
Es una medida de dispersión resistente o “robusta”, pues no es afectada por valores
extremos. En estadística no paramétrica es la medida habitual que sustituye a la
desviación estándar.
Este rango se simboliza RI, y se calcula como la diferencia entre el tercer y el primer
cuartil:

RI  Q 3  Q1

Tomando nuevamente como ejemplo los valores de colesterol de la Tabla 6.1:

RI  204  182  22 mg / dL

Este valor indica que el 50% central de la distribución tiene un rango o recorrido de 22
mg/dL.

6.4. Medidas o Índices de forma


Ya hemos visto como las medidas descriptivas clásicas se ven afectadas por las
distribuciones asimétricas o multimodales.
Las medidas de forma nos indican la forma de la distribución en cuanto a su simetría
(desplazamiento horizontal) y su apuntamiento o puntiagudez (desplazamiento
vertical). Analizaremos el coeficiente de curtosis y el coeficiente de asimetría.

71
MÓDULO 1 Raúl A. Marigliano UNT

 COEFICIENTE DE CURTOSIS
Este coeficiente compara la distribución de frecuencia de una variable con una
distribución teórica perfectamente simétrica, llamada distribución normal.

La distribución normal adopta la forma de una campana perfectamente simétrica:

Figura 6.3 Distribución normal

El coeficiente de curtosis compara distribuciones empíricas, en cuanto a si son más


puntiagudas o no que la distribución normal. Si es más puntiaguda que la normal, se
dice que la distribución es leptocúrtica, en cambio si es más achatada que la normal
diremos que la distribución es platicúrtica. Si la distribución es bastante parecida a la
normal, diremos que es mesocúrtica:

Figura 6.4 Curtosis

En una distribución leptocúrtica los valores están altamente concentrados alrededor de


los valores centrales de la variable. Si es mesocúrtica presenta un grado medio de
concentración de datos alrededor de los valores centrales, mientras que una
distribución platicúrtica presenta un grado reducido de concentración de datos
alrededor de los valores centrales.
Existen diferentes formas de cálculo para el coeficiente de curtosis (K). Algunos son
muy complicados, y generalmente los valores que toma K varían de acuerdo a la
fórmula empleada para el cálculo, lo que muchas veces dificulta su interpretación. Por
este motivo no presentamos en este curso las expresiones matemáticas utilizadas.
Nuevamente Microsoft Excel nos permite un cálculo directo. Si K > 0, la distribución
presenta un pico alto, o es más puntiaguda que la normal (leptocúrtica); si K < 0, la

72
MÓDULO 1 Raúl A. Marigliano UNT

distribución es plana, o más achatada que la normal (platicúrtica); si K = 0, la


distribución es mesocúrtica.
Tomando nuevamente el ejemplo 5.1, a través del menú Análisis de datos 
Estadística descriptiva, obteníamos el cuadro de medidas descriptivas, donde en la fila
7 podemos ver:

El valor del coeficiente de curtosis (K > 0) indica que la distribución es leptocúrtica

Para el cálculo a través de MS Excel puede usarse también la función =CURTOSIS


(……..) donde en los puntos suspensivos incorporamos la matriz que tiene los datos,
en este caso B2:B31.

Si en cambio tomamos como ejemplo los datos de la tabla 4.4, tenemos una
distribución mesocúrtica, puesto que K es prácticamente cero:

En la fila 7 encontramos el valor del coeficiente de curtosis:

 COEFICIENTE DE ASIMETRÍA
Una distribución perfectamente simétrica presenta un solo valor modal, y luego decae
a ambos lados, mostrando igual frecuencia para valores equidistantes:

73
MÓDULO 1 Raúl A. Marigliano UNT

Figura 6.5 Distribución simétrica

Cuando un conjunto de observaciones no está simétricamente distribuido se dice que


es sesgado.
Cuando el sesgo es positivo, la media es mayor que la mediana. El histograma tendrá
una cola más larga a la derecha de la distribución, por ello también se la conoce como
sesgada a la derecha:

Figura 6.6 Distribución sesgada a la derecha

A su vez, una distribución con sesgo negativo tiene una media menor a la mediana. El
histograma presenta una cola más larga a la izquierda de la distribución, por eso se la
conoce como sesgada a la izquierda:

Figura 6.7 Distribución sesgada a la izquierda

74
MÓDULO 1 Raúl A. Marigliano UNT

Existen varias medidas para el cálculo de la simetría de una distribución. En la


bibliografía podemos encontrar índices de simetría de Pearson, Yule, Kelly, Fisher, etc.
El más simple es el de Pearson (SK), que se calcula:

3  x  Me 
SK 
s

Si la distribución es perfectamente simétrica, la media y la mediana coinciden, y por lo


tanto SK = 0. Si la distribución tiene sesgo positivo, la media será mayor que la
mediana, y SK tendrá un valor positivo. En distribuciones con sesgo negativo, la
media es menor que la mediana, por consiguiente SK < 0.
Continuando con el ejemplo de la Tabla 5.1:

3 194 ,3  191
SK   0 ,44
22 ,1

Este valor indica un sesgo positivo.

La fórmula que utiliza MS Excel para calcular la asimetría es la siguiente:

n  x i  x 3
n  1n  2  
As 
s

Si As > 0 la distribución tiene una asimetría positiva. Si As = 0 la distribución es


simétrica; finalmente cuando As < 0 la distribución tiene una asimetría a la izquierda o
un sesgo negativo.
Para calcular la asimetría utilizamos la siguiente función, disponible en MS Excel:
=COEFICIENTE. ASIMETRIA (….). Donde están los puntos suspensivos se indican en
que celdas se encuentran los datos, en nuestro ejemplo B2:B31

Haciendo Enter, MS Excel devuelve el valor buscado en la celda B32:

75
MÓDULO 1 Raúl A. Marigliano UNT

De la misma forma que para la Curtosis, el coeficiente de Asimetría puede verse en el


cuadro que proporciona la Herramienta Estadística Descriptiva:
En la octava línea del cuadro de resultados se observa el coeficiente de asimetría:

Lo que indica, igual que en el cálculo con el coeficiente de Pearson, que la distribución
es asimétrica positiva.
Si tomamos como ejemplo los datos de la tabla 4.4, tenemos una distribución
asimétrica negativa:

6.5. Análisis gráfico de datos

Aunque es habitual en cualquier laboratorio analítico manejar grupos de datos


relativamente pequeños, existen ocasiones en que tienen que examinarse grandes
conjuntos de medidas.
El AID propone también la utilización de representaciones gráficas que potencian la
visualización de la información manteniendo, en lo posible, los valores originales.

76
MÓDULO 1 Raúl A. Marigliano UNT

6.5.1. Diagrama de tallo y hojas


Este gráfico es una transición entre una tabla de frecuencias y un histograma. Es una
técnica sencilla de gran utilidad para explorar y describir una gran cantidad de datos,
que fue desarrollada por Tukey en 1977.
La parte más relevante de un valor, en el contexto de una serie de datos, es
generalmente su primera cifra. En el diagrama de tallo y hojas esta cifra es lo que
se denomina tronco o tallo.
De este tallo partirán las hojas que definirán con mayor precisión su forma. Las hojas
proporcionan información acerca de la forma de la distribución, y generalmente está
constituida por el dígito que le sigue al primero. Si existe más de un dígito, suelen
incluirse todos o redondear a partir del primer dígito que constituye cada hoja.
El primer paso para construir un diagrama de tallo y hojas es ordenar los datos de
menor a mayor.
El diagrama se construye colocando en una columna todos los números que
conforman los datos eliminando la última cifra (corresponde a la unidad si tuviéramos
datos sin decimales). Esta columna debe ordenarse de menor a mayor.
A la derecha de cada número se escriben en fila la / las últimas cifras de cada dato: la
unidad para números enteros; él o los decimales para cifras con decimales.
Posteriormente se ordenan también de menor a mayor los números de cada fila.
En una primera columna del diagrama suele incluirse la frecuencia absoluta
correspondiente a cada fila, y algunos programas indican entra paréntesis la fila donde
se encuentra la mediana.

Ejemplo 6.1
Si tuviéramos los siguientes datos numéricos ordenados de menor a mayor:

11 11 13 15 19 21 21 21 22 23 26 27 31 33 34 34
35 36 36 38 38 39 43 43 44 47 47 50 51 52 55 56

Podemos construir el diagrama de tallo y hojas de la siguiente manera:

Frecuencia Tallo Hojas


5 1 1 1 3 5 9
7 2 1 1 1 2 3 6 7
(10) 3 1 3 4 4 5 6 6 8 8 9
5 4 3 3 4 7 7
5 5 0 1 2 5 6

Figura 6.8 Diagrama de tallo y hojas

77
MÓDULO 1 Raúl A. Marigliano UNT

La extensión de las filas puede compararse con la altura de las barras del histograma
correspondiente, pero la ventaja del diagrama de Tallo y Hojas es que conserva el
valor original de cada medida. En el diagrama vemos que hay 2 datos = 11; 3 valores
= 21; 2 mediciones = 47, etc.

A fin de remarcar los distintos “saltos” en la distribución, suele separase las filas en
grupos de 5 valores de datos, en lugar de diez. Esto significa tomar para cada tallo, en
la primera fila: valores de hojas de 0 a 4, y de 5 a 9 para la segunda fila.
De esta manera se disminuye la amplitud de los intervalos a la mitad, lo que permite
visualizar mejor la presencia o ausencia de determinados valores en ciertas posiciones
de la distribución:

Frecuencia Tallo Hojas


3 1 1 1 3
2 1 5 9
5 2 1 1 1 2 3
2 2 6 7
4 3 2 3 4 4
6 3 5 6 6 8 8 9
3 4 3 3 4
2 4 7 7
3 5 0 1 2
2 5 5 6

Figura 6.9 Diagrama de tallo y hojas. Filas en grupos de 5 datos

Se suelen usar símbolos para diferenciar el primer dígito de las hojas, de manera que
si está comprendido entre el 0 y el 4, la fila o línea se inicia por ejemplo con el signo
(*), y si está comprendido entre 5 y 9 con un signo (o).

Si tomamos como ejemplo los datos de la concentración de Na de la Tabla 4.5,


podemos construir el siguiente diagrama:

Frecuencia Tallo Hojas


1 138 * 1
4 138 ° 5588
6 139 * 002222
12 139 ° 555555888888
18 140 * 000000000111113333
4 140 ° 6688
5 141 * 00112

Figura 6.10 Diagrama de tallo y hojas. Sodio

78
MÓDULO 1 Raúl A. Marigliano UNT

Para el mismo ejemplo, los datos fueron analizados utilizando el programa SPSS, el
que arrojó el siguiente diagrama:

Sodio Stem-and-Leaf Plot

Frequency Stem & Leaf

1,00 Extremes (=<138,1)

4,00 138. 5588


6,00 139. 002222
12,00 139. 555555888888
18,00 140. 000000000111113333
4,00 140. 6688
5,00 141. 00112

Figura 6.11 Diagrama de tallo y hojas sodio (SPSS)

En este diagrama vemos que el programa SPSS resalta la presentación de los datos,
identificando separadamente posibles valores anómalos. En este caso destaca el
valor 138,1 como un “valor extremo”.

Minitab ofrece el siguiente diagrama para los datos de colesterol de la tabla 6.1:

Diseño de tallo y hoja: Colesterol mg/dL

Tallo y hoja de Colesterol mg/dL N = 30


Unidad de hoja = 1,0

1 16 9
5 17 0245
13 18 01223579
(8) 19 01135559
9 20 04459
4 21 155

HI 289

En este caso, el valor discrepante (289 mg/dL) aparece resaltado al final del diagrama
como “ALTO” (HIGH).

6.5.2. Diagrama de caja y patillas (Box plot)


Es un gráfico esquemático que describe al mismo tiempo varias características
importantes de un conjunto de datos, tales como el centro, la dispersión, el alejamiento
de la simetría, y la identificación de valores extremos (puntos atípicos), es decir, de
valores que se alejan de una manera poco usual del resto de los datos.
Este diagrama también fue propuesto por Tukey en 1977, y se elabora en base a:

79
MÓDULO 1 Raúl A. Marigliano UNT

 La mediana
 Los cuartiles Q1 y Q3
 Los límites superior e inferior de la distribución de datos

La gráfica se construye dibujando primero una escala vertical (u horizontal) que


representa los valores obtenidos experimentalmente.
Si se usa una escala vertical, se dibuja una caja cuya parte superior es el tercer cuartil,
y su parte inferior es el primer cuartil. La ubicación del punto medio de la distribución
(mediana) se indica con una línea horizontal dentro de la caja.
Por último se trazan líneas rectas desde el centro de la parte superior de la caja a la
observación más grande (Límite superior), y desde el centro de la parte inferior de la
caja al dato más pequeño (Límite inferior).
En la siguiente figura se muestran diagramas de caja y líneas en ambas escalas:

Figura 6.12 Diagrama de caja y patillas. (a) Escala vertical. (b) Escala horizontal

Este gráfico proporciona una importante cantidad de información respecto a la


distribución de valores en estudio:


 La longitud de la caja es el rango intercuartílico (Q3 – Q1), que representa la
dispersión de los valores en el 50% central de la distribución.

 La mediana está marcada por una línea (o un asterisco) dentro de la caja.

 Las dos líneas marcadas fuera de la caja (patillas o bigotes) se extienden desde la
observación más pequeña a la más grande.

 En un boxplot se visualiza rápidamente el centro, la variabilidad y el rango total de
una distribución, lo que permite visualizar la simetría de la distribución.

80
MÓDULO 1 Raúl A. Marigliano UNT


 De la misma forma puede advertirse la simetría de la distribución, comparando la
posición de la mediana con respecto a los cuartiles, o contrastando las respectivas
longitudes de las patillas.

 Asimismo, en un gráfico boxplot pueden detectarse valores que se apartan del
núcleo central de una distribución, identificados como valores anómalos,
discrepantes, extremos o “outliers”.

Los valores discrepantes se definen como los datos puntuales que son más bajos
que Q1 o más altos que Q3 en más de 1,5 veces el rango intercuartílico. Los valores
que se encuentran por debajo de (Q1 – 1,5 RI), o por arriba de (Q3 + 1,5 RI) se
clasifican como “outliers”.
De modo similar a lo que vimos en el diagrama de tallo y hojas, algunos programas
identifican los valores discrepantes. Los bigotes o patillas se extienden entonces a los
límites superior e inferior o vallas, delimitados por (Q1 – 1,5 RI) y (Q3 + 1,5 RI)
respectivamente, y los datos anómalos se muestran como puntos separados.
El siguiente gráfico de caja y patillas fue obtenido con los datos de la Tabla 4.5 (sodio)
utilizando SPSS:

141,5

141,0

140,5

140,0

139,5

139,0

138,5

5
138,0

137,5
N= 50

SODIO

Figura 6.13 Diagrama de caja y patillas sodio (SPSS)

Obsérvese que el dato 138,1 mmol/L, se muestra separadamente, abajo de la patilla


inferior, marcando la posición que ocupa en la serie de datos (5).

Introduciendo los datos de la tabla 6.1 en el programa Minitab, se obtuvo el siguiente


diagrama de caja:

81
MÓDULO 1 Raúl A. Marigliano UNT

Figura 6.14 Diagrama de caja y patillas (Minitab)

Obsérvese que el dato Nº 10 se encuentra separado del diagrama, como un valor


anómalo, alejado del resto de la distribución.
En la siguiente figura se observa un histograma de una distribución aproximadamente
simétrica, con valores indicados correspondientes a los percentiles 25, 50 y 75. En la
misma gráfica se ha insertado un diagrama de caja y patillas, observándose el rango
intercuartílico y el rango de la distribución, acotado por los valores Mínimo y Máximo
determinados por el boxplot:

Figura 6.15. Histograma y boxplot. Percentiles, Rango y Rango intercuartílico

Una ventaja adicional de un gráfico de caja y patillas, es que puede utilizarse con fines
comparativos de varias distribuciones, o sea cuando tenemos más de un conjunto de
datos y el objetivo es contrastarlos. Para ello se sitúan los diversos gráficos en

82
MÓDULO 1 Raúl A. Marigliano UNT

paralelo y esto permite observar sus diferencias en localización y dispersión, y


comparar la simetría estudiando las longitudes de las patillas y la posición de la
mediana:

Figura 6.16. Boxplot. Comparación de distribuciones

La distribución (a) es la que presenta mayor dispersión del total de datos (mayor
rango). El largo de su patilla superior indica una asimetría a la derecha (K > 0), es
decir que existe una mayor dispersión de datos en el 25% superior de la distribución
La distribución (b) es aproximadamente simétrica, pues las longitudes de las patillas
son semejantes. Por otra parte se observa una dispersión de datos similar en las
patillas y en el interior de la caja.
La distribución (c) es la que muestra menor variabilidad. La posición de la mediana y el
largo de la patilla inferior indican un ligero sesgo negativo (K < 0)
La distribución (d) muestra menor dispersión de datos en el 50% central de la
distribución (rango intercuartílico), y mayor variabilidad en ambos extremos (longitud
de las patillas). Al igual que la distribución (b) es aproximadamente simétrica.

83
MÓDULO 1 Raúl A. Marigliano UNT

REFERENCIAS BIBLIOGRÁFICAS
CHAO, L. (1994). Introducción a la Estadística. CECSA.

CIENCIA Y TÉCNICA ADMINISTRATIVA, consultado el 1º de marzo de 2011.


URL: http://cyta.com.ar/biblioteca/bddoc/bdlibros/guia_estadistica/modulo_1.htm

CIENCIA Y TÉCNICA ADMINISTRATIVA, consultado el 1º de marzo de 2011.


URL: http://cyta.com.ar/biblioteca/bddoc/bdlibros/guia_estadistica/modulo_2.htm

CIENCIA Y TÉCNICA ADMINISTRATIVA, consultado el 1º de marzo de 2011.


URL: http://cyta.com.ar/biblioteca/bddoc/bdlibros/guia_estadistica/modulo_3.htm

CIENCIA Y TÉCNICA ADMINISTRATIVA, consultado el 1º de marzo de 2011.


URL: http://cyta.com.ar/biblioteca/bddoc/bdlibros/guia_estadistica/modulo_4.htm

CRISTÓFOLI, M.E. (2010). Manual de Estadística con Excel. Ed. Omicrón

DAWSON-SAUNDERS, B. y TRAPP, R.C. (1997). Bioestadística Médica. Ed. El Manual Moderno,


S.A.

FERNÁNDEZ GORDILLO, J.C. Estadística y Probabilidad, consultado el 15 de febrero de 2011.


URL: http://www.vitutor.com/estadistica.html

HARRIS, D.C. (2007). Análisis Químico Cuantitativo 3° Edición. Ed. Reverté S.A.

KAPLAN, L.A. y PESCE, A. (1996). Clinical Chemistry. Ed. Mosby.

LARIOS OSORIO, V. Departamento de Matemáticas de la Facultad de Ingeniería de la U.A.Q.


(México), consultado el 20 de febrero de 2011.
URL: http://www.uaq.mx/matematicas/estadisticas/xu2.html

LARIOS OSORIO, V. Departamento de Matemáticas de la Facultad de Ingeniería de la U.A.Q.


(México), consultado el 20 de febrero de 2011.
URL: http://www.uaq.mx/matematicas/estadisticas/xu3.html

MILLER, J.N. y MILLER J.C. (2002). Estadística y Quimiometría para Química Analítica. Ed.
Prentice Hall, Pearson Educación S.A.

RIUS DÍAZ, F., BARÓN LÓPEZ, F.J., SANCHEZ FONT, E. y PARRAS GUIJOSA, L. Bioestadística:
métodos y aplicaciones. Universidad de Málaga, consultado el 15 de febrero de 2011. URL:
http://www.bioestadistica.uma.es/libro/

SKOOG, D.A., WEST, D.M. y HOLLER, F.J. (1997). Fundamentos de Química Analítica. Ed.
Reverté S.A.

84
MÓDULO 1 Raúl A. Marigliano UNT

SOCIEDAD ESPAÑOLA DE BIOQUÍMICA CLÍNICA Y PATOLOGÍA MOLECULAR. Curso de


Estadística para el laboratorio clínico, consultado el 1º de febrero de 2011.
URL: http://www.seqc.es/es/Varios/7/7/Curso_de_Estadistica_para_el_laboratorio_Clinico/

SPIEGEL, M.R. (1991). Estadística (Segunda Edición). Ed. McGraw-Hill

VALCÁRCEL, M. (1999). Principios de Química Analítica. Springer-Verlarg Ibérica, Barcelona.

85

También podría gustarte