Estadística

MÓDULO 1 Raúl A.
Marigliano UNT
Breve reseña histórica

El término estadística deriva de la palabra Estado. La expresión alemana “statistik” fue
introducida por Gottfried Achenwall en el año 1749. Surge por la necesidad de
cuantificar “datos del Estado” como: características de la población, recursos
disponibles, infraestructura, etc., utilizados por el gobierno a través de los servicios de
estadística nacionales e internacionales. En el siglo XIX el término estadística adquirió
el significado de recolectar, analizar y clasificar datos, concepto que fue incorporado
por el inglés John Sinclair.
Desde los albores de la civilización, el hombre ha tratado de evaluar de alguna manera
los fenómenos que lo rodean cuantificando lo que puede observar. Se cree que en las
cavernas prehistóricas sus habitantes contabilizaban sus pertenencias, haciendo
muescas en las paredes. A medida que los pueblos evolucionaban en cantidad y
conocimientos, se requería cada vez más el uso de recopilaciones de datos, con fines
administrativos, religiosos, etc. En el antiguo Egipto existía una administración
centralizada destinada a la toma de datos y a la contabilización de todos los bienes del
faraón.
En la Biblia hay un Libro llamado de los Números donde se relata el censo que hizo
Moisés con los israelitas antes de cruzar el desierto. En el Libro de los Reyes se habla
de un censo hecho por David. En Confucio hay referencias a un rey llamado Yao
(3000 AC), quien ordenó un censo comercial y agrícola de toda la China. En la Biblia
es famosa la sentencia “Con la medida que midáis, así seréis medidos”.
En América, los incas usaban nudos en las cuerdas (quipus) para efectuar recuentos
en el manejo de sus almacenes comunitarios. Las majestuosas construcciones de
aztecas, mayas e incas, así como otros pueblos constructores, implican un alto grado
de sofisticación en el manejo de datos.
Durante la Edad Media se multiplican los ejemplos de censos, relevamiento de
propiedades, registros demográficos (nacimientos y defunciones), recolección de
impuestos, etc. Todo esto muestra como en la historia, paulatinamente, van
apareciendo intentos de usar la Estadística como una herramienta, para el manejo de
asuntos civiles, comerciales, religiosos, estatales, etc.
Los métodos estadísticos matemáticos surgieron desde la teoría de probabilidades.
Pierre de Fermat, jurista y matemático francés, descubrió el cálculo diferencial antes
que Newton y Leibniz, y fue co-fundador de la teoría de probabilidades junto a Blaise
Pascal (1654)
Jakob Bernoulli fue un matemático y científico suizo. Su obra maestra fue Ars
Conjectandi (el Arte de la conjetura), un trabajo pionero en la teoría de la probabilidad,
publicada por su sobrino Nicholas en 1713, ocho años tras su muerte. El Ars
cojiectandi de Bernoulli y la Doctrina de posibilidades (1718) de Abraham de Moivre
estudiaron la materia como una rama de las matemáticas. En la era moderna, el
trabajo de Andréi Kolmogórov ha sido un pilar en la formulación del modelo
fundamental de la Teoría de Probabilidades, el cual es usado a través de la
estadística.
La teoría de errores se puede remontar a la Ópera miscelánea (póstuma, 1722) de
Roger Cotes, y al trabajo preparado por Thomas Simpson en 1755 en el cual aplica
por primera vez la teoría de la discusión de errores de observación. La reimpresión de
este trabajo en 1757, incluye el axioma de que errores positivos y negativos son
igualmente probables y que hay ciertos límites asignables dentro de los cuales se
encuentran todos los errores; se describen errores continuos y una curva de
probabilidad.
Pierre Simon Laplace (1774) representó la ley de probabilidades de errores mediante
una curva y dedujo una fórmula para la media de tres observaciones. El francés De
Moivre halla la curva matemática de la probabilidad integral, y a principios del siglo
XIX, Laplace recopila todo lo publicado hasta entonces acerca del tema, más otros
descubrimientos propios, en particular la primera versión del teorema fundamental de
1
MÓDULO 1 Raúl A. Marigliano UNT
la Estadística: el Teorema Central del Límite. Sin embargo, este tema sería
popularizado por un físico de su misma época: Johann C. F. Gauss. Al estudiar los
errores de medición cometidos en los experimentos, Gauss descubrió que mediciones
repetidas, bajo condiciones análogas, arrojan diferentes resultados, si los instrumentos
son lo suficientemente sensibles. A falta de una mejor explicación para el fenómeno,
atribuyó estas variaciones a la “casualidad”, y obtuvo en su estudio de errores una
curva teórica en forma de campana que lleva su nombre. La aplicación de la teoría de
errores en mediciones experimentales, les dio un carácter de tipo científico,
diferenciándolas de las investigaciones biológicas de ese entonces, que se limitaban a
describir y clasificar especies, sin entrar a controlar la repetición de fenómenos en
laboratorios.
Un discípulo de Laplace, Siméon D. Poisson, estableció en 1837 el desarrollo
matemático de la Ley de los Grandes Números, a partir de la cual comienza la
Inferencia Estadística. Además, estudiando la probabilidad binomial para los sucesos
raros, encuentra una función que lleva su nombre: Distribución de Poisson.
La contribución de la escuela rusa, se hizo en el campo de la teoría. Autores como
Chebishev, Markoff, Kintchine y otros, completaron la base matemática de la
Estadística y es en Rusia, a fines del siglo XIX, donde se publica por vez primera la
versión completa del Teorema Central del Límite, luego de casi un siglo de búsqueda.
Sir Francis Galton (1822-1911) introdujo un método matemático para el ajuste de
curvas a puntos experimentales: el método de mínimos cuadrados. Galton utilizó éste
método en sus estudios de la herencia de padres a hijos. La propuesta era que hijos
de padres más altos que el promedio de la población eran más bajos que sus padres;
viceversa, hijos de padres bajos, crecían más que sus progenitores. O sea, la
población humana, tiende al promedio de alturas en generaciones sucesivas. Por eso
al método se lo llama: Regresión.
El heredero de la cátedra de Galton y seguidor de sus trabajos, K.R. Pearson,
descubre la distribución chi cuadrado y funda la primer revista científica del tema:
Biometrika Donde los investigadores de la época publicaban sus descubrimientos,
como William S. Gosset que usaba el seudónimo de Student, y tal vez la figura más
grande del siglo en el tema: Ronald A. Fisher (1890-1962) creador del 50% de la
Bioestadística actual. Su método de Análisis de Varianza es la herramienta básica
para las investigaciones biológicas. Desarrolló la fórmula matemática de la función
imaginada por Gosset, a la que llamó distribución t de Student, que reemplazó en la
práctica al centenario método gaussiano.
Contribuciones posteriores como las del norteamericano George Snedecor con su
distribución F (por Fisher) completaron esta rama de la Estadística a principios de
siglo.
Durante el siglo XX, la creación de instrumentos precisos para programas de salud
pública (epidemiología, bioestadística, etc.) y propósitos económicos y sociales (tasa
de desempleo, econometría, etc.) necesitó de avances sustanciales en las prácticas
estadísticas.
Hoy el uso de la estadística se ha extendido más allá de sus orígenes como un
servicio al Estado o al gobierno. Es una herramienta que puede ser aplicada para
interpretar datos y tomar decisiones en un sinnúmero de disciplinas, abarcando las
ciencias naturales y sociales, medicina, negocios y otras áreas. Personas y diferentes
organizaciones usan la estadística, entendida generalmente no como una sub-área de
las matemáticas, sino como una ciencia diferente, “asociada”.
Es asimismo el vehículo que permite dirigir el proceso relacionado con la investigación
científica, siendo su campo de acción la medición de la incertidumbre.
2
1. Introducción
En nuestro trabajo cotidiano nos encontramos frente a situaciones en las que se deben
tomar decisiones en base a la observación de fenómenos. El análisis adecuado de una
observación es fundamental para la toma de decisiones y la resolución de situaciones
de incertidumbre. Por ejemplo un psicólogo debe implementar una terapia específica
luego de un estudio de un caso particular, el médico debe establecer medidas de
acción basado en el diagnóstico de una enfermedad, el gerente de producción de una
fábrica debe solucionar problemas del proceso productivo en base a observaciones de
defectos de los productos fabricados, el bioquímico debe decidir si los resultados
proporcionados por el laboratorio son confiables, es decir si cumplen con las normas
de precisión y exactitud implementadas en su sistema de control de calidad.
Un procedimiento objetivo para tomar decisiones en situaciones de incertidumbre
puede realizarse con la ayuda de las herramientas que nos otorga el análisis
estadístico. Sus fines son describir al conjunto de datos obtenidos, y tomar decisiones
o realizar generalizaciones acerca de las características de todas las posibles
observaciones bajo consideración.
Un estudio detallado sobre la estadística constituye un campo demasiado extenso
para enfocarlo desde todos sus aspectos. Sin embargo, en este primer curso, vamos a
desarrollar los procedimientos estadísticos que consideramos de mayor utilidad
práctica en el laboratorio clínico.
2. Conceptos y definiciones
2.1. Población y muestra
Idealmente, la estadística estudia POBLACIONES de individuos o de observaciones.
 Se denomina “población” al conjunto total de todas las posibles mediciones u

observaciones bajo consideración, en una situación dada de un problema.
Cada situación implica una población diferente. Si el problema consiste en evaluar los
pesos al nacer de todos los niños en unidades asistenciales públicas de la provincia de
Buenos Aires, entonces los pesos al nacer de todos estos niños constituye la
población.
Si la finalidad de una investigación es determinar qué proporción de todas las
unidades producidas en cierto proceso de manufactura es defectuosa, entonces la
población consiste en las mediciones de calidad de todas las unidades obtenidas
mediante este proceso.
Las poblaciones se clasifican en dos categorías: finitas e infinitas
3
 Una población finita es aquella que incluye un número limitado de medidas u

observaciones
Son poblaciones finitas el número de bioquímicos inscriptos en el curso de Estadística,

el número de mediciones de un lote de material de control para glucosa realizados en
un determinado laboratorio en el año 2010, o el número de habitantes de un país o
territorio, sobre los que se recaban datos demográficos, económicos y sociales en un
censo.
O sea que algunas poblaciones finitas están constituidas solamente por unas cuantas
observaciones, y otras pueden ser cientos, o millones. Pero siempre que sea posible
listar o alcanzar el número total de las probables mediciones, la población se
considera finita.
 Se dice que una población es infinita si incluye un gran conjunto de medidas u

observaciones que en la práctica no pueden alcanzarse por conteo, o sea, no
pueden ser físicamente listadas.
Por ejemplo, si se considera la población constituida por la concentración de

hemoglobina de todos los niños nacidos en el mundo en las diez últimas décadas, o la
población formada por todas las personas infectadas por virus de la hepatitis B, ambas
son ejemplos de poblaciones infinitas, debido a que no existe la posibilidad real de
poder contarse.
 A las características medibles de una población se les denomina parámetros, y los

valores de éstos se consideran valores verdaderos.
 Es importante considerar que es imposible calcular el valor verdadero de cualquier

parámetro en una población infinita.
Un trabajo experimental con poblaciones no es práctico. Supongamos que el objetivo

de una investigación consiste en estudiar el nivel de PSA sérico de todos los varones
con edades comprendidas entre 50 y 70 años de la provincia de Tucumán, Argentina.
Es fácil comprender que, por limitaciones de tiempo y costo, esta tarea sería
prácticamente imposible. En situaciones como ésta, es conveniente trabajar con un
grupo reducido de individuos que representen adecuadamente a la totalidad de la
población, por ejemplo 100 individuos que reúnan las características requeridas por el
estudio. En éste caso se dice que se está trabajando con una “muestra”.
4
 Podemos definir una muestra como una parte representativa de una población,
que se obtiene con el propósito de estimar las características de la totalidad.
Los rasgos de una muestra son similares a los de una población, pero por supuesto no
pueden ser idénticos, dependiendo la mayor o menor similitud, de la magnitud de la
muestra. Existen métodos estadísticos de selección de muestras que nos permiten
decidir que tamaño de muestra es representativo de la población.
En estadística vamos a usar frecuentemente el término “muestra aleatoria”:
 Una muestra aleatoria es aquella que se obtiene de tal manera que cada posible
observación disponible en la población tenga una probabilidad igual de ser
seleccionada.
 Un estadístico o estimador es una característica medible de una muestra

aleatoria.
En el ejemplo dado, el nivel promedio de PSA de un grupo de 100 individuos de sexo

masculino de la provincia de Tucumán, seleccionados aleatoriamente, es un
estadístico.
2.2. Estadística descriptiva e inferencia estadística

El campo de la estadística está dividido en dos áreas: estadística descriptiva y
estadística inferencial.
 La estadística descriptiva se refiere a aquella parte del estudio que incluye la

obtención, organización, presentación y descripción de información numérica.
La estadística obtiene conclusiones a partir de los datos extraídos de una muestra. A

este proceso se lo denomina “Inferencia Estadística”. Es decir que a partir de
resultados obtenidos de una muestra, se infiere sobre las características
poblacionales.
 La inferencia estadística1 es una metodología mediante la cual se obtienen

generalizaciones o se toman decisiones en base a una información parcial obtenida
mediante técnicas descriptivas.
1
Este tema será desarrollado extensamente en el Módulo 3.
5
En resumen, la estadística incluye tanto técnicas descriptivas como inferenciales. Son

dos áreas que conforman a la disciplina de la estadística moderna, ambas esenciales
tanto en la investigación, como en la toma racional de decisiones.
Podemos resumir todos estos conceptos de la siguiente forma:
 El análisis estadístico se refiere a un conjunto de métodos para manejar la

obtención, presentación y análisis de observaciones numéricas. Sus fines son
describir al conjunto de datos obtenidos y tomar decisiones o realizar
generalizaciones acerca de las características de todas las posibles observaciones
bajo consideración.
2.3. Magnitudes y Variables
Es frecuente el uso de estas dos palabras como sinónimos. Si bien a veces esto es
correcto, conviene puntualizar la diferencia conceptual entre ambas.
 Una variable estadística es cada una de las características o propiedades que

varía de un elemento a otro de la población
Cualquier característica de un elemento de la población que pueda observarse, puede

ser medida de diferentes formas de acuerdo al tipo de variable.
Algunas propiedades pueden ser estudiadas de forma cualitativa o semi cuantitativa, y
asignarles un valor expresado con una palabra o signo (amarillo, escaso, sui-géneris,
negativo, ++). A veces pueden también clasificarse en categorías o clases, de utilidad
para hacer recuentos como sano-enfermo, positivo-negativo, etc.
Cuando pueden atribuirse valores expresados en números a la propiedad observada,
esta cualidad se denomina magnitud.
 Magnitud es toda característica o cualidad de un elemento integrante de la

población, susceptible de ser determinada cuantitativamente
En general, las variables son clasificadas en dos grandes grupos: categóricas o

cualitativas y cuantitativas o numéricas.
 Las variables categóricas o cualitativas no pueden ser medidas con números. Se

refieren a características o cualidades que están definidas por las clases o
categorías que las componen.
6
Podemos distinguir dos tipos de variables categóricas: variable cualitativa nominal y

variable cualitativa ordinal o “semi-cuantitativa”.
 Una variable cualitativa nominal presenta modalidades o categorías no

numéricas que no admiten un criterio de orden.
Las categorías pueden ser naturales, por ejemplo sexo, o estado civil, o arbitrarias,
como clasificar a las plantas en hierbas, arbustos, árboles, etc.
El mas simple en este tipo de variables tiene sólo dos categorías posibles, por
ejemplo: masculino y femenino; o referirse a la presencia o ausencia de una
determinada cualidad, por ejemplo casado o soltero; empleado o desempleado,
negativo o positivo.
 Las variables generadas por la forma presencia-ausencia de una categoría se

llaman dicotómicas o binarias.
 Las variables cualitativas ordinales o semi cuantitativas presentan modalidades

no numéricas en las que existe un orden.
Son ejemplos de este tipo de variable: nivel docente alcanzado: Profesor, Jefe de
Trabajos Prácticos, Auxiliar docente; una evaluación en un examen clasificado en
categorías como: desaprobado, aprobado, sobresaliente; el puesto conseguido en una
prueba deportiva: 1°, 2°, 3°….; una prueba de laboratorio informada como positiva +,
++, +++, etc.
 Las variables cuantitativas o numéricas son aquellas, que como su nombre lo

indica, se expresan por un número.
Pueden ser clasificadas a su vez en discretas y continuas, distinguiéndose entre un

número que se obtiene por conteo y un número que resulta de efectuar mediciones.
 Las variables discretas son aquellas que surgen por conteo, en que sólo pueden
ser obtenidos números enteros.
Algunos ejemplos de variables discretas son: el número de leucocitos, el número de

colonias fermentadoras, el número de laboratorios de una determinada región, o el
número de hijos de una familia, tales como: 0, 1, 2, 3... 50...6000, es decir, las
variables discretas sólo toman un número finito de valores.
7
 Las variables que surgen de mediciones efectuadas sobre cada unidad

experimental, se denominan variables continuas.
Una magnitud continua se expresa mediante números reales. Las mediciones físicas
clásicas son el mejor ejemplo de este tipo de magnitudes: peso, altura, densidad,
temperatura, presión, etc.
 En una magnitud continua hay infinitos puntos posibles dentro de un intervalo

cualquiera de la misma.
 Un importante principio sobre variables continuas es que se consignan en forma

discreta, quedando la magnitud de la distancia entre valores adyacentes,
determinada por la precisión de la medición.
Por ejemplo el peso de una persona puede expresarse como: 65; 65,4; 65,387 Kg
etc., dependiendo de la precisión de la balanza utilizada. La edad puede ser
expresada en años, meses, días, etc., por lo cual es también un ejemplo típico de
variable continua.
En general:
 Si las observaciones para una variable numérica se obtienen como resultado de

contar, la variable es discreta.
 Si los datos obtenidos son el resultado de medir, la variable es continua.
En el proceso de observación se registra para cada unidad experimental alguna

característica, y este resultado constituye un dato.
 Un dato es el resultado al medir una magnitud en un elemento de la población
Las mediciones que se describen mediante una variable discreta o continua se

designan respectivamente datos discretos y continuos.
3. Escalas de Medición
 Una medición consiste en el establecimiento de números o códigos a las
observaciones mediante el empleo de una escala apropiada.
8
Aunque tradicionalmente los métodos analíticos se han dividido en cuantitativos,

semicuantitativos y cualitativos, una mejor forma de clasificarlos es definiendo el tipo
de escala de medición.
Las escalas de medición se diferencian por propiedades de orden y de distancia.
Básicamente, se reconocen cuatro tipos de escalas de medición (S.S.Stevens, 1946):
nominal, ordinal, de intervalo y de razón.
3.1. Escala nominal

Es aquella en la no se hace ningún supuesto respecto de las relaciones que existen
entre los valores de las variables. Cada valor se asigna a una categoría diferente, la
que se define mediante un nombre.
Por ejemplo, los nombres de los elementos corpusculares en orina. Aunque podrían
ser ordenados por ejemplo por tamaño, o siguiendo “el ordenamiento usual en el
protocolo de informe”, en general, la variable “elementos corpusculares en orina” no
tiene un orden preestablecido. Otros ejemplos de variables nominales, son: sexo,
grupo sanguíneo, raza, fenotipo, etc.
Cuando los valores de las variables se asignan a categorías nominales, las
propiedades numéricas tales como tamaño relativo, suma, multiplicación, etc., no
pueden ser aplicadas. Por lo tanto el tratamiento estadístico, que supone orden o
distancia numérica entre los valores de la variable, no produce información útil sobre
este tipo de variables.
Este tipo de escala es “cualitativa” y se usa para clasificación: el término “cualitativo”
debe ser restringido para este uso.
3.2. Escala ordinal

Es aquella que surge al ordenar todas las categorías de las variables de acuerdo a
algún criterio.
Por ejemplo clasificar el nivel socioeconómico como alto, medio y bajo. Los empleados
pueden clasificarse en obreros, supervisores, gerentes, etc. Al precisar la estatura de
una persona, se está midiendo una magnitud de tipo continua, pero si los datos se
utilizan para clasificarlo en muy alto, alto, normal o bajo, entonces se transforma la
variable en ordinal al categorizar los resultados.
En estos casos lo único que se conoce es que el nivel socioeconómico alto implica un
ingreso mayor que el nivel bajo, que un gerente tiene mayor jerarquía laboral que un
obrero, o que una persona clasificada como “alto” tiene mayor estatura que el “bajo”.
Sin embargo, en ningún caso sabemos con certeza “cuanto mayor” es una categoría
de la variable respecto a otra, pues no existe una medición de distancia.
9
Un caso especial surge cuando en la escala de orden existe un cierto acuerdo

respecto a la distancia que separa una categoría de otra. Por ejemplo, si
consideramos la realización de un antibiograma, lo que se mide en realidad es el
diámetro de inhibición de crecimiento microbiano por la acción antibiótica, que es una
variable cuantitativa continua, pero los resultados se expresan generalmente en tres
categorías: “sensible”, “poco sensible” o “resistente”. Esta escala de medición es
considerada por algunos autores como ordinal, y por otros como intervalar, dado el
punto cero convencional (resistente).
3.3. Escala de intervalo

Es aquella que tiene la propiedad de establecer una medición de distancia entre los
valores de la variable. Cuando se dice que un objeto es superior a otro, se puede
especificar cuantas unidades de diferencia hay entre ambos, o por cuantas unidades
un objeto es mayor que el otro, es decir está caracterizada por una unidad de medida
común y constante.
Es importante destacar que, en la escala da intervalo, el punto de origen o punto cero
es un punto de acuerdo o punto convencional, y no refleja en ningún momento
ausencia de la magnitud que estamos midiendo. Esta escala, además de poseer las
características de la escala ordinal, permite determinar la magnitud de los intervalos
(distancia) entre todos los elementos de la escala. Las medidas de intervalo tienen
distancias interpretables entre mediciones, pero un valor cero sin significado.
Entre las variables que pueden medirse con esta escala pueden citarse: altura,
temperatura, tiempo, riqueza, coeficiente intelectual, etc. En un termómetro que mide
la temperatura en grados Celsius, la diferencia entre 37 y 38 ºC es la misma que entre
20 y 21 ºC, sin embargo el punto cero es en realidad un punto de acuerdo. Cuando
decimos que la altura de una montaña es 300 m, estamos indicando que ella se
encuentra 300 m por encima del nivel del mar o punto cero convencional.
En síntesis, la escala de medida de intervalo permite estudiar diferencias entre valores
de la variable, los intervalos tienen el mismo tamaño, pero no hay proporcionalidad
entre la medida numérica del intervalo y la magnitud de la cantidad involucrada.
3.4. Escala de razón o escala proporcional

La escala proporcional o de razón es el nivel de medida más elevado y se diferencia
de las escalas de intervalos únicamente por poseer un punto cero propio como origen;
es decir que el valor cero de esta escala representa ausencia de la magnitud que
estamos midiendo.
10
El peso, la estatura y medidas de distancia, que tienen un cero natural, son ejemplos
de este tipo de escala. La escala de razón es de uso frecuente en química clínica, por
ejemplo en la determinación de la concentración de sustancia.
En una escala de razón, la existencia de un punto cero definido implica que se pueden
efectuar comparaciones proporcionales.
Cualquier operación matemática apropiada para números reales puede ser aplicada a
una escala de este tipo, debido a que la escala de razón satisface todas las
propiedades de los números reales.
4. Organización, resumen y presentación de datos

Una vez que se ha tomado una muestra de una población, y se han realizado
mediciones de ella, se concluye la etapa de recolección de datos. Sin embargo, lo
que se ha obtenido es una serie de datos “en bruto”, los cuales rara vez son
significativos sin organización ni tabulación.
4.1. Organización de datos categóricos

Cuando tenemos una gran cantidad de datos categóricos, lo primero es ordenarlos en
una tabla de dos columnas: la primera debe contener la identificación de la unidad de
observación y la segunda el dato correspondiente a esa unidad.
Ejemplo 4.1
Se estudia la distribución de gérmenes aislados de orina en un determinado período,
en pacientes ambulatorios de ambos sexos. En la siguiente tabla se presenta un
listado hipotético donde se proporcionan las especies aisladas en 30 muestras* de
orina de pacientes ambulatorios.
TABLA 4.1. Especies bacterianas aisladas en 30 muestras* de orina
Muestra Bacteria aislada Muestra Bacteria aislada Muestra Bacteria aislada

1 Escherichia coli 11 Escherichia coli 21 Escherichia coli
2 Escherichia coli 12 Escherichia coli 22 Estafilococo coag pos
3 Estafilococo coag neg 13 Klebsiella pneumoniae 23 Klebsiella pneumoniae
4 Klebsiella pneumoniae 14 Escherichia coli 24 Escherichia coli
5 Enterococo 15 Escherichia coli 25 Escherichia coli
6 Escherichia coli 16 Pseudomonas sp 26 Estafilococo coag neg
7 Proteus mirabilis 17 Klebsiella pneumoniae 27 Proteus mirabilis
8 Escherichia coli 18 Estafilococo coag neg 28 Enterococo
9 Escherichia coli 19 Escherichia coli 29 Klebsiella pneumoniae
10 Pseudomonas sp 20 Proteus mirabilis 30 Escherichia coli
11
*El término “muestra” tiene en este ejemplo, el significado habitual utilizado en los
laboratorios clínicos. En estadística, los 30 resultados corresponden a una muestra de
30 observaciones de la población.
Con estos datos podemos construir una tabla de frecuencias.
 Una tabla de frecuencias para variables categóricas relaciona cada categoría de la

variable con el número de veces que se repite dicha categoría
 El número de veces que se repite cada categoría de la variable se denomina

frecuencia absoluta
Simbolizaremos la frecuencia absoluta con fa . Obsérvese en la tabla que la suma de

las frecuencias absolutas es igual al número de observaciones.
TABLA 4.2. Tabla de frecuencias absolutas especies aisladas
Especie aislada fa
Eschericha coli 14
Estafilococo coagulasa negativo 3
Klebsiella pneumoniae 5
Enterococo 2
Proteus mirábilis 3
Pseudomonas sp 2
Estafilococo coagulasa positivo 1
Total 30
4.1.1. Gráfico de barras

Esta tabla de frecuencias se puede presentar a través de un gráfico conocido como
gráfico de barras.
 Un gráfico de barras se utiliza para presentar datos categóricos o datos

cuantitativos de tipo discreto.
Considerando un sistema de coordenadas cartesianas, sobre el eje x se representan

las diferentes categorías de la variable (especies bacterianas), y sobre el eje y la
frecuencia correspondiente a cada categoría. Sobre cada categoría de la variable se
levante una barra con una altura proporcional a la frecuencia respectiva. La
amplitud de la barra no tiene importancia en este caso, y se escoge arbitrariamente.
12
Si queremos utilizar Microsoft Excel para graficar, comenzamos introduciendo las

categorías y las frecuencias en una hoja de cálculos:
Luego seleccionamos (“pintamos”) las columnas con las categorías de la variable

especies bacterianas (Columna A) y las frecuencias absolutas (Columna B):
Hacemos clic en el icono de la barra de herramientas que se denomina “Asistente para

gráficos”:
Seleccionamos Tipo de gráfico: Columnas, Subtipo de gráfico: la primera opción

(arriba a la izquierda). Hacemos clic en Siguiente y se abre la siguiente ventana:
13
Hacemos clic en siguiente y aparece esta ventana que nos permite asignar Títulos del
gráfico, del eje de categorías (x), y del eje de valores (y):
Hacemos un nuevo clic en siguiente y obtenemos:
14
Le decimos a Excel donde queremos poner nuestro gráfico. En este caso hemos
seleccionado: “Como objeto en Hoja 1”
Hacemos clic en finalizar y obtenemos por último:
El gráfico obtenido se puede modificar en tamaño, colores, tipo de fuente, formato del
área de trazado, etc.
Finalmente, nuestro gráfico de barras (o columnas) es el siguiente:
ESPECIES AISLADAS UROCULTIVO

16
14
Frecuencia absoluta
12
10
8
fa
6
0
li (- ) m. o is . +)
co g eu oc bil sp g(
ich
a oa n roc irá as oa
er h.c ap t e m mo
n h .c
ch ap ell En us ap
s St si ote do St
E eb Pr eu
Kl Ps
Especies
Figura 4.1. Gráfico de barras. Especies aisladas cultivo de orina ( fa )
Además de frecuencias absolutas, pueden calcularse frecuencias relativas:
15
 La frecuencia relativa de una variable categórica es la proporción de veces que se

presenta dicha categoría
Se calcula como la frecuencia absoluta dividida por el número total de observaciones.

La simbolizaremos con fr :
fa
fr 
n
La suma de las frecuencias relativas es siempre igual a 1:
fr1  fr2  ......  frn  1
Las frecuencias relativas pueden expresarse como porcentajes al multiplicarlas por

100. La suma de frecuencias relativas porcentuales es siempre igual a 100:
fr % 1  fr % 2  ......  fr % n  100
En el ejemplo desarrollado, tenemos:
TABLA 4.3. Tabla de frecuencias relativas especies aisladas
Especie aislada fa fr fr %
Eschericha coli 14 0,47 47
Estafilococo coagulasa (-) 3 0,10 10
Klebsiella pneumonie 5 0,17 17
Enterococo 2 0,07 7
Proteus mirabilis 3 0,10 10
Pseudomonas sp. 2 0,07 7
Estafilococo coagulasa (+) 1 0,03 3
Total 30 1 100
Las frecuencias relativas y/o los porcentajes pueden representarse también en un

gráfico de barras, modificando convenientemente la escala en el eje de las ordenadas.
Esto se muestra en la figura 4.2:
16
ESPECIES AISLADAS
50,00
40,00
Porcentaje
30,00
20,00
10,00
0,00
i )
l (-) . o
lis
. (+
co m oc sp
oa
g eu oc bi g
ha .c pn r irá as oa
r ic h la
te m on h.c
he ap el En s m ap
c St si eu do St
Es le
b r ot eu
K P Ps
Especie
Figura 4.2. Gráfico de barras. Especies aisladas cultivo de orina (%)
4.2 Organización de datos numéricos
Ya mencionamos que el gráfico de barras es útil para la representación gráfica de

variables numéricas discretas. A continuación veremos metodologías estadísticas
sobre organización de datos numéricos, abordando particularmente como se resumen
las variables numéricas continuas.
Cuando se efectúan observaciones de magnitudes continuas, generalmente se tiene
un registro desordenado de las mediciones efectuadas.
Ejemplo 4.2
Se efectúan 50 determinaciones de sodio en un “pool” de sueros, en un período de
diez semanas. En la siguiente tabla se presentan los datos obtenidos:
TABLA 4.4. Datos originales sodio mmol/L

Na Na Na Na Na
n n n n n
mmol/L mmol/L mmol/L mmol/L mmol/L
1 141,0 11 139,2 21 138,8 31 139,2 41 139,0
2 139,5 12 139,8 22 139,5 32 139,5 42 140,1
3 140,0 13 139,5 23 140,0 33 140,1 43 140,0
4 140,1 14 140,3 24 140,3 34 140,6 44 139,8
5 138,1 15 138,5 25 141,0 35 139,5 45 139,2
6 139,8 16 140,1 26 139,8 36 140,1 46 140,0
7 140,3 17 140,0 27 140,8 37 141,2 47 139,8
8 140,0 18 141,1 28 140,0 38 140,3 48 138,5
9 141,1 19 139,0 29 139,5 39 138,8 49 140,6
10 139,2 20 140,0 30 139,8 40 140,0 50 140,8
17
Una manera de empezar a organizar los datos es ordenarlos, colocando las

observaciones en orden de su magnitud. Esto puede ser en orden ascendente o
descendente.
 Una “ordenación” o “arreglo” es un conjunto de datos numéricos dispuestos en

orden creciente o decreciente.
En la siguiente tabla se muestra un arreglo ascendente para los 50 datos de sodio:
TABLA 4.5. Datos sodio (mmol/L) ordenados en forma ascendente
Na Na Na Na Na
n n n n n
1 138,1 11 139,2 21 139,8 31 140,0 41 140,3
2 138,5 12 139,5 22 139,8 32 140,0 42 140,6
3 138,5 13 139,5 23 139,8 33 140,1 43 140,6
4 138,8 14 139,5 24 140,0 34 140,1 44 140,8
5 138,8 15 139,5 25 140,0 35 140,1 45 140,8
6 139,0 16 139,5 26 140,0 36 140,1 46 141,0
7 139,0 17 139,5 27 140,0 37 140,1 47 141,0
8 139,2 18 139,8 28 140,0 38 140,3 48 141,1
9 139,2 19 139,8 29 140,0 39 140,3 49 141,1
10 139,2 20 139,8 30 140,0 40 140,3 50 141,2
Sin embargo, esta primera forma de organización de datos resultaría engorrosa y poco
práctica si el número de mediciones fuera mucho mayor. Esta información puede ser
resumida en una tabla de frecuencias.
 Una tabla de frecuencias para variables numéricas es una tabla que asocia cada
valor de la variable con la cantidad de veces que se observa dicho valor
 La suma de las frecuencias absolutas es siempre igual al número total de

observaciones.
En la tabla 4.6, además de frecuencias absolutas, se han calculado las frecuencias

relativas. Recordemos que la frecuencia relativa se calcula como la frecuencia
absoluta correspondiente a cada valor de la variable dividida por el número total de
observaciones:
fa
fr 
n
Y que además, la fr puede expresarse en porcentaje al multiplicarla por 100:
18
TABLA 4.6. Tabla de Frecuencias sodio
Na fa fr Porcentaje
mmol/L
138,1 1 0,02 2,0
138.5 2 0,04 4,0
138,8 2 0,04 4,0
139,0 2 0,04 4,0
139,2 4 0,08 8,0
139,5 6 0,12 12,0
139,8 6 0,12 12,0
140,0 9 0,18 18,0
140,1 5 0,10 10,0
140,3 4 0,08 8,0
140,6 2 0,04 4,0
140,8 2 0,04 4,0
141,0 2 0,04 4,0
141,1 2 0,04 4,0
141,2 1 0,02 2,0
En muchos casos es muy importante también, describir las frecuencias absolutas y

relativas acumuladas ( Fa y Fr )
 La frecuencia acumulada para un valor dado de la variable es la suma de las

frecuencias (absolutas y/o relativas) de los valores menores o iguales al valor que
se considera.
Por ejemplo la frecuencia absoluta acumulada para el valor 139,2 mmol/L es:
Fa (139,2) = 1 + 2 + 2 + 2 + 4 = 11
TABLA 4.7. Tabla de frecuencias y frecuencias acumuladas sodio
Na fa fr
mmol/l
Porcentaje Fa Fr
138,1 1 0,02 2,0 1 0.02
138.5 2 0,04 4,0 3 0.06
138,8 2 0,04 4,0 5 0.10
139,0 2 0,04 4,0 7 0.14
139,2 4 0,08 8,0 11 0.22
139,5 6 0,12 12,0 17 0.34
139,8 6 0,12 12,0 23 0.36
140,0 9 0,18 18,0 32 0.54
140,1 5 0,10 10,0 37 0.64
140,3 4 0,08 8,0 41 0.72
140,6 2 0,04 4,0 43 0.76
140,8 2 0,04 4,0 45 0.80
141,0 2 0,04 4,0 47 0.84
141,1 2 0,04 4,0 49 0.88
141,2 1 0,02 2,0 50 1.00
19
En la tabla 4.7 podemos observar que el valor que más frecuencia tiene es 140,0 que
representa un 18,0 % y que los resultados de menos frecuencia son 138,1 y 141,2 con
un 2,0 % cada uno. Podríamos ser más sofisticados y decir que el 52,0 % de los datos
(12 % + 12,0% + 18,0 % + 10,0 %) están comprendidos entre 139,5 y 140,1.
Podemos ver también que el mayor valor que toma la variable es 141,2 y el menor
valor es 138,1 por ello se dice que el rango es 141,2 – 138,1 = 3,2.
 Definimos el Rango como la diferencia que existe entre el mayor y el menor valor
observado de la variable en estudio
Este gran intervalo (Rango) que contiene a todos los valores registrados, es decir,
representa la variabilidad total de los datos, puede dividirse en una serie de intervalos
más pequeños.
Se puede así construir una tabla de frecuencias donde en lugar de escribir los valores
originales de la variable, se los reemplaza por intervalos de valores, llamados “clases”.
Este arreglo de los datos expresando la frecuencia de observaciones en intervalos o
clases se conoce como distribución de frecuencias.
No existe un criterio uniforme para definir el número de intervalos o clases, sin

embargo las siguientes reglas pueden ser de utilidad:
1. El número de clases no deberá ser tan pequeño (menos de 6) o tan grande

(mayor a 20), que impida visualizar la verdadera naturaleza de la distribución.
2. Idealmente, el valor del intervalo o “célula” debe ser igual para todas las clases.
Esto no es una constante, pues la cantidad de intervalos y la amplitud de cada
uno es arbitraria, y depende de los datos involucrados.
3. Puede obtenerse una idea calculando la raíz cuadrada del número de
observaciones, en nuestro ejemplo 50  7.
La única recomendación que podemos hacer, es tratar de que no queden intervalos

con frecuencia cero. Como el rango total de los intervalos de clase debe incluir a todos
los valores de la variable, se aconseja redondear el rango a un número superior para
evitar que el menor o el mayor valor queden excluidos.
En nuestro caso, redondearemos el rango a 3,5 y lo dividiremos en 7 intervalos o
clases de 0,5 mmol/l. En nuestro ejemplo, el menor valor de la variable es 138,1
mmol/L, de manera que los intervalos comenzarán a construirse desde 138 mmol/L:
20
TABLA 4.8. Distribución de frecuencias sodio (1)
Clases o Frecuencia Frecuencia

Porcentaje
Intervalos Absoluta Relativa
138,0 - 138,5 3 0,06 6,0 %
138,5 - 139,0 4 0,08 8,0 %
139,0 - 139,5 10 0,20 20,0 %
139,5 - 140,0 15 0,30 30,0 %
140,0 - 140,5 9 0,18 18,0 %
140,5 - 141,0 6 0,12 12,0 %
141,0 - 141,5 3 0,06 6,0 %
 Los límites extremos de cada intervalo se llaman “límite inferior de clase” y

“límite superior de clase”
 La “marca de clase” es el punto medio del intervalo de clase y se obtiene
promediando los límites inferior y superior de clase.
 Si determinamos el número de datos que pertenecen a cada clase,
obtendremos la “frecuencia de clase”
Una pregunta que podría surgir en este punto es: si un valor de la variable
“concentración de sodio sérico” es 140,0 mmol/L, en qué intervalo se debe ubicar?
Como se observa en la tabla de frecuencias, podría situarse en el cuarto o quinto
intervalo de clase. La respuesta a este problema es: ubicarlo en cualquiera de los
dos intervalos, pero siguiendo siempre el mismo agrupamiento a través de todo
el proceso. Esto significa que si se decide ubicarlo en el cuarto intervalo, un valor de
139,0 mmol/L se ubicará en el segundo intervalo, y un valor de 141,0 mmol/L se debe
ubicar en el sexto intervalo.
Esta tabla muestra que los datos agrupados se concentran más o menos
simétricamente alrededor de un intervalo central que corresponde a la clase con más
frecuencia: 139,5-140,0 (Frecuencia absoluta: 15 – Frecuencia relativa 30,0 %). Este
intervalo se denomina intervalo modal.
4.3. Representaciones gráficas para variables continuas

Una vez que hemos construido una tabla de distribución de frecuencias, se pueden
representar los valores en un gráfico que indique la distribución de la variable.
4.3.1. Histograma
El Histograma se utiliza para graficar datos cuantitativos continuos, resumidos en
tablas de distribución de frecuencias. En el eje de las abscisas se representa la
variable que se estudia, con los datos agrupados en clases, y en el eje vertical el
número de observaciones por cada clase, es decir la frecuencia correspondiente a
21
cada intervalo. Las frecuencias de clase se representan por las alturas de las barras y
éstas se trazan adyacentes entre sí.
Para el trazado se procede de la siguiente forma: el intervalo Nº 1 (138,0-138,5) tiene
una frecuencia = 3. Comenzando en el límite inferior de este intervalo (138,0), se traza
un rectángulo con base en el eje “x”, de una altura igual a la frecuencia (3) y de una
longitud (ancho) igual a la célula de la clase: 0,50. Se procede de igual forma con el
resto de clases y frecuencias.
Este tipo de histograma es el que encontraremos usualmente y corresponde a una
población Normal o Gaussiana.
Figura 4.2 Histograma sodio (SPSS)
En un mismo sistema de ejes, sólo puede situarse un histograma con claridad, lo que
limita su uso con fines comparativos.
4.3.2. Polígono de frecuencias

También es una gráfica donde en el eje “y” se consignan los valores de frecuencia, y
en el eje “x” la magnitud de los datos obtenidos. En el eje “x” se grafica el promedio de
cada clase o “marca” de clase. Por ejemplo el primer punto está dado por: (138,0 +
138,5)  2 = 138,25., y el último punto: (141,0 + 141,5)  2 = 141,25.
Un histograma puede transformarse en un polígono de frecuencias conectando los

puntos medios de las partes superiores de cada rectángulo (los rectángulos no son
parte del polígono; se emplean en este caso sólo como ayuda visual):
22
Con el objeto de no dejar cortada la gráfica en los extremos, se supone que existen
dos intervalos más: uno anterior al primero, y otro posterior al último,
correspondiéndoles a cada uno de ellos una frecuencia = 0
En nuestro ejemplo serían:
 137,5 - 138,0 (promedio o marca de clase = 137,75)

 141,5 - 142,0 (promedio o marca de clase = 141,75)
De esta forma, queda conformada la siguiente tabla de frecuencias:
TABLA 4.9. Distribución de frecuencias sodio (2)
Marca de clase (mmol/L) fa fr

137,75 0 0
138,25 3 0,06
138,75 4 0,08
139,25 10 0,2
139,75 15 0,3
140,25 9 0,18
140,75 6 0,12
141,25 3 0,06
141,75 0 0
La curva se construye considerando que las observaciones de cada clase están

distribuidas de modo uniforme a lo largo de la clase. En el eje vertical pueden
graficarse indistintamente las frecuencias absolutas o relativas correspondientes a
cada marca de clase. En la siguiente figura se muestra un polígono de frecuencias
absolutas:
23
Polígono de frecuencias
16
14
Frecuencia absoluta
12
10
8
6
4
2
0
137 138 139 140 141 142
Na m m ol/L
Figura 4.3 Polígono de frecuencias
Gráficamente, nos da la misma información que el Histograma. Sin embargo, el

polígono de frecuencias es muy útil para representar y comparar dos o más
distribuciones en la misma gráfica.
4.3.3. Graficando con Microsoft Excel
HISTOGRAMA
Comenzamos incorporando los datos en una columna, en el orden en que fueron

obtenidos (no es necesario que estén ordenados ni agrupados de alguna manera):
A continuación insertamos en una nueva columna (B) las clases en las que se dividen
los datos. Estas deben incorporarse como valores numéricos en forma creciente,
ingresando solo el límite superior de cada intervalo o clase:
24
En el menú Herramientas seleccionamos  Análisis de datos. Previamente debemos

comprobar que este paquete de herramientas esté activado. Para ello abrir el menú
Herramientas  Complementos y activamos Herramientas para análisis:
A partir de aquí dispondremos de la herramienta “Análisis de datos”:
25
Pulsando en Análisis de datos se abre una ventana en la que debemos seleccionar:

 Histograma
Pulsamos en Aceptar e inmediatamente se abrirá una ventana en la que se incorporan

los datos que queremos graficar:
Pulsamos la tecla roja del cuadro Rango de entrada, y seleccionamos las celdas que
contienen la información de los valores de concentración de sodio: A1:A51.
En Rango de clases seleccionamos las clases: B1:B8.
Seleccionando la opción Rótulos, el programa considera que en la primera celda del
rango seleccionado se encuentra el título del conjunto de datos.
En Opciones de salida, se ha seleccionado que los resultados sean entregados “En
una hoja nueva”. La opción de Pareto (Histograma ordenado en forma descendente en
función de la frecuencia de resultados) no ha sido seleccionada en este caso.
Al elegir Porcentaje acumulado, estamos informando que queremos conocer la
Frecuencia Acumulada de los resultados, y con la opción de Crear gráfico elegimos la
opción de poder observar los resultados en forma gráfica.
26
Al aceptar estas opciones, se abre una nueva hoja dentro del mismo libro con el
siguiente cuadro:
En la columna Frecuencia encontramos la frecuencia absoluta de cada intervalo. En la

columna llamada % acumulado, se visualiza la frecuencia porcentual acumulada.
En la misma hoja que contiene la tabla, se obtuvo el siguiente gráfico:
Figura 4.4 Histograma sodio (MS Excel)
Vemos que Excel nos proporciona además del histograma*, un gráfico de puntos
unidos por líneas, que representan las frecuencias acumuladas por debajo de las
fronteras superiores de cada clase. Este gráfico se denomina Ojiva o Polígono de
frecuencias acumuladas “menor que”, por la forma de acumular las frecuencias. La
escala vertical de la derecha indica las frecuencias acumuladas en porcentaje. Puede
verse que el 34% de los datos son iguales o menores a 139,5 mmol/L, o que el 82%
de los resultados son  140,5 mmol/L o menos.
* Vemos que el histograma se presenta como barras separadas, cuando en realidad,
al tratarse de una variable continua, la representación lógica es a través de barras
adyacentes. Excel 2007 permite definir esta situación, pudiéndose optar por barras
separadas, “distancia” de la separación, y/o barras adyacentes.
27
POLÍGONO DE FRECUENCIAS
El polígono de frecuencias puede graficarse con Excel, siguiendo los pasos vistos en
el ejemplo 4.1.
Comenzamos introduciendo los datos de la tabla 4.9 en la hoja de cálculos:
Luego seleccionamos las columnas con la marca de clase y la frecuencia absoluta:
Hacemos clic en el icono de la barra de herramientas: “Asistente para gráficos” (otra

opción para abrir esta ventana es seleccionar el menú Insertar  Gráfico):
28
Seleccionamos Tipo de gráfico: Dispersión, Subtipo de gráfico: la opción dispersión

con puntos de datos conectados por líneas. Hacemos clic en Siguiente y se abre la
siguiente ventana:
Hacemos clic en siguiente y se abre una ventana que nos permite asignar Títulos del
gráfico, del eje de categorías (x), y del eje de valores (y):
Hacemos un nuevo clic en siguiente y obtenemos:
29
Le decimos a Excel donde queremos poner nuestro gráfico. En este caso hemos
seleccionado: “Como objeto en la Hoja rotulada “Polígono de frecuencias”, donde
hemos introducido los datos.
Hacemos clic en finalizar y por último obtenemos:
Resulta conveniente incluir líneas de división en ambos ejes, para crear una cuadrícula
con un espaciado acorde con los valores de las frecuencias y marcas de clase, y
poder visualizar los puntos con la mayor aproximación posible.
Para ello se hace clic con el botón derecho del Mouse dentro del área del gráfico, y se
selecciona: opciones del gráfico:
30
Hacemos clic y se abre una ventana donde seleccionamos “Líneas de división”, y

marcamos para el eje de valores (X): Líneas de división secundarias, y para el eje de
valores (Y): líneas de división principales.
Finalmente obtenemos el siguiente gráfico para el Polígono de frecuencias:
31
Polígono de frecuencias
16
Frecuencia absoluta
14
12
10
8
6
4
2
0
137 138 139 140 141 142
Na mmol/L
Obsérvese por ejemplo el punto 2: frecuencia = 3 y 138,25 mmol/L ó el punto 7:

frecuencia = 6 y 140,75 mmol/L.
OJIVA
Si queremos utilizar Excel para graficar sólo la Ojiva, se debe introducir en una hoja de
cálculos una tabla de valores que debe contener los límites superiores de cada clase y
la frecuencia acumulada correspondiente. Se incluye el límite inferior de la primera
clase (138) que tiene una frecuencia acumulada = 0:
Seguimos la misma secuencia utilizada para el Polígono de frecuencias: “Asistente

para gráficos”  Tipo de gráfico: Dispersión, subtipo de gráfico: la tercera opción:
dispersión con puntos de datos conectados por líneas  y continuamos con los pasos
2, 3 y 4 del asistente para gráficos.
Finalmente se obtiene el siguiente gráfico:
32
POLIGONO DE FRECUENCIAS ACUMULADAS

110
100
90
80
% acumulado
70
60
50
40
30
20
10
0
137,5 138 138,5 139 139,5 140 140,5 141 141,5 142
Límites de clase
5. Medidas estadísticas descriptivas

Una vez que los datos han sido obtenidos y organizados, estamos en condiciones de
realizar un análisis descriptivo. En estadística se trabaja con ciertas medidas que se
utilizan para resumir una serie de datos o describir las características de un conjunto
de éstos. Ellas son: las medidas de tendencia central, medidas de posición, las
medidas de dispersión y las medidas de forma.
5.1. Medidas de tendencia central

Las mediciones obtenidas pueden resumirse en un solo valor central alrededor del
cual se distribuyen todos los datos muestrales.
Las medidas de tendencia central, describen la ubicación del centro de una
distribución de mediciones numéricas u ordinales.
Las tres medidas de tendencia central utilizadas con más frecuencia son: media,
mediana y moda. Las tres se emplean con datos numéricos, y la mediana y la moda
pueden utilizarse también para datos ordinales.
5.1.1. Media aritmética

La media aritmética muestral es el promedio aritmético de un conjunto de
determinaciones u observaciones de una muestra obtenida de una población de datos.
Se calcula sumando los valores de todas las observaciones y dividiendo por el número
de mediciones realizadas. Se simboliza con x :
33
x
x i
La media poblacional  es la media verdadera de la población, y se define por la

siguiente ecuación cuando N tiende a infinito:
u
x i
La media aritmética muestral x proporciona una estimación de . Frecuentemente, en
particular cuando el tamaño de la muestra es pequeño, x difiere de  debido a que

una muestra pequeña de datos no representa exactamente a su población.
La media aritmética se emplea cuando las observaciones se miden en una escala
numérica; no debe usarse con datos ordinales debido a la naturaleza arbitraria de la
escala.
Ejemplo 5.1
La siguiente tabla muestra mediciones de colesterol en una muestra de 30 pacientes
dislipémicos con valores iniciales > 250 mg/dL, sometidos a una dieta vegetariana
durante 1 año:
TABLA 5.1. Valores de colesterol en 30 pacientes dislipémicos

sometidos a dieta vegetariana
Paciente Colesterol mg/dL Paciente Colesterol mg/dL Paciente Colesterol mg/dL

1 204 11 180 21 215
2 189 12 215 22 169
3 211 13 172 23 175
4 195 14 204 24 191
5 170 15 183 25 182
6 185 16 191 26 200
7 199 17 195 27 181
8 195 18 174 28 190
9 187 19 209 29 182
10 289 20 205 30 193
Cuando se quiere calcular manualmente la media aritmética, una calculadora de

bolsillo simplifica el trabajo. Una vez que se han introducido los datos, el cálculo se
realiza fácilmente a través de la tecla “ x ”.
34
 Uso de Microsoft Excel

Cuando el número de datos es elevado, resulta conveniente el uso de planillas de
cálculo como Microsoft Excel. Para ello, primeramente se incorporan los datos en una
columna, en este caso desde la celda B2 a la B31. En la celda B1 se ha insertado el
título: “Colesterol mg/dL”
A partir de aquí podemos seguir dos caminos:

Si únicamente nos interesa conocer la media de los datos, podemos utilizar la función
“Promedio” disponible en Microsoft Excel. Para ello nos posicionamos en una celda
vacía de la misma hoja en la que están los datos (por ejemplo la celda B32) y
escribimos: = PROMEDIO (………). Donde figuran los puntos suspensivos, debemos
indicar cuales son las celdas que contienen los datos. En nuestro ejemplo, debemos
escribir: = PROMEDIO (B2:B31):
Luego de apretar Enter, sabremos cual es el promedio de esta muestra: 194,3 mg/dL
(en la celda A32 se ha rotulado “MEDIA”)
Otra forma de calcular la media a través de MS Excel es seleccionar la opción Análisis

de Datos dentro del menú Herramientas. Se abre una ventana en la que
seleccionamos: Estadística descriptiva:
35
Pulsamos Aceptar y se abrirá una nueva ventana en la que incorporaremos los datos
que tenemos ingresados:
Pulsando la flecha roja en Rango de entrada, se incorporan los datos de la siguiente

forma:
La opción “Agrupado por”, se refiere a la forma en que han sido cargados los datos en
la planilla, en este caso debe seleccionarse Columnas.
Debe seleccionarse la opción Rótulos en la primera fila, ya que en la celda B1 se ha
ingresado el título respectivo.
36
También deben definirse las Opciones de Salida, en este caso le pedimos a Excel que
nos arroje los resultados “En una hoja nueva”
Para obtener el resultado que necesitamos debemos seleccionar la opción Resumen
de estadísticas. Si quisiéramos conocer también cual es el mayor valor obtenido, y
cuál es el menor, marcamos K-ésimo mayor y K-ésimo menor.
Haciendo clic en Aceptar, se abre una nueva hoja de Microsoft Excel, con la siguiente
estructura:
De todos los resultados ofrecidos por Excel, nos interesa por ahora sólo el de la
media, en la primera fila de datos, que como vemos es el mismo que el obtenido a
través de la Función Promedio.
37
La razón para utilizar la herramienta Estadística descriptiva, en lugar de un cálculo

simple a través de la fórmula, es valerse de la posibilidad que nos ofrece Excel de
detallar en un cuadro, el resto de medidas descriptivas que aparecen en la tabla, que
serán explicadas más adelante.
MEDIA ARITMÉTICA PARA DATOS AGRUPADOS

Aún cuando hay 30 valores para la variable, si ordenamos los datos de menor a mayor
veremos que sólo hay 24 datos diferentes.
Si construimos una tabla de frecuencias absolutas, podemos incorporar una tercera
columna con el producto de cada valor de la variable por su frecuencia absoluta.
A partir de los valores de esta tabla, puede calcularse la media con la expresión:
x
x i  fa ( x i )
n
TABLA 5.2. Tabla de frecuencias colesterol 30 pacientes
Colesterol mg/dL fa fa . x i
169 1 169
170 1 170
172 1 172
174 1 174
175 1 175
180 1 180
181 1 181
182 2 364
183 1 183
185 1 185
187 1 187
189 1 189
190 1 190
191 2 382
193 1 193
195 3 585
199 1 199
200 1 200
204 2 408
205 1 205
209 1 209
211 1 211
215 2 430
289 1 289
Total 30 5830
38
5830
La media aritmética será: x  194,3 mg/dL
30
En el caso de tener una tabla de distribución de frecuencias con los datos agrupados
en intervalos de clase, el cálculo de la media es un promedio ponderado, que se
obtiene multiplicando el punto medio de cada intervalo por el número de
observaciones que abarca ese intervalo (frecuencia absoluta).
x
x j . fa ( x j )
n
Donde x j es el promedio entre los extremos de cada intervalo, es decir representa el
punto medio del intervalo de clase.
La siguiente es una tabla de frecuencias para los datos de la Tabla 5.1, donde se ha
eliminado el dato del paciente 10. El rango (46) se redondeó a 48 y se dividió en 6
clases de 8 mg/dL:
TABLA 5.3. Distribución de frecuencias colesterol 29 pacientes
Colesterol Frecuencia Punto medio

clases absoluta del intervalo
169-177 5 173
177-185 6 181
185-193 6 189
193-201 5 197
201-209 4 205
209-217 3 213
Total 29
(5  173)  (6 181)  (6 189)  (5 197)  (4  205)  (3  213)

x  190,6
29
El valor obtenido desde una tabla de distribución de frecuencias no siempre es igual al

valor obtenido de las observaciones individuales (191,1), aunque en este ejemplo los
valores se hallan muy próximos. La diferencia se debe a que cuando se agrupan los
datos en clases, se pierde precisión en el cálculo de las medidas descriptivas. Sin
embargo, estas discrepancias son en general despreciables, considerando las
ventajas ganadas al emplear una distribución de frecuencias en el cálculo de la media,
especialmente en muestras grandes.
39
Una propiedad importante de la media aritmética es que la suma algebraica de las

desviaciones entre el valor de cada observación y la media muestral es cero, es decir:
( x i  x)0
Por ejemplo, la media aritmética de los números 8, 3, 5, 12 y 10 es 7,6. Las

desviaciones respecto de su media son:
TABLA 5.4. Propiedad de la media. Sumatoria de los desvíos = 0
xi  x Desviación
8 – 7,6 0,4
3 – 7,6 - 4,6
5 – 7,6 - 2,6
12 – 7,6 4,4
10 – 7,6 2,4
 0
Otras consideraciones sobre la media:
 En un conjunto de observaciones la media es sensible a los valores extremos, ya

que todas las observaciones intervienen en su cálculo. Por ejemplo, el colesterol del
paciente 10 de la tabla 5.1 (289 mg/dL), es alto en relación a los valores del resto
de pacientes de este grupo, y como consecuencia la media se desplaza en esa
dirección. Como vimos, si este valor no estuviera presente, la media sería 191,1 en
lugar de 194,3. Este valor es más representativo de la distribución de datos. Esta
situación debe tenerse en cuenta al decidir sobre que medida de tendencia central
utilizar, o al analizar la dispersión de una serie de datos, como veremos más
adelante.
 Si examinamos el cálculo de la media en una variable discreta, el valor de la media

puede no pertenecer al conjunto de valores de la variable. Consideremos la variable
“número de hijos por familia”. Los datos pertenecientes a 20 familias seleccionadas
aleatoriamente, se resumen en una tabla de frecuencias:
TABLA 5.5. Tabla de frecuencias número de hijos por familia
Nº de
hijos ( x i )
fa x i . fa
3 10 30
4 6 24
2 2 4
5 1 5
6 1 6
Total 20 69
40
x
x i . fa

69
 3 ,45
n 20
Esto significa que la familia promedio es la que presenta entre 3 y 4 hijos. El valor 3,45
es el resultado matemático del cálculo de la media, sin embargo no es un valor
posible de la variable, por su propia definición.
5.1.2. Media geométrica

Se usa menos frecuentemente que la media o la mediana. Se simboliza como MG, y
se calcula:
MG  n ( x 1 ) ( x 2 ) ( x 3 ) .... ( x n )
En general, la media geométrica se usa con datos medidos en escala logarítmica. Si

se obtiene el logaritmo de la expresión anterior:
log MG 
 log x i
n
Es decir, el logaritmo de la media geométrica es igual a la media aritmética de los
logaritmos de las observaciones.
Ejemplo 5.2
Los siguientes valores (expresados como porcentajes) proporcionan la concentración
de anticuerpos en suero sanguíneo de ocho adultos sanos:
2,15 – 1,13 – 2,04 – 1,45 – 1,35 – 1,09 – 0,99 – 2,07
Para calcular la media geométrica es conveniente trabajar con los logaritmos

decimales de los valores obtenidos:
0,332 – 0,054 – 0,310 – 0,161 – 0,130 – 0,037 – (0,004) – 0,316
La media aritmética de estos valores logarítmicos es 0,167. Por lo tanto la media

geométrica de los valores originales es:
MG  10 0 ,167 = 1,47
5.1.3. Mediana
Es el valor que queda en la parte central de un grupo de observaciones ordenadas por
magnitud creciente, es decir, la mitad de los datos son menores y la otra mitad
41
mayores que ella. De acuerdo a esta definición, la mediana no puede calcularse para
variables medidas en escala nominal.
Se simboliza con Me, Md ó M, pero no tiene un símbolo convencional.
Para calcular la mediana de un conjunto de observaciones, lo primero que debe
hacerse es ordenarlos de menor a mayor. Si el número de datos es impar, la mediana
es el valor que está ubicado en el centro. Si se tiene un número par de mediciones, la
mediana se calcula como el promedio entre los dos valores centrales. La posición de
la mediana en un conjunto de datos puede calcularse:
n1
Posición de la mediana 
2
Si tenemos por ejemplo la siguiente serie de datos ordenados, correspondientes a una

variable discreta (n = 7):
22 25 28 32 35 36 38
Como tenemos un número reducido de datos, se puede ver fácilmente que el valor
central es el dato Nº 4, por lo tanto:
Me = 32
La aplicación de la fórmula de ubicación de la mediana nos lleva a igual resultado:
7 1
4
2
Ahora bien, si se tuviera un dato más (n = 8):
22 25 28 32 35 36 38 43
El cálculo de la mediana se realiza promediando los dos valores centrales:
32  35
Me   33,5
2
Si aplicamos la fórmula para conocer que posición tiene la mediana en este caso:
8 1
 4,5
2
El valor 4,5 indica que la mediana se ubica entre el cuarto y quinto lugar, exactamente
en el centro de ambos valores, y se calcula como vimos, promediando estos valores.
42
Es importante apreciar que, el valor central de la serie de datos, calculado a través de

la mediana es 33,5, aunque el mismo no sea un valor posible de la variable en este
ejemplo (variable discreta).
Continuando con el ejemplo 5.1, si analizamos la respuesta entregada por Excel a
través de la Herramienta Estadística descriptiva, vemos que en el mismo cuadro, en la
tercera fila, aparece la Mediana:
Este valor indica que la mitad de los pacientes observados tiene un resultado de
colesterol más bajo a 191 mg/dL, y la otra mitad tiene un resultado más alto.
MEDIANA PARA DATOS AGRUPADOS

Cuando tenemos datos continuos agrupados en clases, se utiliza la siguiente fórmula
de interpolación:
n
 Fi  1
Me  Li  2  ai
Fi  Fi  1
Donde:
n/2 = semisuma del total de frecuencias absolutas (o del total de datos)
Fi  1 = es la mayor de las frecuencias acumuladas que no supera a n/2
Fi = es la frecuencia acumulada que le sigue a Fi  1
Li = es el extremo inferior del intervalo que tiene como frecuencia acumulada Fi
a i = amplitud de dicho intervalo
Tomando el ejemplo de la tabla 5.3, donde hemos incluido una tercera columna con el
cálculo de la frecuencia acumulada:
Colesterol Frecuencia Frecuencia

clases absoluta acumulada
169-177 5 5
177-185 6 11
185-193 6 17
193-201 5 22
201-209 4 26
209-217 3 29
Total 29
43
n/2 = 29/2 = 14,5

Fi  1 = 11
Fi = 17
Li = 185
ai = 8
El cálculo de la mediana es:
14 ,5  11
Me  185   8  189 ,7 mg / dL  190 mg/dL
17  11
Recordemos que el cálculo obtenido desde una tabla de distribución de frecuencias no

siempre es igual al valor obtenido de las observaciones individuales, pues se pierde
precisión en el procesamiento de datos. En este caso Excel entrega, para los 29 datos
sin agrupar, un valor para la mediana = 191 mg/dL
Propiedades de la mediana:
 Es de cálculo rápido y de interpretación sencilla
 Es independiente de la distribución, y no es afectada por valores extremos.
 Otra característica útil de la mediana es que puede utilizarse con observaciones

ordinales.
3.1.3. Moda o Modo

Es el valor de la variable que se presenta con mayor frecuencia en un conjunto de
observaciones. Se simboliza con Mo
Si consideramos el ejemplo dado en la Tabla 4.2, la moda es Escherichia coli, bacteria
aislada con mayor frecuencia en 30 muestras de orina.
44
Continuando con el ejemplo 5.1 de valores de colesterol, en el mismo cuadro de Excel

que nos proporcionaba la media y la mediana, encontramos la moda en la cuarta fila:
De este resultado se concluye que el resultado que más veces se repite en la muestra
de 30 pacientes es 195 mg/dL.
Algunas veces, existen observaciones que se repiten igual número de veces en un
conjunto de datos. Por ejemplo, consideremos los valores:
10 3 10 12 9 7 9 7 10 8 6 7
A esto se le llama distribución bimodal, debido a que hay dos modas en la serie de
datos correspondientes a los valores 7 y 10, cada uno con frecuencia 3.
Si construimos una tabla de frecuencias, tenemos:
TABLA 5.5. Distribución bimodal
Datos fa
3 1
6 1
7 3
8 1
9 2
10 3
12 1
Observaciones sobre la moda:
 La moda es un buen indicador del centro de los datos sólo si hay una frecuencia
dominante. Cuando se da el caso de una distribución bimodal, se puede interpretar
que se están considerando dos distribuciones unimodales.
 Cuando se mide una variable continua, existe la probabilidad de obtener valores

diferentes en todas las mediciones. En este caso hipotético no existe valor modal,
pues el conjunto de datos no contiene mediciones que se presenten más de una
vez.
 También puede ocurrir que todos los valores sean el modo, debido a que cada uno
de ellos se presenta igual número de veces.
45
MODA PARA DATOS AGRUPADOS

Cuando los datos están agrupados en clases, la moda se expresa como “clase modal”
que representa al intervalo de valores con mayor frecuencia.
Por ejemplo, si consideramos el ejemplo la tabla de distribución de frecuencias 4.7, se
observa que los datos agrupados se concentran más o menos simétricamente
alrededor de un intervalo central que corresponde a la clase con más frecuencia:
139,5-140,0 mmol/L. Este intervalo se denomina intervalo modal, o clase modal:
TABLA 5.6. Intervalo modal
Clases o Frecuencia Frecuencia

Porcentaje
Intervalos Absoluta Relativa
138,0 - 138,5 3 0,06 6,0 %
138,5 - 139,0 4 0,08 8,0 %
139,0 - 139,5 10 0,20 20,0 %
139,5 - 140,0 15 0,30 30,0 %
140,0 - 140,5 9 0,18 18,0 %
140,5 - 141,0 6 0,12 12,0 %
141,0 - 141,5 3 0,06 6,0 %
Algunos autores calculan la moda como el punto medio de los límites del intervalo
modal, en este caso:
139 ,5  140
 139 ,8  140 mmol / L
2
Para datos agrupados, puede calcularse la moda a través de la siguiente expresión:
f1
Moda  Li  a i
f1  f2
Siendo: Li = extremo inferior del intervalo modal
a i = amplitud del intervalo modal
f 1 = Frecuencia del intervalo modal menos la frecuencia del intervalo

anterior
f 2 = Frecuencia del intervalo modal menos la frecuencia del intervalo
posterior
Tomando los valores de la tabla 5.6:
Li = 139,5
a i = 0,5
f 1 = 15 – 10 = 5
f 2 = 15 – 9 = 6
46
Entonces, el cálculo de la moda es:
5
Moda  139 ,5  0 ,5  139 ,7  140 mmol / L
56
Propiedades de la moda:
 La moda es un valor de la variable, y la frecuencia de este valor establece su

importancia estadística.
 Es la única medida de tendencia central que puede utilizarse para datos
cualitativos, es decir para una variable medida en escala nominal.
 USO DE LAS MEDIDAS DE TENDENCIA CENTRAL

Dado un conjunto de observaciones, podemos preguntarnos qué medida de tendencia
central es mejor. Para tomar esta decisión son importantes dos factores:
11.. El tipo de variable y la escala de medición utilizada
22.. La forma de la distribución de las observaciones
Tipo de variable y escala de medición: Aunque las distribuciones se estudiarán más

adelante, puede considerarse aquí si un conjunto de datos se distribuye
simétricamente alrededor de la media, o si se sesga a la izquierda o a la derecha de la
media.
Ejemplo 5.3
Supongamos que una empresa de venta de productos para diagnóstico, tiene
catalogados a los laboratorios de un determinado distrito de acuerdo a los siguientes
parámetros:
1. La zona en que están instalados

2. Un índice de jerarquía (calculado considerando su complejidad, superficie
ocupada, número de pacientes/día y cantidad de empleados)
3. Facturación mensual en pesos.
El registro de los datos se muestra en la siguiente tabla:
47
TABLA 5.7. Laboratorios según zona, índice de jerarquía y facturación mensual
Índice de
Laboratorio Zona Facturación
jerarquía
A 1 4 19.000
B 2 3 20.000
C 2 5 40.000
D 4 1 10.000
E 3 4 22.000
F 4 2 13.000
G 4 5 35.000
H 5 4 17.000
I 3 1 13.500
J 2 2 11.000
Si observamos las tres variables (zona, índice de jerarquía, facturación), parecería que
puede calcularse en todos los casos, la media, la mediana y la moda.
Sin embargo, en las variables zona y jerarquía, algunas de estas medidas no
proporcionan un resultado que sea de utilidad. Por ejemplo, no tiene ninguna
interpretación lógica decir que la media aritmética de las zonas es 3, debido a que la
variable categórica zona no está medida en una escala numérica, sino en una escala
nominal.
Cuando se analiza este tipo de variable, la única medida de posición que tiene sentido
es la moda. Es apropiado decir que la zona 2 (Moda) es la que concentra mayor
cantidad de laboratorios.
Si consideramos la variable Índice de jerarquía, también la moda es una medida
comprensible. En el ejemplo, podemos decir que hay más laboratorios con Índice de
jerarquía 4. Esta variable, definida como un índice, es una variable categórica ordinal,
pero no numérica, pues no indica en que grado es más jerárquico un laboratorio de
índice 5 comparado con uno de índice 3.
En este caso también se puede calcular la mediana que es 3,5. Su única interpretación
sería que la mitad de los laboratorios tiene una jerarquía mayor que 3,5 y que la otra
mitad tiene un valor menor a 3,5.
Para la variable Facturación mensual, variable numérica continua, tiene sentido el

cálculo de las tres medidas de tendencia central.
El promedio de Facturación mensual es 20.050 pesos, y la mediana 15.250 pesos.
Esta diferencia en los valores de la media y la mediana, se explica por la asimetría de
la distribución como veremos más adelante.
48
Con respecto al modo, al tener cada uno de los valores de la variable la misma
frecuencia (1), no existe un valor modal.
Forma de la distribución de las observaciones: La forma que adopta la distribución

de frecuencias es otro factor que puede influir sobre la elección de la medida de
posición más adecuada:
 Cuando la distribución es bimodal, ninguna medida de posición resulta de utilidad.
 Cuando la distribución es asimétrica, de acuerdo a la dirección de la asimetría,

existen valores atípicos muy chicos o muy grandes. Estos valores distorsionan el
valor de la media aritmética y pierde representatividad. En este caso es conveniente
usar la mediana como medida de tendencia central.
En la siguiente figura se presentan distintos tipos de distribución de frecuencias,

mostrando la posición relativa de la media, la mediana y la moda:
Figura 5.1. Distribuciones simétricas y asimétricas
La distribución (a) tiene la cola del lado izquierdo más prolongada que la de la
derecha, y recibe el nombre de distribución asimétrica hacia la izquierda, o distribución
con sesgo negativo. La media es menor que la mediana y la moda.
La distribución (b) es una distribución simétrica, pues las frecuencias a ambos lados
de las medidas de posición son iguales. Las tres medidas de tendencia central
coinciden.
En la distribución (c) la cola del lado derecho es más larga que la de la izquierda, y se
denomina distribución asimétrica hacia la derecha, o distribución con sesgo positivo.
La media es mayor que la mediana y la moda.
Las siguientes reglas ayudan a decidir la medida de tendencia central que conviene
utilizar para un conjunto determinado de datos:
49
a) La media se usa para datos numéricos y distribuciones simétricas (no sesgadas).
b) La mediana se emplea para datos ordinales o numéricos con distribución

sesgada.
c) La moda se usa en general para un número grande de observaciones, donde el

investigador necesita apreciar el valor más frecuente.
5.1.4. Medidas de posición: cuantiles o fractiles

Vimos que si un conjunto de datos está ordenado por magnitud, el valor central (o el
promedio de los dos centrales) que divide al conjunto en dos partes iguales es la
mediana. Extendiendo este concepto estudiaremos a continuación medidas de
posición no centrales, que se obtienen ordenando los datos por orden creciente, y
estipulando puntos que dividan a la serie en grupos de igual cantidad de
observaciones. Estas medidas se denominan en general “fractiles” o “cuantiles”.
 CUARTILES
Son valores de la variable que dividen al conjunto de datos ordenados de menor a
mayor, en cuatro grupos que contienen igual cantidad de datos. Se simbolizan con Q.

 Hay tres cuartiles (Q1, Q2 y Q3) que dividen a un conjunto de datos en cuatro
partes iguales.

 Los cuartiles determinan los valores correspondientes al 25 %, 50 % y 75 % de los
datos.
Para el cálculo de cuartiles se sigue el mismo procedimiento que para la mediana,

salvo que ahora dividiremos a la distribución en cuatro subconjuntos iguales.
Ejemplo 5.4
Se han registrado mediciones de un material de control para glucosa, obteniéndose los
siguientes valores (mg/dL) ordenados de menor a mayor en 10 días consecutivos:
El Q2 de este grupo de datos coincide con la mediana, y se ubica entre el 5° y 6° valor

de la serie:
50
156  157
Me = Q2 = = 156,5 mg/dL
2
En general, para el cálculo de la posición del cuartil, se utiliza la siguiente expresión:
n  ordinal del cuartil

Posición del Q n   0 ,5
4
El primer cuartil, divide a la primera mitad de la serie en dos partes iguales, por lo que
Q1 se ubicará en el 3° valor de la serie. Aplicando la expresión anterior:
10  1
Posición del Q1   0 ,5  3
4
Es decir, el Q1 es el 3° valor de la serie:
Q1 = 154 mg/dL
Esta medida nos indica que el 25% del conjunto de datos mide menos que 154 mg/dL,
y el 75 % mide más que 154 mg/dL
De igual forma, el Q3 divide a la segunda mitad de datos en dos partes iguales:
10  3
Posición del Q 3   0 ,5  8
4
O sea:
Q3 = 157 mg/dL
Este valor indica que el 75% de las mediciones del control está por debajo de 157
mg/dL, y el 25% son mayores a 157 mg/dL.
 DECILES
Análogamente a los cuartiles, los deciles son valores de la variable que dividen al
conjunto de datos ordenados de menor a mayor, en diez grupos que contienen igual
cantidad de datos. Se simbolizan con D.

 Hay 9 deciles (D1, D2 … D9) que dividen a un conjunto de datos en diez partes
iguales
51

 Los deciles son los valores correspondientes al 10 %, 20 %,...., y al 90 % de los
datos.
El quinto decil coincide con el segundo cuartil y la mediana. En general, para el cálculo
de la posición de los deciles, se utiliza la siguiente expresión:
n  ordinal del decil

Posición del D n   0 ,5
10
 PERCENTILES
Son valores de la variable que dividen al conjunto de datos ordenados de menor a
mayor, en cien grupos que contienen igual cantidad de datos. Se simbolizan con P.
 Hay 99 percentiles (P1, P2 … P99) que dividen a un conjunto de datos en cien partes
iguales
 Los percentiles dan los valores correspondientes al 1 %, 2 %,… y al 99 % de los

datos
Los tres cuartiles, Q1, Q2 y Q3, coinciden con los percentiles 25, 50 y 75. La mediana
es el percentil número 50.
Para el cálculo de la posición de los percentiles se utiliza una expresión similar que las
anteriores:
n  ordinal del percentil

Posición del Pn   0 ,5
100
Los percentiles tienen el mismo significado que los cuartiles. Así cuando se habla del
percentil 20, se quiere expresar que es el valor de la variable que deja el 20% de los
datos a la izquierda y el 80% a su derecha.
El uso más frecuente de los percentiles es para la comparación de un valor individual
con normas establecidas. Se emplean de manera extensa para desarrollar e
interpretar tablas de crecimiento físico en pediatría y en mediciones de destreza e
inteligencia.
También se utilizan para determinar valores o límites de referencia en laboratorios
clínicos. Los valores de referencia se establecen entre los percentiles 2,5 y 97,5, de
modo que estos límites contienen el 95% central de la distribución de mediciones de
una determinada magnitud.
52
Para ejemplificar el cálculo de cuartiles y percentiles, tomaremos nuevamente el

ejemplo 4.5, particularmente la tabla 4.5 con los datos ordenados de menor a mayor:
Na Na Na Na Na
Nº Nº Nº Nº Nº
1 138,1 11 139,2 21 139,8 31 140,0 41 140,3
2 138,5 12 139,5 22 139,8 32 140,0 42 140,6
3 138,5 13 139,5 23 139,8 33 140,1 43 140,6
4 138,8 14 139,5 24 140,0 34 140,1 44 140,8
5 138,8 15 139,5 25 140,0 35 140,1 45 140,8
6 139,0 16 139,5 26 140,0 36 140,1 46 141,0
7 139,0 17 139,5 27 140,0 37 140,1 47 141,0
8 139,2 18 139,8 28 140,0 38 140,3 48 141,1
9 139,2 19 139,8 29 140,0 39 140,3 49 141,1
10 139,2 20 139,8 30 140,0 40 140,3 50 141,2
Por ejemplo, el cálculo de los percentiles 25, 50 y 75:

50  25
 Posición del P25   0,5  13  P25 = 139,5 = Q1
100
50  50 140  140
 Posición del P50   0,5  25,5  P50   140 = Q2 = Me
100 2
50  75
 Posición del P75   0,5  38  P75 = 140,3 = Q3
100
Podemos utilizar la función de Microsoft Excel llamada Percentil. En primer lugar

debemos completar una columna en la planilla de cálculos con los valores de la
concentración de sodio obtenidos:
Luego escribimos en una celda separada de la columna anterior: = Percentil (.…;..…)

En el espacio ocupado por los puntos suspensivos, se completan los datos. A la
izquierda se incluye la matriz de datos, en este caso A2:A51. A la derecha se indica
53
cuál es el percentil que necesitamos conocer. Por ejemplo, si queremos conocer el

valor del percentil 80, consignamos el valor 0,8:
Hacemos Enter y obtenemos el valor del percentil 80: 140,3 mmol/L
Este valor indica que el 80% de los datos son menores o iguales a 140,3 mmol/L y el
20% restante, iguales o mayores a 140,3 mmol/L.
Obsérvese que el valor 140,3 es el mismo que habíamos calculado en el punto
anterior para el percentil 75. Esto es así, pues el valor 140,3 se repite 4 veces en la
serie de datos, ocupando las posiciones 38, 39, 40 y 41.
Algunos autores utilizan para el cálculo de la posición de fractiles las siguientes
expresiones:
n  ordinal del fractil

Posición del fractil  (1)
100
( n  1 )  ordinal del fractil

Posición del fractil  (2)
100
Si utilizamos la expresión (1) la posición del percentil 75 quedaría:
50  75
Posición del P75   37 ,5
100
Lo que significa que el valor buscado se encuentra entre el dato 37 y 38, es decir:
140 ,1  140 ,3
P75   140 ,2 mmol / L
2
54
Si utilizamos la ecuación (2):
51  75
Posición del P75   38 ,25
100
En este caso el valor buscado se encuentra entre el dato 38 y 39, es decir:
140 ,3  140 ,3
P75   140 ,3 mmol / L
2
El cálculo de P75 utilizando la función de Excel “Percentil” es 140,25 mmol/L, que no

difiere mucho de los valores calculados manualmente (140,2 ó 140,3 mmol/L):
Microsoft Excel nos permite además recurrir a la herramienta Análisis de datos para el
cálculo de percentiles. La utilización de esta herramienta de Excel, ofrece una gran
utilidad en la interpretación de datos que surgen de mediciones realizadas para
evaluar puntajes en pruebas de capacidad, destreza e inteligencia. Esta función
permite establecer un umbral de aceptación.
Por ejemplo, se podrá examinar a los candidatos cuya calificación sea por ejemplo,
superior al nonagésimo percentil, o menor al quincuagésimo percentil.
Ejemplo 5.5
Supongamos que se desea establecer un orden de mérito entre 20 inscriptos al curso
de estadística en base al puntaje obtenido en la evaluación final del curso. La prueba
de evaluación consiste en 20 preguntas, cada una de las cuales tiene asignado un
puntaje de 5 puntos, de manera que el puntaje máximo para todas las respuestas
correctas es 100. Se desea seleccionar los inscriptos cuya calificación sea igual o
mayor al P50, que tendrán la posibilidad de acceder a un curso de nivel superior.
En la tabla siguiente se muestran los puntajes obtenidos en la prueba de evaluación:
55
Tabla 5.8. Puntajes obtenidos en la prueba de evaluación

Inscripto N° Puntaje Inscripto N° Puntaje
1 60 11 60
2 45 12 100
3 40 13 80
4 50 14 85
5 100 15 70
6 90 16 75
7 85 17 55
8 90 18 95
9 50 19 80
10 55 20 75
Incorporamos los datos en una columna:
Seleccionamos del menú Herramientas la opción Análisis de datos  elegimos:

Jerarquía y Percentil
Haciendo clic en Aceptar, se abre la siguiente ventana, que completamos con los
datos del ejercicio.
56
En Rango de entrada, incorporamos los datos. Debe seleccionarse la opción Rótulos

en la primera fila. En Opciones de Salida, le pedimos a Excel que nos arroje los
resultados “En una hoja nueva”. Hacemos clic en Aceptar, y se abrirá una nueva hoja
con los resultados:
 En la columna Posición aparece el orden en que fue ingresado cada valor de la

variable.
 La columna Puntaje muestra un arreglo de los datos en orden descendente.
 La Jerarquía es un ordenamiento de los datos que indica el tamaño de un

determinado valor en relación a los demás. La jerarquía 1 le corresponde al dato de
mayor valor (100), y la número 20 al de menor valor (40). Aquellos datos que
57
poseen un mismo valor son jerarquizados en igual categoría, lo que afecta a la

jerarquía de los valores subsiguientes. Por ejemplo, el valor 75 aparece dos veces y
tiene la jerarquía 10, entonces el dato subsiguiente (70) tendrá jerarquía 12 (ningún
valor tendrá jerarquía 11).
 La columna Porcentaje devuelve el k-ésimo percentil de los valores de un rango, es

decir nos informa el Percentil correspondiente a cada grupo de datos con
igual jerarquía. Debe notarse que a cada valor de igual jerarquía le corresponde el
mismo valor percentil, lo que origina una diferencia en los cálculos realizados
manualmente, o a través de la función “Percentil” de Excel.
 Los inscriptos cuyo puntaje es igual o mayor al quincuagésimo percentil, son los
jerarquizados con 1, 3, 4, 6 y 8, es decir 9 de los 20 inscriptos, lo que representa un
45% del total.
5.2. Medidas de dispersión

Aunque para algunos propósitos un promedio puede ser una descripción suficiente de
una población o una muestra, resulta igualmente importante describir la forma en que
las observaciones están diseminadas o dispersas a cada lado del centro.
Una característica muy importante de los datos analíticos es su variabilidad o
dispersión. Una dispersión pequeña indica un alto grado de uniformidad en las
observaciones; una dispersión grande indica poca uniformidad.
Por otra parte, podemos darnos cuenta instintivamente que una medida de tendencia
central es más representativa del total de las observaciones si la variabilidad del
conjunto es pequeña.
Por ejemplo, tomemos dos conjuntos de datos:
189 – 190 – 191
184 – 190 – 196
Si calculamos la media, en ambos casos es 190. Pero se puede observar que el valor
190 describe mejor al primer conjunto de datos, pues los tres valores son más
parecidos entre sí, y a su vez más parecidos al promedio que cuando se observa el
segundo conjunto de datos.
Las medidas de dispersión indican la concordancia entre dos o más medidas u

observaciones. Hay varias formas de expresar la dispersión:
58
5.2.1. Rango
Es una medida de la amplitud total de la variación. Recordemos que ya hablamos del
rango cuando calculamos intervalos de clase en una variable continua.
Se denomina rango a la diferencia entre el valor más alto y el más bajo de una serie
de datos. Se simboliza con R:
R  xmax  xmin
Como medida de dispersión, el rango es completamente dependiente de los dos

valores extremos que toma la variable.
En las dos series de datos considerados en el ejemplo anterior, el rango para la
primera muestra es:
191 – 189 = 2
Y en el caso de la segunda muestra:
196 – 184 = 8
El rango se utiliza en situaciones limitadas, pues depende sólo de dos valores, el

mayor y el menor, que tienden a aumentar a medida que aumenta el tamaño de la
muestra. Por otra parte no refleja la mayor o menor variabilidad de los datos entre sí, o
en relación al centro de la distribución.
El rango resulta adecuado únicamente cuando el número de datos es pequeño ( 10),
o cuando sólo se desea conocer la extensión de variaciones extremas, tales como los
precios bajo y alto de acciones, o las temperaturas extremas de un cierto día.
Vimos que Excel proporciona en la Herramienta: Análisis de datos  Estadística
descriptiva, además del Rango, los valores mínimo y máximo. Si tomamos como
ejemplo los valores de Na del ejemplo 4.2, obtenemos una tabla de valores
descriptivos. Los valores que nos interesan están en las filas 8, 9 y 10:
5.2.2. Desviación media

Una desviación, que simbolizaremos d i , es la diferencia entre cualquier resultado y un
punto de referencia, por ejemplo el promedio de la serie:
d i  xi  x
59
Si lo que se desea es tener una medida de la forma en que cada valor de la variable
se dispersa alrededor de la media, sería una buena idea calcular una medida que
resuma las desviaciones, que podría ser la desviación promedio o media de las
desviaciones. En símbolos sería:
Desviación promedio 
 x i  x
n
Es convencional restar el promedio del resultado, obteniéndose por lo tanto valores

negativos y positivos. Tomemos nuevamente el ejemplo citado de las dos series de
datos:
Primera muestra: 189 – 190 – 191  x  190
d1 = 189 – 190 =  1
d2 = 190 – 190 = 0
d3 = 191 – 190 = 1
= 0
Segunda muestra: 184 – 190 – 196  x  190
d1 = 184 – 190 =  6
d2 = 190 – 190 = 0
d3 = 196 – 190 = 6
= 0
Si quisiéramos comparar las dispersiones de ambas muestras aplicando la expresión
del promedio de las desviaciones, nos encontramos que en ambos casos el resultado
de sumar cada desviación con su signo es = 0
Lo que acabamos de comprobar, es una de las propiedades de la media aritmética ya
vista, que dice que la suma de las desviaciones de cada valor de la variable con
respecto a la media aritmética es = 0:
( x i  x)0
Esto significa que el valor de esta medida sería siempre cero. Este problema puede
solucionarse de dos formas: sumando los valores absolutos de las desviaciones, o
elevando el cuadrado cada desviación antes de sumarlas.
Si consideramos el valor absoluto de las desviaciones, podemos definir lo que se
conoce como desviación media. Se simboliza con d ó Dm:
En el ejemplo citado sería:
101
d1   0 ,67
3
60
606
d2  4
3
La desviación media mide entonces el promedio de los valores absolutos de las
diferencias entre los valores observados respecto a la media de su grupo.
Se expresa como:
d 
x i  x
ó d 
d i
n n
5.2.3. Desviación estándar

En el punto anterior vimos que la mejor forma de reflejar la mayor o menor dispersión
de los datos alrededor de un cierto punto de referencia, es utilizar la desviación de
cada valor individual con respecto al valor de referencia establecido, en el ejemplo
visto, la media. Para el cálculo de la desviación media, utilizamos los valores absolutos
de los desvíos, para evitar que el resultado sea cero.
Ahora emplearemos el segundo enfoque, y mediante otro artificio matemático,
elevaremos cada desviación al cuadrado. Se extrae luego la raíz cuadrada para
obtener la escala original de medición de la variable, y además, n – 1 reemplaza a n
en el denominador. Obtenemos así una nueva medida de dispersión muy utilizada, y
ampliamente conocida, que se denomina desviación estándar. Se usa para
distribuciones normales o gaussianas.
La desviación estándar muestral es un estimador de la desviación estándar de la
población, se simboliza con s y se calcula:
 x  x
2
i
s
n1
Para una serie infinita de datos, la desviación estándar de la población se simboliza
con  y se calcula:
( x i )2
 
N
La razón para el uso de n – 1 en lugar de N en el cálculo de la desviación estándar

muestral es complicada. Cuando el número de resultados es grande, los cálculos
resultan similares. Sólo diremos, sin demostrarlo, que el uso de n – 1 proporciona una
estimación más precisa de la desviación estándar poblacional  a través de s .
61
Por otra parte, si observamos el numerador de la primera expresión, vemos que

implica la sumatoria de las desviaciones al cuadrado de cada dato con respecto a la
media. Si hay n observaciones, también habrá n desviaciones. Puesto que la suma de
las desviaciones equivale a cero, una vez que conocemos n – 1 desviaciones, la
última desviación ya está determinada como el valor que originará que la suma de las
desviaciones sea cero. Por lo tanto, sólo n – 1 desviaciones -que se conoce como
grados de libertad- dan una medida independiente de la precisión de la serie.
Muchas calculadoras científicas y paquetes informáticos tienen incorporada la función

de desviación estándar. Si se usan estas funciones para pequeñas series de datos,
debemos asegurarnos si la función utilizada usa el número de grados de libertad ó N.
En las calculadoras de bolsillo generalmente se encuentran las funciones: n y n-1.
Debe usarse la segunda función para el cálculo de la desviación estándar de una
muestra.
Ejemplo 5.6
Como ejemplo para cálculo, consideraremos el calibrado de una pipeta de 10 mL. Para
hacer esta experiencia, se pesa un pequeño matraz con su tapón, y se vierte en él,
mediante la pipeta que se quiere calibrar, un volumen de 10 mL de agua destilada. Se
tapa el matraz, y se pesa nuevamente. Se mide también la temperatura del agua para
establecer su densidad. Luego se calcula el peso del agua por diferencia entre las dos
pesadas; dividiendo esta diferencia por la densidad del agua se encuentra el volumen
vertido por la pipeta.
En la tabla 5.6 se muestran los datos que resultan de repetir la experiencia veinte
veces:
TABLA 5.6 Calibración de una pipeta de 10 mL
Ensayo Volumen (mL) Ensayo Volumen (mL)

1 9,988 11 9,994
2 9,973 12 9,976
3 9,980 13 9,981
4 9,975 14 9,991
5 9,990 15 9,983
6 9,978 16 9,965
7 9,971 17 9,977
8 9,982 18 9,980
9 9,988 19 9,983
10 9,994 20 9,979
Para realizar el cálculo de la desviación estándar de esta muestra con Microsoft Excel
en primer lugar debemos incorporar los datos en una columna, de la misma forma que
en el ejercicio para el cálculo de media, mediana y modo:
62
Como en el ejercicio de cálculo de la media, tenemos dos opciones: nos posicionamos

en una celda vacía, por ejemplo B22, y escribimos: = DESVEST (b2:b21):
Presionamos Enter y obtenemos la desviación estándar de la muestra (en la celda A22

se ha rotulado “Desv estand”):
Si repetimos los pasos llevados a cabo para encontrar la media: Menú Herramientas
 Análisis de datos  Estadística descriptiva, Excel nos devolverá el siguiente
cuadro:
63
El resultado que buscamos está en la quinta fila:
Observaciones sobre la desviación estándar:
 Al igual que la media y la varianza, es un índice muy sensible a las puntuaciones

extremas
 Cuanto más pequeña sea la desviación estándar mayor será la concentración de

datos alrededor de la media
 Siempre será un valor positivo, o cero en el caso de que las observaciones sean
iguales
 No se recomienda su uso como medida de dispersión, cuando tampoco lo sea el de

la media como medida de tendencia central
5.2.4. Varianza
La varianza es el cuadrado de la desviación estándar. La varianza muestral se
simboliza con s 2 , y la varianza poblacional con  2 . Las fórmulas de cálculo surgen
elevando al cuadrado las expresiones matemáticas de las desviaciones estándar
respectivas:
 x  x  x  
2 2
2 i 2 i
s   
n1 N
64
Los numeradores de ambas expresiones son sumatorias de cuadrados, lo que altera la

unidad de medida de la magnitud, y de alguna forma “pierde sentido” como medida de
dispersión. En el ejemplo anterior, la varianza se encuentra en la sexta fila del cuadro
de medidas estadísticas descriptivas otorgadas por Excel. La varianza de los
volúmenes emitidos por la pipeta de 10 mL en una muestra de 20 repeticiones de la
experiencia es 5,2905  10-5 mL2 :
Su importancia se pondrá de manifiesto cuando analicemos la propagación de errores

aleatorios, y en algunas pruebas estadísticas utilizadas en estadística inferencial.
Observaciones sobre la varianza:
 Al igual que la desviación estándar, es sensible a la variación de cada una de las

observaciones, es decir, si una observación cambia, cambia con ella la varianza
 Es un índice muy sensible a los valores extremos
 No es recomendable su uso, cuando tampoco lo sea el de la media como medida

de tendencia central
5.2.5. Desviación estándar relativa. Coeficiente de variación

Es una medida muy útil de la dispersión relativa de los datos, conocida también como
desviación estándar relativa (DER), que se calcula dividiendo la desviación estándar
por la media de la serie de datos:
s
DER 
x
Cuando la DER se multiplica por 100, se denomina coeficiente de variación. Se

simboliza con CV:
s
CV   100
x
El coeficiente de variación de la serie de datos de la tabla 7.6 es:
0 ,072736
CV   100  0 ,73 %
9 ,9822
65
A medida que el CV disminuye, la serie de datos es más homogénea, o lo que es lo

mismo, los datos están más concentrados alrededor del promedio. El valor 0,73%
calculado más arriba indica una buena precisión de los datos obtenidos.
Las desviaciones estándar relativas dan una idea más clara de la calidad de los datos
que las desviaciones estándar absolutas. Dado que surge de un cociente entre dos
cantidades expresadas en la misma unidad de medida, es independiente de ella, y
proporciona una imagen real de la dispersión. Es por ello que el CV es una
herramienta muy útil en procedimientos de control de calidad, para comparar la
homogeneidad de dos o más series de datos aún cuando estén expresados en
distintas unidades de medida, y resulta nuevamente importante en los cálculos de
propagación de errores.
Ejemplo 5.7
La presión sistólica (ps) presenta en un grupo de pacientes con arteriosclerosis una
media de 130 mm Hg, y una varianza de 15 (mm Hg)2. Para los mismos individuos se
ha registrado la concentración de colesterol (col), obteniendo una media de 2,40 g/L y
una varianza de 0,12 (g/L)2. Cuál de las dos distribuciones presenta mayor
variabilidad?
15
CV ps  100  2 ,98%
130
0 ,12
CV col  100  14 ,4%
2 ,40
La distribución que presenta mayor dispersión es la de colesterol.
6. Análisis exploratorio de datos

6.1. Introducción
Hemos visto los procedimientos clásicos de la estadística descriptiva, que recoge,
ordena y representa datos utilizando tablas de frecuencia, o gráficos como
histogramas o polígonos de frecuencia. Además calcula medidas descriptivas de
posición y de dispersión basadas en la desviación de datos con respecto a una media.
Existen otras técnicas exploratorias que intentan además encontrar anomalías en las
distribuciones univariadas, determinando modelos de comportamiento de los datos.
66
Si consideremos los datos del ejemplo 5.1, con los datos ordenados de menor a
mayor:
TABLA 6.1. Colesterol 30 pacientes. Datos ordenados en orden ascendente
Paciente Colesterol mg/dL Paciente Colesterol mg/dL Paciente Colesterol mg/dL

1 169 11 185 21 199
2 170 12 187 22 200
3 172 13 189 23 204
4 174 14 190 24 204
5 175 15 191 25 205
6 180 16 191 26 209
7 181 17 193 27 211
8 182 18 195 28 215
9 182 19 195 29 215
10 183 20 195 30 289
A partir de estos datos podemos construir una tabla de frecuencias. Para ello el rango
(120) se redondeó a 130 y los datos se agruparon en clases de 10 mg/dL de
amplitud*:
Clases fa
165-175 5
175-185 6
185-195 9
195-205 5
205-215 4
215-225 0
225-235 0
235-245 0
245-255 0
255-265 0
265-275 0
275-285 0
285-295 1
Como se observa en la tabla 6.2, el número de intervalos es > n . El procedimiento

en este caso fue priorizar la selección de la amplitud de cada intervalo, de manera tal
que nos permita apreciar: a) el efecto del valor discrepante (289 mg/dL) en la serie de
datos, y b) la distribución de los 29 valores restantes. Haciendo esta consideración se
definieron clases de 10 mg/dL, quedando conformados 13 intervalos de igual amplitud.
En las siguientes figuras se muestran dos Histogramas construidos a partir de la tabla
6.2, el primero obtenido con Excel 2003, y el segundo con Excel 2007, que ofrece la
posibilidad de presentar un Histograma integrado por una sucesión de rectángulos
67
contiguos. De esta forma se puede apreciar que la base de cada rectángulo

representa la amplitud del intervalo y la altura está determinada por la frecuencia de
cada clase.
Histograma
10
8
Frecuencia
0
175 195 215 235 255 275 295
Clases
Figura 6.1. Histograma Colesterol 30 pacientes (Excel 2003)
Histograma
10
8
Frecuencia
0
175 195 215 235 255 275 295
Clases
Figura 6.2. Histograma Colesterol 30 pacientes (Excel 2007)
Como advertimos, la existencia de un valor anómalo alejado del resto de datos,

proporciona un blanco en la distribución y una media distorsionada.
Aunque apliquemos la técnica estadística más compleja, los resultados no reflejarán
en realidad el promedio de valores de colesterol después de la dieta, que era el
objetivo del estudio. No debemos olvidar entonces, que la media aritmética no es una
medida representativa de una serie de datos cuando existen valores atípicos.
68
Como veremos más adelante, la inferencia estadística supone que los valores de la
variable fluctúan simétricamente alrededor del valor central, y por lo tanto se presume
que la distribución de frecuencias responde al siguiente modelo gráfico:
Figura 6.2 Histograma teórico con distribución simétrica
Sin embargo, este modelo teórico no ocurre con frecuencia en el trabajo cotidiano. Por
ejemplo, vimos que las mediciones de concentración de anticuerpos séricos en grupos
diferentes pueden expresarse aproximadamente como una distribución log-normal, es
decir el logaritmo de las concentraciones sigue una distribución aproximadamente
simétrica. Es aún más interesante comprobar que las mediciones repetidas sobre un
único material de ensayo (por ejemplo un calibrador), pueden presentar distribuciones
con colas acusadas como consecuencia de la presencia de valores anómalos, o por la
superposición de dos distribuciones normales con igual media, pero con una
desviación estándar significativamente más grande en una de las distribuciones.
El análisis exploratorio de datos (AED) también llamado análisis inicial de datos (AID)
ha ganado mucha popularidad desde la aparición del libro “Exploratory Análisis Data”
de Tukey.
La perspectiva del análisis exploratorio de datos centra su atención en la utilización de
índices resistentes frente a la utilización de índices clásicos a la hora de describir una
variable cuantitativa en el caso en que ésta tenga una distribución asimétrica, o bien
presente valores alejados. Vimos que los índices descriptivos clásicos por excelencia,
la media aritmética y la desviación estándar, cambian sustancialmente su valor ante la
presencia de datos anómalos, lo que los convierte en índices poco resistentes. En
cambio, los índices descriptivos resistentes se caracterizan por ser insensibles a
valores extremos, orientando su aplicación en el grupo central de los datos.
La ventaja de los métodos AID reside en la utilización de nuevas técnicas gráficas,

medidas de posición basadas en estadísticos de orden como los percentiles, y
69
medidas de dispersión centradas en la mediana, conocidas en general como

resistentes o robustas, incluyendo además el estudio de los índices de forma.
Estas técnicas exploratorias nos informan sobre:
 La posición, el desvío y la forma de la distribución de datos
 La simetría o asimetría de la distribución
 Localización de vacíos o blancos en las distribuciones de datos
 Presencia y número de valores atípicos
6.2. Medidas de posición robustas

 PROMEDIO DE CUARTILES
Este índice utiliza la información proporcionada por el 50% central de la distribución de
datos, eliminando la influencia de posibles valores extremos. Se simboliza con Q , y
se calcula promediando los cuartiles 1 y 3, o los percentiles 25 y 75:
Q1  Q 3 P25  P75
Q Q
2 2
Si tomamos como ejemplo los valores ordenados de colesterol de la Tabla 6.1:
30  1
Posición del Q 1   0 ,5  8  Q 1  182 mg / dL
4
30  3
Posición del Q 3   0 ,5  23  Q 3  204 mg / dL
4
182  204
Q  193 mg / dL
2
 TRIMEDIA
Pertenece a la familia de promedios conocidos con el nombre de “medias recortadas”

o “medias trimmed”. Se define como el promedio entre la mediana y el promedio de
cuartiles.
Se simboliza TRI, y se calcula como la semisuma entre la mediana y el promedio de
cuartiles:
70
Me  Q
TRI 
2
Reemplazando Q por su valor, y reordenando queda:
Q 1  2 Me  Q 3 P25  2 Me  P75
TRI  ó TRI 
4 4
En nuestro ejemplo:
182  2  191  204
TRI   192 mg / dL
4
6.3. Índices de dispersión robustos

 RANGO INTERCUARTÍLICO
Es una medida de dispersión resistente o “robusta”, pues no es afectada por valores
extremos. En estadística no paramétrica es la medida habitual que sustituye a la
desviación estándar.
Este rango se simboliza RI, y se calcula como la diferencia entre el tercer y el primer
cuartil:
RI  Q 3  Q1
Tomando nuevamente como ejemplo los valores de colesterol de la Tabla 6.1:
RI  204  182  22 mg / dL
Este valor indica que el 50% central de la distribución tiene un rango o recorrido de 22
mg/dL.
6.4. Medidas o Índices de forma

Ya hemos visto como las medidas descriptivas clásicas se ven afectadas por las
distribuciones asimétricas o multimodales.
Las medidas de forma nos indican la forma de la distribución en cuanto a su simetría
(desplazamiento horizontal) y su apuntamiento o puntiagudez (desplazamiento
vertical). Analizaremos el coeficiente de curtosis y el coeficiente de asimetría.
71
 COEFICIENTE DE CURTOSIS
Este coeficiente compara la distribución de frecuencia de una variable con una
distribución teórica perfectamente simétrica, llamada distribución normal.
La distribución normal adopta la forma de una campana perfectamente simétrica:
Figura 6.3 Distribución normal
El coeficiente de curtosis compara distribuciones empíricas, en cuanto a si son más

puntiagudas o no que la distribución normal. Si es más puntiaguda que la normal, se
dice que la distribución es leptocúrtica, en cambio si es más achatada que la normal
diremos que la distribución es platicúrtica. Si la distribución es bastante parecida a la
normal, diremos que es mesocúrtica:
Figura 6.4 Curtosis
En una distribución leptocúrtica los valores están altamente concentrados alrededor de

los valores centrales de la variable. Si es mesocúrtica presenta un grado medio de
concentración de datos alrededor de los valores centrales, mientras que una
distribución platicúrtica presenta un grado reducido de concentración de datos
alrededor de los valores centrales.
Existen diferentes formas de cálculo para el coeficiente de curtosis (K). Algunos son
muy complicados, y generalmente los valores que toma K varían de acuerdo a la
fórmula empleada para el cálculo, lo que muchas veces dificulta su interpretación. Por
este motivo no presentamos en este curso las expresiones matemáticas utilizadas.
Nuevamente Microsoft Excel nos permite un cálculo directo. Si K > 0, la distribución
presenta un pico alto, o es más puntiaguda que la normal (leptocúrtica); si K < 0, la
72
distribución es plana, o más achatada que la normal (platicúrtica); si K = 0, la

distribución es mesocúrtica.
Tomando nuevamente el ejemplo 5.1, a través del menú Análisis de datos 
Estadística descriptiva, obteníamos el cuadro de medidas descriptivas, donde en la fila
7 podemos ver:
El valor del coeficiente de curtosis (K > 0) indica que la distribución es leptocúrtica
Para el cálculo a través de MS Excel puede usarse también la función =CURTOSIS

(……..) donde en los puntos suspensivos incorporamos la matriz que tiene los datos,
en este caso B2:B31.
Si en cambio tomamos como ejemplo los datos de la tabla 4.4, tenemos una
distribución mesocúrtica, puesto que K es prácticamente cero:
En la fila 7 encontramos el valor del coeficiente de curtosis:
 COEFICIENTE DE ASIMETRÍA
Una distribución perfectamente simétrica presenta un solo valor modal, y luego decae
a ambos lados, mostrando igual frecuencia para valores equidistantes:
73
Figura 6.5 Distribución simétrica
Cuando un conjunto de observaciones no está simétricamente distribuido se dice que

es sesgado.
Cuando el sesgo es positivo, la media es mayor que la mediana. El histograma tendrá
una cola más larga a la derecha de la distribución, por ello también se la conoce como
sesgada a la derecha:
Figura 6.6 Distribución sesgada a la derecha
A su vez, una distribución con sesgo negativo tiene una media menor a la mediana. El
histograma presenta una cola más larga a la izquierda de la distribución, por eso se la
conoce como sesgada a la izquierda:
Figura 6.7 Distribución sesgada a la izquierda
74
Existen varias medidas para el cálculo de la simetría de una distribución. En la

bibliografía podemos encontrar índices de simetría de Pearson, Yule, Kelly, Fisher, etc.
El más simple es el de Pearson (SK), que se calcula:
3  x  Me 
SK 
s
Si la distribución es perfectamente simétrica, la media y la mediana coinciden, y por lo

tanto SK = 0. Si la distribución tiene sesgo positivo, la media será mayor que la
mediana, y SK tendrá un valor positivo. En distribuciones con sesgo negativo, la
media es menor que la mediana, por consiguiente SK < 0.
Continuando con el ejemplo de la Tabla 5.1:
3 194 ,3  191
SK   0 ,44
22 ,1
Este valor indica un sesgo positivo.
La fórmula que utiliza MS Excel para calcular la asimetría es la siguiente:
n  x i  x 3
n  1n  2  
As 
s
Si As > 0 la distribución tiene una asimetría positiva. Si As = 0 la distribución es

simétrica; finalmente cuando As < 0 la distribución tiene una asimetría a la izquierda o
un sesgo negativo.
Para calcular la asimetría utilizamos la siguiente función, disponible en MS Excel:
=COEFICIENTE. ASIMETRIA (….). Donde están los puntos suspensivos se indican en
que celdas se encuentran los datos, en nuestro ejemplo B2:B31
Haciendo Enter, MS Excel devuelve el valor buscado en la celda B32:
75
De la misma forma que para la Curtosis, el coeficiente de Asimetría puede verse en el

cuadro que proporciona la Herramienta Estadística Descriptiva:
En la octava línea del cuadro de resultados se observa el coeficiente de asimetría:
Lo que indica, igual que en el cálculo con el coeficiente de Pearson, que la distribución
es asimétrica positiva.
Si tomamos como ejemplo los datos de la tabla 4.4, tenemos una distribución
asimétrica negativa:
6.5. Análisis gráfico de datos
Aunque es habitual en cualquier laboratorio analítico manejar grupos de datos

relativamente pequeños, existen ocasiones en que tienen que examinarse grandes
conjuntos de medidas.
El AID propone también la utilización de representaciones gráficas que potencian la
visualización de la información manteniendo, en lo posible, los valores originales.
76
6.5.1. Diagrama de tallo y hojas

Este gráfico es una transición entre una tabla de frecuencias y un histograma. Es una
técnica sencilla de gran utilidad para explorar y describir una gran cantidad de datos,
que fue desarrollada por Tukey en 1977.
La parte más relevante de un valor, en el contexto de una serie de datos, es
generalmente su primera cifra. En el diagrama de tallo y hojas esta cifra es lo que
se denomina tronco o tallo.
De este tallo partirán las hojas que definirán con mayor precisión su forma. Las hojas
proporcionan información acerca de la forma de la distribución, y generalmente está
constituida por el dígito que le sigue al primero. Si existe más de un dígito, suelen
incluirse todos o redondear a partir del primer dígito que constituye cada hoja.
El primer paso para construir un diagrama de tallo y hojas es ordenar los datos de
menor a mayor.
El diagrama se construye colocando en una columna todos los números que
conforman los datos eliminando la última cifra (corresponde a la unidad si tuviéramos
datos sin decimales). Esta columna debe ordenarse de menor a mayor.
A la derecha de cada número se escriben en fila la / las últimas cifras de cada dato: la
unidad para números enteros; él o los decimales para cifras con decimales.
Posteriormente se ordenan también de menor a mayor los números de cada fila.
En una primera columna del diagrama suele incluirse la frecuencia absoluta
correspondiente a cada fila, y algunos programas indican entra paréntesis la fila donde
se encuentra la mediana.
Ejemplo 6.1
Si tuviéramos los siguientes datos numéricos ordenados de menor a mayor:
11 11 13 15 19 21 21 21 22 23 26 27 31 33 34 34
35 36 36 38 38 39 43 43 44 47 47 50 51 52 55 56
Podemos construir el diagrama de tallo y hojas de la siguiente manera:
Frecuencia Tallo Hojas

5 1 1 1 3 5 9
7 2 1 1 1 2 3 6 7
(10) 3 1 3 4 4 5 6 6 8 8 9
5 4 3 3 4 7 7
5 5 0 1 2 5 6
Figura 6.8 Diagrama de tallo y hojas
77
La extensión de las filas puede compararse con la altura de las barras del histograma
correspondiente, pero la ventaja del diagrama de Tallo y Hojas es que conserva el
valor original de cada medida. En el diagrama vemos que hay 2 datos = 11; 3 valores
= 21; 2 mediciones = 47, etc.
A fin de remarcar los distintos “saltos” en la distribución, suele separase las filas en
grupos de 5 valores de datos, en lugar de diez. Esto significa tomar para cada tallo, en
la primera fila: valores de hojas de 0 a 4, y de 5 a 9 para la segunda fila.
De esta manera se disminuye la amplitud de los intervalos a la mitad, lo que permite
visualizar mejor la presencia o ausencia de determinados valores en ciertas posiciones
de la distribución:

3 1 1 1 3
2 1 5 9
5 2 1 1 1 2 3
2 2 6 7
4 3 2 3 4 4
6 3 5 6 6 8 8 9
3 4 3 3 4
2 4 7 7
3 5 0 1 2
2 5 5 6
Figura 6.9 Diagrama de tallo y hojas. Filas en grupos de 5 datos
Se suelen usar símbolos para diferenciar el primer dígito de las hojas, de manera que
si está comprendido entre el 0 y el 4, la fila o línea se inicia por ejemplo con el signo
(*), y si está comprendido entre 5 y 9 con un signo (o).
Si tomamos como ejemplo los datos de la concentración de Na de la Tabla 4.5,

podemos construir el siguiente diagrama:

1 138 * 1
4 138 ° 5588
6 139 * 002222
12 139 ° 555555888888
18 140 * 000000000111113333
4 140 ° 6688
5 141 * 00112
Figura 6.10 Diagrama de tallo y hojas. Sodio
78
Para el mismo ejemplo, los datos fueron analizados utilizando el programa SPSS, el
que arrojó el siguiente diagrama:
Sodio Stem-and-Leaf Plot
Frequency Stem & Leaf
1,00 Extremes (=<138,1)
4,00 138. 5588

6,00 139. 002222
12,00 139. 555555888888
18,00 140. 000000000111113333
4,00 140. 6688
5,00 141. 00112
Figura 6.11 Diagrama de tallo y hojas sodio (SPSS)
En este diagrama vemos que el programa SPSS resalta la presentación de los datos,
identificando separadamente posibles valores anómalos. En este caso destaca el
valor 138,1 como un “valor extremo”.
Minitab ofrece el siguiente diagrama para los datos de colesterol de la tabla 6.1:
Diseño de tallo y hoja: Colesterol mg/dL
Tallo y hoja de Colesterol mg/dL N = 30

Unidad de hoja = 1,0
1 16 9
5 17 0245
13 18 01223579
(8) 19 01135559
9 20 04459
4 21 155
HI 289
En este caso, el valor discrepante (289 mg/dL) aparece resaltado al final del diagrama
como “ALTO” (HIGH).
6.5.2. Diagrama de caja y patillas (Box plot)

Es un gráfico esquemático que describe al mismo tiempo varias características
importantes de un conjunto de datos, tales como el centro, la dispersión, el alejamiento
de la simetría, y la identificación de valores extremos (puntos atípicos), es decir, de
valores que se alejan de una manera poco usual del resto de los datos.
Este diagrama también fue propuesto por Tukey en 1977, y se elabora en base a:
79
 La mediana
 Los cuartiles Q1 y Q3
 Los límites superior e inferior de la distribución de datos
La gráfica se construye dibujando primero una escala vertical (u horizontal) que

representa los valores obtenidos experimentalmente.
Si se usa una escala vertical, se dibuja una caja cuya parte superior es el tercer cuartil,
y su parte inferior es el primer cuartil. La ubicación del punto medio de la distribución
(mediana) se indica con una línea horizontal dentro de la caja.
Por último se trazan líneas rectas desde el centro de la parte superior de la caja a la
observación más grande (Límite superior), y desde el centro de la parte inferior de la
caja al dato más pequeño (Límite inferior).
En la siguiente figura se muestran diagramas de caja y líneas en ambas escalas:
Figura 6.12 Diagrama de caja y patillas. (a) Escala vertical. (b) Escala horizontal
Este gráfico proporciona una importante cantidad de información respecto a la

distribución de valores en estudio:

 La longitud de la caja es el rango intercuartílico (Q3 – Q1), que representa la
dispersión de los valores en el 50% central de la distribución.

 La mediana está marcada por una línea (o un asterisco) dentro de la caja.

 Las dos líneas marcadas fuera de la caja (patillas o bigotes) se extienden desde la
observación más pequeña a la más grande.

 En un boxplot se visualiza rápidamente el centro, la variabilidad y el rango total de
una distribución, lo que permite visualizar la simetría de la distribución.
80

 De la misma forma puede advertirse la simetría de la distribución, comparando la
posición de la mediana con respecto a los cuartiles, o contrastando las respectivas
longitudes de las patillas.

 Asimismo, en un gráfico boxplot pueden detectarse valores que se apartan del
núcleo central de una distribución, identificados como valores anómalos,
discrepantes, extremos o “outliers”.
Los valores discrepantes se definen como los datos puntuales que son más bajos
que Q1 o más altos que Q3 en más de 1,5 veces el rango intercuartílico. Los valores
que se encuentran por debajo de (Q1 – 1,5 RI), o por arriba de (Q3 + 1,5 RI) se
clasifican como “outliers”.
De modo similar a lo que vimos en el diagrama de tallo y hojas, algunos programas
identifican los valores discrepantes. Los bigotes o patillas se extienden entonces a los
límites superior e inferior o vallas, delimitados por (Q1 – 1,5 RI) y (Q3 + 1,5 RI)
respectivamente, y los datos anómalos se muestran como puntos separados.
El siguiente gráfico de caja y patillas fue obtenido con los datos de la Tabla 4.5 (sodio)
utilizando SPSS:
141,5
141,0
140,5
140,0
139,5
139,0
138,5
5
138,0
137,5
N= 50
SODIO
Figura 6.13 Diagrama de caja y patillas sodio (SPSS)
Obsérvese que el dato 138,1 mmol/L, se muestra separadamente, abajo de la patilla

inferior, marcando la posición que ocupa en la serie de datos (5).
Introduciendo los datos de la tabla 6.1 en el programa Minitab, se obtuvo el siguiente

diagrama de caja:
81
Figura 6.14 Diagrama de caja y patillas (Minitab)
Obsérvese que el dato Nº 10 se encuentra separado del diagrama, como un valor

anómalo, alejado del resto de la distribución.
En la siguiente figura se observa un histograma de una distribución aproximadamente
simétrica, con valores indicados correspondientes a los percentiles 25, 50 y 75. En la
misma gráfica se ha insertado un diagrama de caja y patillas, observándose el rango
intercuartílico y el rango de la distribución, acotado por los valores Mínimo y Máximo
determinados por el boxplot:
Figura 6.15. Histograma y boxplot. Percentiles, Rango y Rango intercuartílico
Una ventaja adicional de un gráfico de caja y patillas, es que puede utilizarse con fines
comparativos de varias distribuciones, o sea cuando tenemos más de un conjunto de
datos y el objetivo es contrastarlos. Para ello se sitúan los diversos gráficos en
82
paralelo y esto permite observar sus diferencias en localización y dispersión, y

comparar la simetría estudiando las longitudes de las patillas y la posición de la
mediana:
Figura 6.16. Boxplot. Comparación de distribuciones
La distribución (a) es la que presenta mayor dispersión del total de datos (mayor
rango). El largo de su patilla superior indica una asimetría a la derecha (K > 0), es
decir que existe una mayor dispersión de datos en el 25% superior de la distribución
La distribución (b) es aproximadamente simétrica, pues las longitudes de las patillas
son semejantes. Por otra parte se observa una dispersión de datos similar en las
patillas y en el interior de la caja.
La distribución (c) es la que muestra menor variabilidad. La posición de la mediana y el
largo de la patilla inferior indican un ligero sesgo negativo (K < 0)
La distribución (d) muestra menor dispersión de datos en el 50% central de la
distribución (rango intercuartílico), y mayor variabilidad en ambos extremos (longitud
de las patillas). Al igual que la distribución (b) es aproximadamente simétrica.
83
REFERENCIAS BIBLIOGRÁFICAS
CHAO, L. (1994). Introducción a la Estadística. CECSA.
CIENCIA Y TÉCNICA ADMINISTRATIVA, consultado el 1º de marzo de 2011.

URL: http://cyta.com.ar/biblioteca/bddoc/bdlibros/guia_estadistica/modulo_1.htm



CRISTÓFOLI, M.E. (2010). Manual de Estadística con Excel. Ed. Omicrón
DAWSON-SAUNDERS, B. y TRAPP, R.C. (1997). Bioestadística Médica. Ed. El Manual Moderno,

S.A.
FERNÁNDEZ GORDILLO, J.C. Estadística y Probabilidad, consultado el 15 de febrero de 2011.

URL: http://www.vitutor.com/estadistica.html
HARRIS, D.C. (2007). Análisis Químico Cuantitativo 3° Edición. Ed. Reverté S.A.
KAPLAN, L.A. y PESCE, A. (1996). Clinical Chemistry. Ed. Mosby.
LARIOS OSORIO, V. Departamento de Matemáticas de la Facultad de Ingeniería de la U.A.Q.

(México), consultado el 20 de febrero de 2011.
URL: http://www.uaq.mx/matematicas/estadisticas/xu2.html
LARIOS OSORIO, V. Departamento de Matemáticas de la Facultad de Ingeniería de la U.A.Q.

(México), consultado el 20 de febrero de 2011.
URL: http://www.uaq.mx/matematicas/estadisticas/xu3.html
MILLER, J.N. y MILLER J.C. (2002). Estadística y Quimiometría para Química Analítica. Ed.
Prentice Hall, Pearson Educación S.A.
RIUS DÍAZ, F., BARÓN LÓPEZ, F.J., SANCHEZ FONT, E. y PARRAS GUIJOSA, L. Bioestadística:
métodos y aplicaciones. Universidad de Málaga, consultado el 15 de febrero de 2011. URL:
http://www.bioestadistica.uma.es/libro/
SKOOG, D.A., WEST, D.M. y HOLLER, F.J. (1997). Fundamentos de Química Analítica. Ed.
Reverté S.A.
84
SOCIEDAD ESPAÑOLA DE BIOQUÍMICA CLÍNICA Y PATOLOGÍA MOLECULAR. Curso de

Estadística para el laboratorio clínico, consultado el 1º de febrero de 2011.
URL: http://www.seqc.es/es/Varios/7/7/Curso_de_Estadistica_para_el_laboratorio_Clinico/
SPIEGEL, M.R. (1991). Estadística (Segunda Edición). Ed. McGraw-Hill
VALCÁRCEL, M. (1999). Principios de Química Analítica. Springer-Verlarg Ibérica, Barcelona.
85

Estadística

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Estadística

Cargado por

Copyright:

Formatos disponibles

MÓDULO 1 Raúl A.

Breve reseña histórica

Idealmente, la estadística estudia POBLACIONES de individuos o de observaciones.

 Se denomina “población” al conjunto total de todas las posibles mediciones u

 Una población finita es aquella que incluye un número limitado de medidas u

Son poblaciones finitas el número de bioquímicos inscriptos en el curso de Estadística,

 Se dice que una población es infinita si incluye un gran conjunto de medidas u

Por ejemplo, si se considera la población constituida por la concentración de

 A las características medibles de una población se les denomina parámetros, y los

 Es importante considerar que es imposible calcular el valor verdadero de cualquier

Un trabajo experimental con poblaciones no es práctico. Supongamos que el objetivo

 Un estadístico o estimador es una característica medible de una muestra

En el ejemplo dado, el nivel promedio de PSA de un grupo de 100 individuos de sexo

2.2. Estadística descriptiva e inferencia estadística

 La estadística descriptiva se refiere a aquella parte del estudio que incluye la

La estadística obtiene conclusiones a partir de los datos extraídos de una muestra. A

 La inferencia estadística1 es una metodología mediante la cual se obtienen

En resumen, la estadística incluye tanto técnicas descriptivas como inferenciales. Son

 El análisis estadístico se refiere a un conjunto de métodos para manejar la

2.3. Magnitudes y Variables

 Una variable estadística es cada una de las características o propiedades que

Cualquier característica de un elemento de la población que pueda observarse, puede

 Magnitud es toda característica o cualidad de un elemento integrante de la

En general, las variables son clasificadas en dos grandes grupos: categóricas o

 Las variables categóricas o cualitativas no pueden ser medidas con números. Se

Podemos distinguir dos tipos de variables categóricas: variable cualitativa nominal y

 Una variable cualitativa nominal presenta modalidades o categorías no

 Las variables generadas por la forma presencia-ausencia de una categoría se

 Las variables cualitativas ordinales o semi cuantitativas presentan modalidades

 Las variables cuantitativas o numéricas son aquellas, que como su nombre lo

Pueden ser clasificadas a su vez en discretas y continuas, distinguiéndose entre un

Algunos ejemplos de variables discretas son: el número de leucocitos, el número de

 Las variables que surgen de mediciones efectuadas sobre cada unidad

 En una magnitud continua hay infinitos puntos posibles dentro de un intervalo

 Un importante principio sobre variables continuas es que se consignan en forma

 Si las observaciones para una variable numérica se obtienen como resultado de

 Si los datos obtenidos son el resultado de medir, la variable es continua.

En el proceso de observación se registra para cada unidad experimental alguna

 Un dato es el resultado al medir una magnitud en un elemento de la población

Las mediciones que se describen mediante una variable discreta o continua se

Aunque tradicionalmente los métodos analíticos se han dividido en cuantitativos,

3.1. Escala nominal

3.2. Escala ordinal

Un caso especial surge cuando en la escala de orden existe un cierto acuerdo

3.3. Escala de intervalo

3.4. Escala de razón o escala proporcional

4. Organización, resumen y presentación de datos

4.1. Organización de datos categóricos

TABLA 4.1. Especies bacterianas aisladas en 30 muestras* de orina

Muestra Bacteria aislada Muestra Bacteria aislada Muestra Bacteria aislada

 Una tabla de frecuencias para variables categóricas relaciona cada categoría de la

 El número de veces que se repite cada categoría de la variable se denomina

Simbolizaremos la frecuencia absoluta con fa . Obsérvese en la tabla que la suma de

TABLA 4.2. Tabla de frecuencias absolutas especies aisladas

4.1.1. Gráfico de barras

 Un gráfico de barras se utiliza para presentar datos categóricos o datos

Considerando un sistema de coordenadas cartesianas, sobre el eje x se representan

Si queremos utilizar Microsoft Excel para graficar, comenzamos introduciendo las

Luego seleccionamos (“pintamos”) las columnas con las categorías de la variable

Hacemos clic en el icono de la barra de herramientas que se denomina “Asistente para

Seleccionamos Tipo de gráfico: Columnas, Subtipo de gráfico: la primera opción

Hacemos un nuevo clic en siguiente y obtenemos: