Está en la página 1de 25

1 Estadística descriptiva

Versión: 23 de septiembre de 2013

La estadística recoge, ordena y analiza datos para estudiar las características o el comportamiento de un co-
lectivo. Muchos fenómenos de la naturaleza no son deterministas (es decir no dan lugar a un resultado cierto o
seguro). Por ejemplo, la duración de la vida de un organismo, la herencia de los genes, el número de personas
infectadas durante un brote epidérmico o el color preferido de los alumnos de una clase.
La Estadística es la rama de las matemáticas que se ocupa de los métodos y procedimientos para recoger,
clasificar, representar y resumir datos (Estadística descriptiva), así como de obtener consecuencias científicas
a partir de estos datos (Inferencia Estadística).
Para comprender mejor la diferencia de estos dos grandes apartados de la Estadística, consideramos un ejemplo
de un internista que desea comprobar la eficacia de una droga hipotensora. Para ello sólo dispondrá de un número
limitado de pacientes a los que administrar la droga, y, sin embargo, deseará obtener conclusiones válidas para
todos los pacientes hipertensos del mismo medio. Del estudio que se realiza en el número limitado de pacientes
(muestra) se encarga la Estadística Descriptiva que presentamos en los Temas 1 y 2. Obtener conclusiones
para todos los pacientes (población) a partir de un número limitado de ellos se realiza mediante la Inferencia
Estadística, que será considerada en los el Temas 3, 4, 5 y 6.
El objetivo de este Tema es presentar herramientas básicas de la Estadística Descriptiva.

1.1 Conceptos fundamentales

CONCEPTOS FUNDAMENTALES

Individuo o elemento: cada una de las personas u objetos que se desea estudiar.

Población: conjunto de individuos Por ejemplo, animales, árboles, chinchetas, altura de una planta, tiempo
o elementos observados al realizar de vida, etc. En el ejemplo anterior, son todos los pacientes hipertensos
un experimento que cumplen ciertas del mismo medio.
propiedades comunes.

Muestra: una parte de la población. En el ejemplo anterior, es el conjunto de pacientes hipertensos a los
que se les aplica la droga. Generalmente es difícil obtener medidas de
Tamaño de la muestra: el número toda la población (medir la estatura de todos los españoles) o imposible
de los elementos de la muestra. (estudiando el caudal de un río tendríamos que medir los caudales de
todos los años pasados y futuros). Se mide una parte de la población (una
muestra) y se trata de inferir estos resultados sobre toda la población
ahorrando tiempo y dinero.

Variable estadística es una propiedad característica de la población que estamos interesados en estudiar.

Hay dos tipos de variables cualitativas y cuantitativas.

1
1. Estadística descriptiva 2

Variable cualitativa: mide características que no toman valores numéricos. Por ejemplo, la profesión del
padre, color del pelo, nombre de una persona, asignatura preferida, etc. Se agrupan por modalidades,
por ejemplo, la variable sexo presenta dos modalidades: femenino y masculino.

Variable cuantitativa: se puede medir y expresar mediante cantidades numéricas. A su vez se clasifican en:
Cuantitativa discreta: sólo admite valores aislados. Se habla de elementos o datos. Por ejemplo, el
número de hijas de una familia, el número de obreros en una fábrica, talla del pantalón, etc.
Cuantitativa continua: puede admitir cualquier valor dentro de un intervalo. Se clasifican en intervalos
o clases. Por ejemplo el peso (2.3 kg, 2.4 kg, 2.5 kg,. . . ), la altura de un objeto (1.64 m, 1.65 m,
1.66 m,. . . ), temperaturas registradas en un observatorio o la presión sanguínea de enfermos, es decir
permiten que siempre exista un valor entre dos variables.

1.2 Tablas estadísticas


Una vez obtenidos los datos de la muestra o población, éstos se suelen ordenar y clasificar en la llamadas tablas
estadísticas. Vamos a ilustrar con el siguiente ejemplo la necesidad de crear este tipo de tablas.

Ejemplo 1.1 Una tabla no estadística

Supongamos que tenemos una muestra de 500 alumnos varones de una Universidad, en los que se desea estudiar
el grupo sanguíneo (variable cualitativa), el número de hermanos excluido él mismo (variable cuantitativa
discreta) y el peso (variable cuantitativa continua). Los datos de la muestra están recogidos en la Tabla 1.1.
Es evidente que, a partir de la Tabla 5.1 no se puede deducir fácilmente la información global sobre el colectivo
estudiado: ¿cuál es el grupo sanguíneo más frecuente?, ¿cómo de frecuente es?, etc.

Tabla 1.1
Grupo sanguíneo, número de hermanos y peso de 500 alumnos varones de una Universidad
(Ejemplo de tabla no estadística)

Alumno no Grupo sanguíneo Número de hermanos Peso (Kg.)

1 A 0 70.502

2 B 3 67.231

... ... ... ...

500 AB 2 71.676

La manera de construir la tablas estadísticas varía según sea el carácter de la variable a estudiar: cualitativa,
cuantitativa discreta o cuantitativa continua. A continuación veamos ejemplos de cada caso.

Matemática Aplicada y Estadística Dpto. EDAN - Univ. de Sevilla


1. Estadística descriptiva 3

1.2.1 Variable cualitativa

Ejemplo 1.2 Tabla para analizar una variable cualitativa

Usando los datos del Ejemplo 1.1 y de la Tabla 1.1 podemos construir una tabla estadística, conocida como
tabla de frecuencias (se define más adelante con carácter general). La Tabla 1.2 muestra la distribución de
frecuencias del grupo sanguíneo (variable cualitativa).
Se observa que las frecuencias relativas se introducen para hacer comparables dos o más tablas de datos del
mismo tipo basados en tamaños de muestra diferentes. Por ejemplo, si en otra Universidad se encuentra la
frecuencia absoluta n03 = 40 de entre el número total de estudiantes N 0 = 937, no es posible determinar a
partir de n3 = 25 y n03 = 40 en cuál de los dos muestras es más frecuente el grupo sanguíneo AB, pues las
frecuencias absolutas están basadas en diferentes valores de N . Sin embargo, las frecuencias relativas (f3 = 0.05
y f30 = 40/937 = 0.043) sí permiten efectuar tal comparación y concluir que el grupo sanguíneo AB es un poco
más frecuente en el primer caso.

Tabla 1.2
Distribución del grupo sanguíneo en 500 alumnos varones de una Universidad
(variable cualitativa)

 ni 
Grupo sanguíneo Frecuencia absoluta (ni ) Frecuencia relativa fi = Porcentaje (Pi = 100fi )
N
150
A 150 500 = 0.30 30 %

75
B 75 500 = 0.15 15 %

25
AB 25 500 = 0.05 5%

250
0 250 500 = 0.50 50 %

Total 500 1 100 %

Con carácter general una tabla para analizar una variable cualitativa es la que muestra la Tabla 1.3.

Tabla 1.3
Distribución de frecuencias: variable cualitativa

Clase Fr. absoluta (ni ) Fr. relativa (fi ) % Fr. abs. acumulada (Ni ) Fr. relativa acumulada (Fi )

C1 n1 f1 100f1 N1 F1

C2 n2 f2 100f2 N2 F2
.. .. .. .. .. ..
. . . . . .

CK nK fK 100fK NK = N FK = 1

Total N 1 100 % ... ...

En la a la Tabla 1.3 se han añadido las distribuciones de frecuencias absolutas acumuladas, Ni , y frecuencias
relativas acumuladas, Fi (véase el Ejemplo 1.3). La información que proporcionan la distribución de frecuencias

Matemática Aplicada y Estadística Dpto. EDAN - Univ. de Sevilla


1. Estadística descriptiva 4

relativas puede obtenerse a partir de la distribución de frecuencias relativas acumuladas y recíprocamente.


Debemos observar que las frecuencias acumuladas sólo tienen sentido cuando es posible establecer una relación
de orden entre los valores de la variable.

Ejemplo 1.3

Dentro de los procesos industriales de gran importancia para el Ingeniero Químico, están los procesos de
tratamiento de aguas. Un laboratorio determinó la dureza del agua de 10 muestras obteniendo los resultados:

Muestra Dureza
1 Agua blanda
2 Agua blanda
3 Agua dura
4 Agua muy dura
5 Agua muy dura
6 Agua extremadamente dura
7 Agua blanda
8 Agua blanda
9 Agua dura
10 Agua muy dura

La tabla de distribución de frecuencias para la variable C =«Dureza del agua» se muestra en la siguiente tabla:

Dureza del agua (Ci ) ni fi Ni Fi


Agua blanda 4 0.4 4 0. 4
Agua dura 2 0.2 6 0.6
Agua muy dura 3 0.3 9 0.9
Agua extremadamente dura 1 0.1 10 1
Total 10 1 --- ---

1.2.2 Variable cuantitativa discreta


Criterios similares sirven para el caso cuantitativo discreto como muestra el ejemplo siguiente.

Ejemplo 1.4 Tabla para analizar una variable cuantitativa discreta

En la Tabla 1.4 se representan distribuciones de frecuencias para analizar el número de hermanos (variable
cuantitativa discreta). Se observa que las clases son ahora valores numéricos, pues los datos lo son.
Las clases se han ordenado de menor a mayor para mayor claridad de la tabla.
Por otra parte, en la Tabla 1.4 se observa que las últimas variables tienen frecuencias muy bajas, lo que se
suele hacen en estos casos es agrupar en la última clase las clases originales 7, 8, . . . (por tener frecuencias muy
bajas) para no hacer la tabla muy extensa sin necesidad. El resultado puede observarse en la Tabla 1.5.

Matemática Aplicada y Estadística Dpto. EDAN - Univ. de Sevilla


1. Estadística descriptiva 5

Tabla 1.4
Distribución de frecuencias del número de hermanos (excluido él mismo) de una muestra de 500
alumnos varones de una Universidad (variable cuantitativa discreta)

ni
no hermanos Fr. absoluta (ni ) Fr. relativa (fi = ) % (Pi = 100fi ) Fr. absoluta acumulada (Ni )
N
72
0 72 500 = 0.144 14.4 % 72

155
1 155 500 = 0.31 31 % 227

97
2 97 500 = 0.194 19.4 % 324

81
3 81 500 = 0.162 16.2 % 405

30
4 30 500 = 0.06 6% 435

27
5 27 500 = 0.054 5.4 % 462

20
6 20 500 = 0.04 4% 482

10
7 10 500 = 0.02 2% 492

4
8 4 500 = 0.008 0.8 % 496

2
9 2 500 = 0.004 0.4 % 498

1
10 1 500 = 0.002 0.2 % 499

1
11 1 500 = 0.002 0.2 % 500

Total 500 1 100 % ---

Tabla 1.5
Distribución de frecuencias del número de hermanos (excluido él mismo) de una muestra de 500
alumnos varones de una Universidad (variable cuantitativa discreta) con las últimas frecuencias
agrupadas, por tener valores muy bajos

ni
no hermanos Fr. absoluta (ni ) Fr. relativa (fi = ) Porcentaje ( %) Fr. absoluta acumulada (Ni )
N
72
0 72 500 = 0.144 14.4 % 72
155
1 155 500 = 0.31 31 % 227
97
2 97 500 = 0.194 19.4 % 324
81
3 81 500 = 0.162 16.2 % 405
30
4 30 500 = 0.06 6% 435
27
5 27 500 = 0.054 5.4 % 462
20
6 20 500 = 0.04 4% 482
18
≥7 18 500 = 0.036 3.6 % 500

Total 500 1 100 % ---

Matemática Aplicada y Estadística Dpto. EDAN - Univ. de Sevilla


1. Estadística descriptiva 6

Con carácter general una tabla para analizar una variable cuantitativa discreta es la que muestra la Tabla 1.6.
Tabla 1.6
Distribución de frecuencias: variable cuantitativa discreta

Valor Fr. absoluta Fr. relativa Porcentaje ( %) Abs. acumulada Rel. acumulada % acumulado
i i i
ni X X X
(xi ) (ni ) (fi = ) (pi ) Ni = nj Fi = fj Pi = pj
N j=1 j=1 j=1
x1 n1 f1 100f1 N1 = n 1 F1 = f 1 P1 = p1
x2 n2 f2 100f2 N2 = n 1 + n 2 F2 = f1 + f2 P2 = p1 + p2
... ... ... ... ... ... ...
xK nK fK 100fK NK = N FK = 1 PK = 100 %
Total N 1 100 % --- --- ---

1.2.3 Variable cuantitativa continua

Ejemplo 1.5 Tabla para analizar una variable cuantitativa continua

En el caso cuantitativo continuo, aún valiendo los criterios anteriores, se presenta la dificultad de de la
formación de las clases. Al considerar el peso de los 500 alumnos (con una precisión en gramos), es prácticamente
imposible que dos individuos tengan el mismo peso, con lo que la tabla de valores contaría con miles de valores
con con frecuencias 0 y 1. Por ejemplo, entre 60 y 61 Kg hay 1000 valores posibles (tanto como gramos).
Para evitar esto, los datos deben agruparse en clases llamadas intervalos de clases: [L0 , L1 ), [L1 , L2 ), . . . ,
[LK−1 , LK ), siendo Li−1 y Li límite inferior del intervalo de clase y límite superior respectivamente. La
diferencia entre ambos, se llama amplitud de la clase:

a = Li − Li−1 . (1.1)
Por ejemplo, si se decide agrupar a los alumnos de 5 en 5 Kg, la presentación de los datos será como en la
Tabla 1.7. Se observa que

Los intervalos primero (x < 45) y el último (x ≥ 90) no constan de los límites ni tienen igual longitud
que los demás. Esto se hace para simplificar la presentación de los datos, igual que se hizo en el último
intervalo de la Tabla 1.5. Se dice que son unos intervalos de «cajón de sastre».
Para facilitar la interpretación de los datos, los cálculos y las representaciones gráficas es conveniente
que todos los intervalos de clase tengan la misma longitud.
Las clases no deben solaparse ni presentar huecos entre ellas (para evitar que un individuo pueda perte-
necer a dos clases diferentes o que no haya clase en que clasificarlo).
En general, el número de clases a tomar es a decidir por el experimentador. Como norma general el
número de intervalos ha de estar entre 5 (menos es prácticamente no dar
√ información) y 20 (más, es
oscurecer la información global). Una regla muy utilizada es hacer K = N .
Para ciertos fines, que se verán después, conviene definir un valor que actuará como representante de
cada clase, valor llamado marca de clase:

Li−1 + Li
ci = . (1.2)
2
Para las clases extremas a las que les faltan uno de los límites, se les asigna una longitud ficticia. Así, la
primera marca es c1 = (40 + 45)/2 = 42.5

Matemática Aplicada y Estadística Dpto. EDAN - Univ. de Sevilla


1. Estadística descriptiva 7

Tabla 1.7
Distribución del peso (x) en Kg de una muestra de 500 alumnos varones de una Universidad
(variable cuantitativa continua)

Intervalo de clase ni fi % Fr. absoluta acumulada (Ni ) Marca de clase (ci )

x < 45 1 0.002 0.2 % 1 42.5

45 ≤ x < 50 3 0.006 0.6 % 4 47.5

50 ≤ x < 55 12 0.024 2.4 % 16 52.5

55 ≤ x < 60 75 0.150 15 % 91 57.5

60 ≤ x < 65 103 0.206 20.6 % 194 62.5

65 ≤ x < 70 155 0.310 31.0 % 349 67.5

70 ≤ x < 75 101 0.202 20.2 % 450 72.5

75 ≤ x < 80 29 0.058 5.8 % 479 77.5

80 ≤ x < 85 11 0.022 2.2 % 490 82.5

85 ≤ x < 90 8 0.016 1.6 % 498 87.5

x ≥ 90 2 0.004 0.4 % 500 92.5

Total 500 1 100 % --- ---

En general una tabla para analizar una variable cuantitativa continua es la que muestra la Tabla 1.8, que
también podría contener las frecuencias acumuladas.

Tabla 1.8
Distribución de frecuencias: variable cuantitativa continua

Intervalo de clase Frecuencia absoluta (ni ) Frecuencia relativa (fi ) % Marca de clase

[L0 , L1 ) n1 f1 100f1 c1

[L1 , L2 ) n2 f2 100f2 c2
.. .. .. .. ..
. . . . .

[LK−1 , LK ) nK fK 100fK cK

Total N 1 100 % ---

A continuación formalizamos las definiciones de frecuencias usadas en los ejemplos que nos han permitido
clasificar y describir los datos.

Matemática Aplicada y Estadística Dpto. EDAN - Univ. de Sevilla


1. Estadística descriptiva 8

DISTRIBUCIÓN DE FRECUENCIAS

N Es el número total de datos (tamaño de la muestra).

C y C1 , C2 , . . . CK Es la variable a analizar y las K clases de esta variable.

Frecuencia absoluta (ni ): Es el número de elementos que pertenecen a la clase i de una


K
X variable.
Se verifica que ni = N Como hay varias (tantas como clases), se le adjudica un subíndice i
i=1 que alude al número de la clase que se trate. Por ejemplo, n3 = 25
significa que el número de individuos, de entre N , que pertenecen
a la tercera clase es de 25.
Por otra parte, la suma total de todas las frecuencias absolutas
debe dar el total de la muestra estudiada, N .
ni
Frecuencia relativa (fi ): fi = Es el cociente entre la frecuencia absoluta, ni , de la clase i y el
N
K
X número total de datos, N .
Se verifica que fi = 1 Se introducen con el objetivo de hacer comparables dos o más
i=1 tablas de datos del mismo tipo basadas en tamaños de muestra
distintos.
La suma de las frecuencias relativas es igual a 1.

Porcentaje relativo (pi ): pi = 100fi Es frecuencia relativa a 100 individuos de la clase i, es decir es un
tanto por ciento ( %). Se observa que la frecuencia relativa es un
tanto por uno.

Frecuencia absoluta acumulada (Ni ): Es la suma de las frecuencias absolutas de todas las clases inferiores
Xi a la que estamos calculando. Así, N1 = n1 , N2 = n1 + n2 ,
Ni = nj N3 = n1 + n2 + n3 , . . . y NK = n1 + n2 + · · · + nK = N , es decir
j=1 la última frecuencia absoluta acumulada deberá ser igual a N .

Frecuencia relativa acumulada (Fi ): Es el cociente entre la frecuencia absoluta acumulada y el número
i i total de individuos.
Ni X ni X
Fi = = = fj
N j=1
N j=1

Porcentaje relativo acumulado (Pi ): Es la suma de los porcentajes relativos de todas las clases inferio-
Xi res a la que estamos calculando. Así, P1 = p1 , P2 = p1 + p2 ,
Pi = pj P3 = p1 + p2 + p3 , . . . y PK = p1 + p2 + · · · + pK = 100, es decir
j=1 el último porcentaje relativo acumulado deberá ser igual a 100.

1.3 Representaciones gráficas


Los gráficos facilitan la lectura e interpretación de los datos. Los gráficos pueden ser de varios tipos, pero todos
están basados en el principio general de que la figura construida para cada clase deber tener un área
proporcional a la frecuencia de esta clase: al lector lo que «le entra» por los ojos es el área de la figura.
Los tipos de gráficos que se deben elegir dependen en general de la naturaleza de la variable estudiada.

1.3.1 Variable cualitativa


Diagrama de barras o rectángulos

Este tipo de diagramas se construye sobre un sistema de ejes cartesianos, situando en uno de los ejes las distintas
clases y en el otro los valores de las frecuencias, absolutas o relativas. Sobre cada clase se levantan barras o
rectángulos de la misma base y altura igual a la frecuencia. Según se sitúen las clases sobre el eje de abscisas o
de ordenadas, se tendría diagrama de rectángulos verticales u horizontales.

Matemática Aplicada y Estadística Dpto. EDAN - Univ. de Sevilla


1. Estadística descriptiva 9

Figura 1.1 Figura 1.2


Diagrama de barras (rectángulos verticales) de las Diagrama de barras (rectángulos horizontales) de
frecuencias absolutas de la Tabla 1.2 las frecuencias absolutas de la Tabla 1.2

300  

0  
250  

200  
AB    

150  

B  
100  

50  
A  

0  
A   B   AB     0   0   50   100   150   200   250   300  

Diagrama de sectores

El gráfico consiste en dibujar una circunferencia de radio arbitrario y dividir su círculo en sectores. A cada clase
se le asigna un sector de área (y, por consiguiente, ángulo que lo genera) proporcional a la frecuencia de la clase.
Como en los 360◦ de la circunferencia han de estar incluidos los N individuos de la muestra, a una clase de
frecuencia absoluta ni se le asigna un sector del ángulo αi definido por:

ni
× 360◦ = fi × 360◦
αi =
N
siendo fi la correspondiente frecuencia relativa.

Ejemplo 1.6 Diagrama de sectores para una variable cualitativa

En la Figura 1.3, construida en basa a la Tabla 1.9, a la clase «tumores» le corresponde un ángulo

α = 0.1966 × 360◦ = 70◦ 460 33.600

Tabla 1.9 Figura 1.3


Mortalidad por grupos de causas (España 1979) Diagrama de sectores para la Tabla 1.9

Causa Porcentaje ( %)
Aparato circulatorio 46.07
Aparato  circulatorio  
Tumores 19.66
Tumores  
Aparato respiratorio 8.59
Aparato  respiratorio  
Externa 5.53 Externa  
Aparato digestivo 5.46 Aparato  diges5vo  
Mal definida 4.18 Mal  definida  
Resto 10.51 Resto  
Total 100

Ejemplo 1.7 Diagrama de barras y de sectores para una variable cualitativa

La Tabla 1.10 contiene datos de la distribución de 150 personas de 25 y 45 años de edad, según su estado civil.
Y las Figuras 1.4 y 1.5 muestran el diagrama de barras y se sectores, respectivamente.

Matemática Aplicada y Estadística Dpto. EDAN - Univ. de Sevilla


1. Estadística descriptiva 10

Tabla 1.10
Distribución de frecuencias de 150 personas de 25 a 45 años, según su estado civil

Estado Soltero Casado Viudo Divorciado No declarado Total


Fr. absoluta 20 78 15 26 11 150

Figura 1.4 Figura 1.5


Diagrama de barras para la Tabla 1.10 Diagrama de sectores para la Tabla 1.10

90  
80  
70  
60   Soltero  

50   Casado  

40   Viudo  

30   Divorciado  

20   No  declarado  

10  
0  
Soltero   Casado   Viudo   Divorciado   No  declarado  

Pictograma

En este tipo de gráfico cada variable se representa por una figura no geométrica, por ejemplo un automóvil, un
edificio, una herramienta de trabajo,etc. Las figuras habrán de tener un área proporcional a la frecuencia de las
clases y esto puede lograrse por dos caminos.
En los pictogramas de repetición se asigna un valor a una figura base, y esta se repite tantas veces como
convenga a la frecuencias de las clase.
En los pictogramas de ampliación, a cada clase se le asigna una única figura-motivo con un área proporcional a
la frecuencia de aquella. En este último caso, si dos clases tienen frecuencias una doble de la otra, la figura-motivo
debe tener un área doble de la otra.

Tabla 1.11 Figura 1.6


Producción de vinos en Andalucía durante un año Pictograma para la Tabla 1.11

Provincia Porcentaje ( %)a 35  

Huelva 21.97 30  
Sevilla 4.39 25  
Cádiz 32.96
20  
Málaga 27.47
15  
Granada 7.69
Almería 3.29 10  

Jaén 2.19 5  

Total 100 0  
Huelva   Sevilla   Cádiz   Málaga   Granada   Almería   Jaén  
a Los datos son inventados

Matemática Aplicada y Estadística Dpto. EDAN - Univ. de Sevilla


1. Estadística descriptiva 11

1.3.2 Variable cuantitativa discreta


Diagrama de barras o rectángulos

Cuando la variable es discreta y toma pocos valores, el gráfico adecuado es el diagrama de barras o rectángulos.
Se construye de la misma forma que para las variables cualitativas pero ahora sobre el eje de abscisas se sitúan
los valores de la variable. Es decir, una vez colocados los valores de la variable en el eje de abscisas, se levantan
sobre ellos unos segmentos (barras) de altura igual a la frecuencia correspondiente.
Según se tome la frecuencia absoluta o relativa, la suma de las longitudes de todas las barras será N o 1. La
Figura 1.7 representa el diagrama de barras para la Tabla 1.5. Nótese que las clases extremas, que no tienen igual
longitud que las demás, conviene dibujarlas con igual anchura. Tal sucede con la barra «≥ 7» de la Figura 1.7.

Polígono de frecuencias simples

Se trazan unos ejes cartesianos: a cada clase se le asigna un punto en el plano, con una abscisa que es el valor
del dato, y una ordenada que es su frecuencia. La serie de puntos así obtenida se conecta mediante segmentos
rectos, obteniendo una poligonal.
De nuevo, los polígonos pueden ser de frecuencias absolutas o de frecuencias relativas. El polígono de frecuencias
es especialmente útil para ver cómo evolucionan las frecuencias conforme aumenta el valor de datos. Por ello no
es aplicable a los datos cualitativos no ordinales (el grupo sanguíneo A no tiene por qué ir por delante de B,
etc).

Figura 1.7 Figura 1.8


Diagrama de barras de frecuencias absolutas de Polígono de frecuencias absolutas para las fre-
la Tabla 1.5 cuencias absolutas de la Tabla 1.5

180   180  
160   160  
140   140  
120   120  
100   100  
80   80  
60   60  
40   40  
20   20  
0   0  
0   1   2   3   4   5   6   >=7     0   1   2   3   4   5   6   >=7    

Diagrama de frecuencias acumuladas

Cuando la variable estadística es discreta se puede representar el diagrama de frecuencias acumuladas o escalo-
nado. Pueden ser las frecuencias acumuladas absolutas, relativas o porcentajes acumulados.
En la Figura 1.9 se representan las frecuencias absolutas acumuladas de correspondientes a la Tabla 1.5.

Figura 1.9 Figura 1.10


Diagrama de frecuencias absolutas acumuladas de Polígono de frecuencias absolutas acumuladas de
la Tabla 1.5 la Tabla 1.5

600   600  

500   500  

400   400  

300   300  

200   200  

100   100  

0   0  
0   1   2   3   4   5   6   >=7     0   1   2   3   4   5   6   7   8  

Matemática Aplicada y Estadística Dpto. EDAN - Univ. de Sevilla


1. Estadística descriptiva 12

Polígono de frecuencias acumuladas

El gráfico formado por los puntos cuyas abscisas son los valores de la variable y sus ordenadas la frecuencia
acumulada, unidos por segmentos, es el polígono de frecuencias acumuladas.
La Figura 1.10 muestra el polígono de frecuencias absolutas acumuladas correspondientes a la Tabla 1.5.

1.3.3 Variable cuantitativa continua


Histograma

Cuando la variable estadística es cuantitativa continua, se utiliza el histograma, cuya representación está fun-
damentada en la proporcionalidad de las áreas de rectángulos a las frecuencias de cada clase.
El histograma es una extensión del diagrama de barras que dibuja los rectángulos unidos entre sí, indicando
de este modo que existe continuidad en los valores de las variables. Un histograma es, por tanto, un gráfico
de variable continua dividida en intervalos de los que se eleva un rectángulo con área proporcional a su
frecuencia. Obsérvese que lo que es proporcional es el área, no la altura, lo que permite intervalos de diferente
amplitud. Una vez más resulta irrelevante trabajar con frecuencias absolutas o relativas.
Si se trata de intervalos de la misma amplitud, la altura de cada uno de los rectángulos se toma igual a la
frecuencia correspondiente.

Si se trata de intervalos de amplitudes diferentes, co-


Figura 1.11
mo en el la Tabla 1.12 del Ejemplo 1.8, la altura de
Histograma de frecuencias absolutas de la Tabla 1.12
cada rectángulo hi conocida como densidad de fre-
cuencia del intervalo [Li−1 , Li ), es igual a la frecuen-
17
cia absoluta ni dividida por la amplitud del intervalo
correspondiente, ai , es decir
ni 13
hi =
ai
donde ai viene dada por (1.1).
8

En la Figura 1.12 se representa histograma de fre-


cuencias absolutas de la Tabla 1.12. 5
4
El área del rectángulo correspondiente a la clase
i-ésima es:
0
0 3 5 7 9 10

ni
si = hi ai = ai = ni
ai
y la suma de las áreas de todos los rectángulos es:

K
X
S= ni = N
i=1

Es claro que si se toman frecuencias relativas, la suma de las áreas es igual a 1.

Matemática Aplicada y Estadística Dpto. EDAN - Univ. de Sevilla


1. Estadística descriptiva 13

Figura 1.12
Por otra parte se observa que, las clases ex- Histograma de frecuencias absolutas de la Tabla 1.7
tremas, como las de la Tabla 1.7, conviene di-
bujarlas con igual anchura. En la Figura 1.12 180  
160  
se representa histograma de frecuencias abso-
140  
lutas de la Tabla 1.7.
120  
100  
80  
60  
40  
20  
0  
40-­‐45   45-­‐50   50-­‐55   55-­‐60   60-­‐65   65-­‐70   70-­‐75   75-­‐80   80-­‐85   85-­‐90   90-­‐95  

Polígono de frecuencias simples

A partir de un histograma pueden construirse otros tipos de gráficos. Por ejemplo, los gráficos de línea consisten
en unir los puntos medios de todos los intervalos contiguos mediante una recta, construyendo así un polígono
de frecuencias, como muestra la Figura 1.13 del Ejemplo 1.8.

Ejemplo 1.8 Una variable cuantitativa continua con intervalos de amplitudes diferentes

La Tabla 1.12 contiene datos de la distribución de notas de 98 alumnos. Se observa que los intervalos de clase
tienen longitudes diferentes.

Tabla 1.12 Figura 1.13


Distribución de frecuencias de notas de 98 alum- Polígono de frecuencias absotutas enmarcado en
nos en una clase el histograma para la Tabla 1.12

Notas ni fi % hi marca
17
[0, 3) 24 0.24 24 % 8 1.5
[3, 5) 34 0.35 35 % 17 4 13

[5, 7) 26 0.27 27 % 13 6
[7, 9) 10 0.10 10 % 5 8 8

[9, 10) 4 0.04 4% 4 9.5


5
4
Total 98 1 100 % --- ---

0
0 3 5 7 9 10

Polígono de frecuencias acumuladas

El polígono de frecuencias acumuladas se utiliza para representar distribuciones de frecuencias (relativas o


absolutas) acumuladas.
En el eje OX se representan los extremos de las clases. Se asigna la ordenada cero al extremo inferior del primer
intervalo, es decir L0 = 0 y a cada extremo derecho de las clases se le asigna como ordenada la frecuencia
acumulada (absoluta, relativa o porcentual). La poligonal que une dichos puntos es el polígono de frecuencias
acumuladas (véase el Ejemplo 1.9).
El hecho de tomar ahora la poligonal de los extremos a la derecha de los rectángulos es que, suponiendo
uniformemente distribuido el número de individuos en cada clase, dicha poligonal debería reflejar al final de
cada intervalo el total de individuos en él contenido.

Matemática Aplicada y Estadística Dpto. EDAN - Univ. de Sevilla


1. Estadística descriptiva 14

Ejemplo 1.9

En la figura de la derecha se muestran el histograma


y el polígono de frecuencias absolutas acumuladas
para los datos de la tabla siguiente: 102
93
Peso (Kg.) Fr. absoluta (ni ) Fr. acumulada Ni
[20,40) 12 12
61
[40, 60) 49 61
[60, 80) 32 93
[80, 100) 9 102
12
Total 102 ---
20 40 60 80 100

1.4 Medidas estadísticas


Agrupar los datos en tablas de frecuencias es un primer paso en el análisis estadístico de los mismos. Además,
es conveniente resumir dichos datos en un solo número, que describa de una manera sencilla su comportamiento
y sus características. Se trata de calcular las llamadas medidas estadísticas que pretenden «resumir» la
información de la muestra para poder tener así un mejor conocimiento de la población.

Las medidas estadísticas suelen dividirse en medidas de posición o de tendencia central y medidas de
dispersión. Parece claro que el cálculo de estas medidas requiere la posibilidad de efectuar operaciones con los
valores que toma la variable. Por este motivo, en lo que resta del tema tratamos sólo con variables cuantitativas.

1.4.1 Medidas de posición o de tendencia central

Consideraremos aquí las más utilizadas: la media aritmética y la mediana. Hay otras medidas de tendencia
central, por ejemplo la moda, la media geométrica, la media cuadrática, la media armónica etc. que se utilizan
en algunos procesos de carácter más específico y se escapan del objetivo de este tema.

Media aritmética

Media aritmética: caso discreto


Sea X una variable estadística cuantitativa que toma valores x1 , x2 , . . . , xK con frecuencias absolutas n1 , n2 ,
. . . , nK y N el tamaño de la muestra. Se define la media aritmética x como el valor:
K
x1 n1 + x2 n2 + · · · + xK nK 1 X
x= = xi ni (1.3)
N N i=1

Ejemplo 1.10
La media aritmética de la variable «nota» distribuida en intervalos de clase de la Tabla 1.12 es:
1.5 × 24 + 4 × 34 + 6 × 26 + 8 × 10 + 9.5 × 4
x= = 4.55
98

Matemática Aplicada y Estadística Dpto. EDAN - Univ. de Sevilla


1. Estadística descriptiva 15

Siempre que se hace un cálculo, surge la pregunta ¿cuántas cifras decimales deben darse en la respuesta final? No
existen normas estrictas para ello. Utilizaremos la convención de que, al calcular medias, el resultado se expresará
con hasta una o dos cifras decimales más que los datos. Para calcular las frecuencias relativas usaremos al menos
4 cifras decimales, ya que con menos cifras se generarían errores considerables en los porcentajes. La última
cifra decimal se hallará mejor por redondeo que por truncamiento.

Advertencia:
Al hacer una serie de cálculos no hay que redondear los resultados hasta que se finalicen todos los cálculos, de
lo contrario, se acumularían los errores de redondeo.

Ejemplo 1.11

La siguiente tabla de frecuencias muestra las calificaciones de 20 alumnos de Matemáticas:

Nota (xi ) Fr. absoluta (ni ) Fr. absoluta acumulada Ni


2 3 3
4 6 9
5 5 14
6 3 17
8 1 18
10 2 20
Total 20 ---

La nota media es
2 × 3 + 4 × 6 + 5 × 5 + 6 × 3 + 8 × 1 + 10 × 2 101
x= = = 5.05
20 20

La media: caso continuo


Cuando la variable X es cuantitativa continua y está distribuida en intervalos de clase, la media aritmética se
calcula considerando las marcas de clase ci y las frecuencias absolutas ni , i = 1, 2 . . . , K de cada clase:
K
c1 n1 + c2 n2 + · · · + cK nK 1 X
x= = ci ni (1.4)
N N i=1

Mediana

La mediana de los datos ordenados de menor a mayor es el valor (perteneciente o no a la muestra) que deja
a su izquierda el mismo número de valores que a su derecha (50 % a su izquierda y 50 % a su derecha), es decir
divide la muestra en dos partes iguales.

Matemática Aplicada y Estadística Dpto. EDAN - Univ. de Sevilla


1. Estadística descriptiva 16

Cálculo de la mediana: pocos datos


Sean X = (x1 , x2 , . . . , xN ), N datos a analizar.

Si N es impar, la mediana es el valor que ocupa la posición (N + 1)/2:

Me = x N +1
2

Si N es par, la mediana es la media aritmética de los dos valores centrales:


xN/2 + xN/2+1
Me =
2

Ejemplo 1.12

Sea X = (3, 6, 7, 8, 9) una variable ordenada que toma un número impar de valores: N = 5 (impar). La mediana
Me = 7 es el valor que ocupa la posición central (deja 3 datos antes y 3 datos después de ella):

Me = x 5+1 = x3 = 7.
2

Ejemplo 1.13

Sea X = (3, 5, 7, 12, 13, 14, 21, 23, 23, 23, 23, 29, 39, 40, 56) una variable ordenada que toma un número impar
de valores: N = 15 (impar). La mediana Me es el valor que ocupa la posición central es Me = 23, ya que

Me = x 15+1 = x8 = 23.
2

Luego la mediana Me = 23 deja 7 datos antes y 7 datos después de ella.

Ejemplo 1.14

Sea X = (3, 6, 7, 8, 9, 10) una variable ordenada que toma un número par de valores: N = 6 (par). La mediana
Me la media aritmética que los dos valores centrales:
x N + x N +1 x 62 + x 26 +1 x3 + x4 7+8
2 2
Me = = = = = 7.5
2 2 2 2
que deja 2 valores por debajo y 2 valores por encima de ella.

Ejemplo 1.15

Sea X = (3, 5, 7, 12, 13, 14, 21, 23, 23, 23, 23, 29, 40, 56) una variable ordenada que toma un número par de
valores: N = 14 (par). La mediana Me es el valor que ocupa la posición central es Me = 23, ya que
x N + x N +1 x 14 + x 14
x7 + x8 21 + 23 44
2 2 2 2 +1
Me = = = = = = 22
2 2 2 2 2
Luego la mediana Me = 22 deja 7 datos antes y 7 datos después de ella.

Matemática Aplicada y Estadística Dpto. EDAN - Univ. de Sevilla


1. Estadística descriptiva 17

Cuando los datos están agrupados en forma de tabla de frecuencias, el cálculo de la mediana se facilita con
la anotación de las frecuencias acumuladas. Se pueden usar frecuencias absolutas, relativas o porcentajes acu-
mulados. Aquí, vamos usar los porcentajes acumulados, ya que el mismo procedimiento nos va a servir para el
cálculo de los percentiles (véase la Sección 1.4.2).

Cálculo de la mediana: caso discreto

1. Construir la tabla de porcentajes acumulados Pi .


2. Ubicar el porcentaje 50 % tal que Pi−1 ≤ 50 % < Pi .

Si Pi−1 < 50 %, es decir no coincide con Pi−1 , entonces

Me = x i

Si Pi−1 = 50 %, entonces
xi−1 + xi
Me =
2
donde: xi = valor de X correspondiente a Pi ; xi−1 = valor de la variable X correspondiente a Pi−1 .

Ejemplo 1.16

Vamos a calcular la media de los datos de tabla de distribución de calificaciones del Ejemplo 1.11. Construimos
la tabla de porcentajes acumulados.

Nota (xi ) Fr. absoluta (ni ) Fr. relativa % % acumulado


2 3 0.15 15 15
4 6 0.30 30 45
5 5 0.25 25 70
6 3 0.15 15 85
8 1 0.05 5 90
10 2 0.10 10 100
Total 20 1 100 ---

Tenemos que 100

90
P2 = 45 % < 50 % < P3 = 70 %, 85

de donde
70

Me = x3 = 5.
Esto significa que la mitad de la clase ha obtenido 50
45
un 5 o menos, y la otra mitad un 5 o más.

15

2 4 5 6 8 10

Matemática Aplicada y Estadística Dpto. EDAN - Univ. de Sevilla


1. Estadística descriptiva 18

Ejemplo 1.17

Vamos a calcular la mediana de los datos de la siguiente tabla de distribución de frecuencias de calificaciones
en una clase:

Nota (xi ) 1 2 3 4 5 6 7 8 9
Fr. absoluta (ni ) 2 2 4 5 6 9 4 4 2
Fr. relativa 0.0526 0.0526 0.1053 0.1316 0.1579 0.2368 0.1053 0.1053 0.0526
% 5.26 5.26 10.53 13.16 15.79 23.68 10.53 10.53 5.26
% acumulado 5.26 10.53 21.05 34.21 50 73.68 84.21 94.74 100

Tenemos que
100
94.74
50 % = P5 = 50 % < P6 = 73.68 %,
84.21
es decir 50 % = P5 , de donde la mediana es
73.68
x5 + x6 5+6
Me = = = 5.5,
2 2
50
lo que significa que la mitad de la clase ha obtenido
un 5.5 o menos y la otra mitad un 5.5 o más.
34.21

21.05

10.53
5.26
1 2 3 4 5 M 6 7 8 9
e

Cálculo de la mediana: caso continuo

1. Construir la tabla de porcentajes acumulados


Pi .
2. Ubicar el 50 % tal que
P
i
Pi−1 ≤ 50 % < Pi 50%

3. Si Li−1 y Li son los límites inferior y supe-


rior del intervalo correspondientes a Pi−1 y Pi
respectivamente, entonces la mediana Me es la
abscisa del punto situado en la recta que in- Pi−1

terpola los valores (Li−1 , Pi−1 ) y (Li , Pi ), cuya


ordenada es igual 50 %. L
i−1
Me L
i

Se recuerda que la recta que interpola los valores (Li−1 , Pi−1 ) y (Li , Pi ) viene dada por:
Pi − Pi−1
y = Pi−1 + (x − Li−1 ). (1.5)
Li − Li−1
Luego, Me = x para y = 50, despejando la x de la ecuación (1.5), obtenemos:
50 − Pi−1
Me = Li−1 + (Li − Li−1 ). (1.6)
Pi − Pi−1

Matemática Aplicada y Estadística Dpto. EDAN - Univ. de Sevilla


1. Estadística descriptiva 19

Ejemplo 1.18

Vamos a calcular la mediana de los datos de la siguiente tabla de distribución de frecuencias de peso (en Kg.)
de 102 personas en una clase:

Peso (Kg.) Fr. absoluta (ni ) Fr. relativa (fi ) % % Acumulados


[20, 40) = [L0 , L1 ) 12 0.1176 11.76 % 11.76 %
[40, 60) = [L1 , L2 ) 49 0.4803 48.03 % 59.80 %
[60, 80) = [L2 , L3 ) 32 0.3137 31.37 % 91.18 %
[80, 100) = [L3 , L4 ) 9 0.088 8.8 % 100 %
Total 102 1 100 % ---

100
Tenemos 50 ∈ [11.76, 59.80] = [P1 , P2 ] y L1 = 40, 91.18
L2 = 60.

Por tanto, aplicando la fórmula (1.6) deducimos


59.8

50
50 − 11.76
Me = 40 + (60 − 40) ≈ 55.92.
59.80 − 11.76

11.76

20 40 Me 60 80 100

1.4.2 Percentiles
Existen medidas basadas en el orden de las observaciones. Hemos visto que la mediana es el valor que hace que
el 50 % de los datos sean anteriores a ella y el otro 50 % posteriores. Cuando la muestra ordenada se divide
en 100 partes iguales se obtienes los percentiles, denotados por p1 , p2 , . . . p99 . El percentil p50 coincide con la
mediana.

Percentil i es aquel valor pi que deja a su izquierda el i % y el resto por encima de los valores de la muestra
ordenada de menor a mayor.

Por ejemplo, el percentil 57 es el que hace que el 57 % de los datos son anteriores a él y el 43 % son posteriores. Los
percentiles son muy utilizados para describir los casos «raros» de las poblaciones. Así, afirmar que el precentil
10 del peso de los niños varones recién nacidos es 2700 gramos significa que sólo un 10 % de ellos tienen un peso
inferior a 2700 gramos.

Cálculo de percentiles
Para calcular el percentil p` , se procede de modo análogo al cálculo e la mediana. Basta sustituir el 50 % por
p` . Observemos que, en el caso de las distribuciones de variables continuas, el prercentil p` se calcula usando
la fórmula:
p` − Pi−1
p` = Li−1 + (Li − Li−1 ) (1.7)
Pi − Pi−1

Matemática Aplicada y Estadística Dpto. EDAN - Univ. de Sevilla


1. Estadística descriptiva 20

Ejemplo 1.19 Datos agrupados en una tabla de frecuencias: caso continuo

Para los datos del Ejemplo 1.18 vamos a calcular el percentil 70, p70 , es decir el valor del peso por debajo del
cual se encuentra el 70 % de los alumnos.
Tenemos que 70 ∈ [P2 , P3 ] = [59.80, 91.18] y L2 = 60, L3 = 80. Por tanto, aplicando la fórmula (1.7),
obtenemos
70 − 59.80
p70 = 60 + (80 − 60) ≈ 53.50
91.18 − 59.80
El percentil 70 es 53.5 significa que el 70 % de los alumnos tienen peso por debajo de 53.5 kilos y los demás
por encima.

Ejemplo 1.20

Para los datos del Ejemplo 1.18 vamos a responder a las siguientes preguntas:

a) ¿Qué porcentaje de alumnos tienen un peso menor que 60?


b) Suponiendo que los datos se distribuyen de modo homogéneo en cada intervalo, determinar el porcentaje
de alumnos que tienen un peso menor que 65.

Solución:
a): De la tabla del Ejemplo 1.18, se deduce fácilmente que el porcentaje de alumnos que tienen peso menor
que 60 es 59.8 %

b): Se trata de determinar el porcentaje de alum-


100
nos cuyo peso es menor que 65. Se observa que
91.18
65 ∈ [60, 80). Tenemos L2 = 60 y L3 = 80 y
P2 = 59.80 y P3 = 91.18 los porcentajes acumula-
dos correspondientes.
P3
El porcentaje buscado es la ordenada, y, de la recta 59.8
que interpola los valores (L2 , P2 ) y (L3 , P3 ) corres-
pondiente a la abscisa x = 65.
Usando la fórmula (1.5), se tiene trivialmente que
P3 − Pi−2 P2
y = P2 + (x − L2 ), de donde 11.76
L3 − L2 L2 L3
20 40 60 80
91.18 − 59.80
y = 59.80 + (65 − 60) ≈ 67.64
80 − 60
Luego el 67.64 % de alumnos tiene un peso menor que 65, es decir el valor 65 es el precentil 67.64.

Matemática Aplicada y Estadística Dpto. EDAN - Univ. de Sevilla


1. Estadística descriptiva 21

1.4.3 Medidas de dispersión: varianza y desviación típica


La media representa el centro de la distribución, pero ¿hasta qué punto representa a cada individuo? Sería
ingenuo creer que todas las observaciones se sitúan en de la media. Las medidas de dispersión expresan el
grado de desviación de los datos respecto de las medidas de tendencia central, es decir la situación relativa de
los datos, proximidad o alejamiento entre ellos.

Ejemplo 1.21

Las calificaciones obtenidas en los tres exámenes parciales de una asignatura por un alumno han sido 5, 6 y
7 y por otro alumno 9, 7 y 2, la distribución de puntuaciones presenta en ambos casos, una media aritmética
igual a 6. En primer caso, las calificaciones son valores de gran proximidad y en el segundo esta separación es
notablemente mayor.

Desviación de una variable X = (x1 , x2 , . . . , xK ) respecto de una característica de tendencia central C (por
ejemplo, la media aritmética, mediana, etc. ) es la cantidad

D C = xi − C o también DC = |xi − C|
Según sea la característica de tendencia central C, se tienen distintos índices de dispersión (desviación de la
media, desviación de la mediana, . . . ).

Ejemplo 1.22

Se ha preguntado a los 5 últimos pacientes que han entrado en la consulta, por el número de parejas que han
tenido en los últimos 48 meses. Sus respuestas están recogidas en la tabla que sigue:

Paciente Número de parejas (xi ) Desviación de la media (xi − x) |xi − x2 |


1 1 +3 = 4 - 1 9
2 3 +1 = 4 - 3 1
3 4 0=4-4 0
4 5 -1 = 4 - 5 1
5 7 -3 = 4 - 7 9
Total 20 0 20

La media es x = 20/5 = 4. El promedio de las desviaciones de las medias al cuadrado es s2 = 20/5 = 4,


cálculo conocido por el nombre de la varianza. Para eliminar el cuadrado se hace la raíz cuadrada, de donde
se obtiene la desviación típica es de 2 parejas. Este valor representa, pues, la distancia o desvío (de la media)
típico en todas las observaciones. Por esta razón recibe el nombre de desviación típica.

La varianza se denota s2 (a veces, en algunas calculadoras se denota también como σn2 ), se define como la
media aritmética de los cuadrados de las desviaciones a la media
K
1 X
s2 = (xi − x)2 ni
N i=1

Es claro que si la varianza es nula, todos los valores de la variable coinciden con la media (dispersión es nula):

Matemática Aplicada y Estadística Dpto. EDAN - Univ. de Sevilla


1. Estadística descriptiva 22

K
2 1 X
s =0 ⇔ (xi − x)2 ni = 0 ⇔ xi − x = 0 ⇔ xi = x ∀ i = 1, . . . , K.
N i=1

Por otro lado, cuanto más alejadas estén las observaciones de la media, mayor será la varianza.

PROPIEDAD DE LA VARIANZA

La varianza es la diferencia entre la media de los cuadrados


K K y el cuadrado de la media (Teorema de König). Se puede
1 X 1 X 2
s2 = (xi − x)2 ni = x ni − x2 simplificar el cálculo de la varianza usando la esta propiedad.
N i=1 N i=1 i

La varianza es fácil de tratar matemáticamente, por lo que es la medida de dispersión más utilizada en la
inferencia estadística. Su principal inconveniente es que viene expresada en unidades que son el cuadrado de las
unidades de las observaciones originales (cm2 si x se mide en cm).

La desviación típica es la raíz cuadrada positiva de la varianza


v

u
u1 X K
s=+ s =t2 (xi − x)2 ni
N i=1

PROPIEDAD DE LA DESVIACIÓN TÍPICA

v v Se obtiene usando el Teorema de König. Esta propiedad


u
u1 X K u
u1 X K puede permitir simplificar el cálculo de la desviación típica.
2
s= t (xi − x) ni = t x2 ni − x2
N i=1 N i=1 i

Ejemplo 1.23
Consideramos los datos de la tabla del Ejemplo 1.11 que tienen la media aritmética x = 5.05.

Nota (xi ) Fr. absoluta (ni ) (xi − x̄)2 (xi − x̄)2 ni x2i x2i ni
2 3 9.3025 27.9075 4 12
4 6 1.1025 6.6150 16 96
5 5 0.0025 0.0125 25 125
6 3 0.9025 2.7075 36 108
8 1 8.7025 8.7025 64 64
10 2 24.5025 49.0050 100 200
Total 20 94.95 605

Usando la definición tenemos la varianza y la desviación típica


6 √
1 X 94.95
s2 = (xi − x)2 ni = = 4.7475 y s = + s2 = 2.1788.
N i=1 20
Por otro lado, usando el Teorema de de König, los cálculos se simplifican:
6
1 X 2 605
s2 = x ni − x2 = − (5.05)2 = 4.7475
N i=1 i 20

Matemática Aplicada y Estadística Dpto. EDAN - Univ. de Sevilla


1. Estadística descriptiva 23

Coeficiente de variación de Pearson

Cuando se quiere comparar el grado de dispersión de dos distribuciones que no vienen dadas por la misma
unidad, se introduce un número independiente de las unidades de mediada de las variables.

El coeficiente de variación de Pearson es:


s
CV = , si x 6= 0.
x

Este coeficiente es un número abstracto, ya que es cociente de dos cantidades de una misma magnitud, y repre-
senta la desviación típica medida en unidades de la media aritmética. Se acostumbra expresar este coeficiente
en tantos por ciento, caso en el que su valor está dado por

s
V = × 100
x

Se observa que cuanto menor sea CV mayor es la precisión del método. Cuanto mayor sea el coeficiente de
variación menor será la representatividad de la medida.

Ejemplo 1.24

Los alumnos de un grupo de primer curso han sido calificados en matemáticas de 0 a 50 y en Física de 0 a 10:

Matemáticas Física
Calificaciones No de alumnos Calificaciones No alumnos
15 3 2 12
25 5 3 9
35 8 5 12
40 14 6 5
45 16 7 4
47 5 9 4
49 3 10 8
Total 54 Total 54

¿ Cuál de las dos distribuciones es más homogénea con respecto a la nota media. ?
La media de calificaciones en Matemáticas es de 39.11 y la desviación típica es de 8.65, luego el coeficiente de
variación de Pearson es:
8.65
CV1 = = 0.221
39.11
y expresado en porcentajes es:

V1 = 0.221 × 100 = 21.1 %.


La calificación media de Física es 5.27 y la desviación típica es 2.80, luego el coeficiente de variación de Pearson
es:
2.80
CV2 = = 0.531
5.27
y expresado en porcentajes es:

V2 = 0.531 × 100 = 53.1 %.


Tenemos V1 < V2 , por tanto hay mayor homogeneidad en las calificaciones de Matemáticas.

Matemática Aplicada y Estadística Dpto. EDAN - Univ. de Sevilla


Bibliografía

[1] E. Cobo, P. Muñoz, J.A. González, Bioestadística para no estadísticos, Madrid, Elsevier España, 2007.
[2] A. Martín Andrés, J.D. Luna del Castillo, Bioestadística para las Ciencias de la Salud, Ediciones Norma-
Capitel, Madrid, 2004.

24
Índice de Tema 1

1. Estadística descriptiva 1
1.1. Conceptos fundamentales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2. Tablas estadísticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2.1. Variable cualitativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2.2. Variable cuantitativa discreta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2.3. Variable cuantitativa continua . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.3. Representaciones gráficas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.3.1. Variable cualitativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.3.2. Variable cuantitativa discreta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.3.3. Variable cuantitativa continua . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.4. Medidas estadísticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.4.1. Medidas de posición o de tendencia central . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.4.2. Percentiles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
1.4.3. Medidas de dispersión: varianza y desviación típica . . . . . . . . . . . . . . . . . . . . . . 21

Bibliografía 23

25

También podría gustarte