Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Tema1 PDF
Tema1 PDF
La estadística recoge, ordena y analiza datos para estudiar las características o el comportamiento de un co-
lectivo. Muchos fenómenos de la naturaleza no son deterministas (es decir no dan lugar a un resultado cierto o
seguro). Por ejemplo, la duración de la vida de un organismo, la herencia de los genes, el número de personas
infectadas durante un brote epidérmico o el color preferido de los alumnos de una clase.
La Estadística es la rama de las matemáticas que se ocupa de los métodos y procedimientos para recoger,
clasificar, representar y resumir datos (Estadística descriptiva), así como de obtener consecuencias científicas
a partir de estos datos (Inferencia Estadística).
Para comprender mejor la diferencia de estos dos grandes apartados de la Estadística, consideramos un ejemplo
de un internista que desea comprobar la eficacia de una droga hipotensora. Para ello sólo dispondrá de un número
limitado de pacientes a los que administrar la droga, y, sin embargo, deseará obtener conclusiones válidas para
todos los pacientes hipertensos del mismo medio. Del estudio que se realiza en el número limitado de pacientes
(muestra) se encarga la Estadística Descriptiva que presentamos en los Temas 1 y 2. Obtener conclusiones
para todos los pacientes (población) a partir de un número limitado de ellos se realiza mediante la Inferencia
Estadística, que será considerada en los el Temas 3, 4, 5 y 6.
El objetivo de este Tema es presentar herramientas básicas de la Estadística Descriptiva.
CONCEPTOS FUNDAMENTALES
Individuo o elemento: cada una de las personas u objetos que se desea estudiar.
Población: conjunto de individuos Por ejemplo, animales, árboles, chinchetas, altura de una planta, tiempo
o elementos observados al realizar de vida, etc. En el ejemplo anterior, son todos los pacientes hipertensos
un experimento que cumplen ciertas del mismo medio.
propiedades comunes.
Muestra: una parte de la población. En el ejemplo anterior, es el conjunto de pacientes hipertensos a los
que se les aplica la droga. Generalmente es difícil obtener medidas de
Tamaño de la muestra: el número toda la población (medir la estatura de todos los españoles) o imposible
de los elementos de la muestra. (estudiando el caudal de un río tendríamos que medir los caudales de
todos los años pasados y futuros). Se mide una parte de la población (una
muestra) y se trata de inferir estos resultados sobre toda la población
ahorrando tiempo y dinero.
Variable estadística es una propiedad característica de la población que estamos interesados en estudiar.
1
1. Estadística descriptiva 2
Variable cualitativa: mide características que no toman valores numéricos. Por ejemplo, la profesión del
padre, color del pelo, nombre de una persona, asignatura preferida, etc. Se agrupan por modalidades,
por ejemplo, la variable sexo presenta dos modalidades: femenino y masculino.
Variable cuantitativa: se puede medir y expresar mediante cantidades numéricas. A su vez se clasifican en:
Cuantitativa discreta: sólo admite valores aislados. Se habla de elementos o datos. Por ejemplo, el
número de hijas de una familia, el número de obreros en una fábrica, talla del pantalón, etc.
Cuantitativa continua: puede admitir cualquier valor dentro de un intervalo. Se clasifican en intervalos
o clases. Por ejemplo el peso (2.3 kg, 2.4 kg, 2.5 kg,. . . ), la altura de un objeto (1.64 m, 1.65 m,
1.66 m,. . . ), temperaturas registradas en un observatorio o la presión sanguínea de enfermos, es decir
permiten que siempre exista un valor entre dos variables.
Supongamos que tenemos una muestra de 500 alumnos varones de una Universidad, en los que se desea estudiar
el grupo sanguíneo (variable cualitativa), el número de hermanos excluido él mismo (variable cuantitativa
discreta) y el peso (variable cuantitativa continua). Los datos de la muestra están recogidos en la Tabla 1.1.
Es evidente que, a partir de la Tabla 5.1 no se puede deducir fácilmente la información global sobre el colectivo
estudiado: ¿cuál es el grupo sanguíneo más frecuente?, ¿cómo de frecuente es?, etc.
Tabla 1.1
Grupo sanguíneo, número de hermanos y peso de 500 alumnos varones de una Universidad
(Ejemplo de tabla no estadística)
1 A 0 70.502
2 B 3 67.231
500 AB 2 71.676
La manera de construir la tablas estadísticas varía según sea el carácter de la variable a estudiar: cualitativa,
cuantitativa discreta o cuantitativa continua. A continuación veamos ejemplos de cada caso.
Usando los datos del Ejemplo 1.1 y de la Tabla 1.1 podemos construir una tabla estadística, conocida como
tabla de frecuencias (se define más adelante con carácter general). La Tabla 1.2 muestra la distribución de
frecuencias del grupo sanguíneo (variable cualitativa).
Se observa que las frecuencias relativas se introducen para hacer comparables dos o más tablas de datos del
mismo tipo basados en tamaños de muestra diferentes. Por ejemplo, si en otra Universidad se encuentra la
frecuencia absoluta n03 = 40 de entre el número total de estudiantes N 0 = 937, no es posible determinar a
partir de n3 = 25 y n03 = 40 en cuál de los dos muestras es más frecuente el grupo sanguíneo AB, pues las
frecuencias absolutas están basadas en diferentes valores de N . Sin embargo, las frecuencias relativas (f3 = 0.05
y f30 = 40/937 = 0.043) sí permiten efectuar tal comparación y concluir que el grupo sanguíneo AB es un poco
más frecuente en el primer caso.
Tabla 1.2
Distribución del grupo sanguíneo en 500 alumnos varones de una Universidad
(variable cualitativa)
ni
Grupo sanguíneo Frecuencia absoluta (ni ) Frecuencia relativa fi = Porcentaje (Pi = 100fi )
N
150
A 150 500 = 0.30 30 %
75
B 75 500 = 0.15 15 %
25
AB 25 500 = 0.05 5%
250
0 250 500 = 0.50 50 %
Con carácter general una tabla para analizar una variable cualitativa es la que muestra la Tabla 1.3.
Tabla 1.3
Distribución de frecuencias: variable cualitativa
Clase Fr. absoluta (ni ) Fr. relativa (fi ) % Fr. abs. acumulada (Ni ) Fr. relativa acumulada (Fi )
C1 n1 f1 100f1 N1 F1
C2 n2 f2 100f2 N2 F2
.. .. .. .. .. ..
. . . . . .
CK nK fK 100fK NK = N FK = 1
En la a la Tabla 1.3 se han añadido las distribuciones de frecuencias absolutas acumuladas, Ni , y frecuencias
relativas acumuladas, Fi (véase el Ejemplo 1.3). La información que proporcionan la distribución de frecuencias
Ejemplo 1.3
Dentro de los procesos industriales de gran importancia para el Ingeniero Químico, están los procesos de
tratamiento de aguas. Un laboratorio determinó la dureza del agua de 10 muestras obteniendo los resultados:
Muestra Dureza
1 Agua blanda
2 Agua blanda
3 Agua dura
4 Agua muy dura
5 Agua muy dura
6 Agua extremadamente dura
7 Agua blanda
8 Agua blanda
9 Agua dura
10 Agua muy dura
La tabla de distribución de frecuencias para la variable C =«Dureza del agua» se muestra en la siguiente tabla:
En la Tabla 1.4 se representan distribuciones de frecuencias para analizar el número de hermanos (variable
cuantitativa discreta). Se observa que las clases son ahora valores numéricos, pues los datos lo son.
Las clases se han ordenado de menor a mayor para mayor claridad de la tabla.
Por otra parte, en la Tabla 1.4 se observa que las últimas variables tienen frecuencias muy bajas, lo que se
suele hacen en estos casos es agrupar en la última clase las clases originales 7, 8, . . . (por tener frecuencias muy
bajas) para no hacer la tabla muy extensa sin necesidad. El resultado puede observarse en la Tabla 1.5.
Tabla 1.4
Distribución de frecuencias del número de hermanos (excluido él mismo) de una muestra de 500
alumnos varones de una Universidad (variable cuantitativa discreta)
ni
no hermanos Fr. absoluta (ni ) Fr. relativa (fi = ) % (Pi = 100fi ) Fr. absoluta acumulada (Ni )
N
72
0 72 500 = 0.144 14.4 % 72
155
1 155 500 = 0.31 31 % 227
97
2 97 500 = 0.194 19.4 % 324
81
3 81 500 = 0.162 16.2 % 405
30
4 30 500 = 0.06 6% 435
27
5 27 500 = 0.054 5.4 % 462
20
6 20 500 = 0.04 4% 482
10
7 10 500 = 0.02 2% 492
4
8 4 500 = 0.008 0.8 % 496
2
9 2 500 = 0.004 0.4 % 498
1
10 1 500 = 0.002 0.2 % 499
1
11 1 500 = 0.002 0.2 % 500
Tabla 1.5
Distribución de frecuencias del número de hermanos (excluido él mismo) de una muestra de 500
alumnos varones de una Universidad (variable cuantitativa discreta) con las últimas frecuencias
agrupadas, por tener valores muy bajos
ni
no hermanos Fr. absoluta (ni ) Fr. relativa (fi = ) Porcentaje ( %) Fr. absoluta acumulada (Ni )
N
72
0 72 500 = 0.144 14.4 % 72
155
1 155 500 = 0.31 31 % 227
97
2 97 500 = 0.194 19.4 % 324
81
3 81 500 = 0.162 16.2 % 405
30
4 30 500 = 0.06 6% 435
27
5 27 500 = 0.054 5.4 % 462
20
6 20 500 = 0.04 4% 482
18
≥7 18 500 = 0.036 3.6 % 500
Con carácter general una tabla para analizar una variable cuantitativa discreta es la que muestra la Tabla 1.6.
Tabla 1.6
Distribución de frecuencias: variable cuantitativa discreta
Valor Fr. absoluta Fr. relativa Porcentaje ( %) Abs. acumulada Rel. acumulada % acumulado
i i i
ni X X X
(xi ) (ni ) (fi = ) (pi ) Ni = nj Fi = fj Pi = pj
N j=1 j=1 j=1
x1 n1 f1 100f1 N1 = n 1 F1 = f 1 P1 = p1
x2 n2 f2 100f2 N2 = n 1 + n 2 F2 = f1 + f2 P2 = p1 + p2
... ... ... ... ... ... ...
xK nK fK 100fK NK = N FK = 1 PK = 100 %
Total N 1 100 % --- --- ---
En el caso cuantitativo continuo, aún valiendo los criterios anteriores, se presenta la dificultad de de la
formación de las clases. Al considerar el peso de los 500 alumnos (con una precisión en gramos), es prácticamente
imposible que dos individuos tengan el mismo peso, con lo que la tabla de valores contaría con miles de valores
con con frecuencias 0 y 1. Por ejemplo, entre 60 y 61 Kg hay 1000 valores posibles (tanto como gramos).
Para evitar esto, los datos deben agruparse en clases llamadas intervalos de clases: [L0 , L1 ), [L1 , L2 ), . . . ,
[LK−1 , LK ), siendo Li−1 y Li límite inferior del intervalo de clase y límite superior respectivamente. La
diferencia entre ambos, se llama amplitud de la clase:
a = Li − Li−1 . (1.1)
Por ejemplo, si se decide agrupar a los alumnos de 5 en 5 Kg, la presentación de los datos será como en la
Tabla 1.7. Se observa que
Los intervalos primero (x < 45) y el último (x ≥ 90) no constan de los límites ni tienen igual longitud
que los demás. Esto se hace para simplificar la presentación de los datos, igual que se hizo en el último
intervalo de la Tabla 1.5. Se dice que son unos intervalos de «cajón de sastre».
Para facilitar la interpretación de los datos, los cálculos y las representaciones gráficas es conveniente
que todos los intervalos de clase tengan la misma longitud.
Las clases no deben solaparse ni presentar huecos entre ellas (para evitar que un individuo pueda perte-
necer a dos clases diferentes o que no haya clase en que clasificarlo).
En general, el número de clases a tomar es a decidir por el experimentador. Como norma general el
número de intervalos ha de estar entre 5 (menos es prácticamente no dar
√ información) y 20 (más, es
oscurecer la información global). Una regla muy utilizada es hacer K = N .
Para ciertos fines, que se verán después, conviene definir un valor que actuará como representante de
cada clase, valor llamado marca de clase:
Li−1 + Li
ci = . (1.2)
2
Para las clases extremas a las que les faltan uno de los límites, se les asigna una longitud ficticia. Así, la
primera marca es c1 = (40 + 45)/2 = 42.5
Tabla 1.7
Distribución del peso (x) en Kg de una muestra de 500 alumnos varones de una Universidad
(variable cuantitativa continua)
En general una tabla para analizar una variable cuantitativa continua es la que muestra la Tabla 1.8, que
también podría contener las frecuencias acumuladas.
Tabla 1.8
Distribución de frecuencias: variable cuantitativa continua
Intervalo de clase Frecuencia absoluta (ni ) Frecuencia relativa (fi ) % Marca de clase
[L0 , L1 ) n1 f1 100f1 c1
[L1 , L2 ) n2 f2 100f2 c2
.. .. .. .. ..
. . . . .
[LK−1 , LK ) nK fK 100fK cK
A continuación formalizamos las definiciones de frecuencias usadas en los ejemplos que nos han permitido
clasificar y describir los datos.
DISTRIBUCIÓN DE FRECUENCIAS
Porcentaje relativo (pi ): pi = 100fi Es frecuencia relativa a 100 individuos de la clase i, es decir es un
tanto por ciento ( %). Se observa que la frecuencia relativa es un
tanto por uno.
Frecuencia absoluta acumulada (Ni ): Es la suma de las frecuencias absolutas de todas las clases inferiores
Xi a la que estamos calculando. Así, N1 = n1 , N2 = n1 + n2 ,
Ni = nj N3 = n1 + n2 + n3 , . . . y NK = n1 + n2 + · · · + nK = N , es decir
j=1 la última frecuencia absoluta acumulada deberá ser igual a N .
Frecuencia relativa acumulada (Fi ): Es el cociente entre la frecuencia absoluta acumulada y el número
i i total de individuos.
Ni X ni X
Fi = = = fj
N j=1
N j=1
Porcentaje relativo acumulado (Pi ): Es la suma de los porcentajes relativos de todas las clases inferio-
Xi res a la que estamos calculando. Así, P1 = p1 , P2 = p1 + p2 ,
Pi = pj P3 = p1 + p2 + p3 , . . . y PK = p1 + p2 + · · · + pK = 100, es decir
j=1 el último porcentaje relativo acumulado deberá ser igual a 100.
Este tipo de diagramas se construye sobre un sistema de ejes cartesianos, situando en uno de los ejes las distintas
clases y en el otro los valores de las frecuencias, absolutas o relativas. Sobre cada clase se levantan barras o
rectángulos de la misma base y altura igual a la frecuencia. Según se sitúen las clases sobre el eje de abscisas o
de ordenadas, se tendría diagrama de rectángulos verticales u horizontales.
300
0
250
200
AB
150
B
100
50
A
0
A
B
AB
0
0
50
100
150
200
250
300
Diagrama de sectores
El gráfico consiste en dibujar una circunferencia de radio arbitrario y dividir su círculo en sectores. A cada clase
se le asigna un sector de área (y, por consiguiente, ángulo que lo genera) proporcional a la frecuencia de la clase.
Como en los 360◦ de la circunferencia han de estar incluidos los N individuos de la muestra, a una clase de
frecuencia absoluta ni se le asigna un sector del ángulo αi definido por:
ni
× 360◦ = fi × 360◦
αi =
N
siendo fi la correspondiente frecuencia relativa.
En la Figura 1.3, construida en basa a la Tabla 1.9, a la clase «tumores» le corresponde un ángulo
Causa Porcentaje ( %)
Aparato circulatorio 46.07
Aparato
circulatorio
Tumores 19.66
Tumores
Aparato respiratorio 8.59
Aparato
respiratorio
Externa 5.53 Externa
Aparato digestivo 5.46 Aparato
diges5vo
Mal definida 4.18 Mal
definida
Resto 10.51 Resto
Total 100
La Tabla 1.10 contiene datos de la distribución de 150 personas de 25 y 45 años de edad, según su estado civil.
Y las Figuras 1.4 y 1.5 muestran el diagrama de barras y se sectores, respectivamente.
Tabla 1.10
Distribución de frecuencias de 150 personas de 25 a 45 años, según su estado civil
90
80
70
60
Soltero
50 Casado
40 Viudo
30 Divorciado
20 No declarado
10
0
Soltero
Casado
Viudo
Divorciado
No
declarado
Pictograma
En este tipo de gráfico cada variable se representa por una figura no geométrica, por ejemplo un automóvil, un
edificio, una herramienta de trabajo,etc. Las figuras habrán de tener un área proporcional a la frecuencia de las
clases y esto puede lograrse por dos caminos.
En los pictogramas de repetición se asigna un valor a una figura base, y esta se repite tantas veces como
convenga a la frecuencias de las clase.
En los pictogramas de ampliación, a cada clase se le asigna una única figura-motivo con un área proporcional a
la frecuencia de aquella. En este último caso, si dos clases tienen frecuencias una doble de la otra, la figura-motivo
debe tener un área doble de la otra.
Huelva 21.97 30
Sevilla 4.39 25
Cádiz 32.96
20
Málaga 27.47
15
Granada 7.69
Almería 3.29 10
Jaén 2.19 5
Total 100 0
Huelva
Sevilla
Cádiz
Málaga
Granada
Almería
Jaén
a Los datos son inventados
Cuando la variable es discreta y toma pocos valores, el gráfico adecuado es el diagrama de barras o rectángulos.
Se construye de la misma forma que para las variables cualitativas pero ahora sobre el eje de abscisas se sitúan
los valores de la variable. Es decir, una vez colocados los valores de la variable en el eje de abscisas, se levantan
sobre ellos unos segmentos (barras) de altura igual a la frecuencia correspondiente.
Según se tome la frecuencia absoluta o relativa, la suma de las longitudes de todas las barras será N o 1. La
Figura 1.7 representa el diagrama de barras para la Tabla 1.5. Nótese que las clases extremas, que no tienen igual
longitud que las demás, conviene dibujarlas con igual anchura. Tal sucede con la barra «≥ 7» de la Figura 1.7.
Se trazan unos ejes cartesianos: a cada clase se le asigna un punto en el plano, con una abscisa que es el valor
del dato, y una ordenada que es su frecuencia. La serie de puntos así obtenida se conecta mediante segmentos
rectos, obteniendo una poligonal.
De nuevo, los polígonos pueden ser de frecuencias absolutas o de frecuencias relativas. El polígono de frecuencias
es especialmente útil para ver cómo evolucionan las frecuencias conforme aumenta el valor de datos. Por ello no
es aplicable a los datos cualitativos no ordinales (el grupo sanguíneo A no tiene por qué ir por delante de B,
etc).
180
180
160
160
140
140
120
120
100
100
80
80
60
60
40
40
20
20
0
0
0
1
2
3
4
5
6
>=7
0
1
2
3
4
5
6
>=7
Cuando la variable estadística es discreta se puede representar el diagrama de frecuencias acumuladas o escalo-
nado. Pueden ser las frecuencias acumuladas absolutas, relativas o porcentajes acumulados.
En la Figura 1.9 se representan las frecuencias absolutas acumuladas de correspondientes a la Tabla 1.5.
600 600
500 500
400 400
300 300
200 200
100 100
0
0
0
1
2
3
4
5
6
>=7
0
1
2
3
4
5
6
7
8
El gráfico formado por los puntos cuyas abscisas son los valores de la variable y sus ordenadas la frecuencia
acumulada, unidos por segmentos, es el polígono de frecuencias acumuladas.
La Figura 1.10 muestra el polígono de frecuencias absolutas acumuladas correspondientes a la Tabla 1.5.
Cuando la variable estadística es cuantitativa continua, se utiliza el histograma, cuya representación está fun-
damentada en la proporcionalidad de las áreas de rectángulos a las frecuencias de cada clase.
El histograma es una extensión del diagrama de barras que dibuja los rectángulos unidos entre sí, indicando
de este modo que existe continuidad en los valores de las variables. Un histograma es, por tanto, un gráfico
de variable continua dividida en intervalos de los que se eleva un rectángulo con área proporcional a su
frecuencia. Obsérvese que lo que es proporcional es el área, no la altura, lo que permite intervalos de diferente
amplitud. Una vez más resulta irrelevante trabajar con frecuencias absolutas o relativas.
Si se trata de intervalos de la misma amplitud, la altura de cada uno de los rectángulos se toma igual a la
frecuencia correspondiente.
ni
si = hi ai = ai = ni
ai
y la suma de las áreas de todos los rectángulos es:
K
X
S= ni = N
i=1
Figura 1.12
Por otra parte se observa que, las clases ex- Histograma de frecuencias absolutas de la Tabla 1.7
tremas, como las de la Tabla 1.7, conviene di-
bujarlas con igual anchura. En la Figura 1.12 180
160
se representa histograma de frecuencias abso-
140
lutas de la Tabla 1.7.
120
100
80
60
40
20
0
40-‐45
45-‐50
50-‐55
55-‐60
60-‐65
65-‐70
70-‐75
75-‐80
80-‐85
85-‐90
90-‐95
A partir de un histograma pueden construirse otros tipos de gráficos. Por ejemplo, los gráficos de línea consisten
en unir los puntos medios de todos los intervalos contiguos mediante una recta, construyendo así un polígono
de frecuencias, como muestra la Figura 1.13 del Ejemplo 1.8.
Ejemplo 1.8 Una variable cuantitativa continua con intervalos de amplitudes diferentes
La Tabla 1.12 contiene datos de la distribución de notas de 98 alumnos. Se observa que los intervalos de clase
tienen longitudes diferentes.
Notas ni fi % hi marca
17
[0, 3) 24 0.24 24 % 8 1.5
[3, 5) 34 0.35 35 % 17 4 13
[5, 7) 26 0.27 27 % 13 6
[7, 9) 10 0.10 10 % 5 8 8
0
0 3 5 7 9 10
Ejemplo 1.9
Las medidas estadísticas suelen dividirse en medidas de posición o de tendencia central y medidas de
dispersión. Parece claro que el cálculo de estas medidas requiere la posibilidad de efectuar operaciones con los
valores que toma la variable. Por este motivo, en lo que resta del tema tratamos sólo con variables cuantitativas.
Consideraremos aquí las más utilizadas: la media aritmética y la mediana. Hay otras medidas de tendencia
central, por ejemplo la moda, la media geométrica, la media cuadrática, la media armónica etc. que se utilizan
en algunos procesos de carácter más específico y se escapan del objetivo de este tema.
Media aritmética
Ejemplo 1.10
La media aritmética de la variable «nota» distribuida en intervalos de clase de la Tabla 1.12 es:
1.5 × 24 + 4 × 34 + 6 × 26 + 8 × 10 + 9.5 × 4
x= = 4.55
98
Siempre que se hace un cálculo, surge la pregunta ¿cuántas cifras decimales deben darse en la respuesta final? No
existen normas estrictas para ello. Utilizaremos la convención de que, al calcular medias, el resultado se expresará
con hasta una o dos cifras decimales más que los datos. Para calcular las frecuencias relativas usaremos al menos
4 cifras decimales, ya que con menos cifras se generarían errores considerables en los porcentajes. La última
cifra decimal se hallará mejor por redondeo que por truncamiento.
Advertencia:
Al hacer una serie de cálculos no hay que redondear los resultados hasta que se finalicen todos los cálculos, de
lo contrario, se acumularían los errores de redondeo.
Ejemplo 1.11
La nota media es
2 × 3 + 4 × 6 + 5 × 5 + 6 × 3 + 8 × 1 + 10 × 2 101
x= = = 5.05
20 20
Mediana
La mediana de los datos ordenados de menor a mayor es el valor (perteneciente o no a la muestra) que deja
a su izquierda el mismo número de valores que a su derecha (50 % a su izquierda y 50 % a su derecha), es decir
divide la muestra en dos partes iguales.
Me = x N +1
2
Ejemplo 1.12
Sea X = (3, 6, 7, 8, 9) una variable ordenada que toma un número impar de valores: N = 5 (impar). La mediana
Me = 7 es el valor que ocupa la posición central (deja 3 datos antes y 3 datos después de ella):
Me = x 5+1 = x3 = 7.
2
Ejemplo 1.13
Sea X = (3, 5, 7, 12, 13, 14, 21, 23, 23, 23, 23, 29, 39, 40, 56) una variable ordenada que toma un número impar
de valores: N = 15 (impar). La mediana Me es el valor que ocupa la posición central es Me = 23, ya que
Me = x 15+1 = x8 = 23.
2
Ejemplo 1.14
Sea X = (3, 6, 7, 8, 9, 10) una variable ordenada que toma un número par de valores: N = 6 (par). La mediana
Me la media aritmética que los dos valores centrales:
x N + x N +1 x 62 + x 26 +1 x3 + x4 7+8
2 2
Me = = = = = 7.5
2 2 2 2
que deja 2 valores por debajo y 2 valores por encima de ella.
Ejemplo 1.15
Sea X = (3, 5, 7, 12, 13, 14, 21, 23, 23, 23, 23, 29, 40, 56) una variable ordenada que toma un número par de
valores: N = 14 (par). La mediana Me es el valor que ocupa la posición central es Me = 23, ya que
x N + x N +1 x 14 + x 14
x7 + x8 21 + 23 44
2 2 2 2 +1
Me = = = = = = 22
2 2 2 2 2
Luego la mediana Me = 22 deja 7 datos antes y 7 datos después de ella.
Cuando los datos están agrupados en forma de tabla de frecuencias, el cálculo de la mediana se facilita con
la anotación de las frecuencias acumuladas. Se pueden usar frecuencias absolutas, relativas o porcentajes acu-
mulados. Aquí, vamos usar los porcentajes acumulados, ya que el mismo procedimiento nos va a servir para el
cálculo de los percentiles (véase la Sección 1.4.2).
Me = x i
Si Pi−1 = 50 %, entonces
xi−1 + xi
Me =
2
donde: xi = valor de X correspondiente a Pi ; xi−1 = valor de la variable X correspondiente a Pi−1 .
Ejemplo 1.16
Vamos a calcular la media de los datos de tabla de distribución de calificaciones del Ejemplo 1.11. Construimos
la tabla de porcentajes acumulados.
90
P2 = 45 % < 50 % < P3 = 70 %, 85
de donde
70
Me = x3 = 5.
Esto significa que la mitad de la clase ha obtenido 50
45
un 5 o menos, y la otra mitad un 5 o más.
15
2 4 5 6 8 10
Ejemplo 1.17
Vamos a calcular la mediana de los datos de la siguiente tabla de distribución de frecuencias de calificaciones
en una clase:
Nota (xi ) 1 2 3 4 5 6 7 8 9
Fr. absoluta (ni ) 2 2 4 5 6 9 4 4 2
Fr. relativa 0.0526 0.0526 0.1053 0.1316 0.1579 0.2368 0.1053 0.1053 0.0526
% 5.26 5.26 10.53 13.16 15.79 23.68 10.53 10.53 5.26
% acumulado 5.26 10.53 21.05 34.21 50 73.68 84.21 94.74 100
Tenemos que
100
94.74
50 % = P5 = 50 % < P6 = 73.68 %,
84.21
es decir 50 % = P5 , de donde la mediana es
73.68
x5 + x6 5+6
Me = = = 5.5,
2 2
50
lo que significa que la mitad de la clase ha obtenido
un 5.5 o menos y la otra mitad un 5.5 o más.
34.21
21.05
10.53
5.26
1 2 3 4 5 M 6 7 8 9
e
Se recuerda que la recta que interpola los valores (Li−1 , Pi−1 ) y (Li , Pi ) viene dada por:
Pi − Pi−1
y = Pi−1 + (x − Li−1 ). (1.5)
Li − Li−1
Luego, Me = x para y = 50, despejando la x de la ecuación (1.5), obtenemos:
50 − Pi−1
Me = Li−1 + (Li − Li−1 ). (1.6)
Pi − Pi−1
Ejemplo 1.18
Vamos a calcular la mediana de los datos de la siguiente tabla de distribución de frecuencias de peso (en Kg.)
de 102 personas en una clase:
100
Tenemos 50 ∈ [11.76, 59.80] = [P1 , P2 ] y L1 = 40, 91.18
L2 = 60.
50
50 − 11.76
Me = 40 + (60 − 40) ≈ 55.92.
59.80 − 11.76
11.76
20 40 Me 60 80 100
1.4.2 Percentiles
Existen medidas basadas en el orden de las observaciones. Hemos visto que la mediana es el valor que hace que
el 50 % de los datos sean anteriores a ella y el otro 50 % posteriores. Cuando la muestra ordenada se divide
en 100 partes iguales se obtienes los percentiles, denotados por p1 , p2 , . . . p99 . El percentil p50 coincide con la
mediana.
Percentil i es aquel valor pi que deja a su izquierda el i % y el resto por encima de los valores de la muestra
ordenada de menor a mayor.
Por ejemplo, el percentil 57 es el que hace que el 57 % de los datos son anteriores a él y el 43 % son posteriores. Los
percentiles son muy utilizados para describir los casos «raros» de las poblaciones. Así, afirmar que el precentil
10 del peso de los niños varones recién nacidos es 2700 gramos significa que sólo un 10 % de ellos tienen un peso
inferior a 2700 gramos.
Cálculo de percentiles
Para calcular el percentil p` , se procede de modo análogo al cálculo e la mediana. Basta sustituir el 50 % por
p` . Observemos que, en el caso de las distribuciones de variables continuas, el prercentil p` se calcula usando
la fórmula:
p` − Pi−1
p` = Li−1 + (Li − Li−1 ) (1.7)
Pi − Pi−1
Para los datos del Ejemplo 1.18 vamos a calcular el percentil 70, p70 , es decir el valor del peso por debajo del
cual se encuentra el 70 % de los alumnos.
Tenemos que 70 ∈ [P2 , P3 ] = [59.80, 91.18] y L2 = 60, L3 = 80. Por tanto, aplicando la fórmula (1.7),
obtenemos
70 − 59.80
p70 = 60 + (80 − 60) ≈ 53.50
91.18 − 59.80
El percentil 70 es 53.5 significa que el 70 % de los alumnos tienen peso por debajo de 53.5 kilos y los demás
por encima.
Ejemplo 1.20
Para los datos del Ejemplo 1.18 vamos a responder a las siguientes preguntas:
Solución:
a): De la tabla del Ejemplo 1.18, se deduce fácilmente que el porcentaje de alumnos que tienen peso menor
que 60 es 59.8 %
Ejemplo 1.21
Las calificaciones obtenidas en los tres exámenes parciales de una asignatura por un alumno han sido 5, 6 y
7 y por otro alumno 9, 7 y 2, la distribución de puntuaciones presenta en ambos casos, una media aritmética
igual a 6. En primer caso, las calificaciones son valores de gran proximidad y en el segundo esta separación es
notablemente mayor.
Desviación de una variable X = (x1 , x2 , . . . , xK ) respecto de una característica de tendencia central C (por
ejemplo, la media aritmética, mediana, etc. ) es la cantidad
D C = xi − C o también DC = |xi − C|
Según sea la característica de tendencia central C, se tienen distintos índices de dispersión (desviación de la
media, desviación de la mediana, . . . ).
Ejemplo 1.22
Se ha preguntado a los 5 últimos pacientes que han entrado en la consulta, por el número de parejas que han
tenido en los últimos 48 meses. Sus respuestas están recogidas en la tabla que sigue:
La varianza se denota s2 (a veces, en algunas calculadoras se denota también como σn2 ), se define como la
media aritmética de los cuadrados de las desviaciones a la media
K
1 X
s2 = (xi − x)2 ni
N i=1
Es claro que si la varianza es nula, todos los valores de la variable coinciden con la media (dispersión es nula):
K
2 1 X
s =0 ⇔ (xi − x)2 ni = 0 ⇔ xi − x = 0 ⇔ xi = x ∀ i = 1, . . . , K.
N i=1
Por otro lado, cuanto más alejadas estén las observaciones de la media, mayor será la varianza.
PROPIEDAD DE LA VARIANZA
La varianza es fácil de tratar matemáticamente, por lo que es la medida de dispersión más utilizada en la
inferencia estadística. Su principal inconveniente es que viene expresada en unidades que son el cuadrado de las
unidades de las observaciones originales (cm2 si x se mide en cm).
Ejemplo 1.23
Consideramos los datos de la tabla del Ejemplo 1.11 que tienen la media aritmética x = 5.05.
Nota (xi ) Fr. absoluta (ni ) (xi − x̄)2 (xi − x̄)2 ni x2i x2i ni
2 3 9.3025 27.9075 4 12
4 6 1.1025 6.6150 16 96
5 5 0.0025 0.0125 25 125
6 3 0.9025 2.7075 36 108
8 1 8.7025 8.7025 64 64
10 2 24.5025 49.0050 100 200
Total 20 94.95 605
Cuando se quiere comparar el grado de dispersión de dos distribuciones que no vienen dadas por la misma
unidad, se introduce un número independiente de las unidades de mediada de las variables.
Este coeficiente es un número abstracto, ya que es cociente de dos cantidades de una misma magnitud, y repre-
senta la desviación típica medida en unidades de la media aritmética. Se acostumbra expresar este coeficiente
en tantos por ciento, caso en el que su valor está dado por
s
V = × 100
x
Se observa que cuanto menor sea CV mayor es la precisión del método. Cuanto mayor sea el coeficiente de
variación menor será la representatividad de la medida.
Ejemplo 1.24
Los alumnos de un grupo de primer curso han sido calificados en matemáticas de 0 a 50 y en Física de 0 a 10:
Matemáticas Física
Calificaciones No de alumnos Calificaciones No alumnos
15 3 2 12
25 5 3 9
35 8 5 12
40 14 6 5
45 16 7 4
47 5 9 4
49 3 10 8
Total 54 Total 54
¿ Cuál de las dos distribuciones es más homogénea con respecto a la nota media. ?
La media de calificaciones en Matemáticas es de 39.11 y la desviación típica es de 8.65, luego el coeficiente de
variación de Pearson es:
8.65
CV1 = = 0.221
39.11
y expresado en porcentajes es:
[1] E. Cobo, P. Muñoz, J.A. González, Bioestadística para no estadísticos, Madrid, Elsevier España, 2007.
[2] A. Martín Andrés, J.D. Luna del Castillo, Bioestadística para las Ciencias de la Salud, Ediciones Norma-
Capitel, Madrid, 2004.
24
Índice de Tema 1
1. Estadística descriptiva 1
1.1. Conceptos fundamentales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2. Tablas estadísticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2.1. Variable cualitativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2.2. Variable cuantitativa discreta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2.3. Variable cuantitativa continua . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.3. Representaciones gráficas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.3.1. Variable cualitativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.3.2. Variable cuantitativa discreta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.3.3. Variable cuantitativa continua . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.4. Medidas estadísticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.4.1. Medidas de posición o de tendencia central . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.4.2. Percentiles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
1.4.3. Medidas de dispersión: varianza y desviación típica . . . . . . . . . . . . . . . . . . . . . . 21
Bibliografía 23
25