Documentos de Académico
Documentos de Profesional
Documentos de Cultura
ESTADÍSTICA DESCRIPTIVA
Población es cualquier conjunto de datos, objetivo de nuestro interés, que caracteriza un fenómeno
que nos interesa.
Muestra es un subconjunto de una población determinada. Interesan aquellas muestras que repre-
sentan fielmente a la población.
Las palabras población y muestra se utilizan también para designar al propio conjunto de
individuos u objetos que se someten a estudio.
• La Estadı́stica Descriptiva es la rama de la Estadı́stica dedicada a la recopilación de los datos
y su reducción a unas pocas medidas numéricas y representaciones gráficas, a fin de comprender y
expresar las caracterı́sticas de ese conjunto de datos.
• La Inferencia Estadı́stica tiene por objeto obtener conclusiones sobre la población a partir
de las observaciones realizadas sobre una muestra. Su instrumento matemático es el Cálculo de
Probabilidades.
Discretas: Sólo toman un número finito o infinito numerable de valores distintos (general-
mente números naturales o enteros). Ej: Número de unidades de producto compradas
en un mes, número de entradas de cine vendidas en una semana, resultado de lanzar un
dado, número de hijos, número de averı́as de una máquina en un año. . .
Continuas: Toman valores en un intervalo de IR. Corresponden a magnitudes continuas,
como peso, altura, temperatura, intensidad de corriente, tiempo entre dos llamadas te-
lefónicas, tiempo entre dos averı́as de una máquina, etc. Sus valores no son observables
con exactitud, puesto que las observaciones dependen de la precisión del instrumento de
medida.
E I I – UVa. Departamento de Matemática Aplicada. Curso 2019-20. 2
Cuando los datos se observan con una pauta fija (cada hora, semana, etc.), constituyen una serie
temporal, y su análisis requiere técnicas especiales, que tengan en cuenta el orden de los datos. En
este curso no nos ocuparemos del aspecto temporal, considerando el orden de los datos irrelevante.
Cuando se estudia una sola variable, otra forma usual de presentar los datos es por medio de
una matriz en la que cada valor corresponde a un individuo de la población.
Ejemplo: Edades de 40 individuos encuestados:
12 17 16 23 39 32 23 33
36 23 23 15 36 26 17 24
11 34 37 24 17 39 19 31
16 11 13 40 34 18 14 29
33 14 26 26 26 31 35 18
Agrupación en clases
Utilizaremos clases con la siguiente forma: (L0 , L1 ], (L1 , L2 ], . . . (Lk−1 , Lk ], garantizando que
las clases sean disjuntas (un dato no puede estar en dos clases a la vez), exhaustivas, es decir,
que abarquen todos los posibles valores de la variable, y que estén ordenadas de menor a mayor.
E I I – UVa. Departamento de Matemática Aplicada. Curso 2019-20. 3
En este caso el número de clases es 6, los lı́mites son 10, 15, 20, 25, 30, 35 y 40; la amplitud en
todas las clases es 5, y las marcas son, respectivamente: 12.5, 17.5, 22.5, 27.5, 32.5 y 37.5.
Para resumir la información que ofrecen nuestros datos, utilizaremos los siguientes elementos:
Frecuencia total: Número total de individuos observados o número total de datos, N.
.
Frecuencia relativa acumulada hasta la modalidad Mi , (valor xi o intervalo Ii ): Es el cociente:
Ni ∑
i
Fi = ; o bien Fi = f1 + f2 + · · · + fi = fj .
N j=1
Las dos últimas definiciones solo tienen sentido cuando la variable es cuantitativa, o al menos,
ordinal.
E I I – UVa. Departamento de Matemática Aplicada. Curso 2019-20. 4
Dar la distribución de frecuencias de la variable estadı́stica X significa dar las distintas moda-
lidades de la variable y las correspondientes frecuencias (absolutas, relativas, absolutas acumuladas
o relativas acumuladas) de cada modalidad. Habitualmente, esto se hace por medio de tablas:
∑
k ∑
k
Es importante observar que se cumple: ni = N = N k y también fi = 1 = Fk .
i=1 i=1
Las frecuencias relativas y las frecuencias relativas acumuladas dan información sobre porcentajes:
En el ejemplo anterior:
(Li−1 , Li ] ci ni fi Ni Fi
(10, 15 ] 12,5 7 0,175 7 0,175
(15, 20 ] 17,5 8 0,200 15 0,375
(20, 25 ] 22,5 6 0,150 21 0,525
(25, 30 ] 27,5 5 0,125 26 0,650
(30, 35 ] 32,5 8 0,200 34 0,850
(35, 40 ] 37,5 6 0,150 40 1,000
La marca de clase sirve como valor representativo de todos los datos del intervalo; incluso en el
caso (como aquı́ sucede) de que no sea un valor posible de la variable.
Indicar con un 0 los valores con frecuencia 0. (Evitar las rayas, cuya interpretación es de falta
de información sobre la frecuencia del valor).
• Diagrama de barras.
Se construyen tantos rectángulos como modalidades presente la variable en estudio, todos ellos con
base de igual amplitud (la que sea), y altura proporcional a la frecuencia absoluta o relativa (según
cuál se quiera representar). Las áreas de los distintos rectángulos resultan ası́ proporcionales a las
frecuencias.
• Diagrama de Pareto
Es un diagrama de barras en el que los rectángulos se presentan en orden decreciente de altura. Solo
pueden aplicarse a variables cualitativas cuyas modalidades no estén sujetas a otro tipo de orde-
nación (es decir, variables nominales). Se complementa con un polı́gono de frecuencias acumuladas
que tiene sus vértices en la prolongación de los costados derechos de las barras.
Muy usado en control de calidad y procesos para identificar fácilmente las causas que originan
mayor número de problemas en el proceso de producción.
E I I – UVa. Departamento de Matemática Aplicada. Curso 2019-20. 6
• Diagrama de sectores
Consiste en un cı́rculo dividido en tantos sectores circulares como modalidades presente la variable
cualitativa; cada sector circular ocupa un área proporcional a la frecuencia absoluta (o relativa) de
su correspondiente modalidad.
• Histograma
Es la representación gráfica más usual para un conjunto de datos previamente agrupados en clases.
Es una figura formada por rectángulos adyacentes construidos de la siguiente forma:
- Sobre el eje horizontal se marcan los lı́mites de las clases.
- Como eje vertical, se tiene una escala de alturas.
- Sobre cada clase se eleva un rectángulo de altura hi de de tal forma que las áreas de los
rectángulos sean proporcionales a las frecuencias relativas de las clases. El valor de hi se obtiene
despejando en la igualdad (Li − Li−1 )hi = λfi .
En particular, usando λ = 1 se obtiene un histograma con área total igual a 1 [¿por qué?].
Obviamente, cuando todas las clases tienen igual longitud la proporcionalidad entre áreas y
frecuencias se logra sin más que hacer hi = fi .
Ejemplo: Con los datos ya vistos de las edades de 40 individuos se obtiene el histograma:
E I I – UVa. Departamento de Matemática Aplicada. Curso 2019-20. 7
Ejemplo: La tabla siguiente nos da una distribución de frecuencias en clases que no tienen la
misma longitud:
9
8
1. Expresar los datos en unidades convenientes, redondeados a dos o tres cifras significativas y
ordenados de menor a mayor.
2. Colocarlos en una tabla con dos columnas separadas por una lı́nea como sigue:
- Para los datos con dos dı́gitos, escribir a la izquierda de la lı́nea los dı́gitos de las decenas
(que forman el tallo) y a la derecha los de las unidades (que forman las hojas).
E I I – UVa. Departamento de Matemática Aplicada. Curso 2019-20. 8
- Para datos con tres dı́gitos, el tallo estará formado por las centenas y decenas, escritos a la
izquierda, y las hojas serán las unidades.
Cada tallo define una clase y se escribe una sola vez; todos los datos que comparten tallo se
colocan en la misma lı́nea que tendrá, pues, tantas hojas como sea la frecuencia de dicha clase.
Ejemplo: Para el ejemplo de las edades, el diagrama de tallo-hojas serı́a:
15 1 1 1 2 3 4 4 5 6 6 7 7 7 8 8 9
(11) 2 3 3 3 3 4 4 6 6 6 6 9
14 3 1 1 2 3 3 4 4 5 6 6 7 9 9
1 4 0
Los números que aparecen a la izquierda se llaman profundidades e indican las frecuencias
acumuladas, en orden creciente o decreciente según que se lea desde arriba o desde abajo, hasta
llegar al número que aparece entre paréntesis, que indica la frecuencia del tallo al que acompaña y
que es el que contiene al dato situado en la posición central.
A veces, para obtener mayor claridad, conviene subdividir los tallos repartiendo sus hojas en
dos lı́neas (con las hojas del 0 al 4 y del 5 al 9, respectivamente), o incluso en cinco lı́neas: las hojas
0 y 1 en la primera, las hojas 2 y 3 en la segunda, etc.
La media puede verse como el centro de gravedad o centro geométrico de los datos, puesto que las
desviaciones positivas y negativas de los datos directos respecto de ella se encuentran en equilibrio;
∑
N
es decir, dan suma cero: (xi − x̄) = 0 . Ejercicio: Demostrar esta igualdad.
1
Mediana (Me). Se define como el valor tal que, colocados los datos en orden creciente, ocupa la
posición central, es decir, hay tantos datos que son menores o iguales que él como datos que
son mayores o iguales que él.
Para calcular la mediana de un conjunto de datos, en primer lugar hay que ordenarlos de
menor a mayor; la notación x(1) , x(2) , . . . , x(N ) indica que los datos ya están colocados en
orden.
x + x((N/2)+1)
Si el número de datos, N , es par, entonces Me = (N/2) .
2
Si el número de datos es impar, entonces Me = x((N +1)/2) .
Moda: Se define como el valor o los valores más frecuentes de la variable, es decir, a los que
corresponde la mayor frecuencia.
Cuando los datos están agrupados por clases, no puede determinarse qué valor es la moda;
en este caso llamaremos clase modal a aquella a la que corresponde la mayor altura en el
histograma (que no tiene por qué coincidir con la clase de mayor frecuencia).
Para cada valor p ∈ (0, 1), se denomina percentil 100×p, y se denota por qp , al valor de la variable
que divide a la distribución de frecuencias en dos partes, de forma que al menos el 100 p % de los
datos son menores o iguales que qp , y al menos el 100 (1− p) % de los datos son mayores o iguales
que qp .
• Cálculo de los percentiles:
Datos discretos sin agrupar:
x([pN ]+1) si pN no es entero
qp =
x
(pN )
+ x(pN +1)
si pN es entero,
2
donde [pN ] denota la parte entera de pN .
Datos agrupados en clases (desconociendo el valor de los datos): Podemos hallar el valor
aproximado de qp , tomando el valor del eje X en el que el polı́gono de frecuencias relativas
acumuladas tiene por altura p: A la vista de F1 , F2 , . . . , Fk , se toma i ∈ {1, 2, . . . k} para el que
sea Fi−1 ≤ p < Fi (se considera F0 = 0). Entonces, el percentil 100×p será:
p − Fi−1
qp = Li−1 + bi
fi
Se denomina cuartiles a los percentiles que dividen a la distribución en 4 partes iguales, es decir,
- el percentil 25, llamado primer cuartil, y denotado por Q1 .
- el percentil 50, que es la mediana. Se denota, también, por Q2 .
- el percentil 75, llamado tercer cuartil, y denotado por Q3 .
Se denomina deciles a los percentiles que dividen a la distribución en 10 partes iguales. Se denotan
por d1 , d2 , . . . , d9 , siendo di = q i , esto es, el percentil 10×i, para i = 1, 2, · · · , 9.
10
Estas medidas indican lo próximos o alejados que están los datos, bien entre sı́, o respecto a alguna
medida de centralización.
Rango o recorrido: Es la diferencia entre el mayor y el menor dato,esto es: x(N ) − x(1) .
El recorrido es fácil de calcular; sin embargo, presenta el inconveniente de ser una medida
muy sensible a valores extremos.
Si los datos vienen dados por medio de una tabla de frecuencias, entonces
∑
k
(xi − x̄)2 ni ∑ k
s2 = = (xi − x̄)2 fi
i=1
N i=1
Observación: La varianza no tiene las mismas unidades que la variable.
E I I – UVa. Departamento de Matemática Aplicada. Curso 2019-20. 11
1
Despejando, se obtiene: fr (A1 ) < k2 . Como fr (A1 ) + fr (A2 ) = 1, se tiene que
( )
1
fr (A2 ) = fr {xi : |xi − x̄| ≤ ks} > 1 − 2 ;
k
traduciendo ahora la frecuencia relativa a porcentaje, se obtiene el resultado.
Ejemplo: Siempre podemos asegurar que en el intervalo [x̄ − 2s, x̄ + 2s] se encuentra como
mı́nimo el 75 % de los datos, y en el intervalo [x̄ − 3s, x̄ + 3s], como mı́nimo el 89 % de los datos.
E I I – UVa. Departamento de Matemática Aplicada. Curso 2019-20. 12
Rango intercuartı́lico (IQR). Se define como la diferencia entre el primer y el tercer cuartil:
IQR = Q3 − Q1 .
El rango intercuartı́lico mide, pues, la amplitud del intervalo en el que se encuentra el 50 %
central de los datos.
Coeficiente de variación (CV ). Para datos todos positivos o todos negativos, se define el co-
s
eficiente de variación de Pearson de la variable estadı́stica X como el cociente: CV = .
| x̄ |
Es una medida adimensional de la variabilidad relativa, pues considera la variabilidad de los
datos en relación al tamaño de su media (no es lo mismo una variabilidad de 200 euros en
ganancias del orden de 1000 euros, que en ganancias del orden de 1 millón). Por ello, es la
medida adecuada para comparar la variabilidad de dos conjuntos de datos distintos.
2. A continuación se sitúan en un eje graduado estos 5 valores y tomando como base el segmento
[Q1 , Q3 ] se dibuja un rectángulo con altura arbitraria; en él se indica la posición de la mediana,
mediante una lı́nea vertical que divida al rectángulo.
3. Desde el centro de los lados verticales del rectángulo se dibujan sendas lı́neas hasta el menor
dato mayor o igual que LI y el mayor dato menor o igual que LS (es decir, los datos más
extremos del intervalo [LI , LS]).
4. Los datos que queden fuera del intervalo [LI , LS] se marcan con un punto o un asterisco, a la
altura de las dos lı́neas dibujadas. Se denominan datos atı́picos y se clasifican en próximos
y lejanos, según estén en [Q1 − 3 IQR , Q3 + 3 IQR] o aún más alejados.
Ejemplo: Para los datos de la edad, los cinco valores son: Q1 = 17, Q3 = 33, M e= 24, LI = −7
y LS = 57, y el gráfico:
E I I – UVa. Departamento de Matemática Aplicada. Curso 2019-20. 14
Ejemplo: Distancia de frenado en metros, en automóviles conducidos sobre una pista húmeda
(mismo automóvil y velocidad en todos los casos).
Para los datos de la distancia de frenado, los cinco valores son: Q1 = 35,9, Q3 = 39,2, Me = 37,3,
LI = 30,95 y LS = 44,15, y el diagrama es:
El criterio de 3s: Se considera atı́pico todo dato que se aleje más de 3s de la media de la muestra.
Recordemos que, según la desigualdad de Chebysev, al menos el 88,89 % de los datos está en
el intervalo [x̄ − 3s, x̄ + 3s]. En el ejemplo de la distancia de frenado, con este criterio no
existirı́an datos atı́picos, como puede comprobarse.
Las transformaciones lineales son las del tipo Y = aX + b con a, b ∈ IR; a ̸= 0. Corresponden
a traslaciones y cambios de escala; por tanto, producen cambios en cuanto a posición y dispersión,
pero no varı́an la forma de la distribución.
Los datos directos x1 , x2 , . . . , xN se transforman mediante yi = axi + b en los datos y1 , y2 , . . . , yN .
1. ȳ = ax̄ + b
∑
N
yi ∑
N
axi + b ∑
N
xi
En efecto: ȳ = = = a + b = ax̄ + b
N N N
i=1 i=1 i=1
∑
N N (
∑
)2
∑
N
(yi − ȳ)2 axi + b − (ax̄ + b) (xi − x̄)2
En efecto: s2Y = = = a 2
= a2 s2X
N N N
i=1 i=1 i=1
{
Si a > 0, q p (Y ) = a q p (X) + b
3. M e(Y ) = a M e(X) + b y, más generalmente,
Si a < 0, q p (Y ) = a q 1−p (X) + b
5. M oda(Y ) = a M oda(X) + b
El modo de proceder será diferente según que se trate de dos variables cuantitativas, de una
cualitativa y otra cuantitativa, o de dos cualitativas.
Vamos a denotar por X e Y las variables estadı́sticas objeto de estudio; A1 , A2 , .., Al serán las
modalidades de la variable X; B1 , B2 , ..., Bk las modalidades de la variable Y . Se denomina:
Frecuencia total al número total de individuos observados, N.
Frecuencia absoluta del par (Ai , Bj ): Número de individuos, nij , de entre los N , que poseen
la modalidad Ai de X, y la modalidad Bj de Y a la vez.
nij
Frecuencia relativa del par (Ai , Bj ): Es el cociente fij = N .
La distribución conjunta de X e Y se dispone en una tabla de doble entrada que recoge las distin-
tas modalidades de las variables (ordenadas de menor a mayor, si lo admiten) y las correspondientes
frecuencias (absolutas o relativas, y a veces ambas) con que aparece cada par (Ai , Bj ).
∑
l ∑
k ∑
l ∑
k
Claramente, se verifican las igualdades: nij = N y fij = 1
i=1 j=1 i=1 j=1
Este procedimiento también sirve para variables discretas con pocos valores distintos. Si las dos
variables X e Y son cualitativas, la tabla recibe el nombre de tabla de contingencia.
Eléctrico 27 5 32
Distribución de 285 alumnos de Segundo Curso 0.095 0.018 0.112
de I.T.I. por titulación y sexo. Electrónico 85 22 107
0.298 0.077 0.375
Mecánico 90 23 113
Se dan las dos distribuciones conjuntas (la de
0.316 0.081 0.396
frecuencias absolutas y la de frecuencias relati-
Quı́mico 19 14 33
vas) y, en los márgenes, las distribuciones de la 0.067 0.049 0.116
variable Titulación y de la variable Sexo.
221 64 285
0.775 0.225 1
E I I – UVa. Departamento de Matemática Aplicada. Curso 2019-20. 17
Distribuciones marginales
Las distribuciones marginales de X e Y son distribuciones univariantes; por tanto, se les aplica
todo lo estudiado en las secciones anteriores . En particular, si son variables cuantitativas, tendrán
asociada media, varianza, etc.
Distribuciones condicionadas
( )
f
Las frecuencias relativas de X/(Y = Bj ) son: f Ai /Y = B = f ij .
j .j
/
Sexo (Tit=Mecánico) Hombre Mujer
Y la de Sexo a Titulación=Mecánico: Frecuencia 90 23
Frecuencia relativa 0.796 0.204
Acerca del par de variables estadı́sticas X e Y, las tres siguientes condiciones son equivalentes:
Es decir: las frecuencias relativas de la distribución conjunta coinciden con el producto de las
correspondientes frecuencias relativas marginales
Si X e Y verifican una cualquiera de estas tres condiciones (en cuyo caso verifican también las
otras dos) se dice que las variables X e Y son estadı́sticamente independientes.
Diagramas de barras.
Solo se utiliza cuando ambas variables tienen pocas modalidades.
Consiste en dibujar para cada par (Ai , Bj ) una barra de longitud proporcional a la frecuencia
(relativa o absoluta). Las barras se pueden disponer de diversas formas. Damos dos ejemplos:
Los diagramas de caja son especialmente útiles para comparar la distribución de una variable en
conjuntos distintos de datos.
Para valorar la posible existencia de asociación entre una variable numérica y otra cualitati-
va separamos los datos numéricos en los subgrupos definidos por las modalidades de la variable
cualitativa y representamos juntos (sobre un mismo eje de abscisas) sus respectivos boxplots.
E I I – UVa. Departamento de Matemática Aplicada. Curso 2019-20. 20
Ejemplo: Los datos siguientes corresponden al tiempo en segundos en pasar de 0 a 100 Km/h en
un conjunto de vehı́culos subdivididos en cuanto al tipo de vehı́culo.
Para variables cuantitativas sin agrupar en clases y en las que no existen pares de valores repetidos
está indicada la utilización de un diagrama de dispersión o nube de puntos.
Consiste simplemente en representar cada par de puntos (xi , yj ) en un plano. La disposición de
los puntos es fuertemente expresiva acerca de la relación entre ambas variables.
Por su frecuencia e importancia, interesa en particular detectar y manejar la dependencia
lineal que pueda existir entre ellas, y que se manifiesta de forma más o menos nı́tida a través de
la nube de puntos, cuando estos parecen indicar la dirección de una recta.
El modelo de regresión lineal se estudiará en el Tema 7. Aplazamos hasta ese momento las
definiciones de covarianza y coeficiente de correlación lineal.
Ejemplo: En el siguiente gráfico están representados, para una población de cereales de uso común
en el desayuno, el contenido de carbohidratos y de calorı́as para 100gr de producto:
La disposición ascendente de la nube indica cierto grado de dependencia lineal positiva (los cereales
con mayor contenido de carbohidratos tienden a contener más calorı́as), pero la dependencia parece
bastante débil. Aquı́, el valor del coeficiente de correlación lineal podrı́a resultar engañoso por el
modo en que le afecta la existencia de dos puntos influyentes favorablemente situados.