Tema1 DESCRIPTIVA

1.
ESTADÍSTICA DESCRIPTIVA
Población es cualquier conjunto de datos, objetivo de nuestro interés, que caracteriza un fenómeno
que nos interesa.
Muestra es un subconjunto de una población determinada. Interesan aquellas muestras que repre-
sentan fielmente a la población.
Las palabras población y muestra se utilizan también para designar al propio conjunto de
individuos u objetos que se someten a estudio.
• La Estadı́stica Descriptiva es la rama de la Estadı́stica dedicada a la recopilación de los datos
y su reducción a unas pocas medidas numéricas y representaciones gráficas, a fin de comprender y
expresar las caracterı́sticas de ese conjunto de datos.
• La Inferencia Estadı́stica tiene por objeto obtener conclusiones sobre la población a partir
de las observaciones realizadas sobre una muestra. Su instrumento matemático es el Cálculo de
Probabilidades.
1.1. Variables estadı́sticas

El carácter o caracterı́stica que nos interesa estudiar se denomina variable estadı́stica, y se denota
por una letra mayúscula: X, Y, Z,. . . Se distinguen los siguientes tipos de variables:
Variables cualitativas o atributos: Describen cualidades y no toman valores numéricos. Sus
posibles resultados se llaman modalidades. Ej: La variable gusto puede presentar cuatro
modalidades: dulce, amargo, salado y ácido. La variable sexo, dos: hombre y mujer.
Las variables cualitativas se dividen en:
Ordinales, si existe gradación o jerarquı́a entre sus diferentes modalidades. Ej: Nivel de
estudios, grado de satisfacción, . . .
Nominales, en caso contrario. Ej: Provincia de nacimiento, paı́s de fabricación, clasificación
de una pieza como aceptable o defectuosa, . . .
Variables cuantitativas: toman valores numéricos. A su vez, pueden ser:
Discretas: Sólo toman un número finito o infinito numerable de valores distintos (general-
mente números naturales o enteros). Ej: Número de unidades de producto compradas
en un mes, número de entradas de cine vendidas en una semana, resultado de lanzar un
dado, número de hijos, número de averı́as de una máquina en un año. . .
Continuas: Toman valores en un intervalo de IR. Corresponden a magnitudes continuas,
como peso, altura, temperatura, intensidad de corriente, tiempo entre dos llamadas te-
lefónicas, tiempo entre dos averı́as de una máquina, etc. Sus valores no son observables
con exactitud, puesto que las observaciones dependen de la precisión del instrumento de
medida.
E I I – UVa. Departamento de Matemática Aplicada. Curso 2019-20. 2
Cuando los datos se observan con una pauta fija (cada hora, semana, etc.), constituyen una serie
temporal, y su análisis requiere técnicas especiales, que tengan en cuenta el orden de los datos. En
este curso no nos ocuparemos del aspecto temporal, considerando el orden de los datos irrelevante.
1.2. Presentación de los datos

La forma más elemental de presentar los datos es por medio de una matriz en la que aparecen en
la primera columna los individuos (o casos), representados de alguna forma (en muchas ocasiones
se suele prescindir de esta columna) y en las restantes columnas las observaciones de las distintas
variables (o caracterı́sticas) en estudio para cada uno de los individuos. Se la conoce como matriz
de datos. (Presentación tı́pica de hoja de cálculo)
edad especialidad sexo
Ejemplo:
Individuo 1 21 Estructuras mujer
Individuo 2 19 Construcción de Maqu. hombre
Individuo 4 18 Estructuras mujer
.. .. .. ..
. . . .
Cuando se estudia una sola variable, otra forma usual de presentar los datos es por medio de
una matriz en la que cada valor corresponde a un individuo de la población.
Ejemplo: Edades de 40 individuos encuestados:
12 17 16 23 39 32 23 33
36 23 23 15 36 26 17 24
11 34 37 24 17 39 19 31
16 11 13 40 34 18 14 29
33 14 26 26 26 31 35 18
Agrupación en clases
En ocasiones, y con objeto de facilitar la toma o presentación de datos cuantitativos, estos se

agrupan en intervalos o clases. Por ejemplo, es más sencillo anotar cuántos individuos hay en una
muestra con una estatura entre 1,75 y 1,80 m., que anotar exactamente la estatura de cada uno.
Al agrupar los datos en clases se produce cierta pérdida de información, por lo que es preferible
tratar los datos sin agrupar, salvo para algunos resúmenes gráficos, cuando la variable sea continua
o cuando, siendo discreta, tome gran cantidad de valores diferentes.
En general, es recomendable que todas las clases sean de la misma longitud. Para elegir un
número k de clases adecuado (habitualmente, entre 5 y 20 ó 25 clases, y de forma que ninguna
contenga menos de 5 datos) pueden usarse como criterios orientativos:
√
k ≃ N , si el número de datos, N , es relativamente pequeño,
k ≃1+ 10
3 log10 N (Fórmula de Sturges), si N es grande.
Utilizaremos clases con la siguiente forma: (L0 , L1 ], (L1 , L2 ], . . . (Lk−1 , Lk ], garantizando que
las clases sean disjuntas (un dato no puede estar en dos clases a la vez), exhaustivas, es decir,
que abarquen todos los posibles valores de la variable, y que estén ordenadas de menor a mayor.
Asociados a las clases o intervalos se tienen los siguientes elementos:
Lı́mites: Li−1 , Li (lı́mite inferior y lı́mite superior, respectivamente).
Amplitud de la clase: bi = Li − Li−1 .
Marca de la clase: ci = Li +2Li−1
A veces, el primer y último intervalo, tienen respectivamente, el extremo inferior y superior

indeterminados, con objeto de incluir observaciones poco frecuentes.
Ejemplo de agrupación en clases:
Edades de 40 individuos encuestados: Clases N o de datos

(10, 15 ] 7
12 17 16 23 39 32 23 33 (15, 20 ] 8
36 23 23 15 36 26 17 24 −→ (20, 25 ] 6
11 34 37 24 17 39 19 31 (25, 30 ] 5
16 11 13 40 34 18 14 29 (30, 35 ] 8
33 14 26 26 26 31 35 18 (35, 40 ] 6
En este caso el número de clases es 6, los lı́mites son 10, 15, 20, 25, 30, 35 y 40; la amplitud en
todas las clases es 5, y las marcas son, respectivamente: 12.5, 17.5, 22.5, 27.5, 32.5 y 37.5.
1.3. Tablas de frecuencias

A partir de ahora vamos a considerar que manejamos una sola variable estadı́stica, X. Ello corres-
ponde a tratar con una de las columnas de la matriz de datos ya vista.
Para resumir la información que ofrecen nuestros datos, utilizaremos los siguientes elementos:
Frecuencia total: Número total de individuos observados o número total de datos, N.
Frecuencia absoluta de la modalidad Mi (valor xi o intervalo Ii ), es el número de individuos o

datos que presentan esta modalidad, ni .
ni
Frecuencia relativa de la modalidad Mi (valor xi o intervalo Ii ), es el cociente fi = .
N
Frecuencia absoluta acumulada hasta la modalidad Mi , (valor xi o intervalo Ii ): Número de

individuos o de datos, Ni , que presentan una modalidad menor o igual que ésta.
∑
i
Ni = n1 + n2 + · · · + ni = nj
j=1
.
Frecuencia relativa acumulada hasta la modalidad Mi , (valor xi o intervalo Ii ): Es el cociente:
Ni ∑
i
Fi = ; o bien Fi = f1 + f2 + · · · + fi = fj .
N j=1
Las dos últimas definiciones solo tienen sentido cuando la variable es cuantitativa, o al menos,
ordinal.
Dar la distribución de frecuencias de la variable estadı́stica X significa dar las distintas moda-
lidades de la variable y las correspondientes frecuencias (absolutas, relativas, absolutas acumuladas
o relativas acumuladas) de cada modalidad. Habitualmente, esto se hace por medio de tablas:
En la primera columna aparecen las distintas moda-

Mi ni fi Ni Fi
M1 n1 f1 N1 F1
lidades de la variable (ordenadas de menor a mayor,
M2 n2 f2 N2 F2 si la variable lo admite); en las restantes columnas
.. .. .. .. .. se dan las frecuencias absolutas, relativas, absolutas
. . . . .
Mk nk fk Nk = N Fk = 1 acumuladas y relativas acumuladas (éstas dos últimas,
cuando tengan sentido).
∑
k ∑
k
Es importante observar que se cumple: ni = N = N k y también fi = 1 = Fk .
i=1 i=1
Las frecuencias relativas y las frecuencias relativas acumuladas dan información sobre porcentajes:
100fi % es el tanto por ciento de datos o individuos que están en la modalidad Mi .

100Fi % es el tanto por ciento de datos o individuos que están en las modalidades M1 , M2 , . . . Mi .
Tablas para datos agrupados:

(Li−1 , Li ] ci ni fi Ni Fi
Cuando los datos aparecen agrupados por clases, se (L0 , L1 ] c1 n1 f1 N1 F1
habla de frecuencias absolutas, relativas, absolutas (L1 , L2 ] c2 n2 f2 N2 F2
.. .. .. .. .. ..
acumuladas y relativas acumuladas de cada clase. . . . . . .
(Lk−1 , Lk ] ck nk fk Nk Fk
En el ejemplo anterior:
(Li−1 , Li ] ci ni fi Ni Fi
(10, 15 ] 12,5 7 0,175 7 0,175
(15, 20 ] 17,5 8 0,200 15 0,375
(20, 25 ] 22,5 6 0,150 21 0,525
(25, 30 ] 27,5 5 0,125 26 0,650
(30, 35 ] 32,5 8 0,200 34 0,850
(35, 40 ] 37,5 6 0,150 40 1,000
La marca de clase sirve como valor representativo de todos los datos del intervalo; incluso en el
caso (como aquı́ sucede) de que no sea un valor posible de la variable.
Para evitar ambigüedades, al escribir una tabla es conveniente:

Indicar la unidad de medida de cada variable.
Indicar con un 0 los valores con frecuencia 0. (Evitar las rayas, cuya interpretación es de falta
de información sobre la frecuencia del valor).
Escribir todos los datos con igual número de decimales.

1.4. Representación gráfica de variables estadı́sticas unidimensionales

La forma de representar gráficamente una distribución de frecuencias va a depender del tipo de
variable considerada.
Caso de variables cualitativas y de var. cuantitativas con pocos valores distintos

TIPO frecuencias
Ilustraremos las principales formas de representación deportivo 14
gráfica utilizando los datos sobre tipo de vehı́culos que furgoneta 9
se recogen en la tabla de la derecha: gran turismo 11
monovolumen 16
pequeño 21
tamaño medio 22
• Diagrama de barras.
Se construyen tantos rectángulos como modalidades presente la variable en estudio, todos ellos con
base de igual amplitud (la que sea), y altura proporcional a la frecuencia absoluta o relativa (según
cuál se quiera representar). Las áreas de los distintos rectángulos resultan ası́ proporcionales a las
frecuencias.
• Diagrama de Pareto
Es un diagrama de barras en el que los rectángulos se presentan en orden decreciente de altura. Solo
pueden aplicarse a variables cualitativas cuyas modalidades no estén sujetas a otro tipo de orde-
nación (es decir, variables nominales). Se complementa con un polı́gono de frecuencias acumuladas
que tiene sus vértices en la prolongación de los costados derechos de las barras.
Muy usado en control de calidad y procesos para identificar fácilmente las causas que originan
mayor número de problemas en el proceso de producción.
• Diagrama de sectores
Consiste en un cı́rculo dividido en tantos sectores circulares como modalidades presente la variable
cualitativa; cada sector circular ocupa un área proporcional a la frecuencia absoluta (o relativa) de
su correspondiente modalidad.
Caso de variables cuantitativas que toman muchos valores distintos
• Histograma
Es la representación gráfica más usual para un conjunto de datos previamente agrupados en clases.
Es una figura formada por rectángulos adyacentes construidos de la siguiente forma:
- Sobre el eje horizontal se marcan los lı́mites de las clases.
- Como eje vertical, se tiene una escala de alturas.
- Sobre cada clase se eleva un rectángulo de altura hi de de tal forma que las áreas de los
rectángulos sean proporcionales a las frecuencias relativas de las clases. El valor de hi se obtiene
despejando en la igualdad (Li − Li−1 )hi = λfi .
En particular, usando λ = 1 se obtiene un histograma con área total igual a 1 [¿por qué?].
Obviamente, cuando todas las clases tienen igual longitud la proporcionalidad entre áreas y
frecuencias se logra sin más que hacer hi = fi .
Ejemplo: Con los datos ya vistos de las edades de 40 individuos se obtiene el histograma:
Ejemplo: La tabla siguiente nos da una distribución de frecuencias en clases que no tienen la
misma longitud:
En este caso, un histograma correcto tendrı́a un primer rectángulo

(Li−1 , Li ] ci ni
de altura 32 λ y un segundo rectángulo de altura 43 λ, donde λ es
(1,5 , 3,5 ] 2,5 3
un número real positivo cualquiera. Por ejemplo, para λ = 42, el
(3,5 , 6,5 ] 5 4
histograma serı́a:
9
8
1,5 3,5 6,5
• Polı́gono de frecuencias acumuladas

Puede ser de frecuencias acumuladas absolutas o relativas; recordemos que estas últimas siempre
son más fácilmente interpretables y equivalen a informar sobre porcentajes acumulados.
Se trata del polı́gono que tiene como primero de sus vértices al punto del eje OX que coincide con
lı́mite inferior del primer intervalo y, como restantes vértices, los puntos (Li , Fi ) que se encuentran
en la vertical del lı́mite superior de cada clase, a una altura igual a la frecuencia relativa acumulada
en esa clase. (O bien, las construcciones análogas usando Ni o 100 Fi como valores de ordenada)
Esta gráfica, que se conoce como ojiva de frecuencias, es siempre creciente, y se prolonga en
una meseta horizontal a altura 1 (o, en su caso, altura N , o bien, altura 100).
• Diagrama de tallo-hojas. (Stem and leaf)

Se trata de un procedimiento semi-gráfico de presentar la información de variables cuantitativas,
útil cuando el número de datos es relativamente pequeño. Los pasos para su construcción son:
1. Expresar los datos en unidades convenientes, redondeados a dos o tres cifras significativas y
ordenados de menor a mayor.
2. Colocarlos en una tabla con dos columnas separadas por una lı́nea como sigue:
- Para los datos con dos dı́gitos, escribir a la izquierda de la lı́nea los dı́gitos de las decenas
(que forman el tallo) y a la derecha los de las unidades (que forman las hojas).
- Para datos con tres dı́gitos, el tallo estará formado por las centenas y decenas, escritos a la
izquierda, y las hojas serán las unidades.
Cada tallo define una clase y se escribe una sola vez; todos los datos que comparten tallo se
colocan en la misma lı́nea que tendrá, pues, tantas hojas como sea la frecuencia de dicha clase.
Ejemplo: Para el ejemplo de las edades, el diagrama de tallo-hojas serı́a:
15 1 1 1 2 3 4 4 5 6 6 7 7 7 8 8 9
(11) 2 3 3 3 3 4 4 6 6 6 6 9
14 3 1 1 2 3 3 4 4 5 6 6 7 9 9
1 4 0
Los números que aparecen a la izquierda se llaman profundidades e indican las frecuencias
acumuladas, en orden creciente o decreciente según que se lea desde arriba o desde abajo, hasta
llegar al número que aparece entre paréntesis, que indica la frecuencia del tallo al que acompaña y
que es el que contiene al dato situado en la posición central.
A veces, para obtener mayor claridad, conviene subdividir los tallos repartiendo sus hojas en
dos lı́neas (con las hojas del 0 al 4 y del 5 al 9, respectivamente), o incluso en cinco lı́neas: las hojas
0 y 1 en la primera, las hojas 2 y 3 en la segunda, etc.
Ejemplo: Rehacemos el anterior diagrama 6 1 1 1 2 3 4 4

15 1 5 6 6 7 7 7 8 8 9
desdoblando los tallos.
(6) 2 3 3 3 3 4 4
19 2 6 6 6 6 9
Puede observarse que, si se gira el diagrama,
14 3 1 1 2 3 3 4 4
se obtiene una apariencia similar a la del his-
7 3 5 6 6 7 9 9
tograma correspondiente. 1 4 0
1.5. Medidas caracterı́sticas de una distribución unidimensional

En esta sección se definen algunos valores numéricos que proporcionan información sobre cómo se
distribuye un conjunto de datos homogéneo. Estas medidas además, permiten comparar distribu-
ciones y, mediante las técnicas de la inferencia, obtener conclusiones sobre la población a partir de
una muestra representativa.
1.5.1. Medidas de posición de tendencia central
Proporcionan valores en torno a los cuales tienden a agruparse los datos.
Media, o promedio, o media aritmética ( x̄ ).

∑
N
xi
Si x1 , . . . , xN son los datos directos de la variable, entonces: x̄ =
N
i=1
xi ni fi
x1 n1 f1 ∑
k
xi ni
∑
k
Si se parte de la tabla de frecuencias x2 n2 f2 entonces: x̄ = = xi fi
.. .. .. N
. . . i=1 i=1
xk nk fk
A partir de datos agrupados en clases únicamente puede hallarse un valor aproximado de la

media:
∑k c n
i i ∑
k
x̄ ≃ = ci fi .
i=1 N i=1
La media puede verse como el centro de gravedad o centro geométrico de los datos, puesto que las
desviaciones positivas y negativas de los datos directos respecto de ella se encuentran en equilibrio;
∑
N
es decir, dan suma cero: (xi − x̄) = 0 . Ejercicio: Demostrar esta igualdad.
1
Mediana (Me). Se define como el valor tal que, colocados los datos en orden creciente, ocupa la
posición central, es decir, hay tantos datos que son menores o iguales que él como datos que
son mayores o iguales que él.
Para calcular la mediana de un conjunto de datos, en primer lugar hay que ordenarlos de
menor a mayor; la notación x(1) , x(2) , . . . , x(N ) indica que los datos ya están colocados en
orden.
x + x((N/2)+1)
Si el número de datos, N , es par, entonces Me = (N/2) .
2
Si el número de datos es impar, entonces Me = x((N +1)/2) .
Moda: Se define como el valor o los valores más frecuentes de la variable, es decir, a los que
corresponde la mayor frecuencia.
Cuando los datos están agrupados por clases, no puede determinarse qué valor es la moda;
en este caso llamaremos clase modal a aquella a la que corresponde la mayor altura en el
histograma (que no tiene por qué coincidir con la clase de mayor frecuencia).
Comparación entre las medidas de tendencia central

La media utiliza toda la información disponible, pues tiene en cuenta el valor de todos los datos.
En cambio, la mediana sólo tiene en cuenta la posición y no el valor.
Por esa misma razón, la media es muy sensible a valores extremos. Por ello, un error en los
datos puede modificarla por completo. Ası́, por ejemplo:
•Para los datos 10, 15, 21, 50, la media es 24, desplazada hacia el valor 50 que es un valor
extremo.
• Si
los datos correctos hubiesen sido 10, 15, 21, 20, la media serı́a 16.5. Sin embargo, la mediana
queda menos afectada por ese dato extremo: en el primer caso serı́a 18 y en el segundo, 17.5.
Media calculada a partir de medias de subgrupos

A veces, el conjunto de datos está dividido en subgrupos disjuntos (por ejemplo, los individuos
de una clase divididos en hombres y mujeres), y se conoce la media de una caracterı́stica en cada
subgrupo. Si x̄1 , x̄2 , . . . , x̄s son las medias en s subgrupos que tienen n1 , n2 , . . . , ns individuos cada
uno, entonces la media total será:
n1 x̄1 + n2 x̄2 + · · · + ns x̄s
x̄ =
n1 + n2 + · · · + ns
Ejercicio: Demostrar la fórmula anterior.
1.5.2. Otras medidas de posición: los percentiles.
Para cada valor p ∈ (0, 1), se denomina percentil 100×p, y se denota por qp , al valor de la variable
que divide a la distribución de frecuencias en dos partes, de forma que al menos el 100 p % de los
datos son menores o iguales que qp , y al menos el 100 (1− p) % de los datos son mayores o iguales
que qp .
• Cálculo de los percentiles:
Datos discretos sin agrupar: 

 x([pN ]+1) si pN no es entero
qp =
 x
 (pN )
+ x(pN +1)
si pN es entero,
2
donde [pN ] denota la parte entera de pN .
Datos agrupados en clases (desconociendo el valor de los datos): Podemos hallar el valor
aproximado de qp , tomando el valor del eje X en el que el polı́gono de frecuencias relativas
acumuladas tiene por altura p: A la vista de F1 , F2 , . . . , Fk , se toma i ∈ {1, 2, . . . k} para el que
sea Fi−1 ≤ p < Fi (se considera F0 = 0). Entonces, el percentil 100×p será:
p − Fi−1
qp = Li−1 + bi
fi
Se denomina cuartiles a los percentiles que dividen a la distribución en 4 partes iguales, es decir,
- el percentil 25, llamado primer cuartil, y denotado por Q1 .
- el percentil 50, que es la mediana. Se denota, también, por Q2 .
- el percentil 75, llamado tercer cuartil, y denotado por Q3 .
Se denomina deciles a los percentiles que dividen a la distribución en 10 partes iguales. Se denotan
por d1 , d2 , . . . , d9 , siendo di = q i , esto es, el percentil 10×i, para i = 1, 2, · · · , 9.
10
1.5.3. Medidas de dispersión
Estas medidas indican lo próximos o alejados que están los datos, bien entre sı́, o respecto a alguna
medida de centralización.
Rango o recorrido: Es la diferencia entre el mayor y el menor dato,esto es: x(N ) − x(1) .
El recorrido es fácil de calcular; sin embargo, presenta el inconveniente de ser una medida
muy sensible a valores extremos.
Varianza (s2 ) La varianza de los datos directos x1 , x2 , . . . , xN se define como el valor:

∑
N
(xi − x̄)2
( 1 ∑
N )
2
s = = x2i − x̄ 2 .
N N i=1
i=1
Si los datos vienen dados por medio de una tabla de frecuencias, entonces
∑
k
(xi − x̄)2 ni ∑ k
s2 = = (xi − x̄)2 fi
i=1
N i=1
Observación: La varianza no tiene las mismas unidades que la variable.
En inferencia se suele utilizar otra medida, llamada cuasivarianza o varianza corregi-

da(s2c ) y que, para los datos directos x1 , x2 , . . . , xN , se define como el valor:
∑
N
(xi − x̄)2
s2c = .
N −1
i=1
De la igualdad N s2 = (N − 1) s2c se sigue que, cuando N es grande, la cuasivarianza y la

varianza tienen valores muy parecidos.
Observación: En muchos programas de software estadı́stico (Statgraphics, entre ellos), se

llama varianza a la cuasivarianza .
Desviación tı́pica, o desviación estándar (s). Es simplemente la raı́z cuadrada de la varianza.

v
u N
u ∑ (xi − x̄)2
Para los datos directos x1 , x2 , . . . , xN , es s = t .
N
i=1 v
u k
u∑
Si los datos vienen dados por medio de una tabla de frecuencias: s = t (xi − x̄)2 fi .
i=1
v
u N
u ∑ (xi − x̄)2
Se define también la cuasidesviación tı́pica: sc = t .
i=1
N −1
A diferencia de la varianza, la desviación estándar se expresa en las mismas unidades que

la variable, dando una idea más precisa de la variabilidad respecto de la media. Cobra gran
importancia por su papel en teorema siguiente.
Teorema (Desigualdad de Chebychev): Sea X una variable estadı́stica y sea k ≥ 1. Entonces,

[ ]
en el intervalo x̄ − ks, x̄ + ks se halla más del (1 − 12 )100 % de las observaciones.
k
[ ]
En otras palabras: la frecuencia relativa del intervalo x̄ − ks, x̄ + ks es mayor que 1 − 12 .
k
Demostración: Denotaremos por fr la frecuencia relativa de un conjunto de datos, y por

x1 , x2 , . . . , xN los valores directos de la variable X.
Sean A1 = {xi : |xi − x̄| > ks} y A2 = {xi : |xi − x̄| ≤ ks}. A partir de la definición de
varianza, se obtienen las siguientes desigualdades:
∑
N
(xi − x̄)2 ∑ (xi − x̄)2 ∑ (xi − x̄)2
s2 = = + ≥
N N N
i=1 xi ∈A1 xi ∈A2
∑ (xi − x̄) ∑ (ks)

2 2
≥ > = (ks)2 fr (A1 )
N N
xi ∈A1 xi ∈A1
1
Despejando, se obtiene: fr (A1 ) < k2 . Como fr (A1 ) + fr (A2 ) = 1, se tiene que
( )
1
fr (A2 ) = fr {xi : |xi − x̄| ≤ ks} > 1 − 2 ;
k
traduciendo ahora la frecuencia relativa a porcentaje, se obtiene el resultado.
Ejemplo: Siempre podemos asegurar que en el intervalo [x̄ − 2s, x̄ + 2s] se encuentra como
mı́nimo el 75 % de los datos, y en el intervalo [x̄ − 3s, x̄ + 3s], como mı́nimo el 89 % de los datos.
Rango intercuartı́lico (IQR). Se define como la diferencia entre el primer y el tercer cuartil:
IQR = Q3 − Q1 .
El rango intercuartı́lico mide, pues, la amplitud del intervalo en el que se encuentra el 50 %
central de los datos.
1.5.4. Medidas de posición y de variación utilizadas para comparar conjuntos de datos
Valores o puntuaciones z . Expresan la posición relativa de un dato respecto del conjunto. Se

xi − x̄
define el valor z del dato xi como el valor: zi = s .
Nos indica cuántas desviaciones tı́picas se aleja el dato respecto de la media.
Coeficiente de variación (CV ). Para datos todos positivos o todos negativos, se define el co-
s
eficiente de variación de Pearson de la variable estadı́stica X como el cociente: CV = .
| x̄ |
Es una medida adimensional de la variabilidad relativa, pues considera la variabilidad de los
datos en relación al tamaño de su media (no es lo mismo una variabilidad de 200 euros en
ganancias del orden de 1000 euros, que en ganancias del orden de 1 millón). Por ello, es la
medida adecuada para comparar la variabilidad de dos conjuntos de datos distintos.
1.5.5. Otras caracterı́sticas observables de una distribución de datos
Asimetrı́a Diremos que una distribución es simétrica si la representación gráfica de su distribu-

ción de frecuencias presenta simetrı́a respecto de un eje vertical que pase por el punto x̄. En
este caso, la mediana coincide con x̄.
Las medidas de asimetrı́a existentes son válidas para las distribuciones con forma de campana
(distribuciones unimodales simétricas o con cierta asimetrı́a) y para las que tienen forma de
U. Las distribuciones campaniformes asimétricas se clasifican en asimétricas positivas (o con
cola a la derecha y asimétricas negativas (o con cola a la izquierda); el valor de x̄ − M e
proporciona información del tipo de asimetrı́a:
Apuntamiento o curtosis Llamamos curtosis o apuntamiento al grado de concentración de los

datos alrededor de la media.
Las medidas de curtosis se aplican a distribuciones campaniformes y toman como modelo

de referencia la llamada distribución normal, que corresponde a fenómenos muy corrientes
en la naturaleza y se representa mediante una campana de Gauss. La distribución normal
implica que la mayorı́a de los valores de la variable están cerca de la media, y aquellos que se
encuentran muy distanciados de ella, a ambos lados, son poco numerosos.
Una distribución se llama leptocúrtica si es más apuntada que la normal, y platicúrtica si

lo es menos que la normal. La distribución normal se dice que es mesocúrtica.
platicúrtica mesocúrtica leptocúrtica
1.6. Diagramas de caja o Box-Plot

Son una representación semigráfica de la distribución, que permite observar las caracterı́sticas
principales de la distribución (asimetrı́a, apuntamiento, variabilidad. . . ), y detectar posibles valo-
res atı́picos.
Pasos para construcción del Box-Plot

1. Ordenar los datos de menor a mayor y obtener los cuartiles Q1 , Q2 y Q3 . Se obtienen también
otros dos valores, llamados lı́mite inferior (LI) y lı́mite superior (LS), dados por:
LI = Q1 − 1,5 IQR
LS = Q3 + 1,5 IQR
2. A continuación se sitúan en un eje graduado estos 5 valores y tomando como base el segmento
[Q1 , Q3 ] se dibuja un rectángulo con altura arbitraria; en él se indica la posición de la mediana,
mediante una lı́nea vertical que divida al rectángulo.
3. Desde el centro de los lados verticales del rectángulo se dibujan sendas lı́neas hasta el menor
dato mayor o igual que LI y el mayor dato menor o igual que LS (es decir, los datos más
extremos del intervalo [LI , LS]).
4. Los datos que queden fuera del intervalo [LI , LS] se marcan con un punto o un asterisco, a la
altura de las dos lı́neas dibujadas. Se denominan datos atı́picos y se clasifican en próximos
y lejanos, según estén en [Q1 − 3 IQR , Q3 + 3 IQR] o aún más alejados.
Ejemplo: Para los datos de la edad, los cinco valores son: Q1 = 17, Q3 = 33, M e= 24, LI = −7
y LS = 57, y el gráfico:
Ejemplo: Distancia de frenado en metros, en automóviles conducidos sobre una pista húmeda
(mismo automóvil y velocidad en todos los casos).
35.8 30.5 35.9 41.6 35.9

39.2 41.9 38.6 39.2 37.3
35.3 37.3 35.6 38.0 36.7
40.1 36.1 37.0 39.5 38.3
Para los datos de la distancia de frenado, los cinco valores son: Q1 = 35,9, Q3 = 39,2, Me = 37,3,
LI = 30,95 y LS = 44,15, y el diagrama es:
1.7. Datos atı́picos en distribuciones univariantes

Son datos que se alejan del conjunto global de datos, por ser inusualmente grandes o pequeños.
Pueden ser datos reales, como una puntuación de 10 en un examen en el que la mayorı́a de las
puntuaciones están entre 3 y 6, o la estatura de un individuo que mide 2m 10cm, en una clase de
individuos con estaturas normales. También en ocasiones, aparecen como consecuencia de haber
registrado de forma incorrecta un dato.
No existe un criterio único para determinar qué datos han de ser considerados atı́picos; dos de
los criterios más usuales son:
El asociado al diagrama de caja: Llamamos atı́picos a aquellos datos que están fuera del in-
tervalo [LI , LS]. En el ejemplo de la distancia de frenado, serı́a atı́pico el dato 30,5.
El criterio de 3s: Se considera atı́pico todo dato que se aleje más de 3s de la media de la muestra.
Recordemos que, según la desigualdad de Chebysev, al menos el 88,89 % de los datos está en
el intervalo [x̄ − 3s, x̄ + 3s]. En el ejemplo de la distancia de frenado, con este criterio no
existirı́an datos atı́picos, como puede comprobarse.
1.8. Transformaciones de una variable

El objetivo de la descripción de datos es obtener una visión lo más clara posible de los datos, por
ello, en muchas ocasiones será necesario hacer traslaciones o cambios de escala para obtener datos
lo más simples y manejables posible. En otras ocasiones, como los principales métodos estadı́sticos
son aplicables sólo a distribuciones simétricas, nos interesará transformar unos datos asimétricos
en otros que no lo sean tanto.
Las transformaciones lineales son las del tipo Y = aX + b con a, b ∈ IR; a ̸= 0. Corresponden
a traslaciones y cambios de escala; por tanto, producen cambios en cuanto a posición y dispersión,
pero no varı́an la forma de la distribución.
Los datos directos x1 , x2 , . . . , xN se transforman mediante yi = axi + b en los datos y1 , y2 , . . . , yN .
Se verifican las siguientes propiedades:
1. ȳ = ax̄ + b
∑
N
yi ∑
N
axi + b ∑
N
xi
En efecto: ȳ = = = a + b = ax̄ + b
N N N
i=1 i=1 i=1
2. s2Y = a2 s2X y, en consecuencia, sY = |a| sX
∑
N N (
∑
)2
∑
N
(yi − ȳ)2 axi + b − (ax̄ + b) (xi − x̄)2
En efecto: s2Y = = = a 2
= a2 s2X
N N N
i=1 i=1 i=1
{
Si a > 0, q p (Y ) = a q p (X) + b
3. M e(Y ) = a M e(X) + b y, más generalmente,
Si a < 0, q p (Y ) = a q 1−p (X) + b
Con a > 0 la transformación es creciente y los datos conservan su orden: el transformado de

qp (X) continúa dejando el 100p % de los datos a su izquierda; por el contrario, con a < 0 el
orden se invierte, de modo que el transformado de qp (X) ahora tendrá a su derecha el 100p %
de los datos.
En particular, los cuartiles de X se transforman siempre en cuartiles de Y, aunque
intercambian el subı́ndice si es a < 0.
4. IQR(Y ) = |a| IQR(X)
5. M oda(Y ) = a M oda(X) + b
Las transformaciones no lineales más usuales son:

√ 1
Y = X 2, Y = X, Y = ln X, . Y=
X
Estas transformaciones, además de cambios en la posición y dispersión, producen también cambios
en la forma; se utilizan principalmente para promover simetrı́a.
1.9. Estadı́stica Descriptiva Bivariante

Es habitual que una misma población presente múltiples variables de interés, de modo que al
observar todas ellas sobre un mismo individuo obtenemos datos multivariados. Aparte de poder
describir cada variable por separado, reviste gran importancia el estudio bivariante, o estudio
conjunto de dos variables X e Y, destinado a explorar la posible existencia de alguna relación entre
ellas según la cual, determinados valores de una suelan aparecer preferentemente asociados con
determinados valores de la otra.
El modo de proceder será diferente según que se trate de dos variables cuantitativas, de una
cualitativa y otra cuantitativa, o de dos cualitativas.
1.9.1. Estudio de dos variables cualitativas. Tablas de doble entrada
Vamos a denotar por X e Y las variables estadı́sticas objeto de estudio; A1 , A2 , .., Al serán las
modalidades de la variable X; B1 , B2 , ..., Bk las modalidades de la variable Y . Se denomina:
Frecuencia total al número total de individuos observados, N.
Frecuencia absoluta del par (Ai , Bj ): Número de individuos, nij , de entre los N , que poseen
la modalidad Ai de X, y la modalidad Bj de Y a la vez.
nij
Frecuencia relativa del par (Ai , Bj ): Es el cociente fij = N .
La distribución conjunta de X e Y se dispone en una tabla de doble entrada que recoge las distin-
tas modalidades de las variables (ordenadas de menor a mayor, si lo admiten) y las correspondientes
frecuencias (absolutas o relativas, y a veces ambas) con que aparece cada par (Ai , Bj ).
XY B1 B2 ... Bk X Y B1 B2 ... Bk

A1 n11 n12 ... n1k A1 f11 f12 ... f1k
A2 n21 n22 ... n2k A2 f21 f22 ... f2k
.. .. .. .. ... .. .. .. .. ..
. . . . . . . . .
Al nl1 nl2 ... nlk Al fl1 fl2 ... flk
N 1
∑
l ∑
k ∑
l ∑
k
Claramente, se verifican las igualdades: nij = N y fij = 1
i=1 j=1 i=1 j=1
Este procedimiento también sirve para variables discretas con pocos valores distintos. Si las dos
variables X e Y son cualitativas, la tabla recibe el nombre de tabla de contingencia.
Ejemplo: Titul.Sexo Hombre Mujer
Eléctrico 27 5 32
Distribución de 285 alumnos de Segundo Curso 0.095 0.018 0.112
de I.T.I. por titulación y sexo. Electrónico 85 22 107
0.298 0.077 0.375
Mecánico 90 23 113
Se dan las dos distribuciones conjuntas (la de
0.316 0.081 0.396
frecuencias absolutas y la de frecuencias relati-
Quı́mico 19 14 33
vas) y, en los márgenes, las distribuciones de la 0.067 0.049 0.116
variable Titulación y de la variable Sexo.
221 64 285
0.775 0.225 1
Distribuciones marginales
A partir de la distribución conjunta de las variables X e Y es posible obtener la distribución de

frecuencias cada una de las variables individualmente considerada, anotando en los márgenes de la
tabla la suma de los valores de cada fila y de cada columna:
XY B1 B2 ... Bk XY B1 B2 ... Bk

A1 n11 n12 ... n1k n1 . A1 f11 f12 ... f1k f1 .
A2 n21 n22 ... n2k n2 . A2 f21 f22 ... f2k f2 .
.. .. .. .. .. .. .. .. .. .. .. ..
. . . . . . . . . . . .
Al nl1 nl2 ... nlk nl . Al fl1 fl2 ... flk fl .
n.1 n.2 ... n.k N f.1 f.2 ... f.k 1
• Las frecuencias absoluta y relativa de la modalidad Ai de la variable X son, respectivamente:

∑
k ∑
k
ni . = nij fi . = fij
j=1 j=1
• Las frecuencias absoluta y relativa de la modalidad Bj de la variable Y son, respectivamente:

∑
l ∑
l
n.j = nij f.j = fij
i=1 i=1
Las distribuciones marginales de X e Y son distribuciones univariantes; por tanto, se les aplica
todo lo estudiado en las secciones anteriores . En particular, si son variables cuantitativas, tendrán
asociada media, varianza, etc.
Ejemplo: La distribución marginal de Titulación, como ya se vio, es:
Titulación Eléctrico Electrónico Mecánico Quı́mico

Frecuencia 32 107 113 33
Frecuencia relativa 0.112 0.375 0.396 0.116
Y la de Sexo: Sexo Hombre Mujer

Frecuencia 221 64
Frecuencia relativa 0.775 0.225
Distribuciones condicionadas
Se define la distribución condicionada de Y cuando X = Ai , o distribución de Y condicionada

a Ai , y se denota por Y /(X = Ai ) , como la distribución de la variable Y sobre los elementos de la
población que tienen la caracterı́stica Ai .
Del mismo modo, se define la distribución de X condicionada a Bj , y se denota X/(Y = Bj ) ,
como la distribución de X sobre los elementos de la población que tienen la caracterı́stica Bj .
Es fundamental observar que, para las distribuciones condicionadas, la población objeto de
estudio no es la misma que la de partida: contiene solamente a los individuos que satisfacen la
condición.
Existen l distribuciones condicionadas de la forma Y /(X = Ai ) , y k distribuciones de la forma

X/(Y = Bj ) , una por cada modalidad de la variable a la que se condiciona; todas ellas se obtie-
nen a partir de la tabla de la distribución conjunta:
Las frecuencias absolutas de la variable Y /(X = Ai ) son las de la lı́nea correspondiente a Ai .
( )
Las frecuencias relativas de Y /(X = Ai ) son: f B j /X = A = f ij .
f
i i .
( ) n ij n /N f ij
En efecto, f B j /X = A = n i.
= n ij /N =
i i. f i.
Las frecuencias absolutas de X/(Y = Bj ) son las de la columna correspondiente a Bj .
( )
f
Las frecuencias relativas de X/(Y = Bj ) son: f Ai /Y = B = f ij .
j .j
Ejemplo: La distribución condicionada de Titulación a Sexo=Mujer es:

/
Titulación (Sexo=Mujer) Eléctrico Electrónico Mecánico Quı́mico
Frecuencia 5 22 23 14
Frecuencia relativa 0.078 0.344 0.359 0.219
/
Sexo (Tit=Mecánico) Hombre Mujer
Y la de Sexo a Titulación=Mecánico: Frecuencia 90 23
Frecuencia relativa 0.796 0.204
Si se tiene la familia de distribuciones condicionadas de una variable X a las distintas moda-

lidades de otra variable Y, y se tiene la distribución marginal de Y, entonces se conoce la
distribución conjunta de (X,Y). [Ídem, si cambiamos los papeles de X e Y]
( ) ( )
Basta para ello multiplicar, pues es: fij = f Ai /Y = B f. j [Ídem, fij = f B j /X = A fi . ]
j i
Acerca del par de variables estadı́sticas X e Y, las tres siguientes condiciones son equivalentes:
(1) Todas las distribuciones condicionadas Y /(X = Ai ) son iguales a la marginal de Y.
(2) Se verifica fij = fi . f.j para todo i = 1, 2, . . . , l y todo j = 1, 2, . . . , k.
Es decir: las frecuencias relativas de la distribución conjunta coinciden con el producto de las
correspondientes frecuencias relativas marginales
(3) Todas las distribuciones condicionadas X/(Y = Bj ) son iguales a la marginal de X.
Si X e Y verifican una cualquiera de estas tres condiciones (en cuyo caso verifican también las
otras dos) se dice que las variables X e Y son estadı́sticamente independientes.
Ejercicio: Demostrar la equivalencia de las condiciones (1), (2) y (3).

1.9.2. Representaciones gráficas de las distribuciones bidimensionales
Podemos visualizar la distribución conjunta de las variables cualitativas X e Y como sigue:

Diagrama de Mosaico.
Consiste en un rectángulo que se parte en bandas horizontales de grosor proporcional a las
frecuencias de la la distribución marginal de una de las variables, etiquetadas con el nombre
de las correspondientes modalidades. A su vez, cada una de esas bandas se subdivide en
subrectángulos de bases proporcionales a las frecuencias condicionadas de la otra variable a
esta modalidad. Ası́ las áreas de los subrectángulos resultan proporcionales a las frecuencias
de los pares (Ai , Bj ) en la distribución conjunta.
Como en en todas las bandas se asigna igual color al subrectángulo asociado a la misma
modalidad de la condicionada, se distingue a simple vista si todas las condicionadas de la
familia son sensiblemente iguales o si son, por el contrario, muy dispares.
Ejemplo: Diagrama de mosaico para la

distribución de alumnos por titulación y
sexo.
Se aprecia cómo difiere la composición por

sexos del alumnado en las distintas titula-
ciones (las variables son dependientes).
Diagramas de barras.
Solo se utiliza cuando ambas variables tienen pocas modalidades.
Consiste en dibujar para cada par (Ai , Bj ) una barra de longitud proporcional a la frecuencia
(relativa o absoluta). Las barras se pueden disponer de diversas formas. Damos dos ejemplos:
Caso de una variable cualitativa y una cuantitativa
Los diagramas de caja son especialmente útiles para comparar la distribución de una variable en
conjuntos distintos de datos.
Para valorar la posible existencia de asociación entre una variable numérica y otra cualitati-
va separamos los datos numéricos en los subgrupos definidos por las modalidades de la variable
cualitativa y representamos juntos (sobre un mismo eje de abscisas) sus respectivos boxplots.
Ejemplo: Los datos siguientes corresponden al tiempo en segundos en pasar de 0 a 100 Km/h en
un conjunto de vehı́culos subdivididos en cuanto al tipo de vehı́culo.
Es fácil observar en el gráfico, por ejem-

plo, que las furgonetas son las que pre-
sentan menor variabilidad y los de ta-
maño pequeño son los de mayor varia-
ción.
Caso de dos variables cuantitativas
Para variables cuantitativas sin agrupar en clases y en las que no existen pares de valores repetidos
está indicada la utilización de un diagrama de dispersión o nube de puntos.
Consiste simplemente en representar cada par de puntos (xi , yj ) en un plano. La disposición de
los puntos es fuertemente expresiva acerca de la relación entre ambas variables.
Por su frecuencia e importancia, interesa en particular detectar y manejar la dependencia
lineal que pueda existir entre ellas, y que se manifiesta de forma más o menos nı́tida a través de
la nube de puntos, cuando estos parecen indicar la dirección de una recta.
El modelo de regresión lineal se estudiará en el Tema 7. Aplazamos hasta ese momento las
definiciones de covarianza y coeficiente de correlación lineal.
Ejemplo: En el siguiente gráfico están representados, para una población de cereales de uso común
en el desayuno, el contenido de carbohidratos y de calorı́as para 100gr de producto:
La disposición ascendente de la nube indica cierto grado de dependencia lineal positiva (los cereales
con mayor contenido de carbohidratos tienden a contener más calorı́as), pero la dependencia parece
bastante débil. Aquı́, el valor del coeficiente de correlación lineal podrı́a resultar engañoso por el
modo en que le afecta la existencia de dos puntos influyentes favorablemente situados.

Tema1 DESCRIPTIVA

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Tema1 DESCRIPTIVA

Cargado por

Copyright:

Formatos disponibles

1.

1.1. Variables estadı́sticas

Variables cuantitativas: toman valores numéricos. A su vez, pueden ser:

1.2. Presentación de los datos

En ocasiones, y con objeto de facilitar la toma o presentación de datos cuantitativos, estos se

Asociados a las clases o intervalos se tienen los siguientes elementos:

Lı́mites: Li−1 , Li (lı́mite inferior y lı́mite superior, respectivamente).

Amplitud de la clase: bi = Li − Li−1 .

Marca de la clase: ci = Li +2Li−1

A veces, el primer y último intervalo, tienen respectivamente, el extremo inferior y superior

Ejemplo de agrupación en clases:

Edades de 40 individuos encuestados: Clases N o de datos

1.3. Tablas de frecuencias

Frecuencia absoluta de la modalidad Mi (valor xi o intervalo Ii ), es el número de individuos o

Frecuencia absoluta acumulada hasta la modalidad Mi , (valor xi o intervalo Ii ): Número de

En la primera columna aparecen las distintas moda-

100fi % es el tanto por ciento de datos o individuos que están en la modalidad Mi .

Tablas para datos agrupados:

Para evitar ambigüedades, al escribir una tabla es conveniente:

Escribir todos los datos con igual número de decimales.

1.4. Representación gráfica de variables estadı́sticas unidimensionales

Caso de variables cualitativas y de var. cuantitativas con pocos valores distintos

Caso de variables cuantitativas que toman muchos valores distintos

En este caso, un histograma correcto tendrı́a un primer rectángulo

1,5 3,5 6,5

• Polı́gono de frecuencias acumuladas

• Diagrama de tallo-hojas. (Stem and leaf)

Ejemplo: Rehacemos el anterior diagrama 6 1 1 1 2 3 4 4

1.5. Medidas caracterı́sticas de una distribución unidimensional

1.5.1. Medidas de posición de tendencia central

Proporcionan valores en torno a los cuales tienden a agruparse los datos.

Media, o promedio, o media aritmética ( x̄ ).

A partir de datos agrupados en clases únicamente puede hallarse un valor aproximado de la

Comparación entre las medidas de tendencia central

Media calculada a partir de medias de subgrupos

1.5.2. Otras medidas de posición: los percentiles.

1.5.3. Medidas de dispersión

Varianza (s2 ) La varianza de los datos directos x1 , x2 , . . . , xN se define como el valor:

En inferencia se suele utilizar otra medida, llamada cuasivarianza o varianza corregi-

De la igualdad N s2 = (N − 1) s2c se sigue que, cuando N es grande, la cuasivarianza y la

Observación: En muchos programas de software estadı́stico (Statgraphics, entre ellos), se

Desviación tı́pica, o desviación estándar (s). Es simplemente la raı́z cuadrada de la varianza.

A diferencia de la varianza, la desviación estándar se expresa en las mismas unidades que

Teorema (Desigualdad de Chebychev): Sea X una variable estadı́stica y sea k ≥ 1. Entonces,

Demostración: Denotaremos por fr la frecuencia relativa de un conjunto de datos, y por

∑ (xi − x̄) ∑ (ks)

1.5.4. Medidas de posición y de variación utilizadas para comparar conjuntos de datos

Valores o puntuaciones z . Expresan la posición relativa de un dato respecto del conjunto. Se

1.5.5. Otras caracterı́sticas observables de una distribución de datos

Asimetrı́a Diremos que una distribución es simétrica si la representación gráfica de su distribu-

Apuntamiento o curtosis Llamamos curtosis o apuntamiento al grado de concentración de los

Las medidas de curtosis se aplican a distribuciones campaniformes y toman como modelo

Una distribución se llama leptocúrtica si es más apuntada que la normal, y platicúrtica si

platicúrtica mesocúrtica leptocúrtica

1.6. Diagramas de caja o Box-Plot

Pasos para construcción del Box-Plot

35.8 30.5 35.9 41.6 35.9

1.7. Datos atı́picos en distribuciones univariantes

1.8. Transformaciones de una variable

Se verifican las siguientes propiedades:

2. s2Y = a2 s2X y, en consecuencia, sY = |a| sX

Con a > 0 la transformación es creciente y los datos conservan su orden: el transformado de

XY B1 B2 ... Bk X Y B1 B2 ... Bk

Ejemplo: Titul.Sexo Hombre Mujer

XY B1 B2 ... Bk XY B1 B2 ... Bk

Las frecuencias absolutas de X/(Y = Bj ) son las de la columna correspondiente a Bj .