Está en la página 1de 20

1.

ESTADÍSTICA DESCRIPTIVA

Población es cualquier conjunto de datos, objetivo de nuestro interés, que caracteriza un fenómeno
que nos interesa.
Muestra es un subconjunto de una población determinada. Interesan aquellas muestras que repre-
sentan fielmente a la población.
Las palabras población y muestra se utilizan también para designar al propio conjunto de
individuos u objetos que se someten a estudio.
• La Estadı́stica Descriptiva es la rama de la Estadı́stica dedicada a la recopilación de los datos
y su reducción a unas pocas medidas numéricas y representaciones gráficas, a fin de comprender y
expresar las caracterı́sticas de ese conjunto de datos.
• La Inferencia Estadı́stica tiene por objeto obtener conclusiones sobre la población a partir
de las observaciones realizadas sobre una muestra. Su instrumento matemático es el Cálculo de
Probabilidades.

1.1. Variables estadı́sticas


El carácter o caracterı́stica que nos interesa estudiar se denomina variable estadı́stica, y se denota
por una letra mayúscula: X, Y, Z,. . . Se distinguen los siguientes tipos de variables:
Variables cualitativas o atributos: Describen cualidades y no toman valores numéricos. Sus
posibles resultados se llaman modalidades. Ej: La variable gusto puede presentar cuatro
modalidades: dulce, amargo, salado y ácido. La variable sexo, dos: hombre y mujer.
Las variables cualitativas se dividen en:
Ordinales, si existe gradación o jerarquı́a entre sus diferentes modalidades. Ej: Nivel de
estudios, grado de satisfacción, . . .
Nominales, en caso contrario. Ej: Provincia de nacimiento, paı́s de fabricación, clasificación
de una pieza como aceptable o defectuosa, . . .

Variables cuantitativas: toman valores numéricos. A su vez, pueden ser:

Discretas: Sólo toman un número finito o infinito numerable de valores distintos (general-
mente números naturales o enteros). Ej: Número de unidades de producto compradas
en un mes, número de entradas de cine vendidas en una semana, resultado de lanzar un
dado, número de hijos, número de averı́as de una máquina en un año. . .
Continuas: Toman valores en un intervalo de IR. Corresponden a magnitudes continuas,
como peso, altura, temperatura, intensidad de corriente, tiempo entre dos llamadas te-
lefónicas, tiempo entre dos averı́as de una máquina, etc. Sus valores no son observables
con exactitud, puesto que las observaciones dependen de la precisión del instrumento de
medida.
E I I – UVa. Departamento de Matemática Aplicada. Curso 2019-20. 2

Cuando los datos se observan con una pauta fija (cada hora, semana, etc.), constituyen una serie
temporal, y su análisis requiere técnicas especiales, que tengan en cuenta el orden de los datos. En
este curso no nos ocuparemos del aspecto temporal, considerando el orden de los datos irrelevante.

1.2. Presentación de los datos


La forma más elemental de presentar los datos es por medio de una matriz en la que aparecen en
la primera columna los individuos (o casos), representados de alguna forma (en muchas ocasiones
se suele prescindir de esta columna) y en las restantes columnas las observaciones de las distintas
variables (o caracterı́sticas) en estudio para cada uno de los individuos. Se la conoce como matriz
de datos. (Presentación tı́pica de hoja de cálculo)
edad especialidad sexo
Ejemplo:
Individuo 1 21 Estructuras mujer
Individuo 2 19 Construcción de Maqu. hombre
Individuo 3 19 Construcción de Maqu. hombre
Individuo 4 18 Estructuras mujer
Individuo 5 20 Construcción de Maqu. hombre
.. .. .. ..
. . . .

Cuando se estudia una sola variable, otra forma usual de presentar los datos es por medio de
una matriz en la que cada valor corresponde a un individuo de la población.
Ejemplo: Edades de 40 individuos encuestados:

12 17 16 23 39 32 23 33
36 23 23 15 36 26 17 24
11 34 37 24 17 39 19 31
16 11 13 40 34 18 14 29
33 14 26 26 26 31 35 18

Agrupación en clases

En ocasiones, y con objeto de facilitar la toma o presentación de datos cuantitativos, estos se


agrupan en intervalos o clases. Por ejemplo, es más sencillo anotar cuántos individuos hay en una
muestra con una estatura entre 1,75 y 1,80 m., que anotar exactamente la estatura de cada uno.
Al agrupar los datos en clases se produce cierta pérdida de información, por lo que es preferible
tratar los datos sin agrupar, salvo para algunos resúmenes gráficos, cuando la variable sea continua
o cuando, siendo discreta, tome gran cantidad de valores diferentes.
En general, es recomendable que todas las clases sean de la misma longitud. Para elegir un
número k de clases adecuado (habitualmente, entre 5 y 20 ó 25 clases, y de forma que ninguna
contenga menos de 5 datos) pueden usarse como criterios orientativos:

k ≃ N , si el número de datos, N , es relativamente pequeño,
k ≃1+ 10
3 log10 N (Fórmula de Sturges), si N es grande.

Utilizaremos clases con la siguiente forma: (L0 , L1 ], (L1 , L2 ], . . . (Lk−1 , Lk ], garantizando que
las clases sean disjuntas (un dato no puede estar en dos clases a la vez), exhaustivas, es decir,
que abarquen todos los posibles valores de la variable, y que estén ordenadas de menor a mayor.
E I I – UVa. Departamento de Matemática Aplicada. Curso 2019-20. 3

Asociados a las clases o intervalos se tienen los siguientes elementos:

Lı́mites: Li−1 , Li (lı́mite inferior y lı́mite superior, respectivamente).

Amplitud de la clase: bi = Li − Li−1 .

Marca de la clase: ci = Li +2Li−1

A veces, el primer y último intervalo, tienen respectivamente, el extremo inferior y superior


indeterminados, con objeto de incluir observaciones poco frecuentes.

Ejemplo de agrupación en clases:

Edades de 40 individuos encuestados: Clases N o de datos


(10, 15 ] 7
12 17 16 23 39 32 23 33 (15, 20 ] 8
36 23 23 15 36 26 17 24 −→ (20, 25 ] 6
11 34 37 24 17 39 19 31 (25, 30 ] 5
16 11 13 40 34 18 14 29 (30, 35 ] 8
33 14 26 26 26 31 35 18 (35, 40 ] 6

En este caso el número de clases es 6, los lı́mites son 10, 15, 20, 25, 30, 35 y 40; la amplitud en
todas las clases es 5, y las marcas son, respectivamente: 12.5, 17.5, 22.5, 27.5, 32.5 y 37.5.

1.3. Tablas de frecuencias


A partir de ahora vamos a considerar que manejamos una sola variable estadı́stica, X. Ello corres-
ponde a tratar con una de las columnas de la matriz de datos ya vista.

Para resumir la información que ofrecen nuestros datos, utilizaremos los siguientes elementos:
Frecuencia total: Número total de individuos observados o número total de datos, N.

Frecuencia absoluta de la modalidad Mi (valor xi o intervalo Ii ), es el número de individuos o


datos que presentan esta modalidad, ni .
ni
Frecuencia relativa de la modalidad Mi (valor xi o intervalo Ii ), es el cociente fi = .
N

Frecuencia absoluta acumulada hasta la modalidad Mi , (valor xi o intervalo Ii ): Número de


individuos o de datos, Ni , que presentan una modalidad menor o igual que ésta.

i
Ni = n1 + n2 + · · · + ni = nj
j=1

.
Frecuencia relativa acumulada hasta la modalidad Mi , (valor xi o intervalo Ii ): Es el cociente:
Ni ∑
i
Fi = ; o bien Fi = f1 + f2 + · · · + fi = fj .
N j=1

Las dos últimas definiciones solo tienen sentido cuando la variable es cuantitativa, o al menos,
ordinal.
E I I – UVa. Departamento de Matemática Aplicada. Curso 2019-20. 4

Dar la distribución de frecuencias de la variable estadı́stica X significa dar las distintas moda-
lidades de la variable y las correspondientes frecuencias (absolutas, relativas, absolutas acumuladas
o relativas acumuladas) de cada modalidad. Habitualmente, esto se hace por medio de tablas:

En la primera columna aparecen las distintas moda-


Mi ni fi Ni Fi
M1 n1 f1 N1 F1
lidades de la variable (ordenadas de menor a mayor,
M2 n2 f2 N2 F2 si la variable lo admite); en las restantes columnas
.. .. .. .. .. se dan las frecuencias absolutas, relativas, absolutas
. . . . .
Mk nk fk Nk = N Fk = 1 acumuladas y relativas acumuladas (éstas dos últimas,
cuando tengan sentido).


k ∑
k
Es importante observar que se cumple: ni = N = N k y también fi = 1 = Fk .
i=1 i=1

Las frecuencias relativas y las frecuencias relativas acumuladas dan información sobre porcentajes:

100fi % es el tanto por ciento de datos o individuos que están en la modalidad Mi .


100Fi % es el tanto por ciento de datos o individuos que están en las modalidades M1 , M2 , . . . Mi .

Tablas para datos agrupados:


(Li−1 , Li ] ci ni fi Ni Fi
Cuando los datos aparecen agrupados por clases, se (L0 , L1 ] c1 n1 f1 N1 F1
habla de frecuencias absolutas, relativas, absolutas (L1 , L2 ] c2 n2 f2 N2 F2
.. .. .. .. .. ..
acumuladas y relativas acumuladas de cada clase. . . . . . .
(Lk−1 , Lk ] ck nk fk Nk Fk

En el ejemplo anterior:
(Li−1 , Li ] ci ni fi Ni Fi
(10, 15 ] 12,5 7 0,175 7 0,175
(15, 20 ] 17,5 8 0,200 15 0,375
(20, 25 ] 22,5 6 0,150 21 0,525
(25, 30 ] 27,5 5 0,125 26 0,650
(30, 35 ] 32,5 8 0,200 34 0,850
(35, 40 ] 37,5 6 0,150 40 1,000

La marca de clase sirve como valor representativo de todos los datos del intervalo; incluso en el
caso (como aquı́ sucede) de que no sea un valor posible de la variable.

Para evitar ambigüedades, al escribir una tabla es conveniente:


Indicar la unidad de medida de cada variable.

Indicar con un 0 los valores con frecuencia 0. (Evitar las rayas, cuya interpretación es de falta
de información sobre la frecuencia del valor).

Escribir todos los datos con igual número de decimales.


E I I – UVa. Departamento de Matemática Aplicada. Curso 2019-20. 5

1.4. Representación gráfica de variables estadı́sticas unidimensionales


La forma de representar gráficamente una distribución de frecuencias va a depender del tipo de
variable considerada.

Caso de variables cualitativas y de var. cuantitativas con pocos valores distintos


TIPO frecuencias
Ilustraremos las principales formas de representación deportivo 14
gráfica utilizando los datos sobre tipo de vehı́culos que furgoneta 9
se recogen en la tabla de la derecha: gran turismo 11
monovolumen 16
pequeño 21
tamaño medio 22

• Diagrama de barras.
Se construyen tantos rectángulos como modalidades presente la variable en estudio, todos ellos con
base de igual amplitud (la que sea), y altura proporcional a la frecuencia absoluta o relativa (según
cuál se quiera representar). Las áreas de los distintos rectángulos resultan ası́ proporcionales a las
frecuencias.

• Diagrama de Pareto
Es un diagrama de barras en el que los rectángulos se presentan en orden decreciente de altura. Solo
pueden aplicarse a variables cualitativas cuyas modalidades no estén sujetas a otro tipo de orde-
nación (es decir, variables nominales). Se complementa con un polı́gono de frecuencias acumuladas
que tiene sus vértices en la prolongación de los costados derechos de las barras.
Muy usado en control de calidad y procesos para identificar fácilmente las causas que originan
mayor número de problemas en el proceso de producción.
E I I – UVa. Departamento de Matemática Aplicada. Curso 2019-20. 6

• Diagrama de sectores
Consiste en un cı́rculo dividido en tantos sectores circulares como modalidades presente la variable
cualitativa; cada sector circular ocupa un área proporcional a la frecuencia absoluta (o relativa) de
su correspondiente modalidad.

Caso de variables cuantitativas que toman muchos valores distintos

• Histograma
Es la representación gráfica más usual para un conjunto de datos previamente agrupados en clases.
Es una figura formada por rectángulos adyacentes construidos de la siguiente forma:
- Sobre el eje horizontal se marcan los lı́mites de las clases.
- Como eje vertical, se tiene una escala de alturas.
- Sobre cada clase se eleva un rectángulo de altura hi de de tal forma que las áreas de los
rectángulos sean proporcionales a las frecuencias relativas de las clases. El valor de hi se obtiene
despejando en la igualdad (Li − Li−1 )hi = λfi .
En particular, usando λ = 1 se obtiene un histograma con área total igual a 1 [¿por qué?].
Obviamente, cuando todas las clases tienen igual longitud la proporcionalidad entre áreas y
frecuencias se logra sin más que hacer hi = fi .

Ejemplo: Con los datos ya vistos de las edades de 40 individuos se obtiene el histograma:
E I I – UVa. Departamento de Matemática Aplicada. Curso 2019-20. 7

Ejemplo: La tabla siguiente nos da una distribución de frecuencias en clases que no tienen la
misma longitud:

En este caso, un histograma correcto tendrı́a un primer rectángulo


(Li−1 , Li ] ci ni
de altura 32 λ y un segundo rectángulo de altura 43 λ, donde λ es
(1,5 , 3,5 ] 2,5 3
un número real positivo cualquiera. Por ejemplo, para λ = 42, el
(3,5 , 6,5 ] 5 4
histograma serı́a:

9
8

1,5 3,5 6,5

• Polı́gono de frecuencias acumuladas


Puede ser de frecuencias acumuladas absolutas o relativas; recordemos que estas últimas siempre
son más fácilmente interpretables y equivalen a informar sobre porcentajes acumulados.
Se trata del polı́gono que tiene como primero de sus vértices al punto del eje OX que coincide con
lı́mite inferior del primer intervalo y, como restantes vértices, los puntos (Li , Fi ) que se encuentran
en la vertical del lı́mite superior de cada clase, a una altura igual a la frecuencia relativa acumulada
en esa clase. (O bien, las construcciones análogas usando Ni o 100 Fi como valores de ordenada)
Esta gráfica, que se conoce como ojiva de frecuencias, es siempre creciente, y se prolonga en
una meseta horizontal a altura 1 (o, en su caso, altura N , o bien, altura 100).

• Diagrama de tallo-hojas. (Stem and leaf)


Se trata de un procedimiento semi-gráfico de presentar la información de variables cuantitativas,
útil cuando el número de datos es relativamente pequeño. Los pasos para su construcción son:

1. Expresar los datos en unidades convenientes, redondeados a dos o tres cifras significativas y
ordenados de menor a mayor.

2. Colocarlos en una tabla con dos columnas separadas por una lı́nea como sigue:
- Para los datos con dos dı́gitos, escribir a la izquierda de la lı́nea los dı́gitos de las decenas
(que forman el tallo) y a la derecha los de las unidades (que forman las hojas).
E I I – UVa. Departamento de Matemática Aplicada. Curso 2019-20. 8

- Para datos con tres dı́gitos, el tallo estará formado por las centenas y decenas, escritos a la
izquierda, y las hojas serán las unidades.

Cada tallo define una clase y se escribe una sola vez; todos los datos que comparten tallo se
colocan en la misma lı́nea que tendrá, pues, tantas hojas como sea la frecuencia de dicha clase.
Ejemplo: Para el ejemplo de las edades, el diagrama de tallo-hojas serı́a:

15 1 1 1 2 3 4 4 5 6 6 7 7 7 8 8 9
(11) 2 3 3 3 3 4 4 6 6 6 6 9
14 3 1 1 2 3 3 4 4 5 6 6 7 9 9
1 4 0
Los números que aparecen a la izquierda se llaman profundidades e indican las frecuencias
acumuladas, en orden creciente o decreciente según que se lea desde arriba o desde abajo, hasta
llegar al número que aparece entre paréntesis, que indica la frecuencia del tallo al que acompaña y
que es el que contiene al dato situado en la posición central.
A veces, para obtener mayor claridad, conviene subdividir los tallos repartiendo sus hojas en
dos lı́neas (con las hojas del 0 al 4 y del 5 al 9, respectivamente), o incluso en cinco lı́neas: las hojas
0 y 1 en la primera, las hojas 2 y 3 en la segunda, etc.

Ejemplo: Rehacemos el anterior diagrama 6 1 1 1 2 3 4 4


15 1 5 6 6 7 7 7 8 8 9
desdoblando los tallos.
(6) 2 3 3 3 3 4 4
19 2 6 6 6 6 9
Puede observarse que, si se gira el diagrama,
14 3 1 1 2 3 3 4 4
se obtiene una apariencia similar a la del his-
7 3 5 6 6 7 9 9
tograma correspondiente. 1 4 0

1.5. Medidas caracterı́sticas de una distribución unidimensional


En esta sección se definen algunos valores numéricos que proporcionan información sobre cómo se
distribuye un conjunto de datos homogéneo. Estas medidas además, permiten comparar distribu-
ciones y, mediante las técnicas de la inferencia, obtener conclusiones sobre la población a partir de
una muestra representativa.

1.5.1. Medidas de posición de tendencia central

Proporcionan valores en torno a los cuales tienden a agruparse los datos.

Media, o promedio, o media aritmética ( x̄ ).



N
xi
Si x1 , . . . , xN son los datos directos de la variable, entonces: x̄ =
N
i=1
xi ni fi
x1 n1 f1 ∑
k
xi ni

k
Si se parte de la tabla de frecuencias x2 n2 f2 entonces: x̄ = = xi fi
.. .. .. N
. . . i=1 i=1
xk nk fk
E I I – UVa. Departamento de Matemática Aplicada. Curso 2019-20. 9

A partir de datos agrupados en clases únicamente puede hallarse un valor aproximado de la


media:
∑k c n
i i ∑
k
x̄ ≃ = ci fi .
i=1 N i=1

La media puede verse como el centro de gravedad o centro geométrico de los datos, puesto que las
desviaciones positivas y negativas de los datos directos respecto de ella se encuentran en equilibrio;

N
es decir, dan suma cero: (xi − x̄) = 0 . Ejercicio: Demostrar esta igualdad.
1

Mediana (Me). Se define como el valor tal que, colocados los datos en orden creciente, ocupa la
posición central, es decir, hay tantos datos que son menores o iguales que él como datos que
son mayores o iguales que él.

Para calcular la mediana de un conjunto de datos, en primer lugar hay que ordenarlos de
menor a mayor; la notación x(1) , x(2) , . . . , x(N ) indica que los datos ya están colocados en
orden.
x + x((N/2)+1)
Si el número de datos, N , es par, entonces Me = (N/2) .
2
Si el número de datos es impar, entonces Me = x((N +1)/2) .

Moda: Se define como el valor o los valores más frecuentes de la variable, es decir, a los que
corresponde la mayor frecuencia.
Cuando los datos están agrupados por clases, no puede determinarse qué valor es la moda;
en este caso llamaremos clase modal a aquella a la que corresponde la mayor altura en el
histograma (que no tiene por qué coincidir con la clase de mayor frecuencia).

Comparación entre las medidas de tendencia central


La media utiliza toda la información disponible, pues tiene en cuenta el valor de todos los datos.
En cambio, la mediana sólo tiene en cuenta la posición y no el valor.
Por esa misma razón, la media es muy sensible a valores extremos. Por ello, un error en los
datos puede modificarla por completo. Ası́, por ejemplo:
•Para los datos 10, 15, 21, 50, la media es 24, desplazada hacia el valor 50 que es un valor
extremo.
• Si
los datos correctos hubiesen sido 10, 15, 21, 20, la media serı́a 16.5. Sin embargo, la mediana
queda menos afectada por ese dato extremo: en el primer caso serı́a 18 y en el segundo, 17.5.

Media calculada a partir de medias de subgrupos


A veces, el conjunto de datos está dividido en subgrupos disjuntos (por ejemplo, los individuos
de una clase divididos en hombres y mujeres), y se conoce la media de una caracterı́stica en cada
subgrupo. Si x̄1 , x̄2 , . . . , x̄s son las medias en s subgrupos que tienen n1 , n2 , . . . , ns individuos cada
uno, entonces la media total será:
n1 x̄1 + n2 x̄2 + · · · + ns x̄s
x̄ =
n1 + n2 + · · · + ns
Ejercicio: Demostrar la fórmula anterior.
E I I – UVa. Departamento de Matemática Aplicada. Curso 2019-20. 10

1.5.2. Otras medidas de posición: los percentiles.

Para cada valor p ∈ (0, 1), se denomina percentil 100×p, y se denota por qp , al valor de la variable
que divide a la distribución de frecuencias en dos partes, de forma que al menos el 100 p % de los
datos son menores o iguales que qp , y al menos el 100 (1− p) % de los datos son mayores o iguales
que qp .
• Cálculo de los percentiles:
Datos discretos sin agrupar: 

 x([pN ]+1) si pN no es entero
qp =
 x
 (pN )
+ x(pN +1)
si pN es entero,
2
donde [pN ] denota la parte entera de pN .

Datos agrupados en clases (desconociendo el valor de los datos): Podemos hallar el valor
aproximado de qp , tomando el valor del eje X en el que el polı́gono de frecuencias relativas
acumuladas tiene por altura p: A la vista de F1 , F2 , . . . , Fk , se toma i ∈ {1, 2, . . . k} para el que
sea Fi−1 ≤ p < Fi (se considera F0 = 0). Entonces, el percentil 100×p será:
p − Fi−1
qp = Li−1 + bi
fi

Se denomina cuartiles a los percentiles que dividen a la distribución en 4 partes iguales, es decir,
- el percentil 25, llamado primer cuartil, y denotado por Q1 .
- el percentil 50, que es la mediana. Se denota, también, por Q2 .
- el percentil 75, llamado tercer cuartil, y denotado por Q3 .
Se denomina deciles a los percentiles que dividen a la distribución en 10 partes iguales. Se denotan
por d1 , d2 , . . . , d9 , siendo di = q i , esto es, el percentil 10×i, para i = 1, 2, · · · , 9.
10

1.5.3. Medidas de dispersión

Estas medidas indican lo próximos o alejados que están los datos, bien entre sı́, o respecto a alguna
medida de centralización.
Rango o recorrido: Es la diferencia entre el mayor y el menor dato,esto es: x(N ) − x(1) .

El recorrido es fácil de calcular; sin embargo, presenta el inconveniente de ser una medida
muy sensible a valores extremos.

Varianza (s2 ) La varianza de los datos directos x1 , x2 , . . . , xN se define como el valor:



N
(xi − x̄)2
( 1 ∑
N )
2
s = = x2i − x̄ 2 .
N N i=1
i=1

Si los datos vienen dados por medio de una tabla de frecuencias, entonces


k
(xi − x̄)2 ni ∑ k
s2 = = (xi − x̄)2 fi
i=1
N i=1
Observación: La varianza no tiene las mismas unidades que la variable.
E I I – UVa. Departamento de Matemática Aplicada. Curso 2019-20. 11

En inferencia se suele utilizar otra medida, llamada cuasivarianza o varianza corregi-


da(s2c ) y que, para los datos directos x1 , x2 , . . . , xN , se define como el valor:

N
(xi − x̄)2
s2c = .
N −1
i=1

De la igualdad N s2 = (N − 1) s2c se sigue que, cuando N es grande, la cuasivarianza y la


varianza tienen valores muy parecidos.

Observación: En muchos programas de software estadı́stico (Statgraphics, entre ellos), se


llama varianza a la cuasivarianza .

Desviación tı́pica, o desviación estándar (s). Es simplemente la raı́z cuadrada de la varianza.


v
u N
u ∑ (xi − x̄)2
Para los datos directos x1 , x2 , . . . , xN , es s = t .
N
i=1 v
u k
u∑
Si los datos vienen dados por medio de una tabla de frecuencias: s = t (xi − x̄)2 fi .
i=1
v
u N
u ∑ (xi − x̄)2
Se define también la cuasidesviación tı́pica: sc = t .
i=1
N −1

A diferencia de la varianza, la desviación estándar se expresa en las mismas unidades que


la variable, dando una idea más precisa de la variabilidad respecto de la media. Cobra gran
importancia por su papel en teorema siguiente.

Teorema (Desigualdad de Chebychev): Sea X una variable estadı́stica y sea k ≥ 1. Entonces,


[ ]
en el intervalo x̄ − ks, x̄ + ks se halla más del (1 − 12 )100 % de las observaciones.
k
[ ]
En otras palabras: la frecuencia relativa del intervalo x̄ − ks, x̄ + ks es mayor que 1 − 12 .
k

Demostración: Denotaremos por fr la frecuencia relativa de un conjunto de datos, y por


x1 , x2 , . . . , xN los valores directos de la variable X.
Sean A1 = {xi : |xi − x̄| > ks} y A2 = {xi : |xi − x̄| ≤ ks}. A partir de la definición de
varianza, se obtienen las siguientes desigualdades:

N
(xi − x̄)2 ∑ (xi − x̄)2 ∑ (xi − x̄)2
s2 = = + ≥
N N N
i=1 xi ∈A1 xi ∈A2

∑ (xi − x̄) ∑ (ks)


2 2
≥ > = (ks)2 fr (A1 )
N N
xi ∈A1 xi ∈A1

1
Despejando, se obtiene: fr (A1 ) < k2 . Como fr (A1 ) + fr (A2 ) = 1, se tiene que
( )
1
fr (A2 ) = fr {xi : |xi − x̄| ≤ ks} > 1 − 2 ;
k
traduciendo ahora la frecuencia relativa a porcentaje, se obtiene el resultado.

Ejemplo: Siempre podemos asegurar que en el intervalo [x̄ − 2s, x̄ + 2s] se encuentra como
mı́nimo el 75 % de los datos, y en el intervalo [x̄ − 3s, x̄ + 3s], como mı́nimo el 89 % de los datos.
E I I – UVa. Departamento de Matemática Aplicada. Curso 2019-20. 12

Rango intercuartı́lico (IQR). Se define como la diferencia entre el primer y el tercer cuartil:
IQR = Q3 − Q1 .
El rango intercuartı́lico mide, pues, la amplitud del intervalo en el que se encuentra el 50 %
central de los datos.

1.5.4. Medidas de posición y de variación utilizadas para comparar conjuntos de datos

Valores o puntuaciones z . Expresan la posición relativa de un dato respecto del conjunto. Se


xi − x̄
define el valor z del dato xi como el valor: zi = s .
Nos indica cuántas desviaciones tı́picas se aleja el dato respecto de la media.

Coeficiente de variación (CV ). Para datos todos positivos o todos negativos, se define el co-
s
eficiente de variación de Pearson de la variable estadı́stica X como el cociente: CV = .
| x̄ |
Es una medida adimensional de la variabilidad relativa, pues considera la variabilidad de los
datos en relación al tamaño de su media (no es lo mismo una variabilidad de 200 euros en
ganancias del orden de 1000 euros, que en ganancias del orden de 1 millón). Por ello, es la
medida adecuada para comparar la variabilidad de dos conjuntos de datos distintos.

1.5.5. Otras caracterı́sticas observables de una distribución de datos

Asimetrı́a Diremos que una distribución es simétrica si la representación gráfica de su distribu-


ción de frecuencias presenta simetrı́a respecto de un eje vertical que pase por el punto x̄. En
este caso, la mediana coincide con x̄.
Las medidas de asimetrı́a existentes son válidas para las distribuciones con forma de campana
(distribuciones unimodales simétricas o con cierta asimetrı́a) y para las que tienen forma de
U. Las distribuciones campaniformes asimétricas se clasifican en asimétricas positivas (o con
cola a la derecha y asimétricas negativas (o con cola a la izquierda); el valor de x̄ − M e
proporciona información del tipo de asimetrı́a:

Apuntamiento o curtosis Llamamos curtosis o apuntamiento al grado de concentración de los


datos alrededor de la media.

Las medidas de curtosis se aplican a distribuciones campaniformes y toman como modelo


de referencia la llamada distribución normal, que corresponde a fenómenos muy corrientes
en la naturaleza y se representa mediante una campana de Gauss. La distribución normal
implica que la mayorı́a de los valores de la variable están cerca de la media, y aquellos que se
encuentran muy distanciados de ella, a ambos lados, son poco numerosos.
E I I – UVa. Departamento de Matemática Aplicada. Curso 2019-20. 13

Una distribución se llama leptocúrtica si es más apuntada que la normal, y platicúrtica si


lo es menos que la normal. La distribución normal se dice que es mesocúrtica.

platicúrtica mesocúrtica leptocúrtica

1.6. Diagramas de caja o Box-Plot


Son una representación semigráfica de la distribución, que permite observar las caracterı́sticas
principales de la distribución (asimetrı́a, apuntamiento, variabilidad. . . ), y detectar posibles valo-
res atı́picos.

Pasos para construcción del Box-Plot


1. Ordenar los datos de menor a mayor y obtener los cuartiles Q1 , Q2 y Q3 . Se obtienen también
otros dos valores, llamados lı́mite inferior (LI) y lı́mite superior (LS), dados por:
LI = Q1 − 1,5 IQR
LS = Q3 + 1,5 IQR

2. A continuación se sitúan en un eje graduado estos 5 valores y tomando como base el segmento
[Q1 , Q3 ] se dibuja un rectángulo con altura arbitraria; en él se indica la posición de la mediana,
mediante una lı́nea vertical que divida al rectángulo.

3. Desde el centro de los lados verticales del rectángulo se dibujan sendas lı́neas hasta el menor
dato mayor o igual que LI y el mayor dato menor o igual que LS (es decir, los datos más
extremos del intervalo [LI , LS]).

4. Los datos que queden fuera del intervalo [LI , LS] se marcan con un punto o un asterisco, a la
altura de las dos lı́neas dibujadas. Se denominan datos atı́picos y se clasifican en próximos
y lejanos, según estén en [Q1 − 3 IQR , Q3 + 3 IQR] o aún más alejados.

Ejemplo: Para los datos de la edad, los cinco valores son: Q1 = 17, Q3 = 33, M e= 24, LI = −7
y LS = 57, y el gráfico:
E I I – UVa. Departamento de Matemática Aplicada. Curso 2019-20. 14

Ejemplo: Distancia de frenado en metros, en automóviles conducidos sobre una pista húmeda
(mismo automóvil y velocidad en todos los casos).

35.8 30.5 35.9 41.6 35.9


39.2 41.9 38.6 39.2 37.3
35.3 37.3 35.6 38.0 36.7
40.1 36.1 37.0 39.5 38.3

Para los datos de la distancia de frenado, los cinco valores son: Q1 = 35,9, Q3 = 39,2, Me = 37,3,
LI = 30,95 y LS = 44,15, y el diagrama es:

1.7. Datos atı́picos en distribuciones univariantes


Son datos que se alejan del conjunto global de datos, por ser inusualmente grandes o pequeños.
Pueden ser datos reales, como una puntuación de 10 en un examen en el que la mayorı́a de las
puntuaciones están entre 3 y 6, o la estatura de un individuo que mide 2m 10cm, en una clase de
individuos con estaturas normales. También en ocasiones, aparecen como consecuencia de haber
registrado de forma incorrecta un dato.
No existe un criterio único para determinar qué datos han de ser considerados atı́picos; dos de
los criterios más usuales son:
El asociado al diagrama de caja: Llamamos atı́picos a aquellos datos que están fuera del in-
tervalo [LI , LS]. En el ejemplo de la distancia de frenado, serı́a atı́pico el dato 30,5.

El criterio de 3s: Se considera atı́pico todo dato que se aleje más de 3s de la media de la muestra.
Recordemos que, según la desigualdad de Chebysev, al menos el 88,89 % de los datos está en
el intervalo [x̄ − 3s, x̄ + 3s]. En el ejemplo de la distancia de frenado, con este criterio no
existirı́an datos atı́picos, como puede comprobarse.

1.8. Transformaciones de una variable


El objetivo de la descripción de datos es obtener una visión lo más clara posible de los datos, por
ello, en muchas ocasiones será necesario hacer traslaciones o cambios de escala para obtener datos
lo más simples y manejables posible. En otras ocasiones, como los principales métodos estadı́sticos
son aplicables sólo a distribuciones simétricas, nos interesará transformar unos datos asimétricos
en otros que no lo sean tanto.
E I I – UVa. Departamento de Matemática Aplicada. Curso 2019-20. 15

Las transformaciones lineales son las del tipo Y = aX + b con a, b ∈ IR; a ̸= 0. Corresponden
a traslaciones y cambios de escala; por tanto, producen cambios en cuanto a posición y dispersión,
pero no varı́an la forma de la distribución.
Los datos directos x1 , x2 , . . . , xN se transforman mediante yi = axi + b en los datos y1 , y2 , . . . , yN .

Se verifican las siguientes propiedades:

1. ȳ = ax̄ + b

N
yi ∑
N
axi + b ∑
N
xi
En efecto: ȳ = = = a + b = ax̄ + b
N N N
i=1 i=1 i=1

2. s2Y = a2 s2X y, en consecuencia, sY = |a| sX


N N (

)2

N
(yi − ȳ)2 axi + b − (ax̄ + b) (xi − x̄)2
En efecto: s2Y = = = a 2
= a2 s2X
N N N
i=1 i=1 i=1

{
Si a > 0, q p (Y ) = a q p (X) + b
3. M e(Y ) = a M e(X) + b y, más generalmente,
Si a < 0, q p (Y ) = a q 1−p (X) + b

Con a > 0 la transformación es creciente y los datos conservan su orden: el transformado de


qp (X) continúa dejando el 100p % de los datos a su izquierda; por el contrario, con a < 0 el
orden se invierte, de modo que el transformado de qp (X) ahora tendrá a su derecha el 100p %
de los datos.
En particular, los cuartiles de X se transforman siempre en cuartiles de Y, aunque
intercambian el subı́ndice si es a < 0.

4. IQR(Y ) = |a| IQR(X)

5. M oda(Y ) = a M oda(X) + b

Las transformaciones no lineales más usuales son:


√ 1
Y = X 2, Y = X, Y = ln X, . Y=
X
Estas transformaciones, además de cambios en la posición y dispersión, producen también cambios
en la forma; se utilizan principalmente para promover simetrı́a.

1.9. Estadı́stica Descriptiva Bivariante


Es habitual que una misma población presente múltiples variables de interés, de modo que al
observar todas ellas sobre un mismo individuo obtenemos datos multivariados. Aparte de poder
describir cada variable por separado, reviste gran importancia el estudio bivariante, o estudio
conjunto de dos variables X e Y, destinado a explorar la posible existencia de alguna relación entre
ellas según la cual, determinados valores de una suelan aparecer preferentemente asociados con
determinados valores de la otra.
E I I – UVa. Departamento de Matemática Aplicada. Curso 2019-20. 16

El modo de proceder será diferente según que se trate de dos variables cuantitativas, de una
cualitativa y otra cuantitativa, o de dos cualitativas.

1.9.1. Estudio de dos variables cualitativas. Tablas de doble entrada

Vamos a denotar por X e Y las variables estadı́sticas objeto de estudio; A1 , A2 , .., Al serán las
modalidades de la variable X; B1 , B2 , ..., Bk las modalidades de la variable Y . Se denomina:
Frecuencia total al número total de individuos observados, N.

Frecuencia absoluta del par (Ai , Bj ): Número de individuos, nij , de entre los N , que poseen
la modalidad Ai de X, y la modalidad Bj de Y a la vez.
nij
Frecuencia relativa del par (Ai , Bj ): Es el cociente fij = N .

La distribución conjunta de X e Y se dispone en una tabla de doble entrada que recoge las distin-
tas modalidades de las variables (ordenadas de menor a mayor, si lo admiten) y las correspondientes
frecuencias (absolutas o relativas, y a veces ambas) con que aparece cada par (Ai , Bj ).

XY B1 B2 ... Bk X Y B1 B2 ... Bk


A1 n11 n12 ... n1k A1 f11 f12 ... f1k
A2 n21 n22 ... n2k A2 f21 f22 ... f2k
.. .. .. .. ... .. .. .. .. ..
. . . . . . . . .
Al nl1 nl2 ... nlk Al fl1 fl2 ... flk
N 1


l ∑
k ∑
l ∑
k
Claramente, se verifican las igualdades: nij = N y fij = 1
i=1 j=1 i=1 j=1

Este procedimiento también sirve para variables discretas con pocos valores distintos. Si las dos
variables X e Y son cualitativas, la tabla recibe el nombre de tabla de contingencia.

Ejemplo: Titul.Sexo Hombre Mujer

Eléctrico 27 5 32
Distribución de 285 alumnos de Segundo Curso 0.095 0.018 0.112
de I.T.I. por titulación y sexo. Electrónico 85 22 107
0.298 0.077 0.375
Mecánico 90 23 113
Se dan las dos distribuciones conjuntas (la de
0.316 0.081 0.396
frecuencias absolutas y la de frecuencias relati-
Quı́mico 19 14 33
vas) y, en los márgenes, las distribuciones de la 0.067 0.049 0.116
variable Titulación y de la variable Sexo.
221 64 285
0.775 0.225 1
E I I – UVa. Departamento de Matemática Aplicada. Curso 2019-20. 17

Distribuciones marginales

A partir de la distribución conjunta de las variables X e Y es posible obtener la distribución de


frecuencias cada una de las variables individualmente considerada, anotando en los márgenes de la
tabla la suma de los valores de cada fila y de cada columna:

XY B1 B2 ... Bk XY B1 B2 ... Bk


A1 n11 n12 ... n1k n1 . A1 f11 f12 ... f1k f1 .
A2 n21 n22 ... n2k n2 . A2 f21 f22 ... f2k f2 .
.. .. .. .. .. .. .. .. .. .. .. ..
. . . . . . . . . . . .
Al nl1 nl2 ... nlk nl . Al fl1 fl2 ... flk fl .
n.1 n.2 ... n.k N f.1 f.2 ... f.k 1

• Las frecuencias absoluta y relativa de la modalidad Ai de la variable X son, respectivamente:



k ∑
k
ni . = nij fi . = fij
j=1 j=1

• Las frecuencias absoluta y relativa de la modalidad Bj de la variable Y son, respectivamente:



l ∑
l
n.j = nij f.j = fij
i=1 i=1

Las distribuciones marginales de X e Y son distribuciones univariantes; por tanto, se les aplica
todo lo estudiado en las secciones anteriores . En particular, si son variables cuantitativas, tendrán
asociada media, varianza, etc.

Ejemplo: La distribución marginal de Titulación, como ya se vio, es:

Titulación Eléctrico Electrónico Mecánico Quı́mico


Frecuencia 32 107 113 33
Frecuencia relativa 0.112 0.375 0.396 0.116

Y la de Sexo: Sexo Hombre Mujer


Frecuencia 221 64
Frecuencia relativa 0.775 0.225

Distribuciones condicionadas

Se define la distribución condicionada de Y cuando X = Ai , o distribución de Y condicionada


a Ai , y se denota por Y /(X = Ai ) , como la distribución de la variable Y sobre los elementos de la
población que tienen la caracterı́stica Ai .
Del mismo modo, se define la distribución de X condicionada a Bj , y se denota X/(Y = Bj ) ,
como la distribución de X sobre los elementos de la población que tienen la caracterı́stica Bj .
Es fundamental observar que, para las distribuciones condicionadas, la población objeto de
estudio no es la misma que la de partida: contiene solamente a los individuos que satisfacen la
condición.
E I I – UVa. Departamento de Matemática Aplicada. Curso 2019-20. 18

Existen l distribuciones condicionadas de la forma Y /(X = Ai ) , y k distribuciones de la forma


X/(Y = Bj ) , una por cada modalidad de la variable a la que se condiciona; todas ellas se obtie-
nen a partir de la tabla de la distribución conjunta:
 Las frecuencias absolutas de la variable Y /(X = Ai ) son las de la lı́nea correspondiente a Ai .
( )
 Las frecuencias relativas de Y /(X = Ai ) son: f B j /X = A = f ij .
f
i i .
( ) n ij n /N f ij
En efecto, f B j /X = A = n i.
= n ij /N =
i i. f i.

 Las frecuencias absolutas de X/(Y = Bj ) son las de la columna correspondiente a Bj .

( )
 f
Las frecuencias relativas de X/(Y = Bj ) son: f Ai /Y = B = f ij .
j .j

Ejemplo: La distribución condicionada de Titulación a Sexo=Mujer es:


/
Titulación (Sexo=Mujer) Eléctrico Electrónico Mecánico Quı́mico
Frecuencia 5 22 23 14
Frecuencia relativa 0.078 0.344 0.359 0.219

/
Sexo (Tit=Mecánico) Hombre Mujer
Y la de Sexo a Titulación=Mecánico: Frecuencia 90 23
Frecuencia relativa 0.796 0.204

Si se tiene la familia de distribuciones condicionadas de una variable X a las distintas moda-


lidades de otra variable Y, y se tiene la distribución marginal de Y, entonces se conoce la
distribución conjunta de (X,Y). [Ídem, si cambiamos los papeles de X e Y]
( ) ( )
Basta para ello multiplicar, pues es: fij = f Ai /Y = B f. j [Ídem, fij = f B j /X = A fi . ]
j i

Acerca del par de variables estadı́sticas X e Y, las tres siguientes condiciones son equivalentes:

(1) Todas las distribuciones condicionadas Y /(X = Ai ) son iguales a la marginal de Y.

(2) Se verifica fij = fi . f.j para todo i = 1, 2, . . . , l y todo j = 1, 2, . . . , k.

Es decir: las frecuencias relativas de la distribución conjunta coinciden con el producto de las
correspondientes frecuencias relativas marginales

(3) Todas las distribuciones condicionadas X/(Y = Bj ) son iguales a la marginal de X.

Si X e Y verifican una cualquiera de estas tres condiciones (en cuyo caso verifican también las
otras dos) se dice que las variables X e Y son estadı́sticamente independientes.

Ejercicio: Demostrar la equivalencia de las condiciones (1), (2) y (3).


E I I – UVa. Departamento de Matemática Aplicada. Curso 2019-20. 19

1.9.2. Representaciones gráficas de las distribuciones bidimensionales

Podemos visualizar la distribución conjunta de las variables cualitativas X e Y como sigue:


 Diagrama de Mosaico.
Consiste en un rectángulo que se parte en bandas horizontales de grosor proporcional a las
frecuencias de la la distribución marginal de una de las variables, etiquetadas con el nombre
de las correspondientes modalidades. A su vez, cada una de esas bandas se subdivide en
subrectángulos de bases proporcionales a las frecuencias condicionadas de la otra variable a
esta modalidad. Ası́ las áreas de los subrectángulos resultan proporcionales a las frecuencias
de los pares (Ai , Bj ) en la distribución conjunta.
Como en en todas las bandas se asigna igual color al subrectángulo asociado a la misma
modalidad de la condicionada, se distingue a simple vista si todas las condicionadas de la
familia son sensiblemente iguales o si son, por el contrario, muy dispares.

Ejemplo: Diagrama de mosaico para la


distribución de alumnos por titulación y
sexo.

Se aprecia cómo difiere la composición por


sexos del alumnado en las distintas titula-
ciones (las variables son dependientes).

 Diagramas de barras.
Solo se utiliza cuando ambas variables tienen pocas modalidades.
Consiste en dibujar para cada par (Ai , Bj ) una barra de longitud proporcional a la frecuencia
(relativa o absoluta). Las barras se pueden disponer de diversas formas. Damos dos ejemplos:

Caso de una variable cualitativa y una cuantitativa

Los diagramas de caja son especialmente útiles para comparar la distribución de una variable en
conjuntos distintos de datos.
Para valorar la posible existencia de asociación entre una variable numérica y otra cualitati-
va separamos los datos numéricos en los subgrupos definidos por las modalidades de la variable
cualitativa y representamos juntos (sobre un mismo eje de abscisas) sus respectivos boxplots.
E I I – UVa. Departamento de Matemática Aplicada. Curso 2019-20. 20

Ejemplo: Los datos siguientes corresponden al tiempo en segundos en pasar de 0 a 100 Km/h en
un conjunto de vehı́culos subdivididos en cuanto al tipo de vehı́culo.

Es fácil observar en el gráfico, por ejem-


plo, que las furgonetas son las que pre-
sentan menor variabilidad y los de ta-
maño pequeño son los de mayor varia-
ción.

Caso de dos variables cuantitativas

Para variables cuantitativas sin agrupar en clases y en las que no existen pares de valores repetidos
está indicada la utilización de un diagrama de dispersión o nube de puntos.
Consiste simplemente en representar cada par de puntos (xi , yj ) en un plano. La disposición de
los puntos es fuertemente expresiva acerca de la relación entre ambas variables.
Por su frecuencia e importancia, interesa en particular detectar y manejar la dependencia
lineal que pueda existir entre ellas, y que se manifiesta de forma más o menos nı́tida a través de
la nube de puntos, cuando estos parecen indicar la dirección de una recta.
El modelo de regresión lineal se estudiará en el Tema 7. Aplazamos hasta ese momento las
definiciones de covarianza y coeficiente de correlación lineal.

Ejemplo: En el siguiente gráfico están representados, para una población de cereales de uso común
en el desayuno, el contenido de carbohidratos y de calorı́as para 100gr de producto:

La disposición ascendente de la nube indica cierto grado de dependencia lineal positiva (los cereales
con mayor contenido de carbohidratos tienden a contener más calorı́as), pero la dependencia parece
bastante débil. Aquı́, el valor del coeficiente de correlación lineal podrı́a resultar engañoso por el
modo en que le afecta la existencia de dos puntos influyentes favorablemente situados.

También podría gustarte