Está en la página 1de 70

Estadística Descriptiva

Univariante
Tema 1

Dr. Ing. Willy Ugaz


Ingeniería Industrial y
de Sistemas
1. ESTADÍSTICA DESCRIPTIVA UNIVARIANTE

Universidad de Piura
Tema 1: Estadística Descriptiva
Univariante

1. Introducción. El propósito de la estadística


2. Descripción de datos mediante tablas
3. Descripción de datos mediante gráficos
4. Medidas características de un conjunto de datos

Universidad de Piura
Tema 1: Estadística Descriptiva Univariante

1. Introducción. El propósito de la estadística


2. Descripción de datos mediante tablas
3. Descripción de datos mediante gráficos
4. Medidas características de un conjunto de datos

Universidad de Piura
1. Introducción. El propósito de la estadística
¿Qué es la estadística?¿Por qué estudiamos estadística?

aprender de la observación

A partir de un número reducido de datos,


sacar conclusiones que sean generales.
Herramienta para poder manejar la
incertidumbre de tener información limitada.

Fenómeno
real

Datos Análisis Aprendizaje


observados estadístico sobre el fenómeno

Universidad de Piura
Dos formas alternativas de acceder al
conocimiento del mundo

A partir de teorías A partir de la observación

• Leyes físicas • Datos


• Reglas matemáticas • Estadística
• Propiedades de los materiales
ideales

A partir de los datos


A partir de los modelos INDUCIMOS o INFERIMOS un
teóricos DEDUCIMOS la modelo empírico
realidad
DEDUCIR= Sacar consecuencias de un INDUCIR= Extraer, a partir de determinadas
principio, proposición o supuesto. observaciones o experiencias particulares, el
principio general que en ellas está implícito.
Universidad de Piura
Tema 1: Estadística descriptiva univariante

1. Introducción. El propósito de la estadística


2. Descripción de datos mediante tablas
3. Descripción de datos mediante gráficos
4. Medidas características de un conjunto de datos

Universidad de Piura
2. Descripción de datos mediante tablas

Objetivo: resumir la información para facilitar su análisis

Tablas univariantes

Muestran la frecuencia de cada valor observado

Ejemplo 1: número de cilindros de 155 vehículos (fichero cardata)

Clases

Frecuencia (absoluta): número de datos en


cada clase (valor) 138 autos tiene 6 cilindros o menos, lo
que supone el 89% de los datos
Frecuencia relativa: proporción (0-100) de
los datos que hay en cada clase (valor)

Universidad de Piura
2. Descripción de datos mediante tablas

Tablas univariantes

Ejemplo 2: mes de nacimiento de 95 estudiantes de primer ciclo

Parece que es menos probable nacer en el


segundo semestre

Universidad de Piura
2. Descripción de datos mediante tablas

Tablas univariantes

Si hay muchos valores distintos: se agrupan en intervalos –clases-

Ejemplo: precio de 155 vehículos (fichero cardata)

El 93.55% de los autos


cuesta menos de 8000

El centro de cada clase se Hay 60 autos con precios entre


llama marca de clase 4000 y 6000
El 45.16% de los autos cuesta
‘alrededor’ de $ 3000.

Universidad de Piura
2.2.Descripción
Descripciónde
dedatos
datosmediante
mediantetablas
tablas

¿Número de clases?
Lo decide el analista. Hay varios criterios (ver sección sobre
histogramas, más adelante). El más habitual es usar un
número en torno a 𝑛

Universidad de Piura
Tema 1: Estadística descriptiva univariante

1. Introducción. El propósito de la estadística


2. Descripción de datos mediante tablas
3. Descripción de datos mediante gráficos
4. Medidas características de un conjunto de datos

Universidad de Piura
3. Descripción de datos mediante gráficos

3.1 Diagrama de barras


3.2 Histograma y polígono de frecuencias
3.3 Diagrama de sectores o circular (piechart)
3.4 Series temporales

Universidad de Piura
3.1 Diagrama de barras

El diagrama de barras, o gráfico de barras, es la representación gráfica de una tabla de


frecuencias sin agrupar en intervalos. Se usa principalmente para variables discretas o
cualitativas.

Altura de la barra: Frecuencia de cada valor observado

Ejemplo: número de cilindros de 155 vehículos (fichero cardata)

Pueden ser
frecuencias
absolutas o
relativas

104

30
17
1 3

Universidad de Piura
3.2 Histograma y polígono de frecuencias

Es el diagrama de barras de una tabla de frecuencias con datos agrupados


Ejemplo: precio de 155 vehículos (fichero cardata)

70
60

14
8
1 2

El histograma es una de las


herramientas gráficas más útiles
para resumir información
Universidad de Piura
3.2 Histograma y polígono de frecuencias

Comportamiento = Distribución

Signo de la asimetría: hacia donde apunte la cola de la distribución (+∞ o −∞)


Universidad de Piura
En un histograma, denominamos intervalo modal, o simplemente
MODA, a la clase más frecuente.
Con la moda, se desea destacar que hay un
máximo local. Puede haber así varios intervalos
modales, sugiriendo la posible existencia de
varios grupos

moda

modas

Hay tres modas: distribución trimodal

Existe una fórmula para hallar un valor numérico para estas modas, que tiene en cuenta las alturas de las clases vecinas a los
intervalos modales. No obstante, en general, dado el carácter descriptivo del histograma, nos bastará con utilizar la marca de
cada clase de los intervalos modales.

Universidad de Piura
Ejemplo: talla de zapato del fichero AlumnosIndustriales

La distribución es claramente bimodal. En lo que respecta a esta variable, los


alumnos no son homogéneos. Los datos sugieren la presencia de dos grupos
diferenciados, uno con una talla de zapato menor, distribuidos
aproximadamente alrededor de 37, y otro con una talla de zapato mayor,
distribuidos alrededor del 42. Claramente, se trata de chicos y chicas.

Universidad de Piura
3.2 Histograma y polígono de frecuencias

La apariencia del histograma puede variar dependiendo del número de clases.


Homogeneidad o heterogeneidad del comportamiento o distribución.

Hay varios criterios de selección. En la práctica: probar varias configuraciones.

Ejemplo: histograma del peso de los 155 vehículos con diferente número de clases

8 clases
14 clases

¿Cuál es
mejor?

¿Son homogéneos, agrupados alrededor de 2100, o hay 3 tipos de vehículos agrupados en torno a 2100, 2700 y 3500?
La respuesta no es sencilla.

Universidad de Piura
Algunos criterios para decidir el número 𝑘 de clases en un
histograma:

• La raíz: 𝑘 = 𝑛 (para n<1000, pues con muchos datos salen demasiadas clases)

(para datos unimodales y simétricos, de lo


• Sturges: 𝑘 = 1 + log 2 𝑛 = 1 + 1.44 ln(𝑛) contrario k es muy pequeño. Para n<500)
1
• Rice: 𝑘 = 2𝑛 3 (para n>500, pues con pocos datos salen pocas clases)

(con pocos datos da demasiadas clases. mejor


• Dixon-Kronmal: 𝑘 = 10 log10(𝑛) = 4.36 ln(𝑛) para n>200)

Número de clases que se obtienen por cada método para diferentes


tamaños de muestra n
n Raíz Sturges Rice DK
10 3 4 4 10
100 10 8 9 20
155 12 8 11 22
200 14 9 12 23
500 22 10 16 27
1000 32 11 20 30
5000 71 13 34 37

Consejo: experimentar con diferentes elecciones. Una buena opción es empezar con raíz o Rice (“rais or rais”) dependiendo de si n<500

Universidad de Piura
3.2 Histograma y polígono de frecuencias

Para los datos del peso de los 155 vehículos


n Raíz Sturges Rice DK
155 12 8 11 22

8 clases 11 clases

12 clases 22 clases

Nota: en estos 155 vehículos hay utilitarios, berlinas y camionetas, por lo que puede ser lógico visualizar tres grupos (12 clases)

Universidad de Piura
El histograma también puede hacerse con las frecuencias acumuladas.
También puede expresarse en frecuencias relativas o absolutas

84.52

14

Universidad de Piura
3.2 Histograma y polígono de frecuencias

El polígono de frecuencias se obtiene uniendo con los puntos que tienen como
abscisa a la marca de clase y como ordenada la frecuencia respectiva. Se cierra
en ambos extremos en las marcas adyacentes con frecuencia cero.

Es como si en un histograma uniésemos con segmentos los puntos centrales del


lado superior de cada rectángulo.

Ejemplo: precio de 155 vehículos (fichero cardata)

Universidad de Piura
3.2 Histograma y polígono de frecuencias

Al polígono de frecuencias acumulado también se le conoce por ojiva

Ejemplo: precio de 155 vehículos (fichero cardata)

eje X eje Y

En el eje de abscisas se colocan los


límites superiores de cada clase y en las
ordenadas se colocan la frecuencias acumuladas
(absoluta o relativa) de la clase.

Universidad de Piura
3.2 Histograma y polígono de frecuencias

• Un caso particular de polígono de frecuencias acumuladas es la llamada Función de Distribución


෡ (x)
Empírica 𝑭

Frecuencia relativa acumulada con los datos sin agrupar.


Supongamos un conjunto de 𝑛 datos 𝑥1 , 𝑥2 , … , 𝑥𝑛 , que los ordenamos de menor a mayor, resultando:
𝑥 1 , 𝑥(2) , … , 𝑥 𝑛

donde 𝑥(𝑖) es el dato en posición i-ésima al ordenarlos.


Supongamos, sin pérdida de generalidad, que los datos no 𝑋 𝑓𝑟 ෡ (x)
𝑭
se repiten. Entonces:
1 1/8 1/8
2 1/8 2/8
• La frecuencia absoluta de cada dato es 1.
5 1/8 3/8
1
• La frecuencia relativa de cada dato es 7 1/8 4/8
𝑛
9 1/8 5/8
• La frecuencia relativa acumulada de 𝑥(𝑖) es 𝑖/𝑛
12 1/8 6/8
Ejemplo: 1,2,5,7,9,12,20,34, 20 1/8 7/8
34 1/8 8/8

Universidad de Piura
Gráficamente (Minitab)

eje Y
Función de Distribución Empírica
𝑋 fr ෡ (x)
𝑭 100
1 1/8 1/8
2 1/8 2/8
80
5 1/8 3/8
7 1/8 4/8
60

Porcentaje
9 1/8 5/8
12 1/8 6/8
40
20 1/8 7/8
34 1/8 8/8
20

eje X 0

0 5 10 15 20 25 30 35
X

Universidad de Piura
¿Y si alguno o todos los datos tienen frecuencia absoluta mayor que
1?

Si hay datos que se repiten, se modifican las frecuencias de acuerdo al número


de valores repetidos.

Ejemplo: 2,2,2,3,5,5,6,8,8,12,34,34,34,34,34 (n=15 datos)

Función de Distribución Empírica


100
𝑋 fr ෡ (x)
𝑭
2 3/15 3/15
80
3 1/15 4/15
5 2/15 6/15 60

Porcentaje
6 1/15 7/15
40
8 2/15 9/15
12 1/15 10/15
20
34 5/15 15/15
0

0 5 10 15 20 25 30 35
X

Universidad de Piura
3.3 Diagrama de sectores o circular (piechart)

El diagrama de sectores es un círculo dividido en porciones proporcionales a las


frecuencias relativas
Ejemplo: número de cilindros de 155 vehículos (fichero cardata)

Universidad de Piura
3.4 Series temporales

El eje X es el tiempo. Representa la evolución temporal de la variable

Universidad de Piura
3.4 Series temporales

El eje X es el tiempo. Representa la evolución temporal de la variable

Universidad de Piura
Tema 1: Estadística descriptiva univariante

1. Introducción. El propósito de la estadística


2. Descripción de datos mediante tablas
3. Descripción de datos mediante gráficos
4. Medidas características de un conjunto de datos

Universidad de Piura
4. Medidas características de un conjunto de datos

Objetivo: buscamos resumir las características más importantes de los


datos en un conjunto reducido de números.

Cada característica un número

4.1 Medidas de centralización

¿Cuál es el centro de los datos?

Hay muchas medidas alternativas.


Las más importantes son

✓ Media aritmética
✓ Mediana
✓ Moda centro de la distribución
de datos

Universidad de Piura
4.1 Medidas de centralización

• Media aritmética

Sea un conjunto de observaciones 𝑥1 , 𝑥2 , … , 𝑥𝑛

σ𝑛𝑖=1 𝑥𝑖
𝑥ҧ =
𝑛
Si las n observaciones están formadas por J valores 𝑥1 , 𝑥2 , … , 𝑥𝐽
diferentes que se repiten:

𝑥1 se repite 𝑛1 veces
𝐽
𝑥2 se repite 𝑛2 veces
𝑥ҧ = ෍ 𝑥𝑗 𝑓𝑟 (𝑥𝑗 )
...
𝑗=1
𝑥𝐽 se repite 𝑛𝐽 veces

𝑛𝑗
Donde 𝑓𝑟 (𝑥𝑗 ) es la frecuencia relativa del valor 𝑥𝑗 ⇒ 𝑓𝑟 𝑥𝑗 =
𝑛

Universidad de Piura
4.1 Medidas de centralización

• Media aritmética

Ejemplo: 𝑥 = {1,2,3,3,5,5,5,6,6}

1+ 2 + 3 + 3 + 5 + 5 + 5 + 6 + 6
x= =4
9
O bien:

𝐽 1 1 2 3 2
𝑥 = 1× +2× +3× +5× +6× = 4
𝑥ҧ = ෍ 𝑥𝑗 𝑓𝑟 (𝑥𝑗 ) 9 9 9 9 9
𝑗=1

Universidad de Piura
4.1 Medidas de centralización

• Media aritmética
Puede interpretarse como el centro de gravedad de los datos. Si asociamos la
frecuencia de cada dato a la masa situada en dicho punto, la media muestral
sería el centro de gravedad de las observaciones.
Por ejemplo, en un histograma, podríamos visualizar la media muestral
(aproximadamente), pues sería el punto de apoyo para que esté en equilibrio.

Media

Universidad de Piura
4.1 Medidas de centralización

• Media aritmética

Cuanto más asimétrica sea, más se desplaza la media hacia la cola.

En distribuciones muy asimétricas, la media muestral pierde interés como medida que describa
alrededor de qué punto se distribuyen los datos.

Media Media

Universidad de Piura
4.1 Medidas de centralización

• Media aritmética

Es sensible a valores atípicos

Media
Un solo dato puede desplazar la
media hasta hacerla poco
representativa del centro de los
datos

Media

Universidad de Piura
4.1 Medidas de centralización

• Mediana
Es el valor que deja a cada lado el 50% de los datos.
Es poco sensible a asimetrías
Es insensible a valores atípicos

1 2 5 8 11 13 24 28 31 9 datos

Mediana=11

Con un número impar de datos: el dato en posición central

1 2 3 5 8 11 13 24 28 31 10 datos

Mediana=(8+11)/2=9.5

Con un número par de datos: la media de los dos centrales

Universidad de Piura
4.1 Medidas de centralización

• Mediana

Es el valor que deja a cada lado el 50% de los datos.

50% 50%

Media=
mediana

Universidad de Piura
4.1 Medidas de centralización

• Mediana

Es el valor que deja a cada lado el 50% de los datos.


Es poco sensible a asimetrías

50% 50% 50% 50%

Media= Mediana Media


mediana

La mediana no varía, pero la media se desplaza

Universidad de Piura
4.1 Medidas de centralización

• Mediana
Es el valor que deja a cada lado el 50% de los datos.
Es poco sensible a asimetrías
Es insensible a valores atípicos

50% 50%

Media=
mediana

Universidad de Piura
4.1 Medidas de centralización

• Mediana
Es el valor que deja a cada lado el 50% de los datos.
Es poco sensible a asimetrías
Es insensible a valores atípicos

50% 50%

Universidad de Piura
4.1 Medidas de centralización

• Mediana
Es el valor que deja a cada lado el 50% de los datos.
Es poco sensible a asimetrías
Es insensible a valores atípicos

50% 50%

Mediana Media

Los valores atípicos no alteran las posición de la mediana


Con valores atípicos y asimetrías fuertes, la mediana es una
medida de centralización más útil que la media
Universidad de Piura
4.1 Medidas de centralización

• Moda
Es el valor más frecuente

1 2 2 2 2 5 5 5 8 8 11 13

Moda=2
Con datos agrupados, es la clase más frecuente localmente, es decir es el máximo local.
Puede haber varias modas , sugiriendo la posible existencia de grupos diferentes en los
datos.

Distribución unimodal Distribución trimodal

Universidad de Piura
4.2 Medidas de dispersión

• Varianza (desviación típica) • Percentiles


• Cuasivarianza (cuasidesviación típica) • Cuartiles. Rango intercuartílico
• Rango • Diagrama de caja (box-plot)

• Varianza Promedio de desviaciones a la media, al cuadrado

𝑠𝑥
𝐶𝑉 =
σ𝑛
𝑖=1 𝑥𝑖 − 𝑥ҧ
2 σ𝑛𝑖=1 𝑥𝑖 − 𝑥ҧ 2 𝑥ҧ
𝑠𝑥2 = 𝑠𝑥 =
𝑛 𝑛 Coeficiente de variación
Varianza Desviación típica o A veces se da en porcentaje: 𝐶𝑉 × 100%
desviación estándar y a veces no se toma el valor absoluto de
la media pero asumiendo que los datos
serán positivos.

• Cuasivarianza

σ𝑛 2 σ𝑛𝑖=1 𝑥𝑖 − 𝑥ҧ 2 Se puede justificar teóricamente


𝑖=1 𝑥𝑖 − 𝑥ҧ (próximos capítulos) que miden
𝑠Ƹ𝑥2 = 𝑠Ƹ𝑥 =
𝑛−1 𝑛−1 mejor la dispersión de los datos.
Cuasivarianza Cuasidesviación típica o
estándar
45
Universidad de Piura
• Si las n observaciones están formadas por 𝐽 valores
𝑥1 , 𝑥2 , … , 𝑥𝐽 diferentes que se repiten:

𝑥1 se repite 𝑛1 veces
𝑥2 se repite 𝑛2 veces 𝐽
𝑠𝑥2 = σ𝑗=1 𝑥𝑗 − 𝑥ҧ
2
𝑓𝑟 (𝑥𝑗 )
...
𝑥𝐽 se repite 𝑛𝐽 veces

𝑛𝑗
Donde 𝑓𝑟 (𝑥𝑗 ) es la frecuencia relativa del valor 𝑥𝑗 ⇒ 𝑓𝑟 𝑥𝑗 =
𝑛

• Para el caso de la cuasi-varianza, hay que dividir por 𝑛 − 1,


y la fórmula queda

𝐽
2 𝑛𝑗
𝑠Ƹ𝑥2 = ෍ 𝑥𝑗 − 𝑥ҧ
𝑛−1
𝑗=1

Universidad de Piura
• Varianza y Cuasivarianza
Promedio de desviaciones a la media, al cuadrado
σ𝑛 2
𝑖=1 𝑥𝑖 − 𝑥ҧ
𝑠𝑥2 =
𝑛

Poca dispersión
Baja varianza
Baja desviación típica
Bajo CV
Baja cuasivarianza
Baja cuasidesviación típica

media
Mucha dispersión
Alta varianza
Alta desviación típica
Alto CV
Alta cuasivarianza
Alta cuasidesviación típica

media
Universidad de Piura
4.2 Medidas de dispersión
• Rango o recorrido

Valor máximo menos valor mínimo

X: 1 2 5 8 11 13 24 28 31

Rango: 31-1=30

A mayor rango mayor dispersión

Rango Rango

Universidad de Piura
4.2 Medidas de dispersión
• Percentiles

El percentil p es el número por debajo del cual se


encuentra el 𝒑 × 𝟏𝟎𝟎% de las observaciones, y por encima
el 𝟏 − 𝒑 × 𝟏𝟎𝟎%.

• Por ejemplo, el percentil 15 es el valor que deja por debajo al 15% de las
observaciones y, aproximadamente, el 85% quedará por arriba.

• Los percentiles son entonces los 99 valores que dejan por debajo al 1%, 2%... y
99% de los datos, respectivamente. Se denotan por 𝑃1, 𝑃2 , … , 𝑃99 .

• Como usualmente 𝑛 × 𝑝 no es un número entero, diremos que el percentil deja


‘aproximadamente’ el 𝒑 × 𝟏𝟎𝟎% por debajo.

• Aunque la idea es muy simple, no hay una definición única de percentil. Por
ejemplo, algunos textos lo definen como que el 𝒑 × 𝟏𝟎𝟎% de lo datos es menor
a 𝑃𝑝 , y otros que son menores o iguales.

Universidad de Piura
Ejemplo: ¿Cuál es el percentil 25 de las siguientes
observaciones: 1, 4, 8 y 9?
el percentil 25 debe dejar
1 4 8 9 un dato por debajo y tres
por arriba

25% de 75% de
los datos los datos

• Si bien la intuición que hay detrás del concepto de percentil es clara, su cálculo es
complicado, pues en general hay ambigüedad sobre dichos valores.
• Por ejemplo, vemos que debajo del valor 3 queda sólo el 1; pero eso también ocurre por
debajo del valor 2, o del valor 2.7 o cualquiera en el intervalo continuo (1,4), ¿qué
contestaremos si nos piden el percentil 25?
• Esto ha provocado que haya varios procedimientos, que pueden arrojar resultados
diferentes. Básicamente, difieren en la forma en que interpolan entre los dos valores que
puede estar (en nuestro ejemplo, entre el 1 y el 4).

• En la práctica, utilizaremos los percentiles que se obtengan con el programa estadístico


que utilicemos.

• Sólo hay una definición unánime para el 𝑷𝟓𝟎 que es la definición de mediana
vista antes.

Universidad de Piura
Ejemplo: ¿Cuál es el percentil 25 de las siguientes
observaciones: 1, 4, 8 y 9?

1 4 8 9

25% de los datos= 1 75% de los datos= 3


datos ‘como mucho’ datos ‘como mucho’

Percentil Minitab Excel Matlab Statgraphics


25 1.75 1.75 2.5 2.5
50 6 6 6 6
75 8.75 8.75 8.5 8.5

Cuanto mayor sea el número de observaciones, más parecidos serán los


resultados de las diferentes alternativas.

Universidad de Piura
El contenido de esta trasparencia es opcional, y se ofrece con fines informativos. No
forma parte del contenido evaluable de la asignatura.

Una forma muy popular de calcular el percentil 𝑝, que se denota por 𝑃𝑝 , a partir de 𝑛
observaciones es el siguiente:

a) Calcular 𝑟 = 𝑝 𝑛 + 1 .
b) Descomponer 𝑟 en su parte entera (e) y parte decimal (d), es decir:
𝑟 =𝑒+𝑑

Por ejemplo, para el cálculo de 𝑃30 de los seis datos siguientes 2, 4, 5, 7, 8, 9, se tiene
𝑟 = 0.3 × 7 = 2.1 ⇒ 𝑒 = 2, 𝑑 = 0.1

c) El percentil 𝑝 será entonces:

𝑃𝑝 = 𝑋(𝑒) + 𝑑(𝑋 𝑒+1 − 𝑋 𝑒 )

Con el ejemplo anterior se tiene:

𝑃30 = 𝑋(2) + 0.1 𝑋 3 − 𝑋 2 = 4 + 0.1 5 − 4 = 4.1

Universidad de Piura
Generalmente calcularemos los percentiles con la computadora.

Una forma de obtener unos percentiles aproximados de forma gráfica es utilizando la ojiva
de la siguiente forma:
1. Entramos por el eje Y con la probabilidad 𝑝 deseada.
2. El percentil será el valor de la abscisa del punto de corte con la ojiva
Ejemplo:
La siguiente figura es la ojiva de las estaturas del fichero AlumnosIndustriales. A la vista
de esta figura, determina de forma aproximada los percentiles 20 y 80
(es una aproximación, pues los datos están agrupados en clases, y hace que la ojiva sea más o menos
suave en función del número de clases)

𝑃20 ≈ 166 𝑃80 ≈ 182


Universidad de Piura
Otra forma sencilla de calcular un percentil aproximado es utilizando la ‘Función
de Distribución Empírica’ vista anteriormente.

En ese gráfico, entramos por el eje Y con el valor de probabilidad que deseemos.
El percentil es el valor que le corresponde en el eje X al ‘chocar’ con la pared del
escalón.
Función de Distribución Empírica

100

80

60
Porcentaje

40

30
20

0 5 10 15 20 25 30 35
X

Universidad de Piura
• Cuartiles Q1, Q2, Q3

Son los valores que dividen la muestra en 4 grupos, cada uno con el 25% de
los datos (aproximadamente)

Entre el mínimo y Q1 25% de los datos


Entre Q1 y Q2 25% de los datos 50%

Entre Q2 y Q3 25% de los datos


50%
Entre Q3 y el máximo 25% de los datos

Q1=percentil 25;Q2 = mediana;Q3=percentil 75


Q3-Q1=Rango Intercuartílico (R.I.)

25% 25% 25% 25%

min Q1 Q2 Q3 max

Hay varios métodos para calcular Q1 y Q3. Con pocos datos pueden dar valores diferentes

Universidad de Piura
• Cuartiles Q1, Q2, Q3

Ejemplo 𝑥: {1,1,3,3,5,9,11,14,15}

Método sencillo para calcular cuartiles (hay varios procedimientos, y no todos


dan el mismo resultado)

1º Obtenemos la mediana Q2 5

2º Excluimos ese valor (si es que es un izda.: {1,1,3,3,}


dato, por ser un número impar de
observaciones) y nos quedamos con dcha.: {9,11,14,15}
dos grupos de datos, uno a cada lado
de la mediana

3º Q1 es la mediana del grupo que Q1=(1+3)/2=2


queda a la izquierda

4º Q3 es la mediana del grupo que Q3=(11+14)/2=12.5


queda a la derecha

(Éste será nuestro método ‘oficial’ para cuando haya que calcular los
cuartiles a mano en alguna evaluación)
Universidad de Piura
4.2 Medidas de dispersión

• Diagrama de caja (box-plot)

Es la representación gráfica de los cuartiles

25% 25% 25% 25%

min max
Q1 Q2 Q3

Universidad de Piura
4.2 Medidas de dispersión

Los gráficos Box-plot son muy útiles para:

• Comparar grupos
• Ver asimetrías
• Detectar atípicos **

Universidad de Piura
4.2 Medidas de dispersión

Datos extremos (o ‘atípicos’)

Universidad de Piura
4.2 Medidas de dispersión
¿Cómo construir un Box-plot con marcas de atípicos?
Primer paso:

Universidad de Piura
4.2 Medidas de dispersión
Segundo paso:

Universidad de Piura
4.2 Medidas de dispersión
Tercer paso:

Los puntos que caigan en estas zonas se marcan. Es decir, los puntos que están más
allá de la barrera interna ya se consideran atípicos

Universidad de Piura
4.2 Medidas de dispersión
Tercer paso:

Las líneas laterales (bigotes) se extienden sólo hasta el último punto dentro de la barrera
interna. Los bigotes sólo llegaran hasta la barrera interna en el caso particular de que allí
haya un dato.
Universidad de Piura
4.2 Medidas de dispersión

Ojo!! Cuando hay asimetrías,


Dato atípico: dato que se sale del
un dato extremo no debe
necesariamente catalogarse patrón general de los datos
como atípico

La asimetría indica que al


final de la cola habrá cada
vez menos datos.

No es atípico. Es compatible con


el patrón de los datos

Sí es atípico

Universidad de Piura
4.2 Medidas de dispersión

Es compatible con la asimetría


positiva

Universidad de Piura
4.1 Medidas de centralización media, mediana, moda
varianza, desv. típica, coeficiente
4.2 Medidas de dispersión de variación, rango, cuartiles,
box-plot

4.3 Otras medidas de forma

• Medidas de asimetría
• Medidas de apuntamiento

• Medidas de asimetría

Coeficiente de σ𝑛𝑖=1 𝑥𝑖 − 𝑥ҧ 3
𝐶𝐴 =
asimetría (de Fisher) 𝑛𝑠𝑥3

•CA = 0; si la distribución es perfectamente simétrica


•CA > 0; si hay asimetría positiva
•CA < 0: si hay asimetría negativa

Universidad de Piura
• Medidas de asimetría
σ𝑛𝑖=1 𝑥𝑖 − 𝑥ҧ 3
Coeficiente de asimetría de Fisher 𝐶𝐴 =
𝑛𝑠𝑥3
• CA = 0; si la distribución es perfectamente simétrica
• CA > 0; si hay asimetría positiva
• CA < 0: si hay asimetría negativa

Universidad de Piura
• Medidas de apuntamiento

Coeficiente de σ𝑛𝑖=1 𝑥𝑖 − 𝑥ҧ 4

apuntamiento o 𝐾=
𝑛𝑠𝑥4
Curtosis

•𝐾 = 3; distribución con forma de campana


•𝐾 > 3; distribución más picuda que una campana
•𝐾 < 3; distribución menos picuda que una campana

𝐾>3
𝐾<3 𝐾=3

Muchos programas de Estadística definen curtosis como 𝐾 − 3. Esta medida


recibe también el nombre de ‘Exceso de curtosis’:
𝐸𝐾 = 𝐾 − 3.

Universidad de Piura
• Medidas de apuntamiento

(Curtosis-3: ‘exceso de curtosis’)

Valores de curtosis muy bajos pueden ser indicio de ‘multimodalidad’ .

Universidad de Piura
Ejercicios

EDB_2016_II.xlsx
• El fichero EDB_2016_II.xlsx contiene información de los alumnos de EDB del ciclo
2016-II. Haz un histograma de la variable IA (índice acumulado) utilizando un número
de clases adecuado. Comenta sus características más importantes y busca un valor
numérico que cuantifique cada una de ellas.

• Usando este mismo fichero, la siguiente figura muestra las ojivas de la variable IA de
cada programa académico. ¿En cuál te gustaría estar?

Histograma de IA
PA
100 IC
IIS
IME
80
Porcentaje acumulado

60

40

20

0
9,0 10,5 12,0 13,5 15,0 16,5 18,0
IA

Universidad de Piura

También podría gustarte