Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Univariante
Tema 1
Universidad de Piura
Tema 1: Estadística Descriptiva
Univariante
Universidad de Piura
Tema 1: Estadística Descriptiva Univariante
Universidad de Piura
1. Introducción. El propósito de la estadística
¿Qué es la estadística?¿Por qué estudiamos estadística?
aprender de la observación
Fenómeno
real
Universidad de Piura
Dos formas alternativas de acceder al
conocimiento del mundo
Universidad de Piura
2. Descripción de datos mediante tablas
Tablas univariantes
Clases
Universidad de Piura
2. Descripción de datos mediante tablas
Tablas univariantes
Universidad de Piura
2. Descripción de datos mediante tablas
Tablas univariantes
Universidad de Piura
2.2.Descripción
Descripciónde
dedatos
datosmediante
mediantetablas
tablas
¿Número de clases?
Lo decide el analista. Hay varios criterios (ver sección sobre
histogramas, más adelante). El más habitual es usar un
número en torno a 𝑛
Universidad de Piura
Tema 1: Estadística descriptiva univariante
Universidad de Piura
3. Descripción de datos mediante gráficos
Universidad de Piura
3.1 Diagrama de barras
Pueden ser
frecuencias
absolutas o
relativas
104
30
17
1 3
Universidad de Piura
3.2 Histograma y polígono de frecuencias
70
60
14
8
1 2
Comportamiento = Distribución
moda
modas
Existe una fórmula para hallar un valor numérico para estas modas, que tiene en cuenta las alturas de las clases vecinas a los
intervalos modales. No obstante, en general, dado el carácter descriptivo del histograma, nos bastará con utilizar la marca de
cada clase de los intervalos modales.
Universidad de Piura
Ejemplo: talla de zapato del fichero AlumnosIndustriales
Universidad de Piura
3.2 Histograma y polígono de frecuencias
Ejemplo: histograma del peso de los 155 vehículos con diferente número de clases
8 clases
14 clases
¿Cuál es
mejor?
¿Son homogéneos, agrupados alrededor de 2100, o hay 3 tipos de vehículos agrupados en torno a 2100, 2700 y 3500?
La respuesta no es sencilla.
Universidad de Piura
Algunos criterios para decidir el número 𝑘 de clases en un
histograma:
• La raíz: 𝑘 = 𝑛 (para n<1000, pues con muchos datos salen demasiadas clases)
Consejo: experimentar con diferentes elecciones. Una buena opción es empezar con raíz o Rice (“rais or rais”) dependiendo de si n<500
Universidad de Piura
3.2 Histograma y polígono de frecuencias
8 clases 11 clases
12 clases 22 clases
Nota: en estos 155 vehículos hay utilitarios, berlinas y camionetas, por lo que puede ser lógico visualizar tres grupos (12 clases)
Universidad de Piura
El histograma también puede hacerse con las frecuencias acumuladas.
También puede expresarse en frecuencias relativas o absolutas
84.52
14
Universidad de Piura
3.2 Histograma y polígono de frecuencias
El polígono de frecuencias se obtiene uniendo con los puntos que tienen como
abscisa a la marca de clase y como ordenada la frecuencia respectiva. Se cierra
en ambos extremos en las marcas adyacentes con frecuencia cero.
Universidad de Piura
3.2 Histograma y polígono de frecuencias
eje X eje Y
Universidad de Piura
3.2 Histograma y polígono de frecuencias
Universidad de Piura
Gráficamente (Minitab)
eje Y
Función de Distribución Empírica
𝑋 fr (x)
𝑭 100
1 1/8 1/8
2 1/8 2/8
80
5 1/8 3/8
7 1/8 4/8
60
Porcentaje
9 1/8 5/8
12 1/8 6/8
40
20 1/8 7/8
34 1/8 8/8
20
eje X 0
0 5 10 15 20 25 30 35
X
Universidad de Piura
¿Y si alguno o todos los datos tienen frecuencia absoluta mayor que
1?
Porcentaje
6 1/15 7/15
40
8 2/15 9/15
12 1/15 10/15
20
34 5/15 15/15
0
0 5 10 15 20 25 30 35
X
Universidad de Piura
3.3 Diagrama de sectores o circular (piechart)
Universidad de Piura
3.4 Series temporales
Universidad de Piura
3.4 Series temporales
Universidad de Piura
Tema 1: Estadística descriptiva univariante
Universidad de Piura
4. Medidas características de un conjunto de datos
✓ Media aritmética
✓ Mediana
✓ Moda centro de la distribución
de datos
Universidad de Piura
4.1 Medidas de centralización
• Media aritmética
σ𝑛𝑖=1 𝑥𝑖
𝑥ҧ =
𝑛
Si las n observaciones están formadas por J valores 𝑥1 , 𝑥2 , … , 𝑥𝐽
diferentes que se repiten:
𝑥1 se repite 𝑛1 veces
𝐽
𝑥2 se repite 𝑛2 veces
𝑥ҧ = 𝑥𝑗 𝑓𝑟 (𝑥𝑗 )
...
𝑗=1
𝑥𝐽 se repite 𝑛𝐽 veces
𝑛𝑗
Donde 𝑓𝑟 (𝑥𝑗 ) es la frecuencia relativa del valor 𝑥𝑗 ⇒ 𝑓𝑟 𝑥𝑗 =
𝑛
Universidad de Piura
4.1 Medidas de centralización
• Media aritmética
Ejemplo: 𝑥 = {1,2,3,3,5,5,5,6,6}
1+ 2 + 3 + 3 + 5 + 5 + 5 + 6 + 6
x= =4
9
O bien:
𝐽 1 1 2 3 2
𝑥 = 1× +2× +3× +5× +6× = 4
𝑥ҧ = 𝑥𝑗 𝑓𝑟 (𝑥𝑗 ) 9 9 9 9 9
𝑗=1
Universidad de Piura
4.1 Medidas de centralización
• Media aritmética
Puede interpretarse como el centro de gravedad de los datos. Si asociamos la
frecuencia de cada dato a la masa situada en dicho punto, la media muestral
sería el centro de gravedad de las observaciones.
Por ejemplo, en un histograma, podríamos visualizar la media muestral
(aproximadamente), pues sería el punto de apoyo para que esté en equilibrio.
Media
Universidad de Piura
4.1 Medidas de centralización
• Media aritmética
En distribuciones muy asimétricas, la media muestral pierde interés como medida que describa
alrededor de qué punto se distribuyen los datos.
Media Media
Universidad de Piura
4.1 Medidas de centralización
• Media aritmética
Media
Un solo dato puede desplazar la
media hasta hacerla poco
representativa del centro de los
datos
Media
Universidad de Piura
4.1 Medidas de centralización
• Mediana
Es el valor que deja a cada lado el 50% de los datos.
Es poco sensible a asimetrías
Es insensible a valores atípicos
1 2 5 8 11 13 24 28 31 9 datos
Mediana=11
1 2 3 5 8 11 13 24 28 31 10 datos
Mediana=(8+11)/2=9.5
Universidad de Piura
4.1 Medidas de centralización
• Mediana
50% 50%
Media=
mediana
Universidad de Piura
4.1 Medidas de centralización
• Mediana
Universidad de Piura
4.1 Medidas de centralización
• Mediana
Es el valor que deja a cada lado el 50% de los datos.
Es poco sensible a asimetrías
Es insensible a valores atípicos
50% 50%
Media=
mediana
Universidad de Piura
4.1 Medidas de centralización
• Mediana
Es el valor que deja a cada lado el 50% de los datos.
Es poco sensible a asimetrías
Es insensible a valores atípicos
50% 50%
Universidad de Piura
4.1 Medidas de centralización
• Mediana
Es el valor que deja a cada lado el 50% de los datos.
Es poco sensible a asimetrías
Es insensible a valores atípicos
50% 50%
Mediana Media
• Moda
Es el valor más frecuente
1 2 2 2 2 5 5 5 8 8 11 13
Moda=2
Con datos agrupados, es la clase más frecuente localmente, es decir es el máximo local.
Puede haber varias modas , sugiriendo la posible existencia de grupos diferentes en los
datos.
Universidad de Piura
4.2 Medidas de dispersión
𝑠𝑥
𝐶𝑉 =
σ𝑛
𝑖=1 𝑥𝑖 − 𝑥ҧ
2 σ𝑛𝑖=1 𝑥𝑖 − 𝑥ҧ 2 𝑥ҧ
𝑠𝑥2 = 𝑠𝑥 =
𝑛 𝑛 Coeficiente de variación
Varianza Desviación típica o A veces se da en porcentaje: 𝐶𝑉 × 100%
desviación estándar y a veces no se toma el valor absoluto de
la media pero asumiendo que los datos
serán positivos.
• Cuasivarianza
𝑥1 se repite 𝑛1 veces
𝑥2 se repite 𝑛2 veces 𝐽
𝑠𝑥2 = σ𝑗=1 𝑥𝑗 − 𝑥ҧ
2
𝑓𝑟 (𝑥𝑗 )
...
𝑥𝐽 se repite 𝑛𝐽 veces
𝑛𝑗
Donde 𝑓𝑟 (𝑥𝑗 ) es la frecuencia relativa del valor 𝑥𝑗 ⇒ 𝑓𝑟 𝑥𝑗 =
𝑛
𝐽
2 𝑛𝑗
𝑠Ƹ𝑥2 = 𝑥𝑗 − 𝑥ҧ
𝑛−1
𝑗=1
Universidad de Piura
• Varianza y Cuasivarianza
Promedio de desviaciones a la media, al cuadrado
σ𝑛 2
𝑖=1 𝑥𝑖 − 𝑥ҧ
𝑠𝑥2 =
𝑛
Poca dispersión
Baja varianza
Baja desviación típica
Bajo CV
Baja cuasivarianza
Baja cuasidesviación típica
media
Mucha dispersión
Alta varianza
Alta desviación típica
Alto CV
Alta cuasivarianza
Alta cuasidesviación típica
media
Universidad de Piura
4.2 Medidas de dispersión
• Rango o recorrido
X: 1 2 5 8 11 13 24 28 31
Rango: 31-1=30
Rango Rango
Universidad de Piura
4.2 Medidas de dispersión
• Percentiles
• Por ejemplo, el percentil 15 es el valor que deja por debajo al 15% de las
observaciones y, aproximadamente, el 85% quedará por arriba.
• Los percentiles son entonces los 99 valores que dejan por debajo al 1%, 2%... y
99% de los datos, respectivamente. Se denotan por 𝑃1, 𝑃2 , … , 𝑃99 .
• Aunque la idea es muy simple, no hay una definición única de percentil. Por
ejemplo, algunos textos lo definen como que el 𝒑 × 𝟏𝟎𝟎% de lo datos es menor
a 𝑃𝑝 , y otros que son menores o iguales.
Universidad de Piura
Ejemplo: ¿Cuál es el percentil 25 de las siguientes
observaciones: 1, 4, 8 y 9?
el percentil 25 debe dejar
1 4 8 9 un dato por debajo y tres
por arriba
25% de 75% de
los datos los datos
• Si bien la intuición que hay detrás del concepto de percentil es clara, su cálculo es
complicado, pues en general hay ambigüedad sobre dichos valores.
• Por ejemplo, vemos que debajo del valor 3 queda sólo el 1; pero eso también ocurre por
debajo del valor 2, o del valor 2.7 o cualquiera en el intervalo continuo (1,4), ¿qué
contestaremos si nos piden el percentil 25?
• Esto ha provocado que haya varios procedimientos, que pueden arrojar resultados
diferentes. Básicamente, difieren en la forma en que interpolan entre los dos valores que
puede estar (en nuestro ejemplo, entre el 1 y el 4).
• Sólo hay una definición unánime para el 𝑷𝟓𝟎 que es la definición de mediana
vista antes.
Universidad de Piura
Ejemplo: ¿Cuál es el percentil 25 de las siguientes
observaciones: 1, 4, 8 y 9?
1 4 8 9
Universidad de Piura
El contenido de esta trasparencia es opcional, y se ofrece con fines informativos. No
forma parte del contenido evaluable de la asignatura.
Una forma muy popular de calcular el percentil 𝑝, que se denota por 𝑃𝑝 , a partir de 𝑛
observaciones es el siguiente:
a) Calcular 𝑟 = 𝑝 𝑛 + 1 .
b) Descomponer 𝑟 en su parte entera (e) y parte decimal (d), es decir:
𝑟 =𝑒+𝑑
Por ejemplo, para el cálculo de 𝑃30 de los seis datos siguientes 2, 4, 5, 7, 8, 9, se tiene
𝑟 = 0.3 × 7 = 2.1 ⇒ 𝑒 = 2, 𝑑 = 0.1
Universidad de Piura
Generalmente calcularemos los percentiles con la computadora.
Una forma de obtener unos percentiles aproximados de forma gráfica es utilizando la ojiva
de la siguiente forma:
1. Entramos por el eje Y con la probabilidad 𝑝 deseada.
2. El percentil será el valor de la abscisa del punto de corte con la ojiva
Ejemplo:
La siguiente figura es la ojiva de las estaturas del fichero AlumnosIndustriales. A la vista
de esta figura, determina de forma aproximada los percentiles 20 y 80
(es una aproximación, pues los datos están agrupados en clases, y hace que la ojiva sea más o menos
suave en función del número de clases)
En ese gráfico, entramos por el eje Y con el valor de probabilidad que deseemos.
El percentil es el valor que le corresponde en el eje X al ‘chocar’ con la pared del
escalón.
Función de Distribución Empírica
100
80
60
Porcentaje
40
30
20
0 5 10 15 20 25 30 35
X
Universidad de Piura
• Cuartiles Q1, Q2, Q3
Son los valores que dividen la muestra en 4 grupos, cada uno con el 25% de
los datos (aproximadamente)
min Q1 Q2 Q3 max
Hay varios métodos para calcular Q1 y Q3. Con pocos datos pueden dar valores diferentes
Universidad de Piura
• Cuartiles Q1, Q2, Q3
Ejemplo 𝑥: {1,1,3,3,5,9,11,14,15}
1º Obtenemos la mediana Q2 5
(Éste será nuestro método ‘oficial’ para cuando haya que calcular los
cuartiles a mano en alguna evaluación)
Universidad de Piura
4.2 Medidas de dispersión
min max
Q1 Q2 Q3
Universidad de Piura
4.2 Medidas de dispersión
• Comparar grupos
• Ver asimetrías
• Detectar atípicos **
Universidad de Piura
4.2 Medidas de dispersión
Universidad de Piura
4.2 Medidas de dispersión
¿Cómo construir un Box-plot con marcas de atípicos?
Primer paso:
Universidad de Piura
4.2 Medidas de dispersión
Segundo paso:
Universidad de Piura
4.2 Medidas de dispersión
Tercer paso:
Los puntos que caigan en estas zonas se marcan. Es decir, los puntos que están más
allá de la barrera interna ya se consideran atípicos
Universidad de Piura
4.2 Medidas de dispersión
Tercer paso:
Las líneas laterales (bigotes) se extienden sólo hasta el último punto dentro de la barrera
interna. Los bigotes sólo llegaran hasta la barrera interna en el caso particular de que allí
haya un dato.
Universidad de Piura
4.2 Medidas de dispersión
Sí es atípico
Universidad de Piura
4.2 Medidas de dispersión
Universidad de Piura
4.1 Medidas de centralización media, mediana, moda
varianza, desv. típica, coeficiente
4.2 Medidas de dispersión de variación, rango, cuartiles,
box-plot
• Medidas de asimetría
• Medidas de apuntamiento
• Medidas de asimetría
Coeficiente de σ𝑛𝑖=1 𝑥𝑖 − 𝑥ҧ 3
𝐶𝐴 =
asimetría (de Fisher) 𝑛𝑠𝑥3
Universidad de Piura
• Medidas de asimetría
σ𝑛𝑖=1 𝑥𝑖 − 𝑥ҧ 3
Coeficiente de asimetría de Fisher 𝐶𝐴 =
𝑛𝑠𝑥3
• CA = 0; si la distribución es perfectamente simétrica
• CA > 0; si hay asimetría positiva
• CA < 0: si hay asimetría negativa
Universidad de Piura
• Medidas de apuntamiento
Coeficiente de σ𝑛𝑖=1 𝑥𝑖 − 𝑥ҧ 4
apuntamiento o 𝐾=
𝑛𝑠𝑥4
Curtosis
𝐾>3
𝐾<3 𝐾=3
Universidad de Piura
• Medidas de apuntamiento
Universidad de Piura
Ejercicios
EDB_2016_II.xlsx
• El fichero EDB_2016_II.xlsx contiene información de los alumnos de EDB del ciclo
2016-II. Haz un histograma de la variable IA (índice acumulado) utilizando un número
de clases adecuado. Comenta sus características más importantes y busca un valor
numérico que cuantifique cada una de ellas.
• Usando este mismo fichero, la siguiente figura muestra las ojivas de la variable IA de
cada programa académico. ¿En cuál te gustaría estar?
Histograma de IA
PA
100 IC
IIS
IME
80
Porcentaje acumulado
60
40
20
0
9,0 10,5 12,0 13,5 15,0 16,5 18,0
IA
Universidad de Piura