Está en la página 1de 56

Introducción y Estadística Descriptiva

Descripción numérica de datos

Esneyder González Ponzón

Universidad del Norte

Febrero de 2020

Ing. Esneyder (Universidad del Norte) Introducción y Estadística Descriptiva 10/02 1 / 49


Descripción numérica de un conjunto de datos

Medidas
1 Tendencia central o de centralización(media, mediana y moda)
2 Posición (cuantiles: cuartiles, deciles o percentiles)
3 Variabilidad (rango, rango intercuartílico, desviación estándar,
varianza, coe…ciente de variación)
4 Forma (coe…ciente de asimetría y de apuntamiento)

Ing. Esneyder (Universidad del Norte) Introducción y Estadística Descriptiva 10/02 2 / 49


Medidas de tendencia central o centralización

Media aritmética o promedio


Para un conjunto de n valores x1 , x2 , ..., xn que representan una muestra la
media está dada por:
n
∑ xi
i =1
x=
n
Para un conjunto de N valores que representan una población la media
está dada por:
N
∑ xi
i =1
µ=
N

Ing. Esneyder (Universidad del Norte) Introducción y Estadística Descriptiva 10/02 3 / 49


Medidas de tendencia central o centralización

Media aritmética o promedio


La media representa el “Punto de equilibrio” del conjunto, lo que "debería
ser" para que el conjunto fuera totalmente homogeneo.
1 Desde un punto de vista lógico: Se van a contratar cuatro personas
con igual preparación para realizar un trabajo. Las cuatro personas
realizarán la misma actividad, hay disponible 3 millones de pesos para
pagarles, si embargo, los pagos acordados son: 600, 650, 700, 1050 (en
unidades de mil) ¿Son justos los salarios? No, lo ideal es que cada
uno recibiera por su trabajo: x = 600 +650 +4700 +1050 = 750
2 Desde un punto de vista analítico: La suma de las desviaciones
(xi x ) para valores por debajo y por encima de la media son iguales
n
pero de signo contrario, así ∑ (xi x ) = 0.
i =1

Ing. Esneyder (Universidad del Norte) Introducción y Estadística Descriptiva 10/02 4 / 49


Medidas de tendencia central o centralización

Media aritmética o promedio


9
xi xi x >>
>
600 150 >
= 4
> i∑
650 100 (xi x) = 0
700 50 >
>
>
=1
;
1050 300
n

n n n ∑ x i n
∑ (xi x) = ∑ xi ∑x =n =
i 1
n ∑ x = nx nx = 0
i =1 i =1 i =1 i =1

Ing. Esneyder (Universidad del Norte) Introducción y Estadística Descriptiva 10/02 5 / 49


Medidas de tendencia central o centralización

Media aritmética o promedio


Observación: Es importante tener en cuenta que la media se ve afectada
por valores extremos. En el ejercicio anterior si los salarios son: 200, 300,
400 y 2100 igualmente la media sería 750 pero es un valor que no re‡eja la
realidad.
Notas.
En algunos casos se calcula una media recortada (se ordenan los
datos y se elimina cierto porcentaje de datos en los extremos)
Se analizan puntos extremos y se eliminan.

Moda
La moda en un conjunto de datos es el dato u observación que más se
repite, los conjuntos pueden ser unimodales, bimodales o multimodales.
Se puede calcular para datos cualitativos y cuantitativos.

Ing. Esneyder (Universidad del Norte) Introducción y Estadística Descriptiva 10/02 6 / 49


Medidas de tendencia central o centralización

Mediana
La mediana se denotará como µ e para la población y e
x para la muestra.
Para un conjunto de valores ordenados se tiene:
1 Si el número de datos es par, la mediana es el promedio de los dos
valores centrales.
Si se tiene el conjunto de datos 3, 8, 6, 11, 1, 16, se ordenan:
1, 3, 6, 8 , 11, 16 la mediana es el promedio de los dos valores
centrales ex = 6 +2 8 = 7
2 Si el número de datos es impar. La mediana es el valor central
Si se tiene el conjunto de datos 3, 20, 8, 6, 11, 1, 16, se ordenan
1, 3, 6, 8 , 11, 16, 20 la mediana es 8.

Ing. Esneyder (Universidad del Norte) Introducción y Estadística Descriptiva 10/02 7 / 49


Medidas de tendencia central o centralización

Observaciones
1 En el primer conjunto (1, 3, 6, 8 , 11, 16) e
x = 7, el 50% de los datos
son menores que la mediana y el otro 50% son mayores.
2 En el segundo conjunto (1, 3, 6, 8 , 11, 16, 20) e
x = 8 se puede decir:
a. El 42.8% son menores que la mediana y el 42.8% son
mayores que la mediana.
b. El 57.1% son menores o iguales que la mediana o el 57.1%
son mayores o iguales que la mediana.

Ing. Esneyder (Universidad del Norte) Introducción y Estadística Descriptiva 10/02 8 / 49


Medidas de posición

Punto de posición
Un punto de posición es aquel valor para el cual un porcentaje especí…co
de valores queda en o por debajo de él y el complemento en o por encima
de él. Se le denominan en general cuantiles y pueden ser cuartiles, deciles
y percentiles. Para un conjunto de datos ordenados se tiene que:
1 Los cuartiles son aquellos valores que dividen al conjunto en 4 partes
iguales, cada uno contiene 25% de los datos. (Q1 , Q2 , Q3 )
2 Los deciles son aquellos valores que dividen al conjunto en 10 partes
iguales, cada uno contiene 10% de los datos. (D1 , D2 , ..., D9 )
3 Los percentiles son aquellos valores que dividen al conjunto en 100
partes iguales, cada uno contiene 1% de los datos. (P1 , ..., P99 )

Ing. Esneyder (Universidad del Norte) Introducción y Estadística Descriptiva 10/02 9 / 49


Medidas de posición

Posición del cuantil


Para ubicar cualquier cuantil se deben ordenar los datos y ubicar la posición
del cuantil deseado, así si n representa el número de datos se tiene que:
1 El i ésimo cuartil está en la posición:
n+1
Pos Qi = i , i = 1, 2, 3.
4
2 El i ésimo decil está en la posición:
n+1
Pos Di = i , i = 1, ..., 9.
10
3 El i ésimo percentil está en la posición:
n+1
Pos Pi = i , i = 1, ..., 99.
100
Ing. Esneyder (Universidad del Norte) Introducción y Estadística Descriptiva 10/02 10 / 49
Medidas de posición

Regla a adoptar
Si la posición da un número entero el cuantil es el valor que está en
esa posición.
Si la posición da un número decimal se toman los valores en las
posiciones antes (xi ) y después (xi +1 ), se calcula la diferencia entre la
posición hallada y la posición de xi y se multiplica por xi +1 xi , el
valor del cuantil será este resultado sumado al valor xi .

cuantil = xi + (Pos hallada Pos xi )(xi +1 xi )


o equivalentemente:

cuantil = xi (Posxi +1 Pos xi ) + xi +1 (Pos hallada Pos xi )

Ing. Esneyder (Universidad del Norte) Introducción y Estadística Descriptiva 10/02 11 / 49


Medidas de posición

Ejemplo
Considere el siguiente conjunto de datos ya ordenado, que represeta el
número de días que transcurren desde el momento en que se coloca una
queja en una o…cina de servicios y el momento en que se da solución al
problema. Calcule e interprete Q2 , Q1 , Q3 , D3 , D7 , P32
Posición Posición Posición Posición Posición
1 5 11 15 21 30 31 45 41 60
2 5 12 15 22 30 32 45 42 75
3 5 13 15 23 30 33 45 43 90
4 5 14 15 24 30 34 50 44 90
5 5 15 15 25 30 35 55 45 90
6 10 16 20 26 35 36 60 46 90
7 10 17 20 27 35 37 60 47 95
8 10 18 25 28 40 38 60 48 100
9 10 19 25 29 40 39 60 49 120
10 15 20 25 30 40 40 60 50 120

Ing. Esneyder (Universidad del Norte) Introducción y Estadística Descriptiva 10/02 12 / 49


Medidas de posición

Cálculo paso a paso de Q2

Ing. Esneyder (Universidad del Norte) Introducción y Estadística Descriptiva 10/02 13 / 49


Medidas de posición

Cálculo paso a paso de Q2


(50 + 1)
Pos Q2 = 2 = 25.5
4

Ing. Esneyder (Universidad del Norte) Introducción y Estadística Descriptiva 10/02 13 / 49


Medidas de posición

Cálculo paso a paso de Q2


(50 + 1)
Pos Q2 = 2 = 25.5
4
como es un número decimal aplicamos la fórmula

cuantil = xi + (Pos hallada Pos xi )(xi +1 xi )

Ing. Esneyder (Universidad del Norte) Introducción y Estadística Descriptiva 10/02 13 / 49


Medidas de posición

Cálculo paso a paso de Q2


(50 + 1)
Pos Q2 = 2 = 25.5
4
como es un número decimal aplicamos la fórmula

cuantil = xi + (Pos hallada Pos xi )(xi +1 xi )

Pos hallada: 25.5

Ing. Esneyder (Universidad del Norte) Introducción y Estadística Descriptiva 10/02 13 / 49


Medidas de posición

Cálculo paso a paso de Q2


(50 + 1)
Pos Q2 = 2 = 25.5
4
como es un número decimal aplicamos la fórmula

cuantil = xi + (Pos hallada Pos xi )(xi +1 xi )

Pos hallada: 25.5


Pos xi = 25

Ing. Esneyder (Universidad del Norte) Introducción y Estadística Descriptiva 10/02 13 / 49


Medidas de posición

Cálculo paso a paso de Q2


(50 + 1)
Pos Q2 = 2 = 25.5
4
como es un número decimal aplicamos la fórmula

cuantil = xi + (Pos hallada Pos xi )(xi +1 xi )

Pos hallada: 25.5


Pos xi = 25
xi = 30

Ing. Esneyder (Universidad del Norte) Introducción y Estadística Descriptiva 10/02 13 / 49


Medidas de posición

Cálculo paso a paso de Q2


(50 + 1)
Pos Q2 = 2 = 25.5
4
como es un número decimal aplicamos la fórmula

cuantil = xi + (Pos hallada Pos xi )(xi +1 xi )

Pos hallada: 25.5


Pos xi = 25
xi = 30
xi +1 = 35

Ing. Esneyder (Universidad del Norte) Introducción y Estadística Descriptiva 10/02 13 / 49


Medidas de posición

Cálculo paso a paso de Q2


(50 + 1)
Pos Q2 = 2 = 25.5
4
como es un número decimal aplicamos la fórmula

cuantil = xi + (Pos hallada Pos xi )(xi +1 xi )

Pos hallada: 25.5


Pos xi = 25
xi = 30
xi +1 = 35
Q2 = 30 + (25.5 25)(35 30) = 32.5

Ing. Esneyder (Universidad del Norte) Introducción y Estadística Descriptiva 10/02 13 / 49


Medidas de posición

Para practicar
Los cálculos en millas por galón en 50 cargas del tanque de cierto tipo de
automóvil nuevo se resumen en la siguiente tabla. Calcule e interprete
Q 2 , D1 , D6 .

20.5 26.5 27.6 28.3 28.7 28.9 29.2 30.0 30.4 31.5
23.7 26.6 27.8 28.4 28.7 28.9 29.2 30.2 30.5 31.9
25.8 26.6 28.1 28.4 28.7 29.0 29.3 30.3 30.8 32.0
26.3 27.1 28.3 28.4 28.8 29.2 29.3 30.3 31.2 32.6
26.4 27.4 28.3 28.5 28.8 29.2 29.5 30.3 31.5 38.6

Ing. Esneyder (Universidad del Norte) Introducción y Estadística Descriptiva 10/02 14 / 49


Medidas de variabilidad o dispersión

Variabilidad
En cualquier campo de desempeño hay que tomar decisiones en
presencia de variabilidad o “ruido”.
En todos los procesos existen diferentes causas de variabilidad: mano
de obra, métodos, máquinas, materia prima, entorno,...,etc. es
imposible eliminarla lo deseable es minimizarla.
Existen diferentes medidas de variabilidad (rango, rango
intercuartílico, desviación estándar, varianza, coe…ciente de variación)
que buscan medir la magnitud de las desviaciones de los valores
obtenidos con respecto a un valor central o de referencia.

Ing. Esneyder (Universidad del Norte) Introducción y Estadística Descriptiva 10/02 15 / 49


Medidas de variabilidad

Rango
El rango R =Dato mayor-Dato menor, mide la variabilidad del 100% de
los datos, es una medida débil para comparar variabilidad.

Ing. Esneyder (Universidad del Norte) Introducción y Estadística Descriptiva 10/02 16 / 49


Medidas de variabilidad

Rango

Aunque en ambos conjuntos el rango es R = 5 1 = 4 se ve claramente


que la dispersión de los valores es diferente.

Ing. Esneyder (Universidad del Norte) Introducción y Estadística Descriptiva 10/02 17 / 49


Medidas de variabilidad

Rango Intercuartílico
El rango intercuartílico RIQ = Q3 Q1 , mide la variabilidad del 50% de
los datos centrales, es una medida débil para comparar variabilidad.

Varianza
La varianza se denota σ2 para una población y s 2 para una muestra, se
calculan respectivamente como:
N n
∑ (xi µ )2 ∑ (xi x )2
i =1 i =1
σ2 = ; s2 =
N n 1
N y n representan los tamaños de la población y de la muestra
respectivamente.

Ing. Esneyder (Universidad del Norte) Introducción y Estadística Descriptiva 10/02 18 / 49


Medidas de variabilidad

Varianza
1 La varianza mide que tan alejados se encuentran los datos con
respecto a la media.
2 La varianza está en unidades cuadradas.
3 Para un conjunto de datos la varianza es una medida “muda” se
puede utilizar para comparar la variabilidad de conjuntos de datos que
satisfacen las siguientes condiciones.
1 Están en las mismas unidades. (no serviría para comparar variabilidad
entre tiempos y cali…caciones).
2 Sean de la misma “dimensión” (no es aconsejable para comparar
conjuntos que estén formados solo por unidades con otros que estén en
unidades mil, por ejemplo).
4 A mayor varianza mayor variabilidad.

Ing. Esneyder (Universidad del Norte) Introducción y Estadística Descriptiva 10/02 19 / 49


Medidas de variabilidad

Varianza
Se considerara que estamos trabajando siempre con muestras y se puede
calcular s 2 de una forma más simple desarrollando el cuadrado, así:

n n
∑ ( xi x )2 ∑ (xi2 2xxi + x 2 )
i =1 i =1
s2 = =
n 1 n 1
n n n
∑ xi2 2x ∑ xi + ∑ x 2
i =1 i =1 i =1
=
n 1
n
∑ xi2 nx 2
i =1
s2 =
n 1

Ing. Esneyder (Universidad del Norte) Introducción y Estadística Descriptiva 10/02 20 / 49


Medidas de variabilidad

Varianza
Consideremos los datos de los diagramas de puntos.
Conjunto 1: 1, 5, 5, 5, 5, 5, 5, 5, 5, 5
Conjunto 2: 1, 2, 3, 3, 4, 4, 5, 5, 5, 5
como hay valores que se repiten calculamos la media y la varianza con las
siguientes expresiones:
k k
∑ fi xi ∑ fi xi2 nx 2
i =1
, s 2 = i =1
x=
n n 1
donde fi es el número de veces que aparece el dato i y k es el número de
datos diferentes.

Ing. Esneyder (Universidad del Norte) Introducción y Estadística Descriptiva 10/02 21 / 49


Medidas de variabilidad

Varianza
Para el conjunto 1 : 1, 5, 5, 5, 5, 5, 5, 5, 5, 5

k xi fi fi xi xi2 fi xi2
1 1 1 1 1 1
2 5 9 45 25 225
n = ∑ fi = 10 ∑ i i = 46
f x ∑ i i2 = 226
f x

k k

∑ fx i i ∑ fx i i
2 nx 2
226 10 4,6 2
Se tiene que x = =
i 1
n = 4, 6 y s2 = =i 1
n 1 = 9 = 1, 6.

Ing. Esneyder (Universidad del Norte) Introducción y Estadística Descriptiva 10/02 22 / 49


Medidas de variabilidad

Varianza
Para el conjunto 2 : 1, 2, 3, 3, 4, 4, 5, 5, 5, 5

k xi f fi xi xi2 fi xi2
1 1 1 1 1 1
2 2 1 2 4 4
3 3 2 6 9 18
4 4 2 8 16 32
5 5 4 20 25 100
n = ∑ fi = 10 ∑ fi xi = 37 ∑ fi xi2 = 155
Se tiene que x = 3, 7 y s 2 = 2, 011. Es más variable el conjunto 2 por
tener una mayor varianza.

Ing. Esneyder (Universidad del Norte) Introducción y Estadística Descriptiva 10/02 23 / 49


Medidas de variabilidad

Desviación estándar
La desviación estándar espla raíz cuadrada positiva de p
la varianza. Para
una población será σ = σ y para una muestra s = s 2 . La desviación
2

estándar está en las mismas unidades de los datos y tiene los mismos usos
de la varianza.

Ing. Esneyder (Universidad del Norte) Introducción y Estadística Descriptiva 10/02 24 / 49


Medidas de variabilidad

Coe…ciente de Variación
El coe…ciente de variación CV proporciona una medida de variabilidad que
es independiente de la unidad de medida; por tanto puede utilizarse para
comparar la variabilidad de conjuntos de datos que están en unidades
diferentes, es la medida más fuerte al momento de comparar, se calcula
como:
s
CV =
x
y expresa la desviación estándar como una proporción de la media

Ing. Esneyder (Universidad del Norte) Introducción y Estadística Descriptiva 10/02 25 / 49


Medidas de forma

El coe…ciente de asimetría mide CAs mide el grado de asimetría de una


distribución con respecto a la media.
En un histograma si los dos lados determinados por la media son idénticos
se dice que es simétrico (CAs =0 o muy cercano a 0). Si hay menos
medidas debajo de la media que arriba de ella se dice que es sesgado a la
izquierda o presenta una cola a la izquierda (CAs menor que 0). Si hay
más medidas debajo de la media que arriba de ella se dice que es sesgado
a la derecha o presenta una cola a la derecha (CAs mayor que 0), se
calcula como:
n
∑ (xi x )3
i =1
CAs =
ns 3

Ing. Esneyder (Universidad del Norte) Introducción y Estadística Descriptiva 10/02 26 / 49


Medidas de forma: Coe…ciente de asimetría

Ing. Esneyder (Universidad del Norte) Introducción y Estadística Descriptiva 10/02 27 / 49


Medidas de forma
El coe…ciente de apuntamiento CAp o curtosis describe el apuntamiento o
achatamiento de una cierta distribución con respecto a una distribución
normal, para esta la curtosis es igual a 3 (mesocúrtica) para valores
mayores de 3 se tiene una distribución muy puntiaguda (Leptocúrtica),
para valores menores de 3 se tiene una distribución achatada (platicúrtica),
se calcula mediante la expresión:
n
∑ (xi x )4
i =1
CAp =
ns 4

Ing. Esneyder (Universidad del Norte) Introducción y Estadística Descriptiva 10/02 28 / 49


Medidas de forma

Coe…ciente de asimetría - Datos con frecuencias


k
∑ fi ( x i x )3
i =1
CAs =
ns 3

Coe…ciente de apuntamiento - Datos con frecuencias


k
∑ fi (xi x )4
i =1
CAp =
ns 4

,donde k es el número de datos diferentes, y f , la frecuencia del dato

Ing. Esneyder (Universidad del Norte) Introducción y Estadística Descriptiva 10/02 29 / 49


Medidas de forma

Práctica
Considere los tres conjuntos de datos unimodales, dados en una tabla de
frecuencias no agrupadas,

Dato f Dato f Dato f


1 1 1 2 1 20
2 2 2 2 2 25
3 3 3 5 3 20
4 5 4 5 4 15
- -
5 7 5 10 5 10
6 5 6 15 6 5
7 3 7 20 7 5
8 2 8 25 8 2
9 1 9 20 9 2

Ing. Esneyder (Universidad del Norte) Introducción y Estadística Descriptiva 10/02 30 / 49


Medidas de forma

Coe…ciente de asimetría
Para cada conjunto de datos
1 Realice el histograma y clasifíquelo como simétrico, sesgado a la
derecha o a la izquierda.
2 Calcule el coe…ciente de asimetría y establezca una conclusión con
respecto a su simetría.
3 Calcule la media, mediana y moda y establezca conclusiones con
respecto a su simetría.
4 Calcule los coe…cientes de apuntamiento ¿Puede establecer algo con
respecto a los valores hallados?

Ing. Esneyder (Universidad del Norte) Introducción y Estadística Descriptiva 10/02 31 / 49


Medidas para datos agrupados

Cuando se habla de datos agrupados se re…ere a datos contenidos en una


tabla agrupada, la acumulada de ésta, los diagramas asociados a estas
tablas, en este caso los valores obtenidos son aproximaciones a los valores
reales y se calculan como:
Media:
K
∑ mi fi
i =1
x=
n
K
n= ∑ fi (número total de datos), mi es el punto medio de la clase, que
i =1
se denomina la marca de clase, fi es la frecuencia de clase y K es el
número de clases

Ing. Esneyder (Universidad del Norte) Introducción y Estadística Descriptiva 10/02 32 / 49


Medidas para datos agrupados

Cuantil
g
Cuantil = L +
A
f
Donde L es la frontera inferior de la clase donde está el cuantil, g es el
número de datos que hacen falta para completar los datos por debajo del
cuantil, f es la frecuencia de la clase donde está el cuantil y A es la
amplitud de clase.
g = pos hallada Facum de la clase anterior a la clase de referencia
Moda: es la marca de clase con mayor frecuencia.
Varianza:
K
∑ fi (mi x )2
i =1
S2 =
n 1

Ing. Esneyder (Universidad del Norte) Introducción y Estadística Descriptiva 10/02 33 / 49


Medidas para datos agrupados

Coe…ciente de asimetría:
K
∑ fi (mi x )3
i =1
CAs =
nS 3
Coe…ciente de apuntamiento:
K
∑ fi (mi x )4
i =1
CAp =
nS 4

Ing. Esneyder (Universidad del Norte) Introducción y Estadística Descriptiva 10/02 34 / 49


Lectura de grá…cos
Histograma
El siguiente grá…co representa el histograma del sueldo mensual (en
unidades de mil) para los empleados de una empresa pequeña. Responder
a partir del grá…co.

Ing. Esneyder (Universidad del Norte) Introducción y Estadística Descriptiva 10/02 35 / 49


Lectura de grá…cos

Histograma
1 ¿Cuántos empleados tiene la empresa?
2 ¿Cuál es el salario promedio por empleado?
3 ¿El 25% de los empleados ganan menos de cuánto? (Cuartil 1)
4 ¿Cuántos empleados ganan más de $720.000?
5 ¿Cuál es el percentil 45 ?

Ing. Esneyder (Universidad del Norte) Introducción y Estadística Descriptiva 10/02 36 / 49


Lectura de grá…cos

Polígono
El grá…co siguiente indica el número fallas de un grupo de estudiantes
durante un semestre

Ing. Esneyder (Universidad del Norte) Introducción y Estadística Descriptiva 10/02 37 / 49


Lectura de grá…cos

Polígono
Determine del grá…co
1 ¿Cuántos estudiantes se consideran?
2 ¿Cuántas fallas hubo en total?
3 El porcentaje de estudiantes tuvieron más de 4 fallas
4 La mediana
5 El decil 8

Ing. Esneyder (Universidad del Norte) Introducción y Estadística Descriptiva 10/02 38 / 49


Lectura de grá…cos

Ojiva
El siguiente grá…co representa la ojiva de los salarios de los trabajadores
del departamento grá…co de una compañía publicitaria.

Ing. Esneyder (Universidad del Norte) Introducción y Estadística Descriptiva 10/02 39 / 49


Lectura de grá…cos

Ojiva
1 ¿Cuántos trabajadores tiene este departamento?
2 ¿Cuál es el salario promedio?
3 Calcule e interprete la mediana.
4 ¿Qué porcentaje de trabajadores gana entre $820.00 y $1’320.000?
5 ¿Más de cuánto gana el 30% con mejor salario?(Séptimo decil)
6 Asignación: Calcule todas las medidas

Ing. Esneyder (Universidad del Norte) Introducción y Estadística Descriptiva 10/02 40 / 49


Estandarización de datos

Estandarización de Datos
Usted está aspirando a un empleo en una empresa donde hay 5 vacantes
en diferentes áreas, en cada una se aplica una prueba a todos los
aspirantes los resultados siguientes muestran el resultado de su prueba, la
media y varianza de todos los resultados de las personas que aplicaron en
cada área. De acuerdo con estos resultados ¿En qué área obtuvo mejor
desempeño detro del grupo?
Area Resultado Media Desv.estándar
Mercadeo 75 65 9
Informática 75 70 5
Finanzas 60 55 10
Producción 80 75 20
Logística 75 70 4

Ing. Esneyder (Universidad del Norte) Introducción y Estadística Descriptiva 10/02 41 / 49


Estandarización de datos

Cómo estandarizar?
Si se tiene un conjunto de n datos x1 , ..., xn para estandarizar un valor
dentro del grupo se aplica la siguiente transformación:
x xi
zi =
s
considerando que se está trabajando con una muestra, si se hace referencia
a una población se tiene:
xi µ
zi =
σ

Ing. Esneyder (Universidad del Norte) Introducción y Estadística Descriptiva 10/02 42 / 49


Estandarización de datos

Características de un conjunto estandarizado


Si se estandarizan todos los xi , el nuevo conjunto z1 , ..., zn tiene las
siguientes características:
1 Media 0
2 Varianza 1
3 Son adimensionales

Observación
Un puntaje estándar se utiliza para comparar medidas particulares de dos o
más conjuntos de datos con respecto al conjunto. Proporciona una medida
de la posición relativa de un elemento dentro del grupo.

Ing. Esneyder (Universidad del Norte) Introducción y Estadística Descriptiva 10/02 43 / 49


Estandarización de datos

Características de un conjunto estandarizado


Media cero: z = 0
n n n
∑ zi ∑ xi x
s ∑ (xi x)
i =1 i =1 i =1
z= = = =0
n n sn
Varianza sz2 = 1
n n n n
xi x 2
∑ zi2 nz 2 ∑ zi2 ∑ s ∑ (xi x )2
i =1 i =1 i =1 i =1
sz2 = = = = =1
n 1 n 1 n 1 s 2 (n 1)

Ing. Esneyder (Universidad del Norte) Introducción y Estadística Descriptiva 10/02 44 / 49


Estandarización de datos

Ejemplo
David y Ricardo están entrenando para una maratón. David está
entrenando en el camino A, la media del tiempo para completar el
recorrido fue de 167, 4 minutos y la desviación estándar de 25, 9 minutos.
Ricardo está entrenando en el camino B, su media fue de 143, 1 y su
desviación estándar de 20, 7 minutos. David dice que su tiempo de
recorrido fue de 91, 5 minutos y Ricardo dice que el de él fue de 86, 2
minutos ¿Según usted quién será mejor en la maratón?

Ing. Esneyder (Universidad del Norte) Introducción y Estadística Descriptiva 10/02 45 / 49


Diagrama de cajas y datos aberrantes
Diagrama de cajas
Un diagrama de cajas es un tipo de grá…co que brinda información acerca
de centralización, forma, posición y variabilidad, se construye de la
siguiente manera:
1. Se calculan los tres cuartiles, dato mayor, dato menor y el
rango intercuartílico.
2. Se construye una recta numérica, se marca en ella los tres
cuartiles.
3. Se construye una caja con los lados sobre Q1 y Q3 , el ancho
de la caja no importa.
4. Se dibujan dos extensiones la izquierda que va desde la
mitad del lado izquierdo de la caja hasta el maxfdato menor,
Primer dato existente Q1 1.5RIQ g y la derecha que va
desde la mitad del lado derecho de la caja hasta el
minfPrimer dato existente Q3 + 1.5RIQ, dato mayorg
Ing. Esneyder (Universidad del Norte) Introducción y Estadística Descriptiva 10/02 46 / 49
Diagrama de cajas y datos aberrantes

Datos aberrantes
Valores menores que Q1 1.5RIQ o mayores que Q3 + 1.5RIQ son
considerados datos aberrantes, atípicos o extremos
Valores menores que Q1 3RIQ o mayores que Q3 + 3RIQ son
considerados datos muy aberrantes, muy atípicos o muy extremos

Ing. Esneyder (Universidad del Norte) Introducción y Estadística Descriptiva 10/02 47 / 49


Diagrama de cajas y datos aberrantes
Ejemplo
Para el siguiente conjunto de datos realice el diagrama de cajas y
determine si hay observaciones aberrantes.

0 5 5 5 5 5
1 0 0 0 0 5 5 5 5 5 5
2 0 0 5 5 5
3 0 0 0 0 0 5 5
4 0 0 0 5 5 5
5 0 5
6 0 0 0 0 0 0
7 5
8
9 0 0 0 0 5
10 0
11
12 0 0

Ing. Esneyder (Universidad del Norte) Introducción y Estadística Descriptiva 10/02 48 / 49


Diagrama de cajas y datos aberrantes

Ejemplo
El siguiente grá…co representa los diagramas de cajas que indican la
cantidad de llenado de tres máquinas para un producto que debe contener
2 kg. Si se debe adquirir una máquina ¿Cuál recomendaría usted?

Ing. Esneyder (Universidad del Norte) Introducción y Estadística Descriptiva 10/02 49 / 49

También podría gustarte