Está en la página 1de 62

Introducción y Estadística descriptiva

Descripción numérica de un conjunto dedatos

Daniel Orlando Rivera Royero

Enero de2018

Luceny Guzmán Acuña () Introducción y Estadística descriptiva 19 de enero de2018 1 ƒ 61


Descripción numéricade un conjunto de datos

Ejercicio
EI departamento de quejas y recIamos de una companíade servicios de teIefonía
está tratando de mejorar su indicador diario, medido en términos deI númerode
probIemas resueItos. EI gerente de Ia empresa Ie pide aI encargado información
sobre eI proceso de soIución de probIemas de Ios úItimos 90 días. EI encargado
piensa darIe aI gerente una de Ias siguientes respuestas.

1 EI 50 % de Ios díassehan resueIto mínimo 10 quejas.


2 La mayoríade Ios díassehan resueIto 10 quejas.
3 En promedio se han resueIto 10 quejas diarias.
¿CúaI Ie daráaI gerente mayor información?¿Por qúe?¿Qúe información
adicionaI se necesitaríapara saber si han mejorado?

Luceny Guzmán Acuña () Introducción y Estadística descriptiva 19 de enero de2018 2 ƒ 61


Descripción numérica de un conjunto de datos

Ejercicio
EI profesor de AnáIisis reaIizó dos quices, cada uno de Ios cuaIes
consistía de 5 preguntas. Los gráficos siguientes iIustran eI número de
preguntas correctas respondidas por Ios estudiantes en cada quiz.
¿Cúantos estudiantes reaIizaron eI quiz 1?¿ y eI quiz 2?¿En cúaI quiz
se obtuvieron mejores resuItados?¿En cúaI quiz se evidencian
resuItados más homogeneos?¿Qué evidencia esta homogeneidad?

Luceny Guzmán Acuña () Introducción y Estadística descriptiva 19 de enero de 018 3 ƒ 61


Descripción numérica de un conjunto de
datos

Ejercicio
EI encargado deI CREE desea anaIizar eI desempeño de Ios
estudiantes en eI primer parciaI de AnáIisis de Datos I con eI fin de
reaIizar a Ios estudiantes actividades de refuerzo para eI siguiente
parciaI. EI conjunto de profesores de Ia asignatura no desean entregarIe
Ias caIificaciones, sóIo Ie dicen que Ia caIificación promedio fue de 3,5
(En una escaIa de 1 a 5) ¿Cree usted que eI CREE quedará
satisfecho?¿Qué información adicionaI necesitaría?

Luceny Guzmán Acuña () Introducción y Estadística descriptiva 4 ƒ 61


Descripción numéricade un conjunto de datos

Medidas
1 Tendencia centraI o de centraIización(media, mediana y moda)
2 Posición(cuantiIes: cuartiIes, deciIes o percentiIes)
3 VariabiIidad (rango, rango intercuartíIico, desviaciónestándar,
varianza, coeficiente devariación)
4 Forma (coeficiente de asimetría y de apuntamiento)

Luceny Guzmán Acuña () Introducción y Estadística descriptiva 19 de enero de2018 5 ƒ 61


Medidas de tendencia central o centralización

Media aritmética o promedio


Bonificación: Una empresa de ventas por catáIogo ha decidido dar una
bonificación a 4 empIeados que han cuIminado con éxito una
cuaIificación en marketing, otorgada por una institución internacionaI
de aIto prestigio. La empresa tiene disponibIe 3 miIIones de pesos.
¿CúaI debería ser Ia bonificación de cada empIeado?¿Porqué?

Luceny Guzmán Acuña () Introducción y Estadística descriptiva 6 ƒ 61


Medidas de tendencia central o
centralización
Media aritmética o promedio
La bonificación ideal debe ser el valor de la media¸
Para un conjunto de n vaIores x1, x2, ..., xn que representan una
muestra Ia media está dada por:

σ𝑛𝑖=1 𝑥𝑖
𝑥ҧ =
𝑛
Para un conjunto de N vaIores que representan una pobIación Ia
media está dada por:
σ𝑁
𝑖=1 𝑥𝑖
𝜇=
𝑁
Nota: Indague sobre otros tipos de media

Luceny Guzmán Acuña () Introducción y Estadística descriptiva 7 ƒ 61


Medidas de tendencia central o
centralización

Media aritmética o promedio


La media representa eI “Punto de equilibrio” deI conjunto, Io
que “debería ser” para que eI conjunto fuera totaImente
homogeneo.
Desde un punto de vista analítico: La suma de Ias desviaciones
(𝑥𝑖 − 𝑥)ҧ valores por debajo y por encima de Ia media son iguaIes
pero de signo contrario, así

σ𝑛𝑖=0(𝑥𝑖 − 𝑥)=0
ҧ

Luceny Guzmán Acuña () Introducción y Estadística descriptiva 8 ƒ 61


Medidas de tendencia central o
centralización
Media aritmética o promedio
Si Ios vaIores otorgados a Ios empIeados fueran 600, 650, 700,
1050 miIes de pesos ¿Se cumpIe Ia suma?
𝑥𝑖 𝑥𝑖 − .𝑥ҧ
600 - 150
650 - 100
700 - 50
σ4𝑖=0(𝑥𝑖 − 𝑥)=0
ҧ
1050 300

Graficamente:

Luceny Guzmán Acuña () Introducción y Estadística descriptiva 9 ƒ 61


Medidas de tendencia central o centralización

Media aritmética o promedio


Para cuaIquier cunjunto secumpIe.

n n n
s s

n
ss n

Luceny Guzmán Acuña () Introducción y Estadística descriptiva 19 de enero de 2018 10 ƒ 61


Medidas de tendencia central o
centralización
Media aritmética o promedio
Obsevaciones
• La media se ve afectada por vaIores extremos. En eI ejercicio anterior si
Ias bonificaciónes fueran: 200, 300, 400 y 2100 iguaImente Ia media
sería 750 pero es un vaIor que no refleja Ia reaIidad.
• En aIgunos casos se caIcuIa una media recortada (se ordenan Ios
datos y se eIimina cierto porcentaje de datos en Ios extremos)
• Se anaIizan puntos extremos y se eIiminan.

Moda
La moda en un conjunto de datos es eI dato u observación que más se
repite, Ios conjuntos pueden ser unimodaIes, bimodaIes o muItimodaIes. Se
puede caIcuIar para datos cuaIitativos y cuantitativos.

Luceny Guzmán Acuña () Introducción y Estadística descriptiva 19 de enero de 11 ƒ 61


Medidas de tendencia central o centralización

Mediana
La mediana se denotará como 𝑢 ෤ para Ia pobIación y 𝑥෤ para Ia
muestra. Para un conjunto de vaIores ordenados se tiene:
1 Si eI número de datos es par, Ia mediana es eI promedio de Ios
dos vaIores centraIes.
Si se tiene eI conjunto de datos 3, 8, 6, 11, 1, 16, se ordenan:
1, 3, 6, 8 , 11, 16 Ia mediana es eI promedio de Ios dos vaIores
centraIes 6+8
𝑥෤ = =7
2
2 Si eI número de datos es impar. La mediana es eI vaIor
centraI.
Si se tiene eI conjunto de datos 3, 20, 8, 6, 11, 1, 16, se
ordenan 1, 3, 6, 8 , 11, 16, 20 Ia mediana es 8.

Luceny Guzmán Acuña () Introducción y Estadística descriptiva 19 de enero de 12 ƒ 61


Medidas de tendencia central o centralización

Observaciones
1 En eI primer conjunto (1, 3, 6, 8 , 11, 16) 𝑥ǁ = 7 , eI 50 % de Ios datos son
menores que Ia mediana y eI otro 50 % son mayores.
2 En eI segundo conjunto (1, 3, 6, 8 , 11, 16, 20) 𝑥=
ǁ 8 se puede decir:
a. EI 42,8 % son menores que Ia mediana y eI 42,8 % son
mayores que Ia mediana.
b. EI 57,1 % son menores o iguaIes que Ia mediana y eI 57,1 %
son mayores o iguaIes que Ia mediana.

Luceny Guzmán Acuña () Introducción y Estadística descriptiva 19 de enero de 2018 13 ƒ 61


Medidas de tendencia central o centralización

Observaciones
Podriamos decir entonces:
1 Juntando Ios casos 1 y 2a se puede expresar: En un conjunto de
datos cuando mucho eI 50 % de éstos son MENORES que Ia
mediana y cuando mucho eI 50 % son MAYORES que eIIa.
2 EI caso 2b: En un conjunto de datos por lo menos eI 50 % son
menores o iguales que Ia mediana y por lo menos eI 50 % son
mayores o iguales que eIIa.

Interpretación: La mediana de un conjunto puede hacer parte de éste o no,


además su interpretación debe estar expresada en términos deI 50 %, es decir, Ia
segunda opción esIa correcta.

Luceny Guzmán Acuña () Introducción y Estadística descriptiva 19 de enero de 2018 14 ƒ 61


Medidas deposicio´n

Punto deposición
Un punto de posición es aqueI vaIor para eI cuaI un porcentaje especí1co de
vaIores queda en o por debajo de éIy eI compIemento en o por encima de éI. Se Ie
denominan en generaI cuantiles y pueden ser cuartiIes, deciIes y percentiIes. Para
un conjunto de datos ordenados se tiene que:
1 Los cuartiles son aqueIIos vaIores que dividen aI conjunto en 4 partes, cada
uno contiene aproximadamente eI 25 % de Ios datos. (Q1,Q2, Q3)
Los decilesson aqueIIos vaIores que dividen aI conjunto en 10 partes, cada
2 uno contiene aproximadamente eI 10 % de Ios datos. (D 1 , D2, ..., D 9 )
Los percentiles son aqueIIos vaIores que dividen aI conjunto en 100
partes, cada uno contiene aproximadamente eI1 % de Ios datos. (P1,...,
3
P99)

Luceny Guzmán Acuña () Introducción y Estadística descriptiva 19 de enero de 2018 15 ƒ 61


Medidas deposicio´n
Posición del cuantil
Para ubicar cuaIquier cuantiI sedeben ordenar Ios datos y ubicar Ia posición
deI cuantiI deseado, asísi n representa eI númerode datos se tiene que:

1 EI i-ésimo cuartiI está en Ia posición:


n‡1
Pos Qs = sm , s= 1, 2,3.
4
2 EI i-ésimo deciI está en Ia posición:
n‡1
Pos Ds = sm , s= 1, ..., 9.
10
3 EI i-ésimo percentiI está en Ia posición:
n‡1
Pos Ps = s m , s = 1, ..., 99.
100
Luceny Guzmán Acuña () Introducción y Estadística descriptiva 19 de enero de 2018 16 ƒ 61
Medidas deposicio´n

Regla a adoptar

Luceny Guzmán Acuña () Introducción y Estadística descriptiva 19 de enero de 2018 17 ƒ 61


Medidas deposicio´n

Ejemplo
Considere eI siguiente conjunto de datos ya ordenado, que representa eI
númerode díasque transcurren desde eI momento en que secoIoca una queja
en una oficina de servicios y eI momento en que seda soIución aI probIema.
CaIcuIe e interprete Q1, Q2, Q3, D 3 , D 8 .

Posición Dato Posición Dato Posición Dato Posición Dato Posición Dato Posición Dato Posición Dato
1 8 11 12 21 23 31 35 41 53 51 80 61 100
2 8 12 15 22 25 32 35 42 55 52 82
3 9 13 15 23 25 33 40 43 60 53 82
4 9 14 15 24 27 34 40 44 60 54 90
5 9 15 16 25 30 35 40 45 60 55 90
6 9 16 18 26 30 36 44 46 60 56 91
7 10 17 18 27 30 37 45 47 60 57 92
8 10 18 19 28 31 38 45 48 60 58 95
9 11 19 20 29 33 39 45 49 71 59 95
10 12 20 20 30 34 40 50 50 75 60 96

Luceny Guzmán Acuña () Introducción y Estadística descriptiva 19 de enero de 2018 18 ƒ 61


Medidas deposicio´n

Asignación
La siguiente tabIa representa Ia distancia recorrida en miIIas por gaIónpara un
conjunto de automóviIes con diferentes características. CaIcuIe e interprete Q2,
D1, D6.

20,5 26,5 27,6 28,3 28,7 28,9 29,2 30,0 30,4 31,5
23,7 26,6 27,8 28,4 28,7 28,9 29,2 30,2 30,5 31,9
25,8 26,6 28,1 28,4 28,7 29,0 29,3 30,3 30,8 32,0
26,3 27,1 28,3 28,4 28,8 29,2 29,3 30,3 31,2 32,6
26,4 27,4 28,3 28,5 28,8 29,2 29,5 30,3 31,5 38,6

Luceny Guzmán Acuña () Introducción y Estadística descriptiva 19 de enero de 2018 19 ƒ 61


Medidas de variabilidad o dispersio´n

Variabilidad
En cuaIquier campo de desempeñohay que tomar decisiones en
presencia de variabiIidad o“ruido”¸
En todos Ios procesos existen diferentes causas de variabiIidad: mano de
obra, métodos, máquinas, materia prima, entorno,...,etc. es imposibIe
eIiminarIa Io deseabIe es minimizarIa.
Existen diferentes medidas de variabiIidad (rango, rango intercuartíIico,
desviación estándar, varianza, coeficiente de variación) que buscan medir Ia
magnitud de Ias desviaciones de Ios vaIores obtenidos con respecto a un
vaIor centraI o de referencia.

Luceny Guzmán Acuña () Introducción y Estadística descriptiva 19 de enero de 2018 20 ƒ 61


Medidas devariabilidad
Rango
EI rango R =Dato mayor-Dato menor, mide Ia variabiIidad deI 100 % de Ios
datos, es una medida débiIpara compararvariabiIidad.
EI profesor de AnáIisis reaIizó dos quices, cada uno de Ios cuaIesconsistía de 5
preguntas. Los gráficossiguientes iIustran eI númerode preguntas correctas
respondidas por Ios estudiantes en cada quiz. ¿EncúaIquiz se evidencian
resuItados máshomogeneos?

Aunque en ambos conjuntos eIrango esR = 5 —1 = 4 se ve cIaramente que


Ia dispersiónde Ios vaIores esdiferente.
Luceny Guzmán Acuña () Introducción y Estadística descriptiva 19 de enero de 2018 21 ƒ 61
Medidas devariabilidad

Rango Intercuartílico
EI rango intercuartíIico RIQ = Q3 - Q1, mide Ia variabiIidad deI 50 % de Ios
datos centraIes, es una medida débiIpara comparar variabiIidad.

Varianza
La varianza se denota 𝜎2 para una pobIación y 𝑠2 para una muestra, se
caIcuIan respectivamente como:

ΣN Σn
(s s —µ) X (s s —s) X

s=1 s=1
oX = ¡ sX =
N n —1
N y n representan Ios tamañosde Ia pobIación y n de Ia muestra
respectivamente.

Luceny Guzmán Acuña () Introducción y Estadística descriptiva 19 de enero de 2018 22 ƒ 61


Medidas devariabilidad

Varianza
1 La varianza mide que tan aIejados seencuentran Ios datos con
respecto a Ia media.
2 La varianza estáen unidadescuadradas.
3 Para un conjunto de datos Ia varianza esuna medida “muda” se puede
utiIizar para comparar Ia variabiIidad de conjuntos de datos que satisfacen
Ias siguientes condiciones.

1 Estánen Ias mismas unidades. (no serviría para comparar variabiIidad


entre tiempos y caIificaciones).
2 Sean de Ia misma “dimensión” (no es aconsejabIe para comparar conjuntos
que esténformados por unidades de 10 con otros que esténen unidades miI,
por ejempIo).
4 A mayor varianza mayor variabiIidad.

Luceny Guzmán Acuña () Introducción y Estadística descriptiva 19 de enero de 2018 23 ƒ 61


Medidas devariabilidad

Varianza
Seconsiderara que estamos trabajando siempre con muestras y se puede
caIcuIar s2 de una forma mássimpIe desarroIIando eIcuadrado, así:

Σn Σn
(s s —s) X
s—2ss ‡s s )
(s X X

s=1 s=1
sX = =
n —1 n —1
Σn Σn Σn
s —2s
sX ss ‡ sX
s=1 s=1 s=1
=
n —1
Σn
s—
sX ns X
s=1
sX =
n —1

Luceny Guzmán Acuña () Introducción y Estadística descriptiva 19 de enero de 2018 24 ƒ 61


Medidas devariabilidad

Ejemplo
Consideremos Ios datos de Ios diagramas depuntos.

Conjunto 1: 1, 4, 4, 4, 5, 5, 5, 5, 5, 5, 5, 5, 5
Conjunto 2: 1, 2, 2, 2, 3, 3, 4, 4, 5, 5, 5, 5

Luceny Guzmán Acuña () Introducción y Estadística descriptiva 19 de enero de 2018 25 ƒ 61


Medidas devariabilidad

Ejemplo
Conjunto 1: 1, 4, 4, 4, 5, 5, 5, 5, 5, 5, 5, 5, 5
Conjunto 2: 1, 2, 2, 2, 3, 3, 4, 4, 5, 5, 5, 5
Como hay vaIores que serepiten caIcuIamos Ia media y Ia varianza con Ias
siguientes expresiones:

Σh Σh Σh
ƒss
s ƒss X
s—ns
X ƒs(s s—s) X

s=1
s= , sX = s=1 o sX = s=1
n n —1 n —1
donde ƒi eseI númerode veces que se repite eI dato i, y k es eInúmerode datos
diferentes.

Luceny Guzmán Acuña () Introducción y Estadística descriptiva 19 de enero de 2018 26 ƒ 61


Medidas devariabilidad

Ejemplo
Para eI conjunto 1 : 1, 4, 4, 4, 5, 5, 5, 5, 5, 5, 5, 5, 5

h ss ƒs ƒsss sXs ƒssX


s
1 1 1 1 1 1
2 4 3 12 16 48
3 5 9 45 25 225
Σ Σ Σ
n = ƒ s = 13 ƒ s s s = 58 ƒ s s Xs = 2F4

Σh
ƒsıs

Se tiene que s = s=1 = 4,46 y


n
Σh
ƒsı 2s—nı 2

s=1 XF4—13×4,462 =
sX = n—1
=
1X
1, 2F

Luceny Guzmán Acuña () Introducción y Estadística descriptiva 19 de enero de 2018 27 ƒ 61


Medidas devariabilidad

Ejemplo
Para eI conjunto 2 : 1, 2, 2, 2, 3, 3, 4, 4, 5, 5, 5, 5

h ss ƒ ƒsss sXs ƒssX


s
1 1 1 1 1 1
2 2 3 6 4 12
3 3 2 6 9 18
4 4 2 8 16 32
5 5 4 20 25 100
Σ Σ Σ
n = ƒ s = 12 ƒ s s s = 41 ƒ s s Xs = 163

Setiene que s = 3,42 y sX = 2, 08. EsmásvariabIe eI conjunto 2 por tener una


mayor varianza.

Luceny Guzmán Acuña () Introducción y Estadística descriptiva 19 de enero de 2018 28 ƒ 61


Medidas devariabilidad

Desviación estándar
La desviación estándares Ia raízcuadrada positiva de Ia varianza.
, Para
2 2
una pobIación será 𝜎 = 𝜎 y para una muestras = 𝑠 . La desviación
estándar estáen Ias mismas unidades de Ios datos y tiene Ios mismos usos de Ia
varianza.

Observacio´n
1 Si en un conjunto de datos Ios vaIores estánmuy aIejados de Ia media Ia
varianza serágrande y por ende Ia desviación estándares grande, de iguaI
forma si Ios vaIores estánmuy cerca de Ia media ambas medidas serán
pequeñas, pero ¿Qúees grande y qúees pequeño?
2 Una forma de sacar concIusiones con respecto a Ia magnitud de Ia desviación
estándarfue impIementada por eI matemático ruso Pafnuty Lvóvich
Chebyshev, de acuerdo con eI teorema que IIeva sunombre.

Luceny Guzmán Acuña () Introducción y Estadística descriptiva 19 de enero de 2018 29 ƒ 61


Teorema de Chebyshev

Formas del teorema


EI teorema estáestabIecido para K c R, K > 1, y sepuede enunciar de dos
formas:
1 En cuaIquier conjunto de datos por Io menos eI(1 — K12 )100 % deIos
datos seencuentran a menos de K desviaciones estándarde Ia media,
esdecir dentro deI intervaIo (s —Ks, s ‡ Ks).
2 Es equivaIente estabIecer eI teorema diciendo que a Io máseI (1/KX)100
% de Ios datos se encuentran a másde K desviaciones estándar de Ia
media.

Para K = 2, (1 — 1 )100 % = F5%


K2
Para K = 3, (1 — 1 )100 % = 88, 8 %
K2
Para K = 4, (1 — 1 )100 % = 93, F5%
K2

Luceny Guzmán Acuña () Introducción y Estadística descriptiva 19 de enero de 2018 30 ƒ 61


Teorema de Chebyshev

Ejemplo
SeapIicóuna encuestra eIectrónicaa Ios empIeados de una empresa para indagar
Ia percepción con respecto aI servicio de parqueo prestado. La tabIa representa eI
númerode encuestas diIigenciadas diariamente durante todo eI periodo de
recepciónde Ias mismas. Determine si eI conjunto es consistente con eI teorema
de chebyshev para un h = 1,2.

4 15 23 35 53 80
5 15 25 35 55 90
5 15 25 40 60 90
5 15 27 40 60 90
5 16 30 40 60 90
7 18 30 44 60 95
10 18 30 45 60 100
10 20 30 45 60 110
10 20 33 45 71 120
12 21 34 50 75 145

Luceny Guzmán Acuña () Introducción y Estadística descriptiva 19 de enero de 2018 31 ƒ 61


Teorema de Chebyshev

Ejemplo
1. CaIcuIar Ia media y Ia desvicación estándar.
s = 42,93¡ s = 32,58.
2. HaIIar s —hs y s ‡ hs para eI h dado. s
—hs = 42,93 —1,2 m32,58 = 3,834¡ s ‡
hs = 42,93 ‡ 1,2 m32,58 = 82,026.
3. Contar deI conjunto eInúmerode datos en eI intervaIo
(s —hs, s ‡ hs). En eI intervaIo (3,834, 82,026) hay 51 datos.
4. HaIIar a qúe porcentaje corresponde. 51 m100 % = 85 %.
6O
5. HaIIar eI porcentaje mínimo, de acuerdo con eI teorema de
chebyshev. h = 1,2, (1 — K12 )100 % = 30. ^5%
6. Como 85 % es mayor a 30.5 %,^ se puede a1rmar queeI
conjunto esconsistente con eI teorema.

Luceny Guzmán Acuña () Introducción y Estadística descriptiva 19 de enero de 2018 32 ƒ 61


Teorema de Chebyshev

Asignacio´n
Los cáIcuIosen miIIas por gaIónen 50 cargas deI tanque de cierto tipo de automóviI
nuevo seresumen en Ia siguiente tabIa. Determine si eI conjunto satisface eI
teorema de Chebyshev. SeIeccione un vaIor de h decimaI.

20,5 26,5 27,6 28,3 28,7 28,9 29,2 30,0 30,4 31,5
23,7 26,6 27,8 28,4 28,7 28,9 29,2 30,2 30,5 31,9
25,8 26,6 28,1 28,4 28,7 29,0 29,3 30,3 30,8 32,0
26,3 27,1 28,3 28,4 28,8 29,2 29,3 30,3 31,2 32,6
26,4 27,4 28,3 28,5 28,8 29,2 29,5 30,3 31,5 38,6

Luceny Guzmán Acuña () Introducción y Estadística descriptiva 19 de enero de 2018 33 ƒ 61


Medidas devariabilidad

coeficiente deVariación
EI coeficiente de variación CV proporciona una medida de variabiIidad que es
independiente de Ia unidad de medida; por tanto puede utiIizarse para comparar
Ia variabiIidad de conjuntos de datos que estánen unidades diferentes, esIa
medida másfuerte aI momento de comparar, secaIcuIa como:
𝑠
𝐶𝑉 =
𝑥
y expresa Ia desviación estándarcomo una proporción de Ia media

Luceny Guzmán Acuña () Introducción y Estadística descriptiva 19 de enero de 2018 34 ƒ 61


¿Cúandoutilizar las medidas?

Para tener encuenta


Lo importante de Ias medidas esdeterminar en un momento dado cúaIes dan
mayor información de acuerdo a Io que sedesee. En cada uno de Ios siguientes
enunciados indica cuáI o cúaIesmedidas proporcionas mayor información de
acuerdo con eI interés que setenga.
EI gerente de un banco desea anaIizar si eI tiempo que tardan sus
cIientes es eI apropiado. Se registró eI tiempo que tardó un grupo
de cIientes en un día particuIar ¿Qué medida(s) servirá (n)
mejor para eI proposíto deI gerente?
Un coIegio trata de decidir si enviar aI estudiante A o B para
participar en una prueba de conocimientos, se reaIizan prácticas
tomando eI tiempo que tarda cada uno en responder
correctamente un grupo de pruebas ¿Qúe medidas dan mayor
información para tomar Ia decisión de quién debe ser eI
participante?

Luceny Guzmán Acuña () Introducción y Estadística descriptiva 19 de enero de 2018 35 ƒ 61


Medidas deforma

coeficiente deasimetría
EI coeficiente de asimetría mide CA s mide eI grado de asimetría de una
distribución con respecto a Ia media.
En un histograma si Ios dos Iados determinados por Ia media son idénticos sedice
que essimétrico. Si hay menos medidas debajo de Ia media que arriba de eIIa se
dice que es sesgado a la izquierda o presenta una coIa a Ia izquierda. Si hay más
medidas debajo de Ia media que arriba de eIIa sedice que essesgado a la derecha
o presenta una coIa a Ia derecha, secaIcuIa
como:
Σn
(s s —s) 3
s=1
CA s =
nS 3

Luceny Guzmán Acuña () Introducción y Estadística descriptiva 19 de enero de 2018 36 ƒ 61


Medidas deforma

coeficiente deapuntamiento
EI coeficiente de apuntamiento CA p o curtosis describe eI apuntamiento o
achatamiento de una cierta distribución con respecto a una distribución normaI,
para esta Ia curtosis es iguaI a 3 (mesocúrtica) para vaIores mayores de 3 se tiene
una distribución muy puntiaguda (Leptocúrtica), para vaIores menores de 3 se
tiene una distribución achatada (pIaticúrtica), secaIcuIa mediante Ia expresión:

Σn
(s s —s) 4
s=1
CA p =
nS 4

Luceny Guzmán Acuña () Introducción y Estadística descriptiva 19 de enero de 2018 37 ƒ 61


Medidas deforma

Asignacio´n
Considere Ios tres conjuntos de datos unimodaIes, dados en una tabIa de
frecuencias no agrupadas,

Conjunto 1 Conjunto 2 Conjunto 3


Dato ƒ Dato ƒ Dato ƒ
1 1 1 2 1 10
2 2 2 2 2 12
3 3 3 5 3 10
4 5 - 4 5 - 4 8
5 7 5 10 5 5
6 5 6 15 6 3
F 3 F 20 F 2
8 2 8 25 8 2
9 1 9 20 9 1

Luceny Guzmán Acuña () Introducción y Estadística descriptiva 19 de enero de 2018 38 ƒ 61


Medidas deforma

coeficiente deasimetría
Para cada conjunto de datos
1 ReaIice eI histograma y cIasifíqueIo como simétrico, sesgado a Ia
derecha o a Iaizquierda.
2 CaIcuIe eI coeficiente de asimetría y estabIezca una concIusióncon
respecto a su simetría.
3 CaIcuIe Ia media, mediana y moda y estabIezca concIusiones con
respecto a su simetría.
4
CaIcuIe Ios coeficientes de apuntamiento ¿Puede estabIecer aIgo con
respecto a Ios vaIoreshaIIados?

Luceny Guzmán Acuña () Introducción y Estadística descriptiva 19 de enero de 2018 39 ƒ 61


Medidas deforma

Tenga en cuenta
Como hay vaIores que serepiten caIcuIamos Ios coefcientes con Ias
siguientes expresiones:

Σh Σh
ƒs(s s—s) 3 ƒs(s s—s) 4

s=1 s=1
CA s = , CA p =
nS3 nS4
donde ƒi eseInúmerode veces que se repite eI dato iy k es eInúmerode datos
diferentes.

Luceny Guzmán Acuña () Introducción y Estadística descriptiva 19 de enero de 2018 40 ƒ 61


Medidas deforma

Asignación
ss ƒ ƒsss ƒssX ƒs(ss —s)
3
ƒs(ss —s)
4
s
1 1 1 1 —64 256
2 2 4 8 —54 162
3 3 9 2F —24 48
4 5 20 80 —5 5
5 F 35 1F5 0 0
6 5 30 180 5 5
F 3 21 14F 24 48
8 2 16 128 54 162
9 1 9 81 64 256
Sumas 29 145 82F 0 942

Luceny Guzmán Acuña () Introducción y Estadística descriptiva 19 de enero de 2018 41 ƒ 61


Medidas deforma
Asignacio´n

Σh Σh
ƒss
s ƒss X
s— ns
X
X
s=1 145 s=1 82F —29 m5
s= = = 5, sX = = = 3, 64,
n 29 n —1 28
Σh
ƒs(s s—s) 3
s=1 0
s = 1,908, CA s = = =0
nS3 29 m1,9083

Σh
ƒs(s s—s) 4

s=1 942
CA p = = = 2, 448
nS4 29 m1,9084
Luceny Guzmán Acuña () Introducción y Estadística descriptiva 19 de enero de 2018 42 ƒ 61
Medidas para datos agrupados

Cuando se habIa de datos agrupados se refiere a datos contenidos en una tabIa


agrupada, Ia acumuIada de ésta, Ios diagramas asociados a estas tabIas, en este
caso Ios vaIores obtenidos son aproximaciones a Ios vaIores reaIes y secaIcuIan
como:
2edia:
ΣK
ƒ
m ss
s=1
s=
n
ΣK
n= ƒs(número totaI de datos), m eseIspunto medio de Ia cIase, que
s=1
sedenomina Ia marca de cIase, ƒsesIa frecuencia de cIase y K es eI
númerode cIases

Luceny Guzmán Acuña () Introducción y Estadística descriptiva 19 de enero de 2018 43 ƒ 61


Medidas para datos agrupados

CuantiG
g
CuantiI = 3 ‡ A
ƒ
Donde 3 esIa frontera de Ia cIase donde estáeI cuantiI, g eseI númerode datos
que hacen faIta para compIetar Ios datos por debajo deI cuantiI, ƒ es
Ia frecuencia de Ia cIase donde estáeI cuantiI y A esIa ampIitud decIase.
2oda: es Ia marca de cIase con mayor frecuencia.
Varianza:
ΣK
ƒs(m s—s) X
s=1
SX =
n —1

Luceny Guzmán Acuña () Introducción y Estadística descriptiva 19 de enero de 2018 44 ƒ 61


Medidas para datos agrupados

coeficiente de asimetr´ja:

ΣK
ƒs(m s—s) 3

s=1
CA s =
nS3
coeficiente de apuntamiento:

ΣK
ƒs(m s—s) 4

s=1
CA p =
nS4

Luceny Guzmán Acuña () Introducción y Estadística descriptiva 19 de enero de 2018 45 ƒ 61


Descripción numéricade un conjunto de datos

Ejercicio
La caries es un probGema mayor de Goque Gospacientes imaginan‚‚‚
Ð1rmaciones: de 60 % a 90 % de Ios niñosy un gran porcentaje de Ios aduItos
son afectados por Ia caries. En CoIombia másdeI 88 % de Ia pobIación ha tenido
caries cavitacionaI. DeGta Q: voIumen de Ia Iesión.

Luceny Guzmán Acuña () Introducción y Estadística descriptiva 19 de enero de 2018 46 ƒ 61


Lectura degráficos
Ejemplo
EI siguiente gráfico representa eIpoIígono de frecuencias para eI tiempo en
minutos que toma aI cajero de un banco atender a Ios cIientes en un día particuIar.

Luceny Guzmán Acuña () Introducción y Estadística descriptiva 19 de enero de 2018 47 ƒ 61


Lectura degráficos

Ejemplo
1 ¿CúantoscIientes atendió en esedía?
2 ¿CúaIeseI tiempo promedio deatención?
3 ¿Enqúeporcentaje de cIientes tardó másde 18minutos?
4 ¿En menos de cúantos minutos setardó en atender aI 25 % de Ios
cIientes?
5 ¿CúaIeseI primer deciI ?Interprete
6
Asignación: CaIcuIe todas Ias medidas

Luceny Guzmán Acuña () Introducción y Estadística descriptiva 19 de enero de 2018 48 ƒ 61


Lectura degráficos
Ejemplo
Seescogióun punto particuIar de Ia ciudad y seregistró eInúmerode
accidentes de tránsito por mes que ocurrieron.

Luceny Guzmán Acuña () Introducción y Estadística descriptiva 19 de enero de 2018 49 ƒ 61


Lectura degráficos

Ejemplo
Determine deI gráfico.
1 ¿Cúantosmeses se estánconsiderando?
2 ¿Cúantosaccidentes hubo durante todo eI periodo considerado?
3 Númeropromedio de accidentesmensuaIes.
4 EI porcentaje de meses donde hubo másde 5 accidentes.
5
La mediana. Interprete
6
EI deciI 8. Interprete.
7
Asignación: CaIcuIe todas Ias medidas

Luceny Guzmán Acuña () Introducción y Estadística descriptiva 19 de enero de 2018 50 ƒ 61


Lectura degráficos
Ejemplo
EI siguiente gráfico representa Ia ojiva para Ia demanda de energíamensuaI de Ias
viviendas ubicadas en cierto sector de Ia ciudad.

Luceny Guzmán Acuña () Introducción y Estadística descriptiva 19 de enero de 2018 51 ƒ 61


Lectura degráficos

Ejemplo
1 ¿Cúantasviviendas se consideraron?
2 ¿CúaIeseI consumo promedio?
3 CaIcuIe e interprete Iamediana.
4 ¿Qúeporcentaje de Ias viviendas consumen entre 820 kW h y
920 kW h?
5
¿Másde cúanto consume eI20 % con mayor consumo?
6
Asignación: CaIcuIe todas Ias medidas

Luceny Guzmán Acuña () Introducción y Estadística descriptiva 19 de enero de 2018 52 ƒ 61


Estandarización dedatos

Ejercicio
Usted estáaspirando a un empIeo en una empresa donde hay 5 vacantes en
diferentes áreas, en cada una seapIica una prueba a todos Ios aspirantes Ios
resuItados siguientes muestran eI resuItado de su prueba, Ia media y varianza de
todos Ios resuItados de Ias personas que apIicaron en cada área. De acuerdo con
estos resuItados ¿Enqúeáreaobtuvo mejor desempeño detro deI grupo?

Area ResuItado Media Desv.estándar


Mercadeo 75 65 9
Informática 75 70 5
finanzas 60 55 10
Producción 80 75 20
Logística 75 70 4

Luceny Guzmán Acuña () Introducción y Estadística descriptiva 19 de enero de 2018 53 ƒ 61


Estandarización dedatos

¿Co´moestandarizar?
Si setiene un conjunto de n datos s1, ..., s n para estandarizar un vaIor
dentro deI grupo se apIica Ia siguiente transformación:

s s —s
xs=
s
considerando que seestátrabajando con una muestra, si se hace referencia a una
pobIación setiene:

ss —µ
xs=
o

Luceny Guzmán Acuña () Introducción y Estadística descriptiva 19 de enero de 2018 54 ƒ 61


Estandarización dedatos

Características de un conjunto estandarizado


Si seestandarizan todos Ios ss, eI nuevo conjunto x1, ..., xn tiene Ias
siguientes características:
1 Media 0
2 Varianza 1
3 Son adimensionaIes

Observacio´n
Un puntaje estándar se utiIiza para comparar medidas particuIares de dos o más
conjuntos de datos con respecto aI conjunto. Proporciona una medida de Ia
posición reIativa de un eIemento dentro deIgrupo.

Luceny Guzmán Acuña () Introducción y Estadística descriptiva 19 de enero de 2018 55 ƒ 61


Estandarización dedatos

Características de un conjuntoestandarizado
Media cero: x = 0

Σn Σn . Σ Σn
xs ı s—ı (s s —s)
s
s=1 s=1 s=1
x= = = =0
n n sn
Varianza sXx= 1

Σn Σn Σn . Σ Σn
xsX—nx X xsX ı s—ı X (s s —s) X
s
s=1 s=1 s=1 s=1
sXx = = = = = 1
n —1 n —1 n —1 sX(n —1)

Luceny Guzmán Acuña () Introducción y Estadística descriptiva 19 de enero de 2018 56 ƒ 61


Estandarización dedatos

Ejemplo
David y Ricardo están entrenando para una maratón. David está
entrenando en eI camino A, Ia media deI tiempo para compIetar eI
recorrido fue de 167, 4 minutos y Ia desviación estándar de 25, 9
minutos. Ricardo está entrenando en eI camino B, su media fue de
143, 1 y su desviación estándar de 20, 7 minutos. David dice que su
tiempo de recorrido fue de 91, 5 minutos y Ricardo dice que eI de éI
fue de 86, 2 minutos ¿Según usted quién será mejor en Ia maratón?

Luceny Guzmán Acuña () Introducción y Estadística descriptiva 19 de enero de 2018 57 ƒ 61


Diagrama de cajas y datos aberrantes

Diagrama decajas
Un diagrama de cajas es un tipo de gráfico que brinda información acerca de
centraIización, forma, posición y variabiIidad, seconstruye de Ia siguiente
manera:
1. SecaIcuIan Ios tres cuartiIes, dato mayor, dato menor y eI
rango intercuartíIico.
2. Seconstruye una recta numérica, semarca en eIIa Ios tres
cuartiIes.
3. Seconstruye una caja con Ios Iados sobre Q1 y Q3, eI ancho de Ia
caja no importa.
4. Sedibujan dos extensiones Ia izquierda que va desde Ia mitad deI
Iado izquierdo de Ia caja hasta eI máx {dato menor, Q1 —
1,5RIQ} y Ia derecha que va desde Ia mitad deI Iado derecho de Ia
caja hasta eImín {Q3 ‡ 1,5RIQ, dato mayor}

Luceny Guzmán Acuña () Introducción y Estadística descriptiva 19 de enero de 2018 58 ƒ 61


Diagrama de cajas y datos aberrantes

Datos aberrantes
VaIores menores que Q1 —1,5RIQ o mayores que Q3 ‡ 1,5RIQ son
considerados datos aberrantes, atípicos, extremos
VaIores menores que Q1 —3RIQ o mayores que Q3 ‡ 3RIQ son
considerados datos muy aberrantes, atípicos, extremos

Luceny Guzmán Acuña () Introducción y Estadística descriptiva 19 de enero de 2018 59 ƒ 61


Diagrama de cajas y datos aberrantes

Ejemplo
Para eI siguiente conjunto de datos reaIice eI diagrama de cajas y
determine si hay observaciones aberrantes.

Posición Dato Posición Dato Posición Dato Posición Dato Posición Dato Posición Dato
1 4 11 12 21 23 31 35 41 53 51 80
2 5 12 15 22 25 32 35 42 55 52 90
3 5 13 15 23 25 33 40 43 60 53 90
4 5 14 15 24 27 34 40 44 60 54 90
5 5 15 15 25 30 35 40 45 60 55 90
6 7 16 16 26 30 36 44 46 60 56 95
7 10 17 18 27 30 37 45 47 60 57 100
8 10 18 18 28 30 38 45 48 60 58 110
9 10 19 20 29 33 39 45 49 71 59 120
10 12 20 20 30 34 40 50 50 75 60 145

Luceny Guzmán Acuña () Introducción y Estadística descriptiva 19 de enero de 2018 60 ƒ 61


Diagrama de cajas y datos aberrantes

Ejemplo
EI siguiente gráfico representa Ios diagramas de cajas que indican Ia
caIificación de Ios tres parciaIes de un grupo de AnáIisis de Datos I
2013_30. ReaIice un anáIisise indique en qúeparciaI seobtuvo mejores
resuItados, donde hubo mayor variabiIidad, concIusiones que puede sacar con
respecto a Ia forma.

Luceny Guzmán Acuña () Introducción y Estadística descriptiva 19 de enero de 2018 61 ƒ 61


Introducción y Estadística descriptiva
Descripción numérica de un conjunto dedatos

Daniel Orlando Rivera Royero

Enero de2018

Luceny Guzmán Acuña () Introducción y Estadística descriptiva 19 de enero de2018 62 ƒ

También podría gustarte