Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Enero de2018
Ejercicio
EI departamento de quejas y recIamos de una companíade servicios de teIefonía
está tratando de mejorar su indicador diario, medido en términos deI númerode
probIemas resueItos. EI gerente de Ia empresa Ie pide aI encargado información
sobre eI proceso de soIución de probIemas de Ios úItimos 90 días. EI encargado
piensa darIe aI gerente una de Ias siguientes respuestas.
Ejercicio
EI profesor de AnáIisis reaIizó dos quices, cada uno de Ios cuaIes
consistía de 5 preguntas. Los gráficos siguientes iIustran eI número de
preguntas correctas respondidas por Ios estudiantes en cada quiz.
¿Cúantos estudiantes reaIizaron eI quiz 1?¿ y eI quiz 2?¿En cúaI quiz
se obtuvieron mejores resuItados?¿En cúaI quiz se evidencian
resuItados más homogeneos?¿Qué evidencia esta homogeneidad?
Ejercicio
EI encargado deI CREE desea anaIizar eI desempeño de Ios
estudiantes en eI primer parciaI de AnáIisis de Datos I con eI fin de
reaIizar a Ios estudiantes actividades de refuerzo para eI siguiente
parciaI. EI conjunto de profesores de Ia asignatura no desean entregarIe
Ias caIificaciones, sóIo Ie dicen que Ia caIificación promedio fue de 3,5
(En una escaIa de 1 a 5) ¿Cree usted que eI CREE quedará
satisfecho?¿Qué información adicionaI necesitaría?
Medidas
1 Tendencia centraI o de centraIización(media, mediana y moda)
2 Posición(cuantiIes: cuartiIes, deciIes o percentiIes)
3 VariabiIidad (rango, rango intercuartíIico, desviaciónestándar,
varianza, coeficiente devariación)
4 Forma (coeficiente de asimetría y de apuntamiento)
σ𝑛𝑖=1 𝑥𝑖
𝑥ҧ =
𝑛
Para un conjunto de N vaIores que representan una pobIación Ia
media está dada por:
σ𝑁
𝑖=1 𝑥𝑖
𝜇=
𝑁
Nota: Indague sobre otros tipos de media
σ𝑛𝑖=0(𝑥𝑖 − 𝑥)=0
ҧ
Graficamente:
n n n
s s
n
ss n
Moda
La moda en un conjunto de datos es eI dato u observación que más se
repite, Ios conjuntos pueden ser unimodaIes, bimodaIes o muItimodaIes. Se
puede caIcuIar para datos cuaIitativos y cuantitativos.
Mediana
La mediana se denotará como 𝑢 para Ia pobIación y 𝑥 para Ia
muestra. Para un conjunto de vaIores ordenados se tiene:
1 Si eI número de datos es par, Ia mediana es eI promedio de Ios
dos vaIores centraIes.
Si se tiene eI conjunto de datos 3, 8, 6, 11, 1, 16, se ordenan:
1, 3, 6, 8 , 11, 16 Ia mediana es eI promedio de Ios dos vaIores
centraIes 6+8
𝑥 = =7
2
2 Si eI número de datos es impar. La mediana es eI vaIor
centraI.
Si se tiene eI conjunto de datos 3, 20, 8, 6, 11, 1, 16, se
ordenan 1, 3, 6, 8 , 11, 16, 20 Ia mediana es 8.
Observaciones
1 En eI primer conjunto (1, 3, 6, 8 , 11, 16) 𝑥ǁ = 7 , eI 50 % de Ios datos son
menores que Ia mediana y eI otro 50 % son mayores.
2 En eI segundo conjunto (1, 3, 6, 8 , 11, 16, 20) 𝑥=
ǁ 8 se puede decir:
a. EI 42,8 % son menores que Ia mediana y eI 42,8 % son
mayores que Ia mediana.
b. EI 57,1 % son menores o iguaIes que Ia mediana y eI 57,1 %
son mayores o iguaIes que Ia mediana.
Observaciones
Podriamos decir entonces:
1 Juntando Ios casos 1 y 2a se puede expresar: En un conjunto de
datos cuando mucho eI 50 % de éstos son MENORES que Ia
mediana y cuando mucho eI 50 % son MAYORES que eIIa.
2 EI caso 2b: En un conjunto de datos por lo menos eI 50 % son
menores o iguales que Ia mediana y por lo menos eI 50 % son
mayores o iguales que eIIa.
Punto deposición
Un punto de posición es aqueI vaIor para eI cuaI un porcentaje especí1co de
vaIores queda en o por debajo de éIy eI compIemento en o por encima de éI. Se Ie
denominan en generaI cuantiles y pueden ser cuartiIes, deciIes y percentiIes. Para
un conjunto de datos ordenados se tiene que:
1 Los cuartiles son aqueIIos vaIores que dividen aI conjunto en 4 partes, cada
uno contiene aproximadamente eI 25 % de Ios datos. (Q1,Q2, Q3)
Los decilesson aqueIIos vaIores que dividen aI conjunto en 10 partes, cada
2 uno contiene aproximadamente eI 10 % de Ios datos. (D 1 , D2, ..., D 9 )
Los percentiles son aqueIIos vaIores que dividen aI conjunto en 100
partes, cada uno contiene aproximadamente eI1 % de Ios datos. (P1,...,
3
P99)
Regla a adoptar
Ejemplo
Considere eI siguiente conjunto de datos ya ordenado, que representa eI
númerode díasque transcurren desde eI momento en que secoIoca una queja
en una oficina de servicios y eI momento en que seda soIución aI probIema.
CaIcuIe e interprete Q1, Q2, Q3, D 3 , D 8 .
Posición Dato Posición Dato Posición Dato Posición Dato Posición Dato Posición Dato Posición Dato
1 8 11 12 21 23 31 35 41 53 51 80 61 100
2 8 12 15 22 25 32 35 42 55 52 82
3 9 13 15 23 25 33 40 43 60 53 82
4 9 14 15 24 27 34 40 44 60 54 90
5 9 15 16 25 30 35 40 45 60 55 90
6 9 16 18 26 30 36 44 46 60 56 91
7 10 17 18 27 30 37 45 47 60 57 92
8 10 18 19 28 31 38 45 48 60 58 95
9 11 19 20 29 33 39 45 49 71 59 95
10 12 20 20 30 34 40 50 50 75 60 96
Asignación
La siguiente tabIa representa Ia distancia recorrida en miIIas por gaIónpara un
conjunto de automóviIes con diferentes características. CaIcuIe e interprete Q2,
D1, D6.
20,5 26,5 27,6 28,3 28,7 28,9 29,2 30,0 30,4 31,5
23,7 26,6 27,8 28,4 28,7 28,9 29,2 30,2 30,5 31,9
25,8 26,6 28,1 28,4 28,7 29,0 29,3 30,3 30,8 32,0
26,3 27,1 28,3 28,4 28,8 29,2 29,3 30,3 31,2 32,6
26,4 27,4 28,3 28,5 28,8 29,2 29,5 30,3 31,5 38,6
Variabilidad
En cuaIquier campo de desempeñohay que tomar decisiones en
presencia de variabiIidad o“ruido”¸
En todos Ios procesos existen diferentes causas de variabiIidad: mano de
obra, métodos, máquinas, materia prima, entorno,...,etc. es imposibIe
eIiminarIa Io deseabIe es minimizarIa.
Existen diferentes medidas de variabiIidad (rango, rango intercuartíIico,
desviación estándar, varianza, coeficiente de variación) que buscan medir Ia
magnitud de Ias desviaciones de Ios vaIores obtenidos con respecto a un
vaIor centraI o de referencia.
Rango Intercuartílico
EI rango intercuartíIico RIQ = Q3 - Q1, mide Ia variabiIidad deI 50 % de Ios
datos centraIes, es una medida débiIpara comparar variabiIidad.
Varianza
La varianza se denota 𝜎2 para una pobIación y 𝑠2 para una muestra, se
caIcuIan respectivamente como:
ΣN Σn
(s s —µ) X (s s —s) X
s=1 s=1
oX = ¡ sX =
N n —1
N y n representan Ios tamañosde Ia pobIación y n de Ia muestra
respectivamente.
Varianza
1 La varianza mide que tan aIejados seencuentran Ios datos con
respecto a Ia media.
2 La varianza estáen unidadescuadradas.
3 Para un conjunto de datos Ia varianza esuna medida “muda” se puede
utiIizar para comparar Ia variabiIidad de conjuntos de datos que satisfacen
Ias siguientes condiciones.
Varianza
Seconsiderara que estamos trabajando siempre con muestras y se puede
caIcuIar s2 de una forma mássimpIe desarroIIando eIcuadrado, así:
Σn Σn
(s s —s) X
s—2ss ‡s s )
(s X X
s=1 s=1
sX = =
n —1 n —1
Σn Σn Σn
s —2s
sX ss ‡ sX
s=1 s=1 s=1
=
n —1
Σn
s—
sX ns X
s=1
sX =
n —1
Ejemplo
Consideremos Ios datos de Ios diagramas depuntos.
Conjunto 1: 1, 4, 4, 4, 5, 5, 5, 5, 5, 5, 5, 5, 5
Conjunto 2: 1, 2, 2, 2, 3, 3, 4, 4, 5, 5, 5, 5
Ejemplo
Conjunto 1: 1, 4, 4, 4, 5, 5, 5, 5, 5, 5, 5, 5, 5
Conjunto 2: 1, 2, 2, 2, 3, 3, 4, 4, 5, 5, 5, 5
Como hay vaIores que serepiten caIcuIamos Ia media y Ia varianza con Ias
siguientes expresiones:
Σh Σh Σh
ƒss
s ƒss X
s—ns
X ƒs(s s—s) X
s=1
s= , sX = s=1 o sX = s=1
n n —1 n —1
donde ƒi eseI númerode veces que se repite eI dato i, y k es eInúmerode datos
diferentes.
Ejemplo
Para eI conjunto 1 : 1, 4, 4, 4, 5, 5, 5, 5, 5, 5, 5, 5, 5
Σh
ƒsıs
s=1 XF4—13×4,462 =
sX = n—1
=
1X
1, 2F
Ejemplo
Para eI conjunto 2 : 1, 2, 2, 2, 3, 3, 4, 4, 5, 5, 5, 5
Desviación estándar
La desviación estándares Ia raízcuadrada positiva de Ia varianza.
, Para
2 2
una pobIación será 𝜎 = 𝜎 y para una muestras = 𝑠 . La desviación
estándar estáen Ias mismas unidades de Ios datos y tiene Ios mismos usos de Ia
varianza.
Observacio´n
1 Si en un conjunto de datos Ios vaIores estánmuy aIejados de Ia media Ia
varianza serágrande y por ende Ia desviación estándares grande, de iguaI
forma si Ios vaIores estánmuy cerca de Ia media ambas medidas serán
pequeñas, pero ¿Qúees grande y qúees pequeño?
2 Una forma de sacar concIusiones con respecto a Ia magnitud de Ia desviación
estándarfue impIementada por eI matemático ruso Pafnuty Lvóvich
Chebyshev, de acuerdo con eI teorema que IIeva sunombre.
Ejemplo
SeapIicóuna encuestra eIectrónicaa Ios empIeados de una empresa para indagar
Ia percepción con respecto aI servicio de parqueo prestado. La tabIa representa eI
númerode encuestas diIigenciadas diariamente durante todo eI periodo de
recepciónde Ias mismas. Determine si eI conjunto es consistente con eI teorema
de chebyshev para un h = 1,2.
4 15 23 35 53 80
5 15 25 35 55 90
5 15 25 40 60 90
5 15 27 40 60 90
5 16 30 40 60 90
7 18 30 44 60 95
10 18 30 45 60 100
10 20 30 45 60 110
10 20 33 45 71 120
12 21 34 50 75 145
Ejemplo
1. CaIcuIar Ia media y Ia desvicación estándar.
s = 42,93¡ s = 32,58.
2. HaIIar s —hs y s ‡ hs para eI h dado. s
—hs = 42,93 —1,2 m32,58 = 3,834¡ s ‡
hs = 42,93 ‡ 1,2 m32,58 = 82,026.
3. Contar deI conjunto eInúmerode datos en eI intervaIo
(s —hs, s ‡ hs). En eI intervaIo (3,834, 82,026) hay 51 datos.
4. HaIIar a qúe porcentaje corresponde. 51 m100 % = 85 %.
6O
5. HaIIar eI porcentaje mínimo, de acuerdo con eI teorema de
chebyshev. h = 1,2, (1 — K12 )100 % = 30. ^5%
6. Como 85 % es mayor a 30.5 %,^ se puede a1rmar queeI
conjunto esconsistente con eI teorema.
Asignacio´n
Los cáIcuIosen miIIas por gaIónen 50 cargas deI tanque de cierto tipo de automóviI
nuevo seresumen en Ia siguiente tabIa. Determine si eI conjunto satisface eI
teorema de Chebyshev. SeIeccione un vaIor de h decimaI.
20,5 26,5 27,6 28,3 28,7 28,9 29,2 30,0 30,4 31,5
23,7 26,6 27,8 28,4 28,7 28,9 29,2 30,2 30,5 31,9
25,8 26,6 28,1 28,4 28,7 29,0 29,3 30,3 30,8 32,0
26,3 27,1 28,3 28,4 28,8 29,2 29,3 30,3 31,2 32,6
26,4 27,4 28,3 28,5 28,8 29,2 29,5 30,3 31,5 38,6
coeficiente deVariación
EI coeficiente de variación CV proporciona una medida de variabiIidad que es
independiente de Ia unidad de medida; por tanto puede utiIizarse para comparar
Ia variabiIidad de conjuntos de datos que estánen unidades diferentes, esIa
medida másfuerte aI momento de comparar, secaIcuIa como:
𝑠
𝐶𝑉 =
𝑥
y expresa Ia desviación estándarcomo una proporción de Ia media
coeficiente deasimetría
EI coeficiente de asimetría mide CA s mide eI grado de asimetría de una
distribución con respecto a Ia media.
En un histograma si Ios dos Iados determinados por Ia media son idénticos sedice
que essimétrico. Si hay menos medidas debajo de Ia media que arriba de eIIa se
dice que es sesgado a la izquierda o presenta una coIa a Ia izquierda. Si hay más
medidas debajo de Ia media que arriba de eIIa sedice que essesgado a la derecha
o presenta una coIa a Ia derecha, secaIcuIa
como:
Σn
(s s —s) 3
s=1
CA s =
nS 3
coeficiente deapuntamiento
EI coeficiente de apuntamiento CA p o curtosis describe eI apuntamiento o
achatamiento de una cierta distribución con respecto a una distribución normaI,
para esta Ia curtosis es iguaI a 3 (mesocúrtica) para vaIores mayores de 3 se tiene
una distribución muy puntiaguda (Leptocúrtica), para vaIores menores de 3 se
tiene una distribución achatada (pIaticúrtica), secaIcuIa mediante Ia expresión:
Σn
(s s —s) 4
s=1
CA p =
nS 4
Asignacio´n
Considere Ios tres conjuntos de datos unimodaIes, dados en una tabIa de
frecuencias no agrupadas,
coeficiente deasimetría
Para cada conjunto de datos
1 ReaIice eI histograma y cIasifíqueIo como simétrico, sesgado a Ia
derecha o a Iaizquierda.
2 CaIcuIe eI coeficiente de asimetría y estabIezca una concIusióncon
respecto a su simetría.
3 CaIcuIe Ia media, mediana y moda y estabIezca concIusiones con
respecto a su simetría.
4
CaIcuIe Ios coeficientes de apuntamiento ¿Puede estabIecer aIgo con
respecto a Ios vaIoreshaIIados?
Tenga en cuenta
Como hay vaIores que serepiten caIcuIamos Ios coefcientes con Ias
siguientes expresiones:
Σh Σh
ƒs(s s—s) 3 ƒs(s s—s) 4
s=1 s=1
CA s = , CA p =
nS3 nS4
donde ƒi eseInúmerode veces que se repite eI dato iy k es eInúmerode datos
diferentes.
Asignación
ss ƒ ƒsss ƒssX ƒs(ss —s)
3
ƒs(ss —s)
4
s
1 1 1 1 —64 256
2 2 4 8 —54 162
3 3 9 2F —24 48
4 5 20 80 —5 5
5 F 35 1F5 0 0
6 5 30 180 5 5
F 3 21 14F 24 48
8 2 16 128 54 162
9 1 9 81 64 256
Sumas 29 145 82F 0 942
Σh Σh
ƒss
s ƒss X
s— ns
X
X
s=1 145 s=1 82F —29 m5
s= = = 5, sX = = = 3, 64,
n 29 n —1 28
Σh
ƒs(s s—s) 3
s=1 0
s = 1,908, CA s = = =0
nS3 29 m1,9083
Σh
ƒs(s s—s) 4
s=1 942
CA p = = = 2, 448
nS4 29 m1,9084
Luceny Guzmán Acuña () Introducción y Estadística descriptiva 19 de enero de 2018 42 ƒ 61
Medidas para datos agrupados
CuantiG
g
CuantiI = 3 ‡ A
ƒ
Donde 3 esIa frontera de Ia cIase donde estáeI cuantiI, g eseI númerode datos
que hacen faIta para compIetar Ios datos por debajo deI cuantiI, ƒ es
Ia frecuencia de Ia cIase donde estáeI cuantiI y A esIa ampIitud decIase.
2oda: es Ia marca de cIase con mayor frecuencia.
Varianza:
ΣK
ƒs(m s—s) X
s=1
SX =
n —1
coeficiente de asimetr´ja:
ΣK
ƒs(m s—s) 3
s=1
CA s =
nS3
coeficiente de apuntamiento:
ΣK
ƒs(m s—s) 4
s=1
CA p =
nS4
Ejercicio
La caries es un probGema mayor de Goque Gospacientes imaginan‚‚‚
Ð1rmaciones: de 60 % a 90 % de Ios niñosy un gran porcentaje de Ios aduItos
son afectados por Ia caries. En CoIombia másdeI 88 % de Ia pobIación ha tenido
caries cavitacionaI. DeGta Q: voIumen de Ia Iesión.
Ejemplo
1 ¿CúantoscIientes atendió en esedía?
2 ¿CúaIeseI tiempo promedio deatención?
3 ¿Enqúeporcentaje de cIientes tardó másde 18minutos?
4 ¿En menos de cúantos minutos setardó en atender aI 25 % de Ios
cIientes?
5 ¿CúaIeseI primer deciI ?Interprete
6
Asignación: CaIcuIe todas Ias medidas
Ejemplo
Determine deI gráfico.
1 ¿Cúantosmeses se estánconsiderando?
2 ¿Cúantosaccidentes hubo durante todo eI periodo considerado?
3 Númeropromedio de accidentesmensuaIes.
4 EI porcentaje de meses donde hubo másde 5 accidentes.
5
La mediana. Interprete
6
EI deciI 8. Interprete.
7
Asignación: CaIcuIe todas Ias medidas
Ejemplo
1 ¿Cúantasviviendas se consideraron?
2 ¿CúaIeseI consumo promedio?
3 CaIcuIe e interprete Iamediana.
4 ¿Qúeporcentaje de Ias viviendas consumen entre 820 kW h y
920 kW h?
5
¿Másde cúanto consume eI20 % con mayor consumo?
6
Asignación: CaIcuIe todas Ias medidas
Ejercicio
Usted estáaspirando a un empIeo en una empresa donde hay 5 vacantes en
diferentes áreas, en cada una seapIica una prueba a todos Ios aspirantes Ios
resuItados siguientes muestran eI resuItado de su prueba, Ia media y varianza de
todos Ios resuItados de Ias personas que apIicaron en cada área. De acuerdo con
estos resuItados ¿Enqúeáreaobtuvo mejor desempeño detro deI grupo?
¿Co´moestandarizar?
Si setiene un conjunto de n datos s1, ..., s n para estandarizar un vaIor
dentro deI grupo se apIica Ia siguiente transformación:
s s —s
xs=
s
considerando que seestátrabajando con una muestra, si se hace referencia a una
pobIación setiene:
ss —µ
xs=
o
Observacio´n
Un puntaje estándar se utiIiza para comparar medidas particuIares de dos o más
conjuntos de datos con respecto aI conjunto. Proporciona una medida de Ia
posición reIativa de un eIemento dentro deIgrupo.
Características de un conjuntoestandarizado
Media cero: x = 0
Σn Σn . Σ Σn
xs ı s—ı (s s —s)
s
s=1 s=1 s=1
x= = = =0
n n sn
Varianza sXx= 1
Σn Σn Σn . Σ Σn
xsX—nx X xsX ı s—ı X (s s —s) X
s
s=1 s=1 s=1 s=1
sXx = = = = = 1
n —1 n —1 n —1 sX(n —1)
Ejemplo
David y Ricardo están entrenando para una maratón. David está
entrenando en eI camino A, Ia media deI tiempo para compIetar eI
recorrido fue de 167, 4 minutos y Ia desviación estándar de 25, 9
minutos. Ricardo está entrenando en eI camino B, su media fue de
143, 1 y su desviación estándar de 20, 7 minutos. David dice que su
tiempo de recorrido fue de 91, 5 minutos y Ricardo dice que eI de éI
fue de 86, 2 minutos ¿Según usted quién será mejor en Ia maratón?
Diagrama decajas
Un diagrama de cajas es un tipo de gráfico que brinda información acerca de
centraIización, forma, posición y variabiIidad, seconstruye de Ia siguiente
manera:
1. SecaIcuIan Ios tres cuartiIes, dato mayor, dato menor y eI
rango intercuartíIico.
2. Seconstruye una recta numérica, semarca en eIIa Ios tres
cuartiIes.
3. Seconstruye una caja con Ios Iados sobre Q1 y Q3, eI ancho de Ia
caja no importa.
4. Sedibujan dos extensiones Ia izquierda que va desde Ia mitad deI
Iado izquierdo de Ia caja hasta eI máx {dato menor, Q1 —
1,5RIQ} y Ia derecha que va desde Ia mitad deI Iado derecho de Ia
caja hasta eImín {Q3 ‡ 1,5RIQ, dato mayor}
Datos aberrantes
VaIores menores que Q1 —1,5RIQ o mayores que Q3 ‡ 1,5RIQ son
considerados datos aberrantes, atípicos, extremos
VaIores menores que Q1 —3RIQ o mayores que Q3 ‡ 3RIQ son
considerados datos muy aberrantes, atípicos, extremos
Ejemplo
Para eI siguiente conjunto de datos reaIice eI diagrama de cajas y
determine si hay observaciones aberrantes.
Posición Dato Posición Dato Posición Dato Posición Dato Posición Dato Posición Dato
1 4 11 12 21 23 31 35 41 53 51 80
2 5 12 15 22 25 32 35 42 55 52 90
3 5 13 15 23 25 33 40 43 60 53 90
4 5 14 15 24 27 34 40 44 60 54 90
5 5 15 15 25 30 35 40 45 60 55 90
6 7 16 16 26 30 36 44 46 60 56 95
7 10 17 18 27 30 37 45 47 60 57 100
8 10 18 18 28 30 38 45 48 60 58 110
9 10 19 20 29 33 39 45 49 71 59 120
10 12 20 20 30 34 40 50 50 75 60 145
Ejemplo
EI siguiente gráfico representa Ios diagramas de cajas que indican Ia
caIificación de Ios tres parciaIes de un grupo de AnáIisis de Datos I
2013_30. ReaIice un anáIisise indique en qúeparciaI seobtuvo mejores
resuItados, donde hubo mayor variabiIidad, concIusiones que puede sacar con
respecto a Ia forma.
Enero de2018