Está en la página 1de 68

Estadística

descriptiva
MEDIDAS DE TENDENCIA CENTRAL
Medidas de tendencia central

 A menudo podemos averiguar si los datos tienden a estar


centrados o a agruparse en torno a algún valor construyendo un
histograma. Las medidas de la tendencia central suministran
información numérica sobre una observación «típica» de los datos.
En este apartado analizamos la media, la mediana, la moda y la
simetría de los datos
Media, mediana, moda

 Anteriormente presentamos los términos parámetro y estadístico. Un


parámetro se refiere a una característica poblacional específica;
un estadístico se refiere a una característica muestral específica.
Las medidas de la tendencia central normalmente se calculan a
partir de datos muestrales más que a partir de datos poblacionales.
Una de las medidas de la tendencia central que nos viene
rápidamente a la mente es la media.
Media
aritmética
La media aritmética (o media
simplemente) de un conjunto de
datos es la suma de los valores de
los datos dividida por el número
de observaciones. Si el conjunto
de datos es toda la población de
datos, la media poblacional, m, es
un parámetro que viene dado por
la ecuación de la derecha:

donde N=tamaño de la población


y S significa «la suma de» o <<la
sumatória>>
 Si el conjunto de datos procede de una muestra,
entonces la media muestral, x , es un estadístico que
__

viene dado por

 donde n=tamaño de la muestra y S significa «la suma


de» o <<la sumatória>>
Mediana

 La mediana es la observación que ocupa el lugar central de un


conjunto de observaciones ordenadas en sentido ascendente (o
descendente). Si el tamaño de la muestra, n, es un número impar,
la mediana es la observación que se encuentra en el medio. Si el
tamaño de la muestra, n, es un número par, la mediana es la media
de las dos observaciones que se encuentran en el medio.
 La mediana se encontrará en la 0.50(n+1) primera posición
ordenada
Moda
LA MODA, SI EXISTE, ES EL VALOR QUE APARECE CON MÁS
FRECUENCIA.
 La Komen Race for the Cure Series es la serie de
carreras de 5.000 metros más multitudinaria del
Ejemplo mundo. La Susan G. Komen Breast Cancer
Tiempos Foundation recauda fondos para financiar la
lucha contra el cáncer de mama y para darla a
realizados en conocer; apoya los proyectos de educación,
selección y tratamiento en comunidades de
una carrera de todo el mundo; alaba a las mujeres que han
sobrevivido y honra a las que han perdido la
5.000 metros batalla contra la enfermedad (véase la
referencia bibliográfica 3). Halle las medidas de
(medidas de la tendencia central de una muestra de cinco
la tendencia tiempos (en minutos) que hicieron los
participantes en una reciente Race for the
central) Cure:
 45 53 45 50 48
 Solución
 El tiempo medio muestral es

Ejemplo
Tiempos  Cuando ordenamos los datos en sentido ascendente:

realizados en 
 45 45 48 50 53
la mediana es 48; dos números son inferiores a 48 minutos
una carrera y dos son superiores a 48 minutos. Como la media y la
mediana son muy parecidas, no importa mucho el valor
de 5.000 que utilicemos para describir el centro de los datos. La
moda es 45 minutos, ya que aparece dos veces y todos
metros los demás tiempos sólo aparecen una vez. Sin embargo,
en este caso, la moda es el valor más bajo y no es el
(medidas de mejor indicador de la tendencia central. Si la muestra
incluyera el tiempo de 53 minutos del sexto participante,
la tendencia  45 45 48 50 53 53

central)  la mediana se encontraría situada en la 0.5(n+1) primera


posición, o sea, la 3.5.a observación ordenada, que sería
49 minutos. Ahora vemos que los datos son bimodales y
que las modas son 45 y 53.
¿Cuál es la mejor
Depende del contexto. Uno de los
medida para 
factores que influyen en la decisión es el
describir la tipo de datos, categóricos o numéricos,
tendencia central definidos en el Capítulo 2. La media
de los datos: generalmente es la medida preferida
para describir datos numéricos, pero no
la media, la datos categóricos.
mediana o la
 Si una persona está totalmente de
moda? acuerdo con una afirmación (código 5)
y otra está totalmente en desacuerdo
(código 1), ¿es la media «ninguna
opinión»?
 Por poner otro ejemplo, supongamos que un comité está formado por
dos hombres (cada uno responde 1) y tres mujeres (cada una responde
2).
 La media aritmética [(1+1+2+2+2)/5=1.6] no tiene sentido.
 Pero la moda de 2 indica que hay más mujeres que hombres en este
comité. Es evidente que los datos categóricos se describen mejor por
medio de la moda o de la mediana. Quizá el uso más obvio de la
mediana y la moda sea el de los fabricantes que producen bienes, como
prendas de vestir, de varias tallas. La talla de los artículos que se venden
más a menudo, la moda, es, pues, la más demandada.
 Saber que la talla media de las camisas de los hombres
europeos es 41,13 o que el número medio del calzado de las
mujeres estadounidenses es 8,24 no sirve de nada, pero saber
que la talla modal de las camisas es 40 o que el número
modal del calzado es 7 es valioso para tomar decisiones
sobre las existencias.
 Sin embargo, la moda puede no representar el verdadero
centro de los datos numéricos. Por este motivo, se utiliza
menos que la media o la mediana en las aplicaciones
empresariales.
Variación porcentual de los beneficios por acción
(medidas de la tendencia central)
 En una muestra aleatoria de ocho empresas estadounidenses, los beneficios por
acción han experimentado este año las siguientes variaciones porcentuales en
comparación con el año pasado:
 0% 0% 8,1% 13,6% 19,4% 20,7% 10,0% 14,2%
 Solución
 La variación porcentual media de los beneficios por acción de esta muestra es

 y la variación porcentual mediana de los beneficios por acción es 11,8 por ciento.
La moda es 0 por ciento, ya que aparece dos veces y los otros porcentajes sólo
aparecen una vez. Pero esta tasa porcentual modal no representa el centro de
estos datos muestrales.
Ejercicio 1
En una muestra aleatoria de 5 semanas se observó
que una agencia de cruceros recibía el siguiente
número de programas semanales especiales de
cruceros al Caribe:
20 73 75 80 82
a) Calcule la media, la mediana y la moda.
b) ¿Qué medida de la tendencia central describe
mejor los datos?
Ejercicio 2
El director de unos grandes almacenes tiene interés en saber
cuántas reclamaciones recibe el departamento de
atención al cliente sobre la calidad de los aparatos
eléctricos que venden los almacenes.
Los registros de un periodo de 5 semanas muestran el
siguiente número de reclamaciones semanales:
13 15 8 16 8
a) Calcule el número medio de reclamaciones semanales.
b) Calcule el número mediano de reclamaciones
semanales.
c) Halle la moda.
Ejercicio 3
El director de unos grandes almacenes tiene interés en saber
cuántas reclamaciones recibe el departamento de atención al
cliente sobre la calidad de los aparatos eléctricos que venden los
almacenes.
Los registros de un periodo de 5 semanas muestran el siguiente
número de reclamaciones semanales:
13 15 8 16 8
a) Calcule el número medio de reclamaciones semanales.
b) Calcule el número mediano de reclamaciones semanales.
c) Halle la moda.
Ejercicio 4
La demanda de agua embotellada aumenta durante la
temporada de huracanes en Florida. En una muestra
aleatoria de 7 horas, se observó que en una tienda se
vendió el siguiente número de botellas
de 1 galón:
40 55 62 43 50 60 65
a) Describa la tendencia central de los datos.
b) Comente la simetría o el sesgo.
Medidas de la
variabilidad
La media no es por sí sola una descripción completa o suficiente de
los datos. En este apartado presentamos números descriptivos que
miden la variabilidad o dispersión de las observaciones con respecto a
la media. En concreto, incluimos el rango, el rango intercuartílico, la
varianza, la desviación típica y el coeficiente de variación. También
describimos los datos numéricamente por medio del resumen de
cinco números, con un breve análisis de las reglas básicas para
ayudarnos a hallar el porcentaje de observaciones que se
encuentran a diversas distancias de la media.
Rango y rango intercuartílico
Rango
Rango es la diferencia entre la observación mayor y la menor
Cuanto mayor es la dispersión de los datos con respecto al centro de la
distribución, mayor es el rango. Como el rango sólo tiene en cuenta la
observación mayor y la menor, puede estar muy distorsionado si hay
una observación excepcionalmente extrema.
Aunque el rango mide la dispersión total de los datos, puede ser una
medida insatisfactoria de la variabilidad (dispersión) debido a que los
casos atípicos, o bien muy altos o bien muy bajos, influyen en él. Una
manera de evitar esta dificultad es ordenar los datos en sentido
ascendente o descendente, descartar algunos de los números más
altos y algunos de los más bajos y hallar el rango del resto. El rango
intercuartílico mide la dispersión del 50 por ciento intermedio de los
datos.
Rango intercuartílico

El rango intercuartílico (RIC ) mide la dispersión que hay en el 50


por ciento central de los datos; es la diferencia entre la
observación de Q3, el tercer cuartil (o sea, el 75.o percentil) y la
observación de Q1, el primer cuartil (o sea, el 2.o percentil ).
Por lo tanto, RIC=Q3-Q1
donde Q3 se encuentra situado en la 0.75(n+1) primera posición
cuando los datos están ordenados en sentido ascendente y Q1
está situado en la 0.25(n+1) primera posición cuando los datos
están ordenados en sentido ascendente.
Resumen de cinco números
El resumen de cinco números se refiere a las cinco medidas
descriptivas: mínimo, primer cuartil, mediana, tercer cuartil y máximo.
Es evidente que
Mínimo<Q1<Mediana<Q3<Máximo
Ejercicio
 Comestibles Gilera anuncia que los clientes tienen que esperar menos de 1
minuto para pagar si utilizan la Caja rápida. La Figura 3.2 es un diagrama de
tallo y hojas de una muestra de 25 tiempos de espera (en segundos). Calcule
el resumen de cinco números.
 Tallo y hojas
 Minutos N = 25
 Unidad hojas = 1.0
 9 1124678899
 9 2122246899
 5 301234
 2 402
 Tiempos de espera en Comestibles Gilera
1. Solución
2. En el diagrama de tallo y hojas vemos que el tiempo
mínimo es de 11 segundos y el máximo es de 42. El primer
cuartil, Q1, se encuentra en la 0.25(25+1) primera posición
ordenada=6.5 primera posición ordenada. El valor es de
18 segundos. El tercer cuartil, Q3, se encuentra en la
0.75(25+1) primera posición ordenada=19,5 primera
posición ordenada. El valor es de 30.5 segundos. El tiempo
mediano es de 22 segundos. El rango es 42-11=31
segundos; el rango intercuartílico es 30.5-18=12.5
segundos; es decir, el 50 por ciento central de los datos
tiene una dispersión de 12.5 segundos solamente.
RANGO=31

11
42
RANGO
INTERCUARTILICO=12.5
Q1=18 Q3=30.5

MEDIANA=22
Varianza y desviación típica
Aunque el rango y el rango intercuartílico miden la dispersión de los
datos, ambas medidas sólo tienen en cuenta dos de los valores de
los datos. Necesitamos una medida que considere cada uno de los
valores de los datos. Esa medida promediaría la distancia total (S)
entre cada observación y la media. Esta distancia sería negativa en
el caso de los valores menores que la media (y la distancia no es
negativa). Si se eleva al cuadrado cada una de estas diferencias

cada observación (tanto por encima como por debajo de la


media) contribuye a la suma de los términos al cuadrado. La media
de la suma de los términos al cuadrado se llama varianza.
Varianza
Con respecto a la varianza, la varianza poblacional, s2, es la suma de los
cuadrados de las diferencias entre cada observación y la media
poblacional dividida por el tamaño de la población, N:

La varianza muestral, s2, es la suma de los cuadrados de las diferencias


entre cada observación y la media muestral dividida por el tamaño de la
muestra, n, menos 1.
Desviación típica
 Con respecto a la desviación típica, la desviación típica poblacional, s, es
la raíz cuadrada (positiva) de la varianza poblacional y se define de la
forma siguiente:

 La desviación típica muestral, s, es


Ejemplo
Calificaciones de los exámenes de un clase de introducción al
marketing (medidas de la variabilidad)
 Un profesor enseña a dos grandes grupos de introducción al
marketing y selecciona aleatoriamente una muestra de
calificaciones de los exámenes realizados por los dos grupos. Halle
el rango y la desviación típica de cada muestra:
 Grupo 1 50 60 70 80 90
 Grupo 2 72 68 70 74 66
 Solución
 Aunque la calificación media de los dos grupos es 70, observamos
que las calificaciones del grupo 2 son más cercanas a la media, 70,
que las del grupo 1. Y, como cabría esperar, el rango del grupo 1,
40, es mayor que el del grupo 2, que es 8. Asimismo, sería de
esperar que la desviación típica del grupo 1 fuera mayor que la del
grupo 2.
Dato Diferencia con la media Cuadrado de la Dif.

50 50-70=-20 400
60 60-70=-10 100
70 70-70=0 0
80 80-70=10 100
90 90-70=20 400
Media=70 1000
1000/4=250 15.8

Dato Diferencia con la media Cuadrado de la Dif.


72 72-70=2 4
68 68-70=-2 4
70 70-70=0 0
74 74-70=4 16
66 66-70=-4 16
Media=70 40
40/4 3.16
Ejercicio ejemplo
El riesgo de un activo (desviación típica)
Vanesa y Jimena Mora, dueñas de una tienda de fotografía, están considerando la
posibilidad de invertir en el activo A o en el B. No saben cuál de los dos es mejor y le
piden consejo a Sara Nieves, planificadora financiera
Solución
Sara sabe que la desviación típica, s, es el indicador más frecuente del riesgo o
variabilidad de un activo. En las situaciones financieras, la fluctuación en torno a la tasa
efectiva de rendimiento de las acciones de una empresa y su tasa esperada de
rendimiento se denomina riesgo de las acciones. La desviación típica mide la variación
de los rendimientos en torno a la media de un activo.
Sara obtiene las tasas de rendimiento de cada activo de los cinco últimos años y
calcula las medias y las desviaciones típicas de cada uno. La Tabla siguiente muestra los
resultados. Obsérvese que los dos activos tienen la misma tasa media de rendimiento
del 12.2 por ciento.
Sin embargo, cuando Sara halla las desviaciones típicas, es evidente que el activo B es
una inversión más arriesgada.
Tasas de rendimiento: activos A y B.
Ejercicios
1. Calcule la varianza y la desviación típica de los siguientes datos muestrales:
6, 8, 7, 10, 3, 5, 9, 8
2. Calcule la varianza y la desviación típica de los siguientes datos muestrales:
3, 0, -2, -1, 5, 10
3. El tiempo (en segundos) que tardó una muestra aleatoria de empleados en realizar
una tarea es
23, 35, 14, 37, 28, 45
12, 40, 27, 13, 26, 25
37, 20, 29, 49, 40, 13
27, 16, 40, 20, 13, 66
 a) Halle el tiempo medio.
 b) Halle la desviación típica.
 c)Mediana
 d)Moda
 e) Halle el resumen de cinco números
 f) Halle el coeficiente de variación.
¿Qué son los outliers?

Valores extremos o anómalos (outliers): son observaciones que se


alejan del conjunto der datos.
•Una regla para determinar si un dato es outliers es:
•Si un dato es < Q1 – 1.5(Q3-Q1)
•Si un dato es > Q3 + 1.5(Q3-Q1)
•Los valores extremos por lo general son atribuibles a una de las
siguientes causas:
• La observación se registra incorrectamente.
• La observación proviene de una población distinta.
• La observación es correcta pero representa un suceso poco común
(fortuito).
Ejemplo

Analizar si los siguientes datos poseen valores outliers. Se trata de las


edades de un grupo de pacientes de un médico:
45 41 51 46 47 42 43 50 39 32 41 44 47 49 45 42 41 40 45 37
•Primero ordenamos la muestra:
32 37 39 40 41 41 41 42 42 43 44 45 45 45 46 47 47 49 50 51
•Calcular los cuartiles: Q1=P25=41, Q2=P50=43.5 y Q3=P75=46.5
•Rango entre cuartiles: Q3-Q1=46.5-41=5.5
•límite inferior: 41-1.5x5.5= 32.75
•Límite superior: 46.5+1.5x5.5= 54.75
•Por lo tanto queda una observación fuera del límite inferior: 32 (la
décima observación de la base de datos original).
32 37 39 40 41 41 41 42 42 43 44 45 45 45 46 47 47 49 50 51
•Calcular los cuartiles: Q1=P25=41, Q2=P50=43.5 y Q3=P75=46.5
•Rango entre cuartiles: Q3-Q1=46.5-41=5.5
•límite inferior: 41-1.5x5.5= 32.75
•Límite superior: 46.5+1.5x5.5= 54.75

32
54.75
32.75 41 46.5
Q1=0.25(20+1)
43.5 Q3=0.75(20+1)=15.75
Q1=5.21
Q2=0.5(20+1)=10.5

Asimetría=0.09090

As=[(46.5-43.5)-(43.5-41)]/(46.5-41)
As=[3-2.5]/5.5
As= 0.5/5.5
As=0.09090
Boxplot

El diagrama de cajas de
construye de la siguiente forma:
•Dibujar la caja que empieza en
el primer cuartil y termina en el
tercer cuartil.
•Dibujar la mediana con una
línea dentro de la caja.
•Por último, se extienden las líneas
(bigotes) saliendo de la caja
hasta el mínimo y el máximo
(salvo en la presencia de outliers).
Boxplot

En la presencia de outliers, los


bigotes se extienden hasta el
valor observado anterior al valor
extremo. La distancia entre la
mediana y los cuartiles es
aproximadamente la misma, lo
que nos hace pensar que la
distribución de los datos es más o
menos simétrica.
Boxplot
Estadísticos de
Forma
 ¿Qué nos dice la forma de la
distribución de la variable
salario actual que se muestra
en el siguiente histograma?
La simetría de una distribución de frecuencias hace
referencia al grado en que valores de la variable,
equidistantes a un valor que se considere centro de la
distribución, poseen frecuencias similares.
•Es un concepto más intuitivo a nivel visual, especialmente,
si se observa una representación gráfica (diagrama de
barras, histograma…) de la distribución de frecuencias. Ésta

Asimetría será simétrica si la mitad izquierda de la distribución es la


imagen especular de la mitad derecha.
Asimetría

•Media y mediana coinciden en las distribuciones simétricas. Si sólo


hay una moda (distribución unimodal), el valor de ésta también será
igual a las dos anteriores.
•En distribuciones unimodales, el nivel de simetría se suele describir de
acuerdo a tres grandes categorías: distribuciones simétricas,
distribuciones asimétricas positivas (o sesgada a la derecha) y
distribuciones asimétricas negativas (o sesgada a la izquierda).
Tomando como eje de referencia a la moda, estas categorías de
asimetría vienen definidas por el diferente grado de dispersión de los
datos a ambos lados (colas) de ese eje virtual. La cola más dispersa
en el lado de los valores altos de la variable caracteriza a la asimetría
positiva; si en el lado de los más bajos, a la asimetría negativa; y si la
dispersión es igual o muy similar a ambos lados, a una distribución de
frecuencias simétrica.
Asimetría

•A continuación se presentan diferentes


índices estadísticos que permiten cuantificar el
nivel de asimetría de una variable. Destacar
antes que para variables nominales no tiene
sentido el plantear este tipo de índices, dado
que no existe un orden intrínseco a los valores
de la variable.
•Índice de asimetría para variables ordinales:
Se basa en las distancias entre los cuartiles a
fin de establecer un resumen de la asimetría
de la distribución.

Nota: oscila entre -1 y 1 lo cual facilita la comprensión.


Asimetría

•Índice de asimetría para variables cuantitativas:


Primer coeficiente de Pearson: se basa en la relación existente entre la media
y la moda en distribuciones unimodales asimétricas.
Asimetría

Interpretación del coeficiente de


Pearson: los valores menores que 0
indican asimetría negativa; los mayores,
asimetría positiva y cuando sea cero, o
muy próximo a cero, simétrica. No está
limitado a un rango de valores.
Coeficiente de asimetría de Fisher: se
basa en las desviaciones de los valores
observados respecto a la media. La
interpretación de los resultados
proporcionados por este coeficiente es
igual a la del primer coeficiente de
Pearson.
Apuntamiento (curtosis)

•El apuntamiento o curtosis de una distribución de frecuencias no tiene un


referente natural como en el caso de la simetría, sino que se sustenta en la
comparación respecto a una distribución de referencia, en concreto, la
distribución normal o campana de Gauss. En consecuencia, su obtención sólo
tendrá sentido en variables cuya distribución de frecuencias sea similar a la de
la curva normal –en la práctica ello se reduce, básicamente, a que sea
unimodal y más o menos simétrica.
•El apuntamiento expresa el grado en que una distribución acumula casos en
sus colas en comparación con los casos acumulados en las colas de una
distribución normal cuya dispersión sea equivalente. Así, de forma análoga a la
asimetría, se diferencian 3 grandes categorías de apuntamiento:
Curtosis

•Distribución platicúrtica (apuntamiento


negativo): indica que en sus colas hay
más casos acumulados que en las colas
de una distribución normal.
•Distribución leptocúrtica (apuntamiento
positivo): justo lo contrario.
•Distribución mesocúrtica (apuntamiento
normal): como en la distribución normal.
•Coeficiente de apuntamiento de Fisher
para variables cuantitativas: se basa en
las desviaciones de los valores
observados respecto a la media.
CURTOSIS
Ejercicios
4. Los rendimientos porcentuales anuales de las acciones ordinarias
fueron los siguientes en un periodo de 7 años:
4.0%, 14.3%, 19.0%, -14.7%, -26.5%, 37.2%, 23.8%
Durante ese mismo periodo, los rendimientos porcentuales anuales de
las letras del Tesoro de Estados Unidos fueron los siguientes:
6.5%, 4.4%, 3.8%, 6.9%, 8.0%, 5.8%, 5.1%
a) Compare las medias de estas dos distribuciones poblacionales.
b) Compare las desviaciones típicas de estas dos distribuciones
poblacionales.
Una regla
empírica
 •Una regla empírica dice que si la
distribución de los datos es más o
menos simétrica y unimodal, (es
decir con una distribución normal)
entonces aproximadamente un
68% de los datos caerán dentro de
±1 desviaciones estándar de la
media, 95% dentro de ±2
desviaciones y 99.7% dentro de ±3
desviaciones estándar de la
media.
El Coeficiente de Variación
 •Es otra medida de variabilidad que tiene la ventaja de ser sin unidades. Para una
muestra de datos con media y desviación estándar s, se define el coeficiente de
variación como

 Si cambiamos la escala de medir en la variable, el coeficiente de variación no


cambia. No obstante, si la media es igual a cero, el coeficiente de variación no existe.
Coeficiente de Variación
Ejemplo: Se pretende comparar el desempeño en ventas de 3 vendedores.
Los resultados siguientes dan los promedios de puntajes obtenidos en los cinco años pasados
por la concreción de los objetivos
 A 88 68 89 92 103
 B 76 88 90 86 79
 C 104 88 118 88 123

 Vemos que el vendedor C tiene la mayor variabilidad, mientras que el B tiene la menor.
 El desempeño de C parece ser mejor si analizamos la media, pero hay que tener en cuenta
que también tiene la mayor variabilidad en la concreción de los objetivos.
Ejercicios
4. Los rendimientos porcentuales anuales de las acciones ordinarias fueron los
siguientes en un periodo de 7 años:
4.0%, 14.3%, 19.0%, -14.7%, -26.5%, 37.2%, 23.8%
Durante ese mismo periodo, los rendimientos porcentuales anuales de las letras del
Tesoro de Estados Unidos fueron los siguientes:
6.5%, 4.4%, 3.8%, 6.9%, 8.0%, 5.8%, 5.1%
a) Compare las medias de estas dos distribuciones poblacionales.
b) Compare las desviaciones típicas de estas dos distribuciones poblacionales.
c) Obtenga el CV y compare
Ejercicios completo de práctica
EFECTUAR LOS SIGUIENTES PASOS 56 59 59 61 67
Tabla de frecuencias
69 73 76 76 80

 Histograma con 6 intervalos de clase
La medidas de tendencia central Media,
83 83 84 90 94

Mediana, Moda.
 Obtenga las medidas de dispersión Varianza y
desviación estándar
 Encuentre el coeficiente de variación
 Obtenga los cuartiles Q1, Q2, Q3
 Encuentre el rango intercuartílico RIC=Q3-Q1 Min 56 59 59 61 67 =56
 Encuentre los limites superior e inferior Max 83 83 84 90 94 = 94
 Li=Q1-1.5RIC Rango=Max-Min=38
 Ls=Q3+1.5RIC
 Observe los datos anómalos
 Haga el diagrama Boxplot
NUMEROS Frec.abs Frec.acum Frec.Rel. Frec.Rel Frec.Rel% Frec.RelAcum%
acum

56 1 1 0.066 0.066 6.6 6.6


59 2 3 0.133 0.199 13.3 19.9
61 1 4 0.066 0.265 6.6 26.5
67 1 5 0.066 0.331 6.6 33.1
69 1 6 0.066 0.397 6.6 39.7
73 1 7 0.066 0.463 6.6 46.3
76 2 9 0.133 0.596 13.3 59.6
80 1 10 0.066 0.662 6.6 66.2
83
84
2
1
12
13
0.133
0.066
0.795
0.861
13.3
6.6
79.5
86.1
56 59 59 61 67
90 1 14 0.066 0.927 6.6 92.7 69 73 76 76 80
94 1 15 0.066 0.993 6.6 99.3
Total 15 0.993 99.3 83 83 84 90 94
 Min 56 59 59 61 67 = 56

 Max 83 83 84 90 94 = 94

 Rango=Max-Min=38
 6 INTERVALOS; RANGO ENTRE EL NUMERO DE INTERVALO PARA OBTENER EL
ANCHO: 38/6=6.333; 7 APROX. VAMOS A CORREGIR, PARA LO QUE NOS PEDIAN PUES,
EL SEPTIMO SOBRA, TOMAMOS EL ANCHO DE 6.
 PRIMER LIMITE INFERIOR=MIN-1
 ASI, PRIMER LIMITE INFERIOR =55
INTERVALO M.C. FREC.ABS. FREC.REL FREC.REL%

55-60 57.5 3 0.2 20

61-66 63.5 1 0.067 6.7

67-72 69.5 2 0.133 13.3

73-78 75.5 3 0.2 20

79-84 81.5 4 0.267 26.7

85-90 87.5 1 0.067 6.7

91-96 93.5 1 0.067 6.7

TOTAL 15 1.001~1 100.1~100


HISTOGRAMA
30

25

20

15

10
INTERVALO M.C. FREC.ABS. FREC.REL FREC.REL%

5 55-60 57.5 3 0.2 20

0
61-66 63.5 1 0.067 6.7
55-60 61-66 67-72 73-78 79-84 85-90 91-96
67-72 69.5 2 0.133 13.3

73-78 75.5 3 0.2 20

79-84 81.5 4 0.267 26.7

85-90 87.5 1 0.067 6.7

91-96 93.5 1 0.067 6.7

TOTAL 15 1.001~1 100.1~100


MEDIDAS DE TENDENCIA CENTRAL: MEDIA, MEDIANA, MODA
NUMEROS Frec.abs
MEDIA=74
MEDIANA=76
56 1=56 MODA=59, 76, 83
59 2=118
61 1=61
67 1=67
69 1=69
73 1=73
76 2=152
80 1=80
83 2=166
84 1=84
90 1=90
94 1=94
Total 15;
1110/15=74
MEDIDAS DE VARIABILIDAD, VARIANZA, DESVIACIÓN ESTANDAR Y RANGO

NUMERO FREC xi-media (xi-media)^2


56 1 -18 324 Valor del Q1=0.25(15+1)=4
59 1 -15 225 Valor del Q2=0.5(16)=8
59 1 -15 225 Valor del Q3=0.75(16)=12
61 1 -13 169
67 1 -7 49 Q1=61
69 1 -5 25 Q2=76
73 1 -1 1 Q3=83
76 1 2 4 RIC=Q3-Q1=83-61=22
76 1 2 4 LI=Q1-1.5RIC=61-33=28
80 1 6 36 LS=Q3+1.5RIC=83+33=116
83 1 9 81
83 1 9 81
84 1 10 100
90 1 16 256
94 1 20 400
suma 15 1980
media 74
varianza 141.428571Coef.var 0.16070776
desv.est. 11.8923745
rango 38
Q1=61
Q2=76
Q3=83
RIC=Q3-Q1=83-61=22
LI=Q1-1.5RIC=61-33=28
LS=Q3+1.5RIC=83+33=116

28
116
56 61 76 94
Ejercicio Integrador de Clase
 De los siguientes datos:
 47 52 52 57 63 64 69 71 72 72 78 81 81 86 91
 Obtenga:
 La medidas de tendencia central Media, Mediana, Moda.
 Obtenga las medidas de dispersión Varianza y desviación estándar
 Encuentre el coeficiente de variación
 Obtenga los cuartiles Q1, Q2, Q3
 Encuentre el rango intercuartílico RIC=Q3-Q1
 Encuentre los limites superior e inferior
 Li=Q1-1.5RIC
 Ls=Q3+1.5RIC
 Observe los datos anómalos
 Haga el diagrama Boxplot
EJERCICIOS
INTEGRADORES DE
TAREA Unidades 1 y 2
ESTADISTICA DESCRIPTIVA APLICADA
ENTREGA : 29 DE AGOSTO DE 2020 SE RECIBE EN PLATAFORMA HASTA LAS 23:59
SI LA HACES A MANO ENTREGAR ESCANEADA O FOTOS EDITADAS EN WORD Y ENVIADAS EN FORMATO PDF.
SI LA HACES EN EXCEL DEBE INCLUIR PORTADA, CON LOS ENUNCIADOS DE LOS PROBLEMAS EN EL LAS HOJAS DE
TRABAJO, Y BIEN DESARROLLADO.
Ejercicio de Tarea Integrador 1
 De los siguientes datos:
 35 45 45 55 57 62 64 64 64 65 73 74 74 76 78 80 82 84 86 92 92 92
93 94 97 112 116 116 123 123 124 128 140 143 173 214 255 277
 Tabla de frecuencias
 Histograma con 6 intervalos de clase
 La medidas de tendencia central Media, Mediana, Moda.
 Obtenga las medidas de dispersión Varianza y desviación estándar
 Encuentre el coeficiente de variación
 Obtenga los cuartiles Q1, Q2, Q3
 Encuentre el rango intercuartílico RIC=Q3-Q1
 Encuentre los limites superior e inferior
 Li=Q1-1.5RIC
 Ls=Q3+1.5RIC
 Observe los datos anómalos
 Haga el diagrama Boxplot
Ejercicio de Tarea Integrador 2
El tiempo (en segundos) que tardó una muestra aleatoria de empleados en realizar una
tarea es
23, 35, 14, 37, 28, 45
12, 40, 27, 13, 26, 25
37, 20, 29, 49, 40, 13
27, 16, 40, 20, 13, 66
 a)Obtenga el tiempo medio
 b) La desviación estándar
 c) Obtenga los cuartiles
 d) Desarrolle un boxplot
 e) defina curtosis
 f)defina la asimetría
 d)realice un histograma con los datos y compare toda la información
 e) obtenga el coeficiente de dispersión

También podría gustarte