2dispersion y MP


MEDIDAS DE DISPERSIÓN
Estadísticos o parámetros relacionados con la variabilidad de un conjunto
de datos y su distribución respecto a las medidas de tendencia central,
generalmente la media aritmética. Las medidas de dispersión son: el
rango, varianza, desviación estándar, error estándar y el coeficiente de
variación. Miden cuan diferentes y distantes son los datos, lo que permite
conocer con más precisión el comportamiento de los datos y el efecto en
la distribución de los mismos, producto de la variabilidad registrada.
Cuando mayor sea ese valor, mayor será la variabilidad. A través de estas
medidas se puede saber si todos los casos son parecidos o varían mucho
entre ellos.
Caracterizar una distribución solamente a través de una medida de
tendencia central no es apropiado. Las medidas de dispersión son
importantes debido a que dos muestras de observaciones con el mismo
valor central pueden tener variabilidad muy distinta. La dispersión ofrece
una idea sobre la representatividad de la media aritmética, a mayor
dispersión menor representatividad.

RANGO O AMPLITUD
Es la diferencia entre el mayor y el menor valor observado en un
conjunto de datos. Se interpreta como la amplitud que tiene la
distribución de los datos y se utiliza básicamente para variables
ordinales porque presenta el inconveniente de solamente tomar en
cuenta los valores extremos del conjunto de datos.
R  DM  dm
R  xmax  xmin

VARIANZA
Se le llama también cuadrado medio (CM). Dificulta su interpretación el
hecho que se exprese en unidades cuadradas. En la expresión para
calcular la varianza, al numerador se le puede llamar simplemente suma
de cuadrados (SC) y corresponde a la sumatoria del cuadrado de las
diferencias entre cada una de las observaciones del conjunto de datos y la
media aritmética. En la varianza muestral, la expresión (n1) del
denominador se le llama grados de libertad.
n
  xi   
2
VARIANZA POBLACIONAL
2  i 1
n
n
  xi  x 
2
s2  i 1 VARIANZA MUESTRAL
n 1
Observación: si no se expresa lo contrario, se asume que los datos corresponden a
una muestra.

VARIANZA
Cualquiera de las siguientes expresiones equivalentes pueden
utilizarse para el cálculo de la varianza.
PARA UNA POBLACIÓN PARA UNA MUESTRA

n n
x   x  x 
2 2
i i
2  i 1
s2  i 1
n n 1
n n
x 2
i  n 2
 i nx
x 2 2
2  i 1
s2  i 1
n n 1
2
 
2
 
n
 i 
n
 i  x n
x
 i 1 
 i 1  
n
 
2
x 2
 xi
i
n n
 2  i 1 s 2  i 1
n n 1

COMPARACIÓN DE VARIANZAS
Al comparar la variabilidad de dos o mas conjuntos de datos puede darse que las
varianzas difieran mucho con relación a la variable o variables numéricas
intervinientes. En el supuesto que las varianzas de las notas obtenidas por
estudiantes de un curso de matemática y otro de estadística fueran 8.3 y 2.5
respectivamente, la varianza del curso de matemática sería 8.3/2.5=3.32 veces
mayor que la de estadística. Ello implica que una diferencia, por ejemplo, de 2
unidades en las notas de los estudiantes, es mas importante en las notas de
estadística que en las notas de matemática. Como regla general, si el cociente
entre la varianzas es mayor a 3 se dice que los grupos son heterocedásticos
(varianzas desiguales), de los contrario se dice que son homocedásticos (varianzas
iguales).
s 2  mayor 
Si 3 entonces las varianzas son distintas
s 2  menor 

GRADOS DE LIBERTAD
La noción de grados de libertad (gl) utilizada por Gosset (1908) en

su trabajo sobre la distribución t de Student y expuesta por Fisher
(1922), establece que, de un conjunto de observaciones, los
grados de libertad están dados por el número de valores que
pueden ser asignados de forma arbitraria, antes de que el resto
tomen un valor automáticamente, producto de establecerse los
que son libres; esto con el fin de compensar un resultado que es
conocido de antemano, partiendo de la premisa de que en todos
los casos la selección o asignación debe ser aleatoria. En términos
generales, significa que al número de observaciones se le debe
restar el número de términos que se están estimando a partir de
los datos, para servir como divisor en el cálculo.

GRADOS DE LIBERTAD
Las expresiones para los grados de libertad corresponden a:
gl  n  r o gl  k  r
Donde n es el número de observaciones, k el número de

grupos y r el número de observaciones o grupos, cuyo valor
dependerá del que tomen aquellos de la muestra que son
libres de elegir o ser seleccionados aleatoriamente.

DESVIACIÓN ESTÁNDAR
La desviación estándar, es LA MEDIA CUADRÁTICA de las diferencias entre
la media y cada una de las observaciones del conjunto de datos, es decir,
es un promedio de desviaciones. En ese sentido, la desviación estándar se
interpreta como la desviación promedio de los datos respecto de la
media. También se le conoce con el nombre de desviación típica. Se
calcula obteniendo la raíz cuadrada de la varianza y se expresa en
unidades de la variable que se estudia, lo cual constituye una ventaja.
Tiene la desventaja que solo se puede utilizar para comparar la
variabilidad entre muestras extraídas de la misma población, en relación
a la misma variable e igual unidad de medida.
n n
  xi      xi  x 
2 2
 i 1
y s i 1
n n 1
  2 y s  s2

COEFICIENTE DE VARIACIÓN
Mide la variabilidad de los datos en términos relativos, comparando el
valor de la desviación estándar respecto de la media. El coeficiente de
variación se interpreta como el porcentaje de variabilidad observado
en la variable de estudio. Tiene la ventaja que permite hacer
comparaciones de variabilidad entre conjuntos de datos referidos a
variables distintas, de la misma variable pero con unidades de medida
diferentes, y muestras extraídas de distintas poblaciones, en las
cuales, los valores pueden ser de igual manera diferentes.
s
CV  100
x

ERROR ESTÁNDAR DE LA MEDIA
El error estándar o error típico de las medias (S , SE, EE) es una medida de variación de
una distribución de medias. Una distribución de medias es aquella que se construye
tomando muestras sucesivas de igual tamaño en una población. Se utiliza cuando se
pretende cuantificar el error cometido al estimarla, el cual depende de tamaño de la
muestra y se interpreta como la desviación promedio de las medias muestrales respecto
de la media poblacional (media de medias). La media de una muestra es el estimador
usual de una media poblacional, sin embargo, diferentes muestras escogidas de la misma
población tienden en general a dar distintos valores. El valor del error típico TEÓRICO no
es posible calcularse porque nunca se extraen todas las muestras posibles y porque no se
conoce el valor del parámetro. La medición EMPÍRICA del error típico se efectúa desde
la única muestra que se obtiene para estimar el parámetro poblacional, dividiendo la
desviación estándar de la variable por la raíz cuadrada del número de datos. En
términos generales, a mayor tamaño de muestra menor error típico. Se calcula con:
n n
  xi  x  i
2
x 2
 nx 2
s2 s
sx   sx  i 1
sx  i 1
n n n  n  1 n  n  1

ERROR ESTÁNDAR DE LA MEDIA
El error o desviación estándar de las medias es una medida de variación de
una distribución de medias. Una distribución de medias es aquella que se
construye tomando muestras sucesivas de igual tamaño en una población. En
cada muestra se calcula una media aritmética (), y una desviación estándar
(si). Si la población tiene como media poblacional el valor 'Jl', y como
desviación estándar el valor 'cr', la distribución de las medias (Yi) seguirá una
distribución normal, y la media tenderá a ser igual a 'Jl', y la desviación
estándar (cry) igual a 'cr' dividido entre la raíz cuadrada del tamaño de la
muestra
'n', a medida que el tamaño de esta muestra se incrementa.

DIFERENCIA ENTRE DESVIACIÓN ESTÁNDAR Y
ERROR ESTÁNDAR
A diferencia de la desviación estándar, que mide el promedio de las desviaciones de
las observaciones individuales con respecto a la media muestral, el error estándar
mide el desvío de las medias muestrales con respecto a la media poblacional. El
cálculo de la media suele acompañarse de un intervalo en que puede oscilar dicho
valor, es decir, de los límites inferior y superior que se calculan utilizando medidas de
dispersión. Dicho intervalo puede calcularse con el error estándar o bien con la
desviación estándar, pero la interpretación en ambos casos es distinta. La amplitud del
intervalo depende de la cantidad de veces que se suma o resta la medida de dispersión,
que a la vez constituye el nivel de confianza. Es por ello que a dicho intervalo de le
denomina “intervalo de confianza”. Un intervalo de confianza calculado a partir del
error estándar es mas estrecho comparado con el que se calcula a partir de la
desviación estándar. El 68.3% del área bajo la curva normal se encuentra entre ±1.0
desviaciones estándar, mientras que el 95.4% del área bajo la curva normal se
encuentra entre ±2.0. La desviación estándar se utilizan en estadística descriptiva
mientras que la error estándar se utiliza en estadística inferencial.

ERROR ESTÁNDAR
Por ejemplo, si de una muestra de 35 plantas se obtuvo una
altura promedio de 41 cm, con error estándar de 1.35 cm y
desviación estándar de 8.0 cm; entonces cada ves que alguien
replique el mismo estudio en una muestra 35 plantas, obtenidas
de la misma población pero de una muestra distinta, el valor
promedio de altura de planta esperado por este otro investigador
estará entre el intervalo de confianza calculado a partir del error
estándar. Ahora bien, si se elige una planta al azar de la misma
muestra de 35 plantas, entonces la altura debe estar
comprendida entre el valor mínimo y el valor máximo del
intervalo de confianza calculado a partir de la desviación
estándar. Claro está, en ambos casos, la variable de estudio debe
seguir una distribución normal.

ERROR ESTÁNDAR
Tamaño de la muestra 35
Media aritmética (cm) 41
Desviación estándar (cm) 8
Error estándar (cm) 1.35
Intervalo para la media de altura de planta al 68.3% de confianza

x  41  8
33  x  49
Se tiene una confianza aproximadamente del 68% de que una planta elegida al
azar de la misma muestra tenga una altura entre 33 y 49 centímetros. En 68 de
cada 100 casos en que se seleccione una planta de la misma muestra, la altura
oscilará entre 33 y 49 cm.

ERROR ESTÁNDAR
Tamaño de la muestra 35
s 8
Media aritmética (cm) 41
sx    1.35
Desviación estándar (cm) 8 n 35
Error estándar (cm) 1.35
Intervalo para la media muestral al 68.3% de confianza
x  41  1.35
39.65  x  42.35
Se tiene una confianza aproximadamente del 68% de que el promedio de altura de planta
poblacional se encuentre entre 39.65 y 42.35 cm. En 68 de cada 100 casos en que se
seleccione otra muestra de 35 plantas de la misma población, la altura promedio oscilará
entre 39.65 y 42.35.

INTERVALOS PARA ALTURA DE PLANTA SEGÚN EL
NIVEL DE CONFIANZA
Gráfica de distribución Gráfica de distribución
Normal, Media=0, Desv.Est.=1 Normal, Media=0, Desv.Est.=1
0.6827 0.9545
0.4 0.4
0.3 0.3
Densidad
Densidad
0.2 0.2
0.1 0.1
0.0 0.0
-1.000 0 1.000 -2.000 0 2.000
X X
Gráfica de distribución Gráfica de distribución

Normal, Media=41 , Desv.Est.=8 Normal, Media=41 , Desv.Est.=8
0.6826 0.9545
0.05 0.05
0.04 0.04
Densidad
Densidad
0.03 0.03
0.02 0.02
0.01 0.01
0.00 0.00
33.00 41 49.00 25.00 41 57.00
X X

MEDIDAS DE DISPERSIÓN: Cálculo
EJEMPLO
CALCULAR LA MEDIA, DESVIACIÓN ESTÁNDAR, ERROR ESTÁNDAR Y
COEFICIENTE DE VARIACIÓN DE LOS DATOS DE ALTURA DE UNA DE LAS
POSIBLES MUESTRAS DE LOS ALUMNOS DE LA CLASE.

MEDIDAS DE DISPERSIÓN: Cálculo
Se realiza un estudio acerca de los efectos del tabaquismo sobre los
patrones de sueño. La medición que se observa es el tiempo, en
minutos, que toma quedarse dormido. Se obtienen estos datos
a. Encuentre la media de la muestra de cada grupo.

b. Calcule las medidas de dispersión de la muestra de cada grupo e
interprete los resultados.
c. Comente qué clase de impacto parece tener el hecho de fumar
sobre el tiempo que se requiere para quedarse dormido.

MEDIDAS DE POSICIÓN (CUANTILES)
4
DEFINICIÓN
Son valores que dividen a una serie de datos ordenados
3 ascendentemente en partes iguales, de manera que uno de
esos valores puede fraccionar a la serie en dos partes, una
que por debajo de dicho valor quedan el p por ciento de las
2
observaciones, y la otra, que por arriba de ese valor quedan
el 100p por ciento de las observaciones. El cuantil calculado
1
no es necesariamente un valor de la serie de datos.
1 2 3 4 5 6 7 8 9 10
D1 1 D2 2 D3 3 D4 4 D5 5 D6 6 D7 7 D8 8 D99 10
p 100  p
40% D4 60%
-1

MEDIDAS DE POSICIÓN (CUANTILES)
4 Los PERCENTILES dividen a la serie en 100 partes iguales, los DECILES en
10 partes iguales y los CUARTILES en 4 partes iguales. Por ejemplo, cada
conjunto de datos tiene tres cuartiles que lo dividen en cuatro partes
3
iguales. El primer cuartil es el valor debajo del cual quedan el 25% de las
observaciones, y sobre el cual se encuentran el 75% restante. El
segundo cuartil es equivalente a la mediana. El tercer cuartil es el valor
debajo del cual está el 75% de las observaciones y encima del cual se
2
encuentra el 25% restante. Por otro lado, el percentil 25 (P25) es el
primer cuartil (Q1), el quinto decil (D5) es el segundo cuartil (Q2) y el
tercer cuartil (Q3) es el percentil 75 (P75).
1
P25 P50 P75

1 2 3 4 5 Me 6 7 8 9 10
D1 1 D2 2 Q1 D3 3 D4 4 D5 5 D6 6 D7 7 D8 8 D99 10
Q3
Q2
-1

MEDIDAS DE POSICIÓN: CÁLCULO
PROCEDIMIENTO (López y González, 2018)
n x Para x :
P 100 100  n  1 
 , 
100  n n 
Si P es entero: Si P no es entero:
V P  V P 1
VPx  PPx  int  P   1
2
Semisuma
DONDE:
P: es el puesto o posición en la serie de datos
n: es el número de observaciones en la serie
La versión de InfoStat x: orden del percentil
v2018 presenta diferencia
en la rutina de cálculo V[P]: valor de la serie en el puesto P
cuando es entero. V[P+1]: valor de la serie en el siguiente puesto
Int (P): entero de P redondeado hacia abajo.
PPx: Posición del percentil de orden x
VPx: Valor del percentil de orden x

MEDIDAS DE POSICIÓN: CÁLCULO
Procedimiento Excel (Inc) Procedimiento Excel (Exc)
x  n  1 x  n  1 Para x :
P 1 x P  100 100 n 
100 100  n  1 , n  1 
VPx  V P1  d V P 2  V P1 

VPx  V P1  d V P 2  V P1 
Procedimiento Minitab DONDE:

P: es el puesto o posición en la serie de datos
x  n  1
P Para n  20 n: es el número de observaciones en la serie
100 x: orden del percentil
VPx  V P1  d V P 2  V P1  V[P1]: Primer valor de la serie incluido en el puesto P
V[P2]: Segundo valor de la serie incluido en el puesto P
d: fracción decimal del puesto P
VPx: Valor del percentil de orden x
Observe que: VPx  V P1  d V P 2  V P1   d V P 2  1  d V P1


MEDIDAS DE POSICIÓN: EJEMPLO
4
Dada la serie ordenada ascendentemente de 12

números,
3 calcular: D1, Q1, D5, Q3 y P90.
Puesto 1 2 3 4 5 6 7 8 9 10 11 12
1
Valor 3 5 6 8 9 14 17 17 18 19 20 24
1 2 3 4 5 Me 6 7 8 9 10
-1 D1 1 D2 2 Q1 D3 3 D4 4 D5 5 D6 6 D7 7 D8 8 D99 10 11
Q3
Q2
-1 P50
-2
-3

MEDIDAS DE POSICIÓN: EJEMPLO
Dada una muestra de la edad de 14 personas que prefieren
determinado género musical. Calcule los percentiles 8, 32.5 y 50, el
cuarto decil y tercer cuartil.
Persona 1 2 3 4 5 6 7 8 9 10 11 12 13 14
Edad 8 10 22 21 20 9 60 16 14 18 25 12 65 13
Datos ordenados de manera ascendente, de menor a mayor

Puesto 1 2 3 4 5 6 7 8 9 10 11 12 13 14
Edad 8 9 10 12 13 14 16 18 20 21 22 25 60 65

MEDIDAS DE POSICIÓN
RANGO INTERCUARTIL Y DESVIACIÓN INTERCUARTÍLICA
El rango intercuartil (RIC) es la diferencia entre el tercer cuartil y el primer
cuartil (P75P25). Indica la amplitud del 50% de los datos ubicados en la parte
central de la distribución. La desviación intercuartílica (DIC) es la
semidiferencia del tercer y primer cuartil, e indica el alejamiento promedio del
50% de las observaciones respecto de la mediana. Cumple una función similar
a la desviación estándar, pero es mucho más resistente al efecto de valores
extremos. En consecuencia ambos estadísticos constituyen medidas de
dispersión y se utilizan cuando la mediana es la medida de tendencia central.
RIC Q3  Q1
DIC  
2 2
Para el ejemplo de las edades, el rango intercuartil y la desviación
intercuartílica se calcula de la siguiente manera:
Q3  Q1 22  12
RIC  Q3  Q1  22  12  10 años DIC    5 años
2 2

DIAGRAMA DE CAJA (BOX-PLOT)
El gráfico de cajas describe tanto la dispersión como el sesgo de la
distribución de un conjuntos de datos utilizando cuantiles. Muestra
en el mismo gráfico información acerca de la mediana, la media, el
rango intercuartil y valores de atípicos si los hubiere, con la cual se
resalta el centro y los extremos de un conjunto de datos. Los cuartiles
uno y tres son los extremos de la caja. La mediana se representa con
una línea recta al interior de la caja, la cual que localizaría exactamente
a la mitad de la longitud de la caja cuando la distribución es simétrica.
Los extremos de los bigotes que salen de la caja, indican los valores
mínimo y máximo del conjunto de datos. Si un dato se ubica a una
distancia más allá de 1.5 veces el rango intercuartil medida desde la
caja, se puede considerar valor atípico (si un dato se ubica más allá de
3 veces el rango intercuartil es un valor atípico extremo). También es
útil acudir a diagramas de caja cuando se requiere comparar varianzas
de dos o más series de datos.

Gráfica de caja de datos
350 Valor atípico
300
xmax
250
200
datos
Q3
1 50
x
Me
1 00
Q1
50
xmin
0

El procedimiento a seguir para construir un diagrama de caja es el
siguiente:
1) Obtener: Q1, la mediana, Q3, el límite inferior: Linf=(Q11.5×RIC)
para determinar el xmin (xmin≥Linf) y el límite superior:
Lsup=(Q3+1.5×RIC) para determinar el xmax (xmaxLsup).
Adicionalmente puede calcularse la media aritmética.
2) Elaborar una escala acorde a los valores de la serie de datos
tomando en cuenta el dato mayor (DM) y el menor (dm)
3) Demarcar un rectángulo que se extienda desde Q1 hasta Q3 y
dibujar una línea paralela al ancho entre dichos valores para el
valor de la mediana.
4) Dibujar líneas perpendiculares al ancho que se extiendan hacia
fuera del rectángulo hasta los valores mínimo (xmin) y máximo
(xmax) de la serie.
5) Por último, mediante un asterisco se indica la localización de las
observaciones atípicas, si existen.

VALORES ATÍPICOS Y DIAGRAMA DE CAJA
Tanto xmin como xmax deben ser valores de la serie de datos y
corresponden a los datos menor (dm) y mayor (DM),
respectivamente, en ausencia de valores atípicos. Según el
procedimiento utilizado en el ejercicio anterior, al emplear el
criterio de Tukey se tiene que:
Una observación xi es dato atípico en el extremo inferior de la
serie, si xi<Linf. En otro caso, una observación xi es dato atípico
en el extremo superior si xi >Lsup.
Excel y Minitab (Tukey): InfoStat:

Linf  Q1  1.5  RIC Linf  Q1  k  DIC
Lsup  Q3  1.5  RIC Lsup  Q3  k  DIC
Donde k es cualquier constante,
regularmente, 3.0

Se determinó la contaminación por aluminio (ppm) en el plástico de
probetas a partir de una muestra de 26 unidades y se obtuvieron los
datos que se muestran a continuación. Construir un diagrama de caja.
30 30 60 63 70 79 87 90 101 102 115 118 119
119 120 125 140 145 172 182 183 191 222 244 291 350
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26
30 30 60 63 70 79 87 90 101 102 115 118 119 119 120 125 140 145 172 182 183 191 222 244 291 350
Calculando Q1 (P25): Mediana (Me)=119 Calculando Q3 (P75):

L  n 
x 
L  n 
x  
  100 
 100 
Cálculo de la media
L  26 
75 
L  26 
25    19.5
  6.5
n
 100  x i
3548
 100 
x i 1
  136.46 p75  19  1  20
p25  6  1  7 n 26
Vp25  87 Vp75  182

Calculando el RIC: Límite inferior (Li): Límite superior (Ls):
RIC  Q3  Q1 Linf  Q1  1.5  RIC Lsup  Q3  1.5  RIC
RIC  182  87 Linf  87  1.5  95 Lsup  182  1.5  95
RIC  95 Linf  55.5 Lsup  324.5
Cualquier dato de la serie Cualquier dato de la serie
menor que 55.5 es un mayor que 324.5 es un
valor atípico inferior. En valor atípico superior. En
este caso no existe valor este caso, existe valor
atípico inferior en la serie atípico superior en la serie
de datos. Por lo tanto, el (350). Por lo tanto, el xmax
xmin de la serie de la serie es el dato
corresponde al dato inmediato inferior al valor
menor de la serie, es atípico, es decir, 291.
decir, 30.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26
30 30 60 63 70 79 87 90 101 102 115 118 119 119 120 125 140 145 172 182 183 191 222 244 291 350

Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil
Diagrama Versión
de caja Estudiantil
(Box-plot) Versión Estudiantil
365.00
Vatípico
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión  350 Versión Estudiantil
Estudiantil
330.00
Versión Estudiantil Versión 295.00
Estudiantil Versión Estudiantil Versión  291
x Estudiantil
max
Versión Estudiantil
260.00
Aluminio (ppm)
Versión Estudiantil225.00
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión 190.00
Estudiantil Versión Estudiantil Versión
Q Estudiantil
182 Versión Estudiantil
3
155.00
x  136
120.00 Me  119
Versión Estudiantil Versión Estudiantil
85.00
Q1 Estudiantil
Versión Estudiantil Versión
87 Versión Estudiantil
Versión Estudiantil 50.00
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión
 30
xmin Estudiantil Versión Estudiantil
15.00
Interpretación:
La concentración de aluminio en las probetas oscila entre 30 y 291 ppm inclusive. La mayor
distancia entre la Me y Q3 en comparación con la distancia entre Me y el Q1, permite concluir que
existe sesgo positivo en la distribución de los datos ( >Me). El punto ubicado arriba del xmax
definido por el bigote indica que existe un valor atípico. La comparación de la longitud de los
bigotes indica que el 25% superior de los datos están más dispersos que el 25% inferior. La
longitud de la caja muestra la dispersión del 50% de los datos que se encuentran entre el Q1 y el
Q3. En el 50% de la probetas se encontró una concentración de aluminio entre 87 y 182 ppm.

¿MEDIA ARITMÉTICA Y DESVIACIÓN ESTÁNDAR O
MEDIANA Y RANGO INTERCUARTÍLICO?
Es habitual describir una muestra mediante sólo dos estadísticos. Lo común
es hacerlo mediante la media aritmética y la desviación estándar, utilizando
la estructura “media±desviación estándar”, por ejemplo: 11(±3), siendo un
indicativo del intervalo en que puede oscilar el 68.3% de los datos. Sin
embargo, esta forma es correcta si la variable se ajusta bien a una
distribución normal (campana de Gauss). En casos que la variable no se
ajuste a la normalidad, es mejor resumir la descripción de los datos
utilizando una estructura que involucre a la mediana y al rango
intercuartílico “Me(Q3Q1)” que indicaría el valor en el centro de la
distribución y los valores entre los cuales se encuentra el 50% de los datos.
Los coeficientes de asimetría y curtosis estandarizados son de particular
interés para determinar si la muestra procede de una distribución normal.
Los valores de estos estadísticos fuera del rango de 2 a +2 indican
alejamiento significativo de normalidad (Statgraphics software, 2017) que
llevaría a invalidar un resumen descriptivo de los datos basado en la media
aritmética y la desviación estándar.

VALORES ATÍPICOS Y DIAGRAMA DE CAJA: Ejercicio
Para cada una de la series de datos mostradas a continuación utilice

el método de Tukey para determinar si existen valores atípicos.
Luego elabore los diagramas de caja correspondientes y compare.
Serie 1 8.17 8.3 7.74 8.33 13.4 9.61 5.29 3.93 10.8 7.59
Serie 2 7.38 9.6 4.85 7.75 3.87 8.43 8.71 11.5 14.1 7.53

DIAGRAMA DE CAJA: Ejercicio
Se realizó un estudio de la respuesta de 15 híbridos al estrés hídrico
sobre el porcentaje de germinación de la semilla. Los porcentajes de
germinación en condiciones de estrés hídrico y en condiciones no
limitantes (control), para los 15 híbridos se muestran a continuación.
Elaborar un diagrama box-plot para cada serie de datos, interpretar y
comparar la variabilidad.
Híbrido 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
CLH 75 40 37 23 35 60 37 13 12 16 35 5 13 26 21
SLH 94 85 100 96 88 95 97 93 85 78 97 68 85 91 93

100
Versión Estudiantil 91Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
82 Versión Estudiantil Versión Estudiantil Versión Estudiantil
Porcentaje de germinación
73
55
46
En el caso de los híbridos CLH, la amplitud del porcentaje de
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil germinación del 50% de los datos es 24 (rango
28
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil intercuartílico), mientras que en los híbridos de SLH es tan
19 Versión Estudiantil Versión Estudiantil Versión Estudiantil solo de 11, lo cual se aprecia comparando la longitud de la
Versión Estudiantil 10Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil caja. La distribución de los datos en los híbridos CLH tiene
1 sesgo positivo porque la media es mayor que la mediana, en
los híbridos SLH el sesgo es negativo dado que la media es
menor que la mediana. Ambas series tienen datos atípicos
según el criterio de Tukey, en los híbridos CLH el dato atípico
1 00 (75%) se registra en el extremo superior de la serie, mientras
que en los híbridos SLH se registra en el extremo inferior
(68%). La comparación de la longitud de los bigotes en la
80
serie de datos correspondiente a los híbridos CLH revela que
Porcentaje de germinación
75
68 el 25% superior de los datos están más dispersos que en el

60 25% inferior, pero en el caso de los híbridos SLH, los datos
del porcentaje de germinación, están ligeramente más
dispersos en el 25% inferior.
40 Una diferencia, por ejemplo, de 5 puntos porcentuales en la
variable de estudio entre los híbridos sin limitación hídrica
(SLH), es mas importante comparada con la misma diferencia
20
entre híbridos con limitación hídrica (CLH), porque las
varianzas son estadísticamente diferentes
0
(360.12/71.38=5.05)
CLH SLH

MEDIA RECORTADA
La media aritmética puede ser sensible tan solo a un valor atípico,

mientras que la mediana es insensible a muchos valores apartados.
Como el efecto de valores atípicos es indeseable, es posible recortar
la muestra. La media es el promedio de todos los datos, mientras
que la mediana resulta de eliminar todos excepto uno o dos valores
medios y luego promediar. En otras palabras, la media aritmética
implica recortar 0% de cada extremo de la muestra, mientras que en
el caso de la mediana se recorta la cantidad máxima posible de cada
extremo. Una media recortada es un término medio entre la media
aritmética y la mediana. La media recortada reduce el impacto que
ejercen en la media los valores muy altos o muy pequeños, de
modo que aporta una medida más útil de la tendencia central de
datos con valores atípicos.

MEDIA RECORTADA
Según Devore (2008), una media 10% recortada, por ejemplo, se
calcularía eliminando el 10% más pequeño y 10% mas grande de
las observaciones y luego se obtiene un promedio de los valores
restantes. Una media recortada con un porcentaje de recorte
moderado, algo entre 5 y 25%, producirá una medida de
tendencia central que no es ni tan sensible a los valores
apartados como la media aritmética ni tan insensible como la
mediana. El porcentaje debe ser un valor positivo mayor que 0 y
menor que 50. Si el porcentaje de recorte deseado es r% y
nr/100 no es un entero, la media recortada debe ser calculada
por interpolación (redondeado al entero mas cercano en
MINITAB).

MEDIA RECORTADA
Para la serie de datos del ejemplo anterior
calcular la media 15% recortada.
Puesto 1 2 3 4 5 6 7 8 9 10 11 12 13 14
Edad 8 9 10 12 13 14 16 18 20 21 22 25 60 65
nx 14 15
n0    2.1  2 Redondeado al entero más cercano
100 100
Lo cual implica eliminar las dos observaciones más pequeñas y las
dos más grandes.
10  12  13  14  16  18  20  21  22  25
xr 15%  
10
xr 15%   17.1

MEDIA RECORTADA
Para la serie de datos del ejemplo anterior calcular la
media recortada y el porcentaje de recorte al eliminar
las tres observaciones más pequeñas y las tres más
grandes.
Puesto 1 2 3 4 5 6 7 8 9 10 11 12 13 14
Edad 8 9 10 12 13 14 16 18 20 21 22 25 60 65
n
x
i 1
i  8  9  10  ...  25  60  65  313
313  8  9  10  25  60  65
xr   17
8
3
r 100  21.43  21%
14
El porcentaje de recorte se refiere a la mitad de las observaciones
efectivamente eliminadas.

EJERCICIOS PARA REPASAR
SE PROCEDIÓ A CONSULTAR ARCHIVOS FÍSICOS Y DIGITALES A EFECTO DE
RECOPILAR INFORMACIÓN Y CONFORMAR UNA MUESTRA SOBRE EL PESO (EN
KILOGRAMOS) AL DESTETE EN TERNEROS DE LA RAZA BROWN SWISS. EL
ANÁLISIS DESCRIPTIVO DE DATOS UTILIZANDO EL PROGRAMA ESTADÍSTICO
INFOSTAT SE PRESENTA A CONTINUACIÓN. CONTESTAR LAS PREGUNTAS
PLANTEADAS.
122 123 124 125 125 128 128 129 131 132 132 134 134 135 136 137 137 137 138 138 138 138 138 138 139
141 142 143 144 145 145 146 146 146 146 147 147 148 148 148 150 151 152 152 157 159 160 160 161 161
ESTADÍSTICOS PESO
n 50 A) ¿Cuál es el error en el de cálculo de la media muestral?
Media 141.22 B) ¿El porcentaje de variabilidad del peso es alto? ¿por qué?
D.E. 10.48 C) Calcule la media 20% recortada.
E.E. 1.48 D) Elabore un diagrama de caja e interprete
CV 7.42 E) Calcule los coeficientes de asimetría y curtosis ¿Qué tipo de
Mediana 140 asimetría y curtosis presenta la distribución de los datos?
Q1 134
F) Construya un histograma
Q3 148
Suma 7061
G) ¿Siguen los datos una distribución normal? ¿Por qué?

EJERCICIOS PARA REPASAR
Se extrajo al azar una muestra de 20 plantas de una plantación de café
variedad Caturra a efecto de determinar el porcentaje de incidencia de
roya (Hemileia vastatrix). Los resultados son los que se presentan a
continuación. a) Elabore un diagrama de caja y bigotes, b) Cuál es la
desviación promedio de los datos respecto a media aritmética, c) Entre
qué valores de incidencia se encuentra el 50% de las plantas
muestreadas, d) Cuál es la medida de tendencia central y de dispersión
recomendadas (los valores) para caracterizar al conjunto de datos. e)
Cuál sería el intervalo esperado para la media en 68 de cada 100 casos
en que se seleccione otra muestra de 20 plantas de la población.
Calcule el coeficiente de variación e interprete.
53 65 56 34 54 59 45 30 60 8 51 61 34 37 53 61 36 55 64 44

2dispersion y MP

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

2dispersion y MP

Cargado por

Copyright:

Formatos disponibles



PARA UNA POBLACIÓN PARA UNA MUESTRA

La noción de grados de libertad (gl) utilizada por Gosset (1908) en

Donde n es el número de observaciones, k el número de

Intervalo para la media de altura de planta al 68.3% de confianza

Intervalo para la media muestral al 68.3% de confianza

Gráfica de distribución Gráfica de distribución

a. Encuentre la media de la muestra de cada grupo.

P25 P50 P75

VPx  V P1  d V P 2  V P1 

Procedimiento Minitab DONDE:

Observe que: VPx  V P1  d V P 2  V P1   d V P 2  1  d V P1

Dada la serie ordenada ascendentemente de 12

Datos ordenados de manera ascendente, de menor a mayor

350 Valor atípico

Excel y Minitab (Tukey): InfoStat:

Calculando Q1 (P25): Mediana (Me)=119 Calculando Q3 (P75):

Para cada una de la series de datos mostradas a continuación utilice

68 el 25% superior de los datos están más dispersos que en el

La media aritmética puede ser sensible tan solo a un valor atípico,

También podría gustarte