Está en la página 1de 46

Estad´ıstica descriptiva de una variable

11 de septiembre de 2013

Definiciones b´asicas

La estad´ıstica descriptiva trata de resumir la informaci´on existente en un conjunto de datos. Cuando se recoge informaci´on de inter´es conviene tener presentes las siguientes definiciones b´asicas:

Poblaci´on: Conjunto sobre el que se va a realizar el estudio. A cada elemento de la poblaci´on se le denomina individuo.

Muestra: Subconjunto de individuos de la poblaci´on seleccionados con la finalidad de generalizar las conclusiones obtenidas en su an´alisis a toda la poblaci´on. El n´umero de individuos de una muestra se denomina tama˜no muestral.

Cuando se realice un an´alisis descriptivo de un conjunto de datos no se distinguir´a entre poblaci´on y muestra. Se supondr´a impl´ıcitamente que se dispone la informaci´on de todos los individuos de la poblaci´on (censo).

Estad´ıstica descriptiva de una variable

Tipos de variables

Definici´on

Una variable es una caracter´ıstica que puede ser medida en cada uno de los individuos de la poblaci´on. Seg´un su naturaleza, distinguiremos los siguientes tipos de variables:

Cuantitativas: Son aquellas caracter´ısticas de los individuos que tienen naturaleza num´erica. Dentro de las variables cuantitativas distinguiremos dos tipos:

Variables discretas: Cuando el conjunto de posibles valores de la caracter´ıstica observada es finito o numerable como, por ejemplo, el n´umero de hermanos de una persona o el n´umero de clientes de un supermercado durante una hora. Variables continuas: Cuando, al menos en teor´ıa, el conjunto de posibles valores de la caracter´ıstica observada es infinito no numerable como, por ejemplo, la altura o el peso.

Cualitativas: Ser´an aquellas variables que no tienen naturaleza num´erica como, por ejemplo, el g´enero de una persona, su religi´on, equipo, etc.

Estad´ıstica descriptiva de una variable

Distribuci´on de frecuencias: frecuencias absolutas

Supongamos que hemos medido en un grupo de individuos una caracter´ıstica num´erica. A esta variable la denotaremos con una letra may´uscula, X , y a los valores registrados con letras min´usculas

x 1 < x 2 < ··· < x k .

Los siguientes conceptos permiten estructurar la informaci´on disponible:

Frecuencia absoluta: La frecuencia absoluta del dato x i ,

i = 1,

la denotaremos por n i . As´ı, el tama˜no de la muestra, que denotaremos por n, verificar´a

, k, es el n´umero de veces que se repite el valor x i , y

n = n 1 + n 2 + ··· + n k .

Si una variable es continua entonces, si no hay redondeos, no deber´ıamos tener valores repetidos. En este caso k = n y

n i = 1, para todo i = 1,

, n.

Estad´ıstica descriptiva de una variable

Distribuci´on de frecuencias: frecuencias absolutas (II)

Para la variable X , n´umero de hermanos, obtenemos las siguientes frecuencias absolutas, a partir de los datos recogidos el primer d´ıa de clase:

X

n i

1

2

3

4

15

30

5

2

52

Estad´ıstica descriptiva de una variable

Frecuencia relativa

Si queremos representar la importancia relativa de un valor dentro de un conjunto de datos utilizaremos la frecuencia relativa. Se define como el cociente entre la frecuencia absoluta y el tama˜no muestra, esto es,

f i = n i

,

i

= 1,

, k.

n

Por ejemplo, para los datos anteriores:

X n f i i 1 15 0.29 2 30 0.57 3 5 0.10 4
X
n
f
i
i
1
15
0.29
2
30
0.57
3
5
0.10
4
2
0.04

Una propiedad elemental de las frecuencias relativas es

f 1 + f 2 + ··· + f k = 1.

Estad´ıstica descriptiva de una variable

Frecuencia absoluta acumulada

La frecuencia absoluta acumulada del dato x i es el n´umero de observaciones menores o iguales que x i . Se denotar´a mediante N i y es claro, a partir de la definici´on, que

En particular

N i = n 1 + ··· , n i ,

i = 1,

N k = n.

, k.

Estad´ıstica descriptiva de una variable

Frecuencia relativa acumulada

La frecuencia relativa acumulada del dato x i es el tanto por uno de observaciones menores o iguales que x i . Se denotar´a mediante F i y es claro, a partir de la definici´on, que

En particular

F i = N i

n

= f 1 + ··· , f i ,

F k = 1.

i = 1,

, k.

Estad´ıstica descriptiva de una variable

Ejemplo

Por ejemplo, para los datos anteriores:

X

n

i

f

i

N

i

F

i

1

15

0.29

15

0.29

2

30

0.57

45

0.86

3

5

0.10

50

0.96

4

2

0.04

52

1.00

Estad´ıstica descriptiva de una variable

30

25

20

15

10

5

0

Representaciones gr´aficas: variables discretas

Existen multitud de formas de representar gr´aficamente un conjunto de datos. Aqu´ı presentaremos alguna de ellas distinguiendo entre variables discretas, continuas y variables cualitativas. Representaci´on gr´afica de variables discretas: Una representaci´on gr´afica muy habitual es el diagrama de barras. En el se representan en el eje horizontal los diferentes valores de la variable y en el eje vertical las frecuencias absolutas (o relativas). Continuando con el ejemplo del n´umero de hermanos tenemos:

1 2
1
2
3 4
3
4

Estad´ıstica descriptiva de una variable

Representaciones gr´aficas: variables continuas (I)

Ejemplo

Se muestra a continuaci´on la nota obtenida por 20 alumnos en la prueba de Ingl´es de Selectividad del a˜no 2009.

3.88

2.16

7.75

8.64

9

5.5

6.3

7.4

8.2

3.75

6.5

9.25

8.75

7

4.25

5

6.7

9.75

4.25

5.25

¿Como calcular´ıas la tabla de frecuencias correspondiente?

Estad´ıstica descriptiva de una variable

Representaciones gr´aficas: variables continuas (II)

4

3

2

1

0

En este tipo de variables no es demasiado util´

directamente el conjunto de datos. Por ejemplo, en la figura que aparece a continuaci´on hemos representado la altura (en cent´ımetros) de los alumnos que estaban en clases el primer d´ıa.

representar

alumnos que estaban en clases el primer d´ıa. representar 150 157 158 159 160 162 163

150

157

158

159

160

162

clases el primer d´ıa. representar 150 157 158 159 160 162 163 165 166 168 169
clases el primer d´ıa. representar 150 157 158 159 160 162 163 165 166 168 169

163

165

166 168 169 170
166
168
169
170

173

150 157 158 159 160 162 163 165 166 168 169 170 173 174 175 178

174

175

157 158 159 160 162 163 165 166 168 169 170 173 174 175 178 179

178

179

180

181

182

185

165 166 168 169 170 173 174 175 178 179 180 181 182 185 186 187

186

187

188

190

166 168 169 170 173 174 175 178 179 180 181 182 185 186 187 188

191

192

Estad´ıstica descriptiva de una variable

Representaciones gr´aficas: variables continuas (III)

Una soluci´on muy empleada para resolver este problema es agrupar los datos en intervalos disjuntos que cubran todo el conjunto de valores observados. As´ı, si X es una variable continua, para conseguir una representaci´on gr´afica adecuada agruparemos los distintos valores en intervalos de la forma

(L ii , L i ],

contando posteriormente cu´antos datos est´an en cada intervalo. El n´umero de datos en cada intervalo ser´a la frecuencia absoluta del intervalo y la representaremos tambi´en mediante n i . De igual manera procederemos para las frecuencias relativas y las frecuencias acumuladas. Debemos tener en cuenta que:

Al agrupar los datos perdemos informaci´on

La informaci´on ahora es mucho m´as manejable

Estad´ıstica descriptiva de una variable

Representaciones gr´aficas: variables continuas (III)

Para la variable altura podr´ıamos obtener la siguiente tabla de frecuencias:

X

n

i

f

i

[150,160]

7

7/52

(160,170]

15

15/52

(170,180]

14

14/52

(180,190]

14

14/52

(190,200]

2

2/52

Una vez calculada esta tabla podemos representarla. A este tipo de representaci´on gr´afico se le conoce con el nombre de histograma. En el eje horizontal se representan los intervalos y en el vertical, encima de cada intervalo, la densidad de frecuencia de cada intervalo

d i = n i ,

l

i

o h i = f i

l

i

donde l i = L i L i1 es la longitud del intervalo i-´esimo.

Estad´ıstica descriptiva de una variable

Representaciones gr´aficas: variables continuas (IV)

14

15

12

10

10

8

Frecuencia

Frecuencia

6

5

4

2

0

0

Si las longitudes de los intervalos son todas iguales (lo habitual) se suele dibujar en el eje vertical la frecuencia absoluta n i en lugar de la densidad de frecuencia

Histograma

Histograma

150

160

170

180

190

200

Altura

150

160

170

180

190

Altura

Debemos tener en cuenta que si cambiamos los intervalos histograma cambia.

el

Estad´ıstica descriptiva de una variable

Histograma: Ejercicio (I)

Se realiza un estudio para valorar el efecto del alcohol sobre los niveles de colesterol en suero. Una variable de inter´es es la cantidad, X , (en onzas) de alcohol consumido por semana y sujeto. Los datos de 913 sujetos que participan en el estudio vienen dados por la siguiente tabla:

X

n i

(0, 0.5]

(0.5, 3.5]

(3.5, 9.5]

(9.5, 19.5]

201

372

260

80

Dibuja el histograma correspondiente a la tabla de frecuencias anterior.

Estad´ıstica descriptiva de una variable

Histograma: Ejercicio (II)

0.4

0.3

Densidad 0.2 de frecuencia

0.1

0.0

En la figura de la izquierda se muestran los datos y en la de la derecha el histograma de la tabla anterior.

Histograma

0.44

0.137

0.047

0.009

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ●●●●●●●●●●●●●●●●●●●●●●● ●●●

●●●● ● ●●●

● ●

● ●●

0

5

10

15

20

x

Estad´ıstica descriptiva de una variable

Representaciones gr´aficas: variables cualitativas

Las representaciones gr´aficas de este tipo de variables se basar´an en el principio de que cada valor ocupar´a un espacio en el dibujo proporcional al porcentaje de veces que se haya observado. Las formas de llevar esta idea a la pr´actica son muy variadas. Una de ellas es el llamado diagrama de sectores donde cada valor diferente ocupa un sector del c´ırculo proporcional al porcentaje de veces que se haya observado.

Barcelona Celta Bilbao Deportivo Madrid
Barcelona
Celta Bilbao
Deportivo
Madrid

Atlético

NS/NC

Estad´ıstica descriptiva de una variable

Medidas de una distribuci´on de frecuencias

Una medida de una distribuci´on de frecuencias es un n´umero que resume de alg´un modo la informaci´on contenida en la distribuci´on de frecuencias de una variable X . Estas medidas se utilizan para completar y precisar la informaci´on que aparece en las representaciones gr´aficas. Las clasificaremos en tres grupos:

Posici´on

Dispersi´on

Forma

Estad´ıstica descriptiva de una variable

Medidas de posici´on

Las medidas de posici´on nos dan informaci´on de d´onde est´an distribuidos nuestros datos. Existen dos tipos de medidas de posici´on:

Medidas de posici´on de tendencia central: Intentan localizar el centro de la distribuci´on.

Medidas de posici´on de tendencia no central: Intentan precisar la localizaci´on de otras caracter´ısticas de inter´es de la distribuci´on que no son necesariamente el centro de la distribuci´on.

Estad´ıstica descriptiva de una variable

Medidas posici´on de tendencia central: la media aritm´etica

Se representa mediante x y se calcula sumando todos los valores y dividiendo por el tama˜no de la muestra. As´ı, si X es una variable discreta

x = x 1 n 1 + ··· + x k n k n En el caso de las variables continuas, con valores {x 1 ,

podr´ıamos simplificar el c´alculo al no haber valores repetidos y por tanto tendr´ıamos que hacer

.

, x n }, no

x = x 1 + ··· + x n n

.

!Ojo! . La media no se puede calcular para variables cualitativas.

Estad´ıstica descriptiva de una variable

La media aritm´etica es el centro de la distribuci´on (I)

¿Por qu´e podemos considerar la media aritm´etica el centro de la

distribuci´on de frecuencias? Para verlo supongamos, por ejemplo,

una variable continua con valores {x 1 ,

llamamos residuo, e i , a la diferencia entre x i y la media, esto es,

, x n }. Para cada dato x i

e i = x i x,

i = 1,

, n.

Se puede probar la siguiente propiedad de la media.

Ejercicio

Se cumple que

n

i=1

e i = 0.

Enuncia esta propiedad para variables discretas

Estad´ıstica descriptiva de una variable

La media aritm´etica es el centro de la distribuci´on (II)

Adem´as la media es la que hace que los residuos sean lo m´as peque˜nos posibles.

Ejercicio

Sea X una variable continua con valores {x 1 ,

, x n }. Entonces

n

i=1

(x i x) 2 = m´ın

aR

n

i=1

(x i a) 2 .

Enuncia esta propiedad para variables discretas.

Estad´ıstica descriptiva de una variable

Las unidades de la media aritm´etica (I)

La media aritm´etica tiene la propiedad de tener las mismas unidades que la variable X . Adem´as se comporta bien al cambiar las unidades de medida.

Ejemplo

Supongamos que X es el tiempo (en minutos) que esperamos en la parada del bus. Despu´es de n d´ıas tenemos los valores

{x 1 ,

,

x n }

¿C´omo se expresar´ıan las mismas medidas en segundos? Pues simplemente multiplicando por a = 60 cada tiempo de espera. El tiempo en segundo ser´ıa entonces

{ax 1 ,

,

ax n }.

Estad´ıstica descriptiva de una variable

Las unidades de la media aritm´etica (II)

Ejemplo (continuaci´on)

Para calcular el tiempo medio de espera en segundos tenemos dos posibilidades (razonables)

1. Calcular la media de los datos en segundos {ax 1 ,

ax 1 + · · · + ax n

n

, ax n }

2. Calcular la media de los datos en minutos (los datos originales) y despu´es pasarla a segundos

a x 1 +

+ x n

n

.

Afortunadamente ambos c´alculos dan el mismo resultado.

Estad´ıstica descriptiva de una variable

Las unidades de la media aritm´etica (III)

Ejercicio

Sea X una variable que toma los valores {x 1 , para cualquier a, b R se tiene que

, x n }. Prueba que

y = b + ax,

donde Y es la variable b + aX , esto es, toma los valores

{b + ax 1 ,

,

b + ax n }.

Estad´ıstica descriptiva de una variable

La media aritm´etica en subpoblaciones

Ejercicio

Se registra la altura de un grupo de 68 personas. De ellas 45 son mujeres y se sabe que su altura media es de 165.2 cent´ımetros mientras que la altura media de los hombres es de 177.7. ¿Cu´al es la altura media del grupo?

Estad´ıstica descriptiva de una variable

La media aritm´etica con datos agrupados

¿C´omo podemos calcular la media de una variable X si sus valores est´an agrupados por intervalos? El c´alculo de la media de una variable requiere conocer todos sus valores y por tanto no podremos calcular el valor exacto de la media de una variable si sus valores se han agrupado. Tendremos que recurrir a aproximaciones m´as o menos razonables. La suposici´on en que se basa nuestra aproximaci´on es que la media de los valores de la variable que est´an en el intervalo (L i1 , L i ] vale

x i

= L i1 + L i

2

.

Esto nos lleva a la siguiente f´ormula para aproximar la media de la variable X

x 1 n 1 + ··· + x

k n k

n

Estad´ıstica descriptiva de una variable

La mediana

La media es muy sensible a la presencia de datos at´ıpicos. La contribuci´on de cada dato al valor final de la media de x i /n. Por tanto, si comentemos un error de 1000 unidades al registrar el dato x i la media se desplaza 1000/n unidades.

Una medida de posici´on que no es tan sensible a la presencia de datos at´ıpicos es la mediana, que denotaremos mediante Me.

Se define la mediana como el primer valor cuya frecuencia relativa acumulada es mayor o igual que 0.5.

Si X es una variable continua con valores {x 1 , verifica que

n

i=1

|x i Me| = m´ın

aR |x i a|

, x n } se

Estad´ıstica descriptiva de una variable

La mediana:c´alculo (I)

Ejercicio

Recordemos que para la variable X , n´umero de hermanos, tenemos las siguientes frecuencias absolutas, a partir de los datos recogidos el primer d´ıa de clases:

Calcula su mediana.

X

n i

1

2

3

4

15

30

5

2

52

Estad´ıstica descriptiva de una variable

La mediana:c´alculo (II)

Ejercicio

Se realiza un estudio para valorar el efecto del alcohol sobre los niveles de colesterol en suero. Una variable de inter´es es la cantidad, X , (en onzas) de alcohol consumido por semana y sujeto. Los datos de 913 sujetos que participan en el estudio vienen dados por la siguiente tabla:

X

n i

(0, 0.5]

(0.5, 3.5]

(3.5, 9.5]

(9.5, 19.5]

201

372

260

80

Calcula la mediana de X .

Estad´ıstica descriptiva de una variable

La mediana:c´alculo (III)

Para calcular la mediana con datos agrupados debemos proceder como sigue:

Calcular el intervalo mediano, es decir, el primer intervalo (L i1 , L i ] tal que F i > 0.5.

Seleccionar la mediana en ese intervalo mediante la f´ormula

Ejercicio

Comprueba que

Me

= L i1 + l i 0.5 F i1 .

f i

Me = L i1 + l i 0.5n N i1

n i

Estad´ıstica descriptiva de una variable

La moda

La moda, Mo, de una variable cuantitativa discreta o cualitativa es

el valor m´as frecuente. En el caso de variables cuantitativas

continuas ser´a necesario agrupar sus valores previamente. En este

caso hablaremos del intervalo modal que es aquel con mayor densidad de frecuencia h i , o (equivalentemente) d i . Si los intervalos son todos de la misma longitud lo anterior es tambi´en

equivalente a buscar el intervalo con mayor frecuencia absoluta, n i ,

o relativa f i .

Ejercicio

Calcula el intervalo modal de los datos anteriores

X

n i

(0, 0.5]

(0.5, 3.5]

(3.5, 9.5]

(9.5, 19.5]

201

372

260

80

Estad´ıstica descriptiva de una variable

Medidas de posici´on de tendencia no central: cuantiles

Los cuantiles son la generalizaci´on del concepto de mediana. Teniendo ordenados los datos se define el cuantil de orden p (0 p 1) como el primer valor, q p , cuya frecuencia relativa acumulada es mayor o igual que p.

La mediana es por tanto el cuantil de orden 0.5.

Al igual que ocurre con la mediana algunos cuantiles tienen nombres espec´ıficos. As´ı los cuartiles son los cuantiles de orden 0.25, 0.5, 0.75 y se representan por Q 1 , Q 2 , Q 3 .

Los deciles, d 1 ,

Los percentiles, p 1 ,

, d 9 son los cuantiles de orden 0.1,

, p 99 son los cuantiles de orden

, 0.9.

0.01, 0.02,

, 0.98, 0.99.

Estad´ıstica descriptiva de una variable

Representaci´on gr´afica de los cuartiles: el diagrama de caja

Los cuartiles se suelen representar gr´aficamente en el denominado gr´afico de caja. El diagrama de caja consta de una caja central que

est´a delimitada por la posici´on de los cuartiles Q 1 y Q 3 . Dentro de esa caja se dibuja la l´ınea que representa la mediana, Q 2 . De los extremos de la caja salen unas l´ıneas que se extienden hasta los

puntos

 

LI

= m´ax{m´ın{x i , i = 1,

, n}, Q 1 1, 5IQR}

y

 

LS

= m´ın{m´ax{x i , i = 1,

, n}, Q 3 + 1, 5IQR}

donde IQR = Q 3 Q 1 es el rango intercuart´ılico. Estos l´ımites representan el rango razonable hasta el cual se pueden encontrar datos. Los datos que caen fuera del intervalo [LI , LS] se consideran datos at´ıpicos y se representan individualmente.

Estad´ıstica descriptiva de una variable

90

80

70

60

50

El diagrama de caja: Ejemplo

En la figura se representa los diagramas de caja para la variable peso tanto para los hombres (izquierda) como para las mujeres (derecha).

peso tanto para los hombres (izquierda) como para las mujeres (derecha). H M Estad´ıstica descriptiva de
peso tanto para los hombres (izquierda) como para las mujeres (derecha). H M Estad´ıstica descriptiva de
peso tanto para los hombres (izquierda) como para las mujeres (derecha). H M Estad´ıstica descriptiva de
peso tanto para los hombres (izquierda) como para las mujeres (derecha). H M Estad´ıstica descriptiva de
peso tanto para los hombres (izquierda) como para las mujeres (derecha). H M Estad´ıstica descriptiva de
peso tanto para los hombres (izquierda) como para las mujeres (derecha). H M Estad´ıstica descriptiva de

H

M

Estad´ıstica descriptiva de una variable

El diagrama de caja: Ejemplo El fichero titanic.xlsx contiene infor- maci´on sobre aproximadamente el 80 % de los pasajeros del Titanic (disponible en la web de la asignatura). Los tratare- mos como si fuesen el total del pasaje. Las variables incluidas en el fichero son:

del pasaje. Las variables incluidas en el fichero son: clase: clase en la que viajaba el

clase: clase en la que viajaba el pasajero (primera = Primera clase; segunda = Segunda clase; tercera = Tercera clase). sobreviviente: indica si cada pasajero sobrevivi´o o no al naufragio (0 = No; 1 = S´ı). sexo: (hombre o mujer). edad: edad en a˜nos (los menores de un a˜no se representan con un n´umero menor uno). tarifa: precio del billete en libras. embarque: puerto en el que se realiz´o el embarque (Cherbourg, Queenstown o Southampton).

Estad´ıstica descriptiva de una variable

80

60

40

20

0

El diagrama de caja: Ejemplo

En la figura se representa los diagramas de caja para la variable edad tanto para los pasajeros del titanic para los pasajeros que viajaban en primera (izquierda), segunda (centro) y tercera (derecha).

● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ●
● ●
●●
● ●

primera

segunda

tercera

Estad´ıstica descriptiva de una variable

Medidas de dispersi´on: Variabilidad

Los estudiantes de Elementos de probabilidad y estad´ıstica reciben diferentes calificaciones en la asignatura (variabilidad). ¿A qu´e puede deberse?

Diferencias conocimiento de la materia

¿Podr´ıa haber otras razones (fuentes de variabilidad)? Supongamos que todos los alumnos poseen el mismo nivel de conocimiento. ¿Las notas ser´ıan las mismas en todos? Seguramente No.

Dormir poco el d´ıa del examen, el croissant estaba envenenado El profesor me tiene man´ıa, el profesor sum´o mal Variabilidad por azar (se contesta al azar alguna pregunta en un test)

La variabilidad es inherente a la mayor´ıa de los datos y es conveniente poder cuantificarla.

Estad´ıstica descriptiva de una variable

Medidas de dispersi´on

Las medidas de dispersi´on tratan de medir la variabilidad de las observaciones muestrales. Intentan responder a la siguiente pregunta:

¿Son un buen resumen las medidas de tendencia central?

La calidad de las medidas de tendencia central se puede cuantificar en t´erminos absolutos, empleando unidades similares a las de la variable X , o en t´erminos relativos, sin emplear unidades.

Estad´ıstica descriptiva de una variable

Varianza

La varianza, s 2 , se define como la media aritm´etica de los cuadrados de las desviaciones respecto a la media. Sea, por

ejemplo, X una variable continua con valores {x 1 , varianza se calcula mediante la f´ormula

, x n }. La

s 2 = 1

n

n

i=1

(x i x) 2 .

Si X es discreta con valores x 1 < ··· < x k

s 2 = 1

n

k

i=1

(x i x) 2 n i

Estad´ıstica descriptiva de una variable

Varianza: Propiedades

Supondremos por simplicidad que X es una variable continua con

valores {x 1 ,

,

x n }. Se verifica

1. s 2 = 0 si y s´olo si x 1 = ··· = x n .

2. La varianza se puede calcular tambi´en mediante la f´ormula

3.

s 2 = 1

n

n

i=1

2

i

x

La varianza de Y

coincide con la varianza de X

= X + c = {x 1 + c,

x 2 .

, x n + c} con c R

4. La varianza de Y la varianza de X

X+c = s

s

X .

2

2

= aX = {ax 1 ,

, ax n } es igual a a 2 veces

aX = a 2 s X .

s

2

2

Estad´ıstica descriptiva de una variable

Desviaci´on t´ıpica

La varianza no est´a expresada en las mismas unidades que X dificultando su interpretaci´on. Para conseguir una medida de dispersi´on que s´ı est´e medida en las mismas unidades que la variable X se define la desviaci´on t´ıpica

s

= s 2 .

Tanto la varianza, como la m´as natural desviaci´on t´ıpica, miden lo pr´oximos que est´an los datos del valor medio. Cuando la desviaci´on t´ıpica (o la varianza) es peque˜na los datos estar´an pr´oximos a la media.

Estad´ıstica descriptiva de una variable

Otras medidas de dispersi´on (I)

Aunque la desviaci´on t´ıpica es la medida de dispersi´on m´as utilizada en la pr´actica existen otras formas de medir la variabilidad de la muestra. A continuaci´on enunciamos algunas de ellas:

1. Desviaci´on absoluta respecto a la media

D x = 1

n

n

i=1

|x i x|

2. Desviaci´on absoluta respecto a la mediana

D Me = 1

n

n

i=1

|x i Me|

3. Mediana de las desviaciones absolutas

MEDA = Mediana{|x i Me|, i = 1,

, n}

Estad´ıstica descriptiva de una variable

Otras medidas de dispersi´on (II)

4. Rango

R = m´ax{x i : i = 1,

5. Rango intercuart´ılico

, n} − m´ın{x i : i = 1,

IQR = Q 3 Q 1

, n}

Para comparar la dispersi´on existente entre dos o m´as conjuntos de datos medidos en unidades diferentes se suele emplear el coeficiente de variaci´on

CV =

s

|x| .

La ventaja de este coeficiente es que no tiene unidades. Se basa en medir la distancia a la media en t´erminos relativos.

Estad´ıstica descriptiva de una variable

Medidas de forma

Estas medidas cuantifican caracter´ısticas de forma como son la simetr´ıa de la distribuci´on de frecuencias alrededor de la media o el apuntamiento, es decir, lo concentrada que se encuentra la distribuci´on en la zona pr´oxima a la media. Su c´alculo es relativamente pesado y su interpretaci´on en algunos casos dif´ıcil. La mayor parte de las veces una correcta interpretaci´on de las representaciones gr´aficas disponibles es suficiente para analizar la forma de una distribuci´on de frecuencias. Es por este motivo por lo que nos limitamos a comentar la existencia de este tipo de medidas sin definir de forma precisa ninguna de ellas.

Estad´ıstica descriptiva de una variable