Está en la página 1de 24

´

1. ESTAD ISTICA DESCRIPTIVA

Poblaci´on es cualquier conjunto de datos, objetivo de nuestro inter´es, que caracteriza un fen´omeno que nos interesa.

Muestra es un subconjunto de una poblaci´on determinada. Interesan aquellas muestras que repre- sentan fielmente a la poblaci´on.

Las palabras poblaci´on y muestra se utilizan tambi´en para designar al propio conjunto de individuos

u objetos que se someten a estudio.

La Estad´ıstica Descriptiva es la rama de la Estad´ıstica dedicada a la recopilaci´on de los datos y su reducci´on a unas pocas medidas num´ericas y representaciones gr´aficas, a fin de comprender y expresar las caracter´ısticas de ese conjunto de datos.

La Inferencia Estad´ıstica tiene por objeto obtener conclusiones sobre la poblaci´on a partir de las observaciones realizadas sobre una muestra. Su instrumento matem´atico es el C´alculo de Probabi- lidades.

1.1. Variables estad´ısticas

Al car´acter o caracter´ıstica que nos vaya a interesar estudiar, lo denominaremos variable estad´ıstica,

y se denotar´a por una letra may´uscula: X, Y,

variables:

Es importante distinguir los distintos tipos de

Variables cualitativas o atributos: describen cualidades y no toman valores num´ericos. Ejemplos:

Provincia de nacimiento, nivel de estudios, pa´ıs de fabricaci´on, clasificar una pieza como aceptable

o defectuosa,

Variables cuantitativas: toman valores num´ericos. A su vez, pueden ser:

Discretas: S´olo toman un n´umero finito o infinito numerable de valores distintos (generalmente n´umeros naturales o enteros). Ejemplos: n´umero de unidades de producto compradas en un mes, n´umero de entradas de cine vendidas en una semana, resultado de lanzar un dado, n´umero de hijos, n´umero de aver´ıas de una

Continuas: Toman valores en un intervalo de IR. Corresponden a magnitudes continuas, como peso, altura, temperatura, intensidad de corriente, tiempo entre dos llamadas telef´onicas, tiempo entre dos aver´ıas de una m´aquina, etc. Sus valores no son observables con exactitud, puesto que las observaciones dependen de la precisi´on del instrumento de medida.

Cuando los datos se observan con una pauta fija (cada hora, semana, etc.), constituyen una serie temporal, y su an´alisis requiere t´ecnicas especiales, que tengan en cuenta el orden de los datos.

En este curso no nos ocuparemos del aspecto temporal, considerando el orden de los datos irrelevante.

Los distintos resultados que pueden presentar una variable estad´ıstica se llaman modalidades. Ejemplo: La variable gusto puede presentar cuatro modalidades: dulce, amargo, salado y ´acido. La variable sexo, dos: hombre y mujer.

1

1.2.

Presentaci´on de los datos

La forma m´as elemental de presentar los datos es por medio de una matriz en la que aparecen en la primera columna los individuos, representados de alguna forma (en muchas ocasiones se suele prescindir de esta columna) y en las restantes columnas las observaciones de las distintas variables (o caracter´ısticas) en estudio para cada uno de los individuos. Se la conoce como matriz de datos. (Presentaci´on t´ıpica de hoja de c´alculo)

Ejemplo:

 

edad

especialidad

sexo

Individuo 1

21

Estructuras

mujer

Individuo 2

19

Construcci´on de Maqu.

hombre

Individuo 3

19

Construcci´on de Maqu.

hombre

Individuo 4

18

Estructuras

mujer

Individuo 5

20

Construcci´on de Maqu.

hombre

.

.

.

.

.

.

.

.

.

.

.

.

Cuando se estudia una sola variable, otra forma usual de presentar los datos es por medio de una matriz en la que cada valor corresponde a un individuo de la poblaci´on.

Ejemplo: Edades de 40 individuos encuestados:

12

17

16

23

39

32

23

33

36

23

23

15

36

26

17

24

11

34

37

24

17

39

19

31

16

11

13

40

34

18

14

29

33

14

26

26

26

31

35

18

1.2.1. Agrupaci´on en clases

En ocasiones, y con objeto de facilitar la toma o presentaci´on de datos cuantitativos, estos se agrupan en intervalos o clases. Por ejemplo, es m´as sencillo anotar cu´antos individuos hay en una muestra con una estatura entre 1,75 y 1,80 m., que anotar exactamente la estatura de cada uno.

Al agrupar los datos en intervalos se produce cierta p´erdida de informaci´on por lo que, en lo posible, suele ser preferible tratar los datos sin agrupar, salvo para algunos res´umenes gr´aficos, cuando el n´umero de valores distintos que toma una variable discreta sea grande, o cuando ´esta sea continua.

En general, es recomendable que todas las clases sean de la misma longitud. Para elegir un n´umero k de clases adecuado (habitualmente, entre 5 y 20 ´o 25 clases, y de forma que ninguna contenga menos de 5 datos) pueden usarse como criterios orientativos:

k ≃ √ N , si el n´umero de datos, N , es relativamente peque˜no, N , si el n´umero de datos, N , es relativamente peque˜no,

k ≃ 1 + 1 0 log 1 0 N ( F´ormula de Sturges ), si 1 + 10 log 10 N (F´ormula de Sturges), si N es grande.

3

(L k1 , L k ], garantizando que las

clases sean disjuntas (un dato no puede estar en dos clases a la vez), exhaustivas, es decir, que abarquen todos los posibles valores de la variable, y que est´en ordenadas de menor a mayor.

Utilizaremos clases con la siguiente forma: (L 0 , L 1 ], (L 1 , L 2 ],

2

Asociados a las clases o intervalos se tienen los siguientes elementos:

L´ımites:las clases o intervalos se tienen los siguientes elementos: Amplitud de la clase: b i =

Amplitud de la clase: b i = L i − L i − 1 . de la clase: b i = L i L i1 .

L i1 , L i (l´ımite inferior y l´ımite superior, respectivamente).

(l´ımite inferior y l´ımite superior, respectivamente). Marca de la clase: c i = L i +

Marca de la clase: c i =

L i + L i1

2

La marca de clase se considera el valor representativo de todos los valores de su intervalo. Puede

ocurrir que la marca de clase tenga m´as cifras decimales que los datos (es decir, que no corresponda a un valor realmente observable) y lo mismo puede ocurrir con los l´ımites de clase.

intervalo, tienen respectivamente, el extremo inferior y superior inde-

terminados, con objeto de incluir observaciones poco frecuentes.

A veces, el primer y ultimo´

Ejemplo de agrupaci´on en clases:

Edades de 40 individuos encuestados:

12

17

16

23

39

32

23

33

36

23

23

15

36

26

17

24

11

34

37

24

17

39

19

31

16

11

13

40

34

18

14

29

33

14

26

26

26

31

35

18

 

Clases

N o de datos

(10, 15 ] (15, 20 ] (20, 25 ] (25, 30 ] (30, 35 ] (35, 40 ]

7

8

−→

6

5

8

6

En este caso el n´umero de clases es 6, los l´ımites son 10, 15, 20, 25, 30, 35 y 40; la amplitud en todas las clases es 5, y las marcas son, respectivamente: 12.5, 17.5, 22.5, 27.5, 32.5 y 37.5.

1.3. Tablas de frecuencias

A partir de ahora, vamos a considerar que manejamos una sola variable estad´ıstica, denominada X. (Corresponde a tratar con una de las columnas de la matriz de datos ya vista).

Para resumir la informaci´on que ofrecen nuestros datos, utilizaremos los siguientes elementos:

Frecuencia total: N´umero total de individuos observados o n´umero total de datos, N.

Frecuencia absoluta de la modalidad M i (valor x i o intervalo I i ), es el n´umero de individuos o datos que presentan esta modalidad, n i .

Frecuencia relativa de la modalidad M i (valor x i o intervalo I i ), es el cociente f i = n i

N .

Frecuencia absoluta acumulada hasta la modalidad M i , (valor x i o intervalo I i ): N´umero de in- dividuos o de datos, N i , que presentan una modalidad menor o igual que ´esta.

N i = n 1 + n 2 + ··· + n i =

i

j=1

n j

Frecuencia relativa acumulada hasta la modalidad M i , (valor x i o intervalo I i ): Es el cociente:

.

F i =

N i ;

N

o bien

F i = f 1 + f 2 + ··· + f i =

i

j=1

f j .

Las dos ultimas´ definiciones solo tienen sentido cuando la variable es cuantitativa, o al menos, sus modalidades son susceptibles de una ordenaci´on natural.

3

Dar la distribuci´on de frecuencias

dades de la variable y las correspondientes frecuencias (absolutas, relativas, absolutas acumuladas o relativas acumuladas) de cada modalidad. Habitualmente, esto se hace por medio de tablas:

de la variable estad´ıstica X significa dar las distintas modali-

M

i

n

i

f

i

N i

F i

M

1

n

1

f

1

N 1

F 1

M

2

.

n

.

2

f

.

2

N 2

.

F 2

.

.

.

.

.

.

.

M

k

.

n

k

.

f

k

.

N k = N

.

F k = 1

Es importante observar que se cumple:

En la primera columna aparecen las distintas moda- lidades de la variable (ordenadas de menor a mayor,

si la variable lo admite); en las restantes columnas

se dan las frecuencias absolutas, relativas, absolutas

acumuladas y relativas acumuladas (´estas dos ultimas,´ cuando tengan sentido).

k

i=1

n i = N = N k

y tambi´en

k

i=1

f i = 1 = F k

.

Las frecuencias relativas y las frecuencias relativas acumuladas dan informaci´on sobre porcentajes:

100f i % es el tanto por ciento de datos o individuos que est´an en f i % es el tanto por ciento de datos o individuos que est´an en la modalidad M i .

100F i % es el tanto por ciento de datos o individuos que est´an en F i % es el tanto por ciento de datos o individuos que est´an en las modalidades M 1 , M 2 ,

Tablas para datos agrupados:

Cuando los datos aparecen agrupados por clases, se habla de frecuencias absolutas, relativas, absolutas acumuladas y relativas acumuladas de cada clase.

En el ejemplo anterior:

(L i1 , L i ]

c

i

n

i

f

i

N

i

F

i

(L 0 , L 1 ] (L 1 , L 2 ]

.

c

c

.

1

2

n

n

.

1

2

f

f

.

1

2

N

1

N

.

2

F

1

F

.

2

.

.

.

.

.

.

.

(L k1 , L k ]

.

c

k

.

n

k

.

f

k

.

N

k

.

F

k

(L i1 , L i ]

c

i

n

i

f

i

N

i

F

i

(10, 15 ] (15, 20 ] (20, 25 ] (25, 30 ] (30, 35 ] (35, 40 ]

12,5

7

0,175

7

0,175

17,5

8

0,200

15

0,375

22,5

6

0,150

21

0,525

27,5

5

0,125

26

0,650

32,5

8

0,200

34

0,850

37,5

6

0,150

40

1,000

M i .

La marca de clase sirve como valor representativo de todos los datos del intervalo; incluso en el caso (como aqu´ı sucede) de que no sea un valor posible de la variable.

Para evitar ambig¨uedades, al escribir una tabla es conveniente:

Indicar la unidad de medida de cada variable.evitar ambig¨uedades, al escribir una tabla es conveniente: Indicar con un 0 los valores con frecuencia

Indicar con un 0 los valores con frecuencia 0. (Evitar las rayas, cuya interpretaci´on es de falta de informaci´on sobre la frecuencia del valor).es conveniente: Indicar la unidad de medida de cada variable. Escribir todos los datos con igual

Escribir todos los datos con igual n´umero de decimales.con frecuencia 0. (Evitar las rayas, cuya interpretaci´on es de falta de informaci´on sobre la frecuencia

4

1.4.

Representaci´on gr´afica de variables estad´ısticas unidimensionales

La forma de representar gr´aficamente una distribuci´on de frecuencias va a depender del tipo de variable considerada.

1.4.1. Caso de variables cualitativas y de variables cuantitativas con pocos valores dis- tintos

Ilustraremos las principales formas de representaci´on gr´afica utilizando los datos sobre tipo de veh´ıculos que se recogen en la tabla de la derecha:

Diagrama de barras. .

TIPO

frecuencias

deportivo

14

furgoneta

9

gran turismo

11

monovolumen

16

peque˜no

21

tama˜no medio

22

Se construyen tantos rect´angulos como modalidades presente la variable en estudio, todos ellos con base de igual amplitud (la que sea), y altura proporcional a la frecuencia absoluta o relativa (seg´un cu´al se quiera representar). Las ´areas de los distintos rect´angulos resultan as´ı propor- cionales a las frecuencias.

resultan as´ı propor- cionales a las frecuencias. Diagrama de Pareto Es un diagrama de barras en

Diagrama de Paretoresultan as´ı propor- cionales a las frecuencias. Es un diagrama de barras en el que los

Es un diagrama de barras en el que los rect´angulos se presentan en orden decreciente de altura. Solo pueden aplicarse a variables cualitativas cuyas modalidades no est´en sujetas a otro tipo de ordenaci´on. Son muy usadas en control de calidad y procesos, para identificar f´acilmente las causas que originan mayor n´umero de problemas en el proceso de producci´on.

para identificar f´acilmente las causas que originan mayor n´umero de problemas en el proceso de producci´on.

5

Diagrama de sectores.Esta representaci´on consiste en dividir un c´ırculo en tantos sectores circulares como modalidades presente la

Esta representaci´on consiste en dividir un c´ırculo en tantos sectores circulares como modalidades presente la variable cualitativa, donde cada sector circular tendr´a un ´area proporcional a la frecuencia absoluta (o relativa).

´area proporcional a la frecuencia absoluta (o relativa). 1.4.2. Caso de variables cuantitativas que toman muchos

1.4.2. Caso de variables cuantitativas que toman muchos valores distintos

Histograma.

Es la representaci´on gr´afica m´as frecuente y se realiza a partir de una agrupaci´on de los datos en intervalos. Consiste en un conjunto de rect´angulos construidos de la siguiente forma:

- Tiene como eje horizontal una escala de valores de la variable que se mide. Se marcan los l´ımites de las clases sobre la escala.

- Como eje vertical, tiene una escala de alturas.

Sobre cada clase se eleva un rect´angulo tal que su ´area A i = base · altura = (L i L i1 )h i sea proporcional a la frecuencia absoluta (o relativa) de la clase, es decir, λn i ; entonces, despejando tenemos que la altura es h i = λn i

Ejemplo:

.

L i L i1

En el ejemplo de las edades de 40 individuos:

que la altura es h i = λ n i Ejemplo: . L i − L

6

Ejemplo: El siguiente ejemplo corresponde a clases no equiespaciadas:

(L i1 , L i ]

c

i

n

i

(1,5, 3,5 ] (3,5, 6,5 ]

2,5

3

5

4

Para la distribuci´on de frecuencias dada en esta nueva tabla, un

histograma correcto tendr´ıa un primer rect´angulo de altura 3 λ y un segundo rect´angulo de altura 4 λ, donde λ es un n´umero real positivo cualquiera. Por ejemplo, para λ = 6, el histograma ser´ıa:

2

3

9 8 1,5 3,5 6,5
9
8
1,5
3,5
6,5

Pol´ıgono de frecuencias acumuladas.λ = 6, el histograma ser´ıa: 2 3 9 8 1,5 3,5 6,5 Se construye de

Se construye de la siguiente forma:

-Tiene como eje horizontal una escala de valores de la variable que se mide. Sobre ´el se marcan los l´ımites de las clases.

- La escala vertical es una escala de frecuencias acumuladas (absolutas o relativas).

En este plano, partiendo desde el punto sobre el eje OX que corresponde al l´ımite inferior del primer intervalo, se sit´uan los pares formados por el l´ımite superior de clase y la correspondiente frecuencia acumulada de la clase y los puntos se unen por medio de segmentos, dando lugar a una gr´afica creciente, que termina en una meseta de altura N, si se utilizan frecuencias acumuladas absolutas, o altura 100 si se utilizan porcentajes acumulados. Esta gr´afica se conoce como ojiva

de frecuencias.

Esta gr´afica se conoce como ojiva de frecuencias. Diagrama de tallo-hojas. (Stem and leaf) Se trata

Diagrama de tallo-hojas. (Stem and leaf)Esta gr´afica se conoce como ojiva de frecuencias. Se trata de un procedimiento semi-gr´afico de presentar

Se trata de un procedimiento semi-gr´afico de presentar la informaci´on de variables cuantitativas, util´ cuando el n´umero de datos es peque˜no (menor que 50), aunque con los ordenadores es posible utilizarlo con m´as datos.

7

Los pasos para su construcci´on son:

1. Expresar los datos en unidades convenientes, redondearlos a dos o tres cifras significativas y ordenarlos de menor a mayor.

2. Colocarlos en una tabla con dos columnas separadas por una l´ınea como sigue:

- Para los datos con dos d´ıgitos, escribir a la izquierda de la l´ınea los d´ıgitos de las decenas (que forman el tallo) y a la derecha los de las unidades (que forman las hojas).

- Para datos con tres d´ıgitos, el tallo estar´a formado por las centenas y decenas, escritos a la izquierda, y las hojas ser´an las unidades.

3. Cada tallo define una clase y se escribe una sola vez; el n´umero de hojas representa la frecuencia de la clase correspondiente al tallo.

Ejemplo:

Para el ejemplo de las edades, el diagrama de tallo-hojas ser´ıa:

15

1

1

1

2

3

4

4

5

6

6

7

7

7

8

8

9

(11)

2

3

3

3

3

4

4

6

6

6

6

9

14

3

1

1

2

3

3

4

4

5

6

6

7

9

9

1

4

0

Los valores que aparecen a la izquierda se llaman profundidades e indican las frecuencias acu- muladas, comenzando por arriba (de menor a mayor) y por abajo (de mayor a menor), hasta llegar al tallo en el que se encuentra el valor que ocupa la posici´on central; en este tallo, el valor aparece entre par´entesis e indica solo la frecuencia de ese tallo.

Para facilitar la construcci´on del diagrama, para una cantidad numerosa de datos, puede ser

conveniente escribir en primer lugar un diagrama “desordenado” anotando los tallos y las hojas sin ordenar de menor a mayor, y a partir de esta primera aproximaci´on, construir el diagrama.

A veces conviene subdividir los tallos para obtener mayor claridad, colocando por una parte las

hojas del 0 al 4 y por otra las hojas de 5 a 9, en otros casos, las hojas 0 y 1, las 2 y 3, las 4 y 5,

las 6 y 7 y, por ultimo,´

las 8 y 9; por ejemplo:

6

1

1

1

2

3

4

4

15

1

5

6

6

7

7

7

8

8

9

(6)

2

3

3

3

3

4

4

19

2

6

6

6

6

9

14

3

1

1

2

3

3

4

4

7

3

5

6

6

7

9

9

1

4

0

Puede observarse que, si se gira el diagrama, se obtiene una apariencia similar a la del histograma correspondiente.

8

1.5.

Medidas caracter´ısticas de una distribuci´on unidimensional

Vamos a definir en esta secci´on algunos valores num´ericos que proporcionan informaci´on sobre c´omo se distribuye un conjunto de datos homog´eneo. Estas medidas adem´as, permiten comparar distribuciones y en la tercera parte de la asignatura nos ser´an de utilidad para obtener conclusiones sobre la poblaci´on cuando se trabaja con una muestra.

1.5.1. Medidas de posici´on o localizaci´on

Proporcionan uno o varios valores en torno a los cuales tienden a agruparse los datos. Entre ellas destacaremos las medidas de tendencia central: La media aritm´etica, la mediana y la moda.

Media o media aritm´etica (x¯). Se define de la siguiente manera:

N

i=1

k

i=1

la siguiente manera: N ∑ i =1 k ∑ i =1 Si x 1 , ,

Si x 1 ,

, x N son los datos directos de la variable, entonces:

x n i i f i x n 1 1 f 1 x n 2
x
n
i
i
f i
x
n
1
1
f 1
x
n
2
2
f 2
.
.
.
.
.
.
.
.
.
x
n
k
k
f k

x¯ =

Si se parte de la tabla de frecuencias2 2 f 2 . . . . . . . . . x n k

entonces: x¯ =

x

i

N

x i n i

N =

k

x i f i

i=1

Si los datos est´an agrupados en clases, entonces puede hallarse el valor aproximado de la media:x ¯ = x i N x i n i N = k ∑ x i

x¯

k

i=1

c i n i

N =

k

i=1

c i f i

.

La media es el valor que equilibra las desviaciones positivas y negativas de los datos directos

respecto a su valor, pues cumple:

centro de gravedad o centro geom´etrico de los datos.

En ese sentido, se la puede considerar como

N

1

(x i x¯) = 0.

Mediana (M e ). Se define como el valor num´erico tal que el 50 % de los datos son menores o iguales que ´el, y el 50 % son mayores o iguales.

Para calcular la mediana de un conjunto de datos, en primer lugar hay que ordenarlos de menor

a mayor; la notaci´on x (1) , x (2) ,

, x (N) indica que los datos ya est´an colocados en orden.

Si el n´umero de datos, N , es par, entonces M e = x ( N / 2 ) + N , es par, entonces M e = x (N/2) + x ((N/2)+1)

Si el n´umero de datos es impar, entonces M e = x ( ( N + 1 ) / 2 ) . M e = x ((N +1)/2) .

2

.

Moda: Se define como el valor o los valores m´as frecuentes de la variable, es decir, a los que corres- ponde la mayor frecuencia.

Cuando los datos est´an agrupados por clases, no puede determinarse qu´e valor es la moda; en este caso llamaremos clase modal a aquella a la que corresponde la mayor altura en el histograma (que no tiene por qu´e coincidir con la clase de mayor frecuencia).

9

Comparaci´on entre las medidas de tendencia central

La media utiliza toda la informaci´on disponible, pues tiene en cuenta el valor de todos los datos. En cambio, la mediana es, en ese sentido, menos informativa, pues s´olo tiene en cuenta la posici´on y no el valor. Por esa misma raz´on, la media es muy sensible a valores extremos. Por ello, un error en los datos puede modificarla por completo. As´ı, por ejemplo:

Para los datos 10, 15, 21, 50, la media es 24, desplazada hacia el valor 50 que es un valor extremo.

Si los datos correctos hubiesen sido 10, 15, 21, 20, la media ser´ıa 16.5. Sin embargo, la mediana queda menos afectada por ese dato extremo: en el primer caso ser´ıa 18 y en el segundo, 17.5.

Media calculada a partir de medias de subgrupos

A veces, el conjunto de datos est´a dividido en subgrupos disjuntos (por ejemplo, los individuos de una clase divididos en hombres y mujeres), y se conoce la media de una caracter´ıstica en cada

, n s individuos cada

uno, entonces la media total ser´a:

subgrupo. Si x¯ 1 , x¯ 2 ,

, x¯ s son las

medias en s subgrupos que tienen n 1 , n 2 ,

x¯ = n 1 x¯ 1 + n 2 x¯ 2 + ··· + n s x¯ s n 1 + n 2 + ··· + n s

Otras medidas de posici´on: los percentiles.

Para cada valor p (0, 1), se denomina percentil 100×p, y se denota por q p , al valor de la variable que

divide a la distribuci´on de frecuencias en dos partes, de forma que al menos el 100p % de los datos son menores o iguales que q p , y al menos el 100(1p) % de los datos son mayores o iguales que q p .

C´alculo de los percentiles:

Datos discretos sin agrupar:o iguales que q p . C´alculo de los percentiles: q p =   

q p =

x ([pN ]+1)

x (pN ) + x (pN +1)

2

donde [pN] denota la parte entera de pN.

si pN no es entero

si pN es entero,

Datos agrupados en clases (desconociendo el valor de los datos): Podemos hallar el valor aproxi- mado de q p , tomando el valor del eje X en el que el pol´ıgono de q p , tomando el valor del eje X en el que el pol´ıgono de frecuencias relativas acumuladas

k} para el que sea F i1 p < F i

tiene por altura p: A la

vista de F 1 , F 2 ,

, F k , se toma i ∈ {1, 2,

(se considera F 0 = 0). Entonces, el percentil 100×p ser´a:

q

p

= L i1 + p F i1

f i

b

i

Se denomina cuartiles a los percentiles que dividen a la distribuci´on en 4 partes iguales, es decir,

- el percentil 25, llamado primer cuartil, y denotado por Q 1 .

- el percentil 50, que es la mediana. Se denota, tambi´en, por Q 2 .

- el percentil 75, llamado tercer cuartil, y denotado por Q 3 .

Se denomina deciles a los percentiles que dividen a la distribuci´on en 10 partes iguales. Se denotan

por d 1 , d 2 ,

, d 9 , siendo d i = q 10 , esto es, el percentil 10×i, para i = 1, 2, · · · , 9.

i

10

1.5.2.

Medidas de dispersi´on

Estas medidas indican lo pr´oximos o alejados que est´an los datos, bien entre s´ı, o respecto a alguna medida de centralizaci´on.

Rango o recorrido: Es la diferencia entre el mayor y el menor dato,esto es: x (N) x (1) .

El recorrido es f´acil de calcular, lo que hace que sea una medida muy utilizada, por ejemplo en control de calidad. Adem´as tiene id´enticas unidades que la variable. Sin embargo, presenta el inconveniente de ser una medida muy sensible a valores extremos.

Varianza (s 2 ) La varianza de los datos directos x 1 , x 2 ,

s

2

=

N

i = 1

(x i x¯) 2

N

= ( 1

N

, x N se define como el valor:

N

i = 1

x

2

i

)

x¯ 2 .

Si los datos vienen dados por medio de una tabla de frecuencias, entonces

s 2

=

k (x i x¯) 2 n i

i = 1

N

=

k

i = 1

(x i x¯) 2 f i

La varianza tiene en cuenta todos los datos y es f´acil de calcular, pero no tiene las mismas unidades que la variable.

), que tiene mejores propieda-

des que la varianza a la hora de realizar inferencias. La cuasivarianza de los datos directos

x 1 , x 2 ,

En muchos casos se utiliza otra medida, llamada cuasivarianza (s

2

c

, x N , se define como el valor:

s

2

c =

N (x i x¯) 2

N 1

i=1

.

N s 2 = (N 1) s

2

c

De la igualdad

varianza tienen valores muy parecidos.

se sigue que, cuando N es grande, la cuasivarianza y la

Observaci´on: En muchos programas de software estad´ıstico (Statgraphics, entre ellos), se llama varianza a la cuasivarianza .

Desviaci´on t´ıpica, o desviaci´on est´andar (s). Es, sencillamente, la ra´ız cuadrada de la varianza.

Para los datos directos x 1 , x 2 , x 1 , x 2 ,

, x N , es

s =

N

i=1

(x i x¯) 2 N

.

Si los datos vienen dados por medio de una tabla de frecuencias: s = s =

Se define tambi´en la cuasidesviaci´on t´ıpica como: s c =

11

N

i=1

(x i x¯) 2 N 1

.

k

i=1

(x i x¯) 2 f i .

A diferencia de la varianza, la desviaci´on est´andar se expresa en las mismas unidades que la

variable, dando una idea m´as precisa de la variabilidad respecto de la media, como veremos en

el teorema siguiente.

Teorema 1 (Desigualdad de Chebychev). Sea X una variable estad´ıstica y sea k 1. Entonces, en el intervalo [ x¯ ks, x¯ + ks ] se halla m´as del (1 1 2 )100 % de las observaciones.

k

(Dicho de otra forma: la frecuencia relativa del intervalo [ x¯ ks, x¯ + ks ] es mayor que 1 1 2 .)

k

Demostraci´on:

x 1 , x 2 ,

Sean

se obtienen las siguientes desigualdades:

Denotaremos por f r la frecuencia relativa de un conjunto de datos, y por

, x N los valores directos de la variable X.

A 1 = {x i : |x i x¯| > ks} y

A 2 = {x i : |x i x¯| ≤ ks}. A partir de la definici´on de varianza,

s 2 =

N

i=1

(x i x¯) 2

N

(x i x¯) 2

N

(ks) 2

N

x i A 1

>

=

(x i x¯) 2

N

x i A 1

x i A 1

+

x i A 2

(x i x¯) 2

N

= (ks) 2 f r (A 1 )

Despejando, se obtiene:

f r (A 1 ) <

1

k 2 .

Como f r (A 1 ) + f r (A 2 ) = 1, se tiene que

f r (A 2 ) = f r ( {x i : |x i x¯| ≤ ks} ) > 1

1

k 2 ;

traduciendo ahora la frecuencia relativa a porcentaje, se obtiene el resultado.

Ejemplo:

Siempre podemos asegurar que en el intervalo [¯x 2s, x¯ + 2s] se encuentra como

m´ınimo el 75 % de los datos, y en el intervalo [¯x 3s, x¯ + 3s], como m´ınimo el 89 % de los datos.

Rango intercuart´ılico (IQR). Se define como la diferencia entre el primer y el tercer cuartil:

IQR = Q 3 Q 1 .

El rango intercuart´ılico mide, pues, la amplitud del intervalo en el que se encuentra el 50 % central de los datos.

1.5.3. Medidas de posici´on y de variaci´on utilizadas para comparar conjuntos de datos

Valores o puntuaciones z . Expresan la posici´on relativa de un dato, respecto del conjunto.

define el valor z del dato x i como el valor: z i = x i x¯

s

.

Se

Nos indica cu´antas desviaciones t´ıpicas se aleja el dato respecto de la media.

Coeficiente de variaci´on (CV ). Para datos todos positivos o todos negativos, se define el coefi- ciente de variaci´on de Pearson de la variable estad´ıstica X como el cociente: CV =

Es una medida adimensional de la variabilidad relativa, pues considera la variabilidad de los datos en relaci´on al tama˜no de su media (no es lo mismo una variabilidad de 200 euros en ganacias del orden de 1000 euros, que en ganancias del orden de 1 mill´on). Por ello, es la medida adecuada para comparar la variabilidad de dos conjuntos de datos distintos.

s

|x¯| .

12

1.5.4.

Otras caracter´ısticas observables de una distribuci´on de datos

1. Asimetr´ıa.

Diremos que una distribuci´on es sim´etrica si la representaci´on gr´afica de su distribuci´on de frecuencias presenta simetr´ıa respecto de un eje vertical que pase por el punto x¯. En este caso, la mediana coincide con x¯.

Las medidas de asimetr´ıa existentes son v´alidas para las distribuciones con forma de campana (distribuciones unimodales sim´etricas o con cierta asimetr´ıa) y para las que tienen forma de U. Las distribuciones campaniformes asim´etricas se clasifican en distribuciones asim´etricas con cola a la derecha y distribuciones asim´etricas con cola a la izquierda; el valor de x¯ Me proporciona informaci´on del tipo de asimetr´ıa:

− Me proporciona informaci´on del tipo de asimetr´ıa: asimetr´ıa a la derecha 2. Apuntamiento o curtosis.

asimetr´ıa a la derecha

2. Apuntamiento o curtosis.

asimetr´ıa a la derecha 2. Apuntamiento o curtosis. sim´etrica asimetr´ıa a la izquierda Llamamos curtosis o

sim´etrica

a la derecha 2. Apuntamiento o curtosis. sim´etrica asimetr´ıa a la izquierda Llamamos curtosis o apuntamiento

asimetr´ıa a la izquierda

Llamamos curtosis o apuntamiento al grado de concentraci´on de los datos alrededor de la media.

Las medidas de curtosis se aplican a distribuciones campaniformes y toman como modelo de referencia la llamada distribuci´on normal, que corresponde a fen´omenos muy corrientes en la naturaleza y cuya representaci´on gr´afica es una campana de Gauss, dada por la f´ormula:

f(x) =

1 2 σ √ 2π e − 1
1
2
σ √ 2π e − 1

(xµ) 2

σ 2

,

donde µ y σ son respectivamente la media y la desviaci´on t´ıpica. La distribuci´on normal implica que la mayor´ıa de los valores de la variable est´an cerca de la media, y aquellos que se encuentran muy distanciados de ella, a ambos lados, son poco numerosos.

Una distribuci´on se llama leptoc´urtica si es m´as apuntada que la normal, y platic´urtica si lo es menos que la normal. A la distribuci´on normal, desde el punto de vista de la curtosis, se le llama mesoc´urtica

el punto de vista de la curtosis, se le llama mesoc´urtica platic´urtica m e s o

platic´urtica

de vista de la curtosis, se le llama mesoc´urtica platic´urtica m e s o c ´

mesoc´urtica

13

de vista de la curtosis, se le llama mesoc´urtica platic´urtica m e s o c ´

leptoc´urtica

1.6.

Diagramas de caja o Box-Plot

Este tipo de diagramas son una representaci´on semigr´afica de la distribuci´on, que permite observar

las caracter´ısticas principales de la distribuci´on (asimetr´ıa, apuntamiento, posibles valores at´ıpicos.

), y detectar

Pasos para construcci´on del Box-Plot

1.

Ordenar los datos de menor a mayor y obtener los cuartiles Q 1 , Q 2 y Q 3 . Se obtienen tambi´en otros dos valores, llamados l´ımite inferior (LI) y l´ımite superior (LS), dados por:

LI

= Q 1 1,5IQR

LS

= Q 3 + 1,5IQR

2.

A continuaci´on se sit´uan en un eje graduado estos 5 valores y tomando como base el segmento [Q 1 , Q 3 ] se dibuja un rect´angulo con altura arbitraria; en ´el se indica la posici´on de la mediana, mediante una l´ınea vertical que divida al rect´angulo.

4.

Desde el centro de los lados verticales del rect´angulo se dibujan sendas l´ıneas hasta el menor dato mayor o igual que LI y el mayor dato menor o igual que LS (es decir, los datos m´as extremos del intervalo [LI , LS]).

5.

Los datos que queden fuera del intervalo [LI , LS] se marcan con un punto o un asterisco, a la altura de las dos l´ıneas dibujadas. Se denominan datos at´ıpicos y se clasifican en pr´oximos y lejanos, seg´un est´en en [Q 1 3 IQR , Q 3 + 3 IQR] o a´un m´as alejados.

Ejemplo:

Para los datos de la edad, los cinco valores son: Q 1 = 17, Q 3 = 33, M e = 24, LI = 7 y LS = 57, y el gr´afico:

M e = 24, LI = − 7 y LS = 57, y el gr´afico: Ejemplo:

Ejemplo: distancia de frenado en metros, en autom´oviles conducidos sobre una pista h´umeda

(mismo autom´ovil y velocidad en todos los casos).

35.8

30.5

35.9

41.6

35.9

39.2

41.9

38.6

39.2

37.3

35.3

37.3

35.6

38.0

36.7

40.1

36.1

37.0

39.5

38.3

14

Para los datos de la distancia de frenado, los cinco valores son: Q 1 = 35,9, Q 3 = 39,2, M e = 37,3, LI = 30,95 y LS = 44,15, y el diagrama es:

= 37 , 3, LI = 30 , 95 y LS = 44 , 15, y

Los diagramas de caja son especialmente utiles´ para comparar la distribuci´on de una variable en

conjuntos distintos de datos, o entre subgrupos.

Ejemplo: Los datos siguientes corresponden al tiempo en segundos en pasar de 0 a 100 Km/h en un

conjunto de veh´ıculos subdivididos en cuanto al tipo de veh´ıculo. Es f´acil observar en el gr´afico, por ejemplo, que las furgonetas son las que presentan menor variabilidad y los de tama˜no peque˜no son los de mayor variaci´on.

y los de tama˜no peque˜no son los de mayor variaci´on. 1.7. Datos at´ıpicos en distribuciones univariantes

1.7. Datos at´ıpicos en distribuciones univariantes

Son datos que se alejan del conjunto global de datos, por ser inusualmente grandes o peque˜nos. Pueden ser datos reales, como una puntuaci´on de 10 en un examen en el que la mayor´ıa de las puntuaciones est´an entre 3 y 6, o la estatura de un individuo que mide 2m 10cm, en una clase de individuos con estaturas normales. Tambi´en en ocasiones, aparecen como consecuencia de haber registrado de forma incorrecta un dato. No existe un criterio unico´ para determinar qu´e datos son o no at´ıpicos; dos de los criterios m´as usuales son:

El proporcionado por el diagrama de caja: considerar como at´ıpicos todos los datos fuera del intervalo [LI , LS]. En el ejemplo de la distancia de frenado, ser´ıa el dato 30,5.o no at´ıpicos; dos de los criterios m´as usuales son: El criterio de 3 s :

El criterio de 3s : considerar como at´ıpico todo dato que se aleje m´as de 3 s de s: considerar como at´ıpico todo dato que se aleje m´as de 3s de la media de los datos (recordar que seg´un la desigualdad de Chebysev, al menos el 88,89 % de los datos est´a en el intervalo [¯x 3s, x¯ + 3s]). En el ejemplo de la distancia de frenado, con este criterio no existir´ıan datos at´ıpicos.

15

1.7.1.

Transformaciones de una variable

El objetivo de la descripci´on de datos es obtener una visi´on lo m´as clara posible de los datos, por ello, en muchas ocasiones ser´a necesario hacer traslaciones o cambios de escala para obtener datos lo m´as simples y manejables posible. En otras ocasiones, como los principales m´etodos estad´ısticos son aplicables s´olo a distribuciones sim´etricas, nos interesar´a transformar unos datos asim´etricos en otros que no lo sean tanto.

Las transformaciones lineales son del tipo Y = aX + b , con a, b IR; a ̸= 0, es decir, traslaciones

y cambios de escala; por tanto, producen cambios en cuanto a posici´on y dispersi´on, pero no var´ıan la

forma de la distribuci´on: si x 1 ,

los datos y 1 ,

Se verifican las siguientes propiedades:

, x N son los datos directos de la variable X, sus transformados ser´an

, y N , con y i = ax i + b.

1.

y¯ = ax¯ + b

En efecto:

y¯ =

N

i=1

y

i

N

=

N

i=1

ax i + b

N

= a

N

i=1

x

i

N

+ b

=

ax¯ + b

2.

3.

4.

2

= a 2 s

2

s Y

X

En efecto:

s

2

Y

s Y

= |a| s X

=

N

i=1

(y i y¯) 2

N

M e (Y ) = a M e (X) + b

=

N (ax i + b (ax¯ + b)) 2

N

i=1

= a 2

N

i=1

(x i x¯) 2

N

= a 2 s

2

X

En efecto, si a > 0, los datos conservan su orden y por tanto, la mediana de la variable X se transforma en la mediana de la variable Y. Si a < 0, entonces los datos invierten su orden, pero entonces, la transformada de la mediana sigue dejando un 50 % de los datos a cada lado.

5.

Q

1 (Y ) =

a Q 1 (X) + b

y

Q 3 (Y ) =

a Q 3 (X) + b,

si

a > 0

Q

1 (Y ) = a

Q 3 (X) + b

y

Q 3 (Y ) = a

Q 1 (X) + b,

si

a < 0

(Se razona de igual forma que en la propiedad anterior).

6.

7.

Moda(Y ) = a Moda(X) + b

IQR(Y ) = |a| IQR(X)

.

Las Transformaciones no lineales m´as usuales son:

Y =X 2 ,

Y = X,

Y = 1

Y =ln X,

X . Estas transformaciones, adem´as de cambios en la posici´on y dispersi´on, producen tambi´en cambios en la forma; se utilizan principalmente para promover simetr´ıa.

16

1.8.

Estad´ıstica Descriptiva Bivariante

Se va a estudiar la situaci´on en la que los datos representan observaciones, correspondientes a dos variables o caracteres, efectuadas en los individuos de una determinada poblaci´on. Su estudio conjunto nos va a permitir determinar las relaciones entre ellas. Puede tratarse de dos variables cuantitativas, una cualitativa y la otra cuantitativa, o las dos cualitativas.

, A l ser´an las

modalidades de la variable X, B 1 , B 2 ,

, B k las modalidades de la variable Y . El par (x i , y i ) denotar´a,

en general, el valor de las variables X e Y sobre el elemento i-´esimo de la poblaci´on.

Vamos a denotar por X e Y las variables estad´ısticas objeto de estudio; A 1 , A 2 ,

1.8.1. Tablas de doble entrada

Una primera forma de resumir la informaci´on contenida en los datos es por medio de tablas de frecuencias.

Se denomina frecuencia total datos, N. frecuencia total datos, N.

al n´umero total de individuos observados o n´umero total de

Se denomina frecuencia absoluta del par ( A i , B j ), al n´umero de individuos, frecuencia absoluta del par (A i , B j ), al n´umero de individuos, n ij , de entre los N , que poseen la modalidad A i de X, y la modalidad B j de Y a la vez.

Se denomina frecuencia relativa del par ( A i , B j ), al cociente f i frecuencia relativa del par (A i , B j ), al cociente f ij = n ij

N .

Dar la distribuci´on conjunta de las variables estad´ısticas X e Y significa dar las modalidades de las

variables y las correspondientes frecuencias con que aparece cada par (x i , y j ).

Usualmente, esto se hace por medio de tablas en las que aparecen las distintas modalidades de las variables (ordenadas de menor a mayor, si la variable es cuantitativa). Pueden aparecer las frecuencias absolutas o las relativas, y a veces se dan ambas.

X\Y

B

1

B

2

.

.

.

B

k

 

A

1

n

11

n

12

.

.

.

n

1k

 

A

2

n

21

n

22

.

.

.

n

2k

 

.

 

.

 

.

 

.

 

.

 

.

.

.

 

.

.

.

.

.

 

.

.

A

l

n

l1

n

l2

.

.

.

n

lk

 
         

N

X\Y

B

1

B

2

.

.

.

B

k

 

A

1

f

11

f

12

.

.

.

f

1k

 

A

2

f

21

f

22

.

.

.

f

2k

 

.

.

.

 

.

.

 

.

.

.

 

.

.

.

.

.

 

.

.

A

l

f

l1

f

l2

.

.

.

f

lk

 
         

1

Si las dos variables X e Y son cualitativas, la tabla correspondiente recibe el nombre de tabla de contingencia.

Claramente, se verifican las igualdades:

l

k

∑ ∑

i=1

j=1

n ij = N

17

y

l

k

∑ ∑

i=1

j=1

f ij = 1

Ejemplo: Distribuci´on de alumnos de 2 o de I.T.I. por titulaci´on y sexo:

Titul. \ Sexo

Hombre

Mujer

 

El´ectrico

27

5

 

27

5

285

285

Electr´onico

85

22

 

85

22

285

285

Mec´anico

90

23

 

90

23

285

285

Qu´ımico

19

14

 

19

14

285

285

     

285

1

Distribuci´on conjunta

1.8.2. Distribuciones marginales

Titul. \ Sexo

Hombre

Mujer

 

El´ectrico

27

5

32

27

5

32

285

285

285

Electr´onico

85

22

107

85

22

107

285

285

285

Mec´anico

90

23

113

90

23

113

285

285

285

Qu´ımico

19

14

33

19

14

33

285

285

285

 

221

64

285

221

64

1

285

285

Distr. conjunta y distribuciones marginales

A partir de una distribuci´on conjunta de dos variables es posible estudiar la distribuci´on de cada una de las variables aisladamente (es decir, independientemente de los valores que tome la otra variable).

Los valores de las frecuencias para las variables X e Y se obtienen a partir de la tabla conjunta, anotando en los m´argenes de la tabla la suma de los valores de cada fila y de cada columna:

X\Y

B

1

B

2

.

.

.

B

k

 

A

1

n

11

n

12

.

.

.

n

1k

n

1.

A

2

n

21

n

22

.

.

.

n

2k

n

2.

.

 

.

 

.

 

.

 

.

 

.

.

.

.

 

.

.

.

.

.

.

 

.

.

.

A

l

n

l1

n

l2

.

.

.

n

lk

n

l.