Está en la página 1de 16

Estadstica descriptiva

La estadstica descriptiva es el trmino utilizado para el anlisis de datos que permite describir, mostrar
o resumir los datos de manera signicativa. Sin embargo, su alcance es limitado, ya que no es posible inferir
ms all de los datos que hemos analizado o llegar a conclusiones con respecto a cualquier hiptesis planteada.
Simplemente es una forma de exponer la informacin.

1. Introduccin

A lo largo del curso se trabajar con datos proporcionados por cierta poblacin. A continuacin se denen
algunos trmino bsicos.

Denicin 1 Una muestra es una parte de la poblacin obtenida de acuerdo a alguna regla determinada.

Se entienden por datos a las mediciones u observaciones recolectadas de una muestra. Los individuos o unidades
experimentales son los elementos descritos en un conjunto de datos.

Denicin 2 Una variable es cualquier caracterstica de un individuo y estas pueden tomar distintos valores
para distintos individuos.

Nominales
Cualitativas



Ordinales






Variables

Discretas



Cuantitativas



Continuas


Cuadro 1: Clasicacin de las variables.

De acuerdo a su tipo, es posible clasicar a las variables en cualitativas y cuantitativas.


Las variables cualitativas son aquellas que denotan cualidades o atributos y pueden clasicarse en un nmero
jo de clases o categoras exhaustivas y excluyentes. Estas a su vez se pueden dividir en dos: nominales (no se
puede establecrea una relacin de orden) y ordinales (es posible establecer una relacinde orden).
Por otra parte, las variables cuantitativas toman valores numricos como resultado de un proceso de conteo
(variable discreta) o de medicin (variable continua).

1
1 Introduccin

Estados Fecha de Poblacin Supercie Zona econmica Plataforma Capital/es


miembros ingreso terrestre exclusiva

Repblica Argentina Fundador 40.091.359 2.780.400 km2 1.084.386 km2 856.346 km2 Buenos Aires
Estado Plurinacional de Bolivia Fundador 10.426.160 1.098.581 km 2
Sucre
Repblica Federal de Brasil Fundador 203.429.773 8.514.877 km2 3.660.955 km2 774.563 km2 Brasilia
Repblica de Chile Fundador 17.094.275 756.096km2 3.681.989 km2 252.947 km2 Santiago de Chile
Repblica de Colombia Fundador 48.656.937 1.141.748 km2 817.816 km2 53.691 km2 Bogot D.C
Repblica de Costa Rica Fundador 4.579.000 51.100 km2 574.725 km2 19.585 km2 San Jos
Repblica de Cuba Fundador 11.242.621 110.860 km2 350.751 km2 61.525 km2 La Habana
Repblica Dominicana Fundador 10.090.000 48.442 km2 255.898 km2 10.738 km2 Santo Domingo
Repblica del Ecuador Fundador 14.306.876 283.561 km 2
1.072.533 km 2
41.034 km 2
Quito
Repblica de El Salvador Fundador 5.744.113 21.041 km2 90.962 km2 16.852 km2 San Salvador
Estados Unidos de Amrica Fundador 308.745.538 9.826.675 km2 12.174.629 km2 2.193.526 km2 Washington D.C
Repblica de Guatemala Fundador 14.700.000 108.889 km2 114.170 km2 14.422 km2 Ciudad de Guatemala
Repblica de Hait Fundador 9.800.000 27.750 km2 126.760 km2 6.683 km2 Puerto Prncipe
Repblica de Honduras Fundador 7.793.000 112.492 km2 249.542 km2 68.718 km2 Tegucigalpa y Comayagela
Estados Unidos Mexicanos Fundador 112 322 757 1.972.550 km2 3.177.593 km2 419.102 km2 Mxico, D. F.
Repblica de Nicaragua Fundador 5.465.100 129.494 km 2
123.881 km 2
70.874 km 2
Managua
Repblica de Panam Fundador 3.405.813 78.200 km2 335.646 km2 53.404 km2 Panam
Repblica del Paraguay Fundador 7.030.917 406.752 km2 Asuncin
Repblica del Per Fundador 29.885.340 1.285.215,6 km2 906.454 km2 82.000 km2 Lima
Repblica Oriental del Uruguay Fundador 3.424.595 176.215 km2 142.166 km2 75.327 km2 Montevideo
Repblica Bolivariana de Venezuela Fundador 30.102.382 916.445 km2 860.000 km2 98.500 km2 Caracas
Barbados (1967) 279.912 431 km2 186.898 km2 426 km2 Bridgetown
Repblica de Trinidad y Tobago (1967) 1.299.953 5.128 km 2
74.199 km 2
25.284 km 2
Puerto Espaa
Jamaica (1969) 2.735.520 10.991 km2 258.137 km2 9.802 km2 Kingston
Granada (1975) 89.502 344 km2 27.426 km2 2.237 km2 Saint George's
Repblica de Surinam (1977) 526.000 163.270 km2 127.772 km2 53.631 km2 Paramaribo
Mancomunidad de Dominica (1979) 69.278 754 km2 28.985 km2 659 km2 Roseau
Santa Luca (1979) 160.145 616 km2 15.617 km2 544 km2 Castries
Antigua y Barbuda (1981) 87.883 443 km2 110.089 km2 4.128 km2 Saint John
San Vicente y las Granadinas (1981) 104.000 389 km2 36.302 km2 1.561 km2 Kingstown
Mancomunidad de las Bahamas (1982) 301.790 13.940 km 2
654.715 km 2
106.323 km 2
Nassau
Federacin de San Cristbal y Nieves (1984) 3.895 261 km2 9.974 km2 653 km2 Basseterre
Canad (1990) 34.124.781 9.984.670 km2 5.599.077 km2 2.644.795 km2 Ottawa
Belice (1991) 372.000 22.966 km2 35.351 km2 13.178 km2 Belmopn
Repblica Cooperativa de Guyana (1991) 759.000 214.970 km2 137.765 km2 50.578 km2 Georgetown

Total 926.553.136 40.266.556 km2 37.103.163km2 8.083.636km2

Cuadro 2: Pases pertenecientes a la Organizacin de los Estados Americanos. Fecha de fundacin: mayo de
1948. Fuente: http : //es.wikipedia.org/

Ejemplo 1 Consideremos el Cuadro 2. Cada rengln describe a un individuo, los estados miembros, a travs
de las variables contenidas en cada una de las columnas: Fecha de ingreso, Poblacin, Supercie terrestre, Zona
econmica exclusiva, Plataforma y Capital/es.
Se pueden identicar como variables cualitativas a Fecha de ingreso (ordinal), Estados miembros (nomi-
nal) y Capital/es (nominal); y como cuantitativas a Supercie terrestre (continua), Zona econmica exclusiva
(continua) Plataforma (continua) y Poblacin (discreta).

2
1.1 Escalas de medicin

Ejemplo 2 Se va a realizar un estudio sobre algn medicamento nuevo, y para ello se dispone de un conjunto
de variables referentes a un grupo de pacientes. Las variables bajo estudio son:

Sexo (hombre o mujer)

Edad (en aos)

Fumador/ra (si o no)

Peso (en kilos)

Consumo de alcohol (nada, moderado o excesivo)

Actividad fsica (nunca, esporadicamente, regularmente, siempre)

Lipoprotena de alta densidad (colesterol HDL); con frecuencia llamado colesterol bueno (mg/dl, miligramos
sobre decilitros)

Lipoprotena de baja densidad (colesterol LDL); con frecuencia llamado colesterol malo (mg/dl, miligramos
sobre decilitros)

Como variables categricas se distinguen a Sexo, Fumador/ra, Consumo de alcohol y Actividad fsica. Como
variables cuantitativas discretas se tienen Edad y Peso y como continuas Lipoprotena de alta densidad y Lipo-
protena de baja densidad.

1.1. Escalas de medicin


Para considerar la precisin con la cual se realiza la medicin de los diferentes valores existen cuatro niveles
de medicin. Para variables cualitativas, se usan las escalas nominal y ordinal, en el caso de variables categricas,
y para variables cuantitativas se usan las escalas de intervalo y de razn.

Escala nominal. Es posible establecer a qu categora pertenece determinada observacin. Empero, no es


posible determinar una relacin de orden entre las diferentes categoras de las que se dispone. Por ejemplo,
en los datos de los pases de la OEA, la variable Capital/es est medida en esta escala.

Escala ordinal. Adems de que la variable se agrupa en categoras, se establece una relacin de orden
entre ellas de acuerdo al grado de posesin de cada atributo. Por ejemplo, para el estudio del medicamento,
la variable Comsumo de alcohol y Actividad fsica pertenecen a esta escala.

Escala de intervalo. Es posible medir exactamente la intensidad con la que se posee cierta caracterstica.
Para ello se usa una unidad de medicin cuyo origen se denomina de cero otante para enfatizar que cuando
dicho origen es alcanzado no implica la ausencia del atributo. Por ejemplo, cualquier escala de temperatura
es de este tipo, ya que el cero en ellas no signica que no haya temperatura, o el rendimineto acadmico
(rango de 0 a 10).

3
2 Distribucin de frecuencias

Escala de razn. Se sita un punto jo que al ser alcanzado implica la ausencia de algn atributo. En
este caso es posible realizar operaciones aritmticas. Por ejemplo, en el estudio sobre el nuevo medicamento
los niveles de colesterol estarian medidos en esta escala.

2. Distribucin de frecuencias

El uso de la distribucin de frecuencias para el anlisis de la informacin es bsico en la inferencia estadstica.


Su uso permite hacer congeturas sobre la estructura general de los datos. A continuacin se van a denir los
conceptos fundamentales para la construccin de esta distribucin, su representacin grca y las limitantes que
esta presenta.

Denicin 3 Supongamos que tenemos una muestra de tamao n obtenida de una poblacin, y que de sta
existen

f1 resultados idnticos a x1
f2 resultados idnticos a x2
f3 resultados idnticos a x3
..
.
fk resultados idnticos a xk

en donde
f1 + f2 + + fk = n

y x1 , . . . , xk son k valores numricos asociados a los eventos observados al realizar el experimento aleatorio
que dene la muestra. Los nmeros f1 , . . . , fk son las frecuencias de ocurrencia absoluta de los valores
x1 , . . . , xk , respectivamente.

Denicin 4 Se dene a la frecuencia relativa de ocurrencia del valor xi como


fi
fi := , i = 1, . . . , n, para i = 1, . . . , k. (1)
n
De la denicin de frecuencia relativa se obtienen de inmediato las condiciones necesarias para que un conjunto
de nmeros sean frecuencias relativas de los valores de una muestra. Estas son:

0 6 fi 6 1, i = 1, . . . , n,
k
X
fi = 1.
i=1

Denicin 5 Se llama frecuencia relativa acumulada de un valor xi a la suma de frecuencias relativas de


todos los valores menores o iguales al valor de xi considerado. Si Fi es la frecuencia relativa acumulada de xi ,
se tiene que
k
(2)
X
Fi = fj .
j=1

4
Denicin 6 La distribucin emprica de frecuencias de la variable x se dene como el conjunto de parejas
(xi , fi ), para i = 1, . . . , n.

Ejemplo 3 Supongamos que se tira un dado 10 veces y se obtiene la siguiente muestra:


x = {3, 2, 3, 6, 1, 5, 3, 4, 6, 1}.

La distribucin emprica y la de frecuencia relativa acumulada estan dadas en el Cuadro 3 y sus respectivos
diagramas de barras en la Figura 1.

xi fi Fi

1 0.2 0.2
2 0.1 0.3
3 0.3 0.6
4 0.1 0.7
5 0.1 0.8
6 0.2 1

Cuadro 3: Distribucin emprica y frecuencia relativa acumulada.

Diagrama de barras de la distribucin emprica


0.30
0.20
0.10
0.00

1 2 3 4 5 6

Diagrama de barras de la frecuencia relativa acumulada


1.0
0.8
0.6
0.4
0.2
0.0

1 2 3 4 5 6

Figura 1: Grca de las frecuencias relativas y de las frecuencias relativas acumuladas.

Los diagramas de barras por lo general son utilizadas para comparar las frecuencias, absolutas o relativas, de
distintas categoras. Por ejemplo, en la grca de la Figura 2 es posible hacer un comparativo entre la poblacin
de cada uno de los estados de la OEA.

5
2 Distribucin de frecuencias

Poblacion de los estados pertenecientes a la OEA

3.0e+08

2.5e+08

2.0e+08

1.5e+08

1.0e+08

5.0e+07

0.0e+00
Argentina

Bolivia

Brasil

Chile

Colombia

Costa Rica

Cuba

Dominicana

Ecuador

El Salvador

EUA

Guatemala

Haiti

Honduras

Mexico

Nicaragua

Panama

Paraguay

Peru

Uruguay

Venezuela

Barbados

Trinidad y Tobago

Jamaica

Granada

Surinam

Dominica

Santa Lucia

Antigua y Barbuda

Granadinas

Bahamas

Canada

Belice

Guyana
San Cristobal
Figura 2: Grca de barras de la poblacin total de los pases pertenecientes a la OEA.

Otro tipo de grcas son los diagramas de pastel o de sectores. Estos nos ayudan a percibir la importancia
relativa de cada categora respecto al total. Por ejemplo, si solamente consideraramos a los primeros cinco estados
de la OEA, Argentina, Bolivia, Brasil, Chile y Colombia, entonces la poblacin total sera de 319 698 504 y en
este caso Brasil es el estado que tiene mayor proporcin de poblacin con respecto a los otros. Notemos que su
uso esta limitado al nmero de categoras que presenta la variable bajo estudio.

Poblacion de los estados pertenecientes a la OEA

Bolivia
Argentina
Brasil

Colombia

Chile

Figura 3: Nmero de habitantes en los primeros cinco pases del Cuadro 2.

6
2.1 Tabla de frecuencias

2.1. Tabla de frecuencias


Cuando el tamao de la muestra es grande y las observaciones son continas, es apropiado agrupar los datos
de tal manera que se puedan establecer patrones de los valores observados. Con el n de resolver esto, se tabulan
las frecuencias asociadas a ciertos intervalos de las observaciones. Estos intervalos se llaman intervalos de clase
y deben estar denidos por lmites que permitan identicar plenamente si un dato particular pertenece a uno u
otro intervalo de clase1 .
Para el nmero de intervalos de clase, en la prctica es comn utilizar
log n
NIC = + 1,
log 2
donde n es el tamao de la muestra. El tamao de cada intervalo de clase, la amplitud, se dene como
Ra
Am = ,
NIC
donde Ra = max{x} mn{x} es el rango de la muestra x. Por ltimo, los puntos medios de los intervalos de
clase reciben el nombre de marcas de clase y se denotan por ti , i = 1, . . . , NIC . Estas representan al conjunto
de observaciones que estn contenidas en el intervalo de clase correspondiente.

Denicin 7 El arreglo en una tabla de los intervalos de clase, marcas de clase, frecuencias, frecuencias relativas
y frecuencias relativas acumuladas se conoce con el nombre de tabla de frecuencias. Adems, el conjunto de parejas
(ti , fi ) representa la distribucin emprica de la muestra.

Ejemplo 4 El Cuadro 4 corresponde a las estaturas de cien estudiantes de cierta universidad. La observacin
mayor es 1.87 y la menor es 1.53. La diferencia entre estas dos observaciones, 1.87 1.53 = 0.34, nos indica
que en un rango de 0.34 metros estn todas las estaturas registradas. El nmero de intervalos de clase es igual a
log 100
NIC = + 1 7.
log 2
Entonces la amplitud de cada uno de ellos ser del orden de
0.34
Am = = 0.04857143 metros.
8
De esta manera, y haciendo que la observacin menor este contenida en el primer intervalo de clase y la mayor
en el ltimo, los intervalos de clase son

1.530 6 xi < 1.579

1.579 6 xi < 1.627


..
.
1.821 6 xi < 1.870

en donde x representa la estatura observada. Para los intervalos de clase de la muestra de estaturas, las marcas
de clase son 1.55, 1.60, . . . , 1.85, respectivamente.
1 Esto al considerar los lmites de los intervalos de clase con una cifra decimal ms que los datos originales o usando adecuadamente

los signo de igualdad y desigualdad en la denicin de cada intervalo de clase

7
2 Distribucin de frecuencias

1.65 1.61 1.79 1.87 1.73 1.79 1.71 1.77 1.68 1.72
1.68 1.7 1.77 1.81 1.75 1.74 1.69 1.7 1.69 1.69
1.53 1.72 1.65 1.63 1.74 1.84 1.7 1.69 1.64 1.58
1.85 1.67 1.57 1.79 1.55 1.77 1.67 1.61 1.77 1.71
1.66 1.69 1.86 1.65 1.68 1.65 1.85 1.68 1.62 1.73
1.64 1.73 1.66 1.65 1.72 1.64 1.75 1.62 1.68 1.81
1.84 1.69 1.8 1.63 1.7 1.68 1.65 1.76 1.76 1.8
1.58 1.79 1.73 1.78 1.8 1.76 1.73 1.8 1.75 1.68
1.8 1.63 1.75 1.67 1.62 1.78 1.78 1.68 1.78 1.72
1.76 1.84 1.79 1.69 1.54 1.76 1.68 1.55 1.69 1.7

Cuadro 4: Muestra aleatoria de la estatura (en metros) de cien estudiantes.

El Cuadro 5 corresponde a la tabla de frecuencias de la muestra de estaturas de estudiantes. Con esta infor-
macin se pueden deducir, por ejemplo, que le 28 % de los estudiantes tienen una estatura menor a 1.724 metros;
que es muy difcil encontrar estudiantes con una estatura superior a 1.870 metros, etc.

Intervalo de Marca de Frecuencia Frecuencia relativa Frecuencia relativa


de clase clase ti fi fi acumulada Fi
1.530 1.579 1.55 5 0.05 0.05
1.579 1.627 1.60 7 0.07 0.12
1.627 1.676 1.65 17 0.17 0.29
1.676 1.724 1.70 28 0.28 0.57
1.724 1.773 1.75 20 0.20 0.77
1.773 1.821 1.80 16 0.16 0.93
1.821 1.870 1.85 7 0.07 1.00

TOTAL 100 1.00 -

Cuadro 5: Tabla de frecuencias de la muestra del Cuadro 4.

2.2. Histograma
El histograma es una representacin grca de la distribucin emprica en un sistema de ejes coordenados
rectangulares. En el eje de las abscisas se sitan las marcas de clase, y en el de las ordenadas las frecuencias o las
frecuencias relativas. La representacin se realiza con rectngulos de base igual al intervalo de clase y de altura
la frecuencia o frecuencia relativa correspondiente. Dependiendo de lo que se graque, frecuencias o frecuencias
relativas, el histograma se llama de frecuencias o de frecuencias relativas, respectivamente. En la grca de la

8
2.3 Diagrama de tallo y hojas

Figura 4 se muestra el histograma de la muestra de estaturas de los estudiantes.

Histograma

25
20
Frecuencias
15
10
5
0

1.55 1.6 1.65 1.7 1.75 1.8 1.85


Estaturas

Figura 4: Histograma de frecuencias de las estaturas de los estudiantes.

El objetivo general de un histograma es interpretar la informacin que brindan los datos. Lo primero que
debemos hacer es identicar su forma.
Es posible pensar en tres tipos bsicos de distribuciones: simtrica, asimtrica hacia la derecha y asimtrica
hacia la izquierda. Una distribucin simtrica se caracteriza por que los lados derecho e izquierdo del histograma
son muy parecidos. Una distribucin es asimtrica hacia la derecha si el lado derecho del histograma se extiende
mucho ms lejos que el lado izquierdo. De forma anloga se sigue la denicin para la distribucin asimtrica
hacia la izquierda. En los primeros tres histogramas de la Figura 5 se observa que la forma de la distribucin
para el primero es asimtrica hacia la derecha, el segundo es asimtrico hacia la derecha y el trecer es simtrico
alrredeor del cero.
Otra caracterstica que se puede inferir facilmente de los histogramas son las observaciones atpicas. Una
observacin atpica es aquella que no queda descrita por el aspecto general de la grca. Por ejemplo en el
histograma (d) de la Figura 5 se observa este comportamiento.

2.3. Diagrama de tallo y hojas


Este tipo de grca es especialmente til cuando se tiene pocos datos, debido a que se puede hacer rpidamente
y se obtiene una informacin ms detallada.
El procedimineto para realizar un diagrama de tallo y hojas consiste en dividir cada observacin en dos
partes, llamadas tallo y hojas respectivamente. En general, para hacer dicha divisin, se determina un regla, la
cual se aplicar por igual a todas las observaciones. Cuando se trata de nmeros enteros, usualmente, el tallo

9
2 Distribucin de frecuencias

Histograma Histograma

4000
4000

3000
3000

2000
2000

1000
1000
0

0
0 2 4 6 8 0.2 0.4 0.6 0.8 1.0

Muestra Muestra

(a) Distribucin sesgada a la derecha (b) Distribucin sesgada a la izquierda.

Histograma Histograma
2000

1500
1500

1000
1000

500
500
0

4 2 0 2 4 2 0 2 4 6

Muestra Muestra

(c) Distribucin simtrica. (d) Distribucin con observaciones atpicas.

Figura 5: Ejemplos de distintas muestras de datos.

contiene todos los dgitos menos el del nal (el situado ms a la derecha) y la hoja, el dgito nal. Cuando las
observaciones contienen decimales, se acostumbra a tomar como el tallo a la parte entera y como la hoja a la
parte decimal. A continuacin, se presentan los tallos de menor a mayor en forma vertical. Se traza una linea
vertical a la derecha de los tallos, y por cada dato, se ingresa una hoja en el tallo que le corresponda. Finalmente,
se ordenan los valores de las hojas en forma creciente.
El aspecto de un diagrama de tallo y hojas ser parecido al de un histograma en posicin vertical. La ventaja
de este grco es que mantiene los valores de cada observacin. Adems, como en el caso de histogramas,
permite determinar que tan alejados se encuentran los datos entre s; alrredeor de que valor se encuentran las
observaciones atpicas y la forma de la distribucin.

Ejemplo 5 Consideremos los siguientes resultados de una prueba psicolgica, la prueba SSHA (Survey of Study
Habits and Attitudes) que valora la motivacin y la actitud de los estudiantes. Se aplico esta prueba a 18
estudiantes y los resultados son los siguientes:

10
2.3 Diagrama de tallo y hojas

154 165 115 109 165 137 126 154 101


103 140 200 137 129 152 126 178 148

El diagrama de tallo y hojas correspondiente a estos datos esta dado por

10 | 139
11 | 5
12 | 669
13 | 77
14 | 08
15 | 244
16 | 55
17 | 8
18 |
19 |
20 | 0

Notemos que la forma de la distribucin es irregular, lo cual es frecuente cuando se dispone slo de un nmero
pequeo de observaciones. La observacin atpica es 200; el centro aproximado (observacin tal que una mitad
de las puntuaciones son mayores y la otra mitad menores) no es muy clara, pues se encuentra entre 137 y 140.
La dispersin de los datos, prescindiendo de la observacin atpica es de 101 a 178.

Ejemplo 6 Consideremos los siguientes datos:

54 59 35 41 46 25 47 60
46 49 46 41 34 22 54 54

Estos corresponden al nmero de carreras de bisbol anuales que Babe Ruth consiguiu durante 15 aos (desde
1920 hasta 1934) con los New York Ynakees. El diagrama de tallo y hojas correspondiente est dado por

2 | 25
3 | 45
4 | 1166679
5 | 4449
6 | 0

Al observar esta ltima grca, podemos decir que el centro aproximado de la distribucin se 46, por lo que puede
concluirse que Babe Ruth consigui 46 carreras en un ao tpico. En 1927, Babe Ruth obtuvo su famoso rcord
de 60 cuadrangulares. Como puede verse en la grca, sta no es una observacin atpica.

11
2 Distribucin de frecuencias

2.4. Grcas temporales

Muchas variables son medidas en funcin del tiempo. Por ejemplo, en nmero de robos a casa habitacin
ocurridos en el distrito federal del 2000 al 2008 o algn indicador nanciero, e.g. IPC, QQQX (Cuadro 6), etc.

Una grca temporal de una variable representa cada observacin con relacin al momento en que se midi.
Usualmente, se grca el tiempo en el eje de las abscisas y la medicin que se hace en el eje de las ordenadas. En
la grca de la Figura 6 la serie del NASDAQ Premium Income & Growth Fund de febrero de 2007 a Junio de
2007. En este caso las observaciones son diarias. Es posible observar un comportamiento, por ejemplo, decreciente
de mediados de marzo hasta principios de abril, la serie es creciente desde principios de abril hasta mediados de
este mes, etc.

Fecha Precio
al cierre
2007-02-01 11.02
2007-02-02 11.10
.. ..
. .
2007-06-28 10.90

Cuadro 6: NASDAQ Premium Income & Growth Fund de febrero de 2007 a Junio de 2007 al precio de cierre.

NASDAQ Premium Income and Growth


11.3










11.2















11.1



























11.0












QQQX


















10.9














10.8


10.7



10.6

feb mar abr may jun jul


Meses

Figura 6: Grca temporal del indicador QQQX.

12
3. Medidas descriptivas

La descripcin dada por las grcas es bastante til para estudiar la distribucin de los valores de una
variable. Sin embargo, existen medidas numricas que permiten describir aspectos relevantes de una distribucin
de frecuencias. A estas medidas numricas se les llama medidas descriptivas y se les clasica en medidas de centro
y de dispersin.

3.1. Medidas de centro


Denicin 8 Supongamos que se tienen n observaciones x1 , . . . , xn . Entonces, la el valor medio est dada por
el promedio aritmtico de las observaciones, es decir,
n
1 X
X = xi . (3)
n i=1

Denicin 9 La mediana, M, es el valor que ocupa la posicin central del conjunto de datos una vez que estos
han sido ordenados de acuerdo a su magnitud en forma ascendente; es decir, la mitad de las observaciones tiene
valores menores o iguales a la mediana y la mitad restante tiene valores mayores o iguales que el de la mediana.

Para calcular la mediana de una distribucin, se ordenan todas las observaciones en forma ascendente. Si el
nmero de observaciones es impar, la mediana es la observacin central de la lista ordenada. Si el nmero de
observaciones es par, la mediana es el resultado de promediar las dos observaciones centrales de la lista ordenada.

Ejemplo 7 Consideremos los datos correspondientes a los 18 estudiantes universitarios en la prueba SSHA. La
media de estos datos est dada por X = 141.0556. Para este ejemplo ya se haba construido un diagrama de tallo
y hojas y se haba visto que 200 es una observacin atpica. Si se hace el clculo de la media sin esta observacin,
se obtiene que X = 137.5882. Entonces, la observacin atpica hace que el valor de la media aumente. Ahora se
calcular la mediana. Como el nmero de observaciones es par (n = 18), la mediana se obtiene como el promedio
de los dos datos centrales; es decir, el promedio de 137 y 140:
137 + 140
M= = 138.5.
2
Este ejemplo muestra una diferencia importante entre la media y la mediana: la media es sensible a obser-
vaciones atpicas mientras que la mediana no lo es.

El hecho de que las observaciones atpicas no tengan efecto sobre la mediana, se debe a que dichas obser-
vaciones slo son valores adicionales a la lista de valores mayores o menores. En ejemplo anterior, la mediana
permaneceria igual incluso si un estudiante hubiera obtenido 300 en la prueba SSHA. Lo anterior no signica
que la mediana sea preferible a la media. Simplemente son dos formas de medir el centro.
Notemos que la media y la mediana de una distribucin simtrica se encuentran muy cercanas. Si la distri-
bucin es asimtrica, la media queda desplazada hacia la cola ms larga.

Denicin 10 La moda para un conjunto de mediciones es aquel valor que ocurre con mayor frecuencia. Si
esta valor es nico, se dice que la distribucin de frecuencias es unimodal. Si existen dos o ms valores que se
repiten ms que el resto, se dice que la distribucin es multimodal.

13
3 Medidas descriptivas

De nuevo, en el ejemplo de los 18 universitarios a quienes se les mide el SSHA, la distribucin es multimodal,
ya que los valores 126, 137, 154 y 165 se repiten 2 veces, mientras que para las estaturas de los cien estudiantes
es unimodal.

3.2. Medidas de dispercin


Denicin 11 El recorrido o rango es una medida de la dispersin de los datos y se dene como la diferencia
entre las observaciones mxima y minima. El recorrido muestra la variacin total de los datos.

Denicin 12 Los cuartiles son valores que dividen al conjunto de observaciones ordenadas en cuatro partes.

Para calcular los cuartiles, se ordenan las observaciones en forma creciente y se localiza la median M en la
lista ordenada de observaciones. El primer cuartil, denotado por Q1 , es la mediana de las observaciones situadas
a la izquierda de la mediana de todas las observaciones. El tercer cuartil, denotado por Q3 , es la mediana de las
observaciones situadas a la derecha de la mediana de la totalidad.

Ejemplo 8 Usando una vez ms el ejemplo de la prueba SSHA para los 18 estudiantes universitarios, se tiene
un nmero par de observaciones y ya se haba visto que M = 138.5. para clacular el primer cuartil, nicamente
se consideran la mitad de los datos:

101, 103, 109, 115, 126, 126, 129, 137, 137

y de este subconjunto, se obtiene la mediana, M = Q1 = 126. Para obtener el tercer cuartil, nicamente se
considera la segunda mitad de los datos:

140, 148, 152, 154, 154, 165, 165, 178, 200

de donde Q3 = 154, la mediana de este subconjunto de datos.

Denicin 13 El rango intercuartil se dene como la diferencia entre el tercer y primer cuartil, esto es,

RQ = Q3 Q1 .

Denicin 14 La varianza de un conjunto de observaciones es el promedio de los cuadrados de las desviaciones


de las observaciones respecto a su media. Es decir, si se tienen n observaciones x1 , . . . , xn se dene como
n
1 X
2
S = (xi X)2 (4)
n 1 i=1

Y la desviacin estndar es la rz cuadrada positiva de la varianza.

Algunas propiedades de esta medida son:

S mide la dispersin con respecto a la media. Debe emplearse slo cuando se escoge la media como medida
de centro.

14
3.3 Diagrama de caja y brazos

Si S = 0 signica que no hay dispersin. Esto ocurre nicamente cuando todas las observaciones tienen
el mismo valor. De lo contrario S > 0. A medida que las observaciones estn ms dispersas respecto a su
media, S se hace mayor.

S , al igual que la media, esta fuertemente inuenciada por las observaciones extremas. Unas pocas obser-
vaciones atpicas pueden hacer que S sea muy grande.

Una distribucin asimtrica con pocas observaciones en la cola larga de la distribucin tendr una desviacin
estndar grande. En tal caso, el nmero S no proporciona informacin til. Como en una distribucin asimtrica
la dispercin de cada una de las colas es distinta, es imposible describir bien la dispersin con un slo nmero.
Los cuartiles, los dos valores extremos y la mediana proporcionan mejor informacin en dicho caso.

3.3. Diagrama de caja y brazos


La mediana, el primer y tercer cuartil junto con los valores mximo y minimo de las observaciones, dan
origen a otro tipo de grca conocida como diagrama de caja y brazos. Para didujar un diagrama de este tipo,
se construye la caja usando la mediana para situar el centro de la distribucin y los cuartiles para mostrar
la dispersin del 50 % de los datos centrales. Finalmente los brazos o bigotes del diagrama corresponden a las
observaciones mxima y minima, y serviran para mostrar la dispersin de los datos.
La situacin relativa de los lados de la caja, con respecto a la lnea de la mediana proporcionan una indicacin
de la simetra o asimetra de la distribucin.

Ejemplo 9 Usando el ejemplo de la prueba SSHA, se tenia que la mediana M estaba dada por M = 138.5, los
cuartiles eran Q1 = 126 y Q3 = 154. El valor minimo es 101 y el mximo es 200. La grca de caja y brazos de
estos valores se muestra en la Figura 7.

Sin embargo, como los diagramas de caja muestran menos detalles que los histogramas o los diagrama de
tallo y hojas, es mejor utilizarlos para la comparacin de ms de una distribucin en una misma grca.

Ejemplo 10 Consideremos la cantidad de emisiones de monxido de carbono en la Zona Metropolitana del


Valle de Mxico de enero del 2000 a diciembre de 2009 en cinco estaciones de monitoreo: Tlalnepantla, Merced,
Pedregal, UAM-Iztapalapa y San Agustn. En la grca de la Figura 8 se muestran los diagramas de caja y
brazos para cada una de estas estaciones y para los diez aos. A pesar de que todas las estaciones tienen una
grna cantidad de observaciones atpicas, se puede ver que los niveles de monxido de carbono van en descenso.

15
3 Medidas descriptivas

Diagrama de caja y brazos

200.0

178.0
Valor maximo

154.0
Tercer cuartil

138.5
Mediana

126.0
Primer cuartil

101.0
Valor minimo

SSHA

Figura 7: Diagrama de caja y brazos de la prueba SSHA.

Figura 8: Diagrama de caja y brazos de las emisiones de monxido de carbono.

16

También podría gustarte