Está en la página 1de 75

CAPITULO I

ESTADISTICA DESCRIPTIVA
1.1. LA ESTADISTICA Y LA VARIABILIDAD .
La Estadstica se ocupa de la recoleccin y anlisis de datos que corresponden a
fenmenos o situaciones en donde est presente la variabilidad.
La finalidad del anlisis es explicar tal variabilidad.
Si con suficiente resolucin, se realizan mediciones del peso de un artculo, se
encontrar que stas varan. Esta variabilidad puede deberse a diversas razones: al
instrumento de medicin, a la persona que realiza las mediciones, a las condiciones en
que se realiza la medicin, etc. Si se eligen 10 personas al azar y se mide su estatura se
podr observar nuevamente el fenmeno de la variabilidad y ella puede deberse: al
instrumento de medida, a factores de herencia, al tipo de alimentacin, etc. Para cruzar
un ro no es suficiente saber que en promedio la profundidad del agua es 0.50 m; Es
necesario conocer como vara la profundidad.
La variabilidad aparece en muchos procesos. La finalidad de la
Estadstica es explicarla.
A partir del conocimiento de la variabilidad se podr realizar inferencias, predecir, y
muchas veces, controlar resultados.
El estudio de la variabilidad se realiza a partir de la Probabilidad. En el segundo y tercer
captulos se introducen los conceptos bsicos de esta teora. Se indica en estos captulos
los modelos probabilsticos principales que servirn para representar situaciones en
donde est presente la variabilidad.
En este primer captulo se desarrollan mtodos esenciales de la Estadstica Descriptiva,
mtodos que tienen que ver con la codificacin, tabulacin, representacin grfica y la
sntesis numrica de datos que presentan variabilidad. Se estudian las tcnicas bsicas
para organizar y presentar los datos antes de pretender cualquier interpretacin. A partir
de la Estadstica Descriptiva, mediante grficos y diagramas, se identifican los modelos
probabilsticos que servirn para llevar a cabo la inferencia de las caractersticas de toda
una poblacin sobre la base de los datos recolectados

2. Estadstica Descriptiva.

Carlos Vliz Capuay

1.2. POBLACION. UNIDAD DE ANALISIS. VARIABLE.


Poblacin, unidad de anlisis y variable son conceptos sobre los que se basan las
tcnicas estadsticas para analizar los datos. Si se estudia la opinin que tienen los
peruanos respecto de una ley recin promulgada, la poblacin ser el Per, cada una de
los pobladores es una unidad de anlisis y la variable est relacionada a la opinin
acerca de la ley. Si se desea estudiar la variacin de la edad de los habitantes de la
regin Sur, habr que referirse a la poblacin formada a los habitantes de la regin Sur,
a las unidades de anlisis (cada uno de los pobladores de la regin) y a la variable edad.
Si se estudia el grado de conservacin de los monumentos histricos de una ciudad, la
poblacin estar formada por los monumentos histricos de la ciudad, la unidad de
anlisis es cada uno de los monumentos histricos y la variable es el grado de
conservacin. Si para esta misma poblacin y para estas mismas unidades de anlisis se
estudia la antigedad que stos tienen, la variable es el tiempo que tiene cada uno de los
monumentos.
Lo anterior indica que una poblacin no necesariamente estar formada por personas y
que en ella pueden definirse una o ms variables.

Poblacin.
Cualquier conjunto A es una poblacin y cada uno de sus elementos es
una unidad de anlisis.
A cada unidad de anlisis tambin se le llama unidad estadstica o unidad experimental.
1.1. Ejemplo.

El conjunto formado por todos los trabajadores que laboran actualmente en la industria
textil de un pas es una poblacin. Cada trabajador es una unidad estadstica o de
anlisis.
El conjunto formado por todos los artculos producidos por una fbrica es una
poblacin. Cada uno de los artculos es una unidad estadstica o unidad experimental.
Cualquier subconjunto de una poblacin se llama muestra.
1.2. Ejemplo.

Interesaba conocer si el programa de TV 0007, que se propaga entre las 8 p.m. y las 9
p.m., tiene o no aceptacin entre los televidentes del pas. Para ello se propuso estimar la
proporcin de las personas que ven el programa entre todos los televidentes que tienen
encendido su televisor en dicho horario. La estimacin se realiz escogiendo slo 165
familias entre todas las que acostumbran encender su televisor en el horario indicado. La
poblacin la constituyen todas las familias del pas que encienden su televisor entre las 8
p.m. y las 9 p.m. Las 165 familias escogidas forman una muestra.

Carlos Vliz Capuay

Estad st ica Descrip tiva . 3

En Estadstica interesan las poblaciones cuyos elementos tienen caractersticas comunes


y que pueden traducirse en nmeros. Esta idea tiene que ver con el concepto de variable.

Variable o carcter.
Para referirnos a una caracterstica de los elementos de una poblacin, por ejemplo la
edad, el lugar de procedencia, el coeficiente de inteligencia de un grupo de personas, o
el peso de los artculos que produce una fbrica, se usa el concepto de variable o
carcter. Una variable es susceptible de adoptar distintos valores. As, la variable edad
definida en la poblacin Regin Sur puede tomar los valores: 10, 50, 65, etc., aos; la
variable opinin, establecida para estudiar si los ciudadanos de una pas estn de
acuerdo o no con una determinada ley, puede tomar el valor 1, si el poblador est de
acuerdo, el valor 2, si no est de acuerdo y el valor 3, si su posicin es indiferente.
El establecimiento de una variable es una de las etapas ms importante de
toda tarea estadstica. Mediante una variable el investigador cuantifica,
transforma en cifras las caractersticas de una cualidad de los elementos de la
poblacin.
Para estudiar una caracterstica de una poblacin, se hace corresponder a cada unidad de
anlisis un nmero real. De ah que
se define una variable, como una funcin X que a cada elemento de una
poblacin le hace corresponder un nmero real.
A una variable, tambin se le llama carcter.
1.3. Ejemplo.

En la poblacin determinada por todos los trabajadores de la industria del automvil se


puede definir la variable X, que a cada trabajador le asigna su edad correspondiente.
En la misma poblacin tambin se puede definir la variable Y, que a cada trabajador le
asigna el nmero 0 si es soltero, el nmero 1 si es casado y el nmero 3 si es viudo o
divorciado. La asociacin de nmeros en lugar de palabras que indican el estado civil
del trabajador ser muy til en general, pues as se evita escribir las frases: soltero,
casado, etc., ahorrando tiempo y espacio al escribir.
1.4. Ejemplo.

En la poblacin formada por los artculos producidos en una fabrica, se puede definir la
variable que a cada artculo le hace corresponder el nmero de defectos que tiene.

4. Estadstica Descriptiva.

Carlos Vliz Capuay

Variables y encuestas
A menudo se realizan encuestas, a travs de cuestionarios, para recoger informacin de
una poblacin.
Cada pregunta puede relacionarse con una variable, como en el caso siguiente:
Est usted de acuerdo con la ley antitabaco?.
Las respuestas pueden ser: si, no, no sabe / no contesta.
El entrevistado debe dar slo una respuesta. Esta respuesta puede ser codificada,
respectivamente, con los valores 1, 2 y 3, correspondiendo estos valores a una variable
que puede llamarse ley antitabaco.
Otras veces, a una pregunta de un cuestionario estn ligadas varias variables como en el
siguiente ejemplo.
Cules de estos medios de transporte pblico usa para trasladarse a su centro de labores
y con qu frecuencia?.
Esta pregunta puede ser relacionada con dos variables: una de stas puede llamarse bus,
la cual puede tomar los valores: 1, si viaja en bus y con gran frecuencia; 2, si viaja en
bus y con poca frecuencia y 3, si no viaja en bus y la otra, que puede nombrarse con taxi
y que se define de manera anloga a la anterior.

Bus
Taxi

Si con gran
frecuencia
1
1

Si con poca
frecuencia
2
2

No
3
3

Matrices de datos.
Los datos que se recogen de una poblacin pueden escribirse en tablas formndose
cuadros llamados matrices de datos.
1.5. Ejemplo.

En la siguiente tabla se presenta una serie de variables definidas en el conjunto formado


por los pases: Per, Colombia, Chile, Bolivia, Argentina, Venezuela, Brasil y Japn.
En la tabla se indican las siguientes variables : nmero de habitantes en 1992 en millones (V1), superficie en miles de kilmetros cuadrados (V2), producto nacional bruto
promedio por habitante (PNB) en dlares y para 1992 (V3), tasa media de inflacin
anual en porcentaje para 1980 - 1990 (V4), y esperanza de vida al nacer en aos (V5).
Como referencia se indica los valores de cada una de las variables para toda la poblacin
mundial.

Carlos Vliz Capuay

Estad st ica Descrip tiva . 5

Se han indicado algunos elementos que son esenciales para su interpretacin. Estos
elementos son:
- el ttulo de la tabla: INDICADORES BASICOS
- la fuente de la cual se ha extrado la informacin: Banco Mundial.
- signos empleados: el smbolo < indica "menor que".
- las unidades que se usan para representar las cifras: dlares, porcentajes, etc.

INDICADORES BASICOS
N.Habit.
Pas

Superficie.
2

PNB

Tasa inf.

Esper. vida

(milln)

(en miles de km )

(en $)

(en %)

(en aos)

V1

V2

22

1285

V4
233.9

V5

Per

V3
1160

Colombia

32

1139

1260

24.8

69

Chile

13

757

1940

20.5

72

Bolivia

1099

630

317.9

60

Argentina

32

2767

2370

395.2

71

Venezuela

20

912

2560

19.3

70

Brasil

150

8512

2680

284.3

66

Japn

124

378

25430

<5

79

Poblacin

5284

133342

4200

14.7

66

63

mundial
Fuente: Banco Mundial. Informe sobre el desarrollo mundial 1992.
< 5 indica "menor que 5, "

En lo que sigue y cuando sea necesario, se tratar de que aparezcan los principales
elementos que describen la tabla.
1.6. Ejemplo.

En la siguiente tabla se presentan los valores de la variable X que a cada uno de los
nueve pases indicados le hace corresponder la "inflacin" en el mes de Octubre de
1993; esto es, la variacin del promedio de los precios de los principales bienes con
respecto al mes anterior.
Tambin se presentan los valores de la variable Y que a cada uno de los pases que
aparecen en la tabla les hace corresponder la "inflacin anual acumulada" durante el ao
1993. (Los conceptos sobre inflacin se explican ms adelante).

6. Estadstica Descriptiva.

Carlos Vliz Capuay

INFLACION
(Variacin porcentual)

PAISES
Brasil
Venezuela
Ecuador
Chile
Uruguay
Per
Colombia
Argentina
Bolivia

X: Inflacin
Octubre 1993
34.12
5.00
5.13
2.60
2.18
1.50
1.06
0.60
0.51
Fuente: INEI

Y: Inflacin
anual 1993
2567.46
44.1
32.3
12.1
52.3
39.5
22.4
7.7
8.8

1.3. ESCALAS DE MEDIDA. Tipos de escala.


La asignacin de nmeros a los elementos de una poblacin se hace siguiendo
determinadas reglas y teniendo en cuenta los diferentes niveles de medida de la variable
en estudio. As, a cada persona se le asigna su coeficiente de inteligencia, calculando
previamente un nmero que corresponde a respuestas ante determinadas situaciones
tpicas. En general, cuando tal procedimiento se realiza se dice que se ha establecido una
escala de medida. El conocimiento de los diferentes tipos de escalas de medida permite
una mejor aplicacin de los mtodos estadsticos, de ah que sea importante su estudio.
La tradicional clasificacin en cuatro escalas fundamentales: nominales, ordinales,
intervalares y de razn o cociente, fue realizada por S.S. Stevens (1946).

Escala nominal.
Se tiene una escala nominal si a todos las unidades estadsticas equivalentes respecto de
la propiedad o atributo en estudio se les hace corresponder un mismo nmero real, que
funciona slo como "etiqueta". Las operaciones que se puedan realizar con los nmeros
asignados a las unidades estadsticas, as como el orden que entre ellos se puedan
establecer, no tienen significado en relacin con el atributo que se mide. Con una escala
de este tipo se consigue la agrupacin de las unidades estadsticas en clases equivalentes
llamadas modalidades o categoras. La escala nominal es el tipo de escala ms sencillo.
Con ella se logra una notacin abreviada, por lo que su uso se ha incrementado con la
aparicin de la computadora.
1.7. Ejemplo.

Consideremos la poblacin formada por todos los estudiantes de la universidad AA y en


sta, la variable sexo. Asignemos a los de sexo masculino el nmero 1 y a los de sexo
femenino, el nmero 0. Se tiene as una escala nominal con las modalidades o

Carlos Vliz Capuay

Estad st ica Descrip tiva . 7

categoras: "masculino" y "femenino". Los elementos que forman la poblacin han


quedado agrupados en dos clases: los de sexo masculino y los de sexo femenino.
Es cierto que 1 es mayor que 0, pero no se puede decir lo mismo respecto de las
personas de sexo masculino y femenino. A lo ms se puede decir que la persona a la que
se asign el nmero 1 es diferente de la persona que se le asign el nmero 0.
Tambin se tiene una escala nominal si a los estudiantes de Ciencias se les asigna el
valor 1, a los de Derecho, el valor 2, a los de Sicologa, el valor 3, etc.
Tampoco se puede decir que un estudiante de Sicologa es igual a un estudiante de
Ciencias ms un estudiante de Derecho, an cuando 3 = 1+2.
El nmero de modalidades de una variable, cuyos valores corresponden a una escala
nominal, depende de la informacin disponible. Por ejemplo, la variable "estado civil"
definida en una poblacin formada por miembros de una comunidad puede tener:
- dos modalidades: casado y soltero;
- tres modalidades: casado, soltero, viudo o divorciado;
- cuatro modalidades: casado, soltero, viudo o divorciado, no declara.

Escala ordinal.
Se tiene una escala ordinal, cuando el orden de los nmeros asignados a las unidades
estadsticas refleja diferentes grados de la propiedad o atributo en estudio. De modo que
si la cifra asignada al elemento w es mayor que la asignada al elemento u, se puede
inferir que w posee un mayor grado que u en la propiedad que se estudia. Los nmeros
asignados, segn la escala ordinal, slo tienen sentido en cuanto a orden se refiere. La
diferencia entre los nmeros asignados no necesariamente tiene significado. As, el
ordenamiento en categoras de los vendedores de una tienda, asignndoles el 1, al que
logr las ventas ms altas, el 2 al que logr ventas intermedias y el 3 al que logr las
ventas ms bajas, no indica que la diferencia en ventas entre los vendedores de ventas
bajas y los de ventas intermedias es igual a la diferencia en ventas entre los vendedores
de ventas intermedias y los de vendedores de ventas altas, an cuando 3 - 2 = 2 - 1.
1.8. Ejemplo.

Si al considerar la poblacin formada por los alumnos del curso de Geografa se asigna a
cada uno el orden de mrito, segn las calificaciones que obtuvieron, se tendr una
escala ordinal. Si a un alumno se le asign el nmero 5 y a otro se le asign el nmero 8,
se puede decir que el primer alumno est en mejor posicin que el segundo pero no
podemos decir nada respecto a la diferencia 8 - 5 = 3.

8. Estadstica Descriptiva.

Carlos Vliz Capuay

1.9. Ejemplo.

Si se considera la poblacin formada por todos los minerales que se producen en cierta
regin y a cada uno de stos le asignamos un nmero, de acuerdo al "grado de dureza"
que poseen, la escala asignada es ordinal.
Si al mineral a le asignamos el valor 2; al mineral b, el valor 4; al mineral c, el valor 10
y al mineral d, el valor 12; se puede decir que el mineral a es menos "duro" que el
mineral b; que el mineral d es ms "duro" que el mineral c; sin embargo, si al asignar las
medidas slo se tuvo en cuenta el orden de los valores, no se puede decir que la
diferencia del grado de dureza que existe entre a y b es igual, a la diferencia del grado
de dureza que hay entre c y d. La diferencia que existe entre los nmeros asignados no
necesariamente tiene significacin en esta escala.

Escala intervalar.
Se tiene una escala intervalar, cuando los valores asignados a las unidades estadsticas
no slo permiten que stas puedan ser ordenadas, sino que adems, las diferencias
iguales entre stos indican diferencias iguales en las cuantas de las propiedades a medir.
Como ejemplo de escalas intervalares, tenemos las escalas de Fahrenheit y de Celsius
(centgrada) para medir la temperatura.
Para cada una de estas escalas, por ejemplo la de Celsius, los nmeros ms grandes
significan mayor temperatura; el orden de los nmeros asignados tiene significado, pero
tambin tienen significado expresiones como la temperatura de hoy es 50 C ms alta
que la de ayer. La diferencia entre las temperaturas tiene sentido.
PROPIEDAD.

Una propiedad importante de este tipo de escalas indica que si para medir el mismo
atributo en tres elementos w1 , w2 , w3 se usan, respectivamente, los nmeros x1 , x 2 , x 3

en la escala intervalar E1 y los valores y1 , y 2 , y 3 en una segunda escala intervalar E2,


x x
y y
entonces el cociente 1 3 es igual al cociente 1 3 .
x1 x2

y1 y2

Se conoce, por ejemplo que


El agua se congela a
El agua hierve a
Temperatura de un
cuerpo A.

Grados centgrados
0
100

Grados Fahrenheit
32
212

41

Carlos Vliz Capuay

Estadstica Descriptiva. 9

Observando los valores de la escala centgrada, se tiene que la razn de diferencias,


100 0
= 20 , es igual a la que se observa en los valores correspondientes de la escala
5 0
212 32
Fahrenheit,
= 20 .
41 32

En general, la propiedad anterior, referente a la igualdad de la proporcionalidad de las


diferencias de dos escalas diferentes, de manera equivalente, puede enunciarse de la
siguiente manera:
Si x e y son dos valores asignados al mismo elemento para medir la misma cualidad,
segn dos escalas de intervalo diferentes, entonces entre estos valores se cumple la
relacin lineal y = a + bx
E scala II
y

y = a + bx

S e o b serv a q ue
y y2
x x2
=
y 2 y1
x 2 x1

y2
y1
E sca la I

x1 x2

x
Figura 1.1

As por ejemplo, entre los valores x, en grados centgrados, y los valores y, en grados
Fahrenheit, se cumple:
y = 32 + (9 / 5) x .

En estas escalas, el 0 no indica ausencia de temperatura, no tiene significado. As, bajo


ciertas condiciones, el agua se congela a 00 C y a los 320 Fahrenheit.
La eleccin arbitraria del origen asignado en las escalas indicadas, tampoco permite
decir, por ejemplo, que 300 es dos veces ms caliente que 150.
1.10. Ejemplo.

Al asignarle a cada individuo de una poblacin su edad, estamos considerando una


escala intervalar. Si Jos, Tito, Mara y Juan tienen las edades: 2, 4, 10 y 12,
respectivamente, se podr decir que Jos es menor que Tito, etc., pero adems se podr
indicar que la diferencia entre el tiempo vivido entre Jos y Tito es igual a la que existe
entre el tiempo vivido por Mara y Juan. Podemos decir que la distancia entre Jos y
Tito es igual a la que existe entre Mara y Juan.
1.11. Ejemplo.

La estatura de una persona corresponde a una escala intervalar.

10. Estadstica Descriptiva.

Carlos Vliz Capuay

Muchas veces, en el estudio del comportamiento humano se realizan diversas


mediciones que no corresponden exactamente a escalas intervalares; sin embargo, suelen
usarse como si lo fueran. Tal es el caso, por ejemplo, de mediciones de la inteligencia,
del rendimiento de una persona en Matemticas, etc. Esto permite aplicar una serie de
mtodos de la Estadstica que se aplican para escalas intervalares.
Se puede decir que la escala intervalar es una escala cuantitativa y con ella pueden
aplicarse muchos de los procedimientos estadsticos conocidos.
Ntese que si para los valores 100 y 5 en la escala centgrada se realiza el cociente
100/5, el resultado es diferente al que se obtiene al realizar el cociente entre los valores
correspondientes en la escala Farenheit, 212 y 41. En general, la razn entre los valores
para las dos escalas de temperatura no es constante. Sin embargo, esta propiedad se
cumple para las escalas de razn, que a continuacin se estudian.

Escala de razn.
La escala de razn o cociente, es una escala intervalar en donde los cocientes o razones
de los nmeros asignados reflejan los cocientes o razones en las cuantas de las
propiedades que se miden. Para este tipo de escalas, adems del cociente entre los
nmeros asignados, tienen sentido el orden y las diferencias que entre ellos se puedan
establecer. Es decir toda escala de razn es intervalar y ordinal.
As, una persona que gana $1200 tiene mayor poder adquisitivo que otra que gana
$400. El orden en esta escala tiene sentido. Tambin se puede indicar la cantidad que
gana ms el primero que el segundo. La diferencia entre los nmeros asignados tiene
sentido. Adems los cocientes de los valores indicados tienen significacin; tiene
sentido, por ejemplo, la expresin el primero gana tres veces ms que el segundo.
PROPIEDAD.

Si x e y son dos valores asignados a un mismo elemento para medir la misma cualidad,
segn dos escalas de razn diferentes, entonces entre estos valores se cumple la
relacin y = bx.
E scala II
y1

y = bx .

y
E scala I

x1
Figura 1.2

Se ob serv a qu e
y1
y
=
x1
x

Carlos Vliz Capuay

Estadstica Descriptiva. 11

Segn esta relacin, el 0 tiene el mismo significado para cualquier escala de razn.
Indica ausencia de la propiedad en estudio.
Si el salario de una persona se expresa en dlares (x) o en soles (y), entonces se cumple
la relacin y = 2.5x, si se supone que un dlar equivale a 2.5 soles. La constante 2.5
corresponde a lo que se denomina tipo de cambio.
El cociente entre los salarios de dos personas expresados en dlares es igual al cociente
de los mismos expresados en soles. Si dos personas ganan 200 y 300 dlares,
respectivamente, entonces la razn entre los salarios, 300/200, es igual a la razn entre
los salarios expresados en soles, 750/500.

1.4. CLASIFICACION DE LAS VARIABLES.


De acuerdo a la escala usada, las variables pueden ser: cualitativas o categricas y
cuantitativas.
Variables cualitativas o categricas.

Si para un variable, la asignacin de valores slo tiene sentido cuando se usa una escala
nominal u ordinal, sta se llama variable cualitativa o categrica; as por ejemplo, el
lugar de procedencia de un conjunto de personas, "el color" de los autos producidos
por una fbrica, corresponden a variables cualitativas.
Variables cuantitativas.

Una variable se llama cuantitativa o tambin estadstica si tiene sentido para las escalas
intervalar o de razn. Por ejemplo, la variable que a cada persona le hace corresponder
su salario es una variable cuantitativa.
La variable que a cada uno de los aparatos electrnicos producidos por una fbrica le
asigna su tiempo de vida es una variable cuantitativa.
De acuerdo al conjunto de valores de la variable, stas se clasifican en: discretas y
continuas.
Variables discretas

Una variable es discreta, si el conjunto de valores que puede tomar es finito o infinito
enumerable. (Un conjunto es "infinito enumerable" si sus elementos se pueden contar).
1.12. Ejemplo.

La variable X, definida en la poblacin formada por los trabajadores de la industria


automotriz y que indica "el nmero de hijos, es una variable discreta. Los valores que
puede tomar esta variable slo pueden ser los del conjunto discreto {0, 1, 2, 3, 4, ... , n}.

12. Estadstica Descriptiva.

Carlos Vliz Capuay

Una variable discreta cuyo conjunto de valores est formado por dos elementos, se llama
binaria o dicotmica.

Variables continuas.

Una variable es continua, si sus valores pueden ser cualesquiera de los elementos de un
intervalo o de la reunin de intervalos.
1.13. Ejemplo.

La variable que indica el tiempo de vida de los aparatos electrnicos es una variable
continua, la variable que indica la estatura de cada habitante de un pas es una variable
continua. Los valores que pueden tomar estas variables son no negativos. Para efectos de
mejor estudio de estas variables, se considera que el intervalo en donde pueden variar
los valores es [ 0,+[ .

Muchas variables estadsticas que tericamente son continuas, en la prctica se expresan


como variables discretas. Por ejemplo, la estatura de una persona es una variable
cuantitativa continua pero por la limitacin de los instrumentos de medicin tal vez
podamos expresarla, a lo ms, en centsimas de milmetro.
Por otro lado, una variable cuantitativa discreta o continua, en la prctica, tambin
puede ser considerada como una variable cualitativa. Por ejemplo, si la edad de una
persona se clasifica en: menos de 20 aos, entre 20 y menos de 60 aos y ms de 60
aos, se tendr que esta variable puede tratarse como cualitativa con las modalidades
correspondientes a: joven, adulto y anciano, respectivamente.
Las variables, de acuerdo al papel que cumplen en una investigacin, pueden clasificarse
en independientes, dependientes y de control.
Variables independientes.

Una variable es independiente, (con relacin a otra u otras) si sus valores influyen en
otra u otras variables.
Variables dependientes.

Una variable es dependiente si sus valores dependen de los valores que tiene una
variable independiente.
Las variables independientes y dependientes tambin se llaman explicativas y
explicadas, respectivamente.
As, para ver como influye una droga A en el tratamiento de una enfermedad, el
investigador aplica diferentes dosis al enfermo para observar si ste mejora o no. La
variable cuyos valores son las distintas dosis de droga suministrada es una variable

Carlos Vliz Capuay

Estadstica Descriptiva. 13

independiente, mientras que la variable que indica el grado de mejora del enfermo es
una variable dependiente. En este caso, los valores de la variable independiente pueden
ser manejados por el experimentador; otras veces esto no es posible, pues los valores de
la variable independiente son intrnsecas al individuo al cual se aplica. As sucede
cuando se considera la variable independiente aos de estudio y la variable
dependiente sueldo.
Variables de control.

Las variables de control ayudan a comprender la relacin entre una variable


independiente y una dependiente.
Algunas veces se puede observar que los valores de una variable aumentan (disminuyen)
cuando los valores de otra tambin aumentan (disminuyen); sin embargo, no es
suficiente para indicar que la caracterstica que mide una es la causa de la caracterstica
que mide la otra variable. En una encuesta se determin que la altura de una persona y
sus ingresos estaban relacionados: la gente ms alta ganaba ms; sin embargo, esto no
fue suficiente como para indicar que la relacin era causal. No se necesitaba ser alto
para tener mejor remuneracin, pues un estudio posterior, en donde se introdujo la
variable sexo, indic que los hombres eran ms altos que las mujeres y que los sueldos
de stas, a pesar de la igualdad de condiciones de trabajo, eran ms bajos que el de los
hombres. De este modo se determin que las variables estatura y sueldo estaban
relacionadas por su relacin con la variable sexo. Exista tan slo una relacin espuria,
de tipo prctico (relacin estadstica) pero no una relacin de causa - efecto (relacin
causal).
Las variables de control tambin se usan para entender una relacin causal, cuya
existencia no se discute. As, para explicar por qu el grado de instruccin influye en la
posicin poltica de los electores de un pas, se puede usar la variable de control
ingreso, pues se piensa que las personas con mayores estudios ganan ms dinero, y el
hecho de ser ms o menos rico determina el comportamiento poltico de los electores de
un pas.

1.5. CLASIFICACION DE LA INFORMACION: Codificacin


y tabulacin .
Muchas veces los nmeros que se asignan a los elementos de una poblacin se obtienen
directamente, como por ejemplo cuando se recopila la edad de los pobladores de una
regin. Otras veces, la asignacin de nmeros se realiza a partir de las posibles
respuestas que se obtienen al realizar el trabajo de observacin; as por ejemplo, cuando
se trata de obtener informacin sobre la opinin que un grupo de personas tiene acerca
de una determinada ley, se escribe 0, si el poblador est de acuerdo; 1, si no est de

14. Estadstica Descriptiva.

Carlos Vliz Capuay

acuerdo y 2 si no sabe o no opina. La codificacin de las respuestas da lugar a categoras


o modalidades.
La codificacin facilita la tabulacin y el conteo y debe ser cuidadosamente realizada,
pues de ella depende la obtencin de una buena informacin. Determinadas sugerencias
se hacen para obtener una buena codificacin sobre todo cuando la recogida se hace
sobre la base de cuestionarios.
Si el cuestionario comprende preguntas abiertas, (preguntas cuya respuesta es libre de
parte de la persona que responde) stas deben ser previamente clasificadas en
categoras. Asignando de manera biunvoca un nmero a cada categora se tendr un
cdigo para cada respuesta.
Por ejemplo, ante la pregunta cul cree usted que pueden ser las consecuencias de una
guerra para el pas?, las respuestas pueden ser:
- Desastre econmico.
- Retiro de capitales.
- Prdida de muchas vidas.
- Desastre ecolgico.
- Me abstengo de contestar.

- No inversin de capitales.
- Retraso de la cultura.
- Emigracin de la poblacin.
- No s.

La categorizacin puede ser:


Para Deterioro econmico (comprende las respuestas de tipo econmico), el 1.
Para Deterioro humano (comprende las respuestas que tienen que ver con la vida y la
cultura), el 2.
Para No hay respuesta (comprende las respuestas: No s y me abstengo de contestar),
el 3.
Para otros (comprende cualquier otro tipo de respuesta), el 4.
De este modo, el cdigo que le corresponde a la respuesta retiro de capitales es 1; a
retraso de la cultura le corresponde el cdigo 2, etc.
Para formar categoras se recomienda:
El anlisis previo del objetivo de la investigacin que se realiza. As por ejemplo,
si con la pregunta anterior deseamos conocer la proporcin de personas que creen

Carlos Vliz Capuay

Estadstica Descriptiva. 15

que la consecuencia de la guerra tienen que ver con la economa, bastar con formar
slo las tres categoras siguientes:
1. Deterioro econmico. 2. Otras consecuencias y 3. No sabe, no contesta.

Estudios previos de la muestra de algunos cuestionarios. Estos nos darn las pautas
de las posibles respuestas y por lo tanto de las categoras que debemos formar.
Algunas veces se realizan investigaciones pilotos antes de realizar toda
investigacin.

Que las categoras contemplen todas las respuestas posibles. Existirn categoras
principales, para las respuestas relevantes y categoras de tipo general que
comprendan a las respuestas que no caen en las categoras principales.

Que las categoras no se traslapen. Cada respuesta debe pertenecer a una nica
categora.

Que las categoras sean descritas de manera clara, tratando que sean lo ms
detalladas posibles y tiles en la investigacin que se realiza.

Que las categoras de tipo general no comprendan una gran cantidad de


respuestas. Se sugiere que cada categora comprenda alrededor del 5% de todas las
preguntas.

Cuando las preguntas son cerradas; esto es, cuando las respuestas posibles son
especificadas de antemano, cada categora se identifica con cada una de las respuestas
posibles.
As por ejemplo, si la pregunta es cul es su regin de procedencia? y las posibles
respuestas son: 1. Costa, 2. Sierra y 3. Selva, se tendrn los siguientes cdigos y
categoras:
Cdigo

Categora

Costa

Sierra

Selva

Como se ha indicado, las categoras que deben tomarse dependen de la investigacin


que se desee realizar. Por ejemplo, ante la pregunta cul es su edad en aos?, se puede
usar tantas categoras como posibles respuestas existan o usar como categoras las
siguientes:

16. Estadstica Descriptiva.

Carlos Vliz Capuay

Cdigo

Categora

de 0 a 13 aos

de 14 a 18 aos

de 19 a ms aos

Esta codificacin no ser til si, por ejemplo, el objetivo es determinar la edad promedio
de los habitantes; sin embargo, sta si ser de utilidad si el deseo es, por ejemplo,
analizar la relacin que exista entre la edad y otra variable cualitativa.

1.6. PRESENTACION DE LA INFORMACION


Tablas de distribucin de frecuencias.
Algunas veces la informacin requerida puede obtenerse directamente de los datos sin
haber sido previamente tratados; muchas veces; sin embargo, es necesario agrupar los
datos y presentarlos en tablas y diagramas sencillos. Precisamente, las tablas de
distribucin de frecuencias son cuadros que indican la distribucin de un conjunto de
datos en clases o categoras, y en donde se muestra el nmero de elementos y la
proporcin que en cada una de ellas existe. Una tabla de frecuencias describe la manera
como estn distribuidos o como varan los valores de una variable, permitiendo una
buena ayuda para formularse interrogantes acerca de los datos y un punto de partida en
la bsqueda de un modelo terico para analizar tal distribucin.
Los "paquetes computacionales estadsticos" disponibles en la actualidad son
innumerables y muchos de ellos, aparte de realizar una serie de anlisis, tienen
excelentes presentaciones de grficas y cuadros. Entre los paquetes estadsticos estn: el
SPSS, el STATGRAPHICS, el SAS, el BMDP, el STATPAC, el SYSTAT, etc.
Tambin existen otros tipos de "software", tales como el QUATRO, el EXCEL, etc., que
sin ser de tipo estadstico, permiten la construccin de tablas y grficos de frecuencias.
En secciones anteriores se utilizaron algunas tablas de distribucin de frecuencia. En lo
que sigue se presentan de manera sistemtica otros ejemplos.

Caso cualitativo.
1.14. Ejemplo.

Se considera la poblacin formada por 50 personas y en sta, la variable cualitativa


sexo. Si existen 30 varones y 20 mujeres, se puede escribir la siguiente tabla de
frecuencias.

Carlos Vliz Capuay

Estadstica Descriptiva. 17

Modalidad

Frecuencia

Frec. relativa

Frec. relativa
en porcentaje

Varn

30

30/50 = 0.60

60

Mujer

20

20/50 = 0.40

40

Total

50

1.00

100

En la tabla, la "frecuencia" indica las veces que se repite cada modalidad. La


"frecuencia relativa" de cada modalidad es igual a la frecuencia de la modalidad entre el
total de observaciones. La frecuencia relativa puede expresarse en "porcentaje", tal
como se indica en la ltima columna. La frecuencia relativa es til para hacer
comparaciones entre dos poblaciones diferentes. Por ejemplo, cuando se desea comparar
la distribucin de la variable sexo en la comunidad A y en la comunidad B.
En forma general, una tabla de frecuencias correspondiente a una variable cualitativa C
con modalidades o categoras C1, ... , Ck, es de la forma siguiente y en donde
ni indica la frecuencia o las veces que se repite la modalidad Ci ,
T es el total de datos y
fi = ni/T es la frecuencia relativa de tal modalidad.
DISTRIBUCION DE FRECUENCIAS DE ACUERDO A LA VARIABLE C.
Modalidad de
la variable

ni

fi = ni/T

(ni/T)100%

C1

n1

n1/T

(n1/T)100

...

...

...

...

Ci

ni

ni/T

(ni/T)100

...

...

...

...

Ck

nk

nk/T

(nk/T)100

Total

100

Las frecuencias relativas pueden expresarse en porcentajes y el orden elegido para las
modalidades es arbitrario.
1.15. Ejemplo.

En una entidad estatal existen 18 abogados, 32 ingenieros, 45 topgrafos, 20 obreros y


15 secretarias. La distribucin de los empleados de acuerdo a la variable "ocupacin"
aparece en la siguiente tabla, en donde 1 corresponde a abogado, 2, corresponde a
ingeniero, etc.

18. Estadstica Descriptiva.

Carlos Vliz Capuay

Las frecuencias que se indican en las columnas de la tabla pueden representarse con
barras rectangulares o mediante sectores circulares.
Ocupacin.

ni

ni/T

(ni/T)100

(1): Abogados
(2): Ingenieros
(3): Topgrafos
(4): Obreros
(5): Secretarias

18
32
45
20
15

0.1385
0.2461
0.3462
0.1538
0.1154

13.85
24.61
34.62
15.38
11.54

1.0000

100.00

TOTAL

T = 130

Se representa por ejemplo, las frecuencias ni utilizando barras rectangulares (figura 1.3.
a) y luego mediante sectores circulares (figura 1.3. b).
En el grfico de barras, cada barra rectangular corresponde a una modalidad, tiene base
constante y su altura puede ser medida en unidades de frecuencia o de frecuencia
relativa. En la grfica, para la modalidad "abogado" se tiene una barra vertical de altura
igual a 18.
En los "sectores circulares", cada sector corresponde a una modalidad y su
correspondiente ngulo en el centro es i = 360oni/T, en donde ni es la frecuencia en la
modalidad. A la modalidad "abogado", por ejemplo, le corresponde un sector circular
cuyo ngulo en el centro es igual a (360)(18)/130 = 49.84o.

50
40

OBRE

SECR

30

ABOG

20

TOPO
INGE

10
0
ABOG

INGE

TOPO

OBRE

SECR

(a)

(b)
Figura 1.3

1.16. Ejemplo.

En la industria, para mejorar la calidad de un proceso, lo primero que generalmente se


hace es reunir datos sobre la frecuencia de cada tipo de fallas. As por ejemplo, en la
fabricacin de cierto tipo de piezas metlicas se detectaron las siguientes causas de
fallas.

Carlos Vliz Capuay

Estadstica Descriptiva. 19

Causas de fallas
Herramienta gastada
Errores de operacin
Mal diseo
Mala calidad del material

Frecuencias
12
7
3
5.

La representacin grfica se hace mediante un diagrama de barras como el que sigue.


12
7
5

1: Herram. gastada
2: Errores operacio.
3: Mal diseo
4: Mala calidad

Figura 1.4. Diagrama de fallas.

Caso cuantitativo discreto.


1.17. Ejemplo.

En una poblacin formada por 100 lotes de 50 artculos cada uno, se consider la
variable cuantitativa discreta X = "nmero de artculos defectuosos en cada lote". Los
resultados fueron:
15423453542456452532463451632543635725427465283
36424348153737241353846545454526343523431454474
6 2 6 2 4 5.
La informacin puede organizarse como en la siguiente tabla
DISTRIBUCION DE 100 LOTES DE ACUERDO
AL NUMERO DE ARTICULOS DEFECTUOSOS.
xi

1
2
3
4
5
6
7
8
Total

Computo

|||||
|||||
|||||
|||||
|||||
|||||
|||||
|||

|||||
|||||
|||||
|||||
|||||

||||
||||| |||
||||| ||||| |||||
||||| |||||

ni

fi=ni/T

Ni

Fi

5
14
18
25
20
10
5
3

0.05
0.14
0.18
0.25
0.20
0.10
0.05
0.03

5
19
37
62
82
92
97
100

0.05
0.19
0.37
0.62
0.82
0.92
0.97
1.00

T = 100

20. Estadstica Descriptiva.

Carlos Vliz Capuay

en donde,
xi , corresponde a los distintos valores que puede tomar la variable,
ni , indica la frecuencia con que se repite xi (ej. la frecuencia para 3 es 18),
fi = ni/T , es la frecuencia relativa respecto del nmero total, T, de los datos. (ej. la
frecuencia relativa para 3 es 0.18). Se presenta tambin en porcentajes (multiplicando
cada valor por 100),
Ni , es la frecuencia acumulada. Es igual a la suma de las frecuencias de los valores
que son menores o iguales a xi, (ej. la frecuencia acumulada para 3 es 5 + 14 + 18 =
37),
Fi , es la frecuencia acumulada relativa. Es igual a la suma de las frecuencias
relativas de los valores que son menores o iguales a xi (ej. la frecuencia acumulada
relativa para 3 es 0.05 + 0.14 + 0.18 = 0.37).

En la tabla se ha incluido una columna de "cmputo". Las marcas facilitan el conteo.


En la tabla se observa que los datos varan entre 1 y 8 y que la mayora de los valores
estn entre 3 y 5.
La representacin grfica de las frecuencias relativas fi, , por ejemplo, puede hacerse en
un sistema de ejes coordenados cartesianos (figura 1.5), colocando en el eje de las X los
distintos valores xi de la variable y en el eje de las Y, las frecuencias relativas.
Se obtienen as grficos llamados de bastones. Para el ejemplo anterior la frecuencia
relativa tiene la siguiente representacin. Uniendo los puntos superiores de los
bastones se tiene el polgono de frecuencias (en este caso relativas).
f

- 0.25

1 2 3

4 5 6

7 8

Figura 1.5. Grfico de bastones.

Cada una de las siguientes figuras puede usarse para representar a la frecuencia
acumulada relativa, Fi .

Carlos Vliz Capuay

Estadstica Descriptiva. 21

Fi

Fi

0.92

0.92

0.62

0.62

0.05

0.05
1

Figura 1.6 Grficas de la frecuencia acumulada relativa

Los grficos indican el punto de partida en la bsqueda del mejor modelo


que servir al estadstico para estudiar la variabilidad de los resultados.

Caso cuantitativo continuo.


Para organizar datos de variables estadsticas continuas se procede como en el siguiente
ejemplo.
1.18. Ejemplo.

Se desea estudiar la distribucin de 36 nios de acuerdo a su peso en kilos. Los datos


fueron como sigue:
34.51 40.00 31.60 35.40 30.00 32.91 33.29 33.15 35.61 33.00 36.20 37.10
35.47 33.20 35.93 36.57 38.24 34.55 36.23 36.88 30.16 36.00 36.80 37.85
36.96 31.54 31.57 33.80 34.50 34.60 33.98 34.90 34.00 36.70 38.20 38.10
La variable en estudio es X = peso. Esta variable es continua.
Si se sigue un procedimiento como el que se us en el caso discreto, podra tenerse una
tabla de hasta 36 lneas (una lnea por cada valor diferente de la variable). Esto no es
conveniente, por lo que se desarrolla el siguiente procedimiento.
Los valores indicados se encuentran comprendidos entre 30 y 40 y pueden ser
clasificados en "clases". Estas se obtienen dividiendo el intervalo I = [30, 40] en
subintervalos de longitud igual, para simplificar.
Si se acuerda dividir el intervalo I en k = 8 subintervalos de igual longitud, se tendr que
cada subintervalo obtenido mide
x
x min 40 30
h = max
=
= 1.25.
k
8
en donde:
xmax = dato mayor, xmin = dato menor y k = nmero de subintervalos.
Al valor xmax - xmin se le llama recorrido o rango de la variable.

22. Estadstica Descriptiva.

Carlos Vliz Capuay

Los subintervalos pueden ser de longitudes diferentes, para mayor facilidad se usan de
longitudes iguales.
Los subintervalos obtenidos se toman, por convencin, cerrados por la izquierda y
abiertos por la derecha, a excepcin del ltimo, que es cerrado en ambos extremos. Los
intervalos que as se forman se llaman intervalos de clase.
I1 = [30.00, 31.25[
I3 = [32.50, 33.75[
I5 = [35.00, 36.25[
I7 = [37.50, 38.75[

30

31.25

32.50

33.75

I2 = [31.25, 32.50[
I4 = [33.75, 35.00[
I6 = [36.25, 37.50[
I8 = [38.75, 40.00]

35.00

36.25

37.50

38.75

40

Figura 1.7

NOTA.

Si la longitud de cada intervalo de clase no es exacta, se aproximar por exceso; de este


modo la reunin de los intervalos de clase cubrir a todos los datos considerados. Los
datos ahora pueden presentarse como en la siguiente tabla.
DISTRIBUCION DE LOS 100 VALORES DE
LA VARIABLE PESO.
Intervalos

xi

ni

fi

Ni

Fi

I1
I2

30.6250

0.0555

0.0555

31.8750

0.0833

0.1388

I3
I4

33.1250

0.1388

10

0.2776

34.3750

0.2222

18

0.4998

I5
I6

35.6250

0.1944

25

0.6942

36.8750

0.1666

31

0.8608

I7
I8

38.1250

0.1111

35

0.9719

39.3750

0.0277

36

En la tercera columna de la tabla se indica la frecuencia o nmero de datos que existen


en cada intervalo de clase. As, en el intervalo de clase I3 hay 5 datos.
En la segunda columna aparecen las marcas de clase que son los puntos medios de cada
intervalo de clase. Se puede considerar que cada uno de estos valores es un representante
de los datos que caen en el respectivo intervalo de clase. En este sentido, se puede decir
que 33.1250 se repite 5 veces, el valor 34.3750 se repite 8 veces, etc. De ello se deduce
la importancia que tiene el escoger un nmero conveniente de intervalos de clase; si se
eligen pocos, la longitud de cada intervalo de clase es grande y las marcas

Carlos Vliz Capuay

Estadstica Descriptiva. 23

de clase no son buenas representaciones de los valores que estn en l; si se eligen


muchos, la longitud de cada uno de ellos es pequea, se logra as una mejor
representacin pero la organizacin de los datos requiere de mayor trabajo.
Los estudiosos de estos mtodos han indicado diferentes reglas para determinar el
nmero de intervalos de clase. As, una de stas dice que cuando el nmero de datos, T,
es una potencia de 2 lo recomendable es tomar [1+3.3log10T] como nmero mximo de
intervalos; esta regla se llama "de Sturges". Otra regla prctica para determinar el
nmero de intervalos de clase aparece a continuacin:
Nmero de observaciones

Nmero de intervalos de clase

Menor que 25
Entre 25 y 50
Mayor que 50

5 o 6.
de 7 a 14.
de 15 a 20.

La cuarta columna de la tabla, indicada con f i , corresponde a la frecuencia relativa, e


indica la proporcin de datos en cada intervalo. En la quinta columna aparece la
frecuencia acumulada y la sexta columna, corresponde a la frecuencia acumulada
relativa.
El valor de la frecuencia acumulada, N i , en un intervalo de clase dado, se interpreta como el nmero de datos acumulados hasta ese intervalo, mientras que el valor de la
frecuencia acumulada relativa, Fi , indica la proporcin de datos acumulados hasta el
intervalo respectivo.
Una tabla as construida resalta las caractersticas importantes de los datos, an cuando
al formarla se pierde cierta informacin.
Tabulados los datos es ms fcil observar las caractersticas de variabilidad. En el
ejemplo, los datos varan entre 30 y 40. La mayor parte de los datos estn entre 33.75 y
37.50.
OBSERVACION.

Si n es la frecuencia en el intervalo de clase [a, b[ y se considera que los datos se


distribuyen de manera uniforme en ese intervalo, entonces podemos considerar, por
ejemplo, que en el intervalo [a, c] contenido en [a, b], existen aproximadamente

n' =

ca
n
ba

datos

24. Estadstica Descriptiva.

Carlos Vliz Capuay

n
n
a

c
Figura 1.8.

En efecto, usando la semejanza de tringulos se tiene que

n
n
=
, de donde resulta
ba ca

lo antes indicado.
En particular, si c es la marca de clase del intervalo, en [a, c[ hay n' = (1 / 2 ) n .
El resultado anterior se extiende para el caso de las frecuencias relativas De este modo si
la frecuencia relativa en [a, b[ es f, entonces la frecuencia relativa en [a, c[ es f' = [(c a)/(b - a)]f.
1.19. Ejemplo.

La distribucin de frecuencias de 80 alumnos, de acuerdo a sus notas de Historia es

[10, 12[
[12, 14[
[14, 16[
[16, 18]

ni

fi

Ni

12
30
28
10

0.150
0.375
0.350
0.125

12
42
70
80

Fi
0.150
0.525
0.875
1.000

Si se desea asignar el calificativo "excelente" al 5% de los estudiantes, cul es el valor


aproximado de la nota A que se debe considerar como mnima para tener tal calificativo?.
Solucin.
En la tabla se lee que el 87.5% de estudiantes tienen nota inferior a 16. La nota A
buscada est en el intervalo [16, 18[.

El 5% de los estudiantes debe tener notas comprendidas entre los valores A y 18.
Luego,

18 16 18 A
=
0.125
0.05

Despejando, resulta que la nota a considerar, por encima de la cual existe el 5%, es A =
17.2
1.20. Ejemplo.

Las notas de N estudiantes estn distribuidas tal como se indica en la siguiente tabla.

Carlos Vliz Capuay

Estadstica Descriptiva. 25

Notas
[8, 11[

fi
f1

[11, 14[

f2

[14, 17[

f3

[17, 20]

f4

Calcular las frecuencias relativas si el 40% de los estudiantes tienen notas menores que
12.5, el 80% tienen notas menores que 15.5 y el 85% tienen notas menores o iguales a
16.
Solucin.
Se tiene que
f1 + f 2 + f 3 + f 4 = 1

f 1 + 0.5 f 2 = 0.4 (la proporcin de datos en [11, 12.5[ es 0.5 f 2 )


. [ es 0.5 f 3 )
f 1 + f 2 + 0.5 f 3 = 0.80 (la proporcin de datos en [14, 155
f 1 + f 2 + ( 2 / 3) f 3 = 0.85 (la proporcin de datos en [14,16[ es (2 / 3) f 3 )
Resolviendo las ecuaciones, se tiene: f1 = 0.15, f2 = 0.5, f3 = 0.30 y f4 = 0.05.

HISTOGRAMAS
Como en el caso discreto, las frecuencias de los conjuntos de datos que corresponden a
variables continuas se representan grficamente con la finalidad de obtener patrones que
indiquen la variabilidad o distribucin de los mismos. A menudo se usan curvas cuyas
formas se obtienen a partir de los grficos llamados histogramas.
Los histogramas se obtienen al yuxtaponer bandas rectangulares. Cada banda
corresponde a cada intervalo de clase Ii. La base es el intervalo y la altura puede tomarse
proporcional a la frecuencia que se desea representar. As, para representar la frecuencia
relativa, f i , cada altura puede tomarse igual a fi/li, en donde li es la longitud del
intervalo de clase correspondiente. De este modo se tiene que la suma de las reas de las
bandas es igual a 1 y el histograma es un histograma de frecuencias relativas.
p olgon o de
d e frecuencias

f i / li

l
30

40
i

i
I

Figura 1.9. Histograma correspondiente al ejemplo 1.17

26. Estadstica Descriptiva.

Carlos Vliz Capuay

OBSERVACION.

A menudo se usa como altura de cada banda rectangular al lado de longitud fi, sobre todo
si todos los intervalos de clase tienen la misma longitud. Cuando los intervalos de clase
son de longitudes diferentes, la altura de cada banda rectangular se toma igual a fi/li.

POLIGONOS DE FRECUENCIA.
Uniendo los puntos medios de los lados superiores de cada banda rectangular del
histograma se obtiene un polgono llamado polgono de frecuencias. (Figura 1.9)
El polgono de frecuencias, como en el caso discreto, ayuda en la bsqueda de la curva o
modelo terico que mejor describe la variabilidad o distribucin de los elementos de la
poblacin de acuerdo a la variable en estudio. A continuacin se presentan de manera
"suavizada" diversas formas de polgonos de frecuencias.
El grfico que aparece en (a) indica que el grupo de datos se acumula a la izquierda; que
hay pocos datos con valores altos. Se dice que este tipo de polgono es sesgado con cola
a la derecha. De manera anloga, se puede decir que el grfico que aparece en (b) es
sesgado con cola a la izquierda.
El grfico que aparece en (c) corresponde a un histograma simtrico, indica que los
datos estn distribuidos de manera simtrica, que stos estn acumulados en su mayora
en la parte central mientras que a la izquierda y a la derecha del centro hay pocos. Las
distribuciones con este tipo de grficos son muy comunes y a menudo se llaman
distribuciones normales; sin embargo, para que las distribuciones tengan este
calificativo necesitan ciertas condiciones adicionales, que estudiaremos posteriormente.
La grfica (d) corresponde a una distribucin bimodal; los datos estn agrupados en dos
sectores de la recta.

(a)

(b)

(c)

(d)

Figura 1.10. Diversas formas de los polgonos suavizados de frecuencias.

1.21. Ejemplo.

En la siguiente tabla se presenta la distribucin de 50 alumnos de un centro de educacin


superior de acuerdo a las calificaciones de una prueba de aptitud. El polgono de
frecuencias absolutas y la curva que las suaviza aparecen a continuacin. Se observa que
es una grfica asimtrica con una cola a la derecha.

Carlos Vliz Capuay

Estadstica Descriptiva. 27

DISTRIBUCION DE 50 ALUMNOS DE ACUERDO A LA VARIABLE "APTITUD"

Puntuaciones
[30, 40[
[40, 50[
[50, 60[
[60, 70[
[70, 80[
[80, 90[
[90, 100[
[100, 110[
[110, 120]

Frec. absoluta

20 -

4
11
7
14
5
5
3
0
1

15 -

Polgono de frecuencias

10 5

30 40 50 60 70 80 90 100 110 120

Figura 1.11. Polgono de frecuencias y su "suavizacin".

Las frecuencias acumulada absoluta y acumulada relativa de un grupo de datos se


representan de manera anloga a las frecuencias absoluta y relativa. En este caso las
bandas yuxtapuestas tienen altura igual al valor de la frecuencia acumulada
correspondiente. (Figura 1.12).
La representacin de un polgono de frecuencias acumuladas, por ejemplo, relativas, se
hace considerando que los datos se distribuyen de manera uniforme en cada uno de los
intervalos de clase, de tal modo que en cada uno de stos la frecuencia acumulada se
puede aproximar con un segmento tal como AB en el intervalo [750, 1000[. Figura 1.13
a). La poligonal que se forma con los segmentos se llama ojiva. En la figura 1.13 b). se
muestra la ojiva suavizada.
Los diagramas de frecuencias acumulada son herramientas que se usan a menudo para
descubrir corrimientos en los datos. As, para comparar la calidad del aire en Enero y
Julio para un grupo de ciudades se puede graficar las frecuencias acumuladas relativas
del nmero de das que tuvieron un ndice de contaminacin mayor que un determinado
valor.
1.22. Ejemplo

La siguiente tabla corresponde a la distribucin de los salarios de 25 obreros. Los


valores que aparecen en la ltima columna corresponden a la frecuencia acumulada
relativa.
DISTRIBUCION DE LOS SALARIOS DE 25 OBREROS.
Intervalos

xi

ni

fi

Fi

[250,500[

375

0.08

0.08

[500,750[

625

0.16

0.24

[750,1000[

875

0.24

0.48

[1000,1250[

1125

0.28

0.76

[1250,1500[

1375

0.12

0.88

[1500,1750]

1625

0.12

1.00

Los histogramas para la frecuencia relativa y acumulada relativa son los siguientes:

28. Estadstica Descriptiva.

Carlos Vliz Capuay

-f

-F

0.76 -

0.28 0.24 -

0.48 -

0.16 0.08

0.24 0.08

250

750
500

1250
1000

1750

250

1500

750
500

1250
1000

1750
1500

Figura 1.12. f: frecuencia relativa y F: frecuencia acumulada relativa.

La ojiva y su suavizacin se presentan a continuacin.


1

-F

0.76 -

F (x)

Ojiva
B

0.48 -

0.24 0.08

F ( x )

250

750
500

1250
1000

1750
1500

(a)

(b )

Figura 1.13. (a) Ojiva. (b) Ojiva suavizada

1.23. Ejemplo.

Completar la siguiente tabla de distribucin de frecuencias si el histograma


correspondiente es simtrico, el 75% de los datos son mayores que 43.5 y los intervalos
de clase son de igual longitud. (Se considera que n = frecuencia y N = frecuencia
acumulada).
n
[a, b]

n1

[b, c[

n1 +5

[c, d[

30

[d, e[
[e, f[
[60, h]

150

Solucin.
Como la distribucin es simtrica, se tiene que las frecuencias en los intervalos [d, e[, [e,
f[ y [60, h] son: 30, n +5 y n , respectivamente.
1

Carlos Vliz Capuay

Estadstica Descriptiva. 29

La frecuencia acumulada en el intervalo [60, h] es 150, luego,


150 = 2n + 2(n + 5) + 2(30).
1

Desarrollando resulta n = 20. A partir de este valor se obtienen las frecuencias


1

respectivas de los otros intervalos: 25, etc.


Obtenidas las frecuencias para cada intervalo se encuentran las frecuencias acumuladas
que faltan: 20, 45, 75, 105, 130.
Para obtener los extremos de los intervalos de clase, obsrvese que si A es la longitud de
cada intervalo, el extremo izquierdo del primer intervalo es 60 - 5A. El histograma de
frecuencias acumuladas para los dos primeros intervalos de clase es como sigue.

17.5

n2 = 25

n1 = 20

60-4A 43.5

60-5A

60-3A

Figura. 1.14

Hasta b se han acumulado 20 datos (menos del 25%). Hasta c se han acumulado 45 datos
(ms del 25%). Luego, el valor 43.5, hasta donde existe el 25% de los datos, estar en el
segundo intervalo.
Por semejanza de tringulos:

43.5 ( 60 4 A)
17.5

A
25

, de donde resulta que A = 5.

Los extremos del primer intervalo son 35 y 40, del segundo, 40 y 45, etc.
1.24. Ejemplo.

La siguiente tabla resume la distribucin porcentual de 500 familias en funcin de su


renta. Como en los casos anteriores, los intervalos de clase incluyen el lmite izquierdo y
excluyen el derecho, a excepcin del ltimo intervalo. El histograma se ha construido de
tal manera que el rea de cada banda rectangular es igual a la frecuencia porcentual
correspondiente. La suma de las reas de todas las bandas rectangulares es igual a 100%.
La altura del rectngulo con base el intervalo [7000, 10000[, por ejemplo, es de 15%/3 =
5% por cada mil dlares.

30. Estadstica Descriptiva.

N iv e l d e in g
[0 , 1 0 0 0 [
[1 0 0 0 , 2 0 0 0 [
[2 0 0 0 , 3 0 0 0 [
[3 0 0 0 , 4 0 0 0 [
[ 4 0 0 0 ,5 0 0 0 [
[ 5 0 0 0 ,6 0 0 0 [
[6 0 0 0 , 7 0 0 0 [
[7 0 0 0 , 1 0 0 0 0 [
[1 0 0 0 0 , 1 5 0 0 0 [
[1 5 0 0 0 , 2 5 0 0 0 [
[2 5 0 0 0 , 5 0 0 0 0 ]

Carlos Vliz Capuay

% p o r m il d la re s

%
1
2
3
4
5
5
5
15
26
26
9

6
5
4
3
2
1
0

25
15
10
R e n ta ( m ile s d e d la r e s)

50

Figura. 1.15

Cuando la variable en estudio es discreta y posee muchos valores, se usan tambin


histogramas. En tal caso, los intervalos de clase estn centrados en los valores de la
variable.

Histogramas y control sobre una variable.


Uno de los temas a investigar que eligi un grupo de estudiantes de medicina fue el
efecto del nmero de hijos que tena una mujer sobre la presin sangunea. Pareca
natural comparar los histogramas de la presin sangunea de grupos de mujeres con
diferentes nmeros de hijos y as se hizo. Si bien es cierto que se compar grupos de
mujeres con diferentes nmeros de hijos, se presenta a continuacin esbozos de la
suavizacin de los polgonos de frecuencias de grupos de mujeres con 2 y 4 hijos.

Con 2 hijos
Con 4 hijos

90 mm

160 mm

Figura. 1.16

Al parecer y segn el grfico, el nmero de hijos influye en el aumento de presin en las


mujeres y podra concluirse que las mujeres con cuatro hijos tienen la presin ms alta
que las mujeres que tienen dos hijos; sin embargo, no se puede indicar que ello es una
prueba de causalidad; es decir que sea el mayor nmero de hijos la causa del aumento de
la presin sangunea en las mujeres, pues hay que tener en cuenta que generalmente las
mujeres con mayor nmero de hijos tienen mayor edad y podra suceder que sea la edad
un factor cuyos efectos se confunden con el tener hijos. Para poder estudiar con claridad
el efecto del nmero de hijos era necesario efectuar comparaciones independientes para
cada grupo de edad, esto es, establecer un control sobre la variable edad y as se pudo
comprobar que no exista asociacin entre el nmero de nios que una mujer haba
tenido y su presin sangunea.

Carlos Vliz Capuay

Estadstica Descriptiva. 31

En muchas ocasiones un factor que cause confusin puede ser controlado, como se
indicar ms adelante mediante el empleo de las tablas de frecuencias.

Diagrama de tallo y hojas.


Los histogramas y grficos de bastones nos muestran la manera como varan los datos.
Sin embargo, stos no permiten la identificacin de los datos que se han usado para ello.
El grfico de tallo y hojas indica no slo la manera como estn distribuidos los datos
sino que adems los muestra.
El grfico de "tallos y hojas se construye, bsicamente, partiendo las cifras que forman
al dato en dos grupos: uno con las primeras cifras para formar el tallo y el otro con las
cifras restantes para formar las hojas. As por ejemplo, si tenemos el dato 68, la cifra 6
de las dcimas corresponder al tallo mientras que el 8, que es la cifra de las unidades,
formar la hoja. El tallo y las hojas que se formen se dividen con una lnea vertical.
Tallo
6

Hojas
8

1.25. Ejemplo.

Representar, usando el diagrama de tallo y hojas, los siguientes datos correspondientes a


las puntuaciones de un test de memoria.
21 22 32 36 38 42 44 44 46 46 46 48 51 52 54 55 56 64 65 70 82.
Solucin.
Tomando las decenas como tallos y las unidades como hojas resulta
2
3
4
5
6
7
8

12
268
2446668
12465
45
0
2

En el diagrama se observa que existe cierta simetra en la dispersin; y que el valor 82 es


discordante con el resto de datos.
En el caso de datos que tienen cifras decimales, al construir el diagrama de tallo y hojas,
el punto decimal se pierde, por tal razn se acostumbra indicar las unidades que los datos
del tallo representan.
1.26. Ejemplo.

En el siguiente diagrama la indicacin "Unidad = 0.01" significa que, por ejemplo, 41|2
representa al dato 4.12.

32. Estadstica Descriptiva.

Carlos Vliz Capuay

Unidad = 0.01
Ejemplo. 41|2 representa 4.12.
41
42
43
44
45
46

22
668
103251
23
1
2

Si se indicara: "Unidad = 0.1", se tendra, por ejemplo, que 41|2 representa al dato 41.2.

1.7. EJERCICIOS.
1. Se ha indicado que el porcentaje de varones mayores de 20 aos que no tienen empleo en una ciudad de 5
millones de habitantes es 6 %. Los resultados fueron obtenidos a partir de un cuestionario aplicado a 2000
personas de la ciudad, elegidas de entre las personas mayores de 20 aos.
a) Sobre qu poblacin se ha realizado la encuesta?. Cules son las unidades estadsticas?.
b) Cul ha sido la muestra utilizada?.
Rpta. Poblacin: conjunto formado por las personas mayores de 20 aos. Unidad estadstica: cada
varn mayor de 20 aos. Muestra: conjunto formado por los 2000 personas mayores de 20 aos.
2. El gerente de ventas de una tienda de prendas de vestir desea saber cul ser la demanda de pantalones en el
prximo mes, as como las tallas que ms demanda tendrn. Si el gerente dispone de un registro del total de
las ventas realizadas por la tienda durante los 10 meses anteriores y usa esta informacin como una muestra
para predecir las ventas del prximo mes, cul es la poblacin?.
3. En los siguientes casos, indicar la poblacin, las unidades estadsticas y el tipo de escala a usar si se trata
de:
a) Asignar a los distritos de la capital su cdigo postal.
b) Asignar a las personas de una ciudad, el nmero de telfono que poseen.
c) Asignar a cada profesor de una universidad su categora (profesor auxiliar, profesor asociado o profesor
principal).
d) Asignar a cada par de ciudades de un pas la distancia, en kilmetros, que existe entre ellas.
Rpta. a) Nominal b) nominal, c) ordinal, d) intervalar y de razn.
4. El censo de alumnos de una universidad considera las siguientes variables: Facultad, ao de ingreso,
nacionalidad, tiempo de residencia en el pas, nmero de semestres que lleva en la universidad, grado en la
escala de pensiones, grado de instruccin del padre, nmero de hermanos, ingreso mensual familiar
promedio. Clasifique las variables e indique el tipo de escala en que estn medidas.
5. Un profesor propone a sus alumnos del curso de Aritmtica, una prueba de 10 ejercicios de clculo de
sumas. Si alguno de los ejercicios presenta, al resolverlo, algn error de clculo, el profesor califica la
prueba con 0, de otro modo la califica con 1. Qu tipo de escala emple?.
Rpta. Ordinal.
6. Si el profesor del ejercicio anterior cuenta los ejercicios correctos y considera que tal nmero corresponde a
la habilidad de clculo, qu tipo de escala ha empleado?.
7. A los elementos w, y y z de una poblacin se les asign los nmeros 8, 16 y 30 respectivamente, para medir
cierto atributo. Si en lugar del nmero asignado a w se le asignara el 20 y el nmero 40 a y, qu nmero se
le puede asignar a z si las escalas usadas son:

Carlos Vliz Capuay

Estadstica Descriptiva. 33

a) nominales?. b) ordinales?. c) intervalares?.


Rpta. a) Cualquier nmero diferente de 20 y 40, b) Cualquier nmero mayor que 40, c) 75.
8. Ciento setenta y cinco mdicos fueron clasificados de acuerdo a su especialidad. Los resultados fueron los
siguientes: de Medicina General: 25, de Pediatra: 50, de Medicina Interna: 80, de otras especialidades: 20.
Construir un diagrama de barras para ilustrar la distribucin de los 175 mdicos de acuerdo a su
especialidad.
9. En Marzo de 1995 la inversin extranjera en el Per y de acuerdo al pas de origen fue como sigue:
Espaa
46%
Pases Bajos
6%
EE.UU.
16%
Panam
5%
Reino Unido
8%
Chile
4%
Otros
15%.
a) Identificar la variable medida.
b) Representar usando un diagrama de sectores circulares, la informacin anterior
10. En Marzo de 1995 la inversin extranjera en el Per de acuerdo al sector de destino fue como sigue:
Comunicaciones
Minera
Industria
Energa

45%
20%
12%
8%

Finanzas
Comercio
Otros

6%
5%
4%

a) Identificar la variable medida.


b) Representar, usando un grfico de barras, la informacin anterior.
11. Usando un diagrama de barras, mostrar la extensin territorial de los pases Per, Chile, Ecuador,
Argentina y Brasil.
12. Construir un diagrama adecuado que permita comparar la predileccin de los estudiantes por las carreras
de ciencias en tres universidades si se tienen los siguientes datos:
Universida
d
A
B
C

Alumnos de
Ciencias
150
50
140

Total de
alumnos
2000
5000
3000

13. Los siguientes datos proporcionan los ingresos anuales en miles de dlares de 50 personas:
7.9 10.3 45.7 95 43.0 56.0 38.0 6.7 48.0 30.5 25.0 40.0 30.0 25.5 50.0 17.1 25.5 43.5 31.6 59.0
41.5 13.5 12.0 9.2 42.0 41.9 35.0 11.7 55.3 27.0 58.4 57.0 29.6 38.5 26.0 16.5 18.0 24.9 20.0
28.0 28.5 36.4 39.5 5.0 9.0 5.0 6.9 7.0 12.0 8.3.
a) Construir un histograma de frecuencias relativas con 6 intervalos de clase para los ingresos anuales.
b) Interpretar el histograma.
c) Usar las marcas de clase construido para estimar la proporcin de ingresos que estn entre 12500 dlares
y 52500 dlares.
d) Estimar la proporcin de sueldos que estn debajo de 50000.
e) Estimar la proporcin de sueldos que estn por encima de 40000.
14. Un censo realizado a 10 jefes de familia proporcion los datos que aparecen en la siguiente tabla, en
donde

34. Estadstica Descriptiva.

Carlos Vliz Capuay

V1 = Procedencia, V2 = Edad, V3 = Estado civil, V4 = Sueldo, V5 = Nmero de hijos y V6 = Cantidad de


dinero que asigna en alimentacin de la familia.
a) Indicar a que tipo pertenece cada una de las variables consideradas.
b) Para la variable "procedencia" construir una tabla de frecuencias y represente grficamente la
distribucin mediante una grfico de barras y de sectores circulares.
c) Como en la parte b), para la variable "estado civil".
Familia

V1

V2

V3

V4

V5

V6

1
2
3
4
5
6
7
8
9
10

P
P
L
P
L
L
L
P
P
P

32
28
45
38
49
50
30
32
52
49

S
C
C
C
S
V
S
C
C
V

600
700
650
850
900
1000
860
550
890
900

1
1
2
2
3
2
3
2
0
3

300
400
350
380
400
380
560
300
350
400

L = Lima, P = provincias, S = soltero, C = casado, V = viudo


Rpta. V1: Cualitativa, V2: Cuantitativa, continua, V3: Cualitativa, V4: Cuantitativa, continua, V5:
Cuantitativa, discreta, V6: Cuantitativa, continua.
15. El consumo de agua, en metros cbicos, de 30 viviendas en el mes de Julio fue como sigue:
4.3 78 6.1 15.7 12.8 17.2 3.5 16.1 12.4 6.9 18.0 11.5 13.4 6.5 14.3 8.7 13.0 9.2 12.8 3.0 4.2
11.2 16.2 7 4.5 7.8 15.9 16.5 8.4 5. 9.
a) Construir una tabla de distribucin de frecuencias usando 5 intervalos de clase y graficar: el histograma
de frecuencias relativas, el polgono de frecuencias relativas y la ojiva.
b) Indicar de manera aproximada el porcentaje de viviendas que consumieron entre 10 y 15 metros cbicos.
c) Graficar la ojiva y usando sta, indicar de manera aproximada, el porcentaje de viviendas que
consumieron entre 12 y 15 metros cbicos.
16. El nmero de peridicos que un canillita vendi durante los ltimos 24 das fue como sigue:
13 21 16 30 42 5 33 26 28 45 17 28 39 32 8 34 27 33 27 26 24 28 16 21.
Cul es el porcentaje de das en los que el canillita vendi ms de 20 peridicos?. Usar el mtodo de los
intervalos de clase indicado para variables continuas, para obtener una tabla de distribucin de frecuencias.
con cuatro intervalos de clase y responder la pregunta anterior. Comentar los resultados, con respecto a los
mtodos usados.
Rpta. 75%.
17. Los salarios que una empresa ofrece a los practicantes oscilan entre $150 y $270 y se encuentran divididos
en cuatro intervalos de clase de igual longitud. Si se supone que los salarios se distribuyen de manera
uniforme, que el 40% de los practicantes ganan no ms de $195, el 80% ganan $225 o menos y el 15%
gana ms de $232.5,
a) cul es el porcentaje de practicantes en cada categora o intervalo de clase?.
b) Cunto debe aumentar la compaa a cada practicante para que el 20% de ellos supere los $240 de
salario?.
18. Completar la siguiente tabla. Indicar los extremos de cada intervalo de clase.

Carlos Vliz Capuay

Estadstica Descriptiva. 35

Intervalos de
clase.
A
B
C
D
E

Marca de clase

Frecuencia.
relativa
0.10
...
0.55
...
0.10

..
6
...
14
...

Frecuencia
acumulada. relativa
...
0.25
...
0.9
...

19. En la siguiente tabla de distribucin, un agente de seguros ha ordenado los datos mensuales
correspondiente a la cantidad de dlares de las plizas de seguros que ha vendido durante los tres aos
anteriores:
Venta mensual
[10000, 12000[
[12000, 14000[
[14000, 16000[
[16000, 18000[

Frecuencia
2
4
7
5

Venta mensual
[18000, 20000[
[20000, 22000[
[22000, 24000[
[24000, 26000]

Frecuencia
6
8
2
1

a) Construir el histograma de frecuencias relativas


b) Construir el polgono de frecuencias relativas.
c) Indicar la ojiva correspondiente
d) Indicar las caractersticas de la distribucin indicada.
20. El peso, en gramos, de 30 objetos de un mismo tipo fue como sigue.
21.3 15.8 18.4 22.7 19.6 15.8 26.4 17.3 11.2 23.9 26.8 22.7 18.0 20.5 11.0 18.5 23.0 24.6 20.1
16.2 08.3 21.9 12.3 22.3 13.4 17.9 12.2 13.4 15.1 19.1.
Construir un diagrama de tallo y hojas para los datos indicados. Indicar las caractersticas de la distribucin.
21. La siguiente figura es un histograma que muestra la distribucin de la presin sangunea de un grupo de
mujeres que participaron en un estudio.
4

3
2
1
0
90

100

110

120

130

140

150

P re s i n s a n g u n e a .

Figura. 1.17.

a) En qu intervalo hay ms mujeres: en [135, 140] o en [140, 150] ?.


b) Qu intervalo es ms denso: [135, 140] o [140, 150]?.
c) Cul es el intervalo ms denso de todo el histograma?.

160

36. Estadstica Descriptiva.

Carlos Vliz Capuay

1.8. METODOS NUMERICOS PARA DESCRIBIR DATOS .


La naturaleza de los datos permite, en muchos casos, cierto tipo de anlisis a partir de los
grficos de la distribucin. Sin embargo, tambin es necesario considerar resmenes
numricos que permitan tener una mejor idea de la manera como los datos estn
distribuidos a lo largo de la recta. Estas caractersticas numricas, que se estudiarn en
esta seccin, se llaman estadgrafos.
Los estadsticos han tratado de establecer estadgrafos que sean objetivos y fciles de
calcular. Algunas de estas medidas dependen de todas las observaciones y son muy
sensibles a las fluctuaciones de stas; tras, sin embargo, no dependen de todas las
observaciones, siendo resistentes ante los cambios de los valores extremos.
La mayor parte de los conjuntos de datos muestran una tendencia a agruparse alrededor
de un valor central. Estos valores, que de alguna manera tipifican al conjunto, se llaman
medidas de tendencia central. Entre estas medidas se tienen: la moda, la media
aritmtica, la mediana, la media geomtrica y la media armnica.
Adems de las medidas de tendencia central estn las medidas que indican la dispersin
que se produce en torno del centro de los datos. Entre estas medidas se tiene: el rango o
recorrido, la varianza, la desviacin estndar, el coeficiente de variacin, los
intercuartiles, etc.
La manera como estn distribuidos los datos de un conjunto puede resumirse en lo que
se llama la simetra y el apuntamiento de la curva que los describe.

MEDIDAS DE TENDENCIA CENTRAL .


La moda .
Para un grupo de datos, correspondientes a una variable, la moda es el
valor de la variable que ms se repite.
La moda es el dato "ms frecuente". Se denotar con M 0 . (Figura 1.18 a).
1.27. Ejemplo.

Para el siguiente grupo de datos: 3 3 3 5 3 4 5 7 3 5 7 8 3 4 9 2 8 1, la moda es 3.


1.28. Ejemplo.

En la siguiente tabla se presenta la distribucin de los valores de la variable grado de


instruccin correspondiente a 40 personas. En esta tabla se observa que la categora que
ms se repite corresponde al grado de instruccin secundaria, la cual se ha nombrado con
el nmero 3. La moda es 3. La mayora de las 40 personas tienen educacin secundaria.

Estadstica Descriptiva. 37

Carlos Vliz Capuay

Grado de Instruc.

Frecuencia

Analfabetos: 1
Primaria:
2
Secundaria: 3
Tcnica:
4
Universit: 5

3
11
25
0
1

Un grupo de datos puede tener una moda, dos modas, etc. En tales casos la distribucin
se llama, respectivamente, unimodal, bimodal, etc.
La moda se puede usar para cualquier tipo de escala.
Si los datos estn agrupados en una tabla de intervalos de clase y corresponden a una
variable continua, no ser posible determinar exactamente la moda; pero s el intervalo
de mayor frecuencia; a ste se le llama intervalo modal (Figura 1.18 b).

(b) [a, b] es el intervalo modal

(a) Moda
Figura 1.18.

La media aritmtica .
La media aritmtica o simplemente media de un grupo de datos, caracteriza a los grupos
de datos cuyo polgono de frecuencias presenta simetra y poca dispersin. Se define de
la siguiente manera:
Si x1, ... , xn es un grupo de valores, la media aritmtica o simplemente
media de estos datos es el nmero
x=

x1 + ...+ x n
n

1 n
x
n i =1 i

1.29. Ejemplo.

Los siguientes datos corresponden al tiempo, en minutos, que utilizan 30 empleados en


realizar una tarea.
4.1 2.2 6.7 2.9 5.0 3.2 3.7 3.4 4.0 7.5 3.1 8.0 2.4 7.6 6.2 8.7 4.5 4.7 6.1 3.5
2.7 4.5 3.9 5.1 3.0 4.6 4.6 3.6 4.0 3.7.

38. Estadstica Descriptiva.

Carlos Vliz Capuay

La media es x =

4.1+...+3.7
= 4.5733.
30

OBSERVACIONES.

1. Observar que la media no necesariamente es uno de los datos.


2. La media aritmtica resulta afectada por valores extremos que no son representativos
del resto de los datos. Esto es una desventaja.
Si los valores x1, ... , xk se repiten, respectivamente, n1, ..., nk veces (n1 +... + nk = total
de datos), entonces,
x=

x1n1 + ...+ x k n k
n1 + ...+ n k

= f i xi
i =1

en donde fi = ni/n, (frecuencia relativa de xi).


A esta igualdad se le llama a menudo frmula de la media para datos agrupados. Esta
expresin permite interpretar la media aritmtica como una suma ponderada de los
diferentes datos del grupo. La ponderacin de cada valor xi es fi. (Ntese que la suma de
las ponderaciones es 1).
En general, dados los valores x1 , x 2 , ..., x k , la media ponderada de stos se define
como el nmero
k

x = wi xi con wi = 1 ,
i =1

en donde w i es un peso o ponderacin que indica la importancia relativa de la i-sima


observacin.

1.30. Ejemplo.

Para la confeccin de un artculo una compaa utiliza: 1 hora para armado y 5 horas
para acabado. El salario por hora que paga la compaa es de $5 por hora para el armado
y de $9 por el acabado. La compaa desea saber el promedio del costo de trabajo por
hora para confeccionar dicho producto.
El simple promedio aritmtico de los salarios pagados por trabajo es
x=

5+ 9
=7
2

Carlos Vliz Capuay

Estadstica Descriptiva. 39

Utilizando este promedio, se tendra que el costo del trabajo realizado para confeccionar
una unidad del producto es 7(1 + 5) = 42. Lo que es incorrecto.
Como se realizan diferentes actividades para confeccionar el producto, es obvio que ello
debe tomarse en cuenta. El promedio correcto se puede determinar considerando que el
costo total por el trabajo realizado es (5x1) + (9x5) = 49 y como se invierten 6 horas de
trabajo, el costo promedio de trabajo por hora es 49/6 = 8.17 aprox.
Se obtiene el mismo resultado si se considera que para confeccionar una unidad del
producto es necesario 6 horas. Un 1/6 de ese tiempo es para el armado y 5/6 para el
acabado. Utilizando estas fracciones como ponderaciones se tendr que una hora de
trabajo realizado cuesta en promedio
(1/6)5 + (5/6)9 = 8.17 aprox.
Se tiene que el costo promedio por hora para confeccionar un producto es la media
ponderada de los valores 5 y 9.
El aumento del precio de un bien puede ser insignificante para algunos pero muy
importante para otros. Si el aumento del precio del consumo de electricidad es 20%, el
de la vivienda el 10% y el de la alimentacin, el 3%, se tendr que la media del aumento
de los precios es 11%; sin embargo, para una persona que dedica el 1% de su sueldo a
consumo de electricidad, el 9% a vivienda y el 90% para alimentacin, el promedio del
aumento de los precios es 3.80%; para otra persona que dedica el 10% de su sueldo a
electricidad, el 40% a vivienda y el 50% a alimentacin, el promedio es 7.5%.
Si los datos estn agrupados en intervalos de clase, la media se aproxima usando las
marcas de clase, x' :
x

1 k
x n
n i =1 i i

1.31. Ejemplo.

En la siguiente tabla de frecuencias aparecen los intervalos de clase, las marcas de clase
y la frecuencia de un conjunto de 17 datos.
Intervalos

xi

ni

[5 9[

[9 13[

11

[13 17[

15

[17 21[

19

[21 25]

23

Una aproximacin de la media es

40. Estadstica Descriptiva.

Carlos Vliz Capuay

2(7) + 4(11) + 7(15) + 3(19) + 1(23)


= 14.294 .
17

La media no tiene significacin si los datos, para los cuales se calcula, han resultado de
aplicar una escala nominal u ordinal.
Propiedades de la media aritmtica .

a) La suma de n datos es igual a n veces su media. Esto es,


n

xi = nx
i =1

b) Si a cada uno de los datos se le suma una constante k, la media de los


datos transformados es igual a la media de los datos originales ms la
constante k.
En particular, si a cada uno de los valores x1, ... , xn , se les resta la
media del grupo, la media de los nuevos valores es 0. Esto es,
n

( xi x )

i =1

=0

c) De la relacin anterior se tiene que la suma de las desviaciones de


cada dato respecto de su media es 0. Esto es,
n

( xi x ) = 0

i =1

d) Si a cada uno de los datos se les multiplica (divide) por una constante
k, la media de los datos transformados es igual a la media de los datos
originales multiplicada (dividida) entre la constante.
e) Si el conjunto de m datos, x1, ..., xm tiene media x y el conjunto de n
datos, y1, ..., yn tiene media y , entonces el conjunto x1, ..., xm, y1, ..., yn,
tiene media

mx + ny
.
m+ n
f) La media x de los valores x1, ... , xn corresponde al valor de a que
hace mnima a la expresin

Carlos Vliz Capuay

Estadstica Descriptiva. 41

( x i a ) 2 , a .

i =1
n

i =1

i =1

( x i x ) 2 ( x i a ) 2 , a.

Esto es,

Nota.

Obviamente,

i =1

i =1

k ( xi x ) 2 k ( xi a ) 2 , a y para cualquiera valor de la

constante k.
1.32. Ejemplo.

El promedio de los precios de los artculos que conforman la canasta familiar en cierta
ciudad es 400 unidades monetarias. Si cada artculo de la canasta aumenta el 10% de su
precio entonces el nuevo promedio de los precios de la canasta es igual a (1.10)(400) =
440.
1.33. Ejemplo.

Si el salario promedio de las 20 mujeres que trabajan en una compaa A es 200


unidades monetarias y el de los 30 hombres que trabajan en la compaa B es 250
unidades monetarias, se tendr que el salario promedio de las 50 personas que trabajan
en ambas compaas es
( 20)( 200) + ( 30)( 250)
= 230.
20 + 30
1.34. Ejemplo.

En un grupo de personas conformado por obreros y empleados, la edad promedio es 32


aos. La edad promedio de los obreros es 25 y la de los empleados, 35. Cul es el
porcentaje de obreros y empleados?.
Solucin.
Si se denota con a al nmero de obreros y con b al nmero de empleados se tiene que

32 =

Escribiendo A =

a
a +b

y B=

b
a +b

25a + 35b
a+b

, resulta: 32 = 25A + 35B.

Considerando que A + B = 1, se tendr: A = 0.3 y B = 0.7. Es decir, el 30% de las


personas que conforman el grupo son obreros y el resto son empleados.

42. Estadstica Descriptiva.

Carlos Vliz Capuay

1.35. Ejemplo

En la siguiente tabla se indica el Producto Nacional Bruto (PNB) promedio por persona
y la poblacin en tres pases.
Pas
Per
Colombia
Bolivia

PNB ($)

Poblacin

1160
1260
630

22 mill.
32 mill.
7 mill.

Fuente: Banco Mundial. 1992.

Se deduce que el PNB promedio por persona en los tres pases es


PNB promedio =

1160( 22) + 1260( 32) + 630( 7 )


= 1151.63 dlares.
22 + 32 + 7

1.36. Ejemplo.

El costo por unidad para producir 3000 pantalones es 12 unidades monetarias, el costo
por unidad para producir 5000 camisas es 10 unidades monetarias y el costo por unidad
para producir 2000 sacos es 50 unidades monetarias. Hallar el costo promedio por
unidad de produccin.
Solucin.
El costo promedio de produccin es
x=

12( 3000) + 10(5000) + 50( 2000)


= 18.6 unidades monetarias.
3000 + 5000 + 2000

1.37. Ejemplo.

El costo de produccin de un artculo en cada una de las tres fbricas que una compaa
tiene en la costa (C), en la sierra (S) y en la selva (U) es, respectivamente, 2, 2.3 y 2.5.
En C se produce el 90% de los artculos que se producen en S, mientras que en U se
produce 30% ms artculos que en S.
a) Hallar el costo promedio por artculo en las tres fbricas.
b) Hallar el precio promedio de venta por artculo si el estado establece que se debe
ganar el 10% por artculo.
Solucin.
Si x es la produccin en S, entonces en C la produccin es 0.9x y en U, 1.3x. La
produccin total es 0.9x + x + 1.3x = 3.2x.

El costo de produccin es 2(0.9x) + 2.3(x) + 2.5(1.3x) = 7.35x.


a)

El costo promedio es 7.35x/3.2x = 2.2968.

Carlos Vliz Capuay

Estadstica Descriptiva. 43

b) Como el precio de venta es 1.10 (precio de costo), el promedio del precio de venta
es 1.10(costo promedio) = 1.10(2.2968) = 2.5265.
1.38. Ejemplo.

Tres poblados A, B y C (en ese orden), se encuentran situados a lo largo de una carretera
recta. La distancia entre A y B es 15 km, entre B y C, 22 km. Se desea construir en un
punto M de la carretera un centro de recreo de tal manera que al transportar a este centro
30 personas de A, 20 de B y 40 de C, el costo total por transporte sea mnimo. Hallar el
punto M si el costo por transportar a cada persona de cada poblado es proporcional al
cuadrado de la distancia recorrida.
Solucin.

Asignemos las coordenadas 0; 15 y 37 a los poblados A, B y C, respectivamente.


Si la coordenada de M es a, el costo total por transportar las 90 personas es
Costo = 30k (0 a ) 2 + 20k (15 a ) 2 + 40k (37 a ) 2 , en donde k es la constante de
proporcionalidad.
Segn la propiedad f), el valor de a que hace mnimo al costo es la media de los valores

0, 0, ..., 0, 15, ..., 15, 37, ... ,37


1424
3 1424
3 1424
3
30 veces

20 veces

40 veces

Luego la coordenada de M es a = 19.7777. El centro de recreo debe estar 4.7777 km. de


la ciudad A.
La propiedad e) de la media puede extenderse de la siguiente manera: Si k conjuntos de
datos constan de n1 , n 2 ,... , n k observaciones y si tienen medias x1 , . x 2 , ... , x k ,
respectivamente, entonces la media global de los k conjuntos es
k

x =

ni xi

i =1
k

ni

i=1

La media de un conjunto de datos se calcula a partir de todos ellos, por ello es necesario
tener cuidado en el momento de hacer la interpretacin correspondiente, pues los datos
extremos pueden influenciar fuertemente en el resultado, desvirtuando de este modo la
imagen real de la media aritmtica.
En la siguiente tabla se indica la distribucin de 11 personas de acuerdo a su sueldo.

44. Estadstica Descriptiva.

La media de los sueldos es x =

Carlos Vliz Capuay

Sueldos (xi)

Frecuencia (ni)

100
120
2000
3000

4
5
1
1

100( 4 ) + 120(5) + 2000(1) + 3000(1)


= 545.45 ; sin embargo, 9
11

de las 11 personas tiene una remuneracin menor o igual a 121. Los valores extremos
2000 y 3000 han influido grandemente en el resultado. (Si se construye el polgono de
frecuencias de la tabla anterior, podr notarse que ste tiene un sesgo con cola a la
derecha).
La observacin anterior indica que si una distribucin de datos tiene un sesgo (con cola a
la derecha o con cola a la izquierda) es mejor utilizar otra medida de tendencia central
que sea resistente a los valores extremos, tal como la mediana, que a continuacin se
estudia.

La mediana.
Para un grupo de n datos ordenados, la mediana Me es el valor central,
si n es impar y es igual al promedio de los dos datos centrales, si n es
par.

Para establecer el concepto de mediana se ha hecho uso del orden de los nmeros que
representan a los datos, luego esta medida no tiene significacin si los datos se obtienen
al usar una escala nominal.
Propiedades de la mediana.

a). La mediana Me es un valor que est en el centro de los datos. Esto


generalmente no ocurre con la media ni con la moda. Sin embargo,
cuando el polgono de frecuencias es simtrico, los tres valores coinciden
y estn en el centro de los datos.
b). La mediana Me es una medida de centralizacin resistente. Al variar
uno de los datos que no sean los de la posicin central, sta no vara. Por
ello se usa para resumir grupos de datos en donde existen valores
excepcionalmente grandes o pequeos y cuya forma del polgono de
frecuencias no sea simtrica.
1.39. Ejemplo.

La mediana de los datos: 3 4 5 8 12 15 17, es 8, y la mediana de: 4 5 6 7 es 5.5.

Carlos Vliz Capuay

Estadstica Descriptiva. 45

Debajo de la mediana existe aproximadamente el 50% de los datos (Figura 1.19 (a))
Suavizando la ojiva de la frecuencia acumulada relativa se ubica la mediana de un
conjunto de datos correspondientes a una variable continua. (Figura 1.19 (b)).

F
0.5

50%

50%

e
M

(a)

(b)

Figura 1.19

En el caso discreto siempre ser posible determinar exactamente la mediana, ya sea que
los datos se presenten de manera enumerativa o en una tabla de frecuencias. En el caso
continuo y cuando los datos se presentan en una tabla de intervalos de clase no ser
posible determinar exactamente el valor de la mediana por cuanto no se tiene la
informacin completa. Sin embargo, puede aproximarse como se indica a continuacin.
Aproximacin de la mediana para datos agrupados en una tabla de
intervalos de clase.

En una tabla de frecuencias de intervalos de clase, a partir de la frecuencia acumulada


relativa se puede indicar el intervalo en donde se encuentra la mediana.
Suponiendo que la mediana M e est en el intervalo [a b[ (hasta a la frecuencia
acumulada relativa Fa es menor que 0.5 y hasta b la frecuencia acumulada relativa Fb
es mayor o igual a 0.5), (Figura 1.20 a) y considerando la aproximacin lineal de la
parte de la grfica de la ojiva F en el intervalo [a, b], el valor de la mediana se aproxima
usando la semejanza de tringulos.

En M e el valor de la frecuencia relativa es aproximadamente igual a 0.5, haciendo uso


de la semejanza de tringulos, se tiene
M e a 0.5 Fa

ba
Fb Fa
M e a + (b a )

0.5 Fa
Fb Fa

46. Estadstica Descriptiva.

Carlos Vliz Capuay

F
b

0.5

F
a

a
a

Ojiva en [a, b]
(b)

Ojiva de fr.ac.relativa
(a)
Figura 1.20.

en donde
a es el extremo izquierdo del intervalo que contiene la mediana,
b es el extremo derecho del intervalo que contiene a la mediana,
Fa es el valor de la frecuencia acumulada relativa "hasta el extremo" a y
Fb es el valor de la frecuencia acumulada relativa "hasta el extremo" b.
1.40. Ejemplo.

A partir de la informacin que se encuentra en la siguiente tabla de frecuencias no es


posible indicar directamente el valor de la mediana Me; sin embargo, se puede decir que
sta se encuentra en el intervalo de clase [a, b[ = [14, 17[.
xi
6.5

ni

[5, 8[

fi
0.125

Fi
0.125

[8, 11[

9.5

0.250

0.375

[11, 14[

12.5

0.083

0.458

[14, 17[

15.5

0.375

0.833

[17, 20[

18.5

0.125

0.958

[20, 23]

21.5

0.041

1.000

Interv. Clase

Se tiene que
M e 14 + (17 - 14)

0.50 0.458
= 14.336.
0.833 0.458

Otra propiedad de la mediana

c). Se puede demostrar que para un grupo de datos x1, ... , xn, la mediana
Me de stos corresponde al valor que hace mnima la expresin
n

| xi a| , en donde a es un nmero real cualquiera.

i =1

Carlos Vliz Capuay

Estadstica Descriptiva. 47

Esto es,
n

i =1

i =1

| xi M e | | x i a | a real .

Relaciones entre la moda, la media y la mediana.


Para distribuciones simtricas unimodales, la moda, la mediana y la media coinciden.
Para curvas de frecuencia que estn sesgadas a la derecha o a la izquierda, la posicin de
la moda, de la mediana y la media se indican en la siguiente figura.

M o

Figura 1.21.

Cuando la curva de frecuencias tiene cola a la derecha, M 0 M e x .


Cuando la curva de frecuencias tiene cola a la izquierda, x M e M 0

La media geomtrica y la media armnica.


Dados los valores positivos x1, x2, ... , xn , se llama media geomtrica
de stos, al valor G = n x1x2 ... xn .
Se observa que lnG es la media aritmtica de ln(x1), ln(x2), ... , ln(xn)
Se llama media armnica de los valores x1, ... , xn , diferentes de 0, al
n
valor H =
, ( xi 0) .
n 1

i =1 x i
OBSERVACIONES

1. La media armnica es el inverso de la media de los inversos de cada uno de los


valores.
2. Ntese que si los valores x1, ... , xk tienen frecuencias n1, ..., nk, respectivamente, (n1
+ ... + nk = n), entonces

48. Estadstica Descriptiva.

Carlos Vliz Capuay

H= k

1
i =1 xi

fi

xi 0

en donde fi = ni/n es la frecuencia relativa de xi. A esta expresin se le llama media


armnica ponderada.
1.41. Ejemplo.

Para el conjunto de datos 7 8 8 9 10 11, la media geomtrica es


G = 6 (7)(8)(8)(9)(10)(11) = 8.7328,

mientras que la media armnica es

H=

6
= 8.6346 .
1 / 7 + 1 / 8 + 1 / 8 + 1 / 9 + 1 / 10 + 1 / 11

1.42. Ejemplo.

En cierta regin la produccin de arroz, durante tres aos consecutivos, aument


respecto del ao anterior en: 70%, 50%, 10%. En qu razn promedio anual aument la
produccin?.
Solucin.
Si A es la produccin inicial se tendr que despus del primer ao, la produccin es
(1.7)(A), despus del segundo ao, la produccin es (1.5)(1.7)(A), y despus del tercer
ao es (1.1)(1.5)(1.7)(A).

Por otro lado, si llamamos con a a la razn anual promedio, se tendr que despus del
primer ao, la produccin es (a + 1)A, despus del segundo ao, (1 + a)(1 + a)A, y
3

despus del tercer ao, (1 + a)(1 + a)(1 + a)A = (1 + a ) A


Luego:

( 1 + a )3 A = (1.1)(1.5)(1.7)A, de donde a = 0.41.


El aumento porcentual promedio es 41.00%. Se observa que 1+a es la media geomtrica
de las cantidades 1.1, 1.5, y 1.7.
1.43. Ejemplo.

Los precios de una accin de la bolsa de valores en tres das consecutivos fueron: A,
0.5A y A, respectivamente. Luego la variacin de los precios con respecto al da anterior
fue como sigue: -50% y 100%, respectivamente.

Carlos Vliz Capuay

Estadstica Descriptiva. 49

Un nmero adecuado para indicar la tasa de variacin promedio de los precios de la


accin no es la media aritmtica de -50 y 100. Por qu?. Procediendo como en el
ejemplo anterior, se tiene que si r es la tasa promedio de variacin, entonces
(1 + 1)(1 0.5) A = (1 + r ) 2 A .
De donde r = 0. Luego, la tasa promedio de variacin es 0.
1.44. Ejemplo.

Una persona recorre la distancia de A a B con una velocidad de 30 km./h; otra persona
recorre la misma distancia con una velocidad de 60 km./h. Cul es el "promedio"
adecuado de las velocidades de las dos personas?.
Solucin.
Si la distancia de A a B es e km, entonces la primera persona utiliza e/30 horas para
recorrer la distancia de A a B y la segunda persona, e/60.

La velocidad "promedio" es 2e/[(e/30) + (e/60)] = 2/[(1/30) + (1/60)] = 40. (Es la media


armnica de las cantidades 30 y 60).

MEDIDAS DE DISPERSION
Dos grupos diferentes de datos pueden tener iguales medidas de tendencia central; sin
embargo, las caractersticas de su distribucin pueden ser diferentes. Un grupo de datos
puede tener mayor o menor dispersin que el otro con respecto de la medida central.
Precisamente, para interpretar mejor los datos se construyen medidas de dispersin o
estadgrafos de dispersin.
Las medidas de dispersin ilustran sobre la manera como varan los datos observados
alrededor de una medida de tendencia central, indican como estn concentrados los datos
alrededor del parmetro de centralizacin, permiten comparar una informacin con otra
y ayudan a verificar si determinadas medidas de tendencia central son o no significativas.
Por ejemplo, cuando la dispersin es muy grande la media aritmtica no tiene mucha
significacin; sin embargo si la dispersin es baja, la media adquiere significacin. Entre
las medidas de dispersin estn: el recorrido o rango, la varianza, la desviacin
estndar, el coeficiente de variacin, los intercuartiles, etc.

El recorrido o rango.
Aunque de uso muy limitado, el recorrido o rango de un conjunto de datos es la
diferencia entre el dato mayor y el dato menor.
Por ejemplo, si los datos de cierta variable son: 23, 24, 24.5, 24.6, 24.7, 24.9, 25, 26,9, 27, 28, 100, el
rango es, como en el caso anterior, 100 - 23 = 77.

50. Estadstica Descriptiva.

Carlos Vliz Capuay

Sin embargo, puede observarse que la forma como estn distribuidos los datos no es la
misma en ambos casos. En el segundo caso, los datos estn ms agrupados hacia el dato
menor. Esto muestra que el rango no indica la manera como estn distribuidos los datos.

La varianza y la desviacin estndar .


Si x1, ... , xn es un conjunto de datos con media aritmtica x , la varianza
de los n datos, se denota con s ' 2 , o con V y se define como
2

s' =

1 n
(x x)2.
n i =1 i

La varianza es el promedio de las desviaciones al cuadrado de los datos respecto de su


media. Indica la manera como los datos estn dispersos alrededor de la media.
La raz cuadrada positiva de la varianza se llama desviacin estndar. Se denota con s' .
La desviacin estndar representa, aproximadamente, el promedio de las desviaciones de
cada uno de los datos respecto de su media aritmtica. Como se notar ms adelante, la
mayor parte de los datos estar a una distancia de una desviacin estndar de la media.
Muy pocos estarn ms all de dos o tres veces la desviacin estndar.
La media de 1, 3, 5 y 7 es 4 y su varianza, V =

(1 4) 2 + (3 4) 2 + (5 4) 2 + (7 4) 2
= 5.
4

La desviacin estndar es 2.2360.


NOTAS.
1. La varianza se expresa tambin como

s' 2 =

1 n 2
x x2
n i =1 i

Esta frmula se justifica pues,


s' 2 =

n
n
1 n
1 n
1 n
( xi x ) 2 = xi2 2 xi x + x 2 = xi2 x 2 .
n i =1
n i =1
n i =1
i =1
i =1

2. Si x1 se repite n1 veces, ... , xk se repite nk veces; la varianza puede escribirse como

Carlos Vliz Capuay

Estadstica Descriptiva. 51

( x i x ) 2 ni

s 2 = i =1

xi2 ni

= i =1

nj

(x)2 ,

nj

j =1

j =1

1.45. Ejemplo.

En la siguiente tabla de distribucin de frecuencias


xi

ni

10

15

la media aritmtica y la varianza son:

x = [10(3) + 15(5) + 9(7)]/[10 + 15 + 9] = 4.9412 y


s '2 =

(3 4.9412) 2 (10) + (5 4.9412) 2 (15) + (7 4.9412) 2 (9)


= 2.2316.
10 + 15 + 9

Si n datos estn agrupados en k intervalos de clase y en cada intervalo hay ni datos,


usando las marcas de clase x ' i , se obtiene la siguiente aproximacin de la varianza:
k

s' 2 =

( xi x ) 2 ni

i =1

1.46. Ejemplo.

Para los datos, cuya distribucin se muestra en la siguiente tabla, hallar la media y la
desviacin estndar de manera aproximada.
Inter. de clase

[2, 4[
[4, 6[
[6, 8[
[8, 10[
[10, 12]

marca de
clase
x'i

frecuenc.
ni

3
5
7
9
11

5
7
10
4
2

Solucin.
Usando las marcas de clase se tiene que
k

x 'i ni

x i =1

3(5) + 5( 7) + 7(10) + 9(4) + 11(2)


= 6.3571 .
5 + 7 + 10 + 4 + 2

52. Estadstica Descriptiva.

Carlos Vliz Capuay

s' 2

( x ' i x ) 2 ni

i =1

(3 6.3571) 2 (5) +...+ (11 6.3571) 2 (2)


= 51581
.
28

s' 2.2711.
NOTA.
Otra forma de medir la dispersin de los datos, es mediante la varianza muestral que se define con

( xi x )2

i =1

n 1

PROPIEDADES DE LA VARIANZA.
A partir de la definicin de la varianza se pueden deducir las siguientes propiedades:
a) La varianza es un nmero no negativo.
b) Si todos los datos son iguales a una constante c, su varianza es igual a
0. (En este caso la media es igual a c). No hay dispersin.
c) Si a cada uno de los datos x1, ..., xn se les suma una constante b,
entonces la varianza de los datos transformados: x1 + b, ... , xn + b es
igual a la varianza de los datos originales.
d) Si a cada uno de los datos x1, ... , xn se les multiplica por una constante
k, entonces la varianza de los datos transformados: kx1, ... , kxn es igual a
la varianza de los datos originales multiplicada por el cuadrado de la
constante. Esto es, si la varianza de los datos originales es s'2 entonces la
varianza de los datos transformados es k 2 s '2 .
e) Si el conjunto de m datos: x1 , ... x m tiene media x y varianza s x'2 ,
mientras que el conjunto de n datos: y1 ,... y n tiene media y y varianza

s '2
, entonces el conjunto de datos x1 ,... x m , y1 ,... , y n tiene varianza
y
s' 2 =

ms' 2x + ns' 2y
m+n

m
n
(x M )2 +
(y M )2 ,
m+n
m+ n

en donde M es la media del conjunto x1 ,... x m , y1 ,... , y n .

Carlos Vliz Capuay

Estad stica Descrip tiva . 5 3

Si las medias x e y son iguales, entonces

s' =

ms' 2x + ns ' 2y
m+ n

f) Existe una propiedad muy importante, llamada de Chebyshev, que


permite la interpretacin de la desviacin estndar:

Para cualquier conjunto de datos con media y desviacin estndar


muestral x y s' , respectivamente, la proporcin de datos que caen en el
intervalo [ x ks' , x + ks' ] , en donde k = 1, 2, ... , es mayor o igual a
2

1 (1 / k ) .
As, en el intervalo [ x - 2 s', x + 2 s'] por lo menos hay el 75% de los datos,
en el intervalo [ x - 3s', x + 3s'] por lo menos hay el 89% de los datos.
1.47. Ejemplo.

Aplicando las propiedades de la varianza, el lector puede observar que, si x1, ... , xm , es
un conjunto de datos cuya varianza es V X , entonces, el conjunto de datos y1, ..., ym ,
obtenidos al realizar la transformacin yi = axi + b , en donde a y b son constantes,
tienen media, varianza y desviacin estndar

xY = ax + b , VY = a 2V X , s'Y =| a| s' X , respectivamente.


1.48. Ejemplo.

N estudiantes se matricularon, cada cual, en un nmero de crditos cuya media y varianza


son iguales a: 19.4 y 1.84, respectivamente. Si cada estudiante pag el costo fijo de $20,
ms $60 por cada crdito, cul es la media y la varianza de los pagos que realizaron los
estudiantes?.
Solucin.
Si el nmero de crditos en que se matricularon los estudiantes es: x1 , x 2 ,... , x N .
Los pagos realizados son: 20 + 60( x1), 20 + 60( x 2 ),... , 20 + 60( x N ).
Aplicando las propiedades del ejemplo anterior se tiene que la media y la varianza de los
pagos realizados son, respectivamente,
20 + 60(19.4) = 1184

(60)2(1.84) = 6624.

1.49. Ejemplo.

En un saln de clase estudian hombres y mujeres. El promedio general en el curso de


Estadstica es 25 y la desviacin estndar, 5. La media de las notas en el grupo de los

54. Estadstica Descriptiva.

Carlos Vliz Capuay

varones es 27 y la desviacin estndar, 4. Si la media en el grupo de las mujeres es 22,


hallar la desviacin estndar en este grupo.

Solucin.
Denotemos con M al grupo de las mujeres, con H al grupo de los hombres, con m al
nmero de mujeres, con h al nmero de hombres y con t al total de personas (t = m + h).
De los datos se tiene:
xG = media general = 25, G = desv. est . general = 5
x H = media hmbr. = 27, H = desv. est . hmbr . = 4
x M = media muje. = 22,

M = desv. est . muje = ?

Hallaremos la varianza en el grupo de las mujeres: 2M = (1 / m ) xi2 ( x M ) 2

(1)

A partir de los datos se tienen las siguientes relaciones:

25 =

25 =

27 h + 22 m
t

x i2
G

( 25)

(2)
2

x i2 + xi2
H
M
t

( 25)

(3)

xi2
16 =

( 27 )

(4)
2

De (3) y (4), se tiene que x i = [ 25 + ( 25) ]t [16 + ( 27 ) ]h

(5)

Reemplazando en (1), resulta


2

M =

650 t 745h
m

( 22 )

(6)

De (2) y considerando que m + h = t, se obtiene t/m = 5/2 y h/m = 3/2. Luego,


2

M =

650 t 745h
m

( 22 ) = 650(5/2) - 745(3/2) - 484 = 23.5.

La desviacin estndar de las notas en el grupo de las mujeres es

23.5 = 4.8476.

1.50. Ejemplo.

Se han registrado durante 30 das, el nmero de viajeros que hacen reservaciones a una
agencia de viajes pero que no las hacen efectivas:

Carlos Vliz Capuay

Estadstica Descriptiva. 55

12 18 14 12 10 10 20 9 19 15 18 16 16 16 14 18 16 18 14 19 19 15 13 15
13 18 12 17 14 14.
La media del nmero de pasajeros que hacen reservaciones y no las hacen efectivas es
igual a 15.1333 y la desviacin estndar es 2.8952.
En el intervalo [9.3429, 20.9237], que tiene la media como centro y dos desviaciones
estndar muestrales como radio, existe, segn Chebyshev, el 75% de los datos, por lo
menos.

Demostracin de la propiedad de Chebyshev.

Se desea demostrar que para un conjunto de datos, x1 , ..., x n , la proporcin de datos que
existen en el intervalo [ x ks , x + ks ] es por lo menos 1 - (1/k2).
Al conjunto de datos que estn dentro del intervalo lo llamaremos con D y al conjunto de
los datos que estn fuera con F.
Llamando con a al nmero de datos en F, se tiene:

( x i x ) 2 + ( xi x ) 2
2

s =

xi D

xi F

( xi x ) 2

xi F

de donde resulta, tomando los extremos, s 2 >

k 2 s2
>

xi F

ak 2 s 2
,
n

ak 2 s 2
1
a
o 2 > .
n
n
k

La ltima relacin indica que la proporcin de datos que estn fuera del intervalo es
menor que 1/k2. Por tanto la proporcin de datos que estn dentro del intervalo es mayor
o igual a 1 - 1/k2.
1.51. Ejemplo.

N datos correspondientes a la produccin diaria de gasolina de una planta


tienen media 150000 galones con una desviacin estndar de 1000 galones.
a) Hallar la proporcin de das cuya produccin de gasolina est entre 148000 y
152000.
b) Si se sabe que la menor produccin es 147000, calcular un intervalo que
contenga por lo menos 90% de los datos.
c) Con qu frecuencia se puede decir que la produccin ser mayor que
157000 galones diarios?.

56. Estadstica Descriptiva.

Carlos Vliz Capuay

Solucin.

a) El intervalo [148000, 152000] corresponde a [ x ks , x + ks ] con x = 150000


, s = 1000 y k = 2.
Aplicando la propiedad de Chebyshev con k = 2, se tiene que la proporcin de
das cuya produccin est en el intervalo indicado es por lo menos igual 1 (1/ k 2 ) = 0.75.
b) Un intervalo que satisface lo pedido es uno de la forma [ x ks , x + ks ] donde
1
k es tal que 1 2 = 0.90 . Luego k = 10 = 3.1622 y [ x ks , x + ks ] =
k
[146837.80, 153162.20].
Como la menor produccin es 147000, un intervalo que satisface la condicin
es
[147000, 153162.20].
c) La distancia entre 157000 y la media de la produccin expresada en
desviaciones estndar de la misma es
157000 150000
= 7.
1000
Esto indica que 157000 est a 7 desviaciones estndar de la media.
Aplicando la propiedad de Chebyshev, se tiene que la proporcin de das cuyo
produccin est en el intervalo [150000 - 7(1000), 150000 + 7(1000)] =
1
1
[143000, 157000] es por lo menos 1 2 = 1 2 = 1 0.0204 = 0.9796 .
k
7
Como la menor produccin es 147000 podemos decir que la produccin ser
mayor que 157000, en el (1 - 0.9796)100% = 2.04% de los das, a lo ms.

Datos tipificados o estandarizados


Si a cada elemento de un grupo de m datos, x1 ,... x m , se les resta su media y a este
resultado se le divide entre su desviacin estndar, entonces se dice que stos se han
estandarizado o tipificado. Las expresiones estandarizadas de los datos anteriores son:

x1 x
s'

x x
, ... , m
s'

Carlos Vliz Capuay

Estadstica Descriptiva. 57

Las expresiones estandarizadas permiten describir la posicin relativa de una medida


particular en un conjunto de datos y sirven para realizar comparaciones. Para ilustrar,
supondremos que en el aula A la media de las notas de Matemticas es 13 y la
desviacin estndar es 2, mientras que en el aula B las notas de Matemticas tienen
media 16 y desviacin estndar 1.
Si Juan, que estudia en el aula A, tiene la nota 12, y Pedro, quien estudia en el aula B,
tiene la nota 14, entonces se tendr que, dentro de cada uno de sus salones, Juan estar
en mejor posicin en su saln que Pedro en el suyo, ya que la nota estandarizada de Juan
(-0.5) es mayor que la nota estandarizada de Pedro (-2).

Ntese que, en virtud de las propiedades de la media y de la varianza,


para cualquier conjunto de datos estandarizados su media es 0 y su
varianza es 1.

Coeficiente de variacin .
El coeficiente de variacin se define como
CV =

s'
x

Este coeficiente expresa la desviacin estndar en medias aritmticas; tambin se


indica en porcentaje y a menudo se usa para comparar la variabilidad de dos o ms
conjuntos de datos que estn expresados en diferentes unidades. El grupo de datos que
tiene el mayor coeficiente de variacin, es el que tiene la mayor dispersin. Si las medias
de los dos grupos son iguales, entonces el grupo que tenga mayor desviacin estndar
ser el de mayor variacin o dispersin.
As por ejemplo, para cada grupo de datos: 0, 1, 2, 3, 4, y 50, 75, 100, 125, 150, las
desviaciones estndar son 1.4142 y 35.3553, respectivamente; sin embargo, no se puede
decir que en el segundo grupo existe mayor dispersin que en el primero. Los
coeficientes de variacin son: para el primer grupo, CV1 = 0.7071 (70.71%) y para el
segundo grupo, CV2 = 0.3535 (35.35%), indicando que en el primer grupo existe mayor
dispersin, que en el segundo.
El coeficiente de variacin tiene sentido para la escala de razn.
1.52. Ejemplo.

Una serie de mediciones de la temperatura de un cuerpo realizadas con el termmetro A,


tiene media 12.01 y desviacin estndar 0.027; mientras que con otro termmetro B, la
media de las mediciones fue 11.97 y la desviacin estndar, 0.014. Suponiendo que la
persona que opera los instrumentos no introduce sesgo alguno en las mediciones, cul
es el termmetro relativamente ms consistente?.

58. Estadstica Descriptiva.

Carlos Vliz Capuay

Solucin.
El termmetro ms consistente es el que tiene menor coeficiente de variacin. El
coeficiente de variacin del termmetro A es 0.0022 (0.22%), mientras que para el
termmetro B este coeficiente es 0.0012 (0.12%). El termmetro B es ms consistente.
1.53. Ejemplo.

En una entidad estatal los sueldos de los directivos, de los empleados y de los obreros
son como aparece en la siguiente tabla.
Media

Desv. Estnd.

Directivos

2000

100

Empleados

1200

100

Obreros

1100

100

En este caso no podemos decir que la dispersin de los sueldos de los directivos, de los
empleados y de los obreros son iguales, an cuando las desviaciones estndar lo son. Los
coeficientes de variacin son: para los directivos, 0.0500 (5%), para los empleados,
0.0833 (8.3%) y para los obreros, 0.0909 (9.09%). Ahora podemos indicar que, con
respecto a la media, la dispersin es mayor en los obreros y que la de los empleados es
mayor que la de los directivos.
1.54. Ejemplo.

La media y el coeficiente de variacin de los salarios de los empleados de una fbrica


son $200 y 0.1, respectivamente. Si a cada empleado se le aumenta el 15% de su sueldo
ms $20 por concepto de movilidad, cmo cambia el coeficiente de variacin?.
Solucin.
Antes de los aumentos, la media y el coeficiente de variacin son iguales,
respectivamente, a 200 y 0.1. Luego, la desviacin estndar antes del aumento es igual a
(200)(0.1) = 20. Por las propiedades de la media y de la varianza, la media de los
sueldos despus de los aumentos es (1.15)(200) + 20 = 250 mientras que la varianza es
(1.15)2(20)2 = 529.00 (la desviacin estndar es (1.15)(20) = 23).

Despus de los aumentos el coeficiente de variacin es (1.15)(20)/[1.15(200) + 20] =


23/250 = 0.092. La dispersin disminuy el [(0.1 - 0.092)/(0.1)](100) = 8% con
respecto al valor anterior.
1.55. Ejemplo.

En una empresa los salarios para los hombres tiene media $500 y desviacin estndar
$50. Para las mujeres, que constituyen el 30% del total de trabajadores, la media de los
salarios es $490 y la desviacin estndar 30. Para el prximo mes, la empresa proyecta
realizar un aumento general del 15% a hombres y mujeres. Use el coeficiente de
variacin para indicar si cambia o no la dispersin de los salarios. Cmo cambia la
variacin de los salarios si en lugar de aumentar el 15%, se aumenta $50 a cada hombre
y a cada mujer?.

Carlos Vliz Capuay

Estadstica Descriptiva. 59

Solucin.
La media de todos los trabajadores es x T = 0.7 (500) + 0.3( 490) = 497 .

La varianza de todos los salarios es

sT2 = 0.7 (50) 2 + 0.3( 30) 2 + 0.7 (500 497 ) 2 + 0.3( 490 497 ) 2 = 2041 .
La desviacin estndar de todos los salarios es 45.1774. El coeficiente de variacin es
45.1774/497 = 0.0900 (= 9%)
Despus de aumentar el 15%, la media es igual a (1.5)(497) = 571.55, la desviacin
estndar es (1.5)(45.1774) = 51.9540 y el coeficiente de variacin es 0.0909 (= 9.09%).
La dispersin de los salarios aument.
Despus de aumentar $50, la media aumenta a 547, la desviacin estndar sigue
siendo igual a 45.1774 y el coeficiente de variacin es 45.1774/547 = 0.0826,
esto es 8.26%. La dispersin de los salarios disminuy.

Percentiles e intercuartil para un grupo de datos.


Muchas veces se desea describir la posicin de una cierto valor en un conjunto de datos,
as por ejemplo, supongamos que se desea conocer si la nota 13, que un alumno ha
obtenido en una determinada asignatura, es "grande" o "pequea" dentro de su grupo.
Para responder esta inquietud se usan los percentiles.
Para introducir la definicin de percentil, ordenemos el conjunto de datos x1 , . x 2 , ..., x n
de tal manera que x (1) sea el menor, x ( 2 ) sea el que le sigue y as sucesivamente hasta
tener el mayor valor x ( n ) . As se tiene que x (1) x (2 ) ... x (n ) .
A cada nmero entre parntesis se le llama rango de la observacin.
Por definicin,

el valor x (i ) es el percentil 100[(i 0.5) / n] del conjunto de datos.


1.56. Ejemplo.

Ordenando el siguiente conjunto de datos: 15 18 23 15 16 25 17 19 21 25 se tiene:

15 15 16 17 18 19 21 23 25 25 .
El valor x ( 3) = 16 es el percentil 100(3 - 0.5)/10 = 25. Ntese que debajo de 16 existe
aproximadamente el 25% de los datos.

60. Estadstica Descriptiva.

Carlos Vliz Capuay

El valor x (5) = 18 es el percentil 45. Aproximadamente, el 45% de los datos son


menores o iguales que 18.
El percentil 35 corresponde al dato cuyo rango es 4. Esto es, el percentil 35 es 17.
En efecto,
(i 0.5)100
10( 35)
, de donde i =
+ 0.5 = 4.
10
100
Luego, el percentil 35 es x ( 4 ) = 17.
35 =

En general, de la definicin se tiene que el percentil k es la observacin con rango


(nk/100) + 0.5. Cuando este valor no es entero, se toma el promedio de los datos cuyos
rangos son prximos a este nmero.
OBSERVACIONES.

1. Aproximadamente, el k% de los datos es menor o igual que el percentil k.


2. El percentil 50 es igual a la mediana, pues para ste el rango es n(50)/100 + 0.5 =
n/2 + 0.5, valor que corresponde al dato central cuando n es impar y al promedio de los
dos datos centrales cuando n es par.
3. A x (i ) se le llama tambin cuantil de orden (i - 0.5)/n.
Denotaremos con C k al percentil k.
A partir de la suavizacin, y = F(x), de la ojiva correspondiente a la frecuencia
acumulada relativa de un grupo de datos (figura 1.22 b) se observa que F(Ck) es
aproximadamente igual a k/100.
As, F(C25) 25/100 = 0.25, F(C50) 50/100 = 0.5, etc.
1
F
0.75
0.50

rea rea
25%

rea

25% 25%

25

50

rea
25%

0.25

C C C
25 50 75

75

(a)

(b)
Figura 1.22. Centiles.

Carlos Vliz Capuay

Estadstica Descriptiva. 61

A los percentiles 25, 50 y 75 se les llama primer cuartil, segundo cuartil y tercer
cuartil, respectivamente.
1.57. Ejemplo.

Si los sueldos de 15 personas son, respectivamente, 100, 300, 400, 1300, 1370, 1450,
1500, 1650, 1670, 1710, 1800, 1900, 1950, 2000, 2050, se tiene que:
El percentil 25 (primer cuartil) corresponde al rango (25)(15)/100 + 0.5 = 4.25.
Como el rango no es entero, el percentil 25 es el valor
[ x (4 ) + x (5) ] / 2 = [1300 + 1370] / 2 = 1335.
el percentil 75 corresponde al rango (75)(15)/100 + 0.5 = 11.75. Luego, el percentil 75
es el valor
[ x (11) + x (12) ] / 2 = [1800 + 1900] / 2 = 1850.
1.58. Ejemplo.

Los tiempos respectivos, en minutos, que 10 personas demoran en ir de A a B son:


81 77 76 86 79 79 80 89 77 78 85 76 88 78 83.
Ordenando los datos:
76 76 77 77 78 78 79 79 80 81 83 85 86 88 89
La mediana es el valor cuyo rango es 15/2 +0.5 = 8. Luego, la mediana es x (8) = 79 .
El primer y tercer cuartil corresponden a los valores cuyos rangos son: 15/4 + 0.5 = 4.25
y 15(3/4) + 0.5 = 11.75. Como los rangos no son enteros el primer y tercer cuartil se
aproximan con:
[ x ( 4 ) + x (5) ] / 2 = 77.5 y [ x (11) + x (12 ) ] / 2 = 84.5 .
Utilizando los percentiles es posible formar intervalos cuyas longitudes suelen
considerarse como ndices de dispersin de los datos. El intervalo que ms se usa es el
que tiene como extremos el primer y tercer cuartil; la longitud de ste se llama rango
intercuartil.
En el ejemplo, el rango intercuartil es 84.50 - 77.50 = 7.00.
Las ventajas del rango intercuartil, como medida de dispersin, son: la rapidez en su
clculo y la resistencia ante fluctuaciones de los datos extremos. Un dato extremo puede
cambiar sensiblemente pero no el rango intercuartil.

62. Estadstica Descriptiva.

Carlos Vliz Capuay

Clculo de los percentiles para datos agrupados.


A partir de una tabla de frecuencias, obtenida por el mtodo de intervalos de clase,
para aproximar el percentil Ck se sigue un procedimiento anlogo al que se realiz
para aproximar la mediana, si se tiene en cuenta que debajo de ste existe k% de los
datos, aproximadamente,
1. Se ubica el intervalo [a, b[ en donde est el percentil Ck .
2. El valor del percentil es, aproximadamente,

Ck a + (b a )

( k / 100) Fa
,
Fb Fa

en donde Fa es la frecuencia relativa hasta el valor a , mientras que Fb es


la frecuencia relativa hasta b.
1.59. Ejemplo.

A continuacin se presenta la distribucin de las puntuaciones en un examen del idioma


ingls de 65 alumnos. En forma aproximada, calcular el intercuartil.
Puntuaciones

Ni

[50, 55[
[55, 60[
[60, 65[
[65, 70[
[70, 75[
[75, 80[
[80, 85[
[85, 90[
[90, 95[
[95, 100]

1
2
3
2
8
9
7
16
11
6

fi
0.0154
0.0307
0.0461
0.0307
0.1231
0.1385
0.1077
0.2461
0.1693
0.0923

Fi
0.0154
0.0461
0.0922
0.1229
0.2460
0.3845
0.4922
0.7383
0.9076
1.0000

Solucin.
Aproximando el primer cuartil C25 y luego el tercer cuartil C75.

El primer cuartil est en el intervalo [75, 80[. Aplicando la expresin general para
aproximar un percentil, se tiene

C25 75 + (5)

0.2500 0.2460
= 751444
.
.
0.3845 0.2460

El tercer cuartil est en el intervalo [90, 95[, luego se tiene

Carlos Vliz Capuay

Estadstica Descriptiva. 63

C75 90 + (5)

0.7500 0.7383
= 90.3455.
0.9076 0.7383

El intercuartil es 90.3455 - 75.1444 = 15.2011, aproximadamente. Hay 50% de los


alumnos que tienen puntuaciones entre 75.1444 y 90.3455.

MEDIDA DE ASIMETRIA: Sesgo de Pearson.


La asimetra de los grficos de distribuciones unimodales se mide con el sesgo de
Pearson. Este ndice se calcula teniendo en cuenta que en este tipo de curvas la media
aritmtica tiende a situarse, con respecto de la moda, al mismo lado de la cola ms larga.
(Figura 1.23).
Una medida para el sesgo se obtiene con la diferencia media - moda. Si la diferencia es
positiva, la curva tiene una cola a la derecha; si la diferencia es cero la curva es
simtrica; si la diferencia es negativa la curva tiene una cola a la izquierda.
La medida obtenida depende de las unidades que en cada caso se usen, por ello para
comparar la simetra de dos o ms curvas es necesario estandarizar los sesgos,
obtenindose la medida que se conoce como el sesgo de Pearson:

Media Moda
Desv. est .

M 0

M x0

M 0 x

Figura 1.23.

En distribuciones que no son muy asimtricas se cumple la relacin emprica


Moda x 3( x Mediana ) .

Usando esta relacin, el sesgo de Pearson se aproxima con

64. Estadstica Descriptiva.

Carlos Vliz Capuay

Sesgo de Pearson

3( Media Mediana )
.
Desv. estd .

Esta aproximacin es ms fcil de calcular y como en el caso anterior, es igual a cero


cuando la curva de distribucin es simtrica. Si este valor es positivo, la curva de
distribucin tiene una cola a la derecha y si es negativo la curva de distribucin tiene una
cola a la izquierda.
La asimetra o simetra del polgono de frecuencias suele tambin calcularse con

A=

C75 + C25 2C50


.
C75 C25

|
C

25

|
C

|
C

50

75

Figura 1.24.

Como C75 + C25 2 C50 = ( C 75 C50 ) ( C50 C25 ) , se puede indicar que el polgono
de frecuencias es
* simtrico, si C75 + C 25 2 C50 = 0, (las longitudes de los intervalos [ C 25 , C50 ] y
[ C50 , C 75 ] deben ser iguales). Esto es, si A = 0.
* asimtrico, con cola a la derecha, si C75 + C25 2 C50 > 0. Esto es, si A > 0.
* asimtrico, con cola a la izquierda, si C 75 + C 25 2 C50 < 0. Esto es, si A < 0.
NOTAS.

1. A partir de un conjunto de datos cuyo polgono de frecuencias no es simtrico, se


puede lograr un nuevo conjunto de datos cuyo polgono de frecuencias si es simtrico.
Para ello se eleva cada dato a una determinada potencia positiva, tal como 1/2, 1/3 o
aplicando el logaritmo. La eleccin de la potencia adecuada puede lograrse, en primera
instancia, por ensayo y luego, con ayuda del histograma, observar si se ha cumplido el
objetivo.
2. Otra medida de la asimetra es el coeficiente de Fisher que se define como
1 =

en donde =
3

3
s3

1 n
( x x ) 3 y s es la desviacin estndar de x1 , ..., x n .
n i =1 i

Carlos Vliz Capuay

Estadstica Descriptiva. 65

El coeficiente de Fisher no tiene dimensin y es igual a 0 cuando la distribucin es


simtrica. Si la distribucin es unimodal, el coeficiente de Fisher es positivo si sta es
asimtrica con cola a la derecha y es negativo en el caso contrario.

MEDIDA DE APUNTAMIENTO O AGUDEZA: Curtosis.


El coeficiente de curtosis de un grupo de datos, es una medida del
apuntamiento o aplastamiento de su polgono de frecuencias; se define como
k=

( 0.5)( C75 C 25 )
,
C90 C10

en donde C75 es el percentil 75, etc.


Cuando el coeficiente de curtosis tiende a 0.5; esto es, si las diferencia C75 C25 y C90
C10 son aproximadamente iguales, la curva se llama leptocrtica.
Si el coeficiente de curtosis tiende a 0; esto es, cuando la diferencia C75 C25 es
pequea, respecto de C90 C10 , la curva se llama platicrtica.
Si el coeficiente de curtosis es aproximadamente 0.25; esto es, si C90 C10 es
aproximadamente el doble de C75 C25 , la curva se llama mesocrtica.
Leptocrtica.

M e s o c rtic a

P la tic rtic a

Figura 1.25.

NOTA.

Otra medida de la curtosis es el coeficiente de apuntamiento de Fisher que se define


como
2 =

4
s4

1 n
en donde = ( x x ) 4 y s es la desviacin estndar de x1 ,... , x n .
4
n i =1 i
Este es un coeficiente sin dimensin. La constante 3 se elige de tal manera que el
coeficiente sea nulo cuando la distribucin sea mesocrtica.

66. Estadstica Descriptiva.

Carlos Vliz Capuay

El coeficiente de apuntamiento de Fisher es positivo cuando la distribucin es


leptocrtica y negativo cuando la distribucin es platicrtica.

GRAFICOS DE CAJAS. (Box Plots).


En los grficos de cajas se representan: la mediana y los cuartiles, permitiendo tener una
idea de la dispersin de los datos.
Un grfico de cajas es un rectngulo, como el de la siguiente figura,

|
|

25

75

Figura 1.26.

en donde los lados "laterales" indican los percentiles C25 y C75, respectivamente. En el
rectngulo se indica la mediana, con un segmento. De los lados que representan a los
. d,
percentiles 25 y 75 parten, respectivamente, un segmento hasta el valor L = C25 15
en donde d es el rango intercuartil y un segmento hasta el valor U = C75 + 15
. d.
De un grfico de cajas se obtiene informacin acerca de:

La centralizacin de los datos (con la mediana).

La dispersin (con el rango intercuartil C75 - C25).

La simetra (observando la posicin de la mediana).

La longitud de las "colas" (con los segmentos que parten de los lados laterales).

En muchos casos, observaciones inconsistentes son incluidas en un conjunto de datos.


Estas observaciones atpicas o discordantes se conocen con el nombre de "outliers" (en
el idioma ingls). Un "outlier" aparece generalmente debido a las siguientes causas:
a) Por observacin incorrecta, por anotacin incorrecta o por introduccin incorrecta del
dato al computador.
b) Porque la observacin es de una poblacin diferente a la poblacin de la cual viene el
resto de las observaciones.

Carlos Vliz Capuay

Estadstica Descriptiva. 67

c) Porque la medida es correcta pero el evento es raro.


Una regla prctica indica que una observacin es outlier si es menor que L o mayor que
U. Las observaciones de este tipo se representan en el grfico con *.
1.60. Ejemplo.

La siguiente figura representa un grfico de cajas correspondiente a 58 notas de los


alumnos de un curso de Historia.

12

18
*
19

20
Notas

Figura 1.27.

Se observa que el "centro" de los datos es 9 (la mediana). El percentil 25 es 8, el


percentil 75 es 12. El rango intercuartil es 4 (el 50% de las notas estn entre 9 y 14). Las
notas 19 y 20 son datos discordantes o outliers.
Los grficos de cajas se usan para comparar la dispersin de dos o ms grupos de datos,
cuando stos estn expresados en la misma unidad de medida. Tal caso se presenta en la
siguiente representacin, en donde se nota, por ejemplo, que el grupo B tiene un outlier
que es mayor que el outlier que se presenta en A. En el grupo A hay mayor dispersin
que en el grupo B. El grupo B es ms simtrico que el grupo A. El grupo A tiene una
cola a la izquierda.
Grupo A
*
Grupo B
*
|
0

|
20

|
40

|
60

|
80

|
100

|
120

|
140

Figura 1. 28.

1.9. CARACTERISTICAS DE CONCENTRACION: Indice de


Gini.
Para medir la manera como estn concentrados los salarios o la riqueza, en distintos
grupos de una poblacin se usa el ndice de concentracin de Gini.

68. Estadstica Descriptiva.

Carlos Vliz Capuay

Para establecer el ndice de concentracin de Gini, consideremos la siguiente tabla, en


donde se observa la distribucin de 58058 obreros de acuerdo a su salario.
En esta tabla, ni es la frecuencia en cada intervalo de clase, Fi es la frecuencia
acumulada relativa. La columna indicada con Si expresa la suma total de los ni sueldos
que se encuentran en el respectivo intervalo y la columna indicada con qi expresa la
proporcin de la masa total monetaria que han ganado los n1 + n2 + ... + ni primeros
obreros. Esto es,
i

Si

qi =

j =1

en donde S es el total de masa monetaria ganada por todos los obreros.


DISTRIBUCION DE 58058 OBREROS DE ACUERDO
A SUS SALARIOS.
inter.de clase
[100, 120[
[120, 130[
[130, 140[
[140, 150[
[150, 160[
[160, 170[
[170, 180[
[180, 190[
[190, 200]

Ni
2413
4342
8642
13300
14500
10200
4093
443
125

Total

58058

Fi
0.0416
0.1164
0.2652
0.4942
0.7440
0.9196
0.9901
0.9978
1.0000

Si
253365
525382
1192596
1888600
2276500
1652400
732647
81955
24875

qi
0.0293
0.0903
0.2284
0.4473
0.7112
0.9027
0.9876
0.9971
1.0000

8628320

en donde S es el total de masa monetaria ganada por todos los obreros.


En la tabla podemos leer, por ejemplo, que el 49.42% de los trabajadores reciben el
44.73% de la masa total de los salarios de los 58058 trabajadores, que el 74.40% de los
trabajadores perciben el 71.12% del total de los salarios, etc.
Uniendo los puntos (qi , Fi) se obtiene la curva de concentracin de Lorenz, que en la
siguiente figura se indica.

Carlos Vliz Capuay

Estadstica Descriptiva. 69

F
i

1
i
A
Curva de Lorenz

F
i-1

q
i -1

1
Figura 1.29.

El ndice de concentracin de Gini, se define como el doble del rea de


la regin comprendida entre la curva de concentracin de Lorenz y la
bisectriz principal.
OBSERVACIONES

1. El ndice de Gini es un valor comprendido entre 0 y 1.


2. El mnimo valor del ndice de Gini es igual a 0 y se obtiene cuando todos los
grupos, se reparten por igual la masa monetaria.
3. Si un grupo, digamos el primero, gana toda la masa monetaria, se demuestra que
el ndice de Gini es igual a 1.
Lo anterior indica que si la curva de concentracin tiende a los lados del rectngulo,
existe una "fuerte concentracin"; un alto porcentaje de los asalariados se reparte una
pequea parte de los salarios mientras que un pequeo porcentaje de ellos se reparte casi
la masa total de los salarios. Si la curva de concentracin tiende a la bisectriz del
cuadrado se dice que existe "una concentracin dbil"; el ndice de Gini tiende a 0 y los
salarios son casi idnticos para toda la masa de trabajadores.
Una expresin aproximada del ndice de Gini, se encuentra aproximando el rea A de la
regin comprendida entre la bisectriz y la curva de concentracin. Se tiene que
Area A 0.5 -

[ 0.5(q i + qi 1 )( Fi Fi 1 )] .

Luego,

Indice de Gini = 2(Area A) 1 - [ ( q i + q i 1 )( Fi Fi 1 )]


Para los datos registrados en la tabla de distribucin de los 58058 obreros, el ndice de
Gini es igual a 0.4399. La concentracin de los salarios es baja.

70. Estadstica Descriptiva.

Carlos Vliz Capuay

1.10. EJERCICIOS .
1.- Calcular la media, la mediana y la moda de los datos 2 5 5 6 6 6 7 7 60. Comentar los resultados .
Cul de las medidas calculadas describe mejor el centro de la distribucin de los datos?.
Rpta. x = 115555
.
, M 0 = 6, M e = 6.
2. El siguiente conjunto de datos, corresponde a los porcentajes de humedad en diferentes lugares en una
determinada regin: 90 63 20 18 12 60 24 28 14 11 85 29 25 8 10 86 16 25 6 11
80 16 20 16 6.
a) Calcular la media y la desviacin estndar s
b) Qu porcentaje de datos est en el intervalo [ x 2 s , x + 2 s ] ?.
Rpta. a) x = 311600
.
s' = 27.2597 .
3. A continuacin se presenta la distribucin de 53 tiendas de abarrotes de acuerdo al nmero de empleados
que tienen.
Nm. de
emplead.

Nm. de
tiendas

2
3

11
16

17

Usar la informacin de la tabla para calcular la media, la mediana y la desviacin estndar del nmero de
empleados.
4. Los siguientes resultados indican el rendimiento de dos marcas de llantas:
Llanta
A
B

Mediana, en Km..
25000
27000

Media en Km.
27000
25000

Si las llantas de cualquier marca se venden al mismo precio, qu marca de llanta se recomienda?.
5. Los datos siguientes corresponden al tiempo, en minutos, que demora una oficina "en darle trmite" a 50
documentos que ha recibido.
400 392 358 304 108 156 438 60 360 168 448 224 576 384 194 216 120 208 232 72 264 168
128 256 72 136 168 308 340 64 480 114 80 246 224 184 104 112 184 152 152 536 224 464
72 152 168 288 264 208.
a) A partir de la tabla de frecuencias, construir el histograma de frecuencias relativas. Graficar el polgono
de frecuencias relativas. Indicar las caractersticas de la distribucin.
b) Calcular la media, varianza, desviacin estndar y el coeficiente de variacin de los datos.
c) Calcular la mediana, utilizando directamente los datos y utilizando la ojiva de la frecuencia acumulada
relativa.
d) Calcular los percentiles C10, C20, C75, y C90.
6. Se informa que en el saln B las notas de Historia de los alumnos que lo forman se distribuyen tal como lo
indica la siguiente tabla y en donde fi son las frecuencias relativas

Carlos Vliz Capuay

Estadstica Descriptiva. 71

Notas

fi

[8, 12[

f1

[12, 16[

f2

[16, 20]

f3

Calcular aproximadamente la media de las notas en B si el 45% tiene una nota inferior a 11 y el 70% tienen
una nota inferior a 17.
Rpta. Los valores respectivos de las frecuencias relativas son 0.60, 0 y 0.4. La media es 13.2
7. Indicar una lista de 10 nmeros de forma que la desviacin estndar sea lo ms grande posible con la
condicin de que:
a) cada nmero sea un 1 o un 5.
b) cada nmero sea un 1 o un 5 o un 9 y, a lo ms, dos de ellos sean 5.
8. Un investigador toma una muestra de 100 hombres cuyas edades estn comprendidas entre 18 y 24 aos de
edad en una ciudad determinada. Otro investigador toma una muestra de 1000 hombres cuyas edades
tambin estn entre 18 y 24 aos.
a) Habr una muestra con una media mayor que la media de la otra muestra o sern ambas parecidas?.
b) Habr una muestra con una desviacin estndar mayor o sern ambas parecidas?.
9. Tres profesores estn comparando las notas de los exmenes finales que han realizado. Cada profesor tiene
99 alumnos. En la clase A, un estudiante obtuvo 1 punto, otro obtuvo 99 puntos, y el resto obtuvieron 50
puntos. En la clase B, 49 estudiantes lograron una puntuacin de 1, un estudiante logr 50 puntos y 49
alumnos llegaron a los 99 puntos. En la clase C, un estudiante logr 1 punto, otro estudiante 2 puntos, otro
estudiante 3 puntos y as sucesivamente hasta llegar el estudiante nmero 99 que logr los 99 puntos.
a) Existe alguna clase que tenga una media de notas superior a las dems o todas las medias son iguales?.
b) Existe alguna clase que tenga una desviacin estndar de notas superior a las dems o todas las
desviaciones estndar son iguales?.
10. En un conjunto de nmeros positivos, puede ser mayor la desviacin estndar que la media en alguna
ocasin?.
11. Un conjunto est formado por 10 nmeros. Cada nmero es: o el 1, o el 2 o el 3.
a) La media es 2 y la desviacin estndar es 0. Cmo es el conjunto de datos exactamente?.
b) La desviacin estndar es 1. Cmo es el conjunto exactamente?.
c) Puede ser la desviacin estndar superior a 1?.
12. Un profesor est haciendo a sus alumnos un examen que tiene una calificacin mxima de 20 puntos. Su
sistema es tal, que las notas deben ser necesariamente mltiplos de 5. Al final, una vez corregidos los
exmenes obtiene la siguiente distribucin de notas.
40% obtuvieron la nota 20, 30% obtuvieron 15, 20% obtuvieron 10 y 10% obtuvieron 5.
a) Si se supone que hay 20 alumnos, se puede hallar la media y la desviacin estndar?.
b) Si no se sabe el nmero de alumnos, se puede calcular la media y la desviacin estndar?.
13. La reparticin de un grupo de 75 alumnos de un colegio de acuerdo a su talla en cm, es como se indica en
la siguiente tabla.
a) Graficar la frecuencia relativa y la frecuencia acumulada relativa.

72. Estadstica Descriptiva.

Carlos Vliz Capuay

b) Usar las marcas de clase para aproximar la media, la mediana y la desviacin estndar.
Talla

Frecuencia

[80, 85[

[85, 90[

14

[90, 95[

23

[95, 100[

17

[100, 105[

11

[105, 110]

14. A continuacin se presenta la distribucin de los tiempos totales, en minutos, que diferentes estaciones de
radio dedican a los avisos comerciales entre las 8:00 a. m. y las 12:00 m.
Tiempo

# radios

[0.5, 6.5[
[6.5, 12.5[
[12.5, 18.5[
[18.5, 24.5[
[24.5, 30.5[
[30.5, 36.5[
[36.5, 42.5[
[42.5, 48.5[
[48.5, 54.5[
[54.5, 60.5]

1
3
18
2
1
10
0
0
2
14

a) Usar las marcas de clase para aproximar la media y la desviacin estndar del tiempo que las estaciones
de radio dedican a los avisos comerciales entre las 8:00 a.m. y las 12:00 m.
b) Calcular el porcentaje de tiempos de avisos comerciales que estn en el intervalo [ x 3s , x + 3s ] .
c) Calcular la mediana, utilizando la ojiva de la frecuencia acumulada relativa.
15. Los 100 alumnos de una seccin A se distribuyen de acuerdo a sus notas de Historia tal como indica la
siguiente tabla (ni indica la frecuencia).

[8, 10[

ni
28

[10, 12[

50

[12, 14]

22

Notas

De manera aproximada, calcular la nota debajo de la cual est el 40% de las notas. Tambin calcular,
aproximadamente, la mediana.
Rpta. El percentil 40 es 10.48.
16. Se encontr que en 800 datos la media aritmtica y la desviacin estndar eran 9.496 y 0.345,
respectivamente. Una revisin de los resultados mostr que en lugar del valor 9.56 se introdujo 1.56.
Recalcular la media aritmtica y la desviacin estndar.
Rpta. 9.506, 0.200.
17. Calcular la media de un grupo de 80 datos que ha sido dividido en tres subgrupos: A, B y C, para los
cuales se tienen las medias y el nmero de datos correspondiente:

Carlos Vliz Capuay

Estadstica Descriptiva. 73

x A = 50, N A = #( A) = 10, x B = 80, N B = #( B) = 20 y xC = 60, N C = #(C ) = 50.


Rpta. 63.75.
18. Aplicando las propiedades de la media, probar que si x1, ... , xm , es un conjunto de datos cuya media es
x , entonces el conjunto de datos y1, ... , ym , obtenidos al realizar la transformacin yi = axi + b , donde a
y b son constantes, tienen media y = ax + b.
19. Calcular la media y la desviacin estndar de un grupo de 30 datos que ha sido dividido en dos grupos: A
y B, para los cuales se tiene:

x A = 50, N A = 10, s A = 5 y x B = 80, N B = 20, s B = 8.


Rpta. La media es 70 y la desviacin estndar, 15.84.
20. El 70% del personal de una compaa son varones y el resto, mujeres. El promedio de los sueldos de los
varones es $ 700 y el promedio en el grupo de mujeres es $ 600. Hallar el sueldo promedio del personal de
la compaa.
21. La media y la varianza de los tiempos x1,..., xn utilizados en realizar n tareas similares son 14 y 2.89,
respectivamente. El costo por realizar cada tarea es yi = 20 + 0.5xi + 0.1xi2 , hallar la media de los costos.
22. En una empresa pblica el promedio de los sueldos de los obreros es 40 unidades monetarias (u.m.) y el de
los empleados, 50 u.m. Si la empresa decide aumentar 20 u.m. a cada empleado y obrero; hallar el promedio
general de los sueldos actuales (considerando el aumento) si el nmero de obreros es el 10% del nmero de
empleados.
Rpta. 69.09.
23. Durante el mes de marzo el sueldo promedio de los trabajadores del sector industrial era de $100. Para el
mes de abril se considera para cada trabajador un aumento del 30%, con respecto del mes de marzo ms un
adicional de $50. Si el coeficiente de variacin en marzo era de 0.25, se puede decir que la distribucin de
sueldos en abril es ms homognea?.
Rpta. Si, el nuevo coeficiente de variacin es 0.1805.
24. En el mes de enero, el promedio de los salarios de los empleados de una empresa era 40 u.m.; en el mes de
febrero, la empresa consider un incremento del 25% en el nmero de empleados y con un salario igual al
80% del promedio de los salarios de los antiguos empleados. En el mes de marzo, la empresa hizo efectivo
un aumento del 25% en el salario de cada uno de los empleados, ms una asignacin de 20 u.m. por
escolaridad. Hallar el sueldo promedio de los salarios de los empleados en el mes de marzo.
25. El coeficiente de variacin de un grupo de datos es 0.1. Si a cada dato se le aumenta primero el 20% de su
valor y luego 5 unidades, el coeficiente de variacin es igual a 0.05. Halle el valor de la media y la varianza
de los datos originales. Halle el valor de la media y de la varianza despus del aumento.
Rpta. La media y la desviacin estndar originales son: 4.1666, 0.4166.
26. El tiempo que 30 operarios demoraron en ejecutar una tarea fue registrado en minutos, obtenindose:
7.0 9.0 11.4 7.2 10.2 13.5 17.0 14.0 14.5 8.0 9.1 9.4 13.1 8.5 10.4 15.5 12.0 11.0 11.2 9.6 9.2
9.5 15.6 8.4 10.8 13.0 12.5 12.4 10.5 7.8.
Construir una distribucin de frecuencias con cinco intervalos de igual longitud y a partir de sta estudiar,
usando medidas estadsticas adecuadas las siguientes afirmaciones:
a) Calculando una medida central representativa para esta distribucin, se deduce que el tiempo promedio
de ejecucin de la tarea por operario llega a superar los 11 minutos.
b) La mitad de los operarios no demor ms de 10.8 minutos.

74. Estadstica Descriptiva.

Carlos Vliz Capuay

c) Un operario cualquiera nunca demor un tiempo que excedi al tiempo medio en ms de dos
desviaciones estndar.
Si se eligiera al azar a uno de los operarios y se deseara predecir el tiempo en que ste ejecut la tarea, de tal
manera que el promedio de los cuadrados de los errores fuera mnimo, cul sera el valor de prediccin?.
Si se eligiera al azar a uno de los operarios y se deseara predecir el tiempo en que ste ejecut la tarea, de tal
manera que el promedio de los de los errores en valor absoluto fuera mnimo, cul sera el valor de
prediccin?.
27. La distribucin de mujeres cuyas edades fluctan entre 40 y 50 aos, de acuerdo al nmero de hijos en las
comunidades A y B es como se indica en la siguiente tabla.
Nmero de mujeres
Nmero hijos

0
1
2
3
4

6
9
23
28
22

8
15
20
15
10

Comparar las distribuciones en A y B usando las medias y los coeficientes de variacin.


a) Las mujeres, de qu comunidad, tienen el mayor promedio de hijos?.
b) Para que comunidad, la distribucin del nmero de hijos es ms homognea?.
28. En un grupo de datos, el 1 se repite el 25% de las veces y el 2 se repite el 75% restante. Para tal grupo,
hallar el valor a que hace que la suma (1 a) 2 + ... + (1 a) 2 + (2 a) 2 + ... + (2 a) 2 , sea mnima.

Rpta. 1.75
29. Las ciudades A, B, y C (en ese orden) estn unidas en lnea recta por una carretera. La distancia entre las
ciudades A y B es 4 km, mientras que entre B y C la distancia es 5 km. Se desea construir un centro de
recreo en un punto de la carretera para un total de 200 nios distribuidos de la siguiente manera: 25% de los
nios viven en A, 35% de los nios viven en B y el resto vive en C. Cul debe ser la ubicacin del centro
de recreo si se considera que el costo de transporte por cada nio es proporcional a la distancia recorrida y
el costo total al transportar a todos los nios debe ser mnima?.
Rpta. La respuesta corresponde a la mediana de los valores: 0, repetido 50 veces, 4 repetido 70 veces y 9
repetido 50 veces.
30. Usando los datos del ejercicio 5, calcular los percentiles 10, 20, 50 y 75.
31. Usando los datos de la tabla del ejercicio 8, calcular aproximadamente el intercuartil.
32. Durante cuatro aos consecutivos un banco aument su capital en 100%, 150%, 300% y 400%. Indicar la
tasa de aumento promedio del capital si al inicio fue 50 millones de dlares.
33. El aumento de la tasa de cambio en el pas durante las cuatro semanas del mes de Junio y con respecto a la
semana anterior fue como sigue: 1%, 2%, 3%, y 2%. Calcular, usando la media geomtrica, el aumento
promedio de la tasa de cambio.
Rpta. El aumento promedio de la tasa de cambio es 1.9975%.

Carlos Vliz Capuay

Estadstica Descriptiva. 75

34. Determinar la tasa de crecimiento promedio de la poblacin en los ltimos tres aos si en 1992 la
poblacin fue 18000000, en 1993 fue 2000000 y en 1994 fue 25500000. Indicar por qu la media
aritmtica no es adecuada para indicar el cambio promedio de crecimiento.
35. La velocidad con que escriben tres personas el mismo texto es 60, 70 y 65 palabras por minuto,
respectivamente. Calcular la velocidad promedio.
Rpta. 64.74 palabras por minuto.
36. En la siguiente tabla se registran: el tiempo que emplean 5 obreros en fabricar un artculo as como el
tiempo total trabajado por cada uno de ellos. Calcular el tiempo promedio que se utiliza en fabricar un
artculo.
Obreros

Tiempo. usado por


artculo en minuto.

Tiempo total trab.


en minuto.
480

480

1.00

480

1.20

480

1.20

240

1.50

0.80

37. Dos alumnos desarrollaron, cada uno, una prueba que tena 40 "tems". El primero hizo una pregunta cada
2 minutos y el segundo una pregunta cada 2.5 minutos. Calcular el promedio de preguntas desarrolladas
cada 5 minutos.
Rpta. 2.22 preguntas cada 5 minutos.
38. Una propiedad importante de la media dice que si x1,..., xn tienen media x y si y = f ( x ) es una
1 n
funcin cncava hacia abajo entonces f ( x ) f ( xi ) (Desigualdad de Jensen).
n
i =1
Usando la desigualdad de Jensen, probar que G x , en donde G es la media geomtrica de los datos.
39. Para los datos del ejercicio 5, hallar el sesgo y el coeficiente de curtosis. A qu tipo de curva
corresponde?.
40. El ndice de Gini puede usarse tambin para analizar la concentracin de la poblacin de una determinada
regin. A partir de la siguiente informacin, analizar la concentracin de la poblacin.
Habitantes
[500, 1000[
[1000, 1500[
[1500, 2000[
[2000, 2500[
[2500, 3000[
[3000, 3500[

Nmero de
distritos

Poblacin
total

320
130
110
80
30
10

192000
143000
187000
192000
79500
34500

También podría gustarte