Está en la página 1de 40

E STAD ÍSTICA I

U NIVERSIDAD D ON B OSCO
D EPARTAMENTO DE C IENCIAS B ÁSICAS

CONTROL DE LECTURA I:
ESTADÍSTICA DESCRIPTIVA
1. CONCEPTOS FUNDAMENTALES

1. Conceptos fundamentales
La aplicación del tratamiento estadı́stico tiene dos fases fundamentales:
1. Organización y análisis inicial de los datos recogidos.
2. Extracción de conclusiones válidas y toma de decisiones razonables a partir de
ellos.
Los objetivos de la Estadı́stica Descriptiva son los que se abordan en la primera de
estas fases. Es decir, su misión es ordenar, describir y sintetizar la información reco-
gida. En este proceso será necesario establecer medidas cuantitativas que reduzcan
a un número manejable de parámetros el conjunto (en general grande) de datos
obtenidos.
La realización de gráficas también forma parte de la Estadı́stica Descriptiva dado que
proporciona una manera visual directa de organizar la información.
La finalidad de la Estadı́stica Descriptiva no es, entonces, extraer conclusiones gene-
rales sobre el fenómeno que ha producido los datos bajo estudio, sino solamente su
descripción (de ahı́ el nombre).
Definición
Estadistica Descriptiva. Conjunto de técnicas orientadas a la presentación de
datos mediante tablas y gráficas que permiten resumir o describir el compor-
tamiento de los mismos, sin realizar inferencias sobre ellos.

1.1. Población y muestra

La población o universo es un conjunto de elementos a los cuales se le estudian


algunas caracterı́sticas comunes; por ejemplo, los docentes de una institución edu-
cativa, las empresas de un sector productivo, los parques de una ciudad, los artı́culos
vendidos en un supermercado, entre otros.
La población puede ser finita o infinita. Se dice que una población es finita cuando
el número de los elementos que la integran es conocido por el investigador; tal es el
caso de los parques de una ciudad, los docentes de una universidad, los operarios de
una industria, etc., mientras que para la población infinita no se conoce el número
de elementos, ya sea porque es muy grande o porque se sabe que existe pero no se
conoce el tamaño, por ejemplo: los lanzamientos de un dado, el número de veces
que una persona puede pasar por un sitio y demás.
La muestra se define como un conjunto de elementos seleccionados adecuadamente,
que pertenecen a una población determinada, o sea que es una parte de la población
o universo. Al seleccionar una muestra se pretende que el análisis realizado en ella
pueda proporcionar conclusiones similares a las que se lograrı́an si se hubiese estu-
diado la totalidad de elementos de la población; por tal razón, la muestra debe ser
representativa.

2
1. CONCEPTOS FUNDAMENTALES

Figura 1: Población y muestra.

Definiciones
- Población: Conjunto completo de individuos, objetos o medidas que po-
seen alguna caracterı́stica común observable.
- Muestra: Es un subconjunto o parte de la población, que lleva implı́cita
todas las caracterı́sticas del universo.

1.2. Variables estadı́sticas


En estadı́stica, se considera como variable cualquier caracterı́stica o propiedad ge-
neral de una población que sea posible medir con distintos valores o describir con
diferentes modalidades, por ejemplo: el coeficiente intelectual de los estudiantes de
un grupo puede tener diferentes valores, o el estado civil de los empleados de una
organización puede estar caracterizado como soltero, casado, separado, entre otros.
Ası́, estas dos caracterı́sticas se consideran variables porque, como el término lo in-
dica, varı́an al medirse o caracterizarse de un elemento de la población a otro.
Las variables se clasifican de la siguiente manera:
• Variables categóricas o cualitativas: Son aquellas que representan carac-
terı́sticas de los elementos y no permiten una representación numérica de-
finida. Algunos ejemplos de variables cualitativas son el género, la filiación
religiosa, tipo de automóvil que se posee, el color de ojos, etc.
Cuando los datos son de naturaleza cualitativa, importa la cantidad o propor-
ción que caen dentro de cada categorı́a. Por ejemplo, ¿qué porcentaje de la
población tiene ojos azules? ¿Cuántos católicos o cuántos protestantes hay en
El Salvador?

3
1. CONCEPTOS FUNDAMENTALES

• Variable cuantitativa: Son aquellas que se pueden medir y expresar mediante


cantidades numéricas. Ejemplos de variables cuantitativas son el saldo en tu
cuenta de ahorros, las edades de los presidentes de Latinoamérica, la vida de
la baterı́a de un automóvil y el número de hijos que hay en una familia.
A su vez, las variables cuantitativas se clasifican de la siguiente manera:
* Variables discretas: sólo pueden tomar un conjunto finito o numerable
de valores (generalmente valores enteros). Ejemplos de variables discre-
tas son el número de habitaciones en una casa (1, 2, 3, 4, etc.); el número
de automóviles que en una hora usan el carril del SITRAMMS y el número
de estudiantes en cada grupo del curso de Estadı́stica I en la UDB.
* Variables continuas: toman cualquier valor dentro de un intervalo es-
pecı́fico. Ejemplos de variables continuas son la presión del aire en una
llanta y la duración de los vuelos de El Salvador a Honduras.

Figura 2: Clasificación de las variables estadı́sticas.

1.3. Parámetros y estadı́sticos

Definiciones
- Parámetro: Cualquier caracterı́stica de una población que sea medible.
- Estadı́stico: Medida resultante del análisis de una muestra.

Ejemplos de parámetros son el salario promedio de todos los empleados de una


empresa, la proporción de personas que mueren de cáncer en un determinado paı́s,
etc.

4
2. DISTRIBUCIÓN DE FRECUENCIAS

Ejemplos de estadı́sticos son el salario promedio de todos los empleados de una


empresa calculado a partir de una muestra, la proporción de personas que mueren
de cáncer, calculada a partir de una muestra tomada de la población de personas
que fallece en un determinado paı́s, etc.

2. Distribución de frecuencias
Al aplicar encuestas o acudir a una base de datos para obtener la información, es
posible que a simple vista se dificulte la interpretación por la cantidad de datos que
pudieron ser generados en el proceso investigativo. Por esta razón, es conveniente
agrupar los datos y construir tablas que faciliten la interpretación.
Definición
La distribución de frecuencias es un método utilizado para organizar y resumir
información. Bajo este método, los datos recolectados se ordenan y clasifican,
indicándonos la frecuencia o sea el número de veces que se repiten.

2.1. Agrupación de datos


Suponga que el director de una escuela metropolitana, al inicio de las labores es-
colares, desea clasificar a los estudiantes del sexto grado,en tres secciones, y desea
hacerlo de acuerdo a los resultados obtenidos en el examen de admisión. Los resul-
tados se presentan en la siguiente tabla:

Tabla 1: Resultado del examen de admisión de 120 estudiantes

47 58 38 35 50 59 47 51 42 45
45 53 33 32 49 48 50 50 41 45
62 48 28 30 55 43 43 44 40 45
28 30 29 29 55 49 33 39 39 46
28 37 47 57 49 51 39 40 45 45
58 35 60 54 55 49 34 44 50 46
59 30 61 43 54 44 30 44 45 47
38 34 53 38 43 51 36 49 45 34
33 33 54 39 50 50 36 44 45 35
43 48 38 43 52 44 44 40 46 45
60 53 40 56 48 35 45 42 47 45
60 52 40 42 35 40 45 41 45 39

El conjunto de datos de esta tabla constituye una serie estadı́stica simple. Como
puede notar, la serie no brinda mayor información; no se puede conocer como se
distribuye la variable rendimiento de los estudiantes. Entonces si se quiere comenzar
a descubrir peculiaridades de la variable, se debe comenzar por ordenar los datos.
Estos se pueden ordenar de forma creciente o decreciente.

5
2. DISTRIBUCIÓN DE FRECUENCIAS

Tabla 2: Resultados del examen de admisión ordenados de forma creciente

28 28 28 29 29 30 30 30 30 32
33 33 33 33 34 34 34 35 35 35
35 35 36 36 37 38 38 38 38 39
39 39 39 39 40 40 40 40 40 40
41 41 42 42 42 43 43 43 43 43
43 44 44 44 44 44 44 44 45 45
45 45 45 45 45 45 45 45 45 45
45 46 46 46 47 47 47 47 47 47
48 48 48 48 49 49 49 49 49 50
50 50 50 50 50 51 51 52 52 53
53 53 54 54 54 55 55 55 55 56
57 58 58 59 59 60 60 60 61 62

Los datos ordenados en esta forma brindan una pequeña información; a) se conoce
rápidamente el menor y el mayor valor que toma la variable: 28 y 62 respectivamen-
te; b) el valor más frecuente es 45; c) los valores tienden a concentrarse entre 43 y
47.
Si se quiere seguir descubriendo mayor información de la variable, se debe formar
una tabla de frecuencias.
Tabla 3: Tabla de frecuencias para las notas de los estudiantes

Puntajes (x) Frecuencia Puntajes (x) Frecuencia Puntajes (x) Frecuencia Puntajes (x) Frecuencia
28 3 37 1 46 3 55 4
29 2 38 4 47 6 56 1
30 4 39 5 48 4 57 1
31 0 40 6 49 5 58 2
32 1 41 2 50 6 59 2
33 4 42 3 51 2 60 3
34 3 43 6 52 2 61 1
35 5 44 7 53 3 62 1
36 2 45 13 54 3
TOTAL 120

Con la tabla 3 ya se puede conocer el número de veces que se repite cada valor que
toma la variable, y ası́ se puede ver que el valor más frecuente es el 45 y los valores
que solo aparecen una vez son: 32, 37,56, 57, 61 y 62. Se entenderá por frecuencia
(también conocida como frecuencia absoluta), el numero de veces que un valor o
dato se repite en una serie estadı́stica.

6
2. DISTRIBUCIÓN DE FRECUENCIAS

2.2. Construyendo una distribución de clases y frecuencias


Para seguir descubriendo caracterı́sticas de las variables estadı́sticas es necesario
clasificar los datos en grupos llamados clases. Las distribuciones de clases y frecuen-
cias logran condensar los datos, permitiendo obtener información más precisa de la
distribución y hacer comparaciones entre dos o más series. Además, otra gran ven-
taja de las distribuciones de clases y frecuencias, es la facilidad que presentan para
el cálculo de las medidas que se utilizarán para hacer el analisis estadı́stico de las
variables.
Los tres pasos necesarios para definir las clases de una distribución de frecuencia
con datos cuantitativos son:
1. Determinar el número de clases. Se recomienda emplear entre 5 y 15 clases.
Cuando los datos son pocos, cinco o seis clases bastan para resumirlos. Si son
muchos, se suele requerir más clases. La idea es tener las clases suficientes
para que se muestre la variación en los datos, pero no deben ser demasiadas si
algunas de ellas contienen sólo unos cuantos datos.
Para la serie simple de la tabla 3 , el uso de 7 clases es una elección conveniente
dada la cantidad de datos.
2. Determinar el ancho de clase. El segundo paso al construir una distribución
de clases y frecuencias es elegir el ancho de las clases (también conocido como
intervalo de clase). Como regla general es recomendable que el ancho sea el
mismo para todas las clases. Ası́, el ancho y el número de clases no son decisio-
nes independientes. Entre mayor sea el número de clases menor es el ancho de
las clases y viceversa. Para determinar el ancho de clase apropiada se empieza
por identificar el mayor y el menor de los valores de los datos. Después, usando
el número de clases deseado, se emplea la expresión siguiente para determinar
el ancho de clase:
xmayor − xmenor
ic = (1)
K
En donde K es el número de clases que se seleccionó en el paso anterior. En
el caso de que la expresión anterior no genere un entero exacto, el ancho o
intervalo de clase deberá aproximarse al entero inmediato superior.
En el ejemplo que venimos utilizando xmayor = 62 y xmenor = 28; ası́, ic = 62−28
7 =
4.85 que aproximado al entero inmediato superior es 5 el cuál será nuestro
ancho de clase.
3. Determinar los lı́mites de la clase. Los lı́mites de clase deben elegirse de
manera que cada dato pertenezca a una y sólo una de las clases. El lı́mite de
clase inferior indica el menor valor de los datos a que pertenece esa clase. El
lı́mite de clase superior indica el mayor valor de los datos a que pertenece
esa clase.
Para el caso de la primera clase, el lı́mite inferior es el menor valor de la serie.
Usando el lı́mite inferior de la primera clase y el ancho de clase, se procede a
listar los lı́mites inferiores de las demás clases (Sumando el ancho de clase al
lı́mite inferior de la primera clase para obtener el limite inferior de la segunda

7
2. DISTRIBUCIÓN DE FRECUENCIAS

clase. Después se suma el ancho de clase al lı́mite inferior de la segunda clase


para obtener el tercero, y ası́ sucesivamente).
Para nuestro ejemplo, el lı́mite inferior de la primera clase es 28 (el menor
valor de la serie). El lı́mite inferior la segunda clase es 33, este valor se obtiene
sumando el ancho de clase al limite inferior de la primera clase(28 + 5 = 33).
Aplicando la misma lógica se obtienen los limites inferiores de las clases res-
tantes: 38, 43, 48, 53, 58. Con esta lista se puede identificar con facilidad los
lı́mites superiores correspondientes, que son 32, 37, 42, 47, 52, 57 y 62.
Después de identificar los lı́mites inferiores y superiores de cada clase, estaremos
listos para tabular los datos de la serie simple usando una distribución de clases y
frecuencias.

Tabla 4: Distribución de clases y frecuencias de las calificaciones obtenidas por 120


alumnos en un examen de admisión

Puntajes (x) Frecuencia


28-32 10
33-37 15
38-42 20
43-47 35
48-52 19
53-57 12
58-62 9
TOTAL 120

OBSERVACIÓN.
En el ejemplo anterior, se está trabajando con lı́mites aparentes. Hablamos de lı́mi-
tes aparentes, ya que para hacer el calculo del número de valores incluidos en cada
clase, se incluyen dichos lı́mites; es decir las clases son mutuamente excluyentes.
Note que si la clasificación hubiera sido de 28 a 32; de 32 a 37; de 37 a 42, etc.,
¿en qué clase ubicarı́amos al 32?, ¿en qué clase ubicarı́amos al 37? indudablemente
tendrı́amos un problema.
La distribución de la tabla 4, pudo también escribirse utilizando lı́mites reales, como
se muestra en la siguiente tabla.

Tabla 5: Distribución de clases y frecuencias de las calificaciones obtenidas por 120


alumnos en un examen de admisión (utilizando lı́mites reales)

Puntajes (x) Frecuencia


De 27.5 a menos de 32.5 10
32.5 a menos de 37.5 15
37.5 a menos de 42.5 20
42.5 a menos de 47.5 35
47.5 a menos de 52.5 19
52.5 a menos de 57.5 12
57.5 a menos de 62.5 9
TOTAL 120

8
2. DISTRIBUCIÓN DE FRECUENCIAS

Para presentar en esta forma la distribución (con lı́mites reales), lo que se hizo fue
restar 0.5 a los lı́mites aparentes inferiores y a los lı́mites superiores se les sumó 0.5.
El uso de limites reales es adecuado únicamente con variables continuas.

2.3. Frecuencia absoluta, relativas, marca de clase y distribucio-


nes acumuladas
Frecuencia absoluta
Frecuencia absoluta de un dato es el número de veces que ocurre dicho dato
en la muestra o población. Frecuencia absoluta de una clase es el número de
datos de la muestra o población que pertenecen a dicha clase. Se representa
por f . Todas las frecuencias con las que se ha trabajado hasta el momento son
frecuencias absolutas.

Frecuencia relativa
Frecuencia relativa (fr) de un dato o una clase es el cociente entre su frecuen-
cia absoluta (f ) y el tamaño de la muestra o población (N ).

f
fr=
N
Las frecuencias relativas también se pueden expresar de forma porcentual,
para lo cual basta multiplicar dicha frecuencia relativa por

f
fr%= × 100
N
El total de frecuencias relativas porcentuales debe ser igual al 100 %, o aproxi-
madamente igual a este valor cuando se presentan decimales y se redondean
los valores del porcentaje.

Por ejemplo, la frecuencia relativa porcentual de la primera clase de la tabla 4 es:

10
fr%= × 100 = 8.33 %
120
En la tercera columna de la tabla 5 se presentan las frecuencias relativas porcentua-
les de cada una de las clases del ejemplo que se viene desarrollando.
Frecuencia acumulada
La frecuencia acumulada (fa) es la suma de las frecuencias absolutas de todas
las clases inferiores a la que estamos calculando.

La construcción de la distribución de frecuencias acumuladas se obtiene por el pro-


ceso de adición sucesiva de las frecuencias anteriores al intervalo de clases corres-
pondientes. Ası́, la frecuencia acumulada del intervalo 43-47 de la tabla 4, se obtiene

9
2. DISTRIBUCIÓN DE FRECUENCIAS

por la adición sucesiva de 10 + 15 + 20 + 35 = 80. La frecuencia acumulada de la últi-


ma clase es siempre igual al total de datos N. Si no se tiene este resultado, quiere
decir que ha habido algún error al calcular dicha columna.
En la cuarta columna de la tabla 5 se presentan las frecuencias acumuladas de cada
una de las clases del ejemplo con el que se viene trabajando.
Frecuencia relativa acumulada
La frecuencia relativa acumulada (fra) es la suma de las frecuencias relati-
vas de todas las clases inferiores a la que estamos calculando. La frecuencia
relativa acumulada también se puede presentar de forma porcentual.

Marca de clase
La marca de clase (PM) es el punto medio del intervalo de clase y se obtiene
sumando los lı́mites de clase inferior y superior y dividiendo entre 2. La marca
de clase es el valor que mejor representa a todos los valores que están dentro
de dicha clase.

Retomando el ejemplo de la tabla 4, las marcas de clase resultaron ası́: para la prime-
28 + 32 33 + 37
ra clase, = 30; para la segunda clase, = 35 y ası́ sucesivamente. Una
2 2
manera práctica de calcular las marcas de clase es sumar a la primera marca de clase
encontrada, en ancho de clase utilizado, ası́, la primera marca de clase encontrada
en nuestro ejemplo fue 30, la siguiente será 30 + 5 = 35, la siguiente 35 + 5 = 40 y ası́
sucesivamente. En la sexta columna de la tabla 6 se muestran las marcas de clases
para el ejemplo que se viene desarrollando.

Tabla 6: Distribución de frecuencias relativas y acumuladas, basada en los datos que


aparecen en la tabla 4

Puntajes (x) f fr % fa fra % PM


28-32 10 8.33 10 8.33 30
33-37 15 12.50 25 20.83 35
38-42 20 16.67 45 37.50 40
43-47 35 29.17 80 66.67 45
48-52 19 15.83 99 82.50 50
53-57 12 10.00 111 92.50 55
58-62 9 7.50 120 100.00 60
TOTAL 120 100 %

Presentadas en esta forma las frecuencias de las distintas clases, ya se puede tener mayor
información sobre la variable en estudio. Ası́ decimos por ejemplo, viendo la cuarta clase y
tercera columna de la tabla 6, que el 29.17 % de los estudiantes obtuvieron puntajes entre
43 y 47; que el 61.67 % de los estudiantes sacaron puntajes entre 38 y 52; en esta zona
se encuentra la mayor concentración de valores de la serie. La frecuencia acumulada que
aparece en la tercera clase significa que 45 estudiantes sacaron puntajes de 42 o menos. La
frecuencia acumulada relativa de la quinta clase significa que el 82.50 % de los estudiantes
obtuvieron puntajes de 52 o menos, etc.

10
3. TÉCNICAS DE REPRESENTACIÓN GRÁFICA

3. Técnicas de representación gráfica


La organización de los datos obtenidos en una investigación mediante tablas de
frecuencias no es suficiente para analizar el comportamiento de una variable. Para
una comprensión más efectiva del comportamiento de la variable, se hace útil el
empleo de gráficas, dado que éstas permiten describir en forma clara y práctica el
fenómeno en estudio.
La importancia de las representaciones gráficas de los cuadros estadı́sticos consiste
especialmente en la posibilidad de asimilar rápidamente y sin mucho esfuerzo las
principales caracterı́sticas de las series estadı́sticas.

3.1. Gráficas para datos cualitativos


Las representaciones gráficas más usuales para variables cualitativas son las gráficas
de barras y las gráficas circulares. La elección de un tipo de gráfica u otra depende de
si el objetivo consiste en comparar las categorı́as entre sı́ de manera directa (gráfica
de barras) o en destacar la manera en que las categorı́as forman parte de un todo
(gráfica circular).

3.1.1. Gráfica de barras

El instrumento más común para representar una variable cualitativa en forma gráfi-
ca es la gráfica de barras. En la mayorı́a de los casos, el eje horizontal muestra la
variable de interés y el eje vertical la frecuencia de cada uno de los posibles resul-
tados. Una caracterı́stica distintiva de esta herramienta es que existe una distancia
o espacio entre las barras. Es decir, que como la variable de interés es de naturaleza
cualitativa, las barras no son adyacentes.
Gráfica de barras
Representación gráfica de una tabla de frecuencias mediante una serie de
rectángulos de anchura uniforme, cuya altura corresponde a la frecuencia de
cada categorı́a.

EJEMPLO. Una cooperativa financiera quiere hacer una investigación sobre el estado
civil de sus asociados con el objetivo de trazar estrategias de mercado. Con ese propósito,
se preguntó su estado civil a 150 asociados que visitaron la cooperativa en una semana.
Los resultados se muestran en la tabla 7.
A partir de los resultados mostrados en la tabla 7 se construye la gráfica de barras
mostrada en la figura 3.

11
3. TÉCNICAS DE REPRESENTACIÓN GRÁFICA

Tabla 7: Estado civil de 150 asociados a una cooperativa financiera

Soltero 20
Casado 78
Viudo 15
Divorciado 26
No declarado 11
TOTAL 150

Figura 3: Gráfica de barras para la tabla 7 .

Notese que gracias al gráfico, es posible observar a “golpe de vista“ que la mayorı́a
de asociados a la cooperativa son casados.

3.1.2. Gráfica circular

Una gráfica circular (conocida comúnmente como gráfica de pastel) utiliza las par-
tes de un cı́rculo para representar los valores de cada categorı́a. El tamaño de cada
parte o porción del cı́rculo varı́a de acuerdo con el porcentaje (frecuencia relativa
porcentual) de cada categorı́a.
Gráfica circular
Gráfica que muestra la parte o porcentaje que representa cada categorı́a con
respecto al total de datos.

Para construir una gráfica de pastel se debe asignar un sector de cı́rculo a cada
categorı́a. El ángulo de cada sector debe ser proporcional a la frecuencia relativa
en esa categorı́a. Como un cı́rculo contiene 360°, se puede usar esta ecuación para
hallar el ángulo:
angulo = frecuencia relativa × 360◦

12
3. TÉCNICAS DE REPRESENTACIÓN GRÁFICA

EJEMPLO. SkiLodges.com realiza una prueba de mercado de su nuevo sitio web y le


interesa saber con qué facilidad se navega en su diseño de página web. Selecciona al
azar 200 usuarios frecuentes de internet y les pide que lleven a cabo una búsqueda en
la página web. A cada uno de ellos le solicita que califique la relativa facilidad para
navegar como mala, buena, excelente o sobresaliente. La distribución de frecuencias de
los resultados aparece en la tabla 8:

Tabla 8: Resultados de la encuesta sobre la facilidad de uso del sitio web

Evaluación f fr fr %
Sobresaliente 102 0.51 51 %
Excelente 58 0.29 29 %
Buena 30 0.15 15 %
Mala 10 0.05 5%
TOTAL 200 1.00 100 %

A partir de los resultados mostrados en la tabla 8 es posible realizar la gráfica circular


respectiva. Teniendo calculadas las frecuencias relativas de cada categorı́a, el calculo de
los correspondientes sectores dentro del circulo es sumamente sencillo; ası́, por ejemplo
para la categorı́a ”sobresaliente”, el calculo del ángulo de la sección seria de la siguiente
manera:

angulo = 0.51 × 360◦ = 183.6◦


Usando la expresión anterior, es posible calcular los ángulos de las secciones restan-
tes. El gráfico circular creado a partir de los datos de la tabla 8 se presenta en la
siguiente figura:

Figura 4: Gráfica circular para la tabla 8 .

La gráfica de pastel del ejemplo hace hincapié en que más de la mitad de los encues-
tados calificaron de sobresaliente la relativa facilidad para utilizar el sitio web.

13
3. TÉCNICAS DE REPRESENTACIÓN GRÁFICA

3.2. Gráficas para variables cuantitativas


3.2.1. Gráfica de barras

Cuando la variable es discreta y toma pocos valores, el gráfico adecuado es el dia-


grama de barras. Se construye de la misma forma que para las variables cualitativas
pero ahora sobre el eje de abscisas se sitúan los valores de la variable. Es decir, una
vez colocados los valores de la variable en el eje de abscisas, se levantan sobre ellos
unos segmentos (barras) de altura igual a la frecuencia correspondiente.
EJEMPLO. A continuación se presenta la distribución de frecuencias del número de her-
manos (excluido él mismo) de una muestra de 500 alumnos varones de una Universidad
con las últimas frecuencias agrupadas, por tener valores muy bajos.

Tabla 9: Distribución de frecuencias del número de hermanos de una muestra de 500


alumnos varones de una universidad

Nº de hermanos f fr % fa
0 72 14.4 % 72
1 155 31 % 227
2 97 19.4 % 324
3 81 16.2 % 405
4 30 6% 435
5 27 5.4 % 462
6 20 4% 482
>7 18 3.6 % 500
TOTAL 500 100 %

A partir de esta distribución de frecuencias, se genera la siguiente gráfica de barras.

Figura 5: Gráfica de barras para los datos de la tabla 9 .

14
3. TÉCNICAS DE REPRESENTACIÓN GRÁFICA

3.2.2. Histograma

El histograma es el grafico usado más frecuentemente para describir variables cuan-


titativas continuas.
Histograma

Es una serie de rectángulos yuxtapuestos (sin huecos entre sı́). Sobre el eje
horizontal se distribuyen los intervalos de la variable y sobre el eje vertical se
ubican las frecuencias. La base de los rectángulos está determinada por la am-
plitud del intervalo, y la altura de cada rectángulo corresponde a la frecuencia
que presenta cada intervalo.

Para que los rectangulos queden yuxtapuestos se debe escribir, en el eje horizontal,
los limites inferiores de cada clase.
Ejemplo. A continuación se presenta la distribución de frecuencias de las ganancias por
ventas de vehı́culos de una concesionaria de San Salvador.
Tabla 10: Distribución de frecuencias de las ganancias por ventas de vehı́culos de una
concesionaria

Ganancia f fa PM
$200 a $600 8 8 400
600 a 1,000 11 19 800
1,000 a 1,400 23 42 1,200
1,400 a 1,800 38 80 1,600
1,800 a 2,200 45 125 2,000
2,200 a 2,600 32 157 2,400
2,600 a 3,000 19 176 2,800
3,000 a 3,400 4 180 3,200
TOTAL 180

A partir de esta distribución de frecuencias se genera el siguiente histograma:

Figura 6: Histograma para la distribución de frecuencias de la tabla 10 .

15
3. TÉCNICAS DE REPRESENTACIÓN GRÁFICA

3.2.3. Polı́gono de frecuencias

Otro recurso gráfico para ilustrar el comportamiento de los datos es el polı́gono de


frecuencias. Este se construye sobre el plano cartesiano, al colocar en el eje horizon-
tal las marcas de clase (punto medio); sobre cada marca de clase se debe colocar un
punto a una altura igual a la frecuencia de esa clase; luego se unen dichos puntos por
segmentos de recta. Para que el polı́gono quede cerrado se considera un intervalo
más al inicio y otro al final (ambos con frecuencia cero).
Ejemplo. A continuación se muestra el polı́gono de frecuencias para los datos de la
tabla 10 que presenta la distribución de frecuencias de las ganancias por la venta de
autos de una concesionaria de San Salvador.

Figura 7: Polı́gono de frecuencias para los datos de la tabla 10 .

Tanto el histograma como el polı́gono de frecuencias permiten tener una vista rápida
de las principales caracterı́sticas de los datos (máximos, mı́nimos, puntos de concen-
tración, etc.). Aunque las dos representaciones tienen un propósito similar, el histo-
grama posee la ventaja de que describe cada clase como un rectángulo, en el que la
barra de altura de éste representa el número de elementos que hay en cada clase. El
polı́gono de frecuencias, en cambio, tiene una ventaja con respecto al histograma.
También permite comparar directamente dos o más distribuciones de frecuencias.

3.2.4. Ojiva o polı́gono de frecuencia acumulada

La ojiva es el polı́gono que se obtiene al unir por segmentos de recta los puntos
situados a una altura igual a la frecuencia acumulada a partir del limite superior
de la clase, similar a como se hizo con el polı́gono de frecuencias (con la única
diferencia que para esa gráfica en el eje horizontal se ubicaba el punto medio de
cada clase).
Ejemplo. A continuación se muestra la ojiva para los datos de la tabla 10 que presenta
la distribución de frecuencias de las ganancias por la venta de autos de una concesiona-
ria de San Salvador.

16
3. TÉCNICAS DE REPRESENTACIÓN GRÁFICA

Figura 8: Ojiva para los datos de la tabla 10 .

Para trazar la ojiva, se ubica el lı́mite superior de cada clase a lo largo del eje X,
y las correspondientes frecuencias acumulativas, a lo largo del eje Y. Para incluir
información adicional, es posible graduar el eje vertical a la izquierda en unidades y
el eje vertical a la derecha en porcentajes. En el ejemplo de la venta de autos, el eje
vertical que se localiza a la izquierda se gradúa desde 0 hasta 180 y a la derecha de
0 % a 100 %. El valor de 50 % corresponde a 90 vehı́culos.

17
4. MEDIDAS DE TENDENCIA CENTRAL

4. Medidas de tendencia central


En los estudios estadı́sticos es importante el análisis de la información que corres-
ponde a variables cualitativas y cuantitativas, a partir de la tabulación y la represen-
tación gráfica de los datos. Además de esto, es necesario analizar los datos por medio
de cálculos matemáticos que resuman el comportamiento de las caracterı́sticas del
objeto de estudio.
En la mayorı́a de los casos, el conjunto de datos obtenidos, ya sea de una muestra o
de una población, tienden a reunirse alrededor de un valor central. De esta manera,
es posible obtener un valor tı́pico o representativo de todo el conjunto de datos, el
cual se denomina medida de tendencia central. Las medidas de tendencia central
más representativas son: media aritmética, mediana y moda.

4.1. Media aritmética o promedio


La media aritmética es la medida de tendencia central más utilizada y la de mayor
representatividad en los análisis estadı́sticos. Representa el promedio del conjunto
de datos de la muestra. Su cálculo se realiza con la suma de todos los valores de los
datos, dividida entre el número de datos que componen la muestra. Si la variable de
estudio está representada por X, la media aritmética se representa por X (el cual se
lee como “x barra“).
Media aritmética
La media aritmética de un conjunto de valores es la medida de tendencia cen-
tral que se calcula al sumar los valores y dividir el total entre el número de
valores.

Cuando los datos son pocos y NO están agrupados en clases, el calculo de la media
aritmética se efectúa de la siguiente manera:
P
x1 + x2 + x3 + x4 + ... + xN X
X= = (2)
N N
Donde: N representa la cantidad de datos de la muestra

Ejemplo. Un conjunto de datos consta de los cinco valores 6, 3, 8, 6 y 4. Encon-


trar la media aritmética.
Usando la ecuación 2 encontramos:
6 + 3 + 8 + 6 + 4 27
X= = = 5.4
5 5

Cuando los datos están agrupados en una distribución de frecuencias simple (sin cla-
ses o intervalos), el calculo de la media aritmética se efectúa de la siguiente manera:
P
f Xi
X= (3)
N

18
4. MEDIDAS DE TENDENCIA CENTRAL

Ejemplo. Sea X el número de hijos de los empleados de una empresa, determinar


la media aritmética.
Xi f f Xi
0 1 0
1 2 2
2 4 8
3 2 6
4 1 4
P
10 20
Notese que en la tercera columna de la distribución de frecuencias anterior se
ha calculado el producto de cada valor de X por su respectiva frecuencia, con
el propósito de ocupar la ecuación 3, de tal manera que el calculo de la media
quedarı́a de la siguiente manera:
P
f Xi 20
X= = = 2 hijos
N 10

4.1.1. Media aritmética para distribuciones de clases y frecuencias

Para obtener la media de una distribución de clases y frecuencias, primeramente se


deben representar los términos que hay dentro de cada clase por su punto medio
(marca de clase). Este valor sustituirı́a al Xi de la ecuación 3 de tal forma que el
calculo de la media aritmética se realizarı́a de la siguiente manera:
P
f Pm
X= (4)
N
O sea que la media, para una distribución de clases y frecuencias, es igual a la suma
de los productos de las frecuencias por los puntos medios de cada clase, dividido
entre el total de datos.

19
4. MEDIDAS DE TENDENCIA CENTRAL

Ejemplo. Calcular la media aritmética de la distribución de clases y frecuencias presen-


tada en la tabla 4 relativa al resultado del examen de admisión de 120 estudiantes.
Tabla 11: Distribución de clases y frecuencias de las calificaciones obtenidas por 120
alumnos en un examen de admisión

Puntajes (x) f Pm f Pm
28-32 10 30 300
33-37 15 35 525
38-42 20 40 800
43-47 35 45 1575
48-52 19 50 950
53-57 12 55 660
58-62 9 60 540
P
120 5350

Una vez calculados los puntos medios de clase, se efectúa el producto fPm (la fre-
cuencia por el punto medio de cada clase) y se suman los productos parciales, nos
da 5350, luego dividimos esta suma entre 120, y se obtiene:
P
f P m 5350
X= = = 44.58
N 120

4.1.2. Propiedades de la media aritmética

Se hace necesario conocer y manejar correctamente las propiedades que presenta la


Media aritmética, pues facilita la realización de ciertas operaciones, algunas de ellas
necesarias para el desarrollo de la teorı́a estadı́stica y otras, como simplificación de
cálculo.
Propiedad 1

La suma algebraica de las desviaciones de cada término de la serie, con res-


pecto a la media, es cero. Llamando por d, la desviación de cualquier término
con respecto a su media (d = Xi − X), esta propiedad puede establecerse ası́:
X
d = 0 ó bien
X
(Xi − X) = 0 (para datos sin agrupar)
X
(Xi − X)f = 0 (para datos agrupados)

Ejemplo. Considere la serie: 4, 5, 6, 7 y 8.


La media aritmética de esta serie de números es:
P
X 4 + 5 + 6 + 7 + 8 30
X= = = =6
N 5 5

20
4. MEDIDAS DE TENDENCIA CENTRAL

Ahora calcularemos las desviaciones de cada valor de la serie con respecto a la me-
dia. El calculo de las desviaciones se presenta en la tabla 12. Nótese que la suma de
las desviaciones es cero, tal cual lo enuncia la propiedad.

Tabla 12: Calculo de las desviaciones de los datos de la serie

Xi Xi − X
4 4-6=-2
5 -1
6 0
7 +1
8 +2
P
0

Propiedad 2

La suma del cuadrado de las desviaciones de cada término de la serie, con


respecto a la media es un mı́nimo. En otras palabras, la suma del cuadrado
de las desviaciones de cada término, con respecto a la media, es menor que
la suma del cuadrado de las desviaciones de cada término, con respecto a
cualquier otro valor diferente de la media. Formalmente, esta propiedad puede
establecerse ası́:
X X
(Xi − X)2 < (Xi − A)2

donde A es un valor distinto de X

Ejemplo. Retomaremos la serie de números del ejemplo anterior y se calculará la su-


matoria de los cuadrados de las desviaciones con respecto a la media (X = 6) y con
respecto a A = 4.

Tabla 13: Cuadrado de las desviaciones con respecto a la media

Xi Xi − X (Xi − X)2 Xi − 4 (Xi − 4)2


4 -2 4 0 0
5 -1 1 +1 1
6 0 0 +2 4
7 +1 1 +3 9
8 +2 4 +4 16
P
0 10 10 30

Se cumple la propiedad para cualquier valor que se le asigne a A (¡ Pruebe con otros
valores !)

21
4. MEDIDAS DE TENDENCIA CENTRAL

Propiedad 3

La media de una muestra es igual a la media ponderada de las medias, siendo


las ponderaciones los tamaños de dichas muestras, es decir:
P
n X + n2 X 2 + n3 X 3 + ... + nk X k ni X i
XT = 1 1 =
n1 + n2 + n3 + ... + nk N

Donde:
X T = media aritmética total.
ni = tamaño de la muestra i (i=1,2,...,k)
X i = media aritmética de la muestra i.
N = n1 + n2 + n3 + ... + nk

Ejemplo. En una escuela de San Salvador, hay tres secciones de noveno grado, se les
pasó un examen de matematica, con los siguientes resultados:

Tabla 14: Notas de tres secciones de noveno grado en un examen de matemática

Secciones ni Xi
A 25 68
B 30 70
C 45 60

Determinar la media aritmética total del rendimiento de los alumnos en dicho examen:

25x68 + 30x70 + 45x60 6500


XT = = = 65
25 + 30 + 45 100

Propiedad 4

La media aritmética de una constante, es igual a dicha constante, es decir:

M(k) = K
siendo K una constante

Propiedad 5

La media aritmética del producto de una constante por una variable es igual
al producto de la constante por la media de la variable, es decir:

M(Kx) = KM(x)

22
4. MEDIDAS DE TENDENCIA CENTRAL

Ejemplo. La media aritmética de 4, 5, 6, 7 y 8 es 6; multipliquemos hoy cada valor de


X por la constante K=2, los valores de X quedan ası́: 8, 10, 12, 14 y 16; luego la media
de estos valores es:

8 + 10 + 12 + 14 + 16
= 12
5
este valor puede observarse que es el producto de 2x6, es decir M(Kx) = KM(x)
Propiedad 6

Si a cada valor de la variable, se le agrega una constante, la media de la va-


riable resultante es igual a la media aritmética original más la constante; es
decir:

M(X + K) = M(X) + K

Ejemplo. La media aritmética de 4, 5, 6, 7 y 8 es 6; sumemos hoy a cada valor de X


una constante K=2; los nuevos valores que toma X son 6, 7, 8, 9, 10; luego la media de
estos valores es:

6 + 7 + 8 + 9 + 10
=8
5
este valor puede observarse que es la suma de 2 + 6 = 8, donde K=2 y 6 es la media
original; es decir, M(X + K) = M(X) + K

4.2. Mediana
Al calcular la media de un conjunto de datos que forman una muestra, los valores
extremos (valores muy grandes o muy pequeños en relación con los demás) pueden
influenciar fuertemente en el resultado, desvirtuando de este modo la utilidad de la
media aritmética como valor que caracteriza a los datos.
Considere los datos de la tabla 15 que muestran los salarios mensuales de 11 traba-
jadores de una finca en Santa Ana.

Tabla 15: Salarios mensuales de 11 empleados de una finca

Sueldos (Xi ) f f xi
100 4 400
120 5 600
2000 1 2000
3000 1 3000
P
11 6000

Según esta tabla, la media de los sueldos en la muestra es X = 6000


11 = 545.45 dólares;
sin embargo, 9 de las 11 personas tiene una remuneración menor o igual a 120. Ello

23
4. MEDIDAS DE TENDENCIA CENTRAL

indica que la media no representa bien a los 11 sueldos. Los valores extremos 2,000
y 3,000 han influido fuertemente en el resultado ( en estos casos se dice que la
distribución tiene un sesgo a la derecha).
Si una distribución de datos tiene un sesgo (valores muy grandes o muy pequeños
con respecto a los demás) es mejor utilizar una medida de tendencia central que no
sea sensible a los valores extremos. Una de estas medidas es la mediana.
Mediana
La mediana en un conjunto de datos es el valor que ocupa el lugar central, de
tal forma que aquel valor deja el 50 % de las observaciones por debajo de él y
el otro 50 % por encima de él. Para la ubicación de la posición de la mediana
se deben ordenar los datos de forma ascendente o descendente. La mediana
se denota por Me o bien por x̃.

El cálculo de la mediana para una serie simple (sin agrupar) dependerá de si el


número de datos n, es par o impar.
• Si n es impar, la mediana es el valor que ocupa la posición n+1
2 una vez que los
datos han sido ordenados (en orden creciente o decreciente), porque éste es el
valor central. Es decir: Me = x( n+1 )
2

• Si n es par, la mediana es la semisuma de los dos datos centrales los cuales


x( n ) +x( n +1)
n n 2 2
ocupan las posiciones 2 y 2 + 1. Es decir: Me = 2

Ejemplo. Encontrar la mediana de la siguiente serie: 6, 3, 4, 10, 9, 7, 8.


Lo primero que se debe hacer es ordenar la serie, ası́: 3, 4, 6, 7, 8, 9 , 10. Dado
que tenemos una cantidad impar de datos (n=7), la mediana se encuentra en
7+1
la posición n+1
2 = 2 = 4, es decir en la cuarta posición de la serie ordenada.
El número que se encuentra en la cuarta posición es el 7, por tanto Me = 7.

Ejemplo. Encontrar la mediana de la siguiente serie: 8, 16, 4, 2, 20, 3, 12, 20.


Nuevamente comenzamos ordenando la serie, ası́: 2, 3, 4, 8, 12, 16, 20, 20.
Dado que esta vez se tiene una cantidad par de datos (n=8), la mediana es
la semisuma de los dos términos centrales los cuales se encuentran en las
posiciones n2 = 82 = 4 y n2 + 1 = 82 + 1 = 5, es decir en la cuarta y quinta posición.
Los valores que se encuentran en esas posiciones son 8 y 12, por tanto:
8 + 12
Me = = 10
2

24
4. MEDIDAS DE TENDENCIA CENTRAL

4.2.1. Mediana para distribuciones de frecuencias

La mediana para una distribución de clases y frecuencias se puede encontrar por dos
métodos: por interpolación y por un método gráfico.
Método de interpolación
Parte del supuesto de que los datos son continuos y que los valores de la serie se
distribuyen regularmente dentro de los intervalos de clase.
Procedimiento para calcular la mediana por el método de interpolación

1. Calcular las frecuencias acumuladas.


2. Identificar la clase mediana. Esta se halla al efectuar el cociente n2 y lue-
go ubicar la primera clase en donde la frecuencia acumulada es igual o
superior a n2 .
3. Calcular la mediana usando la formula:
N
2 − f aa
Me = li + ( ) × ic
fm
Donde:
li = lı́mite inferior (real) de la clase mediana.
f aa = frecuencia acumulada anterior a la frecuencia de la clase mediana.
f m = frecuencia absoluta de la clase mediana.
ic = tamaño del intervalo de clase (ancho de clase)

Ejemplo. La siguiente distribución de frecuencias muestra el tiempo (en minutos) que


tardan 50 alumnos de la UDB para realizar el primer parcial de Estadı́stica Aplicada.
Calcular la mediana.
Tabla 16: Tiempo requerido por 50 estudiantes para resolver un examen parcial

Minutos f fa
[ 45 - 50 ] 2 2
( 50 - 55 ] 9 11
( 55 - 60 ] 12 23
( 60 - 65 ] 11 34
( 65 - 70 ] 9 43
( 70 - 75 ] 7 50
P
50

Para calcular la mediana, se utilizan los pasos descritos en el enunciado anterior,


esto es:
1. Las frecuencias acumuladas se presentan en la tercera columna de la tabla
anterior.
2. Ahora procedemos a identificar la clase mediana, para ello calculamos
n 50
2 = 2 = 25. Al analizar las frecuencias acumuladas, se encuentra que 25 se

25
4. MEDIDAS DE TENDENCIA CENTRAL

ubica en el 4° intervalo (no es posible ubicar el valor de 25 en el tercer inter-


valo, debido a que solo acumula 23 personas).
3. Los datos para el cálculo de la mediana serán:

li = 60; f aa = 23; f m = 11; ic = 65 − 60 = 5

Sustituyendo en la formula se tiene:

N
2 − f aa 25 − 23
Me = li + ( ) × ic = 60 + ( ) × 5 = 60 + 0.91 = 60.91minutos
fm 11

Ejemplo. Calcular la mediana de la distribución de clases y frecuencias presentada en


la tabla 4 relativa al resultado del examen de admisión de 120 estudiantes.

Tabla 17: Distribución de clases y frecuencias de las calificaciones obtenidas por 120
alumnos en un examen de admisión

Puntajes (x) f faa


28-32 10 10
33-37 15 25
38-42 20 45
43-47 35 80
48-52 19 99
53-57 12 111
58-62 9 120
P
120

Dado que ya tenemos las frecuencias acumuladas, procedemos a identificar la clase


mediana, para ello calculamos n2 = 120
2 = 60; por tanto la mediana se ubica en la
cuarta clase.
Adviértase que en este ejemplo estamos trabajando con lı́mites aparentes, por tan-
to la determinación del limite inferior (li) y del ancho de clase (ic ) tendrá unas
pequeñas pero importantes diferencias con respecto al ejemplo anterior.
Los datos para el cálculo de la mediana serán:

li = 42.5; f aa = 45; f m = 35; ic = (47 − 43) + 1 = 5

Sustituyendo en la formula se tiene:

N
2 − f aa 60 − 45
Me = li + ( ) × ic = 42.5 + ( ) × 5 = 42.5 + 2.14 = 44.64
fm 35

26
4. MEDIDAS DE TENDENCIA CENTRAL

¡ADVERTENCIA!
Cuando se está calculando la mediana y la moda de una distribución de clases y frecuencias
es sumamente fundamental tener claridad sobre si se está trabajando con lı́mites reales (como
en el primer ejemplo) o con limites aparentes (como en el segundo ejemplo).
La diferencia entre usar uno u otro tipo de limite radica en dos aspectos:
1. Lı́mite inferior (li)
En las formulas de mediana y moda, el lı́mite inferior (li) debe ser un lı́mite real.
Por ello, cuando se trabaja con limites aparentes es necesario convertirlo a lı́mite real
restandole 0.5 (es por eso que en el segundo ejemplo, el lı́mite inferior fue 42.5 y no
43).
2. Ancho de clase o intervalo de clase (ic )
- Cuando se trabaja con limites reales el intervalo de clase es la diferencia entre el limite
superior y el limite inferior de alguna de las clases, es decir ic = ls − li
- Cuando se trabaja con lı́mites aparentes, el cálculo del intervalo de clase es ası́:
ic = (ls − li) + 1
Un procedimiento para calcular el intervalo de clase que funciona para ambos tipos de
lı́mites es restar dos limites inferiores consecutivos (ó bien, dos intervalos superiores
consecutivos); asi, en el segundo ejemplo, el intervalo de clase pudo obtenerse como la
diferencia entre los lı́mites inferiores de la tercera y cuarta clase (43 − 38 = 5).

Método gráfico.
Para obtener un valor aproximado de la mediana por el método gráfico se procede
en la forma siguiente:
1. Se construye la ojiva de la distribución de frecuencias.
2. En el eje vertical se localiza el punto correspondiente al 50 % de la frecuencia
total, es decir el punto N2 en el eje Y.
3. Se traza una horizontal desde este punto de la ojiva, se baja una perpendicular
desde el punto en que esta horizontal corta a la ojiva hasta la escala X. La
intersección con el eje X constituye la mediana.

Figura 9: Determinación de la mediana por el método gráfico.

27
4. MEDIDAS DE TENDENCIA CENTRAL

4.3. Moda
En la vida cotidiana se escucha la expresión “está de moda” cuando algo se observa o
se presenta repetidamente. En estadı́stica, el concepto de la moda no se aleja de esta
apreciación y, efectivamente, se denomina moda de un conjunto de datos al valor
que más se presenta, es decir, el atributo o el valor de mayor frecuencia. La moda
se representa por Mo y puede ser aplicada a las variables cualitativas y cuantitativas
discretas o continuas.
Moda
Es el valor más frecuente en una serie de datos.

La moda de la serie: 100, 125, 130, 130, 130, 145, 150 es 130, ya que es el valor que
más veces se repite. Si en las series hay dos términos que se repiten igual número de
veces, decimos que la serie es bimodal; por ejemplo, si la serie fuera: 100, 125, 130,
130, 130, 145, 145, 145, 150; la moda la constituyen 130 y 145; es decir, la serie
tiene dos valores modales. Cuando una serie tiene tres o más valores que se repiten
igual número de veces, se dice que la serie es polimodal. Estas últimas series son
poco comunes, y cuando se presentan de deben a factores extraños introducidos en
la serie.

4.3.1. Moda para distribuciones de frecuencias

Método aproximado
La moda por este método, es el punto medio de la clase que contiene la mayor
frecuencia (clase modal). Este método solo es recomendable cuando la serie tiene
un gran número de términos y se emplea un intervalo de clase pequeño.

Ejemplo. Considere los datos de la tabla 16 que muestra el tiempo requerido (en
minutos) por 50 estudiantes para resolver un examen parcial. Calcule la moda
de esta distribución por el método aproximado.
La clase que tiene mayor frecuencia (clase modal) es la tercera (55-60) por
tanto, la moda de esta distribución es la marca de clase (punto medio) de este
intervalo.
55 + 60
Mo = = 57.5
2

Ejemplo. Considere los datos de la tabla 17 que muestra la distribución de los


puntajes de 120 alumnos. Calcule la moda de esta distribución por el método
aproximado.
La clase que tiene mayor frecuencia (35) es la cuarta (43-47), por tanto, la
moda de esta distribución es el punto medio de esta clase, es decir:
43 + 47
Mo = = 45
2

28
4. MEDIDAS DE TENDENCIA CENTRAL

Método de interpolación
Procedimiento para calcular la moda por el método de interpolación

1. Identificar la clase modal, que es la clase que tiene la mayor frecuencia.


2. Calcular la moda usando la formula:
∆1
Mo = li + ( ) × ic
∆1 + ∆2
Donde:
li = lı́mite inferior (real) de la clase modal.
∆1 = diferencia entre la frecuencia de la clase modal y la frecuencia de
la clase anterior a la modal (premodal).
∆2 = diferencia entre la frecuencia de la clase modal y la frecuencia de
la clase posterior a la modal (postmodal).
ic = tamaño del intervalo de clase (ancho de clase)

Ejemplo. Retomemos la distribución de frecuencias de la tabla 16 que muestra


el tiempo requerido (en minutos) por 50 estudiantes para resolver un examen
parcial. Calcular la moda empleando el método de interpolación.
Para esta distribución la clase modal es la tercera (55-60) dado que es la de
mayor frecuencia (12). Los valores para el calculo de la moda son:

li = 55, ∆1 = 12 − 9 = 3, ∆2 = 12 − 11 = 1, ic = 60 − 55 = 5
Por tanto la moda serı́a:
3
Mo = 55 + ( ) × 5 = 55 + 3.75 = 58.75minutos
3+1

Ejemplo. Considere los datos de la tabla 17 que muestra la distribución de los


puntajes de 120 alumnos. Calcule la moda de esta distribución por el método de
interpolación.
En este ejemplo la clase modal es la cuarta (43-47) dado que es la de mayor
frecuencia (35). Los valores para el calculo de la moda son:

li = 42.5, ∆1 = 35 − 20 = 15, ∆2 = 35 − 19 = 16, ic = (47 − 43) + 1 = 5

Sustituyendo tenemos:
15
Mo = 42.5 + ( ) × 5 = 42.5 + 2.42 = 44.92
15 + 16
Este valor se interpreta diciendo que el puntaje más frecuente fue 44.92 o
aproximadamente 45.

29
4. MEDIDAS DE TENDENCIA CENTRAL

4.4. Sesgo y relación entre media, mediana y moda


Una comparación de la media, la mediana y la moda puede revelar información
acerca de las caracterı́sticas de sesgo, que se define a continuación y se ilustra en la
figura 10.

Una distribución de datos está sesgada si no es simétrica y se extiende más


hacia un lado que hacia el otro. (Una distribución de datos es simétrica si la
mitad izquierda de su histograma es aproximadamente una imagen en espejo
de su mitad derecha).

1. Si la distribución está sesgada a la izquierda (sesgo negativo), entonces la me-


dia es menor que la mediana y esta a su vez es menor que la moda (figura
10-a). Esto es:

X < Me < Mo

2. Si la distribución de frecuencias es simétrica,entonces la media, la mediana y


la moda tienen el mismo valor (figura 10-b). Esto es:

X = Me = Mo

3. Si la distribución está sesgada a la derecha (sesgo positivo), entonces la moda


es menor que la mediana y esta a su vez es menor que la media (figura 10-c).
Esto es:

Mo < Me < X

4. Para distribuciones unimodales y moderadamente sesgadas, se tiene la siguien-


te relación empı́rica:

X − Mo  3(X − Me)

Figura 10: Sesgo y relación entre media, mediana y moda.

30
5. MEDIDAS DE VARIABILIDAD

4.5. Uso adecuado de la media, mediana y moda


La media, mediana y moda se consideran las medidas de tendencia central más
importantes por su sencillez y utilidad, pero ¿cuál de ellas es la mejor? Por desgracia,
no existe una respuesta única a esa pregunta, porque no hay criterios objetivos para
determinar la medida más representativa para todos los conjuntos de datos, sino que
debe hacerse un minucioso análisis de la serie de datos con la que se está trabajando.
Partiendo de la naturaleza de las series y la definición de estas medidas de tendencia
central diremos que:
a) Si la distribución es simétrica o aproximadamente simétrica (ligeramente sesga-
da), cualquiera de las medidas puede usarse o las tres, para un mejor análisis; sin
embargo, en situaciones de distribuciones tendiendo a la simetrı́a, es recomen-
dable utilizar la media aritmética, por ser la más consistente de las tres debido a
su mejor tratamiento algebraico.
b) Si en la serie estadı́stica existe un dato que se repite persistentemente, la moda
es la más representativa.
c) Si la distribución tiene marcada asimetrı́a (es decir, si está muy sesgada), enton-
ces la mediana es la medida de tendencia central más representativa.

5. Medidas de variabilidad
Además de las medidas de tendencia central que posibilitan la representación del
conjunto de datos por medio de un valor, es necesario conocer la variabilidad o la
dispersión que los datos pueden tener en relación a una medida central.
Una medida de variabilidad (también conocida como medida de dispersión) es un
número que indica el grado de separación de los datos con respecto a un valor
central. Si este valor es pequeño (respecto a la unidad de medida) entonces hay una
gran uniformidad entre los datos. Por el contrario, un gran valor nos indica poca
uniformidad. Cuando es cero quiere decir que todos los datos son iguales.
En los análisis estadı́sticos, las medidas de variabilidad más representativas son:
rango, desviación media, varianza, desviación estándar y coeficiente de variación.

5.1. Amplitud o rango


La medida de variabilidad más elemental es la amplitud (también conocida como
rango), que es la diferencia entre el valor máximo y el mı́nimo de los datos (distri-
bución). El hecho de que tome en cuenta sólo estos valores hace de la amplitud una
medida de variabilidad poco precisa.
Formalmente, la amplitud se define ası́:

A = Xmayor − Xmenor (5)

31
5. MEDIDAS DE VARIABILIDAD

Ası́, por ejemplo, para la serie de datos: 2, 3, 3, 5, 5, 8, 10, 12 se tiene Xmayor = 12 y


Xmenor = 2, por tanto la amplitud es A = 12 − 2 = 10.
Cuando se trata de datos agrupados, la amplitud se toma como la diferencia entre el
lı́mite superior del último intervalo y el inferior del primero. Tenemos ası́, que para
la distribución de frecuencias de la tabla 16 que muestra el tiempo requerido por 50
estudiantes para resolver un examen parcial, la amplitud está dada por
A = 75 − 45 = 30.
La amplitud, debido la forma matemática que la define, es bastante sensible a los
valores extremos que se puedan presentar en una serie de datos. Además, al no
tomar en cuenta ninguna medida de tendencia central, no informa nada acerca de
cómo se comportan los datos respecto del centro.

5.2. Desviación media


La desviación media se define como la media aritmética de los valores absolutos de
las desviaciones de cada termino de la serie, con respecto a la media.
P
Xi − X
DM = (6)
N
Hay que destacar la importancia de tomar valores absolutos de las desviaciones. Si
no se hiciese ası́ unas desviaciones se anuları́an con otras, alcanzando finalmente la
desviación media un valor de 0, debido a la propiedad de la media aritmética vista
en (4.1.2).

Ejemplo. Calcular la desviación media de la serie: 4, 5, 6, 7 y 8.


P
Xi |Xi − X| X i − X 6
DM = = = 1.2
4 |4 − 6| = 2 N 5
5 1 Este valor es el promedio de las desviacio-
6 0 nes
7 1
8 2
P
6

La desviación media para una distribución de frecuencias simple (sin clases) se cal-
cula de la siguiente manera:
P
f Xi − X
DM = (7)
N

32
5. MEDIDAS DE VARIABILIDAD

Ejemplo. Calcular la desviación media para la siguiente serie.

Calculamos primero la media, en seguida hallamos las


Xi f desviaciones, después multiplicamos estas desviaciones
30 1 por las respectivas frecuencias, luego sumamos estos pro-
40 3 ductos parciales y dividimos entre N.
50 8
60 4 Xi f f Xi |Xi − X| f |Xi − X|
70 2 30 1 30 21.67 21.67
40 3 120 11.67 35.01
50 8 400 1.67 13.36
60 4 240 8.33 33.32
70 2 140 18.33 36.66
P
18 930 140.02
P
f x 930
X= = = 51.67
N 18
P
f Xi − X 140.02
DM = = = 7.78
N 18

La desviación media para una distribución de clases y frecuencias se calcula de la


siguiente manera:

P
f P m − X
DM = (8)
N

Ejemplo. Calcular la desviación media de la distribución de la tabla 4 relativa a


los puntajes obtenidos por 120 estudiantes.
En la sección 4.1.1 se encontró que la media de esta distribución es de 44.58.
Puntajes (X) f Pm |P m − X| f |P m − X|
28-32 10 30 14.58 145.80
33-37 15 35 9.58 143.70
38-42 20 40 4.58 91.60
43-47 35 45 0.42 14.70
48-52 19 50 5.42 102.98
53-57 12 55 10.42 125.04
58-62 9 60 15.42 138.78
TOTAL 120 762.60
P
f P m − X 762.6
DM = = = 6.36
N 120

33
5. MEDIDAS DE VARIABILIDAD

5.3. Varianza
La varianza, denotada por σ 2 , es una medida que cuantifica el grado de disper-
sión o de variación de los valores de una serie de datos con respecto a su media
aritmética. Si los valores tienden a concentrarse alrededor de su media, la varianza
será pequeña. Si los valores tienden a distribuirse lejos de la media, la varianza será
grande.
La varianza se define como la media aritmética de los cuadrados de las diferen-
cias de los datos con respecto a su media aritmética.

(Xi − X)2
P
2
σ = (9)
N
La varianza es una medida de variabilidad importante que se utiliza en algunos
métodos estadı́sticos relevantes, como el análisis de varianza. Para nuestros propósi-
tos, la varianza tiene una gran desventaja: las unidades de la varianza son diferentes
de las unidades del conjunto original de datos. Por ejemplo, si estamos estudiando
los tiempos de espera en una ventanilla bancaria los datos originales están dados en
minutos, mientras que las unidades de varianza están dadas en minutos cuadrados
( min2 ). ¿Qué es un minuto cuadrado? Como la varianza utiliza unidades distintas
(unidades cuadradas), es sumamente difı́cil comprenderla si la relacionamos con el
conjunto original de datos. En consecuencia, en la mayorı́a de los análisis estadı́sticos
se emplea la varianza como una medida que permite comparar la dispersión entre
dos o más variables, identificando la de mayor varianza como aquella que posee
mayor dispersión o variabilidad. La importancia de la varianza está en que es una
medida transitoria para el cálculo de la desviación tı́pica o estándar de un conjunto
de datos.

5.3.1. Propiedades de la varianza

Propiedad 1

La varianza es siempre una cantidad no negativa: V (X) ≥ 0, cualquiera que


sea la distribución.

Propiedad 2

La varianza de una constante es cero (no hay dispersión).

V (K) = 0

Propiedad 3

Si a cada uno de los datos x1 , ..., xn se le suma una constante K, entonces la


varianza de los datos transformados x1 + K, ..., xn + K es igual a la varianza de
los datos originales.
V (X ± K) = V (X)

34
5. MEDIDAS DE VARIABILIDAD

Propiedad 4

Si cada uno de los datos x1 , ..., xn es multiplicado por una constante K, entonces
la varianza de los datos transformados Kx1 , ..., Kxn es igual a la varianza de los
datos originales por el cuadrado de la constante K.

V (KX) = K 2 V (X)

5.4. Desviación tı́pica o estándar


La desviación tı́pica o estándar, designada por σ , es la más importante de las medidas
de dispersión. Puede definirse como la raı́z cuadrada de la media aritmética del
cuadrado de las desviaciones de cada valor de la variable con respecto a la media.
La desviación tı́pica es la raı́z cuadrada positiva de la varianza.
rP
(Xi − X)2
σ= (10)
N
Una formula abreviada para encontrar esta medida es la siguiente:
rP
X2
σ= − (X)2 (11)
N
La desviación tı́pica tiene la ventaja de estar expresada en la misma unidad de me-
dida que la media, lo cual facilita la interpretación de la variabilidad de los datos.
Ası́,por ejemplo si la media está expresada en kilogramos, la desviación tı́pica estará
expresada en kilogramos.

Ejemplo. Calcular la desviación tı́pica y la varianza de la serie: 4, 5, 6, 7 y 8.


P
2 2 X 30
Xi Xi − X (Xi − X) X X= = =6
N 5
4 4-6=-2 4 16
5 -1 1 25 Aplicando la formula:
6 0 0 36 rP r
7 1 1 49 (Xi − X)2 10 √
σ= = = 2 = 1.41
8 2 4 64 N 5
30 10 190
También podı́amos haber ocupado la for-
mula abreviada, ası́:
rP r
X2 190 √ √
σ= − (X)2 = − (6)2 = 38 − 36 = 2 = 1.41
N 5
Dado que la desviación tı́pica es la raı́z cuadrada de la varianza, para calcular
la varianza a partir de la desviación tı́pica basta con elevar al cuadrado esta
última medida, asi:

σ 2 = ( 2)2 = 2

35
5. MEDIDAS DE VARIABILIDAD

5.4.1. Desviación tı́pica para una distribución de clases y frecuencias

Para calcular la desviación para una distribución de clases y frecuencias, ocuparemos


la siguiente formula:

rP
f (P m − X)2
σ= (12)
N

Donde (P m − X) es la desviación de cada punto medio de clase, con respecto a la


media de la distribución.

Ejemplo. Calcular la desviación tı́pica de la distribución de la tabla 4 relativa a


los puntajes obtenidos por 120 estudiantes.
En la sección 4.1.1 se encontró que la media de esta distribución es de 44.58.
Puntajes (X) f Pm Pm−X (P m − X)2 f (P m − X)2
28-32 10 30 -14.58 212.58 2125.8
33-37 15 35 -9.58 91.78 1376.7
38-42 20 40 -4.58 20.98 419.6
43-47 35 45 0.42 0.18 6.3
48-52 19 50 5.42 29.38 558.22
53-57 12 55 10.42 108.58 1302.96
58-62 9 60 15.42 237.78 2140.02
TOTAL 120 7929.6
Aplicando la formula se tiene:
rP r
f (P m − X)2 7929.6
σ= = = 8.13
N 120

5.4.2. Método abreviado para calcular la desviación tı́pica para una distribu-
ción de clases y frecuencias

Utilizaremos la siguiente formula:

rP
f P m2 2
σ= −X (13)
N

formula que es parecida a la que se utilizó para calcular la desviación tı́pica para una
serie simple, por el método abreviado.

36
5. MEDIDAS DE VARIABILIDAD

Ejemplo. Calcular la desviación tı́pica de la distribución de la tabla 4 relativa a


los puntajes obtenidos por 120 estudiantes.
La media aritmetica de esta distribución es de 44.58 (como se vio anterior-
mente).
Puntajes (X) f Pm P m2 f P m2
28-32 10 30 900 9,000
33-37 15 35 1,225 18,375
38-42 20 40 1,600 32,000
43-47 35 45 2,025 70,875
48-52 19 50 2,500 47,500
53-57 12 55 3,025 36,300
58-62 9 60 3,600 32,400
TOTAL 120 246,450
Aplicando la formula se tiene:
rP r
f P m2 2 246, 450
σ= −X = − (44.58)2 = 8.14
N 120
resultado muy similar al obtenido por el método largo (la pequeña diferencia
radica en que no se han ocupado todos los decimales de la media aritmética).

5.5. Coeficiente de variabilidad


Las medidas de variabilidad vistas anteriormente son números concretos, es decir
son expresadas en las unidades de las variables en estudio. Con ellas se puede cono-
cer la dispersión de los datos de una serie estadı́stica, pero no se puede comparar la
dispersión de dos o más variables dadas en diferente unidad de medida. Por ejemplo,
podemos conocer la desviación tı́pica, de las variables peso y estatura de un grupo
de personas, digamos 5.5 libras y 10 centı́metros, respectivamente. ¿Podrı́amos decir
cuál de las dos variables (peso o estatura), tiene menor variabilidad?
La medida de variabilidad, cualquiera que sea, significará menor dispersión cuanto
menor sea su valor; pero para el problema planteado anteriormente, donde las me-
didas de variabilidad están expresadas en diferentes unidades (libras y centı́metros),
¿se podrá tomar una decisión? Es claro que no podemos responder la pregunta. Se
necesita de una medida relativa para poder comparar el grado de variabilidad o
dispersión de dos o más variables.
Para resolver el problema de cómo establecer la diferencia en la variabilidad o dis-
persión de dos o más variables, utilizaremos el coeficiente de variabilidad, que es
una medida relativa (sin unidades de medida). Esta medida expresa el porcentaje
que representa la desviación con relación a la media aritmética y se calcula ası́:

σ
C.V = × 100 % (14)
X

37
5. MEDIDAS DE VARIABILIDAD

El coeficiente de variabilidad se emplea fundamentalmente para:


- Comparar la variabilidad entre dos grupos de datos referidos a distintos siste-
mas de unidades de medida. Por ejemplo, kilogramos y centı́metros.
- Comparar la variabilidad entre dos grupos de datos obtenidos por dos o más
personas distintas.
- Determinar la representatividad de la media aritmética de una serie de datos.
En la distribución que venimos analizando de la tabla 4, puntajes de 120 estudiantes,
los valores de la media y la desviación tı́pica son: 44.58 y 8.13 respectivamente;
entonces su coeficiente de variabilidad es:

σ 8.13
C.V = × 100 % = × 100 % = 18.24 %
X 44.58
La interpretación de este coeficiente es igual al de las otras medidas de dispersión.
El grado de representatividad de la media detectado por medio del coeficiente de
variabilidad, se presenta en la tabla 18.

Tabla 18: Grado de representatividad de la media aritmética para distintos coeficientes


de variabilidad

Valor de C.V Grado de representatividad de la media


De 0 a menos de 10 % Media altamente representativa
De 10 % a menos de 20 % Media bastante representativa
De 20 % a menos de 30 % Media tiene representatividad
De 30 % a menos de 40 % Media cuya representatividad es dudosa
De 40 % o más Media carente de representatividad

Ejercicios
1. La siguiente tabla presenta información acerca de las fuentes de información
que utilizan los habitantes del área metropolitana de San Salvador para ente-
rarse de las noticias.
Medio f
Televisión 619
Radio 121
Prensa escrita 301
Redes sociales 359
Con la información del cuadro anterior:
a) Elabore el gráfico circular
b) Elabore el gráfico de barras

38
5. MEDIDAS DE VARIABILIDAD

2. A continuación se presenta la distribución de frecuencias correspondiente a la


resistencia a la explosión en libras por pulgada cuadrada (psi) de 100 botellas
para bebidas gaseosas, no retornables de 1 L.
Resistencia a la explosión (psi) Frecuencia
[ 170 - 190 ) 2
[ 190 - 210 ) 4
[ 210 - 230 ) 7
[ 230 - 250 ) 13
[ 250 - 270 ) 32
[ 270 - 290 ) 24
[ 290 - 310 ) 11
[ 310 - 330 ) 4
[ 330 - 350 ) 3
TOTAL 100
a) Calcule las columnas de frecuencia relativa, frecuencia acumulada y fre-
cuencia relativa acumulada.
b) Elabore el histograma de la distribución
c) Elabore el polı́gono de frecuencias de la distribución
d) Elabore la ojiva de la distribución
e) Calcule la media, mediana y moda de la distribución
f) Calcule la varianza y desviación tı́pica de la distribución
g) El grado de representatividad de la media
3. A continuación se presenta la distribución de la vida útil, en horas, de 1,430
tubos de televisión de cierta compañı́a:
Vida útil f
800 - 1,039 25
1,040 - 1,279 325
1,280 - 1,519 750
1,520 - 1,759 310
1,760 - 1,999 20
TOTAL 1,430
Calcular:
a) Las columnas de frecuencias relativas, frecuencias acumuladas y frecuen-
cias relativas acumuladas
b) La media aritmética
c) La mediana
d) La moda
e) La varianza y la desviación estándar
f) El grado de representatividad de la media

39
REFERENCIAS REFERENCIAS

4. En una empresa los salarios han tenido un promedio de $500 mensuales con
una desviación tı́pica de $50. ¿Qué sucede con la media y la varianza de los
salarios si:
a) Se aumentan en $45.00.
b) Se aumentan en 10 %.
c) Se efectúa ambos aumentos simultáneamente.
5. Dado el siguiente histograma, determine: media, mediana, moda, varianza y
desviación tı́pica.

Figura 11: Histograma del ejercicio 5.

Referencias
[1] Gildaberto Bonilla. Estadı́stica. Elementos de estadı́stica descriptiva y probabili-
dad. UCA Editores, 2015.
[2] Lincoln L Chao and Jesús Marı́a Castaño. Estadı́stica para las ciencias adminis-
trativas, volume 3. McGraw-Hill, 1993.
[3] Manuel Córdova Zamora. Estadı́stica descriptiva e inferencial. Edit. Moshera
SRL. 5ª edición. Lima-Perú, 2003.
[4] Douglas A Marchal Lind, William G Wathen, Samuel A Douglas A Lind, Wi-
lliam G Marchal, and Samuel A Wathen. Estadı́stica aplicada a los negocios y la
economı́a. McGraw-Hill, 2012.
[5] Gabriel Jaime Posada Hernández. Elementos básicos de estadı́stica descriptiva
para el análisis de datos. Fundación Universitaria Luis Amigó, 2016.
[6] Mario F Triola. Probabilidad y estadı́stica. Pearson educación, 2004.

40

También podría gustarte