Material Control de Lectura

E STAD ÍSTICA I
U NIVERSIDAD D ON B OSCO
D EPARTAMENTO DE C IENCIAS B ÁSICAS
CONTROL DE LECTURA I:
ESTADÍSTICA DESCRIPTIVA
1. CONCEPTOS FUNDAMENTALES
1. Conceptos fundamentales
La aplicación del tratamiento estadı́stico tiene dos fases fundamentales:
1. Organización y análisis inicial de los datos recogidos.
2. Extracción de conclusiones válidas y toma de decisiones razonables a partir de
ellos.
Los objetivos de la Estadı́stica Descriptiva son los que se abordan en la primera de
estas fases. Es decir, su misión es ordenar, describir y sintetizar la información reco-
gida. En este proceso será necesario establecer medidas cuantitativas que reduzcan
a un número manejable de parámetros el conjunto (en general grande) de datos
obtenidos.
La realización de gráficas también forma parte de la Estadı́stica Descriptiva dado que
proporciona una manera visual directa de organizar la información.
La finalidad de la Estadı́stica Descriptiva no es, entonces, extraer conclusiones gene-
rales sobre el fenómeno que ha producido los datos bajo estudio, sino solamente su
descripción (de ahı́ el nombre).
Definición
Estadistica Descriptiva. Conjunto de técnicas orientadas a la presentación de
datos mediante tablas y gráficas que permiten resumir o describir el compor-
tamiento de los mismos, sin realizar inferencias sobre ellos.
1.1. Población y muestra
La población o universo es un conjunto de elementos a los cuales se le estudian

algunas caracterı́sticas comunes; por ejemplo, los docentes de una institución edu-
cativa, las empresas de un sector productivo, los parques de una ciudad, los artı́culos
vendidos en un supermercado, entre otros.
La población puede ser finita o infinita. Se dice que una población es finita cuando
el número de los elementos que la integran es conocido por el investigador; tal es el
caso de los parques de una ciudad, los docentes de una universidad, los operarios de
una industria, etc., mientras que para la población infinita no se conoce el número
de elementos, ya sea porque es muy grande o porque se sabe que existe pero no se
conoce el tamaño, por ejemplo: los lanzamientos de un dado, el número de veces
que una persona puede pasar por un sitio y demás.
La muestra se define como un conjunto de elementos seleccionados adecuadamente,
que pertenecen a una población determinada, o sea que es una parte de la población
o universo. Al seleccionar una muestra se pretende que el análisis realizado en ella
pueda proporcionar conclusiones similares a las que se lograrı́an si se hubiese estu-
diado la totalidad de elementos de la población; por tal razón, la muestra debe ser
representativa.
2
Figura 1: Población y muestra.
Definiciones
- Población: Conjunto completo de individuos, objetos o medidas que po-
seen alguna caracterı́stica común observable.
- Muestra: Es un subconjunto o parte de la población, que lleva implı́cita
todas las caracterı́sticas del universo.
1.2. Variables estadı́sticas

En estadı́stica, se considera como variable cualquier caracterı́stica o propiedad ge-
neral de una población que sea posible medir con distintos valores o describir con
diferentes modalidades, por ejemplo: el coeficiente intelectual de los estudiantes de
un grupo puede tener diferentes valores, o el estado civil de los empleados de una
organización puede estar caracterizado como soltero, casado, separado, entre otros.
Ası́, estas dos caracterı́sticas se consideran variables porque, como el término lo in-
dica, varı́an al medirse o caracterizarse de un elemento de la población a otro.
Las variables se clasifican de la siguiente manera:
• Variables categóricas o cualitativas: Son aquellas que representan carac-
terı́sticas de los elementos y no permiten una representación numérica de-
finida. Algunos ejemplos de variables cualitativas son el género, la filiación
religiosa, tipo de automóvil que se posee, el color de ojos, etc.
Cuando los datos son de naturaleza cualitativa, importa la cantidad o propor-
ción que caen dentro de cada categorı́a. Por ejemplo, ¿qué porcentaje de la
población tiene ojos azules? ¿Cuántos católicos o cuántos protestantes hay en
El Salvador?
3
• Variable cuantitativa: Son aquellas que se pueden medir y expresar mediante

cantidades numéricas. Ejemplos de variables cuantitativas son el saldo en tu
cuenta de ahorros, las edades de los presidentes de Latinoamérica, la vida de
la baterı́a de un automóvil y el número de hijos que hay en una familia.
A su vez, las variables cuantitativas se clasifican de la siguiente manera:
* Variables discretas: sólo pueden tomar un conjunto finito o numerable
de valores (generalmente valores enteros). Ejemplos de variables discre-
tas son el número de habitaciones en una casa (1, 2, 3, 4, etc.); el número
de automóviles que en una hora usan el carril del SITRAMMS y el número
de estudiantes en cada grupo del curso de Estadı́stica I en la UDB.
* Variables continuas: toman cualquier valor dentro de un intervalo es-
pecı́fico. Ejemplos de variables continuas son la presión del aire en una
llanta y la duración de los vuelos de El Salvador a Honduras.
Figura 2: Clasificación de las variables estadı́sticas.
1.3. Parámetros y estadı́sticos
Definiciones
- Parámetro: Cualquier caracterı́stica de una población que sea medible.
- Estadı́stico: Medida resultante del análisis de una muestra.
Ejemplos de parámetros son el salario promedio de todos los empleados de una

empresa, la proporción de personas que mueren de cáncer en un determinado paı́s,
etc.
4
2. DISTRIBUCIÓN DE FRECUENCIAS
Ejemplos de estadı́sticos son el salario promedio de todos los empleados de una

empresa calculado a partir de una muestra, la proporción de personas que mueren
de cáncer, calculada a partir de una muestra tomada de la población de personas
que fallece en un determinado paı́s, etc.
2. Distribución de frecuencias
Al aplicar encuestas o acudir a una base de datos para obtener la información, es
posible que a simple vista se dificulte la interpretación por la cantidad de datos que
pudieron ser generados en el proceso investigativo. Por esta razón, es conveniente
agrupar los datos y construir tablas que faciliten la interpretación.
Definición
La distribución de frecuencias es un método utilizado para organizar y resumir
información. Bajo este método, los datos recolectados se ordenan y clasifican,
indicándonos la frecuencia o sea el número de veces que se repiten.
2.1. Agrupación de datos

Suponga que el director de una escuela metropolitana, al inicio de las labores es-
colares, desea clasificar a los estudiantes del sexto grado,en tres secciones, y desea
hacerlo de acuerdo a los resultados obtenidos en el examen de admisión. Los resul-
tados se presentan en la siguiente tabla:
Tabla 1: Resultado del examen de admisión de 120 estudiantes
47 58 38 35 50 59 47 51 42 45
45 53 33 32 49 48 50 50 41 45
62 48 28 30 55 43 43 44 40 45
28 30 29 29 55 49 33 39 39 46
28 37 47 57 49 51 39 40 45 45
58 35 60 54 55 49 34 44 50 46
59 30 61 43 54 44 30 44 45 47
38 34 53 38 43 51 36 49 45 34
33 33 54 39 50 50 36 44 45 35
43 48 38 43 52 44 44 40 46 45
60 53 40 56 48 35 45 42 47 45
60 52 40 42 35 40 45 41 45 39
El conjunto de datos de esta tabla constituye una serie estadı́stica simple. Como
puede notar, la serie no brinda mayor información; no se puede conocer como se
distribuye la variable rendimiento de los estudiantes. Entonces si se quiere comenzar
a descubrir peculiaridades de la variable, se debe comenzar por ordenar los datos.
Estos se pueden ordenar de forma creciente o decreciente.
5
Tabla 2: Resultados del examen de admisión ordenados de forma creciente
28 28 28 29 29 30 30 30 30 32
33 33 33 33 34 34 34 35 35 35
35 35 36 36 37 38 38 38 38 39
39 39 39 39 40 40 40 40 40 40
41 41 42 42 42 43 43 43 43 43
43 44 44 44 44 44 44 44 45 45
45 45 45 45 45 45 45 45 45 45
45 46 46 46 47 47 47 47 47 47
48 48 48 48 49 49 49 49 49 50
50 50 50 50 50 51 51 52 52 53
53 53 54 54 54 55 55 55 55 56
57 58 58 59 59 60 60 60 61 62
Los datos ordenados en esta forma brindan una pequeña información; a) se conoce
rápidamente el menor y el mayor valor que toma la variable: 28 y 62 respectivamen-
te; b) el valor más frecuente es 45; c) los valores tienden a concentrarse entre 43 y
47.
Si se quiere seguir descubriendo mayor información de la variable, se debe formar
una tabla de frecuencias.
Tabla 3: Tabla de frecuencias para las notas de los estudiantes
Puntajes (x) Frecuencia Puntajes (x) Frecuencia Puntajes (x) Frecuencia Puntajes (x) Frecuencia
28 3 37 1 46 3 55 4
29 2 38 4 47 6 56 1
30 4 39 5 48 4 57 1
31 0 40 6 49 5 58 2
32 1 41 2 50 6 59 2
33 4 42 3 51 2 60 3
34 3 43 6 52 2 61 1
35 5 44 7 53 3 62 1
36 2 45 13 54 3
TOTAL 120
Con la tabla 3 ya se puede conocer el número de veces que se repite cada valor que
toma la variable, y ası́ se puede ver que el valor más frecuente es el 45 y los valores
que solo aparecen una vez son: 32, 37,56, 57, 61 y 62. Se entenderá por frecuencia
(también conocida como frecuencia absoluta), el numero de veces que un valor o
dato se repite en una serie estadı́stica.
6
2.2. Construyendo una distribución de clases y frecuencias

Para seguir descubriendo caracterı́sticas de las variables estadı́sticas es necesario
clasificar los datos en grupos llamados clases. Las distribuciones de clases y frecuen-
cias logran condensar los datos, permitiendo obtener información más precisa de la
distribución y hacer comparaciones entre dos o más series. Además, otra gran ven-
taja de las distribuciones de clases y frecuencias, es la facilidad que presentan para
el cálculo de las medidas que se utilizarán para hacer el analisis estadı́stico de las
variables.
Los tres pasos necesarios para definir las clases de una distribución de frecuencia
con datos cuantitativos son:
1. Determinar el número de clases. Se recomienda emplear entre 5 y 15 clases.
Cuando los datos son pocos, cinco o seis clases bastan para resumirlos. Si son
muchos, se suele requerir más clases. La idea es tener las clases suficientes
para que se muestre la variación en los datos, pero no deben ser demasiadas si
algunas de ellas contienen sólo unos cuantos datos.
Para la serie simple de la tabla 3 , el uso de 7 clases es una elección conveniente
dada la cantidad de datos.
2. Determinar el ancho de clase. El segundo paso al construir una distribución
de clases y frecuencias es elegir el ancho de las clases (también conocido como
intervalo de clase). Como regla general es recomendable que el ancho sea el
mismo para todas las clases. Ası́, el ancho y el número de clases no son decisio-
nes independientes. Entre mayor sea el número de clases menor es el ancho de
las clases y viceversa. Para determinar el ancho de clase apropiada se empieza
por identificar el mayor y el menor de los valores de los datos. Después, usando
el número de clases deseado, se emplea la expresión siguiente para determinar
el ancho de clase:
xmayor − xmenor
ic = (1)
K
En donde K es el número de clases que se seleccionó en el paso anterior. En
el caso de que la expresión anterior no genere un entero exacto, el ancho o
intervalo de clase deberá aproximarse al entero inmediato superior.
En el ejemplo que venimos utilizando xmayor = 62 y xmenor = 28; ası́, ic = 62−28
7 =
4.85 que aproximado al entero inmediato superior es 5 el cuál será nuestro
ancho de clase.
3. Determinar los lı́mites de la clase. Los lı́mites de clase deben elegirse de
manera que cada dato pertenezca a una y sólo una de las clases. El lı́mite de
clase inferior indica el menor valor de los datos a que pertenece esa clase. El
lı́mite de clase superior indica el mayor valor de los datos a que pertenece
esa clase.
Para el caso de la primera clase, el lı́mite inferior es el menor valor de la serie.
Usando el lı́mite inferior de la primera clase y el ancho de clase, se procede a
listar los lı́mites inferiores de las demás clases (Sumando el ancho de clase al
lı́mite inferior de la primera clase para obtener el limite inferior de la segunda
7
clase. Después se suma el ancho de clase al lı́mite inferior de la segunda clase

para obtener el tercero, y ası́ sucesivamente).
Para nuestro ejemplo, el lı́mite inferior de la primera clase es 28 (el menor
valor de la serie). El lı́mite inferior la segunda clase es 33, este valor se obtiene
sumando el ancho de clase al limite inferior de la primera clase(28 + 5 = 33).
Aplicando la misma lógica se obtienen los limites inferiores de las clases res-
tantes: 38, 43, 48, 53, 58. Con esta lista se puede identificar con facilidad los
lı́mites superiores correspondientes, que son 32, 37, 42, 47, 52, 57 y 62.
Después de identificar los lı́mites inferiores y superiores de cada clase, estaremos
listos para tabular los datos de la serie simple usando una distribución de clases y
frecuencias.
Tabla 4: Distribución de clases y frecuencias de las calificaciones obtenidas por 120

alumnos en un examen de admisión
Puntajes (x) Frecuencia

28-32 10
33-37 15
38-42 20
43-47 35
48-52 19
53-57 12
58-62 9
TOTAL 120
OBSERVACIÓN.
En el ejemplo anterior, se está trabajando con lı́mites aparentes. Hablamos de lı́mi-
tes aparentes, ya que para hacer el calculo del número de valores incluidos en cada
clase, se incluyen dichos lı́mites; es decir las clases son mutuamente excluyentes.
Note que si la clasificación hubiera sido de 28 a 32; de 32 a 37; de 37 a 42, etc.,
¿en qué clase ubicarı́amos al 32?, ¿en qué clase ubicarı́amos al 37? indudablemente
tendrı́amos un problema.
La distribución de la tabla 4, pudo también escribirse utilizando lı́mites reales, como
se muestra en la siguiente tabla.

alumnos en un examen de admisión (utilizando lı́mites reales)
Puntajes (x) Frecuencia

De 27.5 a menos de 32.5 10
32.5 a menos de 37.5 15
37.5 a menos de 42.5 20
42.5 a menos de 47.5 35
47.5 a menos de 52.5 19
52.5 a menos de 57.5 12
57.5 a menos de 62.5 9
TOTAL 120
8
Para presentar en esta forma la distribución (con lı́mites reales), lo que se hizo fue
restar 0.5 a los lı́mites aparentes inferiores y a los lı́mites superiores se les sumó 0.5.
El uso de limites reales es adecuado únicamente con variables continuas.
2.3. Frecuencia absoluta, relativas, marca de clase y distribucio-

nes acumuladas
Frecuencia absoluta
Frecuencia absoluta de un dato es el número de veces que ocurre dicho dato
en la muestra o población. Frecuencia absoluta de una clase es el número de
datos de la muestra o población que pertenecen a dicha clase. Se representa
por f . Todas las frecuencias con las que se ha trabajado hasta el momento son
frecuencias absolutas.
Frecuencia relativa
Frecuencia relativa (fr) de un dato o una clase es el cociente entre su frecuen-
cia absoluta (f ) y el tamaño de la muestra o población (N ).
f
fr=
N
Las frecuencias relativas también se pueden expresar de forma porcentual,
para lo cual basta multiplicar dicha frecuencia relativa por
f
fr%= × 100
N
El total de frecuencias relativas porcentuales debe ser igual al 100 %, o aproxi-
madamente igual a este valor cuando se presentan decimales y se redondean
los valores del porcentaje.
Por ejemplo, la frecuencia relativa porcentual de la primera clase de la tabla 4 es:
10
fr%= × 100 = 8.33 %
120
En la tercera columna de la tabla 5 se presentan las frecuencias relativas porcentua-
les de cada una de las clases del ejemplo que se viene desarrollando.
Frecuencia acumulada
La frecuencia acumulada (fa) es la suma de las frecuencias absolutas de todas
las clases inferiores a la que estamos calculando.
La construcción de la distribución de frecuencias acumuladas se obtiene por el pro-

ceso de adición sucesiva de las frecuencias anteriores al intervalo de clases corres-
pondientes. Ası́, la frecuencia acumulada del intervalo 43-47 de la tabla 4, se obtiene
9
por la adición sucesiva de 10 + 15 + 20 + 35 = 80. La frecuencia acumulada de la últi-

ma clase es siempre igual al total de datos N. Si no se tiene este resultado, quiere
decir que ha habido algún error al calcular dicha columna.
En la cuarta columna de la tabla 5 se presentan las frecuencias acumuladas de cada
una de las clases del ejemplo con el que se viene trabajando.
Frecuencia relativa acumulada
La frecuencia relativa acumulada (fra) es la suma de las frecuencias relati-
vas de todas las clases inferiores a la que estamos calculando. La frecuencia
relativa acumulada también se puede presentar de forma porcentual.
Marca de clase
La marca de clase (PM) es el punto medio del intervalo de clase y se obtiene
sumando los lı́mites de clase inferior y superior y dividiendo entre 2. La marca
de clase es el valor que mejor representa a todos los valores que están dentro
de dicha clase.
Retomando el ejemplo de la tabla 4, las marcas de clase resultaron ası́: para la prime-
28 + 32 33 + 37
ra clase, = 30; para la segunda clase, = 35 y ası́ sucesivamente. Una
2 2
manera práctica de calcular las marcas de clase es sumar a la primera marca de clase
encontrada, en ancho de clase utilizado, ası́, la primera marca de clase encontrada
en nuestro ejemplo fue 30, la siguiente será 30 + 5 = 35, la siguiente 35 + 5 = 40 y ası́
sucesivamente. En la sexta columna de la tabla 6 se muestran las marcas de clases
para el ejemplo que se viene desarrollando.
Tabla 6: Distribución de frecuencias relativas y acumuladas, basada en los datos que

aparecen en la tabla 4
Puntajes (x) f fr % fa fra % PM

28-32 10 8.33 10 8.33 30
33-37 15 12.50 25 20.83 35
38-42 20 16.67 45 37.50 40
43-47 35 29.17 80 66.67 45
48-52 19 15.83 99 82.50 50
53-57 12 10.00 111 92.50 55
58-62 9 7.50 120 100.00 60
TOTAL 120 100 %
Presentadas en esta forma las frecuencias de las distintas clases, ya se puede tener mayor
información sobre la variable en estudio. Ası́ decimos por ejemplo, viendo la cuarta clase y
tercera columna de la tabla 6, que el 29.17 % de los estudiantes obtuvieron puntajes entre
43 y 47; que el 61.67 % de los estudiantes sacaron puntajes entre 38 y 52; en esta zona
se encuentra la mayor concentración de valores de la serie. La frecuencia acumulada que
aparece en la tercera clase significa que 45 estudiantes sacaron puntajes de 42 o menos. La
frecuencia acumulada relativa de la quinta clase significa que el 82.50 % de los estudiantes
obtuvieron puntajes de 52 o menos, etc.
10
3. TÉCNICAS DE REPRESENTACIÓN GRÁFICA
3. Técnicas de representación gráfica

La organización de los datos obtenidos en una investigación mediante tablas de
frecuencias no es suficiente para analizar el comportamiento de una variable. Para
una comprensión más efectiva del comportamiento de la variable, se hace útil el
empleo de gráficas, dado que éstas permiten describir en forma clara y práctica el
fenómeno en estudio.
La importancia de las representaciones gráficas de los cuadros estadı́sticos consiste
especialmente en la posibilidad de asimilar rápidamente y sin mucho esfuerzo las
principales caracterı́sticas de las series estadı́sticas.
3.1. Gráficas para datos cualitativos

Las representaciones gráficas más usuales para variables cualitativas son las gráficas
de barras y las gráficas circulares. La elección de un tipo de gráfica u otra depende de
si el objetivo consiste en comparar las categorı́as entre sı́ de manera directa (gráfica
de barras) o en destacar la manera en que las categorı́as forman parte de un todo
(gráfica circular).
3.1.1. Gráfica de barras
El instrumento más común para representar una variable cualitativa en forma gráfi-
ca es la gráfica de barras. En la mayorı́a de los casos, el eje horizontal muestra la
variable de interés y el eje vertical la frecuencia de cada uno de los posibles resul-
tados. Una caracterı́stica distintiva de esta herramienta es que existe una distancia
o espacio entre las barras. Es decir, que como la variable de interés es de naturaleza
cualitativa, las barras no son adyacentes.
Gráfica de barras
Representación gráfica de una tabla de frecuencias mediante una serie de
rectángulos de anchura uniforme, cuya altura corresponde a la frecuencia de
cada categorı́a.
EJEMPLO. Una cooperativa financiera quiere hacer una investigación sobre el estado
civil de sus asociados con el objetivo de trazar estrategias de mercado. Con ese propósito,
se preguntó su estado civil a 150 asociados que visitaron la cooperativa en una semana.
Los resultados se muestran en la tabla 7.
A partir de los resultados mostrados en la tabla 7 se construye la gráfica de barras
mostrada en la figura 3.
11
Tabla 7: Estado civil de 150 asociados a una cooperativa financiera
Soltero 20
Casado 78
Viudo 15
Divorciado 26
No declarado 11
TOTAL 150
Figura 3: Gráfica de barras para la tabla 7 .
Notese que gracias al gráfico, es posible observar a “golpe de vista“ que la mayorı́a
de asociados a la cooperativa son casados.
3.1.2. Gráfica circular
Una gráfica circular (conocida comúnmente como gráfica de pastel) utiliza las par-
tes de un cı́rculo para representar los valores de cada categorı́a. El tamaño de cada
parte o porción del cı́rculo varı́a de acuerdo con el porcentaje (frecuencia relativa
porcentual) de cada categorı́a.
Gráfica circular
Gráfica que muestra la parte o porcentaje que representa cada categorı́a con
respecto al total de datos.
Para construir una gráfica de pastel se debe asignar un sector de cı́rculo a cada
categorı́a. El ángulo de cada sector debe ser proporcional a la frecuencia relativa
en esa categorı́a. Como un cı́rculo contiene 360°, se puede usar esta ecuación para
hallar el ángulo:
angulo = frecuencia relativa × 360◦
12
EJEMPLO. SkiLodges.com realiza una prueba de mercado de su nuevo sitio web y le

interesa saber con qué facilidad se navega en su diseño de página web. Selecciona al
azar 200 usuarios frecuentes de internet y les pide que lleven a cabo una búsqueda en
la página web. A cada uno de ellos le solicita que califique la relativa facilidad para
navegar como mala, buena, excelente o sobresaliente. La distribución de frecuencias de
los resultados aparece en la tabla 8:
Tabla 8: Resultados de la encuesta sobre la facilidad de uso del sitio web
Evaluación f fr fr %
Sobresaliente 102 0.51 51 %
Excelente 58 0.29 29 %
Buena 30 0.15 15 %
Mala 10 0.05 5%
TOTAL 200 1.00 100 %
A partir de los resultados mostrados en la tabla 8 es posible realizar la gráfica circular

respectiva. Teniendo calculadas las frecuencias relativas de cada categorı́a, el calculo de
los correspondientes sectores dentro del circulo es sumamente sencillo; ası́, por ejemplo
para la categorı́a ”sobresaliente”, el calculo del ángulo de la sección seria de la siguiente
manera:
angulo = 0.51 × 360◦ = 183.6◦

Usando la expresión anterior, es posible calcular los ángulos de las secciones restan-
tes. El gráfico circular creado a partir de los datos de la tabla 8 se presenta en la
siguiente figura:
Figura 4: Gráfica circular para la tabla 8 .
La gráfica de pastel del ejemplo hace hincapié en que más de la mitad de los encues-
tados calificaron de sobresaliente la relativa facilidad para utilizar el sitio web.
13
3.2. Gráficas para variables cuantitativas

3.2.1. Gráfica de barras
Cuando la variable es discreta y toma pocos valores, el gráfico adecuado es el dia-

grama de barras. Se construye de la misma forma que para las variables cualitativas
pero ahora sobre el eje de abscisas se sitúan los valores de la variable. Es decir, una
vez colocados los valores de la variable en el eje de abscisas, se levantan sobre ellos
unos segmentos (barras) de altura igual a la frecuencia correspondiente.
EJEMPLO. A continuación se presenta la distribución de frecuencias del número de her-
manos (excluido él mismo) de una muestra de 500 alumnos varones de una Universidad
con las últimas frecuencias agrupadas, por tener valores muy bajos.
Tabla 9: Distribución de frecuencias del número de hermanos de una muestra de 500

alumnos varones de una universidad
Nº de hermanos f fr % fa
0 72 14.4 % 72
1 155 31 % 227
2 97 19.4 % 324
3 81 16.2 % 405
4 30 6% 435
5 27 5.4 % 462
6 20 4% 482
>7 18 3.6 % 500
TOTAL 500 100 %
A partir de esta distribución de frecuencias, se genera la siguiente gráfica de barras.
Figura 5: Gráfica de barras para los datos de la tabla 9 .
14
3.2.2. Histograma
El histograma es el grafico usado más frecuentemente para describir variables cuan-

titativas continuas.
Histograma
Es una serie de rectángulos yuxtapuestos (sin huecos entre sı́). Sobre el eje
horizontal se distribuyen los intervalos de la variable y sobre el eje vertical se
ubican las frecuencias. La base de los rectángulos está determinada por la am-
plitud del intervalo, y la altura de cada rectángulo corresponde a la frecuencia
que presenta cada intervalo.
Para que los rectangulos queden yuxtapuestos se debe escribir, en el eje horizontal,
los limites inferiores de cada clase.
Ejemplo. A continuación se presenta la distribución de frecuencias de las ganancias por
ventas de vehı́culos de una concesionaria de San Salvador.
Tabla 10: Distribución de frecuencias de las ganancias por ventas de vehı́culos de una
concesionaria
Ganancia f fa PM
$200 a $600 8 8 400
600 a 1,000 11 19 800
1,000 a 1,400 23 42 1,200
1,400 a 1,800 38 80 1,600
1,800 a 2,200 45 125 2,000
2,200 a 2,600 32 157 2,400
2,600 a 3,000 19 176 2,800
3,000 a 3,400 4 180 3,200
TOTAL 180
A partir de esta distribución de frecuencias se genera el siguiente histograma:
Figura 6: Histograma para la distribución de frecuencias de la tabla 10 .
15
3.2.3. Polı́gono de frecuencias
Otro recurso gráfico para ilustrar el comportamiento de los datos es el polı́gono de

frecuencias. Este se construye sobre el plano cartesiano, al colocar en el eje horizon-
tal las marcas de clase (punto medio); sobre cada marca de clase se debe colocar un
punto a una altura igual a la frecuencia de esa clase; luego se unen dichos puntos por
segmentos de recta. Para que el polı́gono quede cerrado se considera un intervalo
más al inicio y otro al final (ambos con frecuencia cero).
Ejemplo. A continuación se muestra el polı́gono de frecuencias para los datos de la
tabla 10 que presenta la distribución de frecuencias de las ganancias por la venta de
autos de una concesionaria de San Salvador.
Figura 7: Polı́gono de frecuencias para los datos de la tabla 10 .
Tanto el histograma como el polı́gono de frecuencias permiten tener una vista rápida
de las principales caracterı́sticas de los datos (máximos, mı́nimos, puntos de concen-
tración, etc.). Aunque las dos representaciones tienen un propósito similar, el histo-
grama posee la ventaja de que describe cada clase como un rectángulo, en el que la
barra de altura de éste representa el número de elementos que hay en cada clase. El
polı́gono de frecuencias, en cambio, tiene una ventaja con respecto al histograma.
También permite comparar directamente dos o más distribuciones de frecuencias.
3.2.4. Ojiva o polı́gono de frecuencia acumulada
La ojiva es el polı́gono que se obtiene al unir por segmentos de recta los puntos
situados a una altura igual a la frecuencia acumulada a partir del limite superior
de la clase, similar a como se hizo con el polı́gono de frecuencias (con la única
diferencia que para esa gráfica en el eje horizontal se ubicaba el punto medio de
cada clase).
Ejemplo. A continuación se muestra la ojiva para los datos de la tabla 10 que presenta
la distribución de frecuencias de las ganancias por la venta de autos de una concesiona-
ria de San Salvador.
16
Figura 8: Ojiva para los datos de la tabla 10 .
Para trazar la ojiva, se ubica el lı́mite superior de cada clase a lo largo del eje X,
y las correspondientes frecuencias acumulativas, a lo largo del eje Y. Para incluir
información adicional, es posible graduar el eje vertical a la izquierda en unidades y
el eje vertical a la derecha en porcentajes. En el ejemplo de la venta de autos, el eje
vertical que se localiza a la izquierda se gradúa desde 0 hasta 180 y a la derecha de
0 % a 100 %. El valor de 50 % corresponde a 90 vehı́culos.
17
4. MEDIDAS DE TENDENCIA CENTRAL
4. Medidas de tendencia central

En los estudios estadı́sticos es importante el análisis de la información que corres-
ponde a variables cualitativas y cuantitativas, a partir de la tabulación y la represen-
tación gráfica de los datos. Además de esto, es necesario analizar los datos por medio
de cálculos matemáticos que resuman el comportamiento de las caracterı́sticas del
objeto de estudio.
En la mayorı́a de los casos, el conjunto de datos obtenidos, ya sea de una muestra o
de una población, tienden a reunirse alrededor de un valor central. De esta manera,
es posible obtener un valor tı́pico o representativo de todo el conjunto de datos, el
cual se denomina medida de tendencia central. Las medidas de tendencia central
más representativas son: media aritmética, mediana y moda.
4.1. Media aritmética o promedio

La media aritmética es la medida de tendencia central más utilizada y la de mayor
representatividad en los análisis estadı́sticos. Representa el promedio del conjunto
de datos de la muestra. Su cálculo se realiza con la suma de todos los valores de los
datos, dividida entre el número de datos que componen la muestra. Si la variable de
estudio está representada por X, la media aritmética se representa por X (el cual se
lee como “x barra“).
Media aritmética
La media aritmética de un conjunto de valores es la medida de tendencia cen-
tral que se calcula al sumar los valores y dividir el total entre el número de
valores.
Cuando los datos son pocos y NO están agrupados en clases, el calculo de la media
aritmética se efectúa de la siguiente manera:
P
x1 + x2 + x3 + x4 + ... + xN X
X= = (2)
N N
Donde: N representa la cantidad de datos de la muestra
Ejemplo. Un conjunto de datos consta de los cinco valores 6, 3, 8, 6 y 4. Encon-

trar la media aritmética.
Usando la ecuación 2 encontramos:
6 + 3 + 8 + 6 + 4 27
X= = = 5.4
5 5
Cuando los datos están agrupados en una distribución de frecuencias simple (sin cla-
ses o intervalos), el calculo de la media aritmética se efectúa de la siguiente manera:
P
f Xi
X= (3)
N
18
Ejemplo. Sea X el número de hijos de los empleados de una empresa, determinar

la media aritmética.
Xi f f Xi
0 1 0
1 2 2
2 4 8
3 2 6
4 1 4
P
10 20
Notese que en la tercera columna de la distribución de frecuencias anterior se
ha calculado el producto de cada valor de X por su respectiva frecuencia, con
el propósito de ocupar la ecuación 3, de tal manera que el calculo de la media
quedarı́a de la siguiente manera:
P
f Xi 20
X= = = 2 hijos
N 10
4.1.1. Media aritmética para distribuciones de clases y frecuencias
Para obtener la media de una distribución de clases y frecuencias, primeramente se

deben representar los términos que hay dentro de cada clase por su punto medio
(marca de clase). Este valor sustituirı́a al Xi de la ecuación 3 de tal forma que el
calculo de la media aritmética se realizarı́a de la siguiente manera:
P
f Pm
X= (4)
N
O sea que la media, para una distribución de clases y frecuencias, es igual a la suma
de los productos de las frecuencias por los puntos medios de cada clase, dividido
entre el total de datos.
19
Ejemplo. Calcular la media aritmética de la distribución de clases y frecuencias presen-

tada en la tabla 4 relativa al resultado del examen de admisión de 120 estudiantes.
Puntajes (x) f Pm f Pm
28-32 10 30 300
33-37 15 35 525
38-42 20 40 800
43-47 35 45 1575
48-52 19 50 950
53-57 12 55 660
58-62 9 60 540
P
120 5350
Una vez calculados los puntos medios de clase, se efectúa el producto fPm (la fre-
cuencia por el punto medio de cada clase) y se suman los productos parciales, nos
da 5350, luego dividimos esta suma entre 120, y se obtiene:
P
f P m 5350
X= = = 44.58
N 120
4.1.2. Propiedades de la media aritmética
Se hace necesario conocer y manejar correctamente las propiedades que presenta la

Media aritmética, pues facilita la realización de ciertas operaciones, algunas de ellas
necesarias para el desarrollo de la teorı́a estadı́stica y otras, como simplificación de
cálculo.
Propiedad 1
La suma algebraica de las desviaciones de cada término de la serie, con res-

pecto a la media, es cero. Llamando por d, la desviación de cualquier término
con respecto a su media (d = Xi − X), esta propiedad puede establecerse ası́:
X
d = 0 ó bien
X
(Xi − X) = 0 (para datos sin agrupar)
X
(Xi − X)f = 0 (para datos agrupados)
Ejemplo. Considere la serie: 4, 5, 6, 7 y 8.

La media aritmética de esta serie de números es:
P
X 4 + 5 + 6 + 7 + 8 30
X= = = =6
N 5 5
20
Ahora calcularemos las desviaciones de cada valor de la serie con respecto a la me-
dia. El calculo de las desviaciones se presenta en la tabla 12. Nótese que la suma de
las desviaciones es cero, tal cual lo enuncia la propiedad.
Tabla 12: Calculo de las desviaciones de los datos de la serie
Xi Xi − X
4 4-6=-2
5 -1
6 0
7 +1
8 +2
P
0
Propiedad 2
La suma del cuadrado de las desviaciones de cada término de la serie, con

respecto a la media es un mı́nimo. En otras palabras, la suma del cuadrado
de las desviaciones de cada término, con respecto a la media, es menor que
la suma del cuadrado de las desviaciones de cada término, con respecto a
cualquier otro valor diferente de la media. Formalmente, esta propiedad puede
establecerse ası́:
X X
(Xi − X)2 < (Xi − A)2
donde A es un valor distinto de X
Ejemplo. Retomaremos la serie de números del ejemplo anterior y se calculará la su-

matoria de los cuadrados de las desviaciones con respecto a la media (X = 6) y con
respecto a A = 4.
Tabla 13: Cuadrado de las desviaciones con respecto a la media
Xi Xi − X (Xi − X)2 Xi − 4 (Xi − 4)2

4 -2 4 0 0
5 -1 1 +1 1
6 0 0 +2 4
7 +1 1 +3 9
8 +2 4 +4 16
P
0 10 10 30
Se cumple la propiedad para cualquier valor que se le asigne a A (¡ Pruebe con otros
valores !)
21
Propiedad 3
La media de una muestra es igual a la media ponderada de las medias, siendo

las ponderaciones los tamaños de dichas muestras, es decir:
P
n X + n2 X 2 + n3 X 3 + ... + nk X k ni X i
XT = 1 1 =
n1 + n2 + n3 + ... + nk N
Donde:
X T = media aritmética total.
ni = tamaño de la muestra i (i=1,2,...,k)
X i = media aritmética de la muestra i.
N = n1 + n2 + n3 + ... + nk
Ejemplo. En una escuela de San Salvador, hay tres secciones de noveno grado, se les
pasó un examen de matematica, con los siguientes resultados:
Tabla 14: Notas de tres secciones de noveno grado en un examen de matemática
Secciones ni Xi
A 25 68
B 30 70
C 45 60
Determinar la media aritmética total del rendimiento de los alumnos en dicho examen:
25x68 + 30x70 + 45x60 6500

XT = = = 65
25 + 30 + 45 100
Propiedad 4
La media aritmética de una constante, es igual a dicha constante, es decir:
M(k) = K
siendo K una constante
Propiedad 5
La media aritmética del producto de una constante por una variable es igual
al producto de la constante por la media de la variable, es decir:
M(Kx) = KM(x)
22
Ejemplo. La media aritmética de 4, 5, 6, 7 y 8 es 6; multipliquemos hoy cada valor de

X por la constante K=2, los valores de X quedan ası́: 8, 10, 12, 14 y 16; luego la media
de estos valores es:
8 + 10 + 12 + 14 + 16
= 12
5
este valor puede observarse que es el producto de 2x6, es decir M(Kx) = KM(x)
Propiedad 6
Si a cada valor de la variable, se le agrega una constante, la media de la va-

riable resultante es igual a la media aritmética original más la constante; es
decir:
M(X + K) = M(X) + K
Ejemplo. La media aritmética de 4, 5, 6, 7 y 8 es 6; sumemos hoy a cada valor de X

una constante K=2; los nuevos valores que toma X son 6, 7, 8, 9, 10; luego la media de
estos valores es:
6 + 7 + 8 + 9 + 10
=8
5
este valor puede observarse que es la suma de 2 + 6 = 8, donde K=2 y 6 es la media
original; es decir, M(X + K) = M(X) + K
4.2. Mediana
Al calcular la media de un conjunto de datos que forman una muestra, los valores
extremos (valores muy grandes o muy pequeños en relación con los demás) pueden
influenciar fuertemente en el resultado, desvirtuando de este modo la utilidad de la
media aritmética como valor que caracteriza a los datos.
Considere los datos de la tabla 15 que muestran los salarios mensuales de 11 traba-
jadores de una finca en Santa Ana.
Tabla 15: Salarios mensuales de 11 empleados de una finca
Sueldos (Xi ) f f xi
100 4 400
120 5 600
2000 1 2000
3000 1 3000
P
11 6000
Según esta tabla, la media de los sueldos en la muestra es X = 6000

11 = 545.45 dólares;
sin embargo, 9 de las 11 personas tiene una remuneración menor o igual a 120. Ello
23
indica que la media no representa bien a los 11 sueldos. Los valores extremos 2,000
y 3,000 han influido fuertemente en el resultado ( en estos casos se dice que la
distribución tiene un sesgo a la derecha).
Si una distribución de datos tiene un sesgo (valores muy grandes o muy pequeños
con respecto a los demás) es mejor utilizar una medida de tendencia central que no
sea sensible a los valores extremos. Una de estas medidas es la mediana.
Mediana
La mediana en un conjunto de datos es el valor que ocupa el lugar central, de
tal forma que aquel valor deja el 50 % de las observaciones por debajo de él y
el otro 50 % por encima de él. Para la ubicación de la posición de la mediana
se deben ordenar los datos de forma ascendente o descendente. La mediana
se denota por Me o bien por x̃.
El cálculo de la mediana para una serie simple (sin agrupar) dependerá de si el

número de datos n, es par o impar.
• Si n es impar, la mediana es el valor que ocupa la posición n+1
2 una vez que los
datos han sido ordenados (en orden creciente o decreciente), porque éste es el
valor central. Es decir: Me = x( n+1 )
2
• Si n es par, la mediana es la semisuma de los dos datos centrales los cuales

x( n ) +x( n +1)
n n 2 2
ocupan las posiciones 2 y 2 + 1. Es decir: Me = 2
Ejemplo. Encontrar la mediana de la siguiente serie: 6, 3, 4, 10, 9, 7, 8.

Lo primero que se debe hacer es ordenar la serie, ası́: 3, 4, 6, 7, 8, 9 , 10. Dado
que tenemos una cantidad impar de datos (n=7), la mediana se encuentra en
7+1
la posición n+1
2 = 2 = 4, es decir en la cuarta posición de la serie ordenada.
El número que se encuentra en la cuarta posición es el 7, por tanto Me = 7.
Ejemplo. Encontrar la mediana de la siguiente serie: 8, 16, 4, 2, 20, 3, 12, 20.

Nuevamente comenzamos ordenando la serie, ası́: 2, 3, 4, 8, 12, 16, 20, 20.
Dado que esta vez se tiene una cantidad par de datos (n=8), la mediana es
la semisuma de los dos términos centrales los cuales se encuentran en las
posiciones n2 = 82 = 4 y n2 + 1 = 82 + 1 = 5, es decir en la cuarta y quinta posición.
Los valores que se encuentran en esas posiciones son 8 y 12, por tanto:
8 + 12
Me = = 10
2
24
4.2.1. Mediana para distribuciones de frecuencias
La mediana para una distribución de clases y frecuencias se puede encontrar por dos
métodos: por interpolación y por un método gráfico.
Método de interpolación
Parte del supuesto de que los datos son continuos y que los valores de la serie se
distribuyen regularmente dentro de los intervalos de clase.
Procedimiento para calcular la mediana por el método de interpolación
1. Calcular las frecuencias acumuladas.

2. Identificar la clase mediana. Esta se halla al efectuar el cociente n2 y lue-
go ubicar la primera clase en donde la frecuencia acumulada es igual o
superior a n2 .
3. Calcular la mediana usando la formula:
N
2 − f aa
Me = li + ( ) × ic
fm
Donde:
li = lı́mite inferior (real) de la clase mediana.
f aa = frecuencia acumulada anterior a la frecuencia de la clase mediana.
f m = frecuencia absoluta de la clase mediana.
ic = tamaño del intervalo de clase (ancho de clase)
Ejemplo. La siguiente distribución de frecuencias muestra el tiempo (en minutos) que

tardan 50 alumnos de la UDB para realizar el primer parcial de Estadı́stica Aplicada.
Calcular la mediana.
Tabla 16: Tiempo requerido por 50 estudiantes para resolver un examen parcial
Minutos f fa
[ 45 - 50 ] 2 2
( 50 - 55 ] 9 11
( 55 - 60 ] 12 23
( 60 - 65 ] 11 34
( 65 - 70 ] 9 43
( 70 - 75 ] 7 50
P
50
Para calcular la mediana, se utilizan los pasos descritos en el enunciado anterior,

esto es:
1. Las frecuencias acumuladas se presentan en la tercera columna de la tabla
anterior.
2. Ahora procedemos a identificar la clase mediana, para ello calculamos
n 50
2 = 2 = 25. Al analizar las frecuencias acumuladas, se encuentra que 25 se
25
ubica en el 4° intervalo (no es posible ubicar el valor de 25 en el tercer inter-

valo, debido a que solo acumula 23 personas).
3. Los datos para el cálculo de la mediana serán:
li = 60; f aa = 23; f m = 11; ic = 65 − 60 = 5
Sustituyendo en la formula se tiene:
N
2 − f aa 25 − 23
Me = li + ( ) × ic = 60 + ( ) × 5 = 60 + 0.91 = 60.91minutos
fm 11
Ejemplo. Calcular la mediana de la distribución de clases y frecuencias presentada en

la tabla 4 relativa al resultado del examen de admisión de 120 estudiantes.
Puntajes (x) f faa

28-32 10 10
33-37 15 25
38-42 20 45
43-47 35 80
48-52 19 99
53-57 12 111
58-62 9 120
P
120
Dado que ya tenemos las frecuencias acumuladas, procedemos a identificar la clase

mediana, para ello calculamos n2 = 120
2 = 60; por tanto la mediana se ubica en la
cuarta clase.
Adviértase que en este ejemplo estamos trabajando con lı́mites aparentes, por tan-
to la determinación del limite inferior (li) y del ancho de clase (ic ) tendrá unas
pequeñas pero importantes diferencias con respecto al ejemplo anterior.
Los datos para el cálculo de la mediana serán:
li = 42.5; f aa = 45; f m = 35; ic = (47 − 43) + 1 = 5
Sustituyendo en la formula se tiene:
N
2 − f aa 60 − 45
Me = li + ( ) × ic = 42.5 + ( ) × 5 = 42.5 + 2.14 = 44.64
fm 35
26
¡ADVERTENCIA!
Cuando se está calculando la mediana y la moda de una distribución de clases y frecuencias
es sumamente fundamental tener claridad sobre si se está trabajando con lı́mites reales (como
en el primer ejemplo) o con limites aparentes (como en el segundo ejemplo).
La diferencia entre usar uno u otro tipo de limite radica en dos aspectos:
1. Lı́mite inferior (li)
En las formulas de mediana y moda, el lı́mite inferior (li) debe ser un lı́mite real.
Por ello, cuando se trabaja con limites aparentes es necesario convertirlo a lı́mite real
restandole 0.5 (es por eso que en el segundo ejemplo, el lı́mite inferior fue 42.5 y no
43).
2. Ancho de clase o intervalo de clase (ic )
- Cuando se trabaja con limites reales el intervalo de clase es la diferencia entre el limite
superior y el limite inferior de alguna de las clases, es decir ic = ls − li
- Cuando se trabaja con lı́mites aparentes, el cálculo del intervalo de clase es ası́:
ic = (ls − li) + 1
Un procedimiento para calcular el intervalo de clase que funciona para ambos tipos de
lı́mites es restar dos limites inferiores consecutivos (ó bien, dos intervalos superiores
consecutivos); asi, en el segundo ejemplo, el intervalo de clase pudo obtenerse como la
diferencia entre los lı́mites inferiores de la tercera y cuarta clase (43 − 38 = 5).
Método gráfico.
Para obtener un valor aproximado de la mediana por el método gráfico se procede
en la forma siguiente:
1. Se construye la ojiva de la distribución de frecuencias.
2. En el eje vertical se localiza el punto correspondiente al 50 % de la frecuencia
total, es decir el punto N2 en el eje Y.
3. Se traza una horizontal desde este punto de la ojiva, se baja una perpendicular
desde el punto en que esta horizontal corta a la ojiva hasta la escala X. La
intersección con el eje X constituye la mediana.
Figura 9: Determinación de la mediana por el método gráfico.
27
4.3. Moda
En la vida cotidiana se escucha la expresión “está de moda” cuando algo se observa o
se presenta repetidamente. En estadı́stica, el concepto de la moda no se aleja de esta
apreciación y, efectivamente, se denomina moda de un conjunto de datos al valor
que más se presenta, es decir, el atributo o el valor de mayor frecuencia. La moda
se representa por Mo y puede ser aplicada a las variables cualitativas y cuantitativas
discretas o continuas.
Moda
Es el valor más frecuente en una serie de datos.
La moda de la serie: 100, 125, 130, 130, 130, 145, 150 es 130, ya que es el valor que
más veces se repite. Si en las series hay dos términos que se repiten igual número de
veces, decimos que la serie es bimodal; por ejemplo, si la serie fuera: 100, 125, 130,
130, 130, 145, 145, 145, 150; la moda la constituyen 130 y 145; es decir, la serie
tiene dos valores modales. Cuando una serie tiene tres o más valores que se repiten
igual número de veces, se dice que la serie es polimodal. Estas últimas series son
poco comunes, y cuando se presentan de deben a factores extraños introducidos en
la serie.
4.3.1. Moda para distribuciones de frecuencias
Método aproximado
La moda por este método, es el punto medio de la clase que contiene la mayor
frecuencia (clase modal). Este método solo es recomendable cuando la serie tiene
un gran número de términos y se emplea un intervalo de clase pequeño.
Ejemplo. Considere los datos de la tabla 16 que muestra el tiempo requerido (en
minutos) por 50 estudiantes para resolver un examen parcial. Calcule la moda
de esta distribución por el método aproximado.
La clase que tiene mayor frecuencia (clase modal) es la tercera (55-60) por
tanto, la moda de esta distribución es la marca de clase (punto medio) de este
intervalo.
55 + 60
Mo = = 57.5
2
Ejemplo. Considere los datos de la tabla 17 que muestra la distribución de los

puntajes de 120 alumnos. Calcule la moda de esta distribución por el método
aproximado.
La clase que tiene mayor frecuencia (35) es la cuarta (43-47), por tanto, la
moda de esta distribución es el punto medio de esta clase, es decir:
43 + 47
Mo = = 45
2
28
Método de interpolación
Procedimiento para calcular la moda por el método de interpolación
1. Identificar la clase modal, que es la clase que tiene la mayor frecuencia.

2. Calcular la moda usando la formula:
∆1
Mo = li + ( ) × ic
∆1 + ∆2
Donde:
li = lı́mite inferior (real) de la clase modal.
∆1 = diferencia entre la frecuencia de la clase modal y la frecuencia de
la clase anterior a la modal (premodal).
∆2 = diferencia entre la frecuencia de la clase modal y la frecuencia de
la clase posterior a la modal (postmodal).
ic = tamaño del intervalo de clase (ancho de clase)
Ejemplo. Retomemos la distribución de frecuencias de la tabla 16 que muestra

el tiempo requerido (en minutos) por 50 estudiantes para resolver un examen
parcial. Calcular la moda empleando el método de interpolación.
Para esta distribución la clase modal es la tercera (55-60) dado que es la de
mayor frecuencia (12). Los valores para el calculo de la moda son:
li = 55, ∆1 = 12 − 9 = 3, ∆2 = 12 − 11 = 1, ic = 60 − 55 = 5
Por tanto la moda serı́a:
3
Mo = 55 + ( ) × 5 = 55 + 3.75 = 58.75minutos
3+1
Ejemplo. Considere los datos de la tabla 17 que muestra la distribución de los

puntajes de 120 alumnos. Calcule la moda de esta distribución por el método de
interpolación.
En este ejemplo la clase modal es la cuarta (43-47) dado que es la de mayor
frecuencia (35). Los valores para el calculo de la moda son:
li = 42.5, ∆1 = 35 − 20 = 15, ∆2 = 35 − 19 = 16, ic = (47 − 43) + 1 = 5
Sustituyendo tenemos:
15
Mo = 42.5 + ( ) × 5 = 42.5 + 2.42 = 44.92
15 + 16
Este valor se interpreta diciendo que el puntaje más frecuente fue 44.92 o
aproximadamente 45.
29
4.4. Sesgo y relación entre media, mediana y moda

Una comparación de la media, la mediana y la moda puede revelar información
acerca de las caracterı́sticas de sesgo, que se define a continuación y se ilustra en la
figura 10.
Una distribución de datos está sesgada si no es simétrica y se extiende más

hacia un lado que hacia el otro. (Una distribución de datos es simétrica si la
mitad izquierda de su histograma es aproximadamente una imagen en espejo
de su mitad derecha).
1. Si la distribución está sesgada a la izquierda (sesgo negativo), entonces la me-

dia es menor que la mediana y esta a su vez es menor que la moda (figura
10-a). Esto es:
X < Me < Mo
2. Si la distribución de frecuencias es simétrica,entonces la media, la mediana y

la moda tienen el mismo valor (figura 10-b). Esto es:
X = Me = Mo
3. Si la distribución está sesgada a la derecha (sesgo positivo), entonces la moda

es menor que la mediana y esta a su vez es menor que la media (figura 10-c).
Esto es:
Mo < Me < X
4. Para distribuciones unimodales y moderadamente sesgadas, se tiene la siguien-

te relación empı́rica:
X − Mo 3(X − Me)
Figura 10: Sesgo y relación entre media, mediana y moda.
30
5. MEDIDAS DE VARIABILIDAD
4.5. Uso adecuado de la media, mediana y moda

La media, mediana y moda se consideran las medidas de tendencia central más
importantes por su sencillez y utilidad, pero ¿cuál de ellas es la mejor? Por desgracia,
no existe una respuesta única a esa pregunta, porque no hay criterios objetivos para
determinar la medida más representativa para todos los conjuntos de datos, sino que
debe hacerse un minucioso análisis de la serie de datos con la que se está trabajando.
Partiendo de la naturaleza de las series y la definición de estas medidas de tendencia
central diremos que:
a) Si la distribución es simétrica o aproximadamente simétrica (ligeramente sesga-
da), cualquiera de las medidas puede usarse o las tres, para un mejor análisis; sin
embargo, en situaciones de distribuciones tendiendo a la simetrı́a, es recomen-
dable utilizar la media aritmética, por ser la más consistente de las tres debido a
su mejor tratamiento algebraico.
b) Si en la serie estadı́stica existe un dato que se repite persistentemente, la moda
es la más representativa.
c) Si la distribución tiene marcada asimetrı́a (es decir, si está muy sesgada), enton-
ces la mediana es la medida de tendencia central más representativa.
5. Medidas de variabilidad
Además de las medidas de tendencia central que posibilitan la representación del
conjunto de datos por medio de un valor, es necesario conocer la variabilidad o la
dispersión que los datos pueden tener en relación a una medida central.
Una medida de variabilidad (también conocida como medida de dispersión) es un
número que indica el grado de separación de los datos con respecto a un valor
central. Si este valor es pequeño (respecto a la unidad de medida) entonces hay una
gran uniformidad entre los datos. Por el contrario, un gran valor nos indica poca
uniformidad. Cuando es cero quiere decir que todos los datos son iguales.
En los análisis estadı́sticos, las medidas de variabilidad más representativas son:
rango, desviación media, varianza, desviación estándar y coeficiente de variación.
5.1. Amplitud o rango

La medida de variabilidad más elemental es la amplitud (también conocida como
rango), que es la diferencia entre el valor máximo y el mı́nimo de los datos (distri-
bución). El hecho de que tome en cuenta sólo estos valores hace de la amplitud una
medida de variabilidad poco precisa.
Formalmente, la amplitud se define ası́:
A = Xmayor − Xmenor (5)
31
Ası́, por ejemplo, para la serie de datos: 2, 3, 3, 5, 5, 8, 10, 12 se tiene Xmayor = 12 y

Xmenor = 2, por tanto la amplitud es A = 12 − 2 = 10.
Cuando se trata de datos agrupados, la amplitud se toma como la diferencia entre el
lı́mite superior del último intervalo y el inferior del primero. Tenemos ası́, que para
la distribución de frecuencias de la tabla 16 que muestra el tiempo requerido por 50
estudiantes para resolver un examen parcial, la amplitud está dada por
A = 75 − 45 = 30.
La amplitud, debido la forma matemática que la define, es bastante sensible a los
valores extremos que se puedan presentar en una serie de datos. Además, al no
tomar en cuenta ninguna medida de tendencia central, no informa nada acerca de
cómo se comportan los datos respecto del centro.
5.2. Desviación media

La desviación media se define como la media aritmética de los valores absolutos de
las desviaciones de cada termino de la serie, con respecto a la media.
P
Xi − X
DM = (6)
N
Hay que destacar la importancia de tomar valores absolutos de las desviaciones. Si
no se hiciese ası́ unas desviaciones se anuları́an con otras, alcanzando finalmente la
desviación media un valor de 0, debido a la propiedad de la media aritmética vista
en (4.1.2).
Ejemplo. Calcular la desviación media de la serie: 4, 5, 6, 7 y 8.

P
Xi |Xi − X| X i − X 6
DM = = = 1.2
4 |4 − 6| = 2 N 5
5 1 Este valor es el promedio de las desviacio-
6 0 nes
7 1
8 2
P
6
La desviación media para una distribución de frecuencias simple (sin clases) se cal-
cula de la siguiente manera:
P
f Xi − X
DM = (7)
N
32
Ejemplo. Calcular la desviación media para la siguiente serie.
Calculamos primero la media, en seguida hallamos las

Xi f desviaciones, después multiplicamos estas desviaciones
30 1 por las respectivas frecuencias, luego sumamos estos pro-
40 3 ductos parciales y dividimos entre N.
50 8
60 4 Xi f f Xi |Xi − X| f |Xi − X|
70 2 30 1 30 21.67 21.67
40 3 120 11.67 35.01
50 8 400 1.67 13.36
60 4 240 8.33 33.32
70 2 140 18.33 36.66
P
18 930 140.02
P
f x 930
X= = = 51.67
N 18
P
f Xi − X 140.02
DM = = = 7.78
N 18
La desviación media para una distribución de clases y frecuencias se calcula de la

siguiente manera:
P
f P m − X
DM = (8)
N
Ejemplo. Calcular la desviación media de la distribución de la tabla 4 relativa a

los puntajes obtenidos por 120 estudiantes.
En la sección 4.1.1 se encontró que la media de esta distribución es de 44.58.
Puntajes (X) f Pm |P m − X| f |P m − X|
28-32 10 30 14.58 145.80
33-37 15 35 9.58 143.70
38-42 20 40 4.58 91.60
43-47 35 45 0.42 14.70
48-52 19 50 5.42 102.98
53-57 12 55 10.42 125.04
58-62 9 60 15.42 138.78
TOTAL 120 762.60
P
f P m − X 762.6
DM = = = 6.36
N 120
33
5.3. Varianza
La varianza, denotada por σ 2 , es una medida que cuantifica el grado de disper-
sión o de variación de los valores de una serie de datos con respecto a su media
aritmética. Si los valores tienden a concentrarse alrededor de su media, la varianza
será pequeña. Si los valores tienden a distribuirse lejos de la media, la varianza será
grande.
La varianza se define como la media aritmética de los cuadrados de las diferen-
cias de los datos con respecto a su media aritmética.
(Xi − X)2
P
2
σ = (9)
N
La varianza es una medida de variabilidad importante que se utiliza en algunos
métodos estadı́sticos relevantes, como el análisis de varianza. Para nuestros propósi-
tos, la varianza tiene una gran desventaja: las unidades de la varianza son diferentes
de las unidades del conjunto original de datos. Por ejemplo, si estamos estudiando
los tiempos de espera en una ventanilla bancaria los datos originales están dados en
minutos, mientras que las unidades de varianza están dadas en minutos cuadrados
( min2 ). ¿Qué es un minuto cuadrado? Como la varianza utiliza unidades distintas
(unidades cuadradas), es sumamente difı́cil comprenderla si la relacionamos con el
conjunto original de datos. En consecuencia, en la mayorı́a de los análisis estadı́sticos
se emplea la varianza como una medida que permite comparar la dispersión entre
dos o más variables, identificando la de mayor varianza como aquella que posee
mayor dispersión o variabilidad. La importancia de la varianza está en que es una
medida transitoria para el cálculo de la desviación tı́pica o estándar de un conjunto
de datos.
5.3.1. Propiedades de la varianza
Propiedad 1
La varianza es siempre una cantidad no negativa: V (X) ≥ 0, cualquiera que

sea la distribución.
Propiedad 2
La varianza de una constante es cero (no hay dispersión).
V (K) = 0
Propiedad 3
Si a cada uno de los datos x1 , ..., xn se le suma una constante K, entonces la

varianza de los datos transformados x1 + K, ..., xn + K es igual a la varianza de
los datos originales.
V (X ± K) = V (X)
34
Propiedad 4
Si cada uno de los datos x1 , ..., xn es multiplicado por una constante K, entonces
la varianza de los datos transformados Kx1 , ..., Kxn es igual a la varianza de los
datos originales por el cuadrado de la constante K.
V (KX) = K 2 V (X)
5.4. Desviación tı́pica o estándar

La desviación tı́pica o estándar, designada por σ , es la más importante de las medidas
de dispersión. Puede definirse como la raı́z cuadrada de la media aritmética del
cuadrado de las desviaciones de cada valor de la variable con respecto a la media.
La desviación tı́pica es la raı́z cuadrada positiva de la varianza.
rP
(Xi − X)2
σ= (10)
N
Una formula abreviada para encontrar esta medida es la siguiente:
rP
X2
σ= − (X)2 (11)
N
La desviación tı́pica tiene la ventaja de estar expresada en la misma unidad de me-
dida que la media, lo cual facilita la interpretación de la variabilidad de los datos.
Ası́,por ejemplo si la media está expresada en kilogramos, la desviación tı́pica estará
expresada en kilogramos.
Ejemplo. Calcular la desviación tı́pica y la varianza de la serie: 4, 5, 6, 7 y 8.

P
2 2 X 30
Xi Xi − X (Xi − X) X X= = =6
N 5
4 4-6=-2 4 16
5 -1 1 25 Aplicando la formula:
6 0 0 36 rP r
7 1 1 49 (Xi − X)2 10 √
σ= = = 2 = 1.41
8 2 4 64 N 5
30 10 190
También podı́amos haber ocupado la for-
mula abreviada, ası́:
rP r
X2 190 √ √
σ= − (X)2 = − (6)2 = 38 − 36 = 2 = 1.41
N 5
Dado que la desviación tı́pica es la raı́z cuadrada de la varianza, para calcular
la varianza a partir de la desviación tı́pica basta con elevar al cuadrado esta
última medida, asi:
√
σ 2 = ( 2)2 = 2
35
5.4.1. Desviación tı́pica para una distribución de clases y frecuencias
Para calcular la desviación para una distribución de clases y frecuencias, ocuparemos

la siguiente formula:
rP
f (P m − X)2
σ= (12)
N
Donde (P m − X) es la desviación de cada punto medio de clase, con respecto a la

media de la distribución.
Ejemplo. Calcular la desviación tı́pica de la distribución de la tabla 4 relativa a

En la sección 4.1.1 se encontró que la media de esta distribución es de 44.58.
Puntajes (X) f Pm Pm−X (P m − X)2 f (P m − X)2
28-32 10 30 -14.58 212.58 2125.8
33-37 15 35 -9.58 91.78 1376.7
38-42 20 40 -4.58 20.98 419.6
43-47 35 45 0.42 0.18 6.3
48-52 19 50 5.42 29.38 558.22
53-57 12 55 10.42 108.58 1302.96
58-62 9 60 15.42 237.78 2140.02
TOTAL 120 7929.6
Aplicando la formula se tiene:
rP r
f (P m − X)2 7929.6
σ= = = 8.13
N 120
5.4.2. Método abreviado para calcular la desviación tı́pica para una distribu-
ción de clases y frecuencias
Utilizaremos la siguiente formula:
rP
f P m2 2
σ= −X (13)
N
formula que es parecida a la que se utilizó para calcular la desviación tı́pica para una
serie simple, por el método abreviado.
36
Ejemplo. Calcular la desviación tı́pica de la distribución de la tabla 4 relativa a

La media aritmetica de esta distribución es de 44.58 (como se vio anterior-
mente).
Puntajes (X) f Pm P m2 f P m2
28-32 10 30 900 9,000
33-37 15 35 1,225 18,375
38-42 20 40 1,600 32,000
43-47 35 45 2,025 70,875
48-52 19 50 2,500 47,500
53-57 12 55 3,025 36,300
58-62 9 60 3,600 32,400
TOTAL 120 246,450
Aplicando la formula se tiene:
rP r
f P m2 2 246, 450
σ= −X = − (44.58)2 = 8.14
N 120
resultado muy similar al obtenido por el método largo (la pequeña diferencia
radica en que no se han ocupado todos los decimales de la media aritmética).
5.5. Coeficiente de variabilidad

Las medidas de variabilidad vistas anteriormente son números concretos, es decir
son expresadas en las unidades de las variables en estudio. Con ellas se puede cono-
cer la dispersión de los datos de una serie estadı́stica, pero no se puede comparar la
dispersión de dos o más variables dadas en diferente unidad de medida. Por ejemplo,
podemos conocer la desviación tı́pica, de las variables peso y estatura de un grupo
de personas, digamos 5.5 libras y 10 centı́metros, respectivamente. ¿Podrı́amos decir
cuál de las dos variables (peso o estatura), tiene menor variabilidad?
La medida de variabilidad, cualquiera que sea, significará menor dispersión cuanto
menor sea su valor; pero para el problema planteado anteriormente, donde las me-
didas de variabilidad están expresadas en diferentes unidades (libras y centı́metros),
¿se podrá tomar una decisión? Es claro que no podemos responder la pregunta. Se
necesita de una medida relativa para poder comparar el grado de variabilidad o
dispersión de dos o más variables.
Para resolver el problema de cómo establecer la diferencia en la variabilidad o dis-
persión de dos o más variables, utilizaremos el coeficiente de variabilidad, que es
una medida relativa (sin unidades de medida). Esta medida expresa el porcentaje
que representa la desviación con relación a la media aritmética y se calcula ası́:
σ
C.V = × 100 % (14)
X
37
El coeficiente de variabilidad se emplea fundamentalmente para:

- Comparar la variabilidad entre dos grupos de datos referidos a distintos siste-
mas de unidades de medida. Por ejemplo, kilogramos y centı́metros.
- Comparar la variabilidad entre dos grupos de datos obtenidos por dos o más
personas distintas.
- Determinar la representatividad de la media aritmética de una serie de datos.
En la distribución que venimos analizando de la tabla 4, puntajes de 120 estudiantes,
los valores de la media y la desviación tı́pica son: 44.58 y 8.13 respectivamente;
entonces su coeficiente de variabilidad es:
σ 8.13
C.V = × 100 % = × 100 % = 18.24 %
X 44.58
La interpretación de este coeficiente es igual al de las otras medidas de dispersión.
El grado de representatividad de la media detectado por medio del coeficiente de
variabilidad, se presenta en la tabla 18.
Tabla 18: Grado de representatividad de la media aritmética para distintos coeficientes

de variabilidad
Valor de C.V Grado de representatividad de la media

De 0 a menos de 10 % Media altamente representativa
De 10 % a menos de 20 % Media bastante representativa
De 20 % a menos de 30 % Media tiene representatividad
De 30 % a menos de 40 % Media cuya representatividad es dudosa
De 40 % o más Media carente de representatividad
Ejercicios
1. La siguiente tabla presenta información acerca de las fuentes de información
que utilizan los habitantes del área metropolitana de San Salvador para ente-
rarse de las noticias.
Medio f
Televisión 619
Radio 121
Prensa escrita 301
Redes sociales 359
Con la información del cuadro anterior:
a) Elabore el gráfico circular
b) Elabore el gráfico de barras
38
2. A continuación se presenta la distribución de frecuencias correspondiente a la

resistencia a la explosión en libras por pulgada cuadrada (psi) de 100 botellas
para bebidas gaseosas, no retornables de 1 L.
Resistencia a la explosión (psi) Frecuencia
[ 170 - 190 ) 2
[ 190 - 210 ) 4
[ 210 - 230 ) 7
[ 230 - 250 ) 13
[ 250 - 270 ) 32
[ 270 - 290 ) 24
[ 290 - 310 ) 11
[ 310 - 330 ) 4
[ 330 - 350 ) 3
TOTAL 100
a) Calcule las columnas de frecuencia relativa, frecuencia acumulada y fre-
cuencia relativa acumulada.
b) Elabore el histograma de la distribución
c) Elabore el polı́gono de frecuencias de la distribución
d) Elabore la ojiva de la distribución
e) Calcule la media, mediana y moda de la distribución
f) Calcule la varianza y desviación tı́pica de la distribución
g) El grado de representatividad de la media
3. A continuación se presenta la distribución de la vida útil, en horas, de 1,430
tubos de televisión de cierta compañı́a:
Vida útil f
800 - 1,039 25
1,040 - 1,279 325
1,280 - 1,519 750
1,520 - 1,759 310
1,760 - 1,999 20
TOTAL 1,430
Calcular:
a) Las columnas de frecuencias relativas, frecuencias acumuladas y frecuen-
cias relativas acumuladas
b) La media aritmética
c) La mediana
d) La moda
e) La varianza y la desviación estándar
f) El grado de representatividad de la media
39
REFERENCIAS REFERENCIAS
4. En una empresa los salarios han tenido un promedio de $500 mensuales con
una desviación tı́pica de $50. ¿Qué sucede con la media y la varianza de los
salarios si:
a) Se aumentan en $45.00.
b) Se aumentan en 10 %.
c) Se efectúa ambos aumentos simultáneamente.
5. Dado el siguiente histograma, determine: media, mediana, moda, varianza y
desviación tı́pica.
Figura 11: Histograma del ejercicio 5.
Referencias
[1] Gildaberto Bonilla. Estadı́stica. Elementos de estadı́stica descriptiva y probabili-
dad. UCA Editores, 2015.
[2] Lincoln L Chao and Jesús Marı́a Castaño. Estadı́stica para las ciencias adminis-
trativas, volume 3. McGraw-Hill, 1993.
[3] Manuel Córdova Zamora. Estadı́stica descriptiva e inferencial. Edit. Moshera
SRL. 5ª edición. Lima-Perú, 2003.
[4] Douglas A Marchal Lind, William G Wathen, Samuel A Douglas A Lind, Wi-
lliam G Marchal, and Samuel A Wathen. Estadı́stica aplicada a los negocios y la
economı́a. McGraw-Hill, 2012.
[5] Gabriel Jaime Posada Hernández. Elementos básicos de estadı́stica descriptiva
para el análisis de datos. Fundación Universitaria Luis Amigó, 2016.
[6] Mario F Triola. Probabilidad y estadı́stica. Pearson educación, 2004.
40

Material Control de Lectura

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Material Control de Lectura

Cargado por

Copyright:

Formatos disponibles

E STAD ÍSTICA I

1.1. Población y muestra

La población o universo es un conjunto de elementos a los cuales se le estudian

Figura 1: Población y muestra.

1.2. Variables estadı́sticas

• Variable cuantitativa: Son aquellas que se pueden medir y expresar mediante

Figura 2: Clasificación de las variables estadı́sticas.

1.3. Parámetros y estadı́sticos

Ejemplos de parámetros son el salario promedio de todos los empleados de una

Ejemplos de estadı́sticos son el salario promedio de todos los empleados de una

2.1. Agrupación de datos

Tabla 1: Resultado del examen de admisión de 120 estudiantes

Tabla 2: Resultados del examen de admisión ordenados de forma creciente

2.2. Construyendo una distribución de clases y frecuencias

clase. Después se suma el ancho de clase al lı́mite inferior de la segunda clase

Tabla 4: Distribución de clases y frecuencias de las calificaciones obtenidas por 120

Puntajes (x) Frecuencia

Tabla 5: Distribución de clases y frecuencias de las calificaciones obtenidas por 120

Puntajes (x) Frecuencia

2.3. Frecuencia absoluta, relativas, marca de clase y distribucio-

Por ejemplo, la frecuencia relativa porcentual de la primera clase de la tabla 4 es:

La construcción de la distribución de frecuencias acumuladas se obtiene por el pro-

por la adición sucesiva de 10 + 15 + 20 + 35 = 80. La frecuencia acumulada de la últi-

Tabla 6: Distribución de frecuencias relativas y acumuladas, basada en los datos que

Puntajes (x) f fr % fa fra % PM

3. Técnicas de representación gráfica

3.1. Gráficas para datos cualitativos

3.1.1. Gráfica de barras

Tabla 7: Estado civil de 150 asociados a una cooperativa financiera

Figura 3: Gráfica de barras para la tabla 7 .

3.1.2. Gráfica circular

EJEMPLO. SkiLodges.com realiza una prueba de mercado de su nuevo sitio web y le

Tabla 8: Resultados de la encuesta sobre la facilidad de uso del sitio web

A partir de los resultados mostrados en la tabla 8 es posible realizar la gráfica circular

angulo = 0.51 × 360◦ = 183.6◦

Figura 4: Gráfica circular para la tabla 8 .

3.2. Gráficas para variables cuantitativas

Cuando la variable es discreta y toma pocos valores, el gráfico adecuado es el dia-

Tabla 9: Distribución de frecuencias del número de hermanos de una muestra de 500

A partir de esta distribución de frecuencias, se genera la siguiente gráfica de barras.

Figura 5: Gráfica de barras para los datos de la tabla 9 .

El histograma es el grafico usado más frecuentemente para describir variables cuan-

A partir de esta distribución de frecuencias se genera el siguiente histograma:

Figura 6: Histograma para la distribución de frecuencias de la tabla 10 .

3.2.3. Polı́gono de frecuencias

Otro recurso gráfico para ilustrar el comportamiento de los datos es el polı́gono de

Figura 7: Polı́gono de frecuencias para los datos de la tabla 10 .

3.2.4. Ojiva o polı́gono de frecuencia acumulada

Figura 8: Ojiva para los datos de la tabla 10 .

4. Medidas de tendencia central

4.1. Media aritmética o promedio

Ejemplo. Un conjunto de datos consta de los cinco valores 6, 3, 8, 6 y 4. Encon-

Ejemplo. Sea X el número de hijos de los empleados de una empresa, determinar

4.1.1. Media aritmética para distribuciones de clases y frecuencias

Para obtener la media de una distribución de clases y frecuencias, primeramente se

Ejemplo. Calcular la media aritmética de la distribución de clases y frecuencias presen-

4.1.2. Propiedades de la media aritmética

Se hace necesario conocer y manejar correctamente las propiedades que presenta la

La suma algebraica de las desviaciones de cada término de la serie, con res-

Ejemplo. Considere la serie: 4, 5, 6, 7 y 8.

Tabla 12: Calculo de las desviaciones de los datos de la serie

La suma del cuadrado de las desviaciones de cada término de la serie, con

donde A es un valor distinto de X