Está en la página 1de 21

Estadı́stica Descriptiva

1. Introducción
1.1. Definición de Estadı́stica

El origen de la palabra estadı́stica, proviene del adjetivo “statisticus”que se hizo popular en el siglo V XII,
el cual parece tener su origen en la palabra italiana “statista”, usada para definir a la persona dedicada al
pensamiento acerca del estado.
Se puede afirmar que el origen de la estadı́stica data de miles de años atrás, cuando surge la necesidad de
saber “cuántos somos’ y “cuántos son”. Ası́ una necesidad estadı́stica habrı́a motivado la habilidad de contar,
y el pensamiento matemático. La estadı́stica (sin “s”) es una ciencia a la que algunas organizaciones como
la UNESCO, por ejemplo, la ubican entre las Ciencias Sociales y otras, como FONDECYT, la incluyen en la
Matemática.
En la práctica el concepto de “estadı́stica”tiene varios significados, dependiendo de la persona que lo utiliza.
Comúnmente bajo “estadı́stica”se entiende un conjuntos de cifras o datos, por ejemplo, hablamos de estadı́stica
de nacimientos, estadı́stica de producción de papas, e incluso de estadı́sticas de los resultados semanales del
fútbol o de las carreras del hipódromo.
En la actualidad, se entiende por estadı́stica algo mucho más complejo y es ası́ como para algunos se trata de
una ciencia, para otros de un método y hay quienes prefieren limitarse a mencionar sus objetivos. No obstante,
esta claro el vasto campo de aplicaciones de la Estadı́stica, que ha pasado a ser indispensable, para tomar
decisiones racionales en todo tipo de investigaciones.
A continuación se enumeran algunas definiciones que se han dado de la Estadı́stica:

Conjunto de Métodos para efectuar decisiones adecuadas frente a la incertidumbre (Wallis y Roberts,
Statistics, a New Approach)
Disciplina relacionada con los métodos cientı́ficos destinados a recopilar, organizar, resumir, presentar y
analizar datos, tanto para la deducción de conclusiones como para tomar decisiones razonables de acuerdo
con tales análisis (M.R.Spiegel, Estadı́stica).

Ciencia de tomar decisiones a base de las observaciones (Clay Sprowis, Elementary Statistics).
Métodos y procedimientos para obtener, describir e interpretar conjuntos de datos y para basar decisiones
y predecir fenómenos que pueden expresarse en forma cuantitativa (H. D’Ottone, Estadı́stica Elemental).

La necesidad de disponer de información en cantidad y calidad suficiente, y con la oportunidad debida, se


ha traducido en que los distintos paı́ses han debido centralizar la recopilación y publicación de Estadı́sticas en
organismos estatales especializados, como es el caso del Instituto Nacional de Estadı́sticas (INE) en Chile. En
la actualidad son numerosos también los organismos internacionales preocupados de la confección y publicación
de estadı́sticas sobre las actividades que los preocupan (CEPAL, FAO, UNESCO, OEA, etc.)
La estadı́stica implica para la mayorı́a de los estudiantes, una forma nueva de pensar en términos de incer-
tidumbre. Acá como en otros casos, los estudiantes difieren en habilidad, y cuando se enfrentan a la estadı́stica
por primera vez para algunos puede parecer una tortura mental, en el presente curso se hará todo el esfuerzo
para minimizar los problemas de aprendizaje de la estadı́stica.
La estadı́stica está muy relacionada con el método cientı́fico. Apoya a la investigación en todas las otras
disciplinas, especialmente en la recolección y el análisis de datos para verificar o formular nuevas hipótesis
Por otro lado, los procesos administrativos, comerciales y tecnológicos necesitan de estos métodos para tomar
decisiones y hacer predicciones a valores futuros.
Finalmente, es necesario tener en cuenta que la estadı́stica se ha propuesto como instrumento de investigación.
La investigación puede ser en diversas áreas. Es el campo de investigación y no el instrumento, el que debe
proporcionar los “por qué” del problema de investigación. A veces este hecho se pasa por alto y los usuarios
olvidan que tienen que pensar, que la estadı́stica no puede pensar por ellos. La estadı́stica, sin embargo, ayuda
a los investigadores a diseñar experimentos y a evaluar objetivamente los datos numéricos resultantes.

1
1.2. Métodos de Obtención de Datos.
Los datos y cifras pueden obtenerse de diferentes maneras, de las cuales destacan:
1. Censos: El censo constituye una indagación completa, en relación a la o las variables que interesa estudiar.
El censo posibilita la obtención de información de toda la población o universo, pero en general a un alto
costo y gran consumo de tiempo. A ello hay que agregar las dificultades relacionadas con una buena
organización administrativa, que permita controlar y evitar los errores de recopilación y manejo de esta
gran masa de datos.
En la practica los censos mas conocidos son los de población, vivienda, agropecuarios e industriales.

2. Muestras: Las muestras por lo general están basadas sobre el análisis parcial de la población o el universo
que incluye el total de las unidades. Es decir, de la población o universo se selecciona, por algún método
adecuado, una parte de los elementos que componen la población, que constituye la llamada muestra, la
cual es estudiada respecto a la variable de interés.
Las ventajas de la técnica muestral por su bajo costo y oportunidad en la obtención de la información
deseada, se pueden ver deterioradas si no se utilizan ciertos procedimientos de muestreo adecuados.
3. Experimentos: El trabajo experimental es un procedimiento de recopilación de información bastante
difundido en las investigaciones realizadas en el campo de las ciencias agrı́colas, biológicas, fı́sicas, etc. La
experimentación permite la comprobación práctica de hechos, teorı́as y propósitos, con miras a formular
hipótesis lógicas y constituye una importante etapa del método cientı́fico de investigación.
Los experimentos se realizan normalmente utilizando unidades experimentales adecuadas, las cuales son
sometidas a tratamiento de interés. En este caso el investigador deberá tomar decisiones respecto al número
de observaciones a tomar, unidades experimentales a utilizar, número de repeticiones y análisis o estudios
a efectuar.

2. Presentación de Datos
2.1. Tipos de datos
Cualquiera haya sido el procedimiento de recopilación de información estadı́stica, implicará la reunión de
una gran cantidad de datos o cifras que será necesario resumir y presentar de acuerdo a criterios convenientes
que faciliten su comprensión y permitan su adecuado análisis.
Por dato se entenderá cualquier caracterı́stica que se pueda observar o medir: color de ojos, estatura, número
de pulsaciones por minuto, peso, etc.
Los datos pueden ser cualitativos o atributos si se refiere a una propiedad de los fenómenos en estudio,
por ejemplo, profesión, raza, genero, nacionalidad, etc.
Los datos obtenidos pueden referirse a una caracterı́stica cuantitativa, que se designará en general con el
nombre de la variable: peso, estatura, número de hijos, superficie agrı́cola, etc.
Se habla de datos atemporales, cuando, para un conjunto de datos, no interesa el orden en que se pre-
sentan las observaciones: Peso de un grupo de vacunos. En otros casos es importante considerar las variaciones
que presentan en los datos a medida que transcurre el tiempo. En este caso se habla de series de tiempo,
cronológicas o históricas. (Producción diaria de acero, ventas diarias de un supermercado, entrega mensual de
leche).
Dependiendo del número de variables o atributos que se estudiaran conjuntamente se hace distinción entre
casos unidimensionales (Personas clasificadas por edad); caso bidimensional (Vacunos clasificados por raza
y edad) o de un caso multidimensional, si se consideran mas de dos variables simultáneamente (Personas
clasificadas por, edad, peso y genero).
Dado un conjunto de observaciones de una variable X, la Estadı́stica Descriptiva estudia procedimientos
para resumir la información que contienen. Los tipos de variables que consideramos son:

1. Variables Cualitativas o Atributos: No toman valores numéricos y describen cualidades. Por ejemplo,
clasificar un artı́culo como aceptable, dudoso o defectuoso, o clasificar una pelı́cula como buena, regular o
mala.

2
2. Variables Cuantitativas Discretas: Toman únicamente valores enteros, corresponden en general a
contar el número de veces que ocurre un evento. Por ejemplo, número de artı́culos defectuosos en una
partida.
3. Variables Cuantitativas Continuas: Toman valores en un intervalo y corresponden a medir magnitudes
continuas. Por ejemplo, tiempo, edad, peso, longitud, etc.

Existen muchas formas de representar los datos, entre ellas el uso de tablas, diagramas y gráficas. A modo
de ilustración considere el ejemplo siguiente:

Ejemplo: El Director del Departamento de prevención de riesgos de una empresa dispone de la siguiente
información sobre los empleados que han sufrido algún tipo de accidente que haya obligado al trabajador
respectivo a tomar licencia en el último año. Los datos se encuentran en el cuadro 1.

3
Nombre Lesión en Planta Licencia Edad Peso Estatura
Juan Perez Cabeza Si 12 43 89 1.78
Mario Ramos Tronco Si 1 28 76 1.82
Lizardo Garrido Cabeza No 3 52 71 1.67
Carlos Caszely Extremidades No 4 54 84 1.58
Julio Peña Cabeza No 23 49 85 1.55
Juan Vega Tronco Si 2 27 63 1.72
Patricia Riquelme Cabeza Si 57 32 57 1.54
Carlos Picarte Cabeza Si 3 46 74 1.67
Juan Muñoz Extremidades Si 5 21 89 1.83
Sergio Espinoza Extremidades Si 2 41 75 1.65
Mario Muñoz Cabeza No 13 43 79 1.63
José Castillo Tronco Si 6 57 65 1.59
Michel Vazquez Tronco No 3 46 59 1.73
Jorge Vargas Tronco Si 2 34 79 1.85
Carlos Ceballos Cabeza No 1 33 87 1.7
Johan Bustos Tronco No 21 62 78 1.72
Matias Fernandez Extremidades No 6 21 77 1.81
Jorge Valdivia Extremidades Si 12 22 84 1.75
Pedro Diaz Cabeza No 2 63 79 1,68
Juan Cares Cabeza No 1 57 75 1.64
Samuel Castillo Tronco No 4 42 74 1.77
Sergio Ramos Cabeza No 6 24 86 1.85
Gabriel Contreras Cabeza No 1 36 89 1.75
Alvaro Martinez Tronco Si 3 34 96 1.89
Pablo Mendoza Cabeza No 6 23 71 1.69
Marcial Chamorro Cabeza No 4 36 73 1.74
Claudio Leal Cabeza No 2 44 69 1.63
Carlos Fuentes Tronco No 5 51 73 1.77
Gerado Barria Cabeza No 7 50 82 1.67
Gabriel Jara Cabeza No 6 34 79 1.79
José Muñoz Cabeza Si 2 55 98 1.87
Alan Garcia Tronco No 4 58 83 1.81
Pedro Prado Tronco No 3 66 69 1.65
Alejandro Aravena Cabeza No 1 31 75 1.72
Juan Insunza Cabeza No 6 62 61 1.57
Mario Yevenes Cabeza No 1 57 72 1.76
Hector Moreira Tronco No 5 42 75 1.63
Justo Alveal Cabeza No 7 48 79 1.76
Custodio Bueno Cabeza Si 1 57 83 1.81
Rodrigo Saez Extremidades No 4 43 84 1.75
Mauricio Aviles Cabeza No 13 45 82 1,81
Claudio Repetto Tronco No 1 38 87 1.85
Manuel Melgar Tronco Si 3 28 75 1.77
Cesar Toloza Cabeza No 5 51 79 1.67
Luis Otarola Cabeza No 1 35 79 1.75
Juan Pena Cabeza No 5 46 73 1.69
Raul Chandia Tronco No 7 51 67 1.63
Omar Contreras Cabeza No 6 58 75 1.64
Mario Galindo Cabeza Si 1 43 79 1.87
Marcelo Salas Extremidades No 35 35 77 1.76

Cuadro 1: Accidentes de trabajo. Elaboración propia

Donde:

Lesión en: Indica la parte del cuerpo que el trabajador tuvo afectada.

4
Planta: Indica si el trabajador lesionado es de la planta en la Empresa o no.
Licencia Informa el número de dı́as que el trabajador estuvo con licencia médica.
Edad: Edad del trabajador medida en años.
Peso: Peso del trabajador medido en kilos.
Estatura: Altura del trabajador medida en metros.
En este caso, por ejemplo, las variables Lesión y Planta son cualitativas, Licencia y Edad son cuantitativas
discretas y Estatura es cuantitativa continua.
Se enfatiza que es conveniente clasificar las variables de acuerdo al conjunto de valores posibles que ellas
puedan tener. Los valores de las variables edad, capital, número de hijos, se expresan en forma numérica.
En cambio presencia de defectos, sabor, posición polı́tica muestran una cualidad del elemento y no pueden
expresarse numéricamente, salvo de manera artificial. Entonces podemos distinguir dos tipos de variables:
Variables cualitativas o no numéricas.
Variables cuantitativas o numéricas.
Las variables edad y número de hijos, son cuantitativas. Sin embargo, el número de hijos puede tomar los
valores 0, 1, 2, . . . , vale decir, un entero no negativo. No tiene sentido hablar de valores intermedios como 1,3
hijos. Por el contrario, si bien la edad se expresa en años cumplidos, esto lo podemos refinar usando meses, dı́as,
horas, minutos, segundos, etc. O sea, entre dos valores cualesquiera de la variable edad, por cercanos que sean,
existe siempre un valor intermedio.
Por otro lado, las variables sexo y grados en el ejercito son variables cualitativas. La variable sexo toma
los valores masculino y femenino, en cambio la variable grados en el ejercito puede tomar los valores soldado,
suboficial, oficial, etc. La diferencia entre ambas variables es que en grados del ejercito existe un orden jerárquico,
propio de la variable. De esta manera, si una variable cualitativa toma valores en un conjunto donde los valores
son solo nombres, la llamaremos variable nominal, y si además estos nombres tienen un orden propio o jerarquı́a
la llamaremos variable ordinal.

2.2. Tabulación y gráfico de los Datos.


Una vez recolectados los datos es necesario construir gráficos y tablas que permitan un resumen adecuado
de ellos, antes de proceder a su análisis y utilización correcta. El primer paso es decidir a que tipo de variable
corresponde cada una de las informaciones en estudio, dado que las variables cualitativas deben ser analizadas
de manera diferente que las cuantitativas, y también existen diferencias en el tratamiento de las variables
cuantitativas discretas y continuas.

2.2.1. Tabulación de variables cualitativas


En general resulta fácil la clasificación de atributos (sexo, raza, presencia de una determinada enfermedad).
La tabulación de los datos se hace utilizando las llamadas tablas de contingencia (ver cuadro 2). Se observa en
este caso, que el orden de ubicación de los atributos es arbitrario.

Lesión Frecuencia Frecuencia Porcentaje


Absoluta Relativa
Cabeza 28 0.56 52 %
Extremidades 7 0.14 48 %
Tronco 15 0.30 30 %
Total 50 1.00 100 %

Cuadro 2: Tabla de la variable cualitativa lesión

El número asociado a cada categorı́a o clase se denomina frecuencia. Puede observarse que a la tabla 2 se le
han agregados dos columnas denominadas frecuencia relativa y porcentaje, respectivamente.
A modo de ilustración se presenta la interpretación de algunos de los números que aparecen en la tabla 2.

5
28 personas tuvieron una lesión en la Cabeza.
El 14 % de las personan tuvieron una lesión en las extremidades.

2.2.2. Gráficos de variables cualitativas


Una ventaja de los gráficos es que pueden mostrarnos cosas que de otra forma hubiese sido muy difı́cil o
imposible de observar. Esta es una de las razones por las cuales casi todo análisis estadı́stico considera gráficos.
Existen dos tipos de gráficos que son de utilidad en caso de variables cualitativas, el gráfico de barras y el
gráfico circular.
Los gráficos de barras son suficientemente flexibles para ser adaptados a situaciones donde el trabajo gráfico
ha tenido poco éxito, como lo es el análisis de datos categóricos.
La figura 1 presenta el gráfico de barras para los datos de la tabla 2, usando las frecuencias absolutas.
Podrı́amos construir un gráfico similar usando las frecuencias relativas o porcentuales.
25
20
Frecuencia

15
10
5
0

Cabeza Extremidades Tronco

Lesión

Figura 1: Gráfico de barras para la variable lesión de la tabla 2.

El uso de gráficos circulares o de torta es bastante común entre personas no profesionales en estadı́stica y
lamentablemente se ha trivializado tanto que si en muchas de las situaciones donde se usan se suprimieran se
ahorrarı́an muchas hojas de papel. Por ejemplo, a veces se presenta un gráfico de torta para mostrar que en una
muestra el 50 % son hombres y el 50 % son mujeres.

El número de grados del circulo asignados a cada atributo es definido por:

(Frecuencia Relativa del atributo) ∗ 3600 .


La figura 2 presenta el gráfico circular para algunos datos de la tabla 2.

2.2.3. Variables Cuantitativas Discretas.


Los datos relacionados con variables discretas dan origen a un cuadro o tabla de resumen denominado
distribución de frecuencias.
Por ejemplo, La Tabla 3 muestra un ejemplo de tabulación de datos correspondiente a la clasificación de 275
vacas de un predio agrı́cola de acuerdo al número de partos que previamente han tenido.

Cabe destacar algunas caracterı́sticas que presenta la tabla de frecuencia indicada anteriormente.

- Al hacer la tabulación de han ordenado los valores de la variable yi de menor a mayor 0, 1, 2, . . . , 8

6
Lesion

Cabeza

Extremidades
Tronco

Figura 2: Gráfico circular para la variable lesión de la tabla 2

Clase Frecuencia Frecuencia Porcentaje Frecuencia Frecuencia


No de Partos Absoluta Relativa Absoluta Relativa
Yi ni fi % Ni Fi
0 25 0.09 9 25 0.09
1 33 0.12 12 58 0.21
2 48 0.17 17 106 0.38
3 63 0.23 23 169 0.61
4 54 0.20 20 223 0.81
5 27 0.10 10 250 0.91
6 12 0.04 4 262 0.95
7 9 0.03 3 271 0.98
8 4 0.02 2 275 1.00

Cuadro 3: Número de Partos Correspondientes a un Grupo de 275 Vacas. Fuente: Anuario Agrı́cola, año 1974.

- El número de clases, 9 en nuestro ejemplo, es independiente del tamaño de la muestra (n = 275).


- Se ha agregado a la tabla columnas adicionales, que permiten un mejor análisis del resultado.
- El cuadro de ha titulado de manera que refleje sucintamente su contenido.
- Es aconsejable agregar la fuente de los datos, lo que permite al lector aclarar y ubicar mayores antecedentes
sobre la materia.
- Conviene, según el caso, indicar claramente las unidades en que se presentan los datos.
- Cuando la variable en estudio toma muchos valores diferentes, puede, con cierta perdida de precisión, tratarse
como a una variable continua, formando intervalos de clase.
- Cabe destacar que la formación de un cuadro de frecuencias correspondientes al caso de variables discretas
no implica perdida de información.
- En general, las frecuencias acumuladas se suman en sentido creciente de la variable, sin embargo, para ciertos
análisis se procede también en sentido inverso.

En forma abreviada el significado de las columnas de la tabla 2.4 es el siguiente:

- Frecuencias absolutas (nj ): corresponde al número de veces que se repite un determinado valor de la variable.
En general debe cumplirse:
0 ≤ nj ≤ n

7
m
X
nj = n1 + n2 + . . . + nm = N
j=1

donde m es el número de valores que toma la variable en estudio y N es el total de observaciones consi-
deradas en el estudio.
- Frecuencia Relativa (fj ): se obtiene como cuociente entre la frecuencia absoluta correspondiente y la frecuencia
total. Es decir se deben cumplir las siguientes propiedades:
nj
fj =
N
0 ≤ fj ≤ 1
m
X
fj = f1 + f2 + . . . + fm = 1
j=1

- Porcentaje ( %): es la frecuencia relativa multiplicada por 100.


- Frecuencia absoluta acumulada (Nj ): es la suma de las frecuencias de la clase mas la de las anteriores a ella. Es
decir, es el número de observaciones menores o iguales a un determinado valor de la variable. En general
para la frecuencia absoluta acumulada correspondiente a la clase j se puede escribir:
j
X
Nj = n1 + n2 + . . . + nj = ni
i=1

- Frecuencias relativas acumuladas de una clase (Fj ):es la frecuencia absoluta acumulada de la clase dividida
por la frecuencia total. O bien, es la suma de la frecuencia relativa de la clase mas las de las que la
preceden. Es decir:
Xj
Fj = f1 + f2 + . . . + fj = fi .
i=1

2.2.4. Gráfico de variables cuantitativas discretas


Los principales gráficos a usar en este caso son el diagrama de frecuencias simples y el gráfico de frecuencias
acumuladas.
La figura 3 presenta el gráfico de frecuencias absolutas para los datos de la tabla 3.
60
50
Frecuencia Absoluta

40
30
20
10

0 2 4 6 8

Número de Partos

Figura 3: Gráfico de frecuencias relativas para la tabla 3.

La figura 4 presenta el gráfico de frecuencias acumuladas u ojiva para los datos de la tabla 3.
Otra representación usada comúnmente es la llamada gráfico de tallo y hoja, a seguir se muestra este
diagrama para la variable edad de los datos de la tabla 1.

8
250
Frecuencia Acumulada

200
150
100
50
0 2 4 6 8

Número de Partos

Figura 4: Gráfico de frecuencias Acumuladas para la tabla 4

1 | 2: represents 12
leaf unit: 1
n: 50

5 2* | 11234
8 2. | 788
14 3* | 123444
19 3. | 55668
(8) 4* | 12233334
23 4. | 566689
17 5* | 011124
11 5. | 5777788
4 6* | 223
1 6. | 6

En este caso, por ahora vamos a ignorar la primera columna y considerar las restantes, por ejemplo, para la
primera fila, el sı́mbolo 2∗ |11234 significa que entre en los datos hay dos personas de 21 años, una persona de
22 años, otra de 23 años y una última persona de 24 años.
La primera parte antes del sı́mbolo | corresponde al tallo; que en este caso ha sido dividido en dos partes,
la primera con número siguiente, conocido como hoja desde 0 a 4 (simbolizada con *) y la segunda de 5 a 9
(simbolizada con .).
Este diagrama permite tener una idea de la forma de la distribución de los datos y analizar la existencia de
valores atı́picos (outliers).
Otro gráfico usado con frecuencia es el diagrama de cajas (box-plot), a modo de ilustración la figura 5
presenta el diagrama de cajas para la variable edad de los datos de la tabla 1. Este diagrama será analizado con
mayor detalle más adelante.

2.2.5. Tabulación de variables continuas


La tabulación de datos correspondientes a variables continuas da origen a una tabla de frecuencia similar a
la correspondiente a los datos discretos. La diferencia fundamental radica en que las clases son reemplazadas
por intervalos de clase, debido a que en caso contrario podrı́amos tener una gran cantidad de valores distintos
para la variable en estudio y no justificarse su tabulación, de acuerdo al método empleado con anterioridad.
A modo de ejemplo considérese el consumo diario de agua en m3 /seg correspondiente al mes de junio de
una industria particular:
1.22-1.03-1.03-1.07-1.03-1.03-1.12-1.22-1.12-1.03-0.98-0.89-0.76-0.72-0.72-0.51-1.17-0.85-0.72- 0.61-0.65-0.69-
0.76-0.93-0.93-0.80-0.93-0.93-0.76-1.17.

9
60
50
Edad

40
30
20

Figura 5: Diagrama de cajas para la variable edad de la tabla 1

A objeto de establecer el número m de clases que conviene considerar para la tabulación es conveniente
calcular el “ recorrido de la variable”, es decir, la diferencia entre el mayor y menor de los datos observados. O
sea:

L = xmax. − xmin. = 1,22 − 0,51 = 0,71


A objeto que los lı́mites de los intervalos de clase sean números sencillos , en la práctica se amplia levemente
el recorrido L de la muestra. Como también se acostumbra a trabajar con intervalos de igual “amplitud”(en
algunos casos no obstante puede justificarse el uso de intervalos con amplitud desigual).
La amplitud de los intervalos de clase estará relacionada con el número m de intervalos de clase a considerar.
La práctica recomienda que el número de intervalos de clase no sea inferior a 4 ni superior a 15, a objeto de no
perder las ventajas de la tabulación y, por otra parte, no introducir errores adicionales en el análisis posterior
de los datos.
Para el ejemplo considerado anteriormente, dada la poca variabilidad de los datos, si se consideran 4 intervalos
de clase (IC), ellos quedarı́an identificados, por los lı́mites inferior y superior mostrados en la tabla 4.

Intervalos de Clase Marcas de Clase (mi )


(0.50-0.70] 0.60
(0.70-0.90] 0.80
(0.90-1.10] 1.00
(1.10-1.30] 1.20

Cuadro 4: Consumo diario de Agua

Las marcas de clase m1 , . . . , m4 permiten caracterizar a los intervalos de clase y corresponden a los puntos
medios o, semi suma de los lı́mites superior e inferior respectivos. En la práctica, debido a cálculos posteriores
que se harán a partir de las tablas de frecuencia para variables continuas, es conveniente que las marcas de clase
sena números sencillos.
La tabulación de los datos recogidos da origen a la tabla 5.

A modo de ejemplo a seguir son dadas algunas interpretaciones de la tabla 2.5.

- La frecuencia n3 = 11 nos dice que de los 30 dı́as del mes, en 11 dı́as el consumo fue mayor que 0.9 y a lo
más de 1.1 m3 /seg.
- La frecuencia n1 = 4 nos dice que 4 dı́as el consumo de agua fue mayor que 0.50 y a lo más de 0.7 m3 /seg.

10
Intervalos de Clase Marcas de Clase Frec. Frec. Frec. Abs. Frec. Rel.
(mi ) Absoluta Relativa Acumulada Acumulada
(ni ) (fi ) (Ni ) (Fi )
(0.50-0.70] 0.60 4 0.13 4 0.13
(0.70-0.90] 0.80 9 0.30 13 0.43
(0.90-1.10] 1.00 11 0.37 24 0.80
(1.10-1.30] 1.20 6 0.20 30 1.00
Total 30 1.00

Cuadro 5: Consumo diario de Agua

- f2 = 0,30, nos dice que el 30 % de los dı́as el consumo de agua fue mayor que 0.7 y a lo más de 0.9 m3 /seg.
- N3 = 24 nos dice que 24 dı́as el consumo de agua fue mayor que 0.50 y a lo más de 1.1 m3 /seg.

- F2 = 0,43 nos dice que el 43 % de los dı́as el consumo de agua fue a lo más de 0.9 m3 /seg.

Una regla usada con frecuencia para determinar el número de intervalos es la regla de Sturges, definida por:

Número de Intervalos : k = 1 + 3, 3 ln(n)


donde n es el tamaño de la muestra. √
Otros autores consideran que una buena aproximación para la cantidad de intervalos es dada por m = n.
Cabe destacar que al efectuar la concentración de los datos originales para construir la tabla de frecuencias,
se produce una perdida de información. Por consiguiente, si sólo se dispone de la información dada por la tabla
de frecuencia, no será posible reconstruir los datos originales.
Ejemplo: Agrupar los datos siguientes que corresponden al rendimiento anual, en tanto por ciento, cor-
regidos por el nivel de inflación de una empresa.
-3.2 17.4 -13.4 -9.9 20.4 15.1
2.7 -1.6 41.0 20.8 6.1 -21.8
20.9 53.4 10.3 15.1 -13.8 -34.8
24.6 31.1 -1.0 10.3 -1.5 28.3
17.2 3.6 26.0 -13.0 10.6 18.2

11
2.2.6. Gráfico de Variables Continuas
El gráfico principal de variables continuas es el histograma. El histograma es el gráfico estadı́stico por
excelencia. El histograma de un conjunto de datos es un gráfico de barras que representan las frecuencias con
que aparecen las mediciones agrupadas en ciertos rangos e intervalos. Un histograma es construido a partir de
los datos tabulados.
Los pasos para construir un histograma son:

1. Defina los intervalos o clases de igual longitud.


2. Cuente el número de observaciones que caen en cada clase o intervalo.
3. Calcule las frecuencias relativas.
4. Grafique los rectángulos cuyas alturas son proporcionales a las frecuencias relativas.

Realizar histogramas de esta manera tiene las siguientes ventajas:

1. Es útil para apreciar la forma de la distribución de los datos, si se escoge adecuadamente el número de
clases y su amplitud.
2. Se puede presentar como un gráfico definitivo en un reporte.
3. Se puede utilizar para comparar dos o más muestras o poblaciones.

Las desventajas son:

1. Las observaciones individuales se pierden.


2. La selección del número de clases y su amplitud que adecuadamente representen la distribución puede
ser complicado. Un histograma con muy pocas clases agrupa demasiadas observaciones y uno con muchas
deja muy pocas en cada clase. Ninguno de los dos extremos es adecuado.

Debido a que nuestros ojos responden al área de las barras, es importante mantener la anchura de las barras
iguales. Si estamos enfrentados a un problema donde los intervalos tienen diferente amplitud, por ejemplo cuando
obtenemos datos agrupados desde la fuente, se usa la siguiente formula:
Frecuencia Relativa
Altura del rectangulo =
Amplitud del intervalo
Observación: Los programas de computador usualmente ajustan los histogramas automáticamente, pero
el programa debe permitirnos variar el histograma. Si usted posee un programa que no le permite hacer cambios,
cambie de programa.
La figura 6 presenta el histograma para los datos de la tabla 5.
Ejercicio: Dibujar el histograma para los datos de la tabla ??.
El histograma es de mucha utilidad para estudiar si los datos pueden ser aproximados por una distribución
normal. La distribución normal es la más usada en estadı́stica clásica por muchas razones entre las que se
cuentan:

1. La distribución de muchas variables es aproximadamente normal.


2. Para medidas que no tienen distribución normal, una transformación simple de la escala de medición,
puede inducir normalidad aproximada. Las transformaciones raı́z cuadrada y logaritmo son usadas con
frecuencia.
3. La distribución normal es de uso relativamente sencillo.

4. Si la distribución de origen de la población original esta lejos de la distribución normal, la media x tiende
a tener una distribución normal bajo muestreo, cuando el tamaño de muestra aumenta. Esta propiedad
es conocida como teorema central del lı́mite.

12
Histograma para los datos de la tabla

12
10
Frecuencias

8
6
4
2
0
0.6 0.8 1.0 1.2

Marcas de clase

Figura 6: Histograma para los datos de la tabla 6

Distribución normal
0.4
0.3
0.2
fx

0.1
0.0

−4 −2 0 2 4

Figura 7: Distribución normal

La distribución normal es completamente determinada por su media µ y su varianza σ 2 , la altura f (x) en


el valor x es dada por la siguiente función:
 
1 −(x − µ)2
f (x) = √ exp
2πσ 2 2σ 2
La figura 7 presenta el gráfico de f (x).
La figura 9 presenta el histograma de f (x) para distintos tamaños muestrales.

13
A. Histograma 10 observaciones B. Histograma 50 observaciones

12
5

10
4
Frecuencia

8
3

Frecuencia

6
2

4
1

2
0

0
−1.0 −0.5 0.0 0.5 1.0
−2 −1 0 1 2
ruido10 ruido50

C. Histograma 500 observaciones D. Histograma 1000 observaciones


100

150
80
60
Frecuencia

Frecuencia

100
40

50
20
0

−2 0 2 4 −3 −2 −1 0 1 2 3

ruido500 ruido1000

Figura 8: Histograma de la distribución normal para distintos tamaños de muestra.

Otro gráfico usado con frecuencia para las variables cuantitativas continuas es la distribución de frecuencias
acumuladas, que fue presentado anteriormente.
Otro gráfico agregado al histograma es el polı́gono de frecuencias, que se construye uniendo con segmentos
de recta los puntos medios (marcas de clase) de los intervalos adyacentes.

3. Estadı́grafos de Posición central y de Variabilidad


Hasta aquı́ nos hemos preocupado de la descripción de un conjunto de observaciones, ya sea graficamente
o por medio de una distribución de frecuencias. Sin embargo, en muchos casos, en vez de trabajar con todas
las observaciones es preferible disponer de una o más medidas descriptivas que resuman los datos en forma
cuantitativa. Tales medidas reciben el nombre de Estadı́sticas o Estadı́grafos cuyos valores son obtenidos a
través de los datos.
Estas medidas descriptivas se dividen en tres categorı́as:

Medidas de Tendencia Central y Posición: Moda, media, Mediana, Percentiles.


Medidas de Dispersión: Rango, Rango intercuartı́lico, Varianza, Desviación Estándar, Coeficiente de
Variación.
Medidas de Forma: Coeficiente de Asimetrı́a, Coeficiente de Kurtosis.

14
Figura 9: Histograma de la distribución normal para distintos tamaños de muestra.

3.1. Medidas de Tendencia Central y Posición


Las medidas de tendencia central, como su nombre lo indica, nos describen el centro de la información. La
más conocida es el Promedio, Media o Media Aritmética.

3.1.1. La Moda (Mo )


Es aquel valor de la variable en estudio, que más se repite o que tiene mayor frecuencia. Por ejemplo, para
la variable edad de los datos de los trabajadores la moda es 43 años, que corresponde al valor que aparece con
mayor frecuencia, y para la variable número de dı́as de licencia la moda es 1.
Para datos agrupados lo que se obtiene es un intervalo modal, que es el intervalo con la mayor frecuencia
absoluta, ası́ en el caso de datos agrupados la moda es una aproximación. Una aproximación usada frecuente-
mente es considerar la marca de clase de este intervalo (valor central del intervalo), pero en la mayorı́a de los
libros de textos la moda en aproximada de la siguiente manera.
 
(ni − ni−1 )
Mo = Lim Infi + × Ai
(ni − ni−1 ) + (ni − ni+1 )
donde

Lim Infi es el lı́mite o cota inferior del intervalo modal,


ni es la frecuencia absoluta del intervalo moda,
ni−1 es la frecuencia absoluta del intervalo anterior al intervalo modal,
ni+1 es la frecuencia absoluta del intervalo siguiente al intervalo modal,
Ai es la amplitud del intervalo modal.

A modo de ilustración, suponga que se tienen las notas de 20 alumnos de un curso, estas son:

6, 2 − 4, 8 − 3, 8 − 4, 6 − 4, 4
5, 7 − 6, 4 − 5, 4 − 6, 3 − 4, 8
4, 9 − 3, 1 − 3, 8 − 5, 5 − 5, 1

15
6, 8 − 4, 7 − 5, 5 − 7, 0 − 4, 2
La tabla siguiente muestra una tabulación posible para los datos:

Nota ni fi Ni Fi mi
3,10-3,88 3 0,15 3 0,15 3,49
3,88-4,66 3 0,15 6 0,30 4,27
4,66-5,44 6 0,30 12 0,60 5,05
5,44-6,22 4 0,20 16 0,80 5,83
6,22-7 4 0,20 20 1 6,61
Total 20 1

La moda para este caso puede ser:

5,05 si la consideramos como la marca de clase con mayor frecuencia relativa.

 
(6 − 3)
Mo = 4, 66 + × o, 78 = 5, 128
(6 − 3) + (6 − 4)

La interpretación en este caso es que la moda corresponde a la nota que aparece con mayor frecuencia.
Una observación importante es que la moda puede no existir.

Considere los siguientes datos recopilados a 8 estudiantes sobre la cantidad de hijos en su grupo familiar:

1, 2, 2, 3, 3, 4, 4
Como se aprecia, bajo la definición de moda, en este caso, no existe moda. Además puede ocurrir que exista
más de una moda, y en estos casos se hablara de multimodalidad.

3.1.2. El Promedio, Media o Media Aritmética (X)


Es la medida de tendencia central más conocida, la que es calculada sumando todos los valores de la variable
en estudio y dividiendo por el total de datos.

Formalmente, si x1 , x2 , . . . , xn son los valores observados de una variable X, entonces el promedio se expresa
matemáticamente por
n
X
xi
i=1
X=
n
Por ejemplo, para la variable edad de los datos de los trabajadores la media es 43,08 años, y para la variable
número de dı́as de licencia la media es 6,68.

En muchos textos, el promedio es interpretado como un punto de equilibrio o un centro de gravedad.

Cuando sólo se dispone de los datos agrupados o tabulados, podemos pensar en la marca de clase como un
representante de cada intervalos, de modo que:
m
X
m i × ni
i=1
X=
n
donde m es la cantidad de intervalos.
Para las notas la media es:

3, 49(3) + 4, 27(3) + 5, 05(6) + 5, 83(4) + 6, 61(4) 103, 34


X= = = 5, 167
20 20
En este caso, decimos que la nota promedio del curso es aproximadamente 5,1.

16
3.1.3. La mediana (Me )
Es aquel valor de la variable que ocupa la posición central cuando los datos están ordenados de menor a
mayor. En forma técnica se define como aquel valor de la caracterı́stica en estudio que deja bajo si al 50 % de
la información.

Sean x1 , x2 , . . . , xn los valores observados de una variable X. Generalmente los datos vienen desordenados,
ası́ que lo primero que se debe realizar es ordenarlos de menor a mayor, digamos min = x(1) ≤ x(2) ≤ . . . ≤
x(n)=max . Entonces la mediana se define como:

 x((n+1)/2) ,
 si n es impar;
Me =
 x(n/2) + x(n/2+1) , si n es par.

2
Imagine que la información observada es 6, 3, 8, 5 y 3.

Ordenando la información de menor a mayor queda 3, 3, 5, 6 y 8.

n+1 5+1
Como la cantidad de datos es impar debemos encontrar aquel dato que ocupa la posición 2 = 2 = 3,
que corresponde al valor 5, por lo tanto la Me = 5.

Ahora considere la siguiente información: 9,6,7,9,10 y 8.

Ordenando los datos de menor a mayor queda: 6, 7, 8, 9, 9 y 10.

n 6
Como la cantidad de datos es par debemos encontrar los datos que ocupan las posiciones 2 = 2 = 3 y
n
2 + 1 = 62 + 1 = 4, que corresponden a los datos 8 y 9, ası́ la Me = 8+9
2 = 8, 5.

En el caso de datos agrupados en intervalos, la mediana será calculada usando el siguiente algoritmo:

1. Determinar la posición que le corresponde a la mediana como:

50 n
P osicion = n × =
100 2
2. Determinar en que intervalo cae la mediana, comparando la posición obtenida en i) y la columna de
las frecuencias absolutas acumuladas, la mediana está en el intervalo que primero tiene una frecuencia
absoluta acumulada mayor o igual a n/2.
3. La mediana se calcula como:
n  A
i
Me = lim Infi + − Ni−1 ×
2 ni
donde lim Infi es el lı́mite o cota inferior del intervalo en que esta la mediana (obtenido en ii); Ai es
la amplitud del intervalo en que esta la mediana; ni es la frecuencia absoluta del intervalo en que esta
la mediana y Ni−1 es la frecuencia absoluta acumulada del intervalo anterior al intervalo en que esta la
mediana.

Para aprender a aplicar el algoritmo anterior, se verá con detalles en el ejemplo de las notas de los 20
alumnos. En el paso i). Se tiene que la posición que le corresponde a la mediana es el 10. En el paso ii) se
aprecia que la posición 10 cae en el tercer intervalo, por lo tanto la mediana es:
0, 78
Me = 4, 66 + (10 − 6) × = 5, 18.
6

17
3.1.4. Los percentiles
Son cantidades que tiene la caracterı́stica de acumular información hasta ellos. Para aclarar ideas, imagine
que la información la dividimos en 100 partes iguales, donde cada una de las partes corresponde a un 1 % de la
información.
En este contexto P1 es aquel valor de la variable que tiene acumulado el 1 % de la información, P2 es aquel
valor de la variable que tiene acumulado el 2 % de la información, ... y P99 es aquel valor de la variable que
tiene acumulado el 99 % de la información. Con esto, se define el percentil α % (Pα ) como aquel valor de la
variable en estudio que deja bajo si al α % de la información. Para calcular Pα se debe realizar el siguiente
procedimiento:
1. Ordenar los datos del más pequeño al más grande
α
2. Calcular n × 100 .
α
3. Si en el paso 2 se obtiene un entero, digamos, n × 100 = k. Entonces el percentil α % es el promedio de
los datos que ocupan la posición k y la posición k + 1.
α
Si en el paso 2 se obtiene un número con decimales, digamos n × 100 = k decimal. Entonces el percentil
α % es el dato que ocupa la posición k + 1.
En un estudio realizado a 10 familias, se obtuvo el ingreso bruto mensual (expresado en salarios mı́nimos):
12,16,18,20,28,30,40,48,50 y 54. Se quiere encontrar el ingreso mı́nimo del 30 % de los ingresos más altos.

70
Por lo tanto, se debe calcular el percentil 70 %. Como los datos ya están ordenados se calcula n × 100 =
70
10 × 100 = 7. Como nos da un valor entero, debemos promediar los datos que ocupan las posiciones 7 y 8, es
decir, P70 = 40+48
2 = 44. Por lo tanto, el ingreso mı́nimo del 30 % de los ingresos más altos es de 44 sueldos
mı́nimos, o dicho de otra forma, el 70 % de las personas gana menos de 44 sueldos mı́nimos.

En el caso de datos agrupados en intervalos, eñ percentil α % es calculado usando el siguiente algoritmo:
α
1. Determinar la posición que le corresponde al percentil α % P osicion = n × 100

2. Determinar en que intervalo cae el percentil α %, comparando la posición obtenida en i) y la columna de


las frecuencias absolutas acumuladas, el percentil buscado esta en el intervalo que por primera vez tiene
una frecuencia absoluta acumulada mayor o igual que la posición que le corresponde al percentil.
3. El percentil α % es calculado por:
 α  A
i
Pα = lim Infi + n × − Ni−1 × ,
100 ni
donde lim Infi es el lı́mite o cota inferior del intervalo en que esta el percentil α % (obtenido en ii)); Ai es
la amplitud del intervalo en que esta el percentil α %; ni es la frecuencia absoluta del intervalo en que esta
el percentil α % y Ni−1 es la frecuencia absoluta acumulada del intervalo anterior al intervalo en que esta el
percentil α %.

Para aprender a aplicar el algoritmo anterior, se verá con detalles en el ejemplo de las notas de los 20
alumnos. Imagine que se quiere calcular la nota mı́nima del 40 % de las mejores notas, esto es buscamos P60 .
Ası́ al aplicar el algoritmo anterior se tiene que en el paso i), la posición que le corresponde al percentil 60 % es
12.

En el paso ii) recorremos la tabla de frecuencias, como se aprecia, la posición 12 cae en el tercer intervalo,
por lo tanto el percentil 60 % es:
0, 78
P60 = 4, 66 + (12 − 6) × = 5, 44.
6

Por lo tanto la nota mı́nima del 40 % de las mejores notas es 5,44, o dicho de otra manera, el 60 % de las
notas es menor que 5,44.
Se deja al lector, investigar que son los cuartiles, deciles y quintiles.

18
3.2. Medidas de dispersión o de variabilidad
Las medidas de dispersión o de variabilidad, como su nombre lo indica, son cantidades que describen cuan
cercanos o alejados están los datos, es decir cuan homogéneos o heterogéneos son los datos.
Para determinar cuan separado está el conjunto de datos, las medidas de dispersión deben estar relacionadas
con la idea de distancia. Porque, a menor distancia, los datos son homogéneos y a mayor distancia los datos son
heterogéneos.
La medida más simple para medir dispersión en el rango R, que ya se ha estudiado. Una de las dificultades
del rango es que depende de los valores extremos y por lo tanto no siempre refleja adecuadamente la dispersión
existente en los datos ya que tiene a sobre estimarla. Para evitar lo anterior se utiliza el rango intercuartı́lico
(RI) que el rango del 50 % central de los datos, es decir, es la distancia entre P75 y P25 .
Por lo tanto, el rango intercuartı́lico es calculado por:

RI = P75 − P25 .

Ası́, en el ejemplo de las notas de los 20 alumnos, el rango intercuartı́lico es 1,63 y el rango es 3,9.

Otra medida de dispersión es la varianza (S 2 ), que mide la heterogeneidad de los datos considerando un
punto de referencia que es el promedio.

Sean x1 , x2 , . . . , xn los valores observados de una variable X. La varianza se define como:


n
1 X
S2 = (xi − X)2
n − 1 i=1
Esta cantidad se puede calcular como:
n
! n
!
n X x2 1 X
2 i 2
S = − (X) = x2i − n(X) 2
,
n−1 i=1
n n−1 i=1
Pn x2i
donde i=1 n es el promedio de los cuadrados.

Para aclarar ideas considere los siguientes datos:

1,3,5,6, y 10.

El promedio de estos datos es :


1 + 3 + 5 + 6 + 10
X= = 5,
5
y el promedio de los cuadrados es:
5
X x2 i 12 + 32 + 52 + 62 + 102
= = 34, 4.
i=1
5 5

Por lo tanto la varianza es :


5 
S2 =
34, 2 − (5)2 = 11, 5.
4
En el caso de datos agrupados en intervalos la varianza es:
n m
!
X ni × (mi − X)2 n X ni × m2 i
S2 = = − (X)2 ,
i=1
n−1 n−1 i=1
n
donde m es la cantidad de intervalos y mi es la marca de clase del i-ésimo intervalo.

19
En el ejemplo de las notas de los 20 alumnos:
La nota promedio y el promedio de los cuadrados son: X = 5, 167 y
5
X ni × m2 i 3 × 3, 492 + 3 × 4, 272 + 6 × 5, 052 + 4 × 5, 832 + 4 × 6, 612
= = 27, 7489
i=1
20 20
Entonces la varianza es:
20 
S2 = 27, 7489 − (5, 167)2 = 1, 10633.
19
Uno de los problemas de la varianza es que si la variable en estudio es la estatura y la unidad de medida
es el metro, entonces, la unidad de medida de la varianza es (metro)2 , si la variable en estudio es el peso y la
unidad de medida es kilogramo, entonces, la unidad de medida de la varianza es (kilogramo)2 . Para evitar esta
dificultad se inventa la desviación
√ estándar o desviación tı́pica, la que se define como la raı́z cuadrada de
la varianza, es decir, S = S 2 .

Como se aprecia, la unidad de medida de la desviación estándar es la unidad de medida de la variable en


estudio.

En el ejemplo de las notas de los 20 alumnos, la desviación estándar es S = 1, 10633 = 1, 0518.

Una de las grandes dificultades de las medidas de dispersión, que hasta el momento se han estudiado, es que
dependen de la unidad de medida de la variable en estudio. Debido a esta dificultad, se inventa el coeficiente
de variación.

S
El coeficiente de variación se define como CV = .
X

Como se aprecia, esta medida de dispersión es adimensional y si multiplicamos 100 por el coeficiente de
variación, tenemos el porcentaje de variabilidad, es decir, CV × 100 %. Algunos autores, proponen la siguiente
clasificación para determinar si los datos son homogéneos o heterogéneos:
1. Si CV × 100 % ≤ 5 % los datos son muy homogéneos.
2. Si 5 % < CV × 100 % ≤ 25 % los datos son homogéneos.
3. Si 25 % < CV × 100 % ≤ 50 % los datos son heterogéneos.
4. Si CV × 100 % > 50 % los datos son muy heterogéneos.
En el ejemplo de las notas de los 20 alumnos, el coeficiente de variación es CV = 1,0518 5,167 = 0, 2036, el
porcentaje de dispersión es de un 20,36 %. Según la clasificación anterior se concluye que las notas de los 20
alumnos son homogéneas.

3.3. Transformación Lineal


Existen situaciones donde las cantidades calculadas no son las que se utilizan. Considere la siguiente situación:
“ Usted realiza un estudio sobre el calentamiento global, utilizando como unidad de medida grados Celcius.
Ahora, un importante investigador lo invita con todos los gastos pagados a Estados Unidos, para que en un
congreso internacional, que trata sobre el calentamiento global, usted exponga los resultados obtenidos en su
trabajo. Lamentablemente, como se puede dar cuenta, en Estados Unidos se utilizan grados Fahrenheit, lo que
implicarı́a rehacer todo el trabajo...”

A continuación se entregan resultados, cuando se realiza una transformación lineal a los datos.
Sean x1 , x2 , . . . , xn , las observaciones de una variable X, la pregunta es, ¿Qué pasa con las cantidades
calculadas, si a los datos, se les multiplica por una constante y luego se les suma otra?, es decir, xi , se transforma
en a × xi + b (con a 6= 0) en todas las observaciones.

Por ejemplo, se estudian las temperaturas de 20 alumnos de la universidad, los resultados son resumidos en
la siguiente tabla de frecuencias:

20
Estatura Marca de ni
(cm) Clase
[161 − 166) 163,5 2
[166 − 171) 168,5 5
[171 − 176) 173,5 6
[176 − 181) 178,5 2
[181 − 186) 183,5 5
Total 20

La media, mediana, varianza y el coeficiente de variación son mostrados en la siguiente tabla:

Promedio X = 174, 25 cm
Percentil 50 P5 0 = 173, 5cm
Varianza S 2 = 45, 46cm2
Desviación Estándar S = 6, 74 cm
Coeficiente de CV = 0, 0387
variación

A estos alumnos se les dará un golpe vitamı́nico, que se sabe que aumenta en un 1 % (a = 1, 01) sus estaturas,
más 3 centı́metros (b = 3). La pregunta es, ¿Qué pasa con el promedio, mediana, varianza, desviación estándar
y coeficiente de variación de las nuevas estaturas?

El siguiente cuadro, resume el cambio de los indicadores, si las observaciones sufren una transformación
lineal de la forma yi = axi + b.

Indicador Inicial Modificado


Promedio X a×X +b
Moda Mo a × Mo + b
Percentil α % Pα a × Pα + b
Varianza S2 a2 × S 2
Desviación Estándar S |a| × S
S |a| × S
CV CV = X
CV =
|a × X + b|

Al aplicar estos resultados al problema planteado anteriormente, se tiene que:

Indicador Inicial Modificado


Promedio X = 174, 25 a × X + b = 178, 99
Percentil α % P50 = 173, 5 a × Pα + b = 178, 235
Varianza S 2 = 45, 4276 a2 × S 2 = 46, 34
Desviación Estándar S = 6, 74 |a| × S = 6, 8074
6,74 |a| × S
CV CV = 174,25 = 0, 0387 CV = = 0, 0380
|a × X + b|

Algunas transformaciones útiles ocurren cuando corresponde aumentar o disminuir un ingreso en un por-
centaje p, más un valor fijo b, lo que equivale a transformar xi por (1 ± p/100 × xi + b), por ejemplo al aumentar
un ingreso en un 25 % y sumarle 30000 por concepto de locomoción mensualmente, equivale a transformar xi
por (1 + 25/100) × xi + 30000 = 1, 25 × xi + 30000.

Otro ejemplo es cuando se disminuye un ingreso en un 10 % por ajuste y quitarle 6000 para fiestas de navidad
mensualmente, lo que equivale a transformar xi por:

(1 − 10/100) × xi − 6000 = 0, 9 × xi − 6000.

21

También podría gustarte