Documentos de Académico
Documentos de Profesional
Documentos de Cultura
1. Introducción
1.1. Definición de Estadı́stica
El origen de la palabra estadı́stica, proviene del adjetivo “statisticus”que se hizo popular en el siglo V XII,
el cual parece tener su origen en la palabra italiana “statista”, usada para definir a la persona dedicada al
pensamiento acerca del estado.
Se puede afirmar que el origen de la estadı́stica data de miles de años atrás, cuando surge la necesidad de
saber “cuántos somos’ y “cuántos son”. Ası́ una necesidad estadı́stica habrı́a motivado la habilidad de contar,
y el pensamiento matemático. La estadı́stica (sin “s”) es una ciencia a la que algunas organizaciones como
la UNESCO, por ejemplo, la ubican entre las Ciencias Sociales y otras, como FONDECYT, la incluyen en la
Matemática.
En la práctica el concepto de “estadı́stica”tiene varios significados, dependiendo de la persona que lo utiliza.
Comúnmente bajo “estadı́stica”se entiende un conjuntos de cifras o datos, por ejemplo, hablamos de estadı́stica
de nacimientos, estadı́stica de producción de papas, e incluso de estadı́sticas de los resultados semanales del
fútbol o de las carreras del hipódromo.
En la actualidad, se entiende por estadı́stica algo mucho más complejo y es ası́ como para algunos se trata de
una ciencia, para otros de un método y hay quienes prefieren limitarse a mencionar sus objetivos. No obstante,
esta claro el vasto campo de aplicaciones de la Estadı́stica, que ha pasado a ser indispensable, para tomar
decisiones racionales en todo tipo de investigaciones.
A continuación se enumeran algunas definiciones que se han dado de la Estadı́stica:
Conjunto de Métodos para efectuar decisiones adecuadas frente a la incertidumbre (Wallis y Roberts,
Statistics, a New Approach)
Disciplina relacionada con los métodos cientı́ficos destinados a recopilar, organizar, resumir, presentar y
analizar datos, tanto para la deducción de conclusiones como para tomar decisiones razonables de acuerdo
con tales análisis (M.R.Spiegel, Estadı́stica).
Ciencia de tomar decisiones a base de las observaciones (Clay Sprowis, Elementary Statistics).
Métodos y procedimientos para obtener, describir e interpretar conjuntos de datos y para basar decisiones
y predecir fenómenos que pueden expresarse en forma cuantitativa (H. D’Ottone, Estadı́stica Elemental).
1
1.2. Métodos de Obtención de Datos.
Los datos y cifras pueden obtenerse de diferentes maneras, de las cuales destacan:
1. Censos: El censo constituye una indagación completa, en relación a la o las variables que interesa estudiar.
El censo posibilita la obtención de información de toda la población o universo, pero en general a un alto
costo y gran consumo de tiempo. A ello hay que agregar las dificultades relacionadas con una buena
organización administrativa, que permita controlar y evitar los errores de recopilación y manejo de esta
gran masa de datos.
En la practica los censos mas conocidos son los de población, vivienda, agropecuarios e industriales.
2. Muestras: Las muestras por lo general están basadas sobre el análisis parcial de la población o el universo
que incluye el total de las unidades. Es decir, de la población o universo se selecciona, por algún método
adecuado, una parte de los elementos que componen la población, que constituye la llamada muestra, la
cual es estudiada respecto a la variable de interés.
Las ventajas de la técnica muestral por su bajo costo y oportunidad en la obtención de la información
deseada, se pueden ver deterioradas si no se utilizan ciertos procedimientos de muestreo adecuados.
3. Experimentos: El trabajo experimental es un procedimiento de recopilación de información bastante
difundido en las investigaciones realizadas en el campo de las ciencias agrı́colas, biológicas, fı́sicas, etc. La
experimentación permite la comprobación práctica de hechos, teorı́as y propósitos, con miras a formular
hipótesis lógicas y constituye una importante etapa del método cientı́fico de investigación.
Los experimentos se realizan normalmente utilizando unidades experimentales adecuadas, las cuales son
sometidas a tratamiento de interés. En este caso el investigador deberá tomar decisiones respecto al número
de observaciones a tomar, unidades experimentales a utilizar, número de repeticiones y análisis o estudios
a efectuar.
2. Presentación de Datos
2.1. Tipos de datos
Cualquiera haya sido el procedimiento de recopilación de información estadı́stica, implicará la reunión de
una gran cantidad de datos o cifras que será necesario resumir y presentar de acuerdo a criterios convenientes
que faciliten su comprensión y permitan su adecuado análisis.
Por dato se entenderá cualquier caracterı́stica que se pueda observar o medir: color de ojos, estatura, número
de pulsaciones por minuto, peso, etc.
Los datos pueden ser cualitativos o atributos si se refiere a una propiedad de los fenómenos en estudio,
por ejemplo, profesión, raza, genero, nacionalidad, etc.
Los datos obtenidos pueden referirse a una caracterı́stica cuantitativa, que se designará en general con el
nombre de la variable: peso, estatura, número de hijos, superficie agrı́cola, etc.
Se habla de datos atemporales, cuando, para un conjunto de datos, no interesa el orden en que se pre-
sentan las observaciones: Peso de un grupo de vacunos. En otros casos es importante considerar las variaciones
que presentan en los datos a medida que transcurre el tiempo. En este caso se habla de series de tiempo,
cronológicas o históricas. (Producción diaria de acero, ventas diarias de un supermercado, entrega mensual de
leche).
Dependiendo del número de variables o atributos que se estudiaran conjuntamente se hace distinción entre
casos unidimensionales (Personas clasificadas por edad); caso bidimensional (Vacunos clasificados por raza
y edad) o de un caso multidimensional, si se consideran mas de dos variables simultáneamente (Personas
clasificadas por, edad, peso y genero).
Dado un conjunto de observaciones de una variable X, la Estadı́stica Descriptiva estudia procedimientos
para resumir la información que contienen. Los tipos de variables que consideramos son:
1. Variables Cualitativas o Atributos: No toman valores numéricos y describen cualidades. Por ejemplo,
clasificar un artı́culo como aceptable, dudoso o defectuoso, o clasificar una pelı́cula como buena, regular o
mala.
2
2. Variables Cuantitativas Discretas: Toman únicamente valores enteros, corresponden en general a
contar el número de veces que ocurre un evento. Por ejemplo, número de artı́culos defectuosos en una
partida.
3. Variables Cuantitativas Continuas: Toman valores en un intervalo y corresponden a medir magnitudes
continuas. Por ejemplo, tiempo, edad, peso, longitud, etc.
Existen muchas formas de representar los datos, entre ellas el uso de tablas, diagramas y gráficas. A modo
de ilustración considere el ejemplo siguiente:
Ejemplo: El Director del Departamento de prevención de riesgos de una empresa dispone de la siguiente
información sobre los empleados que han sufrido algún tipo de accidente que haya obligado al trabajador
respectivo a tomar licencia en el último año. Los datos se encuentran en el cuadro 1.
3
Nombre Lesión en Planta Licencia Edad Peso Estatura
Juan Perez Cabeza Si 12 43 89 1.78
Mario Ramos Tronco Si 1 28 76 1.82
Lizardo Garrido Cabeza No 3 52 71 1.67
Carlos Caszely Extremidades No 4 54 84 1.58
Julio Peña Cabeza No 23 49 85 1.55
Juan Vega Tronco Si 2 27 63 1.72
Patricia Riquelme Cabeza Si 57 32 57 1.54
Carlos Picarte Cabeza Si 3 46 74 1.67
Juan Muñoz Extremidades Si 5 21 89 1.83
Sergio Espinoza Extremidades Si 2 41 75 1.65
Mario Muñoz Cabeza No 13 43 79 1.63
José Castillo Tronco Si 6 57 65 1.59
Michel Vazquez Tronco No 3 46 59 1.73
Jorge Vargas Tronco Si 2 34 79 1.85
Carlos Ceballos Cabeza No 1 33 87 1.7
Johan Bustos Tronco No 21 62 78 1.72
Matias Fernandez Extremidades No 6 21 77 1.81
Jorge Valdivia Extremidades Si 12 22 84 1.75
Pedro Diaz Cabeza No 2 63 79 1,68
Juan Cares Cabeza No 1 57 75 1.64
Samuel Castillo Tronco No 4 42 74 1.77
Sergio Ramos Cabeza No 6 24 86 1.85
Gabriel Contreras Cabeza No 1 36 89 1.75
Alvaro Martinez Tronco Si 3 34 96 1.89
Pablo Mendoza Cabeza No 6 23 71 1.69
Marcial Chamorro Cabeza No 4 36 73 1.74
Claudio Leal Cabeza No 2 44 69 1.63
Carlos Fuentes Tronco No 5 51 73 1.77
Gerado Barria Cabeza No 7 50 82 1.67
Gabriel Jara Cabeza No 6 34 79 1.79
José Muñoz Cabeza Si 2 55 98 1.87
Alan Garcia Tronco No 4 58 83 1.81
Pedro Prado Tronco No 3 66 69 1.65
Alejandro Aravena Cabeza No 1 31 75 1.72
Juan Insunza Cabeza No 6 62 61 1.57
Mario Yevenes Cabeza No 1 57 72 1.76
Hector Moreira Tronco No 5 42 75 1.63
Justo Alveal Cabeza No 7 48 79 1.76
Custodio Bueno Cabeza Si 1 57 83 1.81
Rodrigo Saez Extremidades No 4 43 84 1.75
Mauricio Aviles Cabeza No 13 45 82 1,81
Claudio Repetto Tronco No 1 38 87 1.85
Manuel Melgar Tronco Si 3 28 75 1.77
Cesar Toloza Cabeza No 5 51 79 1.67
Luis Otarola Cabeza No 1 35 79 1.75
Juan Pena Cabeza No 5 46 73 1.69
Raul Chandia Tronco No 7 51 67 1.63
Omar Contreras Cabeza No 6 58 75 1.64
Mario Galindo Cabeza Si 1 43 79 1.87
Marcelo Salas Extremidades No 35 35 77 1.76
Donde:
Lesión en: Indica la parte del cuerpo que el trabajador tuvo afectada.
4
Planta: Indica si el trabajador lesionado es de la planta en la Empresa o no.
Licencia Informa el número de dı́as que el trabajador estuvo con licencia médica.
Edad: Edad del trabajador medida en años.
Peso: Peso del trabajador medido en kilos.
Estatura: Altura del trabajador medida en metros.
En este caso, por ejemplo, las variables Lesión y Planta son cualitativas, Licencia y Edad son cuantitativas
discretas y Estatura es cuantitativa continua.
Se enfatiza que es conveniente clasificar las variables de acuerdo al conjunto de valores posibles que ellas
puedan tener. Los valores de las variables edad, capital, número de hijos, se expresan en forma numérica.
En cambio presencia de defectos, sabor, posición polı́tica muestran una cualidad del elemento y no pueden
expresarse numéricamente, salvo de manera artificial. Entonces podemos distinguir dos tipos de variables:
Variables cualitativas o no numéricas.
Variables cuantitativas o numéricas.
Las variables edad y número de hijos, son cuantitativas. Sin embargo, el número de hijos puede tomar los
valores 0, 1, 2, . . . , vale decir, un entero no negativo. No tiene sentido hablar de valores intermedios como 1,3
hijos. Por el contrario, si bien la edad se expresa en años cumplidos, esto lo podemos refinar usando meses, dı́as,
horas, minutos, segundos, etc. O sea, entre dos valores cualesquiera de la variable edad, por cercanos que sean,
existe siempre un valor intermedio.
Por otro lado, las variables sexo y grados en el ejercito son variables cualitativas. La variable sexo toma
los valores masculino y femenino, en cambio la variable grados en el ejercito puede tomar los valores soldado,
suboficial, oficial, etc. La diferencia entre ambas variables es que en grados del ejercito existe un orden jerárquico,
propio de la variable. De esta manera, si una variable cualitativa toma valores en un conjunto donde los valores
son solo nombres, la llamaremos variable nominal, y si además estos nombres tienen un orden propio o jerarquı́a
la llamaremos variable ordinal.
El número asociado a cada categorı́a o clase se denomina frecuencia. Puede observarse que a la tabla 2 se le
han agregados dos columnas denominadas frecuencia relativa y porcentaje, respectivamente.
A modo de ilustración se presenta la interpretación de algunos de los números que aparecen en la tabla 2.
5
28 personas tuvieron una lesión en la Cabeza.
El 14 % de las personan tuvieron una lesión en las extremidades.
15
10
5
0
Lesión
El uso de gráficos circulares o de torta es bastante común entre personas no profesionales en estadı́stica y
lamentablemente se ha trivializado tanto que si en muchas de las situaciones donde se usan se suprimieran se
ahorrarı́an muchas hojas de papel. Por ejemplo, a veces se presenta un gráfico de torta para mostrar que en una
muestra el 50 % son hombres y el 50 % son mujeres.
Cabe destacar algunas caracterı́sticas que presenta la tabla de frecuencia indicada anteriormente.
6
Lesion
Cabeza
Extremidades
Tronco
Cuadro 3: Número de Partos Correspondientes a un Grupo de 275 Vacas. Fuente: Anuario Agrı́cola, año 1974.
- Frecuencias absolutas (nj ): corresponde al número de veces que se repite un determinado valor de la variable.
En general debe cumplirse:
0 ≤ nj ≤ n
7
m
X
nj = n1 + n2 + . . . + nm = N
j=1
donde m es el número de valores que toma la variable en estudio y N es el total de observaciones consi-
deradas en el estudio.
- Frecuencia Relativa (fj ): se obtiene como cuociente entre la frecuencia absoluta correspondiente y la frecuencia
total. Es decir se deben cumplir las siguientes propiedades:
nj
fj =
N
0 ≤ fj ≤ 1
m
X
fj = f1 + f2 + . . . + fm = 1
j=1
- Frecuencias relativas acumuladas de una clase (Fj ):es la frecuencia absoluta acumulada de la clase dividida
por la frecuencia total. O bien, es la suma de la frecuencia relativa de la clase mas las de las que la
preceden. Es decir:
Xj
Fj = f1 + f2 + . . . + fj = fi .
i=1
40
30
20
10
0 2 4 6 8
Número de Partos
La figura 4 presenta el gráfico de frecuencias acumuladas u ojiva para los datos de la tabla 3.
Otra representación usada comúnmente es la llamada gráfico de tallo y hoja, a seguir se muestra este
diagrama para la variable edad de los datos de la tabla 1.
8
250
Frecuencia Acumulada
200
150
100
50
0 2 4 6 8
Número de Partos
1 | 2: represents 12
leaf unit: 1
n: 50
5 2* | 11234
8 2. | 788
14 3* | 123444
19 3. | 55668
(8) 4* | 12233334
23 4. | 566689
17 5* | 011124
11 5. | 5777788
4 6* | 223
1 6. | 6
En este caso, por ahora vamos a ignorar la primera columna y considerar las restantes, por ejemplo, para la
primera fila, el sı́mbolo 2∗ |11234 significa que entre en los datos hay dos personas de 21 años, una persona de
22 años, otra de 23 años y una última persona de 24 años.
La primera parte antes del sı́mbolo | corresponde al tallo; que en este caso ha sido dividido en dos partes,
la primera con número siguiente, conocido como hoja desde 0 a 4 (simbolizada con *) y la segunda de 5 a 9
(simbolizada con .).
Este diagrama permite tener una idea de la forma de la distribución de los datos y analizar la existencia de
valores atı́picos (outliers).
Otro gráfico usado con frecuencia es el diagrama de cajas (box-plot), a modo de ilustración la figura 5
presenta el diagrama de cajas para la variable edad de los datos de la tabla 1. Este diagrama será analizado con
mayor detalle más adelante.
9
60
50
Edad
40
30
20
A objeto de establecer el número m de clases que conviene considerar para la tabulación es conveniente
calcular el “ recorrido de la variable”, es decir, la diferencia entre el mayor y menor de los datos observados. O
sea:
Las marcas de clase m1 , . . . , m4 permiten caracterizar a los intervalos de clase y corresponden a los puntos
medios o, semi suma de los lı́mites superior e inferior respectivos. En la práctica, debido a cálculos posteriores
que se harán a partir de las tablas de frecuencia para variables continuas, es conveniente que las marcas de clase
sena números sencillos.
La tabulación de los datos recogidos da origen a la tabla 5.
- La frecuencia n3 = 11 nos dice que de los 30 dı́as del mes, en 11 dı́as el consumo fue mayor que 0.9 y a lo
más de 1.1 m3 /seg.
- La frecuencia n1 = 4 nos dice que 4 dı́as el consumo de agua fue mayor que 0.50 y a lo más de 0.7 m3 /seg.
10
Intervalos de Clase Marcas de Clase Frec. Frec. Frec. Abs. Frec. Rel.
(mi ) Absoluta Relativa Acumulada Acumulada
(ni ) (fi ) (Ni ) (Fi )
(0.50-0.70] 0.60 4 0.13 4 0.13
(0.70-0.90] 0.80 9 0.30 13 0.43
(0.90-1.10] 1.00 11 0.37 24 0.80
(1.10-1.30] 1.20 6 0.20 30 1.00
Total 30 1.00
- f2 = 0,30, nos dice que el 30 % de los dı́as el consumo de agua fue mayor que 0.7 y a lo más de 0.9 m3 /seg.
- N3 = 24 nos dice que 24 dı́as el consumo de agua fue mayor que 0.50 y a lo más de 1.1 m3 /seg.
- F2 = 0,43 nos dice que el 43 % de los dı́as el consumo de agua fue a lo más de 0.9 m3 /seg.
Una regla usada con frecuencia para determinar el número de intervalos es la regla de Sturges, definida por:
11
2.2.6. Gráfico de Variables Continuas
El gráfico principal de variables continuas es el histograma. El histograma es el gráfico estadı́stico por
excelencia. El histograma de un conjunto de datos es un gráfico de barras que representan las frecuencias con
que aparecen las mediciones agrupadas en ciertos rangos e intervalos. Un histograma es construido a partir de
los datos tabulados.
Los pasos para construir un histograma son:
1. Es útil para apreciar la forma de la distribución de los datos, si se escoge adecuadamente el número de
clases y su amplitud.
2. Se puede presentar como un gráfico definitivo en un reporte.
3. Se puede utilizar para comparar dos o más muestras o poblaciones.
Debido a que nuestros ojos responden al área de las barras, es importante mantener la anchura de las barras
iguales. Si estamos enfrentados a un problema donde los intervalos tienen diferente amplitud, por ejemplo cuando
obtenemos datos agrupados desde la fuente, se usa la siguiente formula:
Frecuencia Relativa
Altura del rectangulo =
Amplitud del intervalo
Observación: Los programas de computador usualmente ajustan los histogramas automáticamente, pero
el programa debe permitirnos variar el histograma. Si usted posee un programa que no le permite hacer cambios,
cambie de programa.
La figura 6 presenta el histograma para los datos de la tabla 5.
Ejercicio: Dibujar el histograma para los datos de la tabla ??.
El histograma es de mucha utilidad para estudiar si los datos pueden ser aproximados por una distribución
normal. La distribución normal es la más usada en estadı́stica clásica por muchas razones entre las que se
cuentan:
4. Si la distribución de origen de la población original esta lejos de la distribución normal, la media x tiende
a tener una distribución normal bajo muestreo, cuando el tamaño de muestra aumenta. Esta propiedad
es conocida como teorema central del lı́mite.
12
Histograma para los datos de la tabla
12
10
Frecuencias
8
6
4
2
0
0.6 0.8 1.0 1.2
Marcas de clase
Distribución normal
0.4
0.3
0.2
fx
0.1
0.0
−4 −2 0 2 4
13
A. Histograma 10 observaciones B. Histograma 50 observaciones
12
5
10
4
Frecuencia
8
3
Frecuencia
6
2
4
1
2
0
0
−1.0 −0.5 0.0 0.5 1.0
−2 −1 0 1 2
ruido10 ruido50
150
80
60
Frecuencia
Frecuencia
100
40
50
20
0
−2 0 2 4 −3 −2 −1 0 1 2 3
ruido500 ruido1000
Otro gráfico usado con frecuencia para las variables cuantitativas continuas es la distribución de frecuencias
acumuladas, que fue presentado anteriormente.
Otro gráfico agregado al histograma es el polı́gono de frecuencias, que se construye uniendo con segmentos
de recta los puntos medios (marcas de clase) de los intervalos adyacentes.
14
Figura 9: Histograma de la distribución normal para distintos tamaños de muestra.
A modo de ilustración, suponga que se tienen las notas de 20 alumnos de un curso, estas son:
6, 2 − 4, 8 − 3, 8 − 4, 6 − 4, 4
5, 7 − 6, 4 − 5, 4 − 6, 3 − 4, 8
4, 9 − 3, 1 − 3, 8 − 5, 5 − 5, 1
15
6, 8 − 4, 7 − 5, 5 − 7, 0 − 4, 2
La tabla siguiente muestra una tabulación posible para los datos:
Nota ni fi Ni Fi mi
3,10-3,88 3 0,15 3 0,15 3,49
3,88-4,66 3 0,15 6 0,30 4,27
4,66-5,44 6 0,30 12 0,60 5,05
5,44-6,22 4 0,20 16 0,80 5,83
6,22-7 4 0,20 20 1 6,61
Total 20 1
(6 − 3)
Mo = 4, 66 + × o, 78 = 5, 128
(6 − 3) + (6 − 4)
La interpretación en este caso es que la moda corresponde a la nota que aparece con mayor frecuencia.
Una observación importante es que la moda puede no existir.
Considere los siguientes datos recopilados a 8 estudiantes sobre la cantidad de hijos en su grupo familiar:
1, 2, 2, 3, 3, 4, 4
Como se aprecia, bajo la definición de moda, en este caso, no existe moda. Además puede ocurrir que exista
más de una moda, y en estos casos se hablara de multimodalidad.
Formalmente, si x1 , x2 , . . . , xn son los valores observados de una variable X, entonces el promedio se expresa
matemáticamente por
n
X
xi
i=1
X=
n
Por ejemplo, para la variable edad de los datos de los trabajadores la media es 43,08 años, y para la variable
número de dı́as de licencia la media es 6,68.
Cuando sólo se dispone de los datos agrupados o tabulados, podemos pensar en la marca de clase como un
representante de cada intervalos, de modo que:
m
X
m i × ni
i=1
X=
n
donde m es la cantidad de intervalos.
Para las notas la media es:
16
3.1.3. La mediana (Me )
Es aquel valor de la variable que ocupa la posición central cuando los datos están ordenados de menor a
mayor. En forma técnica se define como aquel valor de la caracterı́stica en estudio que deja bajo si al 50 % de
la información.
Sean x1 , x2 , . . . , xn los valores observados de una variable X. Generalmente los datos vienen desordenados,
ası́ que lo primero que se debe realizar es ordenarlos de menor a mayor, digamos min = x(1) ≤ x(2) ≤ . . . ≤
x(n)=max . Entonces la mediana se define como:
x((n+1)/2) ,
si n es impar;
Me =
x(n/2) + x(n/2+1) , si n es par.
2
Imagine que la información observada es 6, 3, 8, 5 y 3.
n+1 5+1
Como la cantidad de datos es impar debemos encontrar aquel dato que ocupa la posición 2 = 2 = 3,
que corresponde al valor 5, por lo tanto la Me = 5.
n 6
Como la cantidad de datos es par debemos encontrar los datos que ocupan las posiciones 2 = 2 = 3 y
n
2 + 1 = 62 + 1 = 4, que corresponden a los datos 8 y 9, ası́ la Me = 8+9
2 = 8, 5.
En el caso de datos agrupados en intervalos, la mediana será calculada usando el siguiente algoritmo:
50 n
P osicion = n × =
100 2
2. Determinar en que intervalo cae la mediana, comparando la posición obtenida en i) y la columna de
las frecuencias absolutas acumuladas, la mediana está en el intervalo que primero tiene una frecuencia
absoluta acumulada mayor o igual a n/2.
3. La mediana se calcula como:
n A
i
Me = lim Infi + − Ni−1 ×
2 ni
donde lim Infi es el lı́mite o cota inferior del intervalo en que esta la mediana (obtenido en ii); Ai es
la amplitud del intervalo en que esta la mediana; ni es la frecuencia absoluta del intervalo en que esta
la mediana y Ni−1 es la frecuencia absoluta acumulada del intervalo anterior al intervalo en que esta la
mediana.
Para aprender a aplicar el algoritmo anterior, se verá con detalles en el ejemplo de las notas de los 20
alumnos. En el paso i). Se tiene que la posición que le corresponde a la mediana es el 10. En el paso ii) se
aprecia que la posición 10 cae en el tercer intervalo, por lo tanto la mediana es:
0, 78
Me = 4, 66 + (10 − 6) × = 5, 18.
6
17
3.1.4. Los percentiles
Son cantidades que tiene la caracterı́stica de acumular información hasta ellos. Para aclarar ideas, imagine
que la información la dividimos en 100 partes iguales, donde cada una de las partes corresponde a un 1 % de la
información.
En este contexto P1 es aquel valor de la variable que tiene acumulado el 1 % de la información, P2 es aquel
valor de la variable que tiene acumulado el 2 % de la información, ... y P99 es aquel valor de la variable que
tiene acumulado el 99 % de la información. Con esto, se define el percentil α % (Pα ) como aquel valor de la
variable en estudio que deja bajo si al α % de la información. Para calcular Pα se debe realizar el siguiente
procedimiento:
1. Ordenar los datos del más pequeño al más grande
α
2. Calcular n × 100 .
α
3. Si en el paso 2 se obtiene un entero, digamos, n × 100 = k. Entonces el percentil α % es el promedio de
los datos que ocupan la posición k y la posición k + 1.
α
Si en el paso 2 se obtiene un número con decimales, digamos n × 100 = k decimal. Entonces el percentil
α % es el dato que ocupa la posición k + 1.
En un estudio realizado a 10 familias, se obtuvo el ingreso bruto mensual (expresado en salarios mı́nimos):
12,16,18,20,28,30,40,48,50 y 54. Se quiere encontrar el ingreso mı́nimo del 30 % de los ingresos más altos.
70
Por lo tanto, se debe calcular el percentil 70 %. Como los datos ya están ordenados se calcula n × 100 =
70
10 × 100 = 7. Como nos da un valor entero, debemos promediar los datos que ocupan las posiciones 7 y 8, es
decir, P70 = 40+48
2 = 44. Por lo tanto, el ingreso mı́nimo del 30 % de los ingresos más altos es de 44 sueldos
mı́nimos, o dicho de otra forma, el 70 % de las personas gana menos de 44 sueldos mı́nimos.
En el caso de datos agrupados en intervalos, eñ percentil α % es calculado usando el siguiente algoritmo:
α
1. Determinar la posición que le corresponde al percentil α % P osicion = n × 100
Para aprender a aplicar el algoritmo anterior, se verá con detalles en el ejemplo de las notas de los 20
alumnos. Imagine que se quiere calcular la nota mı́nima del 40 % de las mejores notas, esto es buscamos P60 .
Ası́ al aplicar el algoritmo anterior se tiene que en el paso i), la posición que le corresponde al percentil 60 % es
12.
En el paso ii) recorremos la tabla de frecuencias, como se aprecia, la posición 12 cae en el tercer intervalo,
por lo tanto el percentil 60 % es:
0, 78
P60 = 4, 66 + (12 − 6) × = 5, 44.
6
Por lo tanto la nota mı́nima del 40 % de las mejores notas es 5,44, o dicho de otra manera, el 60 % de las
notas es menor que 5,44.
Se deja al lector, investigar que son los cuartiles, deciles y quintiles.
18
3.2. Medidas de dispersión o de variabilidad
Las medidas de dispersión o de variabilidad, como su nombre lo indica, son cantidades que describen cuan
cercanos o alejados están los datos, es decir cuan homogéneos o heterogéneos son los datos.
Para determinar cuan separado está el conjunto de datos, las medidas de dispersión deben estar relacionadas
con la idea de distancia. Porque, a menor distancia, los datos son homogéneos y a mayor distancia los datos son
heterogéneos.
La medida más simple para medir dispersión en el rango R, que ya se ha estudiado. Una de las dificultades
del rango es que depende de los valores extremos y por lo tanto no siempre refleja adecuadamente la dispersión
existente en los datos ya que tiene a sobre estimarla. Para evitar lo anterior se utiliza el rango intercuartı́lico
(RI) que el rango del 50 % central de los datos, es decir, es la distancia entre P75 y P25 .
Por lo tanto, el rango intercuartı́lico es calculado por:
RI = P75 − P25 .
Ası́, en el ejemplo de las notas de los 20 alumnos, el rango intercuartı́lico es 1,63 y el rango es 3,9.
Otra medida de dispersión es la varianza (S 2 ), que mide la heterogeneidad de los datos considerando un
punto de referencia que es el promedio.
1,3,5,6, y 10.
19
En el ejemplo de las notas de los 20 alumnos:
La nota promedio y el promedio de los cuadrados son: X = 5, 167 y
5
X ni × m2 i 3 × 3, 492 + 3 × 4, 272 + 6 × 5, 052 + 4 × 5, 832 + 4 × 6, 612
= = 27, 7489
i=1
20 20
Entonces la varianza es:
20
S2 = 27, 7489 − (5, 167)2 = 1, 10633.
19
Uno de los problemas de la varianza es que si la variable en estudio es la estatura y la unidad de medida
es el metro, entonces, la unidad de medida de la varianza es (metro)2 , si la variable en estudio es el peso y la
unidad de medida es kilogramo, entonces, la unidad de medida de la varianza es (kilogramo)2 . Para evitar esta
dificultad se inventa la desviación
√ estándar o desviación tı́pica, la que se define como la raı́z cuadrada de
la varianza, es decir, S = S 2 .
Una de las grandes dificultades de las medidas de dispersión, que hasta el momento se han estudiado, es que
dependen de la unidad de medida de la variable en estudio. Debido a esta dificultad, se inventa el coeficiente
de variación.
S
El coeficiente de variación se define como CV = .
X
Como se aprecia, esta medida de dispersión es adimensional y si multiplicamos 100 por el coeficiente de
variación, tenemos el porcentaje de variabilidad, es decir, CV × 100 %. Algunos autores, proponen la siguiente
clasificación para determinar si los datos son homogéneos o heterogéneos:
1. Si CV × 100 % ≤ 5 % los datos son muy homogéneos.
2. Si 5 % < CV × 100 % ≤ 25 % los datos son homogéneos.
3. Si 25 % < CV × 100 % ≤ 50 % los datos son heterogéneos.
4. Si CV × 100 % > 50 % los datos son muy heterogéneos.
En el ejemplo de las notas de los 20 alumnos, el coeficiente de variación es CV = 1,0518 5,167 = 0, 2036, el
porcentaje de dispersión es de un 20,36 %. Según la clasificación anterior se concluye que las notas de los 20
alumnos son homogéneas.
A continuación se entregan resultados, cuando se realiza una transformación lineal a los datos.
Sean x1 , x2 , . . . , xn , las observaciones de una variable X, la pregunta es, ¿Qué pasa con las cantidades
calculadas, si a los datos, se les multiplica por una constante y luego se les suma otra?, es decir, xi , se transforma
en a × xi + b (con a 6= 0) en todas las observaciones.
Por ejemplo, se estudian las temperaturas de 20 alumnos de la universidad, los resultados son resumidos en
la siguiente tabla de frecuencias:
20
Estatura Marca de ni
(cm) Clase
[161 − 166) 163,5 2
[166 − 171) 168,5 5
[171 − 176) 173,5 6
[176 − 181) 178,5 2
[181 − 186) 183,5 5
Total 20
Promedio X = 174, 25 cm
Percentil 50 P5 0 = 173, 5cm
Varianza S 2 = 45, 46cm2
Desviación Estándar S = 6, 74 cm
Coeficiente de CV = 0, 0387
variación
A estos alumnos se les dará un golpe vitamı́nico, que se sabe que aumenta en un 1 % (a = 1, 01) sus estaturas,
más 3 centı́metros (b = 3). La pregunta es, ¿Qué pasa con el promedio, mediana, varianza, desviación estándar
y coeficiente de variación de las nuevas estaturas?
El siguiente cuadro, resume el cambio de los indicadores, si las observaciones sufren una transformación
lineal de la forma yi = axi + b.
Algunas transformaciones útiles ocurren cuando corresponde aumentar o disminuir un ingreso en un por-
centaje p, más un valor fijo b, lo que equivale a transformar xi por (1 ± p/100 × xi + b), por ejemplo al aumentar
un ingreso en un 25 % y sumarle 30000 por concepto de locomoción mensualmente, equivale a transformar xi
por (1 + 25/100) × xi + 30000 = 1, 25 × xi + 30000.
Otro ejemplo es cuando se disminuye un ingreso en un 10 % por ajuste y quitarle 6000 para fiestas de navidad
mensualmente, lo que equivale a transformar xi por:
21