Descriptiva 1

Estadı́stica Descriptiva
1. Introducción
1.1. Definición de Estadı́stica
El origen de la palabra estadı́stica, proviene del adjetivo “statisticus”que se hizo popular en el siglo V XII,
el cual parece tener su origen en la palabra italiana “statista”, usada para definir a la persona dedicada al
pensamiento acerca del estado.
Se puede afirmar que el origen de la estadı́stica data de miles de años atrás, cuando surge la necesidad de
saber “cuántos somos’ y “cuántos son”. Ası́ una necesidad estadı́stica habrı́a motivado la habilidad de contar,
y el pensamiento matemático. La estadı́stica (sin “s”) es una ciencia a la que algunas organizaciones como
la UNESCO, por ejemplo, la ubican entre las Ciencias Sociales y otras, como FONDECYT, la incluyen en la
Matemática.
En la práctica el concepto de “estadı́stica”tiene varios significados, dependiendo de la persona que lo utiliza.
Comúnmente bajo “estadı́stica”se entiende un conjuntos de cifras o datos, por ejemplo, hablamos de estadı́stica
de nacimientos, estadı́stica de producción de papas, e incluso de estadı́sticas de los resultados semanales del
fútbol o de las carreras del hipódromo.
En la actualidad, se entiende por estadı́stica algo mucho más complejo y es ası́ como para algunos se trata de
una ciencia, para otros de un método y hay quienes prefieren limitarse a mencionar sus objetivos. No obstante,
esta claro el vasto campo de aplicaciones de la Estadı́stica, que ha pasado a ser indispensable, para tomar
decisiones racionales en todo tipo de investigaciones.
A continuación se enumeran algunas definiciones que se han dado de la Estadı́stica:
Conjunto de Métodos para efectuar decisiones adecuadas frente a la incertidumbre (Wallis y Roberts,
Statistics, a New Approach)
Disciplina relacionada con los métodos cientı́ficos destinados a recopilar, organizar, resumir, presentar y
analizar datos, tanto para la deducción de conclusiones como para tomar decisiones razonables de acuerdo
con tales análisis (M.R.Spiegel, Estadı́stica).
Ciencia de tomar decisiones a base de las observaciones (Clay Sprowis, Elementary Statistics).
Métodos y procedimientos para obtener, describir e interpretar conjuntos de datos y para basar decisiones
y predecir fenómenos que pueden expresarse en forma cuantitativa (H. D’Ottone, Estadı́stica Elemental).
La necesidad de disponer de información en cantidad y calidad suficiente, y con la oportunidad debida, se

ha traducido en que los distintos paı́ses han debido centralizar la recopilación y publicación de Estadı́sticas en
organismos estatales especializados, como es el caso del Instituto Nacional de Estadı́sticas (INE) en Chile. En
la actualidad son numerosos también los organismos internacionales preocupados de la confección y publicación
de estadı́sticas sobre las actividades que los preocupan (CEPAL, FAO, UNESCO, OEA, etc.)
La estadı́stica implica para la mayorı́a de los estudiantes, una forma nueva de pensar en términos de incer-
tidumbre. Acá como en otros casos, los estudiantes difieren en habilidad, y cuando se enfrentan a la estadı́stica
por primera vez para algunos puede parecer una tortura mental, en el presente curso se hará todo el esfuerzo
para minimizar los problemas de aprendizaje de la estadı́stica.
La estadı́stica está muy relacionada con el método cientı́fico. Apoya a la investigación en todas las otras
disciplinas, especialmente en la recolección y el análisis de datos para verificar o formular nuevas hipótesis
Por otro lado, los procesos administrativos, comerciales y tecnológicos necesitan de estos métodos para tomar
decisiones y hacer predicciones a valores futuros.
Finalmente, es necesario tener en cuenta que la estadı́stica se ha propuesto como instrumento de investigación.
La investigación puede ser en diversas áreas. Es el campo de investigación y no el instrumento, el que debe
proporcionar los “por qué” del problema de investigación. A veces este hecho se pasa por alto y los usuarios
olvidan que tienen que pensar, que la estadı́stica no puede pensar por ellos. La estadı́stica, sin embargo, ayuda
a los investigadores a diseñar experimentos y a evaluar objetivamente los datos numéricos resultantes.
1
1.2. Métodos de Obtención de Datos.
Los datos y cifras pueden obtenerse de diferentes maneras, de las cuales destacan:
1. Censos: El censo constituye una indagación completa, en relación a la o las variables que interesa estudiar.
El censo posibilita la obtención de información de toda la población o universo, pero en general a un alto
costo y gran consumo de tiempo. A ello hay que agregar las dificultades relacionadas con una buena
organización administrativa, que permita controlar y evitar los errores de recopilación y manejo de esta
gran masa de datos.
En la practica los censos mas conocidos son los de población, vivienda, agropecuarios e industriales.
2. Muestras: Las muestras por lo general están basadas sobre el análisis parcial de la población o el universo
que incluye el total de las unidades. Es decir, de la población o universo se selecciona, por algún método
adecuado, una parte de los elementos que componen la población, que constituye la llamada muestra, la
cual es estudiada respecto a la variable de interés.
Las ventajas de la técnica muestral por su bajo costo y oportunidad en la obtención de la información
deseada, se pueden ver deterioradas si no se utilizan ciertos procedimientos de muestreo adecuados.
3. Experimentos: El trabajo experimental es un procedimiento de recopilación de información bastante
difundido en las investigaciones realizadas en el campo de las ciencias agrı́colas, biológicas, fı́sicas, etc. La
experimentación permite la comprobación práctica de hechos, teorı́as y propósitos, con miras a formular
hipótesis lógicas y constituye una importante etapa del método cientı́fico de investigación.
Los experimentos se realizan normalmente utilizando unidades experimentales adecuadas, las cuales son
sometidas a tratamiento de interés. En este caso el investigador deberá tomar decisiones respecto al número
de observaciones a tomar, unidades experimentales a utilizar, número de repeticiones y análisis o estudios
a efectuar.
2. Presentación de Datos
2.1. Tipos de datos
Cualquiera haya sido el procedimiento de recopilación de información estadı́stica, implicará la reunión de
una gran cantidad de datos o cifras que será necesario resumir y presentar de acuerdo a criterios convenientes
que faciliten su comprensión y permitan su adecuado análisis.
Por dato se entenderá cualquier caracterı́stica que se pueda observar o medir: color de ojos, estatura, número
de pulsaciones por minuto, peso, etc.
Los datos pueden ser cualitativos o atributos si se refiere a una propiedad de los fenómenos en estudio,
por ejemplo, profesión, raza, genero, nacionalidad, etc.
Los datos obtenidos pueden referirse a una caracterı́stica cuantitativa, que se designará en general con el
nombre de la variable: peso, estatura, número de hijos, superficie agrı́cola, etc.
Se habla de datos atemporales, cuando, para un conjunto de datos, no interesa el orden en que se pre-
sentan las observaciones: Peso de un grupo de vacunos. En otros casos es importante considerar las variaciones
que presentan en los datos a medida que transcurre el tiempo. En este caso se habla de series de tiempo,
cronológicas o históricas. (Producción diaria de acero, ventas diarias de un supermercado, entrega mensual de
leche).
Dependiendo del número de variables o atributos que se estudiaran conjuntamente se hace distinción entre
casos unidimensionales (Personas clasificadas por edad); caso bidimensional (Vacunos clasificados por raza
y edad) o de un caso multidimensional, si se consideran mas de dos variables simultáneamente (Personas
clasificadas por, edad, peso y genero).
Dado un conjunto de observaciones de una variable X, la Estadı́stica Descriptiva estudia procedimientos
para resumir la información que contienen. Los tipos de variables que consideramos son:
1. Variables Cualitativas o Atributos: No toman valores numéricos y describen cualidades. Por ejemplo,
clasificar un artı́culo como aceptable, dudoso o defectuoso, o clasificar una pelı́cula como buena, regular o
mala.
2
2. Variables Cuantitativas Discretas: Toman únicamente valores enteros, corresponden en general a
contar el número de veces que ocurre un evento. Por ejemplo, número de artı́culos defectuosos en una
partida.
3. Variables Cuantitativas Continuas: Toman valores en un intervalo y corresponden a medir magnitudes
continuas. Por ejemplo, tiempo, edad, peso, longitud, etc.
Existen muchas formas de representar los datos, entre ellas el uso de tablas, diagramas y gráficas. A modo
de ilustración considere el ejemplo siguiente:
Ejemplo: El Director del Departamento de prevención de riesgos de una empresa dispone de la siguiente
información sobre los empleados que han sufrido algún tipo de accidente que haya obligado al trabajador
respectivo a tomar licencia en el último año. Los datos se encuentran en el cuadro 1.
3
Nombre Lesión en Planta Licencia Edad Peso Estatura
Juan Perez Cabeza Si 12 43 89 1.78
Mario Ramos Tronco Si 1 28 76 1.82
Lizardo Garrido Cabeza No 3 52 71 1.67
Carlos Caszely Extremidades No 4 54 84 1.58
Julio Peña Cabeza No 23 49 85 1.55
Juan Vega Tronco Si 2 27 63 1.72
Patricia Riquelme Cabeza Si 57 32 57 1.54
Carlos Picarte Cabeza Si 3 46 74 1.67
Juan Muñoz Extremidades Si 5 21 89 1.83
Sergio Espinoza Extremidades Si 2 41 75 1.65
Mario Muñoz Cabeza No 13 43 79 1.63
José Castillo Tronco Si 6 57 65 1.59
Michel Vazquez Tronco No 3 46 59 1.73
Jorge Vargas Tronco Si 2 34 79 1.85
Carlos Ceballos Cabeza No 1 33 87 1.7
Johan Bustos Tronco No 21 62 78 1.72
Matias Fernandez Extremidades No 6 21 77 1.81
Jorge Valdivia Extremidades Si 12 22 84 1.75
Pedro Diaz Cabeza No 2 63 79 1,68
Juan Cares Cabeza No 1 57 75 1.64
Samuel Castillo Tronco No 4 42 74 1.77
Sergio Ramos Cabeza No 6 24 86 1.85
Gabriel Contreras Cabeza No 1 36 89 1.75
Alvaro Martinez Tronco Si 3 34 96 1.89
Pablo Mendoza Cabeza No 6 23 71 1.69
Marcial Chamorro Cabeza No 4 36 73 1.74
Claudio Leal Cabeza No 2 44 69 1.63
Carlos Fuentes Tronco No 5 51 73 1.77
Gerado Barria Cabeza No 7 50 82 1.67
Gabriel Jara Cabeza No 6 34 79 1.79
José Muñoz Cabeza Si 2 55 98 1.87
Alan Garcia Tronco No 4 58 83 1.81
Pedro Prado Tronco No 3 66 69 1.65
Alejandro Aravena Cabeza No 1 31 75 1.72
Juan Insunza Cabeza No 6 62 61 1.57
Mario Yevenes Cabeza No 1 57 72 1.76
Hector Moreira Tronco No 5 42 75 1.63
Justo Alveal Cabeza No 7 48 79 1.76
Custodio Bueno Cabeza Si 1 57 83 1.81
Rodrigo Saez Extremidades No 4 43 84 1.75
Mauricio Aviles Cabeza No 13 45 82 1,81
Claudio Repetto Tronco No 1 38 87 1.85
Manuel Melgar Tronco Si 3 28 75 1.77
Cesar Toloza Cabeza No 5 51 79 1.67
Luis Otarola Cabeza No 1 35 79 1.75
Juan Pena Cabeza No 5 46 73 1.69
Raul Chandia Tronco No 7 51 67 1.63
Omar Contreras Cabeza No 6 58 75 1.64
Mario Galindo Cabeza Si 1 43 79 1.87
Marcelo Salas Extremidades No 35 35 77 1.76
Cuadro 1: Accidentes de trabajo. Elaboración propia
Donde:
Lesión en: Indica la parte del cuerpo que el trabajador tuvo afectada.
4
Planta: Indica si el trabajador lesionado es de la planta en la Empresa o no.
Licencia Informa el número de dı́as que el trabajador estuvo con licencia médica.
Edad: Edad del trabajador medida en años.
Peso: Peso del trabajador medido en kilos.
Estatura: Altura del trabajador medida en metros.
En este caso, por ejemplo, las variables Lesión y Planta son cualitativas, Licencia y Edad son cuantitativas
discretas y Estatura es cuantitativa continua.
Se enfatiza que es conveniente clasificar las variables de acuerdo al conjunto de valores posibles que ellas
puedan tener. Los valores de las variables edad, capital, número de hijos, se expresan en forma numérica.
En cambio presencia de defectos, sabor, posición polı́tica muestran una cualidad del elemento y no pueden
expresarse numéricamente, salvo de manera artificial. Entonces podemos distinguir dos tipos de variables:
Variables cualitativas o no numéricas.
Variables cuantitativas o numéricas.
Las variables edad y número de hijos, son cuantitativas. Sin embargo, el número de hijos puede tomar los
valores 0, 1, 2, . . . , vale decir, un entero no negativo. No tiene sentido hablar de valores intermedios como 1,3
hijos. Por el contrario, si bien la edad se expresa en años cumplidos, esto lo podemos refinar usando meses, dı́as,
horas, minutos, segundos, etc. O sea, entre dos valores cualesquiera de la variable edad, por cercanos que sean,
existe siempre un valor intermedio.
Por otro lado, las variables sexo y grados en el ejercito son variables cualitativas. La variable sexo toma
los valores masculino y femenino, en cambio la variable grados en el ejercito puede tomar los valores soldado,
suboficial, oficial, etc. La diferencia entre ambas variables es que en grados del ejercito existe un orden jerárquico,
propio de la variable. De esta manera, si una variable cualitativa toma valores en un conjunto donde los valores
son solo nombres, la llamaremos variable nominal, y si además estos nombres tienen un orden propio o jerarquı́a
la llamaremos variable ordinal.
2.2. Tabulación y gráfico de los Datos.

Una vez recolectados los datos es necesario construir gráficos y tablas que permitan un resumen adecuado
de ellos, antes de proceder a su análisis y utilización correcta. El primer paso es decidir a que tipo de variable
corresponde cada una de las informaciones en estudio, dado que las variables cualitativas deben ser analizadas
de manera diferente que las cuantitativas, y también existen diferencias en el tratamiento de las variables
cuantitativas discretas y continuas.
2.2.1. Tabulación de variables cualitativas

En general resulta fácil la clasificación de atributos (sexo, raza, presencia de una determinada enfermedad).
La tabulación de los datos se hace utilizando las llamadas tablas de contingencia (ver cuadro 2). Se observa en
este caso, que el orden de ubicación de los atributos es arbitrario.
Lesión Frecuencia Frecuencia Porcentaje

Absoluta Relativa
Cabeza 28 0.56 52 %
Extremidades 7 0.14 48 %
Tronco 15 0.30 30 %
Total 50 1.00 100 %
Cuadro 2: Tabla de la variable cualitativa lesión
El número asociado a cada categorı́a o clase se denomina frecuencia. Puede observarse que a la tabla 2 se le
han agregados dos columnas denominadas frecuencia relativa y porcentaje, respectivamente.
A modo de ilustración se presenta la interpretación de algunos de los números que aparecen en la tabla 2.
5
28 personas tuvieron una lesión en la Cabeza.
El 14 % de las personan tuvieron una lesión en las extremidades.
2.2.2. Gráficos de variables cualitativas

Una ventaja de los gráficos es que pueden mostrarnos cosas que de otra forma hubiese sido muy difı́cil o
imposible de observar. Esta es una de las razones por las cuales casi todo análisis estadı́stico considera gráficos.
Existen dos tipos de gráficos que son de utilidad en caso de variables cualitativas, el gráfico de barras y el
gráfico circular.
Los gráficos de barras son suficientemente flexibles para ser adaptados a situaciones donde el trabajo gráfico
ha tenido poco éxito, como lo es el análisis de datos categóricos.
La figura 1 presenta el gráfico de barras para los datos de la tabla 2, usando las frecuencias absolutas.
Podrı́amos construir un gráfico similar usando las frecuencias relativas o porcentuales.
25
20
Frecuencia
15
10
5
0
Cabeza Extremidades Tronco
Lesión
Figura 1: Gráfico de barras para la variable lesión de la tabla 2.
El uso de gráficos circulares o de torta es bastante común entre personas no profesionales en estadı́stica y
lamentablemente se ha trivializado tanto que si en muchas de las situaciones donde se usan se suprimieran se
ahorrarı́an muchas hojas de papel. Por ejemplo, a veces se presenta un gráfico de torta para mostrar que en una
muestra el 50 % son hombres y el 50 % son mujeres.
El número de grados del circulo asignados a cada atributo es definido por:
(Frecuencia Relativa del atributo) ∗ 3600 .

La figura 2 presenta el gráfico circular para algunos datos de la tabla 2.
2.2.3. Variables Cuantitativas Discretas.

Los datos relacionados con variables discretas dan origen a un cuadro o tabla de resumen denominado
distribución de frecuencias.
Por ejemplo, La Tabla 3 muestra un ejemplo de tabulación de datos correspondiente a la clasificación de 275
vacas de un predio agrı́cola de acuerdo al número de partos que previamente han tenido.
Cabe destacar algunas caracterı́sticas que presenta la tabla de frecuencia indicada anteriormente.
- Al hacer la tabulación de han ordenado los valores de la variable yi de menor a mayor 0, 1, 2, . . . , 8
6
Lesion
Cabeza
Extremidades
Tronco
Figura 2: Gráfico circular para la variable lesión de la tabla 2
Clase Frecuencia Frecuencia Porcentaje Frecuencia Frecuencia

No de Partos Absoluta Relativa Absoluta Relativa
Yi ni fi % Ni Fi
0 25 0.09 9 25 0.09
1 33 0.12 12 58 0.21
2 48 0.17 17 106 0.38
3 63 0.23 23 169 0.61
4 54 0.20 20 223 0.81
5 27 0.10 10 250 0.91
6 12 0.04 4 262 0.95
7 9 0.03 3 271 0.98
8 4 0.02 2 275 1.00
Cuadro 3: Número de Partos Correspondientes a un Grupo de 275 Vacas. Fuente: Anuario Agrı́cola, año 1974.
- El número de clases, 9 en nuestro ejemplo, es independiente del tamaño de la muestra (n = 275).

- Se ha agregado a la tabla columnas adicionales, que permiten un mejor análisis del resultado.
- El cuadro de ha titulado de manera que refleje sucintamente su contenido.
- Es aconsejable agregar la fuente de los datos, lo que permite al lector aclarar y ubicar mayores antecedentes
sobre la materia.
- Conviene, según el caso, indicar claramente las unidades en que se presentan los datos.
- Cuando la variable en estudio toma muchos valores diferentes, puede, con cierta perdida de precisión, tratarse
como a una variable continua, formando intervalos de clase.
- Cabe destacar que la formación de un cuadro de frecuencias correspondientes al caso de variables discretas
no implica perdida de información.
- En general, las frecuencias acumuladas se suman en sentido creciente de la variable, sin embargo, para ciertos
análisis se procede también en sentido inverso.
En forma abreviada el significado de las columnas de la tabla 2.4 es el siguiente:
- Frecuencias absolutas (nj ): corresponde al número de veces que se repite un determinado valor de la variable.
En general debe cumplirse:
0 ≤ nj ≤ n
7
m
X
nj = n1 + n2 + . . . + nm = N
j=1
donde m es el número de valores que toma la variable en estudio y N es el total de observaciones consi-
deradas en el estudio.
- Frecuencia Relativa (fj ): se obtiene como cuociente entre la frecuencia absoluta correspondiente y la frecuencia
total. Es decir se deben cumplir las siguientes propiedades:
nj
fj =
N
0 ≤ fj ≤ 1
m
X
fj = f1 + f2 + . . . + fm = 1
j=1
- Porcentaje ( %): es la frecuencia relativa multiplicada por 100.

- Frecuencia absoluta acumulada (Nj ): es la suma de las frecuencias de la clase mas la de las anteriores a ella. Es
decir, es el número de observaciones menores o iguales a un determinado valor de la variable. En general
para la frecuencia absoluta acumulada correspondiente a la clase j se puede escribir:
j
X
Nj = n1 + n2 + . . . + nj = ni
i=1
- Frecuencias relativas acumuladas de una clase (Fj ):es la frecuencia absoluta acumulada de la clase dividida
por la frecuencia total. O bien, es la suma de la frecuencia relativa de la clase mas las de las que la
preceden. Es decir:
Xj
Fj = f1 + f2 + . . . + fj = fi .
i=1
2.2.4. Gráfico de variables cuantitativas discretas

Los principales gráficos a usar en este caso son el diagrama de frecuencias simples y el gráfico de frecuencias
acumuladas.
La figura 3 presenta el gráfico de frecuencias absolutas para los datos de la tabla 3.
60
50
Frecuencia Absoluta
40
30
20
10
0 2 4 6 8
Número de Partos
Figura 3: Gráfico de frecuencias relativas para la tabla 3.
La figura 4 presenta el gráfico de frecuencias acumuladas u ojiva para los datos de la tabla 3.
Otra representación usada comúnmente es la llamada gráfico de tallo y hoja, a seguir se muestra este
diagrama para la variable edad de los datos de la tabla 1.
8
250
Frecuencia Acumulada
200
150
100
50
0 2 4 6 8
Número de Partos
Figura 4: Gráfico de frecuencias Acumuladas para la tabla 4
1 | 2: represents 12
leaf unit: 1
n: 50
5 2* | 11234
8 2. | 788
14 3* | 123444
19 3. | 55668
(8) 4* | 12233334
23 4. | 566689
17 5* | 011124
11 5. | 5777788
4 6* | 223
1 6. | 6
En este caso, por ahora vamos a ignorar la primera columna y considerar las restantes, por ejemplo, para la
primera fila, el sı́mbolo 2∗ |11234 significa que entre en los datos hay dos personas de 21 años, una persona de
22 años, otra de 23 años y una última persona de 24 años.
La primera parte antes del sı́mbolo | corresponde al tallo; que en este caso ha sido dividido en dos partes,
la primera con número siguiente, conocido como hoja desde 0 a 4 (simbolizada con *) y la segunda de 5 a 9
(simbolizada con .).
Este diagrama permite tener una idea de la forma de la distribución de los datos y analizar la existencia de
valores atı́picos (outliers).
Otro gráfico usado con frecuencia es el diagrama de cajas (box-plot), a modo de ilustración la figura 5
presenta el diagrama de cajas para la variable edad de los datos de la tabla 1. Este diagrama será analizado con
mayor detalle más adelante.
2.2.5. Tabulación de variables continuas

La tabulación de datos correspondientes a variables continuas da origen a una tabla de frecuencia similar a
la correspondiente a los datos discretos. La diferencia fundamental radica en que las clases son reemplazadas
por intervalos de clase, debido a que en caso contrario podrı́amos tener una gran cantidad de valores distintos
para la variable en estudio y no justificarse su tabulación, de acuerdo al método empleado con anterioridad.
A modo de ejemplo considérese el consumo diario de agua en m3 /seg correspondiente al mes de junio de
una industria particular:
1.22-1.03-1.03-1.07-1.03-1.03-1.12-1.22-1.12-1.03-0.98-0.89-0.76-0.72-0.72-0.51-1.17-0.85-0.72- 0.61-0.65-0.69-
0.76-0.93-0.93-0.80-0.93-0.93-0.76-1.17.
9
60
50
Edad
40
30
20
Figura 5: Diagrama de cajas para la variable edad de la tabla 1
A objeto de establecer el número m de clases que conviene considerar para la tabulación es conveniente
calcular el “ recorrido de la variable”, es decir, la diferencia entre el mayor y menor de los datos observados. O
sea:
L = xmax. − xmin. = 1,22 − 0,51 = 0,71

A objeto que los lı́mites de los intervalos de clase sean números sencillos , en la práctica se amplia levemente
el recorrido L de la muestra. Como también se acostumbra a trabajar con intervalos de igual “amplitud”(en
algunos casos no obstante puede justificarse el uso de intervalos con amplitud desigual).
La amplitud de los intervalos de clase estará relacionada con el número m de intervalos de clase a considerar.
La práctica recomienda que el número de intervalos de clase no sea inferior a 4 ni superior a 15, a objeto de no
perder las ventajas de la tabulación y, por otra parte, no introducir errores adicionales en el análisis posterior
de los datos.
Para el ejemplo considerado anteriormente, dada la poca variabilidad de los datos, si se consideran 4 intervalos
de clase (IC), ellos quedarı́an identificados, por los lı́mites inferior y superior mostrados en la tabla 4.
Intervalos de Clase Marcas de Clase (mi )

(0.50-0.70] 0.60
(0.70-0.90] 0.80
(0.90-1.10] 1.00
(1.10-1.30] 1.20
Cuadro 4: Consumo diario de Agua
Las marcas de clase m1 , . . . , m4 permiten caracterizar a los intervalos de clase y corresponden a los puntos
medios o, semi suma de los lı́mites superior e inferior respectivos. En la práctica, debido a cálculos posteriores
que se harán a partir de las tablas de frecuencia para variables continuas, es conveniente que las marcas de clase
sena números sencillos.
La tabulación de los datos recogidos da origen a la tabla 5.
A modo de ejemplo a seguir son dadas algunas interpretaciones de la tabla 2.5.
- La frecuencia n3 = 11 nos dice que de los 30 dı́as del mes, en 11 dı́as el consumo fue mayor que 0.9 y a lo
más de 1.1 m3 /seg.
- La frecuencia n1 = 4 nos dice que 4 dı́as el consumo de agua fue mayor que 0.50 y a lo más de 0.7 m3 /seg.
10
Intervalos de Clase Marcas de Clase Frec. Frec. Frec. Abs. Frec. Rel.
(mi ) Absoluta Relativa Acumulada Acumulada
(ni ) (fi ) (Ni ) (Fi )
(0.50-0.70] 0.60 4 0.13 4 0.13
(0.70-0.90] 0.80 9 0.30 13 0.43
(0.90-1.10] 1.00 11 0.37 24 0.80
(1.10-1.30] 1.20 6 0.20 30 1.00
Total 30 1.00
Cuadro 5: Consumo diario de Agua
- f2 = 0,30, nos dice que el 30 % de los dı́as el consumo de agua fue mayor que 0.7 y a lo más de 0.9 m3 /seg.
- N3 = 24 nos dice que 24 dı́as el consumo de agua fue mayor que 0.50 y a lo más de 1.1 m3 /seg.
- F2 = 0,43 nos dice que el 43 % de los dı́as el consumo de agua fue a lo más de 0.9 m3 /seg.
Una regla usada con frecuencia para determinar el número de intervalos es la regla de Sturges, definida por:
Número de Intervalos : k = 1 + 3, 3 ln(n)

donde n es el tamaño de la muestra. √
Otros autores consideran que una buena aproximación para la cantidad de intervalos es dada por m = n.
Cabe destacar que al efectuar la concentración de los datos originales para construir la tabla de frecuencias,
se produce una perdida de información. Por consiguiente, si sólo se dispone de la información dada por la tabla
de frecuencia, no será posible reconstruir los datos originales.
Ejemplo: Agrupar los datos siguientes que corresponden al rendimiento anual, en tanto por ciento, cor-
regidos por el nivel de inflación de una empresa.
-3.2 17.4 -13.4 -9.9 20.4 15.1
2.7 -1.6 41.0 20.8 6.1 -21.8
20.9 53.4 10.3 15.1 -13.8 -34.8
24.6 31.1 -1.0 10.3 -1.5 28.3
17.2 3.6 26.0 -13.0 10.6 18.2
11
2.2.6. Gráfico de Variables Continuas
El gráfico principal de variables continuas es el histograma. El histograma es el gráfico estadı́stico por
excelencia. El histograma de un conjunto de datos es un gráfico de barras que representan las frecuencias con
que aparecen las mediciones agrupadas en ciertos rangos e intervalos. Un histograma es construido a partir de
los datos tabulados.
Los pasos para construir un histograma son:
1. Defina los intervalos o clases de igual longitud.

2. Cuente el número de observaciones que caen en cada clase o intervalo.
3. Calcule las frecuencias relativas.
4. Grafique los rectángulos cuyas alturas son proporcionales a las frecuencias relativas.
Realizar histogramas de esta manera tiene las siguientes ventajas:
1. Es útil para apreciar la forma de la distribución de los datos, si se escoge adecuadamente el número de
clases y su amplitud.
2. Se puede presentar como un gráfico definitivo en un reporte.
3. Se puede utilizar para comparar dos o más muestras o poblaciones.
Las desventajas son:
1. Las observaciones individuales se pierden.

2. La selección del número de clases y su amplitud que adecuadamente representen la distribución puede
ser complicado. Un histograma con muy pocas clases agrupa demasiadas observaciones y uno con muchas
deja muy pocas en cada clase. Ninguno de los dos extremos es adecuado.
Debido a que nuestros ojos responden al área de las barras, es importante mantener la anchura de las barras
iguales. Si estamos enfrentados a un problema donde los intervalos tienen diferente amplitud, por ejemplo cuando
obtenemos datos agrupados desde la fuente, se usa la siguiente formula:
Frecuencia Relativa
Altura del rectangulo =
Amplitud del intervalo
Observación: Los programas de computador usualmente ajustan los histogramas automáticamente, pero
el programa debe permitirnos variar el histograma. Si usted posee un programa que no le permite hacer cambios,
cambie de programa.
La figura 6 presenta el histograma para los datos de la tabla 5.
Ejercicio: Dibujar el histograma para los datos de la tabla ??.
El histograma es de mucha utilidad para estudiar si los datos pueden ser aproximados por una distribución
normal. La distribución normal es la más usada en estadı́stica clásica por muchas razones entre las que se
cuentan:
1. La distribución de muchas variables es aproximadamente normal.

2. Para medidas que no tienen distribución normal, una transformación simple de la escala de medición,
puede inducir normalidad aproximada. Las transformaciones raı́z cuadrada y logaritmo son usadas con
frecuencia.
3. La distribución normal es de uso relativamente sencillo.
4. Si la distribución de origen de la población original esta lejos de la distribución normal, la media x tiende
a tener una distribución normal bajo muestreo, cuando el tamaño de muestra aumenta. Esta propiedad
es conocida como teorema central del lı́mite.
12
Histograma para los datos de la tabla
12
10
Frecuencias
8
6
4
2
0
0.6 0.8 1.0 1.2
Marcas de clase
Figura 6: Histograma para los datos de la tabla 6
Distribución normal
0.4
0.3
0.2
fx
0.1
0.0
−4 −2 0 2 4
Figura 7: Distribución normal
La distribución normal es completamente determinada por su media µ y su varianza σ 2 , la altura f (x) en

el valor x es dada por la siguiente función:

1 −(x − µ)2
f (x) = √ exp
2πσ 2 2σ 2
La figura 7 presenta el gráfico de f (x).
La figura 9 presenta el histograma de f (x) para distintos tamaños muestrales.
13
A. Histograma 10 observaciones B. Histograma 50 observaciones
12
5
10
4
Frecuencia
8
3
Frecuencia
6
2
4
1
2
0
0
−1.0 −0.5 0.0 0.5 1.0
−2 −1 0 1 2
ruido10 ruido50
C. Histograma 500 observaciones D. Histograma 1000 observaciones

100
150
80
60
Frecuencia
Frecuencia
100
40
50
20
0
−2 0 2 4 −3 −2 −1 0 1 2 3
ruido500 ruido1000
Figura 8: Histograma de la distribución normal para distintos tamaños de muestra.
Otro gráfico usado con frecuencia para las variables cuantitativas continuas es la distribución de frecuencias
acumuladas, que fue presentado anteriormente.
Otro gráfico agregado al histograma es el polı́gono de frecuencias, que se construye uniendo con segmentos
de recta los puntos medios (marcas de clase) de los intervalos adyacentes.
3. Estadı́grafos de Posición central y de Variabilidad

Hasta aquı́ nos hemos preocupado de la descripción de un conjunto de observaciones, ya sea graficamente
o por medio de una distribución de frecuencias. Sin embargo, en muchos casos, en vez de trabajar con todas
las observaciones es preferible disponer de una o más medidas descriptivas que resuman los datos en forma
cuantitativa. Tales medidas reciben el nombre de Estadı́sticas o Estadı́grafos cuyos valores son obtenidos a
través de los datos.
Estas medidas descriptivas se dividen en tres categorı́as:
Medidas de Tendencia Central y Posición: Moda, media, Mediana, Percentiles.

Medidas de Dispersión: Rango, Rango intercuartı́lico, Varianza, Desviación Estándar, Coeficiente de
Variación.
Medidas de Forma: Coeficiente de Asimetrı́a, Coeficiente de Kurtosis.
14
Figura 9: Histograma de la distribución normal para distintos tamaños de muestra.
3.1. Medidas de Tendencia Central y Posición

Las medidas de tendencia central, como su nombre lo indica, nos describen el centro de la información. La
más conocida es el Promedio, Media o Media Aritmética.
3.1.1. La Moda (Mo )

Es aquel valor de la variable en estudio, que más se repite o que tiene mayor frecuencia. Por ejemplo, para
la variable edad de los datos de los trabajadores la moda es 43 años, que corresponde al valor que aparece con
mayor frecuencia, y para la variable número de dı́as de licencia la moda es 1.
Para datos agrupados lo que se obtiene es un intervalo modal, que es el intervalo con la mayor frecuencia
absoluta, ası́ en el caso de datos agrupados la moda es una aproximación. Una aproximación usada frecuente-
mente es considerar la marca de clase de este intervalo (valor central del intervalo), pero en la mayorı́a de los
libros de textos la moda en aproximada de la siguiente manera.

(ni − ni−1 )
Mo = Lim Infi + × Ai
(ni − ni−1 ) + (ni − ni+1 )
donde
Lim Infi es el lı́mite o cota inferior del intervalo modal,

ni es la frecuencia absoluta del intervalo moda,
ni−1 es la frecuencia absoluta del intervalo anterior al intervalo modal,
ni+1 es la frecuencia absoluta del intervalo siguiente al intervalo modal,
Ai es la amplitud del intervalo modal.
A modo de ilustración, suponga que se tienen las notas de 20 alumnos de un curso, estas son:
6, 2 − 4, 8 − 3, 8 − 4, 6 − 4, 4
5, 7 − 6, 4 − 5, 4 − 6, 3 − 4, 8
4, 9 − 3, 1 − 3, 8 − 5, 5 − 5, 1
15
6, 8 − 4, 7 − 5, 5 − 7, 0 − 4, 2
La tabla siguiente muestra una tabulación posible para los datos:
Nota ni fi Ni Fi mi
3,10-3,88 3 0,15 3 0,15 3,49
3,88-4,66 3 0,15 6 0,30 4,27
4,66-5,44 6 0,30 12 0,60 5,05
5,44-6,22 4 0,20 16 0,80 5,83
6,22-7 4 0,20 20 1 6,61
Total 20 1
La moda para este caso puede ser:
5,05 si la consideramos como la marca de clase con mayor frecuencia relativa.

(6 − 3)
Mo = 4, 66 + × o, 78 = 5, 128
(6 − 3) + (6 − 4)
La interpretación en este caso es que la moda corresponde a la nota que aparece con mayor frecuencia.
Una observación importante es que la moda puede no existir.
Considere los siguientes datos recopilados a 8 estudiantes sobre la cantidad de hijos en su grupo familiar:
1, 2, 2, 3, 3, 4, 4
Como se aprecia, bajo la definición de moda, en este caso, no existe moda. Además puede ocurrir que exista
más de una moda, y en estos casos se hablara de multimodalidad.
3.1.2. El Promedio, Media o Media Aritmética (X)

Es la medida de tendencia central más conocida, la que es calculada sumando todos los valores de la variable
en estudio y dividiendo por el total de datos.
Formalmente, si x1 , x2 , . . . , xn son los valores observados de una variable X, entonces el promedio se expresa
matemáticamente por
n
X
xi
i=1
X=
n
Por ejemplo, para la variable edad de los datos de los trabajadores la media es 43,08 años, y para la variable
número de dı́as de licencia la media es 6,68.
En muchos textos, el promedio es interpretado como un punto de equilibrio o un centro de gravedad.
Cuando sólo se dispone de los datos agrupados o tabulados, podemos pensar en la marca de clase como un
representante de cada intervalos, de modo que:
m
X
m i × ni
i=1
X=
n
donde m es la cantidad de intervalos.
Para las notas la media es:
3, 49(3) + 4, 27(3) + 5, 05(6) + 5, 83(4) + 6, 61(4) 103, 34

X= = = 5, 167
20 20
En este caso, decimos que la nota promedio del curso es aproximadamente 5,1.
16
3.1.3. La mediana (Me )
Es aquel valor de la variable que ocupa la posición central cuando los datos están ordenados de menor a
mayor. En forma técnica se define como aquel valor de la caracterı́stica en estudio que deja bajo si al 50 % de
la información.
Sean x1 , x2 , . . . , xn los valores observados de una variable X. Generalmente los datos vienen desordenados,
ası́ que lo primero que se debe realizar es ordenarlos de menor a mayor, digamos min = x(1) ≤ x(2) ≤ . . . ≤
x(n)=max . Entonces la mediana se define como:

 x((n+1)/2) ,
 si n es impar;
Me =
 x(n/2) + x(n/2+1) , si n es par.

2
Imagine que la información observada es 6, 3, 8, 5 y 3.
Ordenando la información de menor a mayor queda 3, 3, 5, 6 y 8.
n+1 5+1
Como la cantidad de datos es impar debemos encontrar aquel dato que ocupa la posición 2 = 2 = 3,
que corresponde al valor 5, por lo tanto la Me = 5.
Ahora considere la siguiente información: 9,6,7,9,10 y 8.
Ordenando los datos de menor a mayor queda: 6, 7, 8, 9, 9 y 10.
n 6
Como la cantidad de datos es par debemos encontrar los datos que ocupan las posiciones 2 = 2 = 3 y
n
2 + 1 = 62 + 1 = 4, que corresponden a los datos 8 y 9, ası́ la Me = 8+9
2 = 8, 5.
En el caso de datos agrupados en intervalos, la mediana será calculada usando el siguiente algoritmo:
1. Determinar la posición que le corresponde a la mediana como:
50 n
P osicion = n × =
100 2
2. Determinar en que intervalo cae la mediana, comparando la posición obtenida en i) y la columna de
las frecuencias absolutas acumuladas, la mediana está en el intervalo que primero tiene una frecuencia
absoluta acumulada mayor o igual a n/2.
3. La mediana se calcula como:
n A
i
Me = lim Infi + − Ni−1 ×
2 ni
donde lim Infi es el lı́mite o cota inferior del intervalo en que esta la mediana (obtenido en ii); Ai es
la amplitud del intervalo en que esta la mediana; ni es la frecuencia absoluta del intervalo en que esta
la mediana y Ni−1 es la frecuencia absoluta acumulada del intervalo anterior al intervalo en que esta la
mediana.
Para aprender a aplicar el algoritmo anterior, se verá con detalles en el ejemplo de las notas de los 20
alumnos. En el paso i). Se tiene que la posición que le corresponde a la mediana es el 10. En el paso ii) se
aprecia que la posición 10 cae en el tercer intervalo, por lo tanto la mediana es:
0, 78
Me = 4, 66 + (10 − 6) × = 5, 18.
6
17
3.1.4. Los percentiles
Son cantidades que tiene la caracterı́stica de acumular información hasta ellos. Para aclarar ideas, imagine
que la información la dividimos en 100 partes iguales, donde cada una de las partes corresponde a un 1 % de la
información.
En este contexto P1 es aquel valor de la variable que tiene acumulado el 1 % de la información, P2 es aquel
valor de la variable que tiene acumulado el 2 % de la información, ... y P99 es aquel valor de la variable que
tiene acumulado el 99 % de la información. Con esto, se define el percentil α % (Pα ) como aquel valor de la
variable en estudio que deja bajo si al α % de la información. Para calcular Pα se debe realizar el siguiente
procedimiento:
1. Ordenar los datos del más pequeño al más grande
α
2. Calcular n × 100 .
α
3. Si en el paso 2 se obtiene un entero, digamos, n × 100 = k. Entonces el percentil α % es el promedio de
los datos que ocupan la posición k y la posición k + 1.
α
Si en el paso 2 se obtiene un número con decimales, digamos n × 100 = k decimal. Entonces el percentil
α % es el dato que ocupa la posición k + 1.
En un estudio realizado a 10 familias, se obtuvo el ingreso bruto mensual (expresado en salarios mı́nimos):
12,16,18,20,28,30,40,48,50 y 54. Se quiere encontrar el ingreso mı́nimo del 30 % de los ingresos más altos.
70
Por lo tanto, se debe calcular el percentil 70 %. Como los datos ya están ordenados se calcula n × 100 =
70
10 × 100 = 7. Como nos da un valor entero, debemos promediar los datos que ocupan las posiciones 7 y 8, es
decir, P70 = 40+48
2 = 44. Por lo tanto, el ingreso mı́nimo del 30 % de los ingresos más altos es de 44 sueldos
mı́nimos, o dicho de otra forma, el 70 % de las personas gana menos de 44 sueldos mı́nimos.
En el caso de datos agrupados en intervalos, eñ percentil α % es calculado usando el siguiente algoritmo:
α
1. Determinar la posición que le corresponde al percentil α % P osicion = n × 100
2. Determinar en que intervalo cae el percentil α %, comparando la posición obtenida en i) y la columna de

las frecuencias absolutas acumuladas, el percentil buscado esta en el intervalo que por primera vez tiene
una frecuencia absoluta acumulada mayor o igual que la posición que le corresponde al percentil.
3. El percentil α % es calculado por:
α A
i
Pα = lim Infi + n × − Ni−1 × ,
100 ni
donde lim Infi es el lı́mite o cota inferior del intervalo en que esta el percentil α % (obtenido en ii)); Ai es
la amplitud del intervalo en que esta el percentil α %; ni es la frecuencia absoluta del intervalo en que esta
el percentil α % y Ni−1 es la frecuencia absoluta acumulada del intervalo anterior al intervalo en que esta el
percentil α %.
Para aprender a aplicar el algoritmo anterior, se verá con detalles en el ejemplo de las notas de los 20
alumnos. Imagine que se quiere calcular la nota mı́nima del 40 % de las mejores notas, esto es buscamos P60 .
Ası́ al aplicar el algoritmo anterior se tiene que en el paso i), la posición que le corresponde al percentil 60 % es
12.
En el paso ii) recorremos la tabla de frecuencias, como se aprecia, la posición 12 cae en el tercer intervalo,
por lo tanto el percentil 60 % es:
0, 78
P60 = 4, 66 + (12 − 6) × = 5, 44.
6
Por lo tanto la nota mı́nima del 40 % de las mejores notas es 5,44, o dicho de otra manera, el 60 % de las
notas es menor que 5,44.
Se deja al lector, investigar que son los cuartiles, deciles y quintiles.
18
3.2. Medidas de dispersión o de variabilidad
Las medidas de dispersión o de variabilidad, como su nombre lo indica, son cantidades que describen cuan
cercanos o alejados están los datos, es decir cuan homogéneos o heterogéneos son los datos.
Para determinar cuan separado está el conjunto de datos, las medidas de dispersión deben estar relacionadas
con la idea de distancia. Porque, a menor distancia, los datos son homogéneos y a mayor distancia los datos son
heterogéneos.
La medida más simple para medir dispersión en el rango R, que ya se ha estudiado. Una de las dificultades
del rango es que depende de los valores extremos y por lo tanto no siempre refleja adecuadamente la dispersión
existente en los datos ya que tiene a sobre estimarla. Para evitar lo anterior se utiliza el rango intercuartı́lico
(RI) que el rango del 50 % central de los datos, es decir, es la distancia entre P75 y P25 .
Por lo tanto, el rango intercuartı́lico es calculado por:
RI = P75 − P25 .
Ası́, en el ejemplo de las notas de los 20 alumnos, el rango intercuartı́lico es 1,63 y el rango es 3,9.
Otra medida de dispersión es la varianza (S 2 ), que mide la heterogeneidad de los datos considerando un
punto de referencia que es el promedio.
Sean x1 , x2 , . . . , xn los valores observados de una variable X. La varianza se define como:

n
1 X
S2 = (xi − X)2
n − 1 i=1
Esta cantidad se puede calcular como:
n
! n
!
n X x2 1 X
2 i 2
S = − (X) = x2i − n(X) 2
,
n−1 i=1
n n−1 i=1
Pn x2i
donde i=1 n es el promedio de los cuadrados.
Para aclarar ideas considere los siguientes datos:
1,3,5,6, y 10.
El promedio de estos datos es :

1 + 3 + 5 + 6 + 10
X= = 5,
5
y el promedio de los cuadrados es:
5
X x2 i 12 + 32 + 52 + 62 + 102
= = 34, 4.
i=1
5 5
Por lo tanto la varianza es :

5
S2 =
34, 2 − (5)2 = 11, 5.
4
En el caso de datos agrupados en intervalos la varianza es:
n m
!
X ni × (mi − X)2 n X ni × m2 i
S2 = = − (X)2 ,
i=1
n−1 n−1 i=1
n
donde m es la cantidad de intervalos y mi es la marca de clase del i-ésimo intervalo.
19
En el ejemplo de las notas de los 20 alumnos:
La nota promedio y el promedio de los cuadrados son: X = 5, 167 y
5
X ni × m2 i 3 × 3, 492 + 3 × 4, 272 + 6 × 5, 052 + 4 × 5, 832 + 4 × 6, 612
= = 27, 7489
i=1
20 20
Entonces la varianza es:
20
S2 = 27, 7489 − (5, 167)2 = 1, 10633.
19
Uno de los problemas de la varianza es que si la variable en estudio es la estatura y la unidad de medida
es el metro, entonces, la unidad de medida de la varianza es (metro)2 , si la variable en estudio es el peso y la
unidad de medida es kilogramo, entonces, la unidad de medida de la varianza es (kilogramo)2 . Para evitar esta
dificultad se inventa la desviación
√ estándar o desviación tı́pica, la que se define como la raı́z cuadrada de
la varianza, es decir, S = S 2 .
Como se aprecia, la unidad de medida de la desviación estándar es la unidad de medida de la variable en

estudio.
√
En el ejemplo de las notas de los 20 alumnos, la desviación estándar es S = 1, 10633 = 1, 0518.
Una de las grandes dificultades de las medidas de dispersión, que hasta el momento se han estudiado, es que
dependen de la unidad de medida de la variable en estudio. Debido a esta dificultad, se inventa el coeficiente
de variación.
S
El coeficiente de variación se define como CV = .
X
Como se aprecia, esta medida de dispersión es adimensional y si multiplicamos 100 por el coeficiente de
variación, tenemos el porcentaje de variabilidad, es decir, CV × 100 %. Algunos autores, proponen la siguiente
clasificación para determinar si los datos son homogéneos o heterogéneos:
1. Si CV × 100 % ≤ 5 % los datos son muy homogéneos.
2. Si 5 % < CV × 100 % ≤ 25 % los datos son homogéneos.
3. Si 25 % < CV × 100 % ≤ 50 % los datos son heterogéneos.
4. Si CV × 100 % > 50 % los datos son muy heterogéneos.
En el ejemplo de las notas de los 20 alumnos, el coeficiente de variación es CV = 1,0518 5,167 = 0, 2036, el
porcentaje de dispersión es de un 20,36 %. Según la clasificación anterior se concluye que las notas de los 20
alumnos son homogéneas.
3.3. Transformación Lineal

Existen situaciones donde las cantidades calculadas no son las que se utilizan. Considere la siguiente situación:
“ Usted realiza un estudio sobre el calentamiento global, utilizando como unidad de medida grados Celcius.
Ahora, un importante investigador lo invita con todos los gastos pagados a Estados Unidos, para que en un
congreso internacional, que trata sobre el calentamiento global, usted exponga los resultados obtenidos en su
trabajo. Lamentablemente, como se puede dar cuenta, en Estados Unidos se utilizan grados Fahrenheit, lo que
implicarı́a rehacer todo el trabajo...”
A continuación se entregan resultados, cuando se realiza una transformación lineal a los datos.
Sean x1 , x2 , . . . , xn , las observaciones de una variable X, la pregunta es, ¿Qué pasa con las cantidades
calculadas, si a los datos, se les multiplica por una constante y luego se les suma otra?, es decir, xi , se transforma
en a × xi + b (con a 6= 0) en todas las observaciones.
Por ejemplo, se estudian las temperaturas de 20 alumnos de la universidad, los resultados son resumidos en
la siguiente tabla de frecuencias:
20
Estatura Marca de ni
(cm) Clase
[161 − 166) 163,5 2
[166 − 171) 168,5 5
[171 − 176) 173,5 6
[176 − 181) 178,5 2
[181 − 186) 183,5 5
Total 20
La media, mediana, varianza y el coeficiente de variación son mostrados en la siguiente tabla:
Promedio X = 174, 25 cm
Percentil 50 P5 0 = 173, 5cm
Varianza S 2 = 45, 46cm2
Desviación Estándar S = 6, 74 cm
Coeficiente de CV = 0, 0387
variación
A estos alumnos se les dará un golpe vitamı́nico, que se sabe que aumenta en un 1 % (a = 1, 01) sus estaturas,
más 3 centı́metros (b = 3). La pregunta es, ¿Qué pasa con el promedio, mediana, varianza, desviación estándar
y coeficiente de variación de las nuevas estaturas?
El siguiente cuadro, resume el cambio de los indicadores, si las observaciones sufren una transformación
lineal de la forma yi = axi + b.
Indicador Inicial Modificado

Promedio X a×X +b
Moda Mo a × Mo + b
Percentil α % Pα a × Pα + b
Varianza S2 a2 × S 2
Desviación Estándar S |a| × S
S |a| × S
CV CV = X
CV =
|a × X + b|
Al aplicar estos resultados al problema planteado anteriormente, se tiene que:
Indicador Inicial Modificado

Promedio X = 174, 25 a × X + b = 178, 99
Percentil α % P50 = 173, 5 a × Pα + b = 178, 235
Varianza S 2 = 45, 4276 a2 × S 2 = 46, 34
Desviación Estándar S = 6, 74 |a| × S = 6, 8074
6,74 |a| × S
CV CV = 174,25 = 0, 0387 CV = = 0, 0380
|a × X + b|
Algunas transformaciones útiles ocurren cuando corresponde aumentar o disminuir un ingreso en un por-
centaje p, más un valor fijo b, lo que equivale a transformar xi por (1 ± p/100 × xi + b), por ejemplo al aumentar
un ingreso en un 25 % y sumarle 30000 por concepto de locomoción mensualmente, equivale a transformar xi
por (1 + 25/100) × xi + 30000 = 1, 25 × xi + 30000.
Otro ejemplo es cuando se disminuye un ingreso en un 10 % por ajuste y quitarle 6000 para fiestas de navidad
mensualmente, lo que equivale a transformar xi por:
(1 − 10/100) × xi − 6000 = 0, 9 × xi − 6000.
21

Descriptiva 1

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Descriptiva 1

Cargado por

Copyright:

Formatos disponibles

Estadı́stica Descriptiva

La necesidad de disponer de información en cantidad y calidad suficiente, y con la oportunidad debida, se

Cuadro 1: Accidentes de trabajo. Elaboración propia

2.2. Tabulación y gráfico de los Datos.

2.2.1. Tabulación de variables cualitativas

Lesión Frecuencia Frecuencia Porcentaje

Cuadro 2: Tabla de la variable cualitativa lesión

2.2.2. Gráficos de variables cualitativas

Cabeza Extremidades Tronco

Figura 1: Gráfico de barras para la variable lesión de la tabla 2.

El número de grados del circulo asignados a cada atributo es definido por:

(Frecuencia Relativa del atributo) ∗ 3600 .

2.2.3. Variables Cuantitativas Discretas.

- Al hacer la tabulación de han ordenado los valores de la variable yi de menor a mayor 0, 1, 2, . . . , 8

Figura 2: Gráfico circular para la variable lesión de la tabla 2

Clase Frecuencia Frecuencia Porcentaje Frecuencia Frecuencia

- El número de clases, 9 en nuestro ejemplo, es independiente del tamaño de la muestra (n = 275).

En forma abreviada el significado de las columnas de la tabla 2.4 es el siguiente:

- Porcentaje ( %): es la frecuencia relativa multiplicada por 100.

2.2.4. Gráfico de variables cuantitativas discretas

Figura 3: Gráfico de frecuencias relativas para la tabla 3.

Figura 4: Gráfico de frecuencias Acumuladas para la tabla 4

2.2.5. Tabulación de variables continuas

Figura 5: Diagrama de cajas para la variable edad de la tabla 1

L = xmax. − xmin. = 1,22 − 0,51 = 0,71

Intervalos de Clase Marcas de Clase (mi )

Cuadro 4: Consumo diario de Agua

A modo de ejemplo a seguir son dadas algunas interpretaciones de la tabla 2.5.

Cuadro 5: Consumo diario de Agua

Número de Intervalos : k = 1 + 3, 3 ln(n)

1. Defina los intervalos o clases de igual longitud.

Realizar histogramas de esta manera tiene las siguientes ventajas:

Las desventajas son:

1. Las observaciones individuales se pierden.

1. La distribución de muchas variables es aproximadamente normal.

Figura 6: Histograma para los datos de la tabla 6

Figura 7: Distribución normal

La distribución normal es completamente determinada por su media µ y su varianza σ 2 , la altura f (x) en

C. Histograma 500 observaciones D. Histograma 1000 observaciones

Figura 8: Histograma de la distribución normal para distintos tamaños de muestra.

3. Estadı́grafos de Posición central y de Variabilidad

Medidas de Tendencia Central y Posición: Moda, media, Mediana, Percentiles.

3.1. Medidas de Tendencia Central y Posición

3.1.1. La Moda (Mo )

Lim Infi es el lı́mite o cota inferior del intervalo modal,

La moda para este caso puede ser:

5,05 si la consideramos como la marca de clase con mayor frecuencia relativa.

3.1.2. El Promedio, Media o Media Aritmética (X)

En muchos textos, el promedio es interpretado como un punto de equilibrio o un centro de gravedad.

3, 49(3) + 4, 27(3) + 5, 05(6) + 5, 83(4) + 6, 61(4) 103, 34

Ordenando la información de menor a mayor queda 3, 3, 5, 6 y 8.

Ahora considere la siguiente información: 9,6,7,9,10 y 8.

Ordenando los datos de menor a mayor queda: 6, 7, 8, 9, 9 y 10.

1. Determinar la posición que le corresponde a la mediana como:

2. Determinar en que intervalo cae el percentil α %, comparando la posición obtenida en i) y la columna de

Sean x1 , x2 , . . . , xn los valores observados de una variable X. La varianza se define como:

Para aclarar ideas considere los siguientes datos:

El promedio de estos datos es :

Por lo tanto la varianza es :

Como se aprecia, la unidad de medida de la desviación estándar es la unidad de medida de la variable en

3.3. Transformación Lineal

La media, mediana, varianza y el coeficiente de variación son mostrados en la siguiente tabla:

Indicador Inicial Modificado