Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Cuando se realiza la recopilación de antecedentes con fines estadísticos, se obtiene una gran cantidad de
datos, algunas veces éstos en su forma natural o empírica (fuentes primarias) y otras ya están organizadas
en tablas o cuadros y gráficos (fuentes secundarias).
Los datos pueden estar incompletos, incorrectos, desordenados, pero en todos los casos constituyen los
datos básicos (BASE DE DATOS) para iniciar un estudio, conocer y analizar el comportamiento y las
características de los elementos de la población.
En el trabajo estadístico, siempre se dispone de muchos datos que, definitivamente tienen que ser
clasificados, ordenados y presentados adecuadamente, de tal manera que facilite la comprensión,
descripción y análisis del fenómeno estudiado y obtener conclusiones válidas para la toma de decisiones.
Problema: Supongamos que interesa analizar las características socio económicas de la mano de obra
ocupada en la industria textil:
En primer lugar, se debe conseguir una lista completa de las fábricas o empresas textiles; con
esta lista es fácil conocer o averiguar el número de trabajadores en cada empresa; de este
modo queda determinada la fuente de datos (empresas textiles), identificada las unidades de
análisis (trabajadores) y el tamaño de la población.
En segundo lugar, se definen las variables y se construye el cuestionario, luego mediante una
encuesta o un formulario se recopila los datos que interesa sobre las características socio
económico (variables) de cada trabajador.
Como resultado de esta recopilación (Etapa de Recolección), se dispone de una cantidad de
datos, registrado en los formularios, cuestionarios, tal como fueron captados, en su forma más
natural y estadísticamente desordenados. Para facilitar el análisis estadístico y la
interpretación de las características socioeconómicas, es necesario organizar los datos.
En general, la ORGANIZACIÓN Y PRESENTACIÓN de los datos estadísticos, supone realizar los siguientes
pasos o fases:
REVISION, EVALUACION Y CRÍTICA DE LOS DATOS
CODIFICACION
CLASIFICACION
PROCESAMIENTO O TABULACION DE DATOS
PRESENTACION DE DATOS
a. Revisar cada una de las respuestas obtenidas en el cuestionario con el fin de que se hayan llenado
todas las preguntas, así como que estas respuestas sean coherentes.
Ejem: Si una persona aparece con 3 años de edad y a la vez se le considera casado, aparece una
incoherencia.
b. Descifrado. La letra del encuestador es a veces difícil de entender y es necesario descifrar
la respuesta.
c. Cálculos. Es recomendable que los encuestadores no efectúen ningún tipo de cálculo, esta tarea la
hacen las personas encargadas de la revisión.
d. Revisión de que las respuestas estén completas. La persona que hace la crítica debe revisar si
faltan o están incompletas algunas respuestas.
2. CODIFICACION:
- Es la etapa en la cual cada dato o respuesta (numérica o verbal) se expresa mediante un número,
símbolo o lenguaje que permita su procesamiento o tabulación electrónica.
- La codificación implica la definición de criterios de clasificación y de categorización de las variables con
miras a formular el plan de tabulaciones.
- Es la fase en la que los datos registrados en los cuestionarios, se transforma, en códigos o claves
- Los códigos o claves pueden ser numéricos, literales o la combinación de ambos. De preferencia se
usan los códigos numéricos.
Confección de Códigos:
a- Cuando el dominio de la variable alcanza un máximo de nueve categorías o clases, se usará un solo
dígito y para el grupo que no responde se usa cero (0).
b- Cuando el dominio de la variable alcanza un número máximo de 99 categorías o clases se usará dos
dígitos (así 01, 02, 03, …., 10,………..,99 ) y para el grupo que no responde se usará dos ceros (00).
3. CLASIFICACION:
- Etapa en la cual se establecen las categorías o clases de las variables (grupos mutuamente
excluyentes), en los que se organizarán los datos recolectados, para su presentación tabular.
- La forma de organización se conoce con el nombre de DISTRIBUCIONES DE FRECUENCIAS.
- Las tablas de distribución de frecuencias son tablas de trabajo estadístico que presentan la
distribución de un conjunto de elementos agrupados o clasificados en las diversas categorías
de la variable.
- En estas tablas, como producto de la operación de tabulación, se observa cuántos elementos
(frecuencia o repetición) hay en cada categoría, valor o intervalo de la variable.
- La tabla de distribución frecuencia constituye la agrupación de elementos que tienen
características comunes. Estas tablas presentan diversos tipos de frecuencia (absolutas,
relativas tanto simples como acumuladas).
- En ellas se observa la frecuencia o repetición de cada uno de los valores de la variable, que se
obtiene después de realizar la operación de tabulación.
- Las tablas de frecuencia también se utilizan para organizar los datos y calcular algunos
indicadores (medidas de resumen).
- En la clasificación de los datos se presentan las siguientes situaciones:
Media
Baja
TOTAL TOTAL
Ejemplos:
En cualquiera de las situaciones, una unidad de análisis (en este caso una persona) sólo podrá
pertenecer a una categoría.
B. Clasificación en Categorías para Variables Cuantitativas:
(Datos medidos a Nivel de Intervalo o de Razón)
En este caso los datos han sido medidos con escala numérica y por lo tanto
la forma de organizarlos es diferente al caso anterior.
Para su organización y posterior análisis, es necesario construir clases
según la variabilidad del recorrido de la variable numérica. Así se tiene:
B.1. Clasificación en Categorías Sin Intervalos.
- Significa que, la variable cuantitativa se agrupa sin utilizar intervalos.
- Esta forma de clasificar se utiliza cuando en el conjunto de datos recolectados, el
recorrido de la variable presenta pocos valores diferentes.
B.2. Clasificación en Categorías Con Intervalos.
- Es decir, variable cuantitativa agrupada con intervalos.
- Se utiliza cuando en el conjunto de datos recolectados, el recorrido de la
variable presenta muchos valores diferentes.
La clasificación se puede hacer en relación:
A una sola variable (clasificación unidimensional), por ejemplo, según la edad, sueldos,
nivel educativo o lugar de nacimiento, etc.
o pueden clasificarse de acuerdo a dos ó más variables o características(clasificación
bidimensional o de doble clasificación, clasificación múltiple) por ejemplo, por edad y
tiempo de servicios; por sueldo y nivel educativo, etc.
4. PROCESAMIENTO O TABULACION DE DATOS:
- Consiste en la contabilización o registro del número de casos (frecuencia o repetición) en
cada una de las categorías de la variable, de acuerdo al plan de tabulación previamente
establecido, el cual es el primer ordenamiento de los datos.
- La tabulación es el proceso de contar o distribuir el número de unidades que le corresponde a
cada clase de la variable de interés. Puede ser:
Tabulación Manual que puede realizarse contando directamente o usando tarjas
(palotes verticales agrupados de 5 en 5 para facilitar el conteo final).
Tabulación mecánica- electrónica usando computadoras para obtener las tablas de
frecuencias.
5. PRESENTACION DE DATOS.
- Los resultados de la tabulación, una vez evaluados, se presentan en forma comprensible y clara en
cuadros o tablas y gráficos, dejándolos listos para su posterior análisis e interpretación.
- La presentación de datos implica tener la información estadística organizada para proceder al
análisis e interpretación de los resultados y de los aspectos considerados de la población en
estudio.
- En el trabajo estadístico, lo que se tiene disponible en un primer momento es el material
numérico, producto de la observación o recopilación de datos, que son categorizados, ordenados,
procesados y presentados en cuadros o gráficos; luego hay un proceso de resumen estadístico que
se concreta en el cálculo de indicadores (medidas de resumen)
- Formas de Presentar ordenadamente los datos estadísticos:
a. En forma tabular, como son los cuadros o tablas estadísticas.
b. Mediante gráficos o diagramas
- Fundamentalmente se usa la forma tabular, complementándose con el uso de gráficos para ilustrar
mediante figuras o diagramas, el comportamiento de las variables; y facilitar la comprensión de los
fenómenos estudiados.
- Ejemplo
Cuadro N° 01. POBLACIÓN ECONÓMICAMENTE ACTIVA DE 15 Y MÁS AÑOS DE LA REGIÓN LORETO POR NIVEL DE
EDUCACIÓN ALCANZADO SEGÚN PROVINCIAS. CENSO DE POBLACIÓN DE 2019. (Distribución porcentual)
Total% Nivel Educativo 2/
Provincia PEA Total Sin Nivel Primaria Secundaria Superior
1/
TOTAL 41 750 100.0 7.5 44.1 32.4 16.0
Maynas 78 890 100.0 5.2 36.0 38.1 20.7
A. Amazonas 22 508 100.0 13.5 52.2 24.3 10.0
Loreto 11 038 100.0 12.5 60.5 19.7 7.3
Ramón Castilla 6 564 100.0 14.0 53.8 23.5 8.7
Requena 1 182 100.0 7.2 58.5 25.5 8.8
Ucayali 1 092 100.0 4.4 59.7 27.1 8.8
1/
Excluye a los que no especificaron nivel de educación.
2/
Se refiere a algún grado o año de estudios.
Fuente: INEI. Censos Nacionales de 2019.
Elaboración: Estudios y Ediciones RA. Diciembre2019.
En el Cuadro N° 01, se presenta la Población Económicamente Activa (PEA) de 15 años y más, de
la Región Loreto, clasificada de acuerdo a dos variables: Nivel de Educación y Provincias.
Este es un cuadro de tipo bidimensional, de dos variables o de «doble entrada».
En esta clasificación se distinguen una Variable Principal (nivel de educación) colocada en forma
horizontal y una Variable Secundaria (provincias) colocada en forma vertical).
No es la única forma de presentar datos, pero es la más recomendable, si lo permite la
naturaleza de las variables.
- Para diferenciar las variables principal y secundaria, en el título del cuadro, se antepone la palabra POR a
la variable principal (nivel educativo) y SEGUN a la variable secundaria (provincias).
1. NÚMERO DEL CUADRO, es el código o elemento de identificación que permite ubicar el cuadro en el interior
de un documento. El número se anota junto con la palabra «cuadro», por ejemplo: Cuadro N° 01 indica que es
el primer cuadro del documento.
2. TITULO, es la descripción resumida del contenido del cuadro. Se coloca en la parte superior del cuadro. La
redacción del título debe ser breve, concreto, claro y completo, de modo que se pueden deducir sin
ambigüedad qué tipo de información contiene el cuadro.
Un título completo, debe indicar:
c. Cómo: Cómo están ordenados o clasificados los datos en el cuadro (Criterio de clasificación). La
variable ubicada en la fila se identifica con la preposición «por» y la que está en la columna se le
antepone «según».
Responde a la pregunta: ¿COMO se presenta el contenido de la tabla?
d. Cuándo: a qué momento o período de tiempo está referida la información; puede ser un momento
específico o puntual, como también un período de varios años, meses o semanas, etc.
Es decir debe contener el espacio temporal o período, que abarca la información que se presenta.
Responde a la pregunta: ¿CUANDO?
a/
Ejemplo. DEPARTAMENTO DE AREQUIPA: VIVIENDAS PARTICULARES POR TIPO DE ABASTECIMIENTO DE AGUA, SEGUN
PROVINCIAS. CENSO 2010.
Qué : Viviendas particulares.
Dónde : departamento de Arequipa.
Cómo : por tipo de abastecimiento de agua según provincias.
Cuándo: Censo de Población del 2010.
Cuando es necesario, debajo del titulo, debe expresarse la unidad de medida de la variable.
Ejem: Miles de soles, en %, etc.
3. ENCABEZAMIENTO:
- Es la descripción de las filas y columnas de un cuadro estadístico.
- El encabezamiento se ubica en la parte superior del cuerpo del cuadro.
- Indica las variables y sus categorías , también puede indicar un período de tiempo.
- Otros autores consideran que:
El Encabezado, está formado por la primera fila superior y nos indica las características (variables)
del fenómeno en estudio.
La Columna Matriz, está formada por la primera columna de la izquierda y nos indica también las
características (variables) del fenómeno en estudio.
8. ELABORACIÓN:
- Es una indicación que se coloca debajo de la fuente
- Sirve para mencionar el responsable, que utilizando datos originales o de la fuente, elaboró
el cuadro estadístico final;
- Indica la responsabilidad de la publicación del cuadro.
- A veces resulta útil indicar la fecha de elaboración.
Nota de Pié: a/ Vivienda particular, es aquella destinada a servir de alojamiento a uno o más hogares.
Fuente: INEI. Censos Nacionales de2010.Resultados Definitivos Departamento de Arequipa. Tomo II.
Elaboración: Estudios y Ediciones R.A.
CUADRO N° 03
TITULO ALUMNOS MATRICULADOS POR SEXO Y SEGÚN AÑOS, EN
EL COLEGIO SEÑOR DE LUREN 2014 – 2019
SEX0
AÑOS TOTAL
Masculino Femenina
2014 120 145 265
2015 135 120 255
2016 166 200 366
2017 432 352 784
2018 690 580 1270
2019 600 750 1550
TOTAL 2345 2897 4492
a) Los cuadros estadísticos presentan datos ordenados con el propósito de facilitar su lectura y análisis, por lo tanto, no
deben ser complicados, ni grandes, ni largos.
Los cuadros tienen que ser claros y precisos; en general, un cuadro es la presentación simplificada de datos.
b) Cuando se presenta más de un tema o variable, estas deben estar relacionadas entre sí . Es decir que, entre las
variables, se puede establecer una relación de dependencia o de asociación; por ejemplo, el ahorro familiar tiene
relación con el ingreso; también el tiempo de servicio de trabajo tiene relación con la edad; la edad tiene relación
con el sexo; el nivel educativo con el área rural; etc.
c) Las clasificaciones y categorías incluidas en el cuadro serán arregladas de manera que facilite el análisis y las
comparaciones. Por ejemplo:
- el tiempo se arreglará en orden cronológico, generalmente se empieza por el período más antiguo.
- la clasificación geográfica se puede arreglar en orden alfabético, también de acuerdo a la importancia de las
áreas o considerando la denominación numérica que tienen (I, II, etc.).
- los valores numéricos de la variable se arreglan frecuentemente en orden ascendente (de menor a mayor),
también puede ser descendente (de mayor a menor).
- los aspectos cualitativos de una variable, se pueden arreglar de acuerdo a su importancia; sin embargo, el
orden puede ser definido por costumbre o tradición, en forma alfabética , o en orden como suceden los
hechos. Por ejemplo, el estado civil se clasifica en: soltero, casado, viudo, divorciado, conviviente.
d) Arreglar las cifras de manera que se faciliten las comparaciones y el análisis de la evolución de los datos en el
tiempo.
e) Destacar las cifras más importantes.
f) Algunas veces, cuando en una tabla de cifras tienen muchos dígitos es recomendable abreviar las cantidades;
pueden abreviarse por redondeo o reducir las cifras expresando en unidades superiores (miles, millones; por
ciento; por mil, etc.). Por ejemplo:
i) El número 12.745 se puede redondear a 12.7 , si la parte decimal 0.745 se redondea a 0.7
ii) El número 748,387 se puede expresar como 748.4 miles; en este caso se ha dividido entre 1000 y las cifras
387 puede redondearse a 400 ó 390.
g) Mejorar en lo posible la apariencia del cuadro, utilizando letras mayúsculas en los títulos, anotar las cifras
adecuadamente espaciadas y utilizar rayas más negritas en las divisiones principales del cuadro.
DE ACUERDO AL USO
16-19 20-23 24-27 Soltero Casado Estatal Partic. Relig Derech. Obst. Edu.
AREQUIPA
CAJAMARCA
CUZCO
ICA
JUNIN
LA LIBERTAD
LAMBAYEQUE
LIMA
PIURA
TACNA
AREQUIPA
CAJAMARCA
CUZCO
ICA
JUNIN
LA LIBERTAD
LAMBAYEQUE
LIMA
PIURA
TACNA
FUENTE: UNT- Secretaría General.
Como se puede observar en estos ejemplos , cada tabla presenta una variable
que se distribuye en columna matriz : Nivel de instrucción (Cuadro N° 06),
Edad (Cuadro N° 07).
A s í m i s m o , e n e l tí t u l o s e p u e d e a p r e c i a r q u e d e s p u é s d e m e n c i o n a r l a
naturaleza del problema (pacientes atendidos de tuberculosis pulmonar) se lee
e l c r i t e r i o d e l a c l a s i fi c a c i ó n ( P O R n i v e l d e i n s t r u c c i ó n , P O R e d a d ) , d o n d e la variable
esta precedida de la palabra POR.
Son tablas que presentan simultáneamente dos variables análisis o característi cas relacionados,
donde una va definida en la columna matriz (verti cal) y la otra en encabezado (horizontal).
TOTA L 70 50 120
CUADRO N° 09. PACIENTES ATENDIDOS DE TUBERCULOSIS PULMONAR POR EDAD, SEGUN TIPO DE
RESIDENCIA - HOSPITAL BELEN DE TRUJILLO MARZO 2019
ED AD TIPO DE RESIDENCIA
(Años Cumplidos) Zona Asentamiento TOTAL
Residencial Humano
00 – 09 01 08 09
10 - 19 04 11 15
20 - 29 08 18 26
30 - 39 10 20 30
40 - 49 07 27 34
50 - 59 - 05 05
60 - 69 - 01 01
T0TAL 30 90 120
Podemos observar en los dos ejemplos que cada tabla presenta las variables: Nivel de Instrucción y Sexo
(Cuadro N° 08); Edad y Tipo de Residencia (Cuadro N° 09).
En el tí tulo podemos apreciar que luego de la naturaleza del problema (pacientes atendidos de
tuberculosis pulmonar) se lee el criterio de clasifi cación (POR Nivel de Instrucción, SEGUN Sexo; POR
Edad, SEGUN Tipo de Residencia); las variables están precedidas de las palabras POR y SEGÚN, las
mismas que ayudan a conectar dos variables relacionadas.
( c) Tablas Complejas.
Son tablas que presentan en forma simultánea tres o más variables, o características relacionadas que van definidas unas
en columna matriz (vertical) y otras en encabezado (horizontal).
Es necesario tener en cuenta que el objetivo de elaborar tablas o cuadros estadísticos, es presentar ordenadamente los
datos de tal manera que faciliten su análisis e interpretación para la toma de decisiones. Por lo tanto, los cuadros
estadísticos no deben ser complicados, ni presentar muchas variables.Ejemplo
CUADRO N° 10. PACIENTES ATENDIDOS DE TUBERCULOSIS, POR NIVEL DE INSTRUCCION, SEGÚN TIPO DE RESIDENCIA Y
SEXO - HOSPITAL BELÉN DE TRUJILLO MARZO 2019.
TIPO DE RESIDENCIA
NIVEL DE ZONA RESIDENCIAL ASENTAMIENTO HUMANO TOTAL
INSTRUCCION
MASCULINO FEMENINO MASCULINO FEMENINO
Analfabeto 06 04 22 06 38
Primaria 09 06 23 25 63
Secundaria 03 02 06 05 16
Superior - - 01 02 03
T0TAL 18 12 52 38 120
Las tablas estadísticas presentan ordenadamente los datos estadísticos en filas y columnas, clasificados y
agrupados de acuerdo a un criterio específico, con el objeto de facilitar su lectura y posterior análisis e
interpretación.
Realizadas las observaciones o recopilación de datos, denotaremos la variable por X .
Los datos originales por X1, X2,……..., Xn, donde Xi representa la i-ésima observación de la variable con
i = 1, 2,3,……, n.
Es decir que:
X1 = dato de la primera observación
X2 = dato de la segunda observación
…………………
Xn = dato de la n- ésima observación.
En este caso el subíndice “i” es un elemento entero, que expresa el orden de la observación.
Así mismo, diremos que este conjunto de n observaciones constituye una muestra de tamaño n.
Si se tiene X1, X2, X3, X4, X5, X6 observaciones, entonces n=6 constituye el número de observaciones
realizadas, es decir la muestra tiene 6 elementos.
En general, para construir una tabla de frecuencias, se requiere realizar dos operaciones:
LA CLASIFICACIÓN Y LA TABULACIÓN
En este caso no existe ningún problema para organizar los datos, puesto que la escala de valores es exacta y no
hay ninguna duda para la asignación de un elemento a una categoría determinada, es decir cuando el atributo que
se está estudiando no es susceptible de ser medido numéricamente sino solamente clasificado u ordenado.
Para elaborar datos que pertenecen a variables cualitativas, es necesario conocer cómo se clasifica la variable
cualitativa y luego, se procede a la tabulación.
Ejemplo: La nacionalidad de los participantes en una reunión Internacional, fueron los siguientes:
X1 = C X2 = B X3 = P X4 = E X5 = P
X6 = P X7 = V X8 = C X9 = B X10 = P
X11= P X12 = C X13 = E X14= P X15 = B
X16= P X17 = C X18 = V X19 = P X20 = V
Donde:
B = Boliviano; C = Colombiano, E = Ecuatoriano, P = Peruano, V = Venezolano.
En la tabulación se determinan cuántos participantes hay en cada una de las cinco categorías, es decir, cuántas
veces se repite cada categoría diferente de la variable (obteniéndose la frecuencia).
Frecuencia:
Se denomina frecuencia a la repetición de un suceso. Por ejemplo: “La frecuencia de participantes de nacionalidad
peruana”
En las tablas de variable cualitativa sólo se calculan las frecuencias simples. Sin embargo, también se pueden
calcular algunas cifras acumuladas según el interés del investigador y la naturaleza del problema.
ni
FRS = _FAS______ =
n
Total de datos
ni
FPS = _FAS______ x 100 = x 100
n
Total de datos
Para la construcción de la tabla de frecuencias, tal como se indicó anteriormente, primero se clasifican o
determinan los distintos valores de X escribiéndolos de menor a mayor y luego se tabula los datos.
Ejemplo:
En una muestra de 20 pequeñas empresas, considerar el número de trabajadores por empresa. Con estos
datos, determinar la tabla de distribución de frecuencias de las empresas según el número de trabajadores.
X1 = 6 X2 = 5 X3 = 4 X4 = 4 X5 = 3
X6 = 3 X7 = 4 X8 = 4 X9 = 5 X10 = 5
X11= 4 X12 = 5 X13 = 6 X14= 2 X15 = 4
X16= 3 X17 = 4 X18 = 6 X19 = 5 X20 = 3
En la Clasificación:
Se identifican los distintos valores que tiene la variable X, ubicando de menor a mayor valor de X.
En general k ≤ n, en el ejemplo k = 5 , n = 20
En la tabulación se determinan cuántas empresas hay en cada una de las cinco categorías, es decir, cuántas
veces se repite cada valor diferente de la variable.
El número de veces que se repite cada valor diferente de X, constituye la frecuencia absoluta simple que se
denota por ni ó por fi.
En el ejemplo, como se trata de una muestra muy pequeña, se puede tabular a mano, usando rayitas o tarjados,
resultando el cuadro N°02
La construcción de una tabla de frecuencias, en este caso no supone pérdida de información, al final la suma de
las repeticiones o frecuencias debe ser igual al número total de observaciones o datos originales.
Las dos columnas de la tabla que hemos construido, constituyen las columnas básicas de toda tabla de frecuencias, a
partir de las cuales se puede determinar los otros tipos de frecuencias.
FRECUENCIAS ACUMULADAS:
Para poder calcular este tipo de frecuencias se debe tener en cuenta que la variable cuantitativa o cualitativa debe
ser ordenable. En otro caso no tiene mucho sentido el cálculo de estas frecuencias.
En el ejemplo por ser X una variable cuantitativa, además de calcular Frecuencias Simples se puede calcular
Frecuencias Acumuladas de la siguiente manera:
FAA FAA
1 1 1
4 1 + 4 = 5 1+4 = 5
7 1+ 4 + 7 = 12 5 + 7 = 12
5 1+ 4 +7 + 5 = 17 12 + 5 = 17
3 1+4 +7+ 5 + 3 = 20 17 + 3 = 20
20
Ni
FRA = _FAA______ =
n
Total de datos
Ni
FRA = _FAA______ X100 = x100
n
Total de datos
NúmTrab Núm Emp Prop Emp Porc Emp NúmAcumEmp PropAcúm Emp Porc AcúmEmp
(Variable X) FAS(ni) FRS (hi) FRS ( hi %) FAA (Ni) FRA (Hi) FPA ( Hi %)
2 1 0.05 15 1 0.05 5
3 4 0.20 20 5 0.25 30
4 7 0.35 10 12 0.60 60
5 5 0.25 40 17 0.85 85
6 3 0.15 15 20 1.00 100
K=5 n = 20 1.00 100 %
X1, X2,……..., Xn, son los datos originales donde X i representa la i-ésima observación de la variable X con i = 1, 2,3,
……, n.
De igual modo, para construir las tablas se tiene que realizar las operaciones de clasificación y tabulación.
Cuando la variable tiene muchos valores diferentes, se acostumbra presentar los datos utilizando Intervalos de
Clase en las tablas de frecuencia.
Por lo tanto, la clasificación consistirá en determinar el número de intervalos (k) y la amplitud de cada intervalo (A) y
luego se realizará la tabulación de los datos.
La amplitud o longitud de los intervalos no siempre son iguales; pueden utilizarse amplitudes desiguales.
Pasos para construir una tabla de distribución de frecuencias con intervalos regulares:
Se halla restando el dato de mayor valor (Xmáx) con el dato de menor valor (Xmín)
R = Xmáx - Xmín
Rango = mayor valor de X – menor valor de X
Gráficamente, el Rango o Recorrido (R) de la variable es un gran segmento que se puede dividir en un
número arbitrario de intervalos o pequeños segmentos.
R
----|------------------------------------------|----------
Xmin Xmáx
Un intervalo es un conjunto de valores numéricos comprendidos entre dos valores extremos: un límite inferior
(Li) y un límite superior (LS). Definiéndose entre ambos límites, una amplitud interválica (A).
El número de intervalos (k) se puede fijar arbitrariamente, sin embargo es recomendable tener presente los
siguientes criterios:
El número y la amplitud de los intervalos de una tabla, tienen que estar en relación con la naturaleza y el
contexto del estudio.
El sentido común indica que los intervalos no deben ser muy pocos porque daría origen a que la condensación
de los datos sea mucha, y con ello habría una pérdida de información fuerte en relación con la contenida en el
conjunto de datos originales, puesto que no se registra directamente el dato original X i, sino que se ubica dentro
de un intervalo.
Por otra parte, un número excesivo de intervalos, si bien es cierto produce poca pérdida de información, no
reduce el trabajo, siendo en ocasiones preferible trabajar con todos los datos originales.
3. Determinación de la Amplitud interválica (A)
La amplitud de cada intervalo es:
A= Rango = R
Número de Intervalos k
La amplitud interválica, llamada también ancho de clase, es la cantidad de datos que están comprendidos en un
intervalo de clase. También se puede definir como la distancia entre el límite superior e inferior de un intervalo.
Recomendaciones:
El valor de A se redondea al entero, sólo si en la base de datos, los datos son enteros.
Si los datos proporcionados están en decimales, la amplitud original A, se redondeará de acuerdo al
número de decimales de la información.
Para facilitar el cálculo y a fin de evitar problemas futuros en la tabulación de los datos se recomienda que la
amplitud de los intervalos se redondee al número sencillo más cercano e inmediato superior(es decir
aproximar siempre por exceso, nunca por defecto) . Obteniéndose la amplitud modificada A’
En muchos casos será necesario ampliar ligeramente el recorrido, de modo que A = R / k sea un valor
exacto y con el menor número de decimales. Nunca se reduce la amplitud del recorrido porque las
observaciones de mayor valor quedarían fuera de los intervalos establecidos.
Conclusión:
Sólo en el caso de la amplitud interválica, aproximar SIEMPRE por exceso, NUNCA por defecto, a fin de evitar
problemas futuros en la tabulación de los datos.
Rango modificado R’ = A’ x k
5. Diferencia de rangos D = R’ - R
6. La diferencia de rangos se divide entre 2 y con el resultado se calcula los valores mínimo y máximo
modificados denotados por X’mín y X’max respectivamente
Así :
X’mín = Xmín – D/ 2 ( Al valor mínimo original se le resta el resultado D/ 2 )
Formar los intervalos de clase, significa hallar los límites inferior y superior de cada intervalo; y para ello se
parte del valor mínimo modificado X’mín y se le va sumando paso a paso, la amplitud del intervalo A’ , hasta
completar el número k de intervalos requerido .
Los extremos de un intervalo deben estar perfectamente definidos, de modo que no exista duda o
ambigüedad en el momento de la tabulación. Un valor de X i sólo puede pertenecer a un intervalo y sólo a
uno.
(a) Intervalo cerrado (se incluye ambos extremos). Se denota por [L i - Ls]
(b) Intervalo abierto(no se incluye ningún extremo).Se denota por <L i - Ls>
(c) Intervalo abierto por la izquierda y cerrado por la derecha (no incluye el límite inferior, pero sí el
superior). Se denota por <Li - Ls].
(d) Intervalo cerrado por la izquierda y abierto por la derecha (incluye el límite inferior, pero no el
superior). Se denota por [Li - Ls >
Se recomienda primero calcular el valor de los límites inferiores de los intervalos, luego calcular el valor de
los límites superiores.
Para calcular los límites inferiores de los intervalos se empieza con X 'mín y se va sumando en cada caso el
valor de A ' hasta completar el número k de intervalos requeridos.
Observación:
Cuando se construyen intervalos cerrados
Al límite inferior de la segunda clase, se le resta una unidad (01), para obtener el límite superior de la primera
clase; obtenido este, se le suma la amplitud del intervalo para obtener los límites superiores de cada clase.
Cuando se trata de números decimales, se le resta un décimo (0,1), un centésimo (0.01), un milésimo (0.001),
según corresponda al número de decimales que contenga la información.
Se obtiene sumando y acumulando los valores absolutos simples clase por clase en orden ascendente.
Se representa por:
En la 1ra clase: N1 = n1
En la 2da clase: N2 = n1 + n2 = N1 + n2
En la 3ra clase: N3 = n1 + n2 + n3 = N2 + n3
………………………………………………………….
En la ultima clase (k) N K = n1+n2+n3+...+ n k = Nk-1+ nK = n
Se obtiene sumando y acumulando los valores relativos simples, clase por clase en orden ascendente.
Así:
En la 1ra clase: H1 = h1
En la 2da clase: H2 = h1 + h2 = H 1 + h2
En la 3ra clase: H3 = h1 + h2 + h3 = H2 + h3
…………………………………………………………………………………………………..
En la última clase k: Hk = h1+h2+h3+.....+h k = Hk-1 +hk =1
En nuestro ejemplo:
H1 = 0,25
H2 = 0,25 + 0,45 = 0,70
H3 = 0,25 + 0,45 + 0,20 = 0,90
H4 = 0,25 + 0,45 + 0,20 + 0,05 = 0,95
H5 = 0.25 + 0,45 + 0,20 + 0,05 + 0,05 = 1,00
Nota: Por lo general, a las frecuencias relativas las multiplicamos por 100, con el fin de obtener los valores
expresados en porcentaje (frecuencias porcentuales).
Se define como la semi-suma de los límites inferior y superior de cada intervalo de clase.
Cuadro N° 04: Clasificación de 20 niños entre 1 años y 6 años de edad según su cantidad de consumo de proteínas.
Proteinas Cant Niños Cant Acum Prop niños Prop Acum Porcent Porc Acum Puntos
Intervalo ni Ni hi Hi Niños hi(%) Hi(%) medios Xi
15.5- 19.4 5 5 0.25 0.25 25 25 17.45
19.5- 23.4 9 14 0.45 0.70 45 70 21.45
23.5- 27.4 4 18 0.20 0.90 20 90 25.45
27.5 -31.4 1 19 0.05 0.95 5 95 29.45
31.5- 35.4 1 20 0.05 1.00 5 100 33.45
ni= n = 20 h i=1,00 hi%=100
4. Los sueldos mensuales (en dólares) de 60 empleados de la Empresa Pirámide S.A. en el año 2010 son los
siguientes:
440 560 335 587 613 400 424 466 565 393
453 650 407 376 470 560 321 500 528 526
570 430 618 537 409 600 550 432 591 428
440 340 558 460 560 607 382 667 511 492
450 530 501 471 660 470 364 634 580 450
574 500 462 380 518 480 625 507 645 382
En este ejemplo:
n = 60 empleados
No se ha detallado las Xi, sin embargo es fácil advertir de los datos que por ejemplo:
R = 346 dólares es el Rango Original .La diferencia entre el sueldo mayor y menor es 346 dólares.
k = 1 + 3,322 log n
k = 1 + 3,322 log 60 = 6.9 k = 7 intervalos.
A = R / k = 346 / 7 = 49,4285...
Como este cociente no es exacto, se recomienda redondear, por ejemplo a 50, esto significaría ampliar ligeramente el
recorrido R de manera que la amplitud A pueda ser un «número sencillo» como A’ = 50
.
Aquí el recorrido 346 se puede ampliara 350, que provoca una modificación de los extremos. Así se tiene los valores
modificados A’ = 50, R’ = A’ k = 50(7) = 350
La diferencia la dividimos entre 2 (en este caso 4: 2 = 2 ) , y el resultado se agrega a Xmáx y se resta a Xmín obteniéndose
X’máx y X’mín respectivamente.
Gráficamente:
R’
X'min |--|------------------ 350 ----------------- |--|X’max
319 669
| |
321 667
Xmin ------------ 346 --------------Xmax
R
Luego
Como A’= 50, el recorrido se divide en 7 intervalos o segmentos, cuyos extremos son:
I1 I2 I3 I4 I5 I6 I7
|______|_______|______|_______|______|_______|_______|
319 369 419 469 519 569 619 669
L0 L1 L2 L3 L4 L5 L6 L7
El extremo inferior del primer intervalo es L0 = X’mín = 319 y el extremo superior del último intervalo es L7 = 6.
Como los extremos, según el gráfico, pertenecen a dos intervalos, es necesario precisar a qué intervalo va a pertenecer.
Teniéndose presente que un valor de Xi debe pertenecer a uno y sólo uno de los intervalos.
Formas de expresar los intervalos:
[Li - Ls> significa que es cerrado por la izquierda y abierto por la derecha, es decir que en cada intervalo no está incluido el
extremo superior (Ls) pero sí lo está el extremo inferior (Li).
En tanto que [Li – Ls] numéricamente es más práctica, puesto que directamente indica los valores comprendidos en cada
intervalo.
Organización de la tabla:
Definidos los intervalos de clase o categorías, se distribuyen los empleados según el sueldo en cada uno de los
intervalos, es decir, contabilizar (tabulación) cuántos elementos o empleados se encuentran comprendidos en cada
intervalo.
Cuadro N° 05
DISTRIBUCION DE LOS SUELDOS EN CADA INTERVALO
[Li - Ls>
fi = n i
Valores de la variable (sueldos) N° de casos (empleados)
(sueldo de cada empleado) Frecuencia absoluta
De este modo se obtienen las frecuencias o repeticiones (n i) resultando el Cuadro N° 06 donde se aprecia los
intervalos, las marcas de clase (Xi) y las frecuencias absolutas ni ó fi, con k =7 intervalos.
Cuadro N° 06 DISTRIBUCION DE 60 EMPLEADOS DE LA EMPRESA PIRAMIDE S.A. POR SUELDOS MENSUALES. 2019
Cuadro N° 06: DISTRIBUCION DE 60 EMPLEADOS DE LA EMPRESA PIRAMIDE S.A. POR SUELDOS MENSUALES. 2019
Sueldos Cant Cant Acum Prop Prop Acum Porcent Porc Acum Puntos
Intervalo Empleados Ni empleados Hi empleados Hi(%) medios Xi
ni hi hi(%)
ni= n = h i= hi%=
Observando estas tablas, puede deducirse que condiciones cumplen los elementos de una tabla de frecuencia,
las que se puede enunciar como Propiedades de las Frecuencias.
a) Las frecuencias absolutas ni y las frecuencias absolutas acumuladas Ni son números enteros no negativos
(es decir números positivos o cero en algunos casos) y no mayores que n.
0 ≤ ni ≤ n; 0≤ Ni ≤ n
b) Las frecuencias relativas (hi) y las frecuencias relativas acumuladas Hi son números fraccionarios no negativos y
no mayores que la unidad. Se pueden expresar en tanto por uno ( números decimales mayor o igual a cero
pero menor que 1) o en porcentaje
0≤ hi ≤1; 0 ≤ Hi ≤1
0 % ≤ hi %≤ 100% 0 % ≤ Hi % ≤ 100%
c) La suma de todas las frecuencias absolutas simples es igual al número total de datos (tamaño de la muestra n).
n1+n2+n3+...nk = ni = n
h1+h2+h3+...hk = hi = 1
e) La última frecuencia absoluta acumulada es igual al número total de datos (tamaño de la muestra), puesto
que incluye a todos los valores.
Nk = n
g) Toda frecuencia acumulada (absoluta o relativa) es mayor o igual que una anterior y menor o igual que una
posterior.
n1= N 1 ≤ N 2 ≤ N 3 ≤…..≤ N k-1 ≤ N k = n
h 1 = H 1 ≤ H 2 ≤ H 3 ≤......≤ H k-1 ≤ H k =1