Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Material de Clase #3 Estadistica Num Continua Ing Amb II 2021
Material de Clase #3 Estadistica Num Continua Ing Amb II 2021
MATERIAL DE CLASE # 3
CAPITULO I
EXPLORANDO GRÁFICAMENTE DISTRIBUCIONES DE
DATOS (continuación)
Cuando se manejan muchos datos, la construcción de los diagramas de puntos y de “tallos” y “hojas”
puede resultar muy larga o laboriosa. Lo más probable es que pueda ocurrir una sobrepoblación de
puntos o de “hojas” en los gráficos, que empañe la nitidez o definición del diagrama, y éste, resulte
extremadamente grande o no pertinente (sobrepase su capacidad). En tales casos, es conveniente
condensar o resumir los datos agrupándolos en intervalos de clase y registrando tanto las frecuencias
absolutas como relativas de los mismos. A partir de allí, se completa la tabla de frecuencias, y
seguidamente, se realiza el llamado histograma, el cual es el gráfico más recomendado a la hora de
describir visualmente la distribución de frecuencias de una variable numérica continua.
En esta ocasión se consideran dos casos: cuando los intervalos son del mismo tamaño dados por
alguna norma o protocolo científico y cuando los intervalos no son todos del mismo tamaño.
Esta diferenciación es importante tenerla en cuenta puesto que hay situaciones, como en el primer
caso, en las cuales, por alguna norma, protocolo o por conveniencia se fijan de antemano los límites
de los intervalos de igual tamaño conocido, como, por ejemplo, diámetros de árboles (clases
diamétricas de a 5 cm cada una) o rangos de edades (intervalos de a 5 años cada uno). Aunque es
poco frecuente, algunas veces no se tiene idea previa de cuáles deben ser los límites ni los tamaños
de los intervalos; en este caso, se opta por construirlos de igual tamaño. También suelen ocurrir casos
en que se exige agrupar las unidades de observación en intervalos de distinto tamaño según la
característica numérica continua observada, como por ejemplo, en el caso de ingresos de hogares,
niveles de contaminación para sitios, clasificación del riesgo por rangos de pendientes, etc.
Prof. Edwin Rengifo C. – Unicauca – Programa de Ing. Ambiental - Curso de Estadística – Oct 25 - Marzo 22 de 2022.
Material de Clase # 3
1
La idea es que si, previamente, se sabe que una distribución de datos de una variable puede resultar
asimétrica, lo recomendable es construir el histograma con intervalos de distinto tamaño, haciéndolos
más pequeños en el rango de alta concentración de valores, y más grandes en el rango restante de
datos más dispersos.
Se debe advertir que al agrupar los datos en intervalos de clase se pierde la individualidad de cada
dato, puesto que ya no se dispone de los datos en forma individual, ya no se sabe cuál valor tienen los
datos. Como afirman Behar y Yepes (1996:39), si se tienen pocos intervalos la pérdida de información
se hace aún mayor. Para efectos de la construcción del histograma, al agrupar los datos se supone que
estos quedan distribuidos uniformemente dentro de cada intervalo, es decir, van a estar repartidos
equidistantemente dentro de cada intervalo.
Sobre el número de intervalos a definir, Johnson y Tsui (1998:36), afirman que el número de
intervalos generalmente varía entre 5 y 15, dependiendo del número de datos. Agrupar los datos en
intervalos de clase sacrifica información en cuanto a cómo están distribuidos los datos en cada
intervalo. Con pocos intervalos, la pérdida de información es seria. Si se definen demasiados
intervalos de clase y el conjunto de datos es relativamente pequeño, las frecuencias de un intervalo a
otro variarían de una forma caótica y no emergería ningún patrón de la distribución. Entonces, si se
definen muchos o muy pocos intervalos, se va a dificultar enormemente el poder revelar alguna forma
de la distribución de frecuencias de los datos.
En muchas situaciones, ya sea porque se sabe que la distribución de una variable es asimétrica, por
norma universal o por protocolo, se requiere usar intervalos de diferentes tamaños. Johnson, R., A. y
Tsui, K.W.(1998) comentan que “los histogramas con intervalos de clase de tamaño desigual, son
útiles para situaciones en las que la mayoría de los datos se concentran en una parte del rango mientras
que relativamente pocos datos se encuentran dispersos en el rango restante, es decir, para
distribuciones asimétricas. En este caso, para dibujar el histograma se usan las áreas de los
rectángulos en lugar de su altura para representar la frecuencia relativa.
Por ello, las áreas de los rectángulos que componen el histograma se deben hacer igual a las
frecuencias relativas de cada intervalo y las alturas de los rectángulos ya no pueden ser las frecuencias
relativas. Si estas se tomaran como las alturas, daría como resultado un histograma que da una visión
distorsionada de los datos.
De acuerdo con Behar y Yepes (1996), cuando los intervalos de clase son de diferente tamaño, se
dificulta conocer en cual rango o parte de la distribución hay mayor concentración de datos, puesto
que las frecuencias absolutas o relativas dejan de ser comparables entre sí, y deben corregirse para
lograr comparabilidad estadística”. Esta situación se soluciona calculando las llamadas densidades
de frecuencia absoluta ( 𝒉´𝒊 ) y relativa ( 𝒉∗𝒊 ) de cada intervalo, que consiste en calcular el número
promedio de datos que hay por subunidad de intervalo en cada uno de ellos y expresarlo como
porcentaje del total de los datos. A continuación, se definen estos dos conceptos:
◼ Densidad absoluta (𝒉´𝒊 ): Si se asume que los datos están distribuidos uniformemente (hay igual
número de datos por subunidad de intervalo) dentro de cada intervalo, se define la densidad absoluta
del i-ésimo intervalo, 𝒉´𝒊 , como:
Prof. Edwin Rengifo C. – Unicauca – Programa de Ing. Ambiental - Curso de Estadística – Oct 25 - Marzo 22 de 2022.
Material de Clase # 3
2
𝒏𝒊
𝒉´𝒊 = , ∀ 𝒊 = 𝟏, 𝟐, ⋯ , 𝒎
𝑪𝒊
Donde 𝒎 indica el número de intervalos establecidos, 𝒏𝒊 y 𝑪𝒊 indican, respectivamente, la frecuencia
absoluta y la amplitud o el tamaño del intervalo i-ésimo. La densidad absoluta indica el número
promedio de datos que hay por subunidad de longitud en cada intervalo.
◼ Densidad relativa (𝒉∗𝒊 ):
Si se asume que los datos están distribuidos uniformemente (hay igual número de datos por subunidad
de intervalo) dentro de cada intervalo, se define la densidad relativa del i-ésimo intervalo, 𝒉∗𝒊 , como:
𝒉´𝒊 𝒉𝒊
𝒉∗𝒊 = = , ∀ 𝒊 = 𝟏, 𝟐, ⋯ , 𝒎
𝒏 𝑪𝒊
Donde 𝒎 indica el número de intervalos establecidos, 𝒉´𝒊 indica la densidad absoluta del i-ésimo
intervalo y 𝒏 representa el número total de observaciones. La densidad relativa indica el porcentaje
que representa el número promedio de datos que hay por subunidad de intervalo (𝒉´𝒊 ) en cada
intervalo, con relación al total de datos. La densidad relativa se suele expresar en términos
porcentuales. Cuando los intervalos no son del mismo tamaño, se coloca en el eje vertical del
histograma de densidad de frecuencia, para representar la altura de cada rectángulo erigido sobre cada
intervalo,
Se presenta a continuación mediante el Ejemplo 7 la tabla de frecuencias, el histograma de densidad
de frecuencias con longitudes o anchos de intervalo de clase de diferente tamaño, y la llamada Ojiva
de frecuencias relativas acumuladas.
Ejemplo 7. Suponga que, en un estudio sobre tenencia de la tierra en una zona rural, se registraron
datos acerca de la superficie por predio (en hectáreas). Los datos registrados para 500 predios rurales
se organizaron en el Cuadro 7, según 8 intervalos de clase (no todos del mismo tamaño) con límites
definidos por los investigadores. Se pide obtener la tabla de densidad de frecuencias, el histograma
de densidad de frecuencias y la Ojiva.
Solución:
Inicialmente, se clasificaron los datos recolectados de las áreas de los predios en los rangos de tamaño
definidos. Mediante conteo se obtuvo la frecuencia absoluta y se calcularon tanto las frecuencias
absolutas y relativas no acumuladas como las acumuladas. Posteriormente, se calculan las densidades
absoluta y relativa de cada intervalo de clase. El Cuadro 7 presenta la tabla completa de distribución
de densidad de frecuencias de los predios según su tamaño. Observe en la segunda columna de la
tabla que los intervalos o rangos de áreas no son todos del mismo tamaño.
Prof. Edwin Rengifo C. – Unicauca – Programa de Ing. Ambiental - Curso de Estadística – Oct 25 - Marzo 22 de 2022.
Material de Clase # 3
3
Cuadro 7. Distribución de densidad de frecuencias para la variable área por predio (en
hectáreas) para 500 predios de una zona geográfica.
Tamaño
Área por Nro. de % de Nro. acum. % acum. Densidad Densidad
Intervalo del
predio predios predios de predios de predios absoluta relativa
Nro. intervalo
(ha) (𝒏𝒊 ) (𝒉𝒊 ) (𝑵𝒊) (𝑯𝒊) (𝒉´𝒊 ) (𝒉∗𝒊 )
(𝑪𝒊 )
1 (0 – 1] 60 12 % 60 12 % 1 60 12 %
2 (1 – 3] 200 40 % 260 52% 2 100 20 %
3 (3 – 5] 90 18 % 350 70% 2 45 9%
4 (5 – 10] 50 10 % 400 80% 5 10 2%
5 (10 – 15] 40 8% 440 88% 5 8 1.6 %
6 (15 – 20] 30 6% 470 94% 5 6 1.2 %
7 (20 – 50] 20 4% 490 98% 30 0.67 0.13 %
8 (50 – 100] 10 2% 500 100% 50 0.2 0.04 %
𝒎=𝟖 𝒏=500 100 % H(10)=80% Predios/ha
Ilustración V:
a) Del Cuadro 7 se pide calcular e interpretar: 𝒏𝟐 , 𝒉𝟑 , 𝑵𝟒 , 𝑯𝟓 , 𝒉´𝟐 y 𝒉∗𝟐 (aparecen resaltados con
negrita en el Cuadro)
𝒏𝟑 𝟗𝟎
𝒉𝟑 = 𝒏
= 𝟓𝟎𝟎 = 𝟎. 𝟏𝟖 ≡ 𝟏𝟖%. Dado que se refiere a la tercera frecuencia relativa en la tabla.
Interpretación: Indica que el 18% de los predios tienen un área mayor a 3 ha. pero no mayor a
5 ha.
----------
4
𝒉´𝟐 𝟏𝟎𝟎
𝒉∗𝟐 = 𝒙𝟏𝟎𝟎% = 𝒙𝟏𝟎𝟎% = 𝟐𝟎%. Dado que corresponde a la segunda densidad relativa, la
𝒏 𝟓𝟎𝟎
asociada al segundo intervalo.
Interpretación: Una densidad absoluta de 100 predios por unidad de hectárea, en el rango de áreas
entre 1 y 3 hectáreas, equivale a una concentración de predios por hectárea equivalente al 20% del
total de predios observados.
--------
Note como en el Cuadro 7, aunque el tercer intervalo tiene una mayor frecuencia absoluta (90 predios)
que el primer intervalo (60 predios) su densidad de frecuencias es menor (9% < 12%). Esto muestra
que intervalos donde hay mayor número de observaciones no necesariamente tienen una mayor
densidad o concentración de datos por subunidad de intervalo. Es por ello que, para tablas de
frecuencia con intervalos de tamaños diferentes, las frecuencias relativas de los intervalos no son
comparables entre sí estadísticamente. La comparabilidad se logra al calcular las densidades
relativas de los intervalos. De lo contrario, se está haciendo un mal uso de la Estadística, violándose
su validez interna.
b) Con base en el Cuadro 7, se pide construir e interpretar la forma del histograma de densidad de
frecuencias.
o La suma de las áreas de los rectángulos es igual a 100% o la unidad, si las frecuencias
relativas se dan en números decimales: ∑𝑚 𝑚
𝑖=1 𝑨𝒊 = ∑𝑖=1 𝒉𝒊 = 100%:
Prof. Edwin Rengifo C. – Unicauca – Programa de Ing. Ambiental - Curso de Estadística – Oct 25 - Marzo 22 de 2022.
Material de Clase # 3
5
𝒉∗𝒊
(% de predios/ha)
20%
15%
10% 12%
𝑨𝟑
A1 𝑨𝟐
5% 18%
% -- 40% 10%
0 1 3 5 9 10 15 (ha) . . . 50 100
Figura 17. Histograma de densidad de frecuencias de la distribución de 500 predios según rangos de extensión.
Se debe recordar que las áreas de los rectángulos construidos sobre los intervalos de clase
coinciden con las frecuencias relativas de los mismos. Para calcular el valor pedido, se suman
las áreas de los tres primeros rectángulos, hasta el límite superior del tercer intervalo, que en
este caso es igual a 5, según de la Tabla presentada en el Cuadro 6.
El valor 𝒙𝟎 = 𝟗 no coincide con algún límite superior, sino que cae en el cuarto intervalo
(𝑖 = 4), entre los límites 5 y 10, aunque cae más cerca de 10. Gráficamente se debe sumar al
área acumulada hasta 5, el valor del área del rectángulo cuya base va de 5 a 9 y cuya altura
es igual a la densidad relativa del intervalo número cuatro 𝒉∗𝟒 = 𝟐%. El área de dicho
rectángulo se calcula de la siguiente manera, como muestra la Figura 18:
Prof. Edwin Rengifo C. – Unicauca – Programa de Ing. Ambiental - Curso de Estadística – Oct 25 - Marzo 22 de 2022.
Material de Clase # 3
6
𝑯(𝟓) = 𝟕𝟎%
𝒉𝟒∗ = 𝟐% (Altura)
𝑨 = (𝟗 − 𝟓)𝒙𝟐%
5 Base=9-5 9 10
Figura 18. Ilustración geométrica del cálculo de 𝑯(𝟗) para las frecuencias del Cuadro 10.
𝑯(𝟗) = 𝑯(𝟓) + (𝟗 − 𝟓) ∗ 𝟐% = 𝟕𝟎% + (𝟗 − 𝟓) ∗ 𝟐% = 𝟕𝟖%
Interpretación: El 78% de los predios tienen un área no mayor a 9 hectáreas. El área del
78% de los predios no supera las 9 hectáreas.
Altura
Base
0 , si 𝒙𝟎 ≤ 𝒍𝟎
𝑯(𝒙𝟎 )= 𝑯(𝒍𝒊𝒏𝒇 ) + (𝒙𝟎 − 𝒍𝒊𝒏𝒇 )𝒉∗𝒊 , si 𝒍𝒊𝒏𝒇 < 𝒙𝟎 ≤ 𝒍𝒔𝒖𝒑
1 , si 𝒙𝟎 ≥ 𝒍𝒎
Se debe observar que 𝑯(𝒙) se construye uniendo segmentos de rectas. Esto se debe a que
𝑯(𝒙𝟎 ) = 𝑯(𝒍𝒊𝒏𝒇 ) + (𝒙𝟎 − 𝒍𝒊𝒏𝒇 )𝒉∗𝒊 define una línea recta para cada intervalo, con pendiente
𝒉∗𝒊 , precisamente, la densidad relativa del intervalo. La gráfica de 𝑯(𝒙𝟎 ) es la Ojiva.
En este caso, se tiene que 𝒊 = 𝟒 puesto que el valor 𝒙𝟎 = 𝟗 cae en el cuarto intervalo entre
los límites (5 – 9]. Además, se sabe que:
𝒍𝒊𝒏𝒇 = 𝟓; 𝑯(𝒍𝒊𝒏𝒇 ) = 𝑯(𝟓) = 𝟕𝟎%; 𝒉∗𝒊 = 𝒉∗𝟒 = 𝟐%. Al reemplazar en la expresión anterior
se tiene: 𝑯(𝟗) = 𝑯(𝟓) + (𝟗 − 𝟓)𝒙𝟐% = 𝟕𝟎% + 𝟖% = 𝟕𝟖%.
Como se observa, el resultado del cálculo geométrico del literal anterior coincide con el
cálculo analítico obtenido acá. Se debe notar que, en la expresión anterior, la densidad relativa
𝒉
𝒉∗𝒊 se puede reemplazar por 𝑪𝒊 .
𝒊
Prof. Edwin Rengifo C. – Unicauca – Programa de Ing. Ambiental - Curso de Estadística – Oct 25 - Marzo 22 de 2022.
Material de Clase # 3
7
f) Con base en el Cuadro 7, se pide construir la Ojiva y comentar la forma de crecimiento.
Para construir la Ojiva se debe definir la función empírica de distribución acumulativa para
el Ejemplo 7, la cual viene dada por:
0% , si 𝒙≤𝟎
0% + (𝑥 − 0). 12% , si 𝟎<𝒙≤𝟏
12% + (𝑥 − 1). 20% , si 𝟏<𝒙≤𝟑
52% + (𝑥 − 3). 9% , si 𝟑<𝒙≤𝟓
70% + (𝑥 − 5). 2% , si 𝟓 < 𝒙 ≤ 𝟏𝟎
𝑯(𝒙) =
80% + (𝑥 − 10). 1.6% , si 𝟏𝟎 < 𝒙 ≤ 𝟏𝟓
88% + (𝑥 − 15). 1.2% , si 𝟏𝟓 < 𝒙 ≤ 𝟐𝟎
94% + (𝑥 − 20). 0.13% , si 𝟐𝟎 < 𝒙 ≤ 𝟓𝟎
98% + (𝑥 − 50). 0.04% , si 5𝟎 < 𝒙 ≤ 𝟏𝟎𝟎
100% , si 𝒙 > 𝟏𝟎𝟎
Esta función 𝑯(𝒙) devuelve un valor numérico entre 0 y 100% (o entre 0 y 1 si se trabaja con notación
decimal) cada vez que se le entra un valor 𝑥. Asi por ejemplo, para calcular 𝑯(𝟏𝟖), el valor 18 cae
en el intervalo 𝟏𝟓 < 𝒙 ≤ 𝟐𝟎, por tanto, al reemplazar a 𝑥 por 18 en la función anterior se tiene:
𝐻(18) = 88% + (18 − 15). 1.2% = 91.6%: Esto indica que el 91.6% de los predios tienen un área
no mayor a 18 hectáreas. De lo anterior se sigue que, sólo el 8.4% de los predios tienen un área
superior a 18 hectáreas. También se puede interpretar como que el área del 91.6% de los predios no
supera las 18 hectáreas. La Figura 19 presenta la Ojiva de frecuencias relativas acumuladas
ascendentemente. Se puede ver que las semirrectas con mayores pendientes se encuentran en los
intervalos de valores menores, debido a la mayor densidad relativa de los mismos, a la asimetría
positiva. Note también, como la forma de acumulación de datos en los intervalos se da mediante un
crecimiento más rápido en los primeros intervalos, desacelerándose en la mitad y siendo mucho más
lento el crecimiento al final. Esto refleja en cierta forma, la forma asimétrica positiva del histograma.
𝑯(𝒙)
% de predios
94% 98%
88%
80%
70%
Figura 19. Ojiva de frecuencias relativas acumuladas de la distribución de 500 predios según rangos de extensión.
Prof. Edwin Rengifo C. – Unicauca – Programa de Ing. Ambiental - Curso de Estadística – Oct 25 - Marzo 22 de 2022.
Material de Clase # 3