Está en la página 1de 29

UNIVERSIDAD NACIONAL DE HUANCAVELICA

ESCUELA DE POST GRADO


DOCTORADO EN CIENCIAS AMBIENTALES

ASIGNATURA: ESTADÍSTICA APLICADA Y DISEÑOS


EXPERIMENTALES.

ESTADÍSTICA APLICADA. HISTOGRAMAS

Dr. Alfonso G. Cordero Fernández


Mayo 2019
REPRESENTACIÓN DE DATOS
HISTOGRAMA

Ejemplo: Variable tipo cuantitativo continua

Consideremos hipotéticamente los contenidos de


proteína cruda (kilos) de una especie vegetal:
4.5 5.8 6.4 4.2 7.1 5.0 4.9 5.9 6.4 7.3
5.5 6.1 6.9 4.7 6.2 6.1 7.8 4.9 6.1 7.5
8.8 6.2 5.9 5.2 5.8 6.4 5.8 7.1 7.9 8.2
Ordenamiento de los datos (puede hacerlo con
EXCEL)

k = 30 ≅ 5.47 ≅ 6 clases
R
Amplitud de clase h =
K

R = Número mayor – número menor


8.8 − 4.2
h= = 0.8 (amplitud de clase)
6
Información adicional:
Resolución por paquete estadístico
DATA HISTOGRAMA_ESTADISTICA;
INPUT KILOS @@;
CARDS;
4.5 5.8 6.4 4.2 7.1 5.0 4.9 5.9 6.4 7.3
5.5 6.1 6.9 4.7 6.2 6.1 7.8 4.9 6.1 7.5
8.8 6.2 5.9 5.2 5.8 6.4 5.8 7.1 7.9 8.2
PROC UNIVARIATE PLOT NORMAL;
VAR PROTCRUDA;
HISTOGRAM;
RUN;
Información estadística:

N 30 Sumar pesos 30
Media 6.22 Observ suma 186.6
Desviación std 1.13666178 Varianza 1.292
Asimetría 0.34435096 Curtosis -0.2922005
SC no corregida 1198.12 SC corregida 37.468

Coef. variación 18.2743051 Media error std 0.20752


.
Otra forma de obtener un histograma con el SAS
DATA HISTOGRAMA;
INPUT PROTCRUDA;
CARDS;
4.5
5.5
8.8
5.8
6.1
6.2
6.4
6.9
5.9
4.2
4.7 Continua....
5.2
7.1
6.2
5.8
5.0
6.1
6.4
4.9
7.8
5.8
5.9
4.9
7.1
6.4
6.1
7.9
7.3
7.5
8.2 Continua.......
8.2
PROC CHART DATA = HISTOGRAMA;
VBAR PROTCRUDA/LEVELS = 6;
RUN;
• Frecuencia

• 10 ˆ *****
• ‚ *****
• ‚ *****
• ‚ *****
• ‚ *****
• 9ˆ *****
• ‚ *****
• ‚ *****
• ‚ *****
• ‚ *****
• 8ˆ *****
• ‚ *****
• ‚ *****
• ‚ *****
• ‚ *****
• 7ˆ *****
• ‚ *****
• ‚ *****
• ‚ *****
• ‚ *****
• 6ˆ ***** *****
• ‚ ***** *****
• ‚ ***** *****
• ‚ ***** *****
• ‚ ***** *****
• 5ˆ ***** ***** *****
• ‚ ***** ***** *****
• ‚ ***** ***** *****
• ‚ ***** ***** *****
• ‚ ***** ***** *****
• 4ˆ ***** ***** ***** *****
• ‚ ***** ***** ***** *****
• ‚ ***** ***** ***** *****
• ‚ ***** ***** ***** *****
• ‚ ***** ***** ***** *****
• 3ˆ ***** ***** ***** ***** *****
• ‚ ***** ***** ***** ***** *****
• ‚ ***** ***** ***** ***** *****
• ‚ ***** ***** ***** ***** *****
• ‚ ***** ***** ***** ***** *****
• 2ˆ ***** ***** ***** ***** ***** *****
• ‚ ***** ***** ***** ***** ***** *****
• ‚ ***** ***** ***** ***** ***** *****
• ‚ ***** ***** ***** ***** ***** *****
• ‚ ***** ***** ***** ***** ***** *****
• 1ˆ ***** ***** ***** ***** ***** *****
• ‚ ***** ***** ***** ***** ***** *****
• ‚ ***** ***** ***** ***** ***** *****
• ‚ ***** ***** ***** ***** ***** *****
• ‚ ***** ***** ***** ***** ***** *****
• Šƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
• 4.4 5.2 6.0 6.8 7.6 8.4
Resolución considerando otros procedimientos
DATA ESTADIS_PROCEDIMIENTOS;
INPUT KILOS @@;
CARDS;
4.5 5.8 6.4 4.2 7.1 5.0 4.9 5.9 6.4 7.3
5.5 6.1 6.9 4.7 6.2 6.1 7.8 4.9 6.1 7.5
8.8 6.2 5.9 5.2 5.8 6.4 5.8 7.1 7.9 8.2
PROC UNIVARIATE DATA = ESTADIS_PROCEDIMIENTOS ;
VAR KILOS ;
TITLE ´TESTE DE NORMALIDAD´;
RUN;
PROC SUMMARY DATA = ESTADIS_PROCEDIMIENTOS ALPHA = 0.05
PRINT N MEAN CLM STD STDERR VAR MIN MAX RANGE;
VAR KILOS;
RUN;
PROC MEANS DATA = ESTADIS_PROCEDIMIENTOS;
VAR KILOS;
RUN;
La resolución del primer comando ya se encuentra en los
resultados anteriores. Se presenta la información
relacionada al comando PROC SUMMARY y PROC MEANS:
Procedimiento SUMMARY

Variable de análisis: KILOS

Inferior 95% Superior 95% Error


N Media CL para media CL para media Dev tip estándar Varianza
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
30 6.2200000 5.7955635 6.6444365 1.1366618 0.2075251 1.2920000
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ

Variable de análisis: KILOS

Mínimo Máximo Rango


ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
4.2000000 8.8000000 4.6000000
Intervalo de Confianza para la media
n = 30
yത = 6.22
s = 1.1367
t 0 = 2.05 (α = 0.05 % de probabilidad, con n – 1,
= 30 – 1 = 29)
s
IC = yത ± t 0 x
n
1.1367
IC = 6.22 ± 2.05 x
30
IC = 6.22 + 2.05 X 0.2078 = 6.64
IC = 6.22 – 2.05 X 0.2078 = 5.79
Este intervalo encerrará a la verdadera media 𝜇 en 95 % de los
casos y en 5 % de los casos no encerrarán a la media verdadera.
Es decir, que existe una probabilidad de 95 % de que la
verdadera media 𝜇 se encuentra entre 6.64 y 5.79 Kg.
Tabla de distribución de frecuencias (datos
agrupados)
 Variable tipo cuantitativa continua

0.433
Tabla de distribución de frecuencias (datos
agrupados) en forma resumida
RESUMEN SOBRE HISTOGRAMA VARIABLE
CUANTITATIVA CONTINUA
1. Introducción
. Al estudiar grandes conjuntos de datos, es
necesario resumirlos en una tabla, por medio
del agrupamiento de los datos en clases con sus
respectivas frecuencias.
. El procedimiento anterior, permite la posibilidad
de construir un histograma con la finalidad de
visualizar la distribución de frecuencias de
clases; es decir, de visualizar el padrón de la
variación de todos los datos colectados en
relación a la media.
. El histograma es un gráfico formado por columnas
yuxtapuestas, cuya altura es función de la
ocurrencia de los datos dentro de una faja de
variación que es denominada clase, la misma
que es definida por la longitud de la base de la
columna.
2. Pasos para la construcción de un histograma
a) Obtener una muestra de datos;
b) Obtener la amplitud total (R) de la muestra de
datos;
c) Determinar el número de clases (k) por medio
de una de las siguientes opciones:
.k= n,
. Para n>5, Regla de Sturges (K= 1 + 3.22 log n)
. Tabla de Ishiawa
K = 5 a 7, para n < 50
k = 6 a 10, para n = 50 a 100
k = 7 a 12, para n = 100 a 250
k = 10 a 20, para n > 250 ;
d) Determinar, aproximadamente, el intervalo de
R
clase h = ;
k
e ) Determinar los limites inferior y superior de
cada clase;
f) Construir la tabla de distribución de frecuencias,
de acuerdo con el intervalo de clase; y
g) Construir el histograma basado en la tabla de
frecuencias.
REPRESENTACIÓN DE LOS DATOS.
TABLA DE FRECUENCIAS
 DATOS DE NATURALEZA DISCRETA
Si los datos fuesen del tipo discreto, contadas o
notas de valor entero, también llamados de valores
indicativos, o se trata de variables cualitativas, las
barras son definidas por los valores.
.

En una caseta de vegetación se tiene 10


plantas de trébol cuyo número de hojas se
indica en la tabla siguiente:
. Xi fri fri (%) Fi Fri (%)
fi
Frec. Frec.
(n° de Planta trébol
relativa absta
Frec.
hojas) Absoluta Acumul

0 1/10 = 0.10 fr1 = 10% F1 = 1 1/10 = 0.10


1 = f1
1 2/10 = 0.20 fr2 = 20% F2 = 3 3/10 = 0.30
2 = f2
2 4/10 = 0.40 fr3 = 40% F3 = 7 7/10 = 0.70
4 = f3
3 2/10 = 0.20 fr4 = 20% F4 = 9 9/10 = 0.90
2 = f4
4 1/10 = 0.10 fr5 =10% F5 =10 10/10 = 1
1 = f5
Σ 1.0 100% ------- --------
10 plantas
.
Xi fi
(n° de Planta trébol
Frec. Absoluta
hojas)
0 1 = f1
Existen 2 plantas de trébol,
1 ❷= f2 cada una de ellas con 1 una
hoja
2 4 = f3
3 2 = f4
4 ❶ = f5 Existe una planta de trébol
con 4 hojas

Σ 10 plantas
Explicar:
f2 , fr2 , F2 , Fr2

f2 (fi )= existen 2 plantas de trébol que tienen una


hoja.
fr2 = 20 % (de las plantas de trébol tienen una hoja).
F2 = 3 ( plantas de trébol tienen de cero a una hoja).
Fr2 = 30 % ( de las plantas de trébol tienen de cero a una
hoja).
.
.
Número de hojas
4.5
4
4
3.5
3
2.5
2 2
2
1.5
1 1
1
0.5
0
1 2 4 2 1
0 1 2 parte inferior
Número de hojas 3 4
Eje de absisas:
Parte superior, indica el número de plantas.
Parte inferior, indica el número de hojas.

También podría gustarte