Está en la página 1de 57

UNIVERSIDAD NACIONAL DE HUANCAVELICA

ESCUELA DE POST GRADO

MAESTRIA EN PLANIFICACIN ESTRATGICA Y GESTIN


EN INGENIERA DE PROYECTOS

ASIGNATURA: ESTADSTICA APLICADA A LA


INVESTIGACIN CIENTFICA

1. REPRESENTACIN DE LOS DATOS

Dr. Alfonso Cordero Fernndez


Una empresa metalmecnica fabrica diariamente
una serie de piezas y componente auto motivos.
Para los ejes de produccin fabricados, una de las
caractersticas de cualidad importantes en el
control de calidad es el peso, teniendo el tcnico
la responsabilidad diaria de inspeccionar las
medidas de posicin, dispersin, asimetra y
curtosis, para que sea hecho un anlisis
preliminar del comportamiento del peso del eje
en el lote producido, del cual una muestra de 110
ejes fue separada y la caracterstica de cualidad
fue medida, cuyos datos es como sigue:
DATA ESTADISTICA_DESCRPTIVA;
INPUT PESO @@;
CARDS;
2.559 2.556 2.566 2.546 2.561
2.570 2.546 2.565 2.543 2.538
2.560 2.560 2.545 2.551 2.568
2.546 2.555 2.551 2.554 2.574
2.568 2.572 2.550 2.556 2.551
2.561 2.560 2.564 2.567 2.560
2.551 2.562 2.542 2.559 2.556
2.556 2.550 2.561 2.559 2.561
2.559 2.557 2.532 2.575 2.551
2.550 2.559 2.565 2.552 2.580
2.559 2.547 2.569 2.559 2.549
Continua...........................
2.550 2.550 2.552 2.536 2.570
2.534 2.553 2.558 2.538 2.564
2.544 2.543 2.562 2.571 2.553
2.564 2.569 2.552 2.536 2.537
2.552 2.552 2.575 2.545 2.551
2.539 2.537 2.547 2.533 2.538
2.532 1.545 2.545 2.556 2.543
2.547 2.569 2.559 2.534 2.561
2.571 2.572 2.558 2.542 2.574
2.551 2.542 2.552 2.551 2.553
2.567 2.531 2.563 2.554 2.554
Continua.....................................................
PROC UNIVARIATE DATA =
ESTADISTICA_DESCRPTIVA;
VAR PESO;
TITLE `TESTE NORMALIDAD`;
RUN;
PROC SUMARY DATA =
ESTADISTICA_DESCRPTIVA ALPHA = 0.05 PRINT N
MEAN
CLM STD STDERR VAR MIN MAX RANGE;
VAR PESO;
PROC MEANS DATA = ESTADISTICA_DESCRPTIVA;
VAR PESO;
RUN;
`TESTE NORMALIDAD`

Procedimiento UNIVARIATE
Variable: PESO

Momentos

N 110 Sumar pesos 110


Media 2.54521818 Observ suma 279.974
Desviacin std 0.09689125 Varianza 0.00938792
Asimetra -10.274925 Curtosis 107.00039
SC no corregida 713.618198 SC corregida 1.02328276
Coef. variacin 3.80679564 Media error std 0.00923822

Medidas estadsticas bsicas

Ubicacin Variabilidad

Media 2.545218 Desviacin std 0.09689


Mediana 2.554000 Varianza 0.00939
Moda 2.551000 Rango 1.03500
Rango intercuantil 0.01500
Cuantil Estimador

100% Mx 2.5800
99% 2.5750
95% 2.5720
90% 2.5695
75% Q3 2.5610
50% Mediana 2.5540
25% Q1 2.5460
10% 2.5375
5% 2.5340
1% 2.5310
0% Mn 1.5450
`TESTE NORMALIDAD
Procedimiento UNIVARIATE
Variable: PESO

Observaciones extremas

------Inferior------ ------Superior------

Valor Observacin Valor Observacin

1.545 87 2.574 20
2.531 107 2.574 100
2.532 86 2.575 44
2.532 43 2.575 78
2.533 84 2.580 50
Procedimiento SUMMARY

Variable de anlisis: PESO

Inferior 95% Superior 95% Error


N Media CL para media CL para media Dev tip estndar Varianza

110 2.5452182 2.5269083 2.5635280 0.0968913 0.0092382 0.0093879

Variable de anlisis: PESO

Mnimo Mximo Rango



1.5450000 2.5800000 1.0350000
UNIVERSIDAD NACIONAL DE HUANCAVELICA

ESCUELA DE POST GRADO

MAESTRIA EN PLANIFICACIN....

ASIGNATURA: ESTADSTICA APLICADA A LA


INVESTIGACIN CIENTFICA

2. HISTOGRAMA

Dr. Alfonso Cordero Fernndez


REPRESENTACIN DE DATOS
HISTOGRAMA

Ejemplo: Variable tipo cuantitativo continua

Consideremos hipotticamente los contenidos de


protena cruda (kilos) de una especie vegetal:
4.5 5.8 6.4 4.2 7.1 5.0 4.9 5.9 6.4 7.3
5.5 6.1 6.9 4.7 6.2 6.1 7.8 4.9 6.1 7.5
8.8 6.2 5.9 5.2 5.8 6.4 5.8 7.1 7.9 8.2
Ordenamiento de los datos

k = 30 5.47 6 clases
R
Amplitud de clase h =
K

R = Nmero mayor nmero menor


8.8 4.2
h= = 0.8 (amplitud de clase)
6
Informacin adicional:
Resolucin por paquete estadstico
DATA HISTOGRAMA_ESTADISTICA;
INPUT KILOS @@;
CARDS;
4.5 5.8 6.4 4.2 7.1 5.0 4.9 5.9 6.4 7.3
5.5 6.1 6.9 4.7 6.2 6.1 7.8 4.9 6.1 7.5
8.8 6.2 5.9 5.2 5.8 6.4 5.8 7.1 7.9 8.2
PROC UNIVARIATE PLOT NORMAL;
VAR PROTCRUDA;
HISTOGRAM;
RUN;
Informacin estadstica:

N 30 Sumar pesos 30
Media 6.22 Observ suma 186.6
Desviacin std 1.13666178 Varianza 1.292
Asimetra 0.34435096 Curtosis -0.2922005
SC no corregida 1198.12 SC corregida 37.468

Coef. variacin 18.2743051 Media error std 0.20752


.
Tabla de distribucin de frecuencias (datos
agrupados)
Variable tipo cuantitativa continua

0.433
Tabla de distribucin de frecuencias (datos
agrupados) en forma resumida
RESUMEN SOBRE HISTOGRAMA VARIABLE
CUANTITATIVA CONTINUA
1. Introduccin
. Al estudiar grandes conjuntos de datos, es
necesario resumirlos en una tabla, por medio
del agrupamiento de los datos en clases con sus
respectivas frecuencias.
. El procedimiento anterior, permite la posibilidad
de construir un histograma con la finalidad de
visualizar la distribucin de frecuencias de
clases; es decir, de visualizar el padrn de la
variacin de todos los datos colectados en
relacin a la media.
. El histograma es un grfico formado por columnas
yuxtapuestas, cuya altura es funcin de la
ocurrencia de los datos dentro de una faja de
variacin que es denominada clase, la misma
que es definida por la longitud de la base de la
columna.
2. Pasos para la construccin de un histograma
a) Obtener una muestra de datos;
b) Obtener la amplitud total (R) de la muestra de
datos;
c) Determinar el nmero de clases (k) por medio
de una de las siguientes opciones:
.k= n,
. Para n>5, Regla de Sturges (K= 1 + 3.22 log n)
. Tabla de Ishiawa
K = 5 a 7, para n < 50
k = 6 a 10, para n = 50 a 100
k = 7 a 12, para n = 100 a 250
k = 10 a 20, para n > 250 ;
d) Determinar, aproximadamente, el intervalo de
R
clase h = ;
k
e ) Determinar los limites inferior y superior de
cada clase;
f) Construir la tabla de distribucin de frecuencias,
de acuerdo con el intervalo de clase; y
g) Construir el histograma basado en la tabla de
frecuencias.

Ejemplo: Dimetros de internos de 32 caos


utilizados en la construccin de
canaletas de agotamiento de agua en
caminos en funcin a los lugares de
procedencia y sexo de las personas.
Informacin (34 datos sobre dimetros de caos)
23.45 14.48 Orden creciente de datos
24.45 15.67
23.45 17.45 10.39
19.34 19.46 11.34
17.47 23.56 12.67
11.34 25.78
12.67
13.45
10.39 26.60
14.48
. 27.45
.
. 28.45
.
. 29.67
.
. 30.45
. 31.46 .
. 32.45 32.45
. 34.56 32.67
. 13.45 34.56
Construccin de histograma por el SAS
OPTIONS NODATE NONUMBER;
DATA MEDIDAS;
INPUT CODIGO $ SEXO $ DIAMETRO;
CARDS;
HUERTAS M 23.45
HUERTAS H 24.45
HUERTAS M 23.45
HUERTAS H 19.34
HUERTAS M 17.45
HUERTAS H 11.34
HUERTAS M 10.39
HUERTAS H 17.38
HUERTAS H 16.34
MOLINOS M 12.67
MOLINOS H 12.67
MOLINOS M 23.45
MOLINOS H 32.67
MOLINOS H 31.45
MOLINOS M 26.34
MOLINOS H 20.89
MOLINOS H 13.45
MOLINOS M 14.48
MOLINOS H 15.67
MOLINOS M 17.45
MOLINOS H 19.46
Viene....
JAUJA H 23.56
JAUJA M 25.78
JAUJA H 26.60
JAUJA M 27.45
JAUJA H 28.45
JAUJA M 29.67
JAUJA H 30.45
JAUJA M 31.46
JAUJA H 32.45
JAUJA M 34.56
;
RUN;
PROC SUMMARY DATA=MEDIDAS PRINT RANGE;
VAR DIAMETRO;
RUN;
PROC CAPABILITY DATA= MEDIDAS;
HISTOGRAM DIAMETRO/MIDPOINTS= 12.39 TO 32.39 BY 4;
HISTOGRAM DIAMETRO;
HISTOGRAM DIAMETRO/NOBARS KERNEL (C=.675 K=T);
HISTOGRAM DIAMETRO/NOBARS KERNEL (C=1.35 K=T);
RUN;
PROC CAPABILITY DATA = MEDIDAS;
VAR DIAMETRO;
COMPHISTOGRAM DIAMETRO/CLASS = SEXO;
INSET MEAN STD N/POSITION = NE HEIGHT= 1.5;
LABEL SEXO =SEXO PERSONAS;
RUN;
El primer comando (histogram dimetro /
midpoints = 12.39 to 32.39 by 4 , permiti
construir un histograma con 12 clases por medio
de los puntos medios 12.39 a 32.39, espaciados
de 4 mm. Para ello, inicialmente se calcul:
. n = 32
. R (rango) = 24.17 ( 34.56, valor mayor 10.39,
valor menor).
. Nmero de clases (k) = 32 = 6.
R 24.17
. Amplitud de clase (h) = = = 4.
K 6
El primer comando (histogram dimetro /
midpoints = 12.39 to 32.39 by 4

Obtencin de puntos medios 12.39 a 32.39


Clases Puntos medios
10.39 14.39 12.39
14.39 18.39 16.39
18.39 22.39 20.39
22.39 26.39 24.39
26.39 30.39 28.39
30.39 34.39 32.39
Las clases de dimetros (D) utilizadas fueron:
1. 10.39 D < 14.39 (presente caso:10.39 + 4 = 14.39)
2. 14.39 D < 18.39
3. 18.39 D< 22.39
4. 22.39 D < 26.39
5. 26.39 D < 30.39
6. 30.39 D < 34.39.
El comando histogram dimetro, permiti que el
propio proc capability establezca el nmero y el
intervalo de clases (por medio de un algoritmo
desarrollado por Terrell y Scott).
La tercera y cuarta manera de obtener una
estimacin de los datos es por medio de la
estimativa de la densidad de Kernel.
La estimativa de Kernel fue aplicada con el
objetivo de verificar la existencia de 2 picos en la
distribucin de los dimetros de fibra de las
alpacas. Este mtodo puede ser considerada como
un mtodo grfico producido para analizar
distribuciones de datos multimodales.
El comando histogram dimetro/norbars Kernel
(c = 1.35 k = T), permiti que los datos sea
estratificado de acuerdo con el sexo de los
animales M y H.
Procedimiento SUMMARY
Variable de anlisis: DIAMETRO
Rango
24.1700000
...............................................................................................................

Procedimiento CAPABILITY
Variable: DIAMETRO

Momentos

N 32 Sumar pesos 32
Media 22.2540625 Observ suma 712.13
Desviacin std 7.07220998 Varianza 50.0161539
Asimetra 0.02801738 Curtosis -1.1798534
SC no corregida 17398.2863 SC corregida 1550.50077
Coef. variacin 31.779411 Media error std 1.25020191
Medidas estadsticas bsicas

Ubicacin Variabilidad

Media 22.25406 Desviacin std 7.07221


Mediana 23.45000 Varianza 50.01615
Moda 23.45000 Rango 24.17000
Rango intercuantil 11.0900
.............................................................................

Cuantiles (Definicin 5)

Cuantil Estimador

100% Mx 34.56
99% 34.56
95% 32.67
90% 31.46
75% Q3 27.95
50% Mediana 23.45
25% Q1 16.86
10% 12.67
5% 11.34
1% 10.39
0% Mn 10.39
Procedimiento CAPABILITY
Variable: DIAMETRO
Observaciones extremas

------Inferior------ ------Superior------

Valor Observacin Valor Observacin

10.39 7 31.45 14
11.34 6 31.46 30
12.67 11 32.45 31
12.67 10 32.67 13
13.45 17 34.56 32
__________________________________________________________
Capability = capacidad
17.5

15.0

12.5

10.0
Porcentaje

7.5

5.0

2.5

0
10.39 12.39 14.39 16.39 18.39 20.39 22.39 24.39 26.39 28.39 30.39 32.39 34.39

DIAMETRO
35

30

25

20
Porcentaje

15

10

0
9 15 21 27 33

DIAMETRO
35

30

25
Porcentaje

20

15

10

0
3 9 15 21 27 33 39

DIAMETRO

Curva: Kernel(c=0.68)
35

30

25
Porcentaje

20

15

10

0
-3 3 9 15 21 27 33 39 45

DIAMETRO

Curva: Kernel(c=1.35)
Media 22.15412
30
Desv iacin std 7.230778
N 17

25
Porcentaje

20
H

15

10
SEXO PERSONAS

0
Media 22.36733
30
Desv iacin std 7.139388
N 15

25

20
Porcentaje
M

15

10

0
12.5 17.5 22.5 27.5 32.5

DIAMETRO
Otro ejemplo sobre construccin de
histograma

Un conjunto de datos que contienen el contenido


de protena de plantas distintas, gramneas y
leguminosas que fueron muestreadas de una 1 ha
de terreno.
OPTIONS NODATE NONUMBER;
DATA HISTOGRAMA3;
INPUT CODIGO $ PLANTAS $ PROTEINA @@;
CARDS;
LACHO GRA 5 ACOB GRA 6 PAM LEG 16
LACHO LEG 13 ACOB LEG 13 PAM LEG 18
LACHO LEG 12 ACOB GRA 9 PAM LEG 15
LACHO GRA 7 ACOB GRA 6 PAM GRA 9
LACHO LEG 14 ACOB LEG 14 PAM LEG 15
LACHO GRA 16 ACOB LEG 15 PAM GRA 9
LACHO LEG 13 ACOB GRA 14 PAM GRA 8
LACHO GRA 15 ACOB GRA 15 PAM LEG 16
LACHO LEG 8 ACOB LEG 17 PAM LEG 15
LACHO LEG 16 ACOB LEG 12 PAM GRA 6
LACHO GRA 8 ACOB GRA 6 PAM LEG 14
LACHO GRA 9 ACOB GRA 7 PAM LEG 18
LACHO LEG 5 ACOB LEG 15 PAM GRA 8
LACHO LEG 15 ACOB LEG 11 PAM LEG 12
LACHO GRA 18 ACOB LEG 13 PAM LEG 17
LACHO GRA 8 ACOB GRA 10 PAM GRA 18
LACHO LEG 13 ACOB LEG 11 PAM LEG 19
LACHO GRA 12 ACOB GRA 14 PAM GRA 18
LACHO GRA 9 ACOB GRA 9 PAM LEG 19
LACHO GRA 6 ACOB GRA 5 PAM LEG 18
LACHO LEG 14 ACOB GRA 8 PAM GRA 13
LACHO GRA 4 ACOB LEG 10 PAM LEG 10
LACHO GRA 7 ACOB GRA 4 PAM LEG 11
LACHO GRA 9 ACOB GRA 5 PAM GRA 10
LACHO LEG 15 ACOB LEG 7 PAM LEG 12
LACHO LEG 12 ACOB GRA 11 PAM LEG 10
LACHO GRA 9 ACOB LEG 12 PAM GRA 6
LACHO GRA 5 ACOB GRA 17 PAM GRA 8
LACHO LEG 13 ACOB GRA 9 PAM LEG 13
LACHO GRA 5 ACOB LEG 16 PAM GRA 9
LACHO LEG 11 ACOB GRA 14 PAM LEG 16
LACHO GRA 5 ACOB LEG 16 PAM GRA 8
;
RUN;
PROC SUMMARY DATA=HISTOGRAMA3 PRINT RANGE;
VAR PROTEINA;
RUN;
TITLE H ="HISTOGRAMA REFERENTE AL CONTENIDO DE
PROTEINA DE PLANTAS";
PROC CAPABILITY DATA= HISTOGRAMA3;
HISTOGRAM PROTEINA /MIDPOINTS= 5.5 TO 19.5 BY 2;
HISTOGRAM PROTEINA;
HISTOGRAM PROTEINA/NOBARS KERNEL (C=.675 K=T);
HISTOGRAM PROTEINA/NOBARS KERNEL (C=1.35 K=T);
RUN;
PROC CAPABILITY DATA = HISTOGRAMA3;
VAR PROTEINA;
COMPHISTOGRAM PROTEINA /CLASS = PLANTAS;
INSET MEAN STD N/POSITION = NE HEIGHT= 1.5;
LABEL PLANTAS =PLANTAS DE LUGARES;
RUN;
Para el comando histogramproteina / midpoints
= 5.5 to 19.5 by 2 , permiti construir un
histograma con 9 clases por medio de los puntos
medios 5.5 a 19.5, espaciados de 2 mm. Para ello,
inicialmente se calcul:
. n = 96
. R (rango) = 15 ( 19, valor mayor 4, valor
menor)
. Nmero de clases (k) = 8 (Tabla Ishiawa)

R 15
. Amplitud de clase (h) = = = 1.87 = 2 .
K 8
Procedimiento SUMMARY
Variable de anlisis: PROTEINA
Rango
15.0000000

Momentos

N 96 Sumar pesos 96
Media 11.4166667 Observ suma 1096
Desviacin std 4.1235311 Varianza 17.0035088
Asimetra -0.0138163 Curtosis -1.0884889
SC no corregida 14128 SC corregida 1615.33333
Coef. variacin 36.1185206 Media error std 0.42085613

Medidas estadsticas bsicas

Ubicacin Variabilidad

Media 11.41667 Desviacin std 4.12353


Mediana 12.00000 Varianza 17.00351
Moda 9.00000 Rango 15.00000
Rango intercuantil 7.00000
Cuantiles (Definicin 5)
Cuantil Estimador

100% Mx 19
99% 19
95% 18
90% 17
75% Q3 15
50% Mediana 12
25% Q1 8
10% 6
5% 5
1% 4
0% Mn 4
Procedimiento CAPABILITY
Variable: PROTEINA

Observaciones extremas

------Inferior----- ------Superior-----

Valor Observacin Valor Observacin

4 68 18 48
4 64 18 54
5 94 18 60
5 88 19 51
5 82 19 57
17.5

15.0

12.5

10.0
Porcentaje

7.5

5.0

2.5

0
3.5 5.5 7.5 9.5 11.5 13.5 15.5 17.5 19.5

PROTEINA
20.0

17.5

15.0

12.5
Porcentaje

10.0

7.5

5.0

2.5

0
3.75 6.25 8.75 11.25 13.75 16.25 18.75

PROTEINA
25

20

15
Porcentaje

10

0
1.25 3.75 6.25 8.75 11.25 13.75 16.25 18.75 21.25

PROTEINA

Curva: Kernel(c=0.68)
20.0

17.5

15.0

12.5
Porcentaje

10.0

7.5

5.0

2.5

0
-1.25 1.25 3.75 6.25 8.75 11.25 13.75 16.25 18.75 21.25 23.75

PROTEINA

Curva: Kernel(c=1.35)
Media 9.306122
40
Desv iacin std 3.94865
N 49
35

30
Porcentaje

25
GRA

20

15
PLANTAS DE LUGARES

10

0
Media 13.61702
40
Desv iacin std 3.025638
N 47
35

30
Porcentaje

25
LEG

20

15

10

0
5.0 7.5 10.0 12.5 15.0 17.5 20.0

PROTEINA
REPRESENTACIN DE LOS DATOS.
TABLA DE FRECUENCIAS
VARIABLE CUANTITATIVA DISCRETA
En una caseta de vegetacin se tiene 10 plantas de
trbol cuyo nmero de hojas se indica en la tabla
siguiente:
. Xi fri fri (%) Fi Fri (%)
fi
Frec. Frec.
(n de Planta trbol
relativa absta
Frec.
hojas) Absoluta Acumul

0 1/10 = 0.10 fr1 = 10% F1 = 1 1/10 = 0.10


1 = f1
1 2/10 = 0.20 fr2 = 20% F2 = 3 3/10 = 0.30
2 = f2
2 4/10 = 0.40 fr3 = 40% F3 = 7 7/10 = 0.70
4 = f3
3 2/10 = 0.20 fr4 = 20% F4 = 9 9/10 = 0.90
2 = f4
4 1/10 = 0.10 fr5 =10% F5 =10 10/10 = 1
1 = f5
1.0 100% X X
10 plantas
.
Xi fi
(n de Planta trbol
Frec. Absoluta
hojas)
0 1 = f1
Existen 2 plantas de trbol,
1 = f2 cada una de ellas con 1 una
hoja
2 4 = f3
3 2 = f4
4 = f5 Existe una planta de trbol
con 4 hojas

10 plantas
. Explicar:
f2 , fr2 , F2 , Fr2

f2 = existen 2 plantas de trbol que tienen una hoja.


fr2 = 20 % (de las plantas de trbol tienen una hoja).
F2 = 3 ( plantas de trbol tienen de cero a una hoja).
Fr2 = 30 % ( de las plantas de trbol tienen de cero a una
hoja).
.
.
Nmero de hojas
4.5
4
4
3.5
3
2.5
2 2
2
1.5
1 1
1
0.5
0
1 2 4 2 1
0 1 2 parte inferior
Nmero de hojas 3 4

También podría gustarte