Está en la página 1de 7

ANALISIS_PREVIO_DE_LOS_DATOS.

R
HUMBERTO BARRIOS
Tue Mar 17 16:47:40 2015
#####ANLISIS PREVIO DE LOS DATOS########
#Para bajar el conjunto de datos nos vamos a
#http://estadisticaupc.blogspot.com/
##
##
#DATOS HATCO>>>>>>>>>Ver aqu
#HAIR, ANDERSON Y TATHAM, ANALISIS MULTIVARIANTE, 5 Edicin.
PRENTICE-HALL, 1999
HATCO<-read.csv("C:/Users/HUMBERTO BARRIOS/Desktop/ANALISIS MULTIVARIANTE CON R/HATCO.csv",
sep=";")
#Para observar el nmero de datos, nmero de variables y adems para ver los primeros
#valores en cada variable utilicamos el comando str(). Como se muestra en el siguiente
#ejemplo con los datos HATCO:
str(HATCO)
## 'data.frame':
100 obs. of 15 variables:
## $ id : int 1 2 3 4 5 6 7 8 9 10 ...
## $ x1 : num 4.1 1.8 3.4 2.7 6 1.9 4.6 1.3 5.5 4
## $ x2 : num 0.6 3 5.2 1 0.9 3.3 2.4 4.2 1.6 3.5
## $ x3 : num 6.9 6.3 5.7 7.1 9.6 7.9 9.5 6.2 9.4
## $ x4 : num 4.7 6.6 6 5.9 7.8 4.8 6.6 5.1 4.7 6
## $ x5 : num 2.4 2.5 4.3 1.8 3.4 2.6 3.5 2.8 3.5
## $ x6 : num 2.3 4 2.7 2.3 4.6 1.9 4.5 2.2 3 3.2
## $ x7 : num 5.2 8.4 8.2 7.8 4.5 9.7 7.6 6.9 7.6
## $ x8 : int 0 1 1 1 0 1 0 1 0 1 ...
## $ x9 : num 32 43 48 32 58 45 46 44 63 54 ...
## $ x10: num 4.2 4.3 5.2 3.9 6.8 4.4 5.8 4.3 5.4
## $ x11: int 1 0 0 0 1 0 1 0 1 0 ...
## $ x12: int 0 1 1 1 0 1 0 1 0 1 ...
## $ x13: int 1 0 1 1 1 1 1 0 1 0 ...
## $ x14: int 1 1 2 1 3 2 1 2 3 2 ...

...
...
6.5 ...
...
3.7 ...
...
8.7 ...
5.4 ...

# Podemos observer 100 datos con 14 variables. Las variables x1, x2,..., x7, x9 y x10
# son mtricas y las otras son no mtricas.
######################ANALISIS DE LA FORMA DE LA DISTRIBUCIN########################
#Comenzemos con la variable x1: tiempo de entrega del producto despus que se ha ordenado
#el pedido
x1=HATCO$x1;x1
##
##

[1] 4.1 1.8 3.4 2.7 6.0 1.9 4.6 1.3 5.5 4.0 2.4 3.9 2.8 3.7 4.7 3.4 3.2
[18] 4.9 5.3 4.7 3.3 3.4 3.0 2.4 5.1 4.6 2.4 5.2 3.5 4.1 3.0 2.8 5.2 3.4
1

##
##
##
##

[35]
[52]
[69]
[86]

2.4
2.6
5.3
2.5

1.8
4.5
2.3
2.4

3.6
2.8
3.6
2.1

4.0
3.8
5.6
2.9

0.0
2.9
3.6
4.3

2.4
4.9
5.2
3.0

1.9
5.4
3.0
4.8

5.9
4.3
4.2
3.1

4.9
2.3
3.8
1.9

5.0
3.1
3.3
4.0

2.0
5.1
1.0
0.6

5.0
4.1
4.5
6.1

3.1
3.0
5.5
2.0

3.4
1.1
3.4
3.1

5.8 5.4 3.7


3.7 4.2 1.6
1.6 2.3 2.6
2.5

#Un comando que nos da el nmero de datos de una variable length()


length(x1)
## [1] 100
#Para ordenar los datos de menor a mayor sort()
sort(x1)
##
##
##
##
##
##

[1]
[18]
[35]
[52]
[69]
[86]

0.0
2.3
3.0
3.4
4.2
5.1

0.6
2.4
3.0
3.5
4.2
5.2

1.0
2.4
3.0
3.6
4.3
5.2

1.1
2.4
3.0
3.6
4.3
5.2

1.3
2.4
3.0
3.6
4.5
5.3

1.6
2.4
3.1
3.7
4.5
5.3

1.6
2.4
3.1
3.7
4.6
5.4

1.8
2.5
3.1
3.7
4.6
5.4

1.8
2.5
3.1
3.8
4.7
5.5

1.9
2.6
3.2
3.8
4.7
5.5

1.9
2.6
3.3
3.9
4.8
5.6

1.9
2.7
3.3
4.0
4.9
5.8

2.0
2.8
3.4
4.0
4.9
5.9

2.0
2.8
3.4
4.0
4.9
6.0

2.1
2.8
3.4
4.1
5.0
6.1

2.3
2.9
3.4
4.1
5.0

2.3
2.9
3.4
4.1
5.1

5.3
4.5
3.6
3.0
2.4
1.3

5.2
4.3
3.6
3.0
2.4
1.1

5.2
4.3
3.6
3.0
2.4
1.0

5.2
4.2
3.5
3.0
2.4
0.6

5.1
4.2
3.4
3.0
2.3
0.0

5.1
4.1
3.4
2.9
2.3

5.0
4.1
3.4
2.9
2.3

#Para ordenar los datos de mayor a menor sort()


sort(x1,TRUE)
##
##
##
##
##
##

[1]
[18]
[35]
[52]
[69]
[86]

6.1
5.0
4.1
3.4
2.8
2.1

6.0
4.9
4.0
3.4
2.8
2.0

5.9
4.9
4.0
3.4
2.8
2.0

5.8
4.9
4.0
3.3
2.7
1.9

5.6
4.8
3.9
3.3
2.6
1.9

5.5
4.7
3.8
3.2
2.6
1.9

5.5
4.7
3.8
3.1
2.5
1.8

5.4
4.6
3.7
3.1
2.5
1.8

5.4
4.6
3.7
3.1
2.4
1.6

5.3
4.5
3.7
3.1
2.4
1.6

#Veamos un resumen de los datos con el comando summary()


summary(x1)
##
##

Min. 1st Qu.


0.00
2.50

Median
3.40

Mean 3rd Qu.


3.52
4.60

Max.
6.10

#El valor minimo es 0 puede indicar un valor atipico, 2.5 es el primer cuartil el cual indica
#que el 25% de todos los valores en el conjunto de datos es menor o igual a 2.5 , y por lo
#tanto el otro 75% es mayor que dicho valor, 3.4 es la mediana el cual indica que el 50% de
#todos los valores en el conjunto de datos es menor o igual a 3.4 , y por lo tanto el otro 50%
#es mayor que dicho valor, 3.52 es el promedio, y por ultimo tenemos 4.6 que el 3 cuartil y el
#valor maximo 6.1.
#Para ver el perfil de la poblacin de donde proviende los datos, se hace con el comando stem():
stem(x1)

##
##
##
##
##
##
##
##
##
##

The decimal point is at the |


0
1
2
3
4
5
6

|
|
|
|
|
|
|

06
0136688999
0013334444445566788899
0000011112334444445666777889
00011122335566778999
0011222334455689
01

#o con el comando hist():


hist(x1,col='blue',xlab='x1:Tiempo que tarda en enviarse el pedido',ylab='Frecuencias')

15
10
0

Frecuencias

20

25

Histogram of x1

x1:Tiempo que tarda en enviarse el pedido


#Para ver sobre la variabilidad de los datos teenemos:
#1. El rango:
range(x1)
## [1] 0.0 6.1
#2. La varianza:
var(x1)
3

## [1] 1.744
#3. Desviacin estndar:
sd(x1)
## [1] 1.321
#En forma grfica y mostrar valores atipicos:

6
5
4
3
2
1
0

Tiempo que tarda en enviarse el pedido

boxplot(x1,col='blue',ylab='Tiempo que tarda en enviarse el pedido')

##########################VARIABLE NO MTRICA##############################################
#Por ejemplo tomemos la variable no mtrica x14: Tipo de situacin de compra.
x14=HATCO$x14;x14
##
##
##

[1] 1 1 2 1 3 2 1 2 3 2 1 2 1 1 3 3 2 2 3 3 2 1 3 1 2 3 1 3 3 2 1 3 3 1 1
[36] 1 2 3 1 1 1 3 3 2 1 3 3 2 3 3 2 2 2 1 1 2 2 3 3 2 3 3 3 2 1 2 3 2 3 2
[71] 2 3 3 3 1 2 2 3 1 3 3 2 1 1 2 1 2 1 1 3 2 2 2 1 1 1 3 1 1 1

#Para resalta que una varable es una carateristica as.character():


as.character(x14)
##
##
##
##
##
##

[1]
[18]
[35]
[52]
[69]
[86]

"1"
"2"
"1"
"2"
"3"
"1"

"1"
"3"
"1"
"2"
"2"
"2"

"2"
"3"
"2"
"1"
"2"
"1"

"1"
"2"
"3"
"1"
"3"
"1"

"3"
"1"
"1"
"2"
"3"
"3"

"2"
"3"
"1"
"2"
"3"
"2"

"1"
"1"
"1"
"3"
"1"
"2"

"2"
"2"
"3"
"3"
"2"
"2"

"3"
"3"
"3"
"2"
"2"
"1"

"2"
"1"
"2"
"3"
"3"
"1"

"1"
"3"
"1"
"3"
"1"
"1"

"2"
"3"
"3"
"3"
"3"
"3"

"1"
"2"
"3"
"2"
"3"
"1"

"1"
"1"
"2"
"1"
"2"
"1"

"3"
"3"
"3"
"2"
"1"
"1"

"3"
"3"
"3"
"3"
"1"

"2"
"1"
"2"
"2"
"2"

#Una tabla de frecuencias para mirar cuantos hay de cada tipo de compra en la muestra
Tabla=table(x14);Tabla
## x14
## 1 2 3
## 34 32 34
#En forma grafica
barplot(Tabla,col='red',main='Tipo de compra')

10

15

20

25

30

Tipo de compra

#O en esta forma
pie(Tabla,col=c('red','blue','yellow'),main='Tipo de compra')

Tipo de compra

#Combinemos una variable mtrica con una no mtrica. Por ejemplo, las variables x1: tiempo de entrega
#con x14: tipo de compra, con el comando boxplot():
boxplot(x1~x14,col='red',ylab='x1: Tiempo de entrega',xlab='Tipo de compra')

1
2

Tipo de compra

x1: Tiempo de entrega


6

También podría gustarte