Está en la página 1de 10

ESCUELA SUPERIOR POLITÉCNICA DEL LITORAL

Año: 2020 Periodo: II PAO


Materia: Estadística I

Práctica: Estadística Descriptiva Multivariada


Fecha: Duración 60
: minutos

Práctica 4. Estadística Descriptiva Multivariada


Introducción
En la presente prá ctica se requerirá del uso del objeto matrix en Rstudio; previamente
conozcamos ciertos aspectos bá sicos sobre el manejo de matrices en el lenguaje R.
Instrucciones básicas:
 La funció n matrix() permite organizar los datos en una matriz con tantas
filas y columnas como se indique.
 x <- matrix (data= c(1,2,3,4), nrow=2, ncol=2) #Observemos que se ha
creado una matrix de 2x2 (2 filas y 2 columnas)
Si queremos que se rellene por filas hay que incluir el argumento byrow=T
en los argumentos de la funció n.
 Para añ adir o modificar el nombre de filas y columnas de una matriz se
hace uso de las funciones colnames() y rownames().
 Obtener la dimensió n de una matriz con dim(objeto).
 Dos funciones muy ú tiles, se utilizan muchísimo, cuando se trabaja con
matrices (o vectores o dataframes) son rbind y cbind. La funció n rbind
permite añ adir filas, la funció n cbind permite añ adir columnas.
 Operadores bá sicos entre elementos: Las operaciones algebraicas (+, -, , /, ^,
log(), sqrt(), ..) aplicadas a matrices se realizan componente a componente,
igual que para los vectores.
 Operadores básico entre matrices: Multiplicación matricial: "%%".
Transpuesta: t(x) Inversa: solve(x).

Para mayor informació n puede consultar:


https://www.uv.es/pjperez/curso_R/index.html
4
Tema 1.
A cinco estudiantes en “nivel superior” se les pregunta aplicando un cuestionario, su
edad en añ os, nú mero de hermanos e ingreso promedio mensual de su hogar, en
dó lares, respondiendo ellos de la siguiente manera:

a) Organice los datos en una Matriz de datos Y


#Vectores que constituyen la muestra:

X1=c(19,3,930)
X2=c(18,0,750)
X3=c(19, 4, 785)
X4=c(21, 1, 1230)
X5=c(20, 3, 955)
Y=matrix(c(X1,X2,X3,X4,X5),ncol=5,nrow=3, byrow = F)
class(Y)

## [1] "matrix"

## [,1] [,2] [,3] [,4] [,5]


## [1,] 19 18 19 21 20
## [2,] 3 0 4 1 3
## [3,] 930 750 785 1230 955

#segunda forma de crear la matriz de datos por unión de columnas


Y1=cbind(X1, X2, X3, X4, X5)
class(Y1)

## [1] "matrix"

Y1

## X1 X2 X3 X4 X5
## [1,] 19 18 19 21 20
## [2,] 3 0 4 1 3
## [3,] 930 750 785 1230 955

#tercera forma de crear la matriz de datos por ingreso de datos


Y2=matrix(scan(), ncol = 5) #recuerde que el ingreso es por columnas y
finaliza con doble enter
Y2

## [,1] [,2] [,3] [,4] [,5]

#cuarta forma de crear la matriz de datos por lectura de un archivo.txt


Y3=read.table("datos_practica4_tema1.txt", header = T, sep="\t")
Y3=as.matrix(Y3)
class(Y3)

## [1] "matrix"

Y3

## Estudiante Edad Número.de.Hermanos Ingreso.Mensual


## [1,] 1 19 3 930
## [2,] 2 18 0 750
## [3,] 3 19 4 785
## [4,] 4 21 1 1230
## [5,] 5 20 3 955

b) Calcule el Vector de Medias Aritméticas.


#primera forma para obtener vector de medias operación matricial
U1=matrix(rep(1,5), ncol = 1)
U1

## [,1]
## [1,] 1
## [2,] 1
## [3,] 1
## [4,] 1
## [5,] 1

n=ncol(Y)
n

## [1] 5

V_medias1=((1/n)*Y)%*%U1
V_medias1

## [,1]
## [1,] 19.4
## [2,] 2.2
## [3,] 930.0

#segunda forma para calcular vector de medias


V_medias2=rowMeans(Y)
V_medias2

## [1] 19.4 2.2 930.0

c) Calcule la Matriz de Varianza y Covarianzas


#primera forma de calcular la matriz de varianza y covarianzas esquema
matricial
I=diag(5)
I

## [,1] [,2] [,3] [,4] [,5]


## [1,] 1 0 0 0 0
## [2,] 0 1 0 0 0
## [3,] 0 0 1 0 0
## [4,] 0 0 0 1 0
## [5,] 0 0 0 0 1

S=((1/(n-1))*Y)%*%( I-(1/n)*U1%*%t(U1) )%*%t(Y)


S

## [,1] [,2] [,3]


## [1,] 1.30 0.15 201.25
## [2,] 0.15 2.70 -51.25
## [3,] 201.25 -51.25 36012.50

#Segunda forma de calcular la matriz de varianza y covarianza

D=t(Y) #ordernar la matriz de tal forma que las columnas sean las
variables
D

## [,1] [,2] [,3]


## [1,] 19 3 930
## [2,] 18 0 750
## [3,] 19 4 785
## [4,] 21 1 1230
## [5,] 20 3 955

S=var(D)
S

## [,1] [,2] [,3]


## [1,] 1.30 0.15 201.25
## [2,] 0.15 2.70 -51.25
## [3,] 201.25 -51.25 36012.50

d) Calcular el coeficiente de correlació n


D=t(Y)
cor(D)

## [,1] [,2] [,3]


## [1,] 1.00000000 0.08006408 0.9301170
## [2,] 0.08006408 1.00000000 -0.1643559
## [3,] 0.93011699 -0.16435592 1.0000000

Tema 2.
En un anuncio de prensa se indica el nú mero de detenidos liberados por caducidad de
la prisió n preventiva, X1 entre octubre de 2007 y mayo de 2009. De igual manera se
da el nú mero de reincidentes liberados, X2, por tipo de delitos. Los datos se presentan
a continuació n:

a) Organice los datos en dos vectores de datos Solució n:


X1=c(575,333,228,125,87,29,81,44,71,161)
X2=c(41,10,16,9,4,4,6,2,0,14)

b) Determine el total de personas liberadas en el período y calcule el má ximo y el


mínimo de las dos variables presentadas.
Solució n:
total=sum(X1)
min_lib=min(X1)
max_lib=max(X1)
min_rein=min(X2)
max_rein=max(X2)

c) Determine el promedio general y mensual, de liberados en el periodo.


Solució n:
prom_g=mean(X1)
prom_m=total/20

d) Calcule la covarianza entre las variables y la correlació n.


#Covarianza entre X1 y X2
n=length(X1)
X1m=mean(X1)
X2m=mean(X2)
S=(1/(n-1))*sum((X1-X1m)*(X2-X2m))
S

## [1] 1843.289
#covarianza forma directa por comando
cov(X1,X2)

## [1] 1843.289

#Correlación entre X1 y X2
rxy=sum((X1-X1m)*(X2-X2m))/sqrt( sum((X1-X1m)^2)*sum((X2-X2m)^2) )
rxy

## [1] 0.9222512

#correlación forma directa por comando


cor(X1,X2)

## [1] 0.9222512

SECCIÓN DE TAREA DE LA PRACTICA


Pegue los códigos usados para generar cada una de las respuestas y los gráficos en
cada respectivo ítem al igual que en los ejercicios guía anteriores. Las interpretaciones
son igual o má s importantes que los resultados. Use lenguaje no técnico de tal forma
que cualquier persona, sin conocimiento de Estadística, pueda entender lo expuesto.

Una vez que realice su tarea, pegue su link de RStudio Cloud aquí:

Tema 3.
En este problema, la matriz de datos X en su primera fila presenta el “contenido de
SO2 en el aire” (en microgramos por m 3) en 8 puntos de desarrollo industrial de un
país latinoamericano; la segunda fila es la “temperatura anual promedio” del lugar
(grados centígrados) y la tercera el “nú mero de fá bricas instaladas” en el á rea
consideradas:

A partir de estos datos, construya el Vector de medias de la muestra, la Matriz de


Varianza y Covarianza y la Matriz de Correlaciones de la muestra. Interprete
resultados.
Tema 4.
Se entrevista a seis personas y se les pregunta, en ese orden, su edad en añ os X1, el
nú mero de hijos que tiene X2, y el nú mero de añ os de educació n formal X3 que
poseen. Los resultados se los muestra en la siguiente matriz de datos.

Determine, utilizando matrices, la Media Aritmética de cada una de las variables


investigadas, así como la matriz de varianzas y covarianzas que corresponde a estos
datos. Interprete resultados.

Tarea 4. Estadística Descriptiva Multivariada fuera de la


práctica
Tema 4.1.

Se entrevista a seis personas y se les pregunta en ese orden:

X = edad en añ os
Y= nú mero de hijos que tiene
Z= nú mero de añ os de educació n formal que posee
Los resultados se muestran en la siguiente matriz de datos:

Realice en Rstudio lo siguiente:


X Y Z
23.6 0 15 a) Determine la media de cada variable aleatoria
41.3 2 10 b) Determine la varianza de cada variable aleatoria
33.2 2 14 c) Determine la matriz de varianzas y covarianzas y
28.5 1 17
Σ xyz
21.6 0 15
36.7 3 17
la matriz de correlació n r x , y , z
d) Analice la matriz de correlació n r x , y , z calculada en el literal c)

Tema 4.2.
A un grupo de 15 estudiantes universitarios se le formula tres preguntas: la primera
X1, su edad en añ os; la segunda, X2, el tiempo en minutos que emplean diariamente
para actualizar su espacio en “redes sociales” a las que está n suscritos; y, la tercera X3,
el nú mero de fotografías que han “subido” y puesto a consideració n de sus contactos
en la red social, en los ú ltimos dos meses. Los resultados se muestran en la siguiente
matriz de datos:

Realice en Rstudio lo siguiente:

Para la muestra trivariada calcule el Vector de medias, la Matriz de Covarianzas y la


Matriz de Correlació n. Determine los valores numéricos de los deciles primero al
noveno, así como el primer y tercer cuartil de las tres variables. Construya un
Diagrama de cajas para cada variable. Interprete los resultados.

Tema 4.3.

En Rstudio de forma matricial, calcule el Vector de Medias y la Matriz de Varianza y


Covarianza para la siguiente muestra tetravariada:
Tema 4.3

A fin de controlar “en línea” la calidad de un producto, se monitorea un proceso


productivo cada hora, durante veinte horas, tomando una muestra de tamañ o 5 de la
característica que define la calidad(variables), obteniéndose de esta manera las
siguientes veinte muestras:
Número de la
X1 X2 X3 X4 X5
muestra
1 14 11 19 17 8
2 15 20 8 14 12
3 15 14 19 19 20
4 11 19 22 13 11
5 13 9 16 16 13
6 6 10 18 21 9
7 11 17 17 19 15
8 11 15 12 24 6
9 8 17 8 22 16
10 14 16 16 22 11
11 12 19 17 18 19
12 3 9 13 12 14
13 12 15 12 17 26
14 14 20 20 12 20
15 15 14 17 24 18
16 14 10 14 16 11
17 17 21 16 20 19
18 16 13 11 10 16
19 11 18 14 20 17
20 17 17 8 9 13

Realice en Rstudio:

a) Organice los datos en una matriz de datos.


b) Calcule el Vector de medias,
c) Realice un Diagrama de Cajas para cada variable (característica de calidad)
d) Calcule la Matriz de Covarianzas.
e) Calcule la Matriz de Correlació n. Indique la dupla(s) de variables presentan
mayor correlació n.

También podría gustarte