P2 U1 MMIIEMariel Pedroza Guzman

CENTRO DE CIENCIAS BÁSICAS
INGENIERÍA INDUSTRIAL ESTADÍSTICA
MÉTODOS MULTIVARIADOS
Práctica I.2: Análisis Descriptivo Multivariado y

Matriz de Dispersión
M. en C. José De Jesús Ruíz Gallegos
Mariel Pedroza Guzmán

7to Semestre
Lunes 12 de septiembre de 2022

Introducción
Para esta práctica se creará una base de datos utilizando los porcentajes de
distintos indicadores de Dimensiones de Bienestar de la página web del INEGI,
posteriormente se calcularán distintas medidas como el centroide, las matrices de
covarianzas, correlación y dispersión.
Objetivos
• Conocer si las distintas variables (indicadores) se relación entre sí y de qué

manera lo hacen.
• Identificar problemas de heteroscedasticidad entre los datos.
• Identificar la posible formación de grupos entre variables.
Equipo, Herramientas o Material
Software R.
Situación
Mediante el software R, se obtendrán distintas mediciones de los datos obtenidos

de la página del INEGI utilizando los porcentajes de distintos indicadores de
Dimensiones de Bienestar (Anexo 1). Cada renglón representa a un estado de
México ordenados en orden alfabético (32 en total). Las variables que se utilizaron
son la siguientes:
X1= Porcentaje de Población con Acceso a servicios de salud pública.
X2=Porcentaje de Hogares con acceso a banda ancha
X3=Porcentaje de Viviendas con acceso a servicios básicos
X4=Porcentaje de Deserción escolar en educación media superior
X5=Esperanza de vida al nacer
X6=Tasa de mortalidad infantil (defunciones de menores de un año por cada mil

nacidos vivos)
X7=Tasa de pobreza (porcentaje de población en pobreza)

X8=Tasa de desempleo
X9=Percepción de la inseguridad (Porcentaje de la población que se siente

insegura en su colonia o localidad)
Procedimiento
Lo primero que se hizo fue encontrar la media estimada de cada una de las
variables de la base de datos creada para crear una matriz y así obtener el
centroide estimado. Después se obtuvo la matriz de covarianzas mediante la
función “cov” y los gráficos de correlación y dispersión.
Datos obtenidos
Gráfica 1
Gráfica 2
Análisis
Al observar los gráficos de dispersión y de correlación podemos ver que si existen

relaciones lineales, entre ellas podríamos mencionar a las más notorias que se
observan en la Gráfica 2.
-Positivas: (x1,x2);( x1, x3); (x1, x5); (x2,x5); (x3, x5); (x5, x8); (x8 , x9).
-Negativas: (x1,x7); (x2, x7); (x3,x7); (x5,x7)
Respecto a las relaciones no lineales, no se observa un comportamiento

exponencial o de algún otro tipo, sin embargo utilizando algún otro método
podríamos descubrir si es que existen.
Si buscamos grupos de variables, podemos ir a la gráfica 1, la cual esta ordenada

en medida que se observen mejor lo grupos formados, y los colores indicarían: rojo
las correlaciones mayores a 40 aproximadamente, verde mayores a 15 y amarillo
menor o igual a 15.
Grupo1: x1,x2,x3,x5 y x7,
Grupo 2: x8 y x9
X4 y X6 no se relacionan con ninguna variable.
Respecto a la heterocedasticidad, se puede observar en la correlación de ( x1,x3),

ya que al inicio de la gráfica los puntos están muy dispersos pero al ir creciendo
estos se van acercando, lo que genera una vista como de cono en los puntos.
Conclusiones
El uso de gráficos de dispersión, correlación, histogramas, entre otros, es

sumamente útil en el análisis descriptivo multivariado y gracias al uso de R tenemos
una variedad muy amplia de estas mismas, con las cuales podemos apreciar los
tipos de relaciones, la intensidad de estas, e identificar los grupos que se forman
con mayor facilidad que únicamente observando los coeficientes de correlación.
Referencias
R (4.1.1). (2021). [Lenguaje de programación]. https://www.r-project.org/
Banco de Indicadores - Indicadores de Bienestar por entidad federativa. (s. f.). Recuperado 12 de
septiembre de 2022, de https://www.inegi.org.mx/app/bienestar/

Anexos
Anexo 1
## CODIGO MARIEL PEDROZA GUZMÁN ##

datos=read.table(file.choose(),header=T,sep=",")
N=nrow(datos)
names(datos)
attach(datos)
xb1=mean(x1)
xb2=mean(x2)
xb3=mean(x3)
xb4=mean(x4)
xb5=mean(x5)
xb6=mean(x6)
xb7=mean(x7)
xb8=mean(x8)
xb9=mean(x9)
##CENTROÍDE
centroide=matrix(c(xb1,xb2,xb3,xb4,xb5,xb6,xb7,xb8,xb9))
##COVARIANZA
covarianzas=cov(datos)
panel.cor <- function(x, y, digits = 2, prefix = "", cex.cor, ...)
{
usr <- par("usr"); on.exit(par(usr))
par(usr = c(0, 1, 0, 1))
r <- abs(cor(x, y))
txt <- format(c(r, 0.123456789), digits = digits)[1]
txt <- paste0(prefix, txt)
if(missing(cex.cor)) cex.cor <- 0.8/strwidth(txt)
text(0.5, 0.5, txt, cex = 1+ cex.cor * r)
}
## put histograms on the diagonal

panel.hist <- function(x, ...)
{
par(usr = c(usr[1:2], 0, 1.5) )
h <- hist(x, plot = FALSE)
breaks <- h$breaks; nB <- length(breaks)
y <- h$counts; y <- y/max(y)
rect(breaks[-nB], 0, breaks[-1], y, col = "#FFF68F", ...)
}
pairs(datos, main = "INDICADORES DE DIMENSIONES DEL BIENESTAR DE LOS

ESTADOS DE MÉXICO", pch = 21,
bg = rainbow(32), upper.panel = panel.cor, diag.panel =
panel.hist,lower.panel=panel.smooth)
###### DISPERCIÓN
pairs(datos, main = "Indicadores", pch = 21,

bg = rainbow(32))
######
install.packages("gclus")
library(gclus)
data <- datos # Variables numéricas
cpairs(data) # Alternativa a pairs()
corr <- abs(cor(data)) # Correlación en valor absoluto

corr
colors <- dmat.color(corr)
order <- order.single(corr)
cpairs(data, order, panel.colors = colors, gap = 0.5,

main = "INDICADORES DE DIMENSIONES DEL BIENESTAR DE LOS
ESTADOS DE MÉXICO")
######
panel.cor <- function(x, y, digits = 2, prefix = "", cex.cor, ...)
{
par(usr = c(0, 1, 0, 1))
r <- abs(cor(x, y))
txt <- format(c(r, 0.123456789), digits = digits)[1]
txt <- paste0(prefix, txt)
if(missing(cex.cor)) cex.cor <- 0.8/strwidth(txt)
text(0.5, 0.5, txt, cex = 1+ cex.cor * r)
}
cpairs(datos, order, panel.colors = colors, gap = 0.5,

main = "INDICADORES DE DIMENSIONES DEL BIENESTAR DE LOS
ESTADOS DE MÉXICO")
Anexo 2
x1 x2 x3 x4 x5 x6 x7 x8 x9
79.8 75.6 98.8 11.4 76.2 9.9 27.6 4.1 44.8
76 84.1 95.7 11.4 76.2 10.9 22.5 2.5 37.7
82.6 84.2 93.3 9.6 76.1 10.9 27.6 4.1 23.1
79 69.5 90.7 11.9 75.1 10.9 50.5 3 36.5
78.4 74.7 97.4 14.2 75.9 11.1 25.6 4.9 30
81 80.4 98.7 14.1 75.8 10.5 26.7 3.1 41.2
62.9 39.4 75.9 8.9 74.6 13.4 75.5 3.2 30.3
82.9 73.4 95.6 13.8 75.7 14.1 25.3 3.4 30.6
73.3 87.7 97.5 13.4 76.8 12.7 32.6 6.9 53.2
77.1 60.7 95.1 14.4 75.4 10.1 38.7 4.1 28.7
75.2 65.4 93.3 12.5 75.5 10.1 42.7 5.2 48.6
66.5 66.8 71.5 10.5 73.6 7.9 66.4 1.6 29
73.1 61.5 91.5 10.9 75.4 8.8 50.8 3 39.4
67.9 74 97.7 1.3 75.8 11 31.4 3.4 42
65.8 81.3 93.1 11.7 75.7 12.8 48.9 5.8 59.7
61.3 63.6 90.4 14.2 75.1 7.4 44.5 2.3 35.8
68.2 76.2 90.1 15 75.5 9 50.9 2.4 54.4
75.3 68.3 94.1 6.6 75.6 7.9 30.4 2.9 24
78.5 81.7 98 12.3 76.2 9.1 24.3 4.5 37.8
63.1 53 72.8 13.3 74.5 9.2 61.7 1.6 29.7
68 63.6 87.5 11.4 75.1 13.6 62.4 3.9 48.9
79.1 79.3 94.6 14.1 75.9 9.5 31.3 5.5 48.2
75.2 83.1 92.7 11.1 75.7 10 47.5 5.9 40.7
80.2 67.4 82.4 11.7 75.2 8.9 42.8 3.4 43.7
80.4 82.6 92.8 10.8 75.4 6.9 28.1 2.7 22.2
79.9 92.6 91.8 9.4 75.7 9.1 29.9 3.8 39.4
73 61.1 80.8 9.1 75.3 13 54.5 5.8 51.5
80.4 74.1 93.7 10.6 75.5 10.9 34.9 3.5 28.4
72.4 60.6 96.9 7.2 75.5 12.2 59.3 5.2 51
69 58.1 77.8 6.4 74.9 12.7 58.6 3.4 36.1
75.3 73 92.9 10.3 75 11.4 49.5 2.5 25.6
76.2 67.4 93.8 11.6 75.3 9.2 45.8 3.5 43.7

P2 U1 MMIIEMariel Pedroza Guzman

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

P2 U1 MMIIEMariel Pedroza Guzman

Cargado por

Copyright:

Formatos disponibles

CENTRO DE CIENCIAS BÁSICAS

INGENIERÍA INDUSTRIAL ESTADÍSTICA

Práctica I.2: Análisis Descriptivo Multivariado y

Mariel Pedroza Guzmán

Lunes 12 de septiembre de 2022

• Conocer si las distintas variables (indicadores) se relación entre sí y de qué

Equipo, Herramientas o Material

Mediante el software R, se obtendrán distintas mediciones de los datos obtenidos

X1= Porcentaje de Población con Acceso a servicios de salud pública.

X2=Porcentaje de Hogares con acceso a banda ancha

X3=Porcentaje de Viviendas con acceso a servicios básicos

X4=Porcentaje de Deserción escolar en educación media superior

X5=Esperanza de vida al nacer

X6=Tasa de mortalidad infantil (defunciones de menores de un año por cada mil

X7=Tasa de pobreza (porcentaje de población en pobreza)

X9=Percepción de la inseguridad (Porcentaje de la población que se siente

Al observar los gráficos de dispersión y de correlación podemos ver que si existen

Respecto a las relaciones no lineales, no se observa un comportamiento

Si buscamos grupos de variables, podemos ir a la gráfica 1, la cual esta ordenada

Respecto a la heterocedasticidad, se puede observar en la correlación de ( x1,x3),

El uso de gráficos de dispersión, correlación, histogramas, entre otros, es

R (4.1.1). (2021). [Lenguaje de programación]. https://www.r-project.org/

septiembre de 2022, de https://www.inegi.org.mx/app/bienestar/

## CODIGO MARIEL PEDROZA GUZMÁN ##

## put histograms on the diagonal

pairs(datos, main = "INDICADORES DE DIMENSIONES DEL BIENESTAR DE LOS

pairs(datos, main = "Indicadores", pch = 21,

corr <- abs(cor(data)) # Correlación en valor absoluto

cpairs(data, order, panel.colors = colors, gap = 0.5,

cpairs(datos, order, panel.colors = colors, gap = 0.5,

También podría gustarte