Documentos de Académico
Documentos de Profesional
Documentos de Cultura
La primera actividad en cualquier tipo de análisis estadı́stico corresponde a la exploración y descripción de los datos. Es
frecuente, que estos métodos permitan una evaluación inicial de los supuestos sobre los cuales están construidos los métodos
inferenciales. Los métodos estadı́sticos descriptivos convencionales dependen de la naturaleza de las variables (cualitativas,
cuantitativas) y de la cantidad de variables a analizar (univariados, multivariados). En general, consisten en la construcción
de distribuciones de frecuencias, medidas estadı́sticas resumen y gráficos.
A continuación se muestran algunas instrucciones que permiten la generación de los métodos descriptivos usados
comúnmente por medio del paquete estadı́stico R. La idea de desarrollar está guı́a surge de la flexibilidad y la disponibilidad
que posee el R en el análisis de datos. La flexibilidad expresada en la posibilidad de modificar las funciones disponibles
y/o generar nuevas dependiendo de la necesidad del usuario. La disponibilidad hace referencia a que el R es un paquete de
licencia libre y no require una gran inversión de recursos en su adquisición. Pese a lo anterior, el R en algunos procedimientos
no es eficiente cuando los conjuntos de datos son voluminosos (millones de registros).
Para construir las herramientas de análisis presentadas en esta guı́a es necesario que se carguen los siguientes paquetes:
car
aplpack
RODBC
scatterplot3d
Inicialmente, se debe crear una carpeta en el directorio C:\ con el nombre TrabajoR donde debe guardar los archivos
DatosGuia.xls y programas estadistica en R.txt. Luego, abra el R y utilice las siguientes instrucciones con las cuales se
cambian el directorio de trabajo, se carga un archivo de funciones y se leen los datos:
setwd("C:\\TrabajoR")
source("programas estadistica en R.txt")
require(RODBC)
require(aplpack)
require(scatterplot3d)
require(car)
temp=odbcConnectExcel("DatosGuia.xls")
categoricos = sqlFetch(temp,"categoricos")
numdisc = sqlFetch(temp,"numdiscre")
numcont = sqlFetch(temp,"numconti")
close(temp)
1
1.1. Variables cualitativas, categóricas o atributos
Para mostrar las funciones disponibles en el R para el análisis estadı́stico descriptivo de variables cualitativas, se usarán
los datos ejemplo de la sección 3.5 del libro ANÁLISIS ESTADÍSTICO DE DATOS CATEGÓRICOS, el conjunto de
datos contiene la información de 20 individuos a los cuales se les registro Edad, Sexo, Escolaridad, Nivel Socioeconómico y
Vivienda. La caracterización de las variables se muestran en la Tabla(1.1).
DescUnivCate(categoricos$Edad,"rainbow")
DescUnivCate(categoricos$Sexo,"gray.colors")
DescUnivCate(categoricos$Escolaridad,"topo.colors")
DescUnivCate(categoricos$NivelSocioeconomico,"terrain.colors")
DescUnivCate(categoricos$Vivienda,"terrain.colors")
Por ejemplo, en el caso de la escolaridad los resultados obtenidos se muestran en la tabla siguiente y en la Figura
1.2. Se aprecia que la categorı́a modal es el nivel educativo secundaria, mientras que las otras categorı́as se presentan
aproximadamente con la misma frecuencia.
> DescUnivCate(categoricos$Escolaridad,"topo.colors")
fi hi(%)
1primaria 4 20
2secundaria 9 45
3universitaria 4 20
otra 3 15
Total 20 100
Obsérvese que en las salidas correspondientes a las demás variables, las gráficas muestran los colores asociados al argumento
de color seleccionado.
En cuanto a las gráficas se asocian tres correspondientes a las tablas b), c) y d) mencionadas anteriormente. Para obtener
estas salidas en el R se empleará la función DescMultCate que se encuentra en el archivo de programas estadistica en R.txt,
ella tiene tres parámetros, los dos primeros son las variables cualitativas de estudio y el último es el tipo de color de las
gráficas.
Los resultados mostrados en la salida siguiente y en la Figura 1.3 indican que en los niveles socioeconómicos no se presentan
siempre los cuatro niveles de escolaridad, en el estrato bajo tan sólo se encuentran las menores escolaridades; en el caso del
estrato medio hay presencia de todas las escolaridades con predominio de la secundaria y en el estrato alto están los mayores
niveles educativos. De acuerdo con esto hay cierto grado dependencia entre las variables nivel socioeconómico y escolaridad,
que indica que a medida que aumenta el estrato tiende a ser mayor el nivel educativo de las personas, aspecto que también
se destaca por los cambios entre las distribuciones marginales por fila y las distribuciones marginales por columna.
> DescMultCate(categoricos$Escolaridad,categoricos$NivelSocioeconomico,color="topo.colors")
$FrecuenciasAbsolutas
x2
x1 1bajo 2medio 3alto Total
1primaria 2 2 0 4
2secundaria 1 7 1 9
3universitaria 0 2 2 4
otra 0 2 1 3
Total 3 13 4 20
$FrecuenciasRelativas
x2
x1 1bajo 2medio 3alto Total
1primaria 10 10 0 20
2secundaria 5 35 5 45
3universitaria 0 10 10 20
otra 0 10 5 15
Total 15 65 20 100
$PerfilFila
x2
x1 1bajo 2medio 3alto Total
1primaria 50.0 50.0 0.0 100
2secundaria 11.1 77.8 11.1 100
3universitaria 0.0 50.0 50.0 100
otra 0.0 66.7 33.3 100
$PerfilColumna
x2
x1 1bajo 2medio 3alto
1primaria 66.7 15.4 0
2secundaria 33.3 53.8 25
3universitaria 0.0 15.4 50
otra 0.0 15.4 25
Total 100.0 100.0 100
Figura 1.3: Gráficos descriptivos del nivel socioeconómico por escolaridad
Los análisis descriptivos univariados de variables cuantitivas contemplan entre otros la construcción de las distribuciones de
frecuencias simples y acumuladas, el diagrama de tallos y hojas, el gráfico de caja y bigotes y una serie de medidas resumen
que caracterizen la tendencia central, la variabilidad y la forma de la distribución de frecuencias. En el caso multivariado,
se extienden algunos de los conceptos univariados, y aparece como eje central las posibles relaciones de dependencia entre
las variables, en particular las relaciones lineales.
Para ilustrar el análisis estadı́stico descriptivo de variables de naturaleza numérica se usarán dos conjuntos de datos:
Los datos de los niveles digitales de una escena de una imagen del satélite LANDSAT – TM de Inglaterra. Contiene
la información de las 7 bandas del espectro capturadas por el sensor para 900 pixeles.
Los datos MUNDODES del Apéndice A del texto Análisis de datos multivariantes. Corresponden a las observaciones
para 91 paı́ses de seis variables Tasa de natalidad, Tasa de mortalidad, Mortalidad infantil, Esperanza de vida en
hombres, Esperanza de vida en hombres, Producto Nacional Bruto y la región geográfica del mundo.
Promedio
Mediana
Moda
b) La variabilidad
Mı́nimo
Máximo
Desviación estándar
Desviación mediana
Coeficiente de variación del promedio
Coeficiente de variación de la mediana
c) La forma
Coeficiente de asimetrı́a
Coeficiente de kurtosis
La instrucción para obtener los gráficos y las medidas estadı́sticas descriptivas para variables numéricas de naturaleza
discreta de manera simultánea es la función DescUnivDisc que se encuentra en el archivo programas estadistica en R.txt, la
función recibe dos parámetros la variable numérica y el parámetro de color para los gráficos. Los resultados siempre muestran
son tres gráficos (histograma, diagrama de pareto y diagrama de caja) y una tabla de medidas estadı́sticas resumen (incluye
el valor de la menor de las modas). Cuando el tamaño de muestra es menor o igual que 100 también se tiene el diagrama
de tallos y hojas. Hay que mencionar que la función admite variables continuas, pero los resultados no serán visualmente
agradables. Para las variables de la imagen de satélite LANDSAT los códigos son los siguientes:
DescUnivDisc(numdisc$band1,"rainbow")
DescUnivDisc(numdisc$band2,"heat.colors")
DescUnivDisc(numdisc$band3,"terrain.colors")
DescUnivDisc(numdisc$band4,"topo.colors")
DescUnivDisc(numdisc$band5,"cm.colors")
DescUnivDisc(numdisc$band6,"gray.colors")
DescUnivDisc(numdisc$band7,"rainbow")
A continuación se muestran los resultados de las medidas descriptivas para el caso de la banda 5 correpondiente a la banda
del infrarrojo lejano (entre 1.55 µm y 1.75 µm del espectro eletromagnético) y en la Figura 1.4 los gráficos descriptivos
correspondientes. Se aprecia que hay diferencias entre las medidas de tendencia central lo cual indica que el promedio no es
un buen indicador del centro de la variable, esto además es ratificado por los valores diferentes de las desviaciones estándar
y mediana. El coeficiente de asimetrı́a muestra que la distribución es claramente asimétrica y los niveles digitales tienden
a concentrarse a hacia los valores altos. El valor de la kurtosis indica que la distribución es unimodal y que es posible
la existencia de valores atı́picos. Los coeficientes de variabilidad relativa indican que hay una considerable heterogeneidad
en los valores de los niveles digitales de la banda 5. En el histograma y el diagrama de caja se ratifican los comentarios
realizados anteriormente, en particular la existencia de los valores atı́picos.
> DescUnivDisc(numdisc$band5,"topo.colors")
x
Mı́nimo 11.00
Máximo 120.00
Promedio 89.33
Mediana 97.00
Moda 103.00
Desviación estándar 22.67
Desviación mediana 7.00
Asimetrı́a -1.55
Kurtosis 4.54
Coef. Var. Promedio(%) 25.38
Coef. Var. Mediana(%) 7.22
En cuanto a las medidas descriptivas en esencia son las mismas que las mencionadas para el caso discreto, pero no se incluye
el valor de la moda (dato o datos que más frecuencia tienen), ya que desde el punto de vista práctico es poco común que
en datos de naturaleza continua hayan valores repetidos. En algunos casos se emplea como valor modal una aproximación
de algún valor de la clase con la mayor frecuencia. Finalmente, los análisis recaen en la descripción del comportamiento de
la distribución de las observaciones.
La instrucción para obtener los gráficos y las medidas estadı́sticas descriptivas para variables numéricas de naturaleza
continua de manera simultánea es la función DescUnivCont que se encuentra en el archivo programas estadistica en R.txt,
la función recibe dos parámetros la variable numérica y el parámetro de color para los gráficos. Los resultados siempre
muestran son tres gráficos (histograma, diagrama de pareto y diagrama de caja) y una tabla de medidas estadı́sticas
resumen (sin incluir el valor de la moda), al igual que en el caso anterior cuando el tamaño de muestra es menor o igual
que 100 también se tiene el diagrama de tallos y hojas. La función admite también variables discretas. Para las variables
de MUNDODES los códigos son los siguientes:
DescUnivCont(numcont$TasaNat,"rainbow")
DescUnivCont(numcont$TasaMort,"heat.colors")
DescUnivCont(numcont$MortInf,"terrain.colors")
DescUnivCont(numcont$EspHom,"topo.colors")
DescUnivCont(numcont$EspMuj,"cm.colors")
DescUnivCont(numcont$PNB,"gray.colors")
Los resultados de las medidas descriptivas para el caso del PNB y en la Figura 1.5 los gráficos descriptivos correspondientes.
Se aprecia que hay diferencias entre las medidas de tendencia central lo cual indica que el promedio no es un indicador
del centro de la variable, esto además es ratificado por los valores diferentes de las desviaciones estándar y mediana. El
coeficiente de asimetrı́a muestra que la distribución es claramente asimétrica y el PNB tiende a concentrarse a hacia los
valores bajos. El valor de la kurtosis indica que la distribución es unimodal y que es posible la existencia de valores atı́picos.
Los coeficientes de variabilidad relativa indican que hay una cosiderable heterogeneidad en los valores del PNB. En el
histograma y el diagrama de caja se ratifican los comentarios realizados anteriormente, en particular la existencia de los
valores atı́picos.
> DescUnivCont(numcont$PNB,"topo.colors")
1 | 2: represents 1200
leaf unit: 100
n: 91
34 0 | 0111111222222333333334445666667899
(14) 1 | 00112234466689
43 2 | 00223344555679
29 3 | 0
4 |
28 5 | 239
25 6 | 3
24 7 | 06
8 |
22 9 | 5
21 10 | 9
20 11 | 01
12 |
13 |
18 14 | 2
17 15 | 5
16 16 | 118
13 17 | 03
HI: 19490 19860 20470 21790 22080 22320 23120 23660 25430 26040 34064
x
Mı́nimo 80.00
Máximo 34064.00
Promedio 5741.25
Mediana 1690.00
Desviación estándar 8093.68
Desviación mediana 1320.00
Asimetrı́a 1.52
Kurtosis 4.14
Coef. Var. Promedio(%) 140.97
Coef. Var. Mediana(%) 78.11
Figura 1.5: Gráficos descriptivos del producto nacional bruto
Para obtener los resultados del análisis descriptivo multivariado de variables numéricas se usará la función DescMultNum
que se encuentra dentro del archivo programas estadistica en R. Ella proporciona los principales resultados de manera
simultánea. Tiene tres argumentos, el primero es el nombre del data.frame con las variables numéricas; el segundo es
un parámetro numérico llamado caso que toma el valor de 1 para variables discretas y 2 para variables continuas; el
tercer parámetro es el argumento de color. La función entrega por resultado una lista de estadı́sticas que incluye la tabla
de medidas descriptivas; las matrices de varianzas y covarianzas, de correlación y de correlación parcial; las medidas de
variabilidad global (varianza total, varianza generalizada y varianza efectiva); los coeficientes de correlación múltiple; la
dependencia efectiva y los ı́ndices correspondientes a los datos atı́picos multivariados por la técnica de máxima y mı́nima
kurtosis. Además, se muestran 5 gráficos: la matriz de diagramas de dispersión, los gráficos de estandarización univariada
y multivariada y 2 gráficos de dispersión tridimensionales (las variables ubicadas en cada uno de los ejes son definidos de
manera aleatoria).
Los resultados de la descripción multivariada para los conjuntos de datos de ejemplo se muestran a continuación y en las
Figuras 1.6 y 1.7.
En el caso de la imagen LANDSAT se aprecia que en la mayorı́a de los casos las relaciones son lineales aunque la banda 6 es
la menos relacionada con las demás, situación que es de esperarse ya que dicha banda corresponde a las longitudes de onda
del infrarrojo térmico lejano. La dependencia efectiva indica que las relaciones lineales explican el 88 % de la variabilidad
conjunta de las bandas de la imagen, además se aprecia que la correlación cambia la forma de la distribución de las variables
(gráficos de estandarización univariada y multivariada).
El conjunto de datos de MUNDODES muestra que en el caso de las variables demográficas hay claras tendencias lineales
mientras que el PNB genera relaciones logarı́tmicas con todas las demás. Es por ello, las medidas de asociación se disminuyen
cuando aparece dicha variable. Pese a este comportamiento entre pares de variables de manera conjunta las relaciones
lineales explican el 84 % de la variabilidad y esta dependencia es relevante ya que cambia significativamente la forma de la
distribución de las variables.
> DescMultNum(numdisc,1,"topo.colors")
$Estadisticas
band1 band2 band3 band4 band5 band6 band7
Mı́nimo 64.00 21.00 18.00 16.00 11.00 112.00 6.00
Máximo 90.00 42.00 51.00 106.00 120.00 149.00 59.00
Promedio 77.69 33.82 35.10 73.26 89.33 129.46 37.33
Mediana 78.00 34.00 35.00 78.00 97.00 129.00 40.00
Moda 78.00 35.00 38.00 77.00 103.00 129.00 44.00
Desviación estándar 5.47 4.45 6.66 18.02 22.67 6.03 9.67
Desviación mediana 3.00 2.00 5.00 9.50 7.00 3.00 5.00
Asimetrı́a -0.53 -0.83 -0.37 -0.96 -1.55 0.05 -1.31
Kurtosis 2.90 3.23 2.56 3.14 4.54 4.38 4.21
Coef. Var. Promedio(%) 7.04 13.17 18.98 24.60 25.38 4.66 25.89
Coef. Var. Mediana(%) 3.85 5.88 14.29 12.18 7.22 2.33 12.50
$MatrizCovarianzas
band1 band2 band3 band4 band5 band6 band7
band1 29.89 23.14 34.87 56.31 104.65 15.18 47.54
band2 23.14 19.84 27.72 56.52 89.93 11.79 38.83
band3 34.87 27.72 44.37 56.82 122.11 19.03 58.01
band4 56.31 56.52 56.82 324.83 333.20 36.58 108.05
band5 104.65 89.93 122.11 333.20 513.94 79.95 206.14
band6 15.18 11.79 19.03 36.58 79.95 36.38 38.45
band7 47.54 38.83 58.01 108.05 206.14 38.45 93.43
$VariabilidadConjunta
Var. Total Var. Generalizada Var. Efectiva
[1,] 1062.68 39111106 12.15
$MatrizCorrelacion
band1 band2 band3 band4 band5 band6 band7
band1 1.00 0.95 0.96 0.57 0.84 0.46 0.90
band2 0.95 1.00 0.93 0.70 0.89 0.44 0.90
band3 0.96 0.93 1.00 0.47 0.81 0.47 0.90
band4 0.57 0.70 0.47 1.00 0.82 0.34 0.62
band5 0.84 0.89 0.81 0.82 1.00 0.58 0.94
band6 0.46 0.44 0.47 0.34 0.58 1.00 0.66
band7 0.90 0.90 0.90 0.62 0.94 0.66 1.00
$CorrelacionMultiple
band1 band2 band3 band4 band5 band6 band7
[1,] 0.94 0.97 0.96 0.92 0.97 0.59 0.97
$MatrizCorrelacionParcial
band1 band2 band3 band4 band5 band6 band7
band1 1.00 0.30 0.40 -0.03 0.03 -0.04 0.04
band2 0.30 1.00 0.61 0.65 -0.25 -0.26 0.25
band3 0.40 0.61 1.00 -0.52 0.11 0.03 0.08
band4 -0.03 0.65 -0.52 1.00 0.78 0.18 -0.56
band5 0.03 -0.25 0.11 0.78 1.00 -0.18 0.82
band6 -0.04 -0.26 0.03 0.18 -0.18 1.00 0.50
band7 0.04 0.25 0.08 -0.56 0.82 0.50 1.00
$DependenciaEfectiva
[1] 0.88
$AtipicosMultivariados
[1] 8 14 15 16 18 19 20 21 26 27 28 29 30 43 44 45 46 49
[19] 50 51 52 57 58 59 60 64 73 74 79 80 87 88 89 90 93 110
[37] 111 117 118 119 120 123 124 140 141 142 144 145 146 147 148 149 150 170
[55] 171 172 173 174 175 176 177 178 179 180 181 182 183 184 200 201 202 203
[73] 204 205 206 207 208 209 210 211 212 213 214 215 230 231 232 233 234 235
[91] 236 237 238 239 240 241 242 243 244 245 261 262 263 264 265 266 267 268
[109] 269 270 271 272 273 274 275 290 291 292 293 294 295 296 297 298 299 300
[127] 301 302 303 304 305 321 322 323 324 325 326 327 328 329 330 331 332 333
[145] 334 335 351 352 353 354 355 356 357 358 359 360 361 362 363 364 365 366
[163] 381 382 383 384 385 386 387 388 389 390 391 392 393 394 395 407 411 412
[181] 413 414 415 416 417 418 419 420 442 443 444 445 446 447 448 449 450 475
[199] 476 477 478 479 480 505 506 507 508 509 510 536 537 538 539 540 549 566
[217] 567 568 569 570 597 598 599 600 627 628 629 630 657 658 659 660 688 689
[235] 690 718 719 720 749 750 780 899
> DescMultNum(numcont[,-c(1,8)],2,"topo.colors")
$Estadisticas
TasaNat TasaMort MortInf EspHom EspMuj PNB
Mı́nimo 9.70 2.20 4.50 38.10 41.20 80.00
Máximo 52.20 25.00 181.60 75.90 81.80 34064.00
Promedio 29.46 10.73 55.28 61.38 66.03 5741.25
Mediana 29.00 9.50 43.00 63.40 67.60 1690.00
Desviación estándar 13.70 4.68 46.30 9.73 11.13 8093.68
Desviación mediana 14.10 2.20 33.90 6.60 8.10 1320.00
Asimetrı́a 0.06 1.04 0.64 -0.64 -0.52 1.52
Kurtosis 1.51 3.76 2.24 2.41 2.12 4.14
Coef. Var. Promedio(%) 46.50 43.63 83.76 15.85 16.86 140.97
Coef. Var. Mediana(%) 48.62 23.16 78.84 10.41 11.98 78.11
$MatrizCovarianzas
TasaNat TasaMort MortInf EspHom EspMuj PNB
TasaNat 187.67 32.44 543.30 -115.43 -136.38 -69747.74
TasaMort 32.44 21.94 146.98 -34.36 -37.26 -11477.18
MortInf 543.30 146.98 2143.91 -421.24 -491.78 -225470.92
EspHom -115.43 -34.36 -421.24 94.63 106.32 50622.33
Figura 1.6: Gráficos descriptivos multivariados de la imagen LANDSAT
(a) Matriz de diagramas de dispersión (b) Estandarización univariada (c) Estandarización multivariada
$VariabilidadConjunta
Var. Total Var. Generalizada Var. Efectiva
[1,] 65510226 7.361765e+14 300.49
$MatrizCorrelacion
TasaNat TasaMort MortInf EspHom EspMuj PNB
TasaNat 1.00 0.51 0.86 -0.87 -0.89 -0.63
TasaMort 0.51 1.00 0.68 -0.75 -0.71 -0.30
MortInf 0.86 0.68 1.00 -0.94 -0.95 -0.60
EspHom -0.87 -0.75 -0.94 1.00 0.98 0.64
EspMuj -0.89 -0.71 -0.95 0.98 1.00 0.65
PNB -0.63 -0.30 -0.60 0.64 0.65 1.00
$CorrelacionMultiple
TasaNat TasaMort MortInf EspHom EspMuj PNB
[1,] 0.84 0.69 0.91 0.97 0.98 0.5
$MatrizCorrelacionParcial
TasaNat TasaMort MortInf EspHom EspMuj PNB
TasaNat 1.00 -0.38 0.02 -0.03 -0.36 -0.01
TasaMort -0.38 1.00 -0.03 -0.40 -0.03 0.32
MortInf 0.02 -0.03 1.00 0.01 -0.49 0.09
EspHom -0.03 -0.40 0.01 1.00 0.73 0.17
EspMuj -0.36 -0.03 -0.49 0.73 1.00 0.09
PNB -0.01 0.32 0.09 0.17 0.09 1.00
$DependenciaEfectiva
[1] 0.84
$AtipicosMultivariados
[1] 3 18 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 42 43 44
[26] 45 47 48 49 51 52 54 62 75 85
(a) Matriz de diagramas de dispersión (b) Estandarización univariada (c) Estandarización multivariada