Está en la página 1de 11

1.

INTRODUCCION

Los datos multivariados consisten en observaciones de varias variables distintas medidas para
un número considerable de individuos u objetos. Es posible encontrar con frecuencia datos de
este tipo en todas las ramas de la ciencia, desde la Psicología hasta la Biología. En
consecuencia, los métodos para analizar datos multivariados consituyen un área de interés cada
vez más creciente dentro de la Estadística.

1.1 Ejemplos de Conjuntos de Datos Multivariados

(1) La tabla 1.1 contiene las medidas corporales de 33 mujeres solicitantes para ingresar al
cuerpo de policía. Los datos se tomaron de Gunst y Mason (1980). Las variables, medidas en
centímetros, fueron: estatura (EST), estatura sentadas (ESTSEN), longitud del brazo (BRAZO),
longitud del antebrazo (ANTEB), ancho de la mano (MANO), longitud del muslo (MUSLO),
longitud de la parte inferior de la pierna (PIERNA) y longitud del pie (PIE). A partir de estos
datos se crearon dos variables adicionales: la razón de la longitud del antebrazo a la del brazo
multiplicada por 100 (BRACH) y la razón de la parte inferior de la pierna a la del muslo
multiplicada por 100 (TIBIO).

Tabla 1.1 Medidas del cuerpo en solicitantes al departamento de policía


Individuo EST ESTSEN BRAZO ANTEB MANO MUSLO PIERNA PIE BRACH TIBIO
1 165.8 88.7 31.8 28.1 18.7 40.3 38.9 6.7 88.36 96.53
2 169.8 90.0 32.4 29.1 18.3 43.3 42.7 6.4 89.81 98.61
3 170.7 87.7 33.6 29.5 20.7 43.7 41.1 7.2 87.80 94.05
4 170.9 87.1 31.0 28.2 18.6 43.7 40.6 6.7 90.97 92.91
5 157.5 81.3 32.1 27.3 17.5 38.1 39.6 6.6 85.05 103.94
6 165.9 88.2 31.8 29.0 18.6 42.0 40.6 6.5 91.19 96.67
7 158.7 86.1 30.6 27.8 18.4 40.0 37.0 5.9 90.85 92.50
8 166.0 88.7 30.2 26.9 17.5 41.6 39.0 5.9 89.07 93.75
9 158.7 83.7 31.1 27.1 18.3 38.9 37.5 6.1 87.14 96.40
10 161.5 81.2 32.3 27.8 19.1 42.8 40.1 6.2 86.07 93.69
11 167.3 88.6 34.8 27.3 18.3 43.1 41.8 7.3 78.45 96.98
12 167.4 83.2 34.3 30.1 19.2 43.4 42.2 6.8 87.76 97.24
13 159.2 81.5 31.0 27.3 17.5 39.8 39.6 4.9 88.06 99.50
14 170.0 87.9 34.2 30.9 19.4 43.1 43.7 6.3 90.35 101.39
15 166.3 88.3 30.6 28.8 18.3 41.8 41.0 5.9 94.12 98.09
16 169.0 85.6 32.6 28.8 19.1 42.7 42.0 6.0 88.34 98.36
17 156.2 81.6 31.0 25.6 17.0 44.2 39.0 5.1 82.58 88.24
18 159.6 86.6 32.7 25.4 17.7 42.0 37.5 5.0 77.68 89.29
19 155.0 82.0 30.3 26.6 17.3 37.9 36.1 5.2 87.79 95.25
20 161.1 84.1 29.5 26.6 17.8 38.6 38.2 5.9 90.17 98.96
21 170.3 88.1 34.0 29.3 18.2 43.2 41.4 5.9 86.18 95.83
22 167.8 83.9 32.5 28.6 20.2 43.3 42.9 7.2 88.00 99.08
23 163.1 88.1 31.7 26.9 18.1 40.1 39.0 5.9 84.86 97.26
24 165.8 87.0 33.2 26.3 19.5 43.2 40.7 5.9 79.22 94.21
25 175.4 89.6 35.2 30.1 19.1 45.1 44.5 6.3 85.51 98.67
26 159.8 85.6 31.5 27.1 19.2 42.3 39.0 5.7 86.03 92.20
27 166.0 84.9 30.5 28.1 17.8 41.2 43.0 6.1 92.13 104.37
28 161.2 84.1 32.8 29.2 18.4 42.6 41.1 5.9 89.02 96.48
29 160.4 84.3 30.5 27.8 16.8 41.0 39.8 6.0 91.15 97.07
30 164.3 85.0 35.0 27.8 19.0 47.2 42.4 5.0 79.43 89.83
31 165.5 82.6 36.2 28.6 20.2 45.0 42.3 5.6 79.01 94.00
32 167.2 85.0 33.6 27.1 19.8 46.0 41.6 5.6 80.65 90.43
33 167.2 83.4 33.5 29.7 19.4 45.2 44.0 5.2 88.66 97.35

1
Para este conjunto de datos una cuestión de interés podría ser: de acuerdo a sus características
físicas, ¿Qué solicitantes son más aptas para ocupar un puesto administrativo y cuáles para
trabajar en una patrulla? y, ¿Es necesario considerar todas las variables medidas para tomar la
decisión, o un subconjunto de estas variables es suficiente?.

(2) Cuando los estudiantes realizan varios exámenes, para cada alumno se obtienen un conjunto
de calificaciones, tal como se ilustra en la tabla 1.2. En este caso las ‘variables’ son las distintas
materias y los ‘individuos’ son los estudiantes. El análisis para un conjunto de datos de este tipo
es bastante simple. Se calculan los promedios para cada variable y para cada individuo. Los
examinadores deben fijarse en los promedios por columna a fin de determinar si los resultados
en distintas materias son comparables, y entonces examinar los promedios por renglón a fin de
ordenar a los estudiantes de acuerdo a su mérito. Si los resultados para algún examen parecen
estar fuera de lugar con respecto al resto de los resultados, esta calificación podría ser ajustada
por los examinadores. Por ejemplo, en la tabla 1.2 el promedio de matemáticas es bajo con
respecto al resto de las materias y podría considerarse justo escalar las calificaciones de
matemáticas de alguna manera.
Pese a que este análisis es muy trivial, ilustra la idea general de que el análisis multivariado en
ocasiones se ocupa de encontrar relaciones, no solamente entre variables sino también entre
individuos. Un análisis más sofisticado podría tratar de establecer como es que un grupo
particular de estudiantes obtuvo muy buenos o muy malos resultados, y ver si los resultados
para distintos individuos están correlacionados. Por ejemplo, ¿Aquellos alumnos que
obtuvieron buen promedio en las materias científicas tienden a tener promedio bajo en materias
humanísticas?

Tabla 1.2 Algunos resultados típicos de exámenes


Nombre Historia Matemáticas Física Literatura Promedio

Altamirano Flor 88 73 75 91 81.8


Becerril Juan 73 88 89 78 82.0
Fernández Luis 67 65 73 82 71.8
etc.
Promedio 76.0 75.3 79.0 83.7

(3) Recientemente se llevó a cabo una encuesta para niños en Nepal a fin de examinar el uso de
tres variables para la evaluación del estatus nutricional. Las variables fueron altura, peso y
circunferencia de la parte alta del brazo (CAB). Los datos también registraron el sexo de cada
niño (codificado como 1 para niños y 2 para niñas), la edad de cada niño, y su casta social
(codificado de 1 a 6). Una pequeña proporción de los datos se muestra en la tabla 1.2.
El análisis de resultados se centró en varios aspectos nutricionales. En primer lugar, ¿Cuáles
son las relaciones, si es que las hay, entre las variables?. En segundo lugar, ¿Qué diferencias
existen, si es que las hay, entre los niños de las distintas castas?. Y finalmente, ¿Cómo se puede
evaluar si existe desnutrición aguda?

Tabla 1.3 Parte del estudio nutricional en Nepal


Código para Sexo Casta Edad Altura Peso CAB
cada niño código (en meses) (cm) (kg) (cm)
1 1 1 52 92 12.1 15.0
2 1 1 14 72 8.7 14.0
3 1 1 52 83 13.5 18.0
4 1 5 27 77 9.7 15.0
5 2 4 32 89 11.6 14.5
etc.

2
(4) La tabla 1.4 contiene datos referentes al consumo de caucho y otras variables desde 1948
hasta 1963. Los datos se tomaron de Draper y Smith (1981). Las variables medidas fueron el
consumo total de caucho (CTC), el consumo de caucho para neumáticos (CTCN), la producción
de automóviles (PA), el producto nacional bruto (PNB), el ingreso personal disponible (IPD) y
el consumo de combustible por motor (CCM). Es posible apreciar que, para este conjunto de
datos, los ‘individuos’ están definidos por diferentes años. Este hecho dificulta llevar a cabo un
análisis como los descritos en los otros ejemplos, debido a que es muy posible que las
mediciones realizadas en un año dependan de los valores tomados por las variables en años
anteriores.
Aun cuando éste es un conjunto de datos multivariados, las técnicas mediante las cuales puede
llevarse a cabo su análisis suelen diferir de las técnicas multivariadas que se estudiarán en este
curso (por ejemplo, este conjunto de datos puede estudiarse a través de un Análisis de Series de
Tiempo).

Tabla 1.4 Datos del consumo de caucho

Año CTC CTCN PA PNB IPD CCM


1948 0.909 0.871 1.287 0.984 0.987 1.046
1949 1.252 1.220 1.281 1.078 1.064 1.081
1950 0.947 0.975 0.787 1.061 1.007 1.051
1951 1.022 1.021 0.796 1.013 1.012 1.046
1952 1.044 1.002 1.392 1.028 1.029 1.036
1953 0.905 0.890 0.893 0.969 0.993 1.020
1954 1.219 1.213 1.400 1.057 1.047 1.057
1955 0.923 0.918 0.721 1.001 1.024 1.034
1956 1.001 1.014 1.032 0.996 1.003 1.014
1957 0.916 0.914 0.685 0.972 0.993 1.013
1958 1.173 1.170 1.291 1.046 1.027 1.037
1959 0.938 0.952 1.170 1.004 1.001 1.007
1960 0.965 0.946 0.817 1.002 1.014 1.008
1961 1.106 1.096 1.231 1.049 1.032 1.024
1962 1.011 0.999 1.086 1.023 1.020 1.030
1963 1.080 1.093 1.001 1.035 1.053 1.029

1.2 Conceptos Importantes

Para empezar una discusión acerca de los métodos de análisis de los datos de variables
múltiples, se deben definir los siguientes conceptos, que se utilizarán a lo largo de todo el curso:

Una unidad experimental es cualquier objeto o concepto que se puede medir o evaluar de
alguna manera. Ejemplos de unidades experimentales son: las solicitantes del ejemplo 1, los
alumnos en el ejemplo 2, los niños en Nepal del ejemplo 3 y los años en el ejemplo 4.

Los datos son la materia prima con la que estaremos trabajando. El término datos se refiere a
las mediciones o en general a las observaciones documentadas que se recolectan de un
experimento o fenómeno; es decir, los datos son las diferentes mediciones que se obtienen al
observar cierta característica en cada una de las unidades experimentales.

3
A cada una de las características, cualidades, atributos, o propiedades que se observan en las
unidades experimentales y que es susceptible de ser cuantificada de alguna manera (no
necesariamente de manera numérica) se le conoce como variable respuesta.

Resumiendo, de cada unidad experimental se pueden observar y registrar una o varias variables
de respuesta, y los valores que pueden tomar estas variables son los datos.

A continuación se discute la clasificación de las variables de acuerdo a su tipo y escala de


medición.

1.3 Tipos de Variables y Escalas de Medición

Las variables se pueden clasificar como sigue:

Tipos de variable Valores de las variables Escala de Medición

Cualitativa Discreta Nominal


Ordinal

Cuantitativa Discreta Intervalo


Razón
Continua Intervalo
Razón

Las variables desde el punto de vista funcional también pueden clasificarse en independientes y
dependientes.

A. Variables Cualitativas

Si los datos recolectados de un experimento denotan cualidades o atributos en las unidades


experimentales bajo estudio, entonces están definiendo variables cualitativas que pueden
clasificarse en un número fijo de categorías o clases, cuyos nombres o códigos corresponden a
los diferentes valores observados en la variable. Las variables cualitativas siempre son de tipo
discreto. Estas categorías o clases deben ser mutuamente excluyentes y exhaustivas con el
propósito de que cada dato quede clasificado en una y sólo una de las categorías.

Ejemplo. Se lleva a cabo una encuesta estudiantil en la UNAM y se registran las variables
cualitativas enlistadas en la Tabla 1.5:

Tabla 1.5 Posibles variables cualitativas y sus categorías. Encuesta estudiantil

Variable Cualitativa Categorías

Sexo femenino, masculino


Escuela de Procedencia pública, privada
Carrera Actuaría, Ing. Sistemas, Física, Historia, etc.
Color de tez clara, obscura
Gusto por su horario ninguno, poco, regular, mucho
Tipo de nariz recta, aguileña, chata
Tipo de horario matutino, vespertino, mixto
Mes de nacimiento Enero, Febrero, Marzo, etc.

4
B. Variables Cuantitativas

Las variables cuantitativas se refieren a aquellos datos que son respuestas con significado
numérico que se obtienen de un proceso de conteo o de medición. Si los valores observados se
obtuvieron mediante un proceso de conteo entonces se dice que corresponden a una variable
discreta. En cambio si las observaciones resultan de un proceso de medición, entonces se dice
que corresponden a una variable continua. En otras palabras, se consideran datos discretos si
entre cualesquiera dos valores potencialmente observables existe un valor imposible de
observar. En cambio, son datos continuos si entre cualesquiera dos valores potencialmente
observables, siempre se puede encontrar otro valor potencialmente observable.
Por ejemplo, si consideramos la variable número de plantas que tienen un invernadero podemos
observar datos discretos, pero si nos preguntamos por el porcentaje de plantas que son de
sombra obtenemos respuestas continuas.
En algunas ocasiones en que se tienen datos cuantitativos puede resultar conveniente agruparlos
en categorías para así manejarlos como datos cualitativos. Por ejemplo si agrupamos los valores
que se pueden observar para la variable edad en las categorías “joven” y “viejo”, en base a
cierto criterio, podrían utilizarse como datos cualitativos.
Ejemplo. Retomando la encuesta de estudiantes de la UNAM, la Tabla 1.6 muestra una
colección de variables cuyas respuestas son cuantitativas.

Tabla 1.6 Posibles variables cualitativas. Encuesta estudiantil

Variable Cuantitativa Valores potenciales

Número de hermanos 0,1,2,... Discreta


Semestre que cursa 1,2,3,.. Discreta
Estatura (1.40, 2.00) m Continua
Peso (40, 100) kg Continua
Promedio en la carrera (0, 10] Continua

C. Escalas de Medición

Si tomamos en cuenta la precisión con la cual se realiza la medición de los diferentes valores de
una variable respuesta, podemos clasificarlos en uno de los siguientes cuatro niveles o escalas
de medición, cada una de las cuales requiere de diferentes modelos matemáticos y, por
consiguiente, de tratamientos distintos: escala nominal, escala ordinal, escala de intervalo y
escala de razón.

1) Escala Nominal. En este nivel, que es el más bajo de medición, se realiza la operación más
sencilla y básica: la clasificación de los diferentes valores que asume la variable en categorías
mutuamente excluyentes y exhaustivas. Sin embargo, no es posible establecer una relación de
orden entre las diferentes categorías, simplemente se puede decir si una observación pertenece o
no a una determinada categoría.
Por ejemplo: Sexo (masculino, femenino), estado de salud (estadio I, estadio II, ...), zona de la
ciudad en la que reside (norte, sur, este, oeste).

2) Escala Ordinal. En este nivel de medición no sólo se agrupan los valores de la variable en
categorías, sino que además se establece una relación de orden entre las categorías de acuerdo

5
al grado de posesión de cierto atributo (“mayor que”, “menor que”). Sin embargo, en esta escala
no es posible hacer uso de las operaciones usuales de suma, resta, multiplicación y división ya
que no existe implicación de distancia entre los diferentes puntos en la escala.
Por ejemplo: Calificaciones (NA, S, B, MB), nivel socioeconómico (bajo, medio, alto), grado
de preferencia a cierto producto, hábito de fumar (mucho, poco, nada), etc.

3) Escala de intervalo. Al alcanzar este nivel, los valores de la variable no sólo se clasifican en
base al grado de posesión del atributo sino que además es posible medir exactamente la
intensidad con la que se posee esa característica. Para ello se requiere de una unidad de medida
aceptada como norma común cuyo origen o “cero” se establece en base a conveniencias
prácticas. Las operaciones de suma o resta pueden llevarse a cabo entre las mediciones. En otras
palabras, existen diferencias iguales entre puntos sucesivos en la escala, pero el punto cero es
arbitrario.
Por ejemplo, las escalas de temperatura pertenecen a esta escala ya que el cero en ellas no
implica ausencia de temperatura.

4) Escala de razón. En este nivel de medición, además de la unidad de medida empleada, es


posible situar un punto cero absoluto no arbitrario y fijo, en donde el “cero” implica ausencia
del atributo. De este modo se pueden realizar operaciones aritméticas de producto o cociente, y
así comparar mediante proporciones o razones.
Por ejemplo: Número de hijos en un hogar, ingreso mensual en el hogar, longitud de caminos
pavimentados, estatura de un alumno encuestado, etc.

Es importante destacar que las diferentes escalas de medición son acumulativas, es decir; la
escala ordinal posee todas las propiedades de una nominal además del orden entre categorías;
por lo tanto la escala ordinal es más fuerte que la nominal ya que sus datos poseen más
información. Asimismo, la escala de intervalo es a su vez nominal y ordinal, mientras que la
escala de razón tiene todas las propiedades de la escala de intervalo. Siempre es posible
transformar datos que se encuentran en cierta escala, a una más débil, simplemente ignorando la
información extra que contienen.
La relación entre las escalas de medición es:

RAZÓN ⊂ INTERVALO ⊂ ORDINAL ⊂ NOMINAL

1.4 Importancia y Utilidad de los Métodos Multivariados

Una vez que se han definido conceptos importantes y se han descrito los distintos tipos de
variables con los cuales se trabajará, procederemos a discutir la importancia de los métodos
estadísticos multivariados que son objeto de estudio de este curso.
Los métodos estadísticos multivariados son sumamente útiles para auxiliar a los investigadores
a hacer que tengan sentido conjuntos grandes y complejos de datos que constan de una gran
cantidad de variables medidas en muchas unidades experimentales distintas.
Con frecuencia, el objetivo primario de los análisis multivariados es resumir grandes cantidades
de datos por medio de relativamente pocos parámetros. De esta manera, su objetivo es en
ocasiones la simplificación de un conjunto de datos.
En otras ocasiones, el interés de los análisis multivariados radica en encontrar relaciones entre
1) las variables respuesta, 2) las unidades experimentales, y 3) tanto las variables respuesta
como las unidades experimentales. Se puede decir que existen relaciones entre las variables
respuesta cuando algunas de las variables están midiendo una característica común.

6
También pueden existir relaciones entre las unidades experimentales si algunas de ellas son
semejantes entre sí.

Es importante destacar que existen técnicas multivariadas “dirigidas por las variables” y
técnicas “dirigidas por los individuos”.
Las “técnicas dirigidas por las variables” son aquellas que se enfocan primordialmente en las
relaciones que podrían existir entre las variables respuesta que se están midiendo. Ejemplos:
análisis de componentes principales, análisis por factores y análisis de correlación canónica.
Las “técnicas dirigidas por los individuos” son las que se interesan principalemente en las
relaciones que podrían existir entre las unidades experimentales que se están midiendo. Algunos
ejemplos son: análisis discriminante y el análisis de conglomerados (cluster).

1.5 Manejo de Datos y Precauciones

Una vez que se tiene un conjunto de datos multivariados, el primer paso es procesarlos y llevar
a cabo un análisis preeliminar a fin de tener una idea general de los datos. La etapa de
procesamiento de datos tiene como uno de sus objetivos principales la identificación de posibles
valores sospechosos y errores de varios tipos que podrían estar presentes en los datos. Existen
varios tipos de valores sospechosos y es importante hacer una distinción entre ellos.
(a) Observaciones atípicas (outliers). Son aquellas observaciones que parecen ser
inconsistentes con el resto de los datos. Pueden ser el resultado de errores de captura; sin
embargo, es importante tener en cuenta que una aparente observación atípica puede, en
ocasiones, ser genuina.
(b) Valores invertidos. Un tipo de error común ocurre cuando dos dígitos sucesivos se
intercambian al momento del registro o la captura. El error puede ser trivial si, por ejemplo,
123.45 aparece como 123.54, pero puede producir una observación atípica si 123.45
aparece como 213.45.
(c) Repeticiones. Durante la captura de datos es sencillo cometer el error de repetir un número
en dos renglones o columnas sucesivas de una tabla y, por consiguiente, omitir
completamente un número.
(d) Valores en la columna equivocada. Es también sencillo equivocarse al capturar números en
columnas que no les corresponden.
En general, al término utilizado para denotar a los procedimientos de chequeo para detectar y
corregir errores se le conoce como edición de datos. Una clase importante de estos
procedimientos de chequeo son las pruebas de rango. En este tipo de pruebas se especifica un
rango permisible de posibles valores para cada variable, y se verifica que todos los valores
observados caigan dentro del rango especificado.
También es posible llevar a cabo chequeos bivariados y multivariados. Por ejemplo, se puede
especificar un rango permisible para algunas funciones de dos o mas variables. Otro tipo de
pruebas llamado “si-entonces” también se pueden realizar. Por ejemplo si tanto la edad como la
fecha de nacimiento se registran para cada individuo en la base de datos, entonces podemos
verificar que las respuestas sean consistentes. En este ejemplo la edad es un dato redundante.
En ocasiones es una buena idea incluir una o más variables redundantes en la base de datos a
fin de checar su exactitud. Algunos de los métodos descritos dependen de la graficación de
datos y la búsqueda subjetiva de observaciones atípicas. En el capítulo 3 de este curso se
describirán las distintas técnicas de graficación útiles para esta tarea.
Además de los procedimientos descritos arriba, otro chequeo simple que resulta muy útil es
imprimir los datos y revisarlos “a ojo”. Aunque sería poco práctico checar visualmente cada
dígito, el ojo es muy eficiente para localizar muchos tipos de errores obvios, en particular
repeticiones y observaciones atípicas. La tabla 1.7 muestra una salida “típica” de un conjunto de

7
datos con 5 observaciones para 4 variables, cada una medida a 3 niveles distintos. Los datos
contienen valores sospechosos obvios que han sido encerrados en un círculo.

Tabla 1.7
Variable
1 2 3 4

Nivel 1 0.0 103.1 93.2 23


0.0 110.2 87.2 27
0.0 110.2 88.9 49
0.0 105.8 92.1 24
0.0 107.8 84.4 26

Nivel 2 2.1 87.4 117.1 13


2.4 83.3 125.8 12
2.5 87.2 132.1 10
2.2 85.0 85.0 12
2.2 89.0 126.5 12

Nivel 3 4.7 48.6 140.2 6


14.8 44.2 145.5 6
4.6 49.3 138.7 5
5.0 49.7 193.2 6
4.7 40.1 142.2 6

La repetición del valor 110.2 en el nivel 1 es sospechoso pero puede pensarse que es correcto.
La repetición de valores para las variables 1 y 4 no son sospechosos en vista de que tienen una
variabilidad pequeña. La repetición del valor 85.0 en dos columnas sucesivas en el nivel 2 es
muy sospechosos debido a que da origen a una aparente observación atípica en la variable 3. En
el nivel 3, el valor 14.8 parece tener un dígito “uno” espúreo añadido a 4.8, mientras que la
observación atípica 193.2 puede ser el número 139.2 con dígitos invertidos. El outlier 49, en el
nivel 1, no tiene una explicación obvia.

Tratamiento de valores sospechosos y errores.

Una vez que un error o un valor sospechoso se ha detectado, el investigador debe determinar, si
es posible, si se cometieron errores de registro o captura. Si ocurrieron estos errores y pueden
corregirse, entonces debe hacerse. Por lo general este es el caso para valores invertidos,
repeticiones y valores en la columna equivocada. Si se cometieron errores de registro, pero no
pueden corregirse, entonces esos datos deben eliminarse de todo análisis multivariado que deba
efectuarse.
Las observaciones atípicas son más difíciles de manejar, particularmente cuando son imposibles
de verificar o han sido mal registradas desde un principio. Saber cómo trabajar con los datos
outliers cuando no hay errores aparentes de registro o captura es un problema difícil que no
tiene una solución siempre aceptable. Un investigador debe decidir si cree que una observación
outlier los están llevando hacia la “verdad” o los está alejando de ella. Si cree que la
observación lo está conduciendo a la verdad, entonces el dato se debe incluir en los análisis
estadísticos que se van a realizar; si creen que la observación los está llevando a conclusiones
erróneas, entonces el dato debe eliminarse de todos los análisis estadísticos.
En ocasiones es recomendable analizar los datos de dos maneras: una en la que se conserven los
datos outliers en el conjunto de datos, y otra en la que se les elimine. Si las respuestas a las
preguntas importantes planteadas por el investigador desde un principio no cambian, entonces
el estadístico no se ve obligado a decidir que debe hacer con los posibles outliers, ya que éstos

8
no afectan sus conclusiones. Sin embargo, es más frecuente que las respuestas difieran, debido a
que los datos atípicos a menudo son los puntos que influyen más en un conjunto de datos. Es
decir, unos cuantos datos atípicos extremos que no se eliminen de un análisis estadístico pueden
hacer que el resto de los datos resulten inútiles para llegar a conclusiones confiables y veraces.

Otro tipo de problema al que el estadístico debe enfrentarse con frecuencia al analizar un
conjunto de datos multivariados es la presencia de datos faltantes. Es importante no perder de
vista que ningún software trata adecuadamente a los valores faltantes. Aun si el programa se
ejecuta y produce resultados, éstos no necesariamente serán útiles o significativos. En ocasiones
se recomienda reemplazar los valores faltantes en una variable respuesta por el promedio de esa
variable respecto a todos los demás individuos del conjunto de datos. Sin embargo, esto no
siempre es adecuado. Para saber la razón, considérese el siguiente ejemplo: supongamos que un
investigador está observando una muestra aleatoria de hombres provenientes de alguna
población definida. Supongamos que dos variables de interés son 1) la distancia entre las puntas
de los dedos medios de las manos de cada hombre, cuando ambos brazos están completamente
estirados hacia los lados, y 2) la estatura de cada individuo. Se sabe que la estatura media de los
hombres de esta muestra es de 72 pulgadas y que la distancia media entre las puntas de los
dedos medios de las manos es de 71 pulgadas. Supóngase ahora que hay un hombre en la
muestra cuya estatura es de 84 pulgadas, pero cuya distancia entre los dedos medios no se
conoce. Esta técnica para reemplazar valores faltantes asignaría una distancia de 71 pulgadas
como la distancia entre los dedos medios de este hombre. Esto no parece realista. Una
asignación así crearía un outlier en los datos que se van a analizar.
En muchos casos sencillamente se eliminan los renglones correspondientes a los individuos que
presentan un valor faltante para alguna de sus variables.

Finalmente, es importante verificar que las unidades experimentales sean independientes, ya


que una condición que deben satisfacer casi todos los métodos multivariados es que las
variables medidas en cualquier unidad experimental dada deben ser independientes de las
variables semejantes medidas en cualquier otra unidad experimental. En otras palabras, los
valores observados de las variables medidas en una unidad experimental no deben influir sobre
los valores observados de las variables medidas en cualquier otra unidad experimental.

Advertencia. El investigador no debe permitir que la accesibilidad de software estadístico le


lleve a aplicar técnicas multivariadas elaboradas sin antes revisar sus datos con mucho cuidado.
Nunca se debe confiar en que un conjunto grande de datos es correcto. Los errores son
inevitables y deben tomarse medidas para tratar con ellos. Desafortunadamente, unos cuantos
errores pueden hacer que un análisis estadístico carezca de valor o, peor aún, nos lleve a
conclusiones erróneas.

1.6 Notación

Denotaremos el número de variables por p, y el número de unidades experimentales por n. Por


lo tanto, tenemos un total de (n×p) medidas. Sea

x rj = r-ésima observación de la j-ésima variable (r = 1,...,n;j=1,...,p)

La matriz cuyo elemento en el r-ésimo renglón y la j-ésima columna es x rj será llamada matriz
de datos, y la denotaremos por X. Por lo tanto

9
 x11 x12 . . . x1 p 
x x 22 . . . x 2 p 
 21
 . . . . 
X = 
 . 
 . 
 
 x n1 . . . x np 

Con frecuencia n>p, y la manera obvia de registrar los datos es por medio de un vector-renglón
para cada individuo. De hecho, la matriz de datos puede verse como n vectores renglón, los
cuales denotaremos por x1T a x Tn , o como p vectores columna, los cuales denotamos por y1 a yp.
Por lo tanto,

x1T 
 T
x 2 
 . 
X = 
 . 
 . 
 T
x n 

donde x iT denota la transpuesta de x i . Nótese que los vectores están escritos en negritas, sin
embargo nosotros escribiremos las matrices con itálicas (alejándonos de la convención
establecida).
La elección de r y j como los dos subíndices en x rj se realizó de manera deliberada de forma tal
que distingamos claramente entre los subíndices para la variable y para el individuo. De manera
más general, utilizamos i, j,... como subíndices para variables, y r, s, t,... como subíndices para
individuos. Por lo tanto, cuando comparemos dos variables, usaremos i y j como subíndices.
Por ejemplo, el coeficiente de correlación para las variables i y j se denota por  ij . De manera
similar, cuando comparemos dos individuos utilizaremos r y s como subíndices. Por ejemplo,
denotamos la distancia entre los individuos r y s por drs.

10
Bibliografía

1. Aguirre Torres V., Artaloitia B. Análisis Exploratorio de Datos. Departamento de Estadística


y Actuaría. Instituto Tecnológico Autónomo de México (ITAM).

2. Chatfield C., Collins A.J. (1980). Introduction to Multivariate Analysis. Chapman & Hall.

3. Everitt B., Dunn G. (1991). Applied Multivariate Data Analysis. Arnold.

4. Johnson D. (2000). Métodos Multivariados Aplicados al Análisis de Datos. Thomson Editores.

11

También podría gustarte