Está en la página 1de 225

UNIVERSIDAD DEL TOLIMA

UNA INTRODUCCIÓN A LA

ESTADISTICA
GENERAL

JAIRO ALFONSO CLAVIJO M


jaclavij@ ut.edu.co

IBAGUE, AGOSTO DE 2005


INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 2

En memoria de
Rosalba
cuyo Espíritu me anima
desde el Cielo
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 3

Indice general:
Conceptos preliminares …………………………………………………… 4
Análisis de datos ………………………………………………………….. 11
Transformaciones de datos ……………………………………………….. 29
Distribución normal ………………………………………………………. 30
Distribución binomial …………………………………………………….. 32
Análisis exploratorio para dos variables ………………………………….. 34
Software …………………………………………………………………… 37
Hipótesis estadísticas ……………………………………………………… 42
Bondad de ajuste …………………………………………………………… 43
Estimación de medias y proporciones …………………………………….. 48
Medidas de asociación ……………………………………………………… 55
Regresión lineal simple …………………………………………………….. 65
Diseño y análisis de encuestas ……………………………………………… 78
Comparación de dos medias y dos proporciones …………………………... 96
Comparación de k medias – Una introducción al diseño de experimentos .. 104
Componentes principales …………………………………………………… 151
Análisis de correspondencias ……………………………………………….. 171
Métodos de clasificación ……………………………………………………. 187
Introducción al análisis discriminante ………………………………………. 208
Escalamiento multidimensional (MDS) ……………………………………. 217
Bibliografía …………………………………………………………………. 220
ANEXO 1 - Valores críticos para prueba K-S …………………………….. 222
ANEXO 2 - Puntos porcentuales para comparaciones de Tukey ………….. 223
ANEXO 3 - Límites de intervalos para prueba Durban-Watson …………... 224
ANEXO 4 - Valores críticos para sumas de rangos de Wilcoxon …………. 225
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 4

1. CONCEPTOS PRELIMINARES

Variable : Objeto estadístico que representa una magnitud o característica que puede
tomar diferentes valores. Por ejemplo: edad, peso, estatura, número de hijos, longitud del
fémur, duración de la gestación, color de los ojos, opinión etc
Variables aleatorias: Son aquellas variables que toman valores que no pueden ser
determinados con anticipación. Con frecuencia se sabe qué valores pueden tomar mas no
cuáles van a tomar. Ejemplo: la edad en años cumplidos de un estudiante de la
Universidad seleccionado de una lista. El número de huevos que deposita una mosca, etc.
Estas variables se oponen a las variables determinísticas o matemáticas cuya variación
está plenamente determinada por una fórmula matemática.

Las variables aleatorias y sus propiedades constituyen el principal objeto de estudio de la


estadística. Esta ciencia no se ocupa de las variables determinísticas aunque sí las use en
algunas situaciones.

La estadística obtiene información de diferentes maneras. Una de las formas más


frecuentes de hacerlo es a través de experimentos que pueden ser diseñados
(planificados) o no.

Experimento, en el sentido estadístico, es cualquier acción que produzca un resultado


medible. Por ejemplo: Seleccionar un individuo (estudiante) de un listado y medir su
presión sanguínea, aplicar una encuesta, etc. Un experimento es aleatorio cuando sus
resultados no son previsibles con antelación. Es decir, cuando los resultados son
realizaciones de una variable aleatoria.

Un experimento planeado es aquel en el que, previo a la medición, se han planificado


algunos pasos, como por ejemplo, cuántas unidades considerar, en qué circunstancias,
cuáles medir, cómo procesar los datos de las mediciones, etc Una parte de la estadística
se ocupa del diseño de experimentos. Un experimento no planeado es aquel en el que
simplemente se toma la información de una fuente que no obedece a un proceso de
planificación previo. Por ejemplo: aplicación de un cuestionario de opinión a algunos
miembros de una comunidad.

Todo experimento, planeado o no, involucra una o más variables aleatorias (es decir, es
univariado o multivariado). Variables que son observadas en varios individuos los cuales
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 5

constituyen las observaciones (también llamadas casos o individuos). Las variables son
medidas en cada uno de los individuos, dando como resultado una medición o dato.

Los datos no son necesariamente números. También pueden ser cualidades o categorías
de una lista previamente establecida, por ejemplo, sexo (M, F), grado de aceptación
(Mucho, Poco, Nada). Esto produce una primera clasificación de las variables en
numéricas y categóricas (o nominales). Estas últimas a su vez, pueden ser nominales
puras u ordinales. Sexo es una variable categórica pura mientras que grado de
aceptación es variable categórica ordinal.

Las variables numéricas pueden ser continuas o discretas. Son continuas cuando sus
valores pueden ser cualesquiera dentro de un intervalo. Por ejemplo, la altura en cm de
una planta o la duración de una bombilla eléctrica. Variables discretas son aquellas que
sólo pueden tomar valores de un conjunto finito (enumerable). Por ejemplo, el número de
hijos en una familia. El número de estudia ntes de un curso.

Los datos que se obtienen al observar y medir una variable, son entonces números (en el
caso de variables numéricas) o símbolos que representan una categoría (en el caso de
variables categóricas). Así, por ejemplo:

VARIABLE DATO O RESULTADO:


Ingresos 1, 526,315.00 Numérica continua
Número de Sillas en el aula 12 Numérica discreta
Sexo o género M F Categórica pura
Grado de aceptación Alto Bajo Categórica ordinal

Aunque las categorías de una variable categórica (nominal) sean representables mediante
símbolos cualesquiera, lo usual es usar códigos más prácticos, económicos o eficientes
que reemplacen a esos símbolos. Se dice entonces que una variable está codificada. Una
variable puede ser recodificada cuando los códigos son modificados de alguna manera.

Es frecuente el uso de códigos numéricos para la codificación de variables nominales. Por


ejemplo: en vez de Masculino usar 1, en vez de Femenino usar 2. Generalmente se usan
los dígitos 1, 2, 3, ..., 9 como códigos y rara vez son necesarios códigos numéricos de dos
dígitos.

Cuando se usen variables categóricas ordinales es conveniente y recomendable usar


códigos numéricos consecutivos cuya magnitud esté en correspondencia con el orden de
la categoría. Por ejemplo: En vez de Mucho usar 3, en vez de Poco usar 2 y en vez de
Nada usar 1 (aunque se crea que es más conveniente usar 0 en vez de Nada, debemos
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 6

evitar el uso del código 0 por otras razones, principalmente por el tratamiento de cálculo
que tienen algunos paquetes de computador). Resulta evidente que aunque una variable
categórica esté codificada numéricamente, con los datos que ella proporcione no es lícito
hacer operaciones aritméticas: no tiene sentido, por ejemplo, calcular una media o una
varianza de los valores de sexo.

Como se dijo antes, la información es el resultado que se obtiene en uno o más


experimentos y que es expresable en datos, codificados mediante números u otros
símbolos adecuados. Para que sea útil y perdurable, esta información debe ser almacenada
de una manera organizada y de modo que sea fácilmente accesible. Antiguamente la
información se almacenaba en papel donde seguramente estaba bien organizada pero
resultaba poco accesible. Con la aparición del computador y los medios magnéticos
asociados a él (cintas, discos, etc) es posible almacenar enormes cantidades de
información en medios relativamente baratos y de muy alta accesibilidad. Este es el
método más usado. Pero ello implica dar una estructura a los archivos de datos de manera
que resulten fácilmente accesibles por los paquetes estadísticos.

Muchos paquetes estadísticos (SPSS, Minitab, SAS, SYSTAT, por ejemplo) tienen
estructuras que les son propias y generalmente incompatibles entre sí aunque muchos de
ellos tienen la posibilidad de transformar la estructura de otro en la suya propia. Es
conveniente, sin embargo, utilizar una estructura universal para el almacenamiento de la
información, estructura que es compartida por la gran mayoría de paquetes estadísticos y
que tiene cierta ventajas adicionales. Es la siguiente:

Un archivo de datos es una gran matriz con la siguiente estructura:

CASOS VARIABLE 1 VARIABLE 2 ... VARIABLE p


CASO 1 Dato 11 Dato 12 ... Dato 1p
CASO 2 Dato 21 Dato 22 ... Dato 2p
... ... ... ... ...
CASO n Dato n1 Dato n2 ... Dato np
Tabla 1. Esquema de un arcchivo de datos

La zona sombreada es opcional y muchos paquetes estadísticos no la usan.

Generalmente se usan como separadores de los datos los espacios en blanco u otros
símbolos como la coma o el slash (/). Se debe buscar que los datos estén alineados por la
derecha y que no haya datos faltantes (MD o Missing Data) ya que esto ocasionaría
problemas en el momento de procesar información. Existen procedimientos de
imputación de datos faltantes, es decir, procedimiento de "llenado de los huecos" cuando
hay faltantes.
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 7

Aunque los archivos de datos pueden crearse mediante hojas electrónicas como EXCEL,
(esto se hace por facilidad y rapidez) es recomendable que su almacenamiento se haga en
formato ASCII (American Estandar Code for Information Interchange) debido a que éste
es un código universal (entendible por todos los paquetes) y poco dado a contener virus
informáticos. Un archivo en formato ASCII (pronúnciese "áski") puede ser creado con
cualquier editor de texto plano, por ejemplo, EDIT (que viene en todos los computadores
compatibles IBM), WordPad de Windows, EDITOR de ESM, El editor de Minitab/DOS,
etc. Una manera muy rápida de hacerlo es mediante el uso de una hoja como Excel y su
posterior conversión (exportación) a ASCII(o archivo del DOS).

El siguiente ejemplo ilustra la estructura de un archivo de datos. Se trata de un archivo


que contiene información (ficticia) sobre 150 fincas ubicadas en diferentes regiones y
terrenos de Colombia, dedicadas a diferentes actividades de economía agropecuaria. Este
archivo se encuentra en disco bajo el nombre FINCAS.DAT.

La primera variable (??) corresponde al número de orden de la observación y las demás variables a lo
siguiente:
01. CODIGO DEPARTAMENTAL (5=Antioquia 15=Boyacá 25=Cundinamarcaca 73=Tolima)02.
EXTENSION DE LA FINCA EN HECTAREAS03. NUMERO DE HECTAREAS DEDICADAS AL
CULTIVO
04. TEMPERATURA PROMEDIO EN CADA FINCA
05. TIPO DE TERRENO (1=Plano 2=Quebrado 3=Mixto)
06. FINCA TECNIFICADA (1=Sí 2=No)
07. NUMERO DE OBREROS QUE TRABAJAN EN LA FINCA
08. NUMERO DE CABEZAS DE GANADO MACHO
09. NUMERO DE CABEZAS DE GANADO HEMBRAS
10. RAZA DE GANADO MAYORITARIA (1=Cebú 2=Normando 3=Holstein)
11. EXISTENCIA DE HATO LECHERO (1=Sí 2=No)
12. EXISTENCIA DE RIEGO ARTIFICIAL ( 1=Sí 2=No)
13. TIPO DE CULTIVO PREDOMINANTE (1=Maiz 2=Sorgo 3=Algodón 4=Trigo 5=Papa 6=Otro)

1 5 120 100 15 1 2 14 12 75 1 1 1 6
2 5 458 360 21 1 2 25 124 58 2 2 1 1
3 15 148 140 18 2 1 18 15 125 2 2 1 2
4 25 200 160 25 2 2 25 14 200 2 2 2 3
5 25 150 76 21 2 1 24 18 157 1 1 1 3
6 73 400 320 25 2 1 33 19 42 1 1 1 4
7 25 150 98 20 3 1 24 25 15 1 1 2 1
8 25 125 105 21 2 1 7 54 6 3 1 2 4
9 5 250 200 15 3 2 25 55 25 3 1 2 4
10 5 145 125 18 2 2 21 12 158 3 1 2 1
11 5 400 375 14 1 2 26 6 145 3 1 2 1
12 15 75 68 19 2 1 23 24 162 3 2 1 4
13 15 25 22 18 2 2 30 78 145 3 2 2 2
14 5 162 145 14 3 1 25 125 45 3 2 2 2
15 5 185 164 15 1 1 54 14 25 2 2 2 3
16 5 220 210 16 1 2 24 7 28 2 1 2 5
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 8

17 73 150 140 12 1 2 15 25 145 2 1 1 2


18 73 220 200 17 2 2 25 14 25 1 1 1 6
19 5 250 125 21 1 2 26 16 158 1 1 1 6
20 5 145 120 25 2 2 25 25 200 1 2 2 2
21 5 200 78 24 1 1 24 89 125 1 2 2 4
22 25 230 170 28 3 1 12 35 456 2 2 2 2
23 25 148 68 26 3 1 32 47 25 1 2 2 5
24 25 205 145 25 3 1 25 45 145 2 2 1 1
25 5 420 300 21 2 1 21 48 13 2 1 1 3
26 73 358 260 20 2 1 24 21 15 1 1 1 2
27 25 320 150 24 1 1 28 25 258 2 1 1 1
28 25 180 120 25 2 1 14 24 25 2 2 2 4
29 5 200 110 21 1 2 12 15 21 1 2 2 1
30 15 150 98 14 2 1 25 19 22 2 1 2 5
31 25 100 75 18 1 2 24 25 48 3 2 2 2
32 25 75 32 15 3 1 21 125 75 2 1 2 2
33 25 310 140 14 2 2 24 478 145 2 1 2 1
34 5 250 200 16 2 2 20 14 400 3 1 1 1
35 5 148 48 12 1 1 20 478 125 3 1 1 4
36 73 150 36 15 2 2 23 14 256 3 1 1 3
37 15 200 100 14 1 2 22 15 25 3 2 1 3
38 25 230 126 15 3 2 21 78 470 3 2 1 5
39 73 400 268 12 2 1 22 48 145 2 2 2 2
40 5 350 239 25 1 1 24 58 125 2 2 2 1
41 5 320 169 21 2 2 23 74 58 2 2 2 6
42 15 125 85 24 1 1 21 25 54 1 2 2 2
43 15 100 24 25 2 1 25 24 47 2 1 2 1
44 25 90 45 21 1 1 36 13 45 1 1 1 4
45 25 120 62 20 3 2 21 25 46 2 1 1 2
46 73 220 156 20 3 2 24 14 25 1 1 1 1
47 5 250 200 20 3 2 25 15 185 2 1 1 4
48 5 320 260 21 3 2 26 18 26 1 1 2 2
49 15 250 235 20 2 1 20 19 456 2 1 1 1
50 15 200 128 25 2 1 21 52 125 3 1 1 3
51 5 120 90 25 3 1 20 45 100 2 1 1 2
52 5 200 135 26 3 1 20 45 78 1 1 1 1
53 5 320 300 28 3 1 20 48 12 2 1 1 5
54 5 250 160 24 3 1 24 47 45 1 2 1 2
55 5 390 310 14 2 1 21 14 45 2 1 2 1
56 25 225 198 15 2 1 20 25 125 2 2 2 4
57 5 220 195 16 3 1 23 54 215 1 1 1 1
58 73 150 87 12 1 1 25 51 200 1 1 1 1
59 15 75 36 14 2 1 28 42 180 1 2 1 2
60 25 80 56 12 2 1 27 15 57 2 2 1 1
61 25 140 112 15 2 1 24 14 45 2 1 2 2
62 25 200 180 18 3 1 26 14 12 2 1 2 1
63 25 180 145 19 1 1 25 15 45 2 1 1 2
64 73 125 112 20 2 2 21 25 25 2 1 2 1
65 5 145 110 17 2 1 23 14 17 3 2 2 1
66 5 180 135 15 2 2 22 17 18 3 2 2 1
67 15 200 160 12 1 2 20 18 54 3 2 2 3
68 25 125 112 14 3 2 25 15 21 3 2 2 2
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 9

69 25 100 90 12 1 1 21 13 20 3 1 1 2
70 73 120 100 25 2 1 14 26 14 2 1 1 5
71 5 150 132 14 2 1 18 25 16 2 1 1 2
72 5 200 187 15 1 1 17 14 40 2 1 2 2
73 5 256 225 14 2 1 13 16 12 2 1 2 1
74 25 400 358 14 1 2 21 14 16 1 2 2 1
75 25 75 70 15 1 2 25 145 200 2 1 1 1
76 73 125 110 25 1 2 21 14 15 1 1 1 1
77 15 200 159 24 2 1 25 12 25 3 2 2 4
78 5 90 69 25 2 1 14 78 15 2 1 2 4
79 5 180 125 14 3 1 28 54 14 2 1 2 4
80 25 150 67 24 2 1 23 51 13 3 1 1 6
81 5 75 68 15 2 2 25 12 145 2 2 1 2
82 5 452 398 12 2 2 22 125 12 2 2 1 1
83 15 125 110 15 2 2 56 14 14 2 2 2 2
84 15 258 203 25 2 2 35 16 16 3 2 2 2
85 25 415 387 21 3 2 32 25 25 3 2 2 5
86 15 225 183 24 3 1 25 128 35 2 2 2 2
87 5 78 58 13 3 1 18 25 58 3 2 2 5
88 25 45 30 25 2 1 19 21 59 2 1 1 2
89 25 25 24 14 2 1 15 25 65 1 1 1 1
90 15 145 119 12 3 1 14 26 25 1 1 1 1
91 5 258 45 14 2 2 26 21 24 1 1 1 1
92 73 451 32 11 2 2 25 25 75 2 2 2 4
93 73 132 36 15 2 2 22 23 14 2 2 2 1
94 25 256 220 12 1 2 35 265 16 1 2 2 4
95 15 200 185 15 1 2 32 56 58 2 2 2 1
96 5 220 90 14 1 2 31 25 29 1 2 2 4
97 5 125 104 15 1 1 30 58 59 1 1 2 1
98 15 325 312 12 2 1 17 25 54 1 1 1 5
99 25 236 201 18 2 1 18 26 58 2 1 1 5
100 73 145 137 17 2 2 19 124 49 2 2 1 5
101 73 258 231 19 2 2 11 125 43 2 2 1 2
102 25 451 301 18 2 1 12 25 25 1 2 2 2
103 15 235 67 17 2 1 15 11 56 1 2 2 1
104 25 89 60 15 2 1 12 25 52 1 2 2 2
105 15 95 87 16 3 1 45 21 14 1 1 1 1
106 5 25 12 20 3 1 26 14 15 3 1 2 2
107 5 45 6 20 2 1 35 15 28 3 1 1 6
108 25 36 31 20 2 2 25 16 46 3 1 2 6
109 15 75 70 20 3 2 14 21 254 3 2 1 3
110 25 58 52 21 3 2 19 51 54 3 2 2 3
111 5 60 56 12 3 2 25 44 87 3 1 1 2
112 25 145 101 15 3 2 28 25 225 2 1 2 3
113 15 180 87 18 3 2 29 22 12 1 2 1 2
114 5 200 139 11 3 2 26 15 14 1 1 1 3
115 5 125 111 25 3 2 32 24 56 1 2 1 6
116 15 136 117 21 3 2 35 15 35 2 1 1 1
117 15 200 186 20 3 2 36 232 58 2 2 1 2
118 25 400 315 21 3 1 24 25 35 1 2 1 5
119 73 450 381 21 3 1 15 215 22 1 2 1 6
120 73 236 230 25 2 1 25 25 58 3 2 2 3
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 10

121 25 225 205 21 2 1 26 21 56 3 1 2 2


122 73 125 105 22 3 1 25 45 66 3 1 2 2
123 15 236 200 15 3 2 22 54 58 3 1 2 3
124 25 200 160 14 3 2 22 51 45 2 2 2 2
125 5 258 232 12 1 1 22 22 85 2 1 2 1
126 73 32 25 25 1 2 26 20 58 1 2 2 2
127 25 325 238 23 1 1 24 12 69 2 1 2 2
128 15 236 200 22 1 1 26 12 97 1 2 2 5
129 73 308 185 25 2 1 24 18 85 2 1 2 6
130 25 204 196 22 2 1 26 21 45 1 2 1 4
131 25 125 109 21 2 2 25 25 55 2 1 1 6
132 15 456 303 25 3 1 23 21 78 1 1 1 5
133 5 108 58 24 3 0 25 25 47 2 1 1 5
134 5 100 68 10 3 1 24 15 45 1 1 1 4
135 25 100 81 11 3 2 25 22 49 2 1 1 4
136 15 92 53 15 3 2 26 45 25 2 2 2 2
137 25 95 42 17 3 2 35 15 44 2 2 2 5
138 73 148 126 16 2 1 21 14 87 1 2 2 2
139 5 300 234 15 2 1 25 25 44 1 2 2 1
140 5 105 84 11 2 1 15 14 45 2 1 1 2
141 25 200 154 14 2 1 25 18 44 1 1 1 1
142 15 45 32 12 2 1 12 17 65 2 1 1 6
143 25 128 108 21 1 1 25 19 58 1 2 1 2
144 73 256 126 24 1 2 26 12 78 2 2 2 1
145 15 150 105 20 1 2 23 15 45 1 2 2 5
146 25 75 60 22 2 2 25 14 25 2 2 2 2
147 15 96 72 22 2 2 24 15 59 1 1 2 4
148 25 182 145 21 2 2 25 12 75 1 2 2 1
149 5 160 138 15 3 1 26 16 125 1 1 1 5
150 25 110 105 14 3 2 21 15 103 3 2 1 6

Ejercicio: Con base en los datos de este archivo se plantean las siguientes reflexiones y
preguntas:
Algunas preguntas estadísticas son relativamente simples pues se relacionan directamente
con un conteo (contabilidad) de individuos que cumplen ciertas condiciones o con la
naturaleza y propiedades de las variables. Son las siguientes:
1. Cuáles variables son numéricas y cuáles categóricas?2. Cuántas fincas de terreno plano
existen?
3. Hacer un conteo de fincas según el tipo de cultivo
4. Cuál es el promedio de temperatura en fincas con ganado cebú?
5. Hacer conteo de fincas para cada tipo de cultivo pero contando por separado las que
tienen riego y las que no lo tienen

Otras preguntas son más complicadas y ya no pueden ser respondidas mediante un simple
conteo. Son de tipo más teórico y se necesita fundamentación estadística para poderlas
responder. Por ejemplo, las siguientes:
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 11

6. Los datos del número de hectáreas (primera variable) se pueden considerar ajustados a
una distribución normal?
7. Suponiendo que las 150 fincas corresponden a una muestra aleatoria de 3000 fincas
que existen en una determinada región, se tendrán razones suficientes para pensar que el
porcentaje de fincas tecnificadas en toda la región es mayor que el porcentaje de fincas no
tecnificadas?
8. Podrá afirmarse razonablemente que el promedio de temperatura es diferente para las
fincas de la región, según el tipo de terreno?
9. En cuánto se estima el número de cabezas de ganado macho en toda la región?
10. Existe algún tipo de dependencia entre la presencia de riego artificial y el tipo de
terreno de las fincas?
11. El porcentaje de terreno dedicado a cultivo en la región es inferior al porcentaje de
terreno dedicado a la ganadería?

2. ANALISIS DE DATOS

Con las variables categóricas, es poco lo que puede hacerse a nivel elemental: se puede
contar cuántas ocurrencias de cada modalidad se presentan, qué porcentaje representa
cada modalidad y se pueden ilustrar estos resultados con algunos gráficos que ayudan a
globalizar la información, como se ve enseguida. Un análisis un poco más profundo de
este tipo de variables pretende medir el grado de dependencia de dos variables categóricas
y la asociación que existe entre sus categorías o modalidades. Esto será tema de estudio
más adelante.

Por ejemplo, Si en los datos anteriores se contabilizan las fincas dedicadas a cada uno de
los diferentes cultivos, se encuentra lo siguiente:

TIPO DE No Porcentaje
CULTIVO Fincas Del Total
1 MAIZ 41 27.33
2 SORGO 44 29.33
3 ALGODÓN 14 9.33
4 TRIGO 20 13.33
5 PAPA 18 12.00
6 OTROS 13 8.67
Tabla 2 Conteo de frecuencias de una variable categórica
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 12

La gráfica siguiente da una idea visual de la intensidad de cada tipo de cultivo, según el
número de fincas donde ellos se encuentren. Existen varios tipos de gráficas pero todos
ellos logran el mismo cometido.

Con las variables de tipo numérico es posible hacer más análisis a nivel elemental. Aparte
de los conteos vistos anteriormente (ejercicio 1) uno de los análisis iniciales en cualquier
estudio estadístico tiene por fin indagar sobre el comportamiento de los datos. Se quiere
saber de una manera global si los datos representan una población simétrica, qué tan
fuerte es el grado de dispersión, cómo es la forma de su distribución, Cuánto valen
aproximadamente los estadísticos descriptivos más importantes (media y varianza), si
existen o no valores atípicos, etc. El conocimiento de esta información permite entrar en
etapas más avanzadas del análisis con una "actitud" ante los datos.

El conjunto de técnicas que estudia los datos desde el punto de vista anterior es conocido
como análisis exploratorio de datos (Exploratory Data Analysis o EDA). En estas notas
veremos algunas de las técnicas más usuales para explorar datos numéricos. Pero antes
tendremos que precisar algunos términos.

En primer lugar qué se entiende por población. Hemos dicho que una variable aleatoria
numérica toma valores numéricos, que pueden ser continuos o discretos. Por ejemplo,
puede ser el peso de una persona o puede ser el número de hermanos que ella tenga. En el
caso del peso podríamos decir que la variable puede tomar valores entre 0 y 120 Kg. En
el caso de los hermanos puede tomar valores enteros 0, 1, 2, ..., 20, por ejemplo. Nótese
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 13

que la variable puede tomar esos valores. Esto no significa que los tome. Y los valores
que asume la variable no son igua lmente probables. Por ejemplo, quizás sea más probable
que la variable NUMERO DE HERMANOS tome el valor 2 que el valor 10 y éste con más
probabilidad que el valor 20. De igual manera, la variable PESO toma valores entre 5 y
80 kg con más probabilidad que entre 90 y 120 Kg, al menos en un grupo de personas
"normales".

Dada una variable aleatoria X, se define la población asociada a ella como el conjunto de
valores numéricos que X puede tomar junto con la probabilidad de que tome tales valores.
Nótese que, según esta definición, una población esta asociada a una variable. No es algo
independiente de ella. Por otra parte, una población será discreta o continua, según como
sea la variable asociada a ella. No se debe cometer el error (demasiado frecuente, por
cierto) de creer que la población está formada por un conjunto de personas, animales o
cosas. Estos individuos son objetos de medición o de observación y, como tal, son
portadores de los valores de una población pero, en sentido estadístico, no son la
población misma. Por esto, es que en el mismo grupo de individuos puede haber
poblaciones diferentes. Por ejemplo, sus pesos y número de hermanos son dos
poblaciones muy distintas observadas sobre los mismos individuos. En razón a la
definición que se acaba de dar, con mucha frecuencia, consideramos población y variable
como una dupla indisoluble y al hablar de cualquiera de ellas se estará hablando de la
otra.

Se observa cómo, al decir que X toma valores en una población, algunos valores son
tomados con más probabilidad que otros en la mayoría de los casos. El lenguaje común
con frecuencia lo expresa así. Se dice, por ejemplo, que es más probable que un paisa
tenga un número alto de hermanos que una persona de otro lugar de Colombia. O, por
ejemplo, que es más probable que un norteamericano sea más alto que un colombiano.
Excepciones hay, pero la regla general es válida en la mayoría de los casos.

Lo que se acaba de decir en el párrafo anterior da una idea de lo que se quiere mencionar
cuando hablamos de la distribución de probabilidad de una variable aleatoria, o
simplemente, para abreviar la expresión, cuando se habla de la distribución de una
población, o de la distribución de X. Se entiende entonces como distribución de una
variable aleatoria, X, la probabilidad de que X tome cada valor dentro de la población. La
probabilidad es una medida de la aparición de uno o más números como valores de X.
Comúnmente, la probabilidad se mide como una frecuencia y, como tal, puede expresarse
por medio de un porcentaje. Sin embargo en la práctica se representa mediante una
fracción entre 0 y 1, correspondiente a un porcentaje. Por ejemplo, 0.2315 en vez de
23.15%. De esta manera una probabilidad de cero (correspondiente a una frecuencia de
0%) expresa que un evento no sucederá con toda seguridad. Una probabilidad de 1
(correspondiente a una frecuencia de 100%) indica que un evento sucede con plena
seguridad. Entre estos dos extremos se encuentran las demás medidas de probabilidad y,
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 14

por ejemplo, una probabilidad de 0.3416 (correspondiente a una frecuencia de 34.16%)


indica que el evento ocurre el 34.16% de las veces.

La probabilidad, aplicada a los valores que toma una variable aleatoria, mide la
frecuencia con que un valor es asumido por una variable. Por ejemplo, si una variable
aleatoria discreta, X, sólo puede tomar los valores 0, 1, 2, 3; al decir que P(X=2) = 0.5620,
estamos afirmando que el valor 2 es asumido con una frecuencia de 56.2%. Es decir que
si observáramos dicha variable 500 veces, por ejemplo, se esperaría que 281 veces tome
el valor 2, (ya que 281 = 0.562x500). Puesto que es seguro que la variable aleatoria toma
uno de los cuatro valores 0, 1, 2, 3, la suma de las respectivas probabilidades debe ser 1.
Esto es, P(X=0) + P(X=1) + P(X=2) + P(X=3) = 1. Se podría tener, verbi gratia, lo
siguiente:

P(X=0) = 0.1214
P(X=1) = 0.1903
P(X=2) = 0.5620
P(X=3) = 0.1263

De esta manera hemos descrito la distribución (de probabilidad) de la variable X.

Con frecuencia se representan los valores anteriores mediante barras cuyas alturas sean
iguales a los valores de probabilidad y se tiene entonces una gráfica de la distribución de
la variable discreta X. (ver gráfica 2)

Para el caso de las variables aleatorias continuas, la situación es ligeramente más


complicada, debido a que la variable puede tomar infinitos valores dentro de un intervalo.
Por esta razón la probabilidad de que tome exactamente un valor es infinitamente
pequeña y se toma igual a cero, sin que esto quiera decir que sea seguro que no tome ese
valor.(De ser así, la variable no tomaría ningún valor dentro del intervalo lo que,
evidentemente es contradictorio). Esta es una de las tantas paradojas causadas por el
infinito. Para evitar el problema, la probabilidad se mide por subintervalos. Es decir,
hablamos por ejemplo, de la probabilidad de que la variable aleatoria X tome valores
entre 50 y 80 (pensemos en la variable PESO), de que tome valores por debajo de 30, de
que sea mayor a 100, etc. Lo que escribimos como: P(50 ≤ X ≤ 80), P(X<30), P(X>100).
Sin embargo debe quedar claro que, por ejemplo, P(X=50) = 0, P(X=100) = 0, a pesar de
que X puede tomar los valores 50 o 100
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 15

0.562 Función de distribución


0.6
0.5 1.2 1
0.4 1 0.8737
0.8
0.3
0.1903 0.6
0.2 0.1214 0.1263 0.3117
0.4
0.1214
0.1 0.2
0
0
x=0 x=1 x=2 x=3
X=0 X=1 X=2 X=3

Gráfica 2. Distribución de una variable discreta

En el caso de una variable continua la probabilidad ya no puede darse mediante una tabla
sino que se hace mediante una función F que proporcione la probabilidad de que X
tome valores menores o iguales que un número arbitrario. Es decir para cada número real
x se define P(X ≤ x) = F(x). Una tal función, se llama función de distribución de X o
función acumulativa de probabilidad para X.

Por ejemplo, una variable aleatoria X, podría tener como función de distribución, la
siguiente:
1 − e − 2 x si x > 0
F ( x) = 
 0 si x ≤ 0

en cuyo caso, por ejemplo, P(X < 2) = P(X ≤ 2) = F(2) = 1 − e − 4 = 0.9817


La gráfica de esta función se puede apreciar en la página siguiente. En dicha gráfica se
observa que cuanto más grandes sean los valores de x mayor es la probabilidad de que X
tome valores inferiores a x, sin que tal probabilidad exceda a 1.

Un estudio más completo y detallado de las funciones de distribución para variables


aleatorias, es tema de cursos más avanzados Por ahora es suficiente conocer el concepto
que hemos esbozado. Se debe advertir que la estadística inferencial hace mucho uso de
las distribuciones de probabilidad.
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 16

Gráfica 3: Una función de distribución continua

Otro concepto importante es el de muestra. Una muestra es simplemente un subconjunto


de la población. Es por tanto, un conjunto de valores, generalmente finito, que son
extraídos de la población. Todo subconjunto es una muestra pero no todo subconjunto es
una "buena" muestra. Una característica importante de una buena muestra es que sea
aleatoria. Quiere esto decir que se debe haber extraído mediante un proceso que garantice
que procede de toda la población y no sólo de ciertos sectores de ella. En un curso de
muestreo se define con más precisión el concepto de muestra aleatoria. El proceso de
seleccionar una muestra se conoce con el nombre de muestreo.

Una pregunta natural es: ¿Por qué se hace muestreo en estadística? Hay varias respuestas
a esta pregunta. Una de ellas es: por economía. Muchas veces resulta demasiado costoso
o aún imposible examinar todos los va lores de una población para obtener alguna
información sobre ella. Piénsese, por ejemplo, cómo sería de costoso y aún imposible
entrevistar a todos los habitantes de Ibagué. Otra respuesta es: Porque no hay otra
solución. Esto sucede, por ejemplo, cuando el proceso de observación es destructivo:
para medir la duración de un tipo de llantas no es posible acabar con toda la producción.
Aún hay otra respuesta: por precisión. Muchas veces una población es tan grande que
prácticamente ningún computador corriente podría albergar toda la información
correspondiente a ella o procesarla sin producir errores de redondeo.

El estadístico espera que una buena muestra refleje las propiedades de la población de
dnde fue extraída. De esta manera espera poder inferir cómo es la población, examinando
solamente la muestra. Una buena muestra debe dar información aproximada acerca de la
forma de la distribución de probabilidad de la población, debe reflejar propiedades y
características de dicha población, por ejemplo, simetría, valores más probables, valores
atípicos, tendencias, etc y finalmente, una buena muestra debe producir valores
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 17

aproximados de los correspondientes parámetros poblacionales (que son constantes


desconocidas). En otras palabras: si nos fuera dado conocer el valor de la media
poblacional, dicho valor debería ser muy próximo al que se obtiene promediando los
valores de la muestra. Por esta razón se dice que la media muestral es una estimación de
la media poblacional. Igualmente debe suceder con cualquier otro valor que se calcule
usando los datos de la muestra. Cuando todo esto se puede garantizar en una muestra, se
dice que dicha muestra es representativa de la población. Mejor dicho: una muestra
representativa de una población es como un retrato de dicha población. Es como tener la
población en miniatura para poderla examinar. Dice Sharon Lohr en su libro de muestreo
(1999) que una buena muestra es como el pueblo de Grandview en la película Magic
Town, el cual tenía exactamente las mismas características que todo Estados Unidos:
exactamente la misma proporción de personas que votaban por los republicanos, la misma
proporción de personas en la pobreza, la misma proporción de mecánicos de autos, etc.
Así pues bastaba -en la película- entrevistar a las personas de Grandview para saber cuál
era la opinión de toda la Unión Americana. Una muestra representativa es entonces una
versión a menor escala de la población.

En la práctica las muestras perfectas no existen. Sin embargo cuando una muestra es
seleccionada atendiendo a las normas dictadas por un correcto muestreo, se obtienen
muestra buenas, tánto más buenas cuanto más regular sea la población y más riguroso el
método de muestreo. La selección de una buena muestra es, por tanto, un paso
importantísimo antes de cualquier análisis estadístico. La selección de una muestra
representativa de una población se hace atendiendo simultáneamente varias preguntas:
¿Cuántos elementos seleccionar? - (Tamaño de la muestra)
¿Cuáles elementos seleccionar? - (Principio de aleatoriedad)
¿Dónde (en qué parte de la población) seleccionar?
¿Cómo (con qué método) seleccionar?
¿Qué tanto error estamos dispuestos a admitir en las estimaciones?
¿Con qué grado de confiabilidad queremos hacer estimaciones?
¿Qué tan costoso resulta seleccionar la muestra y cuánto dinero poseemos para ello?

Como se ve, no es fácil obtener muestras representativas de una población (aunque en


muchos trabajos se diga que se ha usado una de tales muestras). Aprender a hacerlo es lo
que se estudia en los cursos de muestreo.

En este texto supondremos siempre que estamos en presencia de una muestra


representativa de una población y no nos preocuparemos por saber cómo fue
seleccionada. El objetivo que perseguimos es el de explorar los datos de la muestra para
adquirir algún conocimiento acerca de la población. En esto el EDA (Exploratory Data
Análisis) es una de las herramientas más preciadas.

Cómo se dijo antes las muestras son siempre finitas. Así pues, podemos suponer que una
muestra está conformada por n valores (números) que podemos enumerar así:
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 18

Muestra = {y1, y2 ,L , yn }
Dentro de estos valores podría haber algunos repetidos, razón por la cual a menudo se dan
los diferentes valores que conforman la muestra y se dice cuál es su frecuencia absoluta
u observada, esto es, cuántas veces aparece cada uno de ellos. De igual manera, se define
la frecuencia relativa para cada observación como la frecuencia absoluta dividida entre
n. Tanto la una como la otra se pueden ir acumulando frente a cada observación,
obteniéndose las frecuencias absoluta acumulada y relativa acumulada. Se acostumbra
presentar estos cuatro conceptos en una única tabla llamada TABLA DE FRECUENCIAS,
cuyo uso es importante y básico aunque a veces desconocido. Tales tablas están
conformadas así:

Observación Frec. Abs. Frec. Relat. Frec.Abs.Acu Frec.Rel.Ac


i i
f
xi fi hi = i Fi = ∑ f k H i = ∑ hk
n k =1 k =1

x1 f1 h1 F1 H1
x2 f2 h2 F2 H2
M M M M M
xr fr hr Fr Hr
Tabla 3. Esquema de una tabla de frecuencias

En estas tablas son particularmente importantes la primera, tercera y última columnas ya


que ellas se utilizan para estimar probabilidades.

Ejemplo: Los datos siguientes corresponden a mediciones de 49 ejemplares de un cierto


tipo de gorriones que resultaron muertos en una región de los Estados Unidos, después de
una tempestad (Citado por B. Manley, 1998).

Las medidas, en milímetros, corresponden a lo siguiente:


INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 19

1. LONG. Longitud total del cuerpo de las aves


2. EXAL. Exensión de las alas (envergadura)
3. LPICA . Longitud de pico y cabeza
4. LHUM . Longitud del húmero
5. LQILL. Longitud de la quilla.

156 245 31.6 18.5 20.5


154 240 30.4 17.9 19.6
153 240 31.0 18.4 20.6
153 236 30.9 17.7 20.2
155 243 31.5 18.6 20.3
163 247 32.0 19.0 20.9
157 238 30.9 18.4 20.2
155 239 32.8 18.6 21.2
164 248 32.7 19.1 21.1
158 238 31.0 18.8 22.0
158 240 31.3 18.6 22.0
160 244 31.1 18.6 20.5
161 246 32.3 19.3 21.8
157 245 32.0 19.1 20.0
157 235 31.5 18.1 19.8
156 237 30.9 18.0 20.3
158 244 31.4 18.5 21.6
153 238 30.5 18.2 20.9
155 236 30.3 18.5 20.1
163 246 32.5 18.6 21.9
159 236 31.5 18.0 21.5
155 240 31.4 18.0 20.7
156 240 31.5 18.2 20.6
160 242 32.6 18.8 21.7
152 232 30.3 17.2 19.8
160 250 31.7 18.8 22.5
155 237 31.0 18.5 20.0
157 245 32.2 19.5 21.4
165 245 33.1 19.8 22.7
153 231 30.1 17.3 19.8
162 239 30.3 18.0 23.1
162 243 31.6 18.8 21.3
159 245 31.8 18.5 21.7
159 247 30.9 18.1 19.0
155 243 30.9 18.5 21.3
162 252 31.9 19.1 22.2
152 230 30.4 17.3 18.6
159 242 30.8 18.2 20.5
155 238 31.2 17.9 19.3
163 249 33.4 19.5 22.8
163 242 31.0 18.1 20.7
156 237 31.7 18.2 20.3
159 238 31.5 18.4 20.3
161 245 32.1 19.1 20.8
155 235 30.7 17.7 19.6
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 20

162 247 31.9 19.1 20.4


153 237 30.6 18.6 20.4
162 245 32.5 18.5 21.1
164 248 32.3 18.8 20.9

Al analizar la variable LONG (longitud total de las aves) se encuentran 49 valores –uno
por cada gorrión- pero varios de ellos están repetidos. La tabla siguiente contiene los
diferentes valores de longitud y el número de veces que cada uno de ellos está repetido
(frecuencia absoluta). El resto de la tabla se construye como se dijo anteriormente:

Para la construcción de esta tabla se usó ESM, versión libre 8.2, programa desarrollado
por el autor de estas notas,. Este programa lee los datos de un archivo ASCII (archivo de
texto) y se utiliza para ello la opción de cálculos descriptivos (estadística descriptiva).

También se puede usar G-STAT un paquete estadístico libre, desarrollado por el grupo
Glaxo-Smith-Kline y un grupo de investigadores españoles. Este paquete posee
excelentes características y por ser libre, además de encontrarse en español, se convierte
en una herramienta apropiada para ser usada a nivel elemental. Para análisis más
complejos se puede usar OpenStat que también es software libre.

-------------------------------------------------------------------
TABLA DE FRECUENCIAS PARA LA VARIABLE: LONG
(DATOS NO AGRUPADOS)
OBSERVACION FREC.ABS FREC.REL FREC.ACUM F.REL.ACM
-------------------------------------------------------------------
152.00000 2 0.040816 2 0.040816
153.00000 5 0.102041 7 0.142857
154.00000 1 0.020408 8 0.163265
155.00000 8 0.163265 16 0.326531
156.00000 4 0.081633 20 0.408163
157.00000 4 0.081633 24 0.489796
158.00000 3 0.061224 27 0.551020
159.00000 5 0.102041 32 0.653061
160.00000 3 0.061224 35 0.714286
161.00000 2 0.040816 37 0.755102
162.00000 5 0.102041 42 0.857143
163.00000 4 0.081633 46 0.938776
164.00000 2 0.040816 48 0.979592
165.00000 1 0.020408 49 1.000000
-------------------------------------------------------------------
Tabla 4. TABLA DE FRECUENCIAS PARA LA VARIABLE LONG

En esta tabla se observa, por ejemplo, que el valor 155 aparece 8 veces; el valor 160
aparece 3 veces.
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 21

Esta tabla permite “estimar” las probabilidades de aparición de los valores de la longitud
de los pájaros. Tales valores se dan en última columna de frecuencias relativas
acumuladas. Por ejemplo, la probabilidad de que un gorrión muerto, escogido
aleatoriamente, tenga una longitud de 160 mm o menos, es 0.7143. Si X denota la
variable aleatoria LONG, se tendrá P( X ≤ 160) = 0.7183 . En forma semejante:
P( X ≤ 158) = 0.5510 .

La probabilidad, medida a partir de una muestra, como se acaba de indicar, se llama


probabilidad empírica y constituye una estimación de la probabilidad teórica con la que
se distribuye realmente la variable aleatoria X.

Si denotamos F ( a ) = P ( X ≤ a ) , se cumplen los dos resultados siguientes:

1. P ( X > a ) = 1 − F ( a)
2. P (a < X ≤ b) = F (b ) − F ( a)

Aplicando estos resultados se obtiene, por ejemplo: P( X > 154) = 1 − 0.1633 = 0.8667 y
también P(156 < X ≤ 163) = F (163) − F (156) = 0.5306

A partir de la tabla de frecuencias y de lo anterior, se definen los siguientes estadígrafos


(expresiones calculadas con los valores muestrales):

a. La media muestral. Definida por cualquiera de las expresiones siguientes:


r

r
1 n ∑fx i i
x = ∑ hi xi = ∑ yi = i =1
r

∑f
i =1 n i=1
i
i =1
b. La varianza muestral. Definida por:

1 n r
s = ∑ ( y i − x ) = ∑ hi ( xi − x ) 2
2 2
n i =1 i =1

Esta expresión es una medida de la dispersión de los datos. Su raiz cuadrada se


conoce con el nombre de desviación estándar o desviación típica.

c. El p-ésimo momento central. Definido para p=1, 2, 3, ... así:


INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 22

1 n r
m p = ∑ ( y i − x ) = ∑ hi ( xi − x ) p
p
n i =1 i =1

como puede observarse, la varianza es el segundo momento central.

Se debe hacer una observación al respecto de los momentos centrales. Con


frecuencia estos valores se definen también tomando n − 1 en cambio de n en
el denominador de la primera sumatoria. Esto tiene su razón de ser cuando se está
haciendo teoría de la estimación, porque, como puede probarse, tales expresiones
constituyen estimaciones no sesgadas de los respectivos parámetros.

d. La mediana. Definida como aquel valor tal que el 50% de las observaciones son
menores o iguales que él y el otro 50% son mayores o iguales que él. Naturalmente, si
n es impar la mediana es la observación central. Si n es par la mediana es el
promedio de las dos observaciones centrales.

e. Los cuartiles. Definidos como aquellos datos que dividen las observaciones en cuatro
grupos tales que cada uno de ellos tiene el 25% de las observaciones. El primer
Q1 separa el primer grupo del segundo. Por debajo de él hay un 25% de las
cuartil,
observaciones. El segundo cuartil Q2 es la mediana y el tercer cuartil Q3 es tal
que por debajo de él está el 75% de las observaciones.

f. Los deciles. Son valores tales que dividen la muestra en 10 partes iguales, siguiendo
el mismo esquema de los cuartiles.

g. Los percentiles. Son valores que dividen la muestra en 100 partes iguales. La idea es
similar a la de los cuartiles y los deciles. Los percentiles se denotan
P1 , P2 ,L , P100 . Es claro que Q1 = P25 y Q3 = P75
h. La(s) moda(s). Se define una moda como una observación de máxima frecuencia
absoluta. Puede haber una, más de una o ninguna. Esto último sucede cuando todas
las observaciones tienen la misma frecuencia absoluta. Lo deseable es que una
población sea unimodal (una sola moda) y esto debe reflejarse en la muestra.

m3
i. Coeficiente de Asimetría. Definido como a3 = .
s3
El coeficiente de asimetría mide la simetría general de la distribución
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 23

Este coeficiente es independiente de las unidades de medida y vale 0 en


distribuciones simétricas. El signo de este coeficiente está en correspondencia con
el sesgo de las distribuciones: es positivo en distribuciones cuya cola es cargada a la
derecha (como los salarios, "muchos con poco y pocos con mucho") y es negativo
en distribuciones cuya cola se carga hacia la izquierda.

m4
j. Coeficiente de curtosis. Definido como a4 = .
s4
Este coeficiente mide el apuntamiento o curtosis de una distribución. Se toma como
patrón la distribución normal estándar (se verá formalmente después) en la que este
coeficiente vale 3. Cuando una distribución tiene curtosis inferior a 3 se dice que es
plana o platicúrtica. Cuando tiene curtosis superior a 3, se dice que es leptocúrtica o
puntiaguda. Algunos paquetes como SAS, miden un coeficiente modificado:
a 4 − 3 , llamado exceso de curtosis. Este último puede ser negativo.

k. La media recortada (promedio de los datos comprendidos entre los percentiles 10 y


90) se emplea para detectar valores extremadamente atípicos.

l. Rango y Rango intercuartílico. Son medidas de dispersión definidas respectivamente


como R = ymax − y min y Q = Q3 − Q1
Todas las cantidades definidas anteriormente, al ser calculadas en la muestra, constituyen
estimaciones de los respectivos valores (parámetros) en la población.

A manera de ejemplo, se puede usar ESM para calcular algunos de los estadígrafos
mencionados anteriormente para la variable LONG. No están todos los estadígrafos
mencionados ni se han mencionado todos los que calcula ESM, pero la mayoría de ellos
aparecen como se ve en la siguiente salida:

VALORES DE ESTADISTICOS PARA LA VARIABLE: LONG


1. Número de observaciones: ....... N = 49
2. Suma de observaciones: ......... äx = 7741
3. Suma de Cuadrados: ............. äxý = 1223561
4. Observaci¢n Máxima: ............ MAX = 165
5. Observaci¢n Mínima: ............ MIN = 152
6. MEDIA muestral: ................ m = 157.9795918367347
7. Error estándar de la media: .... Em = .5220395930054332
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 24

8. VARIANZA Max.Verosim (GL=n): ... s02 = 13.08121615993336


2
9. VARIANZA Insesgada (GL=n-1):.. s = 13.35374149659864
10. Desviación estándar M.V ........ So = 3.616796394591955
11. Desviaci¢n Estándar Insesgada:.. S = 3.654277151038033
12. Tercer Momento Central: ...... M3 = 7.025389081079985
13. Cuarto Momento Central: ........ M4 = 320.4795870664051
14. Coeficiente Asimetría: ......... A3 = .1484903387840195
15. Coeficiente Curtosis: .......... K = 1.872854884420619
16. Trimedia:....................... Tri = 157.8413584183673
17. Coef. Variación cuartílica: .... Cvq = 2.011294956900822E-002
18. Indice de simetría de Yule: .... H1 = -1.878955696202532E-003
19. Coeficiente Variación: ......... CV = 2.313132417011544 %
20. Coef. Aprox Normal (25G2): ..... C = .518169536443751
21. Rango Muestral: ................ R = 13
22. Mediana Muestral (Estim): ...... Q2 = 158
23. Primer cuartil (Estim) ......... Q1 = 154.53125
24. Tercer cuartil (estim) ......... Q3 = 160.875
25. Rango Intercuartílico ....... Q3-Q1 = 6.34375
26. Moda(s): 155
----------------------------------------------------------------------
Tabla 5. Salida de ESM para estadísticos de LONG

ESM no calcula algunos estadísticos que dependen de percentiles pero es un buen


ejercicio hacer los cálculos a mano.

Existen también algunas técnicas exploratorias de carácter gráfico que son excelentes
auxiliares para averiguar el comportamiento y características de las variables numéricas.
Aquí presentaremos las siguientes (aunque existen muchos más con diversos propósitos):

1. Diagrama de Box-Whiskers (o de caja y bigotes). Es utilizado para averiguar la


simetría de una variable y la presencia de datos atípicos.
2. Histogramas de barras para datos agrupados. Cuyo uso principal es detectar la
"forma" de la distribución
3. Diagrama P-P (probabilistic plot). Utilizado para detectar el ajuste de las
observaciones a una distribución teórica. Casi siempre a una distribución normal
4. Diagramas de dispersión de dos variables. Utilizado con el fin de detectar
dependencias funcionales entre dos variables numéricas

Veamos estos diagramas aplicados a variables del archivo FINCAS que hemos venido
manejando como ejemplo:

1. Un diagrama Box-Whiskers (Caja y bigotes), también llamado Box-Plot, consta de


una caja rectangular cuyo largo es proporcional al rango intercuartílico, H, cuyo
bigote izquierdo o inferior es proporcional a la diferencia entre el primer cuartil y el
valor mínimo, cuyo bigote derecho o superior es proporcional a la diferencia entre el
máximo y el tercer cuartil y en la cual se han señalado la media con una x y la
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 25

mediana con una línea paralela a la base y que atraviesa la caja a lo ancho. Cuando la
variable examinada es simétrica la caja también lo es y entonces media y mediana
coinciden. Cualquier asimetría se refleja en una asimetría más o menos pronunciada
en la caja. A partir de los extremos de la caja a una distancia de 1.5 H, se señalan los
puntos Ai y As que marcan el límite de valores considerados “atípicos”. Entre éstos,
los valores situados más hacia los extremos - a una distancia de 3 H o más- se
consideran “extremadamente atípicos”

Para el caso de la variable LONG, analizada en el ejemplo anterior, la gráfica Box-


Whiskers y algunos estadísticos adicionales – realizados con ESM- son:

|------------------|--------------|
| | |
| | |
³------------- X -----------------------³
| | |
| | |
|------------------|--------------|

|------------|------------------|--------------|----------------------|
Min Q1 Med Q3 Max

Coef.asimet.= .1484903387840195 Media = 157.9795918367347


Min = 152 Max = 165
Q1 = 154.53125 Q3 = 160.875
Límites Atípicos: Ai = 145.02 As = 170.39
Límites Extremos: Ei = 135.50 Es = 179.91
No hay val. atípicos inf. No hay val. atípicos sup.
No hay val. extremos inf. No hay val. extremos sup.

Como se ve, hay una ligera asimetría positiva, reflejada en el hecho de que bigote
superior es un poco más largo que el inferior.

En segundo lugar, trataremos de averiguar la forma de la distribución de la variable


LONG. Para ello agrupamos los datos en 8 clases y dibujaremos un histograma de barras.

En este caso la tabla de frecuencias se construye de una manera similar a la ya vista para
datos no agrupados, pero las frecuencias corresponden a la cantidad de observaciones que
se encuentren dentro de cada clase. Lo único notorio en este caso son las marcas de clase
que son los puntos centrales de cada clase (ver página siguiente)
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 26

____________________________________________________________________
INFER (-----] SUPER MARCAS F.ABS F.RELAT F.ACUM FREL.ACU
________________________________________________________________________
152.00 153.63 152.81 7 0.14290 7 0.14290
153.63 155.25 154.44 9 0.18370 16 0.32650
155.25 156.88 156.06 4 0.08160 20 0.40820
156.88 158.50 157.69 7 0.14290 27 0.55100
158.50 160.13 159.31 8 0.16330 35 0.71430
160.13 161.75 160.94 2 0.04080 37 0.75510
161.75 163.38 162.56 9 0.18370 46 0.93880
163.38 165.00 164.19 3 0.06120 49 1.00000

________________________________________________________________________

La gráfica correspondiente es la siguiente:

HISTOGRAMA DE DISTRIBUCION DE VARIABLE LONG


(Agrupamiento en 8 clases)

________________________________________________________________________

MARCAS:
FREC.REL(%)

152.8 ³||||||||||||||||||||||||||||||| 14.29


154.4 ³|||||||||||||||||||||||||||||||||||||||| 18.37
156.1 ³||||||||||||||||| 8.16
157.7 ³||||||||||||||||||||||||||||||| 14.29
159.3 ³||||||||||||||||||||||||||||||||||| 16.33
160.9 ³|||||||| 4.08
162.6 ³|||||||||||||||||||||||||||||||||||||||| 18.37
164.2 ³||||||||||||| 6.12
________________________________________________________________________

Tabla 6. Agrupamiento de datos

O, vista en una mayor resolución:


INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 27

La construcción de histogramas se hace con el fin ayudar a identificar la distribución a la


que los datos se ajustan. El agrupamiento debe hacerse de una manera sencilla y natural
sin los complicados procedimientos que a veces se encuentran en algunos textos
anacrónicos, y que nada aportan al resultado final. Casi todos los paquetes producen
histogramas de barras como herramienta gráfica exploratoria. ESM-PLUS también lo hace
después de haber agrupado los datos en un cierto número de clases que el usuario haya
decidido (entre 3 y 15, dependiendo de la cantidad de datos). La conocida fórmula de
Sturges para definir el número de clases en que agrupan los datos está dada por
k = 1 + 3 .322 Log( n ) . Puede usarse, si se quiere, pero su uso no agrega valor científico a
un análisis. Lo mismo sucede con ciertas tablas que pretenden definir el número de clases
en función del tamaño de muestra (Kelley, Walker y Lev). El sentido común es, en estos
casos, el mejor consejero.

Veamos en tercer lugar el diagrama P-P para verificar el ajuste de los datos a una
distribución normal. Debido a que la mayor parte de los resultados estadísticos
concernientes a la estimación de parámetros descansan en el supuesto de normalidad de
las variables involucradas, resulta importante saber si una variable es normal o no, ya que
de este hecho va a depender la validez de las inferencias. Una fuerte violación del
supuesto de normalidad debe producir dudas sobre la validez de los resultados que
dependan de este supuesto.

La gráfica obedece al principio general de dibujar parejas de puntos de la forma (y,F(x))


donde y representa los valores de probabilidad observados en la tabla de frecuencias y
F(x) representa los valores de probabilidad calculados por el modelo teórico al que
supuestamente se ajustan los datos. Cuando éstos se ajustan al modelo teórico se tendrá y
= F(x) y, por tanto, la gráfica será una línea recta.

En nuestro ejemplo, la variable LONG tiene un buen ajuste a la normal sin que se pueda
asegurar que tal ajuste es perfecto
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 28

Gráfica 5. Ajuste a una distribución normal

Un diagrama de dispersión de dos variables numéricas no es más que el dibujo de los


puntos de la forma (x, y) donde x es valor de la primera variable y y es el
correspondiente valor de la segunda variable. La forma de la curva resultante (si es que
hay alguna dependencia funcional) indica la posible relación entre las dos variables al
expresar a la segunda como función de la primera.. Para el caso, considerando la cuarta y
quinta variables LHUM y LQUILL, se obtiene:

Gráfica 6. Diagrama de dispersión de dos variables

Como se ve, existe una ligera tendencia a una relación de tipo lineal entre las dos
variables, lo que significa que existe cierta relación funcional entre la longitud del húmero
de las aves y la longitud de la quilla, aunque dicha relación no es tan fuerte.
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 29

La recta que aparece entre los puntos es la recta de regresión y ella es tal que si se miden
las distancias de cada punto al correspondiente punto estimado por la recta de regresión y
se suman sus cuadrados el resultado es mínimo (por esta razón se dice también que esa
recta es la recta de mínimos cuadrados). Un objetivo estadístico es estimar su ecuación

Ejercicio: Realizar un completo análisis exploratorio con las variables que representan el
número de cabezas de ganado macho y el número de cabezas de ganado hembras en el
archivo FINCAS.DAT. Este análisis debe incluir el cálculo de estadísticos, la elaboración
de gráficas y la interpretación de resultados

TRANSFORMACIONES DE DATOS

Frecuentemente se hace necesario transformar variables numéricas por muy diversas


razones: reducir sus rangos de variabilidad, modificar su distribución a fin de ajustarla a
otra de mejor comportamiento, etc.

Toda transformación de variables produce una nueva variable con distribución diferente,
dependiendo fundamentalmente del tipo de transformación. Algunas de las
transformaciones más us uales son las siguientes:

1. Transformaciones de tipo lineal: en las cuales la variable X se transforma en una


nueva variable Y = aX + b donde a, b son constantes. Un ejemplo, sería tomar la
mitad de la edad y sumar 10.

2. Transformaciones de tipo polino mial. Constituyen una generalización de la


anterior. En ellas Y = a 0 + a1 X + L + ak X . Donde los coeficientes son
k

constantes. Los exponentes podrían en principio ser cualquier real distinto de cero.

3. Transformación logarítmica. Como su nombre lo indica, en este caso se ha de tener:

Y = Log( X )
4. Estandarización. Una de las transformaciones más importantes usadas en estadística
es la estandarización la cual consiste en una translación de la población seguida de un
cambio de escala. Es usual denotarla mediante la letra Z y se define así:
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 30

X −µ
Z=
σ
donde µ = E( X ) y σ = V( X )
2
son respectivamente la media y la varianza
de la variable X. En la práctica se estandarizan los datos usando la media y la varianza
muestrales. Existe la creencia errónea de que la estandarización normaliza los datos. Esto
no es cierto. Lo único que ella hace es modificar la escala de medida de manera que la
nueva variable Z, tenga media 0 y varianza 1.La estandarización es una transformación de
tipo lineal.

Existen otras muchas transformaciones, tantas como fórmulas matemáticas pueda


imaginarse, pero no todas son igualmente importantes. Por su sencillez, una de las más
importantes es la transformación lineal ya mencionada. Igualmente es importante la
transformación logarítmica que ayuda a "normalizar" datos exponenciales o de otras
distribuciones asimétricas positivas. Esto es, datos cuyo comportamiento es asimétrico
positivo se convierten en nue vos datos cuyo comportamiento es más ajustado a una
normal.

3. LA DISTRIBUCION NORMAL
Las siguientes funciones corresponden a las densidades de variables aleatorias normales,
es decir, variables continuas, cuya distribución de probabilidad se ajusta a una normal
(distribución de Gauss o de DeMoivre), la primera no estandarizada y la segunda
estandarizada:

f (t) =
1  1 t − µ 2  con
Exp  − ( )  t , µ ,σ ∈ ℜ σ > 0
2π σ  2 σ 

φ ( z) =
1 1
Exp ( − t 2 ) con t∈ℜ
2π 2

En la práctica sólo se usa la segunda de estas funciones, estandarizando previamente la


variable que se esté usando.

La distribución normal tiene una gran importancia tanto teórica como práctica. Es una de
las distribuciones de mayor aplicación en estadística. Es importante desde el punto de
vista teórico porque gran parte de la teoría estadística ha sido deducida para variables
aleatorias continuas normales (poblaciones normales) lo que implica que para otras
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 31

variables que no sean normales, muchos resultados son apenas aproximados y, tanto más
inexactos cuanto más "anormales" sean tales variables. Desde el punto de vista práctico es
importante porque el comportamiento de muchas variables de la vida real se ajusta a una
distribución normal. Tal es el caso, por ejemplo, de la estatura, el peso, la talla, el
coeficiente intelectual.

Las fórmulas anteriores corresponden a las curvas de densidad de distribuciones


normales. Ellas dicen cómo es la frecuencia de aparición de los valores que toma una
variable normal (forma de la distribución). Sin embargo, como se dijo anteriormente, las
medidas de probabilidad para tales valores deben calcularse con las funciones
acumulativas. Esto es:
x
F (x) = P (X ≤ x) = ∫ f ( t ) dt
−∞

Se puede demostrar que la estandarización de la variable permite usar sólo la segunda


fórmula para el cálculo de la probabilidad. En efecto, se cumple:

donde z = x − µ
z
F ( x ) = Φ ( z ) = ∫ ϕ ( t ) dt
−∞ σ

es decir, en la práctica sólo es necesario conocer la distribución normal estándar para


calcular probabilidades con cualquier distribución normal.

Gráfica 7. Ffunción de densidad normal estándar

A manera de ejemplo: supóngase que una variable aleatoria X tiene media 25 y varianza
81 y que se quiere conocer la probabilidad P(20 < X ≤ 36) . Puede pensarse, por
ejemplo, que se trata de una variable que representa la edad de una comunidad humana y
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 32

se desea saber cuál es la probabilidad de que al seleccionar aleatoriamente un miembro de


esa comunidad, su edad esté comprendida entre 20 y 36 años. De acuerdo con lo visto,
anteriormente, si F es la respectiva función de distribución, tal probabilidad sería igual a
F ( 36 ) − F ( 20 ) , lo que implicaría el cálculo de la integral de la primera función
mencionada antes, entre los límites 20 y 30, habiendo reemplazado previamente los
valores µ, σ por 25 y 9 respectivamente. Esta integral no es inmediata y requiere de
la implementación de un método numérico para su cálculo. A cambio de esto,
previamente se estandariza X lo que produce Z = X − 5 . Los límites de la integral
9
20 − 5 30−5
se transforman entonces en = 1.6667 y = 2.7778. En consecuencia,
9 9
bastará calcular la integral de la segunda función -más sencilla- entre estos dos límites. El
cálculo de la integral tampoco es simple, pero sus valores se encuentran en tablas ya
elaboradas. En ellas se encuentran los valores Φ ( 2.7778) y Φ (1.6667 ) ,
correspondientes a la función de distribución, cuya diferencia produce como resultado el
valor: 0.04504. esta es la probabilidad buscada.

Hoy en día comienzan a caer en desuso las tablas de probabilidades pues muchos
programas de computador permiten su cálculo. El programa ESM, por ejemplo, presenta
el cálculo de probabilidades para va rias distribuciones continuas y discretas, entre ellas, la
normal.

4. LA DISTRIBUCION BINOMIAL

Una de las distribuciones discretas más importantes es la distribución binomial, asociada


con experimentos que presenten sólo dos resultados. Por ejemplo, presencia o ausencia de
enfermedades, apto o no apto para el desempeño de un cargo, estado de un circuito
eléctrico: abierto o cerrado, éxito o fracaso en un examen, hembra o macho en el sexo de
un animal, etc. Los dos resultados de un experimento de este tipo (llamados experimentos
de Bernoulli) se denominan ÉXITO y FRACASO. Esto es un simple nombre y no importa
cuál de ellos sea favorable a nuestros intereses para que sea considerado como éxito. Lo
esencial es identificar a cual de ellos le pondremos el mote de éxito. Es costumbre denotar
por p la probabilidad de que ocurra un éxito en un experimento de Bernoulli. Por
supuesto, la probabilidad de un fracaso será entonces q = 1− p.

Supóngase ahora que se realizan en forma independiente n experimentos de Bernoulli y


nos preguntamos por la probabilidad de que en esos n experimentos ocurran
exactamente x éxitos (naturalmente x es uno de los valores 0, 1, 2, ..., n). En otras
palabras, estamos preguntando cuánto vale P(X = x). En este caso se dice que la variable
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 33

aleatoria X que mide el número de éxitos en n experimentos de Bernoulli, tiene


distribución binomial de parámetros p y n.

Se puede probar que


f(x) = P(X = x) =  n  p x (1 − p ) n− x
 x
En consecuencia, esta expresión define la func ión de densidad para una distribución
binomial de parámetros p y n.

La correspondiente función de distribución está dada entonces por:

x x
F ( x ) = P ( X ≤ x ) = ∑ f (t ) = ∑ f (t )
t = −∞ t=0

Los valores de probabilidad para n variando de 1 hasta 80 pueden calcularse con el


programa ESM-PLUS siguiendo la secuencia: 3 à 9 à 2

Por ejemplo, usando ESM, podemos calcular la probabilidad de que una variable
aleatoria binomial con parámetros p = 0.32 y n = 20 tome el valor 12 o que tome
valores entre 5 y 13. Es decir: P(X = 12) = f(12) y P(5 < X ≤ 13) = F(13) − F(5). Se
obtiene: f(12) = 0.066395 y F(13) − F(5) = 0.999448 − 0.342615 = 0.656833.

Nótese que en el caso discreto la inclusión de los límites cambia los resultados. Por
ejemplo: con la misma distribución anterio r, no es lo mismo P(5 < X ≤ 13) que P(5 < X <
13). Esta última equivale a P(5 < X ≤ 12) = F(12) − F(5) = 0.997525 − 0.342615

Otro ejemplo: Supóngase que en el servicio de urgencias de un hospital se ha establecido


que el 12% de los pacientes que llegan a solicitar el servicio los viernes en la noche
requiere del uso de unidades de cuidados intensivos por más de un día. El hospital cuenta
con tres unidades de cuidados intensivos disponibles para el servicio de urgencias. Un
médico se pregunta un viernes en la tarde cuál es la probabilidad de que al llegar 20
pacientes esa noche, el hospital pueda atender cuidados intensivos sin dificultades durante
las 12 horas siguientes.

Un análisis del ejemplo muestra que el servicio se podrá prestar si de los 20 pacientes no
hay más de tres que requieran cuidados intensivos. Esto es, si el número de tales pacientes
es a lo sumo 3. Un paciente requiere o no el servicio, así que podemos denominar éxito el
caso en que se requiera y fracaso el caso en que no. En consecue ncia el médico está
interesado en el valor de P(X = 0) + P(X = 1) + P(X = 2) + P(X=3) = P(X ≤ 3), bajo una
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 34

distribución binomial de parámetros p = 0.12 y n = 20. Esto es: 0.07756 + 0.21153 +


0.27403 + 0.22421 = 0.78734

5. ANALISIS EXPLORATORIOS PARA DOS VARIABLES

Aunque en estadística suele suceder que se presenten simultáneamente muchas variables


de análisis (análisis multivariados), a nivel introductorio sólo podemos presentar casos de
dos variables., las cuales pueden ser ambas numéricas, amb as categóricas o una numérica
y la otra categórica.

Ya mencionamos el caso en que se tienen dos variables numéricas y existe interés en


averiguar si los datos reflejan una dependencia funcional entre ellas. Es el tema conocido
como regresión y comúnmente basta con la construcción de un diagrama de dispersión
para poner en evidencia una relación de este tipo. En estos casos la estadística cuenta con
herramientas que permiten estimar las funciones que relacionan tales variables. El caso
más sencillo y uno de los más interesantes es la regresión lineal en la cual las dos
variables aleatorias X y Y están ligadas por una relación del tipo Y = β 0 + β 1 X Los
paquetes estadísticos proporcionan herramientas que permiten estimar los coeficientes y
analizar la validez del modelo así obtenido.

Cuando se tienen dos variables y una de ellas es categórica y la otra numérica se puede
decir que los valores de esta última se encuentran clasificados por los valores de aquella.
Es posible en estos casos separar los valores de la variable numérica correspondientes a
cada valor de la categórica y hacer un análisis separado para cada conjunto de datos.

Por ejemplo, en el archivo de datos sobre las fincas, al considerar simultáneamente las
variables TIPTERR (tipo de terreno) que es categórica con tres modalidades y HCULT
(área dedicada al cultivo) que es numérica, se puede hacer un diagrama de Box-Whiskers
para los datos de cada categoría, obteniéndose la gráfica 8, Gráfica en la cual se puede
concluir, por ejemplo, que aunque en términos generales son muy parecidos los tres
grupos de datos, es más asimétrico el grupo 3 (correspondiente a terreno mixto)

De igual manera, es posible hacer histogramas de distribuciones, para cada grupo y


obtener algo como la gráfica 9 de la página siguiente.

.
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 35

Box & Whisker Plot: AREACUL


450

350

250
AREACUL

150

50

Min-Max
25%-75%
-50
1 2 3 Median value

TIPOTERR

.Gráfica 8. Box-Plots por grupos

En general, podría decirse que la muestra se ha repartido en tantas submuestras como


indiquen las categorías de la variable categórica y que cada submuestra recibe un
tratamiento estadístico por separado.

Se podría preguntar muchas cosas. Por ejemplo, cada submuestra representa una
población diferente y ¿pueden considerarse iguales las medias de dichas poblaciones? -
¿Se podría afirmar que las tres varianzas son iguales o no?

Preguntas cómo éstas, aunque son legítimas, no se pueden responder en este momento.
Pero se debe saber que sí existen métodos de solución los cuales se presentan
posteriormente.
Histogram: AREACUL

20

15

10

0
-50 0 50 100 150 200 250 300 350 400 450 -50 0 50 100 150 200 250 300 350 400 450
TIPOTERR: TIPOTERR:
No of obs

1 2
20

15

10

0
-50 0 50 100 150 200 250 300 350 400 450
TIPOTERR:
3

Gráfica 9. Histogramas para el Area cultivada segón el tipo de terreno

Finalmente consideremos el caso en que simultáneamente se están examinando dos


variables categóricas.
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 36

El análisis más frecuente que se realiza en estos casos es el conocido cruce de las
variables en el cual se puede hacer un conteo de cuántos individuos se encuentran
simultáneamente en cada una de las categorías de una variable y cada una de las
categorías de la otra.

Por ejemplo, al cruzar las variables RIEGO (existencia de riego artificial) que tiene dos
categorías con CULTIVO (Tipo de cultivo predominante) que tiene 6 categorías (archivo
FINCAS.DAT) de obtiene una tabla (llamada tabla de contingencia) de 12 celdas,
correspondientes a las combinaciones de categorías de una variable con las categorías de
la otra. Al hacer un conteo de individuos en cada celda se obtiene una tabla como la
siguiente, en la cual además de las frecuencias en los cruces de categorías se obtienen los
porcentajes que ellas representan, frente al toal de los datos.

FILAS = RIEGO COLUMNAS = CULTIVO


_____________________________________________________________________
Categs: \ CULTIVO |
RIEGO | MAIZ SORGO ALGODN TRIGO PAPA OTRO | TOTAL
| ____________________________________________________|________
SI | 26 18 7 11 9 9 | 80
| 21.87 23.47 7.47 10.67 9.60 6.93 |
| ----------------------------------------------------|--------
NO | 15 26 7 9 9 4 | 70
| 19.13 20.53 6.53 9.33 8.40 6.07 |
______|_____________________________________________________|________
TOTAL:| 41 44 14 20 18 13 | 150
% | 27.33 29.33 9.33 13.33 12.00 8.67 | %100

Tabla 7. Tabla de contingencia del cruce de dos variables

E igualmente se puede tener una representación gráfica (histograma tridimensional) de


dichos conteos. Ver figura:

Bivariate Distribution: RIEGOAR x CULTIVOP


INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 37

La tabla y la figura anteriores muestran cómo se distribuye la muestra respecto a las


categorías de las dos variables consideradas. Esta distribución es una aproximación a la
forma como se distribuye la población, respecto de las mismas variables.

La tabla anterior, llamada tabla de contingencia, permite también realizar pruebas para
averiguar si existe algún tipo de asociación entre las respectivas variables categóricas.
Este tema, sin embargo, no se trata en estas notas introductorias.

6. SOFTWARE
Finalizaremos esta primera parte con una breves referencias al manejo de software
estadístico, una herramienta indispensable en el estudio y aplicación de la estadística.

Hasta hace pocos años el software estadístico era escaso, costoso y de difícil manejo.
Algunos paquetes lograron posicionarse por su alta calidad. Entre ellos cabe mencionar
SAS, SPSS, MINITAB, BMDP, SYSTAT, STATISTICA y STATGRAPHICS. Todos
ellos son ejemplos de software sofisticado, lejos del alcance de la mayoría de los usuarios
de la estadística. Hoy en día su adquisición sigue siendo difícil, incluso para grandes
corporaciones como las universidades.

Afortunadamente el panorama ha cambiado y en la actualidad se tiene acceso a buenos


paquetes de software estadístico muy barato o completamente gratis. Igualmente cada vez
es más fácil tener acceso a un computador, con sistema operativo basado en Windows, lo
que facilita el uso del software como herramienta de enseñanza, aprendizaje y trabajo en
estadística. Por tal razón ya no es válida la disculpa de que no hay herramientas para
realizar un proceso de enseñanza-aprendizaje moderno y actualizado.

Entre los numerosos paquetes de software estadístico gratis y libre cabe mencionar entre
otros, los siguientes: ViSta, OpenStat y G-Stat. Todos ellos en ambiente Windows, con
pocas exigencias técnicas y disponibles en Internet. Estos paquetes son gratis. Su único
costo es el tiempo necesario para bajarlos de la red. Son además libres en el sentido de
que sus autores los han dejado allí para uso de quien lo desee, sin licencia escrita expresa
y para libre aplicación siempre y cuando no se pretenda comercializarlos. Esto
normalmente consta en los manuales o en las ayudas de los mismos programas.

No por ser gratuitos son malos. No!. Realmente estos paquetes ofrecen excelentes
posibilidades y resultados precisos y depurados. Es decir, la relación calidad precio es
realmente enorme.
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 38

El autor de estas notas ha desarrollado también un paquete que pretendía llenar los otrora
graves vacíos que en materia de software estadístico existían. Así nació por allá en 1992
un proyecto que ha venido creciendo con el tiempo y que hoy en día constituye un
paquete de buena acogida y amplio uso en los medios universitarios regionales. Es el
ESM. De este software hubo dos versiones: una versión pequeña orientada a los
estudiantes y una versión amplia que sigue desarrollándose y que se denomina ESM-
PLUS, la cual ha sido liberada y actualmente es completamente gratis, para fines
académicos.
.
ESM es un paquete de manejo muy simple: sólo exige un archivo de datos en ASCII con
una estructura como la del archivo FINCAS.DAT que hemos venido manejando; el
nombre de un archivo de reportes que el usuario proporciona y en el cual se almacenan
los resultados de los análisis; la indicación por parte del usuario de las columnas que
ocupan los valores de la(s) variable(s) que se va(n) a analizar y, por supuesto, algunos
conocimientos teóricos acerca de los análisis estadísticos que se pretenda realizar.

La instalación de ESM es muy simple: basta con copiar la correspondiente carpeta a la


raiz del disco duro, C y ejecutar el programa ESM.BAT.

Dedicaremos unas líneas más a G-Stat, por considerar que este software es atractivo,
fácil de usar, muy completo para estadística elemental, gratis, libre y escrito en español,
virtudes que lo hacen muy apropiado para nuestros propósitos y para uso de los docentes
y estudiantes de secundaria y aún de universidad.

Este paquete ha sido desarrollado por un grupo de investigadores del departamento de


Biometría de GlaxoSmithKline (www.e-biometria.com ) en Madrid, España

El programa corre en casi cualquier computador pentium con 16 Mb de Ram y monitor


SVGA de 256 colores en resolución 600x800. Sin embargo, por eficiencia, se recomienda
un pentium II o superior y 64 Mb Ram mínimo.

G.Stat ha sido programado en Java, razón por la cual se hace necesario este entorno para
poderlo ejecutar. Esto hace también que sea aplicable a numerosas plataformas como
Uníx, Linux, Mac, etc, pero también establece diferencias respecto a lo que estamos
acostumbrados a observar en Windows. Por ejemplo, no aparece el típico relojito de arena
que nos dice que algo se está ejecutando. Si el equipo de cómputo es rápido esto no
constituye problema pero en equipos lentos puede llegar a despistarnos.

La instalación de G-Stat, en equipos con Windows en español, se logra en solo dos pasos:
1. Ejecutar el programa J2RE-1_3_1_02-win.exe
2. Copiar la carpeta G-STAT y todas sus subcarpetas del CD al disco duro C
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 39

En equipos cuyo Windows esté en inglés se hace necesario modificar el archivo G-


STAT.BAT para establecer los vínculos correctos a la carpeta PROGRAM FILES en
cambio de la carpeta ARCHIVOS DE PROGRAMA que viene por defecto.

Para ejecutarlo basta crear un acceso directo a C:\ G-STAT\G-STAT.BAT

La pantalla inicial típica de G-Stat, listo para ser usado, es la siguiente:

en ella podemos apreciar un menú de tareas (línea superior), unos íconos cuyo objetivo es
similar al menú de la primera línea, las primeras siete variables del archivo FINCAS que
hemos utilizado como ejemplo, encabezadas con los nombres que se ha dado estas
variables (CodDepto, Harea, Hcultivo, Temperat, etc). Estos nombres pueden ser
cambiados si colocamos el cursor encima de ellos y pulsamos el botón derecho del
mouse.

Un análisis estadístico comienza seleccionando del menú la tarea que deseemos realizar.
Por ejemplo, si queremos hallar estadísticos descriptivos de la variable TEMPERAT,
pulsamos el botón Descriptiva del menú. Esto despliega un menú de persiana en el que
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 40

podemos ver varias opciones como se muestra en la gráfica siguiente. Entre esas opciones
escogemos Cuantitativas (y) debido a que se trata de una sola variable cuantitativa.

Al pulsar sobre esta opción con el botón izquierdo del mouse se obtiene la siguiente
pantalla que permite seleccionar la(s) variable(s) que va(n) a ser analizada(s). Para ello la
señalamos al lado izquierdo y pulsamos en el botón que indica dirección a la derecha.

Si nos arrepentimos y deseamos sacar una variable ya seleccionada, la señalamos al lado


derecho y pulsamos sobre el botón que indica dirección hacia la izquierda.

En la parte superior aparecen dos pestañas sobre las cuales se puede dar clic para lograr
los resultados buscados. Véase la gráfica de la página siguiente.

Esta gráfica muestra cómo se selecciona la variable TEMPERAT para su análisis. Al pulsar
sobre la pestaña titulada Estadísticas se obtienen varios valores descriptivos de la muestra
en lo correspondiente a la variable TEMPERATURA .
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 41

Al pulsar sobre la pestaña Cajas se obtiene una gráfica Box-Plot para la variable
analizada. Esta gráfica puede ser modificada si se pulsa sobre el botón Opciones que
aparece junto a ella. Así, por ejemplo, podemos cambiar su orientación para presentarla
en forma vertical y guardarla en un archivo con extensión BMP (mapa de bits) el cual
puede ser incorporado a un documento.

Si esta imagen no se transfiere fácilmente a un documento en Word, por ejemplo, puede


ser modificada mediante PAINT el programa gráfico de Microsoft, y una vez guardada en
otro formato (GIF o JPEG son los más recomendables) puede ser insertada dentro del
documento.

Con mejores capacidades de análisis, también para Windows y absolutamente gratis, el


paquete OpenStat es una de las opciones más atractivas para realizar análisis estadísticos.

Todo el software mencionado y otros más se encuentran en el CD.


INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 42

7. HIPOTESIS ESTADISTICAS

Diremos ahora algunas palabras sobre las hipótesis estadísticas. Se entienden como tales,
afirmaciones que se hacen acerca de un parámetro, acerca de relaciones entre dos o más
parámetros o acerca de una o más distribuciones. Por ejemplo, cuando se afirma que
µ = 30 , que µ 1 > µ 2 o que cierta variable aleatoria tiene distribución normal se están
formulando hipótesis estadísticas.

Una hipótesis estadística es una conjetura que se hace acerca de uno o más desconocidos
y que se busca desvirtuar con la información aportada por una muestra aleatoria tomada
de la población. Se plantea una hipótesis nula H0 y una hipótesis alterna H1,
generalmente contradictorias, que resuman la conjetura (Ejemplo: H0: µ = 30 ,
H1: µ > 30 ). Cuando la muestra aporta suficiente información en contra de la hipótesis
nula, ésta se rechaza. Cuando no exista suficiente evidencia en contra de H0 ésta se
mantiene como conjetura plausible. No como verdadera!, sino sólo como “verdadera
hasta que no se demuestre lo contrario”. En la práctica la prueba de una hipótesis se hace
mediante un estadístico apropiado, llamado estadístico de prueba, del cual se conozca su
distribución. El procedimiento se basa en el nivel de significancia intrínseco que se
explica a continuación.

Al valorar una hipótesis estadística (asignarle un valor de verdad o falsedad) se pueden


cometer dos tipos de error, a saber: error TIPO I que es aquel en que se incurre al rechazar
una hipótesis que es verdadera o error TIPO II que se comete cuando no se rechaza una
hipótesis que es falsa. La probabilidad de cometer error tipo I, medida con base en la
muestra, se llama nivel de significancia intrínseca o valor P. La probabilidad de cometer
error tipo II, se denota con β y su complemento 1 − β se denomina potencia de la
prueba. El valor P denota entonces un riesgo: el riesgo a equivocarse cuando se rechaza
la hipótesis nula. En consecuencia, se rechaza la hipótesis nula cuando dicho riesgo sea
considerablemente pequeño, a juicio del investigador.

Una prueba es más potente que otra cuando tiene más capacidad que ésta para diferenciar
las hipótesis falsas de las que no lo son. Sería ideal disponer de pruebas muy potentes que
a la vez permitieran rechazar hipótesis falsas con poco riesgo de cometer error tipo I. Esto
sólo se logra aumentando los tamaños de la muestra y, por consiguiente, incrementando
los costos.

En la práctica los programas de computador que hacen pruebas estadísticas calculan el


valor P y el usuario toma la decisión de rechazar la hipótesis nula cuando considere que
dicho valor es pequeño. Frecuentemente lo que se hace es fijar un nivel máximo de riesgo
admisible α (nivel de significancia) que se fija previamente (0.05, 0.10 o 0.01 son los
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 43

más usuales) y rechazar H0 cuando el nivel de significancia intrínseco sea inferior a dicho
valor. Para poder aplicar ésto se debe calcular previamente el tamaño mínimo de
muestra, necesario para poder comparar con el nivel preestablecido de riesgo.

A lo largo de este curso se harán muchas pruebas de hipótesis. Para poder interpretarlas se
requiere saber dos cosas: 1. Que H0 se rechaza cuando el valor P es pequeño y 2. Conocer
cuál es la hipótesis nula en cada caso.

8. BONDAD DE AJUSTE

En la vida real se desconocen muchas características de una población pero se dispone de


una muestra aleatoria tomada en ella y se desea descubrir relaciones, propiedades,
características, etc de la población examinando la muestra. El EDA (Exploratory Data
Analysis) es un conjunto de técnicas descriptivas que permiten hacer esto. Sin embargo el
EDA se limita a poner de manifiesto algunas de las características poblacionales sin llegar
a niveles mayores de profundización. Muchas veces es posib le hacer inferencias
estadísticas, probando hipótesis acerca de lo que se descubre en la etapa exploratoria.
Por ejemplo, un diagrama de Box & Whiskers (Box-Plot) puede sugerir que existe
simetría en una población. Se puede plantear entonces la hipótesis de que la distribución
de la población es simétrica (hipótesis nula) y someterla a prueba. Para ello existe una
prueba!.

Relacionado con lo anterior está el siguiente problema de gran importancia estadística:

PROBLEMA: Se ha seleccionado una muestra aleatoria en una cierta población. Se


dispone entonces de un conjunto de n números reales x1 , x 2 , L , x n , extraídos de la
población y se desea determinar cuál es la distribución F(x) de la población.

El problema anterior, conocido en general como problema de bondad de ajuste, es de


gran importancia ya que muchos resultados estadísticos dependen de la “forma” de una
población, es decir, de la distribución que ella tenga. En particular, por ejemplo,
determinar si una población se ajusta a una distribución normal será de vital importancia.

Existen varios métodos para determinar si una serie de valores se ajustan a una
distribución teórica F(x) pero siempre el primer paso consiste en determinar cuál es la
posible distribución. En este punto interviene la subjetividad y la experiencia del
investigador. Puede comenzarse por un EDA que incluya histogramas de datos agrupados
por clases para tener alguna “sospecha” sobre la forma y los parámetros básicos de la
posible distribución.
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 44

Una vez se tenga una distribución teórica como candidata, se puede aplicar alguno de los
procesos siguientes:

8.1 METODO GRAFICO o P-P

Este método consiste en graficar los puntos ( ( H i , Fi ), para i = 1,2,..., n donde H i


representa la frecuencia relativa acumulada para cada uno de los diferentes valores x i y
Fi = F ( x i ) es la probabilidad acumulada hasta el punto x i bajo la distribución teórica
que se quiere probar.

En caso de que los datos se ajusten a la distribución teórica se cumple H i = Fi , ∀i y, por


tanto, la gráfica correspondería a n puntos dispuestos sobre una recta de 45 grados que
pasa por el origen.

Los valores teóricos F ( x i ) pueden obtenerse: mediante tablas o, mediante programas que
los calculen (ESM lo hace para 16 distribuciones). Algunos programas, como SPSS (V7.5
Student) produce directamente las gráficas bajo varias distribuciones. Igual lo hace ESM
para algunas distribuciones de importancia.
El método anterior, aunque fácil de entender, tiene dos inconvenientes: en primer lugar es
subjetivo pues ligeras desviaciones de la recta no indican necesariamente falta de ajuste y,
en segundo lugar, el cálculo de las probabilidades bajo la distribución teórica puede
resultar largo y tedioso. Con todo es uno de los más usados.

8.2 METODO DE KOLMOGOROV – SMIRNOV

Tal vez el método más recomendable para el caso en que F ( x) es una distribución
continua es el método para una muestra de Kolmogorov-Smirnov o (K-S). Consiste en
una prueba de hipótesis en el que la hipótesis nula afirma que los datos sí se ajustan a la
distribución F ( x) y la hipótesis alterna establece que no se ajustan. El estadístico de
prueba está dado por

D = Max{| H i−1 − Fi |, | H i − Fi |} , H 0 = 0

este valor se compara con el valor crítico que se encuentra en una tabla. Se rechaza la
hipótesis nula si D es mayor que el valor de tabla para el nivel de confianza y el tamaño
de muestra que se estén considerando.
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 45

Esta prueba puede hacerse con ESM si se calcula la tabla de distribución para los datos no
agrupados y luego se calculan las probabilidades teóricas usando la rutina
correspondiente en la miscelánea.

8.3 PRUEBA JI-CUADRADO DE AJUSTE

Una prueba muy mencionada en los textos corrientes de estadística es la prueba Ji-
cuadrado de bondad de ajuste la cual busca medir las discrepancias entre la distribución
teórica y la distribución empírica de los datos cuando éstos han sido agrupados en clases.
Esta prueba fue propuesta por Pearson a principios del siglo XX y por ser la más antigua
es la más conocida.

El principio en el que se basa la prueba es simple: los datos se agrupan en k clases del
tipo ( xi −1, xi ] con i = 1, 2,L k y se calculan las frecuencias relativas de cada clase, las
cuales denotamos por Oi . Por otra parte, bajo la distribución teórica que se está
probando se calculan las probabilidades Ei = P( x i−1 < X ≤ xi ) para i = 1,2,L, k . Una
medida de la discrepancia entre las dos distribuciones está dada por el estadístico

(O i − Ei )
2
X2 =∑
Ei

el cual tiene distribución asintótica Ji-cuadrado con k − r − 1 grados de libertad donde r


es el números de parámetros que deben ser estimados a partir de los mismos datos. Se
rechaza la hipótesis nula de que los datos se ajustan a la distribución F siempre que el
valor P (área de la cola a la derecha de X 2 bajo la distribución χ k −r −1 ) sea pequeño.

Esta prueba exige el cumplimiento de una gran cantidad de condiciones para que sea
decisiva lo que la hace inaplicable la mayor parte de las veces. Algunas de las
condiciones que se deben cumplir son las siguientes:

1. Por ser una prueba asintótica la muestra debe ser de gran tamaño. (n > 150 ?)
2. El número k de clases en que se agrupan los datos debe ser mayor o igual a 5
3. Todas las frecuencias esperadas ( Ei ) deben ser mayores que 1
4. Como máximo la quinta parte del número de clases puede tener frecuencias esperadas
inferiores a 5
5. No deben existir tendencias en las apariciones de los signos de Oi − Ei . Lo ideal es
que estos signos se alternaran
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 46

En razón a lo anterior, no es recomendable la prueba Ji-cuadrado cuando se trata de


probar el ajuste a distribuciones continuas ya que en estos casos la prueba K-S constituye
una mejor alternativa. Su uso se justifica para medir el ajuste a distribuciones discretas ya
que en tales casos no es aplicable la prueba K-S.

8.1 Ejemplo de bondad de ajuste


Encontrar una distribución a la que se ajusten los siguientes datos:

3 3 2 5 2 15 2 10 2 1 4 3
14 4 3 5 0 1 1 9 1 2 1 5
1 1 1 0 8 8 5 1 2 4 0 4
0 5 14 3 3 2 5 1 5 0 18 1
2 2 4 3 1 3 4 0 4 7 6 4

Un histograma de los datos agrupados en 7 clases produce:


__________________________________________________________________
HISTOGRAMA DE DISTRIBUCION DE VARIABLE NoNombre
(Agrupamiento en 7 clases)
__________________________________________________________________
MARCAS: FREC.REL(%)

1.3 ||||||||||||||||||||||||||||||||||||||| 45.00


3.9 |||||||||||||||||||||||||||||||||| 38.33
6.4 || 3.33
9.0 ||||| 6.67
11.6  0.00
14.1 |||| 5.00
16.7 | 1.67
__________________________________________________________________
Gráfica 14. Histograma para datos del ejemplo

A partir de los datos se obtiene: media = 3.83 Varianza = 14.61 y, Como se ve, la
varianza es aproximadamente el cuadrado de la media. Tanto la forma del histograma
como la propiedad observada en la media y la varianza, nos hacen "sospechar" que
podría ser apropiado ensayar una distribución exponencial de parámetro b = 3.8, o para
má s sencillez, b = 4, para la cual se cumple:
1 t x
f (t ) = Exp (− ) F ( x) = 1 − Exp ( − ) x≥0
4 4 4

de esta última expresión se podrían calcular los valores teóricos de probabilidad


acumulada. Los valores empíricos se obtienen a partir de una tabla de distribución de
frecuencias para los datos no agrupados. Son los valores de las frecuencias relativas
acumuladas, Hi.

a) Emplearemos inicialmente el método gráfico P-P


INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 47

TABLA DE FRECUENCIAS Y PROBABILIDADES ACUMULADAS


(DATOS NO AGRUPADOS)
OBS F.ABS F.REL F.ACUM F.REL.ACM F(x)
---------------------------------------------------------
0.00000 6 0.100000 6 0.100000 0.0000
1.00000 12 0.200000 18 0.300000 0.2212
2.00000 9 0.150000 27 0.450000 0.3934
3.00000 8 0.133333 35 0.583333 0.5276
4.00000 8 0.133333 43 0.716667 0.6321
5.00000 7 0.116667 50 0.833333 0.7135
6.00000 1 0.016667 51 0.850000 0.7768
7.00000 1 0.016667 52 0.866667 0.8262
8.00000 2 0.033333 54 0.900000 0.8646
9.00000 1 0.016667 55 0.916667 0.8946
10.00000 1 0.016667 56 0.933333 0.9179
14.00000 2 0.033333 58 0.966667 0.9698
15.00000 1 0.016667 59 0.983333 0.9765
18.00000 1 0.016667 60 1.000000 0.9889
---------------------------------------------------------

en el método gráfico (P-P) se grafican las parejas de puntos de las dos últimas columnas,
mediante un diagrama de dispersión.

Se obtiene el siguiente gráfico, en el cual FRACU representa la frecuencia relativa


acumulada y PRACU la probabilidad teórica acumulada, según la función de distribución:

Gráfica 15. Gáfica P-P de ajuste para ejemplo 8.1

Como puede observarse, se obtiene aproximadamente una recta de pendiente 1, lo que


nos permite concluir que los datos sí se ajustan a una distribución exponencial de
parámetro b = 4

b) Emplearemos ahora el método de Kolmo gorov y Smirnov (K-S), en el cual se tiene


como estadístico de prueba el siguiente valor:
D = {|Hi'-Fi|, |Hi-Fi|} donde Ho=0
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 48

Se obtiene:

-------------------------------------------------------
OBS F.REL.ACM F(x) |Hi'-Fi| |Hi-Fi|
-------------------------------------------------------
0.00000 0.100000 0.0000 0.0000 0.1000
1.00000 0.300000 0.2212 0.1212* 0.0788
2.00000 0.450000 0.3934 0.0934 0.0566
3.00000 0.583333 0.5276 0.0776 0.0557
4.00000 0.716667 0.6321 0.0488 0.0845
5.00000 0.833333 0.7135 0.0031 0.1198
6.00000 0.850000 0.7768 0.0565 0.0732
7.00000 0.866667 0.8262 0.0238 0.0404
8.00000 0.900000 0.8646 0.0020 0.0354
9.00000 0.916667 0.8946 0.0054 0.0220
10.00000 0.933333 0.9179 0.0013 0.0154
14.00000 0.966667 0.9698 0.0365 0.0032
15.00000 0.983333 0.9765 0.0099 0.0068
18.00000 1.000000 0.9889 0.0056 0.0111
-------------------------------------------------------

El valor D está dado por el mayor valor que se encuentre en las dos últimas columnas.
Esto es: D = 0.1212. Este valor se compara con el valor dado por una tabla (ver anexo
3) que para un nivel de sig nificancia α = 0.05 y n = 60 vale 0.1755.

Puesto que D resultó menor que el valor crítico hallado en la tabla, no podemos rechazar
la hipótesis (nula) de que los datos se ajustan a la distribución exponencial propuesta.

9. ESTIMACION DE MEDIAS Y PROPORCIONES

Uno de los objetivos de la estadística es estimar parámetros, es decir obtener valores


probables de cantidades poblacionales que por diversas razones no pueden ser conocidas
en sus verdaderos valores. Los parámetros que con más frecuencia se estiman son: La
media µ , el total poblacional y la proporción. Algunas veces son de interés otros
parámetros como la varianza, la correlación, etc. Sin embargo estos últimos casos se
estudiarán en el momento en que se necesiten.

Puesto que las estimaciones se hacen a partir de una muestra aleatoria, es inevitable la
existencia de un error de estimación que es la diferencia absoluta entre el valor del
parámetro θ y la estimación particular θˆ obtenida con la muestra, esto es: ε =| θ − θˆ | .
Por tal razón no se puede afirmar que el parámetro θ tome el valor θˆ sino que se
encuentra a su alrededor, en un intervalo, con un cierto grado de probabilidad o de
confianza. Se define así un intervalo del 100(1 − α )% de confianza para el parámetro
θ , como el intervalo I α , centrado en θˆ dentro del cual se encuentra θ con una
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 49

probabilidad 1 − α , (α es un valor pequeño, generalmente comprendido entre 0 y 0.1).


El cálculo de dicho intervalo, debido a que involucra una probabilidad de aparición del
parámetro, depende de la distribución del estimador del parámetro que se esté usando.

Conviene tener en cuenta que todo va lor que se encuentre dentro del intervalo de
confianza del parámetro θ , se considera igual desde el punto de vista estadístico al
parámetro. Dicho en otros términos, tales valores no difieren significativamente de θ .
Quiere esto decir que la diferencia entre tales valores y el parámetro, si es que existe, se
considera despreciable o insignificante. Este concepto va a ser valioso cuando se trate de
verificar hipótesis acerca del parámetro.

Comencemos estimando la media de una variable aleatoria X, de media µ y varianza


σ 2 , la cual, por ahora, supondremos con distribución normal.

Puesto que se va a estimar µ , este valor es desconocido. Respecto a la varianza, tal valor
podría ser conocido o desconocido, aunque realmente es muy raro que se conozca. La casi
totalidad de las veces se hace necesario estimar también el valor σ 2 . El proceso de
estimación comienza definiendo el tipo de muestreo que se va a aplicar, calculando luego
el tamaño mínimo de muestra necesario para garantizar los niveles de confianza y error
máximo fijados de antemano, tomando por último los elementos que conforman la
muestra y observándolos (midiéndolos) para obtener los valores con los cuales se hace la
estimación. Aquí supondremos que se ha aplicado muestreo aleatorio simple sin
repetición para que sean válidos los métodos propuestos. Estimaciones con otros tipos de
muestreo se verán en un curso de muestreo.

Si {X 1 , X 2 ,L , X n } es una muestra aleatoria de tamaño n extraída de la población X , se


1
puede considerar el estimador de la media X = ∑ X i , el cual, además de ser
n
insesgado y poseer algunas buena s cualidades de un estimador, tiene distribución normal
1 2 X −µ
con media µ y varianza σ . Esto hace que la estandarización Z = tenga
n σ
n
distribución normal estándar. De aquí, se puede tomar zα como el cuantil tal que
2

Pr( - z α < X < zα ) = 1 − α . De donde se deduce que el intervalo de confianza para la


2 2
σ σ
media está dado por: ( x − zα , x + zα ) , Cuando la población de donde se
2 n 2 n
extrae la muestra es finita y de tamaño N, se hace necesario introducir un factor de
correción en la fórmula anterior, la cual toma entonces la forma siguiente:
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 50

N −n σ N −n σ
( x − zα , x + zα )
2 N n 2 N n

expresión que permite construir el intervalo de confianza para la media, cuando se conoce
la varianza.

Corrientemente sucede que la varianza es un parámetro que también es desconocido así


que en la fórmula anterior se hace necesario usar s, calculado con la misma muestra, en
cambio de σ . Esto hace que la distribución del estadístico sea una t n −1 en vez de una
normal y, en consecuencia, el intervalo de confianza estará dado por:

N −n s N −n s
( x − t n−1, α , x + t n−1, α )
2 N n 2 N n

expresión que permite construir el intervalo de confianza para la media cuando no se


conoce la varianza.

ESM, además de calcular los intervalos anteriores, permite hacer pruebas de hipótesis
acerca de la media, como se indica a continuación.

La estimación de parámetros está estrechamente ligada con las pruebas de hipótesis


acerca de ellos. En este caso se puede plantear la hipótesis nula H0: µ = M contra
cualquiera de las alternativas: µ < M , µ ≠ M , µ > M . Entender que µ puede
tomarse como cualquiera de los valores del intervalo de confianza, seguramente permitirá
interpretar muy rápidamente las anteriores hipótesis. Existe varias formas de hacer tales
pruebas de hipótesis, pero la más sencilla es mediante el valor P que arroja el
computador.

Conviene aclarar que no siempre se tienen variables normales. De ocurrir esto, los
supuestos ya no son ciertos y, en consecuencia, los resultados no serían confiables. Tal
situación puede mejorar si se toman muestras de mayor tamaño (Teorema del límite
central).

Ejemplo 9.1. Considérese la primera variable (AREA ) del archivo FINCAS.DAT.


Supóngase que la muestra contemplada de 150 fincas fue extraída de una población de
3000 fincas que se encuentran en una determinada región geográfica. Nuestro objetivo es
estimar con un 95% de confianza el promedio de area de las fincas en toda la región y a la
vez probar la hipótesis de que dicho promedio no alcanza las 250 hectáreas.
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 51

Mediante ESM (selecciones 3-3-1 Estimación de medias bajo M.A.S), se obtienen los
resultados siguientes.

ESTIMACION DE MEDIAS E INTERVALOS DE CONFIANZA. VARIABLE: AREA


__________________________________________________________________
ESTIMACIONES POBLACIONALES

Media poblacional: 192.2533


Varianza poblacional: 10982.8347 (Estimada)

Int90% ( 178.5338 , 205.9728 ) Cuantil: 1.645


Int95% ( 175.9066 , 208.6 ) Cuantil: 1.96 ß
Int99% ( 170.7691 , 213.7375 ) Cuantil: 2.576

Error estandar: 8.3401


Coef. asimetria: .8184
Coef. 25G Cochran: 16.7457
Tamaño de muestra: 150
Tamaño población: 3000 Corrección por finitud.
----------------------------------------------------------

PRUEBA DE LA HIPOTESIS: H0: µ = 250

T = -6.748625457543953 GL = 149

H0: µ = 250 Vs H1: µ < 250 Valor P: 0.00000 ß


H0: µ = 250 Vs H1: µ <> 250 Valor P: 0.00000
H0: µ = 250 Vs H1: µ > 250 Valor P: 1.00000
---------------------------------------------------------
Tabla 9. Estimación de la media. Ejemplo 9.1

Como puede observarse, la estimación puntual de la media es 192.2533. El intervalo de


confianza (del 95%) está dado por (175.91 , 208.60). Quiere decir que con el riesgo de
equivocarnos de solo un 5%, el verdadero promedio de área (en las 3000 fincas) está
comprendido entre 175.71 hectáreas y 208.60 hectáreas

Sometemos a prueba la hipótesis nula señalada con la flecha y puesto que el valor P es
demasiado pequeño, se rechaza H0. En consecuencia, nos quedamos con la hipótesis
alternativa H1 que establece que la media poblacional es menor que 250 hectáreas.

El supuesto fundamental sobre el cual descansa la validez de las estimaciones y de las


pruebas de hipótesis anteriores es que la variable en consideración (el AREA ) se distribuye
normalmente. En consecuencia, se hace necesario probar tal afirmación. La prueba de
normalidad de Geary arroja en este caso un valor P de 0.5261, lo que permite afirmar que
dicha variable sí se ajusta a una normal y que, por tanto, sí se cumplen las condiciones
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 52

para que sea válido el análisis realizado. Este supuesto es necesario ante todo cuando las
estimaciones se hacen con muestras muy pequeñas.

Nótese que ante el supuesto de normalidad la prueba de H0: µ = M se convierte


realmente en una prueba de localización que determina en qué sitio de la recta real se
encuentra el centro de la distribución.

Un problema que se debe afrontar al tratar de estimar una media es el de determinar el


tamaño mínimo de muestra necesario para poder garantizar una estimación con el nivel de
confianza deseado y un error de estimación no mayor al máximo admisible.

Puesto que el intervalo de confianza se centra en la estimación puntual x y tiene una


s
semilongitud dada por zα , esta semilongitud es el valo r máximo del error de
2 n
estimación, así que, si se fija el valor e como el máximo error admisible de
s z2 s2
estimación, se debe tener e = zα , de donde n= para el caso en que la
2 n e2
z 2s 2
población sea infinita. Por esta razón denotamos n ∞ = 2
e
N −n s
Para el caso de una población finita de tamaño N se tiene e = zα , de donde
2 N n
Nz 2 s 2
se concluye que Nne 2 = Nz 2 s 2 − nz 2 s 2 esto es n= y, en consecuencia,
Ne 2 + z 2 s 2
dividiendo numerador y deno minador por Ne2 se tiene:

n∞
n=
n
1+ ∞
N

esta última expresión se usa siempre en la práctica: se calcula n ∞ y luego se corrige, si


es necesario, para poblaciones finitas.
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 53

10 ESTIMACION DE UNA PROPORCION BINOMIAL

Consideremos inicialmente el caso de una población de tamaño N dividida en dos clases


(por ejemplo, poblaciones animales divididas en machos y hembras). Estas clase se
A
denotarán A y A’. Se define la proporción de A como el número P = donde A es
N
el número de individuos en la clase A. Nótese que la proporción multiplicada por 100 es
igual al porcentaje de individuos que se encuentran en la clase A.

a
Para estimar la proporción se usa el estimador puntual p = donde a es el número de
n
elementos de la clase a estimar en la muestra y n el tamaño de muestra. El intervalo de
confianza se construye con la siguiente fórmula corregida por finitud y por continuidad:

N −n PQ 1 N −n PQ 1
( p − zα − , p + zα + )
2 N −1 n 2n 2 N −1 n 2n

Los valores P y Q = 1 − P necesarios para el cálculo del intervalo son valores


poblacionales desconocidos. Más aún, se está utilizando el mismo valor P que se quiere
estimar lo que parece un círculo vicioso. Por esta razón, en camb io de P se utiliza la
estimación suya obtenida con la muestra, pero este cambio altera ligeramente la fórmula,
de la siguiente manera:

N − n pq 1 N −n pq 1
( p − zα − , p + zα + )
2 N n − 1 2n 2 N n − 1 2n

expresión que en la práctica se usa para estimar una proporción binomial, es decir de dos
categorías con muestras grandes en poblaciones finitas.

Si se trata de estimar proporciones binomiales en poblaciones infinitas desaparece el


N −n
factor de corrección por finitud, ya que éste puede considerarse igual a 1.
N −1

Por analogía con el caso de la media, se puede calcular el tamaño mínimo de muestra
necesario para hacer una estimación de una proporción binomial.
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 54

PQ
En primer lugar, en una población infinita, se tiene e = zα de donde se deduce
2 n
z 2 PQ z 2 PQ
n= , expresión que comunmente se denota: n∞ =
e2 e2

N −n PQ
Cuando la población es finita, de tamaño N, se tiene e = zα
2 N −1 n
o lo que es equivalente: n ( N − 1) e = ( N − n ) z PQ
2 2

Nz 2 PQ
de donde se concluye que n =
( N − 1)e 2 + z 2 PQ

y, dividiendo numerador y denominador por Ne2 , se obtiene finalmente la expresión:

n∞
n=
n −1
1+ ∞
N

Igual que antes, ésta es la fórmula práctica para el cálculo del tamaño de muestra bajo
M.A.S: primero se calcula n ∞ y luego, si es necesario, se corrige para poblaciones
finitas.

Los resultados anteriores permiten establecer criterios para probar hipótesis del tipo H0:
P = P0 , acerca de proporciones. Esta hipótesis afirma que una proporción toma cierto
valor y se prueba contra cualquiera de las alternativas P < P0 , P ≠ P0 o P > P0 .

Los criterios para probar este tipo de hipótesis son simples: construir el intervalo de
confianza para P y observar si dicho intervalo contiene o no al valor P0 . Si lo contiene
entonces se concluye que P = P0 . Si no lo contiene entonces P ≠ P0 y se cumplirá una
de las desigualdades P < P0 o P > P0 , según que el intervalo esté a la izquierda o a la
derecha de P0 .

ESM hace pruebas de hipótesis acerca de una proporción binomial de dos maneras
diferentes: a) leye ndo los valores que toma una variable dicotómica en un archivo de
datos o b) a partir de la información que el usuario introduce por el teclado (pruebas
semimanuales).

Ejemplo 10.1. Supóngase que se aplicó la primera dosis de la vacuna contra la hepatitis a
3000 niños de 6 colegios de una cierta ciudad donde se estima que hay 12500 niños. Al
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 55

cabo de 30 días, fecha en que se va a aplicar la segunda dosis se observa que 600 de estos
niños han desarrollado reacciones alérgicas. La estimación puntual de la proporción de
niños que desarrollan esta alergia es entonces p = 600/3000 = 0.2. Supóngase ahora que
estamos interesados en saber si dicha proporción puede ser superior a 0.25 (es decir, si
más de la cuarta parte de la población infantil puede desarrollar alergia). La prueba
semimanual, realizada en ESM, produce:

ESTIMACION DE UNA PROPORCION (Información manual)


------------------------------------------------------
Proporción estimada: 0.20000
Varianza de la proporción: 5.333333333333334E-005
Número de individuos observados: 3000
Número de indiv. caracterizados: 600

** INTERVALOS DE CONFIANZA PARA LA PROPORCION:


Inter90% ( 0.18936 , 0.21064 )
Inter95% ( 0.18735 , 0.21265 )
Inter99% ( 0.18341 , 0.21659 )

NOTA: Población finita: 12500


Total Poblacional caracterizado (est): 2500

PRUEBA DE LA HIPOTESIS SOBRE LA PROPORCION:

H0: P = 0.2500 Vs H1: P < 0.2500 Valor P: 0.00000


H0: P = 0.2500 Vs H1: P <> 0.2500 Valor P: 0.00000
H0: P = 0.2500 Vs H1: P > 0.2500 Valor P: 1.00000 ß

Como puede apreciarse, el valor P de 1.00 es demasiado alto, razón por la cual no se
puede rechazar la hipótesis nula a favor de la alterna. Es decir, no sucede que P > 0.25

11. MEDIDAS DE ASOCIACION

Un concepto de gran importancia en estadística es el de asociación entre dos o más


variables. Intuitivamente se comprende que si dos variables están asociadas entonces sus
variaciones están relacionadas y alguna de ellas depende de la otra en mayor o menor
grado. Por ejemplo, parece natural pensar que el peso de las personas dependa de su
estatura y que, dentro de ciertos límites, a mayor estatura mayor peso. De igual manera el
consumo y, por tanto, el ahorro, dependen de la capacidad económica la que, a su vez,
depende de los ingresos. En este caso, a mayor consumo menor ahorro, lo que indica que
son variables con variaciones inversas.

Una preocupación de la estadística es cómo medir el grado de asociación entre dos


variables. Por tanto, ha habido muchos intentos por definir un coeficiente que exprese de
una manera directa el grado de asociación o dependencia entre dos variables. Para poder
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 56

definir tales medidas es necesario diferenciar entre dos casos típicos: de una parte cuando
las dos variables son de tipo numérico, caso en el cual la asociación entre ellas se
denomina correlación y, de otra parte, el caso en que las dos variables son categóricas, en
el cual la asociación se conoce como contingencia. Existe un caso especial para la
correlación entre rangos de dos variables. Esta se llama correlación por rangos
(Spearman) pero no será usada en estas notas.

Correlación de Pearson

Dadas dos variables aleatorias X , Y se define la covarianza de X y Y como

Cov( X , Y ) = E( XY ) − E( X ) E(Y )

Este valor es un parámetro poblacional, desconocido, que indica el grado de asociación


existente entre las variables X y Y. En la práctica no se usa la covarianza debido a que sus
valores pueden ser muy grandes en valor absoluto, haciendo difícil la interpretación por
falta de un referente con el cual comparar. Por esta razón se usa el coeficiente de
correlación de Pearson, definido por:

Cov( X , Y )
ρ=
V( x ) V(Y )

El anterior es un valor numérico que aunque desconocido, varía entre –1 y 1, tomando


los valores –1 y 1 cuando existe una perfecta dependencia entre las dos variables (inversa
en el primer caso y directa en el segundo) o tomando el va lor 0 cuando no existe
ninguna dependencia entre las variables. Otros valores indican un grado mayor o menor
de dependencia según la magnitud de dicho coeficiente.

Puesto que en la práctica el valor de la correlación ρ es desconocido, se toma una


muestra aleatoria {( X i , Yi ) i = 1,2, L, n} , formada por n pares de valores y con ella se
hace una estimación de ρ . El estimador de máxima verosimilitud para ρ esta dado por
la siguiente expresión:

∑(X i − X )( Yi − Y )
r= i =1
n n

∑ ( X i − X )2 ∑ (Yi − Y )
i =1 i =1
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 57

Esta expresión, valorada en observaciones particulares de la muestra, produce


estimaciones de ρ , junto con intervalos de confianza para este parámetro, con los cuales
es posible hacer pruebas de hipótesis acerca del mismo.

El intervalo de confianza para ρ , está dado por la siguiente expresión:

[tanh( a ), tanh( b)]


1 1+ r 1 1 1+ r 1
donde a= Ln − zα y b = Ln + zα
2 1− r 2 n−3 2 1− r 2 n−3

En muchos problemas prácticos resulta de interés averiguar si la correlación entre dos


variables es significativa, es decir, si dicha correlación es digna de tenerse en cuenta o no.
Esto es realmente una prueba de la hipótesis H0: ρ = 0 vs H1: ρ ≠ 0

ESM realiza la prueba anterior tanto para dos como para más variables arrojando los
correspondientes valores P, con los cuales se rechaza o no la hipótesis nula. Para ello se
debe entrar por el menú de regresión.

Generalmente un alto coeficiente de correlación (en valor absoluto) es indicio de que


entre las variables X , Y existe una relación funcional, es decir, que se puede esperar algo
del tipo Y = f ( X ) donde f es una función que se debe determinar. Esto va a ser
particularmente interesante cuando dicha función sea de tipo lineal.

Ejemplo 11.1: considérense tres variables, EDAD, TALLA y MASA MUSCULAR medidas
sobre 14 individuos, las cuales arrojan los siguientes datos:

EDAD TALLA MASA


34 15 19
18 10 26
15 7 41
12 6 28
26 15 25
30 15 23
42 20 18
19 10 60
31 16 19
28 14 17
56 28 21
24 12 19
36 17 22
40 21 20
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 58

La matriz de correlaciones y la matriz de valores P para las mismas, calculadas en ESM,


arrojan lo siguiente:

1. MATRIZ DE CORRELACIONES:

Esta matriz contiene las estimaciones r(i,j) de los coeficientes


de correlación Rho(i,j) para las variables analizadas.

EDAD TALLA MASA


EDAD +1.0000 +0.9861 -0.5113
TALLA +0.9861 +1.0000 -0.4956
MASA -0.5113 -0.4956 +1.0000

2. MATRIZ DE PROBABILIDADES (VALORES P):

Esta matriz contiene los VALORES P para probar la hipótesis nula


H0: Rho(i,j) = 0 contra la alternativa H1: Rho(i,j) <> 0 con base
en las estimaciones r(i,j) dadas por la matriz anterior.

EDAD TALLA MASA


EDAD 0.0000 0.0000 0.0592
TALLA 0.0000 0.0000 0.0690
MASA 0.0592 0.0690 0.0000

Como puede verse en los resultados anteriores, la correlación entre edad y masa y la
correlación entre talla y masa no son significativas. En cambio la correlación entre edad y
talla sí es significativamente diferente de cero (ver valor P resaltado en la matriz).

Tablas de contingencia

La asociación entre variables categóricas es conceptualmente más difícil de definir.


Cuando existe, indica que una variable está influída por la otra en el sentido de que su
distribución depende de las categorías de la otra variable. Por ejemplo, si una variable
representa la EDAD (categorizada) y la otra representa la INTENCION DE VOTO, y si existe
dependencia entre ellas, entonces podemos afirmar que la manera como los individuos
votan depende de la edad. En otras palabras, la intención de voto no es la misma para los
jóvenes que para los viejos.

La intensidad de una asociación entre variables categóricas se mide principalmente por el


coeficiente de contingencia, aunque existen otras varias medidas con características
propias que se usan en ciertas situaciones particulares. Todas estas medidas tienen como
base de cálculo las tablas de contingencia que simplemente son tablas de distribuciones
de frecuencia bidimensionales en las cuales se cruzan dos variables categóricas para
indicar cuántos individuos han elegido cada una de las combinaciones de niveles de
dichas variables.
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 59

Existen también tablas de contingencia p-dimensionales pero ellas no son de nuestro


interés, por ahora.

Una tabla de contingencia para dos variables categóricas, tiene el siguiente aspecto:

VARIABLE X
Categ 1 Categ 2 ... Categ k Totales
VA Categ 1 n11 e11 n12 e12 ... n1k e1k T1*
RIA Categ 2 ...
n 21 e21 n 22 e22 n 2k e 2k T2*
BLE
... ... ... ... ... ...
Y Categ r n r1 er1 n r2 er 2 ... n rk erk Tr*
Totales T*1 T*2 ... T*k T
Tabla 11 Estructura de una tabla de contingencia

En esta tabla ni j representa la cantidad de respuestas que adoptan al mismo tiempo la


categoría i de la variable Y y la categoría j de la variable X. Este valor se llama
frecuencia observada. Los valores ei j se llaman frecuencia esperada y, bajo la hipótesis
Ti * T* j
de que las dos variables son independientes, ei j = , el producto de los dos totales
T
marginales correspondientes a los índices i y j sobre el gran total.

Estas tablas además de proporcionar un conteo de frecuencias, tanto absolutas como


relativas, permiten hacer pruebas de independencia para las variables X, Y, y la
construcción de histogramas (mejor sería distribuciones) por categorías, llamados
perfiles. Existen perfiles horizontales (para las categorías de Y) y perfiles verticales (para
las categorías de X)

Lo más interesante en este momento es la posibilidad de probar la independencia entre las


variables X y Y y la construcción de un coeficiente que mida el grado de asociación entre
las dos variables.

Si se supone como hipótesis nula que las dos variables son independientes, las frecuencias
esperadas se calculan como se dijo antes, y se puede construir un estadístico de prueba
definido por:

X = ∑∑
2
r k
(nij − eij )
2

i =1 j =1 eij
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 60

Este estadístico tiene distribución Ji-cuadrado con ( r − 1)( k − 1) grados de libertad y, en


consecuencia, se rechaza la hipótesis de independencia cuando el valor P que él determine
bajo dicha distribución sea pequeño (inferior a α ).

Las condiciones para la validez de esta prueba son las mismas que para la validez de la
prueba Ji-cuadrado de bondad de ajuste, vista anteriormente.

Las tablas de contingencia son de gran importancia en el análisis de encuestas para hacer
conteos de frecuencias, calc ular porcentajes de respuestas y probar la independencia de
variables mediante el cruce de variables, además de que se constituyen en punto de
partida para el análisis de correspondencia (ver sección 11.9)

Ejemplo 11.2: Supóngase que se ha aplicado una encuesta a 700 personas las cuales han
respondido las siguientes dos preguntas (entre las muchas que conforman la encuesta):

Pregunta: Edad en años cumplidos : ______

Pregunta: Señale con una × el grado aceptación que tiene usted respecto a la reelección
presidencial:
1. ? Totalmente en desacuerdo
2. ? De acuerdo con algunas reservas
3. ? Totalmente de acuerdo

Después de recogidas las encuestas se decide agrupar los valores de las edades en años en
las siguientes categorías o modalidades:

1. Menores de 20 años
2. Edades desde 20 hasta 35 años
3. Edades desde 36 hasta 50 años
4. Mayores de 50 años.

De esta manera la variable edad que es numérica se ha categorizado para convertirla en


una variable categórica. De modo que ahora tenemos dos variables categóricas, una con
tres modalidades o categorías y la otra con 4. Contando el número de individuos de cada
categoría de la variable EDAD que eligen cada una de las categorías de la variable
ACEPTACION, se puede llegar a una clasificación como la siguiente:
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 61

X = EDAD (Categorizada)
Y = OPINION Menos de 20 De 20 a 35 De 36 a 50 Más de 50
O Total.Desacuerdo 36 52 63 29
P De acuerdo con res. 14 26 38 47
I
N Total. De acuerdo 64 85 121 125
Tabla 12 Ejemplo de una tabla de contingencia para dos variables categóricas

La tabla anterior recibe el nombre de tabla de contingencia y muestra la distribución de


frecuencias para las variables EDAD y OPINION conjuntamente.

Siempre que se crucen dos variables categóricas se obtendrá una tabla de contingencia
bidimensional, similar a la anterior.

La tabla 6.5 puede simplificarse y a la vez complementarse con otros valores como se ve
a continuación (se han incluído códigos para las modalidades y totales):

X Modal Modal Modal Modal


Y 1 2 3 4 Total
Mod
1 36 52 63 29 180
Mod
2 14 26 38 47 125
Mod
3 64 85 121 125 395
Total 114 163 222 201 700
Tabla 13. Tabla de contingencia para dos variables categóricas

Se han agregado los totales por filas y columnas, llamados marginales, los cuales
representan las frecue ncias absolutas en las categorías de las variables Y y X
respectivamente. Los valores en los cruces de modalidades de las dos variables
representan el total de individuos que simultáneamente clasifican en las respectivas
modalidades. Por ejemplo, el 38 de la casilla correspondiente al cruce de la modalidad 3
de X con la modalidad 2 de Y, indica que 38 de las 700 personas encuestadas, con edades
entre 36 y 50 años, aceptan la reelección presidencial pero con algunas reservas. Esto
representa un 5.43% del total aproximadamente.

La misma tabla anterior, incluyendo los valores esperados y los estadísticos para probar
independencias de las variables, tiene la siguiente apariencia:
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 62

X Modal Modal Modal Modal


Y 1 2 3 4 Total
Mod 36 52 63 29 180
1 29.31 41.91 57.09 51.69
Mod 14 26 38 47 125
2 20.36 29.11 39.64 35.89
Mod 64 85 121 125 395
3 64.33 92.00 125.27 113.42
Total 114 163 222 201 700
Tabla 14 Tabla de contingencia para dos variables categóricas

Estadístico Ji cuadrado: X 2 = 22.2025 con 6 grados de libertad


Valor P para probar independencia de variables: P = 0.0011

La hipótesis nula de independencia establece que las variables en consideración son


independientes, es decir, que la distribución de una no afecta a la de la otra. El valor P,
demasiado pequeño, nos obliga a rechazar esta hipótesis. En consecuencia, las variables sí
están asociadas. No son independientes.

140
120
100
80
60
40
20 Acu
0 Res
Des Mod de Opinión
m20 20a35
36a50 M50
Modalidades de Edad

Gráfica 16. Histograma tridimensional para tabla 14

La gráfica anterior, una especie de diagrama de barras tridimensional, representa las


frecuencias de cada una de las casillas de la tabla de conteos bidimensionales 6.6.
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 63

Si los datos de cada fila (respectivamente: columna) de la tabla 6.6 se dividen entre el
total marginal, se obtienen perfiles horizontales (respectivamente perfiles verticales), los
cuales pueden ser interpretados como distribuciones de cada una de las modalidades de la
variable Y respecto de las modalidades de X (respectivamente: distribuciones de las
modalidades de X respecto a modalidades de Y). Por ejemplo, al dividir la primera fila por
180 se obtiene el perfil horizontal (0.20, 0.29, 0.35, 0.16) cuya representación gráfica
es la siguiente:

Perfil para modalidad 1 de Opinión

0.4
0.35
Freq relativas

0.3
0.25
0.2
0.15
0.1
0.05
0
m20 20a35 36a50 M50
Modalidades de Edad

Gráfica 17 Perfil de quienes están en desacuerdo con la reelección

Los perfiles juegan un papel importante en el análisis de correspondencias (sección 11.9),


técnica multivariada que busca establecer la forma como se asocian las modalidades de
dos variables categóricas.

Relacionados con el estadístico X 2 definido anteriormente, existen algunos coeficientes


que permiten medir el grado de asociación entre las dos variables analizadas. Algunos de
tales coeficientes son los siguientes:

1. Coeficiente de contingencia de Pearson. Este coeficiente se define mediante la


X2
expresión: C = donde X 2 es el estadístico anterior. El coeficiente C es
1+ X 2

especialmente útil en las tablas cuadradas (cuando r = k) en las cuales toma un máximo
1
valor de 1 − . El mínimo valor de C es 0 y ocurre cuando no existe ninguna
r
dependencia entre las dos variables consideradas. Sin embargo, es claro que jamás podrá
llegar a valer una unidad aunque haya una completa asociación entre las variables. A
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 64

pesar de sus limitaciones, es una medida muy útil pues no requiere continuidad en las
observaciones, siendo suficiente una medición nominal.

Cuando se desea comparar el grado de asociación entre dos tablas de las mismas
dimensiones, se puede usar el coeficiente de contingencia. Sin embargo esto no es posible
para tablas de dimensiones diferentes. En tal caso se usa un coeficiente, llamado
coeficiente corregido de Pawlik, que no depende de las dimensiones de las tablas. En el
ejemplo anterior, se obtiene C = 0.1753 y el coeficiente corregido de Pawlik vale
0.2147

2. Existen otros coeficientes con usos más específicos que no es del caso mencionar aquí.
X2
Algunos de ellos son: El coeficiente Fi-Cuadrado ( φ =
2
) de Pearson, La V y la C de
n
Cramér, la tau de Kendall, el delta de Sommer, la gamma de Goodman-Kruskall, el
coeficiente de incertidumbre y el coeficiente de correlación de Spearman, utilizado para
variables en escala ordinal, etc.

Para archivos de datos que contengan variables categóricas, codificadas en ASCII


mediante códigos numéricos (1,2,...,9), ESM permite la construcción de tablas de
contingencia, la prueba de independencia y el cálculo de algunos de las medidas de
asociación.

Por ejemplo, al cruzar las variables TIPO de terreno (que tiene 3 categorías o modalidades:
1=plano, 2=quebrado y 3=mixto) con RAZA mayoritaria de ganado (también con tres
modalidades: 1=Cebú, 2=Normando y 3=Holstein) del archivo FINCAS.DAT se obtiene,
como salida de ESM , la tabla 6.8.

En dicha tabla aparecen varias cantidades por celda, a saber: 1. La frecuencia observada,
es decir, el número de individuos de la encuesta que clasifican en el cruce de cada par de
modalidades. 2. La frecuencia esperada en cada cruce bajo el supuesto de independencia
de las variables y 3. El porcentaje que representa la frecuencia observada en cada cruce
frente al total de individuos examinados

Una medida de la contingencia es 0.17155646, sin embargo este número por sí solo no es
muy expresivo ya que cada tabla tiene un coeficiente máximo diferente. Es más sensato
pensar que se tiene una contingencia de 0.171556 entre un máximo posible de
0.81649658 lo que realmente representa aproximadamente un 21% . Es decir, la
asociación estimada no es realmente muy fuerte. La prueba de independencia se hace
precisamente para determinar si la medida de asociación entre las variables es
significativa o no. Es decir, si realmente existe asociación o no la hay.
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 65

En nuestro ejemplo, dado el valor P de 0.3368, se concluye que las variables consideradas
son independientes desde el punto de vista estadístico, pues dicho valor representa un
riesgo demasiado alto de equivocarnos si rechazamos la hipótesis de independencia entre
las variables. Es decir, se concluye que no existe asociación entre las variables.

FILAS = TIPO COLUMNAS = RAZA


_____________________________________________
Categs: \ RAZA:
TIPO 1 2 3 TOTAL
_____________________________________
1 16 13 6 35
11.90 14.93 8.17
10.67 8.67 4.00 23.33

2 18 33 16 67
22.78 28.59 15.63
12.00 22.00 10.67 44.67

3 17 18 13 48
16.32 20.48 11.20
11.33 12.00 8.67 32.00

_____________________________________________
TOTAL: 51 64 35 150
% : 34.00 42.67 23.33 %100

JI-CUADRADO (Indepcia): 4.5486 con 4 GL


Valor P: 0.33682174
Coef. Contingencia (C): 0.17155646
(Máximo posible) C Max: 0.81649658
(Valor real) C real: 0.45838073
V de Cramer: .1231

12. REGRESION LINEAL SIMPLE

Consideremos la situación en la que una variable X ha sido planeada para que tome
ciertos valores y supongamos que Y representa una variable de respuesta cuyos valores
dependen de los valores que tome X. Si los valores de Y dependen en forma lineal de los
de X, entonces un cambio en X produce un cambio proporcional en Y. Más exactamente,
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 66

entre Y y X existe una relación funcional del tipo Y = β 0 + β1 X donde β0 y β1 son


constantes.

12.1 Principios de la regresión lineal simple


En la práctica una relación lineal entre las variables dependiente (Y) e independiente (X)
se detecta por medio del diagrama de dispersión que se obtiene al graficar en un plano
cartesiano los puntos ( xi , y i ) correspondientes a las observaciones de una muestra. Esto
es así porque en tal caso los puntos resultantes muestran una tendencia rectilínea
acentuada.

Los coeficientes β 0 y β 1 son parámetros desconocidos que deben ser estimados con
los valores de la muestra, de esta manera se tendrá un modelo estimado Y = b0 + b1 x
cuyos coeficientes son estimaciones puntuales de β 0 y β 1 . Puesto que hay diferencias
entre el modelo teórico y el modelo estimado, para cada observación se puede escribir
Yi = b0 + b1 x + ε i donde ε i es una variable aleatoria que representa el error entre el
valor estimado de la observación y el valor teórico. Este valor no es medible pero sí
puede ser estimado por ei = y i − y)i donde )y i = b0 + b1 x i es el valor estimado de Yi y
yi es el correspondiente valor observado. Cada e i se llama un residuo.

El objetivo inmediato que perseguimos es estimar los coeficientes β 0 y β 1 del modelo.


En principio hay dos maneras de hacerlo: construyendo estimadores de máxima
verosimilitud o mediante el método de mínimos cuadrados. Esta última forma es la más
frecuente y así lo haremos en este curso.

Se trata de minimizar la suma de los errores elevados al cuadrado. Puesto que no se puede
usar directamente los errores, se usan los residuos, así que se buscará que la expresión
n
SCE = ∑ ei
2
tome un valor mínimo.
i =1

)
Reemplazando ei por yi − y i = y i − b1 xi − b0 en la expresión anterior y aplicando
procedimientos del cálculo de derivadas para minimizar, se obtiene:

n∑ xi y i − (∑ x i )( ∑ yi )
b1 =
n∑ x i2 − (∑ x i ) 2
1
b0 = ( ∑ yi − b1 ∑ xi )
n
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 67

expresiones que proporcionan estimaciones puntuales de β1 y β 0 respectivamente.

Se puede demostrar que los intervalos de confianza para β 1 están dados por:

S
b1 m t n− 2,α
2 S xx

y los intervalos de confianza para β 0 por:

b0 m t n− 2,α
S ∑x i

2 nS xx

n
donde sxx = ∑ ( xi − x ) 2
i =1

Una vez estimado un modelo lineal de regresión viene una etapa de análisis para medir la
bondad de dicha estimación. Si el modelo estimado no supera las pruebas se hace
necesario volver a iniciar el proceso después de haber modificado el modelo o las
variables.

A continuación se expondrán los principales aspectos que deben ser examinados para
juzgar la bondad de un modelo ya estimado.

Las principales razones por las cuales un modelo puede no ser bueno son: a) De una
parte, el modelo lineal no es el indicado o b) se está violando alguno(s) de los supuestos.

El primer aspecto se examina mediante un análisis de varianza y el segundo mediante un


conjunto de técnicas conocido como análisis de residuos, como se verá a continuación.

Se cumple:
∑( y
i − y ) 2 = ∑ ( yˆ i − y ) 2 + ∑ ( y i − yˆ i ) 2

lo que comúnmente se expresa como SCT = SCR + SCE , es decir, la suma de


cuadrados total es igual a la suma de cuadrados de la regresión más la suma de cuadrados
del error.
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 68

SCR
Se puede probar que tiene distribución Ji-cuadrado con 1 grado de libertad y que
σ2
SCE
tiene distribución Ji-cuadrado con n − 2 grados de libertad. De aquí se concluye
σ2
SCT
que tiene distribución Ji-cuadrado con n − 1 grados de libertad. Según ésto, bajo el
σ2
supuesto de que β1 = 0 (hipótesis nula), la variable

SCR
σ2
1 SCR
F= = tiene distribución F1, n− 2
SCE S2
σ 2

n−2

La falsedad de la hipótesis nula H 0 : β1 = 0 se traduce entonces en un cuantil grande bajo


la distribución F1, n− 2 , o, lo que es equivalente, en un pequeño nivel de significancia
intrínseca.

Si no se puede rechazar H 0 : β1 = 0 , se concluye que el modelo lineal no está definido


y, por tanto, que éste no es un modelo adecuado para ajustar los datos.

El análisis de varianza suele resumirse en una tabla como la 7.1, con la cual se toma la
decisión: Se rechaza H 0 siempre que P sea pequeño (menor que α , el nivel de
significancia prefijado de acuerdo con el tamaño de la muestra)

FUENTE SUMA DE GL CUADRADOS F VALO


VARIAC CUADRADOS MEDIOS CALCULADA R
P
Modelo SCR 1 CMR = SCR/1 F = CMR/CME P
Error SCE n−2 CME = SCE/( n − 2) ---------- -------
Total SCT n −1 ------------------- --------- ------
Tabla 15: Análisis de varianza como prueba de linealidad en la regresión lineal simple

12.2 Análisis de residuos

El análisis de residuos permite verificar el cumplimiento de los siguientes supuestos


básicos:
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 69

1. Los errores ε i tienen media 0


2. Los errores ε i tienen varianza constante, σ 2 (homocedasticidad)
3. Los errores ε i no están correlacionados
4. Los errores ε i no están autocorrelacionados
5. Los errores ε i se distribuyen normalmente

La verificación de los supuestos se hace mediante los residuos ei = y i − yˆ i o mediante


los residuos estandarizados, dados por:

ei e
di = = i2
CME S

El análisis de residuos comprende la verificación de los siguientes puntos:

• Los residuos tienen media cero y varianza constante. Si se emplea el método de


mínimos cuadrados para estimar los coeficientes del modelo no es necesario verificar
la nulidad de la media de los residuos.
• Los errores tienen distribución normal. La prueba puede realizarse mediante
cualquiera de los tests de normalidad ya vistos (K-S, Geary, Shapiro, etc), aplicado a
los residuos.
• Los residuos deben ser aleatorios. Esto puede ser probados mediante alguna de las
pruebas de aleatoriedad (Rachas, Neuman, etc)
• Se debe realizar una gráfica de los valores x i contra los residuos ei . La presencia de
tendencias y patrones curvilíneos en esta gráfica es síntoma de que la variable
regresora (independiente), x , debe entrar en el modelo con una potencia diferente a
1. Esto nos puede llevar a modelo s con más de una variable independiente.

Uno de los aspectos más difíciles de diagnosticar y remediar es la homocedasticidad


(varianza constante) de los errores. Se han ideado numerosas pruebas pero casi todas
ellas son aplicables únicamente en determinadas circunstancias particulares. Así, por
ejemplo, se puede mencionar la prueba de Glejser. El método de diagnóstico más
utilizado es un gráfico de dispersión de los residuos ei contra los valores estimados por
el modelo, ŷi . La presencia de tendencias o patrones no aleatorios en esta gráfica es
síntoma de falta de homocedasticidad. Una preocupación grande en un modelo no
homocedástico es cómo remediar dicho problema. No hay sin embargo una receta única
para hacerlo pues ello depende del tipo de heterocedasticidad presente. Se pueden ensayar
transformaciones de variables, regresiones ponderadas por los inversos de las varianzas,
etc.
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 70

Otro problema grave en la determinación de un modelo de regresión es la presencia de


autocorrelaciones en la variable independiente la cual se traduce en autocorrelaciones en
los residuos. La prueba de Durbin y Watson ha sido propuesta para detectar
autocorrelación de primer orden, es decir, para probar la hipótesis H 0 : ρ1 = 0 versus
H1 : ρ1 > 0 en los residuos. La prueba de Box y Ljung, con muestras grandes, es también
una buena herramienta para detectar autocorrelación de órdenes superiores. Cuando se
detecte presencia de autocorrelación en los errores, el modelo lineal no es adecuado para
realizar pronósticos, debiéndose entonces intentar una solución a través de métodos para
datos autorregresivos, similares a las series de tiempo.

La prueba de Durbin y Watson consiste en lo siguiente: se calcula el estadístico d (DW)


n n

∑ ( et − et −1 ) ∑e e
2
t t −1
dado por d = t= 2
n
. Si la correlación se estima por r = t =2
n
entonces se
∑e
t =2
2
t ∑e
t =2
2
t −1

tiene la relación d = 2(1 − r ) lo que hace que d tome valores en el intervalo (0, 4).
Puesto que ρ es estimado por r se cumple que d = 2 cuando ρ = 0 y d = 0 cuando
ρ = 1 . Durbin y Watson tabularon una serie de límites d L y dU (inferior y superior,
respectivamente, ver anexo 3) con los cuales se realiza la prueba de la siguiente manera:
Si d < d L rechace H 0 . Si d > dU no rechace H 0 . El test no es concluyente cuando
d L < d < dU .

Rara vez sucede que haya autocorrelación negativa en los residuos. Si esto llegase a
suceder, se tendría que d = 4 cuando ρ = −1 . Por esta razón, bastará construir unos
límites simétricos dados por 4 − dU y 4 − d L respectivamente dentro de los cuales la
prueba no es concluyente y los cuales muestran la presencia de correlación negativa si
d > 4 − dL

Ante la presencia de autocorrelación de primer orden, es decir, cuando et = ρe t −1 + u t , se


puede intentar remover la autocorrelación mediante una transformación propuesta por
Cochran y Orcutt en 1949: consiste en reemplazar cada yi por yi − ρ yi−1 y cada xi por
xi − ρ xi−1 antes de volver a realizar la estimación de los coeficientes. Dado que ρ es
n

)
∑e e t t −1
desconocido se emplea la siguiente estimación suya: ρ= t= 2
n
. El nuevo modelo
∑e
t =2
2
t −1

* *
produce ciertos parámetros estimados b 0 y b1 los cuales permiten encontrar
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 71

b0*
estimaciones de los coeficientes para el modelo original, dados por b0 = ) y b1 = b1 .
*

1− ρ
Se debe examinar el nuevo modelo y si aún persiste la correlación de primer orden se
puede emplear el mismo procedimiento con el nuevo modelo.

Finalmente es necesario hacer un examen de observaciones influenciales (outliers,


puntos de apalancamiento, etc) pues ellos pueden introducir serias perturbaciones en el
modelo, hasta el punto de hacernos adoptar modelos inadecuados o de cambiar
radicalmente las estimaciones de los parámetros.

Las gráficas siguientes muestran dos tipos de puntos influenciales muy frecuentes:

Gráfica 18. Puntos influenciales en un modelo de regresión

En el primer caso un punto demasiado alejado (outlier) de los puntos que marcan la
tendencia produce una desviación de la recta de regresión con lo cual el modelo
construído no logra buen ajuste de los datos y, por consiguiente, producirá pronósticos
erróneos. En el segundo caso un punto aislado (apalancamiento) produce una falsa recta
de regresión: se encuentra un modelo cuando realmente no hay ninguno. Esto puede
llevar a falsa conclusiones.

Existen herramientas para detectar puntos influenciales. Por ejemplo, para detectar
outliers se pueden medir las magnitudes de los residuos. Los puntos atípicos
generalmente presentan residuos demasiado grandes al ser comparados con los demás. Un
criterio muy usado consiste en declarar como tales aquellos puntos cuyos residuos son
mayores que 3 desviaciones estándar. Hay otros criterios que se presentarán en el
próximo capítulo. Usualmente el software para cálculo de regresión trae programadas
herramientas de detección de puntos influenciales.
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 72

Cuando se haya logrado un buen modelo o un modelo aceptable para nuestras


necesidades, éste puede ser utilizado para hacer pronósticos. Un pronóstico es un valor
y 0 calculado con el modelo, para un valor x 0 que no es observación. Cuanto más cerca
de la media x se tome el valor de x 0 , tanto más exacto será el pronóstico. Cuando un
pronóstico se hace para valores de x 0 que estén por fuera del rango de variación de x, se
dice que es un pronóstico hacia el futuro.

Un pronóstico está dado por y 0 = b0 + b1 x0 con intervalo de confianza:


1 (x 0 − x )2
y 0 m t n −2,α + S +
2 n S xx

Un pronóstico futuro está dado por la misma expresión pero su intervalo de confianza está
dado por:

1 (x 0 − x )2
y 0 m t n− 2,α + S 1 + +
2 n S xx

Ejemplo 12.1. Se presentará enseguida un caso de observaciones de ventas realizadas en


un concesionario de vehículos durante 15 días de ejercicio. En este caso se tomó como
variable independiente, X, el número de clientes que visitaron el almacén cada día
( VISIT ) y como variable dependiente, Y, el total de ganancias (en millones de pesos)
realizadas en el almacén durante el mismo día ( GANAN). Una graficación de los valores
de X e Y muestran una gran tendencia lineal. Esto respalda la hipótesis de que los valores
de Y se encuentran relacionados con los de X mediante una dependencia funcional de tipo
lineal que debemos estimar.

Día 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
#Visitan 12 14 16 20 21 10 15 24 32 30 23 28 26 15 18
Gananc 60 66 72 92 96 58 72 105 140 132 107 124 116 75 82

Los resultados del análisis se presentan a continuación junto con algunos comentarios que
los aclaran.
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 73

Gráfica 19. Diagrama de dispersión: GANAN Vs VISIT (ESM v8)

Este diagrama muestra una clara tendencia lineal de las observaciones lo que permite
augurar un buén comportamiento del modelo lineal.

La siguiente salida muestra las estimaciones de los coeficientes del modelo. El estadístico
t con 13 grados de libertad permite probar la significancia de cada coeficiente por
separado. En cada caso la hipótesis nula dice que el coeficiente respectivo vale cero
contra la alternativa de que es diferente de cero. En el ejemplo, ambos coeficientes son
significativos (diferentes de cero). Cuando un coeficiente no sea significativo puede ser
eliminado del modelo.

1. ESTIMACION DE LOS COEFICIENTES DEL MODELO:

COEFICIENTES ESTIMADOS T( 13 GL) VAL P VARIABLE


_______________________________________________________________________
ß0 = 13.53422371 6.3367 0.00010 Intercepto
ß1 = 3.92758765 39.1531 0.00000 visit
_______________________________________________________________________
T = Estadístico para H0: ßi=0 H1: ßi <> 0 (Individualmente)

Tabla 16. Estimación y significancia de coeficientes del modelo para ejemplo 12.1 (Salida ESM)

A continuación aparecen los intervalos de confianza para los coeficientes del modelo. El
coeficiente verdadero se encuentra en el intervalo calculado con el nivel de confianza
correspondiente. Igualmente aparece el error estándar de la estimación que, como se
recordará, es igual a la raiz cuadrada de la varianza del estimador correspondiente.
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 74

2. INTERVALOS DE CONFIANZA DE 90, 95 Y 99% PARA LOS COEFICIENTES:

COEFICIENTE: ß0 : ERROR ESTANDAR: 2.13583893

90% [ 9.751653, 17.316794]


95% [ 8.920812, 18.147636]
99% [ 7.101077, 19.967371]

COEFICIENTE: ß1 : ERROR ESTANDAR: 0.10031357

90% [ 3.749932, 4.105243]


95% [ 3.710910, 4.144265]
99% [ 3.625443, 4.229732]
________________________________________________________________________

Tabla 17: Intervalos de confianza para coeficientes (Salida ESM)

La siguiente salida corresponde a la tabla de análisis de varianza que, como se dijo antes,
sirve para determinar la adecuacidad del modelo (si el modelo lineal es o no adecuado
para el ajuste de los datos). Cuando el valor P correspondiente a la F es pequeño (inferior
al nivel de significancia) como es el caso de este ejemplo, se concluye que el modelo
lineal sí es apropiado para ajustar los datos.

En los modelos de regresión simple esta salida parece tener poca utilidad pero no sucede
así en los modelos de regresión múltiple donde puede haber muchas más posibilidades en
juego.

La siguiente salida es realmente de poca utilidad en los análisis corrientes de regresión


simple.

3. TABLA ANOVA CORREGIDA POR LA MEDIA (No incluye Intercepto en H0)


________________________________________________________________________
FUENTE SUMA DE CUADRADOS GL CUADRADOS MEDIOS F
Modelo 9856.1503 1 9856.150278 1532.96566
Error 83.5831 13 6.429466 *****
Total 9939.7333 14 709.980952 *****
-------------------------------------------------------------------------
F con 1 y 13 GL. Valor P: 0.000000
F = Estadístico para probar H0: ß1 = ß2 = ß3 = ... = ßk = 0

Tabla 18: Análisis de varianza en el modelo del ejemplo 12.1 (Salida ESM)

A continuación aparecen algunos estadísticos útiles como son: El coeficiente de


determinación que indica la proporción de variabilidad explicada por el modelo (en el
caso un 99 %), cuando el modelo cumple con los demás supuestos para ser considerado
como aceptable. El estadístico PRESS que se explica en el capítulo siguiente y que se
utiliza para seleccionar el mejor modelo entre varios posibles; tiene sentido real en los
modelos de regresión múltiple. El valor de la varianza estimada para los errores; el
estadístico de Durbin y Watson, cuyo uso ya se explicó, y el coeficiente de determinación
ajustado que se explica en el próximo capítulo.
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 75

4. ALGUNOS ESTADISTICOS IMPORTANTES:

Coef.Determinaci¢n: R2 = 0.991591 PRESS: 115.62


σ estim.:
2
6.4295 Err.Stand.Estim.: 2.5356
Durbin-Watson: 1.715949 Coef.Determ.Ajust.: R2a = 0.990944

_________________________________________________________________________

Tabla 19. Estadísticos adicionales en el modelo del ejemplo 12.1

Para este caso, buscando en una tabla, se obtiene d L = 1.08 y dU = 1.36 . Como se ve,
d > dU en consecuencia, no se puede rechazar la hipótesis de que la correlación serial de
los errores es nula. Es decir, los errores no están autocorrelacionados.

La tabla siguiente muestra los valores estimados por el modelo que se ha calculado, los
ei
residuos ei y los residuos estudentizados ri = cuyo significado se comprenderá
s 1 − hii
en el próximo capítulo. Además la tabla dice de cada observación si es un outlier o no,
utilizando el criterio de los tres sigmas, dado anteriormente.

5. ANALISIS DE RESIDUOS:

OBS VALOR ESTIM.DE Y RESIDUO RES.Student. OUTLIER


_________________________________________________________________________
1 60.6653 -0.6653 -0.278189 No
2 68.5205 -2.5205 -1.070508 No
3 76.3756 -4.3756 -2.016837 No
4 92.0860 -0.0860 -0.033724 No
5 96.0136 -0.0136 -0.005322 No
6 52.8101 5.1899 2.944218 No
7 72.4480 -0.4480 -0.180201 No
8 107.7963 -2.7963 -1.171526 No
9 139.2170 0.7830 0.351955 No
10 131.3619 0.6381 0.273749 No
11 103.8687 3.1313 1.322916 No
12 123.5067 0.4933 0.204336 No
13 115.6515 0.3485 0.140729 No
14 72.4480 2.5520 1.073066 No
15 84.2308 -2.2308 -0.908438 No
_________________________________________________________________________

Tabla 20. Residuos para el modelo del ejemplo 12.1 (Salida ESM)

La siguiente salida informa que la observación No 9, en el orden en que aparecen en el


archivo de datos, se puede considerar como un punto de apalancamiento. Quizás se logre
un mejor modelo al eliminar esta observación de los datos.
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 76

6. PUNTOS DE APALANCAMIENTO (Leverage Points):

Observación # 9

________________________________________________________________________

Tabla 21. Listado de puntos de apalancamiento en el ejemplo 12.1 (Salida ESM)

El contenido de la tabla siguiente se comprenderá con la teoría presentada en el siguiente


capítulo.

7. OTROS ESTADISTICOS IMPORTANTES:


OBSERV: ?=DELTA COVAR |?-1|>3p/n DIAGONAL HAT VARIANZA(-Obs)
________________________________________________________________________
1 1.302543 No 0.1736227 6.920623
2 1.134223 No 0.1281302 6.358066
3 0.894168 No 0.0951586 5.201953
4 1.160743 No 0.0667780 6.964595
5 1.161759 No 0.0675083 6.965238
6 0.818595 No 0.2316361 4.043998
7 1.214052 No 0.1100793 6.946457
8 1.066512 No 0.0884808 6.250382
9 1.493690 Analizar 0.2821369 6.894089
10 1.371376 No 0.2149416 6.922027
11 1.025831 No 0.0783598 6.078720
12 1.285620 No 0.1602671 6.941103
13 1.226403 No 0.1181135 6.953778
14 1.110754 No 0.1100793 6.355415
15 1.095464 No 0.0747078 6.517065
-----------------------------------------------------------------------

Tabla 22. Información adicional sobre los residuos (Salida ESM)

Finalmente aparece el valor de respuesta pronosticado por el modelo (y = 127.43 aprox)


para un valor de 29 en la variable independiente. El programa ha calculado intervalos de
confianza para el pronóstico.

PRONOSTICO REALIZADO POR EL USUARIO:


X1 = 29
Valor pronosticado de Y: 127.434265442404

Intervalos de 90%, 95% y 99% para el pronóstico:

90% [ 125.66, 129.21]


95% [ 125.27, 129.59]
99% [ 124.42, 130.45]
Tabla 23. Valor pronosticado y sus intervalos de confianza (Salida ESM)
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 77

Gráfica 20: Diagrama de dispersión: RESIDUOS Vs Valores Estimados (ESM v8)

Aunque el número de observaciones es pequeño, la gráfica anterior no parece mostrar


tendencias. Es decir, las observaciones parecen estar dispuestas en forma aleatoria sobre
el plano con una mayor concentración de datos alrededor del eje horizontal que pasa por 0
y sin que existan observaciones demasiado alejadas del eje horizontal. Esto indica una
aparente homocedasticidad en el modelo

Gráfica 21: Diagrama de dispersión: RESIDUOS VS Variable Indpte VISIT (ESM v8)

La gráfica anterior tampoco muestra patrones ni tendenc ias. Los puntos parecen estar
dispuestos en forma aleatoria, lo que hace presumir que el modelo lineal encontrado es
completo sin que haga falta introducir en él potencias de X diferentes a la unidad.
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 78

La prueba siguiente muestra que los residuos se están ajustando a una distribución
normal.

______________________________________________________________
**** PRUEBA DE AJUSTE A UNA DISTRIBUCION NORMAL ****
(Prueba de Geary)

VARIABLE ANALIZADA: RESIDUOS (No Clasificada)


ARCHIVO DE DATOS: residuos.dat

Número de observaciones: 15

HIPOTESIS NULA: Las observaciones de la variable analizada


SE AJUSTAN A UNA DISTRIBUCION NORMAL con
Media (estimada): -6.666667810388086E-010
Varianza (estimada): 5.970218213978059

Valor crítico de Z para H0: 1.019840317587041


VALOR P: 0.30778971
______________________________________________________________

Tabla 24. Prueba de normalidad de los residuos. Modelo del ejemplo 12.1 (Salida ESM)

Como consecuencia de todo lo anterior diríamos que el modelo encontrado, es decir,


GANAN = 13.5342 + 3.9276* VISIT, es un buen modelo ya que ha cumplido con todos los
supuestos necesarios. Esta ecuación permite pronosticar cuánto será la ganancia en
función del número de clientes que visiten el almacén. Por ejemplo, se pronostica que un
día que el almacén sea visitado por 29 compradores la ganancia estará entre 125.27 y
129.59 millones, con un 95% de confianza (véase pronóstico realizado por el usuario, en
una de las salidas anteriores)

13. DISEÑO Y ANALISIS DE ENCUESTAS

El objetivo de esta sección es dar a conocer en forma global algunas técnicas para el
diseño y análisis de encuestas, una de las metodologías de análisis estadístico de la
información.

Las encuestas surgen como un medio para recolectar información dentro de un proceso
investigativo. No es el único medio pero sí uno de los más usuales.

Una encuesta no es más que un conjunto estructurado de preguntas, elaboradas con el fin
de indagar sobre valores numéricos (como la edad, el ingreso, etc) o valores cualitativos
(como la opinión sobre algún tópico, la preferencia sobre algún producto, etc). Estas
preguntas se hacen con dos fines principalmente: de una parte estimar valores
poblacionales como la media, el total, la proporción o porcentaje de individuos que tienen
una determinada característica, etc. De otra parte, descubrir relaciones subyacentes en una
población que no son fácilmente detectables con la simple observación. Sin embargo una
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 79

encuesta puede producir otras resultados adicionales como pueden serlo: la estimación
empírica de probabilidades, el conocimiento de distribuciones poblacionales, etc.

Las encuestas suelen aplicarse de dos maneras principalmente: a través de formularios


especialmente preparados o a través de entrevistas que pueden ser personales o
telefónicas. En cualquiera de estos casos una encuesta debe estar completamente diseñada
y probada de antemano, de manera que se disminuya al máximo el error en su aplicación
o la falta de cond uctas a seguir ante la aparición de imprevistos.

El capítulo se divide en dos partes: En la primera de ellas se dará una visión general del
procedimiento a seguir cuando se vaya a diseñar y aplicar una encuesta. En esta parte se
darán conceptos e indicaciones generales de carácter técnico que deben ser tenidas en
cuenta durante la parte previa al análisis de la información. La segunda parte está
dedicada a la aplicación de conceptos básicos de estadística y a la descripción de algunas
de las técnicas más usuales en el análisis de la información que ha sido recolectada a
través de una encuesta.

13.1 Diseño de una encuesta

Comenzaremos recordando que una población es una colección de valores numéricos


determinados por una variable aleatoria sobre un conjunto de individuos o unidades
poblacionales. Aunque en teoría una población puede ser infinita en la práctica esto nunca
sucede. En consecuencia casi siempre se supondrá que una población tiene un tamaño
conocido, N.

Una muestra es un subconjunto de n elementos extraídos de la población, seleccionados


mediante un procedimiento apropiado ya que para poder controlar el error de estimación
de parámetros poblacionales y para afirmar que una muestra es representativa de la
población, la muestra debe ser aleatoria o probabilística. Esto se logra mediante el uso de
ciertas técnicas especiales de selección de unidades, técnicas cuyo estudio constituye el
muestreo. Tales técnicas deben ser acordes con características distribucionales de la
población que muchas veces sólo se conocen después de un análisis exploratorio de los
datos o de consideraciones teóricas acerca de la naturaleza de la misma.

SECUENCIA DE UN PROCESO INVESTIGATIVO POR ENCUESTAS

En el desarrollo de un proceso de investigación a través de encuestas suelen darse los


siguientes pasos, cuyo conocimiento es importante en el diseño y análisis de las mismas:
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 80

1. Surge un problema, materia de investigación. Un problema puede surgir de muchas


maneras: a través de lecturas, a través de observación directa, por sugerencias de otras
personas, por una necesidad sentida en la experiencia diaria, etc. Reconocer la
naturaleza de un problema es esencial para diseñar un plan de estudio a fin de
formular una metodología para su solución. En particular, si el problema tiene
naturaleza estadística, se debe determinar las áreas de esta ciencia con las cuales está
relacionado.

2. Definición de un marco teórico-conceptual. Para poder resolver un problema se hace


necesario comprender su naturaleza desde el punto de vista científico, lo que arrojará
luces que permitan plantear soluciones. Por esta razón se hace necesario conocer y
aplicar principios científicos dentro de los cuales se enmarca el problema. Esto obliga
a hacer revisiones bibliográficas, a consultar a través de redes de información y a
asesorarse de expertos que conozcan la materia. Esta fase ayuda a concretar las tareas
que deben ser desarrolladas para lograr la solución del problema. El marco teórico
dentro del cual se puede interpretar la naturaleza y nivel de explicación de un
problema sirve también para determinar los alcances y limitaciones que tiene el
problema como objeto de estudio. Muchos problemas ya han sido estudiados por otros
autores y no estaría bién gastar esfuerzos y recursos para descubrir lo que ya se
conoce. Todo estudio debe arrojar nuevas luces sobre el conocimiento de un
problema. Esto es uno de los principales logros de la investigación científica.
Igualmente no todo problema es importante. Algunos lo son más que otros y es a
través de la documentación relacionada con el tema a investigar que se logra
determinar la importancia e implicaciones que puede tener la solución de un
determinado problema.

Por todo lo anterior resulta de gran importancia la definición de un marco teórico que
ayude a explicar la naturaleza e importancia del problema, tema de investigación.
Dicho marco será tanto más creíble cuanto más respaldado esté por el trabajo de otros
investigadores y teóricos. De aquí la importancia de la revisión de literatura
relacionada con el tema y las citas bibliográficas que la respalden.

3. Determinación de objetivos. Esta etapa es esencial. La formulación de objetivos es la


definición de pequeñas tareas o pasos que al ser seguidos fielmente nos conduzcan
finalmente hacia la solución definitiva del problema. Por esta razón, los objetivos
específicos constituyen la clave más importante para la determinación de las
preguntas de una encuesta. Los objetivos específicos deben ser concordantes con el
objetivo general en el sentido de que lo abarquen y lo agoten. El objetivo general debe
resumir el problema que se quiere investigar y los objetivos específicos son algo así
como las piezas en que se puede descomponer dicho problema.

Los objetivos deben ser propuestos de tal manera que representen metas alcanzables,
cuya conjunción resuelva el problema considerado. Tales objetivos deben ser
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 81

formulados de manera concreta y de modo que resulte simple la formulación de


operaciones que nos conduzcan a ellos (operacionalidad). Por lo general los objetivos
específicos determinan el número y tipo de variables a considerar, al igual que la
manera de medirlas y operarlas. También estos objetivos determinan las técnicas que
se aplicarán para alcanzar las metas propuestas. En particular, son ellos los que
determinan las técnicas estadísticas más apropiadas en la solución del problema.

Por las razones anteriores resulta evidente que se debe poner la máxima atención a la
formulación de los objetivos.

4. Determinación de una estrategia metodológica. Este paso constituye algo así como
un plan de batalla que, al ser seguido en todos sus pasos, permite el logro de los
objetivos específicos. La estrategia metodológica debe contemplar el tipo de análisis
estadísticos que deben ser realizados, por tanto el tipo de información que debe ser
tomada y, en consecuencia, el tratamiento de información y el tipo de pruebas que
deben planearse. Por lo anterior, con mucha frecuencia, en los proyectos de
investigación se incluye una unidad llamada metodología estadística.

5. Diseño y prueba del formulario de encuesta. El diseño de una encuesta debe hacerse
solamente después de tener diseñada una metodología ya que la encuesta debe tener
preguntas directamente relacionadas con los objetivos específicos y con los tipos de
pruebas que se hayan diseñado. En el diseño de la encuesta se deben evitar las
preguntas inútiles y superfluas que no aporten nada al logro de los objetivos. Por otra
parte las preguntas deben ser formuladas de tal manera que permitan recopilar la
información necesaria para las pruebas que han sido planeadas y en la forma más
conveniente para que pueda ser utilizada con dichas pruebas. Debemos recordar que
toda pregunta inútil además de encarecer la encuesta y dificultar el análisis no pasa de
ser una impertinencia. Ante un análisis de un cuestionario se debe ser capaz de
responder razonablemente por qué se hizo cada pregunta y si ella juega un papel
importante en el logro de algún objetivo. Si no podemos dar respuesta a ésto, es mejor
eliminar la pregunta.

Las siguientes son algunas recomendaciones de carácter general que deben ser tenidas
en cuenta en el momento de formular las preguntas de una encuesta:

• Redacte las preguntas ciñéndose a los objetivos propuestos. Elimine preguntas


innecesarias.
• Tenga cuidado en la redacción de las preguntas. Use un lenguaje preciso y claro
aunque sencillo. No pregunte vaguedades, cosas obvias ni cosas desconocidas
para el encuestado.
• No induzca la respuesta con la misma pregunta.
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 82

• Evite tecnicismos y preguntas muy complicados de leer. Haga preguntas breves y


concisas
• No hiera susceptibilidades y evite las preguntas íntimas o comprometedoras para
el encuestado.
• Prefiera las preguntas cerradas con pocas opciones de respuesta (5 como máximo
es lo recomendado). Asegúrese, sin embargo, que dicha s alternativas de respuesta
son exhaustivas y excluyentes. Esto es, que las opciones dadas cubran todas las
posibles respuestas a la pregunta y que sólo una de ellas se ajuste a cada caso.
• Pregunte cosas que el encuestado conozca y recuerde. Tenga en cuenta que cuanto
mayor sea su conocimiento del tema tanto más fiel y precisa será la información.
• No haga preguntas abiertas a menos de que sean absolutamente necesarias. En tal
caso usélas cuando la posible respuesta sea simple y explicable en pocas palabras.
• No haga preguntas compuestas. Toda pregunta compuesta se puede descomponer
en dos o más preguntas simples.
• Organice las preguntas en un orden lógico (trate de adivinar cómo es el
pensamiento del encuestado).
• Prevea posibles dificultades que pueda tener el encuestado al responder una
pregunta y busque una solución.
• Reduzca el tamaño del cuestionario al mínimo necesario, evitando preguntas
redundantes, ajenas al trabajo o superfluas.
• Elabore un borrador del cuestionario y hágalo leer de otra persona para recibir sus
críticas, opiniones y sugerencias.
• Someta a prueba el cuestionario. La mejor manera de hacerlo es mediante una
encuesta piloto o preliminar. Es decir, seleccionando un número pequeño de
individuos entre quienes van a ser encuestados, aplicando la encuesta y analizando
las respuestas, las fallas en las preguntas, las preguntas ambiguas o mal
formuladas, las preguntas no contestadas, etc.

Existen varias formas de elaborar las preguntas. Una de ellas es la formulación simple y
llana de la pregunta con sus opciones de respuesta. En este caso cada alternativa de
respuesta va acompañada de un espacio o casilla donde el encuestado puede señalar la
alternativa con la que esté más de acuerdo. También es posible sintetizar varias preguntas
en algún cuadro que debe ser llenado por el encuestado. Cuando se use esta última técnica
se debe tener prevista la manera de convertir tales cuadros a variables simples. Un
ejemplo puede aclarar la situación.

Supóngase, a manera de ejemplo, que se está averiguando por el máximo nivel educativo
que tiene el personal de varias empresas y que la encuesta es llenada por el jefe de
personal de cada empresa. Puede presentarse un cuadro como el siguiente (corresponde a
una empresa en particular):
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 83

TRABAJADOR Prim. Sec. Unv Post.


Operarios de Máquinas 10 25 3 0
Mecánicos 6 12 6 0

Técnicos Electricistas 2 14 4 0

Personal de Oficina 0 8 12 2
Tabla 25. Información ocupacional en una encuesta

Este cuadro realmente debe ser reemplazado por 16 variables en el momento de la


codificación a fin de que pueda ser procesado mediante un paquete estadístico. Tales
variables podrían ser las siguientes:

Operarios de máquina con primaria: 10


Operarios de máquina con secundaria: 25
Operarios de máquina universitarios. 3
Operarios de máquina con postgrado: 0
Mecánicos con primaria. 6
Mecánicos con secundaria: 12
...etc

La información consignada en cada formulario debe ser registrada en un archivo de


aspecto matricial en el que cada fila corresponde a la información suministrada por
los individuos y cada columna a una pregunta o variable. (Véase el paso 9)

6. Prueba del formulario. Este paso es importante por dos razones: en primer lugar
porque permite detectar inconsistencias en el formulario, tales como preguntas
ambiguas o mal formuladas, términos mal empleados, respuestas inducidas, etc y en
segundo lugar porque permite hacer algunas estimaciones preliminares, necesarias
para el cálculo del tamaño de muestra. La prueba de un formulario se hace a través de
una encuesta preliminar o encuesta piloto, es decir, la encuesta aplicada a un pequeño
número de individuos seleccionados de la población pero que no constituyen la
muestra definitiva. Los formularios, una vez probados y corregidos, quedan listos para
ser aplicados en forma definitiva.

7. Diseño de un plan de muestreo. En este paso se han de tener en cuenta el tipo de


preguntas contempladas en el formulario, la naturaleza de las variables que ellas
definen, las características de homogeneidad y distribución de la población, el nivel
de confianza con el que se quieran hacer las estimaciones, la magnitud del error
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 84

máximo que se esté dispuesto a admitir, los costos de aplicación de los formularios y
el presupuesto disponible, para diseñar la manera como se elige la muestra de
individuos a la que se les aplicarán los cuestionarios. El diseño de la muestra debe
responder a las siguientes preguntas: ¿Cuántos individuos seleccionar? - ¿Dónde
seleccionar esos individuos?- ¿Cómo seleccionar esos individuos? - ¿Cuándo
seleccionarlos? - ¿Cómo proceder ante eventuales dificultades para aplicar el
cuestionario?

Existen diferentes tipos de muestreos (métodos de selección de la muestra) cuyo uso


depende fundamentalmente de características poblacionales (homogeneidad, formas
de distribución, etc.), de aspectos administrativos, de los tipos de estimación, etc.

El diseño de un plan de muestreo no es tarea fácil y debe ser realizado por un grupo
interdisciplinario con la asesoría de un muestrista (profesional del muestreo).

En los cursos de muestreo se aprenden los aspectos básicos necesarios para el diseño
de una muestra. Remitimos entonces al lector a que consulte algunos de los libros
relacionados en la bibliografía para que conozca tales principios (por ejemplo,
Ospina, 2001), no sin antes recalcar la importancia que juega la selección de una
buena muestra en la confiabilidad y precisión de los resultados de una investigación.
Incluímos al final del capítulo las principales fórmulas para el diseño muestral y la
estimación de parámetros en dos de los tipos de muestreo más frecuentes para el
análisis de encuestas: el muestreo aleatorio simple y el muestreo estratificado.

8. Aplicación de los formularios. Este paso implica un previo entrenamiento de los


encuestadores sobre la manera de aplicar la enc uesta, sobre cómo proceder ante
situaciones salidas de lo normal y posteriormente la aplicación del cuestionario a los
individuos previamente señalados como integrantes de la muestra.

9. Codificación y archivo de la información. La información recolectada en el paso


anterior debe ser codificada de manera que resulte fácil su almacenamiento en
archivos de tipo electrónico desde donde será analizada. La codificación consiste en la
sustitución de las respuestas señaladas en cada formulario por ciertos códigos o
símbolos que sean entendidos por los programas estadísticos que procesan la
información. Normalmente se usan códigos numéricos aunque algunos programas
admiten también codificación alfanumérica.

Las variables de tipo numérico no necesitan ser codificadas. En otras palabras sus
códigos son los mismos valores numéricos que están expresando. Por el contrario las
variables categóricas o nominales se codifican mediante alguno de los dígitos 1, 2,
3,… Algunos programas admiten códigos de dos o más dígitos e incluso código
alfanumérico pero no es lo usual. Los códigos se asignan en forma consecutiva,
comenzando por el 1, a cada una de las alternativas de respuesta de cada variable.
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 85

Muchos programas, entre ellos ESM-Plus, no admiten el 0 como código. Si alguna


categoría intermedia resultase vacía, debido a que no fue seleccionada por ningún
individuo, se debe recodificar la información de esta variable para garantizar que los
códigos se asignan en forma consecutiva.

Supóngase, por ejemplo, que una pregunta como la siguiente, ¿Cuál es su posición
frente a la implantación de peajes dentro de la ciudad? tiene cuatro alternativas
de respuesta que son:
( )1. Totalmente en desacuerdo
( )2. Parcialmente en desacuerdo
( )3. Parcialmente de acuerdo
( )4. Totalmente de acuerdo

Supóngase además que al examinar las respuesta dadas a todos los cuestionarios se
encuentra que de 600 entrevistados, 450 eligieron la opción 1 y 150 la opción 4. En
estas circunstancias, nadie eligió la opción 2 y nadie la opción 3. Una recodificación
de la información lleva a definir solamente dos categorías, acuerdo y desacuerdo, que
se codificarían con los dígitos 1 y 2. En este caso, habría que cambiar todos los
códigos 4 por 2. el programa ESM-Plus permite hacer esta tarea en forma más o
menos automática

10. Análisis de la información. En esta etapa se organiza la información recolectada, se


hacen pruebas de hipótesis, se realizan las pruebas planeadas en el paso No 4, se
extraen conclusiones de acuerdo con los resultados obtenidos y se prueba la validez
de los modelos propuestos.

Las técnicas más ampliamente usadas para el análisis de la información, dependiendo


por supuesto, de los objetivos del estudio, se relacionan también con la naturaleza de
las variables. Así, para variables numéricas podrían citarse: estimación de parámetros,
regresión, análisis de varianza, técnicas multivariadas como componentes principales,
factores, análisis canónicos, análisis discriminante, etc. Para variables categóricas:
conteos de frecuencias, estimación de proporciones, medidas de asociación, análisis
de correspondencia, etc. Posteriormente, en el capítulo 11, se expondrán de una
manera muy simple, las técnicas de correspondencia para variables categóricas, dada
su importancia en el análisis de encuestas de opinión.

11. Informe final. Consiste en una redacción esquematizada de todo el proceso


investigativo en la que se consignan los pasos seguidos, los análisis realizados, sus
resultados, las interpretaciones de esos resultados, las conclusiones y las
recomendaciones que se desprenden de la investigación.

Ejemplo 13.1 A continuación se presentará un ejemplo muy simple de una encuesta


cuyo objetivo principal es indagar acerca de la relación entre la conceptualización política
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 86

y la opinión acerca de la violencia estudiantil en la universidad. Estos dos conceptos,


política y violencia, pueden verse afectados por el nivel de edad de los estudiantes o por
la madurez adquirida en la universidad (la cual indirectamente también se mide por la
edad) y por el sexo. Se desea saber si hombres y mujeres tienen actitudes similares o si,
por el contrario, sus comportamientos y conceptos son diferentes.

Esta encuesta, aunque se basa en datos reales, ha sido adaptada para servir de ejemplo
dentro de esta obra. Por esta razón sólo se presentan seis preguntas de las 27 que contenía
la encuesta original y se presentan las respuestas de 90 estudiantes, seleccionados
aleatoriamente entre los 367 que la contestaron. Las respuestas a la encuesta, ya
codificadas y depuradas, se encuentran en el anexo 5.

Las variables, con sus respectivos rótulos identificadores son las siguientes:

1. PART. Participación individual en Política con tres modalidades:


a) 1 = Le parece muy interesante (MUY)
b) 2 = Le parece un poco interesante ( POCO)
c) 3 = Definitivamente no le interesa la política ( NADA )

2. ACTV. La política como actividad, con tres modalidades


a) 1 = Es una obligación para todo ser humano (TODS)
b) 2 = Es algo de lo que todo universitario debe participar (UNIV)
c) 3 = Sólo compete a los políticos de profesión ( SOPO)

3. ACTI. Su actitud personal ante la política, con tres modalidades


a) 1 = Cree que usted debe participar en política ( DEBE)
b) 2 = De hecho, usted ya participa en política ( YAPA )
c) 3 = Cree que usted personalmente no debe participar ( NDEB)

4 VIOL. Su opinión ante la violencia estudiantil,


a) 1 = Aunque no es buena es justificable (JUVI)
b) 2 = Debe ser erradicada de cualquier manera ( ERRV)
c) 3 = No tiene una opinión al respecto ( NOPI)

5. EDAD. Rangos de edad


a) 1 = Menos de 20 años (ME20)
b) 2 = De 20 a 25 años (2025)
c) 3 = Más de 25 años (MA25 )

6. SEXO. Sexo del entrevistado


a) 1 = Masculino (MASC)
b) 2 = Femenino ( FEME)
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 87

Como se ve, cada variable ha sido identificada con un rótulo de cuatro caracteres cuyo
nombre hace referencia al significado de la variable. Así, por ejemplo, el rótulo PART
hace referencia a la variable "Participación en política". Aunque no es estrictamente
necesario tener definidos estos rótulos en los análisis usuales de conteos de frecuencias, sí
resultan indispensables cuando se usan ciertos paquetes como SPAD para hacer análisis de
correspondencia simple. De todas maneras resulta conveniente tener definidos de
antemano tales rótulos aún para hacer conteos de frecuencias ya que ellos van a facilitar
el uso del software y la interpretación de resultados.

En este ejemplo, la quinta variable originalmente es numérica pues se preguntaba la edad


en años cumplidos. Sin embargo, se categorizó mediante rangos de variación de edad,
como se ha indicado, a fin de procesar una encuesta totalmente categórica, debido a que
no se tiene como objetivo la estimación de la edad. Esta variable tiene en realidad otro
fin: categorizar el resto de información según el grado de madurez del estudiante.

Puede observarse que también se ha definido previamente un rótulo para cada modalidad
de las variables. Así, por ejemplo, las tres modalidades o categorías de la variable ACTI se
identifican mediante los rótulos DEBE, YAPA y NDEB. El uso de estos rótulos resulta
obligatorio cuando se aplica análisis de correspondencia múltiple con SPAD

13.2 Analisis de una encuesta

El análisis de una encuesta consiste realmente en la aplicación de las técnicas estadísticas


previstas en el diseño metodológico con el fin de lograr los resultados propuestos en los
objetivos del proyecto y en la interpretación de tales resultados.

En el análisis de una encuesta pueden caber todas las técnicas estadísticas mencionadas
en este libro y otras muchas que no se han considerado dado el carácter introductorio de
la obra. Los únicos requisitos para ello son: que tales técnicas sean acordes con el tipo de
variable y que sean apropiadas para lograr el objetivo que se ha propuesto. En otras
palabras: si las variables son categóricas no tendrán sentido operaciones propias de las
variables numéricas. Por ejemplo, no tiene sentido un promedio ni el cálculo de una
varianza aunque las variables se codifiquen numéricamente. Recíprocamente, si la
variable es numérica no tendría sentido, por ejemplo, elaborar conteos de frecuencias ni
cruces de variables. Se debe anotar sin embargo, que en ciertos casos de variables
categóricas ordinales se puede asignar un código numérico acorde con el orden de cada
categoría y tratar tales variables con técnicas propias de las variables numéricas. Por
ejemplo, Everitt y Graham (1991 sesión 4.8, pag 51) aplican técnicas de componentes
principales a 13 variables calificadas de 1 a 5 según la frecuencia con que fueron usadas.
Igualmente la literatura estadística está llena de casos en los cuales se aplican técnicas
numéricas a calificaciones del rendimiento escolar que, en últimas, no son más que
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 88

categorías de orden a las que se les hace concordar con un valor numérico, usualmente
entre 1 y 5 o entre 1 y 10. Las escalas likert y las escalas bipolares de Guttman en esencia
no son más que mecanismos para asignar una calificación numérica a una variable que
por su naturaleza es categórica ya que mide la actitud del individuo ante algo.

Recíprocamente, el mecanismo más expedito para tratar una variable numérica como si
fuera categórica es la "categorización" por rangos, ya aplicada en la variable EDAD del
ejemplo propuesto en la sesión anterior. Consiste en reemplazar por un código 1, 2, 3, ...
etc cada uno de los valores que se encuentren dentro de un rango previamente definido.

Muchas veces resulta necesario operar diferentes variables numéricas para formar con
ellas nuevas variables, principalmente índices que midan un concepto más abstracto. Por
ejemplo, se desea mediar la calidad de la educación Este concepto abstracto y difícil de
medir se puede desglosar en varios conceptos más concretos y medibles, por ejemplo,
nivel de capacitación de los docentes, existencia de bibliotecas y ayudas audiovisuales,
programas actualizados, tiempo adecuado para cada actividad, etc. Estas nuevas variables
se pueden medir y combinar sus valores para producir un índice especial que mida la
calidad de la educación.

Las variables numéricas pueden ser sometidas a técnicas de estimación con lo cual es
posible estimar parámetros poblacionales, también pueden ser utilizadas para encontrar
relaciones y características poblacionales subyacentes que no son detectables a simple
vista, en ello es especialmente útil el EDA. Pueden ser usadas en combinación con
variables categóricas para comparar y clasificar grupos de individuos, representantes de
diferentes poblaciones, etc.

Las variables categóricas pueden ser usadas como ya se ha dicho, para hacer conteos de
frecuencias, pruebas de asociación, y aún para describir grupos de individuos, relaciones
de asociación entre variables y entre categorías (análisis de correspondencia) y para
clasificar grupos de individuos.

Una técnica estadística muy útil en el análisis de las encuestas de opinión que tienen
preguntas correspondientes a variables categóricas es el análisis de correspondencia que
busca medir y visualizar la asociación entre las variables y entre sus modalidades. En la
segunda parte del libro (sección 11.9) se hacen algunas consideraciones acerca de este
tipo de análisis.

13.3 Análisis del ejemplo 13.1 propuesto


En el caso de la encuesta propuesta como ejemplo, las habituales tablas de conteos de
frecuencias producen los siguientes resultados:
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 89

VARIABLE: PART
Modalidad: Numero: Porcentaje:
____________________________________
MUY 32 35.56
POCO 42 46.67
NADA 16 17.78
____________________________________
TOTAL: 90 100.00 %

VARIABLE: ACTV
Modalidad: Numero: Porcentaje:
____________________________________
TODS 68 75.56
UNIV 13 14.44
SOPO 9 10.00
____________________________________
TOTAL: 90 100.00 %

VARIABLE: ACTI
Modalidad: Numero: Porcentaje:
____________________________________
DEBE 56 62.22
YAPA 30 33.33
NDEB 4 4.44
____________________________________
TOTAL: 90 100.00 %

VARIABLE: VIOL
Modalidad: Numero: Porcentaje:
____________________________________
JUVI 14 15.56
ERRV 71 78.89
NOPI 5 5.56
____________________________________
TOTAL: 90 100.00 %

VARIABLE: EDAD
Modalidad: Numero: Porcentaje:
____________________________________
ME20 49 54.44
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 90

2025 35 38.89
MA25 6 6.67
____________________________________
TOTAL: 90 100.00 %

VARIABLE: SEXO
Modalidad: Numero: Porcentaje:
____________________________________
MASC 53 58.89
FEME 37 41.11
____________________________________
TOTAL: 90 100.00 %

Los cuadros anteriores podrían ir acompañados de algunas gráficas ilustrativas. Por


ejemplo, la distribución de la variable ACTV es la siguiente:

10%

14%
TODS
UNIV
SOPO
76%

Gráfica 22 Diagrama de torta para representar las frecuencias de una variable

Algunos de los cruces de variables que pueden hacerse, principalmente contra EDAD y
SEXO que son variables ilustrativas en el sentido de que determinan un contexto dentro
del cual se examinan las demás variables, se dan en la tabla 10.2. Para la comprensión
total de esta tabla remitimos al lector al capítulo 6.
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 91

FILAS = PART COLUMNAS = EDAD


_____________________________________________
Categs: \ EDAD:
PART ME20 2025 MA25 TOTAL
_____________________________________
MUY 14 13 5 32
17.42 12.44 2.13
15.56 14.44 5.56 35.56

POCO 23 18 1 42
22.87 16.33 2.80
25.56 20.00 1.11 46.67

NADA 12 4 0 16
8.71 6.22 1.07
13.33 4.44 0.00 17.78
_____________________________________________
TOTAL: 49 35 6 90
% : 54.44 38.89 6.67 %100

JI-CUADRADO (Indepcia): 8.9791 con 4 GL


Valor P: 0.06162311
Coef. Contingencia (C): 0.30119340
(M ximo posible) C Max: 0.81649658
(Valor real) C real: 0.60735910
V de Cramer: .2233

Tabla 26. Tabla de contingencia y prueba de independencia entre dos variables de una encuesta

Como se ve, por el valor P, existe un cierto grado de dependencia entre estas dos
variables. Es decir la modalidad de participación en política está determinada por la edad.
Cabe preguntarse entonces ¿Cuál modalidad de participación esta asociada con cada nivel
de edad?

Otras tablas de contingencia entre otras variables y sus respectivos estadísticos para
probar independencia se dan en las siguientes salidas de ESM-Plus:
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 92

FILAS = ACTV COLUMNAS = EDAD


_____________________________________________
Categs: \ EDAD:
ACTV ME20 2025 MA25 TOTAL
_____________________________________
TODS 38 25 5 68
37.02 26.44 4.53
42.22 27.78 5.56 75.56

UNIV 7 6 0 13
7.08 5.06 0.87
7.78 6.67 0.00 14.44

SOPO 4 4 1 9
4.90 3.50 0.60
4.44 4.44 1.11 10.00
_____________________________________________
TOTAL: 49 35 6 90
% : 54.44 38.89 6.67 %100
JI-CUADRADO (Indepcia): 1.7001 con 4 GL
Valor P: 0.79069610
Coef. Contingencia (C): 0.13616160
(Máximo posible) C Max: 0.81649658
(Valor real) C real: 0.40836653
V de Cramer: 9.71E-002

FILAS = VIOL COLUMNAS = EDAD


_____________________________________________
Categs: \ EDAD:
VIOL ME20 2025 MA25 TOTAL
_____________________________________
JUVI 6 7 1 14
7.62 5.44 0.93
6.67 7.78 1.11 15.56

ERRV 41 25 5 71
38.66 27.61 4.73
45.56 27.78 5.56 78.89

NOPI 2 3 0 5
2.72 1.94 0.33
2.22 3.33 0.00 5.56
_____________________________________________
TOTAL: 49 35 6 90
% : 54.44 38.89 6.67 %100

JI-CUADRADO (Indepcia): 2.2965 con 4 GL


Valor P: 0.68139563
Coef. Contingencia (C): 0.15774153
(Máximo posible) C Max: 0.81649658
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 93

(Valor real) C real: 0.43953740


V de Cramer: .1129

FILAS = PART COLUMNAS = SEXO


____________________________________
Categs: \ SEXO:
PART MASC FEME TOTAL
____________________________
MUY 23 9 32
18.84 13.16
25.56 10.00 35.56

POCO 20 22 42
24.73 17.27
22.22 24.44 46.67

NADA 10 6 16
9.42 6.58
11.11 6.67 17.78
____________________________________
TOTAL: 53 37 90
% : 58.89 41.11 %100

JI-CUADRADO (Indepcia): 4.5186 con 2 GL


Valor P: 0.10442337
Coef. Contingencia (C): 0.21864698
C corregido (Pawlik): 0.15460676
V de Cramer: .224

FILAS = VIOL COLUMNAS = SEXO


____________________________________
Categs: \ SEXO:
VIOL MASC FEME TOTAL
____________________________
JUVI 10 4 14
8.24 5.76
11.11 4.44 15.56

ERRV 40 31 71
41.81 29.19
44.44 34.44 78.89

NOPI 3 2 5
2.94 2.06
3.33 2.22 5.56
____________________________________
TOTAL: 53 37 90
% : 58.89 41.11 %100

JI-CUADRADO (Indepcia): 1.1026 con 2 GL


Valor P: 0.57617742
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 94

Coef. Contingencia (C): 0.11001681


C corregido (Pawlik): 0.07779363
V de Cramer: .1106

Los mapas perceptuales obtenidos mediante el análisis factorial de correspondencias para


las seis variables (ver sección 11.9) son los siguientes:

a) Para correspondencias binarias o simples, se obtiene el mapa perceptual siguiente el


cual muestra las relaciones de dependencia entre variables.

Gráfica 23 Mapa Perceptual de variables. Ejemplo 13.1

En este caso, se puede observar una fuerte asociación entre SEXO y VIOL, al igual que
entre SEXO y ACTL ya que los ángulos que forman las rectas que unen estos puntos con el
origen son muy agudos o casi llanos y, por tanto, tienen un valor de coseno muy alto.
Igual sucede con EDAD y PART .

b) Las correspondencias múltiples, correspondientes al segundo mapa indican cómo es la


asociación entre las modalidades de las variables.
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 95

Gráfica 24 Mapa perceptual de modalidades o categorías Ejemplo 13.1

En el ejemplo que analizamos se observa en primera instancia que la mayoría de


individuos están entre 20 y 25 años y son partidarios de erradicar la violencia Estas son
las características generales de la población. Son pocos los que creen que la política es
sólo para los políticos y menos aún los que creen que no deben participar en política. Se
nota una fuerte asociación entre los que creen que se debe participar en política y los que
dicen que ésta es una actividad de todo ser humano. Igualmente es palpable la asociación
entre quienes consideran que participar en política es muy interesante y quienes
consideran que la violencia, aunque no es buena, se justifica.

Como puede observarse, la asociación entre SEXO y VIOL se manifiesta en el sentido de


que son los hombres los que justifican la violencia mientras que las mujeres no tienen una
opinión al respecto. Igualmente la dependencia entre EDAD y PART se materializa en el
sentido de que a los hombres les parece muy interesante mientras que a las mujeres les
parece nada interesante. Sin embargo, estas relaciones son aproximadas y no tan fuertes.

Los dos mapas anteriores constituyen representaciones visuales planas de las variables y
sus modalidades. Las técnicas factoriales, propias del análisis estadístico multivariado son
las herramientas adecuadas para producir este tipo de representación. Ellas lo gran
proyectar las variables y modalidades, considerados como vectores de un espacio
multidimensional euclídeo, sobre un plano en el cual se logra la mejor representación,
llamado plano factorial. Los ejes F1 y F2 son los ejes coordenados de dicho plano y son
tales que sobre ellos las variables logran proyectar su máxima inercia (variabilidad).
Podrían hacerse representaciones tridimensionales en vez de las planas aquí mostradas
pero esto complica un poco la interpretación de resultados.

Este tipo de mapas pone de manifiesto relaciones entre las variables, las modalidades y
los individuos que, de otra manera, resultan difíciles de detectar.
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 96

La versión 1.0 de SPAD para DOS corresponde al código Fortran publicado en el texto de
Lebart, Morineau y Warwick, arreglado por Bautista y Ramos, y, aunque no es intuitivo
en su manejo, constituye una excelente alternativa para trabajar, dado su carácter público.

14. COMPARACION DE MEDIAS Y PROPORCIONES


UNA INTRODUCCION AL DISEÑO DE EXPERIMENTOS

14.1 COMPARACION DE DOS MEDIAS

Otro problema estadístico de gran importancia es aquel que busca comparar dos medias
poblacionales a partir de sendas muestras aleatorias tomadas de las respectivas
poblaciones. En este caso, si µ1 y µ2 son las respectivas medias poblacionales se busca
determinar si ellas son iguales o no, y, en este último caso, averiguar cuál de ellas es
menor que la otra, en el sentido de que se sitúe a una distancia significativa por debajo de
aquella

Este tipo de problema tiene aplicación en la agricultura, la industria, la educación y en


general en todos aquellos campos donde se quieran comparar dos procedimientos para
determinar si ellos producen resultados iguales o si alguno de los dos es mejor que el otro.

La comparación de dos medias obedece a dos situaciones distintass y bien diferenciadas a


saber: de una parte cuando las muestras que se toman en cada población son
independientes entre sí. Es decir cuando la selección de una de ellas no depende en
absoluto de la selección de la otra y entre ellas no existe nada que las ligue. De otra parte,
cuando las muestras son dependientes, es decir cuando cada observación de una muestra
está relacionada de alguna manera con una observación de la otra muestra. En este caso
las observaciones vienen por pares y, por tal razón, las muestras se dicen pareadas.

Ejemplos de las dos situaciones anteriores pueden ser los siguientes:

1. Ejemplo 14.1 (muestras independientes). Se quiere comparar dos procedimientos


para pulir metales. Uno de ellos basado en la fricción con materiales abrasivos
adheridos a una superficie (estilo lijas o cepillos) y el otro basado en chorros de arena
a gran presión. Para el caso se toman, por ejemplo, 20 piezas de metal homogéneo y,
en forma aleatoria se asignan 10 de ellas a cada procedimiento para ser pulidas. Luego
se mide su grado de pulimento y se expresa en alguna medida numérica.
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 97

2. Ejemplo 14.2 (muestras pareadas o dependientes). Se desea saber si existen


diferencias sustanciales entre dos métodos para la enseñanza del inglés en niños de
preescolar. Para ello se buscan 10 pares de hermanos gemelos; un niño de cada par se
asigna en forma aleatoria a un curso en el cual se emplea uno de los métodos en
estudio. El otro niño se asigna al otro curso en el cual se emplea el otro método. Al
final del curso, se evalúan los conocimientos aplicando las mismas herramientas de
evaluación a los dos cursos y calificando con los mismos criterios

Analizaremos por separado estos dos problemas de comparación de dos medias, ya que
sus tratamientos son diferentes desde el punto de vista estadístico.

14.1 Comparación de dos medias con muestras independientes

Supóngase que se tienen dos poblaciones normales X ~ N(µ 1 ,σ 12 ) y Y ~ N( µ 2 ,σ 22 ) y


que de cada una de ellas se toman muestras aleatorias { X 1 , X 2 , L, X n } y
{Y1 , Y2 , L,Ym } . Nótese que los tamaños de estas muestras pueden ser diferentes.

Puesto que las variables originales (poblaciones) son normales, se cumple que las medias
se distribuyen de acuerdo con lo siguiente:

1 1 2
X ~ N ( µ1 , σ 12 ) y Y ~ N (µ2 , σ2)
n m

Puesto que las muestras son independientes se cumple que Cov( X ,Y ) = 0 y, en


1 1
consecuencia, X − Y ~ N(µ 1 − µ 2 , σ 12 + σ 22 ) .
n m

( X − Y ) − ( µ1 − µ 2 )
De lo anterior, estandarizando, Z= tiene distribución normal
1 2 1 2
σ1 + σ 2
n m
estándar.

En este punto pueden ocurrir tres cosas, a saber:

a) Que se conozcan las dos varianzas σ 12 y σ 22 , lo cual casi nunca ocurre.


b) Que, aunque siendo desconocidas las dos varianzas, se pueda suponer que son
iguales
c) Que siendo desconocidas las dos varianzas, no se pueda suponer que son iguales.
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 98

En el primer caso, siguiendo un procedimiento ya conocido por el lector, se tiene un


intervalo de confianza para la diferencia de medias µ1 − µ 2 , dado por la expresión:

1 2 1 2
( x − y ) m zα σ1 + σ 2
2 n m

intervalo que, no solamente permite estimar la diferencia de las medias, sino que nos
permite hacer pruebas de hipótesis acerca de dicha diferencia.

La hipótesis nula µ1 − µ 2 = M puede probarse contra cualquiera de las alternativas ya


usuales. El caso particular en que M = 0 , permite comparar las dos medias como era
nuestro deseo.

s12
Para resolver el segundo caso, debemos recordar que U = (n − 1) ~ χ n2−1 y que,
σ12

s22
similarmente V = ( m − 1) ~ χ m2 −1 lo que implica W = U + V ~ χ n2+m −2 . de donde se
σ22

Z
deduce que la variable aleatoria T = tiene distribución t con n + m − 2
W
n + m −2
grados de libertad.

Puesto que se puede asumir que las dos varianzas son iguales digamos a σ 2 , se tiene que
( X − Y ) − (µ1 − µ 2 )
T= tiene distribución t con n + m − 2 grados de
1 1 ( n − 1) s12 + ( m − 1) s 22
+
n m n + m −2
libertad.

De aquí que el intervalo de confianza esté dado por la expresión:

1 1
( x − y ) m t n+ m− 2,α + sp
2 n m

( n − 1) s12 + ( m − 1) s 22
donde s 2p = , expresión que se conoce como varianza pool o
n + m− 2
varianza combinada y que es un promedio ponderado por los tamaños de las muestras de
las dos varianzas muestrales.
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 99

El intervalo anterior, como antes, además de servir a la estimación de la diferencia de


medias permite hacer pruebas de hipótesis acerca de dicha diferencia.

Por último, el tercer caso: cuando las varianzas son diferentes y desconocidas la
comparación se hace mediante un estadístico aproximado, debido a Smith y
Satterthwaite, el cual está dado por:

( X − Y ) − (µ1 − µ2 )
T′ =
s12 s22
+
n m

estadístico que tiene distribución aproximada t con ν grados de libertad, donde

2
 s1 s2 
 + 
ν = n m
2 2
 s1   s 2 
 n  +  m
n −1 m −1

El valor ν generalmente se aproxima al entero más cercano

El estadístico anterior permite construir un intervalo de confianza para la diferencia de


medias, intervalo con el cual además de estimar dicha diferencia, se hacen pruebas de
hipótesis sobre ellas.

ESM permite hacer estimaciones y pruebas de hipótesis acerca de la diferencia de medias


en los tres casos antes mencionados; para ello basta dar la información pertinente con lo
cual las rutinas de comparación se enrutarán en la dirección adecuada.

Nos preguntamos ahora, ¿Cómo saber si las varianzas σ 12 y σ 22 se pueden asumir


iguales o diferentes? – La respuesta a esta pregunta es: mediante una prueba especial,
llamada prueba de razón de varianza, la cual se expone a continuación.

14.2 Prueba de razón de varianza


s12 s22
Recordando que U = (n − 1) ~ χ n2−1 y que V = ( m − 1) ~ χ m2 −1 se concluye que
σ1 σ2
2 2

U
la variable aleatoria F =
(n − 1) tiene distribución F con n − 1 y m − 1 grados de
V
(m − 1)
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 100

s12
libertad. Bajo la hipótesis nula de que las dos varianzas son iguales se tendrá F = 2 y,
s2
en consecuencia, el no cumplimiento de la hipótesis nula se traducirá en un estadístico
alto bajo la distribución Fn−1, m−1 o, lo que es equivalente, en un pequeño valor P, criterio
que se aprovecha para probar la hipótesis de homogeneidad de las varianzas. Con el fin de
hacer más expedita ante la falta de simetría de la distribución F, se prefiere utilizar el
cociente (razón) de las varianzas de tal manera que siempre resulte mayor o igual a la
unidad. De esta manera la prueba se convierte en una prueba de una sola cola. Es por esta
Max{s12 , s22 }
razón que se prefiere calcular F = , expresión que tendrá distribución F
Min {s12 , s 22 }
con los grados de libertad acordes a las varianzas que hayan quedado en el numerador y
en denominador, respectivamente. La decisión se toma de acuerdo con el valor P.

ESM realiza la prueba de razón de varianzas en el momento de comparar dos medias con
muestras independientes para que, de acuerdo con ella, se decida si hace bajo este
supuesto o por el método aproximado de Smith- Satterthwaite. Para ello es necesario
tener los datos correspondientes a las dos muestras en archivo. Si el número de
observaciones de cada muestra es el mismo, los datos pueden encontrarse en el mismo
archivo o en archivos diferentes. Si el número de observaciones en cada muestra es
diferente resulta obligatorio tener los datos en archivos distintos.

Como se deduce lo anterior, el supuesto fundamental para poder comparar dos medias
independientes es que las muestras respectivas sean normales. Cuando este supuesto no se
cumple o cuando los tamaños de muestra son muy pequeños, se pierde confianza en las
estimaciones y, por consiguiente, se podrían tomar decisiones erróneas. Es por esta razón
que ante esta situación, se prefiere reforzar el análisis con una prueba no paramétrica que
sea análoga. Existen dos de tales pruebas -que en el fondo son equivalentes- y que
podrían ser usadas para tales fines. Son las pruebas de suma de rangos, debida a
Wilcoxon, y la prueba de Mann y Whitney. Expondremos aquí la primera de ellas que
es realizada por ESM pero conviene saber que Minitab realiza la prueba de Mann y
Whitney si se usa el comando MANN- WHITNEY.

Para poder aplicar a mano la prueba de Wilcoxon se necesita previamente calcular los
rangos de las observaciones de una muestra. Definiremos entonces qué se entiende por
rango. Supóngase que se tienen n observaciones numéricas ordenadas en orden
creciente, digamos, x1 , x2 ,L, x n . Se define el rango de x i , denotado r ( x i ) , como el
número de orden correspondiente a x i dentro de la ordenación anterior. En caso de que
haya repeticiones de un elemento en la lista anterior, el rango del elemento repetido se
define como el promedio de los rangos de sus repeticiones.
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 101

Por ejemplo, dada la serie de valores 20, 12, 14, 15, 14, 12, 23, 12, 10, 11, 16, 18, 16,
estos valores se pueden ordenar en forma creciente, obteniendo 10, 11, 12, 12, 12, 14, 14,
15, 16, 16, 18, 20, 23. Al asignar el puesto de orden se obtiene, por ejemplo, r(10)=1,
r(11) = 2, r(12) = (3+4+5)/3 = 4, r(16) = (9+10)/2 = 9.5, r(23) = 13

En Minitab pueden obtenerse los rangos de los datos almacenados en una columna C
mediante el comando RANK C C (Ejemplo RANK C1 C2)

La prueba de Suma de Rangos de Wilcoxon prueba la hipótesis nula H0: M 1 = M 2


donde M 1, M 2 son las medianas de las dos poblaciones. Esta hipótesis se contrasta
contra cualquiera de las tres alternativas clásicas, siguiendo el siguiente procedimiento
que expondremos para el caso H1: M 1 ≠ M 2 (dos colas).

1. Se calcula n1 = Tamaño de la primera muestra


n 2 = Tamaño de la segunda muestra
3. Se reúnen las dos muestras en una sola de tamaño n1 + n 2
4. Se calculan los rangos de la muestra reunida
5. Se suman por separado los rangos de los valores correspondientes a cada una de las
muestras, denotando por T1 y T2 tales sumas, en forma respectiva
6. Si n1 ≥ n 2 se hace T = T2 , si no, entonces T = T1
7. En una tabla especial (anexo 4) se buscan los valores TL y TU apropiados, según los
tamaños de muestra (máximo 10) y se rechaza H0 siempre que T ∉ (TL , TU ) .

Minitab realiza directamente la prueba de Mann-Whitney si se tienen los datos en dos


columnas, digamos C1 y C2, mediante el comando MANN-WHITNEY C1 C2 y el subcomando
ALTERNATIVE = k. Si k = 1 se hace la prueba de una cola M 1 > M 2 . Si k = -1 se hace la
prueba de una cola M 1 < M 2 .

14.3 Comparación de dos medias con muestras pareadas

Puede suceder que se tengan dos muestras de valores observados sobre los mismos
individuos en diferentes instantes o sobre diferentes individuos pero muy semejantes
(gemelos, por ejemplo) en cuyo caso los valores de las muestras se presentan por pares.
Decimos entonces que las muestras son pareadas. El objetivo en este caso es comparar las
medias generales de los valores ANTES con los valores DESPUES, o de un grupo de
individuos con el otro grupo que le es homogéneo.
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 102

En este caso las dos muestras tienen el mismo número de observaciones, digamos n.
Podemos suponer que tales observaciones se representan por ( xi , yi ), i = 1,2,L, n ,
valores que pueden considerarse como observaciones particulares de las variables
aleatorias X , Y Se puede construir Z = X − Y , variable que podría tener distribución
normal o no. En cualquier caso puede aplicarse la teoría expuesta anteriormente para el
caso de comparación de una media y probar la hipótesis de que µ Z = 0 contra alguna de
las alternativas µ Z < 0 , µ Z ≠ 0 , µ Z > 0 . Puesto que µ Z = µ X − µ Y , lo anterior
equivale a probar la hipótesis µ X = µ Y contra las tres alternativas clásicas, ya conocidas.
De esta manera el problema ha sido reducido a otro ya conocido. Como se deduce, en este
caso resulta esencial verificar la normalidad de las diferencias x i − y i o, al menos, poseer
muestras grandes. Los intervalos de confianza para la diferencia µ X − µY constituyen
una excelente herramienta para probar la hipótesis que nos interesa ya que si el 0
pertenece a dicho intervalo, no habrá diferencia significativa entre las medias y si el 0 se
encuentra a fuera del intervalo de confianza las correspondientes medias poblacionales
serán diferentes, concluyéndose que µ X − µ Y > 0 , es decir, µ X > µY , cuando 0 está a la
izquierda del intervalo y que µ X − µY < 0 cuando 0 está a la derecha de dicho intervalo.

ESM hace esta prueba cuando los datos correspondientes a las dos muestras se tienen en
archivo. En este caso, debido a que los tamaños de muestra son iguales, dichos datos
pueden estar en el mismo archivo o en archivos diferentes.

Cuando no se cumplen los supuestos para poder realizar la prueba anterior o cuando las
muestras son demasiado pequeñas, se puede hacer una prueba no paramétrica, llamada
prueba de rangos signados de Wilcoxon

El procedimiento para realizar a mano esta prueba es el siguiente:


1. Calcular las diferencias x i − y i y sus valores absolutos para i = 1,2,L, n
2. Eliminar aquellos pares en los cuales x i − y i = 0 , quedando con los r pares en los
que dicha diferencia no es 0.
3. Asignar rango a los r diferencias en valor absoluto y luego los separarlas en dos
listas, dependiendo del signo que ellas tenían antes del valor absoluto.
4. Llamamos T− a la suma de rangos de las calificaciones | x i − y i | para los cuales la
diferencia x i − y i < 0 y T+ a la suma de rangos de las calificaciones | x i − y i | para
las cuales x i − y i > 0
5. En una tabla especial se busca un valor crítico T0 , el cual depende del nivel α y del
tamaño r de la muestra considerada, después de eliminar empates.
6. Se toma la decisión de rechazar H0, así:
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 103

♣ Para el caso H1: µ A < µ B , se rechaza H0 siempre que T+ ≤ T0


♣ Para el caso H1: µ A ≠ µ B , se rechaza H0 siempre que T+ ≤ Min {T− , T+ }
♣ Para el caso H1: µ A > µ B , se rechaza H0 siempre que T− ≤ T0

Cuando n sea un valor grande puede usarse aproximación normal, teniendo en cuenta que
n( n + 1) n( n + 1)( 2 n + 1)
E(T+ ) = y que V(T+ ) =
4 24

Minitab realiza esta prueba si se tienen los datos en dos columnas, digamos C1 y C2,
mediante los siguientes comandos:
a. En primer lugar se calculan las diferencias. LET C3=C1-C2
b. En segundo lugar se hace prueba de signos sobre C3 (STEST 0 C3)

14.4 Comparación de dos proporciones


Igual que sucede con la comparación de dos medias independientes, se pueden comparar
dos proporciones siempre que se tenga una herramienta que calcule el intervalo de
confianza para su diferencia.

Supóngase que P1 y P2 son dos proporciones cuyos estimadores p1 y p 2 tienen


P1Q1 PQ
distribuciones aproximadamente normales de varianzas y 2 2
n m
respectivamente, cuando se toman muestras grandes.

La diferencia p1 − p 2 tiene distribución aproximadamente normal de media P1 − P2 y


P1Q1 P2 Q2
varianza + . Esto permite construir intervalos de confianza aproximados para
n m
la diferencia P1 − P2 mediante la expresión:

P1Q1 P2Q2 PQ P Q
( Pˆ1 − Pˆ2 − z α / 2 + , Pˆ1 − Pˆ2 + zα / 2 1 1 + 2 2 )
n m n m

La prueba de la hipótesis P1 − P2 = M se hace de una manera similar a la prueba de una


sola proporción: si el valor M cae dentro del intervalo de confianza entonces la
igualdad P1 − P2 = M será cierta. Si M cae por fuera de dicho intervalo será cierta una
de las alternativas unidireccionales, dependiendo de qué lado del intervalo quede M.
Esta prueba se hace con mucha frecuencia para el caso M = 0.
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 104

14.6 COMPARACION DE K MEDIAS

La inmediata generalización de los dos problemas anteriores (comparación de 2 medias)


es la comparación de k medias con k ≥ 2 . Este tipo de problemas es de muy frecuente
aparición en la vida diaria cuando se quieren comparar varios tratamientos a fin de
detectar cuál de ellos es el mejor. Por ejemplo, el agrónomo que desea comparar tres tipos
de fertilizantes para determinar cuál de ellos le produce mejores resultados. La empresa
fabricante de fibras que desea saber cuál es la mejor combinación de algodón y sintéticos
para obtener máxima resistencia a la tensión. El biólogo que desea saber cuál medio de
cultivo es más propicio para el desarrollo de un tipo de bacterias, todos ellos usan este
tipo de diseño de experimentos.

Como antes, habrá dos casos de comparaciones de medias; uno, cuando las muestras que
se toman son independientes y otro cuando dichas muestras son dependientes o ligadas.
Comúnmente estos dos casos son conocidos como diseños de una vía y de dos vías
respectivamente. Los respectivos análisis no-paramétricos se conocen como prueba de
Kruskall-Wallis y prueba de Friedman.

Este tema forma parte del diseño de experimentos, una de las ramas más difundidas y
conocidas de la estadística, ya que comúnmente se utiliza como herramienta de
investigación para comparar los efectos producidos por diferentes tratamientos. Un
experimento diseñado es un experimento que ha sido organizado de modo que se
acomode a un modelo teórico que proporciona herramientas de comparación y validación
de supuestos. En particular los experimentos teóricos a los que se ajustan los análisis
propuestos en esta unidad son experimentos de un solo factor (causa) en el que se han
seleccionado varios niveles para observar los resultados (efectos) producidos y
compararlos a fin de determinar cuál o cuáles de dichos efectos es mayor –o menor-.

Como puede colegirse de lo anterior, se está considerando una relación causa-efecto en la


que una variable de tipo categórico (variable independiente) produce unos resultados
medibles numéricamente (variable dependiente). Las diferentes categorías de la variable
independiente se conocen como tratamientos.

Al diseñar un experimento el investigador fija los tratamientos y diseña la manera de


medir los efectos, es decir, los cambios que se producen en el valor de la media al
cambiar un nivel de un factor. Igualmente el investigador asigna las unidades
experimentales (objetos o individuos que van a sufrir la acción del experimento) a cada
uno de los tratamientos. Dicha asignación debe realizarse teniendo en cuenta principios
de aleatoriedad, homogeneidad y conveniencia de modo que se garantice el cumplimiento
de los principios teóricos en los que descansa el análisis de los datos según el modelo de
experimento que se esté utilizando. Estos temas son propios de los cursos de diseño de
experimentos y mal podrían tratarse en una obra de carácter general como ésta. Así que
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 105

sólo se presentarán los aspectos relacionados con el análisis de la información mediante la


técnica conocida como análisis de la varianza y no lo que tiene que ver con el diseño
propiamente dicho del experimento.

14.6.1 Diseño de una vía (Diseño aleatorio completo)

Se tienen en este caso k poblaciones X 1 , X 2 ,L , X k con distribuciones normales de


medias µ1 , µ 2 , L, µ k y varianzas σ 12 , σ 22 ,L,σ k2 respectivamente. Igual que en el caso
de 2 medias, supondremos que σ 12 = σ 22 = L = σ k2 (homogeneidad de varianzas) y se
desea probar la hipótesis H0: µ1 = µ 2 = L = µ k contra la alternativa de que al menos
una media difiere significativamente de las demás.

La prueba de homogeneidad de varianzas suele hacerse mediante un estadístico propuesto


por Bartlett y que está definido de la siguiente manera:

Q = ( n − k ) Log 10 ( S 2p ) − ∑ ( n j − 1) Log 10 ( S 2j )
Q
B = 2.3026 donde
C

1  k −1 
 ∑ ( n j −1) − ( n − k ) 
−1
C = 1+
3(k − 1)  j =1 

k
1
S p2 =
n− k
∑ (n
j =1
j −1) S 2j

S = Varianza muestral en el j-ésimo grupo


2
j

El estadístico de Bartlett, bajo la hipótesis de homogeneidad de las varianzas, tiene


distribución Ji-cuadrado con k − 1 grados de libertad, lo que puede ser aprovechado para
probar la hipótesis nula de que las varianzas son iguales ya que un valor grande de B, es
decir un pequeño valor P, indica que tal hipótesis es falsa y que, por ende, debe ser
rechazada.

El estadístico de Bartlett es sin embargo muy sensible a la falta de normalidad en los


grupos y por esta razón suele acompañarse de otras pruebas más robustas como la prueba
de Levene, la prueba de Hartley, la prueba de Box o la prueba Q de Cochran, cuyos
fundamentos escapan al nivel de estas notas.
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 106

Para la comparación de las k medias, se toman muestras aleatorias X j1 , X j 2 ,L, X jn j con


j = 1,2,L, k , de cada una de las correspondientes poblaciones (los tamaños de estas
muestras pueden ser diferentes aunque se recomienda que sean iguales). De esta manera
1 nj
se obtienen estimadores X j = ∑ X ji para cada una de las medias µ k y, a la vez,
n j i =1
reuniendo todas las muestras, se puede construir un estimador de la media general
1
X = ∑∑ X ji . Igual cosa puede hacerse con las varianzas en cada grupo y la varianza
n j i
general, también llamada varianza total.

En cualquier caso, una varianza es un cociente del tipo ∑( X i − X )2


donde el
GL
numerador es una suma de desviaciones al cuadrado y el denominador es un número
entero que representa unos grados de libertad. Si no se dividiera entre los grados de
libertad se tendría sólo la sumatoria del numerador, denominada variabilidad o
simplemente suma de cuadrados.

La técnica que se expondrá para comparar medias, se basa en una descomposición de la


variabilidad, mal llamada análisis de varianza o ANOVA, y que, en líneas generales
puede resumirse en lo siguiente:

La suma de cuadrados SCT = ∑∑ ( X ji −X ) 2 puede descomponerse en dos sumas de


nj k nj

cuadrados, SCB = n ∑ ( X ji − X ) 2 , y SCW = ∑ ∑ ( X ji − X j ) 2 , llamadas


i =1 j =1 i =1

respectivamente Variabilidad Entre y variabilidad Dentro o también suma de cuadrados


entre y suma de cuadrados dentro. Se cumple la igualdad siguiente:

SCT = SCB + SCW

Se puede probar que SCB ~ χ k −1 , SCW ~ χ k ( n−1) y, de aquí, SCT tiene distribución Ji-
cuadrado con n − 1 grados de libertad

Si las sumas de cuadrados anteriores se dividen entre los grados de libertad se obtienen
los cuadrados medios, CMB y CMW respectivamente, los cuales realmente representan
varianzas y para los que se cumple:
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 107

k
ni
E(CMB ) = σ + ∑ ( µi − µ ) E(CMW ) = σ 2
2 2
y
i =1 k −1

Como se desprende de las expresiones anteriores, cuando las medias de los tratamientos
son iguales entre sí e iguales a la media general, se cumple que
E(CMB) = E(CMW ) = σ 2 . Y, por tanto, en tales circunstancias, tanto CMB como CMW
SCB
son estimadores insesgados de la varianza. Además F =
CMB
= k −1 es una
CMW SCW
k ( n −1)
variable aleatoria con distribución F de k − 1 y k ( n − 1) grados de libertad.

El no cumplimiento de al hipótesis nula, es decir, cuando no todas las medias de los


tratamientos son iguales, se traduce en valores grandes de F, ya que en tales casos el
numerador es sensiblemente mayor que el denominador. Esto, a su vez, se ve reflejado en
pequeños valores P, bajo la cola derecha de la distribución F correspondiente a los grados
de libertad k − 1 y k ( n − 1)

Teniendo en cuenta lo expuesto en los párrafos anteriores es frecuente resumir la


información en una tabla denominada tabla de análisis de varianza o tabla ANOVA (ver
tabla 5.1) la cual facilita la interpretación de los resultados y la toma de decisiones
respecto al rechazo de la hipótesis nula . En esta tabla aparecen los valores calculados de
las diferentes variabilidades (Entre, Dentro y Total) al igual que los correspondientes
valores de varianza (Entre, dentro y Total) y el valor calculado de la F.

Cuando se rechace la hipótesis nula, se concluye que no todas las medias poblacionales
son iguales y, en consecuencia, habrá alguna(s) más pequeña(s) que las demás y alguna(s)
mayor(es) que todas las demás, resultando de interés el compararlas entre sí con el fin de
ordenarlas de menor a mayor para, de esta manera, poder decir cuál es el peor y cuál el
mejor tratamiento. Este proceso de comparación se conoce con el nombre de
comparaciones múltiples y puede realizarse de varias formas, como se muestra más
adelante.

Es conveniente saber que tanto las medias por tratamiento como las diferencias de medias
pueden estimarse de acuerdo con las siguientes fórmulas:

Ti s2
1. Intervalos para la media de cada tratamiento: m t n −k ,α
ni 2 ni
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 108

T T  1 1
2. Intervalos para diferencias de medias:  i − j  m t n− k ,α s +
n n  ni n j
 i j 
2

Suma de Cuadrados medios F


Fuente de variación Cuadrados GL (Varianzas) Calculada
Tratamientos o
ENTRE SCB k −1 CMB = SCB CMB
( k − 1) F=
CMW

Error o
DENTRO SCW k ( n − 1) CMW = SCW
k (n − 1)

TOTAL SCT n −1
Tabla 27. Tabla de un análisis de varianza para un diseño aleatorio completo

Ejemplo 14.3. Este ejemplo ha sido tomado del texto de Kuehl y se basa en datos de B.
Nichols (Universidad de Arizona 1980). Es un ejemplo interesante debido a los
elementos tanto teóricos como prácticos que involucra. Se trata de comparar cuatro
métodos de empaque de carnes para determinar cuál de ellos es más efectivo. Los
métodos de empaque (tratamientos) son los siguientes:
Tr1: Envoltura en papel plástico especial
Tr2: Empaque en bolsas selladas al vacío
Tr3: Empaque en atmósfera de CO2 (1%), O2 (40%) y N (59%)
Tr4: Empaque en atmósfera de CO2 (100%)

El experimento comienza con la selección de 12 trozos de carne muy homogéneos y


semejantes entre sí (unidades muestrales), tomados de la misma res y de la misma porción
mayor, los cuales son asignados aleatoriamente a cada uno de los cuatro tratamientos. De
esta manera en cada tratamiento se encuentran tres trozos que se empacan de acuerdo con
el proceso correspondiente. Ellos forman las réplicas necesarias para que dentro de cada
tratamiento haya variabilidad. Cuando en un diseño hay igual número de réplicas en todos
los tratamientos -como es el caso que nos ocupa- se dice que el experimento es
balanceado. Los diseños de una vía pueden ser desbalanceados pero es recomendable
mantener el balanceo mientras sea posible.

Para medir el efecto del empaque, se contabiliza el número de bacterias psicotrópicas por
centímetro cuadrado en la superficie de la carne empacada, al cabo de nueve días de
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 109

permanencia a una temperatura de 4 grados Celsius. A mayor número de bacterias menor


efectividad del empaque. Puesto que dicho número es demasiado grande se prefiere tomar
su logaritmo natural. Así pués, la variable respuesta o dependiente es el logaritmo natural
del número de bacteria por cm cuadrado. Esta es una variable numérica

Los datos correspondientes a las mediciones de contaminación por bacterias son los
siguientes:

Tratam 1 Tratam 2 Tratam 3 Tratam 4


Plástico Vacío Co2 O2 N CO2

7.66 5.26 7.41 3.51

6.98 5.44 7.33 2.91

7.80 5.80 7.04 3.66


Tabla 28. Datos para el ejemplo 14.3

Con el fin de poder analizar los datos mediante software estadístico (ESM en este caso),
los datos deben ser dispuestos en un archivo en la forma siguiente:

7.66 1
6.98 1
7.80 1
5.26 2
5.44 2
5.80 2
7.41 3
7.33 3
7.04 3
3.51 4
2.91 4
3.66 4

Este archivo contiene los valores observados de la variable respuesta más un rótulo que
identifica el tratamiento correspondiente. Esta última columna conforma la variable
independiente o de tratamientos.

La tabla anova junto con el valor P de probabilidad para la hipótesis nula es la siguiente:
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 110

----------------------------------------------------------------------------
FUENTE: SUM.CUADR GL CUADR.MEDIO F
----------------------------------------------------------------------------
Modelo 32.8728 3 10.9576 94.5844
Error 0.9268 8 0.1158 *****
Total 33.7996 11 ***** *****
---------------------------------------------------------------------------
R2 = .972579 F tiene 3 y 8 Grados de libertad
Valor P de probabilidad: 0.00003000
Tabla 29. Resultado del análisis de varianza del ejemplo 14.3

En esta tabla puede observarse un valor F de 94.5844 al cual corresponde un valor de


probabilidad demasiado pequeño (0.00003) en la cola derecha. Este valor, al ser inferior
al nivel de significancia establecido de 0.05, nos obliga a rechazar la hipótesis de igualdad
de las medias correspondientes a los tratamientos.

El cuadrado medio correspondiente al error se denomina también error cuadrático medio,


se representa por s 2 y es una estimación de la varianza no explicada en los datos.

Antes de entrar a comparar las diferentes medias de tratamientos debemos verificar que se
cumplan las hipótesis básicas del modelo: homogeneidad de las varianzas y normalidad
de los residuos.

Homogeneidad de las varianzas. La prueba de Bartlett arroja los siguientes resultados:

** PRUEBAS DE IGUALDAD DE VARIANZAS ENTRE TRATAMIENTOS:


(Hipótesis nula: Ho: σ 12 = σ 22 = σ 32 = σ 42 )

PRUEBA CONJUNTA DE BARTLETT:

B = 1.207904
P = 0.75110913
Tabla 30. Prueba de homogeneidad de varianza del ejemplo 14.3

Puesto que la prueba arroja un valor P de 0.7512 aproximadamente, se concluye que no es


posible rechazar la hipótesis nula de que las varianzas son iguales. Es decir, podemos
suponer que se cumple la homogeneidad de las varianzas.

Normalidad de los residuos. El experimento analizado se ajusta al siguiente modelo:

xij = µ + (µ i − µ ) +( xij − µ i )
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 111

siendo xij la j-ésima observación del i-ésimo tratamiento, µ la media general y µi la


media del i-ésimo tratamiento, considerado como una población. La diferencia µi − µ es
el efecto del i-ésimo tratamiento y el valor xij − µi es el error entre cada observación y
la media del tratamiento al que ella pertenece.

Es frecuente utilizar la siguiente escritura para el modelo analizado: xij = µ + τ i + ε ij . En


consecuencia, al utilizar las medias proporcionadas por los datos se pueden tener
estimaciones de los efectos y de los errores respectivamente mediante las expresiones:
τˆi = xi − x y εˆij = xij − xi . Estos últimos valores se conocen como residuos.
En teoría los errores deben tener distribución normal para que el modelo sea apropiado.
El cumplimiento de este supuesto se verifica utilizando los residuos como estimaciones
de los errores, ya que ellos constituyen la única información tangible acerca de los errores
de ajuste de los datos al modelo.

En el ejemplo que estamos analizando se obtienen los siguientes resultados:

INTERVALOS DE CONFIANZA PARA MEDIAS EN CADA TRATAMIENTO:


_________________________________________________________

MEDIAS E INTERVALOS PARA TRATAMIENTO # 1 :


Media: 7.48 Err.Stand: .1965112380162134
Inter95%: [ 7.0268, 7.9332]

MEDIAS E INTERVALOS PARA TRATAMIENTO # 2 :


Media: 5.5 Err.Stand: .1965112380162134
Inter95%: [ 5.0468, 5.9532]

MEDIAS E INTERVALOS PARA TRATAMIENTO # 3 :


Media: 7.26 Err.Stand: .1965112380162134
Inter95%: [ 6.8068, 7.7132]

MEDIAS E INTERVALOS PARA TRATAMIENTO # 4 :


Media: 3.36 Err.Stand: .1965112380162134
Inter95%: [ 2.9068, 3.8132]
__________________________________________________________

MEDIA GENERAL DE LOS DATOS: 5.90

Tabla 31. Estimación de intervalos para las medias de tratamientos. Ejemplo 14.3

Este cuadro proporciona los valores estimados de las medias por tratamiento, junto con
los errores estándar y el intervalo del 95% de confianza para cada caso.
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 112

Aplicando las fórmulas anteriores para estimar efectos y residuos se tendría:

• Estimación del efecto del primer tratamiento: 7.48 – 5.90 = 1.58


• Estimación del efecto del segundo tratamiento: 5.50 – 5.90 = -0.40
• Estimación del efecto del tercer tratamiento: 7.26 – 5.90 = 1.36
• Estimación del efecto del cuarto tratamiento: 3.36 – 5.90 = -2.54

Como puede observarse, la suma de los efectos de los tratamientos es cero.

Los residuos, para este ejemplo, son los siguientes

7.66 – 7.48 = 0.18


6.98 – 7.48 = -0.50
7.80 – 7.48 = 0.32
5.26 – 5.50 = -0.24
5.44 – 5.50 = -0.06
5.80 – 5.50 = 0.30
7.41 – 7.26 = 0.15
7.33 – 7.26 = 0.07
7.04 – 7.26 = -0.22
3.51 – 3.36 = 0.15
2.91 – 3.36 = -0.45
3.66 – 3.36 = 0.30

Tabla 32. Residuos del ejemplo 14.3

Frecuentemente se calculan los residuos estandarizados que se obtienen dividiendo los


residuos anteriores entre la raiz cuadrada del error cuadrático medio. En nuestro caso, se
obtendrían dividiendo los residuos anteriores entre 0.1158 = 0.3403 , lo que arroja los
siguientes residuos estandarizados:

0.52884023
-1.46900064
0.94016041
-0.70512031
-0.17628008
0.88140038
0.44070019
0.20566009
-0.64636028
0.44070019
-1.32210058
0.88140038

Tabla 33. Residuos estandarizados. Ejemplo 14.3


INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 113

Sobre estos valores debe realizarse una prueba de normalidad. En nuestro caso, la prueba
de Geary arroja los siguientes resultados:

Número de observaciones: 12

HIPOTESIS NULA: Las observaciones de la variable analizada


SE AJUSTAN A UNA DISTRIBUCION NORMAL con
Media (estimada): -4.625929269271485E-018
Varianza (estimada): 8.425454545454544E-002

Valor crítico de Z para H0: 1.365614709913629


VALOR P: 0.17204250
Tabla 34. Prueba de normalidad de residuos del ejemplo 14.3

El valor P de 0.17204, al ser mayor que el nivel de significancia 0.05, no nos permite
rechazar la hipótesis nula. En consecuencia, los residuos se ajustan a una distribución
normal y entonces, el modelo cumple con los supuestos básicos para una correcta toma de
decisiones.

14.6.2 Comparaciones múltiples

Entraremos ahora sí a realizar comparaciones múltiples entre las medias de los diferentes
tratamientos. Estas comparaciones, como se dijo anteriormente, permiten comparar dos a
dos las diferentes medias poblacionales de los tratamientos para determinar cuáles de
ellos producen efectos similares (es decir, no difieren) y cuáles producen efectos
significativamente distintos. Lo anterior permite, entre otras cosas, decir cuál tratamiento
es el peor y cuál es el mejor.

Una primera herramienta muy popular para realizar estas comparaciones la constituyen
los intervalos de confianza para las medias obtenidos anteriormente. Cuando dos
intervalos se intersecan las medias de los respectivos tratamientos no difieren
significativamente. Por el contrario, intervalos disjuntos corresponden a medias que
difieren significativamente; y será mayor la media correspondiente al intervalo situado
más a la derecha.

En el ejemplo que estamos presentando los intervalos para las medias de los tratamientos
son respectivamente:

Tr1: (7.02 , 7.93)


Tr2: (5.05 , 5.96)
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 114

Tr3: (6.80 , 7.71)


Tr4: (2.91 , 3.81)

Una gráfica aproximada de los intervalos del 95% de confianza para las medias de los
tratamientos es la siguiente:

En ella puede observarse que los intervalos correspondientes a los tratamientos Tr1 y Tr3
son intersecantes lo que significa que entre ellos no hay diferencias significativas. Por
otra parte a ellos corresponden los intervalos situados más a la derecha lo que significa
que sus medias son las de mayor valor. Es decir, en este caso corresponden a los métodos
de empaque menos efectivos. Se puede observar que la menor media corresponde al
tratamiento Tr4, el cual difiere significativamente de los demás. Este es el tratamiento que
produce mejores resultados. Es decir, de acuerdo con este método de comparación, el
mejor sistema de empaque es una atmósfera al 100% de CO2. Los peores métodos de
empaque son envolturas en plástico y empaque en atmósfera CO2+O2+N que
prácticamente no presentan diferencias. El empaque al vacío presenta una efectividad
intermedia.

Una segunda herramienta de comparación se conoce con el nombre de diferencias


mínimas significativas (LSD o Least Significative Differences). Esta técnica es muy
similar a la anterior. En opinión de D. Montgomery es una de las técnicas de comparación
múltiple más efectivas cuando la F de la tabla ANOVA ha resultado significativa.

Se definen las diferencias mínimas significativas mediante la expresión:

1 1
LSD( i, j ) = tn− k ,α s +
2 ni n j

donde s 2 es el error cuadrático medio.


INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 115

Se rechaza H0: µ i = µ j siempre que LSD( i, j ) <| xi − x j | . En otras palabras dos medias
difieren significativamente cuando la diferencia en valor absoluto de las respectivas
medias muestrales es mayor que la correspondiente LSD.

Este método de comparación es muy simple pero tiene la desventaja de que exige
numerosos cálculos ya que se deben realizar k(k -1)/2 comparaciones de medias. En el
ejemplo que venimos presentando se requieren 6 comparaciones. ESM realiza los
diferentes cálculos como se ve a continuación (en este caso el archivo de salida se ha
editado para dejar solamente los LSD correspondientes al 5% de significancia):

COMPARACION DE MEDIAS POR PARES. MINIMAS DIFERENCIAS SIGNIFICATIVAS (LSD):


Ho: µ(i)= µ(j) H1: µ(i) <> µ(j) *DS* = Difieren signif. *ND* = No dif

MEDIA DE TRATAM( 2 ) - MEDIA DE TRATAM( 1 ):


Diferencia de medias = -1.98000000
LSD(a=0.05) = 0.6409 *DS*

MEDIA DE TRATAM( 3 ) - MEDIA DE TRATAM( 1 ):


Diferencia de medias = -0.22000000
LSD(a=0.05) = 0.6409 *ND*

MEDIA DE TRATAM( 3 ) - MEDIA DE TRATAM( 2 ):


Diferencia de medias = 1.76000000
LSD(a=0.05) = 0.6409 *DS*

MEDIA DE TRATAM( 4 ) - MEDIA DE TRATAM( 1 ):


Diferencia de medias = -4.12000000
LSD(a=0.05) = 0.6409 *DS*

MEDIA DE TRATAM( 4 ) - MEDIA DE TRATAM( 2 ):


Diferencia de medias = -2.14000000
LSD(a=0.05) = 0.6409 *DS*

MEDIA DE TRATAM( 4 ) - MEDIA DE TRATAM( 3 ):


Diferencia de medias = -3.90000000
LSD(a=0.05) = 0.6409 *DS*

Tabla 35. Comparación de medias en el ejemplo 14.3

Como puede observarse los resultados coinciden con lo calculado anteriormente aunque
es menos evidente la interpretación.

Mencionaremos muy brevemente el método de Tukey – Kramer, también muy utilizado


para realizar comparaciones múltiples.

Este método produce intervalos de confianza simultáneos de la forma:


INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 116

s2  1 1 
xi − xj + qk , ν , α DHS(k ,α E ) donde DHS( k , α E ) =  +  y qk , ν , α es un
2  ni n j 
valor que depende del nivel mínimo de significancia α E , de los grados de libertad ?
correspondientes al error cuadrático medio s, y del número de tratamientos k. Este
valor se busca en una tabla (ver anexo 2). De acuerdo con lo anterior, las medias de dos
tratamientos difieren significativamente cuando el valor absoluto de la diferencia de sus
medias muestrales es mayor que qk , ν , α DHS( k , α E ) .

Para el ejemplo que nos ocupa se tiene:

0.116 2
qk , ν , α = q4, 8, 0.05 = 4.53 , DHS( k , α E ) = 4.53 = 0.8907
2 3

En consecuencia:

Medias compr. Valores de medias DHS Difer medias Difieren?


1 con 2 7.48 5.50 0.8907 1.98 Sí
1 con 3 7.48 7.26 0.8907 0.22 No
1 con 4 7.48 3.36 0.8907 4.12 Sí
2 con 3 5.50 7.26 0.8907 1.76 Sí
2 con 4 5.50 3.36 0.8907 2.14 Sí
3 con 4 7.26 3.36 0.8907 3.90 Sí
Tabla 36. Comparación de medias mediante prueba de Tukey en ejemplo 14.3

Existen otros métodos de comparación recomendables en diferentes circunstancias pero


que no serán tratados en este libro. Algunos de ellos son: Scheffé, Bonferroni, Duncan,
Gabriel, NKS, etc.

14.6.3 Contrastes

Dedicaremos unas líneas al método de comparación de medias mediante la técnica de


contrastes. Este método, de gran importancia en investigación, se usa cuando un
experimento se ha diseñado para comparar específicamente ciertos tratamientos. La
diferencia con los métodos anteriores, también denominados post hoc, es que aquellos
tienen sentido cuando el valor de la F ha resultado significativo, es decir, cuando la
prueba ANOVA ha detectado diferencias significativas y se desea saber cuáles son las
medias que difieren. En cambio los contrastes planificados pueden realizarse en cualquier
circunstancia.
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 117

k
Se define un contraste C como cualquier combinación lineal C = ∑ α i µi donde los
i =1
k
escalares α i satisfacen ∑α i =0.
i =1

Aunque en principio los escalares α i podrían ser cualesquiera números reales, en la


práctica sólo son fracciones sencillas que, por lo general, se reducen a números enteros
multiplicándolas por una cantidad conveniente: casi siempre por el mínimo común
múltiplo de sus denominadores.

Por ejemplo, en el caso de empaques de carnes, si quisiéramos comparar los efectos del
empaque plástico frente a ol s de los demás tratamientos, un contraste adecuado sería:
1
C1 = µ1 − ( µ 2 + µ 3 + µ 4 ) . Igualmente el contraste que permite comparar el empaque al
3
1
vacío frente a los empaques con gases sería: C2 = µ 2 − (µ 3 + µ 4 ) y el que permite
2
comparar el empaque en una atmósfera, mezcla de gases, frente al empaque con CO2
puro, sería C3 = µ3 − µ2 . Los dos primeros contrastes de estos ejemplos también pueden
escribirse como C1 = 3µ1 − 1µ2 − 1µ3 − 1µ4 y C2 = 0µ1 + 2µ2 − 1µ3 − 1µ 4 . De igual
manera C3 = 0 µ1 + 0 µ2 + 1µ3 − 1µ4

En general un contraste en un experimento de k tratamientos está determinado por k


constantes enteras cuya suma vale cero.

En cualquier caso se prueba la hipótesis nula H 0 : Ci = 0 frente a la hipótesis


alternativa
H 1 : Ci ≠ 0 .
k

CM Contraste
∑α x i i
El estadístico de prueba está dado por FC = donde CM Contraste = i =1
y
k
αi

CM Error
i =1 ni

CM Error = s 2 . El estadístico FC tiene distribución F1, n− k , lo que puede ser aprovechado


para tomar la decisión de si se rechaza o no la hipótesis nula.
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 118

k
La estimación de un contraste, como era de esperarse, está dada por Cˆ = ∑ α i xi . Su
i =1
k
αi
varianza es V( C) = s 2 ∑ lo que permite construir intervalos de confianza para el
i =1 ni

contraste, intervalos que están dados por: Cˆ ± tn −k , α V(C )


2

Una expresión interesante, como se verá luego, es la suma de cuadrados del contraste,
2
 k 
 ∑ α i xi 
dada por SS(C ) =  i=k1  .

∑ niα i
i =1

En el ejemplo de las carnes que hemos estado analizando, los tres contrastes presentados
anteriormente, junto con sus estadísticos de prueba y los correspondientes valores P, se
resumen en la siguiente tabla:

Contraste Constantes del contraste Estadístico Valor P


Ci α1 α2 α3 α4 FC (Ci )
C1 3 -1 -1 -1 86.12 0.0001

C2 0 2 -1 -1 0.6034 0.4608

C3 0 0 1 -1 196.72 0.0000

Tabla 37. Estimación y significancia de contrastes para el ejemplo 14.3

Lo que muestra que las hipótesis formuladas en los contrastes C1 y C3 se rechazan


mientras que la formulada por el contraste C2 no se rechaza. En otras palabras, el
promedio de bacterias en la carne empacada en plástico es mayor que el promedio de
bacterias en las carnes empacadas en atmósferas de gases. Podemos afirmar esto porque
la estimación del contraste es un número positivo: Cˆ1 = 2.11 aproximadamente.
Análogamente, la conclusión que se puede obtener del contraste C2 es que el promedio
de bacterias al empacar la carne al vacío es igual al promedio de bacterias al empacar con
otros gases.
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 119

Otra manera de probar hipótesis mediante contrastes es la utilización de los intervalos de


confianza para ellos. Si el intervalo de confianza contiene al cero entonces el contraste se
considera igual a cero. Por el contrario, si el cero no está dentro del intervalo de
confianza, el contraste es diferente de cero y será negativo o positivo según que el cero
esté a la derecha o a la izquierda del intervalo de confianza.

ESM V8 permite construir contrastes para el caso de comparación de varias medias en el


diseño de una vía. Por ejemplo, para probar la hipótesis formulada por el contraste C3
(constantes 0, 0, 1 y -1), el paquete arroja los resultados consignados en la tabla 38.

Nótese que el valor P, demasiado pequeño, nos lleva al rechazo de la hipótesis nula de
que este contraste vale cero. Esto se confirma al observar los intervalos de confianza. En
particular, el intervalo del 95% de confianza, situado a la derecha del cero, muestra que el
contraste es positivo. Esto es: C3 > 0 . De aquí se deduce que µ3 > µ 4 . Es decir, el
promedio de bacterias en la carne al empacar en una atmósfera que es mezcla de gases, es
mayor que el promedio de bacterias al empacar en una atmósfera de CO2 puro.

Valor estimado del contraste: 3.90


Varianza estimada del contraste: 0.0772
Suma de cuadrados del contraste: 22.8150
Valor F para H0:CONTRASTE=0: F(1, 8 ) = 196.9357

VALOR P: 0.000020

Intervalos de confianza para el contraste:


Interv 90% ( 3.3831 , 4.4169 )
Interv 95% ( 3.2591 , 4.5408 )
Interv 99% ( 2.9676 , 4.8324 )

Tabla 38. Estimación y significancia de un contraste (ejemplo 14.3) con ESM v8.0

Con frecuencia resultan de interés ciertos contrastes, llamados contrastes ortogonales.


k k
Dos contrastes C1 = ∑ α i µi y C2 = ∑ β i µi se dicen ortogonales si se cumple
i =1 i =1
k
 α i βi 
∑
i =1  ni 
 = 0.

En un diseño de una vía con k tratamientos existen exactamente k − 1 contrastes


ortogonales entre sí. Por ejemplo, en el diseño del empaque de carnes que tiene cuatro
tratamientos sólo es posible construir tres contrastes ortogonales. Ellos son (se dan solo
las constantes): C1 = (3, -1, -1, -1), C2 = ( 0, 2, -1, -1) y C3 = (0, 0, 1, -1).
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 120

Los contrastes ortogonales son interesantes entre otras cosas porque sus sumas de
cuadrados proporcionan una descomposición de la suma de cuadrados de los tratamientos.
Por ejemplo, las sumas de cuadrados de los tres contrastes ortogonales dados
anteriormente para el ejemplo 5.1 son respectivamente: 9.9856, 0.0722 y 22.8150,
valores cuya suma es 32.8728, exactamente el valor de la suma de cuadrados de
tratamientos (modelo) arrojado por la tabla anova.

14.6.4 Prueba de Kruskall y Wallis

La correspondiente prueba no paramétrica para los diseños de una vía o completos


aleatorios es la prueba de Kruskall y Wallis que busca probar la hipótesis nula de que las
medianas de los tratamientos son iguales (H0: M 1 = M 2 = ... = M k ) y que puede ser
resumida en lo siguiente:

Las observaciones de las diferentes muestras se reúnen en una sola gran muestra, dentro
de la cual se asignan rangos que luego se separan dentro de cada tratamiento según a
donde pertenezca la respectiva observación. De esta manera se pueden obtener las sumas
de rangos por tratamiento T j para j = 1,2,3L k , como se muestra en la tabla siguiente:

TRA1 TRA2 ... TRAk TRA1 TRA2 ... TRAk


x11 x 21 xk1 r( x11 ) r( x 21 ) r( x k 1 )
x12 x 22 xk 2 r( x12 ) r( x 22 ) r( x k 2 )
... ...
M M M M M M
x1n1 x2n2 x knk r( x1n1 ) r( x2n ) r( x knk )
2

T1 T2 ... Tk
Tabla 39. Transformación de rangos para una prueba de Kruskall y Wallis

Kruskall y Wallis propusieron el siguiente estadístico de prueba que tiene distribución


asintótica Ji-cuadrado con k − 1 grados de libertad:

12  k T j 
2 k
H = ∑ − 3(n + 1) donde n = ∑nj
n( n + 1)  j =1 n j  j =1

De acuerdo con lo anterior se rechaza la hipótesis de igualdad de las medianas cuando el


estadístico H determine un valor P muy pequeño bajo una Ji-cuadrado con k − 1 GL.
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 121

Se debe tener en cuenta, sin embargo, que la técnica no paramétrica aquí mencionada no
proporciona herramientas de comparaciones múltiples. En caso de rechazo de la hipótesis
nula, tales pruebas se hacen con base en los intervalos de confianza para las medias o para
las diferencias de medias lo que implica que también debe realizarse tales cálculos
paramétricos tal y como fueron expuestos anteriormente.

Ejemplo 14.4: Utilizando el archivo FINCAS.DAT se hará una comparación de los


promedios de temperaturas (variable X3) en los diferentes tipos de terreno (variable X4).
Es decir, se quiere saber si en promedio la temperatura del terreno plano es diferente a la
del terreno quebrado y éstas diferentes a la de los terrenos mixtos.

El problema se analiza proponiendo como hipótesis nula que estas temperaturas sí son
iguales y luego se decidirá si se rechaza o no esta hipótesis. En ESM se obtiene la salida
que se presenta en la página siguiente.

Como puede apreciarse en dicha salida, el análisis dice que no existen diferencias entre
las temperaturas de los diferentes tipos de terreno. Sin embargo esta conclusión es dudosa
ya que no se cumplen los supuestos para que el análisis de varianza sea confiable: No se
puede garantizar la homogeneidad de las varianzas en los tres grupos y los residuos del
modelo no son normales. Este es un ejemplo que debiera ser analizado además mediante
el método no paramétrico que se expondrá más adelante.

ANALISIS DE VARIANZA DE UNA VIA - (Diseño Completo Aleatorio) ANOVA: VAR-


Clasif: TERRENO VAR-Análisis: TEMPER
____________________________________________________________________
PRUEBAS DE NORMALIDAD E IGUALDAD DE VARIANZA

Variable analizada: TEMPER Variable Clasif: TERRENO


Archivo de datos: finca150.dat

GRUP P #OBS Z MEDIA VARIANZA


1 0.000563 35 3.450 17.8286 22.2050
2 0.003073 67 2.961 18.3881 19.6653
3 0.018234 48 2.361 18.6875 23.7939

TOTAL OBSERVACIONES: 150

PRUEBA BARTLETT PARA IGUALDAD DE VARIANZAS ENTRE GRUPOS:

V/r de B: 0.5168 V/r P = 0.772300 Ji-2: 2 GL


____________________________________________________________________

Numero de observaciones: ...................... 150


Numero de tratamientos: ....................... 3
Suma total de observaciones: .................. 2753
Media general de las observaciones: ........... 18.35333333333333
Suma de cuadrados de observaciones: ........... 53713
Corrección para la media: ..................... 50526.72666666667
Suma de cuadrados corregida: .................. 3186.273333333331
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 122

TABLA ANOVA:
----------------------------------------------------------------------------
FUENTE: SUM.CUADR GL CUADR.MEDIO F
----------------------------------------------------------------------------
Modelo 15.0790 2 7.5395 0.3495
Error 3171.1944 147 21.5728 *****
Total 3186.2733 149 ***** *****
---------------------------------------------------------------------------
R2 = 4.732E-003 F tiene 2 y 147 Grados de libertad
Valor P de probabilidad: 0.71089000
Valor exacto del CME = 21.57275085940558

**** PRUEBA DE AJUSTE A UNA DISTRIBUCION NORMAL ****


(Prueba de Geary)

VARIABLE ANALIZADA: RESIDUO (No Clasificada)


ARCHIVO DE DATOS: residuos.dat

HIPOTESIS NULA: Las observaciones de la variable analizada


SE AJUSTAN A UNA DISTRIBUCION NORMAL con
Media (estimada): 4.333333333354024E-005
Varianza (estimada): 21.28318373468679

Valor crítico de Z para H0: 4.942729917122696


VALOR P: 0.00000078

Ejemplo 14.5: Si se construye la proporción de hembras por finca como el total de


hembras sobre el total de animales en cada finca. Esto es:
HEMBRAS
PORCHE = , podemos averiguar si este índice difiere
MACHOS + HEMBRAS
significativamente en los diferentes tipos de terreno (variable X4). Para esto debemos
construir la variable PORCHE ya que ella no se encuentra en el archivo de datos. Usando la
rutina de transformación de variables construimos en primer lugar la totalidad de
animales de cada finca, sumando las variables X7 y X8, y luego hacemos el cociente de la
variable X8 (HEMBRAS) entre la variable recién construída. Esta será la variable de
análisis. La variable de clasificación o tratamientos será el TIPO DE TERRENO (X4). Con
ellas se hace el análisis de varianza, cuyo resultados en ESM pueden verse en las páginas
siguientes.

____________________________________________________________________
PRUEBAS DE NORMALIDAD E IGUALDAD DE VARIANZA

Variable analizada: PORCHE Variable Clasif: TERRENO


Archivo de datos: finca150.dat
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 123

GRUP P #OBS Z MEDIA VARIANZA


1 0.478737 35 0.708 0.6739 0.0395
2 0.673503 67 0.421 0.6374 0.0511
3 0.200657 48 1.280 0.5698 0.0489

TOTAL OBSERVACIONES: 150

PRUEBA BARTLETT PARA IGUALDAD DE VARIANZAS ENTRE GRUPOS:

V/r de B: 0.7344 V/r P = 0.692688 Ji-2: 2 GL


____________________________________________________________________

ANALISIS DE VARIANZA DE UNA VIA - (Diseño Completo Aleatorio)


ANOVA: VAR-Clasif: TERRENO VAR-Análisis: PORCHE
______________________________________________________________________
Numero de observaciones: ...................... 150
Numero de tratamientos: ....................... 3
Suma total de observaciones: .................. 93.64001000000005
Media general de las observaciones: ........... .6242667333333336
Suma de cuadrados de observaciones: ........... 65.70681572325402
Corrección para la media: ..................... 58.45634315200073
Suma de cuadrados corregida: .................. 7.250472571253297
______________________________________________________________________

TABLA ANOVA:
---------------------------------------------------------------------------
FUENTE: SUM.CUADR GL CUADR.MEDIO F
---------------------------------------------------------------------------
Modelo 0.2399 2 0.1200 2.5155
Error 7.0105 147 0.0477 *****
Total 7.2505 149 ***** *****
---------------------------------------------------------------------------
R2 = 3.3091E-002 F tiene 2 y 147 Grados de libertad
Valor P de probabilidad: 0.08232000
Valor exacto del CME = 4.769077018326961E-002

** PRUEBAS DE IGUALDAD DE VARIANZAS ENTRE TRATAMIENTOS:


(Hipótesis nula: Ho: σ 12 = σ 22 = σ 32

1. PRUEBA CONJUNTA DE BARTLETT:

B = 0.734351
P = 0.69268793
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 124

INTERVALOS DE CONFIANZA PARA MEDIAS EN CADA TRATAMIENTO:


Variable de análisis: PORCH Var Clasific: TERRENO
_________________________________________________________________________
Numero de Tratamientos: 3

MEDIAS E INTERVALOS PARA TRATAMIENTO # 1 :


Media: .6738 Err.Stand: 3.691332325607792E-002
Inter90%: [ 0.6131, 0.7345] <--
Inter95%: [ 0.6014, 0.7462]
Inter99%: [ 0.5787, 0.7689]

MEDIAS E INTERVALOS PARA TRATAMIENTO # 2 :


Media: .6373 Err.Stand: 2.667962780941294E-002
Inter90%: [ 0.5934, 0.6812] <--
Inter95%: [ 0.5850, 0.6896]
Inter99%: [ 0.5686, 0.7060]

MEDIAS E INTERVALOS PARA TRATAMIENTO # 3 :


Media: .5698 Err.Stand: 3.152075050108183E-002
Inter90%: [ 0.5179, 0.6217] <--
Inter95%: [ 0.5080, 0.6316]
Inter99%: [ 0.4886, 0.6510]
_________________________________________________________________________

COMPARACION DE MEDIAS POR PARES. MINIMAS DIFERENCIAS SIGNIFICATIVAS (LSD):


Ho: µ(i)= µ(j) H1: µ(i) <> µ(j) *DS* = Difieren signif. *ND* = No dif
NOTA: Se presentan todas las combinaciones de tratamientos por pares.
MEDIA DE TRATAM( 2 ) - MEDIA DE TRATAM( 1 ):
Diferencia de medias = -0.03648184

LSD(a=0.10) = 0.0749 *ND* <--


LSD(a=0.05) = 0.0893 *ND*
LSD(a=0.01) = 0.1173 *ND*

MEDIA DE TRATAM( 3 ) - MEDIA DE TRATAM( 1 ):


Diferencia de medias = -0.10404684

LSD(a=0.10) = 0.0798 *DS* <--


LSD(a=0.05) = 0.0951 *DS*
LSD(a=0.01) = 0.1250 *ND*

MEDIA DE TRATAM( 3 ) - MEDIA DE TRATAM( 2 ):


Diferencia de medias = -0.06756500

LSD(a=0.10) = 0.0679 *ND* <--


LSD(a=0.05) = 0.0809 *ND*
LSD(a=0.01) = 0.1064 *ND*
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 125

**** PRUEBA DE AJUSTE A UNA DISTRIBUCION NORMAL ****


(Prueba de Geary)

VARIABLE ANALIZADA: RESIDUOS (No Clasificada)


ARCHIVO DE DATOS: residuos.dat

Número de observaciones: 150

HIPOTESIS NULA: Las observaciones de la variable analizada


SE AJUSTAN A UNA DISTRIBUCION NORMAL con
Media (estimada): 5.006666666666789E-005
Varianza (estimada): 4.705062642451899E-002

Valor crítico de Z para H0: .6525776466669402


VALOR P: 0.51404673

Como se ve, en este caso se cumplen los supuestos y además se concluye que el terreno
con mayor índice de hembras es el terreno plano, cuyas diferencia con el quebrado no es
significativa.

14.7 Diseño de dos vías (Diseño aleatorio de bloques completos)

La generalización inmediata de la comparación de dos medias pareadas es la comparación


de k medias ligadas. Recuérdese que en caso de dos medias cada pareja de
observaciones procedían del mismo individuo o de individuos muy semejantes (gemelos).
Siguiendo este mismo patrón de conducta, en el caso que nos ocupa se tendrán k-uplas de
observaciones que deben proceder de individuos muy semejantes. Una k-upla de
individuos semejantes o muy homogéneos recibe el nombre de bloque .

Cuando b bloques de k individuos cada uno, se asignan a k tratamientos de manera


que los individuos de cada bloque se asignen a los tratamientos en forma aleatoria, se
tiene un diseño aleatorio de bloques completos o diseño de dos vías de clasificación.

En este caso las observaciones tendrán la siguiente disposición:

BLOQUES TRAT1 TRAT2 ... TRATk


Bloque 1 x11 x21 ... xk 1
Bloque 2 x12 x22 ... xk 2
M M M M M
Bloque b x1b x2b ... xkb

Tabla 40. Esquema de organización de datos para un ANOVA de dos vías


INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 126

T2
La correspondiente tabla ANOVA tiene el aspecto que muestra la tabla 41, donde C =
kb
(valor que se conoce como corrección por la media) y donde T*i , i = 1,2,..., b son los
totales marginales para los bloques (por filas); T j*, j =1, 2,..., k son los totales marginales para
los tratamientos (por columnas)

Como puede apreciarse, en este caso aparecen dos valores de F, uno para tratamientos
(Ft) y el otro para bloques (Fb). Se pueden probar dos hipótesis, a saber:

En primer lugar la hipótesis nula de que no hay diferencias significativas entre la medias
de los tratamientos, es decir: H0: µ 1 = µ 2 = L = µ k , hipótesis que se prueba contra la
alternativa de que no todas las medias son iguales. Esta hipótesis se prueba con la F de
tratamientos (Ft) que tiene distribución con k − 1 y ( k − 1)( b − 1) grados de libertad. El
rechazo de esta hipótesis obliga a realizar comparaciones múltiples para determinar el
orden de las medias y de esta manera averiguar cuál es el mejor tratamiento (o el peor) y
cuales no difieren entre sí. El criterio LSD sigue siendo el mejor en este caso.

En segundo lugar, se puede probar la hipótesis de que no hay diferencias entre las medias
de los bloques. Esta se prueba con la F de bloques (Fb) que tiene b −1 y ( k − 1)( b − 1)
grados de libertad. Sin embargo esta hipótesis es secundaria ya que si el experimento ha
sido bien diseñado, tales medias por principio deben ser diferentes.

ESM realiza la prueba anterior junto con los cálculos necesarios para aplicar los criterios
LSD y comparaciones múltiples mediante intervalos de confianza, para lo cual es
necesario que los datos se encuentren en una única columna y que existan dos columnas
adicionales de tipo categórico, con códigos numéricos, que identifiquen el tratamiento y
el bloque al que pertenece cada observación.

El cuadrado medio esperado para tratamientos en un diseño de dos vías está dado por la
b k
expresión E(CMTr) = σ 2 + ∑
k − 1 i=1
( µ i − µ ) , lo que prueba que bajo la hipótesis nula de
2

que las medias de tratamientos son iguales, el cuadrado medio de tratamientos es una
estimación de la varianza y puede aplicarse el argumento presentado en el diseño de una
vía para determinar por qué la prueba F permite decidir si se cumple o no la igualdad de
medias en los tratamientos.
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 127

ANOVA para un diseño aleatorio de bloques completos (dos vías)


Fuente de Suma de cuadrados GL Cuadrados F calc
Variación Medios
k
1 SCTr CMTr
Tratamientos SCTr = ∑
b j =1
T 2
j * − C k −1 CMTr =
k −1
Ft =
CME
b
1 SCB CMB
SCB = ∑ T*i − C CMB = Fb =
2
Bloques k i =1 b −1 b −1 CME

Error SCE = SCE


CME =
SCT − SCTr − SCB ( k − 1)( b − 1) ( k −1)( b − 1) *****

k b

TOTAL SCT = ∑ ∑ xij2 − C ***** ***** *****


j =1 i =1
Tabla 41. Tabla ANOVA para un diseño de bloques completos

b (k − 1) CMB
Si designamos por c = , la expresión ER = (1 − c) + c es conocida como
bk − 1 CME
eficiencia relativa y mide la eficiencia que presenta el diseño de dos vías sobre el diseño
de una vía. El diseño de dos vías es más eficiente que el de una vía siempre que ER > 1 .

14.8 La prueba de Friedman

Cuando no sean aplicables los procedimientos anteriores bién sea porque se violan los
supuestos de normalidad o porque los tamaños de muestra son extremadamente pequeños,
es posible recurrir a la prueba no paramétrica de Friedman que es el correspondiente
sustituto para el ANOVA de los diseños de dos vías. Sin embargo se debe tener presente
que esta prueba por lo general tiene menos potencia que la prueba paramétrica y en
consecuencia es posible que muestre no diferencias de medias entre tratamientos cuando
realmente estos sí difieran.

Para la prueba de Friedman se asignan rangos a las observaciones de cada bloque (fila por
fila) y luego se suman los rangos correspondientes a cada tratamiento. De esta manera se
obtienen k sumas de rangos T1 , T 2 , T3 L , Tk con los cuales se construye el siguiente
estadístico de prueba;
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 128

12  k 2 
S=  ∑ T  − 3b( k + 1)
bk ( k + 1)  j =1 j 

Friedman demostró que bajo la hipótesis nula de no diferencias entre las medias de
tratamientos, este estadístico tiene distribución asintótica Ji-cuadrado con k − 1 grados
de libertad. En consecuencia, un valor grande de S, es decir un pequeño valor P bajo esta
distribución, indica que la hipótesis nula es falsa y que, por tanto, debe ser rechazada.

14.9 Introducción al análisis de varianza en experimentos diseñados.

El diseño de experimentos es la parte de la estadística que estudia la manera de organizar


los materiales, disponer las unidades muestrales, asignar tratamientos, medir respuestas,
analizar e interpretar información para obtener conclusiones acerca del comportamiento
de la(s) variable(s) de respuesta en un experimento controlado. El diseño de experimentos
constituye un tema demasiado amplio que no puede ser tratado en un libro como éste
pero, dado que en este capítulo se ha venido hablando de la comparación de varias
medias, justo es dar algunas nociones muy básicas acerca del diseño de experimentos en
los modelos más elementales.

Podemos afirmar que los experimentos son de dos clases fundamentalmente:


comparativos y de pronóstico. Los primeros –casos de comparaciones de medias, por
ejemplo- establecen conjuntos de circunstancias dentro del experimento y comparan las
respuestas en esas circunstancias. En esta clase de experimentos los tratamientos son las
circunstancias creadas para cada respuesta. Los experimentos de pronóstico –casos de
regresión o de superficies de respuesta, por ejemplo- proponen modelos que describen las
respuestas en términos de las variables dependientes para pronosticar otros valores de
respuesta en casos que no han sido observados.

Existe una gran variedad de diseños experimentales adecuados a diferentes situaciones y


también existen varias técnicas estadísticas que permiten analizarlos. Pero podría decirse
que todos los casos obedecen a un único modelo general, a saber: varias unidades
experimentales, es decir, objetos físicos o individuos, son sometidos a la acción de uno o
más agentes que producen un efecto sobre ellas. El efecto producido es cuantificable
mediante una o más variables de tipo numérico mientras que los agentes transformadores
son aplicados en dosis o niveles definidos previamente por el investigador. De esta
manera se establece una relación funcional del tipo (Y1, Y2 ,L ,Y p ) = f ( X1 , X 2 , L , X r )
donde las Yi son variables de tipo numérico (respuestas) y las X j son variables de tipo
categórico (variables independientes o factores). Las categorías o modalidades de estas
últimas variables se denominan niveles. Los modelos más simples de diseño
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 129

corresponden a la situación en la cual Y = f ( X ) con X, variable categórica, Y variable


numérica y f una función de tipo lineal. Los diseños en los cuales r > 1 se denominan
multifactoriales y los diseños en los cuales p > 1 se dicen multivariados. En general las
situaciones más estudiadas corresponden a una o más variables independientes de tipo
categórico y a una variable Y de tipo numérico como respuesta, enlazadas por una
función de tipo lineal. En cambio de tomar factores de tipo categórico, también es posible
tomar variables numéricas para observar el experimento únicamente en ciertos valores o
niveles de dichas variables. En estos casos el objetivo perseguido es la construcción de
una curva o superficie de respuesta en la que se pueda encontrar un máximo o un mínimo
y determinar a cuál o cuáles valores de los factores corresponde.

De acuerdo con lo anterior se puede afirmar que un experimento diseñado puede ser
estudiado como un caso de superficies (o curvas) de respuesta, tambíén podría
corresponder al estudio de modelos lineales generales e incluso podría corresponder a
casos de modelos no lineales (cuando la función de enlace f no sea lineal). Desde este
punto de vista, el estudio de la información de un experimento diseñado suele recurrir a
herramientas matemáticas (principalmente cálculo y álgebra lineal) para su análisis.

Los diseños comparativos de experimentos son de dos tipos principalmente: unos,


conocidos como diseños de efectos fijos porque los niveles de los diferentes factores han
sido definidos a juicio y gusto de los investigadores. Es éste –el investigador- quien
decide, por ejemplo, los niveles de temperatura, de humedad, de dosis químicas que usará
en un experimento. En otros experimentos el investigador no puede seleccionar los
niveles de los factores sino que éstos surgen aleatoriamente de una gran cantidad de
posibilidades. Piénsese, por ejemplo, en una investigación en la que se pretende mostrar
que la profundidad a la que se encuentre el carbón natural influye en sus propiedades
bituminosas. Se debe extraer carbón de diferentes profundidades para analizarlo
químicamente. Para ello se realizan perforaciones en diferentes sitios de una zona
carbonífera y se toman muestras. En este caso el analista del experimento no puede
determinar con anticipación la profundidad de las perforaciones, las cuales resultan
aleatorias. Es decir, los niveles de profundidad no son definidos previamente sino que
constituyen una muestra aleatoria de todos los posibles valores de profundidad a los que
se pueda encontrar carbón. Los diseños que obedezcan a este último patrón se conocen
como diseños de efectos aleatorios. Finalmente los diseños de dos o más factores podrían
ser mixtos si algunos de dichos factores son de efectos fijos y los demás de efectos
aleatorios.

Existe una variada gama de experimentos que se ajustan a determinados modelos


predefinidos y que pueden ser estudiados mediante la técnica de descomposición de la
variabilidad (ANOVA), tal como ocurrió con los modelos de una y dos vías estudiados
anteriormente.
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 130

El propósito de esta sección es presentar la técnica ANOVA para el análisis de la


información en experimentos de efectos fijos de dos o tres factores con una única
respuesta Y. Se hará también una breve referencia a los experimentos de efectos aleatorios
al final de la sección. El caso de experimentos con un único factor y una única respuesta
Y, es lo estudiado en las secciones anteriores de este mismo capítulo. Los casos más
complejos de experimentos con uno o más factores y varias respuestas no se estudian en
este libro. Ellos forman parte de otra obra más completa que tiene un nombre semejante al
de este libro y que está en preparación.

En el diseño y análisis de un experimento suelen presentarse ciertos elementos de tipo


teórico y ciertos conceptos que deben ser entendidos para garantizar una adecuada
aplicación de los datos a un determinado modelo y garantizar así correctas
interpretaciones y decisiones. En los párrafos siguientes se busca sentar algunas bases
para el diseño de un experimento sin pretender que con ello se agote el tema, por cierto
amplio y complejo.

Una primera inquietud que se puede formular es acerca de la necesidad de planear un


experimento. La investigación experimental tiene como inquietud frecuente comparar
diferentes acciones, agentes o factores para determinar cuál de ellos es más eficiente o
produce mejores resultados. Ante la carencia de una explicación natural que satisfaga esta
pregunta, el científico experimental opta por ensayar diversos factores o diversos niveles
de uno o más factores para determinar cuál combinación de ellos produce una mejor
respuesta. Si este ensayo se hace de una manera organizada, ciñéndose a ciertos
parámetros determinados por un modelo estadístico que ha sido probado teóricamente, se
tendrá un experimento diseñado, cuyo análisis obedece a deducciones lógicas propias del
modelo al cual se ajusta.

Se denominan unidades experimentales a cada una de las entidades físicas o sujetos


expuestos al tratamiento, independientemente de otras unidades.

El error experimental describe la variabilidad entre las unidades experimentales tratadas


de manera idéntica e independiente. Puede producirse por variación entre unidades
experimentales, variabilidad en las mediciones, imposibilidad de reproducir con exactitud
las condiciones de los tratamientos en las unidades experimentales o por presencia de
factores externos que no han sido controlados.

Existen varias estrategias para reducir el error experimental y aumentar la exactitud en las
mediciones. Tales técnicas se conocen como técnicas de control local. Las dos más
usadas son las siguientes:

• Selección de unidades experimentales uniformes (homogéneas)


INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 131

• Bloquización o agrupamiento de las unidades experimentales de modo que la


variación dentro de cada grupo después del agrupamiento sea menor que antes del
mismo

La bloquización suele realizarse de acuerdo con los siguientes criterios:


o Por proximidad física
o Por características físicas como edad, peso, tamaño, raza, etc
o Por simultaneidad temporal (unidades examinadas en la misma época) o
geográfica
o Por administración de tareas en el experimento

En muchos experimentos se presentan tratamientos de control que, por lo general, son


grupos de unidades experimentales a las que no se les da ningún tratamiento. Estos
tratamientos son útiles y necesarios en determinadas circunstancias, especialmente
cuando las condiciones del experimento sean un obstáculo para la efectividad de los
tratamientos. Un tratamiento control revela las condiciones en que se efectuó el
experimento. Por ejemplo, los fertilizantes con nitrógeno suelen ser efectivos pero en
campos altamente fértiles no producen respuesta. Hay también casos en los cuales la
manipulación de las unidades experimentales ya produce un efecto, en estos casos se usa
un control placebo.

Se entiende por replicaciones las repeticiones independientes del experimento básico, las
cuales se hacen por las razones siguientes:
a. Muestran que se pueden reproducir los resultados
b. Proporcionan seguridad contra los resultados anormales por accidentes no
previstos
c. Permiten estimar la varianza del error experimental
d. Aumentan la precisión en la estimación de las medias de los tratamientos

El número de réplicas mínimo por tratamiento no puede ser arbitrario. Dependiendo del
nivel de significancia al que se desee realizar el experimento, de la precisión de las
estimaciones y de la dispersión de las respuestas se debe calcular un mínimo de réplicas

( ) σ 
2 2

para cada tratamiento. Dicho valor está determinado por r = 2 z α + z β   donde


2 δ 
d es un porcentaje de la media general del experimento y 1 − β es la potencia de la
prueba (usualmente 0.8 o una cantidad mayor hasta 0.95)

El cálculo del número de réplicas no es sencillo pues usualmente no se conoce la media


general ni es fácil determinar el nivel de precisión de las estimaciones. Sin embargo,
como sucede frecuentemente, un experimento se realiza varias veces perfeccionando cada
vez su diseño. De esta manera los datos arrojados en las primeras realizaciones se
convierten en insumos para las siguientes realizaciones.
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 132

Conviene llamar la atención sobre el siguiente hecho importante: para calcular los
tamaños de muestra en cada tratamiento (número de réplicas) se fija un valor de
significancia a el cual determina el cuantil zα que se usa en la fórmula anterior. Esto
2
implica que para otro nivel de significancia menor que el anterior, el correspondiente
cuantil sea mayor y por tanto que se requiera un mayor tamaño de muestra, es decir,
mayor número de réplicas. En consecuencia, las conclusiones que se obtengan para el
nivel de significancia a posiblemente no sean válidas para niveles de significancia
inferiores. Es un error entonces, sacar conclusiones sin haber verificado previamente que
el número de réplicas del experimento es suficiente para ello.

Otro elemento importante en el diseño de los experimentos es el principio de


aleatorización el cual se usa como sustituto de la hipótesis de normalidad cuando se hace
una selección cuidadosa de unidades experimentales. Según este principio, las unidades
experimentales deben ser asignadas en forma aleatoria a los tratamientos. La
aleatorización disminuye la correlación entre unidades próximas reafirmando con ello la
independencia entre ellas. Además elimina sesgos producidos por la asignación
sistemática de los tratamientos a las unidades experimentales. Es bueno saber que no
siempre es posible aplicar el principio de aleatorización. Así sucede por ejemplo, en
experimentos ecológicos.

En general los diseños de experimentos deben satisfacer ciertos supuestos bajo los cuales
han sido desarrollados los principios teóricos que los sustentan. El cumplimiento de estos
supuestos garantiza la validez de los resultados y, por ello, debe ser verificado cada vez
que se analice un experimento. Son cuatro los supuestos más importantes que se debe
cumplir en un diseño: 1) Aditividad de los efectos lo que implica ausencia de
interacción. 2) Independencia de los términos de error 3) Normalidad de los errores y 4)
Homogeneidad de la varianza de los términos de error sin importar la magnitud de los
efectos.

Las condiciones anteriores imponen severas restricciones a los análisis de experimentos


basados en la técnica ANOVA y, en consecuencia, en la práctica debe constatarse su
cumplimiento antes de emitir juicios y tomar decisiones.

La violación fuerte de la normalidad afecta la validez de las pruebas F pues en tal caso no
se cumple en general que los cuadrados medios tengan distribuciones Ji cuadrado
independientes. Las inferencias que se realicen respecto a las medias en poblaciones no
normales siguen siendo válidas siempre que se utilicen muestras grandes. Esto,
s2
infortunadamente, no funciona con las varianzas pues en tales casos la varianza de 2 se
σ
incrementa en un factor proporcional a la curtosis afectando seriamente los niveles de
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 133

potencia, calculados bajo el supuesto de normalidad. Este problema tiene un impacto


menor cuando se usan muestras del mismo tamaño para todos los tratamientos (es decir,
en todas las celdas).

La falta de independencia de los términos de error se presenta cuando las observaciones


presentan correlación serial (autocorrelación). Por ejemplo, si cada observación presenta
con la siguiente una correlación ? (autocorrelación de primer orden) entonces se cumple:

σ2  1  σ2
E( x ) = µ , V( x ) = 1 + 2 ρ (1 − n )  y E (s 2 ) = (1 − 2 ρ )
n n

lo que hace que los intervalos de confianza calculados por los métodos corrie ntes no
cubran el verdadero valor de la media en los niveles de probabilidad para el cual se
construyen. Por ejemplo, para ? = 0.5 la probabilidad de 0.95 se reduce drásticamente a
0.166. Esto da una idea del impacto negativo que puede traer la falta de independencia
entre las observaciones de los tratamientos. Los problemas son mucho más graves cuando
existen autocorrelaciones de primero y otros órdenes.

La falta de homogeneidad de las varianzas tiene también implicaciones negativas pero


ellas dependen de los tamaños muestrales de los tratamientos. En los diseños balanceados
(es decir con el mismo tamaño de muestra en todos los tratamientos) el impacto negativo
de la carencia de homocedasticidad no es tan grave como en los diseños desbalanceados.
Aún con muestras grandes, en los diseños desbalanceados, se incrementa la varianza del
cociente de los cuadrados medios entre y dentro, lo que hace que se aumente la
probabilidad de incurrir en error tipo I. La estrategia para reducir la heterocedasticidad es
el uso de transformaciones monótonas –tales como el logaritmo- lo que puede afectar la
normalidad. Con todo, como se dijo antes, es menos grave la trasgresión de la normalidad
que la heterocedasticidad.

Mencionaremos por último la covariabilidad Con frecuencia es posible usar variables


relacionadas con la variable de respuesta que permiten ejercer un control de tipo
estadístico sobre la varianza del error experimental. Tales variables son conocidas como
covariables o variables concomitantes. Los análisis de experimentos que contemplan este
tipo de variables se conocen como análisis de covarianza.

Todos los principios generales que hemos mencionado hasta el momento son aplicables a
los diseños de experimentos de cualquier naturaleza, incluidos los ya estudiados
experimentos unifactoriales de una y dos vías.

Muy brevemente presentaremos ahora dos tipos de experimentos univariados y


multifactoriales: son los diseños de dos y tres factores.
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 134

14.10 Diseños multifactoriales

Al diseñar un experimento resulta difícil aislar completamente una única causa (variable
independiente) como responsable de los efectos que se producen en un fenómeno. Por lo
general dichos efectos son producidos en mayor o menor grado por un sinnúmero de
factores y, es un verdadero arte determinar cuáles de ellos son los más importantes. Es
evidente que al diseñar un experimento con demasiados factores activos los costos y las
dificultades teóricas de análisis pueden ser enormes. Por esta razón se busca reducir el
número de factores activos y controlar o eliminar la mayor parte de factores externos
(exógenos) que puedan causar interferencia. En la práctica se suelen admitir dos o tres
factores activos. Muy excepcionalmente, otros números, y casi nunca más de cinco.

14.10.1 Diseños bifactoriales

Existen varios diseños experimentales para dos factores. Aquí presentaremos únicamente
los diseños completos y balanceados de dos factores. Un diseño es completo cuando en él
se consideran todas las posibles combinaciones de niveles de cada factor. Así, por
ejemplo, si un factor en un experimento agronómico es el tipo de terreno (ácido, neutro y
alcalino) con tres niveles y otro factor es la temperatura con cuatro niveles (12°C, 16°C,
21°C y 25°C) habrá un total de 3 × 4 = 12 tratamientos posibles. Si a todos los 12
tratamientos se asigna unidades experimentales, el diseño será completo. Por el contrario,
será incompleto si uno o más de los tratamientos no tiene unidades experimentales
asignadas. Por otra parte un diseño factorial es balanceado cuando todos los tratamientos
tienen el mismo número de unidades experimentales asignadas. Por ejemplo, en el caso
citado, si cada uno de los 12 tratamientos tiene cuatro unidades experimentales, es decir
cuatro réplicas. Por razones de economía un experimento podría ser incompleto. Por
razones fortuitas –como la muestre de un animal o una planta- un diseño puede ser
desbalanceado. Tanto la incompletez como el desbalanceo son condiciones que
complican el análisis de un diseño factorial. Existen tratamientos para remediarlos pero
esos temas están fuera del alcance de esta obra.

Supóngase entonces que que se ha desarrollado un diseño completo y balanceado de dos


factores F1 y F2 con a y b niveles respectivamente. Supóngase además que en
cada uno de los ab tratamientos (combinaciones de los niveles) hay r réplicas y que
todas ellas han proporcionado una respuesta al final del experimento. Se tienen entonces
abr valores reales correspondientes a las respuestas de las correspondientes unidades
experimentales observadas, las cuales corresponden a la siguiente representación del
diseño:
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 135

Factor F2
Nivel 1 Nivel 2 … Nivel b
Nivel
1 y111 , y112 ,L , y11r y121 , y122 ,L , y12r … y1b1, y1b 2 ,L , y1br
2 y211 , y 212 ,L , y21r y221 , y 222 ,L , y22 r … y2b1, y 2b2 ,L , y2br
F1
… … … … …
a ya11 , y a12 ,L , y a1r ya 21 , y a22 ,L , y a2r … yab1 , yab2 ,L , yabr
Tabla 42. Disposición de los datos para un diseño de dos factores

Este diseño corresponde a un modelo estadístico de la forma yijk = µ ij + ε ijk donde i =


1,2,…, a; j = 1, 2, …, b; k = 1, 2, …, r; µij es la media del tratamiento
resultante al combinar los niveles i y j de F1 y F2 respectivamente y ε ijk son los
errores experimentales aleatorios que se suponen distribuídos normalmente con media 0
y varianza constante σ 2

En este tipo de diseños la suma de cuadrados de todas las observaciones


a b r
SCT = ∑∑∑ ( yijk − yL ) 2 se descompone en cuatro sumas de cuadrados a saber: una
i =1 j =1 k =1

correspondiente al factor F1, otra correspondiente al factor F2, una tercera


correspondiente a las combinaciones de niveles y una cuarta que es la suma de cuadrados
residual, o no explicada, que se denomina suma de cuadrados del error; las cuales están
dadas respectivamente por:

Suma de cuadrados para F1: SC1 = rb∑ (y i.. − y ... ) 2


b
Suma de cuadrados para F2: SC 2 = ra∑ ( y. j . − y... )2
j =1
a b
Suma de cuadrados para interacciones: SC12 = r ∑ ∑ ( yij. − yi.. − y. j. − y... ) 2
i =1 j =1

La interacción puede definirse por µij − µi. − µ. j + µ... . Las interacciones, cuando existen,
hacen que la respuesta a los tratamientos no sea dada exclusivamente por la suma de los
efectos de cada factor sino que parte de esa respuesta se debe a la interacción de los
factores. En otras palabras los efectos de los factores son aditivos en ausencia de
interacción.
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 136

Las sumas de cuadrados son variables aleatorias cuyas distribuciones como las de todas
las sumas de cuadrados son distribuciones Ji cuadrado con ciertos grados de libertad
dados de acuerdo con la siguiente tabla de análisis de varianza

Fuente de Suma de Grados de Cuadrados Cuadrados medios


Variación cuadrados libertad medios esperados
Factor F1 SC1 a–1 CM1=SC1/a-1) σ 2 + rbθ12
Factor F2 SC2 b–1 CM2=SC2/(b-1) σ 2 + raθ 22
Inter. F1*F2 SC12 (a - 1)(b - 1) CM12=SC12/(a-1)(b-1) σ 2 + rθ122
Error SCE ab( r - 1) CME=SCE/ab(r-1) σ2
Total SCT rab - 1 ------------- -------------
Tabla 43. Tabla de ANOVA para un diseño bifactorial completo

1 a 1 a
Donde θ12 = ∑ i. ...
a − 1 i=1
( µ − µ )
2
, θ
2
2 = ∑ (µ. j − µ... )2 ,
b −1 i=1
a
1
y θ12 =
2

( a − 1)(b −1) i =1
( µij − µi. − µ. j + µ...) ,
2

La tabla anterior proporciona los elementos necesarios para juzgar en primer lugar si las
interacciones entre los factores son significativas o no y en segundo lugar para saber si
existen efectos significativos de los factores, lo que finalmente se traduciría en diferencias
de medias entre tratamientos.

En efecto:

Si no existiera interacción entre los factores se tendría µij − µi. − µ. j + µ... = 0 lo que
CM 12
implicaría θ122 = 0 y, entonces, E(CME ) = σ 2 . En tal caso la razón tendría
CME
distribución F con (a - 1)(b - 1) y ab(r - 1) grados de libertad. En consecuencia, una
F con estas características proporciona un mecanismo de prueba para determinar la
significancia de la interacción entre los factores. Una interacción significativa puede
alterar la inferencia basada en las diferencias significativas entre las medias marginales de
los factores.

En caso de que la interacción no sea significativa, un argumento similar al ya expuesto


pero realizado sobre los cuadrados medios CM1 y CM2, permite concluir que bajo las
hipótesis nulas de igualdad de medias para los niveles de los respectivos factores, los
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 137

CM 1 CM 2
cocientes F1 = y F2 = son variables aleatorias que tienen distribución
CME CME
F con grados de libertad dados por los correspondientes grados de libertad de CM1,
CM2 y CME en la tabla. Esto proporciona herramientas para probar la igualdad de medias
para cada uno de los respectivos factores.

En caso de obtener valores de F1 o F2 que obliguen a rechazar las correspondientes


hipótesis nulas se pueden realizar pruebas de comparaciones múltiples para determinar
cuáles medias difieren entre sí. Una de las pruebas más usadas en estos casos es la prueba
de Tukey.

Ejemplo 14.6. El Mirogrex Terrae Santae es un pez semejante a la sardina que se


encuentra en el mar de Galilea. Se realizó un estudio para determinar el efecto de la luz y
la temperatura sobre el índice gonadosomático (GSI) que es una medida del crecimiento
del ovario. Se utilizaron dos fotoperiodos: a) 14 horas de luz y 10 de obscuridad y b) 9
horas de luz con 15 de obscuridad los cuales se cruzaron con dos niveles de temperatura
de agua: 16°C y 27°C. De esta manera se obtuvieron cuatro tratamientos: verano
simulado, invierno simulado y dos climas no naturales. En cada uno de estos ambientes se
han criado 5 peces. La variable respuesta es el GSI. Analizar este experimento si se
obtuvieron los siguientes valores del GSI al final del mismo.

FACTOR 2: Temperatura del agua


16°C (1) 27°C (2)
9 horas de luz 1.30 2.88 2.42 0.90 1.06 0.98
FACTOR 1 (1) 2.66 2.94 1.29 1.12
Fotoperiodos 14 horas de luz 1.01 1.52 1.02 0.83 0.67 0.57
(2) 1.32 1.63 0.47 0.66
Tabla 44. Datos para el ejemplo 14.6

Lo primero que ha de hacerse es construir un archivo de datos en el que aparece la


variable respuesta y la identificación de los niveles tanto del primero como del segundo
factor. Es conveniente además incluir otra identificación para el número de réplica. Si el
análisis se realiza con ESM, ésta última identificación es obligatoria. El archivo
correspondiente tendrá el siguiente aspecto:

1.30 1 1 1
2.88 1 1 2
2.42 1 1 3
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 138

2.66 1 1 4
2.94 1 1 5
0.90 1 2 1
1.06 1 2 2
0.98 1 2 3
1.29 1 2 4
1.12 1 2 5
1.01 2 1 1
1.52 2 1 2
1.02 2 1 3
1.32 2 1 4
1.63 2 1 5
0.83 2 2 1
0.67 2 2 2
0.57 2 2 3
0.47 2 2 4
0.66 2 2 5

Tabla 45. Disposición de los datos del ejemplo 14.6. para análisis con software

Nótese cómo los niveles de los factores se han identificado con los códigos 1 y 2. En
general es buena recomendación utilizar dígitos consecutivos para identificar los niveles
de los factores. El análisis realizado con ESM produce los siguientes resultados

TABLA ANOVA:
-------------------------------------------------------------------
FUENTE SUMA DE CUADRADOS GL CUADR.MEDIOS F
-------------------------------------------------------------------
F1 3.08 1 3.08 21.704
F2 5.15 1 5.15 36.285
F1*F2 0.63 1 0.63 4.439
Error 2.27 16 0.14 *******
TOTAL 11.13 19 ********* *******
-------------------------------------------------------------------

FACTORES VALOR P DISTRIBUCION


F1 = FOTOPE 0.000450 F( 1 , 16 )
F2 = TEMPER 0.000070 F( 1 , 16 )
F1*F2 0.048900 F( 1 , 16 )

ESTIMACIONES DEL MODELO:

MEDIA GENERAL: µ = 1.3625

VARIANZA GENERAL: σ2 = 0.1420

MEDIAS POR CELDAS:


Media de la celda( 1 , 1 ) = 2.4400
Media de la celda( 1 , 2 ) = 1.0700
Media de la celda( 2 , 1 ) = 1.3000
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 139

Media de la celda( 2 , 2 ) = 0.6400

V/R OBSERVADO V/R ESTIMADO RESIDUO


1.30 2.44 -1.1400
2.88 2.44 0.4400
2.42 2.44 -0.0200
2.66 2.44 0.2200
2.94 2.44 0.5000
0.90 1.07 -0.1700
1.06 1.07 -0.0100
0.98 1.07 -0.0900
1.29 1.07 0.2200
1.12 1.07 0.0500
1.01 1.30 -0.2900
1.52 1.30 0.2200
1.02 1.30 -0.2800
1.32 1.30 0.0200
1.63 1.30 0.3300
0.83 0.64 0.1900
0.67 0.64 0.0300
0.57 0.64 -0.0700
0.47 0.64 -0.1700
0.66 0.64 0.0200

El programa también estima los efectos de cada uno de los factores y las estimaciones,
pero estas salidas han sido suprimidas para mayor sencillez.

Como puede observarse el valor F para interacción es 0.439 que corresponde un valor P
de 0.0489 el cual, por ser muy cercano a 0.05, puede considerarse como no significativo.
Esto quiere decir que podríamos considerar que el modelo no tiene interacción y, en
consecuencia, es un modelo aditivo, así que podemos confiar en las deducciones acerca
de las medias. Puesto que tanto la F del factor F1 como la del factor F2 son significativas
por arrojar valores P muy pequeños (menores que 0.05) concluímos que hay diferencias
significativas entre los promedios de los niveles de cada factor.

Los residuos que fueron calculados por el programa se pueden usar para realizar con ellos
una prueba de validez del modelo. Deben tener distribución normal para que el modelo
cumpla con los supuestos. En este caso la prueba de Geary arroja un valor P de 0.005036
por lo que se puede concluir que el modelo presenta un problema de normalidad.

A manera de ejemplo, podemos realizar la prueba de Tukey para determinar si dentro del
fotoperiodo de 9 horas de luz hay diferencias entre los promedios de GSI para las dos
temperaturas. Es decir, estamos comparando los promedios de los tratamientos
CELDA(1,1) y CELDA(1,2), o lo que es igual: TRAT(9h,16°C) y TRAT(9h,27°C). Los datos
correspondientes a estos dos tratamientos son:
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 140

TRAT(9h, 16°C) TRAT(9h, 27°C)


1.30 0.90
2.88 1.06
2.42 0.98
2.66 1.29
2.94 1.12

y las correspondientes medias son 2.44 y 1.07

En este caso n1 = n2 = 5 , k = 2, ? = 16 (grados de libertad del error), en consecuencia


qk ,ν ,α = 3.64 (valor buscado en tabla) y por tanto:

CME  1 1  0.14  1 1 
 +  = 3.64 + = 0.61
2  5 5 
qk ,ν ,α
2  ni n j 

Puesto que y11 − y12 = 2.44 − 1.07 = 1.37 es un valor mayor que 0.61, se concluye que
sí hay diferencias significativas entre las medias de estos dos tratamientos.

Nótese que, en cambio, y12 − y 22 = 1.07 − 0.64 = 0.43 es un valor menor que 0.61 lo
que nos dice que entre los tratamientos CELDA(1,2) y CELDA(2,2), correspondientes a los
dos fotoperiodos dentro de la temperatura de 27 grados, no hay diferencias significativas.

14.10.2 Diseño trifactorial

Una vez se ha estudiado el diseño bifactorial completo y balanceado resulta inmediata la


comprensión de lo que sucede en el diseño trifactorial completo y balanceado. No
entraremos a presentar fórmulas para las descomposiciones de las sumas de cuadrados.
Tan solo diremos que en este caso la suma total de cuadrados se descompone en ocho (8)
sumas de cuadrados de acuerdo con lo siguiente:

1. Suma de cuadrados correspondiente al factor F1, SC1


2. Suma de cuadrados correspondiente al factor F2, SC2
3. Suma de cuadrados correspondiente al factor F3, SC3
4. Suma de cuadrados para la interacción de segundo orden F1*F2, SC12
5. Suma de cuadrados para la interacción de segundo orden F1*F3, SC13
6. Suma de cuadrados para la interacción de segundo orden F2*F3, SC23
7. Suma de cuadrados para la interacción de tercer orden F1*F2*F3, SC123
8. Suma de cuadrados residual, no explicada o de error, SCE.

Todas las sumas de cuadrados anteriores son variables aleatorias con distribuciones Ji
cuadrado y, por consiguiente al ser divididas entre sus grados de libertad (ver tabla anova
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 141

para este tipo de diseño) los cuadrados medios correspondientes representan varianzas.
Los siete cocientes resultantes al dividir cada cuadrado medio entre el CME representan
valores de cuantiles bajo distribuciones F con los grados de libertad apropiados que
permiten probar hipótesis, en primer lugar sobre la significancia de las interacciones y, en
segundo lugar, sobre la igualdad de las medias de los niveles en los respectivos factores.
Igual que en los casos anteriores se puede aplicar la prueba de Tukey para comparar las
medias de dos tratamientos cualesquiera.

El cuadro siguiente representa la tabla de análisis de varianza para un experimento


factorial completo y balanceado de tres factores F1, F2 y F3 con niveles a, b y c,
respectivamente.

Fuente de Suma de Grados de Cuadrados medios Valor F


Variación Cuadrdos Libertad (Varianzas)
F1 SC1 ?1 = a-1 CM1 = SC1 / ?1 f1= CM1 / CME
F2 SC2 ?2 = b -1 CM2 = SC2 / ?2 f2=CM2 / CME
F3 SC3 ?3 = c -1 CM3 = SC3 / ?3 f3=CM3 / CME
F1xF2 SC12 ?12 = (a-1)(b-1) CM12 =SC12 / ?12 f12=CM12 / CME
F1xF3 SC13 ?13 = (a-1)(c-1) CM13 =SC13 / ?13 f13=CM13 / CME
F2xF3 SC23 ?23 = (b-1)(c-1) CM23 =SC23 / ?23 f23=CM23 / CME
F1xF2xF3 SC123 ?123 = (a-1)(b-1)(c-1) CM123 =SC123 / ?123 f123=CM123 / CME
Error SCE ν E = abc(r – 1) CME =SCE / νE ----------------
Total SCT ν T = abcr - 1 -------------- ----------------
Tabla 46. Tabla de Análisis de varianza para un diseño completo de tres factores

Ejemplo 14.7: Con el fin de determinar el efecto de los niveles de agua, la temperatura y
el tipo de planta en la producción de guisantes, se disponen aleatoriamente 36 plantas sin
hojas en 9 grupos de 4 plantas cada uno los cuales se asignan aleatoriamente a las
combinaciones de tres niveles de agua (bajo, medio y alto) con tres temperaturas (15°C,
18°C y 21°C) en un invernadero. Este mismo experimento se repite simultáneamente y
en las mismas condiciones con 36 plantas con hojas. Resulta así un experimento factorial
3 × 3× 2 , lo que significa que el primer factor tiene 3 niveles, el segundo 3 niveles y el
tercero 2 niveles. Los valores de producción de cada planta se resumen en el siguiente
cuadro:
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 142

N I V E L D E A G U A = F1
1 = Bajo 2 = Medio 3 = Alto
F2 = Temperatura F2 = Temperatura F2 = Temperatura
Tipo de Planta 1 2 3 1 2 3 1 2 3
F3 15° 18° 21° 15° 18° 21° 15° 18° 21°

69.1 87.3 72.3 80.4 93.1 94.3 100.1 121.2 100.1


P Sin Hojas 70.2 80.1 73.1 83.5 88.6 96.1 97.3 120.5 98.3
L 1 68.3 78.6 74.1 84.1 90.2 96.5 90.6 119.3 103.1
A 72.1 74.3 72.6 79.6 101.3 91.4 94.1 115.6 92.1
N
T 68.0 74.3 73.4 81.5 90.8 96.7 89.6 96.2 98.1
A Con Hojas 66.5 72.1 74.2 82.5 91.3 92.3 90.2 101.3 99.6
2 68.9 75.0 71.8 84.6 92.0 94.1 91.3 99.6 95.4
71.1 70.3 72.1 78.1 93.1 95.2 90.0 100.2 98.6
Tabla 47 Datos para el ejemplo 14.7

Para el análisis estadístico con ESM se crea un archivo de datos en el que cada una de las
72 observaciones se escribe acompañada de cuatro identificadores según el nivel de cada
factor y el número de réplica. Es decir, dicho archivo está conformado por una variable de
respuesta y cuatro variables categóricas de identificación. Los resultados obtenidos están
consignados en la salida de la página siguiente.

Como puede apreciarse en este ejemplo las interacciones son significativas lo que hace
que el modelo no sea aditivo. Este resultado dificulta los análisis pues ahora no se puede
estar seguro sobre las pruebas de comparaciones de medias ni en los niveles de los
factores ni en los diferentes tratamientos. No profundizaremos más en el análisis de este
ejemplo pues su discusión necesita herramientas más especializadas, propias de un curso
de diseño, que no han sido presentadas en esta obra.

TABLA ANOVA:
---------------------------------------------------------------------
FUENTE SUMA DE CUADRADOS GL CUADR.MEDIOS F
---------------------------------------------------------------------
F1 (A) 9029.73 2 4514.86 544.144
F2 (B) 1607.95 2 803.97 96.897
F3 (C) 286.00 1 286.00 34.470
A*B 469.45 4 117.36 14.145
A*C 200.49 2 100.24 12.082
B*C 285.41 2 142.70 17.199
A*B*C 180.01 4 45.00 5.424
Error 448.05 54 8.30 *******
TOTAL 12507.08 71 ********* *******
---------------------------------------------------------------------
(A) = AGUA: P = 0.000000 F( 2 , 54 )
(B) = TEMP: P = 0.000000 F( 2 , 54 )
(C) = TIPO: P = 0.000010 F( 1 , 54 )
Interacción (A)*(B): P = 0.000000 F( 4 , 54 )
Interacción (A)*(C): P = 0.000140 F( 2 , 54 )
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 143

Interacción (B)*(C): P = 0.000020 F( 2 , 54 )


Interac (A)*(B)*(C): P = 0.001250 F( 4 , 54 )

ESTIMACIONES:

a) Media General: 87.54861111111115

b) Varianza general (CME): 8.297175925923959

c) Media por celda:


Media Celda( 1 , 1 , 1 ): 69.92500000000001
Media Celda( 1 , 1 , 2 ): 68.625
Media Celda( 1 , 2 , 1 ): 80.07499999999999
Media Celda( 1 , 2 , 2 ): 72.925
Media Celda( 1 , 3 , 1 ): 73.02499999999999
Media Celda( 1 , 3 , 2 ): 72.875
Media Celda( 2 , 1 , 1 ): 81.90000000000001
Media Celda( 2 , 1 , 2 ): 81.675
Media Celda( 2 , 2 , 1 ): 93.3
Media Celda( 2 , 2 , 2 ): 91.80000000000001
Media Celda( 2 , 3 , 1 ): 94.57499999999999
Media Celda( 2 , 3 , 2 ): 94.575
Media Celda( 3 , 1 , 1 ): 95.52500000000001
Media Celda( 3 , 1 , 2 ): 90.27500000000001
Media Celda( 3 , 2 , 1 ): 119.15
Media Celda( 3 , 2 , 2 ): 99.325
Media Celda( 3 , 3 , 1 ): 98.40000000000001
Media Celda( 3 , 3 , 2 ): 97.92500000000001

d) Medias por niveles de AGUA:


Media Factor 1 Nivel ( 1 ): 72.90833333333332
Media Factor 1 Nivel ( 2 ): 89.63749999999999
Media Factor 1 Nivel ( 3 ): 100.1

e) Medias por niveles de TEMP:


Media Factor 2 Nivel ( 1 ): 81.32083333333331
Media Factor 2 Nivel ( 2 ): 92.76249999999999
Media Factor 2 Nivel ( 3 ): 88.56249999999999

f) Medias por niveles de TIPO:


Media Factor 3 Nivel ( 1 ): 89.54166666666666
Media Factor 3 Nivel ( 2 ): 85.55555555555553

El siguiente ejemplo de mejor comportamiento ilustrará además el uso de la prueba de


Tukey para comparar tratamientos.

Ejemplo 14.8: los datos siguientes representan los registros de producción de una
empresa que ha estado ensayando diferentes políticas de trabajo entre sus empleados. El
diseño muestra los resultados al implementar dos jornadas de trabajo, una de 10 horas
diarias y otra de 8 horas diarias (4 días a la semana y 5 días respectivamente), dos turnos,
uno diurno y otro nocturno y tres alternativas de descanso en cada jornada: uno con un
solo descanso a la mitad de la jornada, otro con dos desacansos en la jornada y otro con
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 144

tres descansos. El diseño es entonces un factorial 2 × 2 × 3 con dos réplicas en el que los
factores son respectivamente: jornadas, turnos y descansos.

Turno diurno Turno nocturno


(1) (2)
Descansos Descansos
Jornada 1 2 3 1 2 3

(1) 94 105 96 90 102 103


10 horas 97 106 91 89 97 98

(2) 96 100 82 81 90 94
8 horas 92 103 88 84 92 96
Tabla 48. Datos para el ejemplo 14.8

El archivo de datos correspondiente para el análisis está consignado en la tabla siguiente.


En ella la primera variable es la respuesta (RENDIM = calificación del rendimiento), y
cuatro variables categóricas que son respectivamente: jornada (JORNA D), turno (TURNOS),
descansos (DESCAN) y réplica. En otros paquetes no es necesario contemplar la variable
REPLICA dentro del archivo de datos cuando el diseño es balanceado.

94 1 1 1 1
97 1 1 1 2
105 1 1 2 1
106 1 1 2 2
96 1 1 3 1
91 1 1 3 2
90 1 2 1 1
89 1 2 1 2
102 1 2 2 1
97 1 2 2 2
103 1 2 3 1
98 1 2 3 2
96 2 1 1 1
92 2 1 1 2
100 2 1 2 1
103 2 1 2 2
82 2 1 3 1
88 2 1 3 2
81 2 2 1 1
84 2 2 1 2
90 2 2 2 1
92 2 2 2 2
94 2 2 3 1
96 2 2 3 2
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 145

Parte del archivo de resultados arrojado por ESM (se han omitido las estimaciones de los
efectos) es lo siguiente:

TABLA ANOVA:
---------------------------------------------------------------------
FUENTE SUMA DE CUADRADOS GL CUADR.MEDIOS F
---------------------------------------------------------------------
F1 (A) 204.17 1 204.17 29.878
F2 (B) 48.17 1 48.17 7.049
F3 (C) 334.08 2 167.04 24.445
A*B 8.17 1 8.17 1.195
A*C 8.08 2 4.04 0.591
B*C 385.58 2 192.79 28.213
A*B*C 21.58 2 10.79 1.579
Error 82.00 12 6.83 *******
TOTAL 1091.83 23 ********* *******
---------------------------------------------------------------------
(A) = JORNAD: P = 0.000290 F( 1 , 12 )
(B) = TURNOS: P = 0.020060 F( 1 , 12 )
(C) = DESCAN: P = 0.000160 F( 2 , 12 )
Interacción (A)*(B): P = 0.296090 F( 1 , 12 )
Interacción (A)*(C): P = 0.573050 F( 2 , 12 )
Interacción (B)*(C): P = 0.000100 F( 2 , 12 )
Interac (A)*(B)*(C): P = 0.245510 F( 2 , 12 )

ESTIMACIONES:

a) Media General: 94.41666666666667

b) Varianza general (CME): 6.833333333336564

c) Media por celda:

Media Celda( 1 , 1 , 1 ): 95.5


Media Celda( 1 , 1 , 2 ): 105.5
Media Celda( 1 , 1 , 3 ): 93.5
Media Celda( 1 , 2 , 1 ): 89.5
Media Celda( 1 , 2 , 2 ): 99.5
Media Celda( 1 , 2 , 3 ): 100.5
Media Celda( 2 , 1 , 1 ): 94
Media Celda( 2 , 1 , 2 ): 101.5
Media Celda( 2 , 1 , 3 ): 85
Media Celda( 2 , 2 , 1 ): 82.5
Media Celda( 2 , 2 , 2 ): 91
Media Celda( 2 , 2 , 3 ): 95

d) Medias por niveles de JORNAD:


Media Factor 1 Nivel ( 1 ): 97.33333333333333
Media Factor 1 Nivel ( 2 ): 91.5

e) Medias por niveles de TURNOS:


Media Factor 2 Nivel ( 1 ): 95.83333333333333
Media Factor 2 Nivel ( 2 ): 93
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 146

f) Medias por niveles de DESCAN:


Media Factor 3 Nivel ( 1 ): 90.375
Media Factor 3 Nivel ( 2 ): 99.375
Media Factor 3 Nivel ( 3 ): 93.5

Como puede observarse en la salida de la tabla de análisis de varianza, la interacción de


los factores F1 y F2 es significativa lo que resta aditividad al modelo pero, dado que las
demás interacciones no lo son, podemos aceptar las conclusiones sin demasiadas
prevenciones. En este caso los valores P para los tres factores indican que las medias en
los niveles de dichos factores no son iguales. Para determinar cuáles niveles o cuales
tratamientos difieren se deben realizar comparaciones múltiples. Para ello podemos
aplicar el método de Tukey, utilizando las diferentes medias que el programa ha
calculado.

La comparación de las medias en los factores de dos niveles no requiere de la prueba de


Tukey pues al ser sólo dos niveles y saber que ellos difieren será mayor la media del nivel
que presente la mayor media muestral. Así, hay mayor rendimiento en la jornada de 10
horas que en la de 8 horas pues los valores respectivos de las medias muestrales son 95.83
para la primera y 93.0 para la segunda. Igualmente se puede concluir que el turno diurno
produce mejores resultados que el nocturno

Aplicaremos la regla de Tukey para determinar cuál sistema de descansos produce


mejores resultados. Para tal efecto ordenamos de menor a ma yor las medias muestrales
para los tres niveles obteniendo : 90.38 (un descanso), 93.5 (tres descansos) y 99.38 (para
dos descansos). Puesto que el diseño es balanceado con ni = 8 (hay 8 observaciones en
cada forma de descanso) y el error cuadrático medio ( s 2 = ECM = 6.83) tiene ν = 12
grados de libertad, para k = 3 tratamientos, se encuentra en la tabla (anexo 2) que
qk ,ν ,α = 3.77 (se ha tomado a = 0.05, como es usual). Esto nos lleva a

ECM  1 1 
ω = qk ,ν ,0.05  +  = 3.48 , valor que se compara con las diferencias entre
2  ni n j 
medias como lo sugiere el siguiente cuadro:

Nivel: (1) (3) (2)


No de descansos: Uno Tres Dos
Media estimada: 90.38 93.5 99.38
Diferencias: 3.12 5.88

Tabla 49. Comparación de medias en el ejemplo 14.8 con el método de Tukey


INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 147

Este cuadro muestra que la diferencia entre los niveles 1 y 3 no es significativa pues es
menor que ω , mientras que la diferencia entre los niveles 3 y 2 –y por consiguiente entre
los niveles 1 y 2- sí es significativa ya que ella es mayor que ω . En este caso la
conclusión es que resulta mejor otorgar dos descansos en la jornada y que no hay
diferencias entre uno y tres descansos.

En resumen el sistema de trabajo que proporciona mejores rendimientos es jornada diurna


en turnos de 10 horas con dos descansos. Esto corresponde a la celda (1,1,2) cuya media
es 105.5. Es decir, que la calificación de rendimiento en esta forma de trabajo se estima
en 105.5. Nótese que si sólo interesa determinar cuál es el mejor tratamiento de los 12
posibles, bastaría seleccionar aquel correspondiente a la celda cuya media sea mayor. Sin
embargo las comparaciones suelen ser útiles porque podría suceder que hubiera dos o más
tratamientos cuyas medias no difieran significativamente y entonces podría escogerse
aquel que resulte más benéfico según otros criterios. Por ejemplo, aquel que sea menos
costoso, o el que implique menos riesgos laborales, etc.

Puesto que la interacción F2*F3 (es decir, TURNO*DESCANSO ) ha resultado significativa


podemos realizar una comparación de sus efectos utilizando también la regla de Tukey.
Esta comparación puede hacerse por separado para la jornada de 10 horas y para la
jornada de 8 horas. Aquí presentaremos la comparación para la jornada de 10 horas,
dejando al lector que compare los efectos en la jornada de 8 horas. El cuadro siguiente
presenta las medias ordenadas y sus diferencias:

Tratam.
Celda: 1,2,1 1,1,3 1,1,1 1,2,2 1,2,3 1,1,2
Media 89.5 93.5 95.5 99.5 100.5 105.5
Diferencia 4.0 2.0 4.0 1.0 5.0

Tabla 50. Comparación de medias en ejemplo 14.8. Método de Tukey

En este caso el número de tratamientos es k = 6, cada uno con ni = 2 observaciones. Los


grados de libertad del error y el valor de ECM son los mismos de antes, así que
q2, 12, 0.05 = 4.75 y, por tanto, ω = 8.77 . Seleccionamos el primer par de celdas que
difieran por una cantidad mayor que 8.77, en este caso las celdas 121 y 122. Entonces
los tratamientos 121, 113 y 111 no difieren entre sí. 111, 122 y 123 tampoco difieren
entre sí y finalmente 122, 123 y 112 tampoco difieren entre sí. Si dos tratamientos no
difieren entre sí entonces dos tratamientos cualesquiera comprendidos entre ellos tampoco
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 148

difieren. Esto permite señalar las medias que no difieren como se indica en el siguiente
cuadro.

Tratamiento: 1,2,1 1,1,3 1,1,1 1,2,2 1,2,3 1,1,2


Media: 89.5 93.5 95.5 99.5 100.5 105.5
Vínculos: AAAAAAAAAAAA
BBBBBBBBBBBBB
CCCCCCCCCCCCC
Tabla 51. Método de Tukey para comparación de medias. Ejemplo 14.8

En esta tabla cualesquiera dos medias o tratamientos unidos por la misma letra (es decir,
con el mismo vínculo) no presentan diferencias significativas.

14.11 Diseños de efectos aleatorios


Muy brevemente se hará una referencia a los diseños factoriales de efectos aleatorios ya
mencionados anteriormente. Estos diseños se usan para estudiar el comportamiento de la
variabilidad y en qué medida ella contribuye a los efectos de los tratamientos.

En un diseño unifactorial balanceado se construye una tabla ANOVA en la forma usual


pero aparece una columna adicional en la que se encuentran los valores esperados de los
cuadrados medios, ya que la varianza de cada observación σ y2 puede verse como la suma
σ a2 + σ ε2 donde σ a2 (varianza entre grupos) es la varianza de la distribución de los efectos
y σ ε2 (varianza aleatoria) es la varianza residual. Estos dos valores se conocen como
componentes de varianza.

Si σ a2 = 0 entonces los efectos de los tratamientos son iguales pero si σ a2 > 0 existe
variabilidad entre ellos. En este último caso la diferencia entre los efectos de los
tratamientos puede deberse a la variabilidad entre las observaciones.

La tabla de análisis de varianza tiene la forma siguiente:

Origen de V S de C. GL Cuadr.med. C.M.Esperad F


Entre SCTr k -1 CMtr niσ a2 + σ ε2 CMtr
F=
CMerr
Dentro SCErr n-k CMerr σ ε2
Total SCtot n-1 ------- -------
Tabla 52. Tabla ANOVA para un diseño de efectos aleatorios en una vía
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 149

Con la información proporcionada por esta tabla se prueba la hipótesis nula H 0 : σ a2 = 0


versus la alterna H 1 : σ a2 > 0 lo que se hace utilizando el valor calculado F que tiene
distribución Fk −1,n −k .

Para hacer una estimación de las componentes de varianza se toma la columna de


cuadrados medios como una estimación de los cuadrados medios esperados, lo que lleva
al planteamiento del sistema de ecuaciones lineales:

 niσ a2 + σ ε2 = CMtr

 σ ε = CMerr
2

) CMtr − CMerr )
cuya solución está dada por σ a2 = y σ ε2 = CMerr
ni
En algunos casos especiales estas soluciones pueden resultar extrañas pues pueden
aparecer valores negativos los cuales no tienen una interpretación clara. Existen otros
métodos de estimación que no se estudian en esta obra.

Si el diseño no es balanceado y el tamaño de muestra para los tratamientos es variable,


) 2 CMtr − CMerr 1  ni2 
k
σ a se estima por σ a = donde r0 = n − ∑  .
2

r0 k −1 i =1 n 

σ a2
Se define el coeficiente de correlación intraclase como ρ I = , el cual varía entre
σ a2 + σ ε2
1
− y 1 (en diseños balanceados). Si ρ I es grande el afecto aleatorio común a un
r −1
grupo afecta por igual a todos los individuos de ese grupo, de manera que la similitud
entre individuos es mayor dentro del mismo grupo que entre los individuos de grupos
diferentes. Esto se debe a que la varianza residual es muy pequeña frente a la varianza
entre clases. Por el contrario, si ρ I es pequeño existe disimilaridad entre los individuos
de cada grupo lo que dice que la diferencia de medias puede deberse a la variabilidad
interna de los grupos. Por ejemplo, en un problema de dietas los recursos nutritivos
pueden causar disparidad de crecimiento dentro de cada grupo. Esto puede suceder, por
ejemplo, si los individuos más vigorosos y agresivos toman la mayor parte de dicho
recurso.

El problema de componentes de varianza en diseños de efectos aleatorios puede ser


extendido a diseños multifactoriales pero la teoría necesaria para su estudio escapa a la
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 150

proyección de esta obra. El paquete ESM-plus V8 permite estimar componentes de


varianza para diseños bifactoriales en los cuales ambos factores son de efectos aleatorios
y para diseños bifactoriales mixtos en los cuales un factor es de efectos fijos y el otro de
efectos aleatorios.

El siguiente ejemplo de un diseño unifactorial de efectos aleatorios, analizado con ESM,


permite ilustrar lo dicho en los párrafos anteriores.

Ejemplo 14.9: En un estudio de genética con reses, varios machos se aparearon con
grupos diferentes de hembras. Si nacían terneros (machos) se usaban en un estudio de
pesos hereditarios. La tabla siguiente muestra el peso al nacer de 8 terneros por cada uno
de los 5 grupos usados en el estudio.

Grupo 1 Grupo 2 Grupo 3 Grupo 4 Grupo 5


61 75 58 57 59
100 102 60 56 46
56 95 60 67 120
113 103 57 59 115
99 98 57 58 115
103 115 59 121 93
75 98 54 101 105
62 94 100 101 75

Tabla 53. Datos para el ejemplo 14.9

Resultados:

TABLA ANOVA PARA COMPONENTES DE VARIANZA:


----------------------------------------------------------------------------
FUENTE: SUM.CUADR GL CUADR.MEDIO F
----------------------------------------------------------------------------
Modelo 5591.1500 4 1397.7875 3.0138
Error 16232.7500 35 463.7929 *****
Total 21823.9000 39 ***** *****
---------------------------------------------------------------------------
R2 = .256193 F tiene 4 y 35 Grados de libertad
Valor P de probabilidad: 0.03042000
Valor exacto del CME = 463.7928571428571

ESTIMACION DE LAS COMPONENTES DE VARIANZA:


-----------------------------------------------------------------------
Varianza ENTRE: SIGMAa2 = 116.7493303571436
Varianza DENTRO: SIGMAe2 = 463.7928571428571

Coeficiente de Correlación Intraclases: .2011039557002796


INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 151

Puesto que el valor P de probabilidad para la F es menor que a = 0.05 se rechaza la


hipótesis de que σ a2 = 0 . Esto significa que existe varianza entre clases, es decir, que
dentro de los grupos hay mucha disimilaridad. Esto implica que de existir diferencias en
las medias de los tratamientos, dicha diferencia podría estar ocasionada por la
variabilidad interna de los grupos.

En este ejemplo σ a2 = 116.75 , σ ε2 = 463.79 y ρ I = 0.2011 , valor que puede ser


considerado pequeño, confirmando la existencia de disimilaridad entre individuos de cada
grupo. Esto, por supuesto, implica que hay diferencias entre los efectos de los
tratamientos, pero, como se advirtió antes, dichas diferencias podrían estar causadas por
la falta de homogeneidad dentro de los grupos y no por los tratamientos.

15 ANALISIS MULTIVARIADO

Introducción
Estas notas, realizadas de una manera informal, recogen algunas ideas generales acerca de
algunas técnicas multivariadas de aplicación frecuente en la investigación. Ellas se
enfocan principalmente hacia los métodos factoriales simples y múltiples y en particular
al análisis de componentes principales, los análisis de correspondencias y la clasificación
de individuos.

15.1 ANALISIS DE COMPONENTES PRINCIPALES - ACP

El análisis de componentes principales (ACP) no es una técnica nueva; fue propuesto a


principios del siglo pasado por Karl Pearson. Sin embargo la complejidad de los cálculos
retrasaron el desarrollo de la técnica hasta la aparición de los computadores y su
utilización en la segunda mitad del siglo XX. El relativamente reciente florecimiento de
los métodos basados en componentes principales hace que estas técnicas sean
desconocidas por una gran cantidad de investigadores no especialistas en estadística.

Podría decirse que el objetivo principal que persigue el ACP es la representación de las
medidas numéricas de varias variables en un espacio de pocas dimensiones donde
nuestros sentidos puedan percibir relaciones que de otra manera permanecerían ocultas en
dimensiones superiores. Dicha representación debe ser tal que al desechar dimensiones
superiores (generalmente de la tercera o cuarta en adelante) la pérdida de información sea
mínima. Un símil podría ilustrar la idea: imaginemos una gran lámina rectangular (objeto
de tres dimensiones) de por ejemplo, 3m de larga, 2m de ancha y 4 cm de espesor. Para
efectos prácticos, dicha lámina puede ser considerara como un objeto plano (de dos
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 152

dimensiones) de 3m de largo por 2m de ancho. Al realizar esta reducción de


dimensionalidad se pierde cierta cantidad de información ya que, por ejemplo, puntos
opuestos situados en las dos caras de la lámina aparecerán confundidos en un solo. Se
pierden las distancias perpendiculares a las caras. Sin embargo, la pérdida de información
se ve ampliamente compensada con la simplificación realizada, ya que muchas
relaciones, como la vecindad entre puntos, es más evidente cuando éstos se dibujan sobre
un plano que cuando se hace mediante una figura tridimensional que necesariamente debe
ser dibujada en perspectiva.

Lo anterior, aunque sugiere que el ACP es una técnica descriptiva, no niega la posibilidad
de que también pueda ser utilizado con fines de inferencia. Por otra parte, las aplicaciones
del ACP son numerosas y entre ellas podemos citar la clasificación de individuos, la
comparación de poblaciones, la estratificación multivariada, etc.

Principios del ACP

En las líneas que siguen se presentarán los fundamentos del ACP, tratando de reducir al
mínimo el aparato formal que lo sustenta, ésto en aras de la sencillez y la brevedad y con
el fin de que el tema sea adecuado a públicos de mediana preparación en matemáticas.

Comencemos con un sencillo ejemplo ficticio en dos dimensiones. Supóngase que se


mide el peso en kilogramos y la longitud en cent ímetros de 20 peces y que se obtienen los
siguientes datos:

PEZ PESO LONGIT PEZ PESO LONGIT


1 0.5 15 11 3.5 55
2 1.0 30 12 5.0 85
3 2.5 55 13 6.0 75
4 6.5 85 14 4.5 60
5 4.5 70 15 1.5 50
6 1.5 35 16 5.0 75
7 2.5 65 17 7.5 85
8 1.5 45 18 2.5 40
9 3.5 45 19 3.5 65
10 0.5 25 20 4.0 80

Los datos anteriores pueden ser dibujados mediante un diagrama de dispersión en un


sistema coordenado, obteniéndose una figura como la siguiente:
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 153

PESO 5

0
10 20 30 40 50 60 70 80 90

LONG

Como se puede apreciar, cada variable puede representarse sobre un eje coordenado y así
cada pareja de valores ( xi , y i ) representa las medidas del i- ésimo individuo, los cuales
al ser representados en el plano forman la nube de individuos.

Se quiere construir un nuevo sistema de coordenadas perpendiculares en el cual los


puntos puedan ser representados de una manera tal que sus proyecciones sobre el primer
eje recojan la mayor cantidad posible de variación y las proyecciones sobre el segundo eje
recoja el resto de variación. Intuitivamente encontramos que tales ejes corresponden a las
rectas F1 y F2, representadas en la siguiente gráfica cuyo origen se halla en el centro de
gravedad G de la nube (punto cuyas coordenadas son las medias de las variables
consideradas), tal como se ve en la figura siguiente:

7
F2 F1
6

5
PESO

0
10 20 30 40 50 60 70 80 90

LONG
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 154

Con mucha frecuencia se maneja simultáneamente un número p ( p ≥ 3 ) de variables


numéricas. Si cada variable se representa sobre un eje, se necesitaría un sistema de
coordenadas rectángulares con p ejes perpendiculares entre sí para ubicar las
coordenadas de los puntos y poderlos dibujar. Este dibujo es realmente imposible para el
ser humano cuando p ≥ 4 , pero la idea esbozada en el ejemplo anterior sigue siendo
válida: buscar un nuevo sistema de coordenadas con origen en el centro de gravedad de la
nube de puntos de tal manera que el primer eje del nuevo sistema (F1) recoja la mayor
cantidad posible de variación, el segundo eje F2, la mayor cantidad posible entre la
variación restante, el tercer eje F3 la mayor posible entre la variación que queda después
de las dos anteriores y así sucesivamente.

Observando la figura anterior se puede deducir que el nuevo sistema de coordenadas se


logra después de dos movimientos de la nube de puntos: un primer movimiento es una
traslación que permite situar el nuevo origen en el centro de gravedad de la nube. La
nueva nube, obtenida después de esta traslación se llama nube centrada. Un segundo
movimiento que se hace sobre la nube centrada es una rotación, usando el centro de
gravedad como punto pivotal. Esta rotación ha de hacerse de tal manera que el nuevo
primer eje del sistema de coordenadas apunte en la dirección de máxima dispersión de la
nube centrada, el segundo eje apunte en la dirección con la segunda mayor dispersión, el
tercer eje en la dirección de tercera mayor dispersión y así sucesivamente. Es evidente
que el nuevo sistema de coordenadas tiene entonces tantos ejes como tenía el antiguo, es
decir, tantos ejes como variables se hayan considerado inicialmente.

En los cursos de álgebra lineal se habla comúnmente de las transformaciones lineales de


un espacio vectorial y se demuestra que toda transformación lineal está asociada a una
matriz. En particular, las rotaciones de un espacio vectorial son transformaciones lineales
del espacio vectorial sobre sí mismo y están asociadas con matrices cuadradas, unitarias y
ortogonales. Una matriz de éstas, Q, tiene tantas filas y columnas como sea la dimensión
del espacio, sus columnas son vectores unitarios (es decir de longitud igual a la unidad) y
tiene la particularidad de que al ser multiplicada por su transpuesta produce la matriz
unidad. En otras palabras, Q −1 = Q′ . Las traslaciones no son transformaciones lineales
pero tienen la propiedad de no modificar la variabilidad de la nube de puntos. Es decir,
las varianzas y covarianzas en la nube son las mismas antes y después de una traslación.

Los resultados expuestos en el párrafo anterior, junto con algunas propiedades de la


matriz de varianzas covarianzas S , correspondiente a las variables originales y que serán
presentadas a continuación, constituyen las bases sobre las cuales descansa la técnica de
componentes principales.
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 155

Consideremos entonces p variables aleatorias de tipo numérico X 1 , X 2 , L , X p las


cuales posiblemente estén correlacionadas entre sí.... Podemos pensar que las p variables
anteriores, consideradas conjuntamente, forman un vector aleatorio o variable aleatoria
multivariada, denotada por: X = ( X 1 , X 2 ,L , X p )

La matriz de varianzas covarianza para la variable X está definida como S y su entrada


en la fila i columna j es el valor de la covarianza entre X i y X j . Esto hace que la
diagonal de S esté conformada por las varianzas V( X 1 ), V( X 2 ), L , V( X p ) y que S
sea simétrica. Además se puede probar que es una matriz definida positiva (es decir, la
forma cuadrática asociada a ella tiene todas sus raices positivas). Todas estas propiedades
de S hacen que esta matriz tenga p valores propios reales y diferentes. Esto en
particular garantiza que S sea diagonalizable. Es decir, se puede encontrar una matriz
Q , invertible, tal que S = QΛQ −1 donde Λ es la matriz diagonal formada por los
valores propios de S , denotados λ1 , λ2 , L , λ p

Es posible reordenar de acuerdo con su magnitud los valores propios de S de tal manera
que λ1 sea el mayor de ellos, λ 2 el que le sigue, etc y λ p el menor de todos. Esto
simplemente se traduce en un reordenamiento de las columnas de la matriz Q de manera
que la primera sea un vector propio asociado con λ1 , la segunda un vector propio
asociado con λ 2 y así sucesivamente. En particular dichas columnas pueden estar
formadas por vectores propios normalizados, es decir, perpendiculares entre sí y de
longitud igual a la unidad. De esta manera se construye una matriz que produce la
rotación deseada ya que, como puede probarse, el primer vector propio
U 1 = ( u11 , u12 ,L , u1 p )' apunta en la direcció n de máxima variabilidad de la nube
centrada. Esta dirección se llama primera dirección principal. El segundo vector propio
U 2 = (u 21 , u 22 ,L , u 2 p )' apunta en la siguiente dirección de máxima variabilidad de la
nube centrada, llamada segunda dirección principal y así sucesivamente.

Una vez resuelto el problema de la rotación, bastará multiplicar la variable centrada


X c = X − G = ( X 1c , X 2c , L , X cp ) (donde G es el centro de gravedad) por la matriz de
rotación Q para obtener la nueva variable F = ( F1 , F2 , L , F p ) , llamada Variable de
Componentes Principales. Cada componente Fi del vector aleatorio F , se llama una
componente principal. Evidentemente se cumple que F j = u j1 X 1c + u j 2 X 2c + L + u jp X cp
es decir, cada componente principal es una combinación lineal de las variables originales
centradas.
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 156

La traza de S , por ser la suma de las varianzas de las variables originales X i recibe el
p
nombre de varianza total, VT. Resulta claro que Traza( S ) = Traza( QΛQ − 1 ) = ∑ λi .
i =1

Se puede probar además que V( Fi ) = λi para i =1,2,...,p y que Cov( Fi , F j ) = 0 . Esto


implica varias cosas, a saber:

1. La varianza total es igual a la suma de los valores propios de S e igual a la suma de


las varianzas de las componentes principales.
2. Las componentes principales son variables aleatorias no correlacionadas entre sí
obtenidas mediante transformaciones lineales de las variables originales centradas.
Esto es: F j = U j • X = u j1 X 1 + u j 2 X 2 + L + u jp X p para j = 1,2, L , p
3. Resulta claro que E( F j ) = 0 para j = 1,2, L , p
4. Si todas las variables originales X i son normales entonces todas las componentes
principales son normales.

Como puede deducirse de lo anterior, la varianza total se descompone en un número


finito de partes disjuntas λ j de tamaños cada vez menores, lo que en la práctica
proporciona un mecanismo para reducir la dimensionalidad de representación de las
variables. En efecto, si despreciamos las últimas p − r componentes principales, las
λ1 + λ 2 + L + λr
primeras r tendrán una tasa de representatividad igual a ×100% de la
VT
varianza total de las variables originales. Muchas veces este porcentaje es bastante alto
con un pequeño valor de r lo que se traduce en una alta representatividad en un espacio
de pocas dimensiones.

En la práctica resulta importante el caso r = 2 ya que si, en tal caso se obtuviera una tasa
de representatividad alta, se habría logrado describir el problema sobre un plano con una
pequeña pérdida de información. Por supuesto que si la reducción a un espacio de dos
dimensiones conlleva una alta pérdida de representatividad no se habrá logrado un éxito y
las técnicas que aquí se propondrán para visualización de individuos y variables no serán
muy buenas.

La ecuación F = X c Q implica X c = FQ −1 = FQ ′ lo que permite obtener las variables


centradas originales como combinaciones lineales de las componentes principales. Esto
en particular va a permitir representar gráficamente las variables originales centradas
dentro del espacio de componentes principales, llamado espacio factorial, como puntos
cuyas coordenadas son los coeficientes de X i en la combinación lineal correspondiente.
Teniendo en cuenta que sólo las componentes principales iniciales llevan la mayor parte
de la representatividad se podrá reducir el espacio factorial a dos o tres dimensiones, lo
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 157

que lleva a una representación de las variables originales como vectores sobre un plano
(plano factorial) o sobre un espacio tridimensional. La representación sobre el plano
factorial F1 F2 es particularmente útil pues permite visualizar relaciones de correlación
entre las variables originales y de éstas con los ejes factoriales, lo que rápidamente da una
idea de cómo y en cuánto contribuye cada variable a la conformación de los primeros
factores (así se llaman también las componentes principales) y qué tan fuertes son las
dependencias entre las diferentes variables y los factores. Tal representación plana se
llama mapa perceptual de variables. Una alta correlación positiva se traduce en
vectores (flechas que unen el origen con el punto representativo de la variable) que
forman un ángulo agudo. Una alta correlación negativa se traduce en flechas opuestas que
tienden a formar ángulos llanos. Finalmente, la ausencia de correlación se traduce en
flechas que tienden a formar ángulos rectos . Igualmente es factible realizar un mapa
perceptual de individuos, es decir, una proyección de la nube de individuos sobre el plano
factorial determinado por F1 F2 , plano que reune la mayor representatibidad de VT.

Puesto que uno de los objetivos que se persiguen con el ACP es la representación de las
observaciones o individuos en un espacio de pocas dimensiones, resulta interesante tener
una medida de tal representación para cada individuo. Una tal medida está dada por la
suma de cosenos cuadrados. Estos valores son los cuadrados de los cosenos de los
ángulos formados por el vector que representa a cada individuo con los ejes del sistema
de coordenadas factoriales. La suma de todos estos cosenos es igual a la unidad. Sin
embargo, si se retienen k factores, la suma de los k primeros cosenos cuadrados
representa el grado de representabilidad de cada individuos, siendo mejor representados
aquellos individuos para los cuales la suma de los k primeros cosenos cuadrados esté más
cerca de 1.

Las correlaciones entre las variables originales y los factores se conocen comúnmente
como cargas factoriales. Es posible calcular analíticamente tales correlaciones lo que da
origen a una matriz L de orden p × p , llamada matriz de cargas. (algunos paquetes
usan otros nombres: Factor Pattern en SAS, Factor Matrix en SPSS, Factor Loadings en
STATISTICA, etc). Se puede probar que la correlación entre la variable original X i y la
λ j u ji
componente principal F j está dada por l ij = . Así L = (l ij) ) .
V( X i )

Cómo saber cuántos factores son suficientes para una buena representación de un
problema? - Hay varios criterios, pero tal vez los dos más extendidos son el criterio de
Kaiser, según el cual se deben retener tantos factores como valores propios de la matriz
VT
S estén por encima del promedio . Otro criterio, quizás más natural, será retener
p
tantos factores como sean necesarios para lograr un alto porcentaje de explicación de la
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 158

varianza total. Para ello se usan los porcentajes acumulados de los valores propios con
base en la varianza total del problema, junto con un criterio personal acerca de qué se
considera un buen porcentaje de explicación (Cfr ejemplo, salida 2, más adelante).

ACP normado

Todo lo mencionado anteriormente tiene un sentido geométrico y matemático muy claro


pero en la práctica tiene un problema de interpretación. ¿Qué significado tiene una
variable artificial F j que ha sido construída, digámoslo así, como una mezcla de otras
variables cuyas naturalezas pueden ser muy diferentes? ¿Qué nombre puede recibir por
ejemplo, una variable conformada por un poco de edad, otro poco de peso, otro poco de
ingresos, etc? Por otra parte, el peso de cada variable original, traducido
fundamentalmente en variabilidad, puede ser muy diferente para cada variable. Una
variable muy dispersa puede contribuir enormemente a la varianza total mientras que una
variable más homogénea contribuye menos. Esto finalmente determina la participación de
cada variable en la conformación de un factor.

Las inquietudes anteriores tienen una solución: Realizar ACP con variables originales
estandarizadas. Esto resuelve los dos problemas: De una parte, las variables
estandarizadas no tienen nombre, son simplemente números sin unidades en las cuales se
expresen las mediciones. De otra parte, la estandarización lleva todas las escalas de
medida a una escala común de media 0 y varianza 1, con lo cual se elimina el problema
de medición y variabilidad diferente de las variables originales. El ACP realizado con
variables originales estandarizadas se llama ACP normado. Se ve fácilmente que el
ACP normado equivale al ACP corriente pero partiendo de la matriz de correlaciones
? en vez de la matriz de varianzas covarianzas S .

Resulta claro que el ACP normado debe ser la técnica a seguir en cualquier caso., a
menos que se quieran explorar algunas otras posibilidades de tipo teórico o que se tengan
variables muy similares tanto en su naturaleza como en su escala de medida.

ACP a partir de una muestra.

Diremos finalmente que la matriz S , por ser desconocida, no puede ser usada
directamente en los cálculos. En la práctica, se usa la matriz de varianzas-covarianzas S ,
estimada a partir de una muestra observada de n individuos. Es ta matriz constituye una
estimación de S y, por tanto, los resultados obtenidos con ella constituyen estimaciones
de los correspondientes valores poblacionales. Se debe saber, sin embargo, que será
necesaria una muestra aleatoria cuyo tamaño n sea mayor que el número p de variables
consideradas.
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 159

Presentaremos a continuación un ejemplo de pocos datos (observaciones) en el que se ha


realizado ACP no normado. Esto es así, debido a que las cinco variables consideradas son
de naturaleza semejante y están medidas en escalas muy similares.

ANALISIS DE COMPONENTES PRINCIPALES


-----------------------------------------------------------------------
62 28 64 82 18
65 32 65 87 15 Los datos del lado representan
58 30 63 78 16 medidas antropométricas de un grupo
76 27 66 75 19 de 12 individuos pertenecientes a un
48 25 65 78 12 grupo étnico.
58 31 67 79 14
65 29 60 70 19 Las variables observadas son:
68 26 62 65 16 CRANE = Perímetro craneal
76 27 65 68 17 ANBRA = Longitud del antebrazo
54 32 64 79 16 BRAMA = Longitud de brazo y mano
55 25 66 78 15 PIERN = Longitud de la pierna
61 31 68 84 18 MANO = Longitud de la mano

Archivo Analizado: C:\DATOS\MEDIDAS.DAT ACP NO-NORMADO


A partir de variables originales (Matriz de varianza-covarianza)
Total de observaciones leídas en el archivo de datos: 12

1. RESUMEN DE VARIABLES NO TRANSFORMADAS:

VARIABLE: MEDIA: VARIANZA:


V01=CRANE 62.1667 71.606061
V02=ANBRA 28.5833 6.810606
V03=BRAMA 64.5833 4.810606
V04=PIERN 76.9167 42.083333
V05=MANO 16.2500 4.386364

2. VALORES PROPIOS:

Valor Propio: Acumulado: Porcent.Acum:


88.1393 88.1393 67.9579
31.7246 119.8639 92.4184
5.6247 125.4886 96.7552
2.6444 128.1330 98.7941
1.5640 129.6970 100.0000
Promedio (Kaiser): 25.9394

3. COEFICIENTES uij DE VARIABLES PARA CADA COMPONENTE Fj:


(SOLUCION ORTOGONAL DE VECTORES UNITARIOS)
( Fj = u1j*V01 + u2j*V02 + ... + upj*V0p )

V/BLE F1 F2 F3 F4 F5 F6 F7 F8
----------------------------------------------------------------------
CRANE 0.853 0.481 -0.090 0.027 -0.179 --- --- ---
ANBRA -0.071 0.268 0.744 0.600 0.094 --- --- ---
BRAMA -0.067 0.200 -0.577 0.526 0.588 --- --- ---
PIERN -0.493 0.801 -0.099 -0.263 -0.191 --- --- ---
MANO 0.138 0.126 0.308 -0.542 0.759 --- --- ---
----------------------------------------------------------------------
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 160

4. COEFICIENTES vij DE VARIABLES PARA CADA COMPONENTE Fj:


(SOLUCION ORTOGONAL DE VECTORES REESCALADOS AL VALOR PROPIO)
(La suma de cuadrados de coeficientes es el valor propio)

V/BLE F1 F2 F3 F4 F5 F6 F7 F8
----------------------------------------------------------------------
CRANE 8.011 2.708 -0.214 0.044 -0.223 --- --- ---
ANBRA -0.671 1.509 1.765 0.976 0.118 --- --- ---
BRAMA -0.630 1.126 -1.368 0.855 0.736 --- --- ---
PIERN -4.631 4.510 -0.236 -0.428 -0.239 --- --- ---
MANO 1.291 0.711 0.731 -0.881 0.950 --- --- ---
----------------------------------------------------------------------

5. PORCENTAJE DE CONTRIBUCION ABSOLUTA DE LAS VARIABLES A LOS FACTORES:


V/BLE F1 F2 F3 F4 F5 F6 F7 F8
----------------------------------------------------------------------
CRANE 72.81 23.11 0.81 0.07 3.19 --- --- ---
ANBRA 0.51 7.18 55.40 36.02 0.89 --- --- ---
BRAMA 0.45 4.00 33.29 27.64 34.63 --- --- ---
PIERN 24.33 64.12 0.99 6.91 3.65 --- --- ---
MANO 1.89 1.59 9.51 29.35 57.65 --- --- ---
----------------------------------------------------------------------

6. CARGAS FACTORIALES (CORRELACIONES VARIABLE FACTOR):


V/BLE F1 F2 F3 F4 F5 F6 F7 F8
----------------------------------------------------------------------
CRANE 0.95 0.32 -0.03 0.01 -0.03 --- --- ---
ANBRA -0.26 0.58 0.68 0.37 0.05 --- --- ---
BRAMA -0.29 0.51 -0.62 0.39 0.34 --- --- ---
PIERN -0.71 0.70 -0.04 -0.07 -0.04 --- --- ---
MANO 0.62 0.34 0.35 -0.42 0.45 --- --- ---
----------------------------------------------------------------------

7. COMUNALIDAD ACUMULADA PARA r FACTORES (Desde F1 hasta Fr):


V/BLE F1 F2 F3 F4 F5 F6 F7 F8
----------------------------------------------------------------------
CRANE 64.18 71.51 71.55 71.56 71.61 --- --- ---
ANBRA 0.45 2.73 5.84 6.80 6.81 --- --- ---
BRAMA 0.40 1.67 3.54 4.27 4.81 --- --- ---
PIERN 21.45 41.79 41.84 42.03 42.08 --- --- ---
MANO 1.67 2.17 2.71 3.48 4.39 --- --- ---
----------------------------------------------------------------------

8. PORCENTAJE DE COMUNALIDAD ACUMULADA PARA r FACTORES (De F1 a Fr):


V/BLE F1 F2 F3 F4 F5 F6 F7 F8
----------------------------------------------------------------------
CRANE 89.63 99.86 99.93 99.93 100.00 --- --- ---
ANBRA 6.61 40.06 85.81 99.80 100.00 --- --- ---
BRAMA 8.26 34.63 73.55 88.74 100.00 --- --- ---
PIERN 50.96 99.30 99.43 99.86 100.00 --- --- ---
MANO 38.02 49.55 61.75 79.45 100.00 --- --- ---
----------------------------------------------------------------------
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 161

9. COEFICIENTES DE FACTORES ESTANDARIZADOS:

V/BLE f1 f2 f3 f4 f5 f6 f7 f8
----------------------------------------------------------------------
CRANE 0.091 0.085 -0.038 0.017 -0.143 --- --- ---
ANBRA -0.008 0.048 0.314 0.369 0.075 --- --- ---
BRAMA -0.007 0.036 -0.243 0.323 0.471 --- --- ---
PIERN -0.053 0.142 -0.042 -0.162 -0.153 --- --- ---
MANO 0.015 0.022 0.130 -0.333 0.607 --- --- ---
----------------------------------------------------------------------

10. COORDENADAS DE INDIVIDUOS PROYECTADOS SOBRE PRIMEROS PLANOS:


(PRIMERA SOLUCION SOBRE PLANO FACTORIAL UNITARIO)

----------------------------------------|-----------------------------
COORD. ORIGINALES CENTRADAS | COORDENADAS FACTORIALES
(SOBRE EL PLANO X1-X2): | (SOBRE EL PLANO F1-F2):
----------------------------------------|-----------------------------
#OBS X1 X2 | F1 F2
1 -0.1667 -0.5833 -2.3282 3.9383
2 2.8333 3.4167 -3.0004 10.2771
3 -4.1667 1.4167 -4.1192 -1.1041
4 13.8333 -1.5833 13.1459 5.3215
5 -14.1667 -3.5833 -12.9793 -7.3562
6 -4.1667 2.4167 -5.2276 0.5119
7 2.8333 0.4167 6.4858 -4.6341
8 5.8333 -2.5833 11.1796 -7.9783
9 13.8333 -1.5833 16.3909 -0.7362
10 -8.1667 3.4167 -8.2358 -1.4904
11 -7.1667 -3.5833 -6.6606 -3.4124
12 -1.1667 2.4167 -4.6510 6.6628
----------------------------------------------------------------------

11. DISTANCIA DE CADA PUNTO AL ORIGEN Y COSENOS CUADRADOS:


----------------------------------------------------------------------
#OBS DISTANCIA COS2-F1 COS2-F2 COS2-F3 COS2-F4 COS2-F5
----------------------------------------------------------------------
1 5.4416 0.1831 0.5238 0.0001 0.2931 0.0000
2 11.0955 0.0731 0.8579 0.0035 0.0011 0.0643
3 4.8074 0.7342 0.0528 0.2017 0.0026 0.0088
4 14.3914 0.8344 0.1367 0.0235 0.0032 0.0022
5 15.2625 0.7232 0.2323 0.0399 0.0004 0.0043
6 6.2004 0.7108 0.0068 0.0004 0.2798 0.0022
7 9.1984 0.4972 0.2538 0.2119 0.0364 0.0007
8 13.7639 0.6597 0.3360 0.0001 0.0014 0.0027
9 16.5563 0.9801 0.0020 0.0088 0.0091 0.0000
10 9.1165 0.8161 0.0267 0.1336 0.0149 0.0087
11 8.3033 0.6435 0.1689 0.1609 0.0211 0.0056
12 8.4918 0.3000 0.6156 0.0007 0.0023 0.0814
----------------------------------------------------------------------
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 162

12. GRAFICA DE VARIABLES:

--V04-------------------F2-----------------------------------------------
|
|
|
|
|
|
|
|
|
| V01
|
|
|
|
|
|
----------------------V02----------------------------------------------F1
|
V03
|
------------------------|-------V05--------------------------------------
Rangos: F1: -0.493 a 0.853 F2: 0.126 a 0.801
Representación gráfica de las variables en el plano factorial F1F2

13. GRAFICA DE INDIVIDUOS:

------------------------ 2---F2-----------------------------------------
|
|
|
|
12 |
| 4
|
1 |
|
|
-----------------------------0----------------------------------------F1
6 |
| 9
10 3 |
|
11 |
|
| 7
|
|
-- 5-------------------------|------------------------- 8---------------
Rangos: F1: -12.979 a 16.391 F2: -7.978 a 10.277
Representación gráfica de individuos en el plano factorial F1F2
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 163

El significado e interpretación de cada una de las salidas anteriores, arrojadas por el


programa ESM, son las siguientes:

Salida 1
Estos valores corresponden a las medias y las varianzas estimadas de cada una de las
variables consideradas en el análisis, junto con la nomenclatura usada por el programa
para la representación gráfica de ellas: V01, V02, etc

Salida 2
Representa los valores propios de la matriz S , como estimaciones de λi , ordenados de
mayor a menor, junto con los valores acumulados de ellos y el correspondiente porcentaje
acumulado que representan de la varianza total, dada en este caso por VT = 129.6970.
Como puede observarse en este caso el primero y segundo valor propio cubren un
92.4184% de la varianza total, valor que se considera muy alto. En consecuencia, podrían
retenerse los dos primeros factores los cuales explican 92. 4184% del problema. Se pierde
entonces menos de un 8% de la información pero se logra reducir la dimensión del
problema de 5 (número original de variables) a 2. Se ha "aplanado" el problema logrando
mantener más del 92% de la representabilidad del mismo. Nótese que, según el criterio de
Kaiser, sólo los dos primeros factores tienen varianza por encima del promedio 25.94. En
consecuencia, este criterio también recomienda retener las dos primeras componentes.

Salida 3
Está conformada por la matriz Q de rotación. En este caso cada columna U j es un
vector unitario y dos cualesquiera de ellas son ortogonales. Representan por tanto,
vectores de una base ortonormal de ℜ p . Además cada columna contiene los coeficientes
de las variables originales centradas para la conformación de la correspondiente
componente principal. Por ejemplo: F2 = 0.481 Crane + 0.268 Anbra + L + 0.126 Mano

Salida 4
Los vectores reescalados son vectores propios de S que han sido modificados en su
longitud de tal manera que su norma sea igual al correspondiente valor propio. Aunque la
matriz conformada por tales vectores - llamada matriz de coordenadas por algunos
paquetes- no es una matriz de rotación, presenta la ventaja de que cada coeficiente es
proporcional a la contribución que hace la correspondiente variable a las componentes
principales. Por ejemplo, en la formación del factor F2 la variable que más aporta es
PIERN ya que ella tiene coeficiente 4.51, le sigue CRANE con un coeficiente de 2.708,
etc
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 164

Salida 5
Esta tabla presenta de una manera más expedita la importancia de cada variable en la
conformación de cada componente, medida por la contribución de ella a la componente y
expresada en términos de porcentaje.

Salida 6
Esta tabla contiene los valores de las correlaciones de cada una de las variables originales
con cada una de las componentes principales o factores. Cuando una variable X i está
fuertemente correlacionada con un factor F j su representación gráfica vectorial es tal
que ella se sitúa muy cerca del eje F j correspondiente, contribuyendo entonces casi
exclusivamente a la conformación de dicho factor. Esta contribució n es tanto mayor
cuanto más alejada del origen se encuentre X i pues en tal caso su proyección sobre el
eje es mayor.

Salida 7
Se define la comunalidad entre X i y F j como la porción de varianza que es compartida
por estas dos variables. Este concepto es importante pues dicho valor es una medida de la
explicación de la variable X i por el factor F j . En particular, si se retienen r de los p
factores es de interés conocer el grado de explicación de cada una de las variables
originales por los factores retenidos juntos. Esto es la comunalidad acumulada por los r
factores retenidos. En el caso, por ejemplo, al retener los dos primeros factores se explica
un total de 71.51 de la varianza de CRANE que en su totalidad es de 71.61. De igual
manera se explica un total de 2.73 de la varianza de ANBRA que es de 6.81 en total. Se
observa cómo los p = 5 factores juntos cubren la totalidad de las varianzas de todas las
variables originales.

Salida 8
La magnitud de la comunalidad acumulada, dada por la tabla anterior es mucho más
comprensible si se expresa en términos de porcentajes. Esto es lo que muestra la tabla 8.
Por ejemplo, diríamos de acuerdo con ella, que dos factores explican el 99.86% de la
varianza de CRANE, el 40.06% de la varianza de ANBRA, etc. De igual manera, cuatro
factores juntos explican el 88.74% de la varianza de BRAMA y el 99.86% de la varianza
de PIERN. Como se ve, los 5 factores explican la totalidad de la varianza de todas las
variables originales.

Salida 9.
Los factores F j son variables aleatorias ya que son combinaciones lineales de los X i
centrados. Esto implica que pueden ser estandarizados en la forma usual. Se pueden
entonces construir los factores estandarizados de acuerdo con la expresión:
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 165

F j − E( F j ) Fj − 0 1
fj = = = Fj
V( F j ) λj λj

La tabla correspondiente proporciona los coeficientes que expresan cada factor


estandarizado en términos de las variables originales centradas, esto es, en la forma:

p  u 
1  jk X c
fj = ∑
λ j k =1
u jk X
c
k = ∑  λ  k
 j 

Esta salida es la que de ordinario presentan algunos paquetes como Statistica .

Salida 10
Estas tablas corresponden a las coordenadas de las dos primeras componentes de los
individuos tanto en el plano original X 1c X 2c como en el plano factorial F1 F2 . Estas
últimas en particular son utilizadas para producir el mapa de individuos. El programa
produce además un archivo de nombre PLANF123.DAT en el que se encuentran las
coordenadas de los individuos en los tres primeros ejes factoriales y que pueden ser
utilizadas con fines gráficos o de clasificación en tres dimensiones. Este archivo siempre
se almacena dentro del directorio del programa ESM.

Salida 11
Esta tabla contiene las distancias a las que se encuentra cada individuo respecto al centro
de gravedad de la nube, es decir, respecto al origen de coordenadas del espacio factorial.
Igualmente presenta los cosenos cuadrados para los primeros cinco factores, los cuales en
la mayor parte de los casos son más que suficientes para lograr una adecuada
representación de cualquier problema. El grado de representabilidad de un individuo en el
espacio factorial formado por los r primeros factores se logra sumando los r cosenos
cuadrados correspondientes y teniendo en cuenta que la máxima representabilidad de un
individuo es 1.

Salida 12
Cuando se opta por esta salida, ella corresponde al mapa perceptual en dos dimensiones
de las variables. Su utilidad, como ya se dijo, estriba en la presentación simple y efectiva
de relaciones de dependencia entre ellas. Aquellas variables que formen ángulos rectos o
aproximadamente rectos son independientes estadísticamente, es decir, no están
correlacionadas. Las demás sí están correlacionadas y la magnitud de dicha correlación es
proporcional al valor del coseno del ángulo que ellas formen. Esta regla es válida incluso
para las variables y los ejes factoriales.
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 166

Salida 13
El mapa perceptual de individuos proyectados sobre el primer plano factorial es una
excelente ayuda para visualizar relaciones de proximidad entre ellos. Estas relaciones
serán tanto más fieles cuanto mayor sea el porcentaje de varianza total explicada por los
dos primeros factores (Cfr. Salida 2).

NOTA:
Cuando se realiza ACP normado las salidas anteriores siguen teniendo las mismas
interpretaciones pero muchos resultados se modifican de acuerdo con los nuevos valores
de las varianzas de las variables originales que, en tal caso, toman el valor de 1 para todas
ellas.

15.2 UNA APLICACIÓN DEL ACP:

Con frecuencia, después de un Manova para comparar tratamientos, si se rechaza la


hipótesis de igualdad de medias, surge la pregunta de cómo comparar los diferentes
tratamientos para decidir cuál de ellos es el mejor o el peor.

No existen técnicas de comparación múltiple que, de manera directa, nos digan cuál es el
mejor o el peor tratamientos, debido a que en ℜ p no hay orden.
Una solución podría ser la construcción de una variable indicadora como combinación
lineal de las variables del problema. Tomar esta variable como una respuesta que resuma
toda la información de las p variables del problema y realizar un anova univariado,
tomando tal variable como representativa de la información que tienen todas las variables
del problema. La construcción de una tal variable requeriría de discusión y aportes acerca
de la importancia de cada una de las variables, podría ser analizada por un grupo de
especialistas que decidan qué peso asignar a cada variable

Desde este punto de vista, el factor F1, cuando explica un alto porcentaje de variabilidad,
sería la variable resumen que reune la mayor parte de la información contemplada en
todas las variables originales del problema.

En el caso mencionado anteriormente, se haría ANOVA sobre las coordenadas de los


individuos en el primer eje factorial, lo que ayudaría a clasificar los grupos.

Veamos el siguiente ejemplo: se tienen medidas antropológicas de tres grupos en las


siguientes variables. CRANE, ANBRA, BRAMA, PIERN y MANO
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 167

GRUPO 1 GRUPO 2 GRUPO 3


62 28 64 82 18 75 29 60 70 39 92 46 45 99 67
65 32 65 87 15 78 26 72 65 26 88 57 51 89 54
58 30 63 78 16 86 27 85 68 27 90 78 44 83 58
76 27 66 75 19 74 32 84 79 36 96 43 34 79 68
48 25 65 78 12 75 25 86 78 35 87 59 38 77 55
58 31 67 79 14 81 31 88 84 28 98 65 40 69 43

Multivariate Tests of Significance (S = 2, M = 1 , N = 4 1/2)

Test Name Value Approx. F Hypoth. DF Error DF Sig. of F

Pillais 1.86984 34.47644 10.00 24.00 .000


Hotellings 38.91986 38.91986 10.00 20.00 .000
Wilks .00318 36.80710 10.00 22.00 .000
Roys .96739

Como puede deducirse de la tabla anterior, se rechaza la igualdad de medias


multivariadas. y, en consecuencia, se desea saber cuál de los tres grupos es el mejor y
cuál el peor

En este caso se hace ACP y se observa que el primer factor F1 explica un 72.5% de la
variabilidad. En consecuencia, pueden calcularse los puntajes de los individuos respecto
al primer factor y utilizarlos como variable única que reune el 72% de la información del
problema, para hacer ANOVA sobre ella.

ANALISIS DE COMPONENTES PRINCIPALES


-----------------------------------------------------------------------
Archivo Analizado: MEDIDAS.DAT ACP NO-NORMADO
A partir de variables originales (Matriz de varianza-covarianza)

Total de observaciones le¡das en el archivo de datos: 18

1. RESUMEN DE VARIABLES NO TRANSFORMADAS:

VARIABLE: MEDIA: VARIANZA:


V01=CRANE 77.0556 203.820261
V02=ANBRA 38.3889 256.251634
V03=BRAMA 62.0556 294.761438
V04=PIERN 78.8333 66.735294
V05=MANO 35.0000 350.235294

2. VALORES PROPIOS:

Valor Propio: Acumulado: Porcent.Acum:


849.9824 849.9824 72.5362
159.2916 1009.2741 86.1299
78.0709 1087.3450 92.7924
65.0688 1152.4138 98.3453
19.3901 1171.8039 100.0000
Promedio (Kaiser): 234.3608
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 168

3. COEFICIENTES uij DE VARIABLES PARA CADA COMPONENTE Fj:


(SOLUCION ORTOGONAL DE VECTORES UNITARIOS)
( Fj = u1j*V01 + u2j*V02 + ... + upj*V0p )

V/BLE F1 F2 F3 F4 F5 F6 F7 F8
----------------------------------------------------------------------
CRANE 0.404 0.546 -0.330 -0.124 0.643 --- --- ---
ANBRA 0.486 -0.236 -0.430 0.698 -0.190 --- --- ---
BRAMA -0.487 0.695 -0.060 0.476 -0.223 --- --- ---
PIERN 0.078 -0.070 0.720 0.495 0.475 --- --- ---
MANO 0.598 0.398 0.429 -0.160 -0.524 --- --- ---
----------------------------------------------------------------------

De acuerdo con lo anterior, los puntajes sobre el primer factor se calcularían, individuo
por individuo, tomando las primeras coordenadas factoriales de la tabla siguiente,
producida por ESM-plus, junto con la variable de clasificación en los grupos originales:

10. COORDENADAS DE INDIVIDUOS PROYECTADOS SOBRE PRIMEROS PLANOS:


(PRIMERA SOLUCION SOBRE PLANO FACTORIAL UNITARIO) --------------------------
--------------|-----------------------------
COORD. ORIGINALES CENTRADAS | COORDENADAS FACTORIALES
(SOBRE EL PLANO X1-X2): | (SOBRE EL PLANO F1-F2):
----------------------------------------|-----------------------------
#OBS X1 X2 | F1 GRP F2
1 -15.0556 -10.3889 -21.9899 1 -11.4097
2 -12.0556 -6.3889 -20.7248 1 -11.5627
3 -19.0556 -8.3889 -23.6549 1 -15.2789
4 -1.0556 -11.3889 -17.7428 1 -1.2517
5 -29.0556 -13.3889 -33.4893 1 -19.7642
6 -19.0556 -7.3889 -26.2359 1 -13.6018
7 -2.0556 -9.3889 -2.6882 2 1.8722
8 0.9444 -12.3889 -16.9418 2 7.7282
9 8.9444 -11.3889 -18.7275 2 21.0825
10 -3.0556 -6.3889 -14.4219 2 15.4702
11 -2.0556 -13.3889 -19.0685 2 18.7291
12 3.9444 -7.3889 -18.4198 2 18.7755
13 14.9444 7.6111 38.7474 3 5.8530
14 10.9444 18.6111 30.9995 3 0.7620
15 12.9444 39.6111 47.3414 3 -5.9534
16 18.9444 4.6111 43.3033 3 2.8948
17 9.9444 20.6111 37.5632 3 -8.0536
18 20.9444 26.6111 36.1504 3 -6.2916
----------------------------------------------------------------------
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 169

GRAFICA DE INDIVIDUOS:

------------- 9------------F2-------------------------------------------
|
12 |
10 |
|
|
|
8 |
| 13
|
-------------------------- 7----------------------------------- 16----F1
| 14
4 |
|
| 15
| 187
|
2 |
6 |
3 |
|
-- 5-----------------------|--------------------------------------------
Rangos: F1: -33.489 a 47.341 F2: -19.764 a 21.082
Representación gráfica de individuos en el plano factorial F1F2

La gráfica anterior muestra cómo los individuos forman tres grupos diferentes entre sí, a
saber, primer grupo: individuos 1 a 6. Segundo grupo: individuos 7 a 12 y tercer grupo:
individuos 13 a 18, los cuales se proyectan sobre el primer eje, poniendo de manifiesto
sus diferencias, como lo confirma el siguiente ANOVA realizado con los puntajes o
primeras coordenadas:

ANALISIS DE VARIANZA DE UNA VIA - (Diseño Completo Aleatorio)


ANOVA: VAR-Clasif: GRUPO VAR-An lisis: SCORES
______________________________________________________________________

TABLA ANOVA:
----------------------------------------------------------------------------
FUENTE: SUM.CUADR GL CUADR.MEDIO F
----------------------------------------------------------------------------
Modelo 13940.4596 2 6970.2298 205.3095
Error 509.2479 15 33.9499 *****
Total 14449.7075 17 ***** *****
---------------------------------------------------------------------------
R2 = .964757 F tiene 2 y 15 Grados de libertad
Valor P de probabilidad: 0.00000000
Valor exacto del CME = 33.94986100499991
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 170

** PRUEBAS DE IGUALDAD DE VARIANZAS ENTRE TRATAMIENTOS:


(Hip¢tesis nula: Ho: å1ý = å2ý = å3ý = ... = åký)

INTERVALOS DE CONFIANZA PARA MEDIAS EN CADA TRATAMIENTO:


Variable de analisis: SCORES Var Clasific: GRUPO
_________________________________________________________________________
Numero de Tratamientos: 3
NOTA: Si los tratamientos se han identificado alfanum‚ricamente, su orden
ser alfab‚tico: 1=Primero, 2=segundo, 3=tercero, etc

MEDIAS E INTERVALOS PARA TRATAMIENTO # 1 :


Media: -23.973 Err.Stand: 2.378720279372921
Inter90%: [ -28.1429, -19.8031]
Inter95%: [ -29.0421, -18.9039]
Inter99%: [ -30.9831, -16.9629]

MEDIAS E INTERVALOS PARA TRATAMIENTO # 2 :


Media: -15.0447 Err.Stand: 2.378720279372921
Inter90%: [ -19.2146, -10.8748]
Inter95%: [ -20.1138, -9.9756]
Inter99%: [ -22.0548, -8.0346]

MEDIAS E INTERVALOS PARA TRATAMIENTO # 3 :


Media: 39.0175 Err.Stand: 2.378720279372921
Inter90%: [ 34.8476, 43.1874]
Inter95%: [ 33.9484, 44.0866]
Inter99%: [ 32.0074, 46.0276]
_________________________________________________________________________

COMPARACION DE MEDIAS POR PARES. MINIMAS DIFERENCIAS SIGNIFICATIVAS (LSD):


Ho: æ(i)=æ(j) H1:æ(i) <> æ(j) *DS* = Difieren signif. *ND* = No dif
NOTA: Se presentan todas las combinaciones de tratamientos por pares.

MEDIA DE TRATAM( 2 ) - MEDIA DE TRATAM( 1 ):


Diferencia de medias = 8.92831667

LSD(à=0.10) = 5.8971 *DS*


LSD(à=0.05) = 7.1687 *DS*
LSD(à=0.01) = 9.9138 *ND*

MEDIA DE TRATAM( 3 ) - MEDIA DE TRATAM( 1 ):


Diferencia de medias = 62.99046667

LSD(à=0.10) = 5.8971 *DS*


LSD(à=0.05) = 7.1687 *DS*
LSD(à=0.01) = 9.9138 *DS*
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 171

MEDIA DE TRATAM( 3 ) - MEDIA DE TRATAM( 2 ):


Diferencia de medias = 54.06215000

LSD(à=0.10) = 5.8971 *DS*


LSD(à=0.05) = 7.1687 *DS*
LSD(à=0.01) = 9.9138 *DS*

15.3 ANALISIS FACTORIAL DE CORRESPONDENCIAS

En lo que viene, se analizarán variables categóricas (nominales) como las que se obtienen
en las encuestas de opinión. Los análisis tradicionales de dichas variables se limitan casi
siempre a conteos de frecuencias, estimación de proporciones, conteos cruzados y, muy
rara vez, pruebas de independencia (asociación) entre ellas. Aquí introduciremos una
serie de técnicas más avanzadas, comúnmente denominadas técnicas factoriales de
correspondencia o Análisis Factorial de Correspondencia (AFC).

El AFC es en mucho un análogo del ACP aplicado a tablas de contingencia en vez de


matrices de varianza-covarianza. Sin embargo, las diferencias existentes entre ellos son
también muchas.

Introduciremos el tema considerando dos variables categóricas, una de I modalidades y la


otra de J. El conteo de individuos que simultáneamente están en la modalidad i y en la
modalidad j, denotado k ij , produce una tabla de I×J celdas, denominada tabla de
contingencia, la cual constituye el punto de partida del AFC.

1 ... j ... J

M
i k ij
M
I
n
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 172

En este tipo de tablas es común denotar por k .i y k j . los totales marginales por filas y
columnas respectivamente.

Supóngase, por ejemplo, que 400 personas (180 hombres y 220 mujeres) contestaron una
pregunta acerca de una decisión gubernamental, manifestando su opinión así: En
desacuerdo (DA), regularmente de acuerdo (RA) y muy de acuerdo (MA), como lo indica
la tabla siguiente:

DA RA MA TOTAL
Masc 30 90 60 180

Fem 40 100 80 220


Total 70 190 140 400

Se pueden calcular las frecuencias relativas f ij dividiendo cada frecuencia absoluta


entre el total de individuos n. Se obtiene así otra tabla cuyas frecuencias marginales
suman 1. En el ejemplo anterior:

DA RA MA TOTAL
Masc 0.075 0.225 0.150 0.450

Fem 0.100 0.250 0.200 0.550


Total 0.175 0.475 0.350 1.000

Se cumplen las relaciones siguientes:

kij
1. f ij = 2. f i . = ∑ f ij
n j
3. f . j = ∑ f ij 4. ∑ f i. = ∑ f. j = ∑ ∑ f ij
i i j i j

La independencia entre variables se pone de manifiesto en el hecho de que para todas las
celdas se cumpla: f ij = f i . f . j . Cuando esta igualdad no se cumple para algún par de
modalidades se dice que éstas están relacionadas y esta relación es de atracción si el
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 173

producto de marginales es mayor que el de la conjunta o será de repulsión cuando dicho


producto sea menor que el de la conjunta.

Dos filas se consideran próximas (parecidas) si se asocian de la misma manera respecto a


las columnas (perfiles semejantes). Cuanto más diferentes sean se dirá que son opuestas.

El AFC intenta poner de manifiesto una tipología entre las filas y las columnas de la
matriz anterior, en la cual se detecten las filas cuya distribución se desvíe más del común,
las que más se parecen entre sí y las que se oponen (análogamente con las columnas).

Igualmente el AFC busca una reducción de la dimensionalidad mediante la proyección de


los datos sobre un espacio factorial de menor dimensión que los represente con suficiente
fidelidad y con una pérdida mínima de información.

Debemos preguntarnos, sin embargo, quienes son los puntos en este caso y en qué espacio
estamos trabajando. En el ACP, las variables eran numéricas y cada individuo era una p-
upla de números reales donde p es el número de variables. Aquí la situación es muy
diferente. Las variables no son numéricas por tanto, no estamos en ℜp.

Al dividir cada fila de la matriz anterior entre su marginal, se obtienen I perfiles fila.
Análogamente se obtienen J perfiles columna si cada columna se divide entre su
marginal. Cada perfil fila es como una especie de histograma –mejor sería distribución-
que indica cómo se distribuye la i-ésima modalidad de la primera variable respecto a las J
modalidades de la segunda variable (análogo para perfiles columna) y la semejanza entre
dos perfiles fila se mide mediante una distancia especial llamada distancia ji-cuadrado
que se define así:

J 1 f ij f lj 2
Distancia(perfil fila i, perfil fila l) = ∑ ( − )
j =1 f . j f i. f l .
I
1 f ij f ik 2
Distancia(perfil columna j, perfil columna k) = ∑f
i =1
(
f. j

f.k
)
i.

Esta distancia goza de una propiedad especial llamada equivalencia distribucional se


gún la cual, si dos columnas (filas) semejantes se suman, la distancia entre ellas no se
altera. Así pues, sumar dos filas casi proporcionales no modifica sensiblemente los
resultados de un AFC.
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 174

El AFC considera los perfiles-fila como I puntos en un espacio J-dimensional. Cada


perfil- fila es una J-upla cuyas coordenadas suman 1. Por esta razón, se dice que cada
perfil fila o perfil horizontal es un punto en un subespacio euclídeo afín. Análogamente
pueden considerarse los perfiles-columna como J puntos en un espacio I-dimensional y
cada perfil-columna (perfil vertical) es una I-pla cuyas coordenadas suman 1.

Presentaremos el tratamiento de un AFC según los perfiles- fila entendiendo que existe
una teoría dual y completamente análoga para los perfiles columna.

Según lo dicho anteriormente, es posible pensar en una nube de perfiles-fila la cual se


J
encuentra sobre un hiperplano de R , (aquel formado por los puntos de coordenadas no
negativas que sumen 1) y cuyas distancias se miden por la distancia Ji-cuadrado. Este es
1
un espacio euclídeo cuyas dimensiones están ponderadas por , para j = 1,2,...,J.
f. j
En un AFC cada punto tiene un peso diferente. El i-ésimo punto tiene ponderación f i .
proporcional al efectivo de la modalidad que representa. El centro de la nube de puntos ya
no es la media corriente sino una media ponderada de los puntos, de acuerdo con los
pesos que éstos tienen. Tal centro G recibe el nombre de baricentro y se interpreta como
el perfil medio de la población.

El AFC busca entonces ciertas direcciones especiales según las cuales proyectar la nube
de puntos de manera que las inercias máximas de la nube apunten hacia tales direcciones
(en esto se parece al ACP) y de tal forma que las distancias entre las proyecciones de los
puntos de la nube sobre el espacio de direcciones principales se asemejen lo más posible a
las verdaderas distancias entre tale s puntos en el hiperplano de la nube.

P
G
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 175

El primer eje une el origen O con el baricentro G de la nube, es ortogonal al hiperplano


de la nube y la inercia (variabilidad) de la nube proyectada sobre él es igual a 1. Este eje
no es de interés y la proyección sobre él se conoce como factor trivial. Como los demás
ejes son ortogonale s al anterior, el AFC puede hacerse respecto de O o respecto de G con
los mismos resultados. No es esencial centrar la nube.

Uno de los temas de interés en el AFC es la representación simultánea de dos variables


para poner de manifiesto las relaciones de dependencia entre ellas. Esta representación se
logra superponiendo las proyecciones de las respectivas nubes sobre los planos factoriales
engendrados por los ejes de igual rango. Tales proyecciones deben ser reducidas a escalas
semejantes ya que los valores propios en cada caso no necesariamente son iguales. Una
1
multiplicación de cada proyección por la constante logra este objetivo al
λs
representar la fila i sobre el eje s.

Sobre el plano factorial llaman la atención los puntos alejados del origen ya que ellos son
más diferentes al perfil medio. Por otra parte, respecto a un factor, del mismo lado se
encuentran la fila i y las columnas j que más se asocian. Es decir, las modalidades de la
segunda variable más asociadas con la i – ésima modalidad de la primera variable. De
lados opuestos estarán las modalidades menos asociadas. Esto justifica el interés práctico
de las representaciones simultáneas.

La formulación simétrica es válida: al invertir los papeles jugados por las filas y las
columnas se llega a las mismas conclusiones (esta es una diferencia sustancial con el ACP
donde la inversión de papeles lleva a la representación de variables de una parte y de
individuos en la otra)

La inercia de un punto en el espacio se descompone según las direcciones de los ejes


ortogonales. Es la suma de éstas. Contrariamente al caso ACP en el que la inercia es la
varianza total, en el AFC la inercia refleja la estructura de la tabla: la inercia de cada nube
es igual al valor Ji-cuadrado y la de cada punto es la contribución de éste al ji-cuadrado.
La inercia de un factor mide en este caso la importancia de la parte que él representa. La
inercia de un factor vale, como máximo, 1, y cuando este valor es 1 se pone de manifiesto
una situación de máxima dependencia, en el sentido de que el grupo de filas y el de
columnas puede ser dividido en dos grupos, cada uno de los cuales es independiente del
otro y relacionado al máximo con los miembros de sí mismo.

Igual que en el caso del ACP la inercia de cada factor se mide por la magnitud de ciertos
valores propios y las técnicas allí vistas pueden aplicarse al caso AFC. Sin embargo, en el
ACP el decrecimiento de los valores propios es mucho más acelerado que en el AFC, lo
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 176

que lleva a reducciones drásticas de dimensionalidad. Esto no ocurre en el AFC, donde


las reducciones son mucho más lentas.

El AFC que hemos descrito en forma general presenta dos enfoques comúnmente
conocidos como análisis de correspondencias simples (ACS) y análisis de
correspondencias múltiples (ACM). El primero no es más que el AFC aplicado a dos
variables categóricas. Aunque se pueden analizar muchas variables categóricas dichos
análisis se hacen por parejas buscando una representación simultánea de todos los ACS
sobre el mismo plano factorial. El segundo es un poco más complejo: constituye la
inmediata generalización del ACS aplicado a tres o más variables en forma simultánea.
Quiere esto decir en el fondo que el ACM parte de tablas de contingencia ya no
bidimensionales sino p-dimensionales, donde p es el número de variables categóricas
activas (que se consideran intervinientes dentro del ACM)

En la práctica el ACS permite describir las relaciones de asociación entre variables


categórica mediante su representación en un plano factorial o en un espacio factorial de
baja dimensión. Es, en mucho, un análisis de contingencia representado en forma gráfica.
Cuando el ACS pone de manifiesto la asociación entre dos o más variables, nos dice
simplemente que ellas son dependientes pero no profundiza en las relaciones de
dependencia (contingencia). Por ejemplo, podría concluirse que el nivel educativo influye
en la intensión de voto por dos o más candidatos. Esto se deduce bién sea por un análisis
de contingencia o mediante un ACS. Sin embargo, conocer cómo es esa relación, es decir,
cuáles niveles educativos se asocian con cada candidato, exige un análisis de las
asociaciones entre las modalidades o categorías de las variables analizadas. Es aquí
cuando resulta útil el análisis de correspondencias múltiples (ACM).

SPAD (Systeme Portable d’Analyse des Donnes) en sus diferentes versiones es el


software más apropiado para el AFC. Estos paquetes son producidos por C.I.S.I.A
(Francia) y se encuentran en diferentes plataformas. La versión 1.x para D.O.S en
lenguaje Fortran se encuentra publicada en el texto de Lebart, Morineau y Warwick. Una
versión completa y de muy alta calidad para D.O.S es SPAD.N y últimamente han
aparecido versiones para Windows (una versión estudiantil y otra profesiona l). El uso de
estos paquetes requiere cierto grado de entrenamiento.

Un análisis de correspondencias mediante SPAD requiere en general, haber definido


previamente los siguientes aspectos:

• Una codificación numérica consecutiva (1,2,3,...,9) de las modalidades de las


variables. Es necesario revisar esto previamente.
• Nombres y rótulos para cada una de las variables intervinientes
• Nombres y rótulos para cada una de las modalidades de las variables en el caso del
ACM
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 177

• En el caso del SPAD 1.x y SPAD.N, haber identificado previamente cada individuo
mediante una cadena alfanumérica del tipo IN001, IN002,...

A manera de ejemplo, se analizará la información del archivo VIOPOLUN.DAT en el


cual están las respuestas a 6 variables (preguntas) contestadas por 90 estudiantes de la
Universidad Nacional en 1991. Forma parte de un estudio más amplio en cuanto al
número de variables y al número de respondientes.

Las variables a considerar, sus modalidades y los rótulos propuestos son:

3. PART. Participación individual en Política con tres modalidades:


d) 1 = Le parece muy interesante (MUY)
e) 2 = Le parece un poco interesante (POCO)
f) 3 = Definitivamente no le interesa la política (NADA)

4. ACTV. La política como actividad,


d) 1 = Es una obligación para todo ser humano (TODS)
e) 2 = Es algo de lo que todo universitario debe participar (UNIV)
f) 3 = Sólo compete a los políticos de profesión (SOPO)

3. ACTI. Su actitud personal ante la política


d) 1 = Cree que Usted debe participar en política (DEBE)
e) 2 = De hecho, usted ya participa en política (YAPA)
f) 3 = Cree que ud. Personalmente no debe participar (NDEB)

4 VIOL. Su opinión ante la violencia estudiantil,


d) 1 = Aunque no es buena es justificable (JUVI)
e) 2 = De ser erradicada de cualquier manera (ERRV)
f) 3 = No tiene una opinión al respecto (NOPI)

5. EDAD. Rangos de edad


d) 1 = Menos de 20 años (ME20)
e) 2 = De 20 a 25 años (2025)
f) 3 = Más de 25 años (MA25)

6. SEXO Sexo del entrevistado


c) 1 = Masculino (MASC)
d) 2 = Femenino (FEME)

Los datos son los siguientes:


INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 178

I01 311321 I16 212212 I31 211211 I46 312212 I61 111212 I76 311112
I02 211221 I17 111121 I32 233221 I47 111221 I62 223211 I77 231222
I03 311211 I18 221211 I33 211112 I48 111211 I63 211212 I78 212212
I04 312221 I19 233221 I34 111212 I49 212221 I64 111211 I79 112132
I05 321211 I20 111111 I35 332312 I50 322211 I65 221221 I80 212222
I06 212211 I21 122212 I36 111212 I51 111211 I66 111211 I81 332212
I07 112211 I22 212211 I37 111212 I52 211212 I67 312111 I82 211212
I08 211212 I23 322311 I38 211211 I53 211212 I68 311211 I83 211222
I09 111231 I24 112211 I39 112221 I54 211211 I69 122221 I84 231212
I10 311321 I25 111231 I40 111221 I55 111121 I70 111211 I85 311212
I11 111121 I26 212221 I41 221212 I56 111121 I71 212211 I86 212322
I12 211121 I27 112231 I42 212212 I57 111222 I72 211212 I87 311222
I13 211221 I28 211222 I43 232222 I58 221121 I73 211211 I88 221222
I14 112221 I29 121221 I44 112112 I59 212221 I74 211212 I89 211222
I15 332111 I30 112231 I45 211212 I60 233231 I75 121121 I90 111222

La versión Windows de SPAD realiza el ACS considerándolas variables como si fueran


numéricas (Cuál será la razón?) y el ACM considerando las variables como nominales.

Este proceso conlleva los pasos siguientes:

1. Crear el archivo de datos en ASCII (mediante un editor como el de ESM). Si se usa


SPAD 1.4 se debe identificar cada individuo con un rótulo, igual que en el ACP.
2. Importar la base de datos al formato SPAD
3. Editar la base de datos para poner nombre a las variables y luego salvar
4. Editar los nombres y rótulos (libelles) de las variables y salvar de nuevo
5. Seleccionar la base de datos (*.sba) para un análisis
6. Insertar el método factorial de ACM
7. Ejecutar el método.

El análisis de correspondencias binarias puede ser realizado con cualquiera de las


versiones de SPAD para D.O.S. En particular la versión 1.4 suele ser útil y sencilla de
manejar. Tan solo requiere que se tenga en cuenta:

1. Los individuos deben estar identificados mediante una cadena alfanumérica. Esto
puede hacerse mediante ESM (Gestión de archivos > Rotular)
2. Se debe usar el formato Fortran de lectura. Ejemplo:

(A4, 1X, 12F1.0, 5X, 8F1.0)

El análisis de correspondencias binarias sobre el ejemplo anterior produce los siguientes


resultados parciales:
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 179

VALOR PROPIO PORCENTAJE PORCENTAJE


ACUMULADO
1 .03651388 33.76 33.76
2 .02635378 24.37 58.13
3 .01818315 16.81 74.94
4 .01648652 15.24 90.18
5 .01061641 9.82 100.00
-----------------------------------------------------------------------------

EDICION DE COORDENADAS DE LAS COLUMNAS


-----------------------------------------------------------------------------
NOMBRE * (PROP) * C O O R D E N A D A S *
* * F1 F2 F3 F4 F5 F6 *
-------*--------*-----------------------------------------------------------*
PART * (.193) * -.2480 .0183 -.1705 .0917 -.0623 .0000*
ACTV * (.143) * .0004 .2777 .1814 .1354 .0413 .0000*
ACTI * (.151) * .0793 .1680 -.0440 -.2511 -.0692 .0000*
VIOL * (.202) * -.0272 -.0938 -.0310 -.0536 .1894 .0000*
EDAD * (.162) * .3646 -.0959 -.0706 .1088 -.0469 .0000*
SEXO * (.150) * -.1169 -.2277 .2096 -.0396 -.0936 .0000*
*****************************************************************************

EDICION DE CONTRIBUCIONES ABSOLUTAS


-----------------------------------------------------------------------------
NOMBRE * C O N T R I B U C I O N *
* F1 F2 F3 F4 F5 F6 *
----------------*-----------------------------------------------------------*
PART * 32.5628 .2451 30.9134 9.8648 7.0743 .0000*
ACTV * .0001 41.7425 25.8156 15.8750 2.2980 .0000*
ACTI * 2.6027 16.1691 1.6075 57.7155 6.8109 .0000*
VIOL * .4080 6.7283 1.0632 3.5166 68.1188 .0000*
EDAD * 58.8236 5.6422 4.4301 11.6040 3.3445 .0000*
SEXO * 5.6029 29.4728 36.1702 1.4241 12.3536 .0000*
*****************************************************************************
*****************************************************************************
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 180

Esta gráfica permite deducir, por ejemplo, que SEXO y OPINION ACERCA DE LA
VIOLENCIA ESTUDIANTIL son variables asociadas. Es decir, la opinión depende del
sexo. Igualmente se deduce que la participación en política no esta asociada con la
opinión acerca de la violencia estudiantil.

El análisis de correspondenc ias múltiples, que permite descubrir la asociación entre


modalidades, produce los resultados siguientes:

ANALISIS DE CORRESPONDENCIA MULTIPLE - VIOLENCIA U.N

CLASIFICACION DE LAS PREGUNTAS DE LA ENCUESTA


PREGUNTAS ACTIVAS = 6
PREGUNTAS SUPLEMENTARIAS = 0
-----------------------------------------------------------------------------

CONSIDERACION ESPECIAL DE MODALIDADES CON FRECUENCIA


INFERIOR O IGUAL A 4
-----------------------------------------------------------------------------

ACTUALIZACION DE PREGUNTAS ACTIVAS

PREGUNTA 1 participacion
muy = 24. poco = 26. nada = 10.
PREGUNTA 2 actividad
tods = 46. univ = 8. sopo = 6.
PREGUNTA 3 actitud
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 181

debe = 35. yapa = 22. ndeb = 3.


PREGUNTA 4 opinion
juvi = 10. errv = 46. nopi = 4.
PREGUNTA 5 edad
me20 = 31. 2025 = 24. Ma25 = 5.
PREGUNTA 6 sexo
masc = 42. feme = 18.
-----------------------------------------------------------------------------

MODALIDADES ABANDONADAS

PREGUNTA 3 actitud
MODALIDAD=
ndeb= 3.
PREGUNTA 4 opinion
MODALIDAD=
nopi= 4.

RESUMEN DE CLASIFICACION
-----------------------------------------------------------------------------

NUMERO TOTAL DE PREGUNTAS 6


NUMERO TOTAL DE MODALIDADES 17

ACTUALIZACION DE PREGUNTAS ACTIVAS


(MODALIDADES PARA EL CALCULO DE FACTORES)

PREGUNTA 1 participacion
muy = 24. poco = 26. nada = 10.
PREGUNTA 2 actividad
tods = 46. univ = 8. sopo = 6.
PREGUNTA 3 actitud
debe = 35. yapa = 25.
PREGUNTA 4 opinion
juvi = 12. errv = 48.
PREGUNTA 5 edad
me20 = 31. 2025 = 24. Ma25 = 5.
PREGUNTA 6 sexo
masc = 42. feme = 18.
-----------------------------------------------------------------------------
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 182

TABLA DE BURT

muy poco nada tods univ sopo debe yapa juvi errv
-----------------------------------------------------------------------------
muy | 24.
poco | 0. 26.
nada | 0. 0. 10.
|
tods | 22. 19. 5. 46.
univ | 2. 3. 3. 0. 8.
sopo | 0. 4. 2. 0. 0. 6.
|
debe | 16. 15. 4. 30. 5. 0. 35.
yapa | 8. 11. 6. 16. 3. 6. 0. 25.
|
juvi | 6. 3. 3. 10. 1. 1. 10. 2. 12.
errv | 18. 23. 7. 36. 7. 5. 25. 23. 0. 48.
|
me20 | 10. 14. 7. 23. 6. 2. 18. 13. 4. 27.
2025 | 10. 11. 3. 19. 2. 3. 15. 9. 8. 16.
Ma25 | 4. 1. 0. 4. 0. 1. 2. 3. 0. 5.
|
masc | 18. 16. 8. 32. 6. 4. 24. 18. 10. 32.
feme | 6. 10. 2. 14. 2. 2. 11. 7. 2. 16.
|
-----------------------------------------------------------------------------
muy poco nada tods univ sopo debe yapa juvi errv

me20 2025 Ma25 masc feme


-----------------------------------------------------------------------------
me20 | 31.
2025 | 0. 24.
Ma25 | 0. 0. 5.
|
masc | 16. 21. 5. 42.
feme | 15. 3. 0. 0. 18.
|
-----------------------------------------------------------------------------
me20 2025 Ma25 masc feme
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 183

PERFILES HORIZONTALES (POR 1000) DE LA TABLA DE BURT

La frecuencia relativa de cada modalidad (por 1000) aparece


sobre la diagonal correspondiente

muy poco nada tods univ sopo debe yapa juvi errv
-----------------------------------------------------------------------------
muy | 400. 0. 0. 917. 83. 0. 667. 333. 250. 750.
poco | 0. 433. 0. 731. 115. 154. 577. 423. 115. 885.
nada | 0. 0. 167. 500. 300. 200. 400. 600. 300. 700.
|
tods | 478. 413. 109. 767. 0. 0. 652. 348. 217. 783.
univ | 250. 375. 375. 0. 133. 0. 625. 375. 125. 875.
sopo | 0. 667. 333. 0. 0. 100. 0.1000. 167. 833.
|
debe | 457. 429. 114. 857. 143. 0. 583. 0. 286. 714.
yapa | 320. 440. 240. 640. 120. 240. 0. 417. 80. 920.
|
juvi | 500. 250. 250. 833. 83. 83. 833. 167. 200. 0.
errv | 375. 479. 146. 750. 146. 104. 521. 479. 0. 800.
|
me20 | 323. 452. 226. 742. 194. 65. 581. 419. 129. 871.
2025 | 417. 458. 125. 792. 83. 125. 625. 375. 333. 667.
Ma25 | 800. 200. 0. 800. 0. 200. 400. 600. 0.1000.
|
masc | 429. 381. 190. 762. 143. 95. 571. 429. 238. 762.
feme | 333. 556. 111. 778. 111. 111. 611. 389. 111. 889.
|
-----------------------------------------------------------------------------
muy poco nada tods univ sopo debe yapa juvi errv

me20 2025 Ma25 masc feme


-----------------------------------------------------------------------------
muy | 417. 417. 167. 750. 250.
poco | 538. 423. 38. 615. 385.
nada | 700. 300. 0. 800. 200.
|
tods | 500. 413. 87. 696. 304.
univ | 750. 250. 0. 750. 250.
sopo | 333. 500. 167. 667. 333.
|
debe | 514. 429. 57. 686. 314.
yapa | 520. 360. 120. 720. 280.
|
juvi | 333. 667. 0. 833. 167.
errv | 563. 333. 104. 667. 333.
|
me20 | 517. 0. 0. 516. 484.
2025 | 0. 400. 0. 875. 125.
Ma25 | 0. 0. 83.1000. 0.
|
masc | 381. 500. 119. 700. 0.
feme | 833. 167. 0. 0. 300.
-----------------------------------------------------------------------------
me20 2025 Ma25 masc feme
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 184

EDICION DE VALORES-PROPIOS
-----------------------------------------------------------------------------
SUMA DE VALORES PROPIOS 1.50000000

VALOR PROPIO PORCENTAJE PORCENTAJE


ACUMULADO
1 .28861870 19.24 19.24
2 .25361300 16.91 36.15
3 .22815670 15.21 51.36
4 .19750040 13.17 64.53
5 .15470130 10.31 74.84
6 .11808020 7.87 82.71
7 .10793890 7.20 89.91
8 .08301575 5.53 95.44
9 .06837495 4.56 100.00

-----------------------------------------------------------------------------

EDICION DE COORDENADAS DE MODALIDADES


-----------------------------------------------------------------------------
NOMBRE * C O O R D E N A D A S *
* F1 F2 F3 F4 F5 F6 *
-------*--------------------------------------------------------------------*
* *
PREGUNTA 1 participacion *
* *
muy * -.7046 .0060 .4517 .5023 -.3238 .1316 *
poco * .3915 -.1547 .1526 -.7703 .5571 -.2114 *
nada * .6730 .3878 -1.4809 .7972 -.6713 .2336 *
* *
PREGUNTA 2 actividad *
* *
tods * -.2998 -.1459 .2314 -.0868 -.1435 .2363 *
univ * .6209 -.4606 -1.1863 1.2320 1.3102 -.5713 *
sopo * 1.4703 1.7328 -.1924 -.9771 -.6469 -1.0502 *
* *
PREGUNTA 3 actitud *
* *
debe * -.4902 -.4596 -.0920 -.0442 .1276 -.3230 *
yapa * .6862 .6435 .1288 .0619 -.1786 .4521 *
* *
PREGUNTA 4 opinion *
* *
juvi * -1.0818 .1223 -1.0431 -.3763 -.7911 -.6117 *
errv * .2705 -.0306 .2608 .0941 .1978 .1529 *
* *
PREGUNTA 5 edad *
* *
me20 * .4877 -.6112 -.0449 .2482 -.2325 .0170 *
2025 * -.5696 .4799 -.3421 -.5999 .3017 .2866 *
Ma25 * -.2895 1.4857 1.9207 1.3411 -.0064 -1.4815 *
* *
PREGUNTA 6 sexo *
* *
masc * -.2669 .3997 -.1312 .1516 .2506 .0948 *
feme * .6227 -.9327 .3061 -.3538 -.5848 -.2212 *
-----------------------------------------------------------------------------
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 185

EDICION DE CONTRIBUCIONES DE MODALIDADES


-----------------------------------------------------------------------------
NOMBRE * C O N T R I B U C I O N *
* F1 F2 F3 F4 F5 F6 *
-------*--------------------------------------------------------------------*
* *
PREGUNTA 1 participacion *
* *
muy * 11.4669 .0009 5.9624 8.5177 4.5193 .9780 *
poco * 3.8361 .6816 .7373 21.6976 14.4900 2.7322 *
nada * 4.3591 1.6475 26.7019 8.9376 8.0914 1.2841 *
-------*--------------------------------------------------------------------*
TOTAL * 19.6621 2.3300 33.4016 39.1528 27.1007 4.9944 *
* *
PREGUNTA 2 actividad *
* *
tods * 3.9782 1.0726 2.9992 .4876 1.7002 6.0448 *
univ * 2.9684 1.8591 13.7074 17.0772 24.6573 6.1430 *
sopo * 12.4837 19.7315 .2705 8.0565 4.5088 15.5681 *
-------*--------------------------------------------------------------------*
TOTAL * 19.4303 22.6632 16.9771 25.6213 30.8664 27.7559 *
* *
PREGUNTA 3 actitud *
* *
debe * 8.0937 8.0983 .3606 .0964 1.0226 8.5881 *
yapa * 11.3312 11.3376 .5049 .1349 1.4316 12.0233 *
-------*--------------------------------------------------------------------*
TOTAL * 19.4249 19.4359 .8655 .2313 2.4542 20.6114 *
* *
PREGUNTA 4 opinion *
* *
juvi * 13.5160 .1966 15.8957 2.3896 13.4845 10.5629 *
errv * 3.3790 .0492 3.9739 .5974 3.3711 2.6407 *
-------*--------------------------------------------------------------------*
TOTAL * 16.8951 .2458 19.8696 2.9870 16.8556 13.2036 *
* *
PREGUNTA 5 edad *
* *
me20 * 7.0952 12.6832 .0761 2.6850 3.0099 .0212 *
2025 * 7.4935 6.0545 3.4205 12.1489 3.9225 4.6382 *
Ma25 * .4033 12.0882 22.4564 12.6473 .0004 25.8158 *
-------*--------------------------------------------------------------------*
TOTAL * 14.9920 30.8259 25.9530 27.4812 6.9328 30.4752 *
* *
PREGUNTA 6 sexo *
* *
masc * 2.8787 7.3498 .8800 1.3580 4.7371 .8879 *
feme * 6.7169 17.1495 2.0533 3.1686 11.0532 2.0717 *
-------*--------------------------------------------------------------------*
TOTAL * 9.5956 24.4992 2.9333 4.5266 15.7904 2.9595 *
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 186

COORDENADAS DE TODAS LAS MODALIDADES


-----------------------------------------------------------------------------
NOMBRE * C O O R D E N A D A S *
* F1 F2 F3 F4 F5 F6 *
-------*--------------------------------------------------------------------*
muy * -.7046 .0060 .4517 .5023 -.3238 .1316 *
poco * .3915 -.1547 .1526 -.7703 .5571 -.2114 *
nada * .6730 .3878 -1.4809 .7972 -.6713 .2336 *
tods * -.2998 -.1459 .2314 -.0868 -.1435 .2363 *
univ * .6209 -.4606 -1.1863 1.2320 1.3102 -.5713 *
sopo * 1.4703 1.7328 -.1924 -.9771 -.6469 -1.0502 *
debe * -.4902 -.4596 -.0920 -.0442 .1276 -.3230 *
yapa * .6164 .4260 .0835 .2307 -.2586 .6802 *
ndeb * 1.1985 2.2382 .4607 -1.1752 .4083 -1.2202 *
juvi * -1.0631 .0437 -.8342 -.4248 -.7498 -.7105 *
errv * .1983 -.0536 .3273 .0531 .2401 .1607 *
nopi * .3770 .5071 -1.6787 .4511 -.8867 -.0716 *
me20 * .4877 -.6112 -.0449 .2482 -.2325 .0170 *
2025 * -.5696 .4799 -.3421 -.5999 .3017 .2866 *
Ma25 * -.2895 1.4857 1.9207 1.3411 -.0064 -1.4815 *
masc * -.2669 .3997 -.1312 .1516 .2506 .0948 *
feme * .6227 -.9327 .3061 -.3538 -.5848 -.2212 *
-----------------------------------------------------------------------------
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 187

15.4 METODOS DE CLASIFICACION

Clasificar significa reunir individuos que son muy semejantes en un mismo grupo. La
clasificación ha sido siempre una preocupación de la ciencia, ejemplo de ello nos lo
brinda la biología con las clasificaciones de seres vivos (taxonomía) que ha desarrollado
desde hace mucho tiempo. Igualmente en la industria, en el comercio, en la sociedad, etc
se está clasificando permanentemente. Y lo interesante es que la clasificación es también
objeto de la estadística, que ha desarrollado algunos métodos para hacerlo.

Puesto que para clasificar se requiere comparar individuos para medir su “parecido”
debemos comenzar diciendo que se hace necesario tener medidas de similaridad o
indirectamente también medidas de disimilaridad que midan la distancia entre ellos.

Cuando los individuos están determinados por p variables de tipo numérico, se puede
pensar que cada individuo es una p-upla en el espacio real de p dimensiones, algo como:
( x1 , x2 ,L , x p )
y entonces se puede definir una distancia entre un par de individuos por cualquiera de las
tantas formas de medir distancias que existen. Algunas de ellas son las siguientes:

∑ ( xi − x′i )
2
1. Distancia Euclidiana:

1/ p
 p
2. Distancia de Minkowski:  ∑ ( xi − x′i )  con p ≥1
 
3. Distancia del taxista ∑ xi − x′i
Existen muchas otras definiciones de distancia entre individuos que no mencionamos en
estas notas.

Un concepto más general que el de distancia es el de indice de disimilaridad. Muchas


veces se usan estos índices por cuanto ellos, en muchos casos, son aplicables aún a
individuos cuyas medidas no son numéricas. Generalmente los índices de disimilaridad se
definen como complementos de otros índices, llamados índices de similaridad Un
índice de similaridad se define como una función que a cada par de individuos I, J, asocia
un valor s(I,J)el cual satisface:
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 188

1. s( I , J ) = s( J , I ), ∀I , J
2. s( I , J ) ≤ s( I , I ) = s( J , J ), ∀I , J
Con mucha frecuencia estos índices se acotan de tal manera que 0 ≤ s ( I , J ) ≤1 y
entonces se define el índice de disimilaridad entre los individuos I,J como el valor
d ( I , J ) = 1 − s( I , J )
Las distancias son evidentemente índices de disimilaridad pero no todo índice de
disimilaridad es una distancia. Lo es cuando satisface d ( I , j ) = 0 ⇒ I = J .y la
propiedad conocida como desigualdad triangular.

Ejemplos usuales de índices de disimilaridad se obtienen cuando entre dos individuos se


cuenta la ausencia o presencia de carácterísticas comunes

INDIVIDUO J
Presen Ausen Total
IN
DI Presen a b a+b
VI
DUO Ausenc c d c+d
I
Total a+c b+d n

Así se definen, por ejemplo, los siguientes índices :

a
1. Jaccard (1901): s( I , J ) =
n−a
a+d
2. Sokal (1958): s( I , J ) =
n
2a
3. Schekanowski (1913) s( I , J ) =
2a + b + c
Existen otros muchos índices. Estos son ejemplos de algunos muy conocidos
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 189

Hasta el momento no hay literatura para definir índices de disimilaridad mediante


variables categóricas no binarias. Es to es una necesidad muy sentida en estadística y
puede ser motivo de investigación.

Una vez definida la distancia entre individuos, debemos definir una distancia entre
conjuntos de individuos (en particular entre un individuo y un conjunto de individuos) ya
que esto es clave para tener un criterio de asignación de un individuo a un conjunto ya
establecido.

Desde el punto de vista topológico existen varias formas de definir distancias entre
conjuntos. Algunas, las más usuales son las siguientes:

1. Distancia del mínimo (Simple Linkage): se miden todas las posibles distancias entre
individuos de un conjunto A e individuos de un conjunto B y se define d(A,B) como
el mínimo de las distancias anteriores.
2. Distancia del máximo (Complete Linkage). Similar al anterior pero definiendo d(A,B)
como la máxima de las distancias entre puntos de los dos conjuntos.
3. Distancia de los centroides (Centroid Linkage). Se calculan los centros de gravedad
de cada conjunto A y B y luego se mide la distancia entre ellos.
4. Distancia promedio (Average Linkage). Se calculan todas las posibles distancias entre
puntos de A y puntos de B y luego se calcula el promedio de tales distancias.

Generalmente las distancias necesarias entre puntos mencionadas en los párrafos


anteriores se calculan con base en una distancia euclidiana aunque podría hacerse con
base en cualquiera otra distancia.

Sin embargo entre todas aquellas posibles distancias definibles entre conjuntos hay una
muy especial llamada distancia de la Inercia, un poco complicada de definir pero que
conduce al criterio de WARD para asignación de individuos y que es el más usado para
clasificación jerárquica, como se verá en breve.

TIPOS DE CLASIFICACIONES DE n INDIVIDUOS

Existen básicamente dos formas de clasificar n individuos dados previamente, a saber:


las clasificaciones jerárquicas (que pueden ser ascendentes o descendentes) en las cuales
existe una jerárquia interna entre los grupos formados de acuerdo con la distancia a que
dichos grupos se encuentren y otra clasificación en la que los individuos simplemente se
reparten en k grupos muy homogéneos en su interior y muy heterogéneos entre sí. Por
supuesto estas clasificaciones se llaman no jerárquicas.

Los tipos de clasificaciones dan origen a ciertos grupos característicos en los que los
miembros de un mismo grupo son muy semejantes entre sí y muy diferentes a los
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 190

miembros de otro grupo. Tales grupos reciben el nombre de conglomerados (clusters) y


muchas veces el interés va más alla: caracterizar los conglomerados. Es decir, determinar
cuales son las características que hacen similares a los miembros de un mismo
conglomerado y cuáles son las características que diferencian a dos conglomerados
diferentes. ésto último tiene que ver con los principios discriminantes entre individuos,
cuya potencialidad ya se adivina.

Los métodos de clasificación jerárquica se basan en un principio algorítmico muy simple:

1. Seleccionar los dos individuos más parecidos (de distancia mínima) y formar con
ellos un primer grupo, anotando la distancia a la que se encuentran los miembros de
este grupo.
2. Recalcular la tabla de distancias teniendo en cuenta que los individuos previamente
asignados a un grupo están formando un conjunto que se comporta ahora como un
nuevo individuo. Por tanto, la nueva tabla se define con base en las distancias entre
conjuntos, como se mencionó anteriormente.
3. Mientras falten individuos por reasignar, repetir los pasos 1 y 2 previamente
mencionados.

Lo anterior da origen a clasificaciones representables mediante conjuntos incluídos en


otros conjuntos que también admiten representaciónes planas, en forma de árbol,
llamadas dendrogramas.

Generalmente las clasificaciones se hacen después de haber aplicado algún método


factorial que reduzca la dimensionalidad de un problema y con base en las primeras 3 0 4
coordenadas factoriales de los individuos. El ACP para variables numéricas es un
magnífico paso previo al proceso de clasificación (tanto jerárquica como no jerárquica).
Igualmente el AFC debe ser un paso previo a la clasificación de individuos con variables
categóricas. En el caso de variables numéricas, debido a que éstas son representables
dentro de un espacio factorial, ellas son suceptibles de clasificación. Por tanto, es posible
también una clasificación jerárquica de variables, clasificación que agruparía en
conglomerados a las variables cuyo comportamiento sea más parecido entre sí.

Existen numerosas complicaciones de carácter técnico que deben ser resueltas en un


proceso de clasificación y que tienen que ver más con procesos algorítmicos y de
computación que de carácter estadístico. El software de clasificación, -bien escaso por
cierto- ha resuelto esos problemas y permite la obtención de excelentes resultados.
Algunos paquetes importantes en clasificación son: SAS (Proc CLUSTER y Proc
FASTCLUS), Statística, Spss, SPADN , Spad/W y Sicla.

A manera de ejemplo, se hará una clasificación jerárquica de 30 barrios de Bogotá en los


que se han medido las siguientes variables (L. Bautista):
PRED = Promedio de Impuesto predial en el barrio
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 191

COMB = Total de combustible consumido al mes


HACI = Indice de hacinamiento del barrio
ESCO = Indice promedio de escolaridad
ALFA = Indice de analfabetismo
ECON = Indice de nivel socioeconómico del barrio
INGR = Indice del nivel de ingresos
RESD = Indice de calidad de vivienda

08009.3 11.11 3.50 57.84 6.67 6.21 1.65 8.80


02568.8 12.90 3.25 59.39 5.81 7.39 1.49 14.42
02157.4 22.36 3.00 63.84 3.03 5.52 0.97 10.81
02098.8 15.23 4.00 55.80 6.22 15.21 1.23 15.75
01721.3 11.50 3.00 59.75 3.77 9.34 0.95 15.85
04742.5 69.69 2.00 70.13 1.42 5.82 0.01 6.94
05433.4 33.03 3.00 57.64 3.32 12.53 0.09 32.69
12664.3 95.29 1.60 64.49 1.63 11.03 0.27 8.24
10154.0 99.66 1.75 68.33 0.00 12.06 0.19 7.82
09308.2 98.30 1.40 66.32 1.68 28.80 0.67 14.26
10525.4 85.96 1.50 74.38 2.56 25.74 0.20 5.51
06454.8 88.88 1.40 81.48 0.00 13.06 0.23 6.07
06281.7 57.83 2.00 57.14 3.57 9.49 0.10 8.11
07285.0 77.10 2.00 67.52 2.44 13.30 0.06 8.89
06981.8 79.16 1.67 74.55 1.63 23.66 0.28 11.75
02587.5 25.17 3.00 58.96 4.85 11.75 0.12 11.07
03473.7 43.39 2.50 64.57 4.15 8.82 0.01 13.12
02491.7 18.81 3.00 53.28 4.26 6.96 0.03 18.16
02297.3 13.00 3.50 53.13 5.34 9.84 0.23 20.30
01279.5 8.54 3.50 52.54 9.05 7.75 0.02 10.58
01310.5 11.11 3.50 59.91 6.29 9.46 0.44 7.85
01285.2 9.61 4.00 51.49 8.33 6.80 0.80 8.37
01712.4 16.74 3.50 52.48 7.49 9.42 0.16 15.85
01267.6 7.73 4.00 41.75 9.02 5.16 0.96 10.16
01689.5 16.27 4.00 49.69 6.91 12.42 0.04 12.18
01687.3 6.33 4.00 52.32 5.57 11.87 0.53 10.52
02476.1 16.98 4.00 51.49 11.22 5.30 0.77 8.93
01728.5 11.90 4.00 50.49 10.32 5.60 0.83 9.54
01530.1 17.12 4.00 50.29 5.05 8.53 0.97 8.70
01363.6 8.92 4.00 48.72 5.24 6.99 1.00 10.97

Los resultados obtenidos parcialmente, empleando distancias euclidianas y el método de


Ward, son los siguientes:
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 192

Tree Diagram for 30 Cases


Ward`s method
Euclidean distances

C_1
C_14
C_15
C_12
C_13
C_6
C_7
C_8
C_9
C_11
C_10
C_2
C_16
C_18
C_27
C_3
C_4
C_19
C_17
C_5
C_23
C_28
C_25
C_26
C_29
C_20
C_22
C_24
C_21
C_30
0 10000 20000 30000 40000 50000 60000 70000

Linkage Distance

La clasificación de variables, un poco confusa a causa de los datos, es la siguiente:


INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 193

Tree Diagram for 8 Variables


Ward`s method
Euclidean distances

PREDI

COMBU

ESCOL

HACIN

INGRS

ALFAB

ECONO

RESID

0 10000 20000 30000 40000 50000 60000


Linkage Distance

Este árbol podría también representarse como

PRED COMBU INGRES HACIN RESID


ESCOL ALFAB
ECONO

Al cortar el árbol mediante una recta perpendicular a k ramas se forman k


conglomerados o grupos de individuos (variables) semejantes entre sí.

Los métodos de clasificación no-jerárquica se implementan generalmente a partir de una


elección inicial de k núcleos que pueden ser algunos de los puntos a clasificar u otros
puntos seleccionados de alguna manera. Algunas veces definidos por el usuario, otras
muchas escogidas en forma aleatoria. Todos los demás puntos son asignados al grupo en
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 194

el que esté el núcleo más parecido al punto que se quiere asignar (es decir al núcleo de
menor distancia al punto considerado). De esta manera se hace un primer agrupamiento
de los n individuos en k grupos.

Generalmente el agrupamiento anterior es muy pobre en cuanto que puede ser mejorado a
fín de que haya mayor varianza entre y menor varianza dentro. Esto implica realizar
nuevas agrupaciones a partir de la anterior. La mayor parte de las veces el paso siguiente
consiste en calcular los centros de gravedad de cada grupo obtenido en la etapa anterior y
utilizar estos puntos como núcleos para un nuevo agrupamiento.

El proceso anterior se repite varias veces hasta que ocurra alguna de las cosas siguientes,
según el caso:

1. Se haya hecho un número m (fijado previamente) de iteraciones (es el método menos


recomendado).
2. No se aprecien cambios significativos en las distribuciones de las varianzas ENTRE y
DENTRO de los respectivos grupos con lo obtenido en la etapa inmediatamente
anterior (lo más usual)

La escuela francesa ha propuesto un refinamiento del método que consiste en una


combinación de los dos anteriores: Primero se hace un número m de iteraciones y en
todas ellas se observa cuáles individuos clasificaron persistentemente en los mismos
grupos. Tales individuos se denominan formas fuertes (ff) En segundo lugar se utilizan
todas o algunas formas fuertes como núcleos para comenzar una etapa definitiva de
clasificación que termina con la aplicación del segundo proceso. Este es el método
implementado en SICLA, el único paquete disponible en forma popular para hacer
clasificación. (por cierto, no muy fácil de manejar)

Existen algunos métodos mixtos de clasificación que combinan métodos jerárquicos y no


jerárquicos. En ellos la clasificación se hace en dos etapas. En la primera se usa un
método no-jerárquico a fin de disminuir la varianza dentro lo que genera un número r de
clases o conglomerados. En la segunda etapa se hace clasificación jerárquica sobre los
centrides de los conglomerados obtenidos en la etapa anterior.

El uso de SICLA requiere de un archivo con las nxp observaciones numéricas rotuladas
como n individuos. Este paquete está formado por 4 ejecutables llamados ENRV,
ENRI, MNDQAN y FF que deben ser ejecutados en este mismo orden.

ENRV registra variables. Se debe dar el nombre, label y tipo (Ej: Ingreso, ING, 1). Los
tipos son: 1=numérica. 2=Categórica. Si las variables son numéricas se debe tener
previamente calculados el mínimo y el máximo. Si es categórica se debe tener
previamente el número de modalidades y un label para cada modalidad (variable por
variable). Al finalizar se crea un archivo *.SDO.
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 195

ENRI se usa para registrar individuos. Pide el número de individuos, el archivo ASCII de
datos, Muestra la primera observación a fin de que se le defina el formato fortran de
lectura. Crea un archivo del tipo LIS15_36

MNDQAN Aplica el método de nubes dinámicas como parte del análisis., para definir
formas fuertes y clasificar los individuos.

FF finalmente este ejecutable produce la clasificación definitiva (la llama clasificación


central)

A continuación se transcribe el archivo de ayuda que acompaña al diskette que contiene


los comandos mencionados más el comando INPAQN que ayuda en la interpretación de
resultados. Este archivo fue elaborado por el autor de estas notas.

INTRODUCCION A SICLA
SICLA (Sistema Interactivo de clasificación)

Este paquete de programas permite hacer clasificación de individuos mediante la


aplicación del método de nubes dinámicas y las formas fuertes para detectar las
mejores particiones de una muestra.

Para poder usar el programa es necesario tener previamente un archivo ASCII en


el que se encuentren los valores de las variables para cada uno de los
individuos que conforman la muestra. Este archivo es una matriz en la que las
columnas corresponden a las variables y las filas a los individuos.

Debe haber un rótulo alfanumérico de identificación de cada individuo el cual


debe encontrarse preferiblemente en la parte izquierda del archivo. Igualmente
es necesario conocer el mínimo y el máximo para cada una de las variables
numéricas y el número de modalidades para cada una de las variables categóricas
que se vayan a analizar. Es preferible tener un listado de rótulos para cada una
de las modalidades.

El análisis se lleva a cabo, ejecutando sucesivamente los comandos siguientes


(ellos corresponden a nombres de archivos ejecutables):

1. ENRV para hacer registro de las variables


2. ENRI para hacer registro de individuos
3. MNDQAN para aplicar el método de nubes dinámicas
4. FF para detectar formas fuertes
5. INPAQN (Opcional) para hacer interpretación

A continuación se amplía la información sobre el uso de cada uno de los comandos


anteriores.
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 196

1. ENRV

Es el primer comando que se utiliza. Permite registrar en forma interactiva el


diccionario de variables.

Entrez un nom pour la structure de donnees a creer


Se debe responder con el nombre de un archivo sin extensión. El programa
asigna automáticamente la extensión .SDO.

Que desirez-vous faire?


Se responde:
1 para hacer la descripción en modo conversacional
2 para hacerla a partir de otro archivo de datos.
/ anula la sesión.

Entrez un titre pour les donnees


Aquí se puede introducir un título con un máximo de 80 caracteres.

Entrez le nombre exacte des variables.


Entrar el número exacto de variables que va a ser incluido en el
análisis.

Desirez-vous definir des fourchettes de controle?


Se responde o (oui=si) n (non=no).
Si se responde SI (lo usual) se requiere conocer máximos y mínimos de
cada variable numérica.

Abrégé, libellé, type de la variable No...


Se debe responder con el rótulo, variable y tipo de variable, separados
con comas. Por ejemplo: INGR, INGRESO MENSUAL, 1

Los tipos de variables SICLA son los siguientes:


1 Cuantitativa
2 Categórica no ordinal
3 Texto
4 Categórica ordinal
5 Notas (Enteros comprendidos entre dos cotas)
6 Binarias (0 y 1)
7 Conteos (Enteros positivos)

Entrez un mayorant du nombre total de modalités tratées.


Esta pregunta aparece después del eventual registro de variables cate-
góricas. El numero a proporcionar debe ser un mayorante de la totalidad
de modalidades de todas las variables categóricas.

Desirez-vous définir les libelles des modalités? -


Si la respuesta es N (NON) se forma automáticamente con el rótulo de la
variable y un numero de orden. Si la respuesta es O (OUI) se pedirá un
rotulo para cada modalidad.

Nombre de modalités de la variable? -


Se debe responder un nómero que indique exactamente cuantas modalidades
tiene la variable.

Y-e-t-il des données manquantes?


Para la consideración de valores faltantes, se debe responder así:
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 197

0 No hay valores faltantes


1 Hay valores faltantes en variables cuantitativas
2 Hay valores faltantes en variables categóricas
3 Hay valores faltantes en ambos tipos de variables

Quel est le code entier unique représentat les donnés manquantes?


Se debe dar el código que representa valores faltantes (Ej: 9999). En
caso de que falten valores en ambos tipos de variables este código re-
presenta ambos casos.

2 ENRI

Una vez que el comando anterior se haya ejecutado con éxito se deben registrar
los individuos. Para ello se ejecuta ENRI.

Nombre maximum d'individus?


Digitar el numero de individuos

Nombre de caracteres de l'identificateur des individus?


Digite la longitud del identificador alfanumérico de individuos. Este
podría ser de hasta 44 caracteres.

Nombre de caractéres de l'abrégé des individus?


Indicar el número de caracteres del indicador de individuos
El numero máximo es 4. Si se hace en forma automática comienza en 0.

Type de format de lecture des données?


Se tiene a disposición:
1: Lectura siguiendo un formato Fortran tipo (4a1, 1x, 6(1x, f5.2))
2: Lectura siguiendo un formato libre. En este caso los valores deben
estar separados por espacios y los registros no deben tener más de
80 caracteres en total.

Entrez le nom du fichier contenant les données


Se debe digitar el nombre del archivo de datos con extensión si la
tiene. Ejemplo: DATOS.DAT

Entrez le format Fortran de lecture.


Esta opción resulta obviamente cuando se ha escogido el formato Fortran
de lectura. No puede pasar de dos líneas y es algo de la forma
(4a1, 2x, 10(f4.2, 1x), 15f1.0) donde
#a1 indica un identificador alfanumérico de # caracteres.
#x indica que se debe saltar un numero # de campos
#fm.n indica que se leen # variables numéricas de m columnas de
ancho de las cuales n son decimales. No son necesarios los
puntos decimales (Ejemplo: 34.56 puede escribirse 3456 y
leerse f4.2)

3 MNDQAN

El proceso de clasificación comienza realmente con la aplicación del método de


nubes dinámicas que se invoca con este comando. Aquí la muestra se parte en un
número de clases que se ha fijado de antemano de manera que se maximice la
inercia intraclase bajo la métrica euclidiana usual. Esta clasificación se hace
en dos etapas, a saber:
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 198

En la primera, cada individuo es asignado a la clase más cercana. Esta cercanía


se mide por la distancia al centro de gravedad de la clase. En la segunda
etapa a cada clase se le calcula un nuevo centro de gravedad.
Selection des variables
Las variables deben ser cuantitativas de tipo Sycla 1, 5, 6, o 7. La
selección de variables puede hacerse por rangos (Ej: 2,3,5a$) o por
rótulos (ej: VAR1, VAR2,...). Para seleccionarlas todas se puede res-
ponder: 1a$

Selection des individus


Se hace siguiendo las mismas reglas de la pregunta anterior

Conditions inicieles
Se responde un n£mero de 1 a 4 de acuerdo con la forma de arranque que
puede ser:
1 A partir de una subpartición aleatoria
2 A partir de una subparticion
3 A partir de una particion aleatoria
4 A partir de una partición previamente definida en un archivo

Nombre de classes
Indicar el n£mero de clases en que se quiere particionar el conjunto.
No aparece cuando se arranca de una partición definida en archivo.

Nombre d'essais
Esta pregunta aparece cuando se arranca aleatoriamente (1 o 3)
Un ensayo corresponde a una nueva inicialización con los mismos pará-
metros. El número de ensayos está limitado a 20

Entrez la sous-partition
Este requerimiento se hace cuando se arranca de la opción 2. En tal
caso para cada clase de la subpartición se pide el número de indivi-
duos de la clase y después los rangos de tales individuos

Entrez le rang du constituant de type "part" sélectionné


Esta pregunta se hace si se debe hacer la partición sobre el archivo
actual (corriente).

Quel type de sortie désirez-vous


Se debe responder un número de 1 a 4 de acuerdo con lo siguiente:
1 Resultados suscintos y para la mejor partición se presentan: la
partición, los centros de gravedad y las distancias entre los
centros de gravedad de las clases. Esto se escoge entre los dife-
rentes ensayos. (Recomendada)
2 Lo mismo de (1) más la partición
3 Lo mismo de (2) más centros de gravedad y desviaciones típicas de
las variables dentro de cada clase.
4 Lo mismo de (3) más distancias entre los centros de gravedad de
las clases.
En las opciones (2) a (4) los resultados se presentan para todos los
ensayos.

Sous quelle forme voulez-vous imprimer la partition?


El tipo de impresión (de 1 a 3) se escoge de acuerdo con lo siguiente:
1 Enumeración de los individuos de cada clase (Recomendada)
2 Partición presentada en forma de tabla
3 Los individuos son ordenados por clase de acuerdo con sus distan-
cias al centro de gravedad.
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 199

Voulez-vous d'autres essais avec d'autres conditions initiales?


Si se responde oui (o) comienza un nuevo proceso sin modificar las
condiciones iniciales.

4 FF

FF (de Formes Fortes) realiza el análisis de una multiparticion, es decir, de un


conjunto de particiones logradas previamente sobre el archivo corriente.
Construye las formas fuertes que son las particiones más homogéneas que se
encuentran dentro del conjunto. Si hay al menos cinco particiones dentro de la
multipartición FF construye el árbol de longitud mínima para las formas
fuertes. Este árbol se construye mediante un algoritmo de conexiones
descendentes que reagrupa las formas fuertes de acuerdo con el número de
concordancias. Finalmente construye la partición central que es una especie de
mejor solución entre las particiones consideradas, aplicando la regla
mayoritaria de Condorcet.

Entrez le rang du constituant de type "mulp" sélectionné


La constituyente de tipo "mulp" dentro del archivo corriente es una
multipartición

Voulez-vous conserver dans l'archive la partition des formes fortes?


Responder Si (o) o No (n) según se quieran guardar o no las formas fuertes.

Quel type de sortie voulez-vous pour la partition des formes fortes?


Se responde un valor de 1 a 4 de acuerdo con lo siguiente:
1 Enumeración de individuos por cada forma fuerte
2 Los números de las clases de las particiones dentro de las cuales
se encuentra cada forma fuerte
3 Lo mismo de (1) más lo de (2)
4 No produce salida

Voulez-vous considérer les formes fortes de faible effectif comme


illustratives?
Si existen muchas formas fuertes de poco efectivo es recomendable
considerarlas como ilustrativas para evitar el efecto de cadena

A partir de quel effectif considere-t-on les formes fortes comme


illustratives?
Esta pregunta aparece si se responde afirmativamente a la anterior.
En tal caso digitar el número de mínimo efectivo por debajo del cual
una forma fuerte ser considerada como ilustrativa.

Voulez-vous tracer l'arbre de longueur minimum des formes fortes?


responder Sí (o) o No (n) dependiendo de si se desea la descripción
del árbol de longitud mínima. Este árbol no tiene en cuenta las
formas fuertes ilustrativas.

Voulez-vous conserver dans l'archive la partition centrale?


Responder Sí (o) o No (n) según se desee o no conservar la partición
central en archivo. Si dicha partición tiene pocas clases resulta de
interés conservarla en archivo para poderla analizar con la ayuda del
comando INPAQN.
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 200

5 INPAQN

Este comando calcula algunos datos e índices que ayudan en la interpretación de


las particiones resultantes anteriormente. Lo más importante que se calcula es
lo siguiente:

G(j,k) Centro de gravedad de la clase k para la j-‚sima variable


SIGMA(j,k) Desviación típica de la j-‚sima variable en la clase k
G(j),SIGMA(j) Centro de gravedad y desviación típica poblacionales
para la j-‚sima variable
B(.,.) Inercia interclase (ENTRE)
B(j,.) Contribución absoluta de variable j a la inercia intraclase
B(.,k) Contribución absoluta de la clase k a la inercia interclase
B(j,k) Contribución absoluta de la variable j y la clase k a la
inercia interclase.

De igual manera se calcula W(.,.), W(j,.), W(.,k), W(j,k) para la


inercia intraclase (DENTRO).

Se cumple el teorema de Huygens:


T=B+W. T(j,k)=B(j,k)+W(j,k). T(j,.)=B(j,.)+W(j,.), etc

Los índices más importantes que se calculan son:


cor(j) = B(j,.)/T(j,.) Poder discriminante de la j-‚sima variable
para la partici¢n.
cor_k(j) = B(j,k)/T(j,.) Contribución de la clase k al poder discri
minante de la j-ésima variable
ctr(j) = B(j,.)/B(.,.) Contribuci¢n relativa de la j-‚sima variable
a la inercia interclase
ctr_k(j) = B(j,k)/B(.,k) Contribución relativa de la j-ésima variable
a la porción de inercia interclase relativa a la clase k

Se representa gráficamente el índice de dispersión de los centros de


gravedad de las clases respecto al centro de gravedad de la población
dado por d(j,k) = (G(j,k)-G(j))/SIGMA(j)

Selection des variables


Las variables deben ser cuantitativas de los tipos SICLA 1, 5, 6 o 7
La selecci¢n puede hacerse por rangos o por rótulos
Para seleccionar todas las variables responder 1a$

Selection des individus


Se hace igual que con las variables

Entrez le rang du constituant de type "part" sélectionné


Similar a lo ya visto anteriormente

Quel type de sortie désirez-vous


1 Todos los resultados, es decir, (2)+(3)+(4)
2 Resumen descriptivo de la partición
3 Resultados resumidos en forma de tablas
4 Representación gráfica de las desviaciones y las medias de las
variables entre las clases y la población
5 (2)+(3)
6 (2)+(4)
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 201

7 (3)+(4)

Voulez-vous interpréter une autre partition?


Responder Sí (o) o No (n)

.
EJEMPLO DE CLASIFICACION EN K=4 CONGLOMERADOS
A manera de ejemplo, se hará una clasificación de los 30 barrios de Bogotá considerados
en el ejemplo anterior.

Para poder operar correctamente los comandos de SICLA (Sistema Interactivo de


Clasificación), este archivo fue transformado de la siguiente manera:

B01 0800930 1111 0350 5784 0667 0621 0165 0880


B02 0256880 1290 0325 5939 0581 0739 0149 1442
B03 0215740 2236 0300 6384 0303 0552 0097 1081
B04 0209880 1523 0400 5580 0622 1521 0123 1575
B05 0172130 1150 0300 5975 0377 0934 0095 1585
B06 0474250 6969 0200 7013 0142 0582 0001 0694
B07 0543340 3303 0300 5764 0332 1253 0009 3269
B08 1266430 9529 0160 6449 0163 1103 0027 0824
B09 1015400 9966 0175 6833 0000 1206 0019 0782
B10 0930820 9830 0140 6632 0168 2880 0067 1426
B11 1052540 8596 0150 7438 0256 2574 0020 0551
B12 0645480 8888 0140 8148 0000 1306 0023 0607
B13 0628170 5783 0200 5714 0357 0949 0010 0811
B14 0728500 7710 0200 6752 0244 1330 0006 0889
B15 0698180 7916 0167 7455 0163 2366 0028 1175
B16 0258750 2517 0300 5896 0485 1175 0012 1107
B17 0347370 4339 0250 6457 0415 0882 0001 1312
B18 0249170 1881 0300 5328 0426 0696 0003 1816
B19 0229730 1300 0350 5313 0534 0984 0023 2030
B20 0127950 0854 0350 5254 0905 0775 0002 1058
B21 0131050 1111 0350 5991 0629 0946 0044 0785
B22 0128520 0961 0400 5149 0833 0680 0080 0837
B23 0171240 1674 0350 5248 0749 0942 0016 1585
B24 0126760 0773 0400 4175 0902 0516 0096 1016
B25 0168950 1627 0400 4969 0691 1242 0004 1218
B26 0168730 0633 0400 5232 0557 1187 0053 1052
B27 0247610 1698 0400 5149 1122 0530 0077 0893
B28 0172850 1190 0400 5049 1032 0560 0083 0954
B29 0153010 1712 0400 5029 0505 0853 0097 0870
B30 0136360 0892 0400 4872 0524 0699 0100 1097

Como puede apreciarse, se introdujo una columna alfanumérica inicial, de longitud 3


caracteres, con los identificadores de los individuos. Además se modificó el formato de
los datos eliminando los puntos decimales y agregando ceros de manera que todos ellos
pudieran leerse con dos decimales, bajo el siguiente formato Fortran de lectura:

(3 a1, 1x, f7.2, 7(2x, f4.2))


INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 202

La ejecución de los comandos, junto con las respuestas dadas en este ejemplo, fue como
sigue:

1. Comando ENRV
Enrv Para ejecutar el comando
Bogosoc Nombre de la estructura
1
(un título, opciona)
8 Número de variables
n
PRED, IMPUESTO PREDIAL,1
COMB, CONSUMO COMBUSTIBLE, 1
HACI, INDICE HACINAMIENTO, 1
ESCO, INDICE ESCOLARIDAD, 1
ALFA, INDICE ANALFABETISMO, 1
ECON, NIVEL ECONOMICO, 1
INGR, INDICE NIVEL INGRESOS, 1
RESD, INDICE VIVIENDA, 1
n

2. Comando ENRI
Enri Para ejecutar el comando
30 Número de individuos
3 Longitud del identificador
Bogosoc.dat Archivo de datos dentro de Sicla
(3 a1, 1x, f7.2, 7(2x, f4.2))
oui

3. Comando MNDQAN
1 a$ Todas las variables
1 a$ Todos los individuos
1
4 Partición en 4 clases
15 Un total de 15 ensayos
1
n

Al terminar la ejecución del comando anterior se produce una información:


Inercia de los datos = 0.320256E+9
Ensayo 1: convergencia en 5 iteraciones, etc
Ensayo 2: convergencia en 10 iteraciones, etc
...
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 203

Ensayo 15: convergencia en 7 iteaciones, etc


El mejor resultado se obtuvo en el ensayo 14 que convergió en tres iteraciones con
inercias intraclase dadas por: 0.295E+9, 0.306E+9 y 0.306E+9 y un porcentaje de
inercia explicada del 95.64% (Bastante bueno!!)

3. Comando FF
Como resultado del comando anterior aparece la siguiente información:
1 “mulp” y 2 “part”. Puesto que se desea una multipartición se debe seleccionar 1
que corresponde al rango de la multipartición. En consecuencia:
1
oui
oui Para considerar ilustrativas las formas fuertes de menor efectivo
2 Para indicar que el tope de efectivo mínimo es 2
oui Para que calcule el arbol
oui Para que conserve la partición central

El archivo de salida, en este caso con nombre LIS11_35 (o alguno similar), una vez
depurado, contiene la siguiente información:

En primer lugar una enumeración de la partición obtenida en la que aparecen formas


fuertes con efectivo menor o igual a 2. Es lo siguiente:

Description de la partition des formes fortes par les individus-----------------


-------------------------------------------classe numero 1 (effectif=
11)B05 B20 B21 B22 B23 B24 B25 B26 B28 B29 B30
------------------------------
classe numero 2 (effectif= 5)
B02 B16 B18 B19 B27
------------------------------
classe numero 3 (effectif= 4)
B12 B13 B14 B15
------------------------------
classe numero 4 (effectif= 2)
B08 B11
------------------------------
classe numero 5 (effectif= 2)
B03 B04
------------------------------
classe numero 6 (effectif= 1)
B01
------------------------------
classe numero 7 (effectif= 1)
B17
------------------------------
classe numero 8 (effectif= 1)
B07
------------------------------
classe numero 9 (effectif= 1)
B06
------------------------------
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 204

classe numero 10 (effectif= 1)


B09
------------------------------
classe numero 11 (effectif= 1)
B10
------------------------------

En segudo lugar una descripción de las formas fuertes encontradas y sus relaciones, según
la clase en la que ellas se encuentren
Description de la partition des formes fortes par les numeros de classes--------
------------------------------------------------------------(numero de la classe
(f.f.) suivi par le nom donne a la f.f.,l effectif et par les numeros des
classes des partitions ds lesquelles se trouve la f.f.)

1 fff1 11 1 3 2 1 2 3 3 2 2 2 2 2 2 4 4
2 fff2 5 4 2 1 1 1 1 2 2 4 1 3 2 1 4 3
3 fff3 4 2 1 4 3 3 2 1 4 1 3 4 3 4 2 2

les f.f. suivantes ont ete declarees illustratives


(f.f. dont les effectifs sont egal ou inferieur a 2)

4 fff4 2 3 4 3 2 4 4 4 1 3 4 1 1 3 3 1
5 fff5 2 4 2 1 1 1 1 2 2 4 1 3 2 2 4 3
6 fff6 1 2 1 4 4 3 2 1 4 1 3 4 4 4 2 2
7 fff7 1 4 2 1 1 1 1 2 2 4 1 3 2 1 1 3
8 fff8 1 2 1 4 3 3 2 1 3 1 3 4 3 4 1 2
9 fff9 1 2 1 4 3 3 2 1 3 1 3 4 3 1 1 2
10 ff10 1 3 4 3 4 4 4 4 1 3 4 1 1 3 3 1
11 ff11 1 3 4 3 4 4 4 4 1 3 4 1 4 3 3 1
arbre de longueur minimum sur les f.f.
(sans les f.f. illustratives)
--------------------------------------------------

En tercer lugar el árbol de longitud mínima que en este caso no tiene ramas según lo
informa el mensaje siguiente:
arbre de longueur minimum n a pas de branche(pas de trace) En cuarto lugar la
descripción de formas fuertes correspondiente a la partición central en 4 clases:
description de la partition centrale par les f.f.
-------------------------------------------------
(la f.f. est suivie des numeros des classes des partitions
dans lesquelles elle se trouve )

la borne inferieure du critere de la difference symetrique : 438


le critere (dif sym) de la partition centrale en 4 classes : 438

classe numero 1

fff1 1 3 2 1 2 3 3 2 2 2 2 2 2 4 4

classe numero 2

fff7 4 2 1 1 1 1 2 2 4 1 3 2 1 1 3
fff5 4 2 1 1 1 1 2 2 4 1 3 2 2 4 3
fff2 4 2 1 1 1 1 2 2 4 1 3 2 1 4 3
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 205

classe numero 3

fff9 2 1 4 3 3 2 1 3 1 3 4 3 1 1 2
fff8 2 1 4 3 3 2 1 3 1 3 4 3 4 1 2
fff6 2 1 4 4 3 2 1 4 1 3 4 4 4 2 2
fff3 2 1 4 3 3 2 1 4 1 3 4 3 4 2 2

classe numero 4

(classe regroupant des f.f. illustratives rebut)

ff11 3 4 3 4 4 4 4 1 3 4 1 4 3 3 1
ff10 3 4 3 4 4 4 4 1 3 4 1 1 3 3 1
fff4 3 4 3 2 4 4 4 1 3 4 1 1 3 3 1

Y finalmente la enumeración de los individuos (en este caso barrios) que conforman cada
una de las cuatro clases encontradas. Se ha obtenido así una descomposición de la lista de
barrios en cuatro conglomerados que satisfacen las condiciones pedidas a este tipo de
clasificaciones:

Description de la partition centrale par les individus


------------------------------------------------------

------------------------------
classe numero 1 (effectif= 11)
B05 B20 B21 B22 B23 B24 B25 B26 B28 B29 B30
------------------------------
classe numero 2 (effectif= 8)
B17 B03 B04 B02 B16 B18 B19 B27
------------------------------
classe numero 3 (effectif= 7)
B06 B07 B01 B12 B13 B14 B15
------------------------------
classe numero 4 (effectif= 4)
B10 B09 B08 B11
------------------------------

Sabiendo ya a qué clase pertenece cada uno de los barrios analizados, podría pensarse en
iniciar una nueva etapa de análisis: la caracterización o descripción caracteriológica de
cada una de las clases conformadas. Es decir, anotar cuáles son sus características desde
el punto de vista descrito por las variables medidas en ellos. Esta etapa la dejamos para
que el lector ejercite su imaginación.

Al ejecutar el comando INPAQN que permite el cálculo de estadísticos para profundizar


en la interpretación de la partición hallada, se debe responder:
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 206

1 a$ Seleccionar todas las variables


1 a$ Seleccionar todos los infividuos
Aparecen 4 opciones correspondientes a multiparticiones y particiones. La n, se debe
responder:
1 a$ Seleccionar todas las variables
1 a$ Seleccionar todos los individuos
Aparecen 4 opciones correspondientes a multiparticiones y particiones. La número 4
corresponde a la partición central que estamos analizando. Por tanto respondemos:
4
1

El resultado final es el siguiente:


notes :b(.,.)-->inertie interclasse de la partitionb(j,.)-->contribution de la variable j
a l inertie interclasse de la partition
b(.,k)-->contribution de la classe k a l inertie interclasse de la partition
b(j,k)-->contribution de la classe k a l inertie interclasse de la partition pour la
variable j
meme notation avec w -->inertie intraclasse de la partition
meme notation avec t -->inertie par rapport au centre de gravite de la population

b(.,.) : 305042100.00
w(.,.) : 15214130.00
t(.,.) : 320256200.00
pourcentage d inertie expliquee : 95.25

coordonnees des centres de gravite des classes :


----------------------------------------------
variable |population |classe 1 |classe 2 |classe 3 |classe 4 |
(effectif )| ( 30) | ( 11) | ( 8) | ( 7) | ( 4) |
************|***********|***********|***********|***********|***********|
| | | | | |
PRED| 4152.2 | 1506.9 | 2518.9 | 6455.5 | 10663.0 |
| | | | | |
COMB| 36.3 | 11.4 | 21.0 | 59.5 | 94.8 |
| | | | | |
HACI| 3.0 | 3.8 | 3.3 | 2.2 | 1.6 |
| | | | | |
ESCO| 59.0 | 51.8 | 57.6 | 66.6 | 68.4 |
| | | | | |
ALFA| 4.9 | 7.0 | 5.6 | 2.7 | 1.5 |
| | | | | |
ECON| 10.9 | 8.5 | 8.8 | 12.0 | 19.4 |
| | | | | |
INGR| 0.5 | 0.6 | 0.6 | 0.3 | 0.3 |
| | | | | |
RESD| 11.7 | 11.0 | 14.1 | 11.9 | 9.0 |
| | | | | |
************|***********|***********|***********|***********|***********|
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 207

ecart-types des classes pour chaque variable :


--------------------------------------------

variable |population |classe 1 |classe 2 |classe 3 |classe 4 |


(effectif )| ( 30) | ( 11) | ( 8) | ( 7) | ( 4) |
************|***********|***********|***********|***********|***********|
| | | | | |
PRED| 3267.1 | 195.6 | 399.6 | 1027.4 | 1236.8 |
| | | | | |
COMB| 32.6 | 3.6 | 9.4 | 25.9 | 5.3 |
| | | | | |
HACI| 0.9 | 0.3 | 0.5 | 0.7 | 0.1 |
| | | | | |
ESCO| 8.9 | 4.8 | 4.6 | 8.8 | 3.7 |
| | | | | |
ALFA| 2.9 | 1.9 | 2.3 | 2.0 | 0.9 |
| | | | | |
ECON| 5.8 | 2.2 | 3.1 | 5.6 | 7.9 |
| | | | | |
INGR| 0.5 | 0.4 | 0.5 | 0.5 | 0.2 |
| | | | | |
RESD| 5.2 | 2.6 | 3.6 | 8.7 | 3.2 |
| | | | | |
************|***********|***********|***********|***********|***********|

indices de description des classes de la partition :


--------------------------------------------------
t(k) = t(.,k)/t(.,.) --> pourcentage d inertie extraite par la classe k
b(k) = b(.,k)/b(.,.) --> contribution relative de la classe k a l inertie
interclasse de la partition
w(k) = w(.,k)/w(.,.) --> contribution relative de la classe k a l inertie
intraclasse de la partition
e(k) = b(.,k)/t(.,.) --> pourcentage d inertie expliquee par la classe k

| classe |effectif | t(k) | b(k) | w(k) | e(k) |


|*********|*********|*********|*********|*********|*********|
| | | | | | |
| 1 | 11 | 24.2 | 25.2 | 2.8 | 24.0 |
| | | | | | |
| 2 | 8 | 7.1 | 7.0 | 8.4 | 6.7 |
| | | | | | |
| 3 | 7 | 13.9 | 12.2 | 48.6 | 11.6 |
| | | | | | |
| 4 | 4 | 54.9 | 55.6 | 40.2 | 52.9 |
| | | | | | |
| | | | | |s=95.2 |
| | | | | | |
|*********|*********|*********|*********|*********|*********|

indices decrivant les roles d une variable et d une classe :


----------------------------------------------------------
cor(j) = b(j,.)/t(j,.) --> pourcentage du pouvoir discriminant de la variable j
ctr(j) = b(j,.)/b(.,.) --> contribution relative de la variable j a l inertie
interclasse
cor(j,k) = b(j,k)/t(j,.) --> pourcentage du pouvoir discriminant de la variable j pris en
compte par la classe k
ctr(j,k) = b(j,k)/b(.,k) --> contribution relative de la variable j et la classe k a l
inertie inter classes
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 208

|***************|***************|***************|***************|***************|
| partition | classe 1 | classe 2 | classe 3 | classe 4 |
|***************|***************|***************|***************|***************|
var | cor | ctr | cor | ctr | cor | ctr | cor | ctr | cor | ctr |
| PRED| 95.3 | 100.0 | 24.0 | 100.0 | 6.7 | 100.0 | 11.6 | 100.0 | 53.0 | 100.0
OMB | 82.2 | 0.0 | 21.4 | 0.0 | 5.9 | 0.0 | 11.9 | 0.0 | 43.0 | 0.0
HACI| 75.0 | 0.0 | 26.0 | 0.0 | 2.7 | 0.0 | 15.5 | 0.0 | 30.9 | 0.0
| ESCO| 56.9 | 0.0 | 24.2 | 0.0 | 0.7 | 0.0 | 17.2 | 0.0 | 14.9 | 0.0
| ALFA| 53.7 | 0.0 | 19.7 | 0.0 | 1.7 | 0.0 | 13.3 | 0.0 | 19.0 | 0.0
| ECON| 39.6 | 0.0 | 6.2 | 0.0 | 3.2 | 0.0 | 0.9 | 0.0 | 29.2 | 0.0
| RESD| 9.8 | 0.0 | 0.8 | 0.0 | 5.3 | 0.0 | 0.0 | 0.0 | 3.7 | 0.0
| INGR| 7.5 | 0.0 | 1.6 | 0.0 | 1.1 | 0.0 | 2.9 | 0.0 | 1.9 | 0.0
--------------------------------------------------------------------------------------

Les variables dans chaque classe donnant les plus grandes valeurs de dd
----------------------------------------------------------------------
dd --> ecart entre les moyennes d une variable dans une classe et dans le nuage
dd(j,k) = (cgp(j,k)-cg(j))/sigma(j)
avec cgp(j,k)-->centre de gravite de la classe k pour la variable j
cg(j)-->centre de gravite du nuage pour la variable j
sigma(j)-->ecart-type du nuage pour la variable j

| classe 1 |classe 2 |classe 3 |classe 4 |


| | | | |
|***************|***************|***************|***************|
| | | | |
|HACI( 0.842) |RESD( 0.444) |ESCO( 0.858) |PRED( 1.993) |
| | | | |
|ALFA( 0.734) |HACI( 0.316) |COMB( 0.713) |COMB( 1.796) |
| | | | |
| | |PRED( 0.705) |ECON( 1.481) |
| | | | |
|COMB(-0.764) |ECON(-0.349) | | |
| | | | |
|PRED(-0.810) |COMB(-0.471) |ALFA(-0.756) |ALFA(-1.192) |
| | | | |
|ESCO(-0.813) |PRED(-0.500) |HACI(-0.814) |HACI(-1.522) |
| | | | |
|***************|***************|***************|***************|

15.5 INTRODUCCION AL ANALISIS DISCRIMINANTE

De una manera muy superficial se presenta en estas notas una introducción al análisis
discriminante, una técnica de gran aplicación cuando se desea clasificar uno o más
individuos dentro de varios grupos previamente establecidos.

El análisis discriminate tiene dos objetivos principales: de una parte, describir la manera
cómo se separan dos o más grupos y de otra, la formulación de una regla para asignar un
individuos dentro de uno de varios grupos de una manera óptima. El primer objetivo se
logra fundamentalmente con la construcción de una o más funciones que limiten, por así
decirlo, a los grupos. El segundo objetivo mediante la optimización de una probabilidad
de asignación que a la vez minimice el costo de mala clasificación del individuo.

Son varios los métodos utilizados por los estadísticos para lograr una buena
discriminación. Podemos citar: El método de máxima verosimilitud, el método de
construcción de funciones discriminates, uno de los más usados, un método basado en
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 209

distancias de Mahalanobis y una regla basada en la maximización de probabilidad


posterior, concepto que es de naturaleza bayesiana.

Una suposición bastante fuerte que con mucha frecuencia se hace es que las matrices de
varianzas-covarianzas para los grupos previamente establecidos, sean iguales. Esto no es
estrictamente necesario pero facilita las deducciones cuando se cumple.

Muy brevemente se presentará el caso de dos grupos y luego se generalizará para más de
dos grupos normales

Supóngase que se tienen dos poblaciones multivariadas Π 1 y Π 2 y un vector X que


puede provenir de alguna de ellas. Se busca una regla para predecir en cual de las dos
poblaciones clasifica X con mayor probabilidad. En el caso de máxima verosimilitud se
construyen funciones de verosimilitud L1 , L 2 para X que dependen de las medias y
varianzas de las respectivas poblaciones. El vector X se asigna a aquella población para la
cual resulte mayor la función de verosimilitud. En el caso de discriminación por una
función discriminante, se elige Π k tal que b ′X − C > 0 donde
1
b = Σ −1 ( µ1 − µ 2 ) y C = ( µ1 − µ 2 ) ′Σ −1 ( µ1 + µ 2 ) . La función
2
b ′X se llama función discriminate lineal de X. Esta función es un límite entre los dos
grupos. Si se utiliza la distancia de Mahalanobis, dicha distancia se mide entre cada
individuo y la media de cada grupo. En este caso el individuo se asigna al grupo más
cercano. Uno de los objetivos perseguidos es encontrar dicha función discriminante. Para
lograrlo es necesario que las matrices de varianza covarianza para cada grupo de datos
sean iguales.

Cuando se tienen más de dos grupos y se quiere clasificar un individuo, puede emplearse
cualquiera de los tres métodos siguientes:

1. Calcular la distancia cuadrada de Mahalanobis entre la observación y cada una de las


medias de los grupos. Asignar la nueva observación al grupo con el cual dicha
distancia resulte menor.
2. Calcular la probabilidad posterior de la observación respecto a cada grupo y
clasificarla en aquel en el cual dicha probabilidad sea mayor.
3. Calcular las funciones de discriminación entre los diferentes grupos y asignar la
observación al grupo que produzca el mayor valor

Los cálculos suelen ser laboriosos pero afortunadamente hay varios paquetes estadísticos
que los hacen por nosotros: Minitab y Statistica, entre los más conocidos.
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 210

A manera de ejemplo, considerénse los siguientes datos, correspondientes a Rhodnius


machos de tres procedencias, a saber, domesticus de loa Universidad de los Andes,
domésticus de la UT y silvestres del Tolima (L. Lozano). Los códigos, 1, 2, 3 de la
variable categórica identifica el grupo al que pertenece cada observación.

Las variables analizadas son las siguientes:

V1 Distancia externa entre los ojos


V2 Distancia interna entre los ojos
V3 Distancia interna entre los ocelos
V4 Distancia anteocular
V5 Distancia postocular incluyendo el cuello
V6 Longitud de la cabeza incluyendo el cuello
V7 Ancho del collar
V8 Ancho entre los húmeros
V9 Longitud de torax excluyendo el escutelo
V10 Procedencia: 1=Uniandes domésticos, 2=Unitolima domésticos
3=Tolima Silvestres

1790.1 0745.2 0793.8 2268.0 1020.6 4131.0 1526.8 4365.9 4941.0 1


11717.2 0664.2 0688.5 2227.5 1004.4 4090.5 1494.4 4025.7 4600.8 1
11684.8 0599.4 0769.5 2187.0 0980.1 4001.4 1478.2 3936.6 4503.6 1
11777.9 0643.9 0789.7 2349.0 1036.8 4325.4 1514.7 4228.2 4908.6 1
1871.1 0660.1 0797.8 2446.2 1053.0 4390.2 1603.8 4519.8 5143.5 1
1818.4 0664.2 0785.7 2227.5 1020.6 4098.6 1547.1 4195.8 4811.4 1
1782.0 0696.6 0842.4 2243.7 0915.3 3960.9 1543.0 4179.6 4730.4 1
1741.5 0704.7 0826.2 2276.1 0963.9 4066.2 1466.1 4013.5 4536.0 1
1810.3 0591.3 0797.8 2268.0 1036.8 4195.8 1640.2 4313.2 5175.9 1
1777.9 0668.2 0789.7 2308.5 0976.0 4179.6 1539.0 4301.1 4949.1 1
1818.4 0688.5 0785.7 2300.4 0899.1 4139.1 1563.3 4284.9 4839.7 1
1842.7 0656.1 0777.6 2187.0 0878.8 3969.0 1591.6 4179.6 4783.0 1
1757.7 0672.3 0810.0 2470.5 0972.0 4357.8 1660.5 4600.8 5159.7 1
1754.5 0599.4 0749.2 2211.3 0866.7 3928.5 1498.5 4199.8 4892.4 1
1709.1 0680.4 0704.7 2219.4 0850.5 3952.8 1506.6 4203.9 4779.0 1
1636.2 0737.1 0777.6 2818.8 1073.2 4698.0 1822.5 4965.3 5532.3 2
1644.3 0684.5 0761.4 2567.7 1109.7 4576.5 1741.5 4722.3 5475.6 2
1652.4 0757.3 0721.0 2551.5 1093.5 4337.5 1644.3 4179.6 5013.9 2
1603.8 0648.0 0712.8 2478.6 0980.1 4236.3 1636.2 4746.6 5499.9 2
1636.2 0672.3 0720.1 2689.2 1069.2 4511.7 1709.1 4633.2 5508.0 2
1684.8 0761.4 0769.5 2721.1 1101.6 4665.6 1696.9 4981.5 5815.8 2
1692.9 0712.8 0696.6 2847.1 1061.1 4839.7 1717.2 4754.7 5629.5 2
1539.0 0613.8 0761.4 2592.0 0801.9 4114.8 1660.5 4430.7 5354.1 2
1652.4 0648.0 0720.9 2592.0 0927.5 4357.8 1717.2 4600.8 5386.5 2
1692.9 0704.7 0777.6 2802.6 1101.6 4762.6 1826.5 5062.5 5888.7 2
1607.8 0664.2 0729.0 2729.7 1012.5 4459.0 1684.8 4625.1 5410.8 2
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 211

1717.2 0720.9 0769.5 2729.7 1053.0 4552.2 1749.6 4779.0 5572.8 2


1579.5 0656.1 0664.2 2430.0 0988.2 5005.8 1741.5 4536.0 5443.2 2
1717.2 0712.8 0757.3 2745.9 1134.0 4706.1 1773.9 4754.7 5544.4 2
1717.2 0656.1 0753.3 2608.2 0988.2 4507.6 1798.2 4973.4 5726.7 2
1664.1 0649.6 0729.9 2496.2 0985.3 4094.7 1459.8 4065.5 3108.7 3
1656.8 0627.7 0817.4 2350.2 1043.7 4007.1 1459.8 4029.0 3077.6 3
1737.1 0635.0 0817.4 2189.7 1072.9 4262.6 1583.8 4379.4 3241.1 3
1569.2 0547.4 0729.9 2430.5 0963.4 4218.8 1459.8 4160.4 3178.8 3
1583.8 0576.6 0795.5 2189.7 1021.8 3904.9 1459.8 4123.9 3311.2 3
1634.9 0598.5 0868.5 2189.7 0956.1 3948.7 1459.8 4182.3 3217.7 3
1671.4 0635.0 0766.3 2452.4 1109.4 4116.6 1547.3 4109.3 2890.6 3
1634.9 0583.9 0729.9 2335.6 1007.2 4116.6 1459.8 4233.4 2960.7 3
1569.2 0605.9 0729.9 2189.7 1087.5 3943.1 1401.4 3919.5 2875.0 3
1707.9 0620.4 0817.4 2357.5 0934.2 4167.7 1547.3 4299.1 2773.7 3
1642.2 0623.7 0731.0 2269.9 0963.4 4080.1 1459.8 4043.6 3015.2 3
1583.8 0583.9 0780.9 2306.4 0956.1 4043.6 1437.9 3963.3 2945.1 3
1664.1 0562.0 0795.5 2335.6 1051.0 4087.4 1474.3 3846.5 2890.6 3
1686.0 0598.5 0868.5 2232.6 1072.9 4189.6 1532.7 4087.4 3030.9 3
1715.2 0649.6 0861.2 2379.4 1087.5 4233.4 1547.3 4262.6 3139.8 3

Supóngase además que se tiene un individuos cuyas medidas son (1795.3, 684.2, 780.5,
2386.1, 1072.3, 4052.2, 1503.9, 3986.1, 4150.2)Se quiere saber en cuál de los tres
grupos clasifica mejor.

Se puede usar Minitab (incluso bajo DOS) con los siguientes comandos:

DISCRIM C10, C1-C9;


PREDICT 1795.3 684.2 780.5 2386.1 1072.3 4052.2 1503.9 3986.1 4150.2.El
resultado obtenido es el siguiente:
Linear Discriminant Analysis for C10 Group 1 2
3 Count 15 15 15

Summary of Classification

Put into ....True Group....


Group 1 2 3
1 15 0 0
2 0 15 0
3 0 0 15
Total N 15 15 15
N Correct 15 15 15
Proport. 1.000 1.000 1.000

N = 45 N Correct = 45 Prop. Correct = 1.000

Squared Distance Between Groups


1 2 3
1 0.000 78.298 307.676
2 78.298 0.000 474.439
3 307.676 474.439 0.000
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 212

Linear Discriminant Function for Group


1 2 3
Constant -827.74 -902.78 -627.49
C1 0.48 0.29 0.43
C2 0.26 0.37 0.01
C3 0.13 0.08 0.21
C4 0.08 0.11 0.09
C5 -0.18 -0.17 -0.10
C6 0.07 0.06 0.09
C7 0.10 0.29 -0.01
C8 -0.17 -0.19 -0.02
C9 0.16 0.19 -0.01

Prediction for Test Observations

Observation Pred. Group From Group Sqrd Distnc Probability


1 1
1 31.280 1.000
2 147.789 0.000
3 171.022 0.000

Lo anterior se interpreta así:

1. La clasificación que hace el algoritmo hace que en cada grupo se clasifiquen


correctamente las 15 observaciones suyas. Esto simplemente está dando una idea de la
bondad de los resultados.
2. En segundo lugar aparecen los cuadrados de las distancias de Mahalanobis entre las
medias de los tres grupos ya definidos.
3. En seguida se producen las funciones discriminantes lineales para cada uno de los tres
grupos. Estas funciones son entonces:

a) Para el grupo 1: 0.48 X1 + 0.26 X2 + ... + 0.16 X9 = 827.74


b) Para el grupo 2: 0.29 X1 + 0.37 X2 + ... + 0.19 X9 = 902.78
e) Para el grupo 3: 0.43 X1 + =.01 X2 + ... – 0.01 X9 = 627.49

Con la ayuda de estas tres funciones se clasifica la observación: simplemente las variables
X1, X2, ..., X9 se reemplazan por los respectivos valores de la observación para cada una
de las tres funciones lineales. La observación se clasifica en el grupo que arroje el mayor
valor.

4 Finalmente, mediante los criterios de menor distancia cuadrada de Mahalanobis o


mayor probabilidad posterior, se observa que la observación considerada debe clasificarse
dentro del grupo 1.Este mismo análisis en Statistica produce resultados como los
siguientes:
Discriminant Function Analysis Summary (machorh3.sta)
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 213

No. of vars in model: 9; Grouping: PROC (3 grps)


Wilks' Lambda: .00096 approx. F (18,68)=118.32 p<0.0000 Wilks'
Partial F-remove 1-Toler. Lambda
Lambda (2,34) p-level Toler. (R-Sqr.)
DEXTO .002592 .369396 29.0211 .000000 .420399 .57960
1DINTO .001280 .747780 5.7340 .007147 .574925 .425075
DINOC .001009 .948495 .9231 .407001 .655997 .344003
DANOC .001055 .907424 1.7343 .191769 .677596 .322404
DPSOC .001052 .909957 1.6822 .201072 .571627 .428373
LCABC .000988 .968940 .5449 .584853 .404864 .595136
ACOLL .001530 .625948 10.1588 .000348 276996 723004
ANHUM .001952 .490405 17.6652 .000005 .201357 .798643
LTOXE .019220 .049812 324.2829 .000000 .300528 .699472

Lo cual indica que las variables DEXTO, DINTO, ACOLL, ANHUM y LTOXE tienen el
mayor poder de discriminación.

La gráfica siguiente muestra la ubicación relativa de los tres grupos.


INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 214

Ejemplo. Supóngase que se califican sobre 100 puntos tres características de dos
detergentes para cocina, a saber: a) su efectividad para limpiar la grasa, b) el aroma que
posee y c) la calidad del empaque. Los productos fueron calificados por 16 clientes en
un supermercado, según la escogencia de uno u otro producto en el momento de la
compra. Los datos son los siguientes:

55 33 28 1
50 50 26 1
53 32 30 1
54 33 29 1
57 33 31 1
56 34 31 1
56 31 29 1
55 30 29 1
56 32 28 1
63 32 30 2
54 31 30 2
57 33 32 2
60 32 32 2
58 33 31 2
58 32 31 2
60 33 31 2

Los resultados básicos del análisis con OpenStat 2 se observan a continuación:


UNIVARIATE ANOVA FOR VARIABLE Limpieza

SOURCE DF SS MS F PROB > F


BETWEEN 1 60.036 60.036 10.040 0.007
ERROR 14 83.714 5.980
TOTAL 15 143.750

UNIVARIATE ANOVA FOR VARIABLE Aroma

SOURCE DF SS MS F PROB > F


BETWEEN 1 14.766 14.766 0.701 0.417
ERROR 14 294.984 21.070
TOTAL 15 309.750

UNIVARIATE ANOVA FOR VARIABLE Empaq

SOURCE DF SS MS F PROB > F


BETWEEN 1 15.750 15.750 9.188 0.009
ERROR 14 24.000 1.714
TOTAL 15 39.750
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 215

Lo que nos dice que las variables LIMPIEZA y COSTO son discriminantes: difieren en
los grupos.

Roots of the W inverse time B Matrix

No. Root Proportion Canonical R Chi-Squared D.F. Prob


1 1.2409 1.0000 0.7441 9.6825 3 0.021

Esto indica que el problema queda bien representado mediante un único factor, dado por
F1= 0.511*Limpieza + 0.215*Aroma + 0.966*Costo, según se ve enseguida.
Variables
Limpieza 0.511
Aroma 0.215
Empaq 0.966

Las funciones discriminantes (de Fisher) permiten decidir, ante una nueva observación, a
cuál de los dos grupos asignarla. Se hará en aquel grupo donde produzca un mayor valor.
Estas funciones pueden verse como:

F1(x,y,z) = 11.818 Limpieza + 8.738 Aroma + 25.164 Empaq + 837.414


F2(x,y,z) = 12.460 Limpieza + 9.008 Aroma + 26.379 Empaq + 919.175

Según se deduce de los siguientes valores:


Fisher Discriminant Functions

Group 1 Constant := -837.414

Variable Coefficient
1 11.818
2 8.738
3 25.164

Group 2 Constant := -919.175

Variable Coefficient
1 12.460
2 9.008
3 26.379

La siguiente tabla compara la clasificación de cada observación según donde estaba y


dónde queda clasificada por el algoritmo
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 216

CLASSIFICATION OF CASES

SUBJECT ACTUAL HIGH PROBABILITY SEC.D HIGH


ID NO. GROUP IN GROUP P(G/D) GROUP P(G/D)
1 1 1 0.9717 2 0.0283
2 1 1 0.9899 2 0.0101
3 1 1 0.9348 2 0.0652
4 1 1 0.9509 2 0.0491
5 1 2 0.8006 1 0.1994
6 1 2 0.7347 1 0.2653
7 1 1 0.9021 2 0.0979
8 1 1 0.9582 2 0.0418
9 1 1 0.9595 2 0.0405
10 2 2 0.9772 1 0.0228
11 2 1 0.9081 2 0.0919
12 2 2 0.9312 1 0.0688
13 2 2 0.9861 1 0.0139
14 2 2 0.8841 1 0.1159
15 2 2 0.8535 1 0.1465
16 2 2 0.9650 1 0.0350

La tabla siguiente proporciona el total de clasificaciones coincidentes entre las que había
antes de aplicar el algoritmo y las que éste produce. Es una especie de medida de la
capacidad del algoritmo para reproducir la clasificación original

CLASSIFICATION TABLE

PREDICTED GROUP
Variables
1 2 TOTAL
1 7 2 9
2 1 6 7
TOTAL 8 8 16

La salida siguiente mide el grado de asociación entre cada una de las variables originales
con los factores producidos
Corr.s Between Variables and Functions with 16 valid cases.

Variables
1
Limpieza 0.868
Aroma -0.293
Empaq 0.846
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 217

Finalmente, el estadístico de Wilks y el valor P correspondiente establecen que los dos


grupos de detergentes sí difieren significativamente. Se hace además una prueba (Bartlett)
de igualdad de varianzas entre grupos. En el caso se rechaza la igualdad, lo que indica que
el análisis se debe profundizar ya que cuando las varianzas son diferentes las funciones
discriminantes son de tipo cuadrático. Sin embargo, el programa solo estimó funciones
discriminantes lineales.

Wilk's Lambda = 0.4462.


F = 4.9636 with D.F. 3 and 12 . Prob > F = 0.0182
Bartlett Chi-Squared = 10.0860 with 3 D.F. and prob. = 0.0178
Pillai Trace = 0.5538

15.6 Escalamiento multidimensional (MDS)

El escalamiento multidimensional es otra técnica multivariada que busca la


representación de objetos en un plano factorial con fines de comparación frente a otros
objetos similares. Puede usarse, por ejemplo, para determinar el posicionamiento de un
determinado producto frente a productos similares que le compiten.

El MDS usa información numérica (métricas) o información no métrica (disimilaridades)


para medir la semejanza entre individuos lo que produce una matriz de distancias o de
disimilaridades a partir de la cual produce una representación gráfica en la que cada
individuo ocupa una posición relativa frente a los demás guardando las distancias
correspondientes.

Usualmente las calificaciones dadas a las características provienen de aplicar varias


encuestas a individuos quienes las califican. La calificación definitiva de una
característica para cada objeto se obtiene como el promedio. El siguiente ejemplo
corresponde a la representación de 12 artículos comestibles similares que fueron
evaluados en 6 características, a saber: Color, Sabor, Aroma, Consistencia, Presentación y
Costo. (Se toman como ejemplo, 4 encuestas)

Respuestas de cuatro encuestados (n = 4):

A 4 5 2 2 3 5 3 4 2 2 3 4 3 5 2 4 2 2 5 4 4 3 3 4
B 3 4 4 2 4 4 4 3 4 4 3 3 4 4 4 2 1 4 4 3 2 3 3 3
C 4 3 3 2 2 4 4 3 2 2 3 4 5 4 3 2 4 2 3 2 2 4 2 4
D 5 4 2 4 2 4 4 4 2 2 2 5 5 3 4 3 2 4 4 2 3 2 1 3
E 5 2 2 2 4 4 3 2 4 2 2 5 4 3 2 3 2 4 5 4 3 4 4 2
F 4 2 4 3 2 3 2 4 2 4 4 4 3 4 4 2 2 5 5 4 2 2 2 4
G 3 2 4 2 4 4 3 3 4 4 3 5 4 3 2 4 3 5 4 4 4 2 2 4
H 2 4 2 2 4 4 4 4 3 2 2 4 4 3 2 2 2 4 3 2 2 3 4 4
I 4 3 4 4 3 2 4 3 4 4 2 3 2 2 2 1 2 4 4 4 4 2 4 3
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 218

J 3 4 4 2 2 4 3 3 2 1 4 4 4 4 2 1 3 3 2 2 4 4 2 4
K 2 2 2 4 4 3 5 2 2 4 2 2 3 4 4 4 4 4 4 4 3 2 4 2
L 4 4 2 2 2 4 4 4 2 2 1 2 2 3 3 2 2 3 2 2 2 4 2 4

Promediando los valores de las casillas homólogas en las cuatro encuestas anteriores se
obtiene la siguiente matriz:
Matriz de calificaciones de los 12 productos:

X1 X2 X3 X4 X5 X6
A 3.8 4.5 2.5 2.8 2.8 3.8
B 3.8 3.8 3.5 2.8 2.8 4.0
C 4.0 3.0 2.5 2.5 2.8 3.8
D 4.5 3.2 2.8 2.8 1.8 4.0
E 4.2 2.8 2.8 2.8 3.0 3.8
F 3.5 3.8 3.0 2.8 2.5 4.0
G 3.5 3.0 3.5 3.0 3.0 3.8
H 3.2 3.2 2.2 2.2 3.0 4.0
I 3.5 3.0 3.5 2.8 2.8 3.0
J 3.0 3.2 3.0 2.0 2.8 3.8
K 3.5 3.0 2.8 3.5 3.5 2.8
L 3.0 3.2 2.2 2.5 1.8 3.2

La anterior matriz, cuyas filas pueden verse como 12 puntos de ℜ6 , da origen a la matriz
de distancias siguiente:

Matriz de distancias euclidianas:

A B C D E F G H I J K L
A 0.00 1.24 1.54 1.82 1.78 0.98 1.85 1.61 1.99 1.79 2.10 1.97
B 1.24 0.00 1.35 1.53 1.32 0.66 0.92 1.68 1.32 1.39 1.91 2.10
C 1.54 1.35 0.00 1.23 0.55 1.17 1.24 0.97 1.41 1.24 1.68 1.58
D 1.82 1.53 1.23 0.00 1.32 1.37 1.75 1.96 1.88 1.99 2.42 1.83
E 1.78 1.31 0.55 1.32 0.00 1.35 1.03 1.39 1.30 1.52 1.51 1.96
F 0.98 0.65 1.17 1.37 1.35 0.00 1.10 1.30 1.41 1.17 1.90 1.57
G 1.85 0.92 1.24 1.75 1.03 1.10 0.00 1.58 0.85 1.26 1.41 2.01
H 1.61 1.68 0.97 1.96 1.39 1.30 1
.58 0.00 1.79 0.89 1.97 1.49
I 1.99 1.32 1.41 1.88 1.31 1.41 0.85 1.79 0.00 1.35 1.23 1.76
J 1.79 1.39 1.24 1.99 1.52 1.17 1.26 0.89 1.35 0.00 2.02 1.50
K 2.10 1.91 1.68 2.42 1.51 1.90 1.41 1.97 1.23 2.02 0.00 2.17
L 1.97 2.10 1.58 1.83 1.96 1.57 2.01 1.49 1.76 1.50 2.17 0.00
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 219

A partir de esta matriz, aplicando la técnica MDS, se obtiene la representación plana de


los doce productos analizados que aparece en la página siguiente, en la cual se puede
observar cómo hay productos que se asemejan entre sí, lo que se manifiesta por su
ubicación como vecinos en el mapa. Así, por ejemplo, las marcas G,I,J son muy
parecidas, al igual que B y F.

Mapa de representación de alimentos en el MDS


INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 220

BIBLIOGRAFIA

1. AVILA J. A. y CLAVIJO J. A (1999). Una aproximación a la distribución de la


varianza en poblaciones simétricas no acotadas. Revista Colombiana de
Estadística Vol 22 No 2.
2. AZORIN F. y J. SANCHEZ-CRESPO (1994); Métodos y aplicaciones del
Muestreo. Alianza Universidad. Madrid.
3. CHATTERJEE S. y B. PRICE (1977); Regression Analysis by Example. John
Wiley & Sons. N.Y.
4. CLAVIJO M. Jairo A y OSPINA B David (1995); Normal Aproximation when
Sampling from Bounded Symmetric Distributions. Revista Colombiana de
Estadística No 31.
5. CLAVIJO M. Jairo A. (1985). Cálculo Avanzado. Universidad del Tolima.
Ibagué.
6. CLAVIJO M. Jairo A. (1991); Elementos de Probabilidad y Estadística.
Universidad del Tolima. Ibagué.
7. COCHRAN W. G (1977).; Sampling Techniques. John Wiley & Sons. New York.
8. CONOVER W. J (1980).; Practical Nonparametric Statistics. John Wiley & Sons.
New York
9. DRAPER N. R. y H. SMITH (1982); Applied Regression Analysis. 2ª Ed. John
Wiley & Sons. New.York.
10. FREIXA M. et al.(1992); Análisis Exploratorio de Datos. Nuevas Técnicas
Estadísticas. PPU. Barcelona
11. JOHNSON R. y D. WICHERN (1992) . Applied Multivariate Statistical Analysis.
Prentice-Hall International N. Y.
12. KEEPING E.S. (1995); Introduction to Statistical Inference. Dover Publications
Inc. N.Y.
13. KUEHL, Robert O (2001); Diseño de Experimentos. 2ª Ed. Thompson Learning.
México
14. LOHR Sharon L. (2000); Muestreo. Diseño y Análisis. Internacional Thomson
Editores. México
15. LOZANO, Leider Elena (1999); Estudio Bio-ecológico de los vectores de la
enfermedad de Chagas en el municipio de Coyaima – Tolima. Trabajo de Grado.
Universidad del Tolima
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 221

16. MENDENHALL W. y SINCICH T. (1996); A Second Course in Statistics –


Regression Analysis. 5ª Ed. Prentice-Hall, London
17. MENDENHALL W. y SINCICH T. (1997); Probabilidad y Estadística para
Ingeniería y Ciencias. 4ª Ed. Prentice-Hall.México. (Incluye programa ASP
individual)
18. MILTON, J. Susan (2001); Estadística para Biología y Ciencias de la Salud. 3ª
Ed. McGraw Hill. Madrid.
19. MONTGOMERY D (1991); Diseño y Análisis de Experimentos. Grupo Editorial
Iberoamérica. México
20. MONTGOMERY D. y E. PECK (1982); Introduction to Linear Regression
Analysis. John Wiley & Sons. N.Y.
21. MOOD G, GRAYBIL F y BOES D. (1982); Introduction to the Theory of
Statistics. McGraw Hill. New York
22. OSPINA B. David (2001); Introducción al Muestreo. Universidad Nacional de
Colombia. Bogotá.
23. PEÑA SANCHEZ DE RIVERA, Daniel (1994) .; Estadística, Modelos y
Métodos. Alianza Editorial.
24. ROMERO C. José (1994) Prueba de Normalidad de Geary. Universidad
Autónoma Metropolitana. Azcapotzalco. México
25. TRYFOS Peter (1996) .; Sampling Methods for Applied Research. John Wiley &
Sons. New York.
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 222

ANEXO 1

Valores críticos para prueba de Bondad de ajuste de Kolmogorov y Smirnov

Nivel de Significancia
n 0.20 0.15 0.10 0.05 0.01
1 0.900 0.925 0.950 0.975 0.995
2 0.684 0.726 0.776 0.842 0.929
3 0.565 0.597 0.642 0.708 0.828
4 0.494 0.525 0.564 0.624 0.733
5 0.446 0.474 0.510 0.565 0.669

6 0.410 0.436 0.470 0.521 0.618


7 0.381 0.405 0.438 0.486 0.577
8 0.358 0.381 0.411 0.457 0.543
9 0.339 0.360 0.388 0.432 0.514
10 0.322 0.342 0.368 0.410 0.490

11 0.307 0.326 0.352 0.391 0.468


12 0.295 0.313 0.338 0.375 0.450
13 0.284 0.302 0.325 0.361 0.433
14 0.274 0.292 0.314 0.349 0.418
15 0.266 0.283 0.304 0.338 0.404

16 0.258 0.274 0.295 0.328 0.392


17 0.250 0.266 0.286 0.318 0.381
18 0.244 0.259 0.278 0.309 0.371
19 0.237 0.252 0.272 0.301 0.363
20 0.231 0.246 0.264 0.264 0.356

25 0.210 0.220 0.240 0.270 0.320


30 0.190 0.200 0.220 0.240 0.290
35 0.180 0.190 0.210 0.230 0.270

>35 1.07 1.14 1.22 1.36 1.63


n n n n n
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 223

ANEXO 2
Puntos porcentuales superiores de rangos estudentizados al 5% de significancia, qk , ν , 0.05
para la prueba de Tukey en comparaciones múltiples.

G.L Número k de tratamientos


del
error 2 3 4 5 6 7 8 9 10

1 18.00 27.00 32.80 37.20 40.50 43.10 45.40 47.30 49.10


2 6.09 8.33 9.80 10.89 11.73 12.43 13.03 13.54 13.99
3 4.50 5.91 6.83 7.51 8.04 8.47 8.85 9.18 9.46
4 3.93 5.04 5.76 6.29 6.71 7.06 7.35 7.60 7.83
5 3.64 4.60 5.22 5.67 6.03 6.33 6.58 6.80 6.99

6 3.46 4.34 4.90 5.31 5.63 5.89 6.12 6.32 6.49


7 3.34 4.16 4.68 5.06 5.35 5.59 5.80 5.99 6.15
8 3.26 4.04 4.53 4.89 5.17 5.40 5.60 5.77 5.92
9 3.20 3.95 4.42 4.76 5.02 5.24 5.43 5.60 5.74
10 3.15 3.88 4.33 4.66 4.91 5.12 5.30 5.46 5.60

11 3.11 3.82 4.26 4.58 4.82 5.03 5.20 5.35 5.49


12 3.08 3.77 4.20 4.51 4.75 4.95 5.12 5.27 5.40
13 3.06 3.73 4.15 4.46 4.69 4.88 5.05 5.19 5.32
14 3.03 3.70 4.11 4.41 4.64 4.83 4.99 5.13 5.25
15 3.01 3.67 4.08 4.37 4.59 4.78 4.94 5.08 5.20

16 3.00 3.65 4.05 4.34 4.56 4.74 4.90 5.03 5.15


17 2.98 3.62 4.02 4.31 4.52 4.70 4.86 4.99 5.11
18 2.97 3.61 4.00 4.28 4.49 4.67 4.83 4.96 5.07
19 2.96 3.59 3.98 4.26 4.47 4.64 4.79 4.92 5.04
20 2.95 3.58 3.96 4.24 4.45 4.62 4.77 4.90 5.01

24 2.92 3.53 3.90 4.17 4.37 4.54 4.68 4.81 4.92


30 2.89 3.48 3.84 4.11 4.30 4.46 4.60 4.72 4.83
40 2.86 3.44 3.79 4.04 4.23 4.39 4.52 4.63 4.74
60 2.83 3.40 3.74 3.98 4.16 4.31 4.44 4.55 4.65
120 2.80 3.36 3.69 3.92 4.10 4.24 4.36 4.47 4.56

∞ 2.77 3.32 3.63 3.86 4.03 4.17 4.29 4.39 4.47


INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 224

ANEXO 3
Límites de intervalos para prueba de Durbin y Watson (p= Número var. independientes)
Nivel de significancia: 0.05
p=1 p=2 p=3 p=4 p=5
N dL dU dL dU dL dU dL dU dL dU
15 1.08 1.36 0.95 1.54 0.82 1.75 0.69 1.97 0.56 2.21
16 1.10 1.37 0.98 1.54 0.86 1.73 0.74 1.93 0.62 2.15
17 1.13 1.38 1.02 1.54 0.90 1.71 0.78 1.90 0.67 2.10
18 1.16 1.39 1.05 1.53 0.93 1.69 0.82 1.87 0.71 2.06
19 1.18 1.40 1.08 1.53 0.97 1.68 0.86 1.85 0.75 2.02
20 1.20 1.41 1.10 1.54 1.00 1.68 0.90 1.83 0.79 1.99
21 1.22 1.42 1.13 1.54 1.03 1.67 0.93 1.81 0.83 1.96
22 1.24 1.43 1.15 1.54 1.05 1.66 0.96 1.80 0.86 1.94
23 1.26 1.44 1.17 1.54 1.08 1.66 0.99 1.79 0.90 1.92
24 1.27 1.45 1.19 1.55 1.10 1.66 1.01 1.78 0.93 1.90
25 1.29 1.45 1.21 1.55 1.12 1.66 1.04 1.77 0.95 1.89
26 1.30 1.46 1.22 1.55 1.14 1.65 1.06 1.76 0.98 1.88
27 1.32 1.47 1.24 1.56 1.16 1.65 1.08 1.76 1.01 1.86
28 1.33 1.48 1.26 1.56 1.18 1.65 1.10 1.75 1.03 1.85
29 1.34 1.48 1.27 1.56 1.20 1.65 1.12 1.74 1.05 1.84
30 1.35 1.49 1.28 1.57 1.21 1.65 1.14 1.74 1.07 1.83
31 1.36 1.50 1.30 1.57 1.23 1.65 1.16 1.74 1.09 1.83
32 1.37 1.50 1.31 1.57 1.24 1.65 1.18 1.73 1.11 1.82
33 1.38 1.51 1.32 1.58 1.26 1.65 1.19 1.73 1.13 1.81
34 1.39 1.51 1.33 1.58 1.27 1.65 1.21 1.73 1.15 1.81
35 1.40 1.52 1.34 1.58 1.28 1.65 1.22 1.73 1.16 1.80
36 1.41 1.52 1.35 1.59 1.29 1.65 1.24 1.73 1.18 1.80
37 1.42 1.53 1.36 1.59 1.31 1.66 1.25 1.72 1.19 1.80
38 1.43 1.54 1.37 1.59 1.32 1.66 1.26 1.72 1.21 1.79
39 1.43 1.54 1.38 1.60 1.33 1.66 1.27 1.72 1.22 1.79
40 1.44 1.54 1.39 1.60 1.34 1.66 1.29 1.72 1.23 1.79
- --- --- --- --- --- --- --- --- --- ---
45 1.48 1.57 1.43 1.62 1.38 1.67 1.34 1.72 1.29 1.78
50 1.50 1.59 1.46 1.63 1.42 1.67 1.38 1.72 1.34 1.77
55 1.53 1.60 1.49 1.64 1.45 1.68 1.41 1.72 1.38 1.77
60 1.55 1.62 1.51 1.65 1.48 1.69 1.44 1.73 1.41 1.77
65 1.57 1.63 1.54 1.66 1.50 1.70 1.47 1.73 1.44 1.77
70 1.58 1.64 1.55 1.67 1.52 1.70 1.49 1.74 1.46 1.77
75 1.60 1.65 1.57 1.68 1.54 1.71 1.51 1.74 1.49 1.77
80 1.61 1.66 1.59 1.69 1.56 1.72 1.53 1.74 1.51 1.77
85 1.62 1.67 1.60 1.70 1.57 1.72 1.55 1.75 1.52 1.77
90 1.63 1.68 1.61 1.70 1.59 1.73 1.57 1.75 1.54 1.78
95 1.64 1.69 1.62 1.71 1.60 1.73 1.58 1.75 1.56 1.78
100 1.65 1.69 1.63 1.72 1.61 1.74 1.59 1.76 1.57 1.78
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 225

ANEXO 4
Valores críticos de TL y TU para las sumas de rangos de Wilcoxon

a) Niveles de significancia del 5% para dos colas y del 2.5% para una cola
n1 3 4 5 6 7 8 9 10
n2 TL TU TL TU TL TU TL TU TL TU TL TU TL TU TL TU

3 5 16 6 18 6 21 7 23 7 26 8 28 8 31 9 33
4 6 18 11 25 12 28 12 32 13 35 14 38 15 41 16 44
5 6 21 12 28 18 37 19 41 20 45 21 49 22 53 24 56
6 7 23 12 32 19 41 26 52 28 56 29 61 31 65 32 70
7 7 26 13 35 20 45 28 56 37 68 39 73 41 78 43 83
8 8 28 14 38 21 49 29 61 39 73 49 87 51 93 54 98
9 8 31 15 41 22 53 31 65 41 78 51 93 63 108 66 114
10 9 33 16 44 24 56 32 70 43 83 54 98 66 114 79 131

b) Niveles de significancia del 10% para dos colas y del 5% para una cola
n1 3 4 5 6 7 8 9 10
n2 TL TU TL TU TL TU TL TU TL TU TL TU TL TU TL TU

3 6 15 7 17 7 20 8 22 9 24 9 27 10 29 11 31
4 7 17 12 24 13 27 14 30 15 33 16 36 17 39 18 42
5 7 20 13 27 19 36 20 40 22 43 24 46 25 50 26 54
6 8 22 14 30 20 40 28 50 30 54 32 58 33 63 35 67
7 9 24 15 33 22 43 30 54 39 66 41 71 43 76 46 80
8 9 27 16 36 24 46 32 58 41 71 52 84 54 90 57 95
9 10 29 17 39 25 50 33 63 43 76 54 90 66 105 69 111
10 11 31 18 42 26 54 35 67 46 80 57 95 69 111 83 127