Documentos de Académico
Documentos de Profesional
Documentos de Cultura
UNA INTRODUCCIÓN A LA
ESTADISTICA
GENERAL
En memoria de
Rosalba
cuyo Espíritu me anima
desde el Cielo
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 3
Indice general:
Conceptos preliminares …………………………………………………… 4
Análisis de datos ………………………………………………………….. 11
Transformaciones de datos ……………………………………………….. 29
Distribución normal ………………………………………………………. 30
Distribución binomial …………………………………………………….. 32
Análisis exploratorio para dos variables ………………………………….. 34
Software …………………………………………………………………… 37
Hipótesis estadísticas ……………………………………………………… 42
Bondad de ajuste …………………………………………………………… 43
Estimación de medias y proporciones …………………………………….. 48
Medidas de asociación ……………………………………………………… 55
Regresión lineal simple …………………………………………………….. 65
Diseño y análisis de encuestas ……………………………………………… 78
Comparación de dos medias y dos proporciones …………………………... 96
Comparación de k medias – Una introducción al diseño de experimentos .. 104
Componentes principales …………………………………………………… 151
Análisis de correspondencias ……………………………………………….. 171
Métodos de clasificación ……………………………………………………. 187
Introducción al análisis discriminante ………………………………………. 208
Escalamiento multidimensional (MDS) ……………………………………. 217
Bibliografía …………………………………………………………………. 220
ANEXO 1 - Valores críticos para prueba K-S …………………………….. 222
ANEXO 2 - Puntos porcentuales para comparaciones de Tukey ………….. 223
ANEXO 3 - Límites de intervalos para prueba Durban-Watson …………... 224
ANEXO 4 - Valores críticos para sumas de rangos de Wilcoxon …………. 225
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 4
1. CONCEPTOS PRELIMINARES
Variable : Objeto estadístico que representa una magnitud o característica que puede
tomar diferentes valores. Por ejemplo: edad, peso, estatura, número de hijos, longitud del
fémur, duración de la gestación, color de los ojos, opinión etc
Variables aleatorias: Son aquellas variables que toman valores que no pueden ser
determinados con anticipación. Con frecuencia se sabe qué valores pueden tomar mas no
cuáles van a tomar. Ejemplo: la edad en años cumplidos de un estudiante de la
Universidad seleccionado de una lista. El número de huevos que deposita una mosca, etc.
Estas variables se oponen a las variables determinísticas o matemáticas cuya variación
está plenamente determinada por una fórmula matemática.
Todo experimento, planeado o no, involucra una o más variables aleatorias (es decir, es
univariado o multivariado). Variables que son observadas en varios individuos los cuales
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 5
constituyen las observaciones (también llamadas casos o individuos). Las variables son
medidas en cada uno de los individuos, dando como resultado una medición o dato.
Los datos no son necesariamente números. También pueden ser cualidades o categorías
de una lista previamente establecida, por ejemplo, sexo (M, F), grado de aceptación
(Mucho, Poco, Nada). Esto produce una primera clasificación de las variables en
numéricas y categóricas (o nominales). Estas últimas a su vez, pueden ser nominales
puras u ordinales. Sexo es una variable categórica pura mientras que grado de
aceptación es variable categórica ordinal.
Las variables numéricas pueden ser continuas o discretas. Son continuas cuando sus
valores pueden ser cualesquiera dentro de un intervalo. Por ejemplo, la altura en cm de
una planta o la duración de una bombilla eléctrica. Variables discretas son aquellas que
sólo pueden tomar valores de un conjunto finito (enumerable). Por ejemplo, el número de
hijos en una familia. El número de estudia ntes de un curso.
Los datos que se obtienen al observar y medir una variable, son entonces números (en el
caso de variables numéricas) o símbolos que representan una categoría (en el caso de
variables categóricas). Así, por ejemplo:
Aunque las categorías de una variable categórica (nominal) sean representables mediante
símbolos cualesquiera, lo usual es usar códigos más prácticos, económicos o eficientes
que reemplacen a esos símbolos. Se dice entonces que una variable está codificada. Una
variable puede ser recodificada cuando los códigos son modificados de alguna manera.
evitar el uso del código 0 por otras razones, principalmente por el tratamiento de cálculo
que tienen algunos paquetes de computador). Resulta evidente que aunque una variable
categórica esté codificada numéricamente, con los datos que ella proporcione no es lícito
hacer operaciones aritméticas: no tiene sentido, por ejemplo, calcular una media o una
varianza de los valores de sexo.
Muchos paquetes estadísticos (SPSS, Minitab, SAS, SYSTAT, por ejemplo) tienen
estructuras que les son propias y generalmente incompatibles entre sí aunque muchos de
ellos tienen la posibilidad de transformar la estructura de otro en la suya propia. Es
conveniente, sin embargo, utilizar una estructura universal para el almacenamiento de la
información, estructura que es compartida por la gran mayoría de paquetes estadísticos y
que tiene cierta ventajas adicionales. Es la siguiente:
Generalmente se usan como separadores de los datos los espacios en blanco u otros
símbolos como la coma o el slash (/). Se debe buscar que los datos estén alineados por la
derecha y que no haya datos faltantes (MD o Missing Data) ya que esto ocasionaría
problemas en el momento de procesar información. Existen procedimientos de
imputación de datos faltantes, es decir, procedimiento de "llenado de los huecos" cuando
hay faltantes.
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 7
Aunque los archivos de datos pueden crearse mediante hojas electrónicas como EXCEL,
(esto se hace por facilidad y rapidez) es recomendable que su almacenamiento se haga en
formato ASCII (American Estandar Code for Information Interchange) debido a que éste
es un código universal (entendible por todos los paquetes) y poco dado a contener virus
informáticos. Un archivo en formato ASCII (pronúnciese "áski") puede ser creado con
cualquier editor de texto plano, por ejemplo, EDIT (que viene en todos los computadores
compatibles IBM), WordPad de Windows, EDITOR de ESM, El editor de Minitab/DOS,
etc. Una manera muy rápida de hacerlo es mediante el uso de una hoja como Excel y su
posterior conversión (exportación) a ASCII(o archivo del DOS).
La primera variable (??) corresponde al número de orden de la observación y las demás variables a lo
siguiente:
01. CODIGO DEPARTAMENTAL (5=Antioquia 15=Boyacá 25=Cundinamarcaca 73=Tolima)02.
EXTENSION DE LA FINCA EN HECTAREAS03. NUMERO DE HECTAREAS DEDICADAS AL
CULTIVO
04. TEMPERATURA PROMEDIO EN CADA FINCA
05. TIPO DE TERRENO (1=Plano 2=Quebrado 3=Mixto)
06. FINCA TECNIFICADA (1=Sí 2=No)
07. NUMERO DE OBREROS QUE TRABAJAN EN LA FINCA
08. NUMERO DE CABEZAS DE GANADO MACHO
09. NUMERO DE CABEZAS DE GANADO HEMBRAS
10. RAZA DE GANADO MAYORITARIA (1=Cebú 2=Normando 3=Holstein)
11. EXISTENCIA DE HATO LECHERO (1=Sí 2=No)
12. EXISTENCIA DE RIEGO ARTIFICIAL ( 1=Sí 2=No)
13. TIPO DE CULTIVO PREDOMINANTE (1=Maiz 2=Sorgo 3=Algodón 4=Trigo 5=Papa 6=Otro)
1 5 120 100 15 1 2 14 12 75 1 1 1 6
2 5 458 360 21 1 2 25 124 58 2 2 1 1
3 15 148 140 18 2 1 18 15 125 2 2 1 2
4 25 200 160 25 2 2 25 14 200 2 2 2 3
5 25 150 76 21 2 1 24 18 157 1 1 1 3
6 73 400 320 25 2 1 33 19 42 1 1 1 4
7 25 150 98 20 3 1 24 25 15 1 1 2 1
8 25 125 105 21 2 1 7 54 6 3 1 2 4
9 5 250 200 15 3 2 25 55 25 3 1 2 4
10 5 145 125 18 2 2 21 12 158 3 1 2 1
11 5 400 375 14 1 2 26 6 145 3 1 2 1
12 15 75 68 19 2 1 23 24 162 3 2 1 4
13 15 25 22 18 2 2 30 78 145 3 2 2 2
14 5 162 145 14 3 1 25 125 45 3 2 2 2
15 5 185 164 15 1 1 54 14 25 2 2 2 3
16 5 220 210 16 1 2 24 7 28 2 1 2 5
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 8
69 25 100 90 12 1 1 21 13 20 3 1 1 2
70 73 120 100 25 2 1 14 26 14 2 1 1 5
71 5 150 132 14 2 1 18 25 16 2 1 1 2
72 5 200 187 15 1 1 17 14 40 2 1 2 2
73 5 256 225 14 2 1 13 16 12 2 1 2 1
74 25 400 358 14 1 2 21 14 16 1 2 2 1
75 25 75 70 15 1 2 25 145 200 2 1 1 1
76 73 125 110 25 1 2 21 14 15 1 1 1 1
77 15 200 159 24 2 1 25 12 25 3 2 2 4
78 5 90 69 25 2 1 14 78 15 2 1 2 4
79 5 180 125 14 3 1 28 54 14 2 1 2 4
80 25 150 67 24 2 1 23 51 13 3 1 1 6
81 5 75 68 15 2 2 25 12 145 2 2 1 2
82 5 452 398 12 2 2 22 125 12 2 2 1 1
83 15 125 110 15 2 2 56 14 14 2 2 2 2
84 15 258 203 25 2 2 35 16 16 3 2 2 2
85 25 415 387 21 3 2 32 25 25 3 2 2 5
86 15 225 183 24 3 1 25 128 35 2 2 2 2
87 5 78 58 13 3 1 18 25 58 3 2 2 5
88 25 45 30 25 2 1 19 21 59 2 1 1 2
89 25 25 24 14 2 1 15 25 65 1 1 1 1
90 15 145 119 12 3 1 14 26 25 1 1 1 1
91 5 258 45 14 2 2 26 21 24 1 1 1 1
92 73 451 32 11 2 2 25 25 75 2 2 2 4
93 73 132 36 15 2 2 22 23 14 2 2 2 1
94 25 256 220 12 1 2 35 265 16 1 2 2 4
95 15 200 185 15 1 2 32 56 58 2 2 2 1
96 5 220 90 14 1 2 31 25 29 1 2 2 4
97 5 125 104 15 1 1 30 58 59 1 1 2 1
98 15 325 312 12 2 1 17 25 54 1 1 1 5
99 25 236 201 18 2 1 18 26 58 2 1 1 5
100 73 145 137 17 2 2 19 124 49 2 2 1 5
101 73 258 231 19 2 2 11 125 43 2 2 1 2
102 25 451 301 18 2 1 12 25 25 1 2 2 2
103 15 235 67 17 2 1 15 11 56 1 2 2 1
104 25 89 60 15 2 1 12 25 52 1 2 2 2
105 15 95 87 16 3 1 45 21 14 1 1 1 1
106 5 25 12 20 3 1 26 14 15 3 1 2 2
107 5 45 6 20 2 1 35 15 28 3 1 1 6
108 25 36 31 20 2 2 25 16 46 3 1 2 6
109 15 75 70 20 3 2 14 21 254 3 2 1 3
110 25 58 52 21 3 2 19 51 54 3 2 2 3
111 5 60 56 12 3 2 25 44 87 3 1 1 2
112 25 145 101 15 3 2 28 25 225 2 1 2 3
113 15 180 87 18 3 2 29 22 12 1 2 1 2
114 5 200 139 11 3 2 26 15 14 1 1 1 3
115 5 125 111 25 3 2 32 24 56 1 2 1 6
116 15 136 117 21 3 2 35 15 35 2 1 1 1
117 15 200 186 20 3 2 36 232 58 2 2 1 2
118 25 400 315 21 3 1 24 25 35 1 2 1 5
119 73 450 381 21 3 1 15 215 22 1 2 1 6
120 73 236 230 25 2 1 25 25 58 3 2 2 3
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 10
Ejercicio: Con base en los datos de este archivo se plantean las siguientes reflexiones y
preguntas:
Algunas preguntas estadísticas son relativamente simples pues se relacionan directamente
con un conteo (contabilidad) de individuos que cumplen ciertas condiciones o con la
naturaleza y propiedades de las variables. Son las siguientes:
1. Cuáles variables son numéricas y cuáles categóricas?2. Cuántas fincas de terreno plano
existen?
3. Hacer un conteo de fincas según el tipo de cultivo
4. Cuál es el promedio de temperatura en fincas con ganado cebú?
5. Hacer conteo de fincas para cada tipo de cultivo pero contando por separado las que
tienen riego y las que no lo tienen
Otras preguntas son más complicadas y ya no pueden ser respondidas mediante un simple
conteo. Son de tipo más teórico y se necesita fundamentación estadística para poderlas
responder. Por ejemplo, las siguientes:
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 11
6. Los datos del número de hectáreas (primera variable) se pueden considerar ajustados a
una distribución normal?
7. Suponiendo que las 150 fincas corresponden a una muestra aleatoria de 3000 fincas
que existen en una determinada región, se tendrán razones suficientes para pensar que el
porcentaje de fincas tecnificadas en toda la región es mayor que el porcentaje de fincas no
tecnificadas?
8. Podrá afirmarse razonablemente que el promedio de temperatura es diferente para las
fincas de la región, según el tipo de terreno?
9. En cuánto se estima el número de cabezas de ganado macho en toda la región?
10. Existe algún tipo de dependencia entre la presencia de riego artificial y el tipo de
terreno de las fincas?
11. El porcentaje de terreno dedicado a cultivo en la región es inferior al porcentaje de
terreno dedicado a la ganadería?
2. ANALISIS DE DATOS
Con las variables categóricas, es poco lo que puede hacerse a nivel elemental: se puede
contar cuántas ocurrencias de cada modalidad se presentan, qué porcentaje representa
cada modalidad y se pueden ilustrar estos resultados con algunos gráficos que ayudan a
globalizar la información, como se ve enseguida. Un análisis un poco más profundo de
este tipo de variables pretende medir el grado de dependencia de dos variables categóricas
y la asociación que existe entre sus categorías o modalidades. Esto será tema de estudio
más adelante.
Por ejemplo, Si en los datos anteriores se contabilizan las fincas dedicadas a cada uno de
los diferentes cultivos, se encuentra lo siguiente:
TIPO DE No Porcentaje
CULTIVO Fincas Del Total
1 MAIZ 41 27.33
2 SORGO 44 29.33
3 ALGODÓN 14 9.33
4 TRIGO 20 13.33
5 PAPA 18 12.00
6 OTROS 13 8.67
Tabla 2 Conteo de frecuencias de una variable categórica
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 12
La gráfica siguiente da una idea visual de la intensidad de cada tipo de cultivo, según el
número de fincas donde ellos se encuentren. Existen varios tipos de gráficas pero todos
ellos logran el mismo cometido.
Con las variables de tipo numérico es posible hacer más análisis a nivel elemental. Aparte
de los conteos vistos anteriormente (ejercicio 1) uno de los análisis iniciales en cualquier
estudio estadístico tiene por fin indagar sobre el comportamiento de los datos. Se quiere
saber de una manera global si los datos representan una población simétrica, qué tan
fuerte es el grado de dispersión, cómo es la forma de su distribución, Cuánto valen
aproximadamente los estadísticos descriptivos más importantes (media y varianza), si
existen o no valores atípicos, etc. El conocimiento de esta información permite entrar en
etapas más avanzadas del análisis con una "actitud" ante los datos.
El conjunto de técnicas que estudia los datos desde el punto de vista anterior es conocido
como análisis exploratorio de datos (Exploratory Data Analysis o EDA). En estas notas
veremos algunas de las técnicas más usuales para explorar datos numéricos. Pero antes
tendremos que precisar algunos términos.
En primer lugar qué se entiende por población. Hemos dicho que una variable aleatoria
numérica toma valores numéricos, que pueden ser continuos o discretos. Por ejemplo,
puede ser el peso de una persona o puede ser el número de hermanos que ella tenga. En el
caso del peso podríamos decir que la variable puede tomar valores entre 0 y 120 Kg. En
el caso de los hermanos puede tomar valores enteros 0, 1, 2, ..., 20, por ejemplo. Nótese
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 13
que la variable puede tomar esos valores. Esto no significa que los tome. Y los valores
que asume la variable no son igua lmente probables. Por ejemplo, quizás sea más probable
que la variable NUMERO DE HERMANOS tome el valor 2 que el valor 10 y éste con más
probabilidad que el valor 20. De igual manera, la variable PESO toma valores entre 5 y
80 kg con más probabilidad que entre 90 y 120 Kg, al menos en un grupo de personas
"normales".
Dada una variable aleatoria X, se define la población asociada a ella como el conjunto de
valores numéricos que X puede tomar junto con la probabilidad de que tome tales valores.
Nótese que, según esta definición, una población esta asociada a una variable. No es algo
independiente de ella. Por otra parte, una población será discreta o continua, según como
sea la variable asociada a ella. No se debe cometer el error (demasiado frecuente, por
cierto) de creer que la población está formada por un conjunto de personas, animales o
cosas. Estos individuos son objetos de medición o de observación y, como tal, son
portadores de los valores de una población pero, en sentido estadístico, no son la
población misma. Por esto, es que en el mismo grupo de individuos puede haber
poblaciones diferentes. Por ejemplo, sus pesos y número de hermanos son dos
poblaciones muy distintas observadas sobre los mismos individuos. En razón a la
definición que se acaba de dar, con mucha frecuencia, consideramos población y variable
como una dupla indisoluble y al hablar de cualquiera de ellas se estará hablando de la
otra.
Se observa cómo, al decir que X toma valores en una población, algunos valores son
tomados con más probabilidad que otros en la mayoría de los casos. El lenguaje común
con frecuencia lo expresa así. Se dice, por ejemplo, que es más probable que un paisa
tenga un número alto de hermanos que una persona de otro lugar de Colombia. O, por
ejemplo, que es más probable que un norteamericano sea más alto que un colombiano.
Excepciones hay, pero la regla general es válida en la mayoría de los casos.
Lo que se acaba de decir en el párrafo anterior da una idea de lo que se quiere mencionar
cuando hablamos de la distribución de probabilidad de una variable aleatoria, o
simplemente, para abreviar la expresión, cuando se habla de la distribución de una
población, o de la distribución de X. Se entiende entonces como distribución de una
variable aleatoria, X, la probabilidad de que X tome cada valor dentro de la población. La
probabilidad es una medida de la aparición de uno o más números como valores de X.
Comúnmente, la probabilidad se mide como una frecuencia y, como tal, puede expresarse
por medio de un porcentaje. Sin embargo en la práctica se representa mediante una
fracción entre 0 y 1, correspondiente a un porcentaje. Por ejemplo, 0.2315 en vez de
23.15%. De esta manera una probabilidad de cero (correspondiente a una frecuencia de
0%) expresa que un evento no sucederá con toda seguridad. Una probabilidad de 1
(correspondiente a una frecuencia de 100%) indica que un evento sucede con plena
seguridad. Entre estos dos extremos se encuentran las demás medidas de probabilidad y,
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 14
La probabilidad, aplicada a los valores que toma una variable aleatoria, mide la
frecuencia con que un valor es asumido por una variable. Por ejemplo, si una variable
aleatoria discreta, X, sólo puede tomar los valores 0, 1, 2, 3; al decir que P(X=2) = 0.5620,
estamos afirmando que el valor 2 es asumido con una frecuencia de 56.2%. Es decir que
si observáramos dicha variable 500 veces, por ejemplo, se esperaría que 281 veces tome
el valor 2, (ya que 281 = 0.562x500). Puesto que es seguro que la variable aleatoria toma
uno de los cuatro valores 0, 1, 2, 3, la suma de las respectivas probabilidades debe ser 1.
Esto es, P(X=0) + P(X=1) + P(X=2) + P(X=3) = 1. Se podría tener, verbi gratia, lo
siguiente:
P(X=0) = 0.1214
P(X=1) = 0.1903
P(X=2) = 0.5620
P(X=3) = 0.1263
Con frecuencia se representan los valores anteriores mediante barras cuyas alturas sean
iguales a los valores de probabilidad y se tiene entonces una gráfica de la distribución de
la variable discreta X. (ver gráfica 2)
En el caso de una variable continua la probabilidad ya no puede darse mediante una tabla
sino que se hace mediante una función F que proporcione la probabilidad de que X
tome valores menores o iguales que un número arbitrario. Es decir para cada número real
x se define P(X ≤ x) = F(x). Una tal función, se llama función de distribución de X o
función acumulativa de probabilidad para X.
Por ejemplo, una variable aleatoria X, podría tener como función de distribución, la
siguiente:
1 − e − 2 x si x > 0
F ( x) =
0 si x ≤ 0
Una pregunta natural es: ¿Por qué se hace muestreo en estadística? Hay varias respuestas
a esta pregunta. Una de ellas es: por economía. Muchas veces resulta demasiado costoso
o aún imposible examinar todos los va lores de una población para obtener alguna
información sobre ella. Piénsese, por ejemplo, cómo sería de costoso y aún imposible
entrevistar a todos los habitantes de Ibagué. Otra respuesta es: Porque no hay otra
solución. Esto sucede, por ejemplo, cuando el proceso de observación es destructivo:
para medir la duración de un tipo de llantas no es posible acabar con toda la producción.
Aún hay otra respuesta: por precisión. Muchas veces una población es tan grande que
prácticamente ningún computador corriente podría albergar toda la información
correspondiente a ella o procesarla sin producir errores de redondeo.
El estadístico espera que una buena muestra refleje las propiedades de la población de
dnde fue extraída. De esta manera espera poder inferir cómo es la población, examinando
solamente la muestra. Una buena muestra debe dar información aproximada acerca de la
forma de la distribución de probabilidad de la población, debe reflejar propiedades y
características de dicha población, por ejemplo, simetría, valores más probables, valores
atípicos, tendencias, etc y finalmente, una buena muestra debe producir valores
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 17
En la práctica las muestras perfectas no existen. Sin embargo cuando una muestra es
seleccionada atendiendo a las normas dictadas por un correcto muestreo, se obtienen
muestra buenas, tánto más buenas cuanto más regular sea la población y más riguroso el
método de muestreo. La selección de una buena muestra es, por tanto, un paso
importantísimo antes de cualquier análisis estadístico. La selección de una muestra
representativa de una población se hace atendiendo simultáneamente varias preguntas:
¿Cuántos elementos seleccionar? - (Tamaño de la muestra)
¿Cuáles elementos seleccionar? - (Principio de aleatoriedad)
¿Dónde (en qué parte de la población) seleccionar?
¿Cómo (con qué método) seleccionar?
¿Qué tanto error estamos dispuestos a admitir en las estimaciones?
¿Con qué grado de confiabilidad queremos hacer estimaciones?
¿Qué tan costoso resulta seleccionar la muestra y cuánto dinero poseemos para ello?
Cómo se dijo antes las muestras son siempre finitas. Así pues, podemos suponer que una
muestra está conformada por n valores (números) que podemos enumerar así:
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 18
Muestra = {y1, y2 ,L , yn }
Dentro de estos valores podría haber algunos repetidos, razón por la cual a menudo se dan
los diferentes valores que conforman la muestra y se dice cuál es su frecuencia absoluta
u observada, esto es, cuántas veces aparece cada uno de ellos. De igual manera, se define
la frecuencia relativa para cada observación como la frecuencia absoluta dividida entre
n. Tanto la una como la otra se pueden ir acumulando frente a cada observación,
obteniéndose las frecuencias absoluta acumulada y relativa acumulada. Se acostumbra
presentar estos cuatro conceptos en una única tabla llamada TABLA DE FRECUENCIAS,
cuyo uso es importante y básico aunque a veces desconocido. Tales tablas están
conformadas así:
x1 f1 h1 F1 H1
x2 f2 h2 F2 H2
M M M M M
xr fr hr Fr Hr
Tabla 3. Esquema de una tabla de frecuencias
Al analizar la variable LONG (longitud total de las aves) se encuentran 49 valores –uno
por cada gorrión- pero varios de ellos están repetidos. La tabla siguiente contiene los
diferentes valores de longitud y el número de veces que cada uno de ellos está repetido
(frecuencia absoluta). El resto de la tabla se construye como se dijo anteriormente:
Para la construcción de esta tabla se usó ESM, versión libre 8.2, programa desarrollado
por el autor de estas notas,. Este programa lee los datos de un archivo ASCII (archivo de
texto) y se utiliza para ello la opción de cálculos descriptivos (estadística descriptiva).
También se puede usar G-STAT un paquete estadístico libre, desarrollado por el grupo
Glaxo-Smith-Kline y un grupo de investigadores españoles. Este paquete posee
excelentes características y por ser libre, además de encontrarse en español, se convierte
en una herramienta apropiada para ser usada a nivel elemental. Para análisis más
complejos se puede usar OpenStat que también es software libre.
-------------------------------------------------------------------
TABLA DE FRECUENCIAS PARA LA VARIABLE: LONG
(DATOS NO AGRUPADOS)
OBSERVACION FREC.ABS FREC.REL FREC.ACUM F.REL.ACM
-------------------------------------------------------------------
152.00000 2 0.040816 2 0.040816
153.00000 5 0.102041 7 0.142857
154.00000 1 0.020408 8 0.163265
155.00000 8 0.163265 16 0.326531
156.00000 4 0.081633 20 0.408163
157.00000 4 0.081633 24 0.489796
158.00000 3 0.061224 27 0.551020
159.00000 5 0.102041 32 0.653061
160.00000 3 0.061224 35 0.714286
161.00000 2 0.040816 37 0.755102
162.00000 5 0.102041 42 0.857143
163.00000 4 0.081633 46 0.938776
164.00000 2 0.040816 48 0.979592
165.00000 1 0.020408 49 1.000000
-------------------------------------------------------------------
Tabla 4. TABLA DE FRECUENCIAS PARA LA VARIABLE LONG
En esta tabla se observa, por ejemplo, que el valor 155 aparece 8 veces; el valor 160
aparece 3 veces.
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 21
Esta tabla permite “estimar” las probabilidades de aparición de los valores de la longitud
de los pájaros. Tales valores se dan en última columna de frecuencias relativas
acumuladas. Por ejemplo, la probabilidad de que un gorrión muerto, escogido
aleatoriamente, tenga una longitud de 160 mm o menos, es 0.7143. Si X denota la
variable aleatoria LONG, se tendrá P( X ≤ 160) = 0.7183 . En forma semejante:
P( X ≤ 158) = 0.5510 .
1. P ( X > a ) = 1 − F ( a)
2. P (a < X ≤ b) = F (b ) − F ( a)
Aplicando estos resultados se obtiene, por ejemplo: P( X > 154) = 1 − 0.1633 = 0.8667 y
también P(156 < X ≤ 163) = F (163) − F (156) = 0.5306
r
1 n ∑fx i i
x = ∑ hi xi = ∑ yi = i =1
r
∑f
i =1 n i=1
i
i =1
b. La varianza muestral. Definida por:
1 n r
s = ∑ ( y i − x ) = ∑ hi ( xi − x ) 2
2 2
n i =1 i =1
1 n r
m p = ∑ ( y i − x ) = ∑ hi ( xi − x ) p
p
n i =1 i =1
d. La mediana. Definida como aquel valor tal que el 50% de las observaciones son
menores o iguales que él y el otro 50% son mayores o iguales que él. Naturalmente, si
n es impar la mediana es la observación central. Si n es par la mediana es el
promedio de las dos observaciones centrales.
e. Los cuartiles. Definidos como aquellos datos que dividen las observaciones en cuatro
grupos tales que cada uno de ellos tiene el 25% de las observaciones. El primer
Q1 separa el primer grupo del segundo. Por debajo de él hay un 25% de las
cuartil,
observaciones. El segundo cuartil Q2 es la mediana y el tercer cuartil Q3 es tal
que por debajo de él está el 75% de las observaciones.
f. Los deciles. Son valores tales que dividen la muestra en 10 partes iguales, siguiendo
el mismo esquema de los cuartiles.
g. Los percentiles. Son valores que dividen la muestra en 100 partes iguales. La idea es
similar a la de los cuartiles y los deciles. Los percentiles se denotan
P1 , P2 ,L , P100 . Es claro que Q1 = P25 y Q3 = P75
h. La(s) moda(s). Se define una moda como una observación de máxima frecuencia
absoluta. Puede haber una, más de una o ninguna. Esto último sucede cuando todas
las observaciones tienen la misma frecuencia absoluta. Lo deseable es que una
población sea unimodal (una sola moda) y esto debe reflejarse en la muestra.
m3
i. Coeficiente de Asimetría. Definido como a3 = .
s3
El coeficiente de asimetría mide la simetría general de la distribución
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 23
m4
j. Coeficiente de curtosis. Definido como a4 = .
s4
Este coeficiente mide el apuntamiento o curtosis de una distribución. Se toma como
patrón la distribución normal estándar (se verá formalmente después) en la que este
coeficiente vale 3. Cuando una distribución tiene curtosis inferior a 3 se dice que es
plana o platicúrtica. Cuando tiene curtosis superior a 3, se dice que es leptocúrtica o
puntiaguda. Algunos paquetes como SAS, miden un coeficiente modificado:
a 4 − 3 , llamado exceso de curtosis. Este último puede ser negativo.
A manera de ejemplo, se puede usar ESM para calcular algunos de los estadígrafos
mencionados anteriormente para la variable LONG. No están todos los estadígrafos
mencionados ni se han mencionado todos los que calcula ESM, pero la mayoría de ellos
aparecen como se ve en la siguiente salida:
Existen también algunas técnicas exploratorias de carácter gráfico que son excelentes
auxiliares para averiguar el comportamiento y características de las variables numéricas.
Aquí presentaremos las siguientes (aunque existen muchos más con diversos propósitos):
Veamos estos diagramas aplicados a variables del archivo FINCAS que hemos venido
manejando como ejemplo:
mediana con una línea paralela a la base y que atraviesa la caja a lo ancho. Cuando la
variable examinada es simétrica la caja también lo es y entonces media y mediana
coinciden. Cualquier asimetría se refleja en una asimetría más o menos pronunciada
en la caja. A partir de los extremos de la caja a una distancia de 1.5 H, se señalan los
puntos Ai y As que marcan el límite de valores considerados “atípicos”. Entre éstos,
los valores situados más hacia los extremos - a una distancia de 3 H o más- se
consideran “extremadamente atípicos”
|------------------|--------------|
| | |
| | |
³------------- X -----------------------³
| | |
| | |
|------------------|--------------|
|------------|------------------|--------------|----------------------|
Min Q1 Med Q3 Max
Como se ve, hay una ligera asimetría positiva, reflejada en el hecho de que bigote
superior es un poco más largo que el inferior.
En este caso la tabla de frecuencias se construye de una manera similar a la ya vista para
datos no agrupados, pero las frecuencias corresponden a la cantidad de observaciones que
se encuentren dentro de cada clase. Lo único notorio en este caso son las marcas de clase
que son los puntos centrales de cada clase (ver página siguiente)
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 26
____________________________________________________________________
INFER (-----] SUPER MARCAS F.ABS F.RELAT F.ACUM FREL.ACU
________________________________________________________________________
152.00 153.63 152.81 7 0.14290 7 0.14290
153.63 155.25 154.44 9 0.18370 16 0.32650
155.25 156.88 156.06 4 0.08160 20 0.40820
156.88 158.50 157.69 7 0.14290 27 0.55100
158.50 160.13 159.31 8 0.16330 35 0.71430
160.13 161.75 160.94 2 0.04080 37 0.75510
161.75 163.38 162.56 9 0.18370 46 0.93880
163.38 165.00 164.19 3 0.06120 49 1.00000
________________________________________________________________________
________________________________________________________________________
MARCAS:
FREC.REL(%)
Veamos en tercer lugar el diagrama P-P para verificar el ajuste de los datos a una
distribución normal. Debido a que la mayor parte de los resultados estadísticos
concernientes a la estimación de parámetros descansan en el supuesto de normalidad de
las variables involucradas, resulta importante saber si una variable es normal o no, ya que
de este hecho va a depender la validez de las inferencias. Una fuerte violación del
supuesto de normalidad debe producir dudas sobre la validez de los resultados que
dependan de este supuesto.
En nuestro ejemplo, la variable LONG tiene un buen ajuste a la normal sin que se pueda
asegurar que tal ajuste es perfecto
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 28
Como se ve, existe una ligera tendencia a una relación de tipo lineal entre las dos
variables, lo que significa que existe cierta relación funcional entre la longitud del húmero
de las aves y la longitud de la quilla, aunque dicha relación no es tan fuerte.
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 29
La recta que aparece entre los puntos es la recta de regresión y ella es tal que si se miden
las distancias de cada punto al correspondiente punto estimado por la recta de regresión y
se suman sus cuadrados el resultado es mínimo (por esta razón se dice también que esa
recta es la recta de mínimos cuadrados). Un objetivo estadístico es estimar su ecuación
Ejercicio: Realizar un completo análisis exploratorio con las variables que representan el
número de cabezas de ganado macho y el número de cabezas de ganado hembras en el
archivo FINCAS.DAT. Este análisis debe incluir el cálculo de estadísticos, la elaboración
de gráficas y la interpretación de resultados
TRANSFORMACIONES DE DATOS
Toda transformación de variables produce una nueva variable con distribución diferente,
dependiendo fundamentalmente del tipo de transformación. Algunas de las
transformaciones más us uales son las siguientes:
constantes. Los exponentes podrían en principio ser cualquier real distinto de cero.
Y = Log( X )
4. Estandarización. Una de las transformaciones más importantes usadas en estadística
es la estandarización la cual consiste en una translación de la población seguida de un
cambio de escala. Es usual denotarla mediante la letra Z y se define así:
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 30
X −µ
Z=
σ
donde µ = E( X ) y σ = V( X )
2
son respectivamente la media y la varianza
de la variable X. En la práctica se estandarizan los datos usando la media y la varianza
muestrales. Existe la creencia errónea de que la estandarización normaliza los datos. Esto
no es cierto. Lo único que ella hace es modificar la escala de medida de manera que la
nueva variable Z, tenga media 0 y varianza 1.La estandarización es una transformación de
tipo lineal.
3. LA DISTRIBUCION NORMAL
Las siguientes funciones corresponden a las densidades de variables aleatorias normales,
es decir, variables continuas, cuya distribución de probabilidad se ajusta a una normal
(distribución de Gauss o de DeMoivre), la primera no estandarizada y la segunda
estandarizada:
f (t) =
1 1 t − µ 2 con
Exp − ( ) t , µ ,σ ∈ ℜ σ > 0
2π σ 2 σ
φ ( z) =
1 1
Exp ( − t 2 ) con t∈ℜ
2π 2
La distribución normal tiene una gran importancia tanto teórica como práctica. Es una de
las distribuciones de mayor aplicación en estadística. Es importante desde el punto de
vista teórico porque gran parte de la teoría estadística ha sido deducida para variables
aleatorias continuas normales (poblaciones normales) lo que implica que para otras
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 31
variables que no sean normales, muchos resultados son apenas aproximados y, tanto más
inexactos cuanto más "anormales" sean tales variables. Desde el punto de vista práctico es
importante porque el comportamiento de muchas variables de la vida real se ajusta a una
distribución normal. Tal es el caso, por ejemplo, de la estatura, el peso, la talla, el
coeficiente intelectual.
donde z = x − µ
z
F ( x ) = Φ ( z ) = ∫ ϕ ( t ) dt
−∞ σ
A manera de ejemplo: supóngase que una variable aleatoria X tiene media 25 y varianza
81 y que se quiere conocer la probabilidad P(20 < X ≤ 36) . Puede pensarse, por
ejemplo, que se trata de una variable que representa la edad de una comunidad humana y
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 32
Hoy en día comienzan a caer en desuso las tablas de probabilidades pues muchos
programas de computador permiten su cálculo. El programa ESM, por ejemplo, presenta
el cálculo de probabilidades para va rias distribuciones continuas y discretas, entre ellas, la
normal.
4. LA DISTRIBUCION BINOMIAL
x x
F ( x ) = P ( X ≤ x ) = ∑ f (t ) = ∑ f (t )
t = −∞ t=0
Por ejemplo, usando ESM, podemos calcular la probabilidad de que una variable
aleatoria binomial con parámetros p = 0.32 y n = 20 tome el valor 12 o que tome
valores entre 5 y 13. Es decir: P(X = 12) = f(12) y P(5 < X ≤ 13) = F(13) − F(5). Se
obtiene: f(12) = 0.066395 y F(13) − F(5) = 0.999448 − 0.342615 = 0.656833.
Nótese que en el caso discreto la inclusión de los límites cambia los resultados. Por
ejemplo: con la misma distribución anterio r, no es lo mismo P(5 < X ≤ 13) que P(5 < X <
13). Esta última equivale a P(5 < X ≤ 12) = F(12) − F(5) = 0.997525 − 0.342615
Un análisis del ejemplo muestra que el servicio se podrá prestar si de los 20 pacientes no
hay más de tres que requieran cuidados intensivos. Esto es, si el número de tales pacientes
es a lo sumo 3. Un paciente requiere o no el servicio, así que podemos denominar éxito el
caso en que se requiera y fracaso el caso en que no. En consecue ncia el médico está
interesado en el valor de P(X = 0) + P(X = 1) + P(X = 2) + P(X=3) = P(X ≤ 3), bajo una
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 34
Cuando se tienen dos variables y una de ellas es categórica y la otra numérica se puede
decir que los valores de esta última se encuentran clasificados por los valores de aquella.
Es posible en estos casos separar los valores de la variable numérica correspondientes a
cada valor de la categórica y hacer un análisis separado para cada conjunto de datos.
Por ejemplo, en el archivo de datos sobre las fincas, al considerar simultáneamente las
variables TIPTERR (tipo de terreno) que es categórica con tres modalidades y HCULT
(área dedicada al cultivo) que es numérica, se puede hacer un diagrama de Box-Whiskers
para los datos de cada categoría, obteniéndose la gráfica 8, Gráfica en la cual se puede
concluir, por ejemplo, que aunque en términos generales son muy parecidos los tres
grupos de datos, es más asimétrico el grupo 3 (correspondiente a terreno mixto)
.
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 35
350
250
AREACUL
150
50
Min-Max
25%-75%
-50
1 2 3 Median value
TIPOTERR
Se podría preguntar muchas cosas. Por ejemplo, cada submuestra representa una
población diferente y ¿pueden considerarse iguales las medias de dichas poblaciones? -
¿Se podría afirmar que las tres varianzas son iguales o no?
Preguntas cómo éstas, aunque son legítimas, no se pueden responder en este momento.
Pero se debe saber que sí existen métodos de solución los cuales se presentan
posteriormente.
Histogram: AREACUL
20
15
10
0
-50 0 50 100 150 200 250 300 350 400 450 -50 0 50 100 150 200 250 300 350 400 450
TIPOTERR: TIPOTERR:
No of obs
1 2
20
15
10
0
-50 0 50 100 150 200 250 300 350 400 450
TIPOTERR:
3
El análisis más frecuente que se realiza en estos casos es el conocido cruce de las
variables en el cual se puede hacer un conteo de cuántos individuos se encuentran
simultáneamente en cada una de las categorías de una variable y cada una de las
categorías de la otra.
Por ejemplo, al cruzar las variables RIEGO (existencia de riego artificial) que tiene dos
categorías con CULTIVO (Tipo de cultivo predominante) que tiene 6 categorías (archivo
FINCAS.DAT) de obtiene una tabla (llamada tabla de contingencia) de 12 celdas,
correspondientes a las combinaciones de categorías de una variable con las categorías de
la otra. Al hacer un conteo de individuos en cada celda se obtiene una tabla como la
siguiente, en la cual además de las frecuencias en los cruces de categorías se obtienen los
porcentajes que ellas representan, frente al toal de los datos.
La tabla anterior, llamada tabla de contingencia, permite también realizar pruebas para
averiguar si existe algún tipo de asociación entre las respectivas variables categóricas.
Este tema, sin embargo, no se trata en estas notas introductorias.
6. SOFTWARE
Finalizaremos esta primera parte con una breves referencias al manejo de software
estadístico, una herramienta indispensable en el estudio y aplicación de la estadística.
Hasta hace pocos años el software estadístico era escaso, costoso y de difícil manejo.
Algunos paquetes lograron posicionarse por su alta calidad. Entre ellos cabe mencionar
SAS, SPSS, MINITAB, BMDP, SYSTAT, STATISTICA y STATGRAPHICS. Todos
ellos son ejemplos de software sofisticado, lejos del alcance de la mayoría de los usuarios
de la estadística. Hoy en día su adquisición sigue siendo difícil, incluso para grandes
corporaciones como las universidades.
Entre los numerosos paquetes de software estadístico gratis y libre cabe mencionar entre
otros, los siguientes: ViSta, OpenStat y G-Stat. Todos ellos en ambiente Windows, con
pocas exigencias técnicas y disponibles en Internet. Estos paquetes son gratis. Su único
costo es el tiempo necesario para bajarlos de la red. Son además libres en el sentido de
que sus autores los han dejado allí para uso de quien lo desee, sin licencia escrita expresa
y para libre aplicación siempre y cuando no se pretenda comercializarlos. Esto
normalmente consta en los manuales o en las ayudas de los mismos programas.
No por ser gratuitos son malos. No!. Realmente estos paquetes ofrecen excelentes
posibilidades y resultados precisos y depurados. Es decir, la relación calidad precio es
realmente enorme.
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 38
El autor de estas notas ha desarrollado también un paquete que pretendía llenar los otrora
graves vacíos que en materia de software estadístico existían. Así nació por allá en 1992
un proyecto que ha venido creciendo con el tiempo y que hoy en día constituye un
paquete de buena acogida y amplio uso en los medios universitarios regionales. Es el
ESM. De este software hubo dos versiones: una versión pequeña orientada a los
estudiantes y una versión amplia que sigue desarrollándose y que se denomina ESM-
PLUS, la cual ha sido liberada y actualmente es completamente gratis, para fines
académicos.
.
ESM es un paquete de manejo muy simple: sólo exige un archivo de datos en ASCII con
una estructura como la del archivo FINCAS.DAT que hemos venido manejando; el
nombre de un archivo de reportes que el usuario proporciona y en el cual se almacenan
los resultados de los análisis; la indicación por parte del usuario de las columnas que
ocupan los valores de la(s) variable(s) que se va(n) a analizar y, por supuesto, algunos
conocimientos teóricos acerca de los análisis estadísticos que se pretenda realizar.
Dedicaremos unas líneas más a G-Stat, por considerar que este software es atractivo,
fácil de usar, muy completo para estadística elemental, gratis, libre y escrito en español,
virtudes que lo hacen muy apropiado para nuestros propósitos y para uso de los docentes
y estudiantes de secundaria y aún de universidad.
G.Stat ha sido programado en Java, razón por la cual se hace necesario este entorno para
poderlo ejecutar. Esto hace también que sea aplicable a numerosas plataformas como
Uníx, Linux, Mac, etc, pero también establece diferencias respecto a lo que estamos
acostumbrados a observar en Windows. Por ejemplo, no aparece el típico relojito de arena
que nos dice que algo se está ejecutando. Si el equipo de cómputo es rápido esto no
constituye problema pero en equipos lentos puede llegar a despistarnos.
La instalación de G-Stat, en equipos con Windows en español, se logra en solo dos pasos:
1. Ejecutar el programa J2RE-1_3_1_02-win.exe
2. Copiar la carpeta G-STAT y todas sus subcarpetas del CD al disco duro C
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 39
en ella podemos apreciar un menú de tareas (línea superior), unos íconos cuyo objetivo es
similar al menú de la primera línea, las primeras siete variables del archivo FINCAS que
hemos utilizado como ejemplo, encabezadas con los nombres que se ha dado estas
variables (CodDepto, Harea, Hcultivo, Temperat, etc). Estos nombres pueden ser
cambiados si colocamos el cursor encima de ellos y pulsamos el botón derecho del
mouse.
Un análisis estadístico comienza seleccionando del menú la tarea que deseemos realizar.
Por ejemplo, si queremos hallar estadísticos descriptivos de la variable TEMPERAT,
pulsamos el botón Descriptiva del menú. Esto despliega un menú de persiana en el que
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 40
podemos ver varias opciones como se muestra en la gráfica siguiente. Entre esas opciones
escogemos Cuantitativas (y) debido a que se trata de una sola variable cuantitativa.
Al pulsar sobre esta opción con el botón izquierdo del mouse se obtiene la siguiente
pantalla que permite seleccionar la(s) variable(s) que va(n) a ser analizada(s). Para ello la
señalamos al lado izquierdo y pulsamos en el botón que indica dirección a la derecha.
En la parte superior aparecen dos pestañas sobre las cuales se puede dar clic para lograr
los resultados buscados. Véase la gráfica de la página siguiente.
Esta gráfica muestra cómo se selecciona la variable TEMPERAT para su análisis. Al pulsar
sobre la pestaña titulada Estadísticas se obtienen varios valores descriptivos de la muestra
en lo correspondiente a la variable TEMPERATURA .
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 41
Al pulsar sobre la pestaña Cajas se obtiene una gráfica Box-Plot para la variable
analizada. Esta gráfica puede ser modificada si se pulsa sobre el botón Opciones que
aparece junto a ella. Así, por ejemplo, podemos cambiar su orientación para presentarla
en forma vertical y guardarla en un archivo con extensión BMP (mapa de bits) el cual
puede ser incorporado a un documento.
7. HIPOTESIS ESTADISTICAS
Diremos ahora algunas palabras sobre las hipótesis estadísticas. Se entienden como tales,
afirmaciones que se hacen acerca de un parámetro, acerca de relaciones entre dos o más
parámetros o acerca de una o más distribuciones. Por ejemplo, cuando se afirma que
µ = 30 , que µ 1 > µ 2 o que cierta variable aleatoria tiene distribución normal se están
formulando hipótesis estadísticas.
Una hipótesis estadística es una conjetura que se hace acerca de uno o más desconocidos
y que se busca desvirtuar con la información aportada por una muestra aleatoria tomada
de la población. Se plantea una hipótesis nula H0 y una hipótesis alterna H1,
generalmente contradictorias, que resuman la conjetura (Ejemplo: H0: µ = 30 ,
H1: µ > 30 ). Cuando la muestra aporta suficiente información en contra de la hipótesis
nula, ésta se rechaza. Cuando no exista suficiente evidencia en contra de H0 ésta se
mantiene como conjetura plausible. No como verdadera!, sino sólo como “verdadera
hasta que no se demuestre lo contrario”. En la práctica la prueba de una hipótesis se hace
mediante un estadístico apropiado, llamado estadístico de prueba, del cual se conozca su
distribución. El procedimiento se basa en el nivel de significancia intrínseco que se
explica a continuación.
Una prueba es más potente que otra cuando tiene más capacidad que ésta para diferenciar
las hipótesis falsas de las que no lo son. Sería ideal disponer de pruebas muy potentes que
a la vez permitieran rechazar hipótesis falsas con poco riesgo de cometer error tipo I. Esto
sólo se logra aumentando los tamaños de la muestra y, por consiguiente, incrementando
los costos.
más usuales) y rechazar H0 cuando el nivel de significancia intrínseco sea inferior a dicho
valor. Para poder aplicar ésto se debe calcular previamente el tamaño mínimo de
muestra, necesario para poder comparar con el nivel preestablecido de riesgo.
A lo largo de este curso se harán muchas pruebas de hipótesis. Para poder interpretarlas se
requiere saber dos cosas: 1. Que H0 se rechaza cuando el valor P es pequeño y 2. Conocer
cuál es la hipótesis nula en cada caso.
8. BONDAD DE AJUSTE
Existen varios métodos para determinar si una serie de valores se ajustan a una
distribución teórica F(x) pero siempre el primer paso consiste en determinar cuál es la
posible distribución. En este punto interviene la subjetividad y la experiencia del
investigador. Puede comenzarse por un EDA que incluya histogramas de datos agrupados
por clases para tener alguna “sospecha” sobre la forma y los parámetros básicos de la
posible distribución.
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 44
Una vez se tenga una distribución teórica como candidata, se puede aplicar alguno de los
procesos siguientes:
Los valores teóricos F ( x i ) pueden obtenerse: mediante tablas o, mediante programas que
los calculen (ESM lo hace para 16 distribuciones). Algunos programas, como SPSS (V7.5
Student) produce directamente las gráficas bajo varias distribuciones. Igual lo hace ESM
para algunas distribuciones de importancia.
El método anterior, aunque fácil de entender, tiene dos inconvenientes: en primer lugar es
subjetivo pues ligeras desviaciones de la recta no indican necesariamente falta de ajuste y,
en segundo lugar, el cálculo de las probabilidades bajo la distribución teórica puede
resultar largo y tedioso. Con todo es uno de los más usados.
Tal vez el método más recomendable para el caso en que F ( x) es una distribución
continua es el método para una muestra de Kolmogorov-Smirnov o (K-S). Consiste en
una prueba de hipótesis en el que la hipótesis nula afirma que los datos sí se ajustan a la
distribución F ( x) y la hipótesis alterna establece que no se ajustan. El estadístico de
prueba está dado por
D = Max{| H i−1 − Fi |, | H i − Fi |} , H 0 = 0
este valor se compara con el valor crítico que se encuentra en una tabla. Se rechaza la
hipótesis nula si D es mayor que el valor de tabla para el nivel de confianza y el tamaño
de muestra que se estén considerando.
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 45
Esta prueba puede hacerse con ESM si se calcula la tabla de distribución para los datos no
agrupados y luego se calculan las probabilidades teóricas usando la rutina
correspondiente en la miscelánea.
Una prueba muy mencionada en los textos corrientes de estadística es la prueba Ji-
cuadrado de bondad de ajuste la cual busca medir las discrepancias entre la distribución
teórica y la distribución empírica de los datos cuando éstos han sido agrupados en clases.
Esta prueba fue propuesta por Pearson a principios del siglo XX y por ser la más antigua
es la más conocida.
El principio en el que se basa la prueba es simple: los datos se agrupan en k clases del
tipo ( xi −1, xi ] con i = 1, 2,L k y se calculan las frecuencias relativas de cada clase, las
cuales denotamos por Oi . Por otra parte, bajo la distribución teórica que se está
probando se calculan las probabilidades Ei = P( x i−1 < X ≤ xi ) para i = 1,2,L, k . Una
medida de la discrepancia entre las dos distribuciones está dada por el estadístico
(O i − Ei )
2
X2 =∑
Ei
Esta prueba exige el cumplimiento de una gran cantidad de condiciones para que sea
decisiva lo que la hace inaplicable la mayor parte de las veces. Algunas de las
condiciones que se deben cumplir son las siguientes:
1. Por ser una prueba asintótica la muestra debe ser de gran tamaño. (n > 150 ?)
2. El número k de clases en que se agrupan los datos debe ser mayor o igual a 5
3. Todas las frecuencias esperadas ( Ei ) deben ser mayores que 1
4. Como máximo la quinta parte del número de clases puede tener frecuencias esperadas
inferiores a 5
5. No deben existir tendencias en las apariciones de los signos de Oi − Ei . Lo ideal es
que estos signos se alternaran
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 46
3 3 2 5 2 15 2 10 2 1 4 3
14 4 3 5 0 1 1 9 1 2 1 5
1 1 1 0 8 8 5 1 2 4 0 4
0 5 14 3 3 2 5 1 5 0 18 1
2 2 4 3 1 3 4 0 4 7 6 4
A partir de los datos se obtiene: media = 3.83 Varianza = 14.61 y, Como se ve, la
varianza es aproximadamente el cuadrado de la media. Tanto la forma del histograma
como la propiedad observada en la media y la varianza, nos hacen "sospechar" que
podría ser apropiado ensayar una distribución exponencial de parámetro b = 3.8, o para
má s sencillez, b = 4, para la cual se cumple:
1 t x
f (t ) = Exp (− ) F ( x) = 1 − Exp ( − ) x≥0
4 4 4
en el método gráfico (P-P) se grafican las parejas de puntos de las dos últimas columnas,
mediante un diagrama de dispersión.
Se obtiene:
-------------------------------------------------------
OBS F.REL.ACM F(x) |Hi'-Fi| |Hi-Fi|
-------------------------------------------------------
0.00000 0.100000 0.0000 0.0000 0.1000
1.00000 0.300000 0.2212 0.1212* 0.0788
2.00000 0.450000 0.3934 0.0934 0.0566
3.00000 0.583333 0.5276 0.0776 0.0557
4.00000 0.716667 0.6321 0.0488 0.0845
5.00000 0.833333 0.7135 0.0031 0.1198
6.00000 0.850000 0.7768 0.0565 0.0732
7.00000 0.866667 0.8262 0.0238 0.0404
8.00000 0.900000 0.8646 0.0020 0.0354
9.00000 0.916667 0.8946 0.0054 0.0220
10.00000 0.933333 0.9179 0.0013 0.0154
14.00000 0.966667 0.9698 0.0365 0.0032
15.00000 0.983333 0.9765 0.0099 0.0068
18.00000 1.000000 0.9889 0.0056 0.0111
-------------------------------------------------------
El valor D está dado por el mayor valor que se encuentre en las dos últimas columnas.
Esto es: D = 0.1212. Este valor se compara con el valor dado por una tabla (ver anexo
3) que para un nivel de sig nificancia α = 0.05 y n = 60 vale 0.1755.
Puesto que D resultó menor que el valor crítico hallado en la tabla, no podemos rechazar
la hipótesis (nula) de que los datos se ajustan a la distribución exponencial propuesta.
Puesto que las estimaciones se hacen a partir de una muestra aleatoria, es inevitable la
existencia de un error de estimación que es la diferencia absoluta entre el valor del
parámetro θ y la estimación particular θˆ obtenida con la muestra, esto es: ε =| θ − θˆ | .
Por tal razón no se puede afirmar que el parámetro θ tome el valor θˆ sino que se
encuentra a su alrededor, en un intervalo, con un cierto grado de probabilidad o de
confianza. Se define así un intervalo del 100(1 − α )% de confianza para el parámetro
θ , como el intervalo I α , centrado en θˆ dentro del cual se encuentra θ con una
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 49
Conviene tener en cuenta que todo va lor que se encuentre dentro del intervalo de
confianza del parámetro θ , se considera igual desde el punto de vista estadístico al
parámetro. Dicho en otros términos, tales valores no difieren significativamente de θ .
Quiere esto decir que la diferencia entre tales valores y el parámetro, si es que existe, se
considera despreciable o insignificante. Este concepto va a ser valioso cuando se trate de
verificar hipótesis acerca del parámetro.
Puesto que se va a estimar µ , este valor es desconocido. Respecto a la varianza, tal valor
podría ser conocido o desconocido, aunque realmente es muy raro que se conozca. La casi
totalidad de las veces se hace necesario estimar también el valor σ 2 . El proceso de
estimación comienza definiendo el tipo de muestreo que se va a aplicar, calculando luego
el tamaño mínimo de muestra necesario para garantizar los niveles de confianza y error
máximo fijados de antemano, tomando por último los elementos que conforman la
muestra y observándolos (midiéndolos) para obtener los valores con los cuales se hace la
estimación. Aquí supondremos que se ha aplicado muestreo aleatorio simple sin
repetición para que sean válidos los métodos propuestos. Estimaciones con otros tipos de
muestreo se verán en un curso de muestreo.
N −n σ N −n σ
( x − zα , x + zα )
2 N n 2 N n
expresión que permite construir el intervalo de confianza para la media, cuando se conoce
la varianza.
N −n s N −n s
( x − t n−1, α , x + t n−1, α )
2 N n 2 N n
ESM, además de calcular los intervalos anteriores, permite hacer pruebas de hipótesis
acerca de la media, como se indica a continuación.
Conviene aclarar que no siempre se tienen variables normales. De ocurrir esto, los
supuestos ya no son ciertos y, en consecuencia, los resultados no serían confiables. Tal
situación puede mejorar si se toman muestras de mayor tamaño (Teorema del límite
central).
Mediante ESM (selecciones 3-3-1 Estimación de medias bajo M.A.S), se obtienen los
resultados siguientes.
T = -6.748625457543953 GL = 149
Sometemos a prueba la hipótesis nula señalada con la flecha y puesto que el valor P es
demasiado pequeño, se rechaza H0. En consecuencia, nos quedamos con la hipótesis
alternativa H1 que establece que la media poblacional es menor que 250 hectáreas.
para que sea válido el análisis realizado. Este supuesto es necesario ante todo cuando las
estimaciones se hacen con muestras muy pequeñas.
n∞
n=
n
1+ ∞
N
a
Para estimar la proporción se usa el estimador puntual p = donde a es el número de
n
elementos de la clase a estimar en la muestra y n el tamaño de muestra. El intervalo de
confianza se construye con la siguiente fórmula corregida por finitud y por continuidad:
N −n PQ 1 N −n PQ 1
( p − zα − , p + zα + )
2 N −1 n 2n 2 N −1 n 2n
N − n pq 1 N −n pq 1
( p − zα − , p + zα + )
2 N n − 1 2n 2 N n − 1 2n
expresión que en la práctica se usa para estimar una proporción binomial, es decir de dos
categorías con muestras grandes en poblaciones finitas.
Por analogía con el caso de la media, se puede calcular el tamaño mínimo de muestra
necesario para hacer una estimación de una proporción binomial.
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 54
PQ
En primer lugar, en una población infinita, se tiene e = zα de donde se deduce
2 n
z 2 PQ z 2 PQ
n= , expresión que comunmente se denota: n∞ =
e2 e2
N −n PQ
Cuando la población es finita, de tamaño N, se tiene e = zα
2 N −1 n
o lo que es equivalente: n ( N − 1) e = ( N − n ) z PQ
2 2
Nz 2 PQ
de donde se concluye que n =
( N − 1)e 2 + z 2 PQ
n∞
n=
n −1
1+ ∞
N
Igual que antes, ésta es la fórmula práctica para el cálculo del tamaño de muestra bajo
M.A.S: primero se calcula n ∞ y luego, si es necesario, se corrige para poblaciones
finitas.
Los resultados anteriores permiten establecer criterios para probar hipótesis del tipo H0:
P = P0 , acerca de proporciones. Esta hipótesis afirma que una proporción toma cierto
valor y se prueba contra cualquiera de las alternativas P < P0 , P ≠ P0 o P > P0 .
Los criterios para probar este tipo de hipótesis son simples: construir el intervalo de
confianza para P y observar si dicho intervalo contiene o no al valor P0 . Si lo contiene
entonces se concluye que P = P0 . Si no lo contiene entonces P ≠ P0 y se cumplirá una
de las desigualdades P < P0 o P > P0 , según que el intervalo esté a la izquierda o a la
derecha de P0 .
ESM hace pruebas de hipótesis acerca de una proporción binomial de dos maneras
diferentes: a) leye ndo los valores que toma una variable dicotómica en un archivo de
datos o b) a partir de la información que el usuario introduce por el teclado (pruebas
semimanuales).
Ejemplo 10.1. Supóngase que se aplicó la primera dosis de la vacuna contra la hepatitis a
3000 niños de 6 colegios de una cierta ciudad donde se estima que hay 12500 niños. Al
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 55
cabo de 30 días, fecha en que se va a aplicar la segunda dosis se observa que 600 de estos
niños han desarrollado reacciones alérgicas. La estimación puntual de la proporción de
niños que desarrollan esta alergia es entonces p = 600/3000 = 0.2. Supóngase ahora que
estamos interesados en saber si dicha proporción puede ser superior a 0.25 (es decir, si
más de la cuarta parte de la población infantil puede desarrollar alergia). La prueba
semimanual, realizada en ESM, produce:
Como puede apreciarse, el valor P de 1.00 es demasiado alto, razón por la cual no se
puede rechazar la hipótesis nula a favor de la alterna. Es decir, no sucede que P > 0.25
definir tales medidas es necesario diferenciar entre dos casos típicos: de una parte cuando
las dos variables son de tipo numérico, caso en el cual la asociación entre ellas se
denomina correlación y, de otra parte, el caso en que las dos variables son categóricas, en
el cual la asociación se conoce como contingencia. Existe un caso especial para la
correlación entre rangos de dos variables. Esta se llama correlación por rangos
(Spearman) pero no será usada en estas notas.
Correlación de Pearson
Cov( X , Y ) = E( XY ) − E( X ) E(Y )
Cov( X , Y )
ρ=
V( x ) V(Y )
∑(X i − X )( Yi − Y )
r= i =1
n n
∑ ( X i − X )2 ∑ (Yi − Y )
i =1 i =1
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 57
ESM realiza la prueba anterior tanto para dos como para más variables arrojando los
correspondientes valores P, con los cuales se rechaza o no la hipótesis nula. Para ello se
debe entrar por el menú de regresión.
Ejemplo 11.1: considérense tres variables, EDAD, TALLA y MASA MUSCULAR medidas
sobre 14 individuos, las cuales arrojan los siguientes datos:
1. MATRIZ DE CORRELACIONES:
Como puede verse en los resultados anteriores, la correlación entre edad y masa y la
correlación entre talla y masa no son significativas. En cambio la correlación entre edad y
talla sí es significativamente diferente de cero (ver valor P resaltado en la matriz).
Tablas de contingencia
Una tabla de contingencia para dos variables categóricas, tiene el siguiente aspecto:
VARIABLE X
Categ 1 Categ 2 ... Categ k Totales
VA Categ 1 n11 e11 n12 e12 ... n1k e1k T1*
RIA Categ 2 ...
n 21 e21 n 22 e22 n 2k e 2k T2*
BLE
... ... ... ... ... ...
Y Categ r n r1 er1 n r2 er 2 ... n rk erk Tr*
Totales T*1 T*2 ... T*k T
Tabla 11 Estructura de una tabla de contingencia
Si se supone como hipótesis nula que las dos variables son independientes, las frecuencias
esperadas se calculan como se dijo antes, y se puede construir un estadístico de prueba
definido por:
X = ∑∑
2
r k
(nij − eij )
2
i =1 j =1 eij
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 60
Las condiciones para la validez de esta prueba son las mismas que para la validez de la
prueba Ji-cuadrado de bondad de ajuste, vista anteriormente.
Las tablas de contingencia son de gran importancia en el análisis de encuestas para hacer
conteos de frecuencias, calc ular porcentajes de respuestas y probar la independencia de
variables mediante el cruce de variables, además de que se constituyen en punto de
partida para el análisis de correspondencia (ver sección 11.9)
Ejemplo 11.2: Supóngase que se ha aplicado una encuesta a 700 personas las cuales han
respondido las siguientes dos preguntas (entre las muchas que conforman la encuesta):
Pregunta: Señale con una × el grado aceptación que tiene usted respecto a la reelección
presidencial:
1. ? Totalmente en desacuerdo
2. ? De acuerdo con algunas reservas
3. ? Totalmente de acuerdo
Después de recogidas las encuestas se decide agrupar los valores de las edades en años en
las siguientes categorías o modalidades:
1. Menores de 20 años
2. Edades desde 20 hasta 35 años
3. Edades desde 36 hasta 50 años
4. Mayores de 50 años.
X = EDAD (Categorizada)
Y = OPINION Menos de 20 De 20 a 35 De 36 a 50 Más de 50
O Total.Desacuerdo 36 52 63 29
P De acuerdo con res. 14 26 38 47
I
N Total. De acuerdo 64 85 121 125
Tabla 12 Ejemplo de una tabla de contingencia para dos variables categóricas
Siempre que se crucen dos variables categóricas se obtendrá una tabla de contingencia
bidimensional, similar a la anterior.
La tabla 6.5 puede simplificarse y a la vez complementarse con otros valores como se ve
a continuación (se han incluído códigos para las modalidades y totales):
Se han agregado los totales por filas y columnas, llamados marginales, los cuales
representan las frecue ncias absolutas en las categorías de las variables Y y X
respectivamente. Los valores en los cruces de modalidades de las dos variables
representan el total de individuos que simultáneamente clasifican en las respectivas
modalidades. Por ejemplo, el 38 de la casilla correspondiente al cruce de la modalidad 3
de X con la modalidad 2 de Y, indica que 38 de las 700 personas encuestadas, con edades
entre 36 y 50 años, aceptan la reelección presidencial pero con algunas reservas. Esto
representa un 5.43% del total aproximadamente.
La misma tabla anterior, incluyendo los valores esperados y los estadísticos para probar
independencias de las variables, tiene la siguiente apariencia:
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 62
140
120
100
80
60
40
20 Acu
0 Res
Des Mod de Opinión
m20 20a35
36a50 M50
Modalidades de Edad
Si los datos de cada fila (respectivamente: columna) de la tabla 6.6 se dividen entre el
total marginal, se obtienen perfiles horizontales (respectivamente perfiles verticales), los
cuales pueden ser interpretados como distribuciones de cada una de las modalidades de la
variable Y respecto de las modalidades de X (respectivamente: distribuciones de las
modalidades de X respecto a modalidades de Y). Por ejemplo, al dividir la primera fila por
180 se obtiene el perfil horizontal (0.20, 0.29, 0.35, 0.16) cuya representación gráfica
es la siguiente:
0.4
0.35
Freq relativas
0.3
0.25
0.2
0.15
0.1
0.05
0
m20 20a35 36a50 M50
Modalidades de Edad
especialmente útil en las tablas cuadradas (cuando r = k) en las cuales toma un máximo
1
valor de 1 − . El mínimo valor de C es 0 y ocurre cuando no existe ninguna
r
dependencia entre las dos variables consideradas. Sin embargo, es claro que jamás podrá
llegar a valer una unidad aunque haya una completa asociación entre las variables. A
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 64
pesar de sus limitaciones, es una medida muy útil pues no requiere continuidad en las
observaciones, siendo suficiente una medición nominal.
Cuando se desea comparar el grado de asociación entre dos tablas de las mismas
dimensiones, se puede usar el coeficiente de contingencia. Sin embargo esto no es posible
para tablas de dimensiones diferentes. En tal caso se usa un coeficiente, llamado
coeficiente corregido de Pawlik, que no depende de las dimensiones de las tablas. En el
ejemplo anterior, se obtiene C = 0.1753 y el coeficiente corregido de Pawlik vale
0.2147
2. Existen otros coeficientes con usos más específicos que no es del caso mencionar aquí.
X2
Algunos de ellos son: El coeficiente Fi-Cuadrado ( φ =
2
) de Pearson, La V y la C de
n
Cramér, la tau de Kendall, el delta de Sommer, la gamma de Goodman-Kruskall, el
coeficiente de incertidumbre y el coeficiente de correlación de Spearman, utilizado para
variables en escala ordinal, etc.
Por ejemplo, al cruzar las variables TIPO de terreno (que tiene 3 categorías o modalidades:
1=plano, 2=quebrado y 3=mixto) con RAZA mayoritaria de ganado (también con tres
modalidades: 1=Cebú, 2=Normando y 3=Holstein) del archivo FINCAS.DAT se obtiene,
como salida de ESM , la tabla 6.8.
En dicha tabla aparecen varias cantidades por celda, a saber: 1. La frecuencia observada,
es decir, el número de individuos de la encuesta que clasifican en el cruce de cada par de
modalidades. 2. La frecuencia esperada en cada cruce bajo el supuesto de independencia
de las variables y 3. El porcentaje que representa la frecuencia observada en cada cruce
frente al total de individuos examinados
Una medida de la contingencia es 0.17155646, sin embargo este número por sí solo no es
muy expresivo ya que cada tabla tiene un coeficiente máximo diferente. Es más sensato
pensar que se tiene una contingencia de 0.171556 entre un máximo posible de
0.81649658 lo que realmente representa aproximadamente un 21% . Es decir, la
asociación estimada no es realmente muy fuerte. La prueba de independencia se hace
precisamente para determinar si la medida de asociación entre las variables es
significativa o no. Es decir, si realmente existe asociación o no la hay.
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 65
En nuestro ejemplo, dado el valor P de 0.3368, se concluye que las variables consideradas
son independientes desde el punto de vista estadístico, pues dicho valor representa un
riesgo demasiado alto de equivocarnos si rechazamos la hipótesis de independencia entre
las variables. Es decir, se concluye que no existe asociación entre las variables.
2 18 33 16 67
22.78 28.59 15.63
12.00 22.00 10.67 44.67
3 17 18 13 48
16.32 20.48 11.20
11.33 12.00 8.67 32.00
_____________________________________________
TOTAL: 51 64 35 150
% : 34.00 42.67 23.33 %100
Consideremos la situación en la que una variable X ha sido planeada para que tome
ciertos valores y supongamos que Y representa una variable de respuesta cuyos valores
dependen de los valores que tome X. Si los valores de Y dependen en forma lineal de los
de X, entonces un cambio en X produce un cambio proporcional en Y. Más exactamente,
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 66
Los coeficientes β 0 y β 1 son parámetros desconocidos que deben ser estimados con
los valores de la muestra, de esta manera se tendrá un modelo estimado Y = b0 + b1 x
cuyos coeficientes son estimaciones puntuales de β 0 y β 1 . Puesto que hay diferencias
entre el modelo teórico y el modelo estimado, para cada observación se puede escribir
Yi = b0 + b1 x + ε i donde ε i es una variable aleatoria que representa el error entre el
valor estimado de la observación y el valor teórico. Este valor no es medible pero sí
puede ser estimado por ei = y i − y)i donde )y i = b0 + b1 x i es el valor estimado de Yi y
yi es el correspondiente valor observado. Cada e i se llama un residuo.
Se trata de minimizar la suma de los errores elevados al cuadrado. Puesto que no se puede
usar directamente los errores, se usan los residuos, así que se buscará que la expresión
n
SCE = ∑ ei
2
tome un valor mínimo.
i =1
)
Reemplazando ei por yi − y i = y i − b1 xi − b0 en la expresión anterior y aplicando
procedimientos del cálculo de derivadas para minimizar, se obtiene:
n∑ xi y i − (∑ x i )( ∑ yi )
b1 =
n∑ x i2 − (∑ x i ) 2
1
b0 = ( ∑ yi − b1 ∑ xi )
n
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 67
Se puede demostrar que los intervalos de confianza para β 1 están dados por:
S
b1 m t n− 2,α
2 S xx
b0 m t n− 2,α
S ∑x i
2 nS xx
n
donde sxx = ∑ ( xi − x ) 2
i =1
Una vez estimado un modelo lineal de regresión viene una etapa de análisis para medir la
bondad de dicha estimación. Si el modelo estimado no supera las pruebas se hace
necesario volver a iniciar el proceso después de haber modificado el modelo o las
variables.
A continuación se expondrán los principales aspectos que deben ser examinados para
juzgar la bondad de un modelo ya estimado.
Las principales razones por las cuales un modelo puede no ser bueno son: a) De una
parte, el modelo lineal no es el indicado o b) se está violando alguno(s) de los supuestos.
Se cumple:
∑( y
i − y ) 2 = ∑ ( yˆ i − y ) 2 + ∑ ( y i − yˆ i ) 2
SCR
Se puede probar que tiene distribución Ji-cuadrado con 1 grado de libertad y que
σ2
SCE
tiene distribución Ji-cuadrado con n − 2 grados de libertad. De aquí se concluye
σ2
SCT
que tiene distribución Ji-cuadrado con n − 1 grados de libertad. Según ésto, bajo el
σ2
supuesto de que β1 = 0 (hipótesis nula), la variable
SCR
σ2
1 SCR
F= = tiene distribución F1, n− 2
SCE S2
σ 2
n−2
El análisis de varianza suele resumirse en una tabla como la 7.1, con la cual se toma la
decisión: Se rechaza H 0 siempre que P sea pequeño (menor que α , el nivel de
significancia prefijado de acuerdo con el tamaño de la muestra)
ei e
di = = i2
CME S
∑ ( et − et −1 ) ∑e e
2
t t −1
dado por d = t= 2
n
. Si la correlación se estima por r = t =2
n
entonces se
∑e
t =2
2
t ∑e
t =2
2
t −1
tiene la relación d = 2(1 − r ) lo que hace que d tome valores en el intervalo (0, 4).
Puesto que ρ es estimado por r se cumple que d = 2 cuando ρ = 0 y d = 0 cuando
ρ = 1 . Durbin y Watson tabularon una serie de límites d L y dU (inferior y superior,
respectivamente, ver anexo 3) con los cuales se realiza la prueba de la siguiente manera:
Si d < d L rechace H 0 . Si d > dU no rechace H 0 . El test no es concluyente cuando
d L < d < dU .
Rara vez sucede que haya autocorrelación negativa en los residuos. Si esto llegase a
suceder, se tendría que d = 4 cuando ρ = −1 . Por esta razón, bastará construir unos
límites simétricos dados por 4 − dU y 4 − d L respectivamente dentro de los cuales la
prueba no es concluyente y los cuales muestran la presencia de correlación negativa si
d > 4 − dL
)
∑e e t t −1
desconocido se emplea la siguiente estimación suya: ρ= t= 2
n
. El nuevo modelo
∑e
t =2
2
t −1
* *
produce ciertos parámetros estimados b 0 y b1 los cuales permiten encontrar
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 71
b0*
estimaciones de los coeficientes para el modelo original, dados por b0 = ) y b1 = b1 .
*
1− ρ
Se debe examinar el nuevo modelo y si aún persiste la correlación de primer orden se
puede emplear el mismo procedimiento con el nuevo modelo.
Las gráficas siguientes muestran dos tipos de puntos influenciales muy frecuentes:
En el primer caso un punto demasiado alejado (outlier) de los puntos que marcan la
tendencia produce una desviación de la recta de regresión con lo cual el modelo
construído no logra buen ajuste de los datos y, por consiguiente, producirá pronósticos
erróneos. En el segundo caso un punto aislado (apalancamiento) produce una falsa recta
de regresión: se encuentra un modelo cuando realmente no hay ninguno. Esto puede
llevar a falsa conclusiones.
Existen herramientas para detectar puntos influenciales. Por ejemplo, para detectar
outliers se pueden medir las magnitudes de los residuos. Los puntos atípicos
generalmente presentan residuos demasiado grandes al ser comparados con los demás. Un
criterio muy usado consiste en declarar como tales aquellos puntos cuyos residuos son
mayores que 3 desviaciones estándar. Hay otros criterios que se presentarán en el
próximo capítulo. Usualmente el software para cálculo de regresión trae programadas
herramientas de detección de puntos influenciales.
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 72
Un pronóstico futuro está dado por la misma expresión pero su intervalo de confianza está
dado por:
1 (x 0 − x )2
y 0 m t n− 2,α + S 1 + +
2 n S xx
Día 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
#Visitan 12 14 16 20 21 10 15 24 32 30 23 28 26 15 18
Gananc 60 66 72 92 96 58 72 105 140 132 107 124 116 75 82
Los resultados del análisis se presentan a continuación junto con algunos comentarios que
los aclaran.
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 73
Este diagrama muestra una clara tendencia lineal de las observaciones lo que permite
augurar un buén comportamiento del modelo lineal.
La siguiente salida muestra las estimaciones de los coeficientes del modelo. El estadístico
t con 13 grados de libertad permite probar la significancia de cada coeficiente por
separado. En cada caso la hipótesis nula dice que el coeficiente respectivo vale cero
contra la alternativa de que es diferente de cero. En el ejemplo, ambos coeficientes son
significativos (diferentes de cero). Cuando un coeficiente no sea significativo puede ser
eliminado del modelo.
Tabla 16. Estimación y significancia de coeficientes del modelo para ejemplo 12.1 (Salida ESM)
A continuación aparecen los intervalos de confianza para los coeficientes del modelo. El
coeficiente verdadero se encuentra en el intervalo calculado con el nivel de confianza
correspondiente. Igualmente aparece el error estándar de la estimación que, como se
recordará, es igual a la raiz cuadrada de la varianza del estimador correspondiente.
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 74
La siguiente salida corresponde a la tabla de análisis de varianza que, como se dijo antes,
sirve para determinar la adecuacidad del modelo (si el modelo lineal es o no adecuado
para el ajuste de los datos). Cuando el valor P correspondiente a la F es pequeño (inferior
al nivel de significancia) como es el caso de este ejemplo, se concluye que el modelo
lineal sí es apropiado para ajustar los datos.
En los modelos de regresión simple esta salida parece tener poca utilidad pero no sucede
así en los modelos de regresión múltiple donde puede haber muchas más posibilidades en
juego.
Tabla 18: Análisis de varianza en el modelo del ejemplo 12.1 (Salida ESM)
_________________________________________________________________________
Para este caso, buscando en una tabla, se obtiene d L = 1.08 y dU = 1.36 . Como se ve,
d > dU en consecuencia, no se puede rechazar la hipótesis de que la correlación serial de
los errores es nula. Es decir, los errores no están autocorrelacionados.
La tabla siguiente muestra los valores estimados por el modelo que se ha calculado, los
ei
residuos ei y los residuos estudentizados ri = cuyo significado se comprenderá
s 1 − hii
en el próximo capítulo. Además la tabla dice de cada observación si es un outlier o no,
utilizando el criterio de los tres sigmas, dado anteriormente.
5. ANALISIS DE RESIDUOS:
Tabla 20. Residuos para el modelo del ejemplo 12.1 (Salida ESM)
Observación # 9
________________________________________________________________________
Gráfica 21: Diagrama de dispersión: RESIDUOS VS Variable Indpte VISIT (ESM v8)
La gráfica anterior tampoco muestra patrones ni tendenc ias. Los puntos parecen estar
dispuestos en forma aleatoria, lo que hace presumir que el modelo lineal encontrado es
completo sin que haga falta introducir en él potencias de X diferentes a la unidad.
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 78
La prueba siguiente muestra que los residuos se están ajustando a una distribución
normal.
______________________________________________________________
**** PRUEBA DE AJUSTE A UNA DISTRIBUCION NORMAL ****
(Prueba de Geary)
Número de observaciones: 15
Tabla 24. Prueba de normalidad de los residuos. Modelo del ejemplo 12.1 (Salida ESM)
El objetivo de esta sección es dar a conocer en forma global algunas técnicas para el
diseño y análisis de encuestas, una de las metodologías de análisis estadístico de la
información.
Las encuestas surgen como un medio para recolectar información dentro de un proceso
investigativo. No es el único medio pero sí uno de los más usuales.
Una encuesta no es más que un conjunto estructurado de preguntas, elaboradas con el fin
de indagar sobre valores numéricos (como la edad, el ingreso, etc) o valores cualitativos
(como la opinión sobre algún tópico, la preferencia sobre algún producto, etc). Estas
preguntas se hacen con dos fines principalmente: de una parte estimar valores
poblacionales como la media, el total, la proporción o porcentaje de individuos que tienen
una determinada característica, etc. De otra parte, descubrir relaciones subyacentes en una
población que no son fácilmente detectables con la simple observación. Sin embargo una
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 79
encuesta puede producir otras resultados adicionales como pueden serlo: la estimación
empírica de probabilidades, el conocimiento de distribuciones poblacionales, etc.
El capítulo se divide en dos partes: En la primera de ellas se dará una visión general del
procedimiento a seguir cuando se vaya a diseñar y aplicar una encuesta. En esta parte se
darán conceptos e indicaciones generales de carácter técnico que deben ser tenidas en
cuenta durante la parte previa al análisis de la información. La segunda parte está
dedicada a la aplicación de conceptos básicos de estadística y a la descripción de algunas
de las técnicas más usuales en el análisis de la información que ha sido recolectada a
través de una encuesta.
Por todo lo anterior resulta de gran importancia la definición de un marco teórico que
ayude a explicar la naturaleza e importancia del problema, tema de investigación.
Dicho marco será tanto más creíble cuanto más respaldado esté por el trabajo de otros
investigadores y teóricos. De aquí la importancia de la revisión de literatura
relacionada con el tema y las citas bibliográficas que la respalden.
Los objetivos deben ser propuestos de tal manera que representen metas alcanzables,
cuya conjunción resuelva el problema considerado. Tales objetivos deben ser
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 81
Por las razones anteriores resulta evidente que se debe poner la máxima atención a la
formulación de los objetivos.
4. Determinación de una estrategia metodológica. Este paso constituye algo así como
un plan de batalla que, al ser seguido en todos sus pasos, permite el logro de los
objetivos específicos. La estrategia metodológica debe contemplar el tipo de análisis
estadísticos que deben ser realizados, por tanto el tipo de información que debe ser
tomada y, en consecuencia, el tratamiento de información y el tipo de pruebas que
deben planearse. Por lo anterior, con mucha frecuencia, en los proyectos de
investigación se incluye una unidad llamada metodología estadística.
5. Diseño y prueba del formulario de encuesta. El diseño de una encuesta debe hacerse
solamente después de tener diseñada una metodología ya que la encuesta debe tener
preguntas directamente relacionadas con los objetivos específicos y con los tipos de
pruebas que se hayan diseñado. En el diseño de la encuesta se deben evitar las
preguntas inútiles y superfluas que no aporten nada al logro de los objetivos. Por otra
parte las preguntas deben ser formuladas de tal manera que permitan recopilar la
información necesaria para las pruebas que han sido planeadas y en la forma más
conveniente para que pueda ser utilizada con dichas pruebas. Debemos recordar que
toda pregunta inútil además de encarecer la encuesta y dificultar el análisis no pasa de
ser una impertinencia. Ante un análisis de un cuestionario se debe ser capaz de
responder razonablemente por qué se hizo cada pregunta y si ella juega un papel
importante en el logro de algún objetivo. Si no podemos dar respuesta a ésto, es mejor
eliminar la pregunta.
Las siguientes son algunas recomendaciones de carácter general que deben ser tenidas
en cuenta en el momento de formular las preguntas de una encuesta:
Existen varias formas de elaborar las preguntas. Una de ellas es la formulación simple y
llana de la pregunta con sus opciones de respuesta. En este caso cada alternativa de
respuesta va acompañada de un espacio o casilla donde el encuestado puede señalar la
alternativa con la que esté más de acuerdo. También es posible sintetizar varias preguntas
en algún cuadro que debe ser llenado por el encuestado. Cuando se use esta última técnica
se debe tener prevista la manera de convertir tales cuadros a variables simples. Un
ejemplo puede aclarar la situación.
Supóngase, a manera de ejemplo, que se está averiguando por el máximo nivel educativo
que tiene el personal de varias empresas y que la encuesta es llenada por el jefe de
personal de cada empresa. Puede presentarse un cuadro como el siguiente (corresponde a
una empresa en particular):
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 83
Técnicos Electricistas 2 14 4 0
Personal de Oficina 0 8 12 2
Tabla 25. Información ocupacional en una encuesta
6. Prueba del formulario. Este paso es importante por dos razones: en primer lugar
porque permite detectar inconsistencias en el formulario, tales como preguntas
ambiguas o mal formuladas, términos mal empleados, respuestas inducidas, etc y en
segundo lugar porque permite hacer algunas estimaciones preliminares, necesarias
para el cálculo del tamaño de muestra. La prueba de un formulario se hace a través de
una encuesta preliminar o encuesta piloto, es decir, la encuesta aplicada a un pequeño
número de individuos seleccionados de la población pero que no constituyen la
muestra definitiva. Los formularios, una vez probados y corregidos, quedan listos para
ser aplicados en forma definitiva.
máximo que se esté dispuesto a admitir, los costos de aplicación de los formularios y
el presupuesto disponible, para diseñar la manera como se elige la muestra de
individuos a la que se les aplicarán los cuestionarios. El diseño de la muestra debe
responder a las siguientes preguntas: ¿Cuántos individuos seleccionar? - ¿Dónde
seleccionar esos individuos?- ¿Cómo seleccionar esos individuos? - ¿Cuándo
seleccionarlos? - ¿Cómo proceder ante eventuales dificultades para aplicar el
cuestionario?
El diseño de un plan de muestreo no es tarea fácil y debe ser realizado por un grupo
interdisciplinario con la asesoría de un muestrista (profesional del muestreo).
En los cursos de muestreo se aprenden los aspectos básicos necesarios para el diseño
de una muestra. Remitimos entonces al lector a que consulte algunos de los libros
relacionados en la bibliografía para que conozca tales principios (por ejemplo,
Ospina, 2001), no sin antes recalcar la importancia que juega la selección de una
buena muestra en la confiabilidad y precisión de los resultados de una investigación.
Incluímos al final del capítulo las principales fórmulas para el diseño muestral y la
estimación de parámetros en dos de los tipos de muestreo más frecuentes para el
análisis de encuestas: el muestreo aleatorio simple y el muestreo estratificado.
Las variables de tipo numérico no necesitan ser codificadas. En otras palabras sus
códigos son los mismos valores numéricos que están expresando. Por el contrario las
variables categóricas o nominales se codifican mediante alguno de los dígitos 1, 2,
3,… Algunos programas admiten códigos de dos o más dígitos e incluso código
alfanumérico pero no es lo usual. Los códigos se asignan en forma consecutiva,
comenzando por el 1, a cada una de las alternativas de respuesta de cada variable.
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 85
Supóngase, por ejemplo, que una pregunta como la siguiente, ¿Cuál es su posición
frente a la implantación de peajes dentro de la ciudad? tiene cuatro alternativas
de respuesta que son:
( )1. Totalmente en desacuerdo
( )2. Parcialmente en desacuerdo
( )3. Parcialmente de acuerdo
( )4. Totalmente de acuerdo
Supóngase además que al examinar las respuesta dadas a todos los cuestionarios se
encuentra que de 600 entrevistados, 450 eligieron la opción 1 y 150 la opción 4. En
estas circunstancias, nadie eligió la opción 2 y nadie la opción 3. Una recodificación
de la información lleva a definir solamente dos categorías, acuerdo y desacuerdo, que
se codificarían con los dígitos 1 y 2. En este caso, habría que cambiar todos los
códigos 4 por 2. el programa ESM-Plus permite hacer esta tarea en forma más o
menos automática
Esta encuesta, aunque se basa en datos reales, ha sido adaptada para servir de ejemplo
dentro de esta obra. Por esta razón sólo se presentan seis preguntas de las 27 que contenía
la encuesta original y se presentan las respuestas de 90 estudiantes, seleccionados
aleatoriamente entre los 367 que la contestaron. Las respuestas a la encuesta, ya
codificadas y depuradas, se encuentran en el anexo 5.
Las variables, con sus respectivos rótulos identificadores son las siguientes:
Como se ve, cada variable ha sido identificada con un rótulo de cuatro caracteres cuyo
nombre hace referencia al significado de la variable. Así, por ejemplo, el rótulo PART
hace referencia a la variable "Participación en política". Aunque no es estrictamente
necesario tener definidos estos rótulos en los análisis usuales de conteos de frecuencias, sí
resultan indispensables cuando se usan ciertos paquetes como SPAD para hacer análisis de
correspondencia simple. De todas maneras resulta conveniente tener definidos de
antemano tales rótulos aún para hacer conteos de frecuencias ya que ellos van a facilitar
el uso del software y la interpretación de resultados.
Puede observarse que también se ha definido previamente un rótulo para cada modalidad
de las variables. Así, por ejemplo, las tres modalidades o categorías de la variable ACTI se
identifican mediante los rótulos DEBE, YAPA y NDEB. El uso de estos rótulos resulta
obligatorio cuando se aplica análisis de correspondencia múltiple con SPAD
En el análisis de una encuesta pueden caber todas las técnicas estadísticas mencionadas
en este libro y otras muchas que no se han considerado dado el carácter introductorio de
la obra. Los únicos requisitos para ello son: que tales técnicas sean acordes con el tipo de
variable y que sean apropiadas para lograr el objetivo que se ha propuesto. En otras
palabras: si las variables son categóricas no tendrán sentido operaciones propias de las
variables numéricas. Por ejemplo, no tiene sentido un promedio ni el cálculo de una
varianza aunque las variables se codifiquen numéricamente. Recíprocamente, si la
variable es numérica no tendría sentido, por ejemplo, elaborar conteos de frecuencias ni
cruces de variables. Se debe anotar sin embargo, que en ciertos casos de variables
categóricas ordinales se puede asignar un código numérico acorde con el orden de cada
categoría y tratar tales variables con técnicas propias de las variables numéricas. Por
ejemplo, Everitt y Graham (1991 sesión 4.8, pag 51) aplican técnicas de componentes
principales a 13 variables calificadas de 1 a 5 según la frecuencia con que fueron usadas.
Igualmente la literatura estadística está llena de casos en los cuales se aplican técnicas
numéricas a calificaciones del rendimiento escolar que, en últimas, no son más que
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 88
categorías de orden a las que se les hace concordar con un valor numérico, usualmente
entre 1 y 5 o entre 1 y 10. Las escalas likert y las escalas bipolares de Guttman en esencia
no son más que mecanismos para asignar una calificación numérica a una variable que
por su naturaleza es categórica ya que mide la actitud del individuo ante algo.
Recíprocamente, el mecanismo más expedito para tratar una variable numérica como si
fuera categórica es la "categorización" por rangos, ya aplicada en la variable EDAD del
ejemplo propuesto en la sesión anterior. Consiste en reemplazar por un código 1, 2, 3, ...
etc cada uno de los valores que se encuentren dentro de un rango previamente definido.
Muchas veces resulta necesario operar diferentes variables numéricas para formar con
ellas nuevas variables, principalmente índices que midan un concepto más abstracto. Por
ejemplo, se desea mediar la calidad de la educación Este concepto abstracto y difícil de
medir se puede desglosar en varios conceptos más concretos y medibles, por ejemplo,
nivel de capacitación de los docentes, existencia de bibliotecas y ayudas audiovisuales,
programas actualizados, tiempo adecuado para cada actividad, etc. Estas nuevas variables
se pueden medir y combinar sus valores para producir un índice especial que mida la
calidad de la educación.
Las variables numéricas pueden ser sometidas a técnicas de estimación con lo cual es
posible estimar parámetros poblacionales, también pueden ser utilizadas para encontrar
relaciones y características poblacionales subyacentes que no son detectables a simple
vista, en ello es especialmente útil el EDA. Pueden ser usadas en combinación con
variables categóricas para comparar y clasificar grupos de individuos, representantes de
diferentes poblaciones, etc.
Las variables categóricas pueden ser usadas como ya se ha dicho, para hacer conteos de
frecuencias, pruebas de asociación, y aún para describir grupos de individuos, relaciones
de asociación entre variables y entre categorías (análisis de correspondencia) y para
clasificar grupos de individuos.
Una técnica estadística muy útil en el análisis de las encuestas de opinión que tienen
preguntas correspondientes a variables categóricas es el análisis de correspondencia que
busca medir y visualizar la asociación entre las variables y entre sus modalidades. En la
segunda parte del libro (sección 11.9) se hacen algunas consideraciones acerca de este
tipo de análisis.
VARIABLE: PART
Modalidad: Numero: Porcentaje:
____________________________________
MUY 32 35.56
POCO 42 46.67
NADA 16 17.78
____________________________________
TOTAL: 90 100.00 %
VARIABLE: ACTV
Modalidad: Numero: Porcentaje:
____________________________________
TODS 68 75.56
UNIV 13 14.44
SOPO 9 10.00
____________________________________
TOTAL: 90 100.00 %
VARIABLE: ACTI
Modalidad: Numero: Porcentaje:
____________________________________
DEBE 56 62.22
YAPA 30 33.33
NDEB 4 4.44
____________________________________
TOTAL: 90 100.00 %
VARIABLE: VIOL
Modalidad: Numero: Porcentaje:
____________________________________
JUVI 14 15.56
ERRV 71 78.89
NOPI 5 5.56
____________________________________
TOTAL: 90 100.00 %
VARIABLE: EDAD
Modalidad: Numero: Porcentaje:
____________________________________
ME20 49 54.44
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 90
2025 35 38.89
MA25 6 6.67
____________________________________
TOTAL: 90 100.00 %
VARIABLE: SEXO
Modalidad: Numero: Porcentaje:
____________________________________
MASC 53 58.89
FEME 37 41.11
____________________________________
TOTAL: 90 100.00 %
10%
14%
TODS
UNIV
SOPO
76%
Algunos de los cruces de variables que pueden hacerse, principalmente contra EDAD y
SEXO que son variables ilustrativas en el sentido de que determinan un contexto dentro
del cual se examinan las demás variables, se dan en la tabla 10.2. Para la comprensión
total de esta tabla remitimos al lector al capítulo 6.
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 91
POCO 23 18 1 42
22.87 16.33 2.80
25.56 20.00 1.11 46.67
NADA 12 4 0 16
8.71 6.22 1.07
13.33 4.44 0.00 17.78
_____________________________________________
TOTAL: 49 35 6 90
% : 54.44 38.89 6.67 %100
Tabla 26. Tabla de contingencia y prueba de independencia entre dos variables de una encuesta
Como se ve, por el valor P, existe un cierto grado de dependencia entre estas dos
variables. Es decir la modalidad de participación en política está determinada por la edad.
Cabe preguntarse entonces ¿Cuál modalidad de participación esta asociada con cada nivel
de edad?
Otras tablas de contingencia entre otras variables y sus respectivos estadísticos para
probar independencia se dan en las siguientes salidas de ESM-Plus:
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 92
UNIV 7 6 0 13
7.08 5.06 0.87
7.78 6.67 0.00 14.44
SOPO 4 4 1 9
4.90 3.50 0.60
4.44 4.44 1.11 10.00
_____________________________________________
TOTAL: 49 35 6 90
% : 54.44 38.89 6.67 %100
JI-CUADRADO (Indepcia): 1.7001 con 4 GL
Valor P: 0.79069610
Coef. Contingencia (C): 0.13616160
(Máximo posible) C Max: 0.81649658
(Valor real) C real: 0.40836653
V de Cramer: 9.71E-002
ERRV 41 25 5 71
38.66 27.61 4.73
45.56 27.78 5.56 78.89
NOPI 2 3 0 5
2.72 1.94 0.33
2.22 3.33 0.00 5.56
_____________________________________________
TOTAL: 49 35 6 90
% : 54.44 38.89 6.67 %100
POCO 20 22 42
24.73 17.27
22.22 24.44 46.67
NADA 10 6 16
9.42 6.58
11.11 6.67 17.78
____________________________________
TOTAL: 53 37 90
% : 58.89 41.11 %100
ERRV 40 31 71
41.81 29.19
44.44 34.44 78.89
NOPI 3 2 5
2.94 2.06
3.33 2.22 5.56
____________________________________
TOTAL: 53 37 90
% : 58.89 41.11 %100
En este caso, se puede observar una fuerte asociación entre SEXO y VIOL, al igual que
entre SEXO y ACTL ya que los ángulos que forman las rectas que unen estos puntos con el
origen son muy agudos o casi llanos y, por tanto, tienen un valor de coseno muy alto.
Igual sucede con EDAD y PART .
Los dos mapas anteriores constituyen representaciones visuales planas de las variables y
sus modalidades. Las técnicas factoriales, propias del análisis estadístico multivariado son
las herramientas adecuadas para producir este tipo de representación. Ellas lo gran
proyectar las variables y modalidades, considerados como vectores de un espacio
multidimensional euclídeo, sobre un plano en el cual se logra la mejor representación,
llamado plano factorial. Los ejes F1 y F2 son los ejes coordenados de dicho plano y son
tales que sobre ellos las variables logran proyectar su máxima inercia (variabilidad).
Podrían hacerse representaciones tridimensionales en vez de las planas aquí mostradas
pero esto complica un poco la interpretación de resultados.
Este tipo de mapas pone de manifiesto relaciones entre las variables, las modalidades y
los individuos que, de otra manera, resultan difíciles de detectar.
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 96
La versión 1.0 de SPAD para DOS corresponde al código Fortran publicado en el texto de
Lebart, Morineau y Warwick, arreglado por Bautista y Ramos, y, aunque no es intuitivo
en su manejo, constituye una excelente alternativa para trabajar, dado su carácter público.
Otro problema estadístico de gran importancia es aquel que busca comparar dos medias
poblacionales a partir de sendas muestras aleatorias tomadas de las respectivas
poblaciones. En este caso, si µ1 y µ2 son las respectivas medias poblacionales se busca
determinar si ellas son iguales o no, y, en este último caso, averiguar cuál de ellas es
menor que la otra, en el sentido de que se sitúe a una distancia significativa por debajo de
aquella
Analizaremos por separado estos dos problemas de comparación de dos medias, ya que
sus tratamientos son diferentes desde el punto de vista estadístico.
Puesto que las variables originales (poblaciones) son normales, se cumple que las medias
se distribuyen de acuerdo con lo siguiente:
1 1 2
X ~ N ( µ1 , σ 12 ) y Y ~ N (µ2 , σ2)
n m
( X − Y ) − ( µ1 − µ 2 )
De lo anterior, estandarizando, Z= tiene distribución normal
1 2 1 2
σ1 + σ 2
n m
estándar.
1 2 1 2
( x − y ) m zα σ1 + σ 2
2 n m
intervalo que, no solamente permite estimar la diferencia de las medias, sino que nos
permite hacer pruebas de hipótesis acerca de dicha diferencia.
s12
Para resolver el segundo caso, debemos recordar que U = (n − 1) ~ χ n2−1 y que,
σ12
s22
similarmente V = ( m − 1) ~ χ m2 −1 lo que implica W = U + V ~ χ n2+m −2 . de donde se
σ22
Z
deduce que la variable aleatoria T = tiene distribución t con n + m − 2
W
n + m −2
grados de libertad.
Puesto que se puede asumir que las dos varianzas son iguales digamos a σ 2 , se tiene que
( X − Y ) − (µ1 − µ 2 )
T= tiene distribución t con n + m − 2 grados de
1 1 ( n − 1) s12 + ( m − 1) s 22
+
n m n + m −2
libertad.
1 1
( x − y ) m t n+ m− 2,α + sp
2 n m
( n − 1) s12 + ( m − 1) s 22
donde s 2p = , expresión que se conoce como varianza pool o
n + m− 2
varianza combinada y que es un promedio ponderado por los tamaños de las muestras de
las dos varianzas muestrales.
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 99
Por último, el tercer caso: cuando las varianzas son diferentes y desconocidas la
comparación se hace mediante un estadístico aproximado, debido a Smith y
Satterthwaite, el cual está dado por:
( X − Y ) − (µ1 − µ2 )
T′ =
s12 s22
+
n m
2
s1 s2
+
ν = n m
2 2
s1 s 2
n + m
n −1 m −1
U
la variable aleatoria F =
(n − 1) tiene distribución F con n − 1 y m − 1 grados de
V
(m − 1)
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 100
s12
libertad. Bajo la hipótesis nula de que las dos varianzas son iguales se tendrá F = 2 y,
s2
en consecuencia, el no cumplimiento de la hipótesis nula se traducirá en un estadístico
alto bajo la distribución Fn−1, m−1 o, lo que es equivalente, en un pequeño valor P, criterio
que se aprovecha para probar la hipótesis de homogeneidad de las varianzas. Con el fin de
hacer más expedita ante la falta de simetría de la distribución F, se prefiere utilizar el
cociente (razón) de las varianzas de tal manera que siempre resulte mayor o igual a la
unidad. De esta manera la prueba se convierte en una prueba de una sola cola. Es por esta
Max{s12 , s22 }
razón que se prefiere calcular F = , expresión que tendrá distribución F
Min {s12 , s 22 }
con los grados de libertad acordes a las varianzas que hayan quedado en el numerador y
en denominador, respectivamente. La decisión se toma de acuerdo con el valor P.
ESM realiza la prueba de razón de varianzas en el momento de comparar dos medias con
muestras independientes para que, de acuerdo con ella, se decida si hace bajo este
supuesto o por el método aproximado de Smith- Satterthwaite. Para ello es necesario
tener los datos correspondientes a las dos muestras en archivo. Si el número de
observaciones de cada muestra es el mismo, los datos pueden encontrarse en el mismo
archivo o en archivos diferentes. Si el número de observaciones en cada muestra es
diferente resulta obligatorio tener los datos en archivos distintos.
Como se deduce lo anterior, el supuesto fundamental para poder comparar dos medias
independientes es que las muestras respectivas sean normales. Cuando este supuesto no se
cumple o cuando los tamaños de muestra son muy pequeños, se pierde confianza en las
estimaciones y, por consiguiente, se podrían tomar decisiones erróneas. Es por esta razón
que ante esta situación, se prefiere reforzar el análisis con una prueba no paramétrica que
sea análoga. Existen dos de tales pruebas -que en el fondo son equivalentes- y que
podrían ser usadas para tales fines. Son las pruebas de suma de rangos, debida a
Wilcoxon, y la prueba de Mann y Whitney. Expondremos aquí la primera de ellas que
es realizada por ESM pero conviene saber que Minitab realiza la prueba de Mann y
Whitney si se usa el comando MANN- WHITNEY.
Para poder aplicar a mano la prueba de Wilcoxon se necesita previamente calcular los
rangos de las observaciones de una muestra. Definiremos entonces qué se entiende por
rango. Supóngase que se tienen n observaciones numéricas ordenadas en orden
creciente, digamos, x1 , x2 ,L, x n . Se define el rango de x i , denotado r ( x i ) , como el
número de orden correspondiente a x i dentro de la ordenación anterior. En caso de que
haya repeticiones de un elemento en la lista anterior, el rango del elemento repetido se
define como el promedio de los rangos de sus repeticiones.
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 101
Por ejemplo, dada la serie de valores 20, 12, 14, 15, 14, 12, 23, 12, 10, 11, 16, 18, 16,
estos valores se pueden ordenar en forma creciente, obteniendo 10, 11, 12, 12, 12, 14, 14,
15, 16, 16, 18, 20, 23. Al asignar el puesto de orden se obtiene, por ejemplo, r(10)=1,
r(11) = 2, r(12) = (3+4+5)/3 = 4, r(16) = (9+10)/2 = 9.5, r(23) = 13
En Minitab pueden obtenerse los rangos de los datos almacenados en una columna C
mediante el comando RANK C C (Ejemplo RANK C1 C2)
Puede suceder que se tengan dos muestras de valores observados sobre los mismos
individuos en diferentes instantes o sobre diferentes individuos pero muy semejantes
(gemelos, por ejemplo) en cuyo caso los valores de las muestras se presentan por pares.
Decimos entonces que las muestras son pareadas. El objetivo en este caso es comparar las
medias generales de los valores ANTES con los valores DESPUES, o de un grupo de
individuos con el otro grupo que le es homogéneo.
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 102
En este caso las dos muestras tienen el mismo número de observaciones, digamos n.
Podemos suponer que tales observaciones se representan por ( xi , yi ), i = 1,2,L, n ,
valores que pueden considerarse como observaciones particulares de las variables
aleatorias X , Y Se puede construir Z = X − Y , variable que podría tener distribución
normal o no. En cualquier caso puede aplicarse la teoría expuesta anteriormente para el
caso de comparación de una media y probar la hipótesis de que µ Z = 0 contra alguna de
las alternativas µ Z < 0 , µ Z ≠ 0 , µ Z > 0 . Puesto que µ Z = µ X − µ Y , lo anterior
equivale a probar la hipótesis µ X = µ Y contra las tres alternativas clásicas, ya conocidas.
De esta manera el problema ha sido reducido a otro ya conocido. Como se deduce, en este
caso resulta esencial verificar la normalidad de las diferencias x i − y i o, al menos, poseer
muestras grandes. Los intervalos de confianza para la diferencia µ X − µY constituyen
una excelente herramienta para probar la hipótesis que nos interesa ya que si el 0
pertenece a dicho intervalo, no habrá diferencia significativa entre las medias y si el 0 se
encuentra a fuera del intervalo de confianza las correspondientes medias poblacionales
serán diferentes, concluyéndose que µ X − µ Y > 0 , es decir, µ X > µY , cuando 0 está a la
izquierda del intervalo y que µ X − µY < 0 cuando 0 está a la derecha de dicho intervalo.
ESM hace esta prueba cuando los datos correspondientes a las dos muestras se tienen en
archivo. En este caso, debido a que los tamaños de muestra son iguales, dichos datos
pueden estar en el mismo archivo o en archivos diferentes.
Cuando no se cumplen los supuestos para poder realizar la prueba anterior o cuando las
muestras son demasiado pequeñas, se puede hacer una prueba no paramétrica, llamada
prueba de rangos signados de Wilcoxon
Cuando n sea un valor grande puede usarse aproximación normal, teniendo en cuenta que
n( n + 1) n( n + 1)( 2 n + 1)
E(T+ ) = y que V(T+ ) =
4 24
Minitab realiza esta prueba si se tienen los datos en dos columnas, digamos C1 y C2,
mediante los siguientes comandos:
a. En primer lugar se calculan las diferencias. LET C3=C1-C2
b. En segundo lugar se hace prueba de signos sobre C3 (STEST 0 C3)
P1Q1 P2Q2 PQ P Q
( Pˆ1 − Pˆ2 − z α / 2 + , Pˆ1 − Pˆ2 + zα / 2 1 1 + 2 2 )
n m n m
Como antes, habrá dos casos de comparaciones de medias; uno, cuando las muestras que
se toman son independientes y otro cuando dichas muestras son dependientes o ligadas.
Comúnmente estos dos casos son conocidos como diseños de una vía y de dos vías
respectivamente. Los respectivos análisis no-paramétricos se conocen como prueba de
Kruskall-Wallis y prueba de Friedman.
Este tema forma parte del diseño de experimentos, una de las ramas más difundidas y
conocidas de la estadística, ya que comúnmente se utiliza como herramienta de
investigación para comparar los efectos producidos por diferentes tratamientos. Un
experimento diseñado es un experimento que ha sido organizado de modo que se
acomode a un modelo teórico que proporciona herramientas de comparación y validación
de supuestos. En particular los experimentos teóricos a los que se ajustan los análisis
propuestos en esta unidad son experimentos de un solo factor (causa) en el que se han
seleccionado varios niveles para observar los resultados (efectos) producidos y
compararlos a fin de determinar cuál o cuáles de dichos efectos es mayor –o menor-.
Q = ( n − k ) Log 10 ( S 2p ) − ∑ ( n j − 1) Log 10 ( S 2j )
Q
B = 2.3026 donde
C
1 k −1
∑ ( n j −1) − ( n − k )
−1
C = 1+
3(k − 1) j =1
k
1
S p2 =
n− k
∑ (n
j =1
j −1) S 2j
Se puede probar que SCB ~ χ k −1 , SCW ~ χ k ( n−1) y, de aquí, SCT tiene distribución Ji-
cuadrado con n − 1 grados de libertad
Si las sumas de cuadrados anteriores se dividen entre los grados de libertad se obtienen
los cuadrados medios, CMB y CMW respectivamente, los cuales realmente representan
varianzas y para los que se cumple:
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 107
k
ni
E(CMB ) = σ + ∑ ( µi − µ ) E(CMW ) = σ 2
2 2
y
i =1 k −1
Como se desprende de las expresiones anteriores, cuando las medias de los tratamientos
son iguales entre sí e iguales a la media general, se cumple que
E(CMB) = E(CMW ) = σ 2 . Y, por tanto, en tales circunstancias, tanto CMB como CMW
SCB
son estimadores insesgados de la varianza. Además F =
CMB
= k −1 es una
CMW SCW
k ( n −1)
variable aleatoria con distribución F de k − 1 y k ( n − 1) grados de libertad.
Cuando se rechace la hipótesis nula, se concluye que no todas las medias poblacionales
son iguales y, en consecuencia, habrá alguna(s) más pequeña(s) que las demás y alguna(s)
mayor(es) que todas las demás, resultando de interés el compararlas entre sí con el fin de
ordenarlas de menor a mayor para, de esta manera, poder decir cuál es el peor y cuál el
mejor tratamiento. Este proceso de comparación se conoce con el nombre de
comparaciones múltiples y puede realizarse de varias formas, como se muestra más
adelante.
Es conveniente saber que tanto las medias por tratamiento como las diferencias de medias
pueden estimarse de acuerdo con las siguientes fórmulas:
Ti s2
1. Intervalos para la media de cada tratamiento: m t n −k ,α
ni 2 ni
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 108
T T 1 1
2. Intervalos para diferencias de medias: i − j m t n− k ,α s +
n n ni n j
i j
2
Error o
DENTRO SCW k ( n − 1) CMW = SCW
k (n − 1)
TOTAL SCT n −1
Tabla 27. Tabla de un análisis de varianza para un diseño aleatorio completo
Ejemplo 14.3. Este ejemplo ha sido tomado del texto de Kuehl y se basa en datos de B.
Nichols (Universidad de Arizona 1980). Es un ejemplo interesante debido a los
elementos tanto teóricos como prácticos que involucra. Se trata de comparar cuatro
métodos de empaque de carnes para determinar cuál de ellos es más efectivo. Los
métodos de empaque (tratamientos) son los siguientes:
Tr1: Envoltura en papel plástico especial
Tr2: Empaque en bolsas selladas al vacío
Tr3: Empaque en atmósfera de CO2 (1%), O2 (40%) y N (59%)
Tr4: Empaque en atmósfera de CO2 (100%)
Para medir el efecto del empaque, se contabiliza el número de bacterias psicotrópicas por
centímetro cuadrado en la superficie de la carne empacada, al cabo de nueve días de
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 109
Los datos correspondientes a las mediciones de contaminación por bacterias son los
siguientes:
Con el fin de poder analizar los datos mediante software estadístico (ESM en este caso),
los datos deben ser dispuestos en un archivo en la forma siguiente:
7.66 1
6.98 1
7.80 1
5.26 2
5.44 2
5.80 2
7.41 3
7.33 3
7.04 3
3.51 4
2.91 4
3.66 4
Este archivo contiene los valores observados de la variable respuesta más un rótulo que
identifica el tratamiento correspondiente. Esta última columna conforma la variable
independiente o de tratamientos.
La tabla anova junto con el valor P de probabilidad para la hipótesis nula es la siguiente:
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 110
----------------------------------------------------------------------------
FUENTE: SUM.CUADR GL CUADR.MEDIO F
----------------------------------------------------------------------------
Modelo 32.8728 3 10.9576 94.5844
Error 0.9268 8 0.1158 *****
Total 33.7996 11 ***** *****
---------------------------------------------------------------------------
R2 = .972579 F tiene 3 y 8 Grados de libertad
Valor P de probabilidad: 0.00003000
Tabla 29. Resultado del análisis de varianza del ejemplo 14.3
Antes de entrar a comparar las diferentes medias de tratamientos debemos verificar que se
cumplan las hipótesis básicas del modelo: homogeneidad de las varianzas y normalidad
de los residuos.
B = 1.207904
P = 0.75110913
Tabla 30. Prueba de homogeneidad de varianza del ejemplo 14.3
xij = µ + (µ i − µ ) +( xij − µ i )
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 111
Tabla 31. Estimación de intervalos para las medias de tratamientos. Ejemplo 14.3
Este cuadro proporciona los valores estimados de las medias por tratamiento, junto con
los errores estándar y el intervalo del 95% de confianza para cada caso.
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 112
0.52884023
-1.46900064
0.94016041
-0.70512031
-0.17628008
0.88140038
0.44070019
0.20566009
-0.64636028
0.44070019
-1.32210058
0.88140038
Sobre estos valores debe realizarse una prueba de normalidad. En nuestro caso, la prueba
de Geary arroja los siguientes resultados:
Número de observaciones: 12
El valor P de 0.17204, al ser mayor que el nivel de significancia 0.05, no nos permite
rechazar la hipótesis nula. En consecuencia, los residuos se ajustan a una distribución
normal y entonces, el modelo cumple con los supuestos básicos para una correcta toma de
decisiones.
Entraremos ahora sí a realizar comparaciones múltiples entre las medias de los diferentes
tratamientos. Estas comparaciones, como se dijo anteriormente, permiten comparar dos a
dos las diferentes medias poblacionales de los tratamientos para determinar cuáles de
ellos producen efectos similares (es decir, no difieren) y cuáles producen efectos
significativamente distintos. Lo anterior permite, entre otras cosas, decir cuál tratamiento
es el peor y cuál es el mejor.
Una primera herramienta muy popular para realizar estas comparaciones la constituyen
los intervalos de confianza para las medias obtenidos anteriormente. Cuando dos
intervalos se intersecan las medias de los respectivos tratamientos no difieren
significativamente. Por el contrario, intervalos disjuntos corresponden a medias que
difieren significativamente; y será mayor la media correspondiente al intervalo situado
más a la derecha.
En el ejemplo que estamos presentando los intervalos para las medias de los tratamientos
son respectivamente:
Una gráfica aproximada de los intervalos del 95% de confianza para las medias de los
tratamientos es la siguiente:
En ella puede observarse que los intervalos correspondientes a los tratamientos Tr1 y Tr3
son intersecantes lo que significa que entre ellos no hay diferencias significativas. Por
otra parte a ellos corresponden los intervalos situados más a la derecha lo que significa
que sus medias son las de mayor valor. Es decir, en este caso corresponden a los métodos
de empaque menos efectivos. Se puede observar que la menor media corresponde al
tratamiento Tr4, el cual difiere significativamente de los demás. Este es el tratamiento que
produce mejores resultados. Es decir, de acuerdo con este método de comparación, el
mejor sistema de empaque es una atmósfera al 100% de CO2. Los peores métodos de
empaque son envolturas en plástico y empaque en atmósfera CO2+O2+N que
prácticamente no presentan diferencias. El empaque al vacío presenta una efectividad
intermedia.
1 1
LSD( i, j ) = tn− k ,α s +
2 ni n j
Se rechaza H0: µ i = µ j siempre que LSD( i, j ) <| xi − x j | . En otras palabras dos medias
difieren significativamente cuando la diferencia en valor absoluto de las respectivas
medias muestrales es mayor que la correspondiente LSD.
Este método de comparación es muy simple pero tiene la desventaja de que exige
numerosos cálculos ya que se deben realizar k(k -1)/2 comparaciones de medias. En el
ejemplo que venimos presentando se requieren 6 comparaciones. ESM realiza los
diferentes cálculos como se ve a continuación (en este caso el archivo de salida se ha
editado para dejar solamente los LSD correspondientes al 5% de significancia):
Como puede observarse los resultados coinciden con lo calculado anteriormente aunque
es menos evidente la interpretación.
s2 1 1
xi − xj + qk , ν , α DHS(k ,α E ) donde DHS( k , α E ) = + y qk , ν , α es un
2 ni n j
valor que depende del nivel mínimo de significancia α E , de los grados de libertad ?
correspondientes al error cuadrático medio s, y del número de tratamientos k. Este
valor se busca en una tabla (ver anexo 2). De acuerdo con lo anterior, las medias de dos
tratamientos difieren significativamente cuando el valor absoluto de la diferencia de sus
medias muestrales es mayor que qk , ν , α DHS( k , α E ) .
0.116 2
qk , ν , α = q4, 8, 0.05 = 4.53 , DHS( k , α E ) = 4.53 = 0.8907
2 3
En consecuencia:
14.6.3 Contrastes
k
Se define un contraste C como cualquier combinación lineal C = ∑ α i µi donde los
i =1
k
escalares α i satisfacen ∑α i =0.
i =1
Por ejemplo, en el caso de empaques de carnes, si quisiéramos comparar los efectos del
empaque plástico frente a ol s de los demás tratamientos, un contraste adecuado sería:
1
C1 = µ1 − ( µ 2 + µ 3 + µ 4 ) . Igualmente el contraste que permite comparar el empaque al
3
1
vacío frente a los empaques con gases sería: C2 = µ 2 − (µ 3 + µ 4 ) y el que permite
2
comparar el empaque en una atmósfera, mezcla de gases, frente al empaque con CO2
puro, sería C3 = µ3 − µ2 . Los dos primeros contrastes de estos ejemplos también pueden
escribirse como C1 = 3µ1 − 1µ2 − 1µ3 − 1µ4 y C2 = 0µ1 + 2µ2 − 1µ3 − 1µ 4 . De igual
manera C3 = 0 µ1 + 0 µ2 + 1µ3 − 1µ4
CM Contraste
∑α x i i
El estadístico de prueba está dado por FC = donde CM Contraste = i =1
y
k
αi
∑
CM Error
i =1 ni
k
La estimación de un contraste, como era de esperarse, está dada por Cˆ = ∑ α i xi . Su
i =1
k
αi
varianza es V( C) = s 2 ∑ lo que permite construir intervalos de confianza para el
i =1 ni
Una expresión interesante, como se verá luego, es la suma de cuadrados del contraste,
2
k
∑ α i xi
dada por SS(C ) = i=k1 .
∑ niα i
i =1
En el ejemplo de las carnes que hemos estado analizando, los tres contrastes presentados
anteriormente, junto con sus estadísticos de prueba y los correspondientes valores P, se
resumen en la siguiente tabla:
C2 0 2 -1 -1 0.6034 0.4608
C3 0 0 1 -1 196.72 0.0000
Nótese que el valor P, demasiado pequeño, nos lleva al rechazo de la hipótesis nula de
que este contraste vale cero. Esto se confirma al observar los intervalos de confianza. En
particular, el intervalo del 95% de confianza, situado a la derecha del cero, muestra que el
contraste es positivo. Esto es: C3 > 0 . De aquí se deduce que µ3 > µ 4 . Es decir, el
promedio de bacterias en la carne al empacar en una atmósfera que es mezcla de gases, es
mayor que el promedio de bacterias al empacar en una atmósfera de CO2 puro.
VALOR P: 0.000020
Tabla 38. Estimación y significancia de un contraste (ejemplo 14.3) con ESM v8.0
Los contrastes ortogonales son interesantes entre otras cosas porque sus sumas de
cuadrados proporcionan una descomposición de la suma de cuadrados de los tratamientos.
Por ejemplo, las sumas de cuadrados de los tres contrastes ortogonales dados
anteriormente para el ejemplo 5.1 son respectivamente: 9.9856, 0.0722 y 22.8150,
valores cuya suma es 32.8728, exactamente el valor de la suma de cuadrados de
tratamientos (modelo) arrojado por la tabla anova.
Las observaciones de las diferentes muestras se reúnen en una sola gran muestra, dentro
de la cual se asignan rangos que luego se separan dentro de cada tratamiento según a
donde pertenezca la respectiva observación. De esta manera se pueden obtener las sumas
de rangos por tratamiento T j para j = 1,2,3L k , como se muestra en la tabla siguiente:
T1 T2 ... Tk
Tabla 39. Transformación de rangos para una prueba de Kruskall y Wallis
12 k T j
2 k
H = ∑ − 3(n + 1) donde n = ∑nj
n( n + 1) j =1 n j j =1
Se debe tener en cuenta, sin embargo, que la técnica no paramétrica aquí mencionada no
proporciona herramientas de comparaciones múltiples. En caso de rechazo de la hipótesis
nula, tales pruebas se hacen con base en los intervalos de confianza para las medias o para
las diferencias de medias lo que implica que también debe realizarse tales cálculos
paramétricos tal y como fueron expuestos anteriormente.
El problema se analiza proponiendo como hipótesis nula que estas temperaturas sí son
iguales y luego se decidirá si se rechaza o no esta hipótesis. En ESM se obtiene la salida
que se presenta en la página siguiente.
Como puede apreciarse en dicha salida, el análisis dice que no existen diferencias entre
las temperaturas de los diferentes tipos de terreno. Sin embargo esta conclusión es dudosa
ya que no se cumplen los supuestos para que el análisis de varianza sea confiable: No se
puede garantizar la homogeneidad de las varianzas en los tres grupos y los residuos del
modelo no son normales. Este es un ejemplo que debiera ser analizado además mediante
el método no paramétrico que se expondrá más adelante.
TABLA ANOVA:
----------------------------------------------------------------------------
FUENTE: SUM.CUADR GL CUADR.MEDIO F
----------------------------------------------------------------------------
Modelo 15.0790 2 7.5395 0.3495
Error 3171.1944 147 21.5728 *****
Total 3186.2733 149 ***** *****
---------------------------------------------------------------------------
R2 = 4.732E-003 F tiene 2 y 147 Grados de libertad
Valor P de probabilidad: 0.71089000
Valor exacto del CME = 21.57275085940558
____________________________________________________________________
PRUEBAS DE NORMALIDAD E IGUALDAD DE VARIANZA
TABLA ANOVA:
---------------------------------------------------------------------------
FUENTE: SUM.CUADR GL CUADR.MEDIO F
---------------------------------------------------------------------------
Modelo 0.2399 2 0.1200 2.5155
Error 7.0105 147 0.0477 *****
Total 7.2505 149 ***** *****
---------------------------------------------------------------------------
R2 = 3.3091E-002 F tiene 2 y 147 Grados de libertad
Valor P de probabilidad: 0.08232000
Valor exacto del CME = 4.769077018326961E-002
B = 0.734351
P = 0.69268793
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 124
Como se ve, en este caso se cumplen los supuestos y además se concluye que el terreno
con mayor índice de hembras es el terreno plano, cuyas diferencia con el quebrado no es
significativa.
T2
La correspondiente tabla ANOVA tiene el aspecto que muestra la tabla 41, donde C =
kb
(valor que se conoce como corrección por la media) y donde T*i , i = 1,2,..., b son los
totales marginales para los bloques (por filas); T j*, j =1, 2,..., k son los totales marginales para
los tratamientos (por columnas)
Como puede apreciarse, en este caso aparecen dos valores de F, uno para tratamientos
(Ft) y el otro para bloques (Fb). Se pueden probar dos hipótesis, a saber:
En primer lugar la hipótesis nula de que no hay diferencias significativas entre la medias
de los tratamientos, es decir: H0: µ 1 = µ 2 = L = µ k , hipótesis que se prueba contra la
alternativa de que no todas las medias son iguales. Esta hipótesis se prueba con la F de
tratamientos (Ft) que tiene distribución con k − 1 y ( k − 1)( b − 1) grados de libertad. El
rechazo de esta hipótesis obliga a realizar comparaciones múltiples para determinar el
orden de las medias y de esta manera averiguar cuál es el mejor tratamiento (o el peor) y
cuales no difieren entre sí. El criterio LSD sigue siendo el mejor en este caso.
En segundo lugar, se puede probar la hipótesis de que no hay diferencias entre las medias
de los bloques. Esta se prueba con la F de bloques (Fb) que tiene b −1 y ( k − 1)( b − 1)
grados de libertad. Sin embargo esta hipótesis es secundaria ya que si el experimento ha
sido bien diseñado, tales medias por principio deben ser diferentes.
ESM realiza la prueba anterior junto con los cálculos necesarios para aplicar los criterios
LSD y comparaciones múltiples mediante intervalos de confianza, para lo cual es
necesario que los datos se encuentren en una única columna y que existan dos columnas
adicionales de tipo categórico, con códigos numéricos, que identifiquen el tratamiento y
el bloque al que pertenece cada observación.
El cuadrado medio esperado para tratamientos en un diseño de dos vías está dado por la
b k
expresión E(CMTr) = σ 2 + ∑
k − 1 i=1
( µ i − µ ) , lo que prueba que bajo la hipótesis nula de
2
que las medias de tratamientos son iguales, el cuadrado medio de tratamientos es una
estimación de la varianza y puede aplicarse el argumento presentado en el diseño de una
vía para determinar por qué la prueba F permite decidir si se cumple o no la igualdad de
medias en los tratamientos.
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 127
k b
b (k − 1) CMB
Si designamos por c = , la expresión ER = (1 − c) + c es conocida como
bk − 1 CME
eficiencia relativa y mide la eficiencia que presenta el diseño de dos vías sobre el diseño
de una vía. El diseño de dos vías es más eficiente que el de una vía siempre que ER > 1 .
Cuando no sean aplicables los procedimientos anteriores bién sea porque se violan los
supuestos de normalidad o porque los tamaños de muestra son extremadamente pequeños,
es posible recurrir a la prueba no paramétrica de Friedman que es el correspondiente
sustituto para el ANOVA de los diseños de dos vías. Sin embargo se debe tener presente
que esta prueba por lo general tiene menos potencia que la prueba paramétrica y en
consecuencia es posible que muestre no diferencias de medias entre tratamientos cuando
realmente estos sí difieran.
Para la prueba de Friedman se asignan rangos a las observaciones de cada bloque (fila por
fila) y luego se suman los rangos correspondientes a cada tratamiento. De esta manera se
obtienen k sumas de rangos T1 , T 2 , T3 L , Tk con los cuales se construye el siguiente
estadístico de prueba;
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 128
12 k 2
S= ∑ T − 3b( k + 1)
bk ( k + 1) j =1 j
Friedman demostró que bajo la hipótesis nula de no diferencias entre las medias de
tratamientos, este estadístico tiene distribución asintótica Ji-cuadrado con k − 1 grados
de libertad. En consecuencia, un valor grande de S, es decir un pequeño valor P bajo esta
distribución, indica que la hipótesis nula es falsa y que, por tanto, debe ser rechazada.
De acuerdo con lo anterior se puede afirmar que un experimento diseñado puede ser
estudiado como un caso de superficies (o curvas) de respuesta, tambíén podría
corresponder al estudio de modelos lineales generales e incluso podría corresponder a
casos de modelos no lineales (cuando la función de enlace f no sea lineal). Desde este
punto de vista, el estudio de la información de un experimento diseñado suele recurrir a
herramientas matemáticas (principalmente cálculo y álgebra lineal) para su análisis.
Existen varias estrategias para reducir el error experimental y aumentar la exactitud en las
mediciones. Tales técnicas se conocen como técnicas de control local. Las dos más
usadas son las siguientes:
Se entiende por replicaciones las repeticiones independientes del experimento básico, las
cuales se hacen por las razones siguientes:
a. Muestran que se pueden reproducir los resultados
b. Proporcionan seguridad contra los resultados anormales por accidentes no
previstos
c. Permiten estimar la varianza del error experimental
d. Aumentan la precisión en la estimación de las medias de los tratamientos
El número de réplicas mínimo por tratamiento no puede ser arbitrario. Dependiendo del
nivel de significancia al que se desee realizar el experimento, de la precisión de las
estimaciones y de la dispersión de las respuestas se debe calcular un mínimo de réplicas
( ) σ
2 2
Conviene llamar la atención sobre el siguiente hecho importante: para calcular los
tamaños de muestra en cada tratamiento (número de réplicas) se fija un valor de
significancia a el cual determina el cuantil zα que se usa en la fórmula anterior. Esto
2
implica que para otro nivel de significancia menor que el anterior, el correspondiente
cuantil sea mayor y por tanto que se requiera un mayor tamaño de muestra, es decir,
mayor número de réplicas. En consecuencia, las conclusiones que se obtengan para el
nivel de significancia a posiblemente no sean válidas para niveles de significancia
inferiores. Es un error entonces, sacar conclusiones sin haber verificado previamente que
el número de réplicas del experimento es suficiente para ello.
En general los diseños de experimentos deben satisfacer ciertos supuestos bajo los cuales
han sido desarrollados los principios teóricos que los sustentan. El cumplimiento de estos
supuestos garantiza la validez de los resultados y, por ello, debe ser verificado cada vez
que se analice un experimento. Son cuatro los supuestos más importantes que se debe
cumplir en un diseño: 1) Aditividad de los efectos lo que implica ausencia de
interacción. 2) Independencia de los términos de error 3) Normalidad de los errores y 4)
Homogeneidad de la varianza de los términos de error sin importar la magnitud de los
efectos.
La violación fuerte de la normalidad afecta la validez de las pruebas F pues en tal caso no
se cumple en general que los cuadrados medios tengan distribuciones Ji cuadrado
independientes. Las inferencias que se realicen respecto a las medias en poblaciones no
normales siguen siendo válidas siempre que se utilicen muestras grandes. Esto,
s2
infortunadamente, no funciona con las varianzas pues en tales casos la varianza de 2 se
σ
incrementa en un factor proporcional a la curtosis afectando seriamente los niveles de
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 133
σ2 1 σ2
E( x ) = µ , V( x ) = 1 + 2 ρ (1 − n ) y E (s 2 ) = (1 − 2 ρ )
n n
lo que hace que los intervalos de confianza calculados por los métodos corrie ntes no
cubran el verdadero valor de la media en los niveles de probabilidad para el cual se
construyen. Por ejemplo, para ? = 0.5 la probabilidad de 0.95 se reduce drásticamente a
0.166. Esto da una idea del impacto negativo que puede traer la falta de independencia
entre las observaciones de los tratamientos. Los problemas son mucho más graves cuando
existen autocorrelaciones de primero y otros órdenes.
Todos los principios generales que hemos mencionado hasta el momento son aplicables a
los diseños de experimentos de cualquier naturaleza, incluidos los ya estudiados
experimentos unifactoriales de una y dos vías.
Al diseñar un experimento resulta difícil aislar completamente una única causa (variable
independiente) como responsable de los efectos que se producen en un fenómeno. Por lo
general dichos efectos son producidos en mayor o menor grado por un sinnúmero de
factores y, es un verdadero arte determinar cuáles de ellos son los más importantes. Es
evidente que al diseñar un experimento con demasiados factores activos los costos y las
dificultades teóricas de análisis pueden ser enormes. Por esta razón se busca reducir el
número de factores activos y controlar o eliminar la mayor parte de factores externos
(exógenos) que puedan causar interferencia. En la práctica se suelen admitir dos o tres
factores activos. Muy excepcionalmente, otros números, y casi nunca más de cinco.
Existen varios diseños experimentales para dos factores. Aquí presentaremos únicamente
los diseños completos y balanceados de dos factores. Un diseño es completo cuando en él
se consideran todas las posibles combinaciones de niveles de cada factor. Así, por
ejemplo, si un factor en un experimento agronómico es el tipo de terreno (ácido, neutro y
alcalino) con tres niveles y otro factor es la temperatura con cuatro niveles (12°C, 16°C,
21°C y 25°C) habrá un total de 3 × 4 = 12 tratamientos posibles. Si a todos los 12
tratamientos se asigna unidades experimentales, el diseño será completo. Por el contrario,
será incompleto si uno o más de los tratamientos no tiene unidades experimentales
asignadas. Por otra parte un diseño factorial es balanceado cuando todos los tratamientos
tienen el mismo número de unidades experimentales asignadas. Por ejemplo, en el caso
citado, si cada uno de los 12 tratamientos tiene cuatro unidades experimentales, es decir
cuatro réplicas. Por razones de economía un experimento podría ser incompleto. Por
razones fortuitas –como la muestre de un animal o una planta- un diseño puede ser
desbalanceado. Tanto la incompletez como el desbalanceo son condiciones que
complican el análisis de un diseño factorial. Existen tratamientos para remediarlos pero
esos temas están fuera del alcance de esta obra.
Factor F2
Nivel 1 Nivel 2 … Nivel b
Nivel
1 y111 , y112 ,L , y11r y121 , y122 ,L , y12r … y1b1, y1b 2 ,L , y1br
2 y211 , y 212 ,L , y21r y221 , y 222 ,L , y22 r … y2b1, y 2b2 ,L , y2br
F1
… … … … …
a ya11 , y a12 ,L , y a1r ya 21 , y a22 ,L , y a2r … yab1 , yab2 ,L , yabr
Tabla 42. Disposición de los datos para un diseño de dos factores
La interacción puede definirse por µij − µi. − µ. j + µ... . Las interacciones, cuando existen,
hacen que la respuesta a los tratamientos no sea dada exclusivamente por la suma de los
efectos de cada factor sino que parte de esa respuesta se debe a la interacción de los
factores. En otras palabras los efectos de los factores son aditivos en ausencia de
interacción.
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 136
Las sumas de cuadrados son variables aleatorias cuyas distribuciones como las de todas
las sumas de cuadrados son distribuciones Ji cuadrado con ciertos grados de libertad
dados de acuerdo con la siguiente tabla de análisis de varianza
1 a 1 a
Donde θ12 = ∑ i. ...
a − 1 i=1
( µ − µ )
2
, θ
2
2 = ∑ (µ. j − µ... )2 ,
b −1 i=1
a
1
y θ12 =
2
∑
( a − 1)(b −1) i =1
( µij − µi. − µ. j + µ...) ,
2
La tabla anterior proporciona los elementos necesarios para juzgar en primer lugar si las
interacciones entre los factores son significativas o no y en segundo lugar para saber si
existen efectos significativos de los factores, lo que finalmente se traduciría en diferencias
de medias entre tratamientos.
En efecto:
Si no existiera interacción entre los factores se tendría µij − µi. − µ. j + µ... = 0 lo que
CM 12
implicaría θ122 = 0 y, entonces, E(CME ) = σ 2 . En tal caso la razón tendría
CME
distribución F con (a - 1)(b - 1) y ab(r - 1) grados de libertad. En consecuencia, una
F con estas características proporciona un mecanismo de prueba para determinar la
significancia de la interacción entre los factores. Una interacción significativa puede
alterar la inferencia basada en las diferencias significativas entre las medias marginales de
los factores.
CM 1 CM 2
cocientes F1 = y F2 = son variables aleatorias que tienen distribución
CME CME
F con grados de libertad dados por los correspondientes grados de libertad de CM1,
CM2 y CME en la tabla. Esto proporciona herramientas para probar la igualdad de medias
para cada uno de los respectivos factores.
1.30 1 1 1
2.88 1 1 2
2.42 1 1 3
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 138
2.66 1 1 4
2.94 1 1 5
0.90 1 2 1
1.06 1 2 2
0.98 1 2 3
1.29 1 2 4
1.12 1 2 5
1.01 2 1 1
1.52 2 1 2
1.02 2 1 3
1.32 2 1 4
1.63 2 1 5
0.83 2 2 1
0.67 2 2 2
0.57 2 2 3
0.47 2 2 4
0.66 2 2 5
Tabla 45. Disposición de los datos del ejemplo 14.6. para análisis con software
Nótese cómo los niveles de los factores se han identificado con los códigos 1 y 2. En
general es buena recomendación utilizar dígitos consecutivos para identificar los niveles
de los factores. El análisis realizado con ESM produce los siguientes resultados
TABLA ANOVA:
-------------------------------------------------------------------
FUENTE SUMA DE CUADRADOS GL CUADR.MEDIOS F
-------------------------------------------------------------------
F1 3.08 1 3.08 21.704
F2 5.15 1 5.15 36.285
F1*F2 0.63 1 0.63 4.439
Error 2.27 16 0.14 *******
TOTAL 11.13 19 ********* *******
-------------------------------------------------------------------
El programa también estima los efectos de cada uno de los factores y las estimaciones,
pero estas salidas han sido suprimidas para mayor sencillez.
Como puede observarse el valor F para interacción es 0.439 que corresponde un valor P
de 0.0489 el cual, por ser muy cercano a 0.05, puede considerarse como no significativo.
Esto quiere decir que podríamos considerar que el modelo no tiene interacción y, en
consecuencia, es un modelo aditivo, así que podemos confiar en las deducciones acerca
de las medias. Puesto que tanto la F del factor F1 como la del factor F2 son significativas
por arrojar valores P muy pequeños (menores que 0.05) concluímos que hay diferencias
significativas entre los promedios de los niveles de cada factor.
Los residuos que fueron calculados por el programa se pueden usar para realizar con ellos
una prueba de validez del modelo. Deben tener distribución normal para que el modelo
cumpla con los supuestos. En este caso la prueba de Geary arroja un valor P de 0.005036
por lo que se puede concluir que el modelo presenta un problema de normalidad.
A manera de ejemplo, podemos realizar la prueba de Tukey para determinar si dentro del
fotoperiodo de 9 horas de luz hay diferencias entre los promedios de GSI para las dos
temperaturas. Es decir, estamos comparando los promedios de los tratamientos
CELDA(1,1) y CELDA(1,2), o lo que es igual: TRAT(9h,16°C) y TRAT(9h,27°C). Los datos
correspondientes a estos dos tratamientos son:
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 140
CME 1 1 0.14 1 1
+ = 3.64 + = 0.61
2 5 5
qk ,ν ,α
2 ni n j
Puesto que y11 − y12 = 2.44 − 1.07 = 1.37 es un valor mayor que 0.61, se concluye que
sí hay diferencias significativas entre las medias de estos dos tratamientos.
Nótese que, en cambio, y12 − y 22 = 1.07 − 0.64 = 0.43 es un valor menor que 0.61 lo
que nos dice que entre los tratamientos CELDA(1,2) y CELDA(2,2), correspondientes a los
dos fotoperiodos dentro de la temperatura de 27 grados, no hay diferencias significativas.
Todas las sumas de cuadrados anteriores son variables aleatorias con distribuciones Ji
cuadrado y, por consiguiente al ser divididas entre sus grados de libertad (ver tabla anova
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 141
para este tipo de diseño) los cuadrados medios correspondientes representan varianzas.
Los siete cocientes resultantes al dividir cada cuadrado medio entre el CME representan
valores de cuantiles bajo distribuciones F con los grados de libertad apropiados que
permiten probar hipótesis, en primer lugar sobre la significancia de las interacciones y, en
segundo lugar, sobre la igualdad de las medias de los niveles en los respectivos factores.
Igual que en los casos anteriores se puede aplicar la prueba de Tukey para comparar las
medias de dos tratamientos cualesquiera.
Ejemplo 14.7: Con el fin de determinar el efecto de los niveles de agua, la temperatura y
el tipo de planta en la producción de guisantes, se disponen aleatoriamente 36 plantas sin
hojas en 9 grupos de 4 plantas cada uno los cuales se asignan aleatoriamente a las
combinaciones de tres niveles de agua (bajo, medio y alto) con tres temperaturas (15°C,
18°C y 21°C) en un invernadero. Este mismo experimento se repite simultáneamente y
en las mismas condiciones con 36 plantas con hojas. Resulta así un experimento factorial
3 × 3× 2 , lo que significa que el primer factor tiene 3 niveles, el segundo 3 niveles y el
tercero 2 niveles. Los valores de producción de cada planta se resumen en el siguiente
cuadro:
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 142
N I V E L D E A G U A = F1
1 = Bajo 2 = Medio 3 = Alto
F2 = Temperatura F2 = Temperatura F2 = Temperatura
Tipo de Planta 1 2 3 1 2 3 1 2 3
F3 15° 18° 21° 15° 18° 21° 15° 18° 21°
Para el análisis estadístico con ESM se crea un archivo de datos en el que cada una de las
72 observaciones se escribe acompañada de cuatro identificadores según el nivel de cada
factor y el número de réplica. Es decir, dicho archivo está conformado por una variable de
respuesta y cuatro variables categóricas de identificación. Los resultados obtenidos están
consignados en la salida de la página siguiente.
Como puede apreciarse en este ejemplo las interacciones son significativas lo que hace
que el modelo no sea aditivo. Este resultado dificulta los análisis pues ahora no se puede
estar seguro sobre las pruebas de comparaciones de medias ni en los niveles de los
factores ni en los diferentes tratamientos. No profundizaremos más en el análisis de este
ejemplo pues su discusión necesita herramientas más especializadas, propias de un curso
de diseño, que no han sido presentadas en esta obra.
TABLA ANOVA:
---------------------------------------------------------------------
FUENTE SUMA DE CUADRADOS GL CUADR.MEDIOS F
---------------------------------------------------------------------
F1 (A) 9029.73 2 4514.86 544.144
F2 (B) 1607.95 2 803.97 96.897
F3 (C) 286.00 1 286.00 34.470
A*B 469.45 4 117.36 14.145
A*C 200.49 2 100.24 12.082
B*C 285.41 2 142.70 17.199
A*B*C 180.01 4 45.00 5.424
Error 448.05 54 8.30 *******
TOTAL 12507.08 71 ********* *******
---------------------------------------------------------------------
(A) = AGUA: P = 0.000000 F( 2 , 54 )
(B) = TEMP: P = 0.000000 F( 2 , 54 )
(C) = TIPO: P = 0.000010 F( 1 , 54 )
Interacción (A)*(B): P = 0.000000 F( 4 , 54 )
Interacción (A)*(C): P = 0.000140 F( 2 , 54 )
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 143
ESTIMACIONES:
Ejemplo 14.8: los datos siguientes representan los registros de producción de una
empresa que ha estado ensayando diferentes políticas de trabajo entre sus empleados. El
diseño muestra los resultados al implementar dos jornadas de trabajo, una de 10 horas
diarias y otra de 8 horas diarias (4 días a la semana y 5 días respectivamente), dos turnos,
uno diurno y otro nocturno y tres alternativas de descanso en cada jornada: uno con un
solo descanso a la mitad de la jornada, otro con dos desacansos en la jornada y otro con
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 144
tres descansos. El diseño es entonces un factorial 2 × 2 × 3 con dos réplicas en el que los
factores son respectivamente: jornadas, turnos y descansos.
(2) 96 100 82 81 90 94
8 horas 92 103 88 84 92 96
Tabla 48. Datos para el ejemplo 14.8
94 1 1 1 1
97 1 1 1 2
105 1 1 2 1
106 1 1 2 2
96 1 1 3 1
91 1 1 3 2
90 1 2 1 1
89 1 2 1 2
102 1 2 2 1
97 1 2 2 2
103 1 2 3 1
98 1 2 3 2
96 2 1 1 1
92 2 1 1 2
100 2 1 2 1
103 2 1 2 2
82 2 1 3 1
88 2 1 3 2
81 2 2 1 1
84 2 2 1 2
90 2 2 2 1
92 2 2 2 2
94 2 2 3 1
96 2 2 3 2
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 145
Parte del archivo de resultados arrojado por ESM (se han omitido las estimaciones de los
efectos) es lo siguiente:
TABLA ANOVA:
---------------------------------------------------------------------
FUENTE SUMA DE CUADRADOS GL CUADR.MEDIOS F
---------------------------------------------------------------------
F1 (A) 204.17 1 204.17 29.878
F2 (B) 48.17 1 48.17 7.049
F3 (C) 334.08 2 167.04 24.445
A*B 8.17 1 8.17 1.195
A*C 8.08 2 4.04 0.591
B*C 385.58 2 192.79 28.213
A*B*C 21.58 2 10.79 1.579
Error 82.00 12 6.83 *******
TOTAL 1091.83 23 ********* *******
---------------------------------------------------------------------
(A) = JORNAD: P = 0.000290 F( 1 , 12 )
(B) = TURNOS: P = 0.020060 F( 1 , 12 )
(C) = DESCAN: P = 0.000160 F( 2 , 12 )
Interacción (A)*(B): P = 0.296090 F( 1 , 12 )
Interacción (A)*(C): P = 0.573050 F( 2 , 12 )
Interacción (B)*(C): P = 0.000100 F( 2 , 12 )
Interac (A)*(B)*(C): P = 0.245510 F( 2 , 12 )
ESTIMACIONES:
ECM 1 1
ω = qk ,ν ,0.05 + = 3.48 , valor que se compara con las diferencias entre
2 ni n j
medias como lo sugiere el siguiente cuadro:
Este cuadro muestra que la diferencia entre los niveles 1 y 3 no es significativa pues es
menor que ω , mientras que la diferencia entre los niveles 3 y 2 –y por consiguiente entre
los niveles 1 y 2- sí es significativa ya que ella es mayor que ω . En este caso la
conclusión es que resulta mejor otorgar dos descansos en la jornada y que no hay
diferencias entre uno y tres descansos.
Tratam.
Celda: 1,2,1 1,1,3 1,1,1 1,2,2 1,2,3 1,1,2
Media 89.5 93.5 95.5 99.5 100.5 105.5
Diferencia 4.0 2.0 4.0 1.0 5.0
difieren. Esto permite señalar las medias que no difieren como se indica en el siguiente
cuadro.
En esta tabla cualesquiera dos medias o tratamientos unidos por la misma letra (es decir,
con el mismo vínculo) no presentan diferencias significativas.
Si σ a2 = 0 entonces los efectos de los tratamientos son iguales pero si σ a2 > 0 existe
variabilidad entre ellos. En este último caso la diferencia entre los efectos de los
tratamientos puede deberse a la variabilidad entre las observaciones.
niσ a2 + σ ε2 = CMtr
σ ε = CMerr
2
) CMtr − CMerr )
cuya solución está dada por σ a2 = y σ ε2 = CMerr
ni
En algunos casos especiales estas soluciones pueden resultar extrañas pues pueden
aparecer valores negativos los cuales no tienen una interpretación clara. Existen otros
métodos de estimación que no se estudian en esta obra.
r0 k −1 i =1 n
σ a2
Se define el coeficiente de correlación intraclase como ρ I = , el cual varía entre
σ a2 + σ ε2
1
− y 1 (en diseños balanceados). Si ρ I es grande el afecto aleatorio común a un
r −1
grupo afecta por igual a todos los individuos de ese grupo, de manera que la similitud
entre individuos es mayor dentro del mismo grupo que entre los individuos de grupos
diferentes. Esto se debe a que la varianza residual es muy pequeña frente a la varianza
entre clases. Por el contrario, si ρ I es pequeño existe disimilaridad entre los individuos
de cada grupo lo que dice que la diferencia de medias puede deberse a la variabilidad
interna de los grupos. Por ejemplo, en un problema de dietas los recursos nutritivos
pueden causar disparidad de crecimiento dentro de cada grupo. Esto puede suceder, por
ejemplo, si los individuos más vigorosos y agresivos toman la mayor parte de dicho
recurso.
Ejemplo 14.9: En un estudio de genética con reses, varios machos se aparearon con
grupos diferentes de hembras. Si nacían terneros (machos) se usaban en un estudio de
pesos hereditarios. La tabla siguiente muestra el peso al nacer de 8 terneros por cada uno
de los 5 grupos usados en el estudio.
Resultados:
15 ANALISIS MULTIVARIADO
Introducción
Estas notas, realizadas de una manera informal, recogen algunas ideas generales acerca de
algunas técnicas multivariadas de aplicación frecuente en la investigación. Ellas se
enfocan principalmente hacia los métodos factoriales simples y múltiples y en particular
al análisis de componentes principales, los análisis de correspondencias y la clasificación
de individuos.
Podría decirse que el objetivo principal que persigue el ACP es la representación de las
medidas numéricas de varias variables en un espacio de pocas dimensiones donde
nuestros sentidos puedan percibir relaciones que de otra manera permanecerían ocultas en
dimensiones superiores. Dicha representación debe ser tal que al desechar dimensiones
superiores (generalmente de la tercera o cuarta en adelante) la pérdida de información sea
mínima. Un símil podría ilustrar la idea: imaginemos una gran lámina rectangular (objeto
de tres dimensiones) de por ejemplo, 3m de larga, 2m de ancha y 4 cm de espesor. Para
efectos prácticos, dicha lámina puede ser considerara como un objeto plano (de dos
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 152
Lo anterior, aunque sugiere que el ACP es una técnica descriptiva, no niega la posibilidad
de que también pueda ser utilizado con fines de inferencia. Por otra parte, las aplicaciones
del ACP son numerosas y entre ellas podemos citar la clasificación de individuos, la
comparación de poblaciones, la estratificación multivariada, etc.
En las líneas que siguen se presentarán los fundamentos del ACP, tratando de reducir al
mínimo el aparato formal que lo sustenta, ésto en aras de la sencillez y la brevedad y con
el fin de que el tema sea adecuado a públicos de mediana preparación en matemáticas.
PESO 5
0
10 20 30 40 50 60 70 80 90
LONG
Como se puede apreciar, cada variable puede representarse sobre un eje coordenado y así
cada pareja de valores ( xi , y i ) representa las medidas del i- ésimo individuo, los cuales
al ser representados en el plano forman la nube de individuos.
7
F2 F1
6
5
PESO
0
10 20 30 40 50 60 70 80 90
LONG
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 154
Es posible reordenar de acuerdo con su magnitud los valores propios de S de tal manera
que λ1 sea el mayor de ellos, λ 2 el que le sigue, etc y λ p el menor de todos. Esto
simplemente se traduce en un reordenamiento de las columnas de la matriz Q de manera
que la primera sea un vector propio asociado con λ1 , la segunda un vector propio
asociado con λ 2 y así sucesivamente. En particular dichas columnas pueden estar
formadas por vectores propios normalizados, es decir, perpendiculares entre sí y de
longitud igual a la unidad. De esta manera se construye una matriz que produce la
rotación deseada ya que, como puede probarse, el primer vector propio
U 1 = ( u11 , u12 ,L , u1 p )' apunta en la direcció n de máxima variabilidad de la nube
centrada. Esta dirección se llama primera dirección principal. El segundo vector propio
U 2 = (u 21 , u 22 ,L , u 2 p )' apunta en la siguiente dirección de máxima variabilidad de la
nube centrada, llamada segunda dirección principal y así sucesivamente.
La traza de S , por ser la suma de las varianzas de las variables originales X i recibe el
p
nombre de varianza total, VT. Resulta claro que Traza( S ) = Traza( QΛQ − 1 ) = ∑ λi .
i =1
En la práctica resulta importante el caso r = 2 ya que si, en tal caso se obtuviera una tasa
de representatividad alta, se habría logrado describir el problema sobre un plano con una
pequeña pérdida de información. Por supuesto que si la reducción a un espacio de dos
dimensiones conlleva una alta pérdida de representatividad no se habrá logrado un éxito y
las técnicas que aquí se propondrán para visualización de individuos y variables no serán
muy buenas.
que lleva a una representación de las variables originales como vectores sobre un plano
(plano factorial) o sobre un espacio tridimensional. La representación sobre el plano
factorial F1 F2 es particularmente útil pues permite visualizar relaciones de correlación
entre las variables originales y de éstas con los ejes factoriales, lo que rápidamente da una
idea de cómo y en cuánto contribuye cada variable a la conformación de los primeros
factores (así se llaman también las componentes principales) y qué tan fuertes son las
dependencias entre las diferentes variables y los factores. Tal representación plana se
llama mapa perceptual de variables. Una alta correlación positiva se traduce en
vectores (flechas que unen el origen con el punto representativo de la variable) que
forman un ángulo agudo. Una alta correlación negativa se traduce en flechas opuestas que
tienden a formar ángulos llanos. Finalmente, la ausencia de correlación se traduce en
flechas que tienden a formar ángulos rectos . Igualmente es factible realizar un mapa
perceptual de individuos, es decir, una proyección de la nube de individuos sobre el plano
factorial determinado por F1 F2 , plano que reune la mayor representatibidad de VT.
Puesto que uno de los objetivos que se persiguen con el ACP es la representación de las
observaciones o individuos en un espacio de pocas dimensiones, resulta interesante tener
una medida de tal representación para cada individuo. Una tal medida está dada por la
suma de cosenos cuadrados. Estos valores son los cuadrados de los cosenos de los
ángulos formados por el vector que representa a cada individuo con los ejes del sistema
de coordenadas factoriales. La suma de todos estos cosenos es igual a la unidad. Sin
embargo, si se retienen k factores, la suma de los k primeros cosenos cuadrados
representa el grado de representabilidad de cada individuos, siendo mejor representados
aquellos individuos para los cuales la suma de los k primeros cosenos cuadrados esté más
cerca de 1.
Las correlaciones entre las variables originales y los factores se conocen comúnmente
como cargas factoriales. Es posible calcular analíticamente tales correlaciones lo que da
origen a una matriz L de orden p × p , llamada matriz de cargas. (algunos paquetes
usan otros nombres: Factor Pattern en SAS, Factor Matrix en SPSS, Factor Loadings en
STATISTICA, etc). Se puede probar que la correlación entre la variable original X i y la
λ j u ji
componente principal F j está dada por l ij = . Así L = (l ij) ) .
V( X i )
Cómo saber cuántos factores son suficientes para una buena representación de un
problema? - Hay varios criterios, pero tal vez los dos más extendidos son el criterio de
Kaiser, según el cual se deben retener tantos factores como valores propios de la matriz
VT
S estén por encima del promedio . Otro criterio, quizás más natural, será retener
p
tantos factores como sean necesarios para lograr un alto porcentaje de explicación de la
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 158
varianza total. Para ello se usan los porcentajes acumulados de los valores propios con
base en la varianza total del problema, junto con un criterio personal acerca de qué se
considera un buen porcentaje de explicación (Cfr ejemplo, salida 2, más adelante).
ACP normado
Las inquietudes anteriores tienen una solución: Realizar ACP con variables originales
estandarizadas. Esto resuelve los dos problemas: De una parte, las variables
estandarizadas no tienen nombre, son simplemente números sin unidades en las cuales se
expresen las mediciones. De otra parte, la estandarización lleva todas las escalas de
medida a una escala común de media 0 y varianza 1, con lo cual se elimina el problema
de medición y variabilidad diferente de las variables originales. El ACP realizado con
variables originales estandarizadas se llama ACP normado. Se ve fácilmente que el
ACP normado equivale al ACP corriente pero partiendo de la matriz de correlaciones
? en vez de la matriz de varianzas covarianzas S .
Resulta claro que el ACP normado debe ser la técnica a seguir en cualquier caso., a
menos que se quieran explorar algunas otras posibilidades de tipo teórico o que se tengan
variables muy similares tanto en su naturaleza como en su escala de medida.
Diremos finalmente que la matriz S , por ser desconocida, no puede ser usada
directamente en los cálculos. En la práctica, se usa la matriz de varianzas-covarianzas S ,
estimada a partir de una muestra observada de n individuos. Es ta matriz constituye una
estimación de S y, por tanto, los resultados obtenidos con ella constituyen estimaciones
de los correspondientes valores poblacionales. Se debe saber, sin embargo, que será
necesaria una muestra aleatoria cuyo tamaño n sea mayor que el número p de variables
consideradas.
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 159
2. VALORES PROPIOS:
V/BLE F1 F2 F3 F4 F5 F6 F7 F8
----------------------------------------------------------------------
CRANE 0.853 0.481 -0.090 0.027 -0.179 --- --- ---
ANBRA -0.071 0.268 0.744 0.600 0.094 --- --- ---
BRAMA -0.067 0.200 -0.577 0.526 0.588 --- --- ---
PIERN -0.493 0.801 -0.099 -0.263 -0.191 --- --- ---
MANO 0.138 0.126 0.308 -0.542 0.759 --- --- ---
----------------------------------------------------------------------
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 160
V/BLE F1 F2 F3 F4 F5 F6 F7 F8
----------------------------------------------------------------------
CRANE 8.011 2.708 -0.214 0.044 -0.223 --- --- ---
ANBRA -0.671 1.509 1.765 0.976 0.118 --- --- ---
BRAMA -0.630 1.126 -1.368 0.855 0.736 --- --- ---
PIERN -4.631 4.510 -0.236 -0.428 -0.239 --- --- ---
MANO 1.291 0.711 0.731 -0.881 0.950 --- --- ---
----------------------------------------------------------------------
V/BLE f1 f2 f3 f4 f5 f6 f7 f8
----------------------------------------------------------------------
CRANE 0.091 0.085 -0.038 0.017 -0.143 --- --- ---
ANBRA -0.008 0.048 0.314 0.369 0.075 --- --- ---
BRAMA -0.007 0.036 -0.243 0.323 0.471 --- --- ---
PIERN -0.053 0.142 -0.042 -0.162 -0.153 --- --- ---
MANO 0.015 0.022 0.130 -0.333 0.607 --- --- ---
----------------------------------------------------------------------
----------------------------------------|-----------------------------
COORD. ORIGINALES CENTRADAS | COORDENADAS FACTORIALES
(SOBRE EL PLANO X1-X2): | (SOBRE EL PLANO F1-F2):
----------------------------------------|-----------------------------
#OBS X1 X2 | F1 F2
1 -0.1667 -0.5833 -2.3282 3.9383
2 2.8333 3.4167 -3.0004 10.2771
3 -4.1667 1.4167 -4.1192 -1.1041
4 13.8333 -1.5833 13.1459 5.3215
5 -14.1667 -3.5833 -12.9793 -7.3562
6 -4.1667 2.4167 -5.2276 0.5119
7 2.8333 0.4167 6.4858 -4.6341
8 5.8333 -2.5833 11.1796 -7.9783
9 13.8333 -1.5833 16.3909 -0.7362
10 -8.1667 3.4167 -8.2358 -1.4904
11 -7.1667 -3.5833 -6.6606 -3.4124
12 -1.1667 2.4167 -4.6510 6.6628
----------------------------------------------------------------------
--V04-------------------F2-----------------------------------------------
|
|
|
|
|
|
|
|
|
| V01
|
|
|
|
|
|
----------------------V02----------------------------------------------F1
|
V03
|
------------------------|-------V05--------------------------------------
Rangos: F1: -0.493 a 0.853 F2: 0.126 a 0.801
Representación gráfica de las variables en el plano factorial F1F2
------------------------ 2---F2-----------------------------------------
|
|
|
|
12 |
| 4
|
1 |
|
|
-----------------------------0----------------------------------------F1
6 |
| 9
10 3 |
|
11 |
|
| 7
|
|
-- 5-------------------------|------------------------- 8---------------
Rangos: F1: -12.979 a 16.391 F2: -7.978 a 10.277
Representación gráfica de individuos en el plano factorial F1F2
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 163
Salida 1
Estos valores corresponden a las medias y las varianzas estimadas de cada una de las
variables consideradas en el análisis, junto con la nomenclatura usada por el programa
para la representación gráfica de ellas: V01, V02, etc
Salida 2
Representa los valores propios de la matriz S , como estimaciones de λi , ordenados de
mayor a menor, junto con los valores acumulados de ellos y el correspondiente porcentaje
acumulado que representan de la varianza total, dada en este caso por VT = 129.6970.
Como puede observarse en este caso el primero y segundo valor propio cubren un
92.4184% de la varianza total, valor que se considera muy alto. En consecuencia, podrían
retenerse los dos primeros factores los cuales explican 92. 4184% del problema. Se pierde
entonces menos de un 8% de la información pero se logra reducir la dimensión del
problema de 5 (número original de variables) a 2. Se ha "aplanado" el problema logrando
mantener más del 92% de la representabilidad del mismo. Nótese que, según el criterio de
Kaiser, sólo los dos primeros factores tienen varianza por encima del promedio 25.94. En
consecuencia, este criterio también recomienda retener las dos primeras componentes.
Salida 3
Está conformada por la matriz Q de rotación. En este caso cada columna U j es un
vector unitario y dos cualesquiera de ellas son ortogonales. Representan por tanto,
vectores de una base ortonormal de ℜ p . Además cada columna contiene los coeficientes
de las variables originales centradas para la conformación de la correspondiente
componente principal. Por ejemplo: F2 = 0.481 Crane + 0.268 Anbra + L + 0.126 Mano
Salida 4
Los vectores reescalados son vectores propios de S que han sido modificados en su
longitud de tal manera que su norma sea igual al correspondiente valor propio. Aunque la
matriz conformada por tales vectores - llamada matriz de coordenadas por algunos
paquetes- no es una matriz de rotación, presenta la ventaja de que cada coeficiente es
proporcional a la contribución que hace la correspondiente variable a las componentes
principales. Por ejemplo, en la formación del factor F2 la variable que más aporta es
PIERN ya que ella tiene coeficiente 4.51, le sigue CRANE con un coeficiente de 2.708,
etc
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 164
Salida 5
Esta tabla presenta de una manera más expedita la importancia de cada variable en la
conformación de cada componente, medida por la contribución de ella a la componente y
expresada en términos de porcentaje.
Salida 6
Esta tabla contiene los valores de las correlaciones de cada una de las variables originales
con cada una de las componentes principales o factores. Cuando una variable X i está
fuertemente correlacionada con un factor F j su representación gráfica vectorial es tal
que ella se sitúa muy cerca del eje F j correspondiente, contribuyendo entonces casi
exclusivamente a la conformación de dicho factor. Esta contribució n es tanto mayor
cuanto más alejada del origen se encuentre X i pues en tal caso su proyección sobre el
eje es mayor.
Salida 7
Se define la comunalidad entre X i y F j como la porción de varianza que es compartida
por estas dos variables. Este concepto es importante pues dicho valor es una medida de la
explicación de la variable X i por el factor F j . En particular, si se retienen r de los p
factores es de interés conocer el grado de explicación de cada una de las variables
originales por los factores retenidos juntos. Esto es la comunalidad acumulada por los r
factores retenidos. En el caso, por ejemplo, al retener los dos primeros factores se explica
un total de 71.51 de la varianza de CRANE que en su totalidad es de 71.61. De igual
manera se explica un total de 2.73 de la varianza de ANBRA que es de 6.81 en total. Se
observa cómo los p = 5 factores juntos cubren la totalidad de las varianzas de todas las
variables originales.
Salida 8
La magnitud de la comunalidad acumulada, dada por la tabla anterior es mucho más
comprensible si se expresa en términos de porcentajes. Esto es lo que muestra la tabla 8.
Por ejemplo, diríamos de acuerdo con ella, que dos factores explican el 99.86% de la
varianza de CRANE, el 40.06% de la varianza de ANBRA, etc. De igual manera, cuatro
factores juntos explican el 88.74% de la varianza de BRAMA y el 99.86% de la varianza
de PIERN. Como se ve, los 5 factores explican la totalidad de la varianza de todas las
variables originales.
Salida 9.
Los factores F j son variables aleatorias ya que son combinaciones lineales de los X i
centrados. Esto implica que pueden ser estandarizados en la forma usual. Se pueden
entonces construir los factores estandarizados de acuerdo con la expresión:
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 165
F j − E( F j ) Fj − 0 1
fj = = = Fj
V( F j ) λj λj
p u
1 jk X c
fj = ∑
λ j k =1
u jk X
c
k = ∑ λ k
j
Salida 10
Estas tablas corresponden a las coordenadas de las dos primeras componentes de los
individuos tanto en el plano original X 1c X 2c como en el plano factorial F1 F2 . Estas
últimas en particular son utilizadas para producir el mapa de individuos. El programa
produce además un archivo de nombre PLANF123.DAT en el que se encuentran las
coordenadas de los individuos en los tres primeros ejes factoriales y que pueden ser
utilizadas con fines gráficos o de clasificación en tres dimensiones. Este archivo siempre
se almacena dentro del directorio del programa ESM.
Salida 11
Esta tabla contiene las distancias a las que se encuentra cada individuo respecto al centro
de gravedad de la nube, es decir, respecto al origen de coordenadas del espacio factorial.
Igualmente presenta los cosenos cuadrados para los primeros cinco factores, los cuales en
la mayor parte de los casos son más que suficientes para lograr una adecuada
representación de cualquier problema. El grado de representabilidad de un individuo en el
espacio factorial formado por los r primeros factores se logra sumando los r cosenos
cuadrados correspondientes y teniendo en cuenta que la máxima representabilidad de un
individuo es 1.
Salida 12
Cuando se opta por esta salida, ella corresponde al mapa perceptual en dos dimensiones
de las variables. Su utilidad, como ya se dijo, estriba en la presentación simple y efectiva
de relaciones de dependencia entre ellas. Aquellas variables que formen ángulos rectos o
aproximadamente rectos son independientes estadísticamente, es decir, no están
correlacionadas. Las demás sí están correlacionadas y la magnitud de dicha correlación es
proporcional al valor del coseno del ángulo que ellas formen. Esta regla es válida incluso
para las variables y los ejes factoriales.
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 166
Salida 13
El mapa perceptual de individuos proyectados sobre el primer plano factorial es una
excelente ayuda para visualizar relaciones de proximidad entre ellos. Estas relaciones
serán tanto más fieles cuanto mayor sea el porcentaje de varianza total explicada por los
dos primeros factores (Cfr. Salida 2).
NOTA:
Cuando se realiza ACP normado las salidas anteriores siguen teniendo las mismas
interpretaciones pero muchos resultados se modifican de acuerdo con los nuevos valores
de las varianzas de las variables originales que, en tal caso, toman el valor de 1 para todas
ellas.
No existen técnicas de comparación múltiple que, de manera directa, nos digan cuál es el
mejor o el peor tratamientos, debido a que en ℜ p no hay orden.
Una solución podría ser la construcción de una variable indicadora como combinación
lineal de las variables del problema. Tomar esta variable como una respuesta que resuma
toda la información de las p variables del problema y realizar un anova univariado,
tomando tal variable como representativa de la información que tienen todas las variables
del problema. La construcción de una tal variable requeriría de discusión y aportes acerca
de la importancia de cada una de las variables, podría ser analizada por un grupo de
especialistas que decidan qué peso asignar a cada variable
Desde este punto de vista, el factor F1, cuando explica un alto porcentaje de variabilidad,
sería la variable resumen que reune la mayor parte de la información contemplada en
todas las variables originales del problema.
En este caso se hace ACP y se observa que el primer factor F1 explica un 72.5% de la
variabilidad. En consecuencia, pueden calcularse los puntajes de los individuos respecto
al primer factor y utilizarlos como variable única que reune el 72% de la información del
problema, para hacer ANOVA sobre ella.
2. VALORES PROPIOS:
V/BLE F1 F2 F3 F4 F5 F6 F7 F8
----------------------------------------------------------------------
CRANE 0.404 0.546 -0.330 -0.124 0.643 --- --- ---
ANBRA 0.486 -0.236 -0.430 0.698 -0.190 --- --- ---
BRAMA -0.487 0.695 -0.060 0.476 -0.223 --- --- ---
PIERN 0.078 -0.070 0.720 0.495 0.475 --- --- ---
MANO 0.598 0.398 0.429 -0.160 -0.524 --- --- ---
----------------------------------------------------------------------
De acuerdo con lo anterior, los puntajes sobre el primer factor se calcularían, individuo
por individuo, tomando las primeras coordenadas factoriales de la tabla siguiente,
producida por ESM-plus, junto con la variable de clasificación en los grupos originales:
GRAFICA DE INDIVIDUOS:
------------- 9------------F2-------------------------------------------
|
12 |
10 |
|
|
|
8 |
| 13
|
-------------------------- 7----------------------------------- 16----F1
| 14
4 |
|
| 15
| 187
|
2 |
6 |
3 |
|
-- 5-----------------------|--------------------------------------------
Rangos: F1: -33.489 a 47.341 F2: -19.764 a 21.082
Representación gráfica de individuos en el plano factorial F1F2
La gráfica anterior muestra cómo los individuos forman tres grupos diferentes entre sí, a
saber, primer grupo: individuos 1 a 6. Segundo grupo: individuos 7 a 12 y tercer grupo:
individuos 13 a 18, los cuales se proyectan sobre el primer eje, poniendo de manifiesto
sus diferencias, como lo confirma el siguiente ANOVA realizado con los puntajes o
primeras coordenadas:
TABLA ANOVA:
----------------------------------------------------------------------------
FUENTE: SUM.CUADR GL CUADR.MEDIO F
----------------------------------------------------------------------------
Modelo 13940.4596 2 6970.2298 205.3095
Error 509.2479 15 33.9499 *****
Total 14449.7075 17 ***** *****
---------------------------------------------------------------------------
R2 = .964757 F tiene 2 y 15 Grados de libertad
Valor P de probabilidad: 0.00000000
Valor exacto del CME = 33.94986100499991
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 170
En lo que viene, se analizarán variables categóricas (nominales) como las que se obtienen
en las encuestas de opinión. Los análisis tradicionales de dichas variables se limitan casi
siempre a conteos de frecuencias, estimación de proporciones, conteos cruzados y, muy
rara vez, pruebas de independencia (asociación) entre ellas. Aquí introduciremos una
serie de técnicas más avanzadas, comúnmente denominadas técnicas factoriales de
correspondencia o Análisis Factorial de Correspondencia (AFC).
1 ... j ... J
M
i k ij
M
I
n
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 172
En este tipo de tablas es común denotar por k .i y k j . los totales marginales por filas y
columnas respectivamente.
Supóngase, por ejemplo, que 400 personas (180 hombres y 220 mujeres) contestaron una
pregunta acerca de una decisión gubernamental, manifestando su opinión así: En
desacuerdo (DA), regularmente de acuerdo (RA) y muy de acuerdo (MA), como lo indica
la tabla siguiente:
DA RA MA TOTAL
Masc 30 90 60 180
DA RA MA TOTAL
Masc 0.075 0.225 0.150 0.450
kij
1. f ij = 2. f i . = ∑ f ij
n j
3. f . j = ∑ f ij 4. ∑ f i. = ∑ f. j = ∑ ∑ f ij
i i j i j
La independencia entre variables se pone de manifiesto en el hecho de que para todas las
celdas se cumpla: f ij = f i . f . j . Cuando esta igualdad no se cumple para algún par de
modalidades se dice que éstas están relacionadas y esta relación es de atracción si el
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 173
El AFC intenta poner de manifiesto una tipología entre las filas y las columnas de la
matriz anterior, en la cual se detecten las filas cuya distribución se desvíe más del común,
las que más se parecen entre sí y las que se oponen (análogamente con las columnas).
Debemos preguntarnos, sin embargo, quienes son los puntos en este caso y en qué espacio
estamos trabajando. En el ACP, las variables eran numéricas y cada individuo era una p-
upla de números reales donde p es el número de variables. Aquí la situación es muy
diferente. Las variables no son numéricas por tanto, no estamos en ℜp.
Al dividir cada fila de la matriz anterior entre su marginal, se obtienen I perfiles fila.
Análogamente se obtienen J perfiles columna si cada columna se divide entre su
marginal. Cada perfil fila es como una especie de histograma –mejor sería distribución-
que indica cómo se distribuye la i-ésima modalidad de la primera variable respecto a las J
modalidades de la segunda variable (análogo para perfiles columna) y la semejanza entre
dos perfiles fila se mide mediante una distancia especial llamada distancia ji-cuadrado
que se define así:
J 1 f ij f lj 2
Distancia(perfil fila i, perfil fila l) = ∑ ( − )
j =1 f . j f i. f l .
I
1 f ij f ik 2
Distancia(perfil columna j, perfil columna k) = ∑f
i =1
(
f. j
−
f.k
)
i.
Presentaremos el tratamiento de un AFC según los perfiles- fila entendiendo que existe
una teoría dual y completamente análoga para los perfiles columna.
El AFC busca entonces ciertas direcciones especiales según las cuales proyectar la nube
de puntos de manera que las inercias máximas de la nube apunten hacia tales direcciones
(en esto se parece al ACP) y de tal forma que las distancias entre las proyecciones de los
puntos de la nube sobre el espacio de direcciones principales se asemejen lo más posible a
las verdaderas distancias entre tale s puntos en el hiperplano de la nube.
P
G
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 175
Sobre el plano factorial llaman la atención los puntos alejados del origen ya que ellos son
más diferentes al perfil medio. Por otra parte, respecto a un factor, del mismo lado se
encuentran la fila i y las columnas j que más se asocian. Es decir, las modalidades de la
segunda variable más asociadas con la i – ésima modalidad de la primera variable. De
lados opuestos estarán las modalidades menos asociadas. Esto justifica el interés práctico
de las representaciones simultáneas.
La formulación simétrica es válida: al invertir los papeles jugados por las filas y las
columnas se llega a las mismas conclusiones (esta es una diferencia sustancial con el ACP
donde la inversión de papeles lleva a la representación de variables de una parte y de
individuos en la otra)
Igual que en el caso del ACP la inercia de cada factor se mide por la magnitud de ciertos
valores propios y las técnicas allí vistas pueden aplicarse al caso AFC. Sin embargo, en el
ACP el decrecimiento de los valores propios es mucho más acelerado que en el AFC, lo
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 176
El AFC que hemos descrito en forma general presenta dos enfoques comúnmente
conocidos como análisis de correspondencias simples (ACS) y análisis de
correspondencias múltiples (ACM). El primero no es más que el AFC aplicado a dos
variables categóricas. Aunque se pueden analizar muchas variables categóricas dichos
análisis se hacen por parejas buscando una representación simultánea de todos los ACS
sobre el mismo plano factorial. El segundo es un poco más complejo: constituye la
inmediata generalización del ACS aplicado a tres o más variables en forma simultánea.
Quiere esto decir en el fondo que el ACM parte de tablas de contingencia ya no
bidimensionales sino p-dimensionales, donde p es el número de variables categóricas
activas (que se consideran intervinientes dentro del ACM)
• En el caso del SPAD 1.x y SPAD.N, haber identificado previamente cada individuo
mediante una cadena alfanumérica del tipo IN001, IN002,...
I01 311321 I16 212212 I31 211211 I46 312212 I61 111212 I76 311112
I02 211221 I17 111121 I32 233221 I47 111221 I62 223211 I77 231222
I03 311211 I18 221211 I33 211112 I48 111211 I63 211212 I78 212212
I04 312221 I19 233221 I34 111212 I49 212221 I64 111211 I79 112132
I05 321211 I20 111111 I35 332312 I50 322211 I65 221221 I80 212222
I06 212211 I21 122212 I36 111212 I51 111211 I66 111211 I81 332212
I07 112211 I22 212211 I37 111212 I52 211212 I67 312111 I82 211212
I08 211212 I23 322311 I38 211211 I53 211212 I68 311211 I83 211222
I09 111231 I24 112211 I39 112221 I54 211211 I69 122221 I84 231212
I10 311321 I25 111231 I40 111221 I55 111121 I70 111211 I85 311212
I11 111121 I26 212221 I41 221212 I56 111121 I71 212211 I86 212322
I12 211121 I27 112231 I42 212212 I57 111222 I72 211212 I87 311222
I13 211221 I28 211222 I43 232222 I58 221121 I73 211211 I88 221222
I14 112221 I29 121221 I44 112112 I59 212221 I74 211212 I89 211222
I15 332111 I30 112231 I45 211212 I60 233231 I75 121121 I90 111222
1. Los individuos deben estar identificados mediante una cadena alfanumérica. Esto
puede hacerse mediante ESM (Gestión de archivos > Rotular)
2. Se debe usar el formato Fortran de lectura. Ejemplo:
Esta gráfica permite deducir, por ejemplo, que SEXO y OPINION ACERCA DE LA
VIOLENCIA ESTUDIANTIL son variables asociadas. Es decir, la opinión depende del
sexo. Igualmente se deduce que la participación en política no esta asociada con la
opinión acerca de la violencia estudiantil.
PREGUNTA 1 participacion
muy = 24. poco = 26. nada = 10.
PREGUNTA 2 actividad
tods = 46. univ = 8. sopo = 6.
PREGUNTA 3 actitud
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 181
MODALIDADES ABANDONADAS
PREGUNTA 3 actitud
MODALIDAD=
ndeb= 3.
PREGUNTA 4 opinion
MODALIDAD=
nopi= 4.
RESUMEN DE CLASIFICACION
-----------------------------------------------------------------------------
PREGUNTA 1 participacion
muy = 24. poco = 26. nada = 10.
PREGUNTA 2 actividad
tods = 46. univ = 8. sopo = 6.
PREGUNTA 3 actitud
debe = 35. yapa = 25.
PREGUNTA 4 opinion
juvi = 12. errv = 48.
PREGUNTA 5 edad
me20 = 31. 2025 = 24. Ma25 = 5.
PREGUNTA 6 sexo
masc = 42. feme = 18.
-----------------------------------------------------------------------------
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 182
TABLA DE BURT
muy poco nada tods univ sopo debe yapa juvi errv
-----------------------------------------------------------------------------
muy | 24.
poco | 0. 26.
nada | 0. 0. 10.
|
tods | 22. 19. 5. 46.
univ | 2. 3. 3. 0. 8.
sopo | 0. 4. 2. 0. 0. 6.
|
debe | 16. 15. 4. 30. 5. 0. 35.
yapa | 8. 11. 6. 16. 3. 6. 0. 25.
|
juvi | 6. 3. 3. 10. 1. 1. 10. 2. 12.
errv | 18. 23. 7. 36. 7. 5. 25. 23. 0. 48.
|
me20 | 10. 14. 7. 23. 6. 2. 18. 13. 4. 27.
2025 | 10. 11. 3. 19. 2. 3. 15. 9. 8. 16.
Ma25 | 4. 1. 0. 4. 0. 1. 2. 3. 0. 5.
|
masc | 18. 16. 8. 32. 6. 4. 24. 18. 10. 32.
feme | 6. 10. 2. 14. 2. 2. 11. 7. 2. 16.
|
-----------------------------------------------------------------------------
muy poco nada tods univ sopo debe yapa juvi errv
muy poco nada tods univ sopo debe yapa juvi errv
-----------------------------------------------------------------------------
muy | 400. 0. 0. 917. 83. 0. 667. 333. 250. 750.
poco | 0. 433. 0. 731. 115. 154. 577. 423. 115. 885.
nada | 0. 0. 167. 500. 300. 200. 400. 600. 300. 700.
|
tods | 478. 413. 109. 767. 0. 0. 652. 348. 217. 783.
univ | 250. 375. 375. 0. 133. 0. 625. 375. 125. 875.
sopo | 0. 667. 333. 0. 0. 100. 0.1000. 167. 833.
|
debe | 457. 429. 114. 857. 143. 0. 583. 0. 286. 714.
yapa | 320. 440. 240. 640. 120. 240. 0. 417. 80. 920.
|
juvi | 500. 250. 250. 833. 83. 83. 833. 167. 200. 0.
errv | 375. 479. 146. 750. 146. 104. 521. 479. 0. 800.
|
me20 | 323. 452. 226. 742. 194. 65. 581. 419. 129. 871.
2025 | 417. 458. 125. 792. 83. 125. 625. 375. 333. 667.
Ma25 | 800. 200. 0. 800. 0. 200. 400. 600. 0.1000.
|
masc | 429. 381. 190. 762. 143. 95. 571. 429. 238. 762.
feme | 333. 556. 111. 778. 111. 111. 611. 389. 111. 889.
|
-----------------------------------------------------------------------------
muy poco nada tods univ sopo debe yapa juvi errv
EDICION DE VALORES-PROPIOS
-----------------------------------------------------------------------------
SUMA DE VALORES PROPIOS 1.50000000
-----------------------------------------------------------------------------
Clasificar significa reunir individuos que son muy semejantes en un mismo grupo. La
clasificación ha sido siempre una preocupación de la ciencia, ejemplo de ello nos lo
brinda la biología con las clasificaciones de seres vivos (taxonomía) que ha desarrollado
desde hace mucho tiempo. Igualmente en la industria, en el comercio, en la sociedad, etc
se está clasificando permanentemente. Y lo interesante es que la clasificación es también
objeto de la estadística, que ha desarrollado algunos métodos para hacerlo.
Puesto que para clasificar se requiere comparar individuos para medir su “parecido”
debemos comenzar diciendo que se hace necesario tener medidas de similaridad o
indirectamente también medidas de disimilaridad que midan la distancia entre ellos.
Cuando los individuos están determinados por p variables de tipo numérico, se puede
pensar que cada individuo es una p-upla en el espacio real de p dimensiones, algo como:
( x1 , x2 ,L , x p )
y entonces se puede definir una distancia entre un par de individuos por cualquiera de las
tantas formas de medir distancias que existen. Algunas de ellas son las siguientes:
∑ ( xi − x′i )
2
1. Distancia Euclidiana:
1/ p
p
2. Distancia de Minkowski: ∑ ( xi − x′i ) con p ≥1
3. Distancia del taxista ∑ xi − x′i
Existen muchas otras definiciones de distancia entre individuos que no mencionamos en
estas notas.
1. s( I , J ) = s( J , I ), ∀I , J
2. s( I , J ) ≤ s( I , I ) = s( J , J ), ∀I , J
Con mucha frecuencia estos índices se acotan de tal manera que 0 ≤ s ( I , J ) ≤1 y
entonces se define el índice de disimilaridad entre los individuos I,J como el valor
d ( I , J ) = 1 − s( I , J )
Las distancias son evidentemente índices de disimilaridad pero no todo índice de
disimilaridad es una distancia. Lo es cuando satisface d ( I , j ) = 0 ⇒ I = J .y la
propiedad conocida como desigualdad triangular.
INDIVIDUO J
Presen Ausen Total
IN
DI Presen a b a+b
VI
DUO Ausenc c d c+d
I
Total a+c b+d n
a
1. Jaccard (1901): s( I , J ) =
n−a
a+d
2. Sokal (1958): s( I , J ) =
n
2a
3. Schekanowski (1913) s( I , J ) =
2a + b + c
Existen otros muchos índices. Estos son ejemplos de algunos muy conocidos
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 189
Una vez definida la distancia entre individuos, debemos definir una distancia entre
conjuntos de individuos (en particular entre un individuo y un conjunto de individuos) ya
que esto es clave para tener un criterio de asignación de un individuo a un conjunto ya
establecido.
Desde el punto de vista topológico existen varias formas de definir distancias entre
conjuntos. Algunas, las más usuales son las siguientes:
1. Distancia del mínimo (Simple Linkage): se miden todas las posibles distancias entre
individuos de un conjunto A e individuos de un conjunto B y se define d(A,B) como
el mínimo de las distancias anteriores.
2. Distancia del máximo (Complete Linkage). Similar al anterior pero definiendo d(A,B)
como la máxima de las distancias entre puntos de los dos conjuntos.
3. Distancia de los centroides (Centroid Linkage). Se calculan los centros de gravedad
de cada conjunto A y B y luego se mide la distancia entre ellos.
4. Distancia promedio (Average Linkage). Se calculan todas las posibles distancias entre
puntos de A y puntos de B y luego se calcula el promedio de tales distancias.
Sin embargo entre todas aquellas posibles distancias definibles entre conjuntos hay una
muy especial llamada distancia de la Inercia, un poco complicada de definir pero que
conduce al criterio de WARD para asignación de individuos y que es el más usado para
clasificación jerárquica, como se verá en breve.
Los tipos de clasificaciones dan origen a ciertos grupos característicos en los que los
miembros de un mismo grupo son muy semejantes entre sí y muy diferentes a los
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 190
1. Seleccionar los dos individuos más parecidos (de distancia mínima) y formar con
ellos un primer grupo, anotando la distancia a la que se encuentran los miembros de
este grupo.
2. Recalcular la tabla de distancias teniendo en cuenta que los individuos previamente
asignados a un grupo están formando un conjunto que se comporta ahora como un
nuevo individuo. Por tanto, la nueva tabla se define con base en las distancias entre
conjuntos, como se mencionó anteriormente.
3. Mientras falten individuos por reasignar, repetir los pasos 1 y 2 previamente
mencionados.
C_1
C_14
C_15
C_12
C_13
C_6
C_7
C_8
C_9
C_11
C_10
C_2
C_16
C_18
C_27
C_3
C_4
C_19
C_17
C_5
C_23
C_28
C_25
C_26
C_29
C_20
C_22
C_24
C_21
C_30
0 10000 20000 30000 40000 50000 60000 70000
Linkage Distance
PREDI
COMBU
ESCOL
HACIN
INGRS
ALFAB
ECONO
RESID
el que esté el núcleo más parecido al punto que se quiere asignar (es decir al núcleo de
menor distancia al punto considerado). De esta manera se hace un primer agrupamiento
de los n individuos en k grupos.
Generalmente el agrupamiento anterior es muy pobre en cuanto que puede ser mejorado a
fín de que haya mayor varianza entre y menor varianza dentro. Esto implica realizar
nuevas agrupaciones a partir de la anterior. La mayor parte de las veces el paso siguiente
consiste en calcular los centros de gravedad de cada grupo obtenido en la etapa anterior y
utilizar estos puntos como núcleos para un nuevo agrupamiento.
El proceso anterior se repite varias veces hasta que ocurra alguna de las cosas siguientes,
según el caso:
El uso de SICLA requiere de un archivo con las nxp observaciones numéricas rotuladas
como n individuos. Este paquete está formado por 4 ejecutables llamados ENRV,
ENRI, MNDQAN y FF que deben ser ejecutados en este mismo orden.
ENRV registra variables. Se debe dar el nombre, label y tipo (Ej: Ingreso, ING, 1). Los
tipos son: 1=numérica. 2=Categórica. Si las variables son numéricas se debe tener
previamente calculados el mínimo y el máximo. Si es categórica se debe tener
previamente el número de modalidades y un label para cada modalidad (variable por
variable). Al finalizar se crea un archivo *.SDO.
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 195
ENRI se usa para registrar individuos. Pide el número de individuos, el archivo ASCII de
datos, Muestra la primera observación a fin de que se le defina el formato fortran de
lectura. Crea un archivo del tipo LIS15_36
MNDQAN Aplica el método de nubes dinámicas como parte del análisis., para definir
formas fuertes y clasificar los individuos.
INTRODUCCION A SICLA
SICLA (Sistema Interactivo de clasificación)
1. ENRV
2 ENRI
Una vez que el comando anterior se haya ejecutado con éxito se deben registrar
los individuos. Para ello se ejecuta ENRI.
3 MNDQAN
Conditions inicieles
Se responde un n£mero de 1 a 4 de acuerdo con la forma de arranque que
puede ser:
1 A partir de una subpartición aleatoria
2 A partir de una subparticion
3 A partir de una particion aleatoria
4 A partir de una partición previamente definida en un archivo
Nombre de classes
Indicar el n£mero de clases en que se quiere particionar el conjunto.
No aparece cuando se arranca de una partición definida en archivo.
Nombre d'essais
Esta pregunta aparece cuando se arranca aleatoriamente (1 o 3)
Un ensayo corresponde a una nueva inicialización con los mismos pará-
metros. El número de ensayos está limitado a 20
Entrez la sous-partition
Este requerimiento se hace cuando se arranca de la opción 2. En tal
caso para cada clase de la subpartición se pide el número de indivi-
duos de la clase y después los rangos de tales individuos
4 FF
5 INPAQN
7 (3)+(4)
.
EJEMPLO DE CLASIFICACION EN K=4 CONGLOMERADOS
A manera de ejemplo, se hará una clasificación de los 30 barrios de Bogotá considerados
en el ejemplo anterior.
La ejecución de los comandos, junto con las respuestas dadas en este ejemplo, fue como
sigue:
1. Comando ENRV
Enrv Para ejecutar el comando
Bogosoc Nombre de la estructura
1
(un título, opciona)
8 Número de variables
n
PRED, IMPUESTO PREDIAL,1
COMB, CONSUMO COMBUSTIBLE, 1
HACI, INDICE HACINAMIENTO, 1
ESCO, INDICE ESCOLARIDAD, 1
ALFA, INDICE ANALFABETISMO, 1
ECON, NIVEL ECONOMICO, 1
INGR, INDICE NIVEL INGRESOS, 1
RESD, INDICE VIVIENDA, 1
n
2. Comando ENRI
Enri Para ejecutar el comando
30 Número de individuos
3 Longitud del identificador
Bogosoc.dat Archivo de datos dentro de Sicla
(3 a1, 1x, f7.2, 7(2x, f4.2))
oui
3. Comando MNDQAN
1 a$ Todas las variables
1 a$ Todos los individuos
1
4 Partición en 4 clases
15 Un total de 15 ensayos
1
n
3. Comando FF
Como resultado del comando anterior aparece la siguiente información:
1 “mulp” y 2 “part”. Puesto que se desea una multipartición se debe seleccionar 1
que corresponde al rango de la multipartición. En consecuencia:
1
oui
oui Para considerar ilustrativas las formas fuertes de menor efectivo
2 Para indicar que el tope de efectivo mínimo es 2
oui Para que calcule el arbol
oui Para que conserve la partición central
El archivo de salida, en este caso con nombre LIS11_35 (o alguno similar), una vez
depurado, contiene la siguiente información:
En segudo lugar una descripción de las formas fuertes encontradas y sus relaciones, según
la clase en la que ellas se encuentren
Description de la partition des formes fortes par les numeros de classes--------
------------------------------------------------------------(numero de la classe
(f.f.) suivi par le nom donne a la f.f.,l effectif et par les numeros des
classes des partitions ds lesquelles se trouve la f.f.)
1 fff1 11 1 3 2 1 2 3 3 2 2 2 2 2 2 4 4
2 fff2 5 4 2 1 1 1 1 2 2 4 1 3 2 1 4 3
3 fff3 4 2 1 4 3 3 2 1 4 1 3 4 3 4 2 2
4 fff4 2 3 4 3 2 4 4 4 1 3 4 1 1 3 3 1
5 fff5 2 4 2 1 1 1 1 2 2 4 1 3 2 2 4 3
6 fff6 1 2 1 4 4 3 2 1 4 1 3 4 4 4 2 2
7 fff7 1 4 2 1 1 1 1 2 2 4 1 3 2 1 1 3
8 fff8 1 2 1 4 3 3 2 1 3 1 3 4 3 4 1 2
9 fff9 1 2 1 4 3 3 2 1 3 1 3 4 3 1 1 2
10 ff10 1 3 4 3 4 4 4 4 1 3 4 1 1 3 3 1
11 ff11 1 3 4 3 4 4 4 4 1 3 4 1 4 3 3 1
arbre de longueur minimum sur les f.f.
(sans les f.f. illustratives)
--------------------------------------------------
En tercer lugar el árbol de longitud mínima que en este caso no tiene ramas según lo
informa el mensaje siguiente:
arbre de longueur minimum n a pas de branche(pas de trace) En cuarto lugar la
descripción de formas fuertes correspondiente a la partición central en 4 clases:
description de la partition centrale par les f.f.
-------------------------------------------------
(la f.f. est suivie des numeros des classes des partitions
dans lesquelles elle se trouve )
classe numero 1
fff1 1 3 2 1 2 3 3 2 2 2 2 2 2 4 4
classe numero 2
fff7 4 2 1 1 1 1 2 2 4 1 3 2 1 1 3
fff5 4 2 1 1 1 1 2 2 4 1 3 2 2 4 3
fff2 4 2 1 1 1 1 2 2 4 1 3 2 1 4 3
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 205
classe numero 3
fff9 2 1 4 3 3 2 1 3 1 3 4 3 1 1 2
fff8 2 1 4 3 3 2 1 3 1 3 4 3 4 1 2
fff6 2 1 4 4 3 2 1 4 1 3 4 4 4 2 2
fff3 2 1 4 3 3 2 1 4 1 3 4 3 4 2 2
classe numero 4
ff11 3 4 3 4 4 4 4 1 3 4 1 4 3 3 1
ff10 3 4 3 4 4 4 4 1 3 4 1 1 3 3 1
fff4 3 4 3 2 4 4 4 1 3 4 1 1 3 3 1
Y finalmente la enumeración de los individuos (en este caso barrios) que conforman cada
una de las cuatro clases encontradas. Se ha obtenido así una descomposición de la lista de
barrios en cuatro conglomerados que satisfacen las condiciones pedidas a este tipo de
clasificaciones:
------------------------------
classe numero 1 (effectif= 11)
B05 B20 B21 B22 B23 B24 B25 B26 B28 B29 B30
------------------------------
classe numero 2 (effectif= 8)
B17 B03 B04 B02 B16 B18 B19 B27
------------------------------
classe numero 3 (effectif= 7)
B06 B07 B01 B12 B13 B14 B15
------------------------------
classe numero 4 (effectif= 4)
B10 B09 B08 B11
------------------------------
Sabiendo ya a qué clase pertenece cada uno de los barrios analizados, podría pensarse en
iniciar una nueva etapa de análisis: la caracterización o descripción caracteriológica de
cada una de las clases conformadas. Es decir, anotar cuáles son sus características desde
el punto de vista descrito por las variables medidas en ellos. Esta etapa la dejamos para
que el lector ejercite su imaginación.
b(.,.) : 305042100.00
w(.,.) : 15214130.00
t(.,.) : 320256200.00
pourcentage d inertie expliquee : 95.25
|***************|***************|***************|***************|***************|
| partition | classe 1 | classe 2 | classe 3 | classe 4 |
|***************|***************|***************|***************|***************|
var | cor | ctr | cor | ctr | cor | ctr | cor | ctr | cor | ctr |
| PRED| 95.3 | 100.0 | 24.0 | 100.0 | 6.7 | 100.0 | 11.6 | 100.0 | 53.0 | 100.0
OMB | 82.2 | 0.0 | 21.4 | 0.0 | 5.9 | 0.0 | 11.9 | 0.0 | 43.0 | 0.0
HACI| 75.0 | 0.0 | 26.0 | 0.0 | 2.7 | 0.0 | 15.5 | 0.0 | 30.9 | 0.0
| ESCO| 56.9 | 0.0 | 24.2 | 0.0 | 0.7 | 0.0 | 17.2 | 0.0 | 14.9 | 0.0
| ALFA| 53.7 | 0.0 | 19.7 | 0.0 | 1.7 | 0.0 | 13.3 | 0.0 | 19.0 | 0.0
| ECON| 39.6 | 0.0 | 6.2 | 0.0 | 3.2 | 0.0 | 0.9 | 0.0 | 29.2 | 0.0
| RESD| 9.8 | 0.0 | 0.8 | 0.0 | 5.3 | 0.0 | 0.0 | 0.0 | 3.7 | 0.0
| INGR| 7.5 | 0.0 | 1.6 | 0.0 | 1.1 | 0.0 | 2.9 | 0.0 | 1.9 | 0.0
--------------------------------------------------------------------------------------
Les variables dans chaque classe donnant les plus grandes valeurs de dd
----------------------------------------------------------------------
dd --> ecart entre les moyennes d une variable dans une classe et dans le nuage
dd(j,k) = (cgp(j,k)-cg(j))/sigma(j)
avec cgp(j,k)-->centre de gravite de la classe k pour la variable j
cg(j)-->centre de gravite du nuage pour la variable j
sigma(j)-->ecart-type du nuage pour la variable j
De una manera muy superficial se presenta en estas notas una introducción al análisis
discriminante, una técnica de gran aplicación cuando se desea clasificar uno o más
individuos dentro de varios grupos previamente establecidos.
El análisis discriminate tiene dos objetivos principales: de una parte, describir la manera
cómo se separan dos o más grupos y de otra, la formulación de una regla para asignar un
individuos dentro de uno de varios grupos de una manera óptima. El primer objetivo se
logra fundamentalmente con la construcción de una o más funciones que limiten, por así
decirlo, a los grupos. El segundo objetivo mediante la optimización de una probabilidad
de asignación que a la vez minimice el costo de mala clasificación del individuo.
Son varios los métodos utilizados por los estadísticos para lograr una buena
discriminación. Podemos citar: El método de máxima verosimilitud, el método de
construcción de funciones discriminates, uno de los más usados, un método basado en
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 209
Una suposición bastante fuerte que con mucha frecuencia se hace es que las matrices de
varianzas-covarianzas para los grupos previamente establecidos, sean iguales. Esto no es
estrictamente necesario pero facilita las deducciones cuando se cumple.
Muy brevemente se presentará el caso de dos grupos y luego se generalizará para más de
dos grupos normales
Cuando se tienen más de dos grupos y se quiere clasificar un individuo, puede emplearse
cualquiera de los tres métodos siguientes:
Los cálculos suelen ser laboriosos pero afortunadamente hay varios paquetes estadísticos
que los hacen por nosotros: Minitab y Statistica, entre los más conocidos.
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 210
Supóngase además que se tiene un individuos cuyas medidas son (1795.3, 684.2, 780.5,
2386.1, 1072.3, 4052.2, 1503.9, 3986.1, 4150.2)Se quiere saber en cuál de los tres
grupos clasifica mejor.
Se puede usar Minitab (incluso bajo DOS) con los siguientes comandos:
Summary of Classification
Con la ayuda de estas tres funciones se clasifica la observación: simplemente las variables
X1, X2, ..., X9 se reemplazan por los respectivos valores de la observación para cada una
de las tres funciones lineales. La observación se clasifica en el grupo que arroje el mayor
valor.
Lo cual indica que las variables DEXTO, DINTO, ACOLL, ANHUM y LTOXE tienen el
mayor poder de discriminación.
Ejemplo. Supóngase que se califican sobre 100 puntos tres características de dos
detergentes para cocina, a saber: a) su efectividad para limpiar la grasa, b) el aroma que
posee y c) la calidad del empaque. Los productos fueron calificados por 16 clientes en
un supermercado, según la escogencia de uno u otro producto en el momento de la
compra. Los datos son los siguientes:
55 33 28 1
50 50 26 1
53 32 30 1
54 33 29 1
57 33 31 1
56 34 31 1
56 31 29 1
55 30 29 1
56 32 28 1
63 32 30 2
54 31 30 2
57 33 32 2
60 32 32 2
58 33 31 2
58 32 31 2
60 33 31 2
Lo que nos dice que las variables LIMPIEZA y COSTO son discriminantes: difieren en
los grupos.
Esto indica que el problema queda bien representado mediante un único factor, dado por
F1= 0.511*Limpieza + 0.215*Aroma + 0.966*Costo, según se ve enseguida.
Variables
Limpieza 0.511
Aroma 0.215
Empaq 0.966
Las funciones discriminantes (de Fisher) permiten decidir, ante una nueva observación, a
cuál de los dos grupos asignarla. Se hará en aquel grupo donde produzca un mayor valor.
Estas funciones pueden verse como:
Variable Coefficient
1 11.818
2 8.738
3 25.164
Variable Coefficient
1 12.460
2 9.008
3 26.379
CLASSIFICATION OF CASES
La tabla siguiente proporciona el total de clasificaciones coincidentes entre las que había
antes de aplicar el algoritmo y las que éste produce. Es una especie de medida de la
capacidad del algoritmo para reproducir la clasificación original
CLASSIFICATION TABLE
PREDICTED GROUP
Variables
1 2 TOTAL
1 7 2 9
2 1 6 7
TOTAL 8 8 16
La salida siguiente mide el grado de asociación entre cada una de las variables originales
con los factores producidos
Corr.s Between Variables and Functions with 16 valid cases.
Variables
1
Limpieza 0.868
Aroma -0.293
Empaq 0.846
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 217
A 4 5 2 2 3 5 3 4 2 2 3 4 3 5 2 4 2 2 5 4 4 3 3 4
B 3 4 4 2 4 4 4 3 4 4 3 3 4 4 4 2 1 4 4 3 2 3 3 3
C 4 3 3 2 2 4 4 3 2 2 3 4 5 4 3 2 4 2 3 2 2 4 2 4
D 5 4 2 4 2 4 4 4 2 2 2 5 5 3 4 3 2 4 4 2 3 2 1 3
E 5 2 2 2 4 4 3 2 4 2 2 5 4 3 2 3 2 4 5 4 3 4 4 2
F 4 2 4 3 2 3 2 4 2 4 4 4 3 4 4 2 2 5 5 4 2 2 2 4
G 3 2 4 2 4 4 3 3 4 4 3 5 4 3 2 4 3 5 4 4 4 2 2 4
H 2 4 2 2 4 4 4 4 3 2 2 4 4 3 2 2 2 4 3 2 2 3 4 4
I 4 3 4 4 3 2 4 3 4 4 2 3 2 2 2 1 2 4 4 4 4 2 4 3
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 218
J 3 4 4 2 2 4 3 3 2 1 4 4 4 4 2 1 3 3 2 2 4 4 2 4
K 2 2 2 4 4 3 5 2 2 4 2 2 3 4 4 4 4 4 4 4 3 2 4 2
L 4 4 2 2 2 4 4 4 2 2 1 2 2 3 3 2 2 3 2 2 2 4 2 4
Promediando los valores de las casillas homólogas en las cuatro encuestas anteriores se
obtiene la siguiente matriz:
Matriz de calificaciones de los 12 productos:
X1 X2 X3 X4 X5 X6
A 3.8 4.5 2.5 2.8 2.8 3.8
B 3.8 3.8 3.5 2.8 2.8 4.0
C 4.0 3.0 2.5 2.5 2.8 3.8
D 4.5 3.2 2.8 2.8 1.8 4.0
E 4.2 2.8 2.8 2.8 3.0 3.8
F 3.5 3.8 3.0 2.8 2.5 4.0
G 3.5 3.0 3.5 3.0 3.0 3.8
H 3.2 3.2 2.2 2.2 3.0 4.0
I 3.5 3.0 3.5 2.8 2.8 3.0
J 3.0 3.2 3.0 2.0 2.8 3.8
K 3.5 3.0 2.8 3.5 3.5 2.8
L 3.0 3.2 2.2 2.5 1.8 3.2
La anterior matriz, cuyas filas pueden verse como 12 puntos de ℜ6 , da origen a la matriz
de distancias siguiente:
A B C D E F G H I J K L
A 0.00 1.24 1.54 1.82 1.78 0.98 1.85 1.61 1.99 1.79 2.10 1.97
B 1.24 0.00 1.35 1.53 1.32 0.66 0.92 1.68 1.32 1.39 1.91 2.10
C 1.54 1.35 0.00 1.23 0.55 1.17 1.24 0.97 1.41 1.24 1.68 1.58
D 1.82 1.53 1.23 0.00 1.32 1.37 1.75 1.96 1.88 1.99 2.42 1.83
E 1.78 1.31 0.55 1.32 0.00 1.35 1.03 1.39 1.30 1.52 1.51 1.96
F 0.98 0.65 1.17 1.37 1.35 0.00 1.10 1.30 1.41 1.17 1.90 1.57
G 1.85 0.92 1.24 1.75 1.03 1.10 0.00 1.58 0.85 1.26 1.41 2.01
H 1.61 1.68 0.97 1.96 1.39 1.30 1
.58 0.00 1.79 0.89 1.97 1.49
I 1.99 1.32 1.41 1.88 1.31 1.41 0.85 1.79 0.00 1.35 1.23 1.76
J 1.79 1.39 1.24 1.99 1.52 1.17 1.26 0.89 1.35 0.00 2.02 1.50
K 2.10 1.91 1.68 2.42 1.51 1.90 1.41 1.97 1.23 2.02 0.00 2.17
L 1.97 2.10 1.58 1.83 1.96 1.57 2.01 1.49 1.76 1.50 2.17 0.00
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 219
BIBLIOGRAFIA
ANEXO 1
Nivel de Significancia
n 0.20 0.15 0.10 0.05 0.01
1 0.900 0.925 0.950 0.975 0.995
2 0.684 0.726 0.776 0.842 0.929
3 0.565 0.597 0.642 0.708 0.828
4 0.494 0.525 0.564 0.624 0.733
5 0.446 0.474 0.510 0.565 0.669
ANEXO 2
Puntos porcentuales superiores de rangos estudentizados al 5% de significancia, qk , ν , 0.05
para la prueba de Tukey en comparaciones múltiples.
ANEXO 3
Límites de intervalos para prueba de Durbin y Watson (p= Número var. independientes)
Nivel de significancia: 0.05
p=1 p=2 p=3 p=4 p=5
N dL dU dL dU dL dU dL dU dL dU
15 1.08 1.36 0.95 1.54 0.82 1.75 0.69 1.97 0.56 2.21
16 1.10 1.37 0.98 1.54 0.86 1.73 0.74 1.93 0.62 2.15
17 1.13 1.38 1.02 1.54 0.90 1.71 0.78 1.90 0.67 2.10
18 1.16 1.39 1.05 1.53 0.93 1.69 0.82 1.87 0.71 2.06
19 1.18 1.40 1.08 1.53 0.97 1.68 0.86 1.85 0.75 2.02
20 1.20 1.41 1.10 1.54 1.00 1.68 0.90 1.83 0.79 1.99
21 1.22 1.42 1.13 1.54 1.03 1.67 0.93 1.81 0.83 1.96
22 1.24 1.43 1.15 1.54 1.05 1.66 0.96 1.80 0.86 1.94
23 1.26 1.44 1.17 1.54 1.08 1.66 0.99 1.79 0.90 1.92
24 1.27 1.45 1.19 1.55 1.10 1.66 1.01 1.78 0.93 1.90
25 1.29 1.45 1.21 1.55 1.12 1.66 1.04 1.77 0.95 1.89
26 1.30 1.46 1.22 1.55 1.14 1.65 1.06 1.76 0.98 1.88
27 1.32 1.47 1.24 1.56 1.16 1.65 1.08 1.76 1.01 1.86
28 1.33 1.48 1.26 1.56 1.18 1.65 1.10 1.75 1.03 1.85
29 1.34 1.48 1.27 1.56 1.20 1.65 1.12 1.74 1.05 1.84
30 1.35 1.49 1.28 1.57 1.21 1.65 1.14 1.74 1.07 1.83
31 1.36 1.50 1.30 1.57 1.23 1.65 1.16 1.74 1.09 1.83
32 1.37 1.50 1.31 1.57 1.24 1.65 1.18 1.73 1.11 1.82
33 1.38 1.51 1.32 1.58 1.26 1.65 1.19 1.73 1.13 1.81
34 1.39 1.51 1.33 1.58 1.27 1.65 1.21 1.73 1.15 1.81
35 1.40 1.52 1.34 1.58 1.28 1.65 1.22 1.73 1.16 1.80
36 1.41 1.52 1.35 1.59 1.29 1.65 1.24 1.73 1.18 1.80
37 1.42 1.53 1.36 1.59 1.31 1.66 1.25 1.72 1.19 1.80
38 1.43 1.54 1.37 1.59 1.32 1.66 1.26 1.72 1.21 1.79
39 1.43 1.54 1.38 1.60 1.33 1.66 1.27 1.72 1.22 1.79
40 1.44 1.54 1.39 1.60 1.34 1.66 1.29 1.72 1.23 1.79
- --- --- --- --- --- --- --- --- --- ---
45 1.48 1.57 1.43 1.62 1.38 1.67 1.34 1.72 1.29 1.78
50 1.50 1.59 1.46 1.63 1.42 1.67 1.38 1.72 1.34 1.77
55 1.53 1.60 1.49 1.64 1.45 1.68 1.41 1.72 1.38 1.77
60 1.55 1.62 1.51 1.65 1.48 1.69 1.44 1.73 1.41 1.77
65 1.57 1.63 1.54 1.66 1.50 1.70 1.47 1.73 1.44 1.77
70 1.58 1.64 1.55 1.67 1.52 1.70 1.49 1.74 1.46 1.77
75 1.60 1.65 1.57 1.68 1.54 1.71 1.51 1.74 1.49 1.77
80 1.61 1.66 1.59 1.69 1.56 1.72 1.53 1.74 1.51 1.77
85 1.62 1.67 1.60 1.70 1.57 1.72 1.55 1.75 1.52 1.77
90 1.63 1.68 1.61 1.70 1.59 1.73 1.57 1.75 1.54 1.78
95 1.64 1.69 1.62 1.71 1.60 1.73 1.58 1.75 1.56 1.78
100 1.65 1.69 1.63 1.72 1.61 1.74 1.59 1.76 1.57 1.78
INTROD. A LA ESTADISTICA GENERAL JAIRO A CLAVIJO M 225
ANEXO 4
Valores críticos de TL y TU para las sumas de rangos de Wilcoxon
a) Niveles de significancia del 5% para dos colas y del 2.5% para una cola
n1 3 4 5 6 7 8 9 10
n2 TL TU TL TU TL TU TL TU TL TU TL TU TL TU TL TU
3 5 16 6 18 6 21 7 23 7 26 8 28 8 31 9 33
4 6 18 11 25 12 28 12 32 13 35 14 38 15 41 16 44
5 6 21 12 28 18 37 19 41 20 45 21 49 22 53 24 56
6 7 23 12 32 19 41 26 52 28 56 29 61 31 65 32 70
7 7 26 13 35 20 45 28 56 37 68 39 73 41 78 43 83
8 8 28 14 38 21 49 29 61 39 73 49 87 51 93 54 98
9 8 31 15 41 22 53 31 65 41 78 51 93 63 108 66 114
10 9 33 16 44 24 56 32 70 43 83 54 98 66 114 79 131
b) Niveles de significancia del 10% para dos colas y del 5% para una cola
n1 3 4 5 6 7 8 9 10
n2 TL TU TL TU TL TU TL TU TL TU TL TU TL TU TL TU
3 6 15 7 17 7 20 8 22 9 24 9 27 10 29 11 31
4 7 17 12 24 13 27 14 30 15 33 16 36 17 39 18 42
5 7 20 13 27 19 36 20 40 22 43 24 46 25 50 26 54
6 8 22 14 30 20 40 28 50 30 54 32 58 33 63 35 67
7 9 24 15 33 22 43 30 54 39 66 41 71 43 76 46 80
8 9 27 16 36 24 46 32 58 41 71 52 84 54 90 57 95
9 10 29 17 39 25 50 33 63 43 76 54 90 66 105 69 111
10 11 31 18 42 26 54 35 67 46 80 57 95 69 111 83 127