Está en la página 1de 220

CURSO DE ESTADISTICA UNIVERSITARIA

DR. MAURICIO CANALS LAMBARRI

FACULTAD DE CIENCIAS UNIVERSIDAD DE CHILE

RPI N°:153541
2
Prologo

Este libro ha sido diseñado como un curso de estadística general de acuerdo a los
programas vigentes en diferentes universidades. Está escrito en una forma general con
ejemplos aplicables a diferentes ámbitos. Tiene un énfasis en las bases conceptuales y
metodológicas de los distintos temas, sin perder el rigor matemático de sus
fundamentos. En general se evitan las demostraciones matemáticas dificultosas que
distraen del objetivo general.

El libro está dividido en seis unidades, de las cuales las primeras cuatro
corresponden a los programas habituales de los cursos de pre-grado en todas las carreras
donde el análisis de datos es relevante.

La primera unidad corresponde a Estadística descriptiva, donde se sientan las


bases de la descripción de la información. La segunda unidad corresponde a Estadística
matemática, donde se aportan los aspectos más relevantes de la teoría de probabilidades.

Las unidades tres y cuatro son las más importantes en un curso básico, donde se
encuentran los principales métodos usados en inferencia estadística. Se separan en una
unidad especial el análisis de varianza y la regresión. Para los lectores poco avezados en
matemáticas, se puede pasar directamente desde la unidad 1 a la 3.

La unidad 5 corresponde a una serie de tópicos, habitualmente no tratados en los


cursos básicos, pero que frecuentemente son usados en diversas áreas como las
estadísticas vitales en los estudios poblacionales, el muestreo en poblaciones finitas en
el área industrial, las series temporales y la regresión logística. En esta unidad los temas
son tratados con menor profundidad, haciendo hincapié en las bases conceptuales, pero
sin perder rigurosidad de tratamiento del tema.

La última unidad introduce el análisis multivariado, ya que cada día se toma


mayor conciencia del origen multicausal de muchos fenómenos, por lo que es necesario
una mayor comprensión y utilización de esta metodología.

Este libro es el resultado de varios años dictando cursos básicos de estadística. El


tratamiento en todos los capítulos intenta ser claro pero conciso, sin redundar en largas
explicaciones ni repeticiones de ejemplos. Cuando se ha considerado necesario, se
apoyan las explicaciones con ejemplos didácticos aplicables en cualquier disciplina.
3
Índice general

INTRODUCCIÓN: CIENCIA Y ESTADISTICA 8


I UNIDAD: ESTADISTICA DESCRIPTIVA 10
I.- ESTADÍSTICA 11

I.1.- Bases e historia 11


I.2.- Definición 11

II.- ESTADÍSTICA DESCRIPTIVA 14

II.1.- Observaciones, variables y escalas 14


II.2.- Representación de la información 14
II.3.- Medidas de resumen 16

Ejercicios de estadística descriptiva 22

II UNIDAD: ESTADISTICA MATEMATICA 24

III.- PROBABILIDADES 25

III.1.- Experimento Aleatorio, Espacio Muestral 25


III.2.- Probabilidades y Conjuntos 27
III.3.- Propiedades de las Probabilidades 28
III.4.- Independencia Estocástica y Probabilidad Condicional 29
III.5.- Probabilidades en Medicina 33

Ejercicios de Probabilidades 41

IV.- VARIABLES ALEATORIAS 46

IV.1.- Distribución de una variable aleatoria 46


IV.2.- Distribución de Bernoulli 50
IV.3.- Distribución binomial 50
IV.4.- Distribución de Poisson 52
IV.5.- Variables aleatorias continuas 54
4

IV.6.- Distribución uniforme 55


IV.7.- Distribución exponencial 55
IV.8.- DISTRIBUCIÓN NORMAL 55
IV.9.- Otras distribuciones importantes 59

Ejercicios de variables aleatorias 63

III UNIDAD: INFERENCIA ESTADISTICA 66

V.- ESTIMACIÓN 67

V.1.- Estimadores 67
V.2.- Estimaciones 69
V.2.1 Intervalo de confianza para una proporción P y para la diferencia P1-P2 69
V.2.2 Intervalo de confianza para el promedio x y para la diferencia x1-x2 70
V.3.- El tamaño muestral 71
V.2.3.- Estimaciones en Medicina 72

Ejercicios de estimación 74

VI.- DOCIMASIA O PRUEBA DE HIPÓTESIS 76

VI.1.- Bases 76
VI.2.- Dócimas para una muestra 80
VI.3.- Dócimas para dos muestras 82
VI.4.- Supuestos de las dócimas 86

Ejercicios de Pruebas de Hipótesis para una y dos muestras 89

VII.- ANÁLISIS DE DATOS ENUMERATIVOS O FRECUENCIAS 93

VII.1.- La distribución 2 93
VII.2.- Bondad de ajuste de 2 98
VII.3. El χ2 para proporciones 100
VII.4.- La prueba G 101
5

Ejercicios de análisis de datos enumerativos 103

VIII.- ESTADÍSTICA DE DISTRIBUCIÓN LIBRE O NO-PARAMÉTRICA 105

VIII.1.- Alternativas no paramétricas a las dócimas para dos muestras 106

Ejercicios de estadística no-paramétrica 112

IV UNIDAD: ANALISIS DE LA VARIANZA, CORRELACION Y REGRESION 114

IX.- ANÁLISIS DE LA VARIANZA (ANOVA o ANDEVA) 115

IX.1.-El Problema de Bonferroni 115


IX.2.- Diseño experimental 116
IX.3.- Análisis de la varianza de 1 vía o factor (ANOVA de 1 vía). 117
IX4.- Comparaciones múltiples 121
IX.5.- ANOVA de dos vías: la interacción 124
IX.6.- Otros diseños 127
IX.7.- Alternativas no paramétricas al ANOVA 129

Ejercicios de análisis de la varianza 131

X.- CORRELACIÓN Y REGRESIÓN 134

X.1.- Correlación 134


X.2.- Regresión 135
X.3.- Regresión y ANOVA 137
X.4.- Predicciones 140
X.4.- Supuestos y alternativas no paramétricas 141
X.5.- Análisis de Covarianza (ANCOVA) 142

Ejercicios de correlación y regresión 144

V UNIDAD.- TOPICOS ESPECIALES 145


6

XI.- BASES DE MUESTREO 146

XI.1.- Muestreo en poblaciones finitas e infinitas 146


XI.2.- Tamaño muestral, potencia y precisión 147

XII.- ESTADISTICAS VITALES 150

XII.1.- Tablas de vida 150


XII.2.- Comparación de curvas de supervivencia 152

Ejercicios de estadísticas vitales 154

XIII.- REGRESION LOGISTICA 155

XIII.1.- Bases 155


XIII.2.- Pruebas de hipótesis 155
XIII.3.- La razón de chances (odds ratio) 156

XIV.- SERIES DE TIEMPO 158

XIV.1.- Bases 158


XIV.2.- Autocorrelación y autocorrelación parcial 158
XIV.3.- Algunos modelos 159

UNIDAD VI: INTRODUCCION AL ANALISIS MULTIVARIADO 160

XV.- ANALISIS MULTIVARIADO DE LA VARIANZA (MANOVA) 161

XV.1.- Análisis multivariado o univariado? 161


XV.2.- MANOVA 162

XVI.- REGRESION MULTIPLE 163

XVI.- Expresión matricial de una regresión 163


XVI.2.- Regresión múltiple 163
XVI.3.- El aporte de cada variable 165
7

XVI.4.- Correlación múltiple, simple y parcial 166


XVI.5.- Selección de variables 167
XVI.6.- Análisis de vías (o sendas) 169
XVI.7.- Regresión logística múltiple 170

XVII.- ANALISIS DISCRIMINANTE 173

XVII.1.- Fundamento 173


XVII.2.- Clasificación 174

XVIII.- ANALISIS DE COMPONENTES PRINCIPALES 176

XVIII.1.- Fundamentos 176

XIX.- CORRELACION CANONICA Y ANALISIS DE CORRESPONDENCIA 180

XIX.1.- Correlación canónica 180


XIX.2.- Análisis de correspondencia o Reciprocal averaging 181

XX.- ANALISIS DE CONGLOMERADOS (CLUSTER) 184

XX.1.- Fundamentos 184


XX.2.- Medidas de similitud y distancia 184
XX.2.- Métodos de agrupación 186

Bibliografía 190

ANEXO I.- FORMULAS UTILES 192

ANEXO II.- TABLAS SIMPLIFICADAS 211


8

INTRODUCCIÓN: CIENCIA Y ESTADISTICA

El objetivo de la ciencia es captar el orden de los fenómenos para hacerlos


comprensibles dando una explicación racional de ellos, determinando sus causas y
haciéndolos previsibles.

Esta captación del orden pasa primero por la elección e identificación del
fenómeno y decidiendo el enfoque de interés. Este puede ser de tipo sistémico u holista
en el que el interés esta concentrado en la totalidad y no en las partes (el todo es mas
que la suma de las partes), o bien de tipo reduccionista en el que se estudian las
partes para entender el todo. En general ambos enfoques conducen a la construcción de
modelos, sean éstos formales o de simple palabra, que representen el fenómeno. Estos
reducen la complejidad del fenómeno, haciéndolo comprensible.

La ciencia, según Kuhn (1962), puede ser entendida como una colección de datos
en el contexto de una forma de entender como funciona la naturaleza (paradigma). En
su conjunto, evoluciona saltando de paradigma en paradigma (revoluciones científicas)
en la medida que se acumulan evidencias contradictorias a la luz del paradigma
existente. Esta acumulación de evidencias obedece a un proceso constante de
proposición de explicaciones y causalidades de fenómenos naturales que puede ir de lo
general a lo particular (deducción) o desde lo particular a lo general (inducción).

La deducción es una forma de generación de proposiciones lógicas. Estas


proposiciones lógicas que tienen un valor de verdad desconocido las conocemos como
hipótesis y pueden ser entendidas como enunciados que contienen proposiciones
verificables y que anteceden a otras en el proceso continuo de la ciencia.

La inducción por el contrario, genera proposiciones generales a partir de la


repetitividad de hechos particulares.

El proceso del conocer requiere de un método. Este es conocido como método


científico, que básicamente contiene varias etapas:

i) elección del sistema,


ii) enunciado del problema,
iii) planteamiento de la hipótesis y deducción de consecuencias verificables de ella
(si p, entonces q),
iv) diseño experimental,
v) prueba de la hipótesis, y
vi) interpretación de los resultados, generando nuevas hipótesis.
9

Para Popper (1979) el método consiste en una confrontación de los datos con una
hipótesis, pudiendo ésta ser solamente rechazada y no probada. Así, en el método de
Popper, hipotético-deductivo-refutacionista, existe una hipótesis de nulidad que
cuando es rechazada, nos permite proponer nuevas hipótesis (falsificación de la
hipótesis).

En el método de Popper convergen la deducción y la inducción, estando


relacionada la primera con la generación de hipótesis y la segunda con la refutación.
Para este segundo proceso, la refutación, son necesarios métodos rigurosos y eficientes
que permitan una adecuada toma de decisiones. Aquí es donde es relevante la
metodología de la inferencia estadística. Esta, en su base fundamental consiste en
plantear una dicotomía entre la hipótesis de nulidad (Ho) y un alternativa (H 1), de tal
manera que a través de la repetitividad de resultados experimentales (inducción) en una
muestra, sea posible el rechazo de Ho y por tanto la inferencia de H 1 a la población
completa.
10

I UNIDAD: ESTADISTICA DESCRIPTIVA


11

I.- ESTADÍSTICA

I.1.- Bases e historia

El término “estadística” proviene de la palabra estado, y se refiere al origen


histórico de esta disciplina relacionado con la descripción cuantitativa de asuntos del
estado. También se llamó aritmética política. Su objetivo inicial era describir
cuantitativamente diversos hechos de interés. En tiempos de Cesar Augusto el
estadístico era el recaudador de impuestos y en tiempos de Guillermo el conquistador se
editó el primer censo de Inglaterra (Domesday Book). En el siglo XVII J. Graunt (1620-
1674) y W. Petty (1623-1687) desarrollaron la estadística vital.

En esta misma época, en forma independiente nació la rama matemática de las


probabilidades a raíz del interés en el juego de Antoine Gombaud (el caballero de Merè:
1610-1685) y de los matemáticos B. Pascal (1623-1662) y P. Fermat (1601-1665).
Posteriormente, J Bernouilli (1654-1705), A. De Moivre (1667—1754), P.S. Laplace
(1749-1827) y K.F. Gauss (1777-1855) contribuyeron a fortalecer las probabilidades,
combinándola con los datos estadísticos. A. Quetelet (1796-1874) y finalmente F.
Galton (1822-1911) aplicaron la estadística al análisis de la variabilidad biológica.

El desarrollo definitivo de la estadística, uniendo sus raíces descriptivas y


matemáticas viene con K. Pearson (1857-1936), W.S. Gosset “Student” (1876-1937), J.
Neyman (1894), E.S. Pearson (1895), A. Wald (1902-1950) y R.A. Fisher (1890-1962).
Tal vez las figuras mas destacadas que relacionaron la estadística y la biología, dando
origen a la biometría, son K. Pearson (fundador de la revista Biometrika) y R.A.
Fisher (Statistical methods for research workers, 1925).

En paralelo, la estadística matemática ha sido enriquecida con las contribuciones


de Maxwell, Boltzman y Gills (mecánica estadística) y por Kolmogorov (probabilidades
axiomáticas) y Lebesgue (teoría de la medida).

I.2.- Definición

La estadística actual se puede definir de muchas formas, por ejemplo “conjunto


de métodos que permiten recolectar presentar y analizar información” o “análisis
científico de datos basados en fenómenos naturales” (Sokal & Rholf, 1969). Sin
embargo una definición útil en el contexto de su aplicación en las ciencias es:
12
“La estadística es la ciencia, pura y aplicada, que crea, desarrolla y aplica
técnicas para la descripción de datos y la evaluación de la incertidumbre de
inferencias inductivas” (modificada de Steel & Torrie, 1985).

Esta definición hace énfasis en dos aspectos:

i) la estadística no es sólo un conjunto de métodos o recetas para aplicar ante


determinados problemas, sino que también incluye la creación y el
desarrollo de la teoría y métodos.
ii) la estadística en ciencias se basa en la evaluación de la incertidumbre
(probabilidad) de ciertas proposiciones (hipótesis) inferidas mediante un
proceso de inducción (de lo particular a lo general)

La estadística tiene tres capítulos claramente diferentes que se correlacionan con


el desarrollo histórico:

I) Estadística Descriptiva: cuyo fin es describir datos.


II) Estadística Matemática: que constituye la base teórica de toda la
estadística.
III) Inferencia Estadística: que tiene dos sub-capítulos con objetivos
diferentes:
a) Estimación: cuyo fin es aproximar el valor de ciertos parámetros
b) Docimasia o prueba de Hipótesis: cuyo objetivo es probar
hipótesis.

La estadística en investigación ha enriquecido el método científico, dándole


sentido y un marco teórico a sus diversas etapas. Este último se puede describir
detalladamente como:

i) elección del sistema a estudiar y su enfoque,


ii) enunciado del problema,
iii) definición de objetivos,
iv) planteamiento de la hipótesis,
v) deducción de consecuencias verificables de ella,
vi) dicotomía de la hipótesis (Ho vs. H1),
vii) diseño experimental:
a) decidir tipo de investigación:
1) Recopilación de datos ya registrados (estudio retrospectivo) u
obtener nuevos datos (estudio prospectivo).
2) Un estudio instantáneo (estudio transversal) o un seguimiento
(estudio longitudinal).
3) Será sólo un estudio descriptivo o explicativo?
13
4) Será experimental o no-experimental?
b) definir el Universo,
c) diseño de la muestra,
d) definición de grupo control,
e) definición de unidades de observación,
f) definición de las fuentes de información,
g) unidades de medidas y escalas
viii) elección de estadígrafos para la prueba de la hipótesis,
ix) elección del nivel de significación
x) docimasia de hipótesis
xi) toma de decisión (rechazo Ho?)
xii) representación de la información
xiii) interpretación de los resultados,
xiv) génesis de nuevas hipótesis
14

II.- ESTADÍSTICA DESCRIPTIVA

II.1.- Observaciones, variables y escalas

La estadística trabaja con datos u observaciones, que en general son valores


numéricos de una variable en una unidad de observación particular. Por ejemplo, si
estamos interesados en la edad de los individuos, la unidad de observación es el
individuo, la variable de interés es la edad, la unidad de medida puede ser “años” y un
dato puede ser “5 años” en un individuo.

Las variables pueden ser cuantitativas cuando miden cantidad o contenido de


algún atributo, o bien cualitativas cuando se refieren a calidad. Por ejemplo masa, peso,
longitud, cantidad son cuantitativas y color, olor y textura son cualitativas. Las variables
pueden ser también continuas cuando se puede establecer correspondencia biunívoca
con los números reales, o discretas cuando establecen relación con los números
naturales.

Las escalas de medidas pueden ser nominales, ordinales, discretas, continuas o


por intervalos. Por ejemplo, nominal: negro o blanco; ordinal: corto, mediano, largo;
continua: gramos; por intervalos: menor que 10 años, mayor o igual que diez años.

II.2.- Representación de la información

Los datos u observaciones se representan de diversos modos, que en general se


pueden resumir en dos: i) gráficos, e ii) tablas. Entre éstos, son de interés las tablas de
distribución de frecuencias y los histogramas y polígonos de frecuencia

Tablas de distribución de frecuencias.

Las tablas de distribución de frecuencias de n datos u observaciones


corresponden básicamente a la representación en columnas del conjunto de valores de
una variable (niveles de una variable: yi) y sus frecuencias absolutas (ni).

En el caso de variables cualitativas adquiere una representación muy simple:

Variable Frecuencia absoluta (ni) %


Y1 n1 (n1 /n)·100
Y2 n2 (n2 /n)·100
....... ....... .........
Yk nk (nk /n)·100
n =ni 100
15

En el caso de las variables discretas, si consideramos una variable X, donde X i


son las observaciones e yi los k niveles de la variable. Entonces podemos definir:

i) frecuencia relativa hi  ni / n

i j

ii) frecuencia acumulada N j   ni


i 1

i j

iii) frecuencia acumulada relativa H j   hi


i 1

En este caso la tabla incluye las columnas: yi, ni, hi, Ni, y Hi.

En el caso de las variables continuas muchas veces es necesario agrupar datos


(series agrupadas) por intervalos llamados intervalos de clase. Estos se anotan como
[y’i-1, y’i], donde y’i-1 representa el límite inferior del intervalo e y’ i, el límite superior.
La amplitud de cada intervalo es ci = y’i- y’i-1.

Si definimos recorrido o rango de la variable X como la diferencia entre los


valores máximo y mínimo, R = xmax –xmin, y se agrupa en k intervalos iguales,
entonces ci = R/k.

En estas tablas de distribución de frecuencias se define marca de clase como el


valor promedio entre los límites del intervalo: yi = (y’i- y’i-1)/2.

La tabla incluye las columnas: y’i-1, y’i, ci, yi, ni, hi, Ni, y Hi
Histograma y polígono de frecuencias

La tabla de distribución de frecuencias tiene una expresión gráfica natural en el


histograma y el polígono de frecuencias. El histograma de frecuencias corresponde a un
gráfico de barra de X vs hi, donde cada barra es un intervalo. El polígono de frecuencias
corresponde a la gráfica de yi vs hi.

Ejemplo 1.-

La variable X con la siguiente tabla de distribución de frecuencias:


16

y’i-1 Y’i yi ci ni hi Ni hi
2 4 3 2 20 0.2 20 0.2
4 6 5 2 25 0.25 45 0.45
6 8 7 2 30 0.3 75 0.75
8 10 9 2 10 0.1 85 0.85
10 12 11 2 12 0.12 97 0.97
12 14 13 2 3 0.03 100 1.00

En esta figura, el histograma corresponde al gráfico de barras y el polígono a la


línea poligonal que une los puntos medios de cada barra.

II.3.- Medidas de resumen

La información se puede representar en gráficos o tablas, sin embargo éstas no


son útiles a la hora de tomar decisiones estadísticas. Es mejor caracterizar las variables
por ciertas medidas que describen su distribución o histograma. Estas se denominan
medidas de resumen y se pueden dividir en cuatro:

a) medidas de posición: cuyo fin es representar la posición


central de la distribución u otras posiciones de interés.
17

b) medidas de dispersión: cuyo fin es representar la


dispersión de los datos en torno a alguna medida de
posición.

c) medidas de simetría o sesgo: cuyo fin es representar el


tipo de asimetría de la distribución.

d) medidas de apuntamiento o curtosis: cuyo fin es medir la


elevación de las frecuencias relativas.

Medidas de posición

La medida de posición más usada es el promedio, que podemos definir


preliminarmente como una medida central que se relaciona el valor de una variable con
su frecuencia relativa de presentación. Corresponde a la media aritmética y se puede
expresar como:

x 
x i

Si la serie ha sido agrupada, entonces y 


 ni yi
  hi yi
n

Algunas propiedades den promedio son:

i) La suma de las desviaciones de los valores en torno al promedio es nula.


Si definimos zi = xi -x, entonces zi = 0.
ii) Dado z’i = xi –u, con u un valor cualquiera, entonces z’i es mínima si
u = x.

El promedio entonces es una medida central en donde se “equilibra” la


distribución completa, es decir es su centro de masas.

Una segunda medida de posición es la mediana que corresponde a un valor bajo


el cual se encuentra el 50% de las observaciones. Es decir si ordenamos en orden
ascendente la serie de n observaciones, la mediana corresponde al valor Me = x (n+1)/2 si n
es impar y al valor Me = (xn/2+xn/2 +1)/2 si n es par.
18

Si la serie se encuentra agrupada la mediana se calcula como:

c L ( n / 2  N L 1 )
Me  y ' L 1 
nL
Donde L es el subíndice del intervalo que contiene a la mediana, y éste intervalo
es aquel cuya frecuencia acumulada sobrepasa la mitad de la cantidad de observaciones
(cuya Nj sobrepasa a n/2).

Una medida de posición asociada a la mediana es el percentil “Pp” que


corresponde al valor bajo el cual se encuentra el “p%” de las observaciones. En una
serie agrupada, se puede calcular como:

c L ( np / 100  N L 1 )
Pp  y ' L 1 
nL

Es fácil ver que P50 es la mediana. A los percentiles P25, P50 y P75 se les denomina
primer, segundo y tercer cuartíl (Q1, Q2 y Q3). Del mismo modo se pueden definir los
deciles, por ejemplo P10 es el primer decíl.
La tercera medida de interés es la moda. Esta se define como el valor que tiene
una mayor frecuencia relativa. En el caso de series agrupadas la moda corresponde a un
intervalo, aunque se ha propuesto una fórmula que en cierta manera hace perder sentido
a la definición.

nL 1
Md  y ' L 1 c L
n L 1  n L 1

Observaciones

i) Si la distribución de frecuencias es simétrica, entonces X  Me  Md .


ii) Si la distribución de frecuencias es asimétrica, se puede reconocer una
asimetría negativa en que X  Me  Md , y una asimetría positiva en que
X  Me  Md .

Medidas de dispersión

Las medidas de dispersión son aquellas que evalúan la variabilidad de las


observaciones. La más importante es la varianza (V(x) o S2) que podemos definir como
la desviación cuadrática media de los valores en torno al promedio, es decir:
19
S2 =  (xi-x)2/n

Observamos que  (xi-x)2 =  (xi2 +x2 –2xix) =  xi2 +x2 –2xix) =

=  xi2 +nx2 –2nx2 =  xi2 -nx 2 , y entonces:

xi2
s    x2
2

ni yi2
En una serie agrupada s 2    y 2   hi yi2  y 2
n

Algunas propiedades de la varianza son: Si a y b son constantes, entonces:

V(a) = 0; V(ax) = a2V(x); V(a+x) = V(x) y V(ax+b) = a2V(x).

Un problema de la varianza como medida de dispersión es que se expresa en


unidades cuadráticas. Por ejemplo, si la variable se mide en metros, su varianza se mide
en metros cuadrados.

Una medida de dispersión aún más usada que la varianza y que corrige el
problema de las unidades, es la desviación estándar (s) que corresponde a la raíz
cuadrada de la varianza:

s s2

Por su estructura, la desviación estándar corresponde aproximadamente a una


distancia: la distancia media desde las observaciones individuales al promedio.

Las desviaciones estándar dependen del valor del promedio, siendo más grandes
cuanto mas grande es este último, lo que hace difícil su comparación. El coeficiente de
variación (CV) corrige este problema y corresponde a una desviación estándar
“normalizada” dividida por el promedio:

CV  s / x

Otra medida de dispersión es el error estándar (Es): Es  s / n

Sin embargo, esta tiene un sentido diferente. Corresponde a la desviación


estándar del promedio, es decir si de un conjunto de observaciones tomamos varias
20
sub-muestras y en cada una de ellas calculamos un promedio y a continuación
calculamos la desviación estándar de éstos promedios, obtenemos Es. Esta medida
adquiere sentido en inferencia estadística.

Otras medidas de dispersión son el rango (R) R = xmáx- xmín y el recorrido


intercuartílico (Q): Q = P75-P25 = Q3-Q1.

Medidas de simetría o sesgo

Las medidas de simetría se basan en las relaciones entre la moda, mediana y


promedio en las distribuciones simétricas y asimétricas. Existe una relación empírica
que relaciona éstas medidas: x  Md  3( x  Me) . A partir de ésta se usan los coeficientes
de asimetría de Pearson:

x  Md 3( x  Me)
3 
s
y 5 
s

Si cualquiera de los  > 0 se habla de sesgo positivo, o distribución sesgada a la


derecha. Si el cambio  < 0 el sesgo es negativo o la distribución es sesgada a la
izquierda.

Medidas de apuntamiento o curtosis

El apuntamiento o curtosis se mide en referencia a una distribución muy habitual


denominada distribución normal (ver más adelante). Esta distribución se puede
caracterizar a través de un coeficiente  =4/S4 = [ (xi-x)4/n]/S4. En esta distribución
 = 3. Esto permite clasificar las distribuciones como:

i) Leptocúrticas o más apuntadas que la normal, si  > 3,


ii) Mesocúrticas o igualmente apuntadas, si  = 3, y
iii) Platicúrticas o menos apuntadas que la normal, si  < 3.

Ejemplo 2.-

Si tomamos la tabla del ejemplo uno podemos calcular las siguientes medidas de
posición:

a) Promedio: y  0.2  3  0.25  5  0.3  7  0.1  9  0.12  11  0.03  13  6.56


b) Intervalo de moda: (6; 8)
21
c) Mediana: el intervalo que contiene la mediana es aquél que por primera vez
sobrepasa la mitad de la cantidad total de observaciones, es decir 50. En este
caso es el intervalo (6; 8). Entonces y’L-1= 6. y la mediana es:
Me = 6 + 2((50-45)/30) = 6.33.
d) Primer cuartíl: el intervalo que contiene Q1 es aquél que por primera vez
sobrepasa el 25% de la cantidad total de observaciones, es decir 25. En este
caso es el intervalo (4; 6). Entonces y’L-1= 4. y Q1 es:
Q1 = 4 + 2((25-20)/25) = 4.4.
e) Tercer cuartíl: en forma análoga al cálculo anterior:
Q3 = 8 + 2((75-75)/10) = 8.

También podemos calcular las siguientes medidas de dispersión:

a) Varianza: en este caso lo más simple es calcular primero ∑hiyi2:

h yi
2
i
 0.2  9  0.25  25  0.3  49  0.1  81  0.12  121  0.03  169  50.44

Y, ahora se puede calcular fácilmente la varianza:

s 2   hi yi2  y 2  50.44  (6.56) 2  7.41

b) Rango: 14-2= 12.


c) Desviación estándar: s = √(s2) = 2.74
d) Coeficiente de variación: CV = 2.74/6.56 = 0.41
e) Error estándar: Es = 2.74/√(100) = 0.27.
f) Recorrido intercuartílico: Q3-Q1 = 8-4.4 = 3.6.

Además en ocasiones es útil cuantificar la simetría, en éste caso a través de:


γ5 = 3(6.56-6.33)/2.74 = 0.25. Esto indica un pequeño sesgo o asimetría a la derecha.
22

Ejercicios de Estadística descriptiva

1.a. Pesos de nacimiento de niños (en kg)

Rango Marca de Frecuenci Frec. Frec. Frec.


clase (yi) a (ni) acumulada relativa relativa
(Ni) (hi) acumulada
(Hi)
0–2 2
2–4 6
4–6 18
6–8 12
8 – 10 7
10 – 12 3

1.b. Datos de mg de glicina por mg de creatinina en la orina de 20 chimpancés


(tomadas de Gartler, Firchein y Dobzhansky, 1956)

0.008 0.018 0.056 0.055 0.135 0.052 0.077 0.026 0.440 0.300
0.025 0.036 0.043 0.100 0.120 0.110 0.100 0.350 0.100 0.300

Para los dos conjuntos de datos presentados arriba:


i) Calcular: promedio, mediana, moda, percentil 30, desviación estándar y
coeficiente de variación.
ii) ¿Son simétricas las distribuciones? Compruébelo haciendo histogramas de
frecuencia.
iii) Realice histogramas de frecuencia acumulada para cada grupo de datos.

R: i) a) promedio: 6.04; mediana: 5.78; Moda [4;6]; P 30: 4.71; desviación estándar: 2.39;
CV: 0.395; b) promedio: 0.123; mediana: 0.089; Moda 0.1; P 30: 0.0475; desviación
estándar: 0.120; CV: 0.979.
23

2. Se ha realizado el estudio de dos medicamentos utilizando ratas. Se midió el


porcentaje cambio de una variable X en la sangre arterial tras la administración de
dosis idénticas de distintos medicamentos.

% de cambio en X
Compuesto I Compuesto
II
26.0 31.7 55.1 65.8 63.6
30.0 32.0 56.3 58.3 64.0
30.5 28.6 60.0 57.1 65.3
26.2 29.2 63.5 55.4 62.8
30.7 33.0 64.9 56.5 59.5
31.3 32.0 62.7 55.1
30.5 32.6 60.5 57.0
30.1 28.2 59.2 59.3
29.6 29.1 63.7 60.7
30.2 30.7 64.1 62.1

i) Calcular la media y la mediana muestral.


ii) Calcular la varianza y la desviación estándar de la muestra.
iii) Calcular rango y el rango intercuartílico.
iv) ¿Cuál compuesto produjo una respuesta más variable?

R: i) Compuesto I: media 30.11, mediana: 30.55; Compuesto II: media 60.5, mediana
60.5; ii) CI: V 3.52, ds 1.87; CII: V 12.04, ds 3.47; iii) CI: Rango 7, RIQ 2.35; CII:
Rango 10.7, RIQ 6.5; iv) el primero (ver coeficiente de variación)
24

II UNIDAD: ESTADISTICA MATEMATICA


25

III.- PROBABILIDADES

III.1.- Experimento Aleatorio, Espacio Muestral

Definiciones Llamaremos experimento determinístico, a aquel que repetido en


las mismas condiciones, da siempre el mismo resultado, en caso contrario lo
llamaremos aleatorio.

Llamaremos espacio muestral () al conjunto de todos los posibles resultados de


un experimento aleatorio. Un punto muestral será un resultado posible, es decir, un
elemento de omega.

Llamaremos sigma-álgebra en omega a un conjunto - formado por


subconjuntos de  que cumple con:

i) Si P (subconjunto de )   , entonces P  -.


ii) Si P y Q  - entonces P  Q  -.
iii) Si P y Q  - entonces P  Q  - .

Es decir, - es cerrada bajo complementación, unión e intersección. Una -


es el conjunto de todos los subconjuntos de Ω ( ()).

Llamaremos suceso o evento a los elementos de -, o de otra forma, a cualquier


subconjunto de . En este sentido - es el conjunto de los sucesos.

Ejemplo1.-

Sea el experimento aleatorio “tiro un dado” Su espacio muestral es = {1, 2, 3,


4, 5, 6} Son posibles sucesos (1)= que salga 1; (1,2) = que salga 1 o 2; (1, 2, 3, 4, 5, 6)
= que salga 1 o 2 o 3 o 4 o 5 o 6.

Del ejemplo anterior es evidente que hay sucesos más “posibles” o “probables”
que otros. Es necesario definir entonces probabilidad de un suceso.

Existen varias definiciones de probabilidad, cada una de las cuales tiene cierta
utilidad.

Definición clásica: Llamaremos probabilidad des suceso A al cuociente entre el


número de resultados o casos “favorables” a A y el número de resultados o casos
“posibles”.
26

casosfavorables
P ( A) 
casosposibles

Así, en nuestro ejemplo, la probabilidad de sacar un dos en una tirada de un dado


(A = 2) es P(A) = 1/6, la probabilidad de sacar un uno o un tres (B = (1,3)) es P(B) = 2/6
y la probabilidad de sacar cualquier número (C = (1, 2, 3, 4, 5, 6)) es P(C) = 6/6 = 1.

Definición de Frechet: Si un experimento aleatorio se realiza n veces, es posible


estimar la probabilidad del suceso A como la frecuente relativa de ocurrencia de A, es
decir, el cuociente entre el número de veces en que dio como resultado A (nA) y el
número de veces en que se repitió el experimento.

nA
P ( A) 
n

Se debe hacer notar que al contrario de la definición clásica, esta es una


definición a posteriori, es decir, exige que el experimento se haya realizado repetidas
veces, antes de estimar la probabilidad de un suceso. En nuestro ejemplo, habría que
haber tirado el dado en varias oportunidades para luego calcular las probabilidades.

La crítica más importante a la definición de Frechet, es que no responde a la


pregunta ¿cuantas veces hay que repetir el experimento? La respuesta es: un número
suficientemente grande de veces; y es esto lo que quiso corregir Von Mises.

Definición de Von Mises: La probabilidad del suceso A corresponde a la


frecuencia relativa de ocurrencia de A, es decir, el cuociente entre el número de veces en
que dio como resultado A (nA) y un número suficientemente grande de veces en que se
repitió el experimento: El límite al que tiende la frecuencia relativa, cuando n tiende a
infinito.

P ( A)  lim (nA / n)
n

Un problema básico con esta definición, es que no es posible repetir un


experimento infinitas veces.

Definición axiomática (Kolmogorov): Una probabilidad es una función:

P: - -----------------------> {0,1}


A ----------------------------> P(A), tal que:

i) P () = 1
27
ii) P (A) > 0  A  -
iii) si A  B = , entonces P (A  B) = P(A) +P(B) (teorema de la o)

Definición Al triplete (,-, P) se le denomina Espacio de probabilidades.

III.2.- Probabilidades y Conjuntos

Es posible establecer analogías entre los conjuntos y las probabilidades:

Conjunto universo: .
Conjunto vacío (): suceso imposible.
Elemento de -: suceso.
A  B: sucede A o sucede B o ambos.
A  B: sucede A y sucede B.
AC: no sucede A.

Definición Dos sucesos A y B serán mutuamente excluyentes si la ocurrencia


de A  que no ocurre B. Así, si A  B =  entonces A y B son mutuamente
excluyentes.

Definición Dos sucesos A y B son complementarios si la no ocurrencia de A 


la ocurrencia de B y a la inversa. Es decir AC = B. Notemos que A  B = , es decir,
constituyen una partición de omega. Observemos también que los sucesos
complementarios son mutuamente excluyentes, pero no todos los sucesos excluyentes
son complementarios.

Una definición de probabilidad de un suceso, asociada a la noción conjuntista, es


P(A) = m(A) / m(), en que m(A) y m() representan alguna “medida” del suceso y del
espacio muestral respectivamente. Un ejemplo de esta “medida” es el cardinal de A y
de omega (P(A) / #(A) / #())

III.3.- Propiedades de las Probabilidades


28

I) P () = 0

Demostración Sea A = Ω y B = , como A  B = , entonces usando las propiedades 1


y 3 de la definición axiomática, P (A  B) = P(Ω ) = 1 = P(A) + P(B) = 1 + P(B),
entonces P(B) = P( ) = 0.

Ejemplo 2.-

La probabilidad que salga 0 al tirar un dado es P(0) = P(Φ) = 0.

II) Aditividad finita: Si Ai  Bi = , para cualquier i, j, entonces P ( Ai) =  P (Ai)

Demostración por extensión directa de la propiedad 3.

Ejemplo 3.-

Si tiro una vez un dado, la probabilidad que salga 5 o 6 es P(5 o 6) = P(5) + P(6)
= 1/6 +1/6 = 2/6, pues los sucesos “sale 5” y “sale 6” son excluyentes.

IV) Probabilidad del Complemento: P (AC) = 1 – P(A)

Demostración P(Ω) = 1 = P(AC  A) = P(AC) + P(A).

Ejemplo 4.-

Si la probabilidad de que un individuo lea el diario es p = 0.2, entonces la


probabilidad que no lo lea es q = 1-p = 1-0.2 = 0.8.

IV) Monotonía: Si A  B, entonces P(A) < P(B)

Demostración Si A  B, #A ≤ #B, entonces P(A) < P(B)

Ejemplo 5.-

La probabilidad de encontrar un gato negro es menor que la de encontrar un gato,


pues los gatos negros son un sub-conjuto del conjunto de los gatos.

V) Probabilidad Compuesta: P(A  B) = P(A) + P(B) – P(A  B)


29
Demostración P(A  B) = #(A  B)/#(Ω) =[#(A) + #(B) - #(A  B)]/ #(Ω) = #(A)/
#(Ω) + #(B)/ #(Ω) - #(A  B)/ #(Ω) = P(A) + P(B) – P(A  B).

Es posible extender este teorema a más de 2 conjuntos, por ejemplo: P(A  B  C)=
P(A) + P(B) + P(C) – P(A  B) –P(A  C) – P(B  C)+ P(A  B  C)

Ejemplo 6.-

Si se tienen 60 alumnos, entre los cuales 15 sólo toman un curso de matemáticas


(M); 20 sólo de física (F); 10 sólo de química (Q); 4 M y F; 5 F y Q; 6 M y Q y ninguno
M F y Q. Entonces la probabilidad que un alumno tome matemáticas o física es : P(M
 F) = P(M) + P(F) – P(M  F) = (15+6+4)/60 +(20+4+5)/60 – 4/60 = 50/60 =5/6
(Haga un diagrama de Venn, para una mejor comprensión del problema).

VI) Probabilidad que ocurra al menos un evento:

P( Ai)= 1 –P( AiC), lo que se interpreta como P(alguno) = 1 – P (ninguno)

Demostración Por teorema de De Morgan ( Ai)C = ( AiC) entonces aplicando la


propiedad del complemento P( Ai)= 1 –P[( Ai)C] = 1 -P( AiC).

Ejemplo 7.-

Si de dos personas, la probabilidad que muera la primera (p)es 0.1 y la


probabilidad que muera la segunda (s) es 0.01, entonces la probabilidad que muera
alguna P(alguna) = 1- P(ninguna) = 1- 0.9x0.99 = 0.109.

III.4.- Independencia Estocástica y Probabilidad Condicional

Definición Dos sucesos A y B se dirán independientes si la ocurrencia de uno no


“influye” en la ocurrencia del oro.

Ejemplo 8.-

Sean los sucesos A= llueve en Santiago, B = Juan duerme y C = hacemos un


“asado”. Los sucesos A y B son probablemente independientes; no así los sucesos A y
C.

Probabilidad condicional Definiremos probabilidad del suceso A, dado que ocurrió el


suceso B (condición) al cuociente:
30
P( A  B)
P( A / B) 
P( B)

Podemos ahora hacer una definición más formal de sucesos independientes: A y B


son independientes si P(A/B) = P(A). Entonces, despejando P(A  B) en la definición
anterior, se sigue inmediatamente el siguiente teorema:

Teorema de la probabilidad conjunta Si A y B son independientes, entonces P(A 


B) = P(A) P(B) (teorema de la y)

Definición El conjunto {Bi} constituirá una partición de  si i) Bi  Bj =   i,


j y ii)  Bi = .

Teorema de la probabilidad total Dado un suceso A y una partición de  {Bi},


entonces:

P ( A)   P ( A / Bi )  P( Bi )
i

Demostración: A = (A  B1)  (A  B2) ... (A Bn) Como (A  Bi)  (ABj) =


, i, j, por el “teorema de la o”

P(A) = P(A  B1) + P(A  B2) + ... P(A  Bn) =  P(A  Bi) y por la definición de
probabilidad condicional,

P (A) =  [P(A/Bi) · P(Bi)]

Teorema de Bayes Dado un suceso A y una partición {Bi} entonces,

P( A / Bi )  P( Bi )
P( Bi / A) 
 j P( A / B j )  P( B j )

Demostración Por definición P(Bi/A) = P(Bi  A)/P(A) y por lo tanto,

P(Bi/A) = P(A/Bi) · P(Bi)/P(A) y aplicando el teorema de la probabilidad total,

P(Bi/A) = P(A/Bi) · P(Bi) /  [P(A/Bj)·P(Bj)]


31
Ejemplos 9-13.-

9.- Se lanza una moneda tres veces. a) ¿Cuál es su espacio muestral? b) ¿Cuál es la
probabilidad de obtener exactamente 2 caras? c) ¿cual es la probabilidad de obtener al
menos 2 caras d) ¿cual es la probabilidad de que los tres lanzamientos sean iguales?

R: a)  = {ccc, ccs, csc, css, scc, scs, ssc, sss}


b) Los únicos resultados en que salen exactamente dos caras son: {2c} = (ccs,
csc, scc) es decir hay 3 casos favorables, o, de otra manera, la medida o
cardinal de este suceso es 3.- Los casos posibles (o el cardinal del espacio
muestral) son 8, entonces, P(2c)/m(omega) = casos favorables/casos posibles
= 3/8.
c) P(2c o 3c) = P(2c U 3c) = P(2c) + P(3c) = 3/8 +1/8 = ½.
d) P(3c o3s) = P(3c U 3s) = P(3c) + P(3c) = 1/8 + 1/8 = ¼

10.- De un grupo de 200 estudiantes, 137 se inscribieron en Biología, 50 en


Matemáticas, y 124 en Zoología. El número de inscritos en Biología y Matemáticas es
33, en Matemáticas y Zoología es 29 y en Biología y Zoología es 92. Los inscritos en
las tres clases es 18. Al escoger un alumno al azar de los 200: a) ¿Cuál es la
probabilidad de que esté en Biología o Matemáticas? b) ¿Cuál es la probabilidad que no
esté en ninguna clase?

R: P(B) = 137/200; P(M) = 50/200; P(Z) = 137/200; P(B  M) = 33/200; P(M  Z) =


29/200; P(B  Z) = 92/200; P(B  M  Z) = 18/200.
a) P(B  M) = P (B) +P(M) –P(B  M) = (137+50-33)/200 = 154/200.
b) la probabilidad de que esté en al menos una clase es P (B  M  Z) entonces la
probabilidad de que esté en ninguna es P(0) = 1-P(B  M  Z)

P(B  M  Z) = P(B) + P(M) + P(Z) –P(B  M) –P(B  Z) –P(M  Z) + P(B  M 


Z) = (137 + 50 + 124-33-29-92+18)/200 = 7/8, por lo que P(0) = 1-7/8 =1/8.

11.- Se estudian 98 perros con sospecha de hepatitis. Se les palpa el hígado


clasificándolo en: 0: no se palpa, 1: aumentado de tamaño, 2: muy aumentado de
tamaño. A los mismos perros se les hace biopsia hepática y se obtiene:
32

Tamaño del hígado


Lesión 0 1
hepática 2 Total
Cirrosis 1 4 12 17
Hematoma 8 13 14 25
Esteatosis 12 8 9 29
Sin lesión 9 15 3 27
Total 30 40 28 98

Sea C: el perro es cirrótico, y T2: el hígado tiene tamaño.


Determine a) P(C), b) P(T2), c) P(C  T2) d) ¿son independientes C y T2?

R: a) P(C) = 17/98
b) P(T2) = 28/98
c) P(C  T2) = P(C/T2) · P (T2) = 12/28 · 28/98= 12/98
d) P(C/T2) = 12/28 = P(C) = 17/98, entonces no son independientes.

12.- En una caja hay 4 huevos de gallina, 10 de pato y 8 de ganso. Si son fértiles 4 de
cada 5 de gallina, 6 de cada 7 de pato y 11 de cada 12 de ganso. Al sacar un huevo:

a) ¿Cuál es la probabilidad que sea fértil?


b) ¿si fue fértil, cual es la probabilidad de que sea de gallina?

R.- P(G) = 4/22, P(P) = 10/22, P(Gz) = 8/22, P(F/G) = 4/5, P(F/P) = 6/7 y P(F/Gz) =
11/12.
a) Los sucesos G, P y Gz constituyen una partición de , pues G Ո P  Gz = 
y G  P  Gz = . Entonces por teorema de la probabilidad total:

P(F) = P(F/G · P (G) + P(F/P) · P (P) + P(F/Gz) · P (Gz) = 0.868.


b) P(G/F) por teorema de Bayes, es P(G/F) = P(F/G) · P(G)/P(F) = 0.168.

13.- Se quiere saber la bondad de la radiografía en el diagnóstico de la piometritis en


perros. Se estudian entonces 20 perras con piometritis y 40 perras sin piometritis, y se
anotan las radiografías que sugirieron tal diagnóstico. Se registraron los siguientes
resultados:
33

Radiografía (+) para pm (-) para pm Total

Animales con pm 13 7 20
Animales sin pm 8 32 40
Total 21 39 60

a) ¿Cuál es la probabilidad de que se encuentre una radiografía positiva dado que la


paciente tiene piometritis? (concepto de sensibilidad de un examen)

b) ¿Cuál es la probabilidad de que la radiografía sea negativa dado que la paciente no


tiene piometritis? (concepto de Especificidad de un examen)

c) con estos datos que concluiría acerca de este examen

R: a) Sensibilidad: P(e+/dg+) = 13/20 = 0.65

b) Especificidad: P(e-/dg-) = 32/40 = 0.80

c) No es un buen examen, pues es capaz de detectar sólo el 65% de los casos, en


pacientes con la patología. De los casos en que la radiografía sale positiva,
sólo un 80% efectivamente son piometritis.

III.5.- Probabilidades en Medicina

Probabilidades en el diagnóstico

Un concepto útil muy usado en medicina que se relaciona con probabilidad es la


chance (“odds”). Esta se puede definir como la razón entre la probabilidad de ocurrencia
de un suceso (p) y la probabilidad complementaria de que éste no ocurra (1-p):

p
O
1 p

Este concepto tiene un uso habitual y se relaciona bi-unívocamente con la


probabilidad p. Por ejemplo el decir que tengo una chance de O = 4/1 de ganar un
partido es equivalente a decir que la mi probabilidad de ganar es p = 4/(4+1) = 0.8.

En medicina es habitual el uso de exámenes para el diagnóstico de enfermedades.


Sin embargo los exámenes no son 100% certeros para hacer el diagnóstico. A veces un
34
individuo posee una enfermedad y el examen sale negativo (falso negativo) y otras
veces sale positivo para la enfermedad y el paciente no la tiene (falso positivo). Es
posible representar esto en la siguiente tabla:

EXAMEN
+ - Total
ENFERMO A B a +b
NO ENFERMO C D c+d
Total a+c b+d n = a+b+c+d

En este caso, los falsos positivos serían c y los falsos negativos serían b.

A partir de esta tabla se pueden definir ciertos conceptos:

La Sensibilidad de un examen corresponde a la probabilidad que el examen salga


positivo dado que el paciente está enfermo:

a
S  P( / E ) 
ab

Representa la capacidad del examen de detectar la enfermedad. La Especificidad


del examen corresponde a la probabilidad de que el examen salga negativo dado que el
paciente no tiene dicha enfermedad (aunque tenga otra):

d
Sp  P (  / noE ) 
cd

Es decir, mide la capacidad del examen de responder a esa y sólo a esa


enfermedad.

El Valor predictivo positivo corresponde a la probabilidad de que el paciente


esté enfermo dado que el examen salió positivo, es decir mide la capacidad de
predicción de la enfermedad:

a
VPP  P ( E /  ) 
ac

El Valor predictivo negativo corresponde a la probabilidad de que el paciente no


esté enfermo dado que el examen salió negativo, es decir mide la capacidad de descarte
de la enfermedad.
35
d
VPN  P ( noE / ) 
bd

La certeza diagnóstica corresponde a la probabilidad general de acertar P(C) =


(a+d)/n.

ad
P (C ) 
n

Otra medida interesante es la razón o coeficiente de verosimilitud que se define


como la razón entre la probabilidad de un cierto resultado en el examen dado que el
paciente está enfermo, dividido por la probabilidad de ese mismo resultado, dado que no
lo está. Por ejemplo, para un resultado positivo:

S
LR  P( / E ) / P( / noE )  P( / E ) /(1  P ( / noE )) 
1  Sp

Para un resultado negativo es fácil ver que:

LR  (1  S ) / Sp

En cierta medida LR mide la potencia de un examen: cuanto más positivo es en


presencia que en ausencia de enfermedad.

Por ejemplo es interesante saber que sucede con un paciente que a priori tiene una
probabilidad “P” de tener una enfermedad, cuando se hace el examen y este sale
positivo. Su chance a priori es Oo = P/(1-P). En este caso interesa P(E/+), y por el
teorema de Bayes:

P(E/+) = P(+/E)P(E)/(P(+/E)P(E) + P(+/noE)P(noE) = S·P/(S·P + (1-Sp)·(1-P)).

La probabilidad de que no tenga la enfermedad es P(noE/+) = 1 – [SP/(SP+(1-Sp)


(1-P)] = (1-Sp)(1-P)/ /(SP+(1-Sp)(1-P)). Entonces su chance a posteriori es Op = P(E/
+)/P(noE/+) = SP/(1-Sp)(1-P), es decir la chance a posteriori es:

Op  LR  Oo

entonces el coeficiente de verosimilitud actúa como un factor potenciador de la


chance. Este mismo resultado es válido para un resultado negativo.

Ejemplo 14.- Supongamos que para una enfermedad X, se está ensayando un


examen A y que en un estudio poblacional representativo se obtuvo:
36

EXAMEN A
+ - Total
ENFERMO de X 85 20 105
NO ENFERMO 10 200 210
de X
Total 95 220 315

Entonces, la prevalencia de la enfermedad se estima en: p = 105/315 = 0.33 y la


chance de un enfermo de tener dicha enfermedad antes de hacerse el examen es: O 0 =
0.33/(1-0.33) = 0.5, es decir 1es a 2. La sensibilidad del examen es S = 85/105 = 0.81; la
especificidad es Sp = 200/210 = 0.952; el valor predictivo positivo es VPP = 85/95 =
0.894; el valor predictivo negativo es VPN = 200/220 = 0.909; la probabilidad de certeza
es C = 285/315 = 0.904 y el LR(+) = 0.81/(1-0.952) = 16.875. Así, si a un paciente le
sale el resultado positivo, entonces ahora su chance de tener la enfermedad es: Op =
0.5x16.875 = 8.44, es decir alrededor de 8 a 1.

Probabilidades en el tratamiento

Cuando se ensaya un tratamiento en general se dispone de dos grupos, uno que no


recibe el tratamiento (grupo control) y otro que lo recibe (grupo experimental) y se
mide un cierto efecto o evento, en general negativo (i.e. muerte).

Esto se representa en una tabla del tipo:

Control Experimental Total


Evento A B A+b
No evento C D C+d
Total A+c B+d N=a+b+c+d

Se define como tasa de evento en el control:

a
CER  P (evento / control )  y tasa de evento en el grupo experimental:
ac

b
EER  P (evento / ex) 
bd

Estas tasas miden los riesgos absolutos de presentar cierto evento en situación
control y en situación experimental. De aquí surgen varias medidas útiles. Primero es
interesante medir el riesgo relativo RR = EER/CER, que indicará si es mayor que 1 un
aumento en el riesgo, y si es menor que 1 una disminución en éste:
37

RR  EER / CER

Otra medida importante es la reducción en el riesgo absoluto producida por el


tratamiento experimental: reducción de absoluta del riesgo:

ARR  CER  EER

Por ejemplo si la ARR = 0.01 significa que uno de cada cien saldrán beneficiados
con el tratamiento, o de otra manera habría que tratar 100 para beneficiar a uno. En otras
palabras el número necesario para beneficiar a uno es:

NNT  1 / ARR

Otra medida de menor interés es la reducción relativa del riesgo:

RRR  (CER  EER ) / CER

Esta representa la baja porcentual en el riesgo producida por el tratamiento.

Ejemplo 15.- Se está ensayando un nuevo tratamiento “Y” para una enfermedad
de alta mortalidad y se obtiene:

Tratamiento Tratamiento Y Total


antiguo (control)
Fallecidos 20 5 25
Vivos 90 100 190
Total 110 105 215

Se puede observar que la tasa de mortalidad control es CER = 20/110 = 0.182,


mientras que la tasa experimental es EER = 5/105 = 0.048. Así la reducción absoluta del
riesgo con el nuevo tratamiento es ARR = 0.18-0.048 = 0.134 y entonces al tratar NNT =
1/0.134 = 7.44, aproximadamente 8 pacientes se obtendrá al menos un beneficiado. La
reducción relativa del riesgo es RRR = 0.134/0.182 = 0.736, es decir un 73.6%.

Probabilidades en la etiología
38
Muchas veces es necesario indagar en las causas de las enfermedades. A veces se
sospecha de un agente causal y se procede con estudios que pueden ser de dos tipos: i)
Seguimiento de cohortes que consiste en el seguimiento de dos grupos a lo largo del
tiempo (seguimiento longitudinal) uno expuesto al factor sospechoso y el otro no
expuesto, para estudiar después cuantos desarrollan la enfermedad en cada grupo (por
ejemplo tabaco y cáncer bronquial); e ii) Estudio de casos y controles que consiste en
la elección de dos grupos, el primero de enfermos y el segundo de no enfermos,
estudiando en ellos cuantos de éstos estuvieron expuestos al factor. En este caso es un
estudio transversal. Cualquiera sea el tipo de estudio en general se expresa en la
siguiente tabla:

Caso (enfermo) control (no Total


enfermo)
Expuesto A B a+b
no expuesto C D c+d
a+c b+d n=a+b+c+d

Aunque la tabla sea la misma las medidas útiles son distintas. En el caso de un
estudio de cohortes tiene sentido estudiar el riesgo de tener la enfermedad cuando se está
expuesto EER = a/(a+b) y cuando no se está expuesto CER = c/(c+d) y en este caso el
aumento absoluto del riesgo al estar expuesto:

ARA  EER  CER

El riesgo relativo:

RR  EER / CER

Y el aumento relativo del riesgo:

RRA  ( EER  CER ) / CER

En este caso el número necesario de expuestos para que haya 1 enfermo es:

NNH  1 / ARA

Ejemplo 16.- Supongamos que se realiza un experimento con ratones donde se


deja reproducir parejas en dos ambientes, uno con fertilizantes y otro sin fertilizantes.
Después de un tiempo largo se estudia la presencia de malformaciones congénitas en las
crías, obteniendo:
39
Crías con Crías sin Total
malformaciones malformaciones
Expuestos a 25 100 125
fertilizantes
No expuestos 16 200 216
41 300 341

En este caso la tasa de eventos de los no expuestos es CER = 16/216 = 0.074 y, en


el caso de los sujetos experimentales es: EER = 25/125 = 0.2. Así el aumento absoluto
del riesgo es ARA = 0.2-0.074 = 0.126 y el número de individuos expuestos para que
ocurra al menos una malformación es NNH = 1/0.126 = 7.93 individuos. El aumento
relativo del riesgo es RRA = 0.126/0.074 = 1.70, es decir de un 170%, al estar expuestos
a fertilizantes. El riesgo relativo es RR = 0.2/0.074 = 2.70, es decir, al estar expuestos el
riesgo es 2.7 veces el riesgo que se tiene al no estar expuesto.

En el estudio de casos y controles no tiene sentido el cálculo de riesgos


directamente de la tabla porque los totales marginales de la derecha no son los expuestos
o no expuestos sino las sumas de los individuos que tienen antecedentes de exposición.
Entonces una buena medida del riesgo y que se interpreta de la misma manera es la
razón de disparidades de la chance (Odds ratio (OR)). Esta corresponde a la razón entre
la chance de tener el factor de exposición cuando se es un caso Oc = [a/(a+c)]/[c/(a+c)]
= a/c y la chance de tener el factor de exposición cuando se es un control Oo = b/d. De
esta manera la razón de disparidades es:

a / c ad
OR  
b / d bc

En este caso también es posible estimar un número necesario de expuestos para


tener un caso a través de: NNH = [PEER(OR-1) +1]/[PEER(OR-1)(1-PEER)], donde
PEER es alguna estimación de EER.

Ejemplo 17.- Se piensa que el cigarrillo tiene relación con el cáncer de Vejiga,
entonces se realiza un estudio en pacientes con cáncer de vejiga (casos) y en sujetos
normales, pareados por edad y sexo (controles). Se estudia en estos pacientes el
antecedente de consumo de cigarrillos, obteniendo:

Pacientes con Controles Total


Cáncer de Vejiga normales
Fumadores 56 26 82
No fumadores 120 200 320
40
176 226 402

En este caso la chance de fumar en pacientes con cáncer de vejiga es: 56:120,
mientras que cuando no se tiene este cáncer es de 26:200. Así la razón de disparidades es
OR = 56x200/(26x120) = 3.59. Así si por ejemplo la prevalencia de cáncer de vejiga en
fumadores fuera PEER = 0.03, entonces NNH =[0.03(3.59-1)+1]/[0.03(3.59-1)(1-0.03)]
= 14.3.
41

Ejercicios de Probabilidades

1. Se tira una moneda 3 veces y se observa la secuencia de caras y sellos que aparecen.
El espacio muestral  es:
 = {CCC, CCS, CSC, SCC, CSS, SCS, SSC, SSS}
Sea A el evento que aparezcan dos o más caras consecutivas, y B, que sean todas cara
o todas sello. Calcular P(A), P(B) y P(AB).
R: 3/8; 1/4; 1/8.

2. Calcúlese la probabilidad de obtener un 1 o un 5 al tirar un dado. Compruébelo


lanzando un dado y calculando la probabilidad obtenida (como frecuencia relativa)
con distintos N muestrales (5, 10, 20, 30). Haga lo mismo para obtener la
probabilidad de que salga un número par.
R: 2/6.

3. Una urna contiene 4 bolas blancas, 2 rojas y 2 verdes. Cuál es la probabilidad de


sacar:
i) una bola roja de una bola sacada de la urna.
ii) una bola verde de una bola sacada de la urna.
iii) una bola blanca y una bola roja.
R: 1/4; 1/4; 2/7.

4. En un juego, un combate simulado es resuelto tirando dados. Para determinar si el


ataque de un jugador es exitoso si le salen un * o un ° al lanzar un dado de 20 caras.
Si el ataque resulta exitoso, se lanza un dado de 8 caras para determinar el daño
causado por el ataque. Supongamos que se necesita un valor mayor o igual a 17 para
atacar exitosamente al oponente.
i) Sea A el evento “ataque exitoso”, cuál es P(A).
ii) Sea B el evento “causar 5 o más puntos de daño”, cuál es P(B).
iii) Si necesitas 6 o más puntos de daño para matar a tu oponente, cuál es la
probabilidad de matar a tu oponente en un ataque.
R: 1/10; 1/20; 3/160.

5. Una ruleta de casino tiene 37 números, del 0 al 36. Excepto por el 0, el cual es verde,
la mitad de los números son rojos (pares) y la otra mitad, negros (impares). Encuentre
la probabilidad de:
i) obtener un 18 en un solo tiro de ruleta.
ii) obtener un número rojo en un solo tiro.
iii) obtener un 5 o un número negro en un solo tiro.
iv) obtener un número rojo en el primer tiro y el cero en el segundo tiro.
42
R: 1/37; 18/37; 18/37; 18/1369.

6. En una encuesta realizada a 100 estudiantes de Ciencias, se obtuvo que 30 estaban


tomando el curso de bioestadística, 20 estaban tomando química orgánica y 10
estaban los dos cursos. Si un estudiante es seleccionado al azar, ¿cuál es la
probabilidad de que esté tomando bioestadística o química orgánica?
R: 0.4.

7. En una competencia de tiro de dardos se tiene un blanco circular de 30 cm de radio.


La circunferencia menor tiene un radio de 5 cm. Si se tiran 3 dardos, y suponiendo
que todos los tiros caen dentro de la circunferencia mayor, ¿cuál es la probabilidad de
dar en el blanco (circunferencia menor) los tres tiros?.
R: 0.0000214.

8. Se tira una moneda y un dado a la vez.


i) Definir el espacio muestral .
ii) Expresar explícitamente los siguientes eventos; A = {sale cara y número par}, B =
{salga un número primo}, C = {salga sello y número impar}.
iii) Expresar explícitamente el evento que: a) A o B ocurra, b) B y C ocurra y c)
sólo C ocurra. Determinar sus probabilidades.

9. En una cierta ciudad, 40% de la gente tiene pelo castaño, 25% tiene ojos pardos y un
15% tienen ambas características. Si una persona es seleccionada al azar:
i) y tiene el pelo castaño, cuál es la probabilidad de que también tenga ojos
pardos.
ii) y tiene ojos pardos, cuál es la probabilidad de que no tenga pelo castaño.
iii) cuál es la probabilidad de que no tenga ni los ojos pardos ni el pelo castaño.
R: 0.375, 0.6, 0.5.

10.Se estima que el 15% del total de la población adulta padece de hipertensión. Además
se estima que el 75% de los adultos creen no tener este problema. Se estima también
que el 6% de la población tiene hipertensión y no es consciente de tenerla. Si un
adulto opina que no tiene hipertensión, ¿cuál es la probabilidad de que la enfermedad
de hecho exista en este individuo?
R: 0.012.

11.Un estudio indica que el 10% de la población de Chile tiene 75 años o más, y que el
1% de la población total padece de deficiencia cardiaca moderada. Además el 10.4%
de la población tiene 75 años o más o padece de enfermedad cardiaca.
i) hallar la probabilidad de que un individuo tenga 75 años o más y padezca de
deficiencia cardiaca.
43
ii) si un individuo tiene 75 años o más, ¿cuál es la probabilidad de que padezca
de deficiencia cardiaca?
iii) si un individuo tiene menos de 75 años, ¿cuál es la probabilidad de que
padezca la enfermedad?
R: i) 0.006; ii) 0.0006; iii) 0.0094.

12.Se realiza un experimento de tirar tres veces al aire una moneda. Considere tres
eventos: A = {la primera moneda sale cara}, B = {segunda moneda sale cara}, C =
{salen exactamente 2 caras en forma consecutiva (CCS o SCC)}. Son estos eventos
independientes entre si (analice parejas de eventos).
R: Independientes A con B; A con C; dependientes B con C.

13.En una escuela se estudia la desnutrición infantil, tratando de ver si el hecho de estar
o no desnutrido tiene que ver con el sexo del niño. De 1000 niños examinados, 100
presentan desnutrición; y de 500 niñas, 49 presentan desnutrición. ¿Afecta el sexo de
los niños al fenómeno de desnutrición?
R: Son eventos estocásticamente dependientes.

14.En una caja hay 4 huevos de gallina, 10 de pato y 8 de ganso. Si la probabilidad de


que los huevos sean fértiles es de 70% para la gallina, 80% para el pato y 90% para el
ganso:
i) ¿cuál es la probabilidad de que sea fértil?
ii) dado que fue fértil, ¿cuál es la probabilidad de que sea de pato?
R: 0.818; 0.445.

15.En un laboratorio se ha boicoteado el experimento de un investigador. Se sabe que


los otros 4 investigadores del laboratorio (A, B, C, D) han boicoteado anteriormente
otros experimentos. Haciendo una investigación de las veces que han boicoteado
anteriormente, se estimó las probabilidades de cada investigador de haber intervenido
en los experimentos. A tiene una probabilidad de 0.02; B, de 0.09; C, de 0.01; y D, de
0.05. Dado que el laboratorio tiene acceso restringido sólo a estos 5 investigadores, y
que A, B y D trabajan sólo 1 día a la semana, y que C trabaja 2 días a la semana
(todos en días distintos), ¿quién es el boicoteador más probable?.
R: B, con probabilidad 0.474.

16.En la universidad, 4% de los hombres y el 1% de las mujeres son más altos que 1.85
m. Además, se sabe que el 60% de los estudiantes son mujeres. Ahora, si un
estudiante es seleccionado al azar y mide más de 1.85 m, ¿cuál es la probabilidad de
que el estudiante sea mujer?
R: 0.272.
44
17.A un grupo de individuos, algunos enfermos de cierta enfermedad (E) y otros no
(noE) se les practicó cierto examen. En algunos de ellos el examen salió positivo (+)
y en otros no (-). Calcule la prevalencia (pv) de la enfermedad (proporción de
individuos con la enfermedad), la chance a priori de estar enfermo (pv/(1-pv)), la
sensibilidad del examen, la especificidad, el VPP, el VPN, la certeza diagnóstica, el
coeficiente de verosimilitud (LR), y la chance a posteriori de estar enfermo y de no
estarlo.

E NoE Total
731 270 1001
+ 78 1500 1578
- 809 1770 2579

R: O0+ = 0.45; O0-=2.22; S = 0.9; Sp = 0.85; VPP = 0.73; VPN = 0.95; P(C) = 0.87; LR+
= 6; LR-=0.12; Op+=2.7; Op-=0.27.

18. Se estudia la respuesta de un grupo de pacientes a un nuevo tratamiento (NT), como


alternativa al tratamiento habitual (HT). Se mide la presencia de complicaciones propias
de la enfermedad (evento) en uno y otro grupo, obteniendo:

HT NT
Complicaciones (%) 9.6 2.8

Calcule el CER, EER, RR, ARR, RRR, y NNT. Comente sus resultados.
R: CER = 0.096, EER = 0.028, RR = 0.29, ARR = 0.068, RRR = 0.708, NNT = 15.

19. Se estudia la presencia (E) o ausencia (noE) de enfermedad en ciertos individuos,


algunos de los cuales estaban expuestos a cierto eventual factor de riesgo (F(+)). Los
resultados se resumen en la siguiente tabla:

E NoE Total
F(+) 58 22 80
F(-) 36 44 80
94 66 160

Calcule el RR de la exposición al factor, el ARA, el RRA y el NNH. Interprete sus


resultados.
R: RR = 1.61, ARA = 0.275, RRA = 0.61, NNH = 4.
45

20. Se estudia la relación entre cierto factor de riesgo (F(+)) y una cierta enfermedad.
Para ello se toma un grupo de enfermos (E) y otro de sanos (controles: noE), midiendo
en ellos la presencia o ausencia de dicho factor. Los resultados se resumen en la
siguiente tabla:

E NoE
F(+) 58 22
F(-) 36 44
94 66

Calcule la OR y el NNH en un paciente en que esperamos que el riesgo a priori (PEER)


sea similar al de la tabla.
RR: OR = 3.22, NNH = 6.
46

IV.- VARIABLES ALEATORIAS

Definición: Llamaremos variable aleatoria (v.a) a una función definida


X:  ------> R, tal que para cada punto del codominio, su preimagen es un suceso.

Ejemplo 1.- Sea el experimento “se tira 2 veces una moneda”  = {cc, cs, sc,ss}
Podemos definir la variable aleatoria X = número de caras. Así para X = 0 su preimagen
es el suceso (ss), para X = 1 su preimagen es (cs)  (sc) y para X = 2 su preimagen es
(cc).

Las variables aleatorias pueden ser discretas si sólo pueden tomar un número k  N
valores distintos, en todo otro caso, son continuas.

IV.1.- Distribución de una variable aleatoria

Variables discretas

Definición Si X es una variable aleatoria discreta (vad) , llamaremos función de


cuantía a:

 P(X = x), si x  al rango de X (Rx)


p(x) =
 0 si x  Rx

Además, llamaremos función de distribución a F(x) = P(X x) =  p(xi)


xix

Se puede observar que F(x) es la función acumulada de p(x).

Ejemplo 2.-

Si se tiran 2 monedas y se define la variable aleatoria X = número de caras,


entonces P(X = 0) = ¼, P(X = 1) = ½ y P(X= 2) = ¼. Entonces:

X p(x) F(x)
0 0.25 0.25
1 0.50 0.75
2 0.25 1.00
47
Las características fundamentales de una variable aleatoria son la esperanza y la
varianza

Definición: Llamaremos Esperanza de una v. a a la cantidad:

E[X] =  xi · pi

Llamaremos varianza de una v. a. a la cantidad:

V[X] = E (X –E[X])2 = E[X2] –(E[X])2

Así en nuestro ejemplo, la esperanza es E[X] = 0·0.25+1·0.50+2·0.25 = 1, y la


varianza es V[X] = 0·0.25+ 12·0.5+22·0.25 – 12 = 1.5 –1 = 0.5.

Se puede observar que la esperanza corresponde al promedio ponderado de una


variable aleatoria y tiene la misma estructura que el promedio definido para series
agrupadas en estadística descriptiva y = hi·yi. Del mismo modo el histograma de
frecuencias representa la función de cuantía y el histograma acumulado, la función de
distribución. La varianza representa la variabilidad de la variable en torno a la
esperanza.

Ejemplos 3-4.-

3.- El concepto de esperanza matemática surgió de las matemáticas financieras.


Supongamos que a alguien se le ofrece el siguiente negocio: invierte $100, y con este
dinero se tiene una probabilidad de 0.2 de perderlo todo, 0.2 de quedar igual, 0.4 de
duplicar la inversión y 0.2 de triplicar la inversión. ¿Convendría aceptar el negocio?

Sea la variable aleatoria X = retorno; entonces P(X=0) = 0.2 P(X = 100) = 0.2; P(X =
200) = 0.4 y P(X = 300) = 0.2. Entonces, E[X] = 0.0.2 + 100.0.2 + 200.0.4 + 300.0.2 =
160.

Como la esperanza del retorno (160) es mayor que la inversión (100), el negocio parece
conveniente.
48
4.- Un alumno ha dado 100 pruebas de matemáticas con los siguientes resultados:

Nota nº de veces que la ha


obtenido
1 1
2 4
3 10
4 40
5 30
6 12
7 3

Se enfrenta a una nueva prueba de matemáticas ¿qué nota esperamos que saque
(esperanza)? ¿Cuál es la varianza?

Sea la v. a. X = nota. Entonces P (X = 1) = 0.01, P(X = 2) = 0.04, P(X=3) = 0.1, P(X=4)


= 0.4, P(X=5) = 0.3, P(X=6) = 0.12 y P(X = 7) = 0.03. E[X] = 0.01·1 + 0.04·2 + 0.1·3 +
0.4·4 + 0.3·5 + 0.12·6 + 0.03·7 = 4.42 (Observación: La esperanza corresponde al
promedio)

E[X2] = 0.04·12 + 0.04·22+0.1·.2+0.4·42 + 0.3·52+ 0.12·62+0.03·72= 20.76; (E[X])2=


(4.42)2= 19.54, y entonces, V[X] = 20.76 –19.54 = 1.22 (Observación: La varianza
corresponde a una medida de la dispersión de los valores en torno al promedio)

Algunas propiedades de la esperanza

i) E[constante] = constante, V[constante] = 0


ii) E[a + X] = a + E[X], V[a+X] = V[X]
iii) E[aX] = aE[X], V[aX] = a2V[X]
iv) E[(X-E[X])] = 0 (demuéstrelo)
v) E[X+Y] = E[X]+E[Y]
vi) Si X e Y son independientes E[XY] = E[X]E[Y]

Observación: Si examinamos E[(X-E[X])(Y-E[Y])], vemos que es equivalente a


E[XY+E[X]E[Y]-E[X]Y-E[Y]X] =E[XY] + E[X]E[Y] - E[X]E[Y] - E[X]E[Y] =
= E[XY] - E[X]E[Y]. Si X e Y son independientes, entonces esta cantidad es 0, pero
si son dependientes, entonces es distinta de 0. A esta cantidad se le conoce como
Covarianza entre X e Y y representa la variabilidad conjunta de ambas variables
aleatorias:

COV[X,Y] = E[XY]-E[X]E[Y].
49

Ejercicios Propuestos

1.- Se dividió el país en 5 regiones y se analizaron las deposiciones de ganado vacuno


obteniéndose la siguiente información

Región Total de vacas Deposiciones Deposiciones sin


en la región con parásitos parásitos
A1 10000 1240 1867
A2 200000 981 2008
A3 60000 2496 2608
A4 30000 864 981
A5 700000 1021 1564

a) ¿Cuál es la probabilidad de que una vaca tenga parásitos en la región A3? R: 0.489

b) ¿Cuál es la probabilidad de que una vaca tenga parásitos en el país b1) si


suponemos que es igualmente probable que venga de cualquier región? b2) si
suponemos que la probabilidad de que venga de la región Ai= nº vacas en Ai/nº total de
vacas R: 0.422 y 0.389 respectivamente.

2.- Se lanza un dado dos veces. ¿Cuál es el espacio muestral? ¿Cuál es la probabilidad
de obtener 2 números iguales? ¿Cuál es la probabilidad de sacar un 1 y un 5? ¿Cuál es
la probabilidad de sacar primero un 1 y después un 5?
R: 1/6; 2/36; 1/36.

3.- En una pieza hay 100 cachorros. Algunos de ellos “Beagle” y otros “Poodle”.
Algunos de ellos sanos y otros enfermos.

Beagle Poodle Total Si una persona


compra un
Sanos 40 30 70
perro al azar.
Enfermos 20 10 30 ¿Cuál es la
Total 60 40 100 probabilidad de
que sea
“Beagle”?

Son independientes los sucesos “el perro es sano” y “el perro es Beagle”? R: 0.6; no.
50
4.- Se va a realizar una cirugía de esófago a 2 gatos. Se sabe que en esta cirugía muere
el 1%. ¿Cual es la probabilidad de que: a) mueran los 2 gatos b) muera sólo 1 c)
ninguno muera
R: 0.0001; 0.0198; 0.9801.

5.- Un procedimiento quirúrgico sólo se puede realizar 3 veces. Si la probabilidad de


que este procedimiento sea exitoso es 0.25. ¿Cuál es la probabilidad de salvar al
paciente?
R: 37/64.

6.- La enfermedad x se puede tratar con C o con M. El 80% de los varones prefiere C;
el 90% de las mujeres prefiere M. Si el 60% de los enfermos son varones. ¿Cuál es la
probabilidad de tratar un enfermo con M? R: 0.48.

7.- Sea la variable aleatoria X = suma de los puntos al lanzar 2 veces un dado. a)
encontrar P(X=k) para todo k. b) graficar la función de cuantía y a función de
distribución c) Encontrar E(X) y V[X] R: 7;5.83.

IV.2.- Distribución de Bernoulli

Si se tiene un experimento con un resultado dicotómico, por ejemplo éxito o


fracaso, y la probabilidad de éxito es p, entonces la probabilidad de fracaso es q = 1-p.
Este tipo de experimento se conoce como ensayo de Bernoulli. Si creamos la variable
aleatoria X de tal manera que X = 0 si es un fracaso y X = 1 si es un éxito, entonces
podemos ver que su función de cuantía y su función de distribución son:

X P(x) F(x)
0 1-p = q 1-p = q
1 P 1

Además E[X] = 1·p+0·q = p, y V[X] = 12·p +02·q –p2 = p-p2 =p(1-p) = pq.

Definición Diremos que la variable X definida como lo hemos hecho, asociada a


un experimento dicotómico tiene distribución de Bernoulli.

IV.3.- Distribución binomial

Si consideramos un experimento que consiste en n ensayos de Bernoulli, y


definimos la variable aleatoria discreta: X = n° de éxitos, entonces X tiene distribución
Binomial. Por ejemplo, si la probabilidad de éxito de cada ensayo es p y lo repetimos n
veces, entonces la probabilidad que en estos n ensayos haya k éxitos es:
51

 n  k n k
P(X  k)  p (1 p)
k 
Vemos que una vad con distribución binomial es caracterizada por 2 parámetros:
n y p, entonces se abrevia B(n,p). Observamos que la distribución binomial consta de n
ensayos fijos e independientes, cada uno dicotómico en su resultado y con una
probabilidad constante (p) de éxito.

Como es de esperar E[X] = np, pues es la suma de n ensayos de Bernoulli.


Además V[X] = npq.

Demostración La esperanza E[X] = Σ kP(X=k) =

n n! (n1)!
kn kn kn
=
k0kk (1) k0kpp k!(n)pq npk1(k1)!nkpq
k nk k n k1 nk


 m  j m j m j m
haciendo, j  k 1 y,, m  n 1; np p q  np(p  q)  np
j 0  j 

La varianza V[X] = Σ k2 P(X=k) – (E[X])2 = Σ (k2 - k + k)P(X=k) – (E[X]) 2 = Σ (k(k-


1)P(X=k) + Σ kP(X=k) – (E[X])2 , lo cual utilizando el mismo juego de sub-índices
lleva a: n(n-1)p2 + np – n2p2 = npq.
52
Esta distribución es muy importante en ciencias pues es muy habitual poder
reducir un experimento a una situación dicotómica, por ejemplo cuando contamos el
número de individuos con una característica, si la tiene (éxito) o si no la tiene (fracaso).
Sin embargo esta distribución sigue siendo discreta y tiene el problema que se genera al
calcular números combinatorios con grandes valores de n.

Esta distribución tiende a ser asimétrica para bajos valores de p y n, pero es


simétrica si p y n son altos.

Ejemplo 5.-

Si la probabilidad que un individuo lea el diario es p = 0.2 y se toman al azar 10


individuos, entonces la probabilidad que en éstos 10, exactamente 3 lean el diario es:

10  3 7
P( X 3) 0.2 0.8 0.2013
3 
Observación Si de un universo de N elementos en los cuales una proporción p de
ellos tiene un atributo, sacamos n elementos; entonces la probabilidad que en estos n
haya k con el atributo es:
53

N NpNp
  
(XP k) kn k 
N 
 
n 
Esta variable tiene distribución hipergeométrica y E[X] = np y V[X] = npq(N-n)/
(N-1). Es fácil darse cuenta que si N es muy grande (tiende a ) la toma de cada
elemento no altera la probabilidad de atributo del siguiente elemento y, entonces cada
ensayo se vuelve de tipo Bernoulli. Así si en una vad con distribución hipergeométrica,
N → , su distribución se vuelve binomial (B(n,p)). Esto es también evidente al
observar que el límite cuando N → ∞ de V[X] es npq. Entonces se puede considerar a
la distribución binomial como una distribución asintótica para poblaciones infinitas.

Ejemplo 6.-

Si en una urna hay 10 bolas rojas y 6 azules y se escogen al azar 5, la


probabilidad que en éstas 5 haya 2 rojas es:
54

610
  
 32 
P(X  2)
16
 
5 
IV.4.- Distribución de Poisson

Un hecho importante en la distribución B(n,p) es que es muy asimétrica para


valores bajos de p, a pesar de valores altos de n. Entonces es interesante estudiar que
sucede si
n  y p  0 manteniendo constante np = .

 n  k nk
P(X  k)   p (1 p) = n(n-1)(n-2)……(n-k+1)(/n)k(1-/n)n-k/(k!) =

k 
= [k/k!]·[1·(1-1/n)·(1-2/n)···(1-(x-1)/n)]·(1-/n)n(1-/n)-k

y tomando límite cuando n  , = [k/k!]·1·1·1··e-·1 = [k/k!]·e-.


55
Entonces si N es grande y p pequeña (en general np < 0.1) la probabilidad de k
éxitos en n ensayos sigue a:

k
P( X  k )  e  
k!

Se dice entonces que esta variable tiene distribución de Poisson. En este caso,
E[X] = V[X] = .

Demostración
Para la esperanza, se tiene que

k 
k 1

k 0
k e
k!
e  


k 1 ( k  1)!
 e     e   

Para la varianza,

k 
k
k
k 0
2
 e 
k!
 E[ X ]2   (k (k  1)  k )  e   E[ x]2  e   2  e     2  
k 0 k!

Ejemplo 7.-

Si la probabilidad de que una máquina produzca un artículo defectuoso es p =


0.0003, entonces la probabilidad que en 100 artículos haya 2 defectuosos es:

0.032
P( X  2)  e 0.03   0.000437
2!

Si un fenómeno ocurre X(t) veces en un intervalo [0,t), como ocurre por ejemplo
en la llegada de llamadas telefónicas, la emisión de partículas, accidentes etc... Y
además la probabilidad de una ocurrencia de éste fenómeno es proporcional al intervalo
(P(una o más ocurrencias en [t,t+) ) =  + o(), donde o() es la probabilidad de que
ocurra más de uno), entonces el número de ocurrencias (k) en un plazo fijo (t) se
conoce como un proceso de Poisson y tiene distribución de Poisson con parámetro t:

(t ) k
Pk (t )  e t 
k!

Ejemplo 8.-

Si en una central telefónica llegan 3 llamadas/minuto, entonces la probabilidad


que en 2 minutos lleguen 4 llamadas es:
56

(3  2) 4
P4 ( 2)  e  32
  0.134
4!

IV.5.- Variables aleatorias continuas

Definiciones Una variable aleatoria es continua (vac) si su recorrido es infinito y


no-numerable. En este caso no existe una función de cuantía sino una función de
densidad de probabilidades f(x) definido como:

i) f(x) 0  x,
b
ii) P(a x  b) =  f(x) dx
+ a
iii)  f(x) dx = 1.
-
Podemos observar que la densidad de probabilidad en un punto es 0, y que sólo
tienen sentido las probabilidades de intervalos.

La función de distribución de una vac. Se define como:


x
F(x) =  f(x)dx
-

Tanto las funciones como las características de una vac se interpretan del mismo
modo, pero cambian sus definiciones:
+
E[X] = x·f(x) dx y V[X] = E[X2]-(E[X])2
-

Una función especialmente útil en el estudio de las variables aleatorias continuas


es la llamada función generatriz de momentos (Mx(t)) definida como:

M x (t )  e
tx
f ( x ) dx . Observamos inmediatamente que la derivada de esta función, con


respecto a t, y evaluada en t = 0, corresponde a la esperanza E[X], o primer momento


central, y que la segunda derivada evaluada en t = 0, es E[X 2], o segundo momento
central. Existen tres teoremas de demostración muy sencilla en referencia a esta
función:
57
1) Si c es una constante y la función generatriz de momentos
(fgm) de X es Mx(t), entonces la fgm de y = X+c = My(t) = ectMx(t).

2) Si c es distinta de 0 e y = cX, entonces My(t) = Mx(ct).

3) Si X1, X2, ………Xn son independientes y todas con igual


fgm, Mx(t), entonces Y = X1+X2+…….Xn tiene una fgm dada por:

M y (t )  [ M x (t )]n

IV.6.- Distribución uniforme

Muchas veces en estadística se usan números aleatorios. Estos son un conjunto de


números  [a,b] que tienen todos igual probabilidad de aparecer. Esto genera una
función densidad de probabilidad constante f(x) = 1/(b-a) y una función de distribución
F(x) = (x-a)/b-a) en el intervalo [a,b]. Además es fácil ver mediante integración que
E[X] = (a+b)/2 y V[X] = (b-a)2/12.

IV.7.- Distribución exponencial

Si consideramos la variable U como el tiempo que transcurre entre dos eventos


en un proceso de Poisson, podemos observar que la probabilidad que este “tiempo de
espera” sea mayor que un cierto valor u (P(U  u) es equivalente a la probabilidad que
en este proceso no haya ocurrencia en el intervalo [0,u) es decir P(U  u) = P0(u) = e-u.
De otra forma 1 – F(u) = e -u , es decir la vac “tiempo de espera” en un proceso de
Poisson tiene función de distribución F(u) = 1- e -u , y derivando, la función densidad de
probabilidad es f(x) =  e-u . Se dice que una variable con esta función densidad tiene
distribución exponencial. Es fácil ver, simplemente integrando que E[X] = 1/ y V[X]
= 1/2

IV.8.- DISTRIBUCIÓN NORMAL

Definición Una variable aleatoria continua, con función densidad:


x 2
(1 / 2 )[ ]
f ( x)  (1 /  2 )  e 

Se dice que tiene distribución normal o de Gauss (campana de Gauss).

Su esperanza es E[X] =  y su varianza V[X] = 2.


58
Observamos que  = V[X], es decir es la desviación estándar. Como esta
distribución queda caracterizada por dos parámetros, se abrevia como N(μ,σ).

Esta es, lejos, la distribución más importante en estadística. Si graficamos la


distribución, vemos que tiene forma de campana, con un máximo en  y puntos de
inflexión en - y +. Además es importante que P(-  x  +) = 0.682, P(-2 
x  +2) = 0.954 y P(-3  x  +3) = 0.997.

Es decir entre –1 y + 1 desviaciones estándar se encuentra el 68.2 % de la


distribución, entre –2 y + 2 d.s. el 95.4 y entre –3 y + 3 d.s. el 99.7%.

Observamos que además si X tiene distribución N(,) entonces la variable


estandarizada Z = (X-)/ tiene distribución N(0,1). Esto es obvio pues E[Z] = E[(X-
)/] = (E[X]-)/ = 0 y V[Z] = V[(X-)/] =V[(X-)]/2 = V[X]/2 = 2 /2 = 1. En
este caso, M Z (t )  e  t / 2
2

Esta distribución tiene dos orígenes fundamentales que se pueden enunciar a


manera de teoremas.

Teorema de De Moivre

Si X tiene distribución binomial (B(n,p)) y n, entonces:

P(a < x < b) =


b
1/( 2 )  (e  (1/ 2)[( x   ) /  ] )
2

a
59
Donde  = np y 2 = npq

Demostración La demostración es extensa por lo que sólo se muestran los pasos


fundamentales:

 n  k nk
Si en P(X  k)   p (1 p) , aplicamos la fórmula de Stirling para factoriales,

k 
n! n n  e  n  2n  e / 12 n , donde θ es un número entre 0 y 1, se obtiene:

1 k  np
P( X  k )  , donde  y el término R/n tiende a 0 para n
2
e  / 2 R / n

2npq npq
grandes.
2
1
Así, si n es grande P(k1  X  k 2 )  P(1    2 )  
2
e  x / 2 dx , lo que define
1 2npq
una distribución normal con  = np y 2 = npq.

Este primer teorema nos dice que la distribución normal es una distribución límite
de una binomial cuando n es grande. En la práctica n > 30 o bien np 5.

Teorema del límite central (o central del límite) (expresión general, Laplace
1812, Lyapunov 1901)

Cualesquiera que sean las distribuciones de ciertas variables Xj, con esperanzas
j y varianzas 2j, entonces X = Xj es asintóticamente normal (N(,)) donde  =
j y 2 = 2j .

Demostración Consideraremos sólo el caso más sencillo, donde las Xj tienen la misma
distribución. En este caso se puede partir por el siguiente corolario:

Corolario 1 Si estas Xj tienen distribuciones iguales, entonces X es


asintóticamente normal N(n,n).

Demostración: En este caso j = n y la varianza es n2j, por lo que la


desviación estándar es n.
60

Falta por demostrar la normalidad. X = Xj, se puede estandarizar como:


1 n
1 n

Z = (X-E[X])/√V[X] = (X- n)/n =   ( X j  )    Zj . Entonces se puede


 n 1  n 1

t
obtener la fgm de Z: M Z (t )  [ M zj ( )]n y como en MZj(t) el primer y segundo
 n
momentos son 0 y σ2 se puede desarrollar en serie de Taylor: M Zj(t) = 1- σ2t2/2 + R, y
reemplazando t por t/ n obtenemos para MZ(t):
t2 1
M Z (t )  [1  R(n, t )]n  [1   R(n, t )]( 2 n / t )(  t / 2 ) y tomando límite cuando n
2 2

2n  2n / t 2
tiende a infinito se tiene que M Z (t )  e  t / 2 . Como esta es la fgm de una distribución
2

normal, entonces concluimos que la distribución es normal.


Corolario 2 El promedio X = X/n de estas Xj tiene distribución asintóticamente
normal N(,/n).

Demostración: la esperanza E[X ] = E[X/n] =E[X]/n = nμ/n = μ.


La varianza V[X] =V[X/n] = V[X]/n2 =nσ2/n2 = σ2/n, y entonces la desviación estándar
es σ/√n.

Corolario 3 La variable estandarizada Z = (X -)/(/n) tiene distribución N(0,1)

Demostración: la esperanza E[Z] = E[(X-)/(/n)] =(E[X]- )/(/n) =


= (μ-)/(/n) = 0. La varianza V[Z] =[(X-)/(/n)] =(V[X]- 0)/(/n)2 =
=(2/n)/2/n) = 1, y entonces la desviación estándar también es 1.

Corolario 4 Si Y es B(n,p) y n , entonces la variable estandarizada Z = (Y-


np)/(npq)) tiene distribución N(0,1).

Demostración: Trivial; se sigue inmediatamente del teorema de De Moivre y los


corolarios anteriores.

El teorema del límite central y sus importantes corolarios nos explican porqué es
normal (habitual) encontrar distribuciones normales en las variables que estudiamos.
Además mediante el uso de la estandarización (Z) de la variable X, es posible calcular
las probabilidades P(a  x b)= P((a-)/  z  (b-)/). Afortunadamente para
nosotros los valores de las integrales que definen las probabilidades ya se encuentran
tabulados y son accesibles en programas computacionales. Algunos valores muy
conocidos, importantes y fáciles de recordar son P (z > 1.64) = 0.05 y P(z > 1.96) =
0.025.

Ejemplo 9.-
61

Supongamos que el peso (W) de los seres humanos tiene distribución normal con
promedio μ = 70 Kg y desviación estándar σ = 5Kg. Entonces cual es la probabilidad
que un individuo pese más de 83 Kg?. Como W tiene distribución normal N(70; 5),
entonces Z = (W-μ)/σ tiene distribución normal N(0;1) y preguntar por P(W >83) es
equivalente a preguntar por P(Z >(83-70)/5=2.6). En las tablas de áreas de la
distribución normal se puede ver que este valor es: P(Z > 2.6) = 0.0047.

IV.9.- Otras distribuciones importantes

En los siguientes párrafos introduciremos algunas distribuciones y una serie de


teoremas, cuya importancia se verá mas adelante. En general todas las distribuciones de
variables aleatorias continuas se encuentran relacionadas y pueden expresarse como
casos particulares de una ecuación general (sistema de Pearson). El conocimiento de
estas distribuciones permite posteriormente generar las dócimas o pruebas de
hipótesis.

Una distribución habitual es la distribución logarítmico-normal o log-normal.


Una variable aleatoria X tiene distribución log-normal si existe una constante a, tal que
Y = log(x-a) se distribuye normalmente.

Los siguientes teoremas y distribuciones tienen relación con la función gama (Γ),
de importantes aplicaciones en cálculo y estadística:

 ( k )   x k 1  e  x dx , k > 0.
0

Basados en esta función, se dice que una variable aleatoria continua X, tiene una
distribución Γ de parámetros r y α si su densidad es


f ( x)   (x) r 1  e x , x >0; r > 0; α > 0; y 0 en cualquier otro caso.
(r )

En esta distribución, E[X] = r/α y V[X] = r/α2 y Mx(t) = (1-t/α)-r.

Si r = 1, f(x) = α e –αx , E[X] = 1/α y V[X] = 1/α 2. Cuando ocurre esto, se dice que
la variable tiene distribución exponencial.

Cuando r = n/2 y α = 1/2, se dice que la variable tiene distribución Chi-


cuadrado con n grados de libertad (2n).
62
Teorema Si las variables Zj tienen distribución N(0,1), entonces X = Z2j, tiene
una distribución Chi-cuadrado con “n grados de libertad”: 2n.

Demostración Veamos primero el caso de una variable Z con distribución N(0,1) y


llamemos F(Z) y f(Z) a su función de distribución y función densidad respectivamente.
En este caso: Y = Z2 tendría por función de distribución a G(Y):

G(Y) = P(Y ≤ y) = P(0 < Y ≤ y) = P(-√y ≤ Z ≤ √y) = 2 P(0≤Z≤√y) = 2[F(√y)-F(0)].


Entonces la función densidad g(Y) corresponde a la derivada de G(Y). O sea,
1
g(Y) = G´(Y) = 2F´(√y)(1/2(√y) = f(√y)/√y = (1/ 2 )  e (1 / 2 ) y  . Observamos ahora
y
que g(Y=Z2) corresponde a una distribución Γ con r = 1/2 y α = 1/2 es decir Chi-
Cuadrado con 1 grado de libertad (21). Su fgm es entonces MY(t) = 1/√(1-2t).

Ahora veamos el caso de la variable X = Y = Z2j. En este caso la fgm de X es


Mx(t) =MY (t) =[MY(t)]n = (1-t/(1/2))-n/2 = (1-t/α)-r, con r = n/2 y α = 1/2; y por tanto es
una distribución 2n. Naturalmente su E[X] = n y V[X] = 2n.

Esta es una distribución asimétrica en que su simetría depende de n. Mientras más


grande n, más simétrica.

Teorema Si una variable aleatoria X cuya varianza es 2, en una muestra de n


elementos tiene una varianza s2, entonces y = (n-1)s2/2 tiene distribución 2n-1.

Demostración Si desarrollamos:

 (xi-)2 = (xi-x + x -)2 =(xi-x)2 + (x-)2+2(xi-x)(x-) =

 (xi-)2 = (xi-x)2 + (x-)2+ 0 y dividiendo por 2 obtenemos:

 ((xi-)/)2 = n·s2/2 + ((x-)/(/n))2.

En este desarrollo, como el primer término es la suma de n variable aleatorias con


distribución normal N(0,1) elevadas al cuadrado, este tiene distribución 2n y además el
último término tiene distribución N(0,1) al cuadrado, es decir, 21, entonces ns2/2 tiene
distribución 2n-1.

Definición Una variable aleatoria continua tiene distribución t de Student con k


“grados de libertad” si su función densidad es:
63
k 1
( )
2 x 2  k 1
f ( x)  (1  ) 2
(k / 2)  k k

Teorema Si una variable X tiene distribución normal N(0,1) y una variable Y


tiene una distribución 2k entonces t = X/(Y/k) tiene una distribución t de Student
con k “grados de libertad” (tk). Su E[t] = 0 y V[t] = k/(k-2). La demostración de este
teorema requiere de variables bi-dimensionales, lo que esta fuera del alcance de este
libro.

Corolario La variable estandarizada t = (X-)/(s/n) tiene distribución tn-1.

Demostración Como La variable estandarizada Z = (X-)/(/n) tiene distribución


N(0,1) y además Y = (n-1)s2/2 tiene distribución 2n-1, entonces t = X/(Y/(n-1)) =
(X-)/(s/n) tiene distribución tn-1.

Teorema Si n, tn-1 N(0,1)

Demostración Si n, s , y entonces por el teorema central del límite, t n-1
N(0,1).

Esta distribución “t” se le debe a Gossett, quien escribía bajo el seudónimo de


Student y es una de las distribuciones más importantes, junto con la normal. Es un
distribución acampanada, más apuntada que la normal. Sin embargo, en la práctica, si n
> 30 esta distribución es prácticamente normal.

Definición Una variable aleatoria continua X tiene distribución F de Snedecor


con n1 y n2 grados de libertad si su función densidad es:

n1  n2
( )  n1n1 / 2  n2n 2 / 2
2 x n1 / 21
f ( x)  
( n1 / 2)  (n2 / 2) ( n2  n1 x) ( n1 n 2) / 2

Su E[X] = n2/(n2-2) y V[X] = 2n2(n1+n2-2)/n1(n2-2)2(n2-4).

Esta es una distribución muy útil usada en las dócimas de varianza y en el análisis
de la varianza (ANOVA).

Teorema Si U es 2n1 y V es 2n1, entonces F = (U/n1)/(V/n2) tiene una


distribución F de Snedecor con n1 y n2 “grados de libertad”(Fn1,n2). La demostración
64
de este teorema requiere de variables bi-dimensionales, lo que esta fuera del alcance de
este libro.

Teorema Si t tiene distribución tk, entonces t2 tiene distribución F1,k.

Demostración Como t = X/(Y/k) tiene una distribución t de Student con k “grados de


libertad” (tk) y en ella X tiene distribución normal N(0,1) y una variable Y tiene una
distribución 2k entonces t2 es el cuociente entre X2 con distribución 21 y Y/k con
distribución 2k. Así, por el teorema anterior t2 tiene distribución Fn1,n2.

Teorema El cuociente de las varianzas de dos muestras S = s21/s22 tiene


distribución Fn1-1,n2-1

Demostración Como en una población dos muestras independientes de tamaños n 1 y n2,


Y1= (n1 -1)s12/2 tiene distribución 2n1-1 y Y2= (n2 -1)s22/2 tiene distribución 2n2-1,
entonces el cuociente W = [Y1/(n1-1)]/[ Y1/(n1-1)] = s21/s22 tiene distribución Fn1-1,n2-1.
65

Ejercicios de variables aleatorias

1. Considere un experimento que consiste en tirar una vez un dado. Siendo X = el valor
obtenido en el lanzamiento una v.a.d., ¿cuál es su esperanza y su varianza?
R: 3.5; 2.92.

2. Sea X el número de casos nuevos de SIDA diagnosticados en un hospital durante un


día. La distribución acumulativa para X es

X 0 1 2 3 4 5 6
F (x) 0.1 0.2 0.3 0.6 0.8 0.9 1.0

a) Hallar la probabilidad de que en un día cualquiera,


i) Tres casos nuevos sean diagnosticados.
ii) Por lo menos un caso nuevo sea diagnosticado.
iii) Ningún caso nuevo sea diagnosticado.
iv) Entre dos y cuatro casos nuevos sean diagnosticados.
b) Hallar la función de cuantía para X.
c) Determinar E[x] y V[x].
R: a) 0.3; 0.9; 0.1;0.6; c) 2.81; 4.60.

3. ¿Qué requisitos debe cumplir una variable para que en sus análisis se utilice la
distribución binomial?

4. Se ha determinado que de cada 100 nacimientos, 20 de los niños nacidos son


hombres y 80 mujeres. Dado que una madre ha dado a luz 8 hijo, ¿cuál es la
probabilidad de que tenga 5 hijas?
R: 0.147.

5. Para estudiar la regulación hormonal de una línea metabólica se inyectan ratas con un
fármaco que inhibe la síntesis de proteínas del organismo. En general, 4 de cada 20
ratas mueren a causa del fármaco antes de que el experimento haya concluido. Si se
trata a 10 animales con el fármaco, ¿cuál es la probabilidad de que al menos lleguen 8
vivas al final del experimento?.
R: 0.677.

6. En Escherichia coli, una célula de cada 105 muta generando resistencia al antibiótico
estreptomicina. Observando 556.000 células, ¿cuál es la probabilidad de que ninguna
mute? ¿cuál es la probabilidad de que al menos una mute?
R: 0.00348; 0.9965.
66
7. Se estima que sólo uno de cada 50 loros capturados en el sur de Chile para su
utilización como animales domésticos sobrevive al cambio. Se capturan 700 pájaros
en un día. ¿Cuál es el número esperado de sobrevivientes? ¿Cuál es la probabilidad
de que sobrevivan entre 10 y 12?
R: 0.1545.

8. ¿Qué características tiene la distribución normal?

9. Si la variable X tiene distribución normal con =21 y 2=3. Calcule:


a) P (x<22)
b) P (x<18)
c) P (x>22)
d) P (22<x<24)
e) P (16<x<18)
R: 0.719; 0.0418; 0.281; 0.239; 0.0398.

10.En cierta población de primates, el volumen de la cavidad craneal se distribuye


aproximadamente como una normal con media  1200 cm3 y desviación estándar 
de 140 cm3.
a) Hallar la probabilidad de que un miembro de la población seleccionado al azar
tenga una cavidad craneal superior a 1400 cm3.
b) Hallar P (1000<x<1050)
c) Hallar P (x<1060)
d) Hallar P (x<920)
e) Hallar el punto x0 tal que el 20% de los primates tenga una cavidad craneal más
pequeña que x0.
f) Hallar el punto x0 tal que el 10% de los primates tenga una cavidad craneal
superior que x0.
R: 0.0764; 0.0659; 0.0228; 1081.7; 1379,9.

11.La densidad del suelo se define como la masa de materia sólida seca por unidad de
volumen. Una densidad elevada implica un suelo compacto con escasos poros. Esta
densidad es un factor importante para el crecimiento de las raíces, la siembra
precipitada y la ventilación. Sea X la densidad de tierra arcillosa. Los estudios
demuestran que X tiene una distribución normal con =1.5 y =0.2 g/cm3.
a) ¿Cuál es la función densidad de X? Haga un esbozo de la función densidad.
Indique en esa gráfica la probabilidad de que X esté comprendida entre 1.1 y 1.9.
Halle esta probabilidad. R: 0.9544.
b) Halle la probabilidad de que tomando de forma aleatoria una muestra de tierra
arcillosa, ésta tenga una densidad menor que 0.9 g/cm3. R: 0.0013.
67
c) ¿Estaría sorprendido si una muestra de este tipo de tierra, seleccionada
aleatoriamente, tuviese una densidad de 3.2 g? R: absolutamente.

12.La Escala de Inteligencia Wechsler para Niños (WISC) tiene una media de 100 y una
varianza de 225 para la población general. Si un niño cae en el 10% menor de la
población, generalmente los psicólogos clínicos urgen a los padres de los niños a que
les realicen exámenes en busca de posibles problemas cerebrales. Asumiendo que los
puntajes de WISC están normalmente distribuidos, ¿cuál es el puntaje crítico que los
psicólogos utilizan para hablar con los padres?
R: 80.725.
68

III UNIDAD: INFERENCIA ESTADISTICA


69
V.- ESTIMACIÓN

La base fundamental de la inferencia estadística es la obtención de una muestra


de la población o universo y, a partir de lo que ocurre en ella, inferir, con una cierta
incertidumbre, la validez de una proposición en la población completa. La muestra es
entonces un subconjunto del universo. Los elementos de la muestra constituyen las
unidades de análisis, por ejemplo los individuos de una población. Las unidades de
análisis no necesariamente coinciden con las llamadas unidades de muestreo. Estas
últimas son unidades operativas, que por ciertas razones constituyen la unidad obtenida
como muestra. Por ejemplo, un investigador puede estar interesado en los glóbulos rojos
(unidad de análisis) pero muestrea individuos (unidad de muestreo), o bien estar
interesado en características de los individuos (unidad de análisis) y muestrear
“manzanas” o barrios de una ciudad (unidad de muestro)...etc. El marco de muestreo
consiste en el listado de las unidades de muestreo que se van a considerar.

V.1.- Estimadores

En la teoría de estimación se considera la existencia de:

i) Parámetros: éstos se pueden definir como características () de una


variable aleatoria, propios de la población. En general se denotan con
letras griegas o mayúsculas. Los ejemplos más conocidos son la esperanza,
, la proporción poblacional “P”, la desviación estándar  y la varianza 2.

ii) Estimadores: éstos son funciones de una variable aleatoria cuyo fin es
aproximar el valor de un parámetro a partir de las unidades de la muestra
Los ejemplos más característicos son el promedio muestral x , la
proporción muestral “p”, la desviación estándar “s” y la varianza “s 2”
muestrales.

Así, las medidas de posición y dispersión que aprendimos en estadística


descriptiva, aquí adquieren otra connotación. Si nuestro fin es inferir y no simplemente
describir una muestra, el promedio, la varianza y la desviación estándar se constituyen
en estimadores de parámetros poblacionales.

Los estimadores tienen cuatro características de interés:

i) Linealidad: es una característica deseable en un estimador que permite


operarlo algebraicamente. Por ejemplo, es evidente que el promedio es
70
lineal, pues es una combinación lineal de los valores de una variable
aleatoria (x = hixi).

ii) Sesgo: este corresponde a la diferencia entre la esperanza de un estimador


(E[ê] ) y el parámetro (θ): Sesgo = E[ê] - . Naturalmente es deseable que
los estimadores sean insesgados (Sesgo = 0). Por ejemplo, el promedio es
un estimador insesgado: x = xi/n.
Si la variable x tiene E[x] =  , entonces E[x] = E[ xi/n] = (1/n)E[xi] =
(1/n)E[xi] = (1/n)n = , o sea la esperanza del estimador es igual al
parámetro.

iii) Consistencia: un estimador se dice consistente si limn V[ê] = 0. Es decir,


es deseable que en un estimador, a medida que aumente el tamaño muestral
(n), su varianza disminuya. Por ejemplo V[x] = V[ xi/n] = (1/n2)V[xi]
= (1/n2)n2 = 2/n, entonces limn V[x] = 0, es decir el promedio
muestral es un estimador consistente.

Observamos inmediatamente que la desviación estándar poblacional del


estimador x es s = V[x] = /n, entonces tiene sentido considerar el estimador
Es = s/n, conocido como error estándar.

iv) Varianza mínima: es deseable que un estimador tenga la mínima varianza


posible.

Cuando un estimador cumple estas condiciones, se dice que es un estimador meli:


el mejor estimador lineal insesgado.

Además del promedio, otro estimador meli es la proporción muestral “p” como
estimador de la proporción poblacional “P”. Si tenemos una muestra de n elementos y
definimos la variable aleatoria x = 1 si tiene una característica y x = 0 si no la tiene,
entonces se aprecia que p = xi/n, es decir tiene la estructura de un promedio, por lo que
E[p] = P y V[p] = PQ/n.

En cambio, observemos el siguiente desarrollo:

 (xi-)2 = (xi-x + x -)2 =(xi-x)2 + (x-)2+2(xi-x)(x-) =

 (xi-)2 = (xi-x)2 + (x-)2+ 0 y dividiendo por 2 obtenemos:

 ((xi-)/)2 = n·s2/2 + ((x-)/(/n))2.


71
En este desarrollo, como el primer término es la suma de n variable aleatorias con
distribución normal N(0,1) elevadas al cuadrado, este tiene distribución 2n y además el
último término tiene distribución 21(ver teoremas), entonces ns2/2 tiene distribución
2n-1. O sea E[ns2/2 ] = (n-1) o, lo que es lo mismo, E[s2] = (n-1)2/n.

En palabras, la varianza muestral s2 =(xi-x)2/n, es un estimador sesgado


de  2. Entonces, nada mejor que corregirle el sesgo multiplicando este estimador
multiplicándolo por n/(n-1). Así, creamos el nuevo estimador s2 = n/(n-1)s2 = (xi-
x)2/(n-1), y este es insesgado porque E[s2] = n/(n-1)E[s2] = (n/(n-1))(n-1) 2/n =  2.
Esta es la razón por la que se usa n-1 en el denominador de la varianza y la
desviación estándar muestral: son los estimadores insesgados. En la práctica para n
> 30 son prácticamente iguales.

V.2.- Estimaciones

Las estimaciones o estimas son los valores que toma un estimador para una
muestra determinada. Por ejemplo, el promedio es un estimador y pero el valor
particularx = 5 es una estimación. Las estimaciones pueden ser de dos tipos:
puntuales, por ejemplo el promedio poblacional es 3, o por intervalos, por ejemplo el
promedio poblacional está entre 2 y 5. Obviamente la primera estimación es precisa
pero poco confiable y la segunda es más confiable pero pierde precisión. Estas dos
últimas, precisión y confianza son las dos características de una estimación (no
confundir con estimador).

La estimación puntual prácticamente no se usa. De ser necesario ésta corresponde


en general al valor central del intervalo.

Definición Llamaremos intervalo de confianza del nivel C = 1- a un intervalo


que tenga una probabilidad o confianza “C” de contener el valor real de un parámetro.
Así, por ejemplo un intervalo del 95% de confianza para el promedio, es un intervalo
que tiene una probabilidad 0.95 de contener al promedio poblacional real.

V.2.1 Intervalo de confianza para una proporción P y para la diferencia P1-P2

Supongamos que queremos el intervalo de confianza del 95% para la proporción


poblacional P. Es decir queremos construir un intervalo (a,b) que tenga una probabilidad
0.95 de contener a P.

Sabemos que Z = (p –P)/(pq/n) tiene distribución N(0,1) y además sabemos que


P(-1.96 z 1.96) = 0.95, es decir:
72
[-1.96  (p-P)/(pq/n) 1.96] = [p – 1.96(pq/n) P  p + 1.96(pq/n)], de manera que
se puede asegurar con probabilidad 0.95 que P está contenido por el intervalo definido
por (p ± 1.96(pq/n)).

En términos generales, entonces el intervalo de confianza del nivel C = 1- para


la proporción poblacional P es:

IC1  [ p  Z  / 2  pq / n ]

Notamos que Z/2 en el caso de C = 0.95 es Z/2 = 1.96, pero que para otros niveles
son otros valores que se pueden obtener directamente de la tabla de la distribución
N(0;1) (Z).

Ejemplo 1.-

Si al examinar 30 insectos se encontraron 5 parasitados, como p = 5/30 = 0.167 y


q = 1-0.167 = 0.833, se podría afirmar con un 95% de confianza que la proporción
poblacional de parasitados se encuentra en el intervalo:

IC 0.95  [0.167  1.96  Es decir entre 0.033 y 0.3 o entre un 3.3 y


0.167  0.833 / 30 ]
30%. Naturalmente, en este caso si quisiera mayor precisión tendría que aumentar el
tamaño muestral.

En el Intervalo de confianza para una diferencia de proporciones P1-P2, por un


razonamiento enteramente análogo al anterior se llega a:

IC1  [( p1  p2 )  Z  / 2  ( p1q1 / n1  p 2 q2 / n2 )]

V.2.2 Intervalo de confianza para el promedio x y para la diferencia x1-x2

Si se conoce la varianza poblacional, entonces por un razonamiento análogo al


anterior:

IC1  [ x  Z  / 2   / n ]

Sin embargo esto no es lo habitual; en general, la varianza es desconocida.

Si la varianza es desconocida recordamos que (x-)/(s/n) tiene distribución de


Student tn-1 y entonces es fácil llegar a que el intervalo de confianza del nivel C = 1- es
en este caso:
73
IC1  [ x  t (1 / 2 )  s / n]

Aquí t(1-/2) tiene el mismo sentido que Z/2 pero se escribe distinto por razón de
construcción de las tablas t de Student.

Ejemplo 2.-

Si en una muestra de 49 individuos se tiene una glicemia promedio de 1.042 con


una desviación estándar de 0.03. Entonces puedo afirmar con un 95% de confianza que
el promedio poblacional de la glicemia se encuentra en:

IC1  [1.042  2  0.03 / 49 ] Es decir entre 1.033 y 1.051.

A estas alturas ya es conveniente observar que todos los intervalos de confianza


tienen la misma estructura: IC1- =[ê ± k·Es], donde ê es un estimador, “Es” su error
estándar y k un valor que determina en una cierta distribución una probabilidad
determinada. Para los estimadores habituales, promedios y proporciones, que
generalmente siguen distribuciones normales o Student, un buen valor para recordar al
95% de confianza es k = 1.96 2.

Para la diferencia de promedios x1-x2 el intervalo de confianza es:

(n1  1) s12  (n2  1) s 22


IC1  [( x1  x 2 )  t (1 / 2 )  Es ] donde Es   (1 / n1  1/ n2 )
n1  n2  2

V.3.- El tamaño muestral

Esta misma forma de pensamiento, permite calcular el tamaño muestral para una
precisión y una confianza dadas.

Si se acepta que una medida de la precisión es la mitad del ancho del intervalo de
confianza, se observa que la precisión es d = k·Es = ê-θ y, entonces equivale al valor
absoluto de la diferencia entre el valor real del parámetro y el promedio muestral
(observación: a mayor valor de d la estimación es menos precisa).

Entonces, por ejemplo si se desea buscar el tamaño muestral con una precisión d y
una confianza C = 1- para estimar una proporción P, es obvio que d = z /2(PQ/n), es
decir, despejando n, el tamaño muestral adecuado es:

Z 2 / 2 PQ
n
d2
74

Ejemplo 3.-

Si deseamos estimar una proporción P, que según estimaciones previas de otros


autores es de alrededor de un 32% y queremos hacerlo con una confianza de un 95% (α
= 0.05) y con una precisión de 10 % , entonces P≈ 0.32; Q ≈ 0.68; Z α/2 = 1.96 y d =
0.1x0.32 = 0.032. Así el tamaño muestral necesario es aproximadamente n =
(1.96)2(0.32x0.68)/(0.032)2 = 816.34. O sea alrededor de 817 individuos.

Si nuestro interés es calcular un promedio, entonces d = t (1-/2)s/n, y entonces el


tamaño adecuado es:

t12 / 2 s 2 Z 2 / 2 s 2
n 
d2 d2

Para confianzas del 95% se suele aproximar z2/2 = 4.

Ejemplo 4.-

Si queremos estimar un promedio con un 95% de confianza, con una precisión del
5% y se tienen estimaciones previas que sugieren un promedio de 45 de una desviación
estándar de s = 5.4, entonces el tamaño muestral requerido es aproximadamente: n =
4(5.4)2/(0.05x45)2 = 51.84 = 52.

Observamos que todos los cálculos de tamaño muestral son sólo aproximaciones y
que todos necesitan de algún conocimiento o estimaciones previas de lo que se pretende
estimar y su variabilidad.
V.2.3.- Estimaciones en Medicina

A menudo en Medicina se usan estimadores para diagnóstico, tratamiento, y


factores de riesgo (ver capítulo de probabilidades). Muchos de estos estimadores son
proporciones o diferencia de proporciones por lo que sus intervalos de confianza se
calculan en la forma convencional ya señalada:

Proporciones Sensibilidad, Especificidad, Valores


predictivos, certeza diagnóstica, CER y
EER
Diferencia de proporciones Reducción y aumento absoluto del riesgo:
ARR y ARA
75
En otros casos existen técnicas especiales para el cálculo:

Números necesarios : NNT y NNH Ambos están definidos como los valores
inversos de ARR y ARA respectivamente, por lo que en estos casos, se calculan los
límites de confianza para ARR y ARA y se calcula su inverso. Por ejemplo si los límites
de confianza para ARR son [1/8 y 1/2], entonces para NNT son [2 y 8].

Riesgo relativo (RR), Odds ratio (OR) y cuocientes de verosimilitud (LR): En


todos estos casos se prefiere trabajar con los logaritmos (en cualquier base) de las
estimaciones: log RR, log OR y log LR. Se calculan los límites de confianza para el
logaritmo y a estos valores se les aplica el antilogaritmo, obteniendo los límites de
confianza buscados. Por ejemplo, si los límites de confianza para log 10RR son [0.30 y
0.47] entonces los límites de confianza para RR son [antilog 0.30 y antilog 0.47] = [2 y
3].

Usando exactamente la nomenclatura del capítulo de probabilidades, los


intervalos de confianza para el logaritmo de estos estimadores son:

1 1 1 1
Para log RR: IC1  [log RR  Z  / 2    
a b ac bd
]

1 1 1 1
Para log OR: IC1  [log OR  Z  / 2     ]
a b c d

1 1 1 1
Para log LR: IC1  [log LR  Z  / 2    
a d ab cd
]
76

Ejercicios de estimación

1. Se tomó una muestra que mostró que una variable en los hombres tiene un promedio
de 9.5 mg/dcl y una varianza de 0.25 mg 2/dcl2. ¿Cuál es el intervalo de confianza del
95% si el tamaño muestral es: a) 5; b) 10; c) 100; d) 1000?
R: [8.88;10.12];[9.14;9.86];[9.402;9.6];[9.47;9.53].

2. De 191 niños con dolor al pecho, 160 tienen electrocardiograma (ECG) normal.
Obtener el intervalo de confianza del 90, 95 y 99% de la proporción de niños con
dolor al pecho que tienen ECG normal.
R: [0.794;0.882]; [0.786; 0.890]; [0.769; 0.907].

3. El tamaño de la muestra desempeña un papel importante en la determinación de la


longitud de un intervalo de confianza. Considerar dos intervalos de confianza del
95% de  basándose en muestras de tamaño N1 y N2 extraídas de la misma población.
Si N1 es mayor que N2, ¿qué intervalo de confianza tendrá mayor precisión?

4. Se dice que el 11.4% de las vinchucas “rojas” están infectadas con un parásito. ¿Qué
tamaño muestral necesito para re-estimar esta proporción con un intervalo de
confianza de 95 % de ancho total 7 %?
R: n = 317.

5. Se estudió el efecto de una droga sobre el cambio de peso en 12 pacientes dando un


promedio de –0.5 kg y una varianza de 0.4 kg2. Se necesita estimar la media
poblacional  con un intervalo de confianza del 95% no mayor que 0.5 kg. ¿Qué
tamaño necesito para obtener esto?
R: n = 25.

6. Considerar 200 muestras de tamaño 25 extraídas de una población con media 


desconocida. Suponiendo que las 200 medias muestrales obtenidas se utilizan para
construir 200 intervalos de confianza del 90%. ¿Cuántos de estos intervalos esperaría
que no contuvieran a ?
R: 20.

7. Un medicamento para el tratamiento de la gota se estudia para utilizarlo en la


prevención de muerte dada por ataques cardíacos en pacientes que ya han sufrido
ataques. En el estudio, 733 pacientes recibieron el medicamento y a 742 se les dio un
placebo. Después de 8 meses, se halló que de 42 muertes por ataques cardíacos, 29 se
produjeron dentro del grupo que recibió el placebo y 13 en el grupo que recibió la
77
droga. Generar un intervalo de confianza del 95% para la diferencia de muertes entre
el grupo que recibió el placebo y el que recibió la droga.
R: [0.0041; 0.0379].

8. Se ha realizado un estudio sobre la tasa de supervivencia de los pájaros adultos en los


trópicos y en las zonas templadas. Inicialmente se marcaron 500 pájaros adultos con
cintas en las patas y se liberaron en una región lluviosa. Al año siguiente, se
recapturaron 445 (suponer que aquellos pájaros no capturados fueron consumidos por
depredadores). Un experimento similar en Santiago (una región templada), dio como
resultado una recuperación de 252 de los 500 pájaros liberados. Hallar el intervalo de
confianza del 90% de la diferencia en las tasas de supervivencia de un año para las
dos regiones
R: [0.342; 0.429].

9. Se cree que los jóvenes adolescentes que fuman comienzan a hacerlo a una edad más
temprana que las mujeres adolescentes fumadoras. Según los siguientes datos, ¿usted
apoyaría esta suposición?
Hombres: N=33 ; edad media a la que empiezan a fumar=11.3 años ; 2=4
Mujeres: N=14 ; edad media a la que empiezan a fumar=12.6 años ; 2=4
R: No.

10.Se ha realizado un estudio para comparar la concentración de plomo en el agua de


dos casas. En una casa se utilizó una soldadura con el 50% de plomo y el 50% de
estaño en las tuberías. En la otra casa no utilizaron esta soldadura. ¿Qué podría decir
a una confianza del 95%?
Lugar 1 (con soldadura de plomo): N=25 ; media=25 ; 2=12
Lugar 2 (sin soldadura de plomo): N=25 ; media=10 ; 2=5
R: Que la concentración de plomo aumenta entre 13.5 y 16.47.
78

VI.- DOCIMASIA O PRUEBA DE HIPÓTESIS

VI.1.- Bases

Definición Llamaremos hipótesis a una proposición lógica. Tiene por tanto un


contenido de verdad (dicotómico si trabajamos con lógica binaria: V o F), pero en
general, desconocido.

Desde esta perspectiva una hipótesis constituye una afirmación cuya validez o
certeza es desconocida. El fin de la estadística es llegar a conocer o aproximar la
incerteza de tal afirmación.

Definición En términos estadísticos paramétricos una hipótesis es una afirmación


que especifica la distribución de una o varias variables.

En este sentido las hipótesis en términos estadísticos se refieren a parámetros. Por


ejemplo, cuando afirmamos que los hombres pesan más que las mujeres, en términos
estadísticos paramétricos afirmamos que el promedio poblacional del peso masculino es
mayor que el femenino.

La estrategia estadística se enmarca en una lógica de tipo binario que permite


siempre dividir una hipótesis en dos. Esto lo denominamos dicotomía de la hipótesis:

Hipótesis de nulidad (Ho): es la hipótesis de nulidad del efecto contenido en la


afirmación. Es en general una hipótesis de igualdad.

Hipótesis alternativa (H1): es la hipótesis que contiene la afirmación.

Así, por ejemplo si se afirma que los hombres pesan más que las mujeres, se
establece inmediatamente la dicotomía Ho: los hombres pesan igual o menos que las
mujeres y H1: los hombres pesan más que las mujeres. En términos estadísticos
paramétricos nos referimos a los promedios: Ho: H  M vs. H1: H > M. Naturalmente
una u otra es verdad, pero no ambas.

Definición Una dócima o prueba de hipótesis es una regla o procedimiento


estadístico que permite tomar una decisión acerca de la aceptación o rechazo de la
hipótesis de nulidad.

Bajo esta definición es claro que toda la estrategia estadística está destinada al
rechazo de Ho, y que este rechazo es el que permite sostener H 1. Para esto es
estrictamente necesario que las hipótesis Ho y H1 sean complementarias.
79

Sin embargo, encontrar una regla que permita tomar una decisión adecuada no es
fácil como podemos ver en el siguiente ejemplo.

Supongamos que el peso de un animal A tiene una distribución normal N(1, 2) y


que se afirma que un animal B pesa más que el animal A.

Entonces, seguimos el procedimiento habitual y planteamos:

Ho: B  A vs. H1: B> A .

Supongamos que tomamos una muestra de 100 individuos del ave B. Entonces la
idea es encontrar un valor crítico “Co” para el promedio muestral xB sobre el cual
rechazar Ho (y por tanto sostener H1). Esto establece un conjunto de valores Rc =[xB /
xB > Co] que permiten rechazar Ho (zona de rechazo de Ho). Pero....¿cómo elegir este
valor crítico?

Estudiemos la probabilidad de rechazar Ho para distintos valores del promedio


poblacional del peso de B (), llamada función de potencia de la dócima (K()).
Esperamos que la variable peso del animal B tenga una distribución normal similar al
ave A, conservando su varianza pero con un promedio poblacional distinto (). Así el
peso de B sigue una N(, 2). Ahora bien, la probabilidad de pertenecer a la zona de
rechazo es P(xB > Co). Además sabemos que si el peso es N(,2) entonces xB es N(,
2/100) = N(,0.2) y entonces P(xB > Co) = P((xB-)/0.2 > (Co-)/0.2) =
= P(Z >(Co-)/0.2) = K() es la función de potencia de la dócima. Esta depende del
valor crítico Co.

Probemos con un valor crítico Co = 1, es decir rechazaremos Ho ( y aceptaremos


que B pesa más que A) si en la muestra xB > 1. La función de potencia K() = P(Z>(1-
)/0.2) depende de , obteniéndose para varios valores de éste:

 K() Ho
0.7 0.0668 V
0.8 0.1587 V
0.9 0.3085 V
1.0 0.5 V
1.1 0.6915 F
1.2 0.8413 F
1.3 0.9332 F
80
En esta tabla observamos que la probabilidad de rechazar Ho (K()) cuando Ho es
verdadera es muy alta, por ejemplo para  = 0.9 hay una probabilidad de 0.3 (30%) y
para  = 1 una probabilidad de 0.5!!. Entonces no parece adecuado escoger Co = 1.

Si escogemos Co = 1.2 obtenemos:

 K() Ho
0.8 0.0228 V
0.9 0.0668 V
1.0 0.1587 V
1.1 0.3085 F
1.2 0.5000 F
1.3 0.6915 F
1.4 0.8413 F

En este caso en cambio, cuando Ho es falsa, recién tenemos probabilidades de 0.3


a 0.5 de rechazarla. Entonces lo ideal sería tener un valor crítico Co sobre el cual la
probabilidad de rechazar Ho cuando esta es falsa (P(RHo/HoF) fuera cercano a 1 y que
bajo este, la probabilidad de rechazar Ho cuando esta es verdadera (P(RHo/HoV) fuera
cercano a 0. Sin embargo esto no es posible y sólo es posible encontrar valores críticos
de compromiso entre los posibles errores.

Así notamos que la validez de Ho es una característica poblacional y que la toma


de decisión se realiza en base a la muestra. Esto produce una disociación entre estos dos
eventos, originando dos clases posibles de errores. La situación se puede expresar en la
siguiente tabla:

VALOR DE VERDAD de
Ho
V (H1F) F (H1V)
DECISIÓN Rechazo Ho ERROR I () K = 1-
Acepto Ho C = 1- ERROR II ()

En esta tabla se describen dos tipos de errores estadísticos: error de tipo I, aquel
que se comete cuando se rechaza Ho (RHo) y esta es en realidad verdadera (HoV). Su
medida es  = Pmax(RHo/HoV); y el error de tipo II es el que se comete cuando se
acepta Ho (AHo) y esta es falsa. Su medida es  = Pmax(AHo/H1V) = 1-Pmax(RHo/H1V) =
1-K(1).
81
Observamos que C = P(AHo/HoV) = 1-. El valor C establece la confianza de la
dócima, y a , el máximo error de tipo I que se está dispuesto a tolerar, se le denomina
nivel de significación cuando se encuentra previamente especificado. Del mismo modo
a K(1), el valor de la función de potencia en 1 ,o simplemente K, se le conoce como
potencia de la dócima.

La docimasia o prueba de hipótesis debe cumplir varias etapas:

i) Planteamiento de la Hipótesis.

ii) Dicotomía de la hipótesis: Ho vs H1.

iii) Elección del nivel de significación. En esta etapa se define a priori el nivel de
significación con que se va a trabajar. En general en ciencias se consideran
como adecuados niveles menores que  = 0.1; 0.05; 0.01 (o confianzas
mayores que 90%; 95%; 99%). El más aceptado es lejos  = 0.05. O sea en
ciencias parece aceptable cometer errores de tipo I con probabilidades
menores o a lo sumo iguales a 0.05.

iv) Elección de la dócima apropiada (ver más adelante).

v) En base al resultado de la dócima, tomar una decisión estadística por una de


dos vías equivalentes:
a. rechazar Ho si la probabilidad de error I es p < 0.05, o
b. rechazar Ho si el valor del estadígrafo que se usó como dócima se
encuentra en la zona de rechazo (Rc) definida por un cierto valor crítico
(Co).

vi) Interpretación estadística de los resultados. Sólo hay dos posibles:


a. De acuerdo a nuestros resultados hay suficiente evidencia para rechazar Ho,
y por tanto sostener H1 con una probabilidad de error I = p; y
b. De acuerdo a nuestros resultados no hay suficiente evidencia para rechazar
Ho (y por tanto en general aceptamos Ho, pero ¡ojo! Si aceptamos Ho
podemos estar cayendo en el error II por lo que deberíamos medir  o
alternativamente la potencia de la dócima(K)).
82

VI.2.- Dócimas para una muestra

Dócima para una proporción (P) Una pregunta muy habitual en ciencias de
cualquier tipo es si cierta proporción P corresponde o no a un valor dado. Por ejemplo es
habitual pensar que la proporción de mujeres es mayor que 0.5 o que la prevalencia de
una cierta enfermedad sea menor que una prevalencia dada etc...

Supongamos por ejemplo que se dice que un cierto insecto se encuentra en el 30%
(p0) de las viviendas, pero en la localidad en que vivo yo lo veo en casi todas. Entonces
planteo la hipótesis: la proporción de casas infestadas por este insecto es mayor que un
30%. En términos estadísticos Ho: P  0.3 vs: H1: P > 0.3. Voy a trabajar con un nivel de
significación de  = 0.05.

Supongamos además que examiné 25 viviendas (muestra de tamaño n = 25) y


encontré 13 con el insecto.

Como ya sabemos que Z = (p-P)/(PQ/n) es N(0,1), entonces uso el estadígrafo


Z = (p-p0)/(p0q0/n) como dócima.

Esto es porque la probabilidad de encontrar una proporción p > 13/25 = 0.52 en


una muestra de 25 viviendas bajo el supuesto que Ho es V es: P (Z > (0.52-
0.3)/(0.3·0.7/25)) = P(Z > 2.41) = 0.008.

Entonces como la probabilidad de rechazar Ho con este valor dado que Ho es


verdadera es menor que 0.05, rechazo Ho y acepto H1: la proporción de viviendas
infectadas es mayor que un 30% y lo afirmo con una confianza mayor que el 95% . En
realidad con una confianza a posteriori de un 99.2%, ya que hemos calculado la
probabilidad de error I como p = 0.008.

Una segunda manera de ver esto es buscando el valor crítico Co tal que P(Z>Co)
= 0.05. Este es Co = 1.64, es decir rechazaré la hipótesis Ho para todo valor calculado de
z > 1.64 (zona de rechazo Rc). Como el valor calculado de Z = 2.41, entonces cae en la
zona de rechazo de Ho.

Observación importante Si la hipótesis H1 hubiera sido P  0.3 existirían dos


situaciones que la verifican: P< 0.3 y P > 0.3, entonces la zona de rechazo se divide en
los dos extremos de la distribución dejando una probabilidad 0.025 en cada extremo. En
este caso hay dos puntos críticos simétricos Co = -1.96 y Co = +1.96, rechazando Ho si
Z <-1.96 o si Z > 1.96. En este caso se habla de una prueba de dos colas, y en el caso
83
anterior, de una cola. En la práctica cada vez que en H 1 aparece el símbolo  se
trata de una prueba de dos colas, en caso contrario es de una cola.

Así, en resumen la prueba adecuada para una muestra en el caso de una


proporción es:

pˆ  p0
Z
p0 q0
n

Ejemplo 1.-

La prevalencia histórica de una cierta enfermedad infecciosa es de un 8%. Sin


embargo en una localidad se examinaron 196 personas, de las cuales 25 estaban
infectadas. ¿Habrá en esta localidad una mayor prevalencia o sólo será un hecho
fortuito?

Planteamos estadísticamente: Ho: P ≤ 0.08 vs. H 1: P > 0.08. Trabajaremos con α =


0.05 y el problema es de una cola, por lo que el valor crítico de rechazo es Z c = 1.64.
Además, en la muestra, p = 25/196 = 0.128.

Aplico el estadígrafo Z:

0.128  0.08
Z  2.48
0.08  0.92
196

Como el valor calculado de Z a partir de la muestra (2.48) es mayor que 1.64,


entonces cae en la zona de rechazo de Ho, y por tanto debo aceptar H 1. En otras
palabras, puedo afirmar que en dicha localidad existe una mayor prevalencia de esta
enfermedad, con una probabilidad de error de tipo I menor que un 5%.

Dócima para el promedio () En este caso la afirmación se refiere a una variable
continua distinta de una proporción, por ejemplo se afirma que el peso promedio de los
hombres es más de 70 kg.

Aquí la hipótesis H1 es de una de las siguientes formas: a)  >o (una cola), b)


<o (una cola) o c)  o (dos colas).
84

Por un razonamiento completamente análogo al anterior se esperaría que el


estadígrafo adecuado fuera Z = (x -o)/(/n), sin embargo en general no conocemos
. Afortunadamente por los teoremas anteriores sabemos que t n-1 = (x -o)/(s/n) donde
s es la desviación estándar calculada en la muestra, que si la conocemos. Entonces la
prueba adecuada es :

x  0
t n 1 
s
n

Ejemplo 2.-

Supongamos que se ha propuesto que el peso promedio de un hombre es 70 Kg, y


que nosotros pensamos que es mayor. Tomamos una muestra de 60 individuos y
encontramos un peso promedio de 73 Kg, con una desviación estándar de 1Kg. Entonces
planteamos las hipótesis en términos estadísticos: H0: μ ≤ 70 vs μ > 70 y usamos el test:
73  70
t 59   23.2
1 . Como el valor crítico de t para una cola, 59 grados de libertad y una
60
máxima probabilidad de error de tipo I α = 0.05, es 1.64, y además 23.2 >>1.64,
entonces rechazamos H0 y afirmamos que efectivamente el peso promedio de los
hombres es mayor que 70 Kg.

VI.3.- Dócimas para dos muestras

En este caso se trata de hipótesis que comparan dos situaciones y por tanto para
probarlas es necesario tomar dos muestras. Por ejemplo, si se afirma que en la ciudad A
hay más prevalencia de cáncer que en la ciudad B, es necesario tomar una muestra en A
y otra en B.

El razonamiento estadístico y la forma en que se toma la decisión son enteramente


análogos a las anteriores por lo que nos limitaremos a escribir las hipótesis Ho y H 1 de
dos colas y los test o dócimas apropiadas.
85
Dócimas para dos proporciones

En este caso, para una prueba de dos colas, las hipótesis H 0 y H1 se pueden
escribir como:
H0: (P1-P2) = P0 vs. H0: (P1-P2) ≠ P0. Lo habitual es que P0 = 0, pues en general interesa
la pregunta P1 = P2 o P1≠ P2? La prueba a usar en este caso es:

( pˆ 1  pˆ 2 )  P0
Z pˆ n  pˆ 2 n2
1 1 donde p0  1 1
p0 q0 (  ) n1  n2
n1 n2

Ejemplo 3.-

Interesa saber si dos insectos, A y B, se encuentran parasitados en diferente


proporción. Se examinan 52 insectos A, de los cuales 10 estaban parasitados, y de 100
insectos B, 36 lo estaban. Entonces se plantea: H0: PA=PB vs. H1: PA≠PB (P0 = 0).
0.192  52  0.36  100
Entonces pˆ 1  10 / 52  0.192 y pˆ 2  36 / 100  0.36 , por lo que p 0 
52  100
 0.303 .

Entonces calculo Z:
0.192  0.36
Z  2.14
1
0.303  0.697( 
1
)
. Entonces ahora se debe tomar la decisión. El valor
52 100
crítico de rechazo para un máximo error de tipo I α = 0.05 es 1.96, y como es una prueba
de dos colas rechazaremos H0, cuando el valor calculado de Z sea < -1.96 o > +1.96
. En nuestro caso -2.14 < -1.96 y entonces rechazo H 0 y puedo afirmar que existe
suficiente evidencia para sostener que la proporción de insectos parasitados es diferente.
Podemos observar además que si nuestra hipótesis H1 hubiera sido que el insecto B tiene
una mayor proporción de parasitismo que A. La prueba habría sido de una cola, el valor
crítico habría sido 1.64, y nuevamente habríamos rechazado H0, en este caso afirmando
que existe suficiente evidencia para sostener que la proporción de insectos parasitados es
mayor en el insecto B que en A.

Dócimas para dos promedios

En el caso de hipótesis referidas a dos promedios, es necesario distinguir dos


situaciones. La primera en que son, a) dos muestras independientes y la segunda en
que es, b) la misma muestras o muestras relacionadas en dos situaciones experimentales.
Este último caso es muy habitual en medicina donde se estudia la misma muestra con y
sin un cierto fármaco, o bien situaciones del tipo antes-después. En este último caso se
habla de muestras pareadas o dependientes
86
Muestras independientes

Por razones estadísticas la prueba a usar depende de si las varianzas muestrales se


pueden considerar iguales (homocedasticidad) o bien son diferentes. Una estimación
razonable para decidir esto es hacer el cuociente s2M/s2m, donde s2M es la varianza mayor y
s2m es la varianza menor, y si es mayor que 4, son diferentes. Sin embargo es posible
docimar directamente la homocedasticidad (ver más adelante). Las hipótesis para dos
colas son H0:μ1 - μ2= μ0 vs H1: μ1- μ2≠ μ0 y al igual que en el caso de las proporciones lo
habitual es que μ0 = 0.

a) Si las varianzas se pueden considerar iguales (homocedasticidad) entonces usamos:

x1  x 2   0
t n n 2  (n1  1) s12  (n2  1) s 22
donde sc 
2
1 2
1 1
sc2 (  ) n1  n2  2
n1 n2

Ejemplo 4.-

Se afirma que la especie A pesa más que la especie B. Entonces se plantean las
hipótesis H0:μA – μB > 0 vs H1: μA- μB ≤ 0 y se toman muestras de A y de B. Supongamos
que en 46 individuos de A el peso promedio fue 36g con una desviación estándar de 6g y
que en 50 individuos de B el peso promedio fue 33 g con una desviación estándar de 5g.
Así como el cuociente entre las varianzas es 6 2/52 = 1.44, es decir es menor que 4,
usando nuestra regla simple, podemos suponer homocedasticidad. Además podemos
estimar la “varianza común s2c como:
45  36  49  25
sc2   30.27 . Ahora podemos usar nuestro test:
46  50  2
36  33
t 94   2.67
30.27  (
1
 )
1 . Para α = 0.05 y una cola, el valor crítico de t es 1.64,
46 50
entonces como 2.67 > 1.64, rechazamos H0 y podemos sostener H1, es decir A pesa más
que B.
Observamos que el valor crítico de t con 94 grados de libertad es 1.64, idéntico al
valor crítico para Z en el caso de una cola. Esto no debe extrañarnos, pues como hemos
enunciado en un teorema anterior, si el tamaño muestral aumenta, la distribución t se
aproxima a la normal N(0,1) (Z).
b) si no hay homocedasticidad, entonces usamos:
87
x1  x2   0
t gl 
s12 s 22 pero los grados de libertad “gl” los estimamos mediante
(  )
n1 n2
2
 s12 s22 
  
n n
gl   12 2  2
 s12   s22 
   
 n1    n2 
n1  1 n2  1

Ejemplo 5.-

Usando el mismo caso anterior, pero ahora las desviaciones estándar son: para A
6g y para B 2g. Entonces la razón entre las varianzas es 36/4=9. Entonces no podemos
suponer varianzas iguales. En este caso:

36  33 (36 / 46  4 / 50) 2
t gl   3.23 gl   54.15  55
36 4
 )
y los grados de libertad: (36 / 46) 2 (4 / 50) 2
( 
46 50 46  1 50  1
Entonces con α = 0.05 y una cola el valor crítico de t es aproximadamente 2.
Como 3.23 > 2, entonces nuevamente rechazamos H0 y la interpretación es la misma.

Muestras dependientes (pareadas)

Este caso es equivalente a una dócima para promedio de una muestra. Se crea la
variable auxiliar d = x1-x2, se calcula su promedio d y su desviación estándar sd . Las
hipótesis en este caso son referidas al parámetro D = μ1- μ2. Por ejemplo, proponer que
H1: μ1> μ2, es equivalente a H1: D > 0. Entonces el test de hipótesis a usar es:

d
t n 1 
sd / n

Ejemplo 6.-
88
Se piensa que un fármaco baja la presión arterial. Entonces se estudian 10
individuos, tomándole la presión diastólica antes y después de la administración del
fármaco obteniendo:

Individuos Antes (x1) Después (x2) d = x1-x2


1 100 95 5
2 95 95 0
3 80 85 -5
4 90 80 10
5 98 90 8
6 105 95 10
7 110 95 15
8 100 92 8
9 90 80 10
10 110 93 17
Total 978 900 78
Promedio 97.8 90 d =7.8
Desviación estándar 9.5 6.1 sd= 6.5

Entonces se pueden plantear las hipótesis de una cola: H 0: D ≤ 0 vs H1: D > 0, ya que
pensamos que la presión antes debe ser mayor que después (μ 1> μ2 , o D = μ1- μ2 > 0).
7 .8
Calculamos el valor del estadígrafo: t 9
  3.79 . Como, para α = 0.05 el valor
6.5 / 10
calculado de t (3.79) es mayor que el valor crítico de t, con 9 grados de libertad y una
cola (1.83), rechazamos H0 y entonces podemos afirmar que efectivamente el fármaco
baja la presión arterial.

VI.4.- Supuestos de las dócimas

Para que las dócimas tengan real validez, se deben cumplir ciertos supuestos
básicos que provienen del uso de ciertas distribuciones como una t de Student o una
normal estandarizada Z = N(0,1). Las dócimas para una y dos muestras deben cumplir
algunos o todos los siguientes supuestos:

i) independencia
ii) normalidad
iii) homocedasticidad

Independencia Es el requisito fundamental de todas las dócimas. Cada elemento


de la muestra debe ser independiente del resto. Es decir los elementos de una muestra no
deben estar relacionados entre sí, mas que por el hecho de pertenecer a la misma
89
situación experimental. Por ejemplo, si estamos estudiando un parámetro fisiológico, no
parece conveniente incluir hermanos en la misma muestra porque sus fisiologías pueden
ser semejantes violando el supuesto de independencia. En este caso los elementos de la
muestra no constituyen réplicas sino seudo réplicas. Aunque no siempre es fácil decidir
si los elementos son realmente independientes, por ejemplo en el caso de las plantas de
un prado, el supuesto de independencia lo debe asegurar el investigador. Cuando existen
dudas es posible realizar un estudio de correlación de los errores a través de una dócima
de Durbin-Watson (que no se tratará en este libro).

Normalidad Este supuesto se refiere a que se espera que las variables


consideradas en las muestras tengan distribución normal. Esto proviene de los supuestos
en que se fundamentan las distribuciones que se usan como estadígrafos.
Existen varias pruebas para probar la normalidad de los datos de una muestra. En
este capítulo sólo mencionaremos tres y en los siguientes describiremos dos de ellas.
Estas son i) Prueba de Lilliefors que consiste en una prueba gráfica utilizando una
distribución normal acumulada, ii) Bondad de ajuste de Kolmogorov-Smirnov e iii)
Bondad de ajuste 2.

Homocedasticidad Este supuesto consiste en la suposición de igualdad de


varianzas, que es necesario sólo para comparar promedios con suposición de la
existencia de una varianza común. En párrafos anteriores habíamos dado una regla
simple: si el cuociente entre las varianzas era mayor que 4, entonces las suponíamos
distintas. En esta ocasión vamos a ser más rigurosos y plantearemos las hipótesis Ho: 21
= 22 (homocedasticidad) vs. H1: 21 22 . Para tomar la decisión se usa el test F de
Snedecor (F en honor a Fisher):

s M2
F( n 1),( n 2 1)
 2 2
2 , donde SM representa la varianza mayor y Sm la menor.
1
sm

Ejemplo 7.-

Supongamos que se tienen datos de altura de dos poblaciones (A y B)de una


especie de árbol:

Población A B
Número de árboles 46 68
Altura promedio 3.5 m 4.3 m
Desviación estándar 0.6 m 1.26 m

Planteamos la hipótesis H1 que los árboles de la población B son más altos que los
de la población A. Entonces, en términos estadísticos H 0:μB ≤ μA vs H1: μB > μA, por lo
90
que es una hipótesis de promedios, de una cola, para dos muestras. Surge entonces la
pregunta ¿puedo considerar las varianzas iguales? Entonces, antes de preocuparme por
mi hipótesis principal, planteo las hipótesis: Ho: 21 = 22 (homocedasticidad) vs. H1: 21
22 y aplico el test: F67,45 =(1.26)2/(0.6)2 = 4.41 y comparo este valor con el valor crítico
de la distribución F, con 67 grados de libertad en el numerador y 45 grados de libertad
en el denominador: 1.62. Como 4.41 > 1.62, entonces rechazo la homocedasticidad (H 0)
y deberé considerar las varianzas como diferentes.

Ahora nos preocupamos de la hipótesis principal y aplicamos el test adecuado:

4.3  3.5 (1.59 / 68  0.36 / 46) 2


t gl   4.53 gl   102.3  103
1.59 0.36

con (1.59 / 68) 2 (0.36 / 46) 2
( ) 
68 46 68  1 46  1
Como 4.53 > 1.64 (valor crítico), entonces rechazo H0 y afirmo que efectivamente
los árboles de B son más altos que los de A.
91
Ejercicios de Pruebas de Hipótesis para una y dos muestras

1. Un cierto tipo de cáncer tiene habitualmente una letalidad (número de muertos por
cada cien enfermos) de 30. Se experimenta una nueva droga en 80 casos, en los
cuales se producen 15 defunciones. ¿Qué puede decir usted sobre la eficiencia de la
droga?
a) Señale la hipótesis de trabajo.
b) Señale el nivel de significación.
c) Realice la prueba de significación estadística. R: Z = -2.19
d) Saque conclusiones. R: La droga disminuye la letalidad.

2. De acuerdo con las leyes de Mendel, el cruzamiento de heterocigotos produce una


descendencia formada por dos tipos de individuos: aquellos con carácter dominante
que representan el 75% y el resto presenta el carácter recesivo. En un experimento
con 500 semillas se obtienen 360 semillas amarillas (dominante) y 140 verdes.
¿Puede aceptarse que esta distribución es mendeliana?
R: Z = -1.55, si es mendeliana.

3. Habitualmente la ictericia fisiológica del recién nacido dura 3.8 días. Al tratar a 100
niños con fototerapia, el período ictérico dura 2.8 días con una desviación estándar de
2.7 días. ¿Es la fototerapia un tratamiento efectivo contra la ictericia?.
R: t99 = -3.7; la fototerapia es efectiva.

4. Se ha medido la concentración de una sustancia en células tratadas con un compuesto


que se cree sedimenta dicha sustancia, y en células no tratadas (controles), dando los
siguientes resultados (en ng/mL): Que puede Ud. decir?

Controles Tratadas
68 66
21 29
100 50
48 77
46 110
7 55
5 91
57 90
96 114
138 50
R: t9 = 0.89. No hay evidencias de variaciones de concentración.
92
5. Se ha observado que la administración de dosis bajas de aspirina en pacientes
sometidos a diálisis renal disminuye la frecuencia de trombosis. Así, en pacientes a
los que se les administró un placebo presentaron trombosis en un 70% de los casos y
en aquellos que recibieron aspirina, se observó trombosis sólo en el 50% de los
casos.
a) Si el número de pacientes es de 30 para ambos grupos, ¿cuál sería su conclusión
respecto al efecto de la aspirina?
b) Si el número de pacientes es 60, ¿cuál sería ahora su conclusión?
R: a) Z = -1.58, no hay evidencia; b) Z = -2.24, la aspirina reduce el riesgo de trombosis.

6. Se han realizado mediciones de metabolismo en carrera en felinos provenientes de


dos zonas (norte y sur). De 15 felinos nortinos medidos, se obtuvo un metabolismo
de 0.12±0.02 [ml O2 kg-1 m-1] (promedio±SD). De 23 felinos sureños, se obtuvo un
metabolismo de 0.15±0.06 [ml O2 kg-1 m-1]. ¿Existe diferencia entre los
metabolismos?.
R: No hay homocedasticidad; t28 =-2.22, si existe diferencia.

7. La contracción (en mm) de los úteros de 8 ratas usando dos hormonas distintas (A y
B) es la siguiente:

Útero Hormona A Hormona B


1 28 24
2 30 29
3 25 28
4 34 30
5 35 25
6 26 19
7 31 32
8 32 32

¿Existe efecto diferencial entre las dos hormonas? Use nivel de significación del 1%.
R: t7 = 1.79; no hay evidencias de efecto para el nivel 1%.

8. Se desea saber si una determinada dieta produce o no aumento de peso. Para ello se
toma una muestra de 7 individuos, los cuales son pesados antes de iniciar la dieta y
después de 3 meses de seguirla rigurosamente. Los resultados (en kg) son los
siguientes:

Individuo Antes Después


1 95 85
2 90 85
93

3 110 104
4 80 78
5 95 94
6 83 75
7 91 91
¿Existirán evidencias para suponer que esta dieta produce una disminución
significativa del peso? (Use nivel de significación del 1%).
R: t6 = 3.24; si hay evidencias de reducción de peso.

10. Se realizó un estudio sobre dos poblaciones de Spalacopus cianus (Cururo)


provenientes de la costa y de la cordillera. Se les midió el largo del pelo a 20
individuos de cada población, resultados que fueron tabulados en la siguiente tabla.

LARGO DEL PELAJE fcosta fcordillera


[MM]
10-12 1 2
12-14 3 5
14-16 6 8
16-18 6 3
18-20 2 2
20-22 1 0
22-24 1 0

¿Existe diferencia en la longitud del pelo entre ambas poblaciones? (pruebe los
supuestos y elija la dócima adecuada).
R: t38 = 1.77; no hay evidencias de diferencias.

11. Mientras paseaba por el parque, un señor se puso a contar el número de perros que
eran sacados a pasear por sus dueños. Los siguientes datos corresponden al número
de perros por persona, separando hombres de mujeres, obtenidos en esta productiva
tarde de ocio.
Hombres: 1-1-2-2-2-3-3-3-3-4-4-6-9
Mujeres: 1-1-1-2-2-2-2-2-2-3-3–5

Suponiendo que los datos son normales, determine si existe diferencia en el número
de perros sacados a pasear entre hombres y mujeres
R: t23 = 1.63; p = 0.059.

12. En un análisis químico de las aguas del río Mapocho, se encontró que los valores de
concentración de coliformes fecales presentaban mayor variabilidad cuando eran
tomados durante la mañana que durante la tarde. La muestra tomada en la mañana
94
presento una varianza de 23 mg2/mL2 (N=15) y la muestra de la tarde, una varianza
de 20 mg2/mL2 (N=20). ¿Tienen razón los investigadores?.
R: no.
95

VII.- ANÁLISIS DE DATOS ENUMERATIVOS O FRECUENCIAS

VII.1.- La distribución  2

Muchas veces en ciencias las hipótesis se refieren a diferencias en cantidades o


frecuencias entre diferentes poblaciones, por ejemplo número de enfermos, población
animal, etc. Una distribución muy útil en éstos casos es la distribución 2, que como
recordamos proviene de una variable aleatoria x con distribución normal estandarizada,
N(0,1), elevada al cuadrado. Si sumamos n variables de este tipo se obtiene una nueva
variable X = x2 con distribución 2n , es decir una distribución cuya forma depende de
un parámetro n llamado “grados de libertad”.

Si recordamos que Z = (x-)/ tiene distribución N(0,1), es obvio que Z 2 tiene


distribución 21 y entonces 2n = [(x-)/]2 tiene distribución 2n. Si en esta última
variable estimamos  directamente de la muestra restringimos en uno los grados de
libertad. Bástenos observar que si nos lo proponemos, se pueden escoger libremente tres
números, pero si se los somete a la condición de que el promedio es un número
determinado, entonces sólo se pueden escoger dos libremente pues el último queda
determinado por la condición (se ha restringido en uno los grados de libertad).

Supongamos que  no es muy diferente de 2 (como en una distribución de


Poisson) y que ambos los estimamos por un valor esperado “e” a partir de la muestra.
Entonces esperamos que la variable:

X2 = (o-e)2/e , donde o es un valor observado de x y e su esperado, tenga


distribución  2n-1. Este estadígrafo es conocido como Chi-cuadrado.

Veamos esto de otra forma. Supongamos que en una muestra de N individuos hay
N1 mujeres y N2 hombres y que a priori esperamos que la mitad fueran mujeres, entonces
o1 = N1, o2 = N2, e1 = N/2 = e2 y entonces X2 = (N1-N/2)2/(N/2) + (N2-N/2)2/(N/2) =
= (N1-N2)2/N = 4N(N1-N2)2/4N2 = [(N1-N2)/2N]2/(1/4N) = (N1/N –1/2)2/[((1/2·1/2)/N)]2
= [(p- P)/(PQ/N)]2 = Z2.

En un ejemplo numérico supongamos que se tienen 35 hombres y 46 mujeres en


una muestra de 81 personas. Entonces si probamos Ho: P = 0.5 vs. H 1: P  0.5 usamos el
estadígrafo Z = = (p- P)/(PQ/N) = (35/81- 0.5)/(0.5·0.5/81) = 1.222 y como el valor
crítico de Z para dos colas es Z = 1.96, entonces acepto Ho.
96
Si ahora calculo X2 considerando que ambos valores esperados son e =
0.5·81=40.5, obtengo X2 = (35-40.5)2/40.5 + (46-40.5)2/40.5 = 1.4938.

Es fácil ver que Z2 =1.2222 = 1.4938= X2.

Tablas de contingencia

La distribución 2 cobra su mayor importancia en las tablas de doble entrada o


tablas de contingencia. Estas son la manera habitual de presentar datos enumerativos.
Por ejemplo tres poblaciones A, B y C y en cada una de ellas el número de enfermos y
no enfermos.

A B C Total marginal
Enfermos

No enfermos

Total marginal Gran total

En general una tabla de doble entrada se puede escribir así:

C1 C2 ...... Ct T. marginal
R1 N1,1 N1,2 ...... N1,t N1,0
R2 N2,1 N2,2 ....... N2,t N2,0
….. .......
Rr Nr,1 Nr,2 …… Nr,t Nr,0
T. marginal N0,1 N0,2 ........ N0,t N0,0

Es fácil darse cuenta que si todos los N se comportan en forma homogénea en las
distintas columnas (C), entonces se cumple que las proporciones en cada columna deben
ser semejantes a las proporciones en los totales marginales. Por ejemplo debería ocurrir
que N1,1/ No,1 ≈ N1,o/ No,o.
Entonces si la respuesta es homogénea los valores esperados para cada celda se
pueden determinar como: ei,j = (Ni,o/No,o)No,j.

Existen dos tipos de diseños experimentales que conducen a una tabla de doble
entrada. En el primero se tomas muestras aleatorias sin regular los totales marginales de
ninguna de las dos entradas y lo que interesa es saber si existe asociación entre las
variables de clasificación (entradas) o independencia. En este caso Ho: independencia
vs. H1: asociación. En cambio en el segundo se escoge una muestra de un mismo tamaño
determinado para cada nivel de una primera entrada (total marginal regulado), y en cada
97
una se determina el número que se encuentra en cada nivel de la segunda entrada. En
este último caso interesa la homogeneidad de la repuesta de la segunda variable de
clasificación, dentro de la primera. En este caso Ho: homogeneidad vs. H1: diferencia.

En ambos casos el estadígrafo adecuado es:

( o  e) 2
 (2r 1)( c 1)   donde r es el número de filas y c el número de columnas.
i, j e

Observaciones importantes

i) Por su derivación la prueba Chi-cuadrado en general se debe usar cuando


los valores esperados son  5.

ii) La prueba de hipótesis es siempre de 2 colas.

iii) Cuando se realiza una prueba de independencia vs. asociación, una buena
medida de la asociación es: X2/(No,o·(m-1)), donde m es el menor valor
entre r y c.

iv) El rechazo de la hipótesis Ho en una prueba de homogeneidad indica


diferente respuesta el algún nivel (C) de la primera variable clasificatoria,
pero no informa cual nivel es el diferente. En caso que esto sea relevante se
debe ir sacando en forma iterada la columna que más contribuye al valor
del X2 y recalculando el valor de X2 hasta que este deje de ser significativo.
Las columnas que queden serán homogéneas. (Comparaciones múltiples en
2 )
iv) En el caso de una tabla de contingencia de 2x2, cuando no se cumple con
Ni,j> 5, se debe realizar la prueba exacta de Fisher que proviene de una
distribución hipergeométrica

Ejemplo 1.-

Supongamos que se desea saber si existe asociación entre el color de las flores y la
presencia de abejas. Se realiza un estudio y se obtiene:

Blancas Rojas Amarillas Total


Con abejas 45 24 60 129
Sin abejas 36 83 40 159
Total 81 107 100 288
98

Entonces planteamos las hipótesis H0: independencia u homogeneidad de


proporciones vs. H1: asociación entre el color de las flores y la presencia de abejas.
A continuación hay que calcular los valores esperados para cada celda. Por
ejemplo para la primera celda e = 81(129/288), o sea de el total de 81 flores blancas, si a
la abeja no le importa el color de la flor (independencia), se espera que una proporción
(129/288) de ellas sea visitada por abejas. Entonces e = 36.3. Para la segunda celda e =
81(159/288) = 44.7. Notamos enseguida que 36.3 + 44.7 = 81. Así se puede proseguir el
cálculo para cada celda, obteniendo:

Blancas (esperadas) Rojas (esperadas) Amarillas (esperadas) Total


Con 45 36.3 24 47.9 60 44.8 129
abejas
Sin 36 44.7 83 59.1 40 55.2 159
abejas
Total 81 107 100 288

Ahora entonces podemos calcular el valor del X2:

(45  36.3) 2 (36  44.7) 2 (24  47.9) 2


 22     .......... .........  34.7
36.3 44.7 47.9

El valor crítico de Chi-cuadrado para 2 grados de libertad y α = 0.05 es 5.99, y


como 34.7>>5.99, rechazamos H0 y afirmamos que existe una asociación entre el color
de las flores y la presencia de abejas.

Si queremos avanzar más, observamos que la columna que más contribuye al


valor del estadígrafo es la de las flores rojas, que tiene una proporción menor de visitas
de abejas que la esperada. Entonces retiramos la columna y recalculamos los valores
esperados obteniendo:

Blancas (esperadas) Amarillas (esperadas) Total


Con 45 47.0 60 58.0 105
abejas
Sin 36 34 40 42.0 76
abejas
Total 81 100 181

Planteamos una nueva hipótesis de independencia versus asociación y calculamos


el valor de X2:
99
(45  47) 2 (36  34) 2 (60  58) 2 (40  42) 2
 
1
2
    0.36
47 34 58 42

Como el valor crítico es ahora 3.84 y 0.36 < 3.84, ahora acepto H 0 y puedo
concluir que las abejas prefieren igualmente las flores blancas y amarillas, pero evitan en
cierta medida las flores rojas.

Prueba exacta de Fisher Supongamos que tenemos la siguiente tabla de doble


entrada:

FACTO
R1
+ - TOTAL
FACTOR 2 (+) A B A+B
FACTOR 2 (-) C D C+D
TOTAL A+C B+D N

Observamos que la probabilidad de que haya A asociaciones (+,+) dados los


totales marginales es:
 A  C  B  D 
  
 A  B 
P ( X  A) 
N 
 A B
 

Desarrollando los números combinatorios se llega a:

P(X= A) = (A+C)!(B+D)!(A+B)!(C+D)!/A!B!C!D!N!.

Entonces la probabilidad de obtener una asociación igual o mayor, dados los


totales marginales es P =  P(X=x), x  A.
100

De esta manera entonces, en términos generales, la prueba exacta de Fisher para


una tabla de contingencia de 2x2 es:

N1, 0 !N 2 , 0 ! N 0 ,1! N 0 ,1!


PF  
x  N1 , 1
P ( X  x ); dondeP( X  x) 
N 1,1! N1, 2 ! N 2 ,1! N 2 , 2 ! N 0 , 0 !

La hipótesis de nulidad es la independencia (es decir la asociación es la esperable


por simple azar) vs. H1: existe una asociación mayor (una cola) o distinta (dos colas) que
la esperada por azar. En el caso de una cola la probabilidad de error I es p = P y en el
caso de dos colas p = 2P. Rechazamos Ho si p < 0.05.

Ejemplo 2.-

Supongamos que hubo una intoxicación en una comida y pensamos que la


mayonesa estaba contaminada. Hacemos un estudio de los casos obteniendo:

Intoxicados No intoxicados Total


Comieron mayonesa 8 2 10
No comieron 2 4 6
mayonesa
10 6 16

Planteamos la hipótesis de una asociación positiva entre la mayonesa y la


intoxicación. Es decir, la hipótesis de nulidad es que la probabilidad de intoxicación es
la misma entre los que comieron y no comieron mayonesa (P = 10/16 = 0.625).

10!6!10!6!
Calculamos P ( X  8)   0.084
8!2!2!4!16!

Ahora deberíamos sumarle P(X=9) y P(X=10), para calcular finalmente P F =


P(X=8) + P(X=9) +P(X=10). Sin embargo, como P F va a dar un valor mayor que 0.084,
que a su vez es mayor que 0.05 = α, debemos aceptar H 0. Es decir, no existe suficiente
evidencia para afirmar que existe una asociación entre la mayonesa y la intoxicación.

VII.2.- Bondad de ajuste de  2 Cuando es necesario saber si una determinada variable


tiene una cierta distribución, se realiza la prueba de bondad de ajuste.

Si agrupamos en n intervalos los valores de una variable aleatoria X, siempre será


posible establecer una tabla del tipo:
101

Intervalo Frecuencia (ni) Frecuencia esperada (ei)


observada
(yo,y1) n1 E1
(y1,y2) n2 E2
.......... ....... .......
Total N N

Las frecuencias esperadas corresponden a ek = N·P(yk-1 x  yk), donde las


probabilidades son calculadas de acuerdo a la función de densidad de probabilidades o la
función de cuantía de la distribución esperada. El caso más habitual es esperar una
distribución normal. Sin embargo para calcular estas probabilidades es siempre
necesario estimar una cantidad p de parámetros, a partir de la muestra, por ejemplo,  y
 (p = 2). Es por esto que la distribución 2 usada para probar la bondad de ajuste es:

( o  e) 2
 n2 p 1  
e

Observamos que en este caso el número de grados de libertad es igual al número


de intervalos menos 1 y menos el número de parámetros estimados a partir de la
muestra.

Ejemplo 3.-

Supongamos que estamos interesados en saber si cierta variable tiene una


distribución normal y se tiene la serie agrupada de la siguiente forma:

Intervalo ni
2-4 20
4-6 25
6-8 30
8-10 10
10-12 12
12-14 3
Total 100

Aquí las frecuencias relativas (ni) corresponden a las frecuencias observadas (o).
Entonces debemos calcular las frecuencias esperadas suponiendo una distribución
normal. Mediante las técnicas aprendidas en estadística descriptiva podemos calcular el
promedio (6.56) y la desviación estándar (2.74). A continuación debemos calcular las
probabilidades de que un valor de la variable pertenezca a cada intervalo. Por ejemplo
102
P(2≤x≤4) = P((2-6.56)/2.74 ≤ z ≤ (4-6.56)/2.74) = 0.1277. P(4≤x≤6) =0.2445; P(6≤x≤8)
= 0.2778; P(8≤x≤10) = 0.1977; P(10 ≤x≤12) = 0.0799 y P(12 ≤x≤14) = 0.0204.
Entonces las frecuencias esperadas son respectivamente:0.1227x100 = 12.3; 24.5; 27.8;
19.8; 8.0 y 2.0 .

Intervalo Observado Esperados


s
2-4 20 12.3
4-6 25 24.5
6-8 30 27.8
8-10 10 19.8
10-12 12 8.0
12-14 3 2.0
Total 100

La hipótesis de nulidad H0 corresponde a un ajuste a una distribución normal


sujeta a dos condiciones (p = 2): Promedio 6.59 y desviación estándar 2.74. Entonces
podemos calcular X2:

( 20  12.3) 2 (25  24.5) 2 (30  27.8) 2


 6221     ..........  12.36
12.3 24.5 27.8

Entonces como el valor crítico para tres grados de libertad y α = 0.05 es 7.81, y el
valor calculado 12.36 > 7.81, rechazamos la hipótesis de nulidad. Es decir esta variable
no tiene distribución normal.

VII.3. El χ2 para proporciones

En ocasiones es necesario comparar dos o más proporciones, lo cuál puede


hacerse con una prueba de χ 2. Ya hemos visto que cuando la hipótesis es de dos colas es
posible comparar 2 proporciones a través de Z = N(0,1) o bien con un χ 2. En el caso de
más de dos proporciones puede usarse:
n

n ( p  p)
en donde p  i ni p1 / n
i i
 2
n 1
 1

pq

Observamos que este caso es enteramente equivalente al χ2 para una tabla de


contingencia.
103
VII.4.- La prueba G

Una aproximación alternativa a la prueba de χ2 para bondad de ajuste y tablas de


contingencia es la prueba del logaritmo del cuociente de verosimilitudes (log-
likelihood ratio), prueba 2I, o prueba G.

Para iliustrar esta prueba consideremos por ejemplo que en n ensayos de Bernoulli
se obtuvieron f1 éxitos y f2 fracasos y nos preguntamos si estas frecuencias corresponden
a las frecuencias esperadas de acuerdo a un cierto criterio, por ejemplo si están en
relación a:b. Si fuera así la probabilidad de un éxito sería p = a/(a+b) y de fracaso q = b/
(a+b). Sin embargo, las proporciones observadas son: pˆ  f1 /( f1  f 2 ); qˆ  f 2 /( f1  f 2 ) .

Entonces la probabilidad de obtener f1 éxitos basados en la hipótesis de nulidad


n
es: p    p f 1 q f 2 y la probabilidad de obtener f1 éxitos basados en lo observado es:
 f1 
n
p    pˆ f 1 qˆ f 2 . Así el cuociente entre estas probabilidades (verosimilitud; L) es:
 f1 
f1 f2
 p q
L       y considerando que las frecuencias fi = npi se obtiene:
 pˆ   qˆ 

f1 f2
f  f 
L   1   2  , y sacando logaritmo natural:
 fˆ   fˆ 
 1  2

a
ln( L)  f1 ln( f1 / fˆ1 )  f 2 ln( f 2 / fˆ2 )  ...   f i  ln( f i / fˆi )

En esta expresión se puede reconocer la definición de información (I) de Shannon.


Por otra parte s ha demostrado que G = 2I = 2ln(L) sigue una distribución χ2a-1.
104

Ejemplo 4.- Supongamos que en un experimento genético se espera una relación


3:1 para un cierto carácter y se ha obtenido: 80 con el carácter y 10 sin el carácter. En
tonces se propone H0: las frecuencias se encuentran en relación 3:1. Y podemos calcular:

Resultado Observados Propoción Proporción Frecuencia Razón Producto


s observada esperada Esperada f obs/f esp fr x
ln(razón)
Con el 80 8/9 3/4 67.5 1.18 13.59
carácter
Sin el 10 1/9 1/4 22.5 0.44 -8.11
carcácter
Total 90 1 1 90 lnL=5.48

Entonces G = 2x5.48 = 10.96 y como sigue una distribución χ 2, en este caso con 1
grado de libertad, es fácil ver que p << 0.01 y entonces rechazamos H0.
105

Ejercicios de análisis de datos enumerativos

1. Un peluquero quiere saber si el color de pelo es dependiente del sexo de las personas
o no. Por eso acude a usted con una serie de datos sobre el sexo y color de pelo de sus
clientes (ver tabla adjunta), y le pide que por favor le resuelva su duda. ¿Qué le diría
usted al peluquero?.

SEXO\COLOR Negro Castaño Rubio Colorín


PELO
Masculino 32 43 16 9
Femenino 55 65 64 16

R: χ23 = 8.99; p < 0.05. Existe asociación entre el color del pelo y el sexo.

2. La Secretaría de Estudios de la facultad necesita saber si existe alguna relación entre


el nivel de deserción de los alumnos de primer año y el hecho que hayan tomado
determinado curso. Por eso, la secretaria acudió a un estadístico con los datos
presentados en la siguiente tabla, y le pidió que le diera una respuesta. ¿Qué cree que
le respondió a la secretaria?

Toma el curso No toma el curso


Se va 37 31
Se queda 26 40

R: χ21 = 3.03; p > 0.05. No hay evidencias que así sea.

3. Se desea averiguar si existe alguna relación entre el biotipo de un individuo y la


probabilidad de que tenga alguna lesión gástrica. Para eso se analizó el grupo
sanguíneo de individuos sanos (control), con cáncer gástrico y con úlcera gástrica,
obteniéndose los siguientes resultados:

Biotipo Cáncer Úlcera Control Total


Ectomórfico 383 983 2892 4258
Mesomórfico 416 679 2625 3720
Endomesomórfico 84 134 570 788
Endomórfico 25 43 226 294
Total 908 1839 6313 9060
106
¿Son eventos independientes el grupo sanguíneo y la lesión gástrica?

R: No son independientes. χ26 = 48.61; p << 0.05.

4. En un experimento para determinar el modo de herencia de un mutante, se


obtuvieron 146 descendientes del tipo normal y 30 mutantes cuando se cruzaron
las moscas de la generación F1. Comprobar si los datos concuerdan con la
hipótesis de que la proporción de individuos normales y mutantes es 3: 1.

R: χ21 = 5.94; p > 0.05. No concuerdan.

5. En un estudio sobre polimorfismo de inversiones cromosómicas en el saltamontes


Moraba scurra, Lewontin y White (1960), dieron los siguientes resultados para la
composición de una población en Royalla ‘B’ en 1958. ¿Están las frecuencias de
las tres combinaciones del cromosoma EF asociadas a las frecuencias de las tres
combinaciones del cromosoma CD?

Cromosoma CD
St/St St/B1 B1/B1
Td/Td 22 96 75
Cromosoma EF St/Td 8 56 64
St/St 0 6 6
R: No. Son independientes. χ24 = 6.3; p > 0.05

6. En la localidad A se ha realizado una captura exhaustiva de serpientes de la


especie S. Un examen de los 167 machos adultos que han sido recogidos revela
que 35 de éstos presentan bandas pálidas alrededor del cuello. De la localidad B, a
30 kilómetros de distancia de la A, se obtuvo una muestra de 27 machos adultos
de la misma especie, 6 de los cuales presentaban bandas. ¿Cuál es la probabilidad
de que ambas muestras procedan de la misma población estadística con respecto a
la frecuencia de bandas?
R: p = 0.88.
107

VIII.- ESTADÍSTICA DE DISTRIBUCIÓN LIBRE O NO-PARAMÉTRICA

Las dócimas que hemos mencionado hasta ahora, siempre presuponen


distribuciones particulares de la variable aleatoria, o bien sus hipótesis especifican
parámetros o distribuciones. Por esto la estadística que las usa se denomina estadística
paramétrica. Pero, ¿qué sucede cuando no se cumplen los supuestos necesarios para
tales dócimas?

Existe un conjunto de dócimas denominadas no-paramétricas o de distribución


libre que vienen a constituirse en alternativas para éstos casos o para ser usadas
directamente. Sin embargo es interesante notar que es diferente no especificar
parámetros que no suponer una cierta distribución. Si se clasifican las dócimas se puede
establecer el siguiente cuadro:

Supuestos de Sin supuestos de


Distribución Distribución
Especifica parámetro Ej: t de Student Ej: Dócima Binomial
No especifica parámetro Ej: Wilcoxon Ej: Kolmogorov-
Smirnov

Esta estadística se utiliza fundamentalmente cuando no se cumplen los supuestos


de la estadística paramétrica y, lo que en general va ligado, cuando el número muestral
es bajo. Tiene ciertas ventajas como la simplicidad de tratamiento para números bajos y
la falta de supuestos acerca de distribuciones o parámetros. Sin embargo, tiene algunas
críticas: i) con n > 10 en general se usan las distribuciones asintóticas de los estadígrafos
y no sus propias distribuciones, y éstas son paramétricas, ii) son dócimas con menor
potencia (mayor error de tipo II), iii) por ser discretas presentan cierta dificultad a fijar el
nivel de significación, e iv) en general se basan en la transformación de los valores a
“rangos”, siendo ésta última transformación irreversible y anisométrica (no conserva las
distancias).

Existen alternativas no-paramétricas para una muestra (Pruebas de Mediana,


Dócimas Binomiales), pero las más usadas son las alternativas a las pruebas para 2
muestras o las alternativas para el análisis de la varianza (ver más adelante).
108

VIII.1.- Alternativas no paramétricas a las dócimas para dos muestras

Se pueden resumir en el siguiente cuadro:

Muestras pareadas, distribución asimétrica SIGNOS DE FISHER


Muestras pareadas, distribución simétrica RANGOS SIGNADOS DE WILCOXON
Muestras independientes SUMA DE RANGOS DE WILCOXON-
MANN-WHITNEY
Datos enumerativos McNEMAR

Prueba de los signos de Fisher

En esta prueba se comparan dos muestras [xi] e [yi] y se define una diferencia
poblacional i = xi-yi =  + i, donde i representa el error de muestreo. Entonces las
hipótesis pueden ser a) Ho:  = 0 vs H1:   0, b) Ho:   0 vs. H1:  > 0 o c) Ho: .0
vs. H1:  < 0. Se define además di como la diferencia muestral di = xi-yi y una variable
auxiliar bi que es 0 si di  0 y 1 si di > 0.

El estadígrafo es: B   bi

Observamos inmediatamente que B corresponde al número de ocasiones de un


total de “n” en que xi > yi, y, que al azar se esperaría que fuera el 50%. Entonces es
posible calcular directamente la probabilidad de calcular esto mediante una distribución
binomial (de aquí es que se denomina B). Afortunadamente no hay que hacer ningún
cálculo y éstas probabilidades se encuentran tabuladas para el nivel de significación (),
el tamaño muestral (n) y la probabilidad (p) que en nuestro caso es p = 0.5 (50%):
b(,n,0.5) .

Si Ho es del tipo a), rechazamos Ho si el valor calculado de B  b(,n,0.5) o


B  n -b(,n,0.5) , si es del tipo b), rechazamos Ho si B  b(,n,0.5) y si es del tipo c)
entonces rechazamos Ho si B  n - b(,n,0.5) .

Ejemplo 1.-

Estamos interesados en el efecto de cierto fármacos sobre la presión arterial como


en el ejemplo VI.6. Obteniendo la tabla:
109
Individuos Antes (x1) Después (x2)
1 100 95
2 95 95
3 80 85
4 90 80
5 98 90
6 105 95
7 110 95
8 100 92
9 90 80
10 110 93

Se propone que el fármaco baja la presión, es decir Ho:   0 vs. H1:  > 0.
Entonces creamos las variables auxiliares d = x1-x2 y b, Obteniendo:

Individuos Antes (x1) Después (x2) D B


1 100 95 5 1
2 95 95 0 0
3 80 85 -5 0
4 90 80 10 1
5 98 90 8 1
6 105 95 10 1
7 110 95 15 1
8 100 92 8 1
9 90 80 10 1
10 110 93 17 1

Entonces, B = ∑bi = 8. El valor crítico para n = 10 es 8 con α = 0.054, por lo que


rechazamos H0 y afirmamos que el fármaco baja la presión. Observamos que como la
distribución binomial es discreta no se encuentra exactamente el nivel 0.05 para α, y en
cierta medida queda a criterio del investigador la aceptación o rechazo de H0 (esto
ocurre en general en toda la estadística no-paramétrica). Si se es riguroso, para B = 8, p
= 0.054 y este valor es mayor que 0.05, por lo que deberíamos aceptar H 0. Sin embargo,
las dócimas binomiales son de baja potencia y, entonces aceptando H 0 con toda
seguridad estaríamos cayendo en el error estadístico de tipo II.

Prueba de los rangos signados de Wilcoxon

En esta prueba se considera la misma situación anterior y las mismas hipótesis,


pero esta prueba requiere una distribución simétrica de di lo que se puede apreciar
110
observando su histograma de frecuencias (o bien realizando una prueba de simetría de
GUPTA, fuera del alcance de este libro).

En esta prueba además de considerar la variable b i, se ordenan de menor a mayor


los valores absolutos de di (di) y se les asigna un orden (rango: Ri), como por ejemplo,
en la siguiente tabla:

di Ri
-5 5
3 3
0 1
-1 2
4 4

En esta dócima se define el estadígrafo T = biRi.

Este valor se compara con un valor crítico tabulado Tc(,n). Si Ho es del tipo a)
rechazamos Ho si T  Tc(,n) o s T  n(n+1)/2 - Tc(,n), si es del tipo b) rechazamos
Ho si T  Tc(,n), y si es del tipo c) cuendo T  n(n+1)/2 - Tc(,n).

Ejemplo 2.-

Usaremos el mismo caso anterior. Ahora agregamos la asignación de rangos a las


diferencias “d”:

Individuos Antes (x1) Después (x2) D Rangos(R) B


1 100 95 5 2.5 1
2 95 95 0 1 0
3 80 85 -5 2.5 0
4 90 80 10 7 1
5 98 90 8 4.5 1
6 105 95 10 7 1
7 110 95 15 9 1
8 100 92 8 4.5 1
9 90 80 10 7 1
10 110 93 17 10 1

Observamos que en el caso de empates se les asigna el rango promedio. Por


ejemplo hay tres valores 10, que deberían ocupar los rangos 6, 7 y 8, por lo que a los tres
se les asigna (6+7+8)/3 = 7.
111
Ahora se puede calcular T = ∑Ribi = 2.5 + 7 + 4.5 + 7 + 9 + 4.5 + 7 + 10 = 51.5.

Como este valor es mayor al valor crítico……….. Llegamos a la misma


conclusión anterior.

Prueba de la suma de rangos de Wilcoxon- Mann-Whitney

En este caso tenemos dos muestras independientes [xi] e [yi] de tamaños n1 y n2.
Se propone que xi = i y que yi = i + , donde i es el error experimental y  da cuenta
de las diferencias (efecto del tratamiento). Como antes, las hipótesis pueden ser a) Ho:
 = 0 vs H1:   0, b) Ho:   0 vs. H1:  > 0 o c) Ho: .0 vs. H1:  < 0.

En este caso, se ordenan todos los valores juntos ( de las dos muestras) y se les
asigna un rango (Ri) y se consigna el estadígrafo:
no
T1   Ri
1

Aquí es importante indicar que la suma se realiza sobre aquella muestra de tamaño
no que tiene el menor rango promedio.

Este valor se compara con un valor crítico tabulado w(,n1,n2) donde n1 es el


número muestral menor (no necesariamente igual a no) y n2 el mayor. Si Ho es del tipo a)
rechazamos Ho si T1  w(,n1,n2) o s T1  no(N+1) - w(,n1,n2), si es del tipo b)
rechazamos Ho si T1  w(,n1,n2), y si es del tipo c) cuando T1  no(N+1) - w(,n1,n2).

En realidad Wilcoxon (T) y Mann-Whitney (U) consideraron estadígrafos


diferentes, pero después se demostró que la U de Mann-Whitney era U = T 1-no(no+1)/2 y
por tanto ambas dócimas son equivalentes.

Ejemplo 3.-

Supongamos que se quieren comparar los pesos de dos especies A y B y se plantea


la hipótesis que A pesa más que B. Se realiza un estudio obteniendo:
112

Especie A (masa: g) Especie B (masa: g)


30 26
28 28
27 30
32 25
29 24
33 22
28 25
26
28
Planteamos la hipótesis Ho:   0 vs. H1:  > 0 y asignamos los rangos:

Especie A (masa: g) Rango Especie B (masa: g) Rango


30 13.5 26 5.5
28 9.5 28 9.5
27 7 30 13.5
32 15 25 3.5
29 12 24 2
33 16 22 1
28 9.5 25 3.5
26 5.5
28 9.5
Suma de rangos 82.5 53.5
Rango promedio 11.8 5.9

Observamos que n1 = 7; n2 = 9 y que no = 9, y entonces T = 53.5. A este valor le


corresponde una probabilidad de error de tipo I < 0.01, por lo que rechazamos H 0. Es
decir, afirmamos que la especie A pesa más que la especie B.

Dócima de McNemar

Esta prueba está específicamente diseñada para situaciones antes-después cuando


la variable respuesta es un dato enunerativo, como por ejemplo ver el efecto de una
campaña anti-cigarrillo . En este caso es útil la tabla de doble entrada:

DESPUÉS (+) DESPUÉS (-)


ANTES (+) A B
ANTES (-) C D
113

Como vemos en esta tabla sólo las celdas C y B muestran el cambio (efecto)
producido por el factor de estudio. Y bajo la hipótesis de nulidad de efecto se espera que
C = B = (B+C)/2. Por lo que con estos valores esperados para éstas celdas se puede
realizar un prueba 21 que después de algún trabajo algebraico se reduce a:

(B  C )2 ( B  C  1) 2
12  o  2
 si se quiere corregir la distorsión provocada por aplicar
(B  C ) (B  C)
1

una distribución continua a una variable discreta.

Ejemplo 4.-

Se realizó una campaña antidrogas a un grupo de jóvenes obteniendo el siguiente


resultado:

(+) después de la (-) después de la Total


campaña campaña
(+) antes de la 15 8 23
campaña
(-) antes de la 2 35 37
campaña
17 43 50

Se plantea H0: No hay efecto (B = C) vs H1: Si se produjo efecto.

( 8  2  1) 2
Calculamos: 12   2 .5 y como el valor crítico para α = 0.05 es 3.84 y
(8  2)
2.5 < 3.84, aceptamos H0. Es decir la campaña no tuvo éxito.
114

Ejercicios de estadística no-paramétrica

1. En un estudio sobre empleo de Sildenafil en pacientes hipertensos se utiliza una dosis


de 6.25 mg. Se anota la presión arterial sistólica de cada paciente antes que reciba el
fármaco (X) y setenta minutos después de que haya sido administrado (Y). ¿Altera la
presión arterial el uso del Sildenafil?

X (antes) Y (después) di bi
175 140
179 143
165 135
170 133
160 162
180 150
177 182

R: No hay evidencia; B = 5; p > 0.05.

2. Se realiza una investigación sobre los efectos del ejercicio físico sobre pacientes
cardiópatas, midiendo el máximo de oxígeno consumido por cada paciente antes de
comenzar el entrenamiento y después de seis meses de régimen. Se obtuvieron los
siguientes datos (suponga simetría):

Sujeto Antes Después


1 48 40
2 25 26
3 46 57
4 40 30
5 43 50
6 42 55
7 23 25
8 30 55

¿Existe diferencia en el oxígeno consumido luego del entrenamiento?

R: No hay evidencia; T = 9; p = 0.2.

3. Una sustancia X juega un papel en el desarrollo y mantenimiento de las neuronas. En


este estudio se consideró el efecto de la privación de la sustancia sobre el contenido
proteínico total de las raíces nerviosas de O. degu. Se comparan dos grupos: las
115
nacidas de hembras deficientes en la sustancia (en el útero) y las nacidas de hembras
normales, pero amamantadas por hembras deficientes en la sustancia (en la leche). Se
obtienen los siguientes datos:

Contenido proteínico total (mg de proteína por raíz de ganglio dorsal)

EN EL ÚTERO En la leche
0.12 0.19
0.19 0.21
0.17 0.21
0.20 0.23
0.09 0.20
0.13 0.22
0.21

¿Indican estos datos, a un nivel =0.05, que el contenido proteínico total tiende a ser
menor entre las ratas privadas de la sustancia X en el útero que entre las privadas de ella
en la leche?

R: Si. T1 = 33; p < 0.05.


116

IV UNIDAD: ANALISIS DE LA VARIANZA, CORRELACION


Y REGRESION
117
IX.- ANÁLISIS DE LA VARIANZA (ANOVA o ANDEVA)

IX.1.-El Problema de Bonferroni

Muchas veces en ciencias es necesario comparar más de dos muestras, como por
ejemplo cuando se estudia el comportamiento de una variable en tres poblaciones, o bajo
4 o 5 condiciones experimentales reguladas. En este caso, la primera tentación es hacer
varias pruebas tomando de a pares. Sin embargo inmediatamente vemos que este puede
ser un número elevado de comparaciones, pues si hay N muestras, el número de pruebas
que se deben hacer es:

N
k  
2 

Sin embargo, este no es el único problema. Analicemos lo siguiente:

Si realizamos una vez la prueba, la probabilidad de cometer error de tipo I es


P(E1) = , es decir la probabilidad de no cometer error de tipo I es P(noE1) = 1-.

Si la prueba se realiza k veces entonces la probabilidad de no cometer ningún


error I es P(noEk) = (1-)k y entonces la probabilidad de cometer al menos un error I en
k repeticiones de una prueba es P(al menos 1 E k) = 1-(1-)k = 1 - [1-k + (k!/(k-2)!
2!)2-.........]. Y, como n 0 para n  2, porque  es pequeño, entonces P(al menos 1 Ek)
 k. En la siguiente tabla vemos lo que puede significar esto para  = 0.05:

K 1 2 3 5 10
P(al menos 0.05 0.09 0.14 0.23 0.4
1 en Ek)

Observamos que si tenemos 3 muestras k = 3 y tendríamos probabilidad de error I


p = 0.14 (14%), con 4 muestras k = 6 y p = 0.3 (30%) etc.

Sin embargo Bonferroni nos da una solución en el caso de pocas muestras: Si se


quiere trabajar con una probabilidad de al menos 1 error I en k pruebas de un nivel  =
0.05, entonces podemos asegurar esto trabajando en cada una de las pruebas con un
nivel de significación * = /k. Aunque este sistema es muy restrictivo pues restringe
mucho , puede ser muy útil para bajo número de muestras (hasta 4 aproximadamente).
Esto se conoce como la corrección de Bonferroni. Por ejemplo, si se van a realizar 4
comparaciones y se quiere una error de tipo I de 0.05, entonces en cada comparación se
debería permitir a lo sumo un error p = 0.05/4 = 0.0125.
118

IX.2.- Diseño experimental

El diseño experimental en términos estadísticos se refiere al acoplamiento entre la


lógica de un diseño experimental científico y el método estadístico de análisis de este
diseño. Es muy habitual que en ciencias encontremos muy buenos diseños científicos
con malos análisis desde la perspectiva estadística, o simplemente diseños para los
cuales la estadística actual es insuficiente o parcial.

En un experimento en general tenemos una o varias variables respuesta o


dependientes, y variables cualitativas independientes que denominamos factores o
vías. Por ejemplo, puede ser interesante estudiar el efecto de las estaciones del año
(factor) sobre el metabolismo (variable respuesta).

Los factores pueden ser 1 (1 factor o 1 vía), 2 (2 factores o 2 vías) o 3 o más,


hablando en este caso de diseño multifactorial. Las categorías en que se divide cada
factor se denominan niveles del factor y a las combinaciones (celdas) de los niveles de
los factores se denominan tratamientos. Por ejemplo en la siguiente tabla se muestra
una cierta variable respuesta X frente a diferentes condiciones:

TEMPERATURA
BAJA MEDIA ALTA
HUMEDAD ALTA ------- ------- --------
BAJA ------- ------- --------

En este caso la variable respuesta es X, y se trata de un diseño de dos factores:


temperatura y humedad. El factor temperatura tiene tres niveles: baja, media y alta, y el
factor humedad tiene dos: alta y baja. El número de tratamientos es 6 (2x3). A las
unidades muestrales dentro de cada tratamiento se les denomina réplicas.

Cuando los niveles de un factor son todos los posibles, en general fijados por el
experimentador se dice que se trabaja con un modelo tipo I o de efectos fijos, cuando
los niveles son sólo una muestra de las categorías posibles se dice que es un modelo II o
de efectos aleatorios. Cuando en algunos factores es de un tipo y en otros de otro, es un
modelo mixto. Así por ejemplo, si nos interesa el efecto de la altitud sobre el
metabolismo, y escogemos tres localidades a diferentes alturas, se trata de un modelo de
tipo II, pues las localidades son sólo una muestra de todas las posibles alturas. Si en
cambio estudiamos una variable frente a tres condiciones experimentales fijadas por el
investigador, entonces es un modelo de tipo I.
119

IX.3.- Análisis de la varianza de 1 vía o factor (ANOVA de 1 vía).

En este caso, el más simple, se tiene un factor con varios niveles y una variable
respuesta. Como sólo hay un factor, los niveles coinciden con los tratamientos.

Supuestos Los supuestos son normalidad de la variable respuesta, que se puede probar
mediante una prueba de bondad de ajuste de 2 o bien Kolmogorov-Smirnov;
independencia que debe asegurarla el investigador mediante un muestreo adecuado; y
homocedasticidad que se puede probar mediante una dócima de Bartlett o bien una
dócima de Hartley, habitualmente disponibles en los programas estadísticos
computacionales.

Modelo El modelo que se plantea es que cada valor de la variable repuesta y ij se puede
expresar como la suma entre un promedio paramétrico poblacional , un efecto
provocado por el tratamiento (i ) y el error experimental o residual (ij) Esto se
conoce como el supuesto de aditividad. De esta manera i = i -, mide el efecto
provocado sobre yij por el tratamiento. El modelo se escribe:

yij =  +  i + ij

Notación Es habitual en el ANOVA usar la notación de la siguiente tabla:

FACTOR
T1 T2 ..... Tt TOTAL
y11 y21 ..... yt1
y12 y22 ..... yt2
.... ..... ...... .....
y1n y2n ....... ytn
TOTALES Y1o Y2o ..... Yto Yoo
PROMEDIOS y1o y2o ..... yto yoo

Observamos que, al contrario que la notación habitual de matrices donde el


subíndice i indica la fila en este caso indica el tratamiento que va en las columnas.
Observamos además que se usan las minúsculas para los promedios y las mayúsculas
para los totales. Habiltualmente al término Yoo se le denomina gran total.

Partición de la varianza Trabajemos algebraicamente el término (yij-yoo)2 que


corresponde a la suma de desviaciones cuadráticas en torno al promedio (y oo) llamado
simplemente suma de cuadrados total (SCT) y que corresponde al numerador de la
varianza (s2):
120

(yij-yoo)2 = (yij-yio+yio- yoo)2 = (yij-yio)2 + (yio-yoo)2+ 2(yij-yio)(yio-yoo)

(yij-yoo)2 = (yij-yio)2 + (yio-yoo)2, pues el último término es 0.

En palabras, la suma de las desviaciones cuadráticas en torno al promedio general


(SCT) se puede descomponer aditivamente en la suma de las desviaciones cuadráticas
de cada valor individual al promedio de su tratamiento (suma de cuadrados dentro de
tratamiento: SCD) y la suma de las desviaciones cuadráticas de cada promedio de
tratamiento al promedio general (suma de cuadrados entre tratamientos: SCE): SCT
= SCD + SCE. Esto es lo que se conoce como partición de la varianza y es la base de
todo el análisis de la varianza. Hay que hacer notar que esta partición y aditividad se
produce a nivel de la suma de cuadrados y no de la varianza, pues la varianza total es:
S2 = (yij-yoo)2/(nt-1), la varianza dentro de tratamientos es CMD= (yij-yio)2/(t(n-1))
(intravarianza) y la varianza entre tratamientos es CME = (yio-yoo)2/(t-1)
(intervarianza).

Esquema general del ANOVA

Definición Llamaremos Fuente de variación a las fuentes que originan


variabilidad en la variable respuesta. Estas en general corresponden a la variabilidad
originada en el error experimental () y a aquella provocada por los niveles de los
factores y sus interacciones.

El esquema general del ANOVA es una tabla que incluye sucesivamente las
fuentes de variación (FV), las sumas de cuadrados (SC), los grados de libertad (que
corresponden a los denominadores de las varianzas), las varianzas, cuadrados medios o
medias cuadráticas (CM), el valor del estadígrafo F y la probabilidad de error I (p). En
un ANOVA de una vía, balanceado (igual tamaño muestral en cada tratamiento), ésta es:

FV SC Gl CM=SC/gl F P
T (entre)  (Y 2
i0 / n)  Y / nt
2
00 t-1 F =
i
CME/CMD
 (dentro o    yij   Yi 0 / n t(n-1)
2 2

ij i
error)
TOTAL  yij2  Y002 / nt
ij
nt-1

Como dato práctico, observamos que para los cálculos en una tabla de ANOVA, se
necesitan tres cálculos sencillos:
121

 (Y
i
2
i0
/ n) y
i, j
2
ij Y002 / nt

También observamos que ∆ no se calcula, sino que se obtiene por la diferencia ∆


= SCT – SCE

Esperanza de los cuadrados medios y la dócima F.

Es posible demostrar que el valor esperado o esperanza del cuadrado medio del
error (dentro) es E[CMD] = 2, es decir es la varianza poblacional. Además si el modelo
del diseño es de tipo I E[CME] = 2 + n (i-)2/(t-1) = 2+() y si es de tipo II
E[CME] =2+n2 .La interpretación de esto es que se espera que la desviación
cuadrática entre tratamientos sea similar a la desviación cuadrática dentro de
tratamientos más un componente añadido por los tratamientos (efecto del tratamiento).

En forma natural surge la idea de realizar el cuociente F = CME/CMD, lo que


estadísticamente tiene gran sentido por cuanto CMD/2 tiene distribución 2t(n-1) y
CME/2 tiene distribución 2t-1 por lo que F = CME/CMD tiene distribución de Snedecor
Ft-1,t(n-1). Así, es posible docimar Ho: i= j  i,j vs. H1: i j para algún par i,j mediante
el valor de F.

Ejemplo 1.-

Se quiere saber el efecto de ciertos tratamientos A, B y C sobre la presión arterial


diastólica probándolos en tres grupos de individuos, obteniendo:

A B C
110 100 80
100 90 76
90 86 82
85 97 88
90 100 84
100 96 78

Se plantean las hipótesis H0: μA= μB = μC vs H1: al menos un par de promedios


distintos.

Se construye la tabla básica:


122
A B C
110 100 80
100 90 76
90 86 82
85 97 88
90 100 84
100 96 78
Total (Yi0) 575 569 488
Promedio (yi0) 95.8 94.8 81.3

Calculamos: Y00 = 575 + 569 + 488 = 1632.

 (Y
i
2
i0 / n)  (575 2  569 2  4882 ) / 6  148755

y
i, j
2
ij
 110 2  1002  .....  1002  902  .....802  762  ...782  149430

Y002 / nt  1632 2 / 6  3  147968

Entonces construimos la tabla de ANOVA:

FV SC Gl
CM=SC/gl F2,15 P
T (entre) i (Y / n)  Y / nt
2
i0
2
00 787/2 = t-1 = 2
F =
= 393.5 CME/CMD
=148755-147968 = = 393.5/45 =
787 = 8.74
 (dentro o    yij   Yi 0 / n t(n-1) = 675/15 =
2 2

ij i
error) 15 = 45
= 1462 – 787 = 675
TOTAL ij
yij2  Y002 / nt nt-1 = 1462/17 =
17 = 86
=149430-147968 =
1462

El valor crítico de F2,15 con α = 0.05 es 3.68, y como el valor calculado 8.74 >
3.68, entonces rechazo H0 y al menos un par de promedios es diferente. Obviamente,
mirando los datos, el grupo C tiene presiones claramente diferentes de los otros dos.
Siguiendo el rigor estadístico, a continuación habría que hacer comparaciones múltiples
a posteriori.

Transformaciones
123

El análisis de la varianza es un análisis muy poderoso y que conduce a resultados


confiables a pesar de considerables desviaciones de la normalidad y homocedasticidad
lo que es especialmente válido para números de replicas iguales en cada tratamiento
(modelos balanceados) y números muestrales grandes. Por esto se dice que el ANOVA
y en general toda la estadística paramétrica, son robustos. Sin embargo, en ciencias
siempre interesa tener el mínimo de violaciones posibles de los supuestos por lo que a
veces es necesario transformar la variable.

Cuando existe violación de la normalidad, es útil el siguiente teorema: En


cualquier distribución de una variable aleatoria “y” tal que su varianza V se puede
expresar como una función de la esperanza E: V = (E), entonces existe una
transformación:

dy
T  f ( y)   cuya varianza y esperanza son independientes. El resultado es una
( y )

nueva variable, con distribución normal.

Por ejemplo en una distribución de Poisson V = E y entonces, f(y) = dy/y = 2y.


De esta manera si una variable tiene distribución de Poisson, conviene aplicarle una
transformación “raíz cuadrada” para su análisis con ANOVA. De esta manera surgen
algunas transformaciones recomendadas:

Distribución (y) Transformación f(y)


Normal C = constante Y
Binomial (proporciones) y(1-y) arcsen(y)
Poisson (sucesos raros) Y y
Sin homocedasticidad y2 ln(y) o ln(y+1)
y4 1/y o 1/(y+1)
Binomial negativa arcsen(y)
Decreciente y2

IX4.- Comparaciones múltiples

En general el ANOVA no termina con el rechazo de Ho. Con esto sólo sabemos
que existe un efecto de los tratamientos sobre la variable respuesta. Sin embargo a
menudo (sobre todo en modelo de efectos fijos) interesa saber cuál o cuales de los
tratamientos produce el efecto. En este caso es necesario realizar comparaciones
múltiples. Estas son de dos tipos: i) definidas a priori o no sugeridas por los datos e
ii) definidas a posteriori. Aquí es importante notar que a priori o a posteriori no se
124
refiere a si se ha hecho o no primero el ANOVA, sino al diseño experimental. A veces
por diseño sólo interesa comparar los tratamientos contra un control (a priori), o sólo
realizar las comparaciones relevantes (a priori). En cambio otras veces nos interesan
todas las comparaciones para interpretar después (a posteriori).

Comparaciones a priori

Contrastes ortogonales La idea en este caso es realizar sólo comparaciones


independientes entre sí (ortogonales). Para esto se define un contraste j =ciji, donde
cij son constantes que definen el contraste de tal manera que cij= 0. Entonces un
estimador de j es Lj =cijyio. La hipótesis de nulidad para un contraste es Ho: j = 0.
Por ejemplo si se tienen cuatro tratamientos y se quiere comparar el primero con el
tercero se puede elegir c11 = 1, c21 = 0, c31 = -1 y c41= 0 y entonces L1 = y1o-y3o (la
diferencia de los promedios entre el tratamiento 1 y el 3. Es un contraste porque c 11 + c31
= 1-1= 0.

Dos contrastes Lj y Lk son ortogonales o independientes si cij.cik = 0. Entonces


un contraste independiente del anterior es L2 = y2o-y4o porque c11 = 1, c21 = 0, c31 = -1 y
c41= 0 y c11 = 0, c21 = 1, c31 = 0 y c41= -1 y entonces cij.cik = 1·0+0·1+(-1)·0+0·(-1) = 0.

Una de las utilidades mayores de los contrastes ortogonales es la posibilidad de


comparar tendencias, por ejemplo si se tienen 4 tratamientos y se quiere evaluar
tendencia lineal, cuadrática o cúbica, basta elegir los cij de acuerdo a la siguiente tabla:

cij
Lineal -1 -1 1 1
Cuadrática -1 1 1 -1
Cúbica -1 1 -1 1

El estadígrafo adecuado para probar la hipótesis es una t de Student con los grados
de libertad del error (tgle):

Lj
t gle 
CMD  ci2 / ni

Prueba de Dunnet Muchas veces la idea del diseño es comparar los tratamientos
contra un tratamiento control. En este caso el estadígrafo adecuado es t d(t,gle,) de
Dunnet (existen tablas especiales):
125
yi 0  ycontrol
td 
2CMD / n

En este caso ycontrol representa el promedio en el tratamiento control.

Prueba de Scheffé Esta prueba se basa en el concepto de contrastes, definidos de


igual manera que antes: j = cii. Sin embargo en este caso no es necesario que los
contrastes sean ortogonales. Si los contrastes son sugeridos por el diseño, es una prueba
a priori, pero si se realizan todas las comparaciones, es a posteriori. Como es posible
ejecutar múltiples contrastes, se recomienda la corrección de Bonferroni. La prueba de
hipótesis (Ho: j = 0) se realiza con una distribución F1-,t-1,gle:

L2
Ft 1, gle 
(t  1)  CMD   ci2 / ni

Comparaciones a posteriori

Existen muchas pruebas para hacer comparaciones múltiples, sin embargo son dos
las más utilizadas. Ambas están basadas en la distribución del rango “Studentizado”: Q
= (xmax-xmin)/sx.

Prueba de Tukey En esta prueba se consideran todas las comparaciones posibles,


usando la distribución del rango “Studentizado” Q1-,t,gle:

yi 0  y j 0
Qt , gle 
1 1
(CMD / 2)  (  )
ni n j

Prueba de Student-Newman-Keuls (SNK) Esta prueba tiene la misma estructura


que la prueba de Tukey, pero considera el número de tratamientos “t”, como un variable.
Por ejemplo, si tenemos cuatro tratamientos (t = 4) y se obtuvo: y 1o = 27, y2o = 19 y3o =
15 y4o = 13. Como están ordenadas en forma decreciente al comparar y 1o con y4o
participan 4 medias adyacentes (t=4), pero al comparar y1o con y3o sólo participan 3,
entonces t = 3 para esta comparación, y así sucesivamente.

Las pruebas a posteriori, se pueden ordenar según su potencia en forma


decreciente: SNK, Tukey y Scheffé. Sin embargo, en la medida que aumenta su
potencia, también aumenta su probabilidad de error de tipo I, por lo que en general, se
recomienda una prueba intermedia (Tukey).
126

Ejemplo 2.-

Considerando los datos del ejemplo 1 vamos a realizar las comparaciones


correspondientes. Para cada comparación se establece la hipótesis H0: μi = μj vs H1: μi ≠ μj
y se realizan los cálculos. Usaremos la prueba de Tukey.

Para comparar A con B:

95.8  94.8
Q3,15   0.149
45

Para comparar A con C:

95.8  81.3
Q3,15   2.16
45

Y para comparar B con C:

94.8  81.3
Q3,15   2.01
45

El valor crítico de Q3,15 es 3.67, por lo que no es posible rechazar H 0 en ninguno


de los tres casos.

IX.5.- ANOVA de dos vías: la interacción

El análisis de la varianza de dos factores (o vías) es conceptualmente similar. En


este se puede probar en forma independiente el efecto de cada factor sobre la variable
respuesta. El modelo se puede expresar como:

yijk =  +  i +  j +  k(ij)

Sin embargo, cuando existen dos factores, existe la posibilidad de que éstos
provoquen un efecto conjunto sobre la variable respuesta. Por ejemplo es posible que el
factor 1 haga aumentar el valor de la variable respuesta, pero que al incorporar el factor
2 este efecto se potencie, o, a la inversa se inhiba. En este caso se habla de la existencia
de interacción entre los factores. La variabilidad proveniente de la interacción ()
puede ser aislada y docimada en forma independiente. En este caso el modelo se escribe:

yijk =  +  i +  j + ij +  k(ij)


127
La interpretación de la interacción queda clara en la siguiente figura.

En esta figura se muestra la variable respuesta (y) frente a dos factores. El factor 1
(A) con los niveles a1 y a2, y el factor 2 (B) con los niveles b1 y b2. En los gráficos
superiores no existe interacción, pues la respuesta es paralela. En el caso de la izquierda
existe efecto de ambos factores A y B sobre y, en el de la derecha sólo del segundo
factor (B). En los gráficos inferiores si existe interacción. En el gráfico de la derecha,
existe un aumento de y a causa de cada factor, pero este aumento se potencia en
presencia del segundo nivel del factor 2 (B). En el gráfico de la izquierda existe
interacción que podríamos llamar “paradojal”: en el nivel a1 el factor 2 disminuye y,
pero ocurre lo contrario en el nivel a2 (en este último caso lo más probable es que el test
no arroje significación ni en el factor 1, ni en el factor 2, pero sí efecto de interacción.

Ejemplo 3.- Se ha medido una variable fisiológica “x” en tres localidades A, B y


C a dos especies W y Z. Obteniendo:

A B C
W 3 7 2
4 8 3
128
5 9 1
4 8 3
3 7 3
Z 2 4 1
3 3 2
2 4 2
1 3 2
2 2 1

Valores promedio:

A B C
W 3.8 7.8 2.4
Z 2.0 3.2 1.6

Se desea saber si existen diferencias en “x” entre las especies y el efecto de la


localidad sobre ésta.

Se realiza ANOVA de dos vías: Localidad y Especie, con interacción, obteniendo:

F de V SC Gl CM F P
Localidad 66.1 2 33.0 53.6 << 0.001
Especie 43.2 1 43.2 70.1 << 0.001
Interacción 19.4 2 9.7 15.7 << 0.001
Error 14.8 24 0.62
Total 143.5 29

Del análisis se desprende que existen diferencias entre las especies, existen
diferencias entre las localidades y este efecto no es parejo en cada especie (existe
interacción).

El valor de la probabilidad de error I (p: en negritas los valores significativos


(< 0.05)) en las comparaciones múltiples con prueba de Tukey muestra:

{1} {2} {3} {4} {5} {6}


A W {1} x .015196 .000138 .828719 .088555 .002275
A Z {2} x .000138 .190434 .963783 .963783
B W {3} x .000138 .000138 .000138
B Z {4} x .599784 .037791
C W {5} x .599784
129

C Z {6} x

La interpretación es la siguiente: En la localidad B se encuentran valores más altos


de x. La especie Z tiende a tener valores más bajos de x que la especie W. Sin embargo,
esto se manifiesta claramente en las localidades A y especialmente en B donde la
diferencia es muy grande, pero no alcanza a ser significativo en C.

IX.6.- Otros diseños

El análisis de la varianza no sólo es un método de análisis de la información, sino


también establece una forma de compatibilizar el análisis con el diseño del experimento.
Así, por ejemplo, para un diseño que considere tres factores y que en uno de ellos tenga
sub-muestras, existe una estadística adecuada para analizarlo (ANOVA factorial
anidado). A la inversa, conociendo que existe una estadística para analizar un diseño, se
puede adecuar el experimento a tal diseño, como ocurre por ejemplo con el diseño de
cuadrados latinos.

Al analizar un experimento, es importante usar el modelo adecuado a tal diseño,


identificando adecuadamente las fuentes de variación. Si éstas no son identificadas, la
variabilidad de dichas fuentes será incorporada a la variabilidad residual (aumenta
CMD) y por tanto, como esta última se encuentra en el denominador de la F de
Snedecor, tendrá un valor inferior, reduciendo la probabilidad de rechazar Ho, y por
tanto aumentando el error de tipo II. La eficiencia del modelo se puede medir a través de
E = (CMD sin el modelo)/(CMD con el modelo). Si E = 1, el uso del modelo es
irrelevante.

Diseños factoriales Un diseño es factorial, si tiene más de 2 vías.


Conceptualmente es igual a los anteriores, pero incorpora cada vez más posibilidades de
interacción.

Diseño de bloques aleatorizados Muchas veces un experimento exige que los


tratamientos (T) se repitan en distintas parcelas o bloques (B), por ejemplo el uso de tres
fertilizantes en tres lugares. En este caso los tratamientos se distribuyen aleatoriamente
en cada uno de los lugares, y el efecto del lugar es irrelevante. Un ejemplo de este
diseño se puede resumir en la siguiente tabla:

B1 T1 T3 T2
B2 T3 T2 T1
B3 T2 T1 T3
130
Diseño de medidas repetidas A veces es necesario que los tratamientos los reciba
el mismo individuo u otra unidad de análisis dependiente de la anterior. Por ejemplo 4
individuos (I) expuestos a tres estímulos (T):

T1 T2 T3
I1
I2
I3
I4

Observamos que es el mismo individuo el que recibe los tres tratamientos. En este
tipo de diseño es necesario excluir a los individuos de respuesta extraña (out-group)
pues violan un supuesto de este diseño: la simetría compuesta. Esta última junto a la
homocedasticidad constituyen el supuesto de esfericidad.

Diseños anidados, encajados o jerárquicos Para entender este modelo conviene


definir unidad experimental como aquella unidad que recibe el tratamiento y la unidad
de muestreo como aquella que constituye una réplica.
En los diseños jerárquicos se consideran sub-niveles dentro de cada tratamiento.
Por ejemplo si estamos estudiando las diferencias en cierta característica de individuos
de tres edificios (T) puedo elegir en cada edificio 2 pisos al azar (niveles N):

T1 T2 T3
N1 N2 N1 N2 N1 N2

Observamos que siempre el nivel encajado debe ser de tipo aleatorio (modelo II) y
que no se puede hacer una tabla de doble entrada porque los niveles N1 y N2 son sólo
referenciales, por ejemplo, N1 puede ser el 5to piso en T1 y ser el 3er piso de T2. Si el
primer factor es de tipo aleatorio, se habla de un diseño anidado puro. Si el primer factor
es de tipo fijo (modelo I), entonces las unidades experimentales son los niveles del
factor encajado y las réplicas constituyen sub-muestras.

Cuadrados latinos y parcelas divididas (split-plot)

Estos son dos diseños especiales que a veces es necesario usar y se pueden
representar en las siguientes tablas.
131

El cuadrado latino considera un doble bloque (B y b), con sus respectivos niveles:

b1 b2 b3
B1 T1 T2 T3
B2 T2 T3 T1
B3 T3 T1 T2

El diseño de parcela dividida corresponde a un diseño de bloques incompleto (no


incorpora todas las combinaciones posibles) en que se mezclan dos tratamientos (T y t) y
un bloque (B):

B1 T1 t1 T3 t1 T2 t1
t2 t2 t2
B2 T3 t1 T2 t1 T1 t1
t2 t2 t2
B3 T2 t1 T1 t1 T3 t1
t2 t2 t2

IX.7.- Alternativas no paramétricas al ANOVA

Afortunadamente la estadística paramétrica, especialmente el ANOVA es muy


robusto, de tal manera que es posible tolerar algunas violaciones a los supuestos,
especialmente en modelos balanceados (n iguales en cada celda) y con número grande
de observaciones. Sin embargo las comparaciones múltiples no son tan robustas, por lo
que a veces es necesario primero usar transformaciones y, si estas no resultan, utilizar
estadística no paramétrica. Esta en general se restringe a diseños con bajo número de
observaciones.

Prueba de Kruskall-Wallis Es la alternativa no-paramétrica de un ANOVA de una


vía. En esta, se transforman todos los valores a rangos y luego se calcula el estadígrafo:
2
t R
12
H   3( n  1)
0j

N ( N  1) 1 n j

Se puede demostrar que esta prueba es exactamente equivalente a un ANOVA


aplicado sobre los rangos (ANOVA sobre Rangos). Además si se realiza un ANOVA
sobre rangos, entonces la F obtenida se relaciona con la H a través de:
132
N t
F H
( N  1  H )(t  1)

Es posible realizar pruebas a porteriori, entre ellas la prueba de Dunn y la de


Nemenyi. Escribiremos esta última por su simplicidad y usar la misma distribución que
el estadígrafo de Tukey:

R0 j  R0 k
Q , ,t 
n( nt )( nt  1)
12

Prueba de Friedman Es la alternativa no paramétrica para el ANOVA en bloques y


el ANOVA de medidas repetidas. En esta se “rankea” entre los tratamientos dentro de
cada bloque o individuo y después se calcula el estadígrafo:

12
 t2   R02 j  3b(t  1)
bt (t  1) j

También es posible hacer comparaciones múltiples a posteriori. En este caso se


usa:

R0 j  R0 k
Q , ,t 
b(t )(t  1)
12

Otras alternativas Existen algunas alternativas no paramétricas para una y dos vías
cuando la hipótesis H1 incorpora una tendencia u ordenación (i.e: H 1: t1 <t2 < t3 ). En
este caso se usa para el caso de una vía la prueba de Jonckheere y para dos vías la
prueba de Page. Cuando se tiene un diseño más complejo se realiza un ANOVA sobre
rangos.
133
Ejercicios de análisis de la varianza

ANÁLISIS DE VARIANZA (ANOVA) DE 1 VÍA

1. Se realizó un estudio de diversas especies de pájaros que son de similar naturaleza y


comparten un medio común. El canto de cada especie tiene un conjunto de rasgos
distintivos que permite reconocerla. Una característica investigada es la duración del
canto en segundos. Se estudian tres especies: A, B y C. Se obtuvieron los siguientes
datos:

A B C
1.11 2.20 0.50
1.23 1.90 0.94
0.90 2.00 0.78
0.95 1.70 0.38
1.00 1.54 0.50
1.10 1.88 0.50
1.20 1.90 0.68
1.30 2.05 0.62
1.10 1.70 0.40

¿Qué se puede decir respecto a la duración de los cantos de las distintas especies?
R: Son diferentes; F2,24 = 122.6; p << 0.05.

2. Un grupo de investigadores analizaron 6 muestras provenientes de 5 lagos distintos


para poder determinar la concentración de rotíferos (individuos por mL). Los datos
son presentados en la tabla de abajo. Según los datos obtenidos, existen diferencias
en la concentración de copépodos dependiendo de su procedencia?.

Lago 1 Lago 2 Lago 3 Lago 4 Lago 5


28.2 39.6 46.3 41.0 56.3
33.2 40.8 42.1 44.1 54.1
36.4 37.9 43.5 46.4 59.4
34.6 37.1 48.8 40.2 62.7
29.1 43.6 43.7 38.6 60.0
31.0 42.4 40.1 36.3 57.3
Promedio 32.1 40.2 44.1 41.1 58.3
134

Análisis de varianza de un factor

RESUMEN
Grupos Cuenta Suma Promedio Varianza
Lago 1 6 192.5 32.08 10.27
Lago 2 6 241.4 40.23 6.40
Lago 3 6 264.5 44.08 9.49
Lago 4 6 246.6 41.10 13.44
Lago 5 6 349.8 58.30 9.22

ANÁLISIS DE VARIANZA
Origen de las variaciones SC gl CM F P FC
Entre grupos 2193.44 4 548.36 56.15 3.95E-12 2.759
Dentro de los grupos 244.13 25 9.77
Total 2437.57 29

Comparaciones Múltiples (Test de Tukey,  = 0.05). Las diferencias significativas se


presenta en negritas.
Comparaciones Diferencia () SE Tk Tk crítico  crítica
5-1 26.2 1.28 20.55 4.166 5.31
5-2 18.1 1.28 14.16 4.166 5.31
5-4 17.2 1.28 13.48 4.166 5.31
5-3 14.2 1.28 11.13 4.166 5.31
3-1 12.0 1.28 9.41 4.166 5.31
3-2 3.9 1.28 3.06 4.166 5.31
3-4 No es necesario
4-1 9.0 1.28 7.05 4.166 5.31
4-2 No es necesario
2-1 8.1 1.28 6.35 4.166 5.31

3. Se estudió una variable “x” en tres situaciones A, B y C, obteniendo:

A B C
2 6 1
3 7 2
2 8 2
4 7 3
5 8 6

Que puede decir acerca del comportamiento de “x” en las tres situaciones?

R: Existen diferencias; F2,12 = 14,6; p < 0.05. La variable x responde igual en las
situaciones A y C, pero es mayor en la situación B.
135

4.- Analice de nuevo el ejercicio anterior, pero con estadística no-paramétrica.

R: Existen diferencias; KW = 8.57; p < 0.05. La variable x responde igual en las


situaciones A y C, pero es mayor en la situación B.
136

X.- CORRELACIÓN Y REGRESIÓN

X.1.- Correlación

A menudo en ciencias nos encontramos interesados en la relación o asociación


entre dos variables cuantitativas. En este caso, tratándose de dos variables aleatorias X e
Y, sabemos que si son independientes la variación conjunta o covarianza es cero:
COV(X,Y) = 0. Además el valor máximo que puede tener la covarianza es COV(X,Y) max
= (V[X]·V[Y]).

Aprovechando éstas propiedades podemos definir correlación entre dos variables


X e Y como la covarianza estandarizada:

COV [ X , Y ]

V [ X ]  V [Y ]

Naturalmente, un buen estimador de , será el coeficiente de correlación (r) de


Pearson:

r
 ( x  x )( y  y )
i i

x yi i  nx y
 ( x  x )  ( y  y)
i
2
i
2
( x  nx )( yi2  ny 2 )
i
2 2

Entonces tanto  como su estimador (r) varían entre –1 y 1. Además si X e Y son


independientes,  y su estimador (r) son 0.
137

El coeficiente de correlación mide el grado de asociación entre dos variables X e


Y, siendo máxima si r ≈ 1 como en la situación A de la figura, o r ≈ -1 como en la
situación C. La diferencia entre éstos últimos dos valores es que un valor positivo indica
asociación positiva y un valor negativo, lo contrario, es decir aumentos en la primera
variable implican disminuciones en la segunda. Cuando no existe asociación, es decir Y
es independiente de X como en la situación B, r ≈ 0.

Es importante decidir si existe asociación o independencia por lo que se debe


realizar la dócima Ho:  = 0 vs. H1:   0. Y en este caso se usa el estadígrafo:

r n2
t n 2 
1 r2

X.2.- Regresión

Muchas veces en la búsqueda de asociación entre dos variables X e Y, intentamos


establecer una relación funcional entre ambas, por ejemplo una línea recta: y = mx + c, o
una parábola y = ax2 + bx +c o una exponencial y = a·e bx o una potencial y = axb. En este
caso no sólo buscamos la asociación sino que pre-suponemos una relación funcional
entre las variables. Este es el objetivo del análisis de regresión sea este lineal,
cuadrático, exponencial o potencial. Lo más habitual es el análisis de regresión lineal,
sobre todo porque los modelos exponencial y potencial, tan habituales en ciencias, son
reductibles al modelo lineal a través de logaritmos.
138

Por ejemplo si a una relación potencial del tipo Y = aXb le aplicamos logaritmo,
se obtiene logY = loga +blogX, y llamando w = logY, z = logX y c = loga, se obtiene la
recta w = c + bz. En el caso de una exponencial Y = C(e bX), tomando logaritmo natural
se obtiene lnY = lnC + bX y llamando w = lnY y c = lnC, se obtiene la recta w = c + bX.

Regresión lineal mínimo cuadrática

El problema básico consiste en buscar una recta que minimice las desviaciones
desde cada punto a dicha recta. Si suponemos que esta recta tiene una pendiente B 1 y un
intercepto Bo, entonces tendremos para cada xi un y’i = B1xi+Bo que estima el valor real
de yi (ver figura). A la diferencia entre yi e y’i: ei = yi-y’i la llamamos residuo.
Observamos que la raíz de la suma sobre i del residuo elevado al cuadrado: D =
 ( y  y ) tiene la estructura de una distancia y entonces interesa la pregunta: ¿ para
i
'
i
2

que valores de B1 y Bo es mínima D, o, lo que es lo mismo, D2?

Estableciendo las ecuaciones: D/B1= 0 y D/Bo = 0 (ecuaciones normales), se


obtiene:

B1 
 x y / n  xy
i i

x /n  x
2
i
2
139

Y además: B0  y  B1 x

En términos estadísticos, lo mencionado es equivalente a plantear el modelo:


yi = o + 1xi + ei, con los supuestos de independencia e igual distribución de los errores
ei

Entonces, la pendiente B1 y el intercepto Bo, son estimadores de los parámetros


poblacionales 1 = COV(X,Y)/V[X] y o = y - 1x. Estos estimadores son “meli”.
Además las varianzas de B1 y Bo se pueden estimar a través de:

S yx2 1 x ei2
V [ B1 ]  y V [ B0 ]  S yx ( n  donde S yx2  
2
)
(x i  x)2  ( xi  x ) 2 n2

Así, es posible probar las hipótesis Ho: * = 0, vs H1: *  0 (donde * representa a


1 o a o) mediante:

B*
tn2 
V [ B* ]

Observamos que es posible relacionar la pendiente y el coeficiente de correlación,


ya sea en términos poblacionales (β1 y ρ) o muestrales (B1 y r) a través de:
1·(V[X]/V[Y]) = . Esto implica que a altos valores del coeficiente de correlación le
corresponden altos valores de la pendiente B1 y a la inversa.

X.3.- Regresión y ANOVA

Observemos el siguiente desarrollo algebraico:

e 2
i
  ( yi  yi' ) 2   ( yi  y  y  yi' ) 2   ( yi  y ) 2   ( yi'  y ) 2 , lo que ordenado de otra
forma queda:

(y i
 y ) 2   ( yi  yi' ) 2   ( yi'  y ) 2

Esto se puede leer de la siguiente forma: La variabilidad total (desde cada y i al


promedio y) es igual a la suma de la variabilidad residual (desde cada y i al
140
predicho y’i) mas la variabilidad debida a la regresión (desde los predichos al
promedio y).

En otras palabras, la variación total es la suma de la variación no explicada por


la regresión (residuo) mas la variación explicada por la regresión.

Como vemos, es posible la partición aditiva de la varianza y entonces establecer


una tabla de ANOVA:

Fuente de SC Gl CM F1,n-2 P
variación
Modelo  ( yi'  y ) 2  B12 ( xi2  nx 2 ) 1 SC/gl CMmodelo/CMresiduo
(Regresión)
Residuo  (por diferencia) n-2 SC/gl
= Syx2
Total ( y i
 y ) 2   yi2  ny 2 n-1

Es decir a través de un ANOVA se puede docimar Ho: 1 = 0 vs H1: 1 0.

Al cuociente entre la suma de cuadrados explicada (regresión) dividida por la


suma de cuadrados totales se le denomina coeficiente de determinación (R2):

SCregresió n
R2 
SCTotal

Este coeficiente representa la proporción de la variabilidad total que es explicada


por la regresión. Además R2 = r2, de ahí su notación. Además al valor Syx = √(Syx2) se le
denomina error típico de la estima y representa la desviación media de los valores en
torno a la recta de regresión.

Ejemplo 1.-

Supongamos que se quiere estudiar la relación entre dos variables X e Y y se tiene


la siguiente tabla:

X 1 2 3 4 5 6 7 8 9 10
Y 2 5 6 7 9 13 15 15 19 20

El primer problema es decidir si se hará un análisis de correlación o uno de


regresión. Esta duda se resuelve pensando si el objetivo del estudio es simplemente la
141
búsqueda de una asociación, y en este caso usar sólo correlación, o si buscamos o
presuponemos una relación lineal que permita algún grado de predicción del fenómeno y
realizar análisis de regresión. En este último caso debemos pensar además si la recta de
regresión que se obtenga tiene sentido, especialmente en el caso de variables discretas,
donde entre punto y punto no existe nada, y por tanto no hay recta.

Supongamos en este caso que la variable es continua, y que presuponemos una


relación funcional de tipo lineal, por lo que se hará un análisis de regresión. Por razones
prácticas conviene inmediatamente hacer la siguiente tabla:

X Y X2 Y2 XY
1 2 1 4 2
2 5 4 25 10
3 6 9 36 18
4 7 16 49 21
5 9 25 81 45
6 13 36 169 78
7 15 49 225 105
8 15 64 225 120
9 19 81 361 171
10 20 100 400 200
Total 55 111 385 1575 770
Promedio 5.5 11.1 38.5 157.5 77.0

A partir de esta tabla se puede calcular directamente la pendiente B 1 y el


intercepto B0:

77.0  5.5  11 .1
B1   1.93 y B0  11 .1  1.93  5.5  0.485
38.5  5.5 2

Así, la recta que mejor representa la relación entre X e Y es Y  1.93 X  0.485 .

Pero interesa saber si esta pendiente B 1 es efectivamente diferente de 0; es decir si


la asociación que se obtiene en la muestra es realmente inferible a la población.
Entonces estudiaremos las hipótesis H0: β = 0 vs β ≠ 0 mediante el ANOVA. Esto es
enteramente equivalente a realizar una prueba de “t” para la pendiente. Sin embargo se
prefiere el ANOVA porque aporta mayor información como se observa a continuación.
Observamos además que todos los valores para la tabla de ANOVA ya se encuentran
calculados.

Fuente de SC Gl CM F1,8 P
142
variación
Modelo 1.93 (385  10  5.5 )  307.30
2 2
1 307.3 69.1 << 0.01
(Regresión)
Residuo  = 342.9-307.3 = 35.6 10-2= 8 Syx2= 4.45
Total 1575  10  11 .12  342.9 10-1= 9

Entonces efectivamente la pendiente es diferente de 0, y la asociación mediada


por la relación lineal es real. Además el coeficiente de determinación (R 2) es: R2 =
307.3/342.9 = 0.896. Es decir el 89.6 % de la variabilidad de Y es efectivamente
explicada por el modelo lineal, lo que es muy bueno pus la variabilidad residual
representa sólo un 10.4%. Si además queremos el coeficiente de correlación, este es
simplemente r = √(0.896) = 0.947. El error típico de la estima es S yx = √4.45 = 2.1. Este
último valor nos permite calcular las varianzas y errores estándar de la pendiente e
intercepto.

Por otra parte debemos observar que a partir del valor de F = 69.1 se puede
deducir el valor que habría tenido la “t” de Student si la hubiésemos usado para probar la
misma hipótesis. Esta es simplemente: t = √69.1 = 8.3, y conduce exactamente al mismo
valor de probabilidad de error I (p).

X.4.- Predicciones

Muchas veces el sentido de una regresión es predecir un valor o valores de y para


algún valor o valores de x.

Predicción de un valor y, para un valor xk (y/xk) En este caso el intervalo de


confianza del nivel (1-) está dado por:

1 ( xk  x ) 2
IC1- : y k  t n2  S yx 1  
'

n  xi2 ( xi ) 2 / n

Predicción del valor y para xk En este caso el intervalo de confianza está dado
por:

1 ( xk  x ) 2
IC1- : y k  t n2  S yx 
'

n  xi2 ( xi ) 2 / n

Ejemplo 2.-
143

Si en el caso del ejemplo1, interesara calcular a) el valor predicho para x = 12 y b)


el valor promedio de y para x = 15, tendríamos:

Para el caso a) el valor predicho para x = 12 sería: y = 1.93(12) + 0.485 = 23.645.


y su intervalo del 95% de confianza sería:
1 (12  5.5) 2
23.645  1.86  2.1 1    23.65  4.96
10 385  (55) 2 / 10

Para el caso b) el valor predicho sería y = 1.93(15) + 0.485 = 29.435, y el


intervalo de confianza para el promedio de los valores de y cuando x = 15 sería:

1 (15  5.5) 2
29.435  1.86  2.1   29.435  10.94
10 385  (55) 2 / 10

Es importante observar que en le medida que xk se aleja del promedio, la precisión


de la predicción va disminuyendo, o, lo que es equivalente, el intervalo de confianza se
va haciendo más amplio.

X.4.- Supuestos y alternativas no paramétricas

En algunas ocasiones la variable independiente (x) es fija y se miden muchos


valores de la variable dependiente (y) para cada valor de x. En este caso se habla de
modelo de tipo I. En otras ocasiones la variable x no controla la variable y, y se hace un
muestreo aleatorio de pares (x,y). En este caso se habla de modelo II.

Independiente del modelo, el supuesto básico de la regresión es la independencia e


idéntica distribución de los errores. Esta se puede probar con el estadígrafo de Durbin-
Watson. Esto es especialmente relevante cuando las variables independientes son el
tiempo o el espacio y puede existir autocorrelación (espacial o temporal). La
distribución esperada de los errores es una Normal, univariada o bivariada, según sea
modelo I o II.

En caso de no cumplirse los supuestos, se pueden usar otros métodos, como


análisis de series temporales en el caso de que la variable independiente sea el tiempo, o
método de las semi-medias en otros casos. En el caso de un análisis de correlación, se
puede usar el coeficiente de correlación no-paramétrico de Spearman (rs).

Este simplemente corresponde a un coeficiente de correlación de Pearson (r)


aplicado sobre las variables previamente transformadas a rangos. Se puede demostrar
que si di es la diferencia entre los rangos de xi e yi: di = xi-yi, entonces:
144

in
6   d i2
rs  1  i 1

n n
3

X.5.- Análisis de la covarianza (ANCOVA)

En el análisis de la covarianza se tiene un diseño donde la variable respuesta varía


en función de otra variable llamada co-variado. Por ejemplo si se mide una variable “y”
que varía en función de “x” frente a tres niveles de un factor “A” se tiene la tabla:

Factor A
A1 A2 A3
Y X Y X Y X

En este caso es un ANCOVA de una vía o factor, con tres tratamientos. La variable
respuesta es Y y el co-variado es X.

El modelo de ANCOVA se puede escribir:

yij     i  1 ( xij  x )   ij

Se observa que en este modelo se contempla una relación funcional entre la


variable respuesta y su covariado mediada por un modelo de regresión.

En su expresión original el interés del ACOVA está centrado en el efecto de los


tratamientos y la regresión sobre la variable respuesta Sin embargo a menudo el interés
se centra en la variable respuesta descartando el efecto del covariado y más
habitualmente, el interés se encuentra en las variaciones de la respuesta funcional, las
pendientes de regresión, frente a los distintos tratamientos (Homogeneidad de
pendientes. En el ANCOVA al igual que en el ANOVA y en la regresión, es posible la
partición de la suma de cuadrado y docimar por separado cada uno de los efectos. En su
forma más simple el ANCOVA consta de dos tratamientos, una variable respuesta “y”
con su respectivo co-variado. En este caso la homogeneidad de pendientes se puede
probar alternativamente con una t de Student:
145
11   12
t n1 n 2 4  SCresiduo1  SCresiduo 2
1 1 donde
2
S yxc 
2
S yxc (  ) n1  n2  4
 x12i  x22i
146

Ejercicios de correlación y regresión

1. Se realiza un estudio para predecir la estatura final de un individuo a partir de la talla


al nacer obteniendo:

Talla al 36 38 42 44 45 48 50 51 52 53 54 55 56 58
nacer
(cm)
Estatura 1.58 1.64 1.70 1.65 1.65 1.70 1.72 1.76 1.72 1.82 1.80 1.86 1.90 1.88
final
(m)

¿Qué puede decir de la capacidad predictiva de la talla de nacimiento sobre la estatura


final? ¿ Que estatura final esperaría de un individuo con una talla de 30.53 cm al
nacimiento? Y ¿su intervalo de confianza?

R: Es buena. EF = 1.093 + 0.0133xTN; F 1,12 = 65.9, p < 0.05; R2 = 0.833. Se esperaría


una EF = 1.5 m; el IC95% = {1.389; 1.611}.

2. Se piensa que los grados de conciencia (GC: del 1 al 10) después de un TEC están relacionados con
la edad del paciente accidentado. Se realiza un estudio y se obtiene:
Edad 26 34 45 48 57 62 70 72 76 78 80 87
GC 10 8 10 9 7 10 5 4 4 3 1 2

a) ¿Qué tipo de análisis corresponde a la pregunta?

b) Plantée la hipótesis correspondiente.

c) Utilice estadística paramétrica y después no-paramétrica.

d) Que puede decir finalmente de su hipótesis?

R: Correlación; r = -0.86; t10 = -5.33; p < 0.05; R =-0.89; t 10 = -6.26; p < 0.05.
Efectivamente, están asociados negativamente, a mayor edad, menor grado de
conciencia después de un TEC.
147

V UNIDAD.- TOPICOS ESPECIALES


148
XI.- BASES DE MUESTREO

XI.1.- Muestreo en poblaciones finitas e infinitas

El muestreo sobre una población puede ser de varios tipos:

i) Muestreo aleatorio simple: consiste en un método que permite que todas


las unidades maestrales tengan la misma probabilidad de ser elegidas.
En general se realiza unidad por unidad y sin reposición. Muchas veces
para la selección de las unidades se utiliza una tabla de números
aleatorios.
ii) Muestreo aleatorio estratificado: se realiza cuando existen estratos
definidos en la población. En este caso el muestreo aleatorio se realiza
sobre cada estrato. El tamaño muestral en cada estrato puede ser igual
(asignación fija), proporcional al tamaños del estrato (asignación
proporcional) o bien proporcional al tamaño del estrato, su varianza en
dicho estrato e inversamente proporcional al costo (asignación óptima o
de Neyman).
iii) Muestreo por conglomerados: En este caso la unidad de muestreo difiere
de la unidad de análisis, por ejemplo muestrear cajas de huevos en lugar
de huevos. Es una variante de un muestreo sistemático, donde todas las
unidades dentro de cada conglomerado son analizadas.

El muestreo se puede realizar en una o en dos etapas (mono o bi-etápico).

Los estimadores habituales usados en el muestreo poblacional pueden clasificarse


básicamente como estimadores: a) de promedios, donde el parámetro a estimar es un
promedio poblacional, b) de proporciones, donde se estima una proporción, c) de
razones, donde se estima un cuociente entre variables y d) de regresión. Es importante
notar que una proporción va entre 0 y 1, pero una razón o tasa no.

En general en mucha de la actividad científica el tamaño poblacional es


suficientemente grande como para considerarlo infinito. Sin embargo, en ocasiones la
muestra constituye una proporción significativa de la población, como podrían ser cierto
número de camas en un hospital o un número de planta en un predio agrícola. En este
caso las varianzas de los estimadores maestrales cambian, introduciéndose un factor de
corrección llamado fracción de muestreo:

n
f  donde n es el tamaño muestral y N el tamaño poblacional.
N
149
Por ejemplo cuando se realiza un muestreo aleatorio simple y se estima un
promedio poblacional ( Y ), entonces el promedio muestral y es un estimador insesgado
s2 N  n s2
de Y , pero su varianza es V [ y]  ( )  (1  f ) de manera que ahora el error
n N n

s2
estándar es Es  (1  f ) . Naturalmente los intervalos de confianza varían en forma
n
semejante.

Análogamente en el caso de una proporción (p) su varianza es:

pq pq
V [ p]  (1  f ) y entonces, Es  (1  f )
n 1 n

XI.2.- Tamaño muestral, potencia y precisión

El cálculo del tamaño muestral corresponde a una estimación previa del tamaño
necesario que debe tener una muestra para cumplir ciertos requisitos. Conviene notar
que es sólo una estimación previa y no una fórmula exacta y que en general, requiere de
un conocimiento previo de algunas características de la muestra, por ejemplo la
varianza.

Las fórmulas para el cálculo del tamaño muestral son para usarse a priori, es decir
antes de realizar el experimento. Después de realizado éste, si se logró rechazar la
hipótesis de nulidad, la pregunta del tamaño muestral es irrelevante pues la bondad de la
muestra queda medida a través de la probabilidad de error de tipo I (p).

Tamaño muestral para estimar una proporción

Entonces, por ejemplo si se desea buscar el tamaño muestral con una precisión d y
una confianza C = 1- para estimar una proporción P, es obvio que d = z /2(PQ/n), es
decir, despejando n, el tamaño muestral adecuado es:

Z 2 / 2 PQ
n
d2

Tamaño muestral para estimar un promedio

Si nuestro interés es calcular un promedio, entonces d = t (1-/2)s/n, y entonces el


tamaño adecuado es:
150
t12 / 2 s 2 Z 2 / 2 s 2
n 
d2 d2

Tamaño muestral para comparar una proporción con otra prefijada (una muestra)

El tamaño muestral adecuado para realizar una dócima de este tipo se puede
calcular definiendo previamente la precisión (d), el nivel de significación () y el error
de tipo II () o la potencia de la dócima (K = 1-). Si uno fija 2 cualesquiera de éstos
parámetros a priori se puede obtener el tercero mediante la relación:

p0 q0 ( Z  *  Z  ) 2
n 2
, donde * es /2 para pruebas de 2 colas y  para una cola.
d
Tamaño muestral para comparar un promedio con otro prefijado (una muestra)

En forma análoga al caso anterior el tamaño muestral adecuado para realizar una
dócima de este tipo se puede calcular definiendo previamente la precisión (d), el nivel de
significación () y el error de tipo II () o la potencia de la dócima (K = 1-). Si uno fija
2 cualesquiera de éstos parámetros a priori se puede obtener el tercero mediante la
relación:
s 2 (Z*  Z  ) 2
n 2
, donde * es /2 para pruebas de 2 colas y  para una cola..
d

Tamaño muestral para comparar proporciones

El tamaño muestral, la precisión (d) y el error de tipo II () o la potencia de la


dócima (K = 1-) se pueden obtener mediante la relación:

( P1Q1  P2Q2 )(Z  *  Z  ) 2


n 2
, donde * es /2 para pruebas de 2 colas y  para
d
una cola. En este caso n es el tamaño de cada muestra. Si existe un tamaño n 1 prefijado,
entonces n2 = n·n1/(2n1-n). Sin embargo, la mayor potencia se obtiene cuando n1 = n2.

Tamaño muestral para comparar promedios


151
El tamaño muestral, la precisión (d) y el error de tipo II () o la potencia de la
dócima (K = 1-) se pueden obtener mediante la relación:

2sc2 (Z *  Z  ) 2
n , donde * es /2 para pruebas de 2 colas y  para una cola. En
d 2

este caso n es el tamaño de cada muestra. Si existe un tamaño n 1 prefijado, entonces n2 =


n·n1/(2n1-n). Sin embargo, la mayor potencia se obtiene cuando n1 = n2.

Tamaño muestral para comparar promedios en muestras pareadas

El tamaño muestral adecuado para realizar una dócima de este tipo se puede
calcular definiendo previamente la precisión (d), el nivel de significación () y el error
de tipo II () o la potencia de la dócima (K = 1-). Si uno fija 2 cualesquiera de éstos
parámetros a priori se puede obtener el tercero mediante la relación:

sd2 (Z*  Z  ) 2
n 2
, donde * es /2 para pruebas de 2 colas y  para una cola..
d
Tamaño muestral para el análisis de varianza Al igual que en el caso de dos
muestras, es posible relacionar el tamaño muestral, la potencia y la precisión. Sin
embargo, en el ANOVA en general es preferible usar una función auxiliar  que se
relaciona en forma creciente con la potencia K (a mayor, mayor K). Esta función se
define como:

nd 2

2ts 2

Así para valores dados de n, d y s 2 es posible calcular  y a partir de ésta calcular


la potencia, para lo cual se disponen tablas y gráficos (ver Zar, 1996). Por otra parte si se
pre define K () y d, y se tiene una estimación previa de s 2, entonces es posible
calcular “n”. En forma análoga, teniendo n, es posible calcular d.

Muchas veces ya hemos realizado el ANOVA y aceptamos la hipótesis de nulidad,


y entonces queremos conocer el error II ( = 1-K), entonces podemos obtener K
considerando

(t  1)(CME  CMD )
p 
t  CMD
152
XII.- ESTADISTICAS VITALES

XII.1.- Tablas de vida

Las tablas de vida son instrumentos que permiten resumir las características de
una población de manera fácil y además permiten extrapolar parámetros de utilidad para
predecir el comportamiento poblacional. Estas son de dos tipos: i) de seguimiento de
cohortes (horizontal) o ii) de estructura de edades en un momento dado (transversal o
vertical).

En estas tablas se incluyen las siguientes variables:

x: representa la edad o estado etario

Nx: número de individuos al inicio de la edad x

N
lx: proporción de sobrevivientes al inicio de la edad x; l x  N
x

dx: número de muertos entre la edad x y x+1; l x  N x  N x 1

d (l x  l x 1 )
qx: probabilidad de morir entre la edad x y x+1; q x  N 
x

lx
. A veces es útil
x

definir la probabilidad de supervivencia p  1  q


x x

(l x  l x 1 )
Lx: cantidad de tiempo vivido (por todos los individuos) entre x y x+1; Lx 
2

Tx: tiempo remanente (o restante) al alcanzar la edad x: Tx  


x
Lx

T
ex: esperanza de vida a la edad x: ex  l
x

mx: número de crías o hijos entre x y x+1

Vx: valor reproductivo a la edad x; Este representa el potencial reproductivo de una



l mx
hembra de la edad x; Vx  
x

x lx
153
Parámetros derivados:

Ro: Tasa reproductiva neta o básica de una población. Esta representa la contribución en
número de crías que deja una hembra de una generación a la siguiente;

R0   l x m x
0

e0: Esperanza de vida al nacer. Esta representa la edad que se espera que viva un
individuo de acuerdo a los parámetros poblacionales (régimen demográfico) imperantes;
e0 = e0.

G: Tiempo generacional. Este corresponde al tiempo promedio que dura una generación;

 yl mx x
G x
En este caso y representa la edad media en el intervalo.
R0

Ejemplo 1.-

Se tiene la siguiente información de un insecto:

Edad (días) Número de Número de huevos


insectos(Nx) depositados (mx)
0 1000 0
1 1000 0
2 990 13266
3 830 9877
4 510 2346
5 360 1656
6 0 0

A partir de esta información se puede construir la siguiente tabla de vida:

E Y Nx lx dx qx Lx Tx ex mx lxmx Vx Xlx
mx
0 0. 1000 1 0 0 1 4.1 4.1 0 0 0 0
154
5 9 9
1 1. 1000 1 10 0.0 0.9 3.1 3.1 0 0 0 0
5 1 9 9 9
2 2. 990 0.9 160 0.1 0.9 2.1 2.2 13266 13133 2335 3283
5 9 6 1 9 1 7 3
3 3. 830 0.8 320 0.3 0.6 1.2 1.5 9877 8197 1203 2869
5 3 9 7 9 4 7 2
4 4. 510 0.5 150 0.2 0.4 0.6 1.2 2346 1196 4685 5384
5 1 9 4 1 1
5 5. 360 0.3 360 1.0 0.1 0.1 0.5 1656 596 1656 3278
5 6 0 8 8
6 6. 0 0 0 0 0
5
Ro = 23123 G= 3.035

Es decir esta población de insectos es capaz de dejar 23123 nuevos insectos por cada
hembra, cada 3.035 días. Además cada uno de éstos insectos tiene una esperanza de vida
al nacer de 4.19 días.

XII.2.- Comparación de curvas de supervivencia

Muchas veces en estudios poblacionales y en estudios de supervivencia a


tratamientos médicos es necesario comparar curvas de supervivencia. Los métodos para
compararlas son simples, derivados de la distribución χ2.

Una prueba simple es la de Mantel-Haenszel o Logrank. Existe también una


variante bastante similar el Logrank de Peto & Peto (ver Pike & Thompson 1986).

La prueba consiste en registrar para cada unidad de tiempo el número observado


de muertes (Oi) y retiros (Ci) y calcular a partir de las muestras los valores esperados de
muertes (Ei). Finalmente se usa el estadígrafo:

t
(Oi  Ei ) 2
 2
t 1

1 Ei

Ejemplo 2.-

Supongamos que se quiere comparar las supervivencias de dos grupos A y B cada


uno de 10 personas iniciales durante 12 días y se obtiene la siguiente tabla:

Tiempo Muertos en A Muertos en B Retiros en A Retiros en B


155
(OA) (OB) (CA) (CB)
1 1 0 0 0
2 0 0 0 0
3 0 0 1 0
4 2 0 0 1
5 1 1 0 0
6 0 1 0 0
7 0 0 0 0
8 1 0 1 0
9 2 0 0 0
10 0 2 0 0
11 0 0 0 0
12 0 0 0 0

A partir de esta tabla podemos calcular los valores esperados:

Tiempo Muertos Muertos Muertos Retiros Retiros Total Total Total EA EB =


en A en B totales en A en B individuos individuos individuos =nA(m/n) nB(m/n)
(OA) (OB) (m) (CA) (CB) en en (n)
observación observación
A (nA) A (nB)
1 1 0 1 0 0 10 10 20 0.5 0.5
2 0 0 0 0 0 9 10 19 0 0
3 0 0 0 1 0 9 10 19 0 0
4 2 0 2 0 1 8 10 18 0.89 1.11
5 1 1 2 0 0 6 9 15 0.8 1.2
6 0 1 1 0 0 6 8 14 0.42 0.57
7 0 0 0 0 0 6 7 13 0 0
8 1 0 1 0 0 6 7 13 0.46 0.54
9 2 0 2 0 0 4 7 11 0.72 1.27
10 0 2 2 0 0 2 7 9 0.44 1.56
11 0 0 0 0 0 2 5 7 0 0
12 0 0 0 0 0 2 5 7 0 0
Total 7 4 4.23 6.75

Entonces ahora se puede calcular el valor:

(7  4.23) 2 ( 4  6.75) 2
 1
2
  2.93 y como el valor crítico es 3.84 y 2.93 < 3.84, no es
4.23 6.75
posible rechazar H0.
Ejercicios de estadísticas vitales

1.- Se tiene información de las poblaciones de 3 insectos A, B y C:

Insecto A
Edad (días) NX Mx
156
0 100 0
1 79 1000
2 28 500
3 8 100
4 4 2
5 1 0
Insecto B
Edad (días) Nx Mx
0 100 0
1 79 100
2 65 500
3 60 500
4 50 2
5 2 0
Insecto C
Edad (días) Nx Mx
0 100 0
1 80 0
2 60 5000
3 40 10
4 20 0
5 1 0

Grafique Nx vs Edad para los tres insectos. Comente los gráficos.


Haga las tablas de vida para cada insecto y compare sus resultados.
Compare las supervivencias con la prueba de Mantel-Haenszel.
157
XIII.- REGRESION LOGISTICA

XIII.1.- Bases

En muchas ocasiones interesa predecir o explicar el comportamiento de una


variable cualitativa (I) a partir de una o varias variables cuantitativas (X). En estos casos
no corresponde un modelo de regresión. El caso más habitual, y el mas simple, la
variable dependiente (I) es binaria, por ejemplo on-off o presencia-ausencia.

En este caso se podría plantear el modelo probabilístico P( I = 1)= P = α + βX, sin


embargo la probabilidad varía en forma continua entre 0 y 1, por lo que se prefiere
modelar el logaritmo de la chance o transformación logito (log-likelihood):

P
log( )
1 P

De esta manera se plantea el modelo:

P 1
log( )    X  P 
1 P 1  e  (  X )

Así es posible ahora hacer una regresión lineal entre X y el logito de P,


determinando los parámetros.

XIII.2.- Pruebas de hipótesis

En la regresión logística interesa probar si el coeficiente de regresión β (la


pendiente) es diferente de 0: H0: β = 0 vs H1: β ≠ 0. Esto se hace mediande el estadígrafo
de Wald (W) que se distribuye como χ2 con un grado de libertad:

ˆ 2
W ( )
S

En este caso, ̂ es la estimación de β y Sβ su error estándar.

Un parámetro útil en la regresión logística es R 2 (o seudo R2) , que al igual que en


la regresión simple representa la proporción e la variabilidad de la variable dependiente
que es explicada por el modelo. Esta se calcula como:

(  m2  2 p )
R2  donde χm2 es el valor del χ2 del modelo, L(0) es el máximo valor del logito
 2 L(0)
considerando sólo la constante y p es el número de parámetros.
158

XIII.3.- La razón de chances (odds ratio)

En el caso dicotómico, puede ser interesante la pregunta acerca de cuanto más


probable es un evento (I =1), para un X dado, que para otro valor de X (X*). En este
px
1  p x e (  x )  ( x x*)
caso OR   e .
p x* e (  x*)
1  p x*

Ejemplo 1.-

Supongamos que interesa predecir el comportamiento de una variable dicotómica


I (I = 1 muerte, I = 0 supervivencia), a partir de un predictor X, continuo y que se tiene
la siguiente información:

I 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1
X 1 2 3 4 5 6 8 12 13 14 11 12 13 14 15 16 17 18 19 20

Al realizar la regresión logística se obtiene:


χ2 P
Β 0.61 0.308 3.92 < 0.05
Α -7.27 3.99

Es decir, el modelo es:

1
P
1 e 7.27  0.61 X

Además R2 = 0.56, es decir un 56% de la variabilidad del logito es explicada por


el modelo.

Si se quiere saber la probabilidad de morir cuando X = 5, esta es:

1
P( I  1 / X  5)   0.0017
1 e 7.27  0.615

Si se quiere saber además, cuanto más probable es morir cuando se tiene X = 14


que cuando se tiene X = 5, entonces: OR  e 0.61(145 )  242.25 . En otras palabras con un
159
aumento desde X = 5 a X = 14 aumentó en 242.25 veces la chance de morir. O sea ahora
es 242.25x0.0017 = 0.414.
160

XIV.- SERIES DE TIEMPO

XIV.1.- Bases

En muchas ocasiones es necesario estudiar el comportamiento de una variable en


función del tiempo. La tendencia natural es graficar la variable X en función del tiempo
y realizar un análisis de regresión, donde t es la variable independiente. Sin embargo en
estos casos se violan dos supuestos básicos de la regresión, superando la robustez del
método. Por un lado en general se tiene un valor de X para cada t, y mas importante, la
variable X en tiempo t (Xt) no es independiente de Xt-1. En ocasiones lo anterior es
válido cuando la variable independiente es una posición espacial (s) y ocurre que Xs es
dependiente de Xs±1.

En una serie temporal (Xt) o espacial (Xs) se tiene un conjunto discreto {t} (o {s})
que indica el tiempo en que se mide la variable y la variable {Xt}. Esta última depende
de dos factores: de la misma variable {X t-1, Xt-2…..} (Autoregresión) y de fluctuaciones
o movimientos aleatorios {at, at-1, at-2,……}. Así en términos generales se puede expresar
una serie de tiempo como:
p q
X t    at    i ( X t i   )    i ( at i )
1 1

En palabras, una variable actual dependería de la fluctuación aleatoria actual, de


los valores y fluctuaciones aleatorias anteriores. Este modelo se denomina ARIMA
(Auto regresive integrated moving average).

Así, en este tipo de modelo interesa estimar los coeficientes φ i y θi, junto a los
valores de p y q (orden).

XIV.2.- Autocorrelación y autocorrelación parcial

Dada una serie de tiempo Xt con n elementos, es posible formar los (n – k) pares
{Xt, Xt-k} y definir autocorrelación, temporal o espacial según el caso, como la
correlación entre estos pares:

COV [ X t , X t k ]
k 
V [ X t ]V [ X t k ]

Un estimador natural de φk es el coeficiente de correlación:


161
i n k

(X t
 X )( X t k  X )
rk  i 1
i n

(X
i 1
t
 X)

El gráfico de rk en función de k, se conoce como correlograma o FAC (función de


autocorrelación).

Así como se puede definir la autocorrelación, es posible definir la autocorrelación


parcial en forma similar a como se define correlación parcial (ver mas adelante). Estas
se pueden definir como las autocorrelaciones entre pares de variables (φ j,k), cuando las
demás están fijas. Por ejemplo entre X t y Xt-1 dejando fijas Xt-1, Xt-2,…….etc. Su gráfico
se llama FACP.

XIV.3.- Algunos modelos

Modelos auto regresivos

Un modelo auto regresivo de orden 1 (AR1) es del tipo:

X t    1 ( X t 1   )  at

En una serie de este tipo es posible demostrar que la FAC muestra un decaimiento
exponencial (directo o alternado según el signo de φ1), que en la FACP sólo la primera
autocorrelación parcial es diferente de 0, y además φ 1 = r1. Así estudiando la FAC y
FACP es posible calcular los parámetros del modelo.

En un AR2: X     ( X   )   ( X   )  a el decrecimiento de la FAC es


t 1 t 1 2 t 2 t

más lento y en la FACP sólo los dos primeros coeficientes son distintos de 0.
1 12
Además r1  r   
y 2 2 1
1  2 2

Modelos aleatorios (MA)

Los modelos MA se reconocen por el número autocorrelaciones diferentes de 0 en


la FAC: si sólo una es distinta de 0, es MA1, si son las dos primeras es MA2 etc..


X t    at   1 ( a t 1   ) , además r1  1   2
1
Por ejemplo, en un MA1:
1
162

UNIDAD VI: INTRODUCCION AL ANALISIS


MULTIVARIADO
163
XV.- ANALISIS MULTIVARIADO DE LA VARIANZA (MANOVA)

XV.- Análisis multivariado o univariado?

Cuando se tiene un conjunto de variables medidas {X i} y se tienen hipótesis


acerca de ellas, surge inmediatamente la pregunta: ¿estudio cada una por separado o
todas en conjunto? O, de otra forma ¿si no se encuentran diferencias entre cada una de
las variables, es que dichas diferencias no existen? Por ejemplo, supongamos que se
midieron dos variables X1 y X2 en dos grupos A y B, y que al realizar las pruebas de
hipótesis correspondientes se concluye que X1 es igual en A y en B y que X2 también es
igual en A y en B. Significará esto que la respuesta conjunta, o el vector (X1,X2), es igual
en A y en B?

En el gráfico observamos que es evidente que los grupos A y B son diferentes, sin
embargo, el rango de X1 en A y en B y el rango de X2 en A y en B son prácticamente
iguales. Es decir la evidente diferenciación de los grupos no es explicada ni por X 1 ni
por X2 en forma aislada, sino por la variación conjunta de ambas, en este caso
probablemente por una combinación lineal de X1 y X2 (aX1+bX2). En ciencias
encontramos muchos conjuntos de variables que intervienen en esta forma, lo que da
origen a los fenómenos que coloquialmente llamamos multifactoriales.

Cuando sospechamos que existe una relación de este tipo donde probablemente
existe interacción entre las variables medidas, estamos en el terreno del análisis
multivariado.
164
XV.2.- MANOVA

En su expresión más simple, un MANOVA consiste en dos grupos a comparar, a


los que se ha medido un conjunto de p variables {X i} ={X1,X2,……Xp}. Se trata
entonces de un MANOVA de una vía, con dos tratamientos.

Si recordamos que cuando comparábamos dos promedios en el análisis


univariado, lo hacíamos con un test t de Student, tiene entonces sentido derivar un
estadígrafo semejante para el análisis multivariado. Por razones prácticas se utiliza su
cuadrado (T2 de Hotelling):

n1 n2 [ X 1  X 2 ]T  [ ]1  [ X 1  X 2 ] (n  1)[1 ]  (n2  1)[ 2 ]


T2  donde []  1
n1  n2 n1  n2  2

En este caso los paréntesis [] indican que se trata de matrices, los exponentes “T”
y “-1” corresponden a la matriz traspuesta y la matriz inversa respectivamente, y [∑]
corresponde a la matriz varianza-covarianza. La expresión (DM):
DM  [ X 1  X 2 ]T  []1  [ X 1  X 2 ] tiene la estructura de una distancia y se conoce como
distancia de Mahalanobis. El valor de T2 es finalmente un escalar que es posible docimar
mediante una distribución F:

(n1  n2  p  1)T 2
Fp ,n1 n 2 p 1 
( p (n1  n2  2))

Cuando se quieren comparar más de dos grupos, las expresiones algebraicas


matriciales son más complejas, sin embargo, siempre es posible docimar el efecto de los
factores mediante diferentes estadígrafos. Los más conocidos son la traza de Hottelling-
Lowley (To2) y Λ-Wilks, que siguen distribuciones χ2.
165
XVI.- REGRESION MULTIPLE

XVI.- Expresión matricial de una regresión

En un análisis de regresión se tiene un conjunto de pares ordenados {X i,Yi} que se


pueden expresar en el modelo general:

y   0  1 x   , donde ε representa la fluctuación aleatoria.

Desarrollando el modelo para cada yi, se obtiene:

y1   0  1 x1  
y 2   0  1 x2  
.
.
y n   0  1 xn  

Esto es equivalente a la expresión matricial:

y1 1 x1 1


y  1 x   
2  2  0  2
   
.   .1  1 . 
  
yn 1 xn n
166
O, en términos más simples: [Y ]  [ X ]  []  []

Con esta notación, el vector de estimadores de los coeficientes de regresión es


simplemente:

ˆ ]  [ X T X ]1  [ X ]T [Y ]
[

XVI.2.- Regresión múltiple

En el análisis de regresión múltiple, no se tiene sólo una variable independiente (o


predictor), sino que un conjunto {Xi} con “p” de ellas, por lo que ahora el modelo en
términos matriciales se escribe:

y1  1 .1 xx p1 0 1


y  .1 xx   
2   12 p2  1  2
 
.  . .  .  . 
      
y n  1n .1 xx pn p n
Lo que en términos simples es completamente análogo al caso de una regresión
univariada, una ecuación lineal: [Y ]  [ X ]  []  [] .

Las ecuaciones normales de la regresión se expresan simplemente como:


167

ˆ ]  [ X ]T  [Y ]
[ X T X ]  [

Los coeficientes de regresión se calculan igual que antes:

ˆ ]  [ X T X ]1  [ X ]T [Y ]
[

Es importante notar que si [XTX] no es invertible (matriz singular) no es posible


obtener coeficientes de regresión. Esto ocurre cuando las variables predictoras están
altamente correlacionadas, es decir son colineales. En general cuando las correlaciones
simple entre variables son mayores que 0.8 se dice que son colineales.

La tabla de ANOVA:

Fuente de Grados de Suma de Cuadrados Fp,n-p+1


variación libertad cuadrados medios
Modelo P ˆ ][ X T Y ]  n[Y ]2
[ SC/gl CMmod/CME
Error n-(p+1) [Y T Y ]  [ˆ ]T [ X T Y ] SC/gl=Syx2
Total n-1 [Y T Y ]  n[Y ]2

SC mod elo
Del mismo modo que en la regresión simple, R2 
SCT

Los supuestos son la extensión multivariada de la regresión univariada:


Normalidad multivariante e idéntica de los errores, e independencia.

Se puede observar que a pesar de las fórmulas aparentemente más complicadas


todas son enteramente análogas a las de una regresión simple. Observamos sin embargo,
que ahora hay un intercepto (β0) y un conjunto de coeficientes de regresión o
“pendientes” ({βi }). Ahora no es una recta de regresión sino un plano o un hiperplano.
Los coeficientes de regresión en este caso deben interpretarse como las pendientes
directoras de dicho plano y son diferentes de las pendientes que se obtendrían
realizando regresiones aisladas entre la variable Y y cada una de las {X i}. Las
pendientes obtenidas en un modelo de regresión múltiple corresponden a coeficientes
obtenidos en presencia de las otras variables y son por tanto llamados coeficientes de
regresión parcial. Puede ocurrir en ocasiones que al realizar una regresión entre Y y X 1
la pendiente β1 sea positiva y que al realizar la regresión entre Y y {X 1,X2} el coeficiente
β1 sea dráticamente diferente, e incluso negativo. Esto ocurre frecuentemente cuando
parte de la variabilidad de X1 esta explicada por X2 o a la inversa, es decir X1 y X2 se
encuentran correlacionados.

XVI.3.- El aporte de cada variable


168

En una regresión múltiple la mayoría de las veces interesa determinar el aporte de


cada variable y si este tiene significación. Es decir si la pendiente correspondiente (βi) es
igual o diferente a 0.

Afortunadamente la suma de cuadrados del modelo de regresión se puede


descomponer en las contribuciones que provienen de cada variable.

Consideremos el caso de dos predictores X1 y X2. El modelo correspondiente es


Y = β0 + β1X1+ β2X2 + ε y en este caso la suma de cuadrados del modelo se puede
escribir como: SC(β1, β2/ β0), es decir aquella variabilidad explicada por las pendientes
directoras y no por la constante. Si no consideramos la variable X 2 entonces la suma de
cuadrados del modelo sería: SC(β1/β0) y entonces podemos determinar el aporte de X2
como: SC(β2/β1,β0) = SC(β1,β2/β0) – SC(β1/β0). En forma completamente análoga el
aporte de X1 lo medimos con SC(β1/β2,β0) = SC(β1,β2/β0) – SC(β2/β0). Así extendiendo el
razonamiento al caso de p variables, es posible descomponer la suma de cuadrados del
modelo completo en las contribuciones aportadas por cada variable:

SC ( 1 ,  2 ,... p /  0 )  SC (  1 /  0 ,.,  2 ... p )  SC (  2 /  0 ,  1 ... p )  ....SC (  p /  0 ,  2 ... p 1 )


La suma de cuadrados del modelo tiene p grados de libertad, aportando cada
variable con un grado de libertad. Así cada variable X i tiene asociada una F1,n-(p+1) (“F
parcial”) que permite docimar H0: βi = 0 vs H1: β ≠ 0.

XVI.4.- Correlación múltiple, simple y parcial

Cuando se realiza un análisis de regresión múltiple, es posible obtener el


coeficiente de determinación (R2). Esto permite definir el coeficiente de correlación
múltiple como

rM  R2

Además si se tiene el conjunto ordenado de predictores y la variable dependiente


{Xi,Y}, es posible establecer en la forma habitual la correlación simple entre cada una
de las variables y ordenarlas en una matriz de correlación:
169
1 r12 r13 . r1 y 
 1 r23 . r2 y 
 
 1 . . 
 
 . . 
 1 

Cada uno de los elementos de esta matriz corresponde a una correlación simple
entre dos variables en ausencia de las demás. Sin embargo al igual que el caso de los
coeficientes de regresión, surge la pregunta si cambiarían las correlaciones cuando se
consideran las demás variables.

Cuando se incluyen las demás variables se puede obtener un coeficiente de


correlación parcial, que corresponde a una correlación entre dos variables cuando las
demás permanecen constantes, de esta manera mide la correlación que le es exclusiva a
las dos variables. Por ejemplo, se podría tener una correlación simple entre X 1 e Y, r1y =
0.8, y una correlación simple entre X2 e Y, r2y = 0.9, pero al calcular la correlación
parcial entre X1 e Y podría ocurrir que fuera r 1.y = 0.2. Esto ocurre cuando las variables
X1 y X2 están correlacionadas y entonces al calcular las correlaciones simples en
realidad se está incorporando el efecto indirecto de la variable no considerada. En el
caso mencionado gran parte de la correlación entre X1 e Y, estaría explicada por el efecto
que produce X2 sobre X1 o la correlación entre estas.

El cálculo de los coeficientes de correlación parcial es algo engorroso y pasa


primero por obtener la matriz inversa de     [bij ] . Las correlaciones parciales se
1

pueden calcular a partir de esta como:

 b jh  b jy
rj .h  y en particular rj . y 
b jj  bhh b jj  byy

XVI.5.- Selección de variables

En muchas ocasiones, cuando se realiza un análisis de regresión múltiple, interesa


obtener un modelo predictivo que sólo considere aquellas variables que aportan
significativamente al modelo, o sea con altos F parciales. Para este efecto existen al
menos tres procedimientos: Bacward elimination, Forward selection y Stepwise
selection.

Bacward elimination En este procedimiento se realiza el siguiente algoritmo:

b) Se realiza una regresión incluyendo todas las variables predictoras,


170
c) Se calculan los F parciales para cada variable, designando como F L
al menor,
d) Si FL es menor que el F crítico para α prefijado, sacar la variable
correspondiente, y
e) Volver a a) con las variables que quedan hasta que F L sea mayor
que el crítico.

Forward selection El algoritmo es el siguiente:

a) Se realiza un estudio de correlación simple entre los predictores y


la variable dependiente,
b) Seleccionar la variable con mayor riy y ajustar el modelo, si su F
parcial es mayor que el crítico se incluye la variable,
c) Calcular los coeficientes de correlación parcial entre las variables
restantes e Y pero incluyendo a la variable ya seleccionada (ri.y/xi)
d) Ajustar el modelo, si F parcial mayor que el crítico, queda en el
modelo, y
e) Volver a b) hasta que la variable a incluir no alcance el F crítico.

Stepwise selection El procedimiento stepwise o paso a paso, tiene el mismo


algoritmo anterior, pero en cada paso pueden salir variables que ya hayan entrado que,
con la incorporación de nuevas variables desciendan su F parcial por debajo del crítico.

Ejemplo 1.-

Supongamos que se pretende explicar la conducta de una variable Y a partir de


tres variables independientes X1, X2 y X3, y se tiene la siguiente tabla:

Y X1 X2 X3
2 1 2 1
4 2 3 2
6 3 4 1
8 4 5 2
10 4 6 1
12 5 7 2
14 6 8 1
171
16 7 9 2
19 8 10 1
20 9 11 2
22 10 12 1
24 11 14 2
25 12 15 1
28 13 16 2
30 14 17 1
32 15 18 2
34 16 19 1
36 17 19 2
37 18 20 1
40 19 21 2
44 20 22 1

Si realizamos un análisis de regresión múltiple obtenemos:

Y = 0.819 + 0.373X1+0.346X2+0.375X3; F3,17 = 1398.5; p << 0.001, con un R2=0.995 y


rM=0.998.

Es decir obtenemos un modelo lineal con un 99.5 % de la variabilidad explicada


por el modelo. Sin embargo si realizamos un procedimiento de bacward selection, se
obtiene:

Y = 0.664 + 2.1X1; F1,19= 4259.6; p << 0.001, con un R2 = 0.995 y r = 0.998.

Es decir de las tres variables sólo es relevante la X 1, obteniendo una variabilidad


explicada prácticamente igual.

XVI.6.- Análisis de vías (o sendas)

Este análisis tiene por objetivo descomponer la correlación entre un predictor (Xk)
y una variable dependiente (Y) en los efectos directos sobre ella y los efectos indirectos.
O sea, los provocados a través o por mediación de algún otro predictor ({Xi}).

Si en una regresión múltiple estimada: Y = b0 +b1X1 +…..bpXp hacemos el cambio


yy xx
de variables y'  y x'  se obtiene Y’ = bs1X1+…….bspXp, donde bsi
sy sx
corresponde al coeficiente de regresión parcial estandarizado:
172
s xi  bi
bsi 
sy

Después de algún trabajo algebraico sobre las ecuaciones normales de la regresión


es posible lograr, en los casos bivariado y trivariado las descomposiciones:

bs1  r12 bs 2  r13bs 3  r1 y


bs1  r12 bs 2  r1 y
y r12 bs1  bs 2  r23bs 3  r2 y
r12 bs1  bs 2  r2 y
r13bs1  r23bs 2  bs 3  r3 y

A los coeficientes bs se les denomina coeficientes de vía. En forma natural, la


descomposición se puede extender al caso de más variables.

Si los predictores son independientes entre sí, entonces los coeficientes de vía
corresponden a las correlaciones simples entre los predictores e Y: b  r . si iy

Además la variabilidad explicada esta dada por el coeficiente de determinación


R 2   riy2
y por lo tanto la es posible calcular la variabilidad no explicada como

rUy2  1  R 2

Cuando existe correlación entre los predictores, se puede escribir la ecuación


general:

b 2
si
 2 bsi bsj rij  ruy2  1
i j

El análisis de vías o sendas es un análisis muy poderoso ya que permite proponer


y docimar un modelo pre-establecido entre los predictores y la variable dependiente.
Además combinado con un procedimiento de selección se pueden eliminar variables y
en aquellas variables que quedan en el modelo se puede estudiar que proporción de los
efectos son directos y que proporción es indirecta.

XVI.7.- Regresión logística múltiple

La regresión logística simple se puede extender fácilmente al caso multivariado,


por ejemplo p variables, y al caso de variables cualitativas multiestado, por ejemplo k
estados. En este caso la función logística es de la forma:

1
P( I  j )  ( j    i xi )
1 e i
173

En este caso, se obtienen k funciones que solo difieren en la constante α, una para
cada estado.

En algunas ocasiones la función logística se utiliza con un fin heurístico pudiendo


hacer selección de variables mediante un procedimiento “stepwise”. En otras ocasiones,
lo que es muy habitual en análisis multivariado, se utiliza la función logística con un fin
de clasificación o discriminación de grupos o estados, siendo una alternativa al análisis
discriminante (ver mas adelante). En estos casos, los coeficientes β i representan el
“peso” que tiene cada variable Xi en la discriminación de los estados o grupos. Además
en base a las funciones logísticas se establecen valores puntuales que permiten decidir la
pertenencia a uno u otro grupo de un caso a partir de las medidas de las {X i}. Utilizando
la función logística en forma recursiva sobre los casos que permitieron construirla y los
puntos de discriminación se puede obtener una tabla de clasificación:

Tabla de Clasificación
Predicho (+) Predicho(-) Total
Observado(+) A b A+b
Observado(-) C d C+d
Total a+c b+d N = a+b+c+d

Esta tabla es exactamente igual a las tablas usadas en diagnóstico médico, por lo
que pueden ser descritas con las medidas habituales de Sensibilidad, Especificidad,
Valores predictivos y Certeza, en este caso no de un examen, sino de la función logística.
Además es posible realizar un análisis de concordancia.

Análisis de concordancia

El análisis de concordancia permite comparar la certeza de un examen (en este


caso la función) con la certeza que podría esperarse por simple azar.

En la tabla observamos que la certeza es C = (a+c)/n. Sin embargo, si calculamos


los valores esperados para las celdas de la diagonal de la tabla en la forma habitual usada
en tablas de contingencia, estos son: (a+c)(a+b)/n y (b+d)(c+d)/n, por lo que por simple
azar podría esperarse una certeza de

(a  c)( a  b) (b  d )(c  d )

n n (a  c)( a  b)  (b  d )(c  d )
Cz  
n n2
174
De esta manera, existe un rango de certeza restringido entre el valor de azar C =
Cz y la certeza máxima C = 1, que podría ser atribuible a la función. Entonces tiene
sentido el estadígrafo:

C  Cz

1  Cz

Este representa la fracción de concordancia no azarosa, cuyo valor máximo es 1.

Es posible probar H0: κ = 0 vs κ ≠ 0 mediante:


z
C z (1  C z )
n

Ejemplo 2.-

Supongamos que después de un análisis de regresión logística se obtuvo la


siguiente tabla de clasificación:

Tabla de Clasificación
Predicho (+) Predicho(-) Total
Observado(+) 16 2 18
Observado(-) 5 4 9
Total 21 6 27
Entonces C = 20/27 = 0.74. Los valores esperados por azar en la diagonal serían:
21x(18/27) = 14 y 6x(9/27) = 2, por lo que al azar se podría tener una concordancia de
0.74  0.5926
Cz =(14+2)/27 = 0.5926. Entonces:  
1  0.5926
 0.361

Para ver si esta concordancia es diferente de 0, calculamos:


175
0.361
z  3.81
0.5926(1  0.5926) , y como 3.81 > 1.96, se rechaza H0 y se concluye
27
que la capacidad de clasificación es mayor que la esperada por azar.
176

XVII.- ANALISIS DISCRIMINANTE

XVII.1.- Fundamento

Como lo dice su nombre, el objetivo del análisis discriminante es discriminar


grupos a partir de un conjunto de variables medidas {X i}. Se intenta responder la
pregunta ¿Cuál es la mejor combinación de variables que permite diferenciar entre dos o
mas grupos previamente conocidos? Es por tanto, un método a posteriori, que necesita
de conocer a que grupo pertenecen las variables medidas.

El caso más sencillo es aquél en que se tienen dos grupos o poblaciones (π i, i =


1,2), de tamaños ni en los que se estudian un conjunto de p variables {X j}. En este caso
se busca una función (función lineal discriminante) que sea una combinación lineal de
las variables, del tipo:

L   1 X 1   2 X 2  ........ p X p o, en términos matriciales L  [ X ]T  []

Se requiere además que esta función tenga una máxima discriminación.

Si dividimos la variabilidad total (o suma de cuadrados (T)): T   ( Lik  L ) en 2

i ,k

sus dos componentes clásicos, la suma de cuadrados dentro de grupo (W, de “within”) y
la suma de cuadrados entre grupos (B, de “between”), de manera que T = B + W, se
obtiene:

W   ( Lik  Li ) 2 y B   ni ( Li  L ) 2  n1n2 ( L1  L2 ) 2
i ,k i n1  n2

A partir de esta descomposición, ahora es posible definir discriminación (D) como


el cuociente entre la suma de cuadrados entre y dentro de grupos:

D  B /W

El problema se reduce ahora a encontrar los coeficientes {β i} que hacen máxima


la discriminación D. Es decir {βi}, tal que: δD/δβi = 0.

Se puede demostrar que esto matemáticamente conduce a un problema de valores


(Eigenvalues: λi) y vectores propios. La solución indica que el conjunto de coeficientes
{βi} para el caso de dos poblaciones es el vector propio de [D], asociado a su valor
propio (λ):
177
[]  []1  [ X 1  X 2 ]  []1  [d ]

Este es un resultado muy útil pues por su estructura la matriz de coeficientes ([B]
o {βi}) es muy similar a la distancia de Mahalanobis, por lo tanto a T 2 de Hottelling y,
entonces se puede docimar a través de una F (ver MANOVA):

DM  [ X 1  X 2 ]T  []1  [ X 1  X 2 ]  [d ]T  []

Este razonamiento se extiende naturalmente al caso de más poblaciones, por


ejemplo “q poblaciones”. En este caso se obtienen q-1 funciones discriminantes, a
menudo llamadas ejes canónicos. Cada función tiene asociado un valor propio (λ i) que
da cuenta de la proporción de discriminación explicada por dicha función, y un vector
propio que contiene los coeficientes {βi}.

Se puede probar la capacidad de discriminación de cada función o eje canónico a

pq
través de  {n 1 }ln(1 j)
2
j i
que se distribuye siguiendo a χ2p+q-2j.

i 2
XVII.2.- Clasificación

El análisis discriminante puede ser usado a posteriori como una función de


clasificación en el mismo sentido que la regresión logística. Por ejemplo para dos
L1  L2
poblaciones se puede escoger un punto L*  ( ) que permite decidir si un caso al
2
que se le han medido las p variables {X i} pertenece a la primera o segunda población.
En forma completamente análoga al caso de la regresión logística se puede obtener una
tabla de clasificación, con sus respectivos parámetros y realizar un análisis de
concordancia.
178

Ejemplo 1.-

Supongamos que nuestro interés es discriminar dos grupos A y B a partir de tres


variables X1, X2 y X3, y que se tiene la siguiente tabla:

X1 X2 X3
A 4 1 1
A 5 2 2
A 4 1 3
A 4 2 4
A 5 1 5
B 2 2 3
B 3 1 4
B 3 2 5
B 4 1 6
B 2 2 7

Al realizar un análisis discriminante, se obtiene la función:


FD = 1.004X1+0.267X2-0.647X3, con un valor propio λ = 2.79; con un valor χ23 = 5.59, p
= 0.036 y usando el criterio FD = 0, una certeza del 100%.

Es decir la función discriminante es excelente (100% de certeza), con una


capacidad de discriminación significativa (p<0.05). Además en la función pesan
especialmente las variables X1 y X3.

Este mismo problema se puede abordar con regresión logística múltiple. En este
caso se obtiene:

1
P ( I  A)  con un χ23 = 13.83, p = 0.0031 y una certeza del
1 e  ( 5.7  10.1 X 1 0.7 X 2  7.6 X 3 )

100%.
179

XVIII.- ANALISIS DE COMPONENTES PRINCIPALES

XVIII.1.- Fundamentos

A diferencia del análisis discriminante, cuyo fin es discriminar grupos


previamente conocidos, el análisis de componentes principales tiene como fin
fundamental buscar combinaciones de variables que expliquen la variabilidad del
fenómeno, reduciendo el número de variables. Su fin secundario, aunque muy habitual
es ordenar en base a las nuevas variables obtenidas, un conjunto de poblaciones. En este
caso se debe notar que el método no tiene por objetivo discriminar sino ordenar y que es
a priori, es decir que para construir las nuevas variables no necesita conocer los grupos.

Dado un conjunto de p variables medidas a una o más poblaciones {X i}, interesa


un conjunto de ψi variables construidas como combinación lineal de las {Xi} y que
además sean ortogonales o independientes entre sí. Tales variables son del tipo:

y k  vk 1 X 1  vk 2  .......vkp ; k  1,2,... p

Xi  X
Realizando la estandarización habitual Z i  si
la relación anterior se puede
escribir matricialmente:

[  ]  [V ]T  [ Z ] ,
donde la matriz [ψ] corresponde a la matriz de coeficientes {ψ k= yki
estandarizados}, [V] es la matriz de coeficientes {vki} y [Z] el vector de variables
estandarizadas.

Se puede demostrar fácilmente que la esperanza E[ψ] es la matriz nula, y que la


varianza V [ ]  [V ]T []Z [V ]  [V ]T [][V ]

Matemáticamente la idea es encontrar un conjunto de coeficientes {v ki} tales que


i) la matriz varianza covarianza sea diagonal, es decir ψ k independientes entre sí y que
además ii) la varianza sea máxima. Si además introducimos la condición normalizadora
de que iii) los coeficientes {vki} tengan módulo 1 (vkTvk = 1; o ∑v2k = 1), entonces
introduciendo multiplicadores de Lagrange, se puede demostrar que:

[V [ ]]
 0  [  I ]  v k  0
v k

Es decir, los coeficientes buscados {vk} son los vectores propios asociados a cada
valor propio {λi} de la matriz de correlación entre las variables ([  ]). Además la traza
180
de [  ] = ∑λi = p, y entonces la proporción de la varianza que explica cada componente
ψk es λk/p. Así un componente con un valor propio menor que 1 es con toda seguridad
irrelevante.

Observamos entonces que en el análisis de componentes principales se maximiza


la variabilidad total y no la discriminación, y que en la práctica la extracción de
componentes principales sólo consiste en encontrar valores y vectores propios en la
matriz de correlación.

Cada componente ψk tiene esperanza 0 y varianza λk. Si definimos ahora fk = ψk/√(


λk), entonces fk es un componente estandarizado con esperanza 0 y varianza 1. Entonces
la matriz [F] = [fk] se puede escribir:

1 / 1 . 0 
 
[F ]   0 . 0   [V ]T  [ Z ]  [ L]1 / 2  [V ]T  [ Z ]  [ Fs ]  [ Z ]
 0 0 1 /  p 

Con esta última estandarización la matriz [F s] se denomina Factor score


coefficients y da información de la composición de cada factor f k estandarizado para
varianza 1.

Por otra parte, es posible establecer la correlación entre las variables


estandarizadas (Zi) y los componentes estandarizados f k. Esta matriz de correlación
([FL]) se denomina “Factor structure” que contiene a los “factor loadings”:

1 1 1 1
[ FL ] 
n
 ( Z i  Z )( f i  f ) T  n  Z i f i  n  Z i [ L1 / 2V T Z i ]T  n  VL1 / 2

Además, como V  V T L ,
[ FL ]  VL1 / 2

Podemos escribir entonces las variables en función de los componentes


estandarizados:

[ Z ]  [ FL ][ F ]

Esta expresión nos muestra que cada variable se puede expresar como
combinación lineal de los componentes y los coeficientes o factor loadings muestran el
peso de la variable en dicho componente.
181
Con esta estandarización además ∑FLk2 representa la proporción de la variabilidad
de Zk relacionada con los factores, por lo que se denomina comunalidad, y entonces la
fracción no explicada 1- ∑FLk2 es la especificidad de la variable.

Cuando se realiza un análisis de componentes principales, interesa primero saber


si se justifica hacerlo. Esta pregunta se refiere a lo siguiente: si las variables medidas no
estuvieran correlacionadas de partida, entonces no tiene sentido la búsqueda de
componentes ortogonales. A raíz de esto Bartlet propuso primero estudiar la matriz de
correlación y someter a prueba de hipótesis H 0:   0 vs H1:   0 . Para esto propuso, el
siguiente estadígrafo:

1
  {( n  1) 
6
( 2 p  5)} ln  que se distribuye como χ2p(p+1)/2.

Además después del análisis importa saber cuantos componentes son relevantes
para dar cuenta de la variabilidad total. Esto tiene una solución muy práctica y usada:
usar todos los componentes cuyo valor propio es mayor que 1. Otra solución es
considerar “q” componentes y someter a prueba si la correlación residual es o no
diferente de 0: H0: residual  0 vs H1: residual  0 . En este caso se usa el estadígrafo:

residual
1 2 C
  {( n  1)  ( 2 p  5)  q} ln C donde q p    j p q
6 3 
1
j (
pq
)

En este caso se inicia con q = 1, subiendo progresivamente hasta que la


correlación residual sea irrelevante, es decir hasta aceptar H0.

Ejemplo 1.-

Usando la misma tabla del capítulo anterior, podríamos estar interesados en cuales
son las combinaciones de variables que dan cuenta de la variabilidad de las poblaciones
A y B (no en discriminar). En este caso un análisis de componentes principales muestra:

CP1 = 0.55X1-0.667X2+0.50X3
CP2 = -0.65X1+0.035X2+0.76X3
CP3 = 0.52X1+0.74X2+0.41X3

Componente (Factor (Factor (Factor score Valor propio %


score de X1) score de X2) de X3) (λ) acumulado
de la
182
varianza
CP1 0.53 -0.44 -0.40 1.57 52.6
CP2 0.037 -0.69 0.71 0.88 82.18
CP3 -0.4 0.80 0.56 0.53 100.0

Esto indica que sólo el primer componente es relevante (λ >1). Los factor loadings
son -0.84; 0.69 y 0.63 para X 1, X2 y X3 respectivamente, por lo que CP1 está
fundamentalmente asociado a X1. Además podrían usarse los valores de los dos primeros
componentes en cada caso para graficar ambas poblaciones, ordenándolas.
2

1
1

2 2

1
var5
0

1 1
-1

1
-2

-2 -1 0 1 2
var4

Gráfico de las poblaciones A y B codificadas respectivamente como 1 y 2, en


función de los dos primeros componentes principales (Software SATATA 8.0 ®).
183
XIX.- CORRELACION CANONICA, ANALISIS DE
CORRESPONDENCIA Y ANALISIS CANONICO DE CORRESPONDENCIA

XIX.1.- Correlación canónica

Supongamos que en una población se miden un conjunto {W i} en el que podemos


separar dos tipos de ellas {Xi} e {Yi}, que miden atributos diferentes, por ejemplo
variables ambientales y fisiológicas, o habilidades verbales y matemáticas etc. En
muchas ocasiones interesa estudiar la forma en que se asocian o correlacionan estas
variables. Matemáticamente esto consiste en buscar pares de funciones lineales
[Uk ,Vk ], del tipo:

U k  a k 1 X 1  .........a kp X p
Vk  bk 1Y1  ...........bkqYq
tales que la correlación entre Uk y Vk sea máxima.

Si ordenamos las variables {X1….Xp,Y1…..Yp} en una matriz de correlación, esta


se puede dividir en cuatro sectores, cada uno con una matriz: [A] con las correlaciones
entre las {Xi}; [B] con las correlaciones entre las {Y i}; y [C] con las correlaciones entre
Xi e Yi. De esta manera la matriz se puede escribir:

 [ A] [C ]

[C ]
T
[ B ]

El problema de correlación máxima como ya es habitual se resuelve como un


problema de valores y vectores propios:

[( B 1C T A 1C  I )V ]  [O ]

Los valores propios obtenidos (λk) corresponden a Rk2, es decir representan la


parte de la determinación que le corresponde al par {U k,Vk} . Además los coeficientes
{bi} de la función V corresponden a los vectores propios de la ecuación característica y
los coeficientes {ai} de la función U están dados por:

ai  [ A]1 [C ]bi

Así mediante este método se obtienen pares de funciones lineales que dan cuenta
de la correlación entre las variables. Esto permite visualizar como se correlacionan las
configuraciones o combinaciones de variables. Por ejemplo si se tiene un par U 1 =
0.4X1+0.1X2+0.8X3 y V1=0.3Y1+0.6Y2+0.04Y3 con un λ1=0.6; esto indica que el par
U1,V1 determina el 60% de la asociación y que en U 1 son determinantes las variables X1
y X3 y en V1 predomina Y2. Esto sugiere una relación entre éstas.
184

Se puede probar el número de pares de funciones canónicas necesarios para dar


cuenta de la correlación probando la hipótesis H0: H0:   0 vs H1:   0 mediante:

1 r
 2k  {n  ( p  q  1)}  ln(1  i ) donde r es el menor entre p y q, y k varia desde 0 a r.
2 i 1 k

Es decir se rechaza H0 y se van removiendo los pares hasta que su contribución a la


correlación se vuelva irrelevante. Este estadígrafo se distribuye siguiendo a χ2(p-k)(q-k).

Ejemplo 1.-

Si usamos la tabla del ejemplo1 del capítulo de regresión múltiple, e intentamos


un análisis de correlación canónica considerando Y y X1 como un tipo de variables y X2
y X3 como un segundo tipo, obtenemos un primer par canónico de funciones:

U1 = -0.38Y-0.62X1; V1 = -X1 + 0.0265X2 con un valor propio λ1 = 0.993 y un χ24 = 87.1;


p <<0.001. El segundo par canónico (U 2,V2) es irrelevante, con un λ2 = 0.006 y un χ24 =
0.11; p = 0.7. La correlación canónica del primer par es R = 0.9965 (√λ1).

XIX.2.- Análisis de correspondencia

El objetivo de éste análisis es la búsqueda de asociación o correspondencia entre


dos o más conjuntos de variables cualitativas múltiples, por ejemplo {X i} e {Yi}.
Básicamente consiste en la búsqueda de un conjunto de raíces y sus eigenvalues que den
cuenta de la asociación entre estos dos o más grupos de variables. Cuando se trata de dos
grupos de variables, se analiza la tabla de doble-entrada (contingencia) que contiene las
frecuencias de presentación de éstas. Por ejemplo {X i} puede ser un conjunto de
especies (Spi), {Yi} puede ser un conjunto de biomas (Bi), lo que conduce a la tabla:

B1 B2 ….. Bq
Sp1 n11 n12 …. n1q
Sp2 n21 n22 …. n2q
…. … …. …. ….
Spp np1 np2 …. npq

En ésta tabla el análisis obvio para la búsqueda de asociación es el test de χ 2 para


tablas de contingencia. Como el valor de este estadígrafo depende de la frecuencia total
(nOO), se ha definido como medida de asociación, la Inercia (I) que se expresa:


2
I 
nOO
185

El análisis permite descomponer la inercia (o asociación) en un conjunto de


dimensiones (vectores propios) ortogonales que explican esta asociación. El máximo
número de dimensiones extraíbles corresponde al valor mínimo entre (filas-1) y
(columnas-1).

Ejemplo 2.-

Supongamos que tenemos 4 especies A, B, C, D distribuidas en 3 ambientes K, L


y M, y que hemos registrado las frecuencias en la siguiente tabla:

K L M
A 1 2 4
B 4 3 5
C 5 6 7
D 6 4 3

Si realizamos un análisis de correspondencia obtenemos una inercia de I = 0.065 y


las primeras raíces o dimensiones: U1 = (-0.44;-0.027;-0.061; 0.35) y V1 = (0.31; 0.016;
-0.28), con un valor propio λ1 = 0.06 y R = 0.245. Sin embargo χ 26 = 3.26, p = 0.77. Es
decir en este caso no existe una asociación significativa entre las especies y los
ambientes.

Reciprocal averaging

Este método permite una variación sobre el análisis anterior. Al igual que en el
caso anterior, se tiene una matriz de datos donde las filas se ordenan según una variable
(X) o sus niveles, las columnas se ordenan según otra variable o sus niveles (Y) y las
celdas de la matriz son ocupadas por las frecuencias de presentación de las
combinaciones o bien cualquier característica de interés, por ejemplo la biomasa de las
especies.

B1 B2 ….. Bq
Sp1 n11 n12 …. n1q
Sp2 n21 n22 …. n2q
…. … …. …. ….
Spp np1 np2 …. npq

Se pueden buscar las raíces o dimensiones que maximizan la asociación entre los
pares {Bk,Spk}. Esto se puede hacer por el método de “reciprocal averaging”. En este
método se calculan iterativamente los promedios ponderados (weighted average)
186
renormalizados de filas y columnas y hasta lograr la estabilización. El vector estable
corresponde a la primera dimensión y tiene asociado un eigenvalue (λ k ).Se puede
demostrar que al igual que la correlación canónica, conduce a pares de funciones
lineales con su valor propio asociado λk, que corresponde a λk=Rk2. Cada par de
funciones es ortogonal al anterior. Esto se logra porque una vez obtenido el primer par
de funciones, se continúa con el análisis estableciendo la correlación con la función
anterior y trabajando con los residuales.
187

XX.- ANALISIS DE CONGLOMERADOS (CLUSTER)

XX.1.- Fundamentos

El objetivo del análisis de conglomerados es la búsqueda de grupos o una


organización jerárquica de ciertas unidades, a partir de un conjunto de variables medidas
en ellas {Xi}. En este sentido por ejemplo, es muy útil para agrupar especies animales a
partir de características morfológicas. Necesita del conocimiento previo de las unidades
para hacer el análisis, por lo que éste es a posteriori. Necesita también de una medida de
similitud entre las unidades, o bien una medida de distancia entre ellas.

XX.2.- Medidas de similitud y distancia

Las medidas de similitud y distancia entre dos unidades (j y k), cada una
caracterizada por los valores de las variables medidas {X i}, pueden ser de diferentes
tipos dependiendo de la naturaleza de las variables: medidas de distancia, medidas de
correlación y medidas de asociación.

Medidas de distancia

Cuando se usan medidas de distancia, la máxima similitud corresponde a la


mínima distancia, o sea cero.

Si las variables son cualitativas de doble estado (presencia-ausencia: 1 o 0) podría


usarse por ejemplo como medida de distancia la diferencia promedio de caracteres
(Mean carácter difference MCD), que representa la proporción de diferencia entre dos
unidades.
p

X ij  X ik
MCD  i 1

Si las variables son cualitativas ordinales de múltiples estados (variables


multiestado) tiene sentido usar la distancia de Manhattan (DM) que acumula las
diferencias de orden de cada variable entre las unidades:
p
DM   X ij  X ik
i 1
188
Si las variables son cuantitativas o predominantemente cuantitativas se puede usar
la distancia Euclidea (en sentido matemático) o Taxonómica (D):
p
D (X
i 1
ij
 X ik )

También en este último caso es posible usar alguna distancia que incorpore la
variabilidad como la distancia de Mahalanobis o usar una distancia en coordenadas
polares como la distancia de Nei. Sin embargo, éstas se utilizan menos, o tienen uso mas
restringido.

Medidas de correlación

Así como entre dos unidades se puede establecer una distancia, también se puede
medir la similitud entre ellas usando el coeficiente de correlación. En el caso que las
variables sean cuantitativas continuas esta indicado el coeficiente de correlación de
Pearson. Si en cambio algunas variables no son continuas o son simplemente ordinales,
se puede usar el coeficiente de correlación de Spearman. En este caso la máxima
similitud es 1.

Medidas de asociación

Cuando se caracterizan unidades es muy habitual usar variables doble-estado o


presencia-ausencia. En este caso se pueden usar medidas de asociación que permiten
valorar en forma diferencial las coincidencias y desacuerdos. Por ejemplo ¿vale lo
mismo que dos especies tengan una mancha roja (1,1) a que ambas no la tengan (0,0)?
Debemos observar que ambas son coincidencias y que la diferencia media de caracteres
las valora igual, en ambos casos X ij-Xik = 0. Existen muchas medidas de asociación para
estos casos, cuyo uso depende del problema a estudiar.

Si agrupamos las observaciones en una tabla de 2x2, obtenemos:

UNIDAD 1
1 0
UNIDAD 2 1 A B
0 C D

En este caso los números a y d representan las coincidencias y los números b y c


los desacuerdos. A partir de esta tabla existen diferentes medidas:

ad
Apareamiento simple (simple matching): SM 
abcd
189

a
Coeficiente de Jaccard: J
abcd

ad
Coeficiente de Roger y Tanimoto: RT 
a  2b  2c  d

2a
Coeficiente de Dice: CD 
2a  b  c

2( a  d )
Coeficiente de Sokal y Sneath: SS 
2(a  d )  b  c

(a  d )  (b  c )
Coeficiente de Hamann: H
abcd

XX.2.- Métodos de agrupación

Los métodos de agrupación parten desde la matriz [D] que contiene las distancias
o similitudes entre las unidades a agrupar. Cuando contiene similitudes es preferible
convertirlas a distancia para facilitar el uso del algoritmo. Por ejemplo si el máximo de
similitud es S = 1, se puede usar como distancia D = 1-S.

Todos los métodos consisten en ir agrupando en grupos o niveles jerárquicos


mayores a aquellos pares de unidades que tienen la menor distancia. Sin embargo, los
métodos difieren en la ponderación que se le pueda dar al número de elementos que
tenga cada unidad (weighted pair group) o en el algoritmo que se sigue después de que
se han formado unidades jerárquicas mayores. En este último caso hay que definir las
distancias entre una unidad particular (P) y un grupo jerárquico mayor (distancia DG)
que contiene por ejemplo dos unidades (A y B). Se puede observar en este caso que
existe una distancia PA y una PB y entonces se puede caracterizar la distancia DG como
DA  DB
la distancia promedio (Método de la distancia promedio): DG 
2
, como la
distancia menor (simple linkage) o la distancia mayor de las dos (complete linkage). Lo
más habitual es el uso del método UPGMA o método de agrupación promedio de los
pares no ponderados. Es decir sin ponderación y distancia promedio.

Ejemplo 1.-
190
Supongamos que se estudiaron 5 especies obteniendo la siguiente matriz de
distancias:

A B C D E
A 0 1 0.5 3 2
B 0 0.4 3 2
C 0 1 4
D 0 2
E 0

Escogemos la distancia menor que en este caso es D(BC) = 0.4 y formamos en


primer “cluster” “BC”. Para determinar las distancias desde cada especie al grupo BC
usaremos simple linkage (distancia menor). Entonces esta matriz conduce a:

A BC D E
A 0 0.5 3 2
BC 0 1 2
D 0 2
E 0

Nuevamente escogemos la distancia menor D(A-BC) = 0.5 obteniendo el cluster


ABC y calculamos las nuevas distancias:

ABC D E
ABC 0 1 2
D 0 2
E 0

Ahora la distancia menor es D(D-(ABC)) = 1, formándose el grupo ABCD. A


continuación:

ABCD E
ABCD 0 2
E 0

Entonces E se incorpora al grupo a una distancia 2. Finalmente se puede graficar


como:
191

Si en cambio utilizamos UPGMA, a partir de la primera matriz obtendríamos la


siguiente:

A BC D E
A 0 0.75 3 2
BC 0 2 3
D 0 2
E 0

Y a continuación:

ABC D E
ABC 0 2.33 2.67
D 0 2
E 0

Notamos que para calcular las distancias desde una especie a un grupo o cluster
tenemos que volver a la matriz inicial y promediar las distancias. Ahora la distancia
menor es D(E-(ABC)) = 2. Y llegamos a la matriz:
192
ABCE D
ABCE 0 2.25
D 0

Entonces ahora podemos graficar:


193
BIBLIOGRAFIA

Azocar MR (1974) Probabilidad Matemática. Universidad Católica de Chile, Instituto


de Matemáticas (Apunte).

Brown D & Rothery P (1993) Models in Biology: Mathematics, Statistics and


Computing. John Wiley & Sons, New Jork.

Cochran WG (1980) Técnicas de Muestreo. Compañía editorial Continental SA,


Mexico.

Cramer H (1945) Métodos Matemáticos en Estadística. Aguilar SA, Madrid.

Cramer (1966) Elementos de la Teoría de Probabilidades. Aguilar SA, Madrid.

Feller W (1968) An Introduction To Probability Theory And Its Applications. John


Wiley & Sons, New Jork.

Hair JF, Anderson RE, Tatham RL & Black WC (1999) Análisis Multivariante . Prentice
Hall, Madrid.

Hollander M & Wolf DA (1972) Nonparametric Statistical Methods. John Wiley &
Sons, New York.

Manley FJ (1986) Multivariate Statistical Methods, A Primer. Chapmann & Hall,


London.

Sackett DL, Strauss SS, Richardson WS, Rosenberg W & Haynes RB (2001) Medicina
Basada En La Evidencia. Harcourt, Madrid.

Siegel S & Castellan NJ (1988) Nonparametric Statistics For The Behavioral Sciences.
McGraw-Hill, New Jork.

Silva C & Cumsille F (1984) Calculo de Probabilidades. Universidad de Chile, Escuela


de Salud Pública. (apunte).

Snedecor GW & Cochran WG (1980) Statistical Methods. The Iowa University Press,
Iowa.

Sokal RR & Rohlf FJ (1995) Biometry: The Principles And Practice Of Statistics In
Biology Research. WH Freeman, New Jork.
194
Steel RGD & Torrie JH (1980) Bioestadística: Principios Y Procedimientos. McGraw-
Hill Latinoamericana SA, Bogotá.

Taucher E (1997) Bioestadística. Editorial Universitaria, Santiago, Chile.

Zar JH (1996) Biostatistical Análisis. Prentice Hall, New Jersey.


195

ANEXO I.- FORMULAS UTILES

II.- ESTADÍSTICA DESCRIPTIVA

Frecuencia relativa hi  ni / n

i j

Frecuencia acumulada N j   ni
i 1

i j

Frecuencia acumulada relativa H j   hi


i 1

x
Promedio x  i

Promedio si la serie ha sido agrupada y 


 ni yi
  hi yi
n

c L ( n / 2  N L 1 )
Mediana Me  y ' L1  nL

c L ( np / 100  N L 1 )
Percentil de orden p Pp  y ' L 1  nL

xi2
Varianza s    x 2
2

n
ni yi2
Varianza en una serie agrupada s 2    y 2   hi yi2  y 2
n
Desviación estándar s s2

Coeficiente de Variación CV  s / x

Error estándar (Es): Es  s / n


196

III.- PROBABILIDADES

casosfavorables
Probabilidad P( A) 
casosposibles

Aditividad finita: Si Ai  Bi = , para cualquier i, j, entonces P ( Ai) =  P (Ai)

Probabilidad Compuesta: P(A  B) = P(A) + P(B) – P(A  B)

Probabilidad de que ocurra al menos un evento: P( Ai)= 1 –P( AiC), lo que se
interpreta como P(alguno) = 1 – P (ninguno)

P( A  B)
Probabilidad condicional P( A / B) 
P( B)

Probabilidad conjunta Si A y B son independientes, entonces P(A  B) = P(A) P(B)


(teorema de la y)

Probabilidad total P( A)  i P( A / Bi )  P( Bi )

P( A / Bi )  P( Bi )
Teorema de Bayes P( Bi / A) 
 j P( A / B j )  P( B j )

p
Chance u “odds” O
1 p

a
Sensibilidad S  P( / E ) 
ab

d
Especificidad Sp  P (  / noE ) 
cd

a
Valor predictivo positivo VPP  P ( E /  ) 
ac

d
Valor predictivo negativo VPN  P ( noE / ) 
bd

ad
Certeza diagnóstica P (C ) 
n
197

S
Razón de verosimilitud (+) LR  P( / E ) / P( / noE )  P( / E ) /(1  P( / noE ))  1  Sp

Razón de verosimilitud (-) LR  (1  S ) / Sp

1 1 1 1
IC1  [log LR  Z  / 2     ]
a d ab cd

Chance a posteriori Op  LR  Oo

a
Tasa de evento en el control CER  P (evento / control ) 
ac

b
Tasa de evento en el grupo experimental EER  P(evento / ex) 
bd

1 1 1 1
Riesgo relativo RR  EER / CER IC1  [log RR  Z  / 2    
a b ac bd
]

Reducción absoluta del riesgo ARR  CER  EER

Número necesario a tratar para un beneficio NNT  1/ ARR

Reducción relativa del riesgo RRR  (CER  EER) / CER

Aumento absoluto del riesgo ARA  EER  CER

Aumento relativo del riesgo RRA  ( EER  CER ) / CER

Número necesario de expuestos para un daño NNH  1 / ARA

a / c ad
Razón de disparidades de la chance (“Odds ratio”) OR  
b / d bc

1 1 1 1
IC1  [log OR  Z  / 2     ]
a b c d

IV.- VARIABLES ALEATORIAS

Distribución de Bernoulli E[X] = p, V[X] = pq.


198

 n  k n k
Distribución binomial P(X  k)  p (1 p)
k 
E[X] = np, V[X] = npq.

N NpNp
  
Distribución Hiergeométrica
(XP k) kn k 
N 
 
n 
E[X] = np, V[X] = npq(N-n)/(N-1).

k
Distribución de Poisson P( X  k )  e  
k!
E[X] = V[X] = 

Distribución exponencial f ( x )    e  x
E[X] = 1/ y V[X] = 1/2
199
x 2
DISTRIBUCIÓN NORMAL f ( x)  (1/  2 )  e (1 / 2 )[ 
]

E[X] = μ y V[X] = σ2
V.- ESTIMACIÓN

Intervalo de confianza para una proporción P y para la diferencia P1-P2

IC1  [ p  Z  / 2  pq / n ] IC1  [( p1  p 2 )  Z  / 2  ( p1q1 / n1  p 2 q 2 / n2 ]

Intervalo de confianza para el promedio x y para la diferencia x1-x2

Si se conoce la varianza poblacional IC1  [ x  Z  / 2   / n ]

Si no se conoce IC1  [ x  t (1 / 2 )  s / n]

Para la diferencia de promedios


(n1  1) s12  (n2  1) s 22
IC1  [( x1  x 2 )  t (1 / 2 )  Es ] donde Es   (1 / n1  1/ n2 )
n1  n2  2

Estimadores en Medicina

Proporciones Sensibilidad, Especificidad, Valores


predictivos, certeza diagnóstica, CER y
EER
Diferencia de proporciones Reducción y aumento absoluto del riesgo:
ARR y ARA

Números necesarios : NNT y NNH Ambos están definidos como los valores inversos de
ARR y ARA respectivamente, por lo que en estos casos, se calculan los límites de
confianza para ARR y ARA y se calcula su inverso.

Riesgo relativo (RR), Odds ratio (OR) y cuocientes de verosimilitud (LR)

1 1 1 1
Para log RR: IC1  [log RR  Z  / 2    
a b ac bd
]

1 1 1 1
Para log OR: IC1  [log OR  Z  / 2     ]
a b c d

1 1 1 1
Para log LR: IC1  [log LR  Z  / 2    
a d ab cd
]
200
Z 2 / 2 PQ
Tamaño muestral para estimar una proporción n 
d2

t12 / 2 s 2 Z 2 / 2 s 2
Tamaño muestral para estimar un promedio n  
d2 d2

Para confianzas del 95% se suele aproximar z2/2 = 4.

VI.- DOCIMASIA O PRUEBA DE HIPÓTESIS

VALOR DE VERDAD de
Ho
V (H1F) F (H1V)
DECISIÓN Rechazo Ho ERROR I () K = 1-
Acepto Ho C = 1- ERROR II ()

Dócimas para una muestra


pˆ  p0
Z
Dócima para una proporción (P) p0 q0
n

x  0
t n 1 
Dócima para un promedio s
n

Dócimas para dos muestras

( pˆ 1  pˆ 2 )  P0
Z pˆ n  pˆ 2 n2
Dos proporciones 1 1 donde p0  1 1
p0 q0 (  ) n1  n2
n1 n2

Dócimas para dos promedios

Muestras independientes

c) Si las varianzas se pueden considerar iguales (homocedasticidad) entonces usamos:

x1  x 2   0
t n n 2  (n1  1) s12  (n2  1) s 22
donde sc 
2
1 2
1 1
sc2 (  ) n1  n2  2
n1 n2
201

d) si no hay homocedasticidad, entonces usamos:

x1  x2   0
t gl 
s12 s 22 pero los grados de libertad “gl” los estimamos mediante
(  )
n1 n2
2
 s12 s22 
  
n n
gl   12 2  2
 s12   s22 
   
 n1    n2 
n1  1 n2  1

d
Muestras dependientes (pareadas) t n 1 
sd / n

s M2
Dócima de Homocedasticidad F( n 1),( n 2 1)

1
s m2

VII.- ANÁLISIS DE DATOS ENUMERATIVOS O FRECUENCIAS

( o  e) 2
La distribución 2 para tablas de contingencia  ( r 1)( c 1)  
2

i, j e

N ! N ! N ! N !
Prueba exacta de Fisher PF  x P ( X  x ); dondeP( X  x)  1, 0 2,0 0 ,1 0 ,1

N 1 ,1 N 1,1! N1, 2 ! N 2 ,1! N 2 , 2 ! N 0 , 0 !

(o  e) 2
La distribución 2 para bondad de ajuste  n2 p 1   e

n ( p  p)
en donde p  i ni p1 / n
i i
La distribución χ2 para proporciones  2  1
n 1
pq
202

VIII.- ESTADÍSTICA DE DISTRIBUCIÓN LIBRE O NO-PARAMÉTRICA

Prueba de los signos de Fisher B   bi

Prueba de los rangos signados de Wilcoxon T   bi Ri

no

Prueba de la suma de rangos de Wilcoxon- Mann-Whitney T1   Ri


1

(B  C )2 ( B  C  1) 2
Dócima de McNemar 12  o   2

(B  C ) (B  C)
1

IX.- ANÁLISIS DE LA VARIANZA (ANOVA o ANDEVA)

Análisis de la varianza de 1 vía o factor (ANOVA de 1 vía).

FV SC Gl CM=SC/gl F P
T (entre)  (Y 2
i0 / n)  Y / nt
2
00 t-1 F =
i
CME/CMD
 (dentro o    yij   Yi 0 / n t(n-1)
2 2

ij i
error)
TOTAL  yij2  Y002 / nt
ij
nt-1

Transformaciones

Distribución (y) Transformación f(y)


Normal C = constante Y
Binomial (proporciones) y(1-y) arcsen(y)
Poisson (sucesos raros) Y y
Sin homocedasticidad y2 ln(y) o ln(y+1)
y4 1/y o 1/(y+1)
Binomial negativa arcsen(y)
Decreciente y2

L
Contrastes ortogonales t gle  CMD c 2 / n
j

 i i

yi 0  ycontrol
Prueba de Dunnet t d 
2CMD / n
203

L2
Prueba de Scheffé Ft 1, gle  (t  1)  CMD  c 2 / n
 i i

yi 0  y j 0
Qt , gle 
Prueba de Tukey (CMD / 2)  (
1 1
 )
ni n j

Diseño de bloques aleatorizados


B1 T1 T3 T2
B2 T3 T2 T1
B3 T2 T1 T3

Diseño de medidas repetidas


T1 T2 T3
I1
I2
I3
I4

Diseños anidados, encajados o jerárquicos

T1 T2 T3
N1 N2 N1 N2 N1 N2

Cuadrado latino
b1 B2 B3
B1 T1 T2 T3
B2 T2 T3 T1
B3 T3 T1 T2
204

Parcelas divididas (split-plot)


B1 T1 t1 T3 T1 T2 t1
t2 T2 t2
B2 T3 t1 T2 T1 T1 t1
t2 T2 t2
B3 T2 t1 T1 T1 T3 t1
t2 T2 t2
2
t R
12
H   3(n  1)
0j
Prueba de Kruskall-Wallis: N ( N  1) 1 n j
N t
Relación entre Kruskall-Wallis y ANOVA sobre rangos F H
( N  1  H )(t  1)

R0 j  R0 k
Q , ,t 
Comparaciones múltiples de Nemenyi (post- K-W) n(nt )(nt  1)
12

12
Prueba de Friedman  t
2
  R02 j  3b(t  1)
bt (t  1) j

R0 j  R0 k
Q , ,t 
Comparaciones múltiples post-Friedman b(t )(t  1)
12

X.- CORRELACIÓN Y REGRESIÓN

 ( x  x )( y  y ) x y  nx y
Coeficiente de correlación r  
i i i i

 ( x  x )  ( y  y)
i
2
i
2
( x  nx )( yi2  ny 2 )
i
2 2

r n2
Prueba de Hipótesis t n 2 
1 r2

 xi y i / n  x y
Regresión: Pendiente e Intercepto B1  B0  y  B1 x
 xi2 / n  x 2

Varianzas de la pendiente e intercepto

S yx2 1 x ei2
V [ B1 ]  y V [ B0 ]  S yx2 (  ) donde S yx2  
 (x i  x)2 n  ( xi  x ) 2 n2
205

B*
Pruebas de Hipótesis tn2 
V [ B* ]

ANOVA de la regresión
Fuente de SC Gl CM F1,n-2 P
variación
Modelo  ( yi'  y ) 2  B12 ( xi2  nx 2 ) 1 SC/gl CMmodelo/CMresiduo
(Regresión)
Residuo  (por diferencia) n-2 SC/gl
= Syx2
Total ( y i
 y ) 2   yi2  ny 2 n-1

SCregresió n
Coeficiente de determinación (R2) R2 
SCTotal

ei2
Error típico de la estima S yx    S yx2
n2

Predicción de un valor y para un valor xk (y/xk)

1 ( xk  x ) 2
IC1- : y  t n2  S yx 1 
'

n  xi2 ( xi ) 2 / n
k

Predicción del valor y para xk

1 ( xk  x ) 2
IC1- : y k  t n2  S yx 
'

n  xi2 ( xi ) 2 / n

in
6   d i2
Correlación no-paramétrico de Spearman (rs) r  1  i 1

n n
s 3

ANCOVA

Factor A
A1 A2 A3
Y X Y X Y X
206

Comparación de dos pendientes:

11   12
t n1 n 2 4  SCresiduo1  SCresiduo 2
1 1 donde
2
S yxc 
2
S yxc (  ) n1  n2  4
 x12i  x22i

XII.- ESTADISTICAS VITALES

x: representa la edad o estado etario

Nx: número de individuos al inicio de la edad x

N
lx: proporción de sobrevivientes al inicio de la edad x; l x  N
x

dx: número de muertos entre la edad x y x+1; l x  N x  N x 1

d (l x  l x 1 )
qx: probabilidad de morir entre la edad x y x+1; q x  N 
x

lx
. A veces es útil
x

definir la probabilidad de supervivencia p  1  q x x

(l x  l x 1 )
Lx: cantidad de tiempo vivido (por todos los individuos) entre x y x+1; Lx 
2

Tx: tiempo remanente (o restante) al alcanzar la edad x: Tx  


x
Lx

T
ex: esperanza de vida a la edad x: ex  l
x

mx: número de crías o hijos entre x y x+1


l x mx
Vx: valor reproductivo a la edad x Vx   x lx

Ro: Tasa reproductiva neta o básica de una población. R0  


0
l x mx
207

e0: Esperanza de vida al nacer. e0 = e0.

 yl m x x
G: Tiempo generacional. G  x

R0

XII.2.- Comparación de curvas de supervivencia

t
(Oi  Ei ) 2
Prueba de Mantel-Haenszel o Logrank. 
2
t 1 
1 Ei

XIII.- REGRESION LOGISTICA

P 1
Modelo: log( )    X  P 
1 P 1  e  (  X )

ˆ 2
Estadígrafo de Wald (W) que se distribuye como χ2 con un grado de libertad W ( )
S
(  m2  2 p )
Seudo coeficiente de determinación: R 
2

 2 L(0)

px
1  p x e (  x )  ( x x*)
La razón de chances (odds ratio) OR   e .
p x* e (  x*)
1  p x*

XIV.- SERIES DE TIEMPO


p q

Modelo ARIMA X t    at    i ( X t i   )    i ( at i )
1 1

i n k

(X t
 X )( X t k  X )
Autocorrelación rk 
i 1
i n

(X
i 1
t
 X)

AR1 X t    1 ( X t 1   )  at
208

AR2: X     ( X   )   ( X   )  a el decrecimiento de la FAC es más lento y en


t 1 t 1 2 t 2 t

la FACP sólo los dos primeros coeficientes son distintos de 0.

1 12
Además r1  r   
y 2 2 1
1  2 2


X t    at  1 ( X t 1   ) , además r1  1   2
1
MA1:
1

XV.- ANALISIS MULTIVARIADO DE LA VARIANZA (MANOVA)

T2 de Hotelling:

n1 n2 [ X 1  X 2 ]T  [ ]1  [ X 1  X 2 ] (n  1)[1 ]  (n2  1)[ 2 ]


T2  donde []  1
n1  n2 n1  n2  2

Distancia de Mahalanobis DM  [ X 1  X 2 ]T  []1  [ X 1  X 2 ]

(n1  n2  p  1)T 2
Dócima Fp ,n1 n 2 p 1  ( p (n1  n2  2))
209
XVI.- REGRESION MULTIPLE

y1 1 x1 1


y  1 x   
2  2  0  2
Expresión matricial de una regresión
   
.   .1  1 . 
  
y n 1 xn n
O, en términos más simples: [Y ]  [ X ]  []  []

Estimadores de los coeficientes de regresión ˆ ]  [ X T X ]1  [ X ]T [Y ]


[

Regresión múltiple Modelo [Y ]  [ X ]  []  [] .

Ecuaciones normales de la regresión: ˆ ]  [ X ]T  [Y ]


[ X T X ]  [

Coeficientes de regresión ˆ ]  [ X T X ]1  [ X ]T [Y ]


[

La tabla de ANOVA:

Fuente de Grados de Suma de Cuadrados Fp,n-p+1


variación libertad cuadrados medios
Modelo P ˆ
[][ X Y ]  n[Y ]
T
SC/gl 2
CMmod/CME
Error n-(p+1) [Y Y ]  [] [ X Y ] SC/gl=Syx2
T ˆ T T

Total n-1 [Y T Y ]  n[Y ]2


210

SC mod elo
R2 
SCT

Coeficiente de correlación múltiple rM  R2

Matriz inversa de correlación    1  [bij ]

 b jh  b jy
Correlaciones parciales rj .h  y en particular rj . y 
b jj  bhh b jj  byy

Bacward elimination En este procedimiento se realiza el siguiente algoritmo:

f) Se realiza una regresión incluyendo todas las variables predictoras,


g) Se calculan los F parciales para cada variable, designando como F L
al menor,
h) Si FL es menor que el F crítico para α prefijado, sacar la variable
correspondiente, y
i) Volver a a) con las variables que quedan hasta que F L sea mayor
que el crítico.

Forward selection El algoritmo es el siguiente:

a) Se realiza un estudio de correlación simple entre los predictores y


la variable dependiente,
b) Seleccionar la variable con mayor riy y ajustar el modelo, si su F
parcial es mayor que el crítico se incluye la variable,
c) Calcular los coeficientes de correlación parcial entre las variables
restantes e Y pero incluyendo a la variable ya seleccionada (ri.y/xi)
d) Ajustar el modelo, si F parcial mayor que el crítico, queda en el
modelo, y
e) Volver a b) hasta que la variable a incluir no alcance el F crítico.

Stepwise selection El procedimiento stepwise o paso a paso, tiene el mismo algoritmo


anterior, pero en cada paso pueden salir variables que ya hayan entrado que, con la
incorporación de nuevas variables desciendan su F parcial por debajo del crítico.

s  bi
Coeficiente de regresión parcial estandarizado o coeficiente de vía bsi  s
xi

y
211
bs1  r12 bs 2  r13bs 3  r1 y
bs1  r12 bs 2  r1 y
Descomposición de la correlación y r12 bs1  bs 2  r23bs 3  r2 y
r12 bs1  bs 2  r2 y
r13bs1  r23bs 2  bs 3  r3 y

Descomposición general  bsi  2 bsi bsj rij  ruy2  1


2

i j

1
Regresión logística múltiple, Modelo P( I  j )  ( j    i xi )
1 e i

Análisis de concordancia

(a  c)( a  b) (b  d )(c  d )

Certeza azarosa C  n n (a  c)( a  b)  (b  d )(c  d )
z 
n n2

C C
Concordancia   1  C
z


z
Prueba de Hipótesis C z (1  C z )
n

XVII.- ANALISIS DISCRIMINANTE

Discriminación D  B / W

Coeficientes de la función []  []1  [ X 1  X 2 ]  []1  [d ]

Distancia de Mahalanobis DM  [ X 1  X 2 ]T  []1  [ X 1  X 2 ]  [d ]T  []

pq
Prueba de Hipótesis  {n 1 }ln(1 j)
2
j i
i 2
XVIII.- ANALISIS DE COMPONENTES PRINCIPALES
212
[V [ ]]
Maximización de la varianza total  0  [  I ]  vk
v k

L os coeficientes buscados {vk} son los vectores propios asociados a cada valor propio
{λi} de la matriz de correlación entre las variables ([  ]). Además la traza de [  ] = ∑λi
= p, y entonces la proporción de la varianza que explica cada componente ψk es λk/p.

Factor score coefficients


1 / 1 . 0 
 
[F ]   0 . 0   [V ]T  [ Z ]  [ L]1 / 2  [V ]T  [ Z ]  [ Fs ]  [ Z ]
 0 0 1 /  p 

Factor loadings [ FL ]  VL1 / 2

Variables [ Z ]  [ FL ][ F ]

Comunalidad ∑FLk2

Especificidad 1- ∑FLk2

Dócima de Bartlet: H0:   0 vs H1:   0

1
  {( n  1) 
6
( 2 p  5)} ln  que se distribuye como χ2p(p+1)/2.

Dócima de componentes relevantes H0: residual  0 vs H1: residual  0

residual
1 2 C
  {( n  1)  ( 2 p  5)  q} ln C donde q p    j pq
6 3 
1
j (
pq
)

XIX.- CORRELACION CANONICA Y ANALISIS DE CORRESPONDENCIA

 [ A] [C ]
Matriz de Correlación   [C ]T [ B]
 

Problema de valores y vectores propios [( B 1C T A 1C  I )V ]  [O ]

Los valores propios obtenidos (λk) corresponden a Rk2, es decir representan la parte de la
determinación que le corresponde al par {U k,Vk} . Además los coeficientes {bi} de la
213
función V corresponden a los vectores propios de la ecuación característica y los
coeficientes {ai} de la función U están dados por: ai  [ A]1[C ]bi

Número de pares de funciones canónicas necesarias: H0:   0 vs H1:   0

1 r
 2k  {n  ( p  q  1)}  ln(1  i ) Este estadígrafo sigue a χ2(p-k)(q-k).
2 i 1 k

XX.- ANALISIS DE CONGLOMERADOS (CLUSTER)

Mean carácter difference MCD 


X
i 1
ij  X ik
n

Distancia de Manhattan DM   X ij  X ik
i 1

Distancia Euclidea o Taxonómica D  (X


i 1
ij  X ik )

ad
Apareamiento simple (simple matching): SM 
abcd

a
Coeficiente de Jaccard: J
abcd

ad
Coeficiente de Roger y Tanimoto: RT 
a  2b  2c  d

2a
Coeficiente de Dice: CD 
2a  b  c

2( a  d )
Coeficiente de Sokal y Sneath: SS 
2(a  d )  b  c

(a  d )  (b  c )
Coeficiente de Hamann: H
abcd
214
ANEXO II.- TABLAS SIMPLIFICADAS

A.- DISTRIBUCION NORMAL (N(0,1))

Área desde z a ∞; Valores críticos para 1 cola (°) (α = 0.05) y dos colas (°°) (α = 0.05)

Z Area
0 0.5000
0.1 0.4602
0.2 0.4207
0.3 0.3821
0.4 0.3446
0.5 0.3085
0.6 0.2743
0.7 0.2420
0.8 0.2119
0.9 0.1841
1.0 0.1587
1.1 0.1357
1.2 0.1151
1.3 0.0968
1.4 0.0808
1.5 0.0668
1.6 0.0548
1.64 (°) 0.0500
1.7 0.0446
1.8 0.0359
1.9 0.0287
1.96 (°°) 0.0250
2.0 0.0228
2.5 0.0062
3.0 0.0013
215
B.- DISTRIBUCION t DE STUDENT

Valores críticos para una (α = 0.05) y dos colas (α = 0.025)

Grados de libertad Α= 0.05 α = 0.025


5 2.01 2.57
6 1.94 2.45
7 1.90 2.36
8 1.86 2.31
9 1.83 2.26
10 1.81 2.23
15 1.75 2.13
20 1.72 2.09
25 1.71 2.06
30 1.70 2.04
∞ 1.64 1.96
216
C.- DISTRIBUCION χ2

Valores críticos para α = 0.05

Grados de libertad Valor crítico


1 3.84
2 5.99
3 7.81
4 9.49
5 11.1
6 12.6
7 14.1
8 15.5
9 16.9
10 18.3
11 19.7
12 21.0
13 22.4
14 23.7
15 25.0
16 26.3
17 27.6
18 28.9
19 30.1
20 31.4
25 37.7
30 43.8
217
D.- DISTRIBUCION F

Valores críticos para α = 0.05

Grados De Libertad Del Numerador


Gr. libertad 1 2 3 4 5 8 10 ∞
denominador
3 10.13 9.55 9.28 9.12 9.01 8.84 8.78 8.53
4 7.71 6.94 6.59 6.39 6.26 6.04 5.96 5.63
5 6.61 5.79 5.41 5.19 5.05 4.82 4.74 4.36
6 5.99 5.14 4.76 4.53 4.39 4.15 4.06 3.67
7 5.59 4.74 4.35 4.12 3.97 3.73 3.63 3.23
8 5.32 4.46 4.07 3.84 3.69 3.44 3.34 2.93
9 5.12 4.26 3.86 3.63 3.48 3.23 3.13 2.71
10 4.96 4.10 3.71 3.48 3.33 3.07 2.97 2.54
15 4.54 3.68 3.29 3.06 2.90 2.64 2.55 2.07
20 4.35 3.49 3.10 2.87 2.71 2.45 2.35 1.84
25 4.24 3.38 2.99 2.76 2.60 2.34 2.24 1.71
30 4.17 3.32 2.92 2.69 2.53 2.27 2.16 1.62
40 4.08 3.23 2.84 2.61 2.45 2.18 2.07 1.51
50 4.03 3.18 2.79 2.56 2.40 2.13 2.02 1.44
60 4.00 3.15 2.76 2.52 2.37 2.10 1.99 1.39
∞ 3.84 2.99 2.60 2.37 2.21 1.94 1.83 1.00

Observación: Si el número de grados de libertad del denominador es mayor que 3, lo que


es lo habitual, entonces cualquier valor calculado de F mayor que 10 permite rechazar
H0 para α = 0.05, sin necesidad de mirar ninguna tabla.
218
E.- DISTRIBUCION DEL RANGO “STUDENTIZADO”: Q

Valores críticos para α = 0.05 para diferentes números de tratamientos (t)

T
Gr. libertad 2 3 4 5 8 10
5 3.64 4.60 5.22 5.67 6.58 6.99
10 3.15 3.88 4.33 4.65 5.30 5.60
15 3.01 3.67 4.08 4.37 4.94 5.20
20 2.95 3.58 3.96 4.23 4.77 5.01
∞ 2.77 3.31 3.63 3.86 4.29 4.47
219
F.- DISTRIBUCION de WILCOXON (Rangos signados)

Valor crítico para α = 0.05, vs n

N Valor crítico
4 10
5 14
6 19
7 24
8 30
9 37
10 44
15 89
220
G.- DISTRIBUCION DE WILCOXON-MANN-WHITNEY (Suma de Rangos)

Valores críticos (α = 0.05) para diferentes valores de n1 y n2

n2=2 3 4 5 10
n1 = 3 10 15
4 12 17 24
5 13 20 27 36
6 15 23 30 40
7 16 24 33 43
8 18 27 36 47
9 20 29 39 50
10 22 32 42 54 127

También podría gustarte