Está en la página 1de 121

PROBABILIDAD

V.Abraira
Referencia bibliogrfica A.Prez de Vargas, V.Abraira. Bioestadstica. Centro de Estudios Ramn Areces. Madrid. 1996. Idea intuitiva Nmero, entre 0 y 1, asociado con la verosimilitud de que ocurra un suceso, 0 cuando estamos seguros que el suceso no va a ocurrir y 1 cuando estamos seguros que s va a ocurrir. El problema es cmo asignar ese nmero en situaciones de incertidumbre? a) A veces se estima por la frecuencia relativa. P.e. una manera de aproximarnos a la probabilidad de que una intervencin quirrgica arriesgada tenga xito es consultar el registro de las intervenciones quirrgicas realizadas sobre pacientes similares, si de las ltimas 10, ha sido un xito en 8, la frecuencia relativa es 8/10=0,8 se parecer a esa probabilidad. La frecuencia relativa cambia, en el ejemplo anterior si el registro, en lugar de 10 pacientes, tuviera 11, la frecuencia relativa sera necesariamente distinta (8/11 9/11), pero hay una ley emprica que establece que cuando el "nmero de ensayos" (pacientes, en el ejemplo) es suficientemente grande, la frecuencia relativa se estabiliza. A veces, se define la probabilidad como el lmite de la frecuencia relativa. Cmo saber, en cada caso, si el "nmero de ensayos" es suficientemente grande? Una parte de la estadstica tiene que ver con este problema.

La grfica muestra la evolucin de la frecuencia relativa del resultado "cara 1" en 4 series de 100 tiradas de un dado. Se observa que la frecuencia relativa oscila, que la amplitud de las oscilaciones va decreciendo a medida que aumenta el nmero de tiradas y que todas las series tienden a estabilizarse a la misma altura, tambin que 100 no es un nmero

"suficientemente grande" para que la frecuencia relativa ya est estabilizada (los valores finales de las 4 series varan entre 0,17 y 0,21). b) Hay situaciones en que se puede calcular: si todos los resultados del experimento son igualmente probables, entonces la probabilidad se define (definicin clsica o de Laplace) como el cociente entre el nmero de casos favorables y el nmero de casos totales.

La probabilidad de que el resultado de tirar un dado sea un uno, se calculara de esta forma. Comprese el resultado 1/6 obtenido as con la grfica anterior.

Formalizacin de la probabilidad
Convenios: Los textos en color malva corresponden a un mayor nivel de formalizacin y pueden ser omitidos en una primera lectura. Experimento Aleatorio: experimento que puede ser repetido bajo "las mismas condiciones", del que puede establecerse el conjunto de sus posibles resultados, pero no predecir un resultado concreto. Espacio muestral: conjunto de posibles resultados. Punto muestral: elemento del espacio muestral. Suceso: cualquier subconjunto del espacio muestral. Si representamos el espacio muestral por y a los sucesos por A: A . Dado que el conjunto vaco es subconjunto de cualquier conjunto ( ) y que todo conjunto es subconjunto de s mismo ( ) , tanto el conjunto vaco como el espacio muestral son sucesos. Si lo necesita Repaso del lgebra de conjuntos Un problema a tener en cuenta es que dado un experimento, podemos encontrar ms de un espacio muestral. Ejemplo 1: una mujer portadora de hemofilia tiene 3 hijos Cul es el espacio muestral apropiado para estudiar la posible hemofilia de estos? Opcin a: Cada hijo puede padecer hemofilia (s) o no (n), por tanto 1={sss, ssn, sns, nss, snn, nsn, nns, nnn} Donde, por ejemplo, 'sns' significa el primero y el tercero la padecen y el segundo no. Hay que asegurarse que no se olvida ninguno. En este espacio muestral, el suceso "dos hijos padecen hemofilia" se representa como A1={ssn, sns, nss} y el suceso "los dos primeros no la padecen" como A2={nns, nnn}

Opcin b: Pueden padecer hemofilia los tres hijos (3), dos (2), ... 2={3, 2, 1, 0} En este espacio muestral, el suceso "dos hijos padecen hemofilia" es A1={2} y el suceso "los dos primeros no la padecen" no se puede representar porque en el espacio muestral no est contemplado el orden.

REPASO DE ALGEBRA DE CONJUNTOS


V.Abraira Definiciones Dado un conjunto A={a, b, c, d}, la relacin de pertenencia se representa por a A. Se llama cardinal del conjunto, y se representa car(A), al nmero de elementos que contiene. Se llama conjunto vaco, y se representa por , al conjunto que no contiene ningn elemento. No desespere, estamos de acuerdo en que si no contiene ningn elemento, no es un conjunto, sin embargo su definicin como tal es muy til. Se llama universo o conjunto universal, y se suele representar por H, al conjunto formado por todos los elementos que se estn considerando. Dado un conjunto A, se llama complementario del mismo, y se representa por Ac, al conjunto formado por los elementos del universo que no son de A. Dos conjuntos son iguales si estn formados por los mismos elementos. Se dice que B es subconjunto de A, y se representa B A, si todos los elementos de B pertenecen a A. Se dice tambin que B est incluido en A. Dados dos conjuntos A y B, se llama unin de ambos, y se representa A B, al conjunto formado por los elementos que pertenecen a A o a B. Ejemplo 1: A={a, b, c, d} B={c, d, e, h} A B = {a, b, c, d, e, h} Ejemplo 2: C={personas obesas} D={personas hipertensas} C D = {personas obesas o hipertensas} Se llama interseccin y se representa A B, al conjunto formado por los elementos que pertenecen a A y a B. Ejemplo 3: para los conjuntos anteriores A B = {c, d} C D = {hipertensos y obesos}

Si dos conjuntos no tienen elementos comunes, se llaman disjuntos y su interseccin es el conjunto vaco. Si, para el ejemplo 2, en el universo que se est considerando no hay nadie que sea hipertenso y obeso C D = Al conjunto formado por todos los subconjuntos de un conjunto dado se le denomina conjunto de las partes del conjunto o lgebra y se representa por P(A) Ejemplo: A = {1, 2, 3} P(A) = { , {1}, {2}, {3}, {1,2}, {1,3}, {2,3}, {1,2,3}} Propiedades Propiedades de la inclusin i) A A ii) A iii) A B B A ; slo si A = B iv) A B y B D ==> A D Propiedades de la unin e interseccin

i) Identidad ii) Idempotencia iii) Commutatividad iv) Asociatividad v) Distributividad vi) Absorcin vii) Complementarida d

A =A AA=A AB=BA

A H = A AA=A AB=BA

(A B) D = A (B (A B) D = A (B D) D) (A B) D = (A D) (AB) D = (A D) (B D) (B D) A (A B) = A AA =H
c

A (A B) = A A Ac =

Nota: A todo conjunto en el que se hayan definido dos operaciones que tengan estas propiedades, se le denomina Algebra de Boole. Funcin de conjunto: toda regla que de un modo perfectamente determinado haga corresponder un nmero real a cada elemento del conjunto. Se representa por f: A el nmero x que le corresponde al elemento a, se representa por x=f(a) Se denomina imagen de la funcin al conjunto de nmeros que estn en correspondencia con algn elemento, a travs de la funcin.

im f = { x ; a A , f(a)=x

Definicin axiomtica de probabilidad


Convenios:
Los textos en color malva corresponden a un mayor nivel de formalizacin. Sea : espacio muestral, P( ) conjunto de las partes de , o conjunto de sucesos, o lgebra de sucesos. Se define probabilidad, o funcin de probabilidad, a cualquier funcin p: P( ) (es decir, una regla bien definida por la que se asigna a cada suceso un, y un solo un, nmero real) que cumpla los axiomas siguientes: i) p(A) 0 A P( ) ii) p(A1 A2 A3 ...) = p(A1) + p(A2) + p(A3) + ... si Ai Aj = i j (sucesos mutuamente excluyentes) iii) p( ) = 1 A la estructura ( , P( ), p) se le denomina espacio de probabilidad. Establecer claramente el espacio de probabilidad ser el primer paso imprescindible para estudiar una experiencia aleatoria. Muchas de las dificultades que surgen, en la prctica, en el anlisis estadstico de investigaciones clnicas tienen que ver con el establecimiento implcito y defectuoso de este espacio. Obsrvese que es necesario asignar un nmero a todos los sucesos, no slo a los sucesos elementales, pero si se ha asignado la probabilidad a los sucesos elementales, a travs de la propiedad ii) se puede asignar a todos los dems. Ejemplo 1: Para el experimento aleatorio de tirar un dado, el espacio muestral es = {1, 2, 3, 4, 5, 6}. En este espacio el conjunto de sucesos es P( ) = {, {1}, {2}, ... {1,2}, {1,3}, ...{1,2,3,4,5,6}}. Para establecer una probabilidad hay que asignar un nmero a todos esos sucesos. Sin embargo si se ha asignado a los sucesos elementales p({1})= p({2})= ...= p({6})= 1/6, por la propiedad ii), p.e. la probabilidad del suceso {1, 3} es p({1,3})= p({1})+ p({3})=2/6. Nota: El suceso {1} es: "el resultado de tirar el dado es la cara 1", el suceso {1, 3} es: "el resultado de tirar el dado es la cara 1, o la 3", el suceso {1, 3, 5} es: "el resultado de tirar el dado es una cara impar"

Propiedades de la probabilidad
Demostraciones

1) p(Ac) = 1 - p(A) Ac representa el suceso complementario de A, es decir el formado por todos los resultados que no estn en A. 2) A1 A2 p(A1) p(A2) 3) p() = 0 4) p(A) 1 5) p(A B) = p(A) + p(B) - p(A B) (Regla general de la adiccin)

Ejemplo 2: Un 15% de los pacientes atendidos en un hospital son hipertensos, un 10% son obesos y un 3% son hipertensos y obesos. Qu probabilidad hay de que elegido un paciente al azar sea obeso o hipertenso? A = {obeso} B = {hipertenso} A B = {hipertenso y obeso} A B = {obeso o hipertenso} p(A) = 0,10; p(B) = 0,15; p(A B) = 0,03 p(A B) = 0,10 + 0,15 - 0,03 = 0,22

Probabilidad condicionada
Como la probabilidad est ligada a nuestra ignorancia sobre los resultados de la experiencia, el hecho de que ocurra un suceso, puede cambiar la probabilidad de los dems. El proceso de realizar la historia clnica, explorar y realizar pruebas complementarias ilustra este principio. La probabilidad de que ocurra el suceso A si ha ocurrido el suceso B se denomina probabilidad condicionada y se define

Esta definicin es consistente, es decir cumple los axiomas de probabilidad. Cuando ocurre un suceso cambia el espacio muestral, por eso cambia la probabilidad. A veces es ms fcil calcular la probabilidad condicionada teniendo en cuenta este cambio de espacio muestral. Ejemplo 3: Una mujer es portadora de la enfermedad de Duchenne Cul es la probabilidad de que su prximo hijo tenga la enfermedad?

Segn las leyes de Mendel, todos los posibles genotipos de un hijo de una madre portadora (xX) y un padre normal (XY) son xX, xY, XX, XY y tienen la misma probabilidad. El espacio muestral es = {xX, xY, XX, XY} el suceso A={hijo enfermo} corresponde al genotipo xY, por tanto, segn la definicin clsica de probabilidad p(A) = 1/4 = 0,25 La mujer tiene el hijo y es varn qu probabilidad hay de que tenga la enfermedad? Se define el suceso B = {ser varn} = {xY, XY} la probabilidad pedida es p(A|B) y aplicando la definicin anterior p(B) = 0,5; A B = {xY}; p(A B) = 0,25; p(A|B) = 0,25/0,5 = 0,5

Si sabemos que es varn, el espacio muestral ha cambiado, ahora es B. Por lo tanto


se puede calcular p(A|B) aplicando la definicin clsica de probabilidad al nuevo espacio muestral p(A|B) = 1/2 = 0,5 Ejemplo 4: Se sabe que el 50% de la poblacin fuma y que el 10% fuma y es hipertensa. Cul es la probabilidad de que un fumador sea hipertenso? A = {ser hipertenso} B = {ser fumador} A B = {ser hipertenso y fumador} p(A|B) = 0,10/0,50 = 0,20 Obsrvese que los coeficientes falso-positivo y falso-negativo de las pruebas diagnsticas son probabilidades condicionadas. La frmula anterior se puede poner p(A B) = p(B) p(A|B) = p(A) p(B|A) llamada regla de la multiplicacin, que se puede generalizar a ms sucesos p(A1 A2 A3) = p((A1 A2) A3) = p(A1 A2) p(A3|A1 A2) = p(A1) p(A2|A1) p(A3|A1 A2) En general p(A1 A2 A3 ...) = p(A1) p(A2|A1) p(A3|A1 A2) ... llamado principio de las probabilidades compuestas y especialmente til para aquellas situaciones en que las probabilidades condicionadas son ms fciles de obtener que las probabilidades de las intersecciones. Ejemplo 5: Se sabe por estudios previos que el 0,1% de la poblacin tiene problemas vasculares. Un estudio sobre individuos con problemas vasculares revela que el 20% de ellos son placas de ateroma. Si el 10% de los individuos con placas de ateroma estn expuestos a muerte sbita por desprendimiento de trombos qu probabilidad tiene un individuo cualquiera de estar expuesto a muerte sbita por desprendimiento de trombos de una placa de ateroma? A1 = {problemas vasculares}; A2 = {placas de ateroma}; A3 = {expuesto a muerte sbita por ....} p(A1) = 0,001; p(A2|A1) = 0,20; p(A3|A1 A2) = 0,1 p(A1 A2 A3) = 0,001 x 0,20 x 0,1 = 0,000002

Ejemplo 6: Una urna contiene 10 bolas, de las cuales 3 son rojas, 5 verdes y 2 azules. Se extraen al azar 3 bolas. Calcular la probabilidad de que la primera sea azul, y las otras dos verdes. Definimos A1 = {la 1 bola es azul}; A2 = {la 2 bola es verde}; A3 = {la 3 bola es verde} p(A1) = 2/10 aplicando la definicin clsica de probabilidad, puesto que hay 10 bolas y 2 son verdes. p(A2|A1) = 5/9; si la primera bola extrada es azul, en la urna quedan 9 bolas, 5 de ellas verdes. p(A3|A1 A2) = 4/8; si la primera bola extrada es azul y la segunda verde en la urna quedan 8 bolas, 4 de ellas verdes. p(A1 A2 A3) = 2/10 x 5/9 x 4/8 = 1/18

Sucesos independientes
Dos sucesos son independientes si y slo si p(A B) = p(A) p(B). Si dos sucesos son independientes

y del mismo modo p(B|A) = p(B). Esta propiedad coincide ms con la idea intuitiva de independencia y algunos textos la dan como definicin. Hay que notar, sin embargo, que ambas definiciones no son estrictamente equivalentes.

Ejemplo 7: Para un hijo de una mujer portadora de Duchenne, el sexo y la enfermedad son independientes? Segn vimos en el Ejemplo 3 el espacio muestral es = {xX, xY, XX, XY} Definimos los sucesos A = {varn} = {xY, XY}; B = {enfermo} = {xY} A B = {xY} por lo tanto p(A) = 0,5; p(B) = 0,25; p(A B) = 0,25 p(A) p(B) NO son independientes.

Regla de la probabilidad total


Se llama particin a conjunto de sucesos Ai tales que A1 A2 ... An = y Ai Aj = i j es decir un conjunto de sucesos mutuamente excluyentes y que cubren todo el espacio muestral

Regla de la probabilidad total: Si un conjunto de sucesos Ai forman una particin del espacio muestral y p(Ai) 0 Ai, para cualquier otro suceso B se cumple

Demostracin Ejemplo 8: La prevalencia de infarto cardaco para hipertensos es del 0,3% y para no hipertensos del 0,1%. Si la prevalencia de hipertensin en una cierta poblacin es del 25% Cul es la prevalencia del infarto en esa poblacin? A1 = {ser hipertenso} A2 = {no serlo} estos sucesos constituyen una particin B = {padecer infarto} datos: p(B|A1) = 0,003; p(B|A2) = 0,001; p(A1) = 0,25 evidentemente p(A2) =0,75 por la propiedad 1 p(B) = 0,003x0,25 + 0,001 x 0,75 = 0,0015

Teorema de Bayes
Si los sucesos Ai son una particin y B un suceso tal que p(B) 0

Demostracin Aplicaciones Diagnstico mdico (en general clasificaciones no biunvocas): El diagnstico consiste en establecer la enfermedad de un paciente, a partir de una serie de sntomas. Pero los sntomas y las enfermedades no estn ligados de un modo biunvoco. Llamemos Ei al conjunto de enfermedades E1: tuberculosis pulmonar; E2 :cncer de pulmn; E3: bronquitis obstructiva; etc. y Si a los sntomas y sndromes asociados con las mismas. S1: tos; S2: estado febril; S3: hemotisis; etc. La informacin accesible en los libros de patologa, o en un archivo de historias clnicas es del tipo. Para E1: algunos (digamos el 20%) tienen hemotisis; muchos (80%) tienen tos; etc. y lo mismo para las dems enfermedades. En trminos de probabilidad condicionada, esta informacin es p(S3|E1) = 0,2; p(S1|E1) = 0,8 etc. para diagnosticar la tuberculosis se ha de evaluar, para los sntomas que presenta el paciente p(E1|Si) para lo que se puede usar el teorema de Bayes si las enfermedades forman una particin (son mutuamente excluyentes y se consideran todas las enfermedades compatibles con el sntoma) y se conocen sus prevalencias. Ntese que un mismo conjunto de sntomas podra dar lugar a un diagnstico diferente en poblaciones en las que las prevalencias fueran diferentes. Pruebas diagnsticas: Supngase una prueba diagnstica, por ejemplo nivel de glucosa en sangre, en ayunas, para diagnosticar la diabetes. Se considera que la prueba es positiva si se encuentra un nivel por encima de un cierto valor, digamos 120 mg/l. Para evaluar la prueba, (habr que hacerlo para distintos valores de corte) se somete a la misma a una serie de individuos diabticos diagnosticados por otro procedimiento (el patrn de oro o "gold standar") y a una serie de individuos no diabticos. Los resultados se pueden representar en una tabla de doble entrada Patrn de oro NE Prueba + a c t E b d u r s

Si la prueba fuera perfecta b=c=0, desgraciadamente nunca ocurre. Se denomina coeficiente falso-positivo (CFP) al cociente c/t, y es una estimacin de la probabilidad condicionada p(+|NE), se denomina coeficiente falso-negativo (CFN) al cociente b/u, y es una estimacin de la probabilidad condicionada p(-|E). Estos dos coeficientes cuantifican los dos errores que la prueba puede cometer y caracterizan

a la misma. Simtricamente, los coeficientes que cuantifican los aciertos son la sensibilidad, p(+|E), y la especificidad p(-|NE). Cuando la prueba se usa con fines diagnsticos (o de "screening") interesa calcular p(E|+) y/o p(NE|-). Como E y NE son una particin, usando el Teorema de Bayes

Ntese que ambas dependen de la prevalencia de la enfermedad: una prueba diagnstica que funciona muy bien en la clnica Mayo, puede ser intil en el Hospital Ramn y Cajal. Ejemplo 9: una prueba diagnstica para la diabetes tiene un CFP de 4% y un CFN del 5%. Si la prevalencia de la diabetes en la poblacin donde se usa es del 7% cul es la probabilidad de que sea diabtico un individuo en el que la prueba d positiva? y de que no lo sea uno en el que d negativo? p(+|NE) = 0,04 p(-|NE) = 0,96 p(-|E) = 0,05 p(+|E) = 0,95 p(E) = 0,07 p(NE) = 0,93

Pruebas en serie: Cuando se aplican pruebas en serie, para cada prueba p(E) y p(NE), sern la p(E|+) y p(NE|+) de la prueba anterior (si dio positiva) o p(E|-) y p(NE|-) si dio negativa.

Problemas de probabilidad resueltos:


1 Una mujer es hija de una portadora de la enfermedad de Duchenne. Dicha mujer tiene tres hijos varones sin la enfermedad. Calcular la probabilidad de que ella sea portadora de la enfermedad. Solucin

Si representamos por x el gen alterado y por X el gen normal, el espacio muestral para el nacimiento de la mujer ={xX, XX}, cada suceso elemental con la misma probabilidad (1 ley de Mendel). Por tanto, si A = {xX} = {la mujer es portadora}, segn la definicin clsica de probabilidad p(A) = 1/2. Si la mujer fuera portadora, los posibles genotipos para sus hijos son xX, xY, XX, XY, todos con la misma probabilidad. El espacio muestral para el nacimiento de un hijo varn es ={xY, XY}, por tanto la probabilidad de que un hijo varn no tenga la enfermedad es 1/2 (tambin segn la definicin clsica). Cmo los genotipos de los sucesivos hijos son independientes (2 ley de Mendel), y de acuerdo a la definicin de independencia, la probabilidad de que los 3 hijos varones no tengan la enfermedad es (1/2)x(1/2)x(1/2) = 1/8. Obviamente si la mujer no fuera portadora, la probabilidad de que los 3 hijos varones no tengan la enfermedad es 1. Como el suceso A = {la mujer es portadora} y su complementario Ac = {la mujer no es portadora} forman una particin, se puede aplicar el teorema de Bayes en relacin con el suceso B = {los 3 hijos varones no tienen la enfermedad}

2 Una prueba diagnstica para el cncer uterino tiene un coeficiente falso-positivo de 0,05 y falso-negativo de 0,10. Una mujer con una probabilidad pre-prueba de padecer la enfermedad de 0,15 tiene un resultado negativo con la misma. Calcular la probabilidad de que no est enferma. Sea NE = {la mujer no est enferma}, + = {el resultado de la prueba es positivo} y - = {el resultado de la prueba es negativo}. La pregunta pide p(NE|-). Los datos que se dan son p(+|NE)=0,05; p(-|E)=0,10 y p(E)=0,15. Del primero se deduce que p(-|NE)=0,95 y del ltimo p(NE)=0,85, por lo tanto aplicando el teorema de Bayes

ESTADSTICA
V.Abraira
Referencia bibliogrfica A.Prez de Vargas, V.Abraira. Bioestadstica. Centro de Estudios Ramn Areces. Madrid. 1996. Definiciones Conjunto de mtodos cientficos ligados a la toma, organizacin, recopilacin, presentacin y anlisis de datos, tanto para la deduccin de conclusiones como para tomar decisiones razonables de acuerdo con tales anlisis. Arte de la decisin en presencia de incertidumbre.

Ciencia que sirve para demostrar que dos personas han comido 1/2 pollo cada una, cuando en realidad una ha comido uno y la otra ninguno. Por qu la estadstica? Usaron la estadstica Galileo, Newton y Einstein? En ciertas ciencias (Biologa, Ciencias Humanas, algunos campos de la Fsica, ...) aparece el concepto de experimento aleatorio (experimento que repetido en las "mismas condiciones" no produce el mismo resultado) y asociado al mismo el de variable aleatoria. Una variable no aleatoria (asociada al resultado de una experiencia que s produce el mismo resultado) est caracterizada por un valor para cada condicin. Una variable aleatoria est caracterizada por la llamada funcin densidad de probabilidad, a partir de la cual se obtienen las probabilidades para sus posibles valores para cada condicin. Los objetivos de la investigacin cientfica se pueden entender, de un modo muy general, en trminos de encontrar y describir las variables de inters y las relaciones entre ellas, para el problema en estudio. La estadstica es la ciencia que estudia los mtodos que permiten realizar este proceso para variables aleatorias. Estos mtodos permiten resumir datos y acotar el papel de la casualidad (azar). Se divide en dos reas: Estadstica descriptiva: Trata de describir las variables aleatorias en las "muestras". Estadstica inductiva o inferencial: Trata de la generalizacin hacia las poblaciones de los resultados obtenidos en las muestras y de las condiciones bajo las cuales estas conclusiones son vlidas. Se enfrenta bsicamente con dos tipos de problemas: Estimacin, que puede ser puntual o por intervalos. Contraste de hiptesis.

ESTADISTICA DESCRIPTIVA La descripcin completa de una variable aleatoria est dada por su funcin densidad de probabilidad (fdp). Afortunadamente una gran cantidad de variables de muy diversos campos estn adecuadamente descritas por unas pocas familias de fdps: binomial, Poisson, normal, gamma, etc. Dentro de cada familia, cada fdp est caracterizada por unos pocos parmetros, tpicamente dos: media y varianza.

Por tanto la descripcin de una variable indicar la familia a que pertenece la fdp y los parmetros correspondientes. Ejemplo: (hipottico) la concentracin de glucosa en sangre en individuos no diabticos, medida en mg/dl, es normal con media 98 y varianza 90. El problema es cmo averiguar la fdp de una variable de inters? La familia, generalmente, se sabe por resultados de la teora de la probabilidad, aunque, en cada caso, conviene verificarlo. Para conocer los parmetros se deberan conocer los resultados de todos los posibles experimentos (poblacin: conjunto de todos los valores de una variable aleatoria). Generalmente la poblacin es inaccesible, bien es infinita, o aunque finita suficientemente grande para ser inabordable. En consecuencia, se estudian muestras (subconjuntos de la poblacin) que, en caso de ser aleatorias, permiten realizar estimaciones tanto de la familia como de los parmetros de las fdps. Muestra aleatoria: muestra elegida independientemente de todas las dems, con la misma probabilidad que cualquier otra y cuyos elementos estn elegidos independientemente unos de otros y con la misma probabilidad. Mtodos grficos de representacin de muestras: El mtodo grfico ms frecuente es el histograma, que puede adoptar distintas formas. Vanse algunos ejemplos. Advertencias: 1 Estos diagramas tienen un fin descriptivo: deben ser fciles de leer. 2 El convenio es que la frecuencia sea proporcional al rea (es proporcional a la altura slo si las barras tienen la misma anchura). 3 Para fines comparativos es mejor usar frecuencias relativas. 4 El nmero de clases (barras), cuando la variable no es cualitativa, no debe ser ni muy grande ni muy pequeo. Generalmente se recomiendan entre 5 y 20 clases de igual tamao. Otro criterio es usar la raz cuadrada del nmero de datos. 5 Los lmites de las clases no deben ser ambiguos, p.e. no deben coincidir con valores posibles de los datos (una cifra decimal ms).

MEDIDAS DESCRIPTIVAS
Medidas de posicin o tendencia
Media muestral: Si tenemos X1, X2, ... , Xn datos, se llama media muestral de los mismos a su media aritmtica

Moda muestral: El valor que ms se repite (puede no existir y si existe puede no ser nica). Mediana muestral: Ordenando los Xi, el valor que est en el medio

Ejemplo: Sean los datos 3, 5, 7, 7, 8, 9 = 39/6 = 6,5; = 7; moda = 7

Medidas de dispersin
Rango: Si Xi estn ordenados Xn - X1 Varianza:

aunque para el clculo se suele usar otra frmula ms cmoda

Desviacin tpica o estndar:

Ojo!! no confundir con error tpico o estndar Coeficiente de variacin:

Variable aleatoria
Una funcin que asocia un nmero real, perfectamente definido, a cada punto muestral. A veces las variables aleatorias (v.a.) estn ya implcitas en los puntos muestrales. Ejemplo 1: Experiencia consistente en medir la presin sistlica de 100 individuos. Un punto muestral (resultado de un experimento) es ya un nmero (presin sistlica). La v.a. est implcita. Ejemplo 2: En el ejemplo de la mujer portadora de hemofilia.

= {sss, ssn, sns, snn, nss, nsn, nns, nnn} Se podra definir una variable que asignara a cada punto muestral el nmero de orden en el espacio muestral. X: sss 1; ssn 2; sns 3;... 3; ssn

Pero otra posible v.a.: a cada punto muestral el nmero de s. X: sss 2; ... Los conjuntos pueden ser: discretos: nmero finito o infinito numerable de elementos. continuos: nmero infinito no numerable de elementos.

Las v.a. definidas sobre espacios muestrales discretos se llaman v.a. discretas y las definidas sobre espacios muestrales continuos se llaman continuas. Una v.a. puede ser continua, aunque nosotros slo podamos acceder a un subconjunto finito de valores. P.e. la presin arterial es una v.a. continua pero slo podemos acceder a un conjunto finito de valores por la limitacin de los aparatos de medida. En general, las medidas dan lugar a v.a. continuas y los conteos a v.a. discretas. Induccin de la probabilidad a variables aleatorias Las v.a permiten definir la probabilidad como una funcin numrica (de variable real) en lugar de como una funcin de conjunto como se haba definido antes Ejemplo 3: Tiramos una moneda 3 veces. Representamos cara por c y cruz por z. = {ccc, ccz, czc, zcc, czz, zcz, zzc, zzz} La probabilidad de cada suceso elemental es 1/8. Por ejemplo p(ccc)=1/8, ya que la probabilidad de sacar cara en una tirada es 1/2 segn la definicin clsica y las tiradas son independientes. Definimos la v.a. X: nmero de caras, que puede tomar los valores {0, 1, 2, 3}. Se buscan todos los puntos muestrales que dan lugar a cada valor de la variable y a ese valor se le asigna la probabilidad del suceso correspondiente. x 0 1 2 3 Sucesos {zzz} {czz, zcz, zzc} {ccz, czc, zcc} {ccc} px 1/8 3/8 3/8 1/8

A esta funcin se le denomina funcin densidad de probabilidad (fdp), que desgraciadamente "funciona" de distinta manera en las variables discreta que en las continuas. En el caso de las variables discretas, como en el ejemplo, es una funcin que para cada valor de la variable da su probabilidad. Ejemplo 4: Supongamos la variable tipo histolgico de un tumor, con los valores 1, 2, 3, 4. Si la fdp fuera x 1 2 3 4 f(x) 0,22 0,27 0,30 0,21

significara que la probabilidad del tipo 2 es 0,27, etc. Para variables continuas la probabilidad de que una variable tome cualquier valor concreto es 0, por lo tanto la fdp slo permite calcular la probabilidad para un intervalo del tipo (a<X<b), mediante el rea bajo la curva de la fdp.

Para las variables aleatorias de inters hay tablas, y programas de ordenador, donde buscar esos valores. Distribucin acumulativa o funcin de distribucin F(x) = p(X x) Para el ejemplo 3 x 0 f(x) 1/8 F(x) 1/8

1 2 3

3/8 3/8 1/8

4/8 7/8 8/8

y para el ejemplo 4 x 1 2 3 4 f(x) 0,22 0,27 0,30 0,21 F(x) 0,22 0,49 0,79 1

Parmetros caractersticos de una fdp Valor esperado o esperanza matemtica o media

si X es una v.a. cualquier funcin de ella, h(x), es tambin una v.a., en consecuencia tambin se define este parmetro para una funcin de v.a.

Ejemplo 5: Se tira un dado. Se define como v.a. el nmero que sale Cul es su media? La variable X puede tomar los valores 1, 2, ..., 6 y para todos ellos f(x) = 1/6. En consecuencia la media es

Observese que es un nmero que la v.a. no puede alcanzar. Qu significa? No mucho. Se define ahora una funcin sobre X: el premio: si sale 1 2 se gana 100 ptas, si sale 3 se gana 500 y si sale 4, 5 6 no se gana nada

X 1 2 3 4 5 6

h(x) 100 100 500 0 0 0

Cul es el valor medio de esta funcin?

qu significa? es el valor medio a la larga: si se juega un nmero grande de veces la ganancia final es como si en cada jugada se hubiera ganado 116,6 pts. Si la apuesta costara menos de eso el juego sera ventajoso para el jugador (as se enriqueci Voltaire), si costara ms, para la banca. (llamar a sto honestidad del juego le cost el puesto de ministro a Laplace). Varianza: Se define como:

aunque para el clculo se suele usar esta otra frmula equivalente:

Qu mide la varianza? Mide la dispersin de la variable alrededor de la media. Otras lecturas recomendadas Variables and parameters. Altman & Bland. BMJ 1999; 318:1667.

Problemas de estadstica resueltos (1 parte):


1 Un juego consiste en tirar dos dados. Si la suma de sus caras es mayor o igual a 10 se ganan 300 pts, si est comprendida entre 7 y 9 se ganan 100 pts. y para cualquier otro resultado no se gana nada. Cul debera ser el precio de la apuesta para que la ganancia esperada de la banca sea de 50 pts? Solucin

El espacio muestral para el problema es = {(1,1), (1,2), (1,3), ..., (6,6)} con 36 puntos muestrales. Todos los sucesos elementales tiene la misma probabilidad 1/36. Se define la v.a. X: suma de las dos caras. Esta variable puede tomar los valores 2, 3, 4, ....,12. La tabla con la fdp inducida es x 2 3 4 5 6 7 8 9 10 11 12 {(1,1)} {(1,2), (2,1)} {(1,3), (2,2), (3,1)} {(1,4), (2,3), (3,2), (4,1)} {(1,5), (2,4), (3,3), (4,2), (5,1)} {(1,6), (2,5), (3,4), (4,3), (5,2), (6,1)} {(2,6), (3,5), (4,4), (5,3), (6,2)} {(3,6), (4,5), (5,4), (6,3)} {(4,6), (5,5), (6,4)} {(5,6), (6,5)} {(6,6)} Sucesos f(x) 1/36 2/36 3/36 4/36 5/36 6/36 5/36 4/36 3/36 2/36 1/36

La tabla de la funcin premio es x 2 3 4 5 6 7 8 9 10 11 12 h(x) 0 0 0 0 0 100 100 100 300 300 300

Por lo tanto el valor esperado del premio es

en consecuencia, la apuesta debera costar 91,7 + 50 = 141,7 para que la ganancia esperada de la banca sea 50 ptas. 2 La siguiente tabla muestra la fdp para la variable X: nmero de personas por da que solicitan un tratamiento innecesario en el servicio de urgencias de un pequeo hospital. x f(x) 0 0,01 1 0,1 2 0,3 3 0,4 4 0,1 5 ?

a. Encontrar f(5) b. Construir F(x) c. Encontrar p(X 2) d. Encontrar p(X<2) e. Encontrar p(X>3) f. Calcular la media y la varianza Solucin a. Por la construccin de las fdps es obvio que

. Para que se cumpla esta condicin es necesario que f(5)=0,09 b. x f(x) F(x) 0 0,01 0,01 1 0,1 0,11 2 0,3 0,41 3 0,4 0,81 4 0,1 0,91 5 0,09 1

c. p(X 2) = F(2) = 0,41 d. p(X<2) = p(X 1) = F(1)=0,11 e. p(X>3) = 1 - p( 3) = 1- F(3) = 1 - 0,81 = 0,19 f.

3 Se desarrolla un compuesto para aliviar las migraas. El fabricante afirma que es efectivo en un 90% de los casos. Se prueba sobre 4 pacientes. Sea X el nmero de pacientes que obtiene alivio. a. Encontrar la fdp para X, suponiendo que la afirmacin del fabricante sea correcta. b. Encontrar p(X 1) c. Si el compuesto no alivia a ninguno de los pacientes es esa una razn para poner en duda la eficacia afirmada por el fabricante? Razonar sobre la base de la probabilidad implicada. d. Calcular la media. Qu significa en este ejemplo? Solucin a. Representando por a que un paciente tenga alivio y por n que no lo tenga, el espacio muestral para el problema es = {aaaa, naaa, anaa, aana, aaan, ..., nnnn}, Si es cierta la afirmacin del fabricante p(a)=0,9 y p(n)=0,1 La v.a. X: nmero de pacientes que tienen alivio puede tomar los valores 0, 1, 2, 3, 4. La tabla con la fdp inducida es x 0 1 2 3 4 {nnnn} {annn, nann, nnan, nnna} {aann, anan, anna, naan, nana, nnaa } {aaan, aana, anaa, naaa} {aaaa} Sucesos f(x) 0,14 4x0,9x0,13 6x0,92x0,12 4x0,93x0,1 0,94

b. p(X 1) = f(0) + f(1) = 0,14 + 4x0,9x0,13 = 0,0037 c. La probabilidad de que no alivie a ningn paciente es f(0)=0,0001. Es una probabilidad tan baja que, efectivamente, si ese fuera el resultado hay suficientes razones para poner en duda la afirmacin de que alivia al 90% de los pacientes. d.

Si se repitiera un nmero suficientemente grande de veces la experiencia de administrar el frmaco a 4 pacientes, el nmero promedio de pacientes que experimentaran alivio sera 3,6. 4 Sea X el tiempo de supervivencia en aos despus de un diagnstico de leucemia aguda. La fdp para X es f(x) = -x/2 + 1, para 0 < x < 2. a. Comprobar que es una fdp. b. Hallar p(X>1) c. Hallar p(X=1) d. Hallar p(X 1) Ayuda: hacerlo todo grficamente e. Calcular la media y la varianza (Slo para iniciados). Solucin

a. La grfica de la fdp es La condicin equivalente a

para variables continuas es que el rea bajo la fdp sea 1. De modo general ese rea se calcula mediante clculo integral, pero en este caso se puede calcular por la conocida frmula del rea de un tringulo A = (bxh)/2, es decir A = (2x1)/2=1

b. Grficamente, la probabilidad pedida es el rea coloreada de verde, por lo tanto se puede calcular tambin con la frmula del rea del tringulo. Ahora b=1 y para calcular h hay que ver que valor toma la fdp cuando x=1, y = -1/2 + 1 = 1/2. Por lo tanto, la probabilidad es (1x1/2)/2 = 1/4

c. Como en toda variable continua la probabilidad de que tome un valor concreto es 0, por lo tanto p(X=1) = 0 d. Obviamente p(X 1) = p(X >1) = 1/4 e. Media

varianza

Estadstica inferencial

Los dos tipos de problemas que resuelven las tcnicas estadsticas son: estimacin y contraste de hiptesis. En ambos casos se trata de generalizar la informacin obtenida en una muestra a una poblacin. Estas tcnicas exigen que la muestra sea aleatoria. En la prctica rara vez se dispone de muestras aleatorias, por la tanto la situacin habitual es la que se esquematiza en la figura

Entre la muestra con la que se trabaja y la poblacin de inters, o poblacin diana, aparece la denominada poblacin de muestreo: poblacin (la mayor parte de las veces no definida con precisin) de la cual nuestra muestra es una muestra aleatoria. En consecuencia la generalizacin est amenazada por dos posibles tipos de errores: error aleatorio que es el que las tcnicas estadsticas permiten cuantificar y crticamente dependiente del tamao muestral, pero tambin de la variabilidad de la variable a estudiar y el error sistemtico que tiene que ver con la diferencia entre la poblacin de muestreo y la poblacin diana y que slo puede ser controlado por el diseo del estudio. Tamao muestral El tamao muestral juega el mismo papel en estadstica que el aumento de la lente en microscopa: si no se ve una bacteria al microscopio, puede ocurrir que: - la preparacin no la contenga - el aumento de la lente sea insuficiente. Para decidir el aumento adecuado hay que tener una idea del tamao del objeto. Del mismo modo, para decidir el tamao muestral: i) en un problema de estimacin hay que tener una idea de la magnitud a estimar y del error aceptable. ii) en un contraste de hiptesis hay que saber el tamao del efecto que se quiere ver.

Estimacin de parmetros
En general, de las variables experimentales u observacionales no conocemos la fpd. Podemos conocer la familia (normal, binomial,...) pero no los parmetros. Para

calcularlos necesitaramos tener todos los posibles valores de la variable, lo que no suele ser posible. La inferencia estadstica trata de cmo obtener informacin (inferir) sobre los parmetros a partir de subconjuntos de valores (muestras) de la variable. Estadstico: variable aleatoria que slo depende de la muestra aleatoria elegida para calcularla. Estimacin: Proceso por el que se trata de averiguar un parmetro de la poblacin representado, en general, por a partir del valor de un estadstico llamado estimador y representado por El problema se resuelve en base al conocimiento de la "distribucin muestral" del estadstico que se use. Qu es esto? Concretemos, p.e. en la media ( ) . Si para cada muestra posible calculamos la media muestral ( ) obtenemos un valor distinto ( es un estadstico: es una variable aleatoria y slo depende de la muestra), habr por tanto una fpd para , llamada distribucin muestral de medias. La desviacin tpica de esta distribucin se denomina error tpico de la media. Evidentemente, habr una distribucin muestral para cada estadstico, no slo para la media, y en consecuencia un error tpico para cada estadstico. Si la distribucin muestral de un estadstico estuviera relacionada con algn parmetro de inters, ese estadstico podra ser un estimador del parmetro.

Distribucin muestral de medias


Si tenemos una muestra aleatoria de una poblacin N( , ), se sabe (Teorema del lmite central) que la fdp de la media muestral es tambin normal con media y varianza 2/n. Esto es exacto para poblaciones normales y aproximado (buena aproximacin con n>30) para poblaciones cualesquiera. Es decir tpico, o error estndar de la media. es el error

Cmo usamos esto en nuestro problema de estimacin? 1 problema: No hay tablas para cualquier normal, slo para la normal =0 y =1 (la llamada z); pero haciendo la transformacin (llamada tipificacin)

una normal de media y desviacin se transforma en una z. Llamando z al valor de una variable normal tipificada que deja a su derecha un rea bajo la curva de , es decir, que la probabilidad que la variable sea mayor que ese valor es (estos son los valores que ofrece la tabla de la normal)

podremos construir intervalos de la forma

para los que la probabilidad es 1 -.

Teniendo en cuenta la simetra de la normal y manipulando algebracamente

que tambin se puede escribir

o, haciendo nfasis en que

es el error estndar de la media,

Recurdese que la probabilidad de que est en este intervalo es 1 - . A un intervalo de este tipo se le denomina intervalo de confianza con un nivel de confianza del 100(1 - )%, o nivel de significacin de 100 %. El nivel de confianza habitual es el 95%, en cuyo caso =0,05 y z denomina estimacin puntual y se dice que
/2

=1,96. Al valor

se le

es un estimador de .

Ejemplo: Si de una poblacin normal con varianza 4 se extrae una muestra aleatoria de tamao 20 en la que se calcula se puede decir que tiene una probabilidad de 0,95 de estar comprendida en el intervalo

que sera el intervalo de confianza al 95% para En general esto es poco til, en los casos en que no se conoce tampoco suele conocerse 2; en el caso ms realista de 2 desconocida los intervalos de confianza se construyen con la t de Student (otra fdp continua para la que hay tablas) en lugar de la z.

o, haciendo nfasis en que

es el error estndar estimado de la media,

Este manera de construir los intervalos de confianza slo es vlido si la variable es normal. Cuando n es grande (>30) se puede sustituir t por z sin mucho error. Otras lecturas recomendadas Interpreting study results: confidence intervals. Guyatt et al. CMAJ. 152:169-173. 1995

Estimacin de proporciones
Sea X una variable binomial de parmetros n y p (una variable binomial es el nmero de xitos en n ensayos; en cada ensayo la probabilidad de xito (p) es la misma, por ejemplo: nmero de diabticos en 2000 personas). Si n es grande y p no est prximo a 0 1 (np 5) X es aproximadamente normal con media np y varianza npq (siendo q = 1 - p) y se puede usar el estadstico (proporcin muestral), que es tambin aproximadamente normal, con error

tpico dado por en consecuencia, un IC para p al 100(1 - )% ser

es decir, la misma estructura que antes: Obsrvese que para construirlo, se necesita conocer p!. Si n es grande (>30) se pueden substituir p y q por sus estimadores sin mucho error, en cualquier caso como pq 0,25 si se substituye pq por 0,25 se obtiene un intervalo ms conservador (ms grande). Ejemplo: En una muestra de 100 pacientes sometidos a un cierto tratamiento se obtienen 80 curaciones. Calcular el intervalo de confianza al 95% de la eficacia del tratamiento.

Qu significa este intervalo? La verdadera proporcin de curaciones est comprendida entre, aproximadamente, 72% y 88% con un 95% de probabilidad. Es suficientemente preciso? Habr que juzgarlo con criterios clnicos. 1 En una muestra aleatoria de 90 pacientes se mide el nivel de glucosa en sangre en ayunas. Se obtiene = 132 mg/dl y s2=109. Construir el IC al 95% para Qu asuncin se ha hecho? Solucin Usando la frmula general para cuando
2

es desconocida

podemos, o bien mirar a las tablas de la t (o en un programa de ordenador) el valor de t0,025 que para 89 grados de libertad (los grados de libertad son n - 1) es 1,99, o bien como n > 30 aproximar a la z y usar el valor 1,96.

Para poder usar esta frmula es necesario que la variable sea normal. es abusiva esta asuncin? Ver, por ejemplo The normal distribution. Altman & Bland. BMJ 1995; 310:298. 2 Para evaluar una vacuna para la gripe se selecciona un grupo de 200 individuos de riesgo. Se eligen aleatoriamente a 100 de ellos y se les suministra la vacuna; de ellos 10 pasan la gripe. Construir un IC al 95% para la probabilidad de pasar la gripe si se est vacunado. En los otros 100 pacientes sin vacunar la pasan 20. Hay evidencia de que la vacuna es eficaz? Solucin La frmula para calcular IC para proporciones es

y aproximando p y q por sus estimaciones

es decir, hay una probabilidad del 95% de que la probabilidad de pasar la gripe si se est vacunado est comprendida entre el 4% y el 16%. Para los no vacunados

Existe solapamiento, aunque pequeo, entre ambos intervalos; por tanto no podemos asegurar que la vacuna sea eficaz.

Contrastes de hiptesis
Una hiptesis estadstica es una asuncin relativa a una o varias poblaciones, que puede ser cierta o no. Las hiptesis estadsticas se pueden contrastar con la informacin extrada de las muestras y tanto si se aceptan como si se rechazan se puede cometer un error. La hiptesis formulada con intencin de rechazarla se llama hiptesis nula y se representa por H0. Rechazar H0 implica aceptar una hiptesis alternativa (H1). La situacin se puede esquematizar: H0 cierta H0 rechazada H0 no rechazada H0 falsa H1 cierta Error tipo I ( ) Decisin correcta (*) Decisin correcta Error tipo II ( )

(*) Decisin correcta que se busca = p(rechazar H0|H0 cierta) = p(aceptar H0|H0 falsa) Potencia =1- = p(rechazar H0|H0 falsa) Detalles a tener en cuenta 1 y estn inversamente relacionadas. 2 Slo pueden disminuirse las dos, aumentando n. Los pasos necesarios para realizar un contraste relativo a un parmetro son: 1. Establecer la hiptesis nula en trminos de igualdad

2. Establecer la hiptesis alternativa, que puede hacerse de tres maneras, dependiendo del inters del investigador

en el primer caso se habla de contraste bilateral o de dos colas, y en los otros dos de lateral (derecho en el 2 caso, o izquierdo en el 3) o una cola. 3. Elegir un nivel de significacin: nivel crtico para

4. Elegir un estadstico de contraste: estadstico cuya distribucin muestral se conozca en H0 y que est relacionado con y establecer, en base a dicha distribucin, la regin crtica: regin en la que el estadstico tiene una probabilidad menor que si H0 fuera cierta y, en consecuencia, si el estadstico cayera en la misma, se rechazara H0. Obsrvese que, de esta manera, se est ms seguro cuando se rechaza una hiptesis que cuando no. Por eso se fija como H0 lo que se quiere rechazar. Cuando no se rechaza, no se ha demostrado nada, simplemente no se ha podido rechazar. Por otro lado, la decisin se toma en base a la distribucin muestral en H0, por eso es necesario que tenga la igualdad. 5. Calcular el estadstico para una muestra aleatoria y compararlo con la regin crtica, o equivalentemente, calcular el "valor p" del estadstico (probabilidad de obtener ese valor, u otro ms alejado de la H0, si H0 fuera cierta) y compararlo con . Ejemplo: Estamos estudiando el efecto del estrs sobre la presin arterial. Nuestra hiptesis es que la presin sistlica media en varones jvenes estresados es mayor que 18 cm de Hg. Estudiamos una muestra de 36 sujetos y encontramos

1. Se trata de un contraste sobre medias. La hiptesis nula (lo que queremos rechazar) es:

2. la hiptesis alternativa

es un contraste lateral derecho. 3. Fijamos "a priori" el nivel de significacin en 0,05 (el habitual en Biologa). 4. El estadstico para el contraste es

y la regin crtica T>t Si el contraste hubiera sido lateral izquierdo, la regin crtica sera T<t1- y si hubiera sido bilateral T<t1- /2 o T>t /2 En este ejemplo t(35)0,05=1,69. 5. Calculamos el valor de t en la muestra

no est en la regin crtica (no es mayor que 1,69), por tanto no rechazamos H0. Otra manera equivalente de hacer lo mismo (lo que hacen los paquetes estadsticos) es buscar en las tablas el "valor p" que corresponde a T=0,833, que para 35 g.l. es aproximadamente 0,20. Es decir, si H0 fuera cierta, la probabilidad de encontrar un valor de T como el que hemos encontrado o mayor (por qu mayor? Porque la H1 es que es mayor , lo que producira una media muestral mayor y por tanto mayor valor de t) es 0,20, dicho de otra manera la probabilidad de equivocarnos si rechazamos H0 es 0,20, como la frontera se establece en 0,05 no la rechazamos. Este valor crtico de 0,05 es arbitrario pero es la convencin habitual. Cun razonable es? Problema al respecto : en la hiptesis de que un mazo de cartas est bien barajado, la probabilidad de que al sacar dos cartas sean, p.e.:1 el as de oros y 2 el rey de bastos es 1/40 x 1/39=0,000833. Si hacemos la experiencia y obtenemos ese resultado rechazaramos la hiptesis de que el mazo est bien barajado? Cunto se parece esto a la lgica del contraste de hiptesis? Volvamos al problema del estrs. Como no se rechaza H0, se puede cometer un error tipo II. Cul es ?. De hecho, sera la informacin relevante a comunicar en este estudio (la probabilidad del error que se pude cometer en l). Habitualmente, sin embargo, no se da porque los paquetes estadsticos no la calculan. Para calcularla se debe concretar H1, p.e. = 20 (el criterio para este valor no es estadstico)

=p(aceptar H0|H1 cierta) Supongamos que el tamao muestral sea suficientemente grande para poder aproximar t a z. Cundo se acepta H0? si z 1,69

es decir, se acepta H0 si Qu probabilidad hay de encontrar si = 20 (zona verde del grfico)? En esta hiptesis lo que se distribuye como una z es

Otras lecturas recomendadas Hypothesis testing. Guyatt et al. CMAJ. 152:27-32. 1995

Clculo del tamao muestral para contrastes sobre medias


Sea el contraste (bilateral) H0: = 0 H1: > 0 Para calcular el tamao muestral debemos, adems de fijar y , concretar H1 Concretando H1: = .
0

Si n suficientemente grande para poder usar la normal, es decir

resulta que

Si el contraste fuera a dos colas habra que cambiar z por z/2

Comparacin de medias
La hiptesis nula H0: 1 2 = d0 Generalmente d0=0

Hay 3 situaciones distintas: 1 2 3 conocidos (poco frecuente). desconocidos pero iguales. desconocidos pero distintos.

Los estadsticos son distintos (z en 1 y t en 2 y 3) pero el procedimiento es el mismo. En los 3 casos se supone que las muestras son independientes; si no lo fueran hay otro estadstico (t pareada). Todos asumen normalidad. Si no se cumpliera hay que usar los llamados test no paramtricos. Ejemplo En un ensayo clnico para evaluar un hipotensor se compara un grupo placebo con el grupo tratado. La variable medida es la disminucin de la presin sistlica y se obtiene: grupo placebo n = 35; 40; = 3,7 mm de Hg. y s2 = 33,9; grupo tratado n =

= 15,1 mm de Hg. y s2 = 12,8. Es eficaz el tratamiento?

Se trata de un contraste sobre diferencias de medias H0: T P = 0 H1: T P> 0 Como no conocemos las varianzas, para realizarlo debemos decidir si son iguales o distintas, para ello se plantea el contraste H0: H1:

El estadstico es , para el que p<0,05, en consecuencia rechazamos la H0 y concluimos que las varianzas son distintas. Por lo tanto usaramos la t para varianzas distintas. Haciendo los clculos t=-10,2 p<0,05 rechazamos la H0 y concluimos que las medias son distintas. Nota: Para hacerlo con un paquete estadstico, p.e. el SPSS, deberamos crear un archivo con 2 variables: Trata (con un cdigo distinto para cada grupo, p.e. 0 para placebo y 1 para tratado) y Diferen con la diferencia de presin arterial para cada individuo al acabar el estudio y al empezar. Originalmente en el archivo podra haber una variable con la presin al empezar y otra al acabar y se creara la diferencia con la opcin: Transformar ---> Calcular. Para calcular la t desplegamos los mens que se ven en la grfica:

Y el programa calcula la t para varianzas iguales y distintas y realiza el contraste para las varianzas. Para el contraste sobre las varianza el SPSS no usa la prueba descrita ms arriba, sino la de Levene que no asume normalidad y se puede usar para comparar varias varianzas. Estadsticos del grupo TRATA DIFEREN 0 1 N 35 40 Media 3,729 15,075 Desviacin Error tp. tp. de la media 5,666 ,958 3,576 ,565

Prueba de muestras independientes Prueba de Levene para la igualdad de varianzas F Sig. Prueba T para la igualdad de medias

gl

Sig. Diferenci Error tp

Intervalo de

DIFERE Se han 10,43,002 N asumido 1 10,50 varianza 3 s iguales No se - 55,90 han 10,20 9 asumido 1 varianza s iguales

(bilateral a de de la confianza para ) medias diferenci la diferencia a Inferio Superior r 73 ,000 -11,346 1,080 - -9,193 13,500

,000 -11,346

1,112

- -9,118 13,575

Qu nos est diciendo este resultado? Que si el tratamiento fuera igual de eficaz que el placebo, la probabilidad de haber obtenido una diferencia entre ambos como la que hemos encontrado o mayor es muy pequea (<0,000) Bastara esto para convencernos de que debemos tratar con este tratamiento?

Contrastes sobre independencia de v.a. cualitativas


Se quiere estudiar un posible factor pronstico del xito de una terapia, p.e. cierto grado de albuminuria como mal pronstico en la dilisis. Los resultados de un estudio de este tipo se pueden comprimir en una tabla 2x2 del tipo F E nE a c e = a+c nF b d f = b+d m = a+b n = c+d T

Se estudian T individuos, a tienen al factor (F) y tiene xito la terapia (E), b no tienen al factor (nF) y tiene xito la terapia, ... Ojo! A pesar de la aparente "inocencia" de esta tabla, puede significar cosas distintas segun el diseo del estudio. No todas las probabilidades de las que se habla ms abajo se pueden estimar siempre. H0 es que el factor F y el xito E son independientes (F no es factor pronstico) y H1 que estn asociados (s es factor pronstico). Si son independientes p(EF) = p(E)p(F). A partir de los datos de la tabla las mejores estimaciones de estas probabilidades son , por lo tanto en H0

, en consecuencia el valor esperado para esa celda en H0 es (cociente entre el producto de los totales marginales y el gran total), del mismo modo se calculan los dems valores esperados y se construye el estadstico

que se distribuye segn una distribucin conocida denominada ji-cuadrado, que depende de un parmetro llamado "grados de libertad" (g.l.) Los g.l. en esta tabla son 1. Esto se puede generalizar a tablas CxF y los grados de libertad son (C-1)x(F1). Ejemplo En una muestra de 100 pacientes que sufrieron infarto de miocardio se observa que 75 sobrevivieron ms de 5 aos (xito). Se quiere estudiar su posible asociacin con la realizacin de ejercicio moderado (factor). La tabla es F E nE 50 10 60 nF 25 15 40 75 25 100

Calculamos los valores esperados en H0 F E nE 60x75/100=45 60x25/100=15 nF 40x75/100=30 40x25/100=10

Obsrvese que una vez calculado uno de los valores esperados, los dems vienen dados para conservar los totales marginales (eso es lo que significa que hay 1 g.l.). A partir de aqu calculamos

Rechazamos la H0 y concluimos que hay asociacin entre el ejercicio y la supervivencia. Obviamente esta asociacin no es necesariamente causal. Nota: Para hacerlo con un paquete estadstico, p.e. el SPSS, deberamos crear un archivo con 2 variables: Super con un cdigo distinto para cada grupo, p.e. 1 para supervivencia y 0 para no y Ejer tambin con dos cdigos. Para calcular la jicuadrado desplegamos los mens que se ven en la grfica:

y la salida es Tabla de contingencia EJERC * SUPER Recuento SUPER 0 EJERC Total 0 1 15 10 25 1 25 50 75 40 60 100 Total

Pruebas de chi-cuadrado Valor gl Sig. asint. (bilateral) 1 ,018 Sig. exacta (bilateral) Sig. exacta (unilateral)

Chi-cuadrado de Pearson

5,556

Correccin de continuidad Razn de verosimilitud Estadstico exacto de Fisher Asociacin lineal por lineal N de casos vlidos

4,500 5,475

1 1

,034 ,019 ,033 ,017

5,500 100

,019

a Calculado slo para una tabla de 2x2. b 0 casillas (,0%) tienen una frecuencia esperada inferior a 5. La frecuencia mnima esperada es 10,00.

Estadsticos de fuerza de la asociacin


Cul es la fuerza de la asociacin? Ni el estadstico 2 ni su valor p asociado miden esa fuerza, es decir se puede encontrar un alto valor de 2 (pequeo valor de p) con una asociacin dbil si el tamao muestral fuera grande. Hay varios estadsticos propuestos para medir esta fuerza: 1 Diferencia de riesgo o Reduccin absoluta del riesgo (RAR): A partir de la tabla del ejemplo anterior podemos estimar la probabilidad (riesgo en la terminologa epidemiolgica) de que un individuo que haga ejercicio tenga xito: y tambin la probabilidad de que lo tenga uno que no lo haga: . Se llama Diferencia de riesgo o Reduccin absoluta del riesgo a esta diferencia: 0,20 que puede oscilar entre -1 y 1; 0 indica no asociacin. 2 Reduccin relativa del riesgo (RRR): La magnitud de la diferencia de riesgo es difcil de interpretar: una diferencia de 0,001 puede ser mucho o poco dependiendo del riesgo basal. Para superar esta dificultad se define la RRR como la reduccin absoluta del riesgo dividida por el riesgo basal o riesgo del grupo de referencia. En el ejemplo, si consideramos como referencia el no hacer ejercicio, el RRR sera 0,20/0,63 = 0,32. 3 Riesgo relativo (RR): Otro ndice relativo es el riesgo relativo definido como el cociente entre los riesgos. En el ejemplo anterior RR=0,83/0,63=1,32. Los individuos que hacen ejercicio tienen una probabilidad de xito 1,32 veces mayor que los que no. El RR puede oscilar entre 0 y

estadstico preferido.

; 1 indica no asociacin. Es el

4 Odds ratio (OR): Es un estadstico menos intuitivo que el RR. Para caracterizar un proceso binomial se puede usar su probabilidad (p) o el cociente p/q llamado odds. En el ejemplo anterior, para el ejercicio p = 0,83 y el odds = 0,83/0,17=4,88, es decir es 4,88 veces ms probable tener xito que no tenerlo si se hace ejercicio y para el no ejercicio p = 0,63 y el odds = 0,63/0,37=1,70. Para comparar ambos procesos podemos usar su cociente u odds ratio OR = 4,88/1,70 = 2,87. El odds para el ejercicio es 2,87 veces mayor que para el no ejercicio. El

OR tambin puede oscilar entre 0 y ; 1 indica no asociacin. Queda como ejercicio para el lector comprobar que el OR se puede estimar como el cociente de los productos cruzados de los elementos de la tabla, OR=(50x15)/(10x25)=3. La diferencia con el anterior es debida a errores de redondeo. Qu ventajas tiene el OR frente al RR?. En principio parece menos intuitivo aunque un jugador no opinara lo mismo. De hecho el OR proviene del mundo de las apuestas. Si queremos comparar dos juegos qu da ms informacin el OR o el RR? ... y si queremos comparar dos estrategias teraputicas? Por otro lado si el estudio del ejemplo anterior se hubiera hecho de otra forma: muestreando por un lado individuos con xito y por otro sin xito (diseo casocontrol) el RR no se podra estimar y sin embargo el OR s y de la misma forma (se puede demostrar usando el teorema de Bayes). Adems, cuando se estudian fenmenos con probabilidades bajas (tpicamente enfermedades) el OR tiende al RR. Sean dos fenmenos con probabilidades p1 y p2 prximas a cero, en consecuencia q1 y q2 estarn prximos a 1 y su cociente tambin, por lo tanto

Resumiendo, el OR se puede estimar en diseos como el caso-control en los que el RR no se puede y si se estudian fenmenos con baja prevalencia el OR estima el RR. Adems el OR es un buen indicador en s mismo. 5 Nmero necesario a tratar (NNT): En el contexto de la evaluacin de tratamientos (ensayos clnicos) se suele usar este ndice definido como el nmero de personas que se necesitara tratar con un tratamiento para producir, o evitar, una ocurrencia adicional del evento. Del mismo modo se define nmero necesario para perjudicar (NNP) para evaluar efectos indeseables. Se calcula como el inverso del RAR. En el ejemplo NNT = 1/0,20 = 5 que se interpreta como por cada 5 pacientes que hagan ejercicio se consigue que uno tenga xito.

Otras lecturas recomendadas Assessing the effects of treatment: measures of association. Jaeschke et al. CMAJ. 152:351-357. 1995 Medidas del efecto de un tratamiento (I): reduccin absoluta del riesgo, reduccin relativa del riesgo y riesgo relativo. Abraira SEMERGEN 26: 535-536. 2000. Medidas del efecto de un tratamiento (II): odds ratio y numero necesario para tratar. Abraira SEMERGEN 27: 418-420. 2001.

Problemas de estadstica propuestos (3 parte):

1 Plantear (y resolver) el contraste de hiptesis adecuado para el problema 2 de la serie anterior: Para evaluar una vacuna para la gripe se selecciona un grupo de 200 individuos de riesgo. Se eligen aleatoriamente a 100 de ellos y se les suministra la vacuna; de ellos 10 pasan la gripe. En los otros 100 pacientes sin vacunar la pasan 20. Hay evidencia de que la vacuna es eficaz? Solucin H0: No hay asociacin entre la vacuna y la gripe (la vacuna no es eficaz) Construimos la tabla V G nG 10 90 100 nV 20 80 100 30 170 200

Calculamos los valores esperados en H0 V G nG 100x30/200=15 100x170/200=85 nV 100x30/200=15 100x170/200=85


2

Calculamos el estadstico

Como el valor crtico de eficaz.

es 3,84 rechazamos la H0 y concluimos que la vacuna es

2 Antiguos estudios muestran que el germicida DDT puede acumularse en el cuerpo. En 1965, la concentracin media de DDT en las partes grasas del cuerpo en la poblacin espaola era de 9 ppm. Se espera que como resultado de los controles realizados esta concentracin haya disminuido. a. Construir la hiptesis nula y alternativa para documentar esta afirmacin. b. Explicar en trminos prcticos las consecuencias de cometer un error tipo I y un error tipo II. c. Se realiza el contraste de forma que la potencia para detectar una concentracin media de 6 ppm es de 0,8. Explicar en trminos prcticos qu significa. Solucin a. Llamando a a la concentracin media antes y ahora, las hiptesis se plantean
d

a la concentracin media

H0: H1:

a a

= >

d d

b. Error tipo I = (rechazar H0|H0 cierta) es decir concluir que la concentracin ha disminuido, cuando en realidad no ha sido as. Error tipo II = (aceptar H0|H0 falsa) es decir concluir que la concentracin no ha disminuido, cuando en realidad si ha disminuido c. El diseo garantiza que si la concentracin media ha disminuido 6 ppm o ms el estudio tiene una probabilidad de 0,8 de detectarlo. 3 En un estudio caso-control para estudiar la posible asociacin entre estado civil y mortalidad en la UVI se ha encontrado que de 50 personas que murieron 30 eran solteros, mientras que entre 60 que sobrevivieron slo lo eran 15. Plantear y resolver el contraste. Cul sera el mejor estimador del efecto? Solucin H0: No hay asociacin entre el estado civil y la mortalidad Construimos la tabla Soltero Morir No 30 15 45 No 20 45 65 50 60 110

Calculamos los valores esperados en H0 Soltero Morir No 45x50/110=20,5 45x60/110=24,5 no 65x50/110=29,5 65x60/110=35,5
2

Calculamos el estadstico

Como el valor crtico de 2 es 3,84 rechazamos la H0 y concluimos que hay asociacin. El mejor estimador de la fuerza de la asociacin (realmente el nico posible de los que hemos visto para este tipo de estudios) es el OR estimado como

Introduccin a la causalidad

1 Causalidad en la vida comn: Parece que forma parte de la mente humana el buscar relaciones entre las cosas y particularmente entre acciones y sus consecuencias como modo de entender el mundo y adaptarse al mismo. Ya figura en el aprendizaje del nio, incluso la repeticin. Sin embargo en el lenguaje comn e incluso literario se usa con mucha laxitud: "Un hombre entr en un local provocando una nube de humo, se alis el cabello provocando la aparicin de un barman de aspecto feroz". Queneau. "Sobre como la divina providencia regula la igualdad en el nacimiento de los sexos". Arthunot. 2 Causalidad en la filosofa: Para Aristteles (visin finalista) existen 4 tipos de causa: Causa material: el mrmol para una estatua,la existencia del miocardio y su necesidad de riego sanguneo para el infarto de miocardio. Causa eficiente: la mano del escultor para la estatua, el trombo para el infarto. Causa formal: el canon de belleza para la estatua, la necesidad de nutrientes para el infarto. Causa final: depende de posiciones "a priori": el aumento de la belleza en el mundo para la estatua, para la regulacin de la poblacin en el mundo o para que existan cardilogos para el infarto. Evidentemente estos conceptos se solapan. No es infrecuente encontrar esta visin finalista en Biologa: "El sistema inmunolgico est para defender al individuo de ataques externos". Otras posiciones: i) ontolgica (Leibniz): La causalidad es un principio del ser. "Las leyes causales que una cosa cumple constituyen un aspecto fundamental e inseparable de su modo de ser". D. Bohm. ii) legalista (Hume): La causalidad es la forma en que se expresan las leyes cientficas basadas en una generalizacin de la experiencia y con capacidad predictiva. Las caractersticas de la relacin causal son: a) contigidad (causa y efecto deben estar contiguos en espacio y tiempo). b) prioridad (la causa precede en el tiempo al efecto). c) conjuncin constante (las relaciones anteriores deben conservarse en varios casos). iii) a priorista (Kant): La causalidad es un "a priori" que se necesita para el conocimiento racional. No procede del conocimiento, es un supuesto previo que lo hace posible. iv) escptica: "La razn por la que la fsica ha dejado de buscar las causas es que en realidad no existen. La Ley de causalidad como mucho de lo que se da por bueno entre los filsofos, es una reliquia de una poca pasada que sobrevive, como la monarqua, porque se supone errneamente que no hace ningn dao". B. Russell. 3 Elementos de la relacin causal 1 Elemento inicial (A) o causa: su definicin depende del modelo. Pueden ser causas:

a) Acciones intencionales (p.e. administracin de un tratamiento): las ms claras b) Acciones no intencionales: acciones naturales (lluvia), hechos (fumar),... c) Atributos (sexo), constructos (inteligencia): como no se definen en funcin de cambios, a veces en lugar de causas se habla de determinantes. 2 Elemento final (B) o efecto que se define en trminos de cambio con respecto a: a) situacin previa b) lo que hubiera ocurrido si no hubiera ocurrido la causa. Es la que plantea ms problemas en el diseo experimental: necesidad de control. 3 Relacin entre ambos a) Algunos autores (Russell) la definen exclusivamente como funcional en el sentido de funcin matemtica. b) Otros (Galileo, Stuart Mill, Kant) tambin como condicin. La relacin condicional puede ser: i) Necesaria y suficiente: Si A, entonces B y Si B, entonces A. ii) Necesaria y no suficiente: Si A, entonces B o no B y Si B, entonces A iii) No necesaria y suficiente: Si A, entonces B y Si B, entonces A o no A iv) No necesaria y no suficiente: Si A, entonces B o no B y Si B, entonces A o no A El cuarto caso es el ms difcil de establecer por su ambigedad, pero es el ms frecuente en Biologa. 4 Caractersticas de la relacin causal: siguiendo a Hume, pero con un lenguaje ms actual a) temporalidad: la causa precede al efecto b) direccin: la relacin va de la causa al efecto c) asociacin: entendida como cuantificacin de la constancia de la relacin 5 Modelos causales en Biologa 1 Modelo de Koch-Henle (sugerido por Koch a propsito de la tuberculosis y paradigmtico en el estudio de enfermedades infecciosas): ms que un modelo es un conjunto de reglas de decisin que asumen los principios anteriores: i) el microorganismo debe encontrarse siempre en los casos de enfermedad. ii) el microorganismo deber poder ser aislado en cultivo, demostrando ser una estructura viva y distinta de otras que pueden encontrarse en otras enfermedades. iii) el microorganismo debe distribuirse de acuerdo con las lesiones y ellas deben explicar las manifestaciones de la enfermedad. iv) el microorganismo cultivado (algunas generaciones) deber ser capaz de producir la enfermedad en el animal de experimentacin. 2 Modelo de Bradford Hill: ms conocido como criterios de Bradford Hill, aunque estrictamente no son criterios, y paradigmtico en el estudio de enfermedades no infecciosas y tambin asume los principios anteriores adecuados a la relacin causal tipo iv: i) fuerza de la asociacin, medida con los ndices estadsticos apropiados. ii) consistencia entre distintos observadores, en diferentes lugares, tiempos y circunstancias. iii) especificidad de las causas. iv) temporalidad v) gradiente biolgico en la relacin dosis-respuesta. vi) plausibilidad biolgica. vii) coherencia con otros conocimientos. viii) evidencia experimental ix) analoga con otras relaciones causales

3 Modelo de Rothman, con ms contenido terico, contempla las relaciones multicausales, fue desarrollado en el mbito de la epidemiologa y es el ms adaptado a los mtodos estadsticos multivariantes. Define causa como todo acontecimiento, condicin o caracterstica que juega un papel esencial en producir un efecto (p.e. una enfermedad) Distingue entre: Causa componente causa que contribuye a formar un conglomerado que constituir una causa suficiente. Causa suficiente conjunto de causas que producen un efecto. Causa necesaria ver ms adelante (punto iii) Caractersticas del modelo: i) Ninguna de la causas componentes es superflua ii) No exige especificidad: un mismo efecto puede ser producido por distintas causas suficientes iii) Una causa componente puede formar parte de ms de una causa suficiente para el mismo efecto. Si una causa componente forma parte de todas las causas suficientes de un efecto se la denomina causa necesaria iv) Una misma causa componente puede formar parte de distintas causas suficientes de distintos efectos v) Dos causas componentes de una causa suficiente se considera que tienen una interaccin biolgica, es decir ninguna acta por su cuenta. El grado de interaccin puede depender de otras causas componentes.

Introduccin al anlisis multivariante


qu es? qu aade? es siempre necesario?

Volvamos al problema del ejercicio y la supervivencia al infarto. Supongamos que: 1) El problema tiene inters 2) el RR de 1,32 es suficientemente preciso 3) es clnicamente relevante. Lo aceptamos? Es decir consideramos la asociacin estadstica establecida y pasamos a considerar si es causal? Supongamos que si tenemos en cuenta el tabaco, resultara que el 99% de los que hacen ejercicio no fuman, mientras que slo no fuman el 70% de los que no lo hacen y el tabaco ya hubiera demostrado una asociacin con la supervivencia: hemos encontrado un nuevo factor pronstico o slo estamos viendo indirectamente el efecto del tabaco? Dicho en la jerga usual: es el tabaco una variable de confusin para la asociacin entre el ejercicio y la supervivencia? Una variable es de confusin cuando est asociada simultneamente con la variable en estudio (el ejercicio en este caso) y con la variable respuesta (la supervivencia) y no forma parte de la cadena causal. La confusin se puede abordar por: i) diseo: en este ejemplo se podra hacer que en la muestra estuvieran igualmente representados los fumadores y los no fumadores. Este es el objetivo fundamental de la asignacin aleatoria a los grupos en los ensayos clnicos. ii) anlisis: por anlisis multivariante (los ms comunes son los modelos de regresin) con los que se puede analizar simultneamente el efecto de varias variables y obtener estimaciones del efecto de cada una corregido o ajustado por las otras. Cundo es necesario el anlisis multivariante? Siempre que el diseo no controle la confusin ... y eso cundo ocurre? No se puede saber a priori: el mejor mtodo para evitar confusin es la seleccin aleatoria, pero no lo garantiza.

ANLISIS DE LA VARIANZA
V. Abraira Bibliografa: V. Abraira, A. Prez de Vargas Mtodos Multivariantes en Bioestadstica. Ed. Centro de Estudios Ramn Areces. 1996. Anlisis de la varianza El anlisis de la varianza (o Anova: Analysis of variance) es un mtodo para comparar dos o ms medias, que es necesario porque cuando se quiere comparar ms de dos medias es incorrecto utilizar repetidamente el contraste basado en la t de Student. por dos motivos: En primer lugar, y como se realizaran simultnea e independientemente varios contrastes de hiptesis, la probabilidad de encontrar alguno significativo por azar aumentara. En cada contraste se rechaza la H0 si la t supera el nivel crtico, para lo que, en la hiptesis nula, hay una probabilidad . Si se realizan m contrastes independientes, la probabilidad de que, en la hiptesis nula, ningn estadstico supere el valor crtico es (1 - )m, por lo tanto, la probabilidad de que alguno lo

supere es 1 - (1 - )m, que para valores de prximos a 0 es aproximadamente igual a m. Una primera solucin, denominada mtodo de Bonferroni, consiste en bajar el valor de , usando en su lugar /m, aunque resulta un mtodo muy conservador. Por otro lado, en cada comparacin la hiptesis nula es que las dos muestras provienen de la misma poblacin, por lo tanto, cuando se hayan realizado todas las comparaciones, la hiptesis nula es que todas las muestras provienen de la misma poblacin y, sin embargo, para cada comparacin, la estimacin de la varianza necesaria para el contraste es distinta, pues se ha hecho en base a muestras distintas. El mtodo que resuelve ambos problemas es el anova, aunque es algo ms que esto: es un mtodo que permite comparar varias medias en diversas situaciones; muy ligado, por tanto, al diseo de experimentos y, de alguna manera, es la base del anlisis multivariante.

Bases del anlisis de la varianza


Supnganse k muestras aleatorias independientes, de tamao n, extradas de una nica poblacin normal. A partir de ellas existen dos maneras independientes de estimar la varianza de la poblacin 2 1) Una llamada varianza dentro de los grupos (ya que slo contribuye a ella la varianza dentro de las muestras), o varianza de error, o cuadrados medios del error, y habitualmente representada por MSE (Mean Square Error) o MSW (Mean Square Within) que se calcula como la media de las k varianzas muestrales (cada varianza muestral es un estimador centrado de 2 y la media de k estimadores centrados es tambin un estimador centrado y ms eficiente que todos ellos). MSE es un cociente: al numerador se le llama suma de cuadrados del error y se representa por SSE y al denominador grados de libertad por ser los trminos independientes de la suma de cuadrados. 2) Otra llamada varianza entre grupos (slo contribuye a ella la varianza entre las distintas muestras), o varianza de los tratamientos, o cuadrados medios de los tratamientos y representada por MSA o MSB (Mean Square Between). Se calcula a partir de la varianza de las medias muestrales y es tambin un cociente; al numerador se le llama suma de cuadrados de los tratamientos (se le representa por SSA) y al denominador (k-1) grados de libertad. MSA y MSE, estiman la varianza poblacional en la hiptesis de que las k muestras provengan de la misma poblacin. La distribucin muestral del cociente de dos estimaciones independientes de la varianza de una poblacin normal es una F con los grados de libertad correspondientes al numerador y denominador respectivamente, por lo tanto se puede contrastar dicha hiptesis usando esa distribucin. Si en base a este contraste se rechaza la hiptesis de que MSE y MSA estimen la misma varianza, se puede rechazar la hiptesis de que las k medias provengan de una misma poblacin. Aceptando que las muestras provengan de poblaciones con la misma varianza, este rechazo implica que las medias poblacionales son distintas, de modo que con un nico contraste se contrasta la igualdad de k medias.

Existe una tercera manera de estimar la varianza de la poblacin, aunque no es independiente de las anteriores. Si se consideran las kn observaciones como una nica muestra, su varianza muestral tambin es un estimador centrado de 2: Se suele representar por MST, se le denomina varianza total o cuadrados medios totales, es tambin un cociente y al numerador se le llama suma de cuadrados total y se representa por SST, y el denominador (kn -1) grados de libertad. Los resultados de un anova se suelen representar en una tabla como la siguiente: Fuente de variacin Entre grupos Tratamientos Dentro Error Total G.L. k-1 (n-1)k kn-1 SS SSA SSE SST MS F

SSA /(k-1) MSA /MSE SSE /k(n1)

F se usa para realizar el contraste de la hiptesis de medias iguales. La regin crtica para dicho contraste es F > F (k-1,(n-1)k)

Algunas propiedades
Es fcil ver en la tabla anterior que GLerror+ GLtrata = (n - 1) k + k - 1 = k + k - 1 = nk - 1 = GLtotal No es tan inmediato, pero las sumas de cuadrados cumplen la misma propiedad, llamada identidad o propiedad aditiva de la suma de cuadrados: SST = SSA + SSE El anlisis de la varianza se puede realizar con tamaos muestrales iguales o distintos, sin embargo es recomendable iguales tamaos por dos motivos: 1) La F es insensible a pequeas variaciones en la asuncin de igual varianza, si el tamao es igual. 2) Igual tamao minimiza la probabilidad de error tipo II.

Ejemplo 1
Se quiere evaluar la eficacia de distintas dosis de un frmaco contra la hipertensin arterial, comparndola con la de una dieta sin sal. Para ello se seleccionan al azar 25 hipertensos y se distribuyen aleatoriamente en 5 grupos. Al primero de ellos no se le suministra ningn tratamiento, al segundo una dieta con un contenido pobre en sal, al tercero una dieta sin sal, al cuarto el frmaco a una dosis determinada y al quinto el mismo frmaco a otra dosis. Las presiones arteriales sistlicas de los 25 sujetos al finalizar los tratamientos son: Grupo 3 163

1 180

2 172

4 158

5 147

173 175 182 181 La tabla de anova es: Fuente de variacin Tratamiento Error Total GL 4 20 24

158 167 160 175

170 158 162 170

146 160 171 155

152 143 155 160

SS 2010,64 894,4 2905,04

MS 502,66 44,72

F 11,24

Como F0,05(4,20) =2,87 y 11,24>2,87 rechazamos la hiptesis nula y concluimos que los resultados de los tratamientos son diferentes. Nota: Para hacerlo con un paquete estadstico, p.e. el SPSS, deberamos crear un archivo con 2 variables: Trata (con un cdigo distinto para cada grupo, p.e. de 1 a 5) y Presion con la presin arterial de cada individuo al acabar el estudio. Para calcular el Anova desplegamos los mens que se ven en la grfica:

La tabla de anova que devuelve el programa es

que incluye tambin el valor p asociado al contraste.

Pruebas para la homocedasticidad


Para que este contraste de hiptesis, basado en la F, lo sea de la igualdad de medias es necesario que todas las muestras provengan de una poblacin con la misma varianza ( 2), de la que MSE y MSA son estimadores. Por lo tanto es necesario comprobarlo antes de realizar el contraste. Del mismo modo que no se puede usar repetidamente la prueba basada en la en la t para comparar ms de dos medias, tampoco se puede usar la prueba basada en la F para comparar ms de dos varianzas. La prueba ms usada para contrastar si varias muestras son homocedsticas (tiene la misma varianza) es la prueba de Bartlett. La prueba se basa en que, en la hiptesis nula de igualdad de varianzas y poblaciones normales, un estadstico calculado a partir de las varianzas muestrales y MSE sigue una distribucin Otras pruebas para contrastar la homocedasticidad de varias muestras son la de Cochran y la de la F del cociente mximo, ambas similares y de clculo ms sencillo pero restringidas al caso de iguales tamaos muestrales. La de Cochran es particularmente til para detectar si una varianza es mucho mayor que las otras En el caso de que las muestras no sean homocedsticas, no se puede, en principio, realizar el anlisis de la varianza. Existen, sin embargo, soluciones alternativas: Sokal y Rohlf describen una prueba aproximada, basada en unas modificaciones de las frmulas originales. Hay situaciones en que la heterocedasticidad es debida a falta de normalidad. En estos casos existen transformaciones de los datos que estabilizan la varianza: la raz cuadrada en el caso de Poisson, el arco seno de la raz cuadrada de p para la binomial, el logaritmo cuando la desviacin estndar es proporcional a la media. En la prctica, si las pruebas de homocedasticidad obligan a rechazar la hiptesis nula, se prueba si con alguna de estas transformaciones los datos son homocedsticos, en cuyo caso se realiza el anova con los datos transformados. Hay que tener en cuenta que estas pruebas van "al reves"de lo habitual. La hiptesis nula es lo que se quiere probar, en consecuencia hay que usarlas con precaucin.

Modelos de anlisis de la varianza


El anova permite distinguir dos modelos para la hiptesis alternativa:

modelo I o de efectos fijos en el que la H1 supone que las k muestras son muestras de k poblaciones distintas y fijas. modelo II o de efectos aleatorios en el que se supone que las k muestras, se han seleccionado aleatoriamente de un conjunto de m>k poblaciones. Un ejemplo de modelo I de anova es el Ejemplo 1, porque en l se asume que existen cinco poblaciones (sin tratamiento, con poca sal, sin sal, etc.) fijas, de las que se han extrado las muestras. Un ejemplo de modelo II sera: un investigador est interesado en determinar el contenido, y sus variaciones, de grasas en las clulas hepticas de cobayas; toma del animalario 5 cobayas al azar y les realiza, a cada una, 3 biopsias hepticas. La manera ms sencilla de distinguir entre ambos modelos es pensar que, si se repitiera el estudio un tiempo despus, en un modelo I las muestras seran iguales (no los individuos que las forman) es decir corresponderan a la misma situacin, mientras que en un modelo II las muestras seran distintas. Aunque las asunciones iniciales y los propsitos de ambos modelos son diferentes, los clculos y las pruebas de significacin son los mismos y slo difieren en la interpretacin y en algunas pruebas de hiptesis suplementarias.

Modelo I o de efectos fijos


Un valor individual se puede escribir en este modelo como

es la media global, i es la constante del efecto, o efecto fijo, que diferencia a las k poblaciones. Tambin se puede escribir:

representa la desviacin de la observacin j-sima de la muestra i-sima, con respecto a su media. A este trmino se le suele llamar error aleatorio y, teniendo en cuenta las asunciones iniciales del anlisis de la varianza son k variables (una 2 para cada muestra), todas con una distribucin normal de media 0 y varianza . La hiptesis nula en este anlisis es que todas las medias son iguales

que puede escribirse en trminos del modelo como:

Como en H0 se cumplen las condiciones del apartado anterior se tratar de ver como se modifican las estimaciones de la varianza en H1.

En H0 MSA y MSE son estimadores centrados de 2, es decir y usando el superndice 0 para indicar el valor de las variables en H0 E[MSA0] = E[MSE0] =
2

Se puede ver que MSE es igual en la hiptesis nula que en la alternativa. Por lo tanto: E[MSE] = E[MSE0] =
2

Sin embargo al valor esperado de MSA en la hiptesis alternativa se le aade un trmino con respecto a su valor en la hiptesis nula

Al segundo sumando dividido por n se le llama componente de la varianza aadida por el tratamiento, ya que tiene forma de varianza, aunque estrictamente no lo sea pues i no es una variable aleatoria. La situacin, por lo tanto, es la siguiente: en H0, MSA y MSE estiman 2; en H1, MSE estima 2 pero MSA estima . Contrastar la H0 es equivalente a contrastar la existencia de la componente aadida o, lo que es lo mismo, que MSE y MSA estimen, o no, la misma varianza. El estadstico de contraste es F=MSA/MSE que, en la hiptesis nula, se distribuye segn una F con k - 1 y (n - 1)k grados de libertad. En caso de rechazar la H0, MSA - MSE estima .

Modelo II o de efectos aleatorios


En este modelo se asume que las k muestras son muestras aleatorias de k situaciones distintas y aleatorias. De modo que un valor aislado Yij se puede escribir como:

donde es la media global, ij son variables (una para cada muestra) distribuidas normalmente, con media 0 y varianza 2 (como en el modelo I) y Ai es una variable distribuida normalmente, independiente de las ij, con media 0 y varianza

La diferencia con respecto al modelo I es que en lugar de los efectos fijos i ahora se consideran efectos aleatorios Ai. Igual que en el modelo I se encuentra que MSE no se modifica en la H1 y que al valor esperado de MSA se le aade el trmino de componente aadida (que aqu es una verdadera varianza ya que Ai es una variable aleatoria):

Para llegar a este resultado se utiliza la asuncin de independencia entre Ai y ij y es, por tanto, muy importante en el modelo y conviene verificar si es correcta en cada caso. En el ejemplo de las cobayas significara que las variaciones de grasa en el hgado de cada cobaya son independientes de las variaciones entre cobayas. Esta asuncin se violara si, por ejemplo, en el animalario existieran 2 cepas genticas tales que en una de ellas la concentracin de grasa en las clulas hepticas fuera mayor y ms variable que en la otra. Por tanto, en H0 tanto MSA como MSE estiman 2, mientras que en H1, MSE sigue estimando 2 y MSA estima . La existencia de esta componente aadida se contrasta con F= MSA/MSE y en caso afirmativo, la varianza de Ai se estima como:

Pruebas a posteriori
En general, en un modelo II el inters del investigador es averiguar si existe componente aadida y en su caso estimarla. Sin embargo, en un modelo I, lo que tiene inters son las diferencias entre los distintos grupos. En el Ejemplo 1, lo que interesa, una vez visto que la presin arterial media es diferente para los cinco grupos, es, por ejemplo, estimar el efecto de la dieta sin sal, 3 1, o el aumento del efecto de la segunda dosis del frmaco con respecto a la primera dosis 5 4. Las pruebas "a posteriori" son un conjunto de pruebas para probar todas las posibles hiptesis del tipo i j = 0. Existen varias, (Duncan, Newman-Keuls, LSD): todas ellas muy parecidas. Usan el rango (diferencia entre medias) de todos los pares de muestras como estadstico y dicho rango debe superar un cierto valor llamado mnimo rango significativo para considerar la diferencia significativa. La principal diferencia con respecto a la t de Student radica en que usan MSE como estimador de la varianza, es decir un estimador basado en todas las muestras. Una manera semigrfica habitual de representar los resultados es dibujar una lnea que una cada subconjunto de medias adyacentes entre las que no haya diferencias significativas. Para los datos del Ejemplo 1 la salida semigrfica para la prueba LSD de, por ejemplo, el Statgraphics es

que se interpreta como: Los grupos 5 y 4 estn unidos por una lnea vertical de X por tanto sus medias no son diferentes entre s y lo mismo los grupos 4, 3 y 2, mientras que la media del grupo 1 es distinta de la de todos los dems.

Anlisis de la varianza de dos factores


Es un diseo de anova que permite estudiar simultneamente los efectos de dos fuentes de variacin. En el ejemplo 1, en el que se estudiaban diversos tratamientos para la hipertensin arterial, se podra plantear que, quizs, la evolucin de la misma fuera diferente para los hombres y las mujeres, en cuyo caso, y si el nmero de hombres y mujeres en cada muestra no fuera el mismo, podra ocurrir que una parte del efecto atribuido a los tratamientos fuera debido al sexo. En cualquier caso, el investigador puede estar interesado en estudiar si hay, o no, diferencia en la evolucin segn el sexo. En un anova de dos vas se clasifica a los individuos de acuerdo a dos factores (o vas) para estudiar simultneamente sus efectos. En este ejemplo se haran cinco grupos de tratamiento para los hombres y otros cinco para las mujeres, en total diez grupos; en general, si el primer factor tiene a niveles y el segundo tiene b, se tendrn ab muestras o unidades experimentales, cada una con n individuos o repeticiones. Una observacin individual se representa como:

El primer subndice indica el nivel del primer factor, el segundo el nivel del segundo factor y el tercero la observacin dentro de la muestra. Los factores pueden ser ambos de efectos fijos (se habla entonces de modelo I), de efectos aleatorios (modelo II) o uno de efectos fijos y el otro de efectos aleatorios (modelo mixto). El modelo matemtico de este anlisis es: modelo I modelo II modelo mixto donde es la media global, i o Ai el efecto del nivel i del 1 factor, j o Bj el efecto del nivel j del 2 factor y ijk las desviaciones aleatorias alrededor de las medias, que tambin se asume que estn normalmente distribuidas, son independientes y tienen media 0 y varianza 2. A las condiciones de muestreo aleatorio, normalidad e independencia, este modelo aade la de aditividad de los efectos de los factores. A los trminos ( )ij, (AB)ij, ( B)ij, se les denomina interaccin entre ambos factores y representan el hecho de que el efecto de un determinado nivel de un factor sea diferente para cada nivel del otro factor. Para entender mejor este concepto de interaccin veamos un ejemplo sencillo sobre un anova de dos factores, cada uno con dos niveles: supngase un estudio para analizar el efecto de un somnfero teniendo en cuenta el sexo de los sujetos. Se eligen al azar dos grupos de hombres y otros dos de mujeres. A un grupo de hombres y otro de mujeres se les suministra un placebo y a los otros grupos el somnfero. Se mide el efecto por el tiempo que los sujetos tardan en dormirse desde el suministro de la pldora. Se trata de un anova de dos factores (sexo y frmaco) fijos, cada uno con dos niveles (hombre y mujer para el sexo y somnfero y placebo para el frmaco). Los dos tipos de resultados posibles se esquematizan en la figura

En la figura A se observa que las mujeres tardan ms en dormirse, tanto en el grupo tratado como en el grupo placebo (hay un efecto del sexo) y que los tratados con placebo tardan ms en dormirse que los tratados con somnfero en ambos sexos (hay un efecto del tratamiento). Ambos efectos son fcilmente observables.

Sin embargo en la figura B es difcil cuantificar el efecto del somnfero pues es distinto en ambos sexos y, simtricamente, es difcil cuantificar el efecto del sexo pues es distinto en ambos grupos de tratamiento. En este caso, se dice que existe interaccin. Podra, incluso, darse el caso de que se invirtieran los efectos de un factor para los distintos niveles del otro, es decir, que las mujeres se durmieran antes con el somnfero y los hombres antes con el placebo. La interaccin indica, por tanto, que los efectos de ambos factores no son aditivos: cuando se dan juntos, su efecto no es la suma de los efectos que tienen cuando estn por separado, por lo que, si en un determinado estudio se encuentra interaccin entre dos factores, no tiene sentido estimar los efectos de los factores por separado. A la interaccin positiva, es decir, cuando el efecto de los factores actuando juntos es mayor que la suma de efectos actuando por separado, en Biologa se le denomina sinergia o potenciacin y a la interaccin negativa inhibicin. En el ejemplo de la figura B, se dira que el ser mujer inhibe el efecto del somnfero, o que el ser hombre lo potencia (segn el sexo que se tome como referencia).

Identidad de la suma de cuadrados


La suma de cuadrados total en un anova de 2 vas, es:

(donde para representar las medias se ha usado la convencin habitual de poner un punto (.) en el lugar del subndice con respecto al que se ha sumado) que dividida por sus grados de libertad, abn - 1, estima la varianza 2 en el supuesto de que las ab muestras provengan de una nica poblacin. Se puede demostrar que

que es la llamada identidad de la suma de cuadrados en un anova de dos factores. Los sucesivos sumandos reciben respectivamente el nombre de suma de cuadrados del 1 factor (tiene a -1 grados de libertad y recoge la variabilidad de los datos debida exclusivamente al 1 factor), del 2 factor (con b -1 grados de libertad y recoge la variabilidad de los datos debida exclusivamente al 2 factor), de la interaccin (con (a - 1)(b - 1) grados de libertad, recoge la variabilidad debida a la interaccin) y del error (con ab(n - 1) grados de libertad, recoge la variabilidad de los datos alrededor de las medias de cada muestra). Los resultados de un anlisis de la varianza de dos factores se suelen representar en una tabla como la siguiente: Fuente de variacin 1 factor 2 factor Interaccin GL a-1 b-1 (a - 1)(b 1) SS SSA SSB SSAB MS SSA/(a - 1) SSB/(b - 1) SSAB/[(a - 1)(b 1)]

Error Total

ab(n - 1) abn - 1

SSE SST

SSE/[ab(n - 1)]

Los grados de libertad tambin son aditivos. En ocasiones se aade una primera lnea llamada de tratamiento o de subgrupos cuyos grados de libertad y suma de cuadrados son las sumas de los del primer, segundo factor y la interaccin, que corresponderan a la suma de cuadrados y grados de libertad del tratamiento de un anlisis de una va en que las ab muestras se considerarn como muestras de una clasificacin nica. Para plantear los contrastes de hiptesis hay que calcular los valores esperados de los distintos cuadrados medios.

Contrates de hiptesis en un anlisis de la varianza de dos factores


Del mismo modo que se hizo en el anova de una va, para plantear los contrastes de hiptesis habr que calcular los valores esperados de los distintos cuadrados medios. Los resultados son:

Modelo I
MS MSA MSB MSAB MSE Por lo tanto, los estadsticos MSAB/MSE, MSA/MSE y MSB/MSE se distribuyen como una F con los grados de libertad correspondientes y permiten contrastar, respectivamente, las hiptesis: i) no existe interaccin ( MSAB/MSE) Valor esperado

ii) no existe efecto del primer factor, es decir, diferencias entre niveles del primer factor (MSA/MSE)

iii) no existe efecto del segundo factor ( MSB/MSE)

Si se rechaza la primera hiptesis de no interaccin, no tiene sentido contrastar las siguientes. En este caso lo que est indicado es realizar un anlisis de una va entre las ab combinaciones de tratamientos para encontrar la mejor combinacin de los mismos.

Contraste de hiptesis en un anova de 2 vas


Modelo II MS MSA MSB MSAB MSE Valor esperado

donde son, respectivamente las componentes aadidas por el primer factor, por el segundo y por la interaccin, que tienen la misma forma que los del modelo I, sin ms que cambiar i y j por Ai y Bj, respectivamente. La interaccin se contrasta, como en el modelo I, con MSAB/MSE, si se rechaza la hiptesis nula se contrastaran cada uno de los factores con MSA/MSAB y MSB/MSAB. En un modelo II, como no se est interesado en estimar los efectos de los factores sino slo la existencia de la componente aadida, s tiene sentido contrastar la existencia de la misma para cada factor incluso aunque exista interaccin. Aqu el problema se plantea cuando no se puede rechazar la hiptesis nula y se concluye que no existe interaccin: entonces tanto MSE como MSAB estiman 2, entonces cul se elige para contrastar la componente aadida de los factores?. En principio, parece razonable escoger su media (la media de varios estimadores centrados es tambin un estimador centrado y ms eficiente), sin embargo si se elige MSAB se independiza el contraste para los factores de un posible error tipo II en el contraste para la interaccin. Hay autores que por ello opinan que es mejor usar MSAB, pero otros proponen promediar si se puede asegurar baja la probabilidad para el error tipo II. La media de los cuadrados medios se calcula dividiendo la suma de las sumas de cuadrados por la suma de los grados de libertad. Ejemplo A partir de la siguiente tabla de un anova de 2 factores modelo II, realizar los contrastes adecuados. Fuente de variacin 1 factor 2 factor Interaccin Error G.L. SS MS 78,95 274,5 27,41 23,08

4 315,8 3 823,5 12 328,9 100 2308,0

Total

119 3776,2

Se empezara contrastando la existencia de interaccin: f = 27,41/23,08 = 1,188 como F0,05(12,100) = 1,849 no se puede, al nivel de significacin del 95%, rechazar la hiptesis nula y se concluye que no existe interaccin. Si usamos MSAB para contrastar los factores: 1 factor: f = 78,95/27,41 = 2,880 como F0,05(4,12) = 3,26 no se rechaza la hiptesis nula y se concluye la no existencia de componente aadida por este factor. 2 factor: f = 274,5/27,41 = 10,015 como F 0,05(3,12) = 3,49 se rechaza la hiptesis nula y se acepta la existencia de componente aadida por este factor. El resultado del anlisis es: no existe componente aadida por la interaccin, tampoco por el 1 factor y s existe componente aadida por el 2. La estimacin de esta componente es: como a partir de los grados de libertad de la tabla podemos calcular a = 5, b = 4 y n = 6 resulta que la estimacin de 274,5 - 27,41 = 247,09; por lo tanto 35,7% de componente aadida por el segundo factor. que representa un es

Si se hubiera optado por promediar, los cuadrados medios promediados son (328,9+2308,0)/(12+100)= 23,54 con 112 grados de libertad y hubiera resultado significativo tambin el 1 factor. La salida de un paquete estadstico, p.e. el Statgraphics, para un anova de 2 factores modelo II

Contrastes de hiptesis en un anova de dos vas


Modelo mixto

Supngase el primer factor de efectos fijos y el segundo de efectos aleatorios, lo que no supone ninguna perdida de generalidad, ya que el orden de los factores es arbitrario. MS MSA MSB MSAB MSE Se contrastan la interaccin y el factor aleatorio con el trmino de error, si la interaccin fuera significativa no tiene sentido contrastar el efecto fijo y si no lo fuera, el efecto fijo se contrasta con el trmino de interaccin o con el promedio de interaccin y error. Valor esperado

Ejemplo
Se quiere probar la eficacia de un somnfero estudiando posibles diferencias de la misma por el sexo de los sujetos. Se eligen al azar dos grupos de insomnes varones y otros dos de mujeres y tanto para los hombres como para las mujeres se suministra a un grupo el somnfero y a otro un placebo y se mide, en minutos, el tiempo que tardan en dormirse. Los resultados son: Placebo Somnfero 30 50 45 47 38 50 35 46 25 32 35 32 30 25 30 42 30 15 18 23

Hombre

Mujer

Se trata de un anova de dos factores fijos. Llamamos primer factor a la droga que tiene dos niveles: placebo y somnfero. El segundo factor es el sexo tambin con 2 niveles: hombres y mujeres. El tamao de las muestras es n=5. La tabla de anova es: Fuente de variacin Somnfero Sexo Interaccin Error Total GL 1 1 1 16 19 SS MS

696,2 696,2 105,8 105,8 0,2 0,2 1197,6 74,85 1999,8

Se empieza contrastando la interaccin: f = 0,2/74,85 = 0,0026 que como es menor que F0,05(1,16)=4,49 no se rechaza la hiptesis nula de que no existe interaccin. A continuacin se contrastan los factores: para el somnfero f = 696,2/74,85 = 9,3 que es mayor que 4,49 por lo tanto existe efecto del somnfero y para el sexo f = 105,8/74,85 = 1,41 que como es menor que 4,49 no existe diferencias entre los sexos. La estimacin del efecto del somnfero ser la diferencia entre las medias de los que lo toman y los que tomaron placebo, sin tener en cuenta el sexo, una vez que se ha visto que no tiene efecto. Para analizarlo con un paquete estadstico, p.e. el Statgraphics, se necesita crear un archivo con tres variables

y el resultado, pidiendo la tabla de anova

y la tabla de medias

Por tanto la estimacin del efecto del somnifero es 39,8 - 28,0=11,8 min

Tamaos muestrales desiguales en un anova de dos factores


Aunque los paquetes estadsticos suelen hacer el anova de dos factores, tanto en el caso de tamaos muestrales iguales como desiguales, conviene resaltar que el anlisis es bastante ms complicado en el caso de tamaos desiguales. La complicacin se debe a que con tamaos desiguales hay que ponderar las sumas de cuadrados de los factores con los tamaos muestrales y no resultan ortogonales (su suma no es la suma de cuadrados total) lo que complica no slo los clculos sino tambin los contrastes de hiptesis. Por esto, cuando se disea un anlisis factorial de la varianza se recomienda disearlo con tamaos iguales. Hay ocasiones en que, sin embargo, por la dificultad de obtener los datos o por prdida de alguno de ellos es inevitable recurrir al anlisis con tamaos desiguales. Algunos autores recomiendan, incluso, renunciar a alguno de los datos para conseguir que todas las muestras tengan el mismo tamao. Evidentemente esta solucin es delicada pues podra afectar a la aleatoriedad de las muestras.

Casos particulares: Anova de dos factores sin repeticin


En ciertos estudios en que los datos son difciles de obtener o presentan muy poca variabilidad dentro de cada subgrupo es posible plantearse un anova sin repeticin, es decir, en el que en cada muestra slo hay una observacin (n=1). Hay que tener en cuenta que, como era de esperar con este diseo, no se puede calcular SSE. El trmino de interaccin recibe el nombre de residuo y que, como no se puede calcular MSE, no se puede contrastar la hiptesis de existencia de interaccin. Esto ltimo implica tambin que: a) en un modelo I, para poder contrastar las hiptesis de existencia de efectos de los factores no debe haber interaccin (si hubiera interaccin no tenemos trmino adecuado para realizar el contraste). b) en un modelo mixto existe el mismo problema para el factor fijo. Bloques completos aleatorios Otro diseo muy frecuente de anova es el denominado de bloques completos aleatorios diseado inicialmente para experimentos agrcolas pero actualmente muy extendido en otros campos. Puede considerarse como un caso particular de un anova de dos factores sin repeticin o como una extensin al caso de k muestras de la comparacin de medias de dos muestras emparejadas. Se trata de comparar k muestras emparejadas con respecto a otra variable cuyos efectos se quieren eliminar. Por ejemplo, en un ensayo clnico para comparar los efectos de dos analgsicos y un placebo en el que el efecto se mide por el tiempo que tarda en desaparecer una cefalea. Si se hicieran tres grupos de enfermos y a cada uno de ellos se le suministrara un tratamiento distinto, habra una gran variacin individual en las respuestas, debido a que no todas las cefaleas son de la misma intensidad y no todos los individuos tienen la misma percepcin del dolor, que dificultara el hallazgo de diferencias entre los tratamientos. Esta dificultad desaparece si se aplican los tres tratamientos a los mismos individuos en diferentes episodios de cefalea. Se ha emparejado a cada individuo consigo mismo, con lo que se elimina la variacin individual. En este diseo a los datos de cada individuo se les denomina bloque y los datos se representan en una tabla de doble entrada anloga a la del anova de clasificacin nica en la que las a columnas son los tratamientos y las b filas los bloques, el elemento Yij de la tabla corresponde al tratamiento i y al bloque j. Las hiptesis que se pueden plantear son: (igualdad de medias de tratamientos) y tambin, aunque generalmente tiene menos inters: (igualdad de medias de bloques) A pesar del parecido con la clasificacin nica, el diseo es diferente: all las columnas eran muestras independientes y aqu no. Realmente es un diseo de dos

factores, uno de efectos fijos: los tratamientos, y el otro de efectos aleatorios: los bloques, y sin repeticin: para cada bloque y tratamiento slo hay una muestra. El modelo aqu es: donde i es el efecto del tratamiento i y Bj el del bloque j. No hay trmino de interaccin ya que, al no poder contrastar su existencia no tiene inters. Al ser un modelo mixto exige la asuncin de no existencia de interaccin y los contrastes se hacen usando el trmino MSE como divisor.

Ejemplo 3
En el ensayo clnico de los analgsicos descrito anteriormente se encuentran los siguientes resultados: Placebo 35 40 60 50 50 Analgsico A 20 35 50 40 30

<Analgsico
B 22 42 30 35 22

La tabla de anova correspondiente: Fuente de variacin Analgsico (tratamiento) Paciente (bloque) Error Total G.L. 2 4 8 14 SS 748,8 767,6 409,2 1925,6 MS 374,4 191,9 51,15

Los contrastes de hiptesis se hacen: para el analgsico f=374,4/51,15=7,32 que como es mayor que F0,05(2,8)=4,46 existe un efecto del tratamiento. para los bloques f=191,9/51,15=3,75 que es menor que F0,05(4,8)=3,84 por tanto no hay componente aadida por los pacientes. El archivo para analizarlo con en un paquete estadstisco

y el resultado

Anlisis de la varianza de ms de dos factores


Es una generalizacin del de dos factores. El procedimiento, por lo tanto, ser: 1) encontrar el modelo, teniendo en cuenta si los factores son fijos o aleatorios y todos los trminos de interaccin. 2) subdividir la suma de cuadrados total en tantos trminos ortogonales como tenga el modelo y estudiar los valores esperados de los cuadrados medios para encontrar los estadsticos que permitan realizar los contrastes de hiptesis. Un modelo de tres factores fijos, por ejemplo, ser:

Los tres primeros subndices para los factores y el cuarto para las repeticiones, ntese que aparecen trminos de interaccin de segundo y tercer orden, en general en un modelo de k factores aparecen trminos de interaccin de orden 2, 3,... hasta k y el nmero de trminos de interaccin de orden n ser el nmero combinatorio Ck;n. Este gran nmero de trminos de interaccin dificulta el anlisis de ms de dos factores, ya que son difciles de interpretar y complican los valores esperados de los cuadrados medios por lo que tambin resulta difcil encontrar los estadsticos para los contrastes. Por estas razones no se suele emplear este tipo de anlisis y cuando interesa estudiar varios factores a la vez se recurre a otros mtodos de anlisis multivariante.

CORRELACION Y MODELOS DE REGRESION LINEAL


V. Abraira Bibliografa: V. Abraira, A. Prez de Vargas Mtodos Multivariantes en Bioestadstica. Ed. Centro de Estudios Ramn Areces. 1996. D.G. Kleinbaum, L.L. Kupper, K.E. Muller Applied Regression Analysis and Other Multivariables Methods. PWS-KENT Publishing Company. 1988. Generalizacin del concepto de fdp a variables multidimensionales La funcin densidad de probabilidad (fdp) para una variable aleatoria es una funcin a partir de la cual se puede calcular la probabilidad de los distintos valores de la variable. En el caso discreto:

en el caso continuo:

Esto se puede generalizar a ms de una variable. Para n variables aleatorias X1, X2, ..., Xn se llama fdp conjunta a una funcin n-dimensional f(x1,x2,...,xn) a partir de la cual se puede calcular la probabilidad de los distintos valores de las variables. En el caso discreto:

en el caso continuo:

Del mismo modo que en el caso unidimensional estas funciones estn sometidas a las condiciones:

discreta continua Ejemplo 1: En una cierta poblacin se definen dos variables discretas: X1= hipertensin arterial y X2= consumo excesivo de sal, ambas con los valores 0=no y 1=s. La fdp conjunta podra ser X1 X2 0 1 0 0,4 0,3 1 0,1 0,2

f(0,0)=0,4 quiere decir que la probabilidad de que un individuo no sea hipertenso (X1=0) y no tenga un consumo excesivo de sal (X2=0) es 0,4. Obsrvese que la suma de los valores de la fdp es 1. A partir de esta fdp se puede calcular p.e. la probabilidad de que un individuo sea hipertenso como 0,1+0,2=0,3. En general dada una fdp conjunta (para simplificar la notacin consideremos slo dos variables X e Y) se pueden calcular las denominadas fdp marginales como Caso discreto Caso continuo y simtricamente para la variable Y. En el ejemplo anterior:

X1 X1 0 1 f1(X1) 0 0,4 0,3 0,7 1 0,1 0,2 0,3 f2(X2) 0,5 0,5

Se definen tambin las fdp condicionadas

que permiten calcular las respectivas probabilidades condicionadas. En el ejemplo anterior se puede construir, p.e., la fdp de la hipertensin (X1) condicionada al consumo no excesivo de sal (X2=0). X1 0 1 0,4/0,5=0,8 0,1/0,5=0,2

Obsrvese que como esto es una fdp, la suma de sus valores debe ser 1. 0,8 es la probabilidad de que un individuo no sea hipertenso dado que no tiene un consumo excesivo de sal.

Independencia de dos variables aleatorias


Dos v.a. X e Y se dice que son estocsticamente independientes si y slo si f(x,y)=f1(x).f2(y). En caso contrario se dice que estn correlacionadas. Son independientes las variables del ejemplo anterior? Como f1(0)=0,7 y f2(0)=0,5 f1(0). f2(0)=0,35 no es igual a f(0,0)=0,4 no son independientes. Segn la definicin de fdp condicionada, si X e Y son independientes

que coincide ms con la idea intuitiva de independencia. Cundo diramos que la hipertensin es independiente del consumo de sal? Cuando la probabilidad de ser hipertenso es la misma en los consumidores de sal: f(x1|X2=1), en los no consumidores: f(x1|X2=0) y en la poblacin general: f1(x1). En el ejemplo, la probabilidad de ser hipertenso en la poblacin general f1(1)=0,3 y en los consumidores de sal f(X1=1|X2=1)=0,2/0,5=0,4 por lo tanto tampoco son independientes desde esta perspectiva (evidentemente, ya que ambas son equivalentes).

Diramos que el consumo de sal y la hipertensin estn correlacionados o asociados, o que la hipertensin depende del consumo de sal o, en terminologa epidemiolgica, que el consumo de sal es un factor de riesgo para la hipertensin. En cualquier caso, la correlacin no implica dependencia causal. El problema, en la prctica, es que no se suelen conocer las fdp's. A partir de una muestra slo se puede obtener una estimacin de la misma, adems tambin se desean obtener estimaciones de la fuerza de la asociacin. Los modelos de regresin son modelos matemticos de dependencia entre variables que permiten resolver ambos problemas. Hay tantos modelos como funciones matemticas de dependencia se puedan concebir, los ms usados son lineal, polinmico, logstico, de Poisson, ...

Funcin lineal
Se llama funcin lineal de una variable, a una funcin de la forma

0: ordenada en el origen (valor de Y cuando X=0) 1: pendiente (cambio de Y al aumentar X en 1)

Modelo de regresin lineal simple Es un modelo de regresin lineal entre dos variables

es un modelo probabilstico, que tambin se puede escribir

A la variable Y se la denomina variable dependiente y a X independiente. Modelo I de regresin lineal se asume que

i) X no es una variable aleatoria. ii) para cada valor xi de X existe una v.a. Y|xi cuya media est dada por el modelo. iii) todas las variables Y|xi son normales, independientes y con igual varianza. Ejemplo 2: Se quiere estudiar la asociacin entre consumo de sal y tensin arterial. A una serie de voluntarios se les administra distintas dosis de sal en su dieta y se mide su tensin arterial un tiempo despus. Variable X: gr. de sal diarios (no aleatoria) Variable Y: presin arterial en mm. de Hg asumimos que para cada valor de X, Y no est determinada, sino que

0 presin arterial media de los que no toman nada de sal. 1 cambio de la media de presin arterial por aumentar 1 gr el consumo de sal, asumiendo que es constante. Si fuera 0, quiere decir que la presin no cambia con el consumo de sal, por tanto ambas variables son independientes, un valor distinto de cero indica que estn correlacionadas y su magnitud mide la fuerza de la asociacin. A partir de una muestra aleatoria, la teora estadstica permite: i) estimar los coeficientes i del modelo (hay dos procedimientos: mnimos cuadrados y mxima verosimilitud que dan el mismo resultado). ii) estimar la varianza de las variables Y|xi llamada cuadrados medios del error y representada por s2 o MSE. A su raz cuadrada se le llama error estndar de la estimacin. iii) conocer la distribucin muestral de los coeficientes estimados, tanto su forma (t) como su error estndar, que permite hacer estimacin por intervalos como contrastes de hiptesis sobre ellos. Ejemplo 3 : Para el diseo del ejemplo 2 una muestra produce los siguientes datos: X (sal) 1,8 2,2 3,5 4,0 4,3 5,0 Y (Presin) 100 98 110 110 112 120

La "salida" de un paquete estadstico es:

86,371 presin arterial media sin nada de sal. 6,335 aumento de presin por cada gr de sal; como es distinto de 0 indica correlacin. La pregunta es podra ser 0 en la poblacin? En trminos de contrastes de hiptesis H0 : 1 = 0 H1 : 1 0 segn iii) aqu t=7,546 con un valor p=0,002 se rechaza H0. Para hacer estimacin por intervalos de la fuerza de la asociacin o el efecto

en este ejemplo para

al 95%

6,335 2,776x0,840 = (4,004 8,666) y del mismo modo se ha calculado en la salida anterior, aunque en general tiene menos inters, para 0

Interpretacin del contraste

=0

Si no se puede rechazar esta hiptesis, puede ocurrir que: i) el modelo sea inapropiado, bien porque las variables son independientes, bien porque la dependencia no sea lineal. Hay que investigar otros modelos. ii) se cometa error tipo II, el modelo es adecuado, pero el tamao de la muestra es insuficiente. Hay que calcular la potencia. Si se rechaza la hiptesis puede ocurrir que: i) el modelo es adecuado ii) se cometa error tipo I

iii) exista una relacin no lineal, pero los datos son compatibles con un modelo lineal. Anlisis de residuos. Inferencias sobre la regresin A veces interesa hacer inferencias sobre la propia regresin, es decir sobre Y|xi para cualquier valor de xi. Si a los valores xi de la muestra se les aplica la ecuacin estimada, se obtiene una estimacin de Y|xi

cuya distribucin muestral tambin es conocida. A veces se representan los intervalos de confianza para la regresin en la denominada banda de confianza de la regresin. En la figura se presenta la banda de confianza para los datos del ejemplo 3

Anlisis de la varianza de la regresin


Es un modo alternativo de hacer contrastes sobre el coeficiente 1. Consiste en descomponer la variacin de la variable Y de dos componentes: uno la variacin de Y alrededor de los valores predichos por la regresin y otro con la variacin de los valores predichos alrededor de la media. Si no existe correlacin ambos estimadores estimaran la varianza de Y y si la hay, no. Comparando ambos estimadores con la prueba de la F se contrasta la existencia de correlacin. Para el ejemplo 3

Observese que el valor de p es igual que antes (son contrastes equivalentes) y el valor de F es el cuadrado del de t. Ejemplo 4: Se quiere investigar el efecto de la ingestin masiva de vitamina C sobre el hgado de las cobayas. Se eligen dos grupos de 4 cobayas, a uno se le administra y al otro no. Se sacrifica a los animales y se mide la concentracin de lpidos en el hgado. Grupo Tratado control (=0) (=1) 23,8 13,8 15,4 9,3 21,7 17,2 18,0 15,1 Hay diferencia entre ambos grupos? Se podra plantear un contraste sobre medias con la t de Student.

Tambin se puede plantear un modelo de regresin entre la variable grupo (X=0 control y X=1 tratado) y la variable lpido (Y)

Interpretar los coeficientes Qu es mejor?

Modelo II de regresin lineal


Se asume que las variables X e Y son ambas variables aleatorias y que su fdp conjunta es normal bivariante.

La normal bivariante es una extensin a dos dimensiones de la normal univariante. Su representacin grfica es una campana tridimensional. Depende de 5 parmetros: x, y, x, y y que son respectivamente las medias, las desviaciones tpicas de X e Y, y su coeficiente de correlacin. Dicho coeficiente se define

como Siendo el numerador la llamada covarianza

Las propiedades de la normal bivariante son: i) las fdps marginales son ambas normales con medias x, y y desviaciones tpicas x, y respectivamente. ii) las fdps condicionadas f(y|x) son tambin normales con medias y varianzas

obsrvese que la media depende linealmente de x, es decir, tambin se puede escribir

iii) simtricamente las fdps f(x|y) A partir de una muestra aleatoria se pueden estimar los coeficientes por los mismos procedimientos que en el modelo I y se obtienen los mismos resultados!! Ahora, sin embargo, tambin se obtiene un estimador para el coeficiente de correlacin (la "famosa" r) que no tiene sentido en el modelo I.

Propiedades del coeficiente de correlacin


i) nmero sin dimensiones entre -1 y 1. ii) si las variables son independientes =0. La inversa no es necesariamente cierta, aunque si las variables son normales bivariantes s. iii) si las variables estuvieran relacionadas linealmente =1 Un contraste que interesa realizar en un modelo II es H0: =0. Como

este contraste es totalmente equivalente al realizado sobre dicho coeficiente, aunque tambin hay tablas basadas en que una cierta transformacin (de Fisher) de r se distribuye aproximadamente como una normal. Qu mide r? Se puede demostrar una relacin algebraica entre r y el anlisis de la varianza de la regresin de tal modo que su cuadrado (coeficiente de determinacin) es la proporcin de variacin de la variable Y debida a la regresin. En este sentido, r2 mide el poder explicatorio del modelo lineal. Qu no mide r? - no mide la magnitud de la pendiente ("fuerza de la asociacin")

- tampoco mide lo apropiado del modelo lineal

Potencia de los contrastes en regresin Los contrastes se realizan en base al conocimiento de la distribucin muestral del estadstico usado. En el caso de la regresin, las distribuciones usadas son la normal (para r) y la t de Student (para los coeficientes). Slo para la normal es

fcil el clculo de la potencia, pero sabemos que la t tiende asintticamenta (para muestras grandes (>30 en la prctica) a la normal. Usaremos esto. 1- = p(rechazar Ho| Ho falsa) Supongamos que

asumamos normalidad qu potencia tiene el contraste si se necesita concretar H1)? Cundo rechazamos H0 al 95%? Cuando

fuera 5 (recordar que

en nuestro caso mayor que 4,92. Como no lo es, no rechazamos H0. Hay que calcular la probabilidad de encontrar

si

fuera 5. Calculamos

y lo miramos en la tabla de la normal 1- =0,512=51,2%.

Modelo de regresin lineal mltiple


Las variables biolgicas suelen presentar multicorrelaciones. P.e. para estudiar el efecto del consumo de grasas saturadas en el nivel del colesterol en sangre, se puede plantear un modelo de RLS, sin embargo el nivel de colesterol puede depender tambin de otras variables: consumo de otras substancias, ejercicio realizado, edad, factores metablicos genticos, etc. Si, para cada valor del consumo de grasas, las dems variables se distribuyen aleatoriamente, la estimacin por RLS es adecuada y la variacin "debida" a las otras variables estara incluida en la variacin aleatoria alrededor de la regresin, pero en caso contrario la estimacin sera incorrecta, si p.e., las costumbres dietticas variaran con la edad y sta influyera en el colesterol, una parte no cuantificada de la variacin del colesterol que el modelo atribuye al consumo de grasas sera "debida" a la edad. La regresin lineal mltiple (RLM) es un modelo que permite estudiar estos efectos. El modelo es

0: media de Y cuando todas las Xi son cero (cuando no tiene sentido Xi=0, p.e. edad, se interpreta como la media de Y que no depende de las Xi). i: cambio en la media de Y cuando Xi aumenta una unidad permaneciendo constantes las dems. Las asunciones del modelo son una generalizacin de las de RLS y dado el resultado de RLS no vamos a distinguir entre modelo I y II. La estimacin de los coeficientes tambin se hace por mnimos cuadrados o mxima verosimilitud y se obtienen los mismos resultados. Estos resultados, usando notacin matricial, son (incluyen como caso particular la RLS):

siendo la matriz columna de coeficientes estimados, Y la matriz columna de observaciones de la variable dependiente y X la denominada matriz de diseo

es decir la matriz de datos con una primera columna de 1's. Estos coeficientes se distribuyen como una normal multivariante cuya matriz de medias son los verdaderos coeficientes y matriz de varianzas-covarianzas

un buen estimador de

es

que se distribuye como una

con n - (k+1) grados de libertad.

Estas frmulas ponen de manifiesto unas limitaciones al resolver estos modelos. Para ello hay que invertir una matriz y no todas las matrices pueden invertirse (singulares). En dos situaciones no se puede: 1. El nmero de observaciones (n), es menor o igual que el nmero de variables independientes (k). 2. Una variable independiente es combinacin lineal de otra(s) o constante (colinealidad ).

Estimacin y contrastes de hiptesis:

Usando la teora resumida en el apartado anterior, los intervalos de confianza para los coeficientes se construyen igual que en RLS.

y los contrastes de hiptesis H0: I = 0 H1: i 0 se realizan con el estadstico

Ejemplo 5 Dada una muestra hipottica de 20 pacientes en los que se ha recogido los siguientes datos: nivel de colesterol en plasma sanguneo (en mg/100 ml), edad (en aos), consumo de grasas saturadas (en gr/semana) y nivel de ejercicio (cuantificado como 0: ningn ejercicio, 1: ejercicio moderado y 2: ejercicio intenso), realizar el ajuste a un modelo lineal entre el nivel de colesterol y las dems variables. Tabla de datos

PacienteColesterolEdadGrasasEjerci. 1 350 80 35 0 2 190 30 40 2 3 263 42 15 1 4 320 50 20 0 5 280 45 35 0 6 198 35 50 1 7 232 18 70 1 8 320 32 40 0 9 303 49 45 0 10 220 35 35 0 11 405 50 50 0 12 190 20 15 2 13 230 40 20 1 14 227 30 35 0 15 440 30 80 1 16 318 23 40 2 17 212 35 40 1 18 340 18 80 0 19 195 22 15 0 20 223 41 34 0
La salida del programa de ordenador es

Interpretemos esta "salida"

Anlisis de la varianza de la regresin


De un modo similar a RLS se puede descomponer la variacin de la variable Y de dos componentes: uno la variacin de Y alrededor de los valores predichos por la regresin y otro con la variacin de los valores predichos alrededor de la media. Si el modelo lineal no es adecuado, ambos estimadores estimaran la varianza de Y y si es adecuado no. Comparando ambos estimadores con la prueba de la F se contrasta lo adecuado del modelo. Para el ejemplo 5

Obsrvese que, a diferencia de la RLS, este contraste no es equivalente al realizado sobre los coeficientes. Se define tambin el coeficiente de determinacin como el cociente entre la suma de cuadrados de la regresin y la suma de cuadrados total (R2 = SSR/SST) y a su raz cuadrada (R) se le denomina coeficiente de correlacin mltiple.

Adems de esta prueba global del modelo basada en el anlisis de la varianza, se pueden plantear pruebas parciales sobre si una variable, o un grupo de variables, aadidas a un modelo previo lo mejoran.

Se tiene un modelo

y se aade una nueva variable X*, con el primer modelo se tiene una SSR(Y,X1,...,Xk) y con el nuevo otra SSR(Y,X1,...,Xk,X*), la diferencia entre ambas ser lo que ha mejorado la suma de cuadrados por aadir la variable X* y tendr 1 grado de libertad. SSR(Y,X*|X1,...,Xk) = SSR(Y,X1,...,Xk,X*) - SSR(Y,X1,...,Xk) = SSE(Y,X1,...,Xk) SSE(Y,X1,...,Xk,X*) y el cociente

llamado F parcial, tendr una distribucin F con 1 y n-(k+2) grados de libertad en la hiptesis nula de que la nueva variable X* no mejore el modelo. Evidentemente este contraste es totalmente equivalente a contrastar que el coeficiente * de la nueva variable es cero con la prueba basada en la t. Del mismo modo, si al modelo original se le aaden p variables X1*,...,Xp*, se puede definir SSR(Y,X1*,...,Xp*|X1,...,Xk) = SSR(Y,X1,...,Xk,X1*,...,Xp*) - SSR(Y,X1,...,Xk) = SSE(Y,X1,...,Xk) - SSE(Y,X1,...,Xk,X1*,...,Xp*) que tiene p grados de libertad, y el cociente

se distribuye como una Fp,n-(k+p+1) en la hiptesis nula de que las nuevas p variables X1*, ..., Xp* no mejoren el modelo con respecto a las k variables originales y permite contrastar dicha hiptesis. Ejemplo 6 Con los datos del ejemplo 5, realizar el contraste de la F parcial para aadir la variable ejercicio a un modelo que slo contenga la edad y las grasas consumidas.

La tabla de anova correspondiente al modelo con EDAD y GRASAS es

Por lo tanto, comparando esta tabla con la del modelo completo SSR(COLEST,EJERC|GRASAS,EDAD) = SSR(COLEST,GRASAS,EDAD,EJERC) - SSR(COLEST,GRASAS,EDAD) = 49275,94 48940,18 = 335,76 por tanto Fpar=335,76/3381,83=0,099 que se distribuye como una F1,16. Como F0,05(1,16) = 4,49 no se puede rechazar la hiptesis de que EJERC no mejora el modelo. Obsrvese que esta Fpar es exactamente el cuadrado del valor de t correspondiente al coeficiente de EJERC en el modelo con las tres variables independientes.

Variables indicadoras ("dummy")


En los modelos de RLM la linealidad se asume. Esto, p.e. para la variable EJERC del ejemplo anterior, quiere decir que el efecto sobre el colesterol de hacer ejercicio intenso (EJERC=2) con respecto a no hacerlo (EJERC=0) es el doble que el del ejercicio moderado (EJERC=1). Es razonable esta asuncin? y para la variable FUMA codificada como 0: no fuma, 1:fumador y 2:ex-fumador? Una solucin podra ser crear tantas variables como categoras. No sirve porque seran combinacin lineal y el modelo es irresoluble. La solucin es crear tantas variables como categoras menos 1 (en los ejemplos anteriores 2) denominadas variables indicadoras con el siguiente esquema X1 0 X2 0

No-fumador

Fumador Ex-fumador

1 0

0 1

Las variables X1 y X2 ya no son combinacin lineal y, por tanto, el modelo es resoluble. El modelo quedara

0 es es Y 1 es 2 es

Y cuando X1 y X2 son ambas cero, es decir, para los no-fumadores; cuando X1 es 1 y X2 es 0, es decir fumadores, por lo tanto lo que cambia Y entre fumadores y no-fumadores y del mismo modo lo que cambia Y entre ex-fumadores y no-fumadores.

Con este esquema de codificacin los coeficientes tienen una clara interpretacin cuando, como en este caso, una de las categoras (no-fumador) se quiere usar como referencia para las dems. A dicha categora se le asigna el valor cero para todas las variables indicadoras. Sin embargo, para variables en las que no haya una categora que sea natural usarla como referencia, por ejemplo genotipos, lugar de residencia, etc., es ms til otro esquema de codificacin. Para discutirlo supngase la variable lugar de residencia con cuatro lugares: A, B, C y D. Se crearn tres variables indicadoras (siempre una menos que categoras) con el siguiente esquema X1 -1 1 0 0 X2 -1 0 1 0 X3 -1 0 0 1

A B C D

El modelo quedar

y por lo tanto
Y Y Y Y

= = = =

0 0 0 0

- 1 - 2 - 3 = Y|A para los residentes en A + 1 = Y|B para los residentes en B + 2 = Y|C para los residentes en C + 3 = Y|D para los residentes en D

si se suman las 4 ecuaciones:


0

=(

Y|A

Y|B

Y|C

Y|D

)/4 por lo tanto

0 es la media de Y en los cuatro lugares de residencia 1 la diferencia de los residentes en B con respecto a la media 2 la diferencia de los residentes en C con respecto a la media y 3 la diferencia de los residentes en D con respecto a la media y, evidentemente, 1 - 2 - 3 la diferencia de los residentes en A con respecto a la media. De modo que a diferencia del esquema anterior, se usa como nivel de referencia la media en todas las categoras en lugar de una de ellas.

Otro posible esquema de codificacin que a veces se usa en la literatura es X1 A B C D 1 0 0 0 X2 1 1 0 0 X3 1 1 1 0

y queda para el lector, a modo de ejercicio, la interpretacin de los coeficientes de regresin en este caso. Conviene destacar que estas variables indicadoras no tienen ningn sentido por s solas y por, lo tanto, deben figurar en los modelos y se debe contrastar su inclusin siempre en bloque, usando la F del modelo completo si slo estn dichas variables en el modelo, o la F parcial correspondiente a las mismas si hay ms variables. Ejercicio propuesto : Para los datos del Ejemplo 5, crear "dummys" para el ejercicio (con qu esquema?) y contrastar (con la F parcial) si estas variables mejoran el modelo que slo contiene edad y grasas. Interpretar los coeficientes. Ejemplo 7: Considrense los siguientes datos, procedentes de una muestra hipottica, sobre presin arterial en cm de Hg y "status" de fumador, codificado como 0: no-fumador, 1: fumador y 2: ex-fumador. Discutir el modelo de regresin entre presin arterial y "status" de fumador y estimar por intervalos la presin arterial media segn el "status" de fumador, a partir de los resultados del modelo ms adecuado. Paciente 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 Presin arte. Fumador 15,0 0 19,0 2 16,3 1 22,0 1 18,0 2 19,8 0 23,2 1 14,4 0 20,3 2 22,0 1 20,5 2 19,0 2 12,7 0 14,0 0 11,8 0 11,2 2 14,0 0 19,5 1 22,3 1 15,0 0 12,6 2 16,4 0 13,5 2 13,7 1

Los resultados de un modelo entre presin arterial y "status" de fumador tal y como est codificado en la tabla son:

En este caso de una nica variable independiente, el contraste sobre el modelo global con la F es equivalente al realizado con la t sobre el coeficiente 1 y con ninguno se puede rechazar la hiptesis nula (p=0,250) de no dependencia. Es decir, analizado de este modo no hay dependencia entre ambas variables. Si se crean dos variables indicadoras (FUMA y EX_FUMA) con el primer esquema discutido antes la tabla de datos queda PACIEN 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 PRE_AR 15.0 19.0 16.3 22.0 18.0 19.8 23.2 14.4 20.3 22.0 20.5 19.0 12.7 14.0 11.8 11.2 14.0 19.5 22.3 15.0 12.6 16.4 13.5 13.7 FUMADOR FUMA 0 0 2 0 1 1 1 1 2 0 0 0 1 1 0 0 2 0 1 1 2 0 2 0 0 0 0 0 0 0 2 0 0 0 1 1 1 1 0 0 2 0 0 0 2 0 1 1 EX_FUMA 0 1 0 0 1 0 0 0 1 0 1 1 0 0 0 1 0 0 0 0 1 0 1 0

y el modelo entre PRE_AR y FUMA y EX_FUMA

Para contrastar si la presin arterial depende del "status" de fumador, deber usarse el contraste basado en la F (p=0,018) y por lo tanto al nivel de significacin habitual =0,05 se rechaza la hiptesis nula de no dependencia. A pesar de que el coeficiente para EX_FUMA no es significativamente distinto de 0 (p=0,220), se mantiene en el modelo porque FUMA no tiene sentido por s sola. Obsrvese que usando las variables indicadoras se ha encontrado una dependencia que antes no se haba puesto de manifiesto, debido a la falta de linealidad para los cdigos usados. La estimacin puntual de la presin arterial media de los no-fumadores ( 0 en el modelo) es 14,789 con un error estndar estimado de 1,07 y, como t0,025(21) = 2,08, su intervalo de confianza al 95% es 14,789 2,08x1,07 = (12,563 17,014). La estimacin del aumento medio de la presin arterial en los fumadores ( 1) es 5,068 que es significativamente distinto de cero (p=0,005) y la estimacin del aumento medio de la presin arterial en los ex-fumadores ( 2) es 1,974 pero no es significativamente distinto de cero (p=0,220). Para realizar la estimacin por intervalos de la presin media en fumadores ( 0+ 1) y ex-fumadores ( 0 + 2) se necesita estimar sus respectivas varianzas

var( 0 + 1) = var( 0) + var( 1) + 2cov( = 1,473 EE(


0

, 1) = 1,145 + 2,618 - 2 x 1,145

+ 1) = 1,214
0

var( 0 + 2) = var( 0) + var( 2) + 2cov( = 1,289 EE(


0

, 2) = 1,145 + 2,434 - 2 x 1,145

+ 2) = 1,135

Por lo tanto los intervalos de confianza al 95% para la presin arterial media de fumadores y ex-fumadores son fumadores: (14,789+5,068) 2,08x1,214 = (17,332 22,382) ex-fumad : (14,789+1,974) 2,08x1,135 = (14,402 19,124) recordemos que para no-fumadores se haba obtenido no-fumad : 14,789 2,08x1,07 = (12,563 17,015) y que la diferencia entre no-fumadores y ex-fumadores no es significativa, mientras que la diferencia entre no-fumadores y fumadores s lo es

Interaccin y confusin en la regresin


Los modelos de regresin pueden usarse con dos objetivos: 1) predictivo en el que el inters del investigador es predecir lo mejor posible la variable dependiente, usando un conjunto de variables independientes y 2) estimativo en el que el inters se centra en estimar la relacin de una o ms variables independientes con la variable dependiente. En el ejemplo desarrollado en los apartados anteriores, el inters podra ser encontrar el modelo que mejor prediga el nivel de colesterol en sangre, en funcin de las otras variables (objetivo 1) o simplemente cuantificar la relacin entre el consumo de grasas y dicho nivel de colesterol (objetivo 2). El resultado de un modelo predictivo es el modelo mismo, mientras que en un modelo estimativo es la estimacin del coeficiente de la variable de inters. El segundo objetivo es el ms frecuente en estudios etiolgicos en los que se trata de encontrar factores determinantes de una enfermedad o un proceso. La interaccin y la confusin son dos conceptos importantes cuando se usan los modelos de regresin con el segundo objetivo, que tienen que ver con la interferencia que una o varias variables pueden realizar en la asociacin entre otras. Existe confusin cuando la asociacin entre dos variables difiere significativamente segn que se considere, o no, otra variable, a esta ltima variable se le denomina variable de confusin para la asociacin. Existe interaccin cuando la asociacin entre dos variables vara segn los diferentes niveles de otra u otras variables. Aunque en una primera lectura pueden parecer similares, conviene distinguir claramente entre ambos fenmenos. En el

ejemplo 5 la edad no presenta una correlacin significativa con el nivel de colesterol si no se considera el consumo de grasas, mientras que si se considera dicho consumo, s lo presenta, en este caso el consumo de grasas es una variable de confusin para la asociacin entre colesterol y edad. Para que exista confusin no es necesario que exista un cambio tan drstico (la correlacin es significativa en un caso y no lo es en el otro), tambin puede ocurrir que, an siendo significativa en ambos casos, cambie el coeficiente de regresin. Evidentemente la mejor estimacin del coeficiente es la que se obtiene del modelo en que figura la variable de confusin, en el ejemplo, la mejor estimacin del coeficiente correspondiente a la edad es la del modelo con edad y consumo de grasas. En el mismo ejemplo, si la asociacin entre la edad y el nivel de colesterol fuera diferente para los individuos que realizan ejercicio que para los que no lo realizan, se dira que, para el nivel de colesterol, existe interaccin entre la edad y el ejercicio realizado. En este caso no existe una nica estimacin del coeficiente de la variable de inters, sino que habra una estimacin para cada nivel de la otra variable, es decir y en el ejemplo, una estimacin de la relacin entre el nivel de colesterol y la edad para los individuos que realizan ejercicio y otra distinta para los que no lo realizan. Veamos estos conceptos sobre los modelos. El modelo ms sencillo para estudiar la asociacin entre una variable Y y otra variable X1 es
Y

X1

donde 1 cuantifica la asociacin: es el cambio en Y por unidad de cambio en X1. Se dice que X2 es una variable de confusin para esta asociacin, si el modelo
Y

X1 +

X2

produce una estimacin para 1 diferente del modelo anterior. Evidentemente esta definicin se puede ampliar a un conjunto de variables, se dice que las variables X2, ..., Xk son variables de confusin si la estimacin de 1 obtenida por el modelo
Y

X1 +

X2 + ... +

Xk

es diferente de la obtenida en el modelo simple. En ambos casos se dice que la estimacin de 1 obtenida en los modelos mltiples est controlada o ajustada por X2 o por X2 ,..., Xk Contrastar la existencia de confusin requiere, por lo tanto, comparar los coeficientes de regresin obtenidos en dos modelos diferentes y si hay diferencia, existe la confusin, en cuyo caso la mejor estimacin es la ajustada. Para dicha comparacin no se precisa realizar un contraste de hiptesis estadstico ya que aunque la diferencia encontrada sea debida al azar, representa una distorsin que la estimacin ajustada corrige. Ser el investigador quin establezca el criterio para decidir cuando hay diferencia. Ntese que se est hablando de diferencia en la estimacin, que puede afectar tanto al propio coeficiente como a su error estndar (lo habitual es considerar que existe confusin cuando el coeficiente o su error estndar cambian en ms del 10%). El modelo ms sencillo que hace explcita la interaccin entre dos variables X1 y X2 es
Y

X1 +

X2 +

X1 X2

En este modelo, el valor de


Y

para unos valores determinados x1, x2 de X1, X2 es

x 1+

x2+

x1x2

y para los valores x1 + 1 y x2 Y=0+ + 3 x2


1

(x1+ 1) +

x2+

(x1+ 1) x2 =

x1+

x2 +

x1x2

restando ambas se encuentra el cambio en manteniendo fijo X2


1

por una unidad de cambio en X1

x2
Y

que es diferente para cada valor x2 de X2. Del mismo modo, el cambio en una unidad de cambio en X2 manteniendo fijo X1 es
2

por

+ 3 x1

Por lo tanto, contrastar la existencia de interaccin entre X1 y X2 es contrastar si el coeficiente 3 es cero (no hay interaccin), o distinto de cero (existe interaccin). En caso de que exista interaccin los coeficientes 1 y 2 por s solos no significan nada y la asociacin de las variables X1 y X2 con Y estar cuantificada por las expresiones anteriores. Es obvio que primero debe contrastarse la interaccin y despus, en caso de que no exista, la confusin. Ejemplo 8 En un trabajo para estudiar la relacin de la presin arterial sistlica con el consumo de tabaco y caf, codificadas ambas como 0: no y 1: s, se han obtenido los siguientes datos de una muestra aleatoria hipottica Paciente Presin arte. 1 15,0 2 11,0 3 26,3 4 13,0 5 18,0 6 19,8 7 23,2 8 14,4 9 13,3 10 12,0 11 22,5 12 23,5 13 12,7 14 14,0 15 11,8 16 21,2 17 14,0 18 15,5 19 12,3 Tabaco Caf 0 1 1 1 0 1 1 0 1 1 1 1 0 0 0 1 0 1 1 1 1 0 1 1 1 0 0 1 1 0 0 1 1 0 0 0 1 1

20 21 22 23 24

15,0 22,6 16,4 23,5 13,7

0 1 0 1 1

0 0 1 0 1

Contrastar la existencia de interaccin y confusin y obtener la mejor estimacin por intervalos para el efecto de ambos factores. Para contrastar la existencia de interaccin se crea una nueva variable (TABXCA) que sea el producto de la variables TABACO y CAFE y se hace un modelo de regresin con las 3 variables. El resultado es

Segn la tabla de anova, el modelo completo es muy significativo (p=0,000). El coeficiente de correlacin mltiple es muy alto, ya que la proporcin de suma de cuadrados explicada por la regresin (R2) es aproximadamente del 82%. El coeficiente del trmino de interaccin es significativamente distinto de cero (p=0,000), y aunque el del trmino del CAFE no lo sea (p=0,332) se mantiene en el modelo en aplicacin del principio jerrquico. Hay interaccin entre CAFE y TABACO y no puede hablarse, por lo tanto, de un efecto del tabaco, sino que hay un efecto del tabaco para los consumidores de caf

y otro distinto para los no consumidores de caf y, del mismo modo, hay un efecto del caf para los consumidores de tabaco y otro efecto para los no consumidores de tabaco. Vamos a estimar el efecto del tabaco. La presin arterial media en la muestra es 16,86 y la estimacin de la presin arterial de los no-fumadores y no consumidores de caf ( 0 ) es 13,8. Segn vimos antes la estimacin del efecto del tabaco (cambio en la presin arterial media por ser fumador) es para los no consumidores de caf 1 y para los consumidores de caf 1 + 3. La varianza estimada de esta ltima estimacin es

var( 1 + 3) = var( 1) + var( 3) + 2cov( 1,779) = 1,472

, 3) = 1,779 + 3,251 + 2x(-

por lo tanto EE( 1 + 3) = 1,213. Como t0,025(20)= 2,086 los intervalos de confianza estimados al 95% para el efecto del tabaco son no consumidores de caf: 9,457 2,086x1,334 = ( 6,675 12,240) consumidores: 9,457-10,852 2,086x1,213 = (-3,925 1,135) para los no consumidores de caf, el tabaco aumenta la presin arterial media en 9,457 unidades y este aumento es significativamente distinto de cero, mientras que para los consumidores de caf la disminuye en -1,395 unidades, si bien esta disminucin no es significativamente distinta de cero (su intervalo de confianza incluye el cero).

Estrategias de modelizacin
El problema es cmo usamos todo esto?. Debido a los dos objetivos distintos que un anlisis de regresin puede tener es difcil establecer una estrategia general para encontrar el mejor modelo de regresin, es ms, el mejor modelo significa cosas distintas con cada objetivo. En un anlisis predictivo el mejor modelo es el que produce predicciones ms fiables para una nueva observacin, mientras que en un anlisis estimativo el mejor modelo es el que produce estimaciones ms precisas para el coeficiente de la variable de inters.

En ambos casos se prefiere el modelo ms sencillo posible (a este modo de seleccionar modelos se le denomina parsimonia), de modo que en un anlisis estimativo, se puede excluir del modelo una variable que tenga un coeficiente significativamente distinto de cero y que su contribucin a la prediccin de la variable dependiente sea importante, porque no sea variable de confusin para la variable de inters (el coeficiente de dicha variable no cambia), en un anlisis predictivo esa variable no se excluira. Sin embargo, hay una serie de pasos que deben realizarse siempre: i) Especificacin del modelo mximo. ii) Especificacin de un criterio de comparacin de modelos y definicin de una estrategia para realizarla. iii) Evaluacin de la fiabilidad del modelo. i) Especificacin del modelo mximo Se trata de establecer todas las variables que van a ser consideradas. Recurdese que el modelo saturado (el mximo que se puede considerar) tiene n - 1 variables pero que, con este modelo, los grados de libertad para SSE son cero, y R2=1, de modo que, en general, el modelo saturado no tiene inters y el modelo mximo deber tener menos variables independientes que el modelo saturado (un criterio habitual es incluir como mximo una variable cada 10 casos). El criterio para decidir qu variables forman el modelo mximo lo establece el investigador en funcin de sus objetivos y del conocimiento terico que tenga sobre el problema, evidentemente cuanto menor sea el conocimiento previo mayor tender a ser el modelo mximo. Un modelo mximo grande minimiza la probabilidad de error tipo II o infraajuste, que en un anlisis de regresin consiste en no considerar una variable que realmente tiene un coeficiente de regresin distinto de cero. Un modelo mximo pequeo minimiza la probabilidad de error tipo I o sobreajuste (incluir en el modelo una variable independiente cuyo coeficiente de regresin realmente sea cero). Debe tenerse en cuenta tambin que un sobreajuste, en general, no introduce sesgos en la estimacin de los coeficientes (los coeficientes de las otras variables no cambian), mientras que un infraajuste puede producirlos, pero que un modelo mximo grande aumenta la probabilidad de problemas de colinealidad. En el modelo mximo deben considerarse tambin los trminos de interaccin que se van a introducir (en un modelo estimativo slo interesan interacciones entre la variable de inters y las otras) y la posibilidad de incluir trminos no lineales. En Biologa son muy frecuentes relaciones no lineales, que pueden modelizarse con trminos cuadrticos o de mayor orden o con transformaciones tales como la exponencial o el logaritmo. En el ejemplo 5 podra considerarse que la dependencia del nivel de colesterol en sangre con las grasas consumidas puede no ser lineal y presentar, por ejemplo, saturacin: por encima de un cierto nivel de grasas ingeridas el colesterol en sangre ya no sube ms, o un punto umbral: las grasas consumidas elevan el colesterol, slo si sobrepasan un cierto valor. Cada uno de estos fenmenos puede modelarse satisfactoriamente con un trmino cuadrtico o una transformacin logartmica o exponencial (introducir en el modelo junto con, o en lugar de, la

variable GRASAS, la variable (GRASAS)2; o log(GRASAS) o EXP(GRASAS)) y ambos juntos, con un trmino cbico ((GRASAS)3). ii) Comparacin de modelos Debe establecerse cmo y con qu se comparan los modelos. Si bien hay varios estadsticos sugeridos para comparar modelos, el ms frecuentemente usado es la F parcial, recordando que cuando los dos modelos slo difieren en una variable, el contraste sobre la F parcial es exactamente el mismo que el realizado con la t sobre el coeficiente de regresin, pero a veces interesa contrastar varias variables conjuntamente mejor que una a una (por ejemplo todos los trminos no lineales) o, incluso, es necesario hacerlo (por ejemplo para variables indicadoras). Hay que hacer notar que en un anlisis estimativo el criterio para incluir o excluir variables distintas a las de inters, es sobre todo los cambios en los coeficientes y no los cambios en la significacin del modelo. Los distintos modelos a comparar se pueden construir de dos formas: por eliminacin o hacia atrs ("backward") y por inclusin o hacia adelante ("forward"). Con la primera estrategia, se ajusta el modelo mximo y se calcula la F parcial para cada variable como si fuera la ltima introducida (que es equivalente a la t para esa variable), se elige la menor de ellas y se contrasta con el nivel de significacin elegido. Si es mayor o igual que el valor crtico se adopta este modelo como resultado del anlisis y si es menor se elimina esa variable y se vuelve a repetir todo el proceso hasta que no se pueda eliminar ninguna variable. Con la estrategia hacia adelante, se empieza con un modelo de una variable, aquella que presente el mayor coeficiente de correlacin simple. Se calcula la F parcial para la inclusin de todas las dems, se elige la mayor de ellas y se contrasta con el nivel de significacin elegido. Si es menor que el valor crtico, se para el proceso y se elige el modelo simple como mejor modelo, y si es mayor o igual que dicho valor crtico, esa variable se incluye en el modelo y se vuelve a calcular la F parcial para la inclusin de cada una de todas las restantes, y as sucesivamente hasta que no se pueda incluir ninguna ms. Una modificacin de esta ltima estrategia es la denominada "stepwise" que consiste en que, cada vez que con el criterio anterior se incluye una variable, se calculan las F parciales de todas las incluidas hasta ese momento como si fueran las ltimas y la variable con menor F parcial no significativa, si la hubiera, se elimina. Se vuelven a calcular las F parciales y se continua aadiendo y eliminando variables hasta que el modelo sea estable. Las variaciones a estas estrategias consisten en que, con cualquiera de ellas, se puede contrastar varias variables en lugar de una sola y que, en aplicacin del principio jerrquico, cuando se contrasta un trmino de interaccin, el modelo debe incluir todos los trminos de orden inferior y, si como resultado del contraste, dicho trmino permanece en el modelo, tambin ellos deben permanecer en el mismo, aunque no se pueda rechazar que los coeficientes correspondientes no son distintos de cero. En cualquier caso, puede ser peligroso aplicar cualquiera de estas estrategias automticamente (con un paquete estadstico, por ejemplo) por lo que se ha comentado ms arriba sobre los distintos criterios dependiendo del objetivo del estudio, los trminos de interaccin y las variables indicadoras.

Ejemplo 9 Encontrar el mejor modelo para los datos del ejemplo 5 , con el objetivo de estimar el efecto del consumo de grasas sobre el nivel del colesterol y usando la estrategia hacia atrs. El modelo mximo estara formado por EDAD, GRASAS, EJERC (teniendo en cuenta que est codificado en 3 niveles podra ser conveniente analizarlo a travs de 2 variables indicadoras, pero no se va a hacer por simplicidad del ejemplo), se considerar tambin el trmino (GRASAS)2 para analizar relaciones no lineales y los trminos de interaccin entre GRASAS y EDAD y entre GRASAS y EJERC. La interaccin entre EDAD y EJERC en este caso no interesa, puesto que la variable de inters es GRASAS. En el archivo de datos, habr que crear 3 variables nuevas: GRASA2 = (GRASAS)2, GRAXED = GRASAS x EDAD y GRAXEJ = GRASAS x EJERC y el resultado del anlisis del modelo mximo es

Recordando que la F parcial de una variable dadas todas las dems es el cuadrado del valor de t para el coeficiente de la misma, la variable que tiene menor F parcial

no significativa es GRAXEJ, por lo tanto esta variable se elimina y se ajusta ahora un modelo excluyndola.

Obsrvese que R apenas ha disminuido (R siempre disminuye al quitar variables y su disminucin es otro de los estadsticos propuestos para comparar modelos) pero la F global ha mejorado (p=0,018 frente a 0,040). En este modelo la menor F parcial no significativa corresponde a EDAD, sin embargo, en el modelo todava est el trmino de interaccin entre EDAD y GRASAS (GRAXED) en consecuencia EDAD no se puede quitar (principio jerrquico), la siguiente F parcial corresponde a EJERCI y no es significativa, en consecuencia se quita EJERCI. El nuevo modelo es

No hay cambios en los coeficientes de GRASAS, ni GRASA2, ni GRAXED (EJERCI no es variable de confusin, por lo tanto se puede eliminar definitivamente. Si hubiera habido cambios no se podra eliminar a pesar de no ser significativa). La variable con menor F parcial sigue siendo EDAD y la siguiente GRAXED. Se quita y el nuevo modelo es

La menor F parcial no significativa es, ahora, la de GRASAS, pero GRASA2 debe contrastarse antes y como tampoco es significativa (obsrvese, no obstante, que est en el borde y podra tratarse de un problema de falta de potencia) se quitara GRASA2. El modelo finalmente queda

Donde la F global es significativa siendo tambin significativas las F parciales de las dos variables que permanecen, de modo que ste podra ser el modelo final. No obstante, como el objetivo del estudio es estimar el efecto de las grasas, se debera probar un modelo sin la edad y si en ste ltimo modelo no hubiera cambios en la estimacin del efecto de las grasas, podra quitarse la edad, en aplicacin del principio de parsimonia.

Como el cambio en el coeficiente es mayor que el 10%, concluimos que EDAD es variable de confusin y el modelo final es el que comntoene GRASAs y EDAD. iii) Evaluacin de la fiabilidad del modelo Una vez encontrado el mejor modelo hay que evaluar su fiabilidad, es decir, evaluar si se comporta igual en otras muestras extradas de la misma poblacin. Evidentemente, el modo ms completo de evaluarlo ser repetir el estudio con otra muestra y comprobar que se obtienen los mismos resultados, aunque generalmente esta aproximacin resulta excesivamente costosa. Otra aproximacin alternativa consiste en partir aleatoriamente la muestra en dos grupos y ajustar el modelo con cada uno de ellos y si se obtienen los mismos resultados se considera que el modelo es fiable. Esta aproximacin es demasiado estricta ya que, en la prctica, casi nunca se obtienen los mismos resultados.

Una validacin menos estricta consiste en ajustar el modelo sobre uno de los grupos (grupo de trabajo) y calcular su R2, que se puede interpretar como el cuadrado del coeficiente de correlacin simple entre la variable dependiente y las estimaciones obtenidas en la regresin. Despus, y con el modelo obtenido en el grupo de trabajo, calcular las estimaciones de la variable dependiente en el otro grupo (grupo de validacin) y calcular el coeficiente de correlacin simple al cuadrado entre estas estimaciones y la variable dependiente (R2*), a este coeficiente se le denomina coeficiente de correlacin de validacin cruzada. A la diferencia R2-R2* se le denomina reduccin en la validacin cruzada y, aunque no hay reglas firmes al respecto, se considera que una reduccin superior a 0,90 indica un modelo no fiable y una reduccin inferior a 0,10 indica un modelo muy fiable. Otras lecturas Silva Ayaguer L.C., Barroso Utra I.M. Seleccin algortmica de modelos en las aplicaciones biomdicas de la regresin mltiple. Medicina Clnica. 2001;116:741745.

El problema de la colinealidad
Es uno de los problemas ms desesperantes con que uno se puede encontrar en un anlisis de regresin. Como ya vimos al hablar de la estimacin de los coeficientes, si en un modelo de RLM alguna variable independiente es combinacin lineal de otras, el modelo es irresoluble, debido a que, en ese caso, la matriz X'X es singular, es decir, su determinante es cero y no se puede invertir. A este fenmeno se le denomina colinealidad. Que una variable X1 sea combinacin lineal de otra X2, significa que ambas estn relacionadas por la expresin X1 = 1 + 2X2, siendo 1 y 2 constantes, por lo tanto el coeficiente de correlacin entre ambas variables ser 1. Del mismo modo, que una variable X1 sea combinacin lineal de otras X2, ..., Xi con i>2, significa que dichas variables estn relacionadas por la expresin X1 = 1 > + 2 X2 + ... + i Xi, siendo 1,..., i constantes y por tanto, el coeficiente de correlacin mltiple RX1|X2,...Xi tambin ser 1. Otro modo, por tanto, de definir la colinealidad es decir que existe colinealidad cuando alguno de los coeficientes de correlacin simple o mltiple entre algunas de las variables independientes es 1, es decir, cuando algunas variables independientes estn correlacionadas entre s. En la prctica, esta colinealidad exacta raras veces ocurre, pero s surge con cierta frecuencia la llamada casi-colinealidad, o por extensin, simplemente colinealidad en que alguna variable es "casi" combinacin lineal de otra u otras, o dicho de otro modo, algunos coeficientes de correlacin simple o mltiple entre las variables independientes estn cercanos a 1, aunque no llegan a dicho valor. En este caso la matriz X'X es casi-singular, es decir su determinante no es cero pero es muy pequeo. Como para invertir una matriz hay que dividir por su determinante, en esta situacin surgen problemas de precisin en la estimacin de los coeficientes, ya que los algoritmos de inversin de matrices pierden precisin al tener que dividir por un nmero muy pequeo, siendo adems inestables.

Adems, como la matriz de varianzas de los estimadores es proporcional a X'X, resulta que en presencia de colinealidad los errores estndar de los coeficientes son grandes (hay imprecisin tambin en sentido estadstico). Por consiguiente, a la hora de plantear modelos de RLM conviene estudiar previamente la existencia de casi-colinealidad (la colinealidad exacta no es necesario estudiarla previamente, ya que todos los algoritmos la detectan, de hecho no pueden acabar la estimacin). Como medida de la misma hay varios estadsticos propuestos, los ms sencillos son los coeficientes de determinacin de cada variable independiente con todas las dems, es decir

y, relacionados con ellos, el factor de inflacin de la varianza (FIV) y la tolerancia (T), definidos como

Una regla emprica, citada por Kleinbaum, consiste en considerar que existen problemas de colinealidad si algn FIV es superior a 10, que corresponde a algn R2i 0,9 y Ti < 0,1. Aunque puede existir colinealidad con FIV bajos, adems puede haber colinealidades que no impliquen a todas las variables independientes y que, por tanto, no son bien detectadas por el FIV. Otra manera, ms completa, de detectar colinealidad es realizar un anlisis de componentes principales de las variables independientes. Esta tcnica es matemticamente compleja y aqu se hace slo un resumen de la misma necesario para entender el diagnstico de la colinealidad. Se denominan componentes principales de un conjunto de variables a otras variables, combinacin lineal de las originales y que tienen tres propiedades caractersticas: i) son mutuamente independientes (no estn correlacionadas entre s). ii) mantienen la misma informacin que las variables originales. iii) tienen la mxima varianza posible con las limitaciones anteriores. De hecho, para modelos predictivos los componentes principales son las variables independientes ideales. La varianza de cada componente principal es un autovalor (nmero asociado a una matriz) de la matriz de varianzas-covarianzas de las variables originales. El nmero de autovalores nulos indica el nmero de variables que son combinacin lineal de otras (el nmero de colinealidades exactas) y autovalores prximos a cero indican problemas graves de colinealidad.

El clculo de los autovalores permite, por lo tanto, determinar no slo la existencia de colinealidad, sino tambin el nmero de colinealidades. Para determinar cundo un autovalor pequeo est suficientemente prximo a cero se usa su valor relativo con respecto al mayor, en este sentido, para cada autovalor se define el ndice de condicin como la raz cuadrada del cociente entre el mayor de ellos y dicho autovalor y se denomina nmero de condicin al mayor de los ndices de condicin. Para Belsley ndices de condicin entre 5 y 10 estn asociados con una colinealidad dbil, mientras que ndices de condicin entre 30 y 100 sealan una colinealidad moderada a fuerte. Una vez determinada la presencia y el nmero de colinealidades, es conveniente averiguar qu variables estn implicadas en ellas. Usando ciertas propiedades de la matrices se puede calcular la proporcin de la varianza de las variables sobre cada componente. Si dos o ms variables tienen una proporcin de varianza alta en un componente indica que esas variables estn implicadas en la colinealidad y, por tanto, la estimacin de sus coeficientes est degradada por la misma. Belsley propone usar conjuntamente los ndices de condicin y la proporcin de descomposicin de varianza para realizar el diagnstico de colinealidad, usando como umbral de proporcin alta 0,5 de modo que, finalmente, dicho diagnstico se har: Los ndices de condicin altos (mayores que 30) indican el nmero de colinealidades y la magnitud de los mismos mide su importancia relativa. Si un componente tiene un ndice de condicin mayor que 30 y dos o ms variables tienen un proporcin de varianza alta en el mismo, esas variables son colineales. Como ya se indic ms arriba, la mejor solucin a los problemas de colinealidad consiste en plantear el modelo de regresin con los componentes principales en lugar de con las variables originales, si bien esta solucin slo est indicada en los modelos predictivos. En los modelos estimativos no tiene sentido, ya que el inters del modelo es, justamente, estimar el efecto sobre la variable independiente de una variable determinada y no interesa, por lo tanto, usar otras variables distintas. Otras soluciones alternativas planteables en ambos tipos de modelos pueden ser: cambios de escala en las variables, incluyendo el centrado de las mismas (restar a cada variable su media) o, incluso, eliminar alguna de las variables colineales. En este mismo sentido hay que tener en cuenta que las variables producto introducidas para estudiar la interaccin pueden dan lugar a problemas de colinealidad y no se recomienda, por lo tanto, que un modelo contenga muchos trminos de interaccin. Si una variable toma el mismo valor para todas las observaciones (tiene varianza cero) existe colinealidad exacta con el trmino independiente, y si una variable tiene varianza casi cero (toma valores muy prximos para todas las observaciones) existe casi-colinealidad.

Puede ocurrir que una varianza pequea sea debida a una escala inapropiada para la variable, por ejemplo, si la edad de sujetos adultos se mide en dcadas se obtiene una varianza 100 veces menor que si se midiera en aos. En este caso un cambio de escala puede evitar el problema de la colinealidad. Tambin se puede perder precisin en el clculo de (X'X)-1 por la existencia de variables con varianzas excesivamente grandes, en cuyo caso el cambio de escala aconsejable sera el contrario, por ejemplo, podra dar lugar a problemas de precisin medir la edad en das. Ejemplo 10 Realizar el estudio de colinealidad en los datos del ejemplo 5, usando los FIV, los ndices de condicin y la matriz de proporcin de descomposicin de la varianza de los estimadores. Realizando los anlisis de regresin de cada una de las variables independientes con todas las dems, se obtienen los siguientes coeficientes de determinacin, tolerancia y factores de inflacin de la varianza

que indican problemas graves de colinealidad. Obsrvese que el factor de inflacin mayor corresponde a la variable GRASAS, resultado esperable debido a que se han creado tres variables ms (GRASA2, GRAXED y GRAXEJ) a partir de ella. Los autovalores de la matriz X'X y los ndices de condicin, as como la matriz de proporcin de descomposicin de varianza son:

Hay un ndice de condicin alto (50,781) y asociado con el mismo hay cinco variables (el trmino constante, GRASAS, GRASA2, EDAD y GRAXED) con proporcin de varianza alta. Nos indica, por tanto, que GRASAS es colineal con GRASA2, GRAXED (no nos sorprende), EDAD y con la constante. Al existir esta ltima colinealidad, el centrado de variables podra mejorar el problema, se podra tambin renunciar a estudiar los trminos no lineales GRASA2 y GRAXED. Empecemos por centrar las variables continuas. GRASAC = GRASAS - 39,7 EDADC = EDAD - 36,25 GRASC2 = GRASAC x GRASAC GRXEDC = GRASAC x EDADC GRXEJC = GRASAC x EJERC y, para ellas, el diagnstico de colinealidad queda:

y tanto los ndices de condicin como la proporcin de varianza, indican que el centrado ha resuelto los problemas de colinealidad. Referencias D.G. Kleinbaum, L.L. Kupper, K.E. Muller Applied Regression Analysis and Other Multivariables Methods. PWS-KENT Publishing Company. 1988. D.A. Belsley Conditioning Diagnostics: Collinearity and Weak Data in Regression. John Wiley &Sons. 1991

Anlisis de los residuos


Si bien para la estimacin por mnimos cuadrados de los coeficientes de un modelo de regresin, slo es necesaria la asuncin de linealidad, la normalidad de los mismos, en base a la cual se realizan los contrastes de hiptesis, est basada tambin en las asunciones de normalidad y homoscedasticidad. Por consiguiente, conviene asegurar que dichas asunciones se cumplen en cada caso. Hay que tener en cuenta que, en caso de que no se cumpla la normalidad, no se puede utilizar la t ni la F para los contrastes de hiptesis. Puede usarse, sin embargo, la desigualdad de Tchebysheff, que establece que para cualquier variable aleatoria

siendo k cualquier nmero real positivo. Otro modo alternativo de escribirlo es

Por lo tanto, un modo de contrastar, sin la asuncin de normalidad, la hiptesis nula H0 : i = a es calcular el cociente

y la probabilidad de error tipo I al rechazarla es 1/k2 Esta prueba tampoco se puede usar si no se cumple la homoscedasticidad, pues en ese caso la estimacin de EE( i) no es vlida. Recordando la 2 formulacin del modelo, las asunciones se pueden resumir en que las variables x1,...,xk son independientes, distribuidas normalmente con media cero y todas con la misma varianza 2 x1,...,xk es un conjunto de variables, una para cada combinacin x1,...,xk de valores de las variables X1,...,Xk.

denominados residuos, son los valores que en la muestra toman estas variables. Generalmente, sin embargo, no se tienen suficientes de estos valores muestrales para cada variable (para el problema del ejemplo 5, por ejemplo, existe una variable x1,...,xk para cada valor de la edad, del consumo de grasas y del ejercicio; el residuo para el primer paciente corresponde a la variable 80,35,0; el del segundo a la variable 30,40,2; etc., es decir, para cada variable slo se tiene un valor muestral. Para el problema del ejemplo 8, sin embargo, slo hay cuatro variables: 0,0, 1,0, 0,1 y 1,1 y s puede haber suficientes valores muestrales para cada una de ellas como para plantearse pruebas de bondad de ajuste a la distribucin normal (jicuadrado o Kolmogorov-Smirnov) y de homoscedasticidad (Bartlett). El planteamiento habitual es considerar que, como todas ellas son normales con la misma media (0) y la misma varianza ( 2), los residuos ( distribucin normal con media 0 y varianza desconocida contrastar este extremo.
2

) tambin tienen una y, simplemente,

Al conjunto de tcnicas que se usan para ello se le denomina anlisis de los residuos. El anlisis de los residuos consiste, por tanto, en contrastar que , i=1,...,n provienen de una poblacin normal con media 0 y varianza 2 con las pruebas habituales de ji-cuadrado, Kolmogorov-Smirnov. Hay que tener en cuenta que de este modo se estn contrastando globalmente todas las asunciones y, por consiguiente, una falta de normalidad de los residuos

puede ser debida tambin a que el modelo sea inapropiado o a existencia de heterocedasticidad. Teniendo en cuenta que (n-(k+1))s2/ 2 se distribuye como una ji-cuadrado con (n-(k+1)) grados de libertad, la variable

llamada residuo normalizado tendr una distribucin t de Student con (n-(k+1)) grados de libertad, que para valores de n suficientemente grandes se puede aproximar a una normal reducida (de media cero y varianza 1) y, a menudo, se contrasta la distribucin de esta variable en lugar de el residuo. Adems de estas pruebas de significacin para asegurar que globalmente se cumplen las asunciones del modelo, es til realizar un anlisis grfico de los mismos que permite discriminar entre distintas violaciones de las mismas. Si se representara en una grfica bidimensional los residuos observados (eje Y) para cada una de las variables Y|x1,...,xk (eje X) y se cumplieran las asunciones se observara una nube de puntos en direccin horizontal y con anchura constante (la media de cada x1,...,xk debera ser cero y tener todas la misma varianza). Como para cada variable Y|x1,...,xk el modelo produce la misma estimacin una grfica de los residuos contra los valores predichos tendr el mismo aspecto (fig. A). Si se viola la linealidad se observar una falta de linealidad tambin en los residuos (fig. B), si se viola la homoscedasticidad, la anchura de la banda no ser constante (fig. C), una relacin lineal entre los residuos y las predicciones puede indicar que alguna variable no incluida en el modelo puede ser significativa (fig. D).

ANLISIS DE SUPERVIVENCIA
V. Abraira Bibliografa: V. Abraira, A. Prez de Vargas Mtodos Multivariantes en Bioestadstica. Ed. Centro de Estudios Ramn Areces. 1996. E.T.Lee Statistical Methods for Survival Data Analysis Lifetime Learning Publications. 1980. J.D.Kalbfleisch, R.L.Prentice The Statistical Analysis of Failure Time Data John Wiley & Sons. 1980. Material Audiovisual Video de la conferencia Medicin de la supervivencia: Puntos crticos, pronunciada por Vctor Abraira en el 9 Congreso de la Sociedad Catalana del Trasplante, celebrado en Barcelona, los das 25 al 28 de Febrero de 2007. Introduccin Se denomina anlisis de supervivencia al conjunto de tcnicas que permiten estudiar la variable tiempo hasta que ocurre un evento y su dependencia de otras posibles variables explicatorias. Por ejemplo, en el estudio de enfermedades crnicas o tratamientos muy agresivos, el tiempo hasta que ocurre la muerte del enfermo (tiempo de supervivencia) y su dependencia de la aplicacin de distintos tratamientos, pero en otras enfermedades, el tiempo hasta la curacin, o el tiempo hasta la aparicin de la enfermedad. En procesos de control de calidad se estudia el tiempo hasta que un cierto producto falla (tiempo de fallo), o el tiempo de espera hasta recibir un servicio (tiempo de espera), etc. Debido a que la variable tiempo es una variable continua podra ser, en principio, estudiada mediante las tcnicas de anlisis de la varianza o los modelos de regresin. Hay, sin embargo, dos dificultades importantes para este planteamiento. En primer lugar, en la mayor parte de los estudios citados la variable tiempo no tiene una distribucin normal, ms bien suele tener una distribucin asimtrica y aunque podran intentarse transformaciones que la normalizaran, existe una segunda dificultad que justifica un planteamiento especfico para estas variables, y es que para observarlas se tiene que prolongar el estudio durante un perodo de tiempo suficientemente largo, en el cual suelen ocurrir prdidas, que imposibilitan la observacin del evento. Existen tres motivos por los que pueden aparecer estas prdidas, en primer lugar por fin del estudio. Supngase, por ejemplo, que para evaluar una intervencin quirrgica arriesgada se sigue en el tiempo, durante un ao, a dos grupos de pacientes. A los de un grupo se les practic la intervencin y a los de otro no, y se registr la duracin del intervalo de tiempo entre la intervencin (o la entrada en el estudio, para el grupo no intervenido) y la muerte. Al final del estudio puede haber individuos que no hayan muerto. Otra causa es la prdida propiamente dicha, por ejemplo se quiere evaluar la eficacia de un tratamiento preventivo para el SIDA, y

se sigue durante cinco aos a individuos VIH+. Algunos de los individuos, y puede ser un nmero importante, desaparecern del estudio en algn momento del mismo por diversos motivos: cambio de domicilio, falta de inters, etc. Una ltima causa de prdida es la ocurrencia de un evento competitivo, en los ejemplos anteriores puede ser muerte por alguna otra causa ajena al estudio. Aunque los ejemplos anteriores son del mbito de Ciencias de la Salud, estos mismos problemas aparecen en cualquier estudio que necesite un largo tiempo de observacin. Hay que tener en cuenta tambin que la variable es el tiempo hasta que ocurre un evento, y est definida por la duracin del intervalo temporal entre los instantes en que empieza la observacin y ocurre el evento. En los ejemplos citados, la observacin no comienza en el mismo instante para todos los individuos. En algunos textos se denomina prdida por la izquierda a esta no coincidencia de los tiempos en que comienza la observacin, ya que, si el estudio est diseado para acabar en un tiempo determinado, el efecto de esta no coincidencia es reducir, para los que empiezan ms tarde, el tiempo de observacin. En el esquema de la figura se detallan todas las posibles prdidas. Evidentemente, se pueden evitar las prdidas por la izquierda diseando el estudio para que acabe, no en un tiempo establecido con carcter general, sino, para cada individuo, en un tiempo determinado despus del inicio de la observacin.

Esquema temporal de un estudio para observar tiempos de espera para un evento, por ejemplo supervivencia en una intervencin quirrgica. Con el crculo se representan las prdidas y con el cuadrado las muertes (ocurrencia del evento). El individuo A desaparece del estudio 3 meses despus de la intervencin (sera una prdida en sentido estricto). El B fallece a los 2,5 meses. El C sigue vivo al acabar el estudio (sera una prdida a los 12 meses por fin del estudio). El D, al que se le interviene en el mes 1, fallece en el 9, el tiempo de supervivencia sera 8 meses (hay 1 mes de prdida por la izquierda). El E, al que se le interviene en el mes 2, se pierde en el 7 (sera una prdida a los 5 meses, ya que hay prdida en sentido estricto y prdida por la izquierda). El F, al que se le interviene en el mes 6, sigue vivo al acabar el estudio, sera una prdida a los 6 meses (existe prdida por fin del estudio y prdida por la izquierda). Si se quisiera aplicar un modelo de regresin lineal a un estudio de este tipo, habra que eliminar del mismo las observaciones perdidas, ya que para ellas no se conoce el valor de la variable; sin embargo s se tiene alguna informacin til sobre la misma: se sabe que es mayor que el tiempo en el que se produjo la prdida.

Distribucin de la variable tiempo de espera


La variable tiempo de espera es una variable aleatoria continua y no negativa, cuya funcin de probabilidad puede especificarse de varias maneras. La primera es la habitual funcin densidad de probabilidad f(t), y relacionadas con ella, la funcin de supervivencia S(t) y la funcin de riesgo h(t). La funcin densidad de probabilidad f(t) para una variable continua se define como una funcin que permite calcular la probabilidad de que la variable tome valores en un intervalo a travs de la frmula:

La funcin de supervivencia S(t) se define como:

Por lo tanto, la funcin de supervivencia da la probabilidad complementaria de la habitual funcin de distribucin acumulativa F(t) = P(T t), es decir S(t) = 1 - F(t). Otro modo de expresar la probabilidad para la variable tiempo de espera es por medio de la funcin de riesgo h(t) que es la funcin de densidad de probabilidad de T, condicionada a que T t. Por ejemplo, para la supervivencia a una intervencin quirrgica, la funcin de riesgo a los 2 aos es la de densidad de probabilidad de morir a los 2 aos de la intervencin, condicionada a que ya se ha sobrevivido hasta entonces. Esta probabilidad sera, realmente, la que en cada momento le importa al enfermo intervenido. Se puede demostrar que

A veces se usa tambin la funcin de riesgo acumulada H(t), ms difcil de interpretar, que se define como

y que verifica

Es decir, las cuatro funciones estn relacionadas; si se conoce una cualquiera de ellas, se pueden obtener las dems. A pesar de que el tiempo es una variable continua, un observador slo tiene acceso a valores discretos de la misma. Los datos observados para cualquiera de las experiencias descritas en la introduccin son una serie de valores discretos.

Conviene, por lo tanto, definir las funciones anteriores en el caso (prctico) de considerar a la variable tiempo como discreta, es decir, como un conjunto discreto de valores t1 < t2 < El suponerlos ordenados de menor a mayor no representa ninguna prdida de generalidad, de hecho es as como se observa el tiempo. Para una variable discreta, la funcin densidad de probabilidad f (t) se define como:

y la funcin de supervivencia:

La funcin de supervivencia da, por lo tanto, para cada valor ti de T, la probabilidad de que la variable T sea mayor o igual que ti (en este caso no es la complementaria de la funcin de distribucin puesto que la probabilidad de que T sea igual a ti, que en las variables discretas en general no es cero, est incluida en ambas funciones), aunque otros textos, justamente para que siga siendo la complementaria de la funcin de distribucin la definen sin incluir el igual. Las funciones de riesgo y riesgo acumulado para una variable discreta tambin son:

Estimacin de la funcin de supervivencia (mtodo de Kaplan-Meier).


Es un mtodo no paramtrico (no asume ninguna funcin de probabilidad) y por mxima verosimilitud, es decir se basa en maximizar la funcin de verosimilitud de la muestra. Una muestra aleatoria de tamao n, extrada de una poblacin, estar formada por k (k n) tiempos t1 < t2< < tk en los que se observan eventos. En cada tiempo ti existen ni "individuos en riesgo" (elementos de la muestra para los que el evento puede ocurrir, o que T ti) y se observan di eventos. Adems en el intervalo [ti, ti+1) se producen mi prdidas. Se puede demostrar que la funcin de verosimilitud para toda la muestra es:

Para construir esta funcin se ha asumido que la informacin contenida en las prdidas es que, para cada una de ellas, el evento ocurre en un tiempo mayor que el tiempo en que se observa la prdida. Maximizando esta funcin se encuentra que el estimador de la funcin de riesgo es

y para la funcin de supervivencia, el denominado estimador producto lmite o de Kaplan-Meier:

Ejemplo 1 Se sigue en el tiempo a 12 individuos con una prtesis cardaca y se encuentran los siguientes tiempos de supervivencia en aos: 6*, 6, 6, 6, 10, 12*, 12, 15, 15*, 17, 22, 22, donde el asterisco indica prdida; es decir se perdieron 3 individuos en los tiempos 6, 12 y 15. La manera ms cmoda de calcular los estimadores anteriores es disponer los datos en una tabla como la que sigue: tiempo 6 10 12 15 17 22 ind. en riesgo 12 8 7 5 3 2 eventos F. riesgo 3 1 1 1 1 2 3/12=0,25 1/8=0,125 1/7=0,143 1/5=0,2 1/3=0,333 2/2=1 F. supervivencia 1 0,750 0,656 0,562 0,450 0,300

Para analizar estos datos con un paquete estadstico, por ejemplo el SPSS, hay que introducir dos variables: el tiempo y el status con un cdigo que indique si en ese tiempo se ha producido el evento o es una perdida. La salida es: Survival Analysis for TIEMPO Time 6 6 6 6 10 12 12 15 15 17 22 22 Status 1 1 1 0 1 1 0 1 0 1 1 1 Cumulative Survival Standard Error Cumulative Events 1 2 3 3 4 5 5 6 6 7 8 9 Number Remaining 11 10 9 8 7 6 5 4 3 2 1 0

,7500 ,6563 ,5625 ,4500 ,3000 ,0000

,1250 ,1402 ,1482 ,1555 ,1605 ,0000

Number of Cases: 12 Censored: 3 ( 25,00%) Events: 9 En la tercera columna (Cumulative Survival) aparece la funcin de supervivencia (S(t)) en todos los tiempos en los que ocurren eventos. Esta funcin se suele representar en una grfica como

El SPSS tambin calcula y representa la grfica de la funcin de riesgo acumulada (que en su versin en espaol denomina Impacto).

Varianza de los estimadores


Usando resultados asintticos (para grandes muestras) de la teora de estimacin por mxima verosimilitud se obtiene que la varianza de los estimadores de la funcin de riesgo es

y a partir de aqu, una expresin aproximada para la varianza de la funcin de supervivencia es (frmula de Greenwood)

Teniendo en cuenta la normalidad asinttica de los estimadores de mxima verosimilitud, se pueden calcular intervalos de confianza al (1 )% para estas estimaciones:

Por ejemplo, para los datos del ejemplo 1, las varianzas de las estimaciones de la funcin de supervivencia y los intervalos de confianza al 95% construidos con ellas son: Tiempo F. superv. Varianza >Intervalo de confianza

6 10 12 15 17 22

0,7500 0,6563 0,5625 0,4500 0,3000 0,0000

0,0156 0,0197 0,0220 0,0242 0,0257 -

0,9950 0,9310 0,8530 0,7548 0,6145 -

0,5050 0,3815 0,2720 0,1452 -0,0145 -

En la salida del SPSS figura, en lugar de la varianza, su raz cuadrada (el error estndar), que es posible guardar en una nueva variable del archivo para, a partir de ella y la funcin de supervivencia construir los intervalos de confianza.

y se obtiene

Una representacin grfica de la funcin de supervivencia y su intervalo de confianza (obtenida con el programa AlcEst) es

Obsrvese que cuando para un tiempo ocurre el evento para todos los individuos en riesgo, como en este caso para 22, la varianza est indeterminada (aunque el SPSS pone 0) puesto que el denominador es 0. Por otro lado, en los tiempos extremos el intervalo de confianza puede sobrepasar el intervalo [0,1], en este caso en el tiempo 17. Ello es debido a que la frmula de la varianza es slo aproximada y a que la normalidad es asinttica. Este problema se puede evitar usando una transformacin logartmica de de normalidad tambin asinttica pero cuyo campo de variacin es todo el campo real. A partir de la funcin

cuyo varianza es

se construyen los intervalos de confianza para S(ti)

para los datos del ejemplo 1 por este procedimiento se obtienen los intervalos de confianza al 95% dados en la siguiente tabla: Tiempo F. superv. 6 0,7500 10 0,6563 12 0,5625 15 0,4500 17 0,3000 22 0,0000 Varianza 0,0156 0,0197 0,0220 0,0242 0,0257 Intervalo de confianza 0,9117 0,4084 0,8557 0,3204 0,7910 0,2437 0,7104 0,1549 0,6041 0,0564 -

Mtodo actuarial
Hay ocasiones en que no se dispone de observaciones individuales de los eventos, sino de observaciones agrupadas por intervalos temporales o, incluso, aunque se disponga de las mismas se agrupan para compactar su presentacin. Por ejemplo, los datos de mortalidad para un pas durante una dcada se suelen agrupar en intervalos anuales, en las denominadas tablas de vida o actuariales, de modo que no se dispone del tiempo de fallecimiento de cada individuo, sino del nmero de fallecidos en cada intervalo, en este caso anual. Supngase que hay k intervalos, al principio de cada intervalo Ii, existen ni individuos en riesgo, y durante el mismo se producen mi prdidas y di eventos. Por lo tanto, en el conjunto del intervalo el nmero de individuos en riesgo es variable, asumiendo que las prdidas se producen homogneamente a lo largo del mismo, su nmero promedio es ni mi /2 y, en consecuencia, el estimador del riesgo para el intervalo ser:

sustituyendo este valor en las frmulas previas, es decir cambiando en las mismas ni por ni - mi/2 se obtienen los estimadores para la funcin de supervivencia y su varianza. A este mtodo se le conoce como mtodo actuarial. Con los datos del ejemplo 1, definiendo intervalos de 5 aos, las tablas de vida, obtenidas con el SPSS, son This subfile contains: 12 observations Life Table Survival Variable TIEMPO

Number Number Number Number Intrval Entrng Wdrawn Exposd of Start This During to Trmnl Time Intrval Intrval Risk Events ,0 12,0 ,0 12,0 ,0 5,0 12,0 1,0 11,5 3,0 10,0 8,0 1,0 7,5 2,0 15,0 5,0 1,0 4,5 2,0 20,0 2,0 ,0 2,0 2,0

Cumul Propn Propn Propn ProbaTermiSurSurv bility nating viving at End Densty ,0000 1,0000 1,0000 ,0000 ,2609 ,7391 ,7391 ,0522 ,2667 ,7333 ,5420 ,0394 ,4444 ,5556 ,3011 ,0482 1,0000 ,0000 ,0000 ,0602

Hazard Rate ,0000 ,0600 ,0615 ,1143 ,4000

The median survival time for these data is 15,87 SE of Cumul Surviving ,0000 ,1295 ,1525 SE of Probability Densty ,0000 ,0259 ,0248

Intrval Start Time ,0 5,0 10,0

SE of Hazard Rate ,0000 ,0342 ,0430

15,0 20,0

,1526 ,0000

,0288 ,0305

,0774 ,0000

Donde la primera columna ( Intrvl Start Time ) contiene el tiempo inicial del intervalo; la segunda (Number Entrng this Intrvl) el nmero de individuos en riesgo al inicio del intervalo (ni); la siguiente (Number Wdrawn this Intrvl) el nmero de prdidas (mi); la siguiente ( Number Exposd to Risk) el nmero de individuos en riesgo en el intervalo (ni mi /2); la siguiente (Number of Termnl Events ) el nmero de eventos (di); la siguiente (Propn Terminating) la funcin de riesgo (hi) en el intervalo, la siguiente ( Propn Surviving) su complementario (1 - hi) que estima la probabilidad de que no ocurra el evento en el intervalo condicionada a que no ocurri antes; la siguiente (Cumul Propn Surv at End ) la funcin de supervivencia (Si), la siguiente (Probability Densty) la funcin densidad de probabilidad (fi) por unidad de tiempo. Se estima usando las relaciones entre las funciones vistas anteriormente y dividiendo por la anchura del intervalo, es decir, si la anchura del intervalo i fuera bi (en el ejemplo bi = 5 en todos los intervalos)

La ltima columna (Hazard Rate) es la funcin de riesgo por unidad de tiempo, estimada en el punto medio del intervalo por la frmula

MEDIDAS DE FRECUENCIA DE LA ENFERMEDAD


V. Abraira Bibliografa: D.G.Kleinbaum, L.L.Kupper, H.Morgenstern Epidemiologic Research. Principles and Cuantitative Methods Van Nostrand Reinhold Company. 1982 Introduccin La caracterstica definitoria de la Epidemiologa como ciencia es la cuantificacin. Por ejemplo Rothman dice que la Epidemiologa no es otra cosa que un ejercicio de medicin y Anderson que es el estudio de la ocurrencia de los procesos patolgicos. Por ello, ha desarrollado instrumentos para: Medir la frecuencia de la enfermedad Medirla en relacin con sus supuestos determinantes La epidemiologa clnica aplica el mtodo epidemiolgico para producir conocimiento sobre el proceso de la prctica clnica; aplica por tanto los mismos instrumentos para medir la frecuencia no slo de la enfermedad sino tambin de otros eventos

que ocurren en la prctica clnica: curar, solicitar una prueba diagnstica, aplicar un tratamiento. Esto provoca a veces, alguna confusin terminolgica de la que probablemente no estn exentos estos apuntes en los que se trata de estudiar las medidas de frecuencia de un evento (en epidemiologa suele ser enfermar, pero en epidemiologa clnica tambin curacin, muerte, etc.) las medidas de asociacin entre eventos (factores de riesgo, factores pronsticos, tratamientos, etc. con enfermar, curar, morir, etc.) y las llamadas medidas de impacto Otras lecturas F.Pozo, J.R.Ricoy, P.Lzaro. Una estrategia de investigacin en el Sistema Nacional de Salud: I. La epidemiologa clnica. Medicina Clnica 1994; 102:664-669.

Prevalencia
Es la proporcin de individuos de una poblacin que presentan el evento en un momento, o periodo de tiempo, determinado. Por ejemplo la prevalencia de diabetes en Madrid en el ao 2001 es la proporcin de individuos de esa provincia que en el ao 2001 padecan la enfermedad. Se calcula

Caractersticas Es una proporcin: no tiene dimensiones su valor oscila entre 0 y 1, aunque a veces se expresa como porcentaje Es un indicador esttico, que se refiere a un momento temporal Indica la carga del evento que soporta la poblacin, tiene su mayor utilidad en los estudios de planificacin de servicios sanitarios En la prevalencia influye la velocidad de aparicin del evento y su duracin; es por ello poco til en la investigacin causal y de medidas teraputicas

Incidencia
La incidencia refleja el nmero de nuevos casos en un periodo de tiempo. Es un ndice dinmico que requiere seguimiento en el tiempo de la poblacin de inters. Cuando la enfermedad es recurrente se suele referir a la primera aparicin. Se puede medir con dos ndices: incidencia acumulada y densidad (o tasa) de incidencia. Incidencia acumulada Es la proporcin de individuos que desarrollan el evento durante el periodo de seguimiento. Se calcula

Caractersticas Es una proporcin no tiene dimensiones. su valor oscila entre 0 y 1, aunque tambin se suele expresar como porcentaje Depende del tiempo de seguimiento Se calcula sobre una cohorte fija, es decir no se permiten entradas de nuevos individuos durante el seguimiento. La principal limitacin de este ndice proviene del efecto de cohorte fija, puesto que a lo largo del seguimiento generalmente se pierden individuos. Ejemplo 1: Se sigue durante 12 meses a un grupo de 6 individuos que han sufrido un accidente cerebro-vascular (ACV), para evaluar la incidencia de recidiva. La situacin se puede esquematizar en la figura

Los rombos rojos sealan recidivas mientras que los crculos verdes sealan prdidas: el paciente B desapareci del estudio a los 2,5 meses, sin que hasta ese momento hubiera sufrido una recidiva, el paciente D falleci por otra causa no relacionada con el ACV, los pacientes C y F acabaron el periodo de estudio sin recidiva. La IA en los 2 aos de seguimiento es 2/6 Obsrvese la indeterminacin de este ndice debido a las prdidas; en este ejemplo si se hubiera completado el periodo de observacin en todos los individuos, B y D podran haber tenido un nuevo ACV y la IA sera distinta.

Densidad (o tasa) de incidencia


Para evitar la limitacin de la incidencia acumulada se define este otro ndice de incidencia:

La densidad, o tasa, de incidencia es el cociente entre el nmero de casos nuevos ocurridos durante el periodo de seguimiento y la suma de todos los tiempos de observacin. Se calcula

Caractersticas: Tiene dimensin de inversa del tiempo. Rango ilimitado. No depende del tiempo de seguimiento, asumiendo estacionareidad, es decir ritmo constante. No necesita cohorte fija. Ejemplo 2 Supngase para el ejemplo 1, el esquema de seguimiento de la figura:

Es decir, es una cohorte dinmica en la que se permite incorporaciones, por tanto el seguimiento no empez al mismo tiempo para todos los individuos. Como en el ejemplo 1, los rombos rojos sealan recidivas mientras que los crculos verdes sealan prdidas: el seguimiento de los pacientes D, E y F comenz 1, 2 y 6 meses despus de empezado el estudio, el paciente B desapareci del estudio a los 2,5 meses, sin que hasta ese momento hubiera sufrido una recidiva, el D falleci por otra causa no relacionada con el ACV, los pacientes C y F acabaron el periodo de estudio sin recidiva.

y, por tanto, la densidad de incidencia

Medidas de asociacin o efecto

Son medidas que se usan para evaluar la asociacin entre un evento y un factor de estudio, por ejemplo: mutacin de un gen (factor) y una enfermedad (evento); tratamiento (factor) y curacin (evento). La mayora de ellas ya han sido estudiadas en otra parte de estos apuntes y sern repasadas ahora. Comparan medidas de frecuencia del evento entre dos o ms grupos, definidos por diferentes categoras del factor. En aras de la simplicidad, consideraremos slo 2 grupos, uno de ellos, usado como referencia, no tiene el factor y el otro s. La categora de referencia debera tener un tamao grande para obtener estimaciones precisas y ser suficientemente homognea para facilitar la interpretacin. Comparar dos medidas de frecuencia se puede hacer con su cociente (si no son distintas se obtiene 1) o con la diferencia (si no son distintas se obtiene 0) Las medidas basadas en el cociente, llamadas medidas de efecto, son: Razn de tasas de incidencia Riesgo relativo (cociente de prevalencias o cociente de incidencias acumuladas) Odds ratio Las medidas basadas en la diferencia, llamadas medidas de impacto, son: Diferencia absoluta (o exceso) de riesgo Diferencia relativa de riesgo (o fraccin atribuible) Reduccin absoluta de riesgo Reduccin relativa de riesgo Nmero necesario a tratar

Otras lecturas recomendadas Jaeschke et al Assessing the effects of treatment: measures of association. CMAJ.152:351-357. 1995 Abraira Medidas del efecto de un tratamiento (I): reduccin absoluta del riesgo, reduccin relativa del riesgo y riesgo relativo. SEMERGEN 26: 535-536. 2000. Abraira Medidas del efecto de un tratamiento (II): odds ratio y numero necesario para tratar. SEMERGEN 27: 418-420. 2001.

Razn de tasas de incidencia


Tambin llamada razn de densidades de incidencia (RDI), es el cociente entre las tasas de incidencia de ambos grupos, poniendo en el denominador la del grupo de referencia.

En la tabla se representan esquemticamente los resultados de un estudio que permita evaluar la RDI, en la columna nF figuran los eventos (d0) y las personastiempo (L0) en la categora que no tiene el factor y en la columna F los de la categora que s tiene el factor

nF Eventos Personastiempo d0 L0

F d1 L1

Total d L

A partir de la tabla

Caractersticas no tiene dimensiones. rango de 0 a . RDI=1 si no hay asociacin entre la presencia del factor y el evento. RDI>1 si la asociacin es positiva, es decir si la presencia del factor se asocia a mayor ocurrencia del evento y RDI<1 si la asociacin es negativa. Ejemplo 4: En un ensayo clnico para evaluar el efecto del tratamiento con un IECA ms un diurtico opcional, en pacientes que haban sufrido un ACV, se estudi como evento la ocurrencia de otro ACV en los siguientes 4 aos, los resultados fueron: Placebo Tratamiento Total ACV 420 Personas-ao 11889 A partir de aqu: 307 11983 727 23872

que indica que en los pacientes tratados con el tratamiento experimental la tasa de incidencia de otro ACV es el 73% de la de los pacientes tratados con placebo. Referencia PROGRESS Collaborative Group. Randomised trial of a perindopril-based bloodpressure-lowering regimen among 6105 individuals with previous stroke or transient ischaemic attack. Lancet 2001; 358:1033-1041

Riesgo relativo
En epidemiologa se denomina riesgo a la probabilidad de ocurrencia de un evento, tpicamente enfermar, aunque tambin morir, curar, etc.(en la terminologa anglosajona se usan los trminos risk y hazard, este ltimo especialmente si el evento es morir). Ms precisamente (vase el cap 6 de Kleinbaum et al. para ms

detalles) se define el riesgo como la probabilidad de que un individuo, libre de enfermedad y susceptible de ella, la desarrolle en un periodo determinado, condicionada a que el individuo no muera a causa de otra enfermedad durante el periodo. La incidencia acumulada es un estimador de esta definicin de riesgo, mientras que la prevalencia es un estimador de otra posible definicin de riesgo: probabilidad de que un individuo de una determinada poblacin tenga una enfermedad en un momento o periodo de tiempo determinado. En ambos casos se usa el cociente entre el riesgo en el grupo con el factor y el riesgo en el grupo de referencia como ndice de asociacin y se denomina riesgo relativo (RR). En la tabla se representan esquemticamente los resultados de un estudio que permita evaluar el RR, en la columna nF figuran los eventos (casos: a0) y los no casos (b0) en la categora que no tiene el factor y en la columna F los de la categora que s tiene el factor nF Casos No casos Total a0 b0 n0 F a1 b1 n1

A partir de la tabla

Caractersticas no tiene dimensiones. rango de 0 a . RR=1 si no hay asociacin entre la presencia del factor y el evento. RR >1 si la asociacin es positiva, es decir si la presencia del factor se asocia a mayor ocurrencia del evento y RR<1 si la asociacin es negativa. Ejemplo 5: Otra forma de resumir los resultados del ensayo clnico del ejemplo 4 es: Placebo Tratamiento Casos No casos Total 420 2634 3054 307 2744 3051

Y a partir de la tabla:

04244623210