Está en la página 1de 35

~ ~x -w

Como ejemplo del problema que puede ocurrir cuando se interpretan los coeficientes de correlacin, reconsideraremos el ejemplo anterior en el que calculamos una ecuacin de regresin para estimar la tensin intraocular a partir de I " dosis de un frmaco hipottico para el tratamiento del glaucoma. El extraer una muestra de la variable independiente, la dosis, de forma que tuvisemos una representadn uniforme de las dosis dentro del intervalo comprendido entre 1 y 10mg, como se mostr anteriormente en la figura 28-2, nos conducira a creer que ex-isteso1ouna moderada correlacin negativa entre la dosis y la tensin intraocular (r = -0,66). Por otro lado, podemos tomar la decisin de limitar nuestro estudio a dos dosis del medicamento y asignar aleatoriamente cinco pacientes a 1 mg y cinco pacientes a 10 mg como se muestra en la figura 28-5. En este caso, estimaramos un coeficiente de correlacin negativo mucho ms elevado en la pobladn (r = -0,95). Sin embargo, las estimadones de la t'Cuacin re,~rl.'Sin ambos mtodos de muestreo son exactamente las mismas. de en Para deddir cul es el mtodo representativo y, de ese modo, legitimar el uso del anlisis de la correlacin, necesitamos anticipar las dosis que se utilizarn en la prctica clnica. Por ejemplo, redbirn los pacientes todas las dosis entre 1 y 10 mg con frecuencias aproximadamente iguales? Si esto es as, el coeficiente de correlacin de -0,66 refleja correctamente la asociacin entre la tensin intraocular y las dosis que podemos prever que se experimentarn en la prctica. Por otro lado, si los pcJcientes reciben dosis de 1 mg o de 10 mg con 1mismcJfrecuencia, el cOt?ficientede correlacin de -0,95 estima la relacin dosis-respuesta que puede anticiparse. Si se emplea cualquier otro patrn de administracin del frmco, ninguno de los coefidentes de correlacin estima correctamente la relacin previsible entre la dosis ~.la tensin intraocular. Para muchos tipos de datos, es dificil escoger la distribucin apropicJda de la varible independiente, especialmente en las relaciones dosis-respuesta. Cuando resulta dificil hacerlo, podemos emplear el anlisis de regresin, pero debemos e\itar el de la correlacin.
;?:

VAIUABLE
~ ~ ~ =0: ::; ~ ~ ~ >(:) 3 :: '~ ;.oJ ~ :: ~ 'C 3 :: .. (,1) '-.I ..., ~

DEPENDIENTE

ORDINAL

Al examinar la figura 28-6 observar que no se considera ia posibilidad de una variable dependiente ordinal asociada con una variable indeptc'ndiente continua, porque esta ltima se debe transformar a una escala ordinal. la situacin es similar a la que discutamos en el caso de la variable dependiente continua incluida en un anlisis con una variable independiente ordinal. No existen tcnic.Jsestadsticas que se utilicen habitualmente para comparar una variable dependiente ordinal con una \'ariable independiente continua sin realizar esa transformacin.

Variable independiente nominal


L1 "III.'I~ ,iI.',\tfa,I11-Whitlll'Y una prueba de significaC:n estadses tica aplicable a una variable independiente nominal ya una variable dependiente ordinal. Tambin es aplicable a una variable dependiente continua transform.1.:ia a una escala ordinal, con objeto de eludir el supuesto de la prueba de la t de Student. La hiptesis nula considerada en la prueba de f\lann-Whitney es que las dos muestras de la poblacin no difieren en la posicin. Dado que es una prueba no paramtrica, en la hiptesis nula no se especifica ningn parmetro de posicin. Muchas veces, omos hablar de la hiptesis nula de la prueba de Mann-Whitney en trminos de la igualdad ~ las medianas. Esto se aleja de la \'\!rdad, pL'ro 1.1S medianas de los dos grupos de mu~tra~ se pue-

?06

FIGURA 28-6. Esquemapara seleccionar un mtodo estadfstico bivariante para una variable dependiente ordinal {continuacin de la figura 26-5)
Variable dependienlB ordinal

Variab~ independiente nomflal

Vanao~ n~le 0IdiIa1 I

Intels en la poscM)n I Variableindependiente de una n1J~ alealoria o intenclnada I MeCiana (Sle~e) I Mann.Wlliney o Pruebade la mediana

Inters enlapGSdn I VariableW1depend~nle de una ~esra a~loria I I Coe/~-nte de conelaOOn de Spearman

PnJeba Spearman de

den comparar ms directamente aplicando una Ilrrlel~ delaslnedia,UlS.1o prueba de las La medianas generalmente tiene menos potencia estadistica que la de Mann-Whitney.
Variable independiente ordinal es ordinal o continua y transfonnada a de la asociacin entre la variable depenpara1elo al anlisis de la correlacin. En de correlacin ms utilizado es el coefi-

Si la variable dependiente una escala ordinal, podemos estimar la fuerza diente y la indl!pendiente mediante un metodo el caso de las variables ordinales, el coeficiente

cie1rtede corrt'lacin de Speamlan ($pt'Iln,lan'scorrelation coe.fficient).Este coeficiente se puede calcular sin realizar muchos de los supuestos necesarios para calcular el coeficiente descrito para las variablL'S continuas. Es importante recordar que todo coeficiente de correlacin puede calcularse a partir de muestras en las cuales tanto la variable dependiente co"ro la independiente son representativas de la poblacin. En otras palabras, tenemos que emplear el muestreo aleatorio. No existe ningn mtodo no paramtrico que nos exima de este supuesto. Al igual que ocurre con el coeficiente de correlacin calculado para las variables continuas, podemos realizar pruebas de significacin estadstica y construir intervalos de confianza del coeficiente de correlacin de Spearman. Tambin podemos elevar al cuadrado este coeficiente para obtener una estimacin no paramtrica del coeficiente de determinacin o porcentaje de la variacin de la variable dependiente que es explicado por la variable independiente. 2 2: s "' ~ ~ ~ : ~ ~

", Aun'!ul. Id prul.bd de IdSm"didnds "'. r"ti"r" d m"didds de posicin l'Specticas.es una pru~

nu param~trica.
.,
0 -

pl,r'!ul. l.n l.lId n" "" ,uplml. 'Iu" IdSml-ddndsd" ,,), d"s !\rupos St!dnpar;imetros de una distribucin plmlaci,>ndl Jl-tl.rminddd

-,

. ';;:? :;;'7

VARIABLE

DEPENDIENfE

NOMINAL

~;~

Los mtodos estadsticosbivariantes para las variables dependien~ :G tes nominales se presentan en la figura 28-7. Variable independiente nominal: diseos apareados

Si nos interesa obtener informacin sobre una variable dependiente nominal y una independiente nominal, tenemos la posibilidad de escoger entre un diseo para datos apareados y uno para datos no apareados o independientes. Construido de forma apropiada, la potencia estadstica de un diseo para datos apareados es ms alta que la de un diseo para datos independientes. Recuerde que el apareamiento por parejas es un tipo especial de apareamiento en el cual la variable dependiente y la independiente se miden en cada individuo a partir de un par de individuos similares, y las observaciones de cada par se analizan conjuntamente. Cuando analizaInOS una variable dependiente nominal mediante un diseo apareado, utilizamos una tcnica bivariante en \-ez de una tcnica univariante como hicimos con la variable dependiente continua en un diseo para datos apareados. En nuestro ejemplo anterior sobre la tensin arterial medida antes y despus del tratamiento con un frmaco antihipertensivo, utilizamos un mtodo univariante para examinar la diferencia entre las mediciones de la tensin arterial. Con una variable dependiente continua que se mide por datos apareados es apropiado utilizar
FIGURA28-7. Esquemapara seleccionar un mtodo estadlstico bivariante para una variable dependiente nominal (continuacin de la figura 26-5)
Variat~ depe~dienle ~Wlal
~ :r.

I Variab~ Inoepe~nle nomnaJ

I, Va~able ~18 OItWIal ~tnJa o I Int8ls I . ..:a~ 1 D~no para dalOS lIdepen<ienl8S

~ ~
~ ~ ~ ~ :Q ~ ~ :... o c ~ ;.. V'\ ;., "2; ~ ~ ~ ~ 5 'iJl ;., o ~ u

Intefs en la posr.K)n I D;se.,o para datos apal9a(X!s I

I Razn 118 pIOOJaos Ct\lzaOOs para datos apareaj)s

I DjnncJa enlre P/qxICCnes o razn

I DIMnCIi entre tasas o razn

] Razn 118 ~tos Ct\IzaOOs

PencMnIe y~ de VlleIS8Cc2In

Prueba de McNemar

~Ionac~n nOIInal a la binomlal o Ji Qadrado O

AprolomaQ)n normal a ~ bW1omial

JI OJadraOO de Manlel-Haenszel

Prueba de~aJadraOO para l~nCIa

208

PnJeba elaaa

de F5ner

una tcnica univariante, dado que podemos resumir las observaciones de cada par empleando la diferenda entre esasmedidas como variable dependiente. Con una variable dependiente nominal medida en grupos apareados, todava estamos interesados en comparar las medidones entre pares, pero no podemos resumir los datos nominales de tal forma que nos sea posible utilizar el anlisis unjvariante. Las variables dependientes nominales permiten obtener cuatro resultados posibles entre los pares. En dos de estos resultados, ambos miembros del par tienen los mismos valores de la variable dependiente nominal. Por ejemplo, si en un ensayo clnico en el cual los individuos se aparean segn el sexo y la edad antes de un tratamiento asignado al azar y la variable dependiente fuese la supervivenda, ambos miembros del par podran sobrevivir o morir. los pares de este tipo se denominan JXlres ca1lcordantes {concordant JXlirs).lllos dos resultados restantes de las vdriables dependientes e independientes nominales son aquellos en los cuales los miembros de los pares tienen resultados opuestos. En nuestro ejemplo, estos resultados se produciran cuando un miembro del par muere y el otro sobrevive. Estos se conocen como JXlres discordantes {discordant JXlirs) . Consideremos con ms detalle el ejemplo de W\ ensayo clnico que compara la mortalidad entre las personas que fueron tratadas con un determinado frmaco frente a las que fueron tratadas con placebo. Supongamos que nos interesa la influencia de la edad y el sexo en la supervivencia, as que identificamos 50 pares de pacientes de la misma edad y sexo, y asignamos al azar a un miembro del par al grupo que recibe el medicamento y al otro al grupo que recibe placebo. Adems, imaginemos que los resultados obtenidos de este ensayo son como los representados en la figura 28-8. En ese caso, habramos observado 9 + 11 = 20 pares concordantes y 6 + 24 = 30 discordantes. En este ejemplo, si el tratamiento fuera eficaz. esperaramos observar diversos pares en los que el miembro tratado con el medicamento sobrevive y el tratado con placebo muere. Asimismo, esperaramos observar menos pares en los que el miembro tratado muere ~'el tratado con placebo sobrevive. En otras palabras, esperariamos observar una diferencia entre las frecuencias de los dos tipos de pares discor-

;:; ~ ~ ~ s

.~ ~
L"s p.1resc"ncordantcs son .tn.\Joh"'sa un" difcrcncia cntrc p.1r..'S iKu,,1" cero para una variable dependiente contlnu" cn un" pru...N .1p"rc"d" ltC I" I de Studcnt. Dcl mismo modo quc el cero no intluye en la magnitud de la m tio1 I", dif..-rcncias p.1r" un" \'ari"ble dep'-'ndicnte c"ntinu". I"s p'trcs concordantes no contnbuyen .1I" de cvalu",ilin dc 1" intcrprclarilin dc un" v"ri"ble d"p'-'ndientc nomin,,1"p.1reada.

~ "I:

209

dantes, si fueran distintas las probabilidades de supervivencia de los padentes trata~ y los no tratados. Adems, cuanto mayor fuera la diferencia entre esasfrecuen<:ias. ~;"'" alta sera la eficacia estimada del tratamiento. ,~~, En lugar de examinar la difrrenciaentre las frecuendas de los ~ discordantes, lo que habitualmente nos interesa es la raz6n de estas frecuendas. Di~ razn es una estimacin de la razn de productos cruzados poblacional (oddsr!2tio). c. este ejemplo, la razn de productos cruzados para los datos apareados es igual al nQ.. mero de pares en los cualesel miembro tratado sobrevivey el miembro no tratadc)mu~ di..;dido por el nmero de pares en los cuales el miembro tratado muere y el no trata~ sobrevive, o sea, 24/6 = 4. Es importante recordar que la razn de productos cruzados para los datos apareados tiene que calcularse a partir de los datos de los pares disco:rdantes. Si hacemos caso omiso del hecho de que los datos son apareados y procedemos como si los datos correspondieran a individuos no apareados, nuestra estimadn de la razn de productos cruzados poblacional sera inexacta. Para ilustrar este punto, en fa figura ?S-9 se presentan los datos de la figura 28-8 como si estos se hubieran analizado sobre la base de 100individuos separados en lugar de SOpares. La razn de productos Q'u,.. zados calculada a partir de los datos presentados de esta forma estara sobrestimada: Razn de productos cruzados = 33 x 35
15 x 17

= -!,;>3

Para realizar pruebas de significacin estadstica de pa~; discordantes se emplea la lrl/ebtde \11cNel11ar. pueden aplicar mtodos relacionadlos para Se calcular los intervalos de confianza de la razn de productos cruzados de las obSt?n-a:dones apareadas. Variable
~ 5 :J ~ ~ "2 :J ~ ~ :o ::) ~ >::) ~ .r, -J "2 :J ~ ~
S ;.. .~ L-J ""' '-' ~ '9

independiente

nominal:

datos independientes

En el anlisis bivariante de una variable dependiente nominal no apareada, al igual que en el anlisis univariante de las variables dependientes nlominales, podemos escoger entre medir una proporcin como la prL'valencia, el rie:;go o la \.entaja, o medir una tasacomo la incidencia. Tambin tenemos la opcin de selec~ el mtodo para comparar dos proporciones o dos tasas. En concreto, podemos decidir comparar estimaciones de grupos utilizando una diferencia o una razn entre las estimaciones.

AGURA 28-9. Una labia 2 x 2 para datos independientes correspondiente a los datos ap(I~O$ de la FIGURA28-8. Observe cOmodifiere esta tabla de la tabla para dalos apareados. En es13 ligura. las columnas indican los resultados en los individuos, y las filas, los grupos de lralam~ a los que fueron asignados los individuos
SUPERVIVENCIA

Vivo Tratados Grupo de tratamiento 3

Muerto

17

50 ~ 50

No tratados
210

15

35 52

48

Por ejemplo, considere un estudio en el que estimamos la prevalencia de cataratas en las personas expuestas a radiaciones ionizantes cincuenta aos despus de la exposicin. Suponga que la prevalencia de cataratas en 50 personas no expuestas menores de 40 aos de edad en el momento de la exposicin fue de 2%.En 100 personas de la misma edad expuestas a cierto nivel de radiacin ionizante la prevalencia de cataratas fue de 12%, aproximadamente. Como estimacin puntual que reo sume estos datos podemos usar la razn de prevalencias, esto es, la prevalencia de cataratas en los expuestos dividida por la prevalencia en los no expuestos, que es igual a 12%/2% = 6. Por otra parte, tambin podemos calcular la diferencia de prevalencias o la prevalencia entre los expuestos me/lOS prevalencia en los no expuestos, que es igual la a 12% -2% = 10%.
Desde un punto de vista estadstico, la eleccin de una razn o de una diferencia entre proporciones o tasas generalmente no tiene importancia. De hecho, en el anlisis bivariante se emplean los mismos mtodos para construir los intervalos de confianza y las mismas pruebas de significacin estadstica sin tener en cuenta si la estimacin puntual es una razn o una diferencia. Esto se desprende del hecho de que la hiptesis nula de una diferencia igual a cero equivale a la hiptesis nula de que una razn es igual a I. Cuando una razn es igual a I, el numerador tiene que ser igUal al denominador y, por lo tanto, la diferencia entre el numerador y el denominador tiene que ser igual a cero. Sin embargo, en el anlisis multivariante, la distincin entre las diferencias y las razones puede ser muy importante, y se tratar en el captulo 29. Es muy probable que en un anlisis bivariante de las variables nominales independientes ~' dependientes de un diseo para datos no apareados nos enfrentemos con varios mtodos estadsticos. Como en el anlisis univariante de una variable dependiente nominal, estos mtodos son de dos tipos: mtodos exactos y uproximaciones ula distribul.in normal. El mtodo exacto para las proporciones bivariantes es la prueba L'.TUCtll Fi..;J,t'r JL' (L'.TUCt Fisl,er's tt'St).I~ Dos mtodos de aproximacin hubitualmente empleados para las proporciones son la aproximacin normal y las pruebus de ji cuadrudo.'J L.1s tuSuScusi siempre se unalizun utilizundo la aproximadn normal. Las pruebas de significacin estadstica ~' el clculo de los intervalos de confianza paia la razn de productos cruzados se basan habitualmente en la prueba ii de ,\/alltclHat'1IS=d, tambin una aproximadn normal.l..

Variable

independiente

continua

Cuando tenemos una variable independiente continua u ordinal y una variable dependiente nominal, podemos considerar la posibilidad de que varios valores de la variable independiente sigan una tl?1fdencia (trt'r!d). Por ejemplo, quiz nos interese examinar la hiptesis de l'studio segn la cual la proporcin de individuos que dl'sarrollan un .lccilil'nte vascular cerebralaumenta de forma lineal a medida que se eleva la tensin arteri,11 di.lstl)lica,fr1.'1lte la hiptesis nula de que no existe una relacin lineal a entre esasvariables. Este es el mismo tipo de hiptesis que se considera en la regresin
I! L.1 pru..ba ..X.1ct.1d.. Fish..r S4.' ..mpl...1 CU.1n.!o .1lguna d~ las frecuencias previstas segn la hiptesis nula en una t..bl.1Z x Ze,;m..norqu..5, I) En realidad. l'n 1:1 .1n-ili,.;,; biv;)ri;)nt..l.1 ;)proximOJcin nonnal y la prueba de ji cuadrado ,;on equivalente,;, La raiz

:~ ~ ~ "C ; ~ ~ ~ "'C ~ "C

l"Uadr;)d.1 d..ll:st.1di,.tlco ii cu.1dr,ldo ..,. i:u;)1 ;)1estildistico de la ;)proximacin nonnal, " Fn.'Cul:nteml:nt... un;) prulob;) dl: ';1:niiic;)l;n estadstica bivariilnte pdra variables normales exigir realizar una "corTl'Ccin d.. continuld.1d" ("lrr",ilt1tl!,'r ,',,"Iilluily), Esta corTeccin ..s un ;)juste de l;)s observaciones nomin.1ll'S cuando ,;e tr.1n'.l)rm.1n l'n dislribucionl:s COfllilll.a$, como 1.1 distribucin ;ausi.1n". para fines de anlisis, EI,'".mplo m-is t.1mlli..r ,II: corrl'Cci,)n de continuid.1d ..,; I.. correccin de Y.1tes emple..da en la prueba de ji CU.1dr..d" Aclu..lml:nll:. 1",.l";I..di"llco" no I:"t.in d.. .1cuerdo sobre 1.1 utilid.1d d.. ..sta corTe.:cin, Por suert... el us.) o no dl. un.1 CorTl'l'cii)n dl' continuidOld r..r..m..nte lil:nc un impdcto imporl.1nte sobre los result.1dus del .1n.ili,;is

211

lineal simple con la excepcin de que en este caso tenemos una variable deI>endiente nominal en lugar de una variable dependiente continua. En lugar de una re~7esin lineal simple, realizaremos una pntebadeii cuadrado ~ra tendencias (chi-square for trend). test Si bien se da un nombre especial a la prueba empleada para investigar la posibilidad de que una variable dependiente nominal siga una tendencia lineal, debemos damos cuenta de que la prueba de ji cuadrado para tendencias es muy similar a una regresin lineal. Por cierto, las estimaciones puntuales de los mtodos que se emplean con ms frecuencia para investigar una tendencia son la pendiente y el punto de interseccin de una ecuacin lineal, que son idnticos a las estimaciones que hemos comentado para la regresin lineal. 15 Imagine que deseamos investigar la tasa de mortalidad entre las personas con cncer en los estadios 1,2,3 y 4. Como hiptesis razonable de estudio, se podra plantear que la tasa de mortalidad aumenta a medida que avanzan los estadios de la enfermedad. Por lo tanto, deseamos investigar la posibilidad de que la variable dependiente nominal, la tasa de mortalidad, siga una tendencia correspondiente al estadio de la enfermedad. En estas circunstancias, en que tenemos una variable dependiente nominal y una independiente ordinal, esespecialmente importante recordar que la prueba de ji cuadrado para tendencias es muy parecida al anlisis de regresin lineal. Cuando examinamos la tendencia de una variable independiente ordinal, deben asignarse ..'aloresnumricos a lc1s categoras ordinales."' La manera como se defulan estos valores numricos determinar el resultado de Id prueba de ji cuadrado paCil tendencias. Es una convencin c1signar nmeros enteros consecutivos a estas categoras ordinales, a no ser que las categorassugieran una escalaordinalaltemativa. De este modo, la variable ordinal se trata como si realmente tuviera categoras uniformemente espacic1das, como sucedera con los datos continuos. Por fortuna, esta es una pn;eba muy robusta y, en consecuencic1, improbable que la ..;olacin de este supuesto tenga un es gran impacto. 1;~ :r. '.J ::J ~

RESUMEN
Los mt!todosbivari,lntt's ."t' J1.tilizanpara iJnalizar un conjunto de observaciones que contienen una variable dependiente y una independiente. Las variables independientes pueden ser continuas, ordinales o nominales. Las variables independientes nominales dividen el conjunto de observaciones en doS grupoS. Esto permite Comparar las estimaciones de la variable dependiente de loS doS grupoS. En este captulo hemos aprendido que la comparacin de las estimaciones de loSgrupos en el anlisis bivariante no t.'510mismo que comparar loSintervalos de confianza univariantes de estas variables. Un supuesto universal de las tcnicas estadsticas es que los valores representativos de la variable dependiente se han obtenido mediante un muestreo aleatorio. Por lo tanto, debemos suponer que la distribucin de la variable dependiente
" l.i e"l!m.1cin puntu.11 dl! 1..",..-(1eficil!nt..'Sen un.1 prul!b.1 de ii cu,tdr.1do p.1ra tendencias I!S idntic.1 .1 la I!stirna..,n en 1.1re~'resln lineal ~Impll!. r.,ra l.J infl!..'ncia y 1.1 ..'Stim.1cin por intervalo. se ..'atiza un supuesto algo distinto que producl! intl!r\'alos de confianz.1ligeraml!nte m-is .1mplios y valores p un poco m-is altos ,~n la prueba ~ ii .."Uadro1do qu... I!n 1.1 n.~'n""\n linl!al. Esta difl'rencio1 se redUCI! a m~id.J qu... .1Uml!nta el tamao ~ la mul'Stra. .Tamb,n se deb..-n a"i~n.1r valon.'S numliricos .1 la v,tnabll! dl'p~ndil!nte nomin.1l. p~ro su 1!11!ccinno influye en 1!1resultado d~ la Infer..'ncia o dl! la ..'Stimacin por int..'rvalo dl!b,do a la naturall!za dicotmlca dl! la vari.1ble. '- S, bien se h.1n dl!';.:ri!t, ut,,"' m..;todo" para ~x.1minar 1.1 tenden..;.1 dl! una variable dependiente nomi:tal re"pecto d~ 1..15 vak,rl!" d~ un.1 vari.1.k. ,n..il!l"'nt.i,l!ntl' (,rdin,tl qul! no I!'i~..'n .1si~nar valorl!" numricos .."'pt.cjfico" a las ..-ate"",ria" "rdin.1I..", nt., par '..'n Il!n..'r ...1.1mplit, u""..I..'1 qu~ hl!mo" ~'plic.1do .1qui, Qui~. un.1 dl! 1.1"r,tLones JI!I u"', inir..,,-u...ntl! J..' ..."" m...It,.,1o' .llt...m.1livos ~a ..Iu~ no 1!"l!m.1n un.1l!cudcin qul! pul-d.1l!mple.1..1! para I!x.1mln.1r Id re!",'1..'n ...ntrl! 1.1 ..dridbl~ JI!pt.'ndil!nt~ y la indl!p..'nJi..'nt~,

~ z ::J ~ ~ ~ '::J ~ ;.. '::J a 2 ~ -J ~


~ ~ a ::J '~ '.J Q ~ ~

en la muestra es representativa de su distribudn en la pobladn de la que se extrajo la muestra. Tambin es posible obtener la muestra de valores de la variable independiente de forma que sea representativa de la pobladn. El muestreo representativo de la variable independiente se denomina muestreo aleatorio. Por otro lado, podemos escoger la distribudn de los valores de la variable independiente en nuestra muestra de tal forma que maximice la potenda estadstica o garantice la inclusin de catL'gorasde la variable independiente que raramente ocurren en la pobladn. Este tipo de muestreo se denomina muestreo intendonado y con l se obtienen muestras con valores de la variable independiente que no son representativos de la pobladn de la cual se han extrado. La distindn entre muestreo aleatorio y muestreo intendonado es especialmente importante en el anlisis bivariante de una variable continua dependiente o independiente. En nuestro caso, lo que ms interesa es estimar los valores de la variable dependiente para varios valores de la variable independiente. La estimadn real de los valores de la variable dependiente se consigue mediante el anlisis de regresin. La fuerza de la asodadn entre una variable dependiente continua y una independiente continua se estima por medio del anlisis de la correladc)n. El anlisis de regresin es apropiado sea cual fuere el tipo de muestreo de los valores de la variable independiente. :-.oobstante, el anlisis de la correladn es til solamente cuando la muestra de la variable independiente se ha obtenido mediante muestreo aleatorio. Como I)CUrreen el anlisis univariante, las variables continuas en los grupos de datos bivariantes se pueden transformar a una escala ordinal, si sospechamos que la pobladn de la que se han extrado no cumple los requisitos de los anlisis de las variables continuas. Los mtodos para analizar las variables dependientes ordinales son, en su mayor parte, paralelos a los anlisis aplicables a las variables dependientes continuas. Una excepcin a esta regla es que no existe un mtodo de uso general para realizar un anlisis de regresin con variables dependientes ordinales. Algunos de los prindpios generales del anlisis bivariante de las variables dependientes nominales son similares a los de las variables dependientes continuas y ordinales. En IJStrL'S. variables independientes nominales dividen a un conlas junto de observadones en grupos para ser comparados. Adems, nos interesa estimar ia \-ariabledependiente para \'arios valoresdela variable independiente sin tener en cuenta el tipo de variable dependiente. Con las variables dependientes nominales, esto se conoce como anlisis de tendenda en lugar de anlisis de regresin. Sin embargo, la diferenda de terminologa no implica que los mtodos sean muy distintos. De hecho, el anlisis de regresin realizado con una variable dependiente continua es bastante similar al mtodo ms frecuentemente usado para examinar una tendend con una variable dependiente nominal. Otros principios generalesdel anlisis bi\'ariantE'difieren en los tres tipos de variables dependientes. Uno de ellos es el anlisis de los datos de un diseo para datos apareados. Con una variable dependiente continua, los datos se analizan usando mtodos univariantes. Sin embargo, los datos nominales apareados se deben analizar con mtodos bivariantes. Otra diferenda es la forma en q\le se comparan las estimadones puntuales cuando la variable independiente es nominal. Parauna variable dependiente continua, las medias de los grupos definidos mediante la variable independiente se comparan calculando la diferenda entre esasmedias. No obstante, con las variables dependientes nominales es posible comparar propordones o tasas como diferendas o como razones, en el anlisis bivariante. Las pruebas de significadn estadstica y la construccin de los intervalos de confianza se llevan a cabo utilizando loS mismos mtodos, tanto si se usan las razones como las diferendas. No obst.1nte, las ventajas (IXlds)siempre se comparan mediante una razn.

"2: ~ ~ " ~ -2 ~

21.

,
ANLIsIs MULnVARIANfE
En el anlisis multivariante tenemos una variable dependiente y dos o ms independientes. Estas variables independientes se pueden medir en .la misma oen diferentes escalas. Porejemplo, todas las variables pueden ser continuas o, porotro lado, algunas pueden ser continuas y otras nominales. En los esquemas que figuran en este captulo solo hemos incluido las variables independientes nominales y las continuas. Aunque en el anlisis multivariante se pueden incluir variables independientes ordinales, estas deben transformarse antes a una escala nominal.1 El uso de los mtodos multivariantes para analizar los datos de la investigacin mdica presenta tres ventajas generales. En primer lugar, permite investigar la relacin entre una variable dependiente y una independiente mientras se "controla" 0 se "ajusta" segn el efecto de otras variables independientes. Este es ei mtodo utilizado para eliminar la influenlia de las variables de confusin en el anlisis de los datos de la investigacin mdica. Por ese motivo, los mtodos multivariantes SE'utilizan para cumplir con la tercera finalidad de la estadstica en el anlisis de los resultados de la investigacin mdica: ajustar segn la influenlia de las variables de confusin. Por ejemplo, si nos interesa estudiar la tensin arterial diastlica de las personas que reciben di\'ersas dosis de un frmaco antihipertensivo, podramos desear controlar el eft.'Cto potencial de confusin de la edad y del sexo. Para hacer esto en la fase de anlisis de un proyecto de in\"estigacin, utiliz.lramos un anlisis multi\'ariante con la tensin arteriall.iiastlica como variable dependiente y la dosis, la edad y el sexo como variables independientes. L1 segunda \'entaja que ofrecen los mtodos multivariantes es que permiten realizar pruebas de significacin estadstic;} de diversas variables manteniendo al mismo tiempo la probabilidad (alfa) escogida de cometer un error de tipo I.2 En otras palabras, a veces empleamos los mtodos multivariantes para e\itar el problema de las comparaciones mltiples presentado en la Seccin 1. Como recordatorio del problema de las comparaciones mltiples, imaginemos que tenemos diversas variables independientes que comparamos con una \'ariable dependiente mediante un mtodo bivariante como la prueba de la t de Student. Aunque en cada una de estas pruebas bivariantes aceptemos solo un riesgo de 5% de cometer un errlJr de tipo I, la prl.)babilidad de cometer al menos un error de tiF'o 1 entre todas L'StaScomparacionL'S ser algo m.1yor que 5'7c. La probabilidad de cometer un error de tipo I en alguna comparacin determinada se denomina tasa de error de la prueOO (~tw;St'). L1 probabilidad de cometer un error de tipo I por lo menos en una comparacin se denomina tasa de error ft'Il'.'(pl'r;'1It'1lto (t'.'(IIt'r;'1It'1IhL';St'). Los anlisis bi\.ariantes

5 ::: '1; 'Z; ::: ~ '1; ~ ~ ~ ;.. ::) 3 ::: '.I\


'-J 'Z; ::: ~ '1; 3: ::: ;.. '.I\ :.J ::) ~ .-.. u

L.1 conversin de un.J escill.J ordin.J1 .J unil nominill produce un.J p.:-rdid.J de mlormilcin qu~ ~ e'S necesario lushficilr. No ob"l.Jnl~. I.J Irdn"iurm.JcI..," de lu" d.Jlus d und l',;c.JLl (onlinUd "u~i"re 'lue lus d.JI,-,", cC'nn~nen mds ,niormilcin de I.J'1ue re.Jlmenle p')Sl..'n. lu cudl e" .J m"nud,) ,Iiii...il ,le iu"tiii(dr Ddd,) que Id pn'l-dblliddd de (,)meter un "rr"r de tip') I hdl-Itudlm"nl" "" "il.J en ,,1 5'~ .l'S1~ '<"" ,..1villur '1ue utiliLoJr"mu" "n ,,1 r""t.., ,1" ""t" (dpilul,).

controlan la tasa de error de la prueba. Por ob'a parte, muchos mtodos multivariantes estn diseados para mantener una tasa consistente de error de tipo I del experimento. La mayor parte de los mtodos multivariantes se aplican para anatizar dos tipos de hiptesis nula. La primera se conoce como hipt,esisnula general(O1nnibus).Esta hiptesis nula plantea la relacin entre la variable dependiente y el conjunto de variables independientes considerado como una unidad. La hiptesis nula general es una de las estrategias de los mtodos multivariantes para mantener la tasa de error de tipo I del experimento en a = 0,05. No obstante, un inconveniente de la hiptesis nula general es que no permite investigar las relaciones entre cada una de las variables independientes y la dependiente de forma individualizada. Esto SE! realiza mediante el segundo tipo de hiptesis nula planteada en las pruebas parr:lles (partia/) o por pares (pairwise). Estas pruebas no siempre mantienen una tasa de error de tipo I del experimento igual a a = 0,05. La terceraventajaque ofreceel anlisismultivariante esque se puede utilizar para comparar por separado la capacidad de dos o ms variables independientes para estimar los valores de la variable dependiente. Por ejemplo, supongamos que hemos llevado a cabo un gran estudio de cohorte para examinar los factores de riesgo de la enfermed~d coronaria. Entre las variables independientes medidas se encuentran la tensin arterial diastlica y la concentracin de colesterol srico. Deseamosdeterminar si ambas variables ~umentan el riesgo de padecer una enfermedad coronaria. Sin embargo, el examen de su capacidad par~ explic~r quin desarrollar; la enfermedad coronaria mediante un anlisis bivariante puede ser engaoso si los individuos con tensin arterial diastlica elevada tienden a ser los mismos que tienen una concentracin de colesterol srico elevada. Por otro lado, si empleamos mtodos muJtivariantes para comparar estos factores de riesgo, podremos separar su capacidad como estimadores del riesgo de enfermedad coronaria de su a~rt'7lte asociacin con la enfermedad debida a la asociacin entre ellos mismos. Dadas las ventajas expuestas, los mtodos multivariantes se emplean con frecuencia para analizar los datos de las investigaciones mdic~s. Examinemos ahora ms detenidamente esos mtodos as como las formas de interpretarlos para apro\'eCharsus ventajas.

VARIABLE

DEPENDIENTE

CONTINUA

Variables independientes nominales


En el anlisis bivariante de una variable dependiente continua y de una variable independiente nominal, esta ltima tiene el efecto de dividir la variable dependiente en dos subgrupos. En el anlisis multivariante, tenemos ms de una variable independiente nominal y por eso es posible definir ms de dos subgrupos. Los mtodos usados con ms frecuenda para comparar las medias de la variable dependiente entre tres o ms subgrupos son tipos de un anlisis estadstico gE!neraldenominado a,uilisisde la turianza (a,ralysis ofturiance) o, a menudo, A1.'lOVAJ (figtlra 29-1). El tipo de ANOVA ms simple es aquel en el cual k variables independientes nominales separan la variable dependiente en k + 1 subgrupos o cate-

2: s ~ ~

~
~ ~ ~ ~
z ~

r"rece incon~ru"nt.. qu" unm~tl1do par" Compar"r medi"s se denomin.. "n'lisis de I" VJrianza. L1 razl.'nde l0,;te nombre es qu" ,,1,\NOVA "x"min" I" v"n"cin entr" subKrupoS, supt'm"ndo un" v"riacin Ku,,1 d"ntro d" ("d" subl:fUPO.Si I" v"ri"nL.l "nt~ k,s sub~rupo,; "xc"d" 1" v"ri"cin denlro d" "StoS,lo,; sul'Krupos d"ben dil.rlr "n 1" pt",icin m"did" pt,r 1",;med",;.

21.

AGURA 29-1. Esquemapara seleccionar un mtodo estadlstico multivariante para una variable dependiente continua (continuacin de la figura 26-5) Valiab~ ~. COnIi1ua
V8rilK>1es ~18S nomiIales Val"llb~ ~!8S con~as Vari;i)jes 11depencfen.1 contirlJaS o noninales I

I No~r.x.

1n-.9s enm~ I

1"*" 111.~~

I~ en~~

I ~r.x.

I Variabes ~~ de una lTIJesUa a~ o .'11IICixIade

I V~

I Variab~ ~t8S de una n1J9St13 alealOlia o V1~Onada

I V~ ~~~ ~ UIIi lTI*Ira aNIOlia

de una lT1J8SIra a-tOOa

I ~ I

Medias i

~t~ deregr85aln

CoeOCenle de det8lT11inaci6n

Coefcient~ der8gresK)n

1~C8n. c ,IeITn1laci1

Wisis c8a~ 1T1~

F. Fpatt8I

"' ~ ~ "' z ~ ~ "' ~ ~ ~ ~ >~ "5 ~ fj z ~ ~ ~ Q ~ t\J') t.oJ ~ ~ u


Cuando k = I. en el an.il",s solo se considera una varial-Ie nominal. En este caso, l.'Stamos comrarando "0"' dos subKTUPOS y el analisls de la varianza d~ una va l-'; ~'.lctam~nte lo mismo que una prul.-ba d~ 1.1 d., Studl.'nt en t

gorias. Por ejemplo, supongamos que nos interesa ~studiar la relacin entre la glucemia basa} y la raza. Adems, supongamos que definimos dos variables nominales (k = 2) para indicar la raza: blanca y negra. Estas dos variables nos penniten considerar tres (k + 1 = 3) subgrupos raciales en los cual~s determinamos la glucemia basal. blancos, negros y otros. Este tipo de A."JOVA se conoce como ANOVA le ulra t'Q (OlIe-Uuy,0\'.OVA)..& La hiptesis nula general en un anlisis de la varianza de una va es que las medias de los k + 1 subgrupos son iguales entre si. En nuestro ejemplo, la hiptesis nula general seria que la media de la glucemia basal de los blancos es igual a la de los negros ya la de las personas de otras razas. Las categorias creadas por las k variables independientes nominales, que definen k + 1 subgrupos, deben ser mutuametlte excluyentes. Esto significa que un individuo no puede pertenecer a ms de una categoria. Por ejemplo, en la investigacin mdica, se suelen contemplar las razas como categorias mutuamente excluyentes. Para cada individuo se registra una sola categoria de raza. En este contexto es imposible que un individuo sea considerado blanco y negro a la vez.

216

el.1nilsls bvari.tnt~.

Cuando analizamos un grupo de variables como la raza y el sexo, las variables individuales muchas vecesno son mutuamente excluyentes. Por ejemplo, un individuo puede ser hombre o mujer seacual fuere su raza. Por lo tanto, es necesario disponer de otra va que permita que las variables independientes nominales definan los subgrupos. Habitualmente, la solucin de este problema es separar estas variables en factores (factors).Un factor es un conjunto de variables independientes nominales que define categoriasmutuamente excluyentespero relacionadas.Por E~jemplo, suponga que tenemos dos variables independientes que definen la raza y una que define el sexo de las personas de nuestra muestra en las que hemos medido la glucemia basal. Las tres variables independientes de este ejemplo represent~n realmente dos factores separados: raza y sexo. En lugar de k + 1 = 4 subgrupos, definimos (kr;lu + I) X (ksew+ I) = 6 subgrupos entre los cuales deseamoscomparar la media de la ,glucemiabasal:hombres blancos, mujeres blancas, hombres negros, mujeres negras, hombres de otras razas y mujeres de otras razas. El tipo de ANOVA que considera varios factores, as como las diferentes categorasdentro de cada factor, se conoce como M.avA frctorial(factorial A1\iOVA). En el AJ."10VA factorial podemos contrastar el mismo tipo de hiptesis nula general que en el A1"10VA una va. En nuestro ejemplo, la hiptesis nula de sera que la media de la glucemia basal de las mujeres blancas es igual a la de los hombres blancos. los hombres negros, las mujeres negras, los hombres de otras razas y las mujeres de otras razas. Adems, podemos contrastar las hiptesis de la igualdad de las medias de la glucemia basal entre los subgrupos de un determinado factor. Esto equivale a decir que podemos examinar el efecto por separado de la raza sobre la media de la glucemia basal o el efecto del sexo sobre la variable dependiente. Las pruebas estadsticas que se emplean para examinar los factores por separado se denominan pruebas de los efectos 17ri//cilWles (IrUli//effrcts).Todas estas hiptesis nulas d(' los A;\OVA se contrastan utilizando la distribrlci6ntie F (F tiistriI1lItion). Los resultados del anlisis de un efecto principal tienen en cuenta las posibles relaciones de confusin de las otras variables indeper:dientes. En nuestro ejemplo. si contrastamos la hipmesisnula segn la cual las medias de la glucemia basal son iguales en los tres subgrupos raciales mediante una prueba de A1\iOVA del efecto principal de la raza, esta prueba controlara los resultados segn CUllquierdiferencia en la distribucin del sexo de esos grupos raciales. De este modo, el A"OVA factorial nos permite beneficiamos de la capacidad del anlisis multivariante para controlar el efecto de las variables de confusin. Parainterpretar las pruebas de loSefectos priru:ipales. es necesario suponer que el factor tiene la misma relacin con la variable dependiente seacual fuere el nivel de 10S0"troS factores. Es decir, suponemos que la diferencia entre las medias de la glucemia basal de loS negros, los blancos y las personas de otras razas es la misma independientemente de que el individuo sea hombre o mujer. Esto no es siempre as. Por ejemplo, las mujeres blancas pueden tener una glucemia basal ms elevadaque los hombres blancos, pero la glucemia puede ser similar en las mujeres y los hombres negros 0, de forma ms extrema, los hombres negros pueden tener una glucemia ms elevada que las mujeres de esa misma raza. Cuando entre los factores existe este tipo de relacin, decimos que existe una interacci6// (interaction)entre el sexo y la raza. Usando la terminologa mdica, podramos decir que existe un sinergismo entre la raza y el sexo en la determinacin de los valores de la glucemia basal. Adems ,je la prueba de los efectos principales, el ANOVA factorial puede usarse para contrastar hiptesis sobre las interacciones.

~ ~ ~ -

~ Ir Z .~ :2: ~

21-:

Como hemos visto, el ANOVA factorial nos pennite utilizar la segunda ventaja de los mtodos multivariantes para controlar las variables de confusin. : En nuestro ejemplo, hemos supuesto que el inters principal se centraba en la relacin i entrela raza y la glucemia basal, y que desebamos controlar el posible efecto de Confusin del sexo. Otra fonna de tratar los datos presentados en este ejemplo sera la de considerar la raza y el sexo como factores que se pueden utilizar para estimar la glucemia basal. En este caso, en lugar de analizar el efecto principal de la raza mientras se controla segn el sexo, utilizaramos el AJ.~OVA factorial, para comparar la relacin de la raza y la del sexo con la glucemia basal. De ese modo, el ANOVA factorial nos permitira examinar por separado la capacidad de la raza yel sexo para estimar la glucena basal. Este es un ejemplo de la tercera ventaja de los mtodos multivariantes. El ANOVA de una va y el factorial son mtodos tiles para analizar grupos de observaciones que incluyen ms de una variable independiente nominal y una variable dependiente que se haya medido una sola vez en cada individuo. La 6gura 29-} se refiere a este mtodo como diseo no a1Xlreado (unnratclred).Sin embargo, sabemos que a vecesse deseamedirla variable dependiente repetidamente en el mismo individuo. En el captulo 27 analizamos el ejemplo sencillo de un estudio en el que la tensin arterial se meda antes y despus de un tratamiento antihipertensivo .En aquel ejemplo, la prueba de significacin estadstica apropiada y tambin adecuada para ..:onstruir los intervalos de confianza era la t de student para datos apareados. A menudo, los estudios realizados en medicina se disean de tal forma que incluyen di\'ersas mediciones repetidas de la variable dependiente '!, a veces, exigen controlar los datos segn varias variables de confusin. Por ejemplo, supongamos que toda..;a nos interesa estudiar la respuesta de la tensin arterial a la medicacin antihipertensiva. Sin embargo, imaginemos ahora que no sabemos cunto tiempo debe durar el tratamiento para que la tensin arterial S!? estabilice. En este caso, podramos disear un ensa,!o clnico para m!?dir la tensin art!?rial antes del tratamiento y mensualmente durante el primer ao de tratamiento. Dado que disponemos d!?ms de dos mediciones de la variable dependi!?nte en cada individuo, denominamos a !?stediseo a1Xlrrodo (nratcllt'd)en lugar de diseo aparcado por dos (o por pares, en el que se aparean dos indi\;duos) (plrcd). Adems, supongamos que e~Tamos interesados en los efectos potenciales de confusin de la edad y el sexo. Para analizar las observaciones de este estudio, necesitaramos un mtodo estadstico distinto de la prueba de la t de student para datos apareados. Un diseo especial del Al\:OVA nos pennite con~;iderar diversas mediciones de la variable dependiente para cada individuo y controlar segn los efectos de confusin de otras \'ariables. Este diseo seconoce como ANOVA 1Xlra medidas repetidas (repeatt'lt mt'Qsures Ai\lOVA).; En los anlisis de la \'arianza para datos apareados e independientes, la hiptesis nula general mantiene una tasa de error de tipo I del experimento igual a alfa. No obstante, rara vez es suficiente saber que existen diferencias entre las medias dentro de un factor sin conocer especficamente cul es la categora en la que difieren esas medias. Es decir, no es suficiente saber que la media de la glucemia basa! difiere segn la raza sin conocer las razas que contribuyen a esa diferencia. Para exZlrninar las medias de los subgrupos con mayor detalle, empleamos pruebas por dos." De estas,
; En el ANOVA p"ra medidas repetidas. uno de los factores dentlfica los sujetos indivIdual..'S. y la van.1C-Ie depen-

5 ~ ~ "'

z ~ ~ "' :: ::) ~ ;.. a Q :J ;... VI '"'


Z :J ~ "' :: :J ;... '.n '-.:

9 < -o '...;

218

dientese mide para tOOas l.1s.:atl'gor.1S de. como mimm\), otr" factor denominado factor "repehdt,' En ambitos distintos de 1i1..'Stadistica m..'dica ...,.tediseo "' Jt:norruna A~A de bkJqu...'. "...ato""" (mrl.J.mi.:t'llli.,;* A.'-0.:-\).En el ANOVA. estas pruebas p')rdu\)s " pare,; 'e denomInan .:\m trl'Cuenci.l prueb.l'; 11Q';/.'T'IJ,,- r.1.:,'n de .."St.l Lo terminol"Kia es '!ue al~un.ls pru..-b.lS por p"n'S, ...'.pt.'CI.)lmenle 1.1,.)ntl~u.l';, ...x~en h.)bt.or ,e.lli.l.ld\- "~.1 prueba de ,igmficac\)n estadi,;tlca de 1.1 hipte,;ls nul.1 g"nl!r.)1 .)ntl',; de utIliLarl.l';

la prueba utilizada ms ampliamente en grupos de observaciones que incluyen una variable dependiente continua y ms de una variable independiente nominal es la pruL'fXl de Student-Newman-Ketlls. Esta prueba permite examinar todos los pares de medias de los subgrupos mientras se mantiene una tasa de error de tiF>O del experimento I a = 0,05.7Una reorganizacin algebraica de la prueba de Student..Newman-Keuls permite calcular los intervalos de confianza de la variable dependiente para cada valor de las variables independientes. Variables independientes continuas

Cuando las variables independientes de un estudio son continuas, podemos escoger entre dos enfoques que corresponden a los tratados en el captulo 28, cuando considerbamos el anlisis de regresin y el de la correlad()n. Casi siempre nos interesa estimar los valores de la variable dependiente para todos los valores posibles de las variables independientes. En el anlisis bivariante, utilizarr-os la regresin para estimar el valor de la variable dependiente dado UIJvalor de la variable independiente. Cuando tenemos ms de una variable independiente continua, el inters en la estimadn se puede mantener utilizando el aluilisisderegresin Inltiie (Imtilie regressioll a1Itllysis). En la regresin mltiple se estima la media de la variable dependiente continua mediante una ecuacin lineal que es similar a la de la regresin lineal simple, excepto que incluye dos o ms variables independientes continuas. y = a + 131 + 132 + ...+ XI X2 13k k X

Por ejemplo, suponga que nos interesa estimar la concentracin de cortisol plasmtico a partir del recuento de glbulos blancos (RGB), la temperatura corpof]l y la produccin de orina en respuest.l a una sobrecarga de quidos. Para investigar esta relacin, medimos el cortisol (~g/I00 ml), los glbulos blancos (103),la tempef]tura (oq y la produccin de orina (mI) en 20 paaentes. Mediante ura regresin mltiple podemos ~stimar la siguiente ~cuacin lineal: Concentraande cortisol = -36,8 + 0,8 x GB + 1.2 x temperatura +-4,7 x orina Del mismo modo que en el ANOVA, en la regresin mltiple podemos contrastar una hiptesis general que tiene una tasa de error de tipo I igual a a. En la regresin mltiple, segn esta hiptesis, 110 puede utilizar el conjunto de \-ariase bles independientes para estimar los valores de la variable dependiente. Paraevaluar la significacin estadstica de la hiptesis nula general se emplea una prueba F. Supongamos que, en nuestro ejemplo, obtenemos una F estadsticamente significativa. Esto quiere decir que, si conocemos el recuento de glbulos blancos, la tempef]tura y la produccin de orina de un paciente. podemos estimar o tener una idea aproximada de su concentracin de cortisol plasmtico. Adems del inters en la hiptesis nula general, en la regresin mltiple casi siempre es deseable examinar individualmente las relaciones entre la variable dependiente y las variables independientes.8 Los coeficientes de regresin asoL;adoscon las variables independientes constituyen una de las formas en las que se re-

~ 'C ~ 'C ~ ~ ~ "1 ~

.~ dispt)ne de "tras pruebas por pares para realizar comparaciones como l'StaS o para efectuar comparaciones distint.ls entre las ml-Ji.ls de I"s ,u~rupt)s. Un eiemplo de un tipo de comparacin distinta es aquel en el cua] ~"'.Imos comparar un ;rupt) de control con un.l serie de gruptJS experiment.lles. , EI.ln.ili,is de 1.1rel.ICi,in entre 1.1,van.lbles individu.lles independientes y 1.1 dependiente es anlo!\0 al examen dl' 1",; l.lctorlO'; ..-n ..-I/\NOVA factori.ll

~ "2:; 'C

219

CUADRO29.1. Pruebas F parciales de los coeficientes de regresin estimados para variables independientes utilizadas para predecir la concentracin plasmtica de cortisol

Recuento granulocitos de Temperatura Orina

t1~jan estas relaciones. LoS coeficientes de regresin Son estimaciones de las ~ de la ecuacin de regresin. LoS resultados del anlisis de regresin mltiple permiten efectuar una estimacin puntual y calcular loS intervalos de confianza de estos coeficientes. En las pruebas de significacin estadstica de loS coeficientes individuales se utiliza una prueM F xzrcial para contrastar la hiptesis nula de que el coeficiente es igual a cero. E cuadro ?9-1 muestra las pruebas F parciales de las variables independientes utilizadas para estimar la concentracin de cortis01 plasmtico. Aunque en este ejemplo se rechaz la hiptesis general, observamos que solo los coeficientes de la produccin de son estadstica mente significativos. En la regresin bivariante, los coeficientes de regresin estiman la pendiente de loS valores explicativos lineales de la variable dependiente en funcin de la variable independiente en la poblacin de la que se extrajo la muestra. En la regresin multivariante, la relacin entre la variable dependiente y cualquier variable independiente no es tan directa. El coeficiente de regresin realmente refleja la relacin que existe entre loS cambios que quedan en loS valores numricos de la variable independiente JsociadoS Con cambios de la variable dependiente despllsde IUlI1t'rtL'1lidot'1!LI~t,l iL"$ cam/,iLJS la turiable dept"ldiente asociadosL"0111os fe cambios de los lulores de todas las Jt.mjs ,uriables
:,:: :. ~ ~
z :J :c:

orina y la temperatura

i/uiq'L'ndit'1ltes. Es deCir, la contribucin de cualquier variable independiente particular ~n la regresin mltiple solo es la contribucin qul.'sesUptrpollt' a las L"O1ltrib-A-i es le todas las otras luriables i/rdeperldientes. Esto constituye una buena noticia ya la \-ez una mala noticia. La buena noticia es que los coeficientes de regresin mltipe se puel:ien considerar como el reflejo de la relacin entre la variable dependiente y las \-ariables independientes "que controlan" segn loS efectos de las otras variables independientes. Por ello, la regresin mltiple se puede utilizar para eliminar el efecto de una \-ariable de confusin continua.

~ c. ;o ~ ::;
z ~ :.: ~ :;=: ~

L1 mala noticia es que "controlar" segn el efecto de otras \'ariables independientes es sinnimo de eliminar la variacin de la variable dependjente que est asociada con esas otras variables independientes. Si cada una de dos \ariat:-Ies independientes puede explicar por s sola los mismos cambios numricos de la \ariable dependiente, en una regresin mltiple las dos juntas no tendrn importancia para explicar los cambios de la variable dependiente.9 No obstante, si se tiene en cuI~nta este resultado, se puede utilizar la regresin mltiple para examinar por separadc' la capacidad de las variables independientes para explicar la variable dependiente .

'-' < .o '-.J

20

El h..'Ch"d~ qu~ I"s v"n"bl~s 'nd~p...nJi~nl~sc"mp"rt"n inf"rm"c:ion pr~Jictiv" .., c"n,)C~como t..:i:nLalidad ("",lt'colli"t'Urit1l). Si bi~n es p')sibl~ perc"tarse de qu~ las v"ri"bles ind~penJienles comparten lnio~on examln"nJo loScl"'fic:i~ntes de cl'rT~l"cin biv"ri"nt~, ~nlr~ ~"I"s v"ri"bles, ~I me,or metodo p"Ta e--a::uar:.. existen'," J~ multIcl'in..."laJ"J ~" in,pt'CcII)n"r lo, ml,J~J), r~~re,i,;n qu~ incluy~n v ~xcluven a c~ .a;-..ar-IemdeJe f"-.OOil!nt~. Exi"ll' multicl'I"".lliJ.1d "i Il"; cl"'tt..,~ntl"' ,k fl'h're,;il;n c"mbi"n ,u,l"ndo1lm~nt~ ,~' "' ,"~"deran ml,J~lo, Jif~r~nt~,

"""'~' ~""~

Por ejemplo, suponga que nos interesa concxer el gasto cardaco durante el ejercicio. Como variables independientes se estudian el gasto energtico, la frecuencia cardaca y la tensin arterial sistlica. Sabemosque catja una de estasvariables est fuertemente asociada con el gasto cardaco. Sin embargo, en un anlisis de regresin mltiple sera improbable que la asociacin entre cualquiera de ellas y la variable dependiente fuera estadsticamente significativa. Esteresultado se puede prever, dada la gran cantidad de informacin sobre el gasto cardaco que' comparten estas variables independientes. En la regresin mltiple, la construccin de ]os intervalos de confianza y el clculo de las pruebas de significacin estadstica para los coeficientes asociados individualmente con las variables independientes son paralelos a los anlisis por pares del ANOVA. En el ANOVA, los anlisis por pares se disean para mantener una tasade error de tipo I del experimento igual a a. En la regresin mltiple, la tasa de error de tipo I de la prueba es igual a a, pero la tasa de error del expelimento depende del nmero de variables independientes incluidas. Cuantas ms variclbles independientes examinemos en la regresin mltiple, mayor ser la probabilidad de que al menos un coeficiente de regresin parezca significativo aunque no exista una relacin entre esas variables en la poblacin de la que se ha extrado la muestra. Por lo tanto, asociaciones estadsticamente significativas entre la variable dependiente y las independientes, que no se esperaba tuvieran importancia antes de analizar los datos, deben interpretarse con cierto escepticismo. 10 Si todas las variables independientes continuas de un grupo de observaciones son el resultado de un muestreo aleatorio de alguna F'Oblacinde inters, podramos estimar la fuerza de la asociacin entre la variable dependiente y todas las variables independientes. EStoes paralelo a nuestro inters en el anlisis de la correlacin bivariante. En el anlisis multivariante, el mtodo utilizado para medir el grado de asociacin se denomina anlisis de la correlacin mltiple. El resultado del anlisis de la correlacin mltiple se puede expresar tanto como un coeficiente mltiple de determinacin o como su raz cuadrada, el cOt'ficit'llte correlacin de mltiple (multiplecorrelati011 coefficil.'llt), importante recordar que estos estadsticos reflejan el'F;radode asociacin Es entre ia variable dependiente y todas las variables independientes. Por ejemplo, suponga que en nuestro ejemplo obtenemos un coefiCientede deterrninacin de 0,82, lo que quiere decir que 82% de la variacin de la concentracin del cortisol plasmtico de los pacientes puede explicarse conociendo el recuento de glbulo~; blancos, la temperatura y la produccin de orina. La prueba F estadsticamente significativa correspondiente a la prueba de la hiptesis nula de la regresin mltiple tambin contrasta la hiptesis nula segn la cual el coeficiente de determinacin poblaciorlal es igual a cero. A partir de estos mismoS clculos se pueden derivar loSintervalos de confianza de los coeficientes de determin.lcin.

~ -

Variables independientes nominales y continuas


Muchas vecesnos encontramos con una serie de observacionesen las que algunas de las variables independientes son continuas y algJ.lnas nominales. Por

~ ~ ~ ::.. ... ooJ ::: ~ !I) :.q ~ z ""

Esta perspt'ctiva Lj~ 1.1inf~r~ncia l'stadstica y de la estimacin por intervalo es un ejemplo de la aproximacin bay~siana. En la infl'rl'ncid bdy~siana. consid~ramos el valor p y la probabilidad antenor. independiente de los datL)S. de la hipt}tl'sis nlll.l como verd.lder.l p"ra determinar la probabilidad de la hip<)tesis nula a la luz de los d.ltL)S

221

c4

ejemplo, suponga que diseamos un estudio para explicar el gasto cardaco a partir del gasto energtico durante el ejercicio. Adems, esperamos que la relacin entre el gasto cardaco y el energtico seadiferente entre ambos sexos. En este ejemplo, nuestras observaciones comprenderan una variable dependiente continua, el gasto cardiaco; una variable independiente continua, el gasto energtico; y una variable independiente nominal, el sexo. Para examinar estos datos, que contienen una variable dependiente continua y una mezcla de variables independientes continuas y nominales, utilizamos una prueba denominada anlisis de la cOtUrianza (al!Qlysisof COt~riance) o A""COVA. Las variables independientes continuas en el ANCOVA se relacionan con la \'ariable dependiente de la misma fonna que en la regresin mltiple. Las variables independientes nominales se relacionan con la variable dependiente de la misma fonna que las variables independientes nominales se relacionan con la variable dependiente continua en el Al\!OVA. Por lo tanto, el ANCOVA es un mtodo hlorido que contiene aspectos de la regresin mltiple y del ANOVA. Un uso comn del Ai\!COVA que es similar al del Ai""OVA es el estudio de la estimacin de una variable dependiente continua a partir de una variable independiente nominal mientras se controla el efecto de una segunda variable. En el A.'JCOVA, la variable que se controla es continua. Un ejemplo de esto lo constituye la capacidad de controlar los efectos de confusin de la edad cuando se estudia 1.3 asociacin entre una variable independiente nominal, como el tratamiento frente al no tratamiento, y una variable dependiente continua, como la tensin arterial diastlica. El A1\!COVA tambin se puede considerar como un mtodo de anlisis de regresin mltiple en el cual algunas de las variables independientes son nominales en lugar de continuas. Para incluir una vriableindependiente nominal en una regresin mltiple, tenemos que transformrlaa una escalanumrica. Una variable nominal expresada numricamente se denomina varibleficticino illdiclliora (i,ldicator o "dul/ll/ll" variable). II
-:: ~ ... ::J :G ~

" ~ :G
~ ~ :) :G ~ >:) :5 2 ;J") "-J "2; ::J :G -c

.Con frecuen.:i.1,los valorL"$ numri.:os asociadoscon una variable nominal son el cero y ell. En este caso, el valor I se asigna arbitrariamente a las observaciones en las cuales est reprcsent:ld:auna de Isdos categoras potenciaies de ia variable nominal; y el cero, a la categora no representada. Por ejemplo, si introdujramos el sexo femenino en una regresin mltiple, podramos asignar el valor I a las mujeres y el cero a los hombres. Para \'er cmo se pueden interpretar las variables indicadoras en la regresin mltiple, reconsideremos el ejemplo anterior: tenemos una variable independiente nominal para describir el sexo y una "'ariableindependiente continua, el gasto energtico, para describir la variable dependiente continua del gasto cardaco. El mOdelo de regr~sil)n mltiple en este ej~mplo se expresa del siguiente modo:

:V\ "-J :) ~ o v

Aun'!u~ p'-,.j"mll' cllnsid"r..r ~I A\;COVA comll un.. "xt"nsin d~1 ANOVA II d~ I" r~;rl.'5jn multlple. l.'5to no "i;nlfic.. '!u" I.. int..rprelacin dt.-i A\;COVA "'.. dislinla ",,-;un ,,1 m"ll~ ..plicado. En ,,1 ~j"mplu d,,1 g.lSIO card..co d"scrit() Cl)mU lunci()n d~1 '...xu y d,,1 ~.."t() "n"r~l:tlcu. p',.jri..m()s r"..liLar un A\;COV/\ cum() un A\;OVA con un f.ICt()r l.1 "'X(). '1u" (ontn'" ,,1 "il'CI() d,,1 ;..,tu "n"r!\l;tic() cumu "' "si" constituy"ra un" \,..n..bl" d~ contusIn. Al h..c"rk). obt~ndri..mus r"sull..d()s jd';nlicus ..I(),. d" una r"Krl".in. En re..lid.ld. ~I A\;OVA. ~I A\;COVA \' 1.1 re~r~si.:)n mulliple sun "j"mpk", d,,1 mi"m() m"I(Id() "st..dslicucunucid() c()mu ",~I..lIl"",/.I:t"'C'Td1 (1:..I1.T"III"."r "",I..) El A\;COVA 'e pu"dc rl!pr"Sl'nt..r c()m() Un.1 rl'~r",i,.'n multipl" "n la qu~ I..s \'ariabl~ ind"pt.ndi"nt", .;.'n r"prl""'nl.lcit)",'S num';ric.." d" \,aridbl"" n()mln..I"" U), .."il'Clus princip"I~.. ,.., mld"n medi..nt" ...".Iic...n!l.' ..,..".i..d"" c()n I.." \,..ri..bl", Indic..d()r..,,; \' 1.." ..inl~rd.:ci.)nl"'... ml-di..nt" ,,1 pn,.jucllI d" "slas \"..rl..bl", Indic..J,.r.., rl1l.. r"gn"..\n. ",t.." I..mbil:n ,," J"n()min..n Inl"r..cciun..'S.

Y=.a+~X+~I
donde y = gasto cardaco X = gasto energtico I = indicador del sexo masculino (1 para las mujeres, O para los hombres)

Dado que los hombres estn representados por I = O y cero multiplicado por ~2 es cero, la ecuacin de regresin mltiple para los hombres es igual a la siguiente ecuacin bivariante de regresin: y = a + ~X

Tambin podemos representar la ecuacin para las mujeres como una regresin bivariante. En este caso, la variable indicadora o ficticia es igual a 1 y 1 x 132 132. = Dado que 132 son constantes para las mujeres, podemos describir las ya reladones entre el gasto cardaco y el energtico entre las mujeres como: y = (a + 13J + 131 X Si comparamos la ecuadn de regresin para los hombres con la de las mujeres, podemos observar que el coeficiente de regresin asociado con la variable independiente nominal (132) igual a la diferencia entre los puntos de interseccin es (el gasto cardaco, cuando el gasto energtico es igual a cero) para los hombres y para las mujeres. Uno de los problemas que surgen cuando usamos la variable indicadora para comparar la relacin entre el gasto cardaco y el energtico de los hombres con esta relacin en las mujeres es que debemos suponer que los hombres y las mujeres se diferencian solamente en los puntos de interseccin de sus ecuaciones de regresin individuales. Esda;r, suponemos que un aumento de una unidad en el gasto ~nergtico se asocia con el mismo aumento en el gasto cardaco en loShombres yen las mujeres. Esto implica que la pendiente de la relacin entre el gasto cardaco yel enl"rgetico para los hombres es la misma que para las mujeres. Muchas veces no estamos dispuestos a aceptar este supuesto de la igualdad de las pendientes. Cuando esto sucede, podemos crear otro tipo de variable en el enfoque de la regresin mltiple del A;\;COVA multiplicando una varidble independiente continua por la nominal transformaclaa una escalanumerica. Esta nueva variable se denomina tn"ino deintemccin (inttTtlctivnttTI/I).I~En nuestro ejemplo, la ecuacin del ANCOVA que incluye un trmino de interaccin entre el gasto energtico (X) y el sexo (I) sera: Y = a + ~IX + 1321 ~XI + Para los hombres, esta ecuacin es de nuevo llna ecuacin de regresin bivari,mte, dado que I = Oy, por lo tanto, O x 133 O: = Y=a+~X Para las mujeres, dado que I = 1, la ecuacin es Y = (a + 13~)+ (131+ ~) X
l.l" Il'rmin(', J.: intl.r,)cci,in n(1'l. "mll,)n ,)1pruducto de un,) v,)riable conlnu,) y un,) nominal Much,)s ,~es ~",.jl.mu, ub",rv,)r ntl.r,)cciunl.' qu" ",n ,,1prodUCI" d" d(}s vari..bles nomnall'S. T..mbien l'S posble c"nsid"r,)r lIn.l int"r,)cctin l.nlrl. J", ,...ri,)Nesl."ntinu..s. pt.'roI,) interpretaciln de l'Ste producto es muchu m.1s c"mplic,)J,). '2: :s ~ " ~ ..

~ 'J\

~ .~ :2: "

:?23

FIGURA29-2. , dependiente ordinal (continuacin de la figura 26-5) Variable ~\8 OI!i1al


Valilbles ~8S OOIIinales I lrlem en~ posm

D~ para dat~ ~nt8S I p ruea de KAJskal-Wafe

Deeoo para datos aa19aQ)S I p~~ Friedman

z :J ~ ;;: :1 ~ >~ ~ :J ,... '-'I .. z :J ~ -.: ~ 2 ~ '"J o ~ u

;;: .. :J ~ ~

El coeficiente para la variable indicadora (132) indica la jiferencia entre los puntos de interseccin para los hombres y para las mujeres. El coef ciente del trmino de interaccin (133) informa de la diferencia entre las pendientes de ambos nos sexos. Por consiguiente, tenemos tres variables independientes: una variable continua, una variable nominal expresada como variable indicadora y un trmino de in teraccin. En esta situacin, un ANCOVA es semejante a tener una regresin bivariarte por separado para cada una de las dos categoras identificadas por la variable inde!)endiente nominal. En este ejemplo, podemos estimar mediante regresiones separad)s la relacin para los hombres y para las mujeres. Adem.is, el A1'\1COVA permite comparar nos estas dos ecuaciones de regresin por medio del contraste de las hiptesis dt los coeficientes de regresin de las variables indicadoras y de los trminos de interaain. VARIABLE DEPENDIENfE ORDINAL

En los anlisis univariante y bivariante, disponamos de mtodos estadsticos para analizar las variables dependientes ordinales y para po~ibilitar la transformacin de las variables dependientes continuas a una escalaordinal, cuando no se podan cumplir los supuestos necesariospara utilizar los mtodos estadsticos diseados para las variables dependientes continuas. Esto tambin es cierto para los mto. dos multivariant~s con v~riabl~s dependientes ordinales. Id~~lmente, deseariamos disponer de mtodos para las variables dependientes ordinales que fueran paralelos a los mtodos multivariantes p.-ra las variables dependientes continuas: ANOVA, ANCOVA y regresin mltiple. Larnentablemente, esto no es as. L1S nicas tcnicas multivariantes aceptadas para las variables dependientes ordinales son aquellas que pueden usarse como equivalentes no paramtricos de ciertos diseos del A1~OVA.1J eso, la figura 29-2 se limita a 105 Por mtodos que pueden emplearse t'.\"C/USitVlII/t'lltt' variables independientes nominales y una vacon

::?24

Aun'!u" no ..'S uS(),)mpli". ,,1",lJilislsJ.. rl~rl""\III.~i,II,.1/ (IrJ,11,/ d" (,.rJi,Ulil.~ISII' rt'.\'r""si",,) ..'S rl~I",j" proun m"l"dt)r ,!Ut! p'"jri.. iin"lm,.nt,' ~..n..r ",..'pl..,i,in ...,'m,' i,)rm.. d" m,luir \",1ri..bl..,s ind..'f't!nd;.'nl.." , )nllnu..s "n ..,I..n.ili,is multi\""n..ntt! d" \""ri..bl..'SJ..'p"nJi..'nl"s ,)rdin..I,',

a
riable dependiente ordinal. Parapoder aplicar esosmtodos, las vcriables independientes continuas u ordinales deben transformarse a escalasnominalE's. Por un momento, reconsideremos el ejemplo anterior de la glucemia basal medida en personas de tres categoras raciales (negra, blanca y otras) y de ambos sexos. En este ejemplo, nuestro inters se centraba en dete :minar los efectos independientes de la raza y el sexo en la glucemia. Para analizar es .os datos, utilizamos un Ai"JOVA factorial. Si estuviramos preocupados por el cumplimiento de los supuestos del A1~OVA1. relacin con la glucemia basal, podramos tralsformar estos datos en a una escala ordinal mediante la asignacin de rangos relativos a las mediciones de la glucemia basal. Entonces podramos aplicar la prllebadeKruskal-W('llisa los datos transformados. Esta prueba es apropiada para realizar las pruebas de ~ignificacin estadstica de una variable dependiente ordinal y dos o ms variables independientes nominales en un diseo de una va o uno factorial. Tambin existen tcnicas no paramtricas para realizar comparaciones por pares entre los subgrupos de la v lriable dependiente . Como hemos comentado anteriormente, los rntodos estadsticos para las variables dependientes ordinales se conocen como no paramtricos, porque no exigen realizar supuestos acerca de los parmetros poblacionales. Los mtodos no paramtricos permiten contrastar hiptesis relacionadas principalm~nte con la distribucin general de la poblacin. La distincin entre hiptesis paramE'tricasy no paramtricas, por lo tanto, reside en que en las segundas se hacen afrmaciones sobre la distribucin de los valores para la poblacin gt'1leral, mientras que en las hiptesis paramtricas se realizan afirmaciones sobre medidas l'Specficas resulnidas o parmetros como la media poblacional. Al analizar los datos de un estudio en el que ~e mide una variable dependiente continua tres o ms veces en los mismos individuos (I en individuos apareados, probablemente L'SCOgeriamos AJ\iOVA para medidas rept'tidas. Por otro lado, un si la variable dependiente fuese ordinal o continud y deseramosc(lnvertirla en ordinal para obviar los supuestos del A.\iOVA, todava podramos beneficia :nos del diseo apareado. L"naprueba no paraml!trica paralelaal t\.\iOV;-\ para medidas -epetidases la !lr:ILi11 de Fril.'Lilllllll. Cuando empleamos mt(.iosmultivariantes diseados para \"ariables dependientes ordinales con objeto de analizar grupos de obs ~rvacionesque tienen una variable dependiente continua transformada a una escalaordnal, debemos tener en cuenta una desventaja potencial: que la tcnica no paran\trica tiene menor potencia estadstica que la parametrica correspondiente si la variable dependiente continua no viola los supuestos de la prueba parametrica. Estose aplica a todas las tcnicas estadsticas realizadas con variables continuas transformadas a uni escalaordinal. Por eso, si se cumplen los supuestos de una prueba paramtrica, es aconsejable utilizarla para analizar una vari.lble dependiente continu.l ,lntes que la tecrica no paramtrica paralela"

VARIABLE

OEPENDIENTE

NOMINAL

~ "' :r: "' ~

En la investigacin mdica, a menudo nos int.~resanlos desenlaces de vida o muerte, o curacin o no curacin, medidos como dat(IS nominales. Adems, a causade la complejidad de los fenmenos mdicos, casi siempre es deseableme-

~ ~ .~ z ~ ~

LI)s supu~slos d~I,\NOVA rl!!:rl.'.i\n.

y dl!l ANCOVA

,;on lo,; mismo'; qul! k),; dl!,;(rilo,; ;nll!riorr,enll!

p.>r;

;n.lisis J~
.,.,.:..:.:>

~ ""~

FIGURA29-3. Esquemapara seleccionar un mtodo estadfstico multlvariante para una 'rariable dependiente nominal {continuacin de la figura 26-5) Variable dependoenfe nomInal
VnbJes ind8!*ldientes noml1a~s Variables ~defend~ntes noml1a~so COnll~as

. ,ffi\ ""~

Inler9s en la poscK\n I

Inleres en la poso6n I

D8f)8nMnre del !J8fT1IX!

~ dependiente del tiemJXJ

Tasade ~ acurn;lada

P~KIn. razn o dj819ncia o razn de pro<iJClOS CnJzaOOs

Anl~s estrabOCaOO I

Log-13nk

~ntel-Haenszel o ~ QJaaOO

" :r. ~ " 5 ~


" ~

~ >~ Q 2 ;~ 5
~ " Q ::3 ;.. \J1 '.oJ ~ ~ 'Q '-.1

dir di..'ersas\'ariables independientes para considerar hiptesis separadas,par controlar segn variables de coniusin y para investigar la posibilidad de sinergismo o de interaccin entre las variables. En consecuencia, los anlisis multivariantes con \-ariables dependientes nominales se emplean con frecuencia o se deben emplear en ~Ianlisis de los datos de la investigacin mdica. Hemos separado las tcnicas estadsticas multivariante; para variables dependientes nominales en dos grupos: las que son aplicables cuandc las variables independientes son todas nominales y las que lo son para una combinacin de \'ariables ~iependientes nominales y continuas (figura 29-3). Los anlisis del prirner grupo se limitan a las variables independientes nominales o a las transfonnadas a llna escala nominal. Porotro lado, se pueden usar variables independientes nominales y :ontinuas en el anlisis del segundo grupo. No existe ningn mtodo establecido para considerar las variables independientes ordinales, si no se transfonnan a una escala norninal. Variables independientes nominales

226

Cuando analizamos una variable dependiente nominal y llos o ms variables independientes nominales, nos interesan las medidas de posicin, al igual que en el anlisis bivariante de una variable dependiente nominal y una indepen(liente nominal. Por ejemplo, podemos estar interesados en proporciones, tasaso venta ias (OltdS). Sin embargo, en el anlisis multivariante de las variables nominales dependilntes e independientes nos interesan aquellas mediciones de la frecuencia de la enfermedad al mismo tiempo que ajustamos segn las otras variables independientes. Porejemplo, suponga que nos interesa comparar la prevalencia del cncer de pulmn entre los bebedores de caf en relal.;n con la de los no bt-bedores.

En este caso, la prevalencia del cncer 4e pulmn es la variable de in ters y, por lo tanto, la variable dependiente nominal. Beber caf (s o no) es la variabl~ independiente nominal. Al mismo tiempo, podramos desear ajustar segn el efecto lie confusin potencial del consumo de cigarrillos. Para ello, podemos incluir otra vanable independiente nominal que identifique a los fumadores respecto de los no fumadl)res. Cuando tenemos dos o ms variables indepelldientes en un conjunto de datos y todas son nominales o han sido transformadas a lma escala nominal, el enfoque general para ajustar segn las variables independientes :nuchas veceses un anlisisestratificado (stratifiedanalysis).Como se ha descrito en la Seccin 1, los mtodos de anlisis estratificado exigen separar las observaciones en subgrupos definidos por los valores de las variables independientes nominales que se con~ideran variables de confusin. En nuestro ejemplo sobre la prevalencia del cncer de pulmn y del consumo de caf, comenzaramos el anlisis estratificado dividiendo nuestras observaciones en dos grupos: uno compuesto por fumadores yotro, por no ftlmadores. Dentro de cada subgrupo, como el de los bebEdoresy el de los no bebedores de caf, estimaramos la prevalencia de cncer de pulmc n en los fumadores y en los no fumadores por separado. Estas estimaciones separadas se conocen como estimaciones puntuales L'Specficas L'Strato del (stratum-specific). estimaciones puntuaLas les especificas del estrato se combinan empleando un sistema de poilderacin (U~gllting) de los resultados de cada estrato. Es decir, combinaramos la informacin de cada estrato utilizando uno de los muchos mtodos disponibles para detl~rminar cunto impacto debe tener cada estimacin espefica del estrato en la estim)cin combinada.15 La estimacin combinada resultante se considera una estimacin PLntual ajustada o estanda rizada para todos los estratos en conjunto con los efectos de LI variable de confusin eliminados. En el esquema hemos indicado dos tipos de vlriables dependientes: las tasas, que son dt'pt'1ldielItt'S tit.'1/Ipt;.J, proporciones, ~ue no son dependl.'l y las dientes del tiempo. Pordependiente del tiempo queremos decir que la frecuencia con la que se observ} un desenl}cenominal depende del tiempo de segl-imiento de las personas. Por ejemplo, considere la muerte como una variable dependiente del tiempo. Si no est}moSestudi}ndo pt'rson}s con una tasade mortalidad inusua lmente elevada, esperariamos observar una proporcin baja de personas fallecidassi siguiramos al grupo durante, por ejemplo, un ao. Por otro lado, si siguiramos a estl! grupo durante 20 aos, esper}riamos observar una proporcin de muertes mucho m.s alta. Hasta ahora solo hemos present}do mtodos multivariantes para variables depe1dientes nominales que no son dependientes del tiempo. Por ejemplo, hemos analizaco la prevalencia de diversas enfermedades. L1 prevalencia no depende del tiempo, pu,~Sto que se refiere a la frecuencia de una enfermedad en un momento dado. las variables dependientes del tiempo puedeJ\ causar problemas de interpretacin si los grupos que se compar}n difieren en loS :>erodosde seguimiento, lo cual sucede c}si siempre. Estos problemas se pueden s,>lventarsi consideramos la incidencia como la variable dependiente, ya que la tasa de i ncidencia tiene una

~ "' ~ ~ : ~ < ~ ~ =:3 ~ z ~

IS El sist..1nd d" p"nd.,r.1ciun

de la" "stim.1cI'm~s ""p"(ificas

del "strato es una de las fom .1S"n qu~ se diferenci.1n

lo" distintos m"tudos de .1nlisis ~stratifi(.1do. En la ~standarizaci6n directa, el sistemi de ponderacin se basa ~n la frecuenCl.1 r~l.1tlv.1 d~ cada l'Strato l'n una pobl.1cin de referencia. Desde un pl nto de vista ~sl.1disti(o. lo" ,;i!itl'mas J~ p',ndera.:i,)n mas utlll'S son los qu~ r~ll~ian la pfl'Csin de las estima :iones ~sp'...,ficas de "'s l',;tratu,

227

unidad de tiempo en el denominador y, de ese modo, toma en cuenta el tiempo de seguimiento. Lamentablemente, la inddenda es una medida que puede interpretarse de fonna errnea. Para la mayora de las personas es difdl comprender intuitivamente el significado de casos ao-persona por (cases person-year). el contrario, es mucho ms per Por fdl comprender el riesgo.Recuerde que el riesgo es la propordn de personas que desarrollan un desenlace durante un periodo de tiempo determinado. No otstante, observe que el riesgo es una variable dependiente del tiempo, pues se calcula para un periodo de tiempo determinado. Del mismo modo, no es posible interpretar el riesgo calculado a partir de los datos que representan diversos periodos de tiempo, como lo es para la inddenda, porque el riesgo no contiene ninguna dimensin tem :>oralen el denominador.
Si nos interesa el riesgo y los datos contienen observaciones realizadas en personas seguidas durante periodos de tiempo distintos, debem.)s emplear tcnicas estadsticas especiales para ajustar segn las diferencias en los peri,Jdos de seguimiento. Cuando todas las variables independientes son nominales, los m ~todos que utilizamos son tipos de anlisis de las tablas de vida (life-table arUllysis). En esto'j mtodos, los periodos de seguimiento, por ejemplo intervalos de 1 ao, se considera 1 como un grupo de variables independientes nominales. Cada intervalo de 1 ao se lltiliza para estratificar las observaciones del mismo modo que se estratifican los dato~ segn las categorias de una variable de confusin como el grupo de edad. La supervi'.encia acumulada (cumulatitJe survit"/),l que es igual a 1 menos el riesgo, se detennna combinando estas probabilidades ajustadas de sobrevivir cada periodo. Generalmente. se emplean dos mtodos para analizar la tabla de \'ida: el mtodo de Kl1plan-'vII.'tT del producto lmite (1lrl1tiuct limit) y el de Cuter-Ederer o O actuarial (acharia/). Estos mtodos se diferencian en la forma de manejar los datos de las personas cuyo seguimiento termina en un periodo.'7 En el mtodo de Kap:an-Meier, se supone que el seguimiento termine al final de cierto intervalo de tiempo. P)r su lado. en el mtodo de Cutler-Ederer se supone que los tiempos de finalizacin del seguimiento se distribuyen uniformemente durante el periodo. Como consecuencia de estos supuestos diferentes, las estimaciones de riesgo del mtodo de Cutler-Ederer tienden a ser ligeramente ms altas que en el de K.1plan-~leier. Existen mctodos estad~;ticos para calcular las estimaciones por intervalo y para realizar pruebas de significacic n estadstica para ambos mtodos.

5 ~ ~ "C
"Z ~ ~ "( :r ::J ~ ::.. >::J 3 2 j

Variables independientes continuas o nominales


El anlisis estratificado que hemos presentado para la~ variables dependientes nominales, dependientes e independientes del tiempo, y para las variables independientes nominales tiene para muchos investigadores el atractivo lie que parece ms simple y controlable que otros tipos de anlisis. No obstante, el an isis estratificado presenta algunas limitaciones. Este tipo de anlisis se ha diseado para examinar la relacin entre una variable dependiente nominal y una independiente noml nal mien-

~
~ "( 5 2 :./1 ;.J ...,

~28

US tdbldS de vidd se dis..'dron inil-idlmente pdrd consIderar el riesgo de muert~. pero pueden u ilizarse para calcul.1r ~I riesFp de l-Udl,!ui"r d~s"nl"c~ irr~v~rsibl~ En el "nalisls de I" tdbl" d... vId". l.1 ,;e~lmj.,nto dur"nte un peri,~o pul-de findliZdr por dive~; moti,1)S El mas comn l"' Id t..'rmin"ci"n d~1 ~Iudiu. A menudu. hlS "studios ,;e di~"n p"ra reclutar a los sui~tos durante ~ran parte del p'-"riodo de ~studio y suspo.'nder ~l SI.,;ulmientu en un" f..'Ch" concretd. Los sulet~ -eclutados al inicio del peri,~I> contnbulran " los datos d~ c"d" po.'riodo de "nalisi,. de I" tabla d~ vid... Los sujetllS reclutados h"Cld ~I fin,,1 do..I..',tudio "' ,,;uen durante p'-"ril~OS mas .."l>rtosy su '..';uimi..'ntu lerrnin" ,,1 finaliLIr el ~studio Otros su,..'to" pul'd~n ..po.'rdl'r"l'.. ..turant..' un po..ri,)do de SI.-;uimIento, p""lue ,Ib"ndon,," l'l est\ldIO. porque f"I1..'C~" ~b,du " C.U"I' "l) "'I.clondda,, Con cl ~"tudio. etc

tras se controla segn el efecto de una variable de confusin nomI\a1. Este anlisis no pennite examinar directamente variables explicativas alternativa:;, investigarlas interacciones o el sinergismo, considerar las variables continuas de co 1fusin sin transformarlas a una escala nominal ni estimar la importancia de las variables de confusin. Muchas veces, estas son caractersticasde gran inters para los inVl~tigadores mdicos. Los mtodos de anlisis que penni ten investi~;arsimultneamente las variables independientes nominales y continuas y sus interacci(,nesson paralelas en su enfoque general a la regresin mltiple tratada anteriormente. ~;inembargo, los mtodos que empleamos aqu difieren de la regresin mltiple en tJ"es aspectos. La primera diferencia, como se indica en el esquema, es que la regresill mltiple es un mtodo de anlisis de variables dependientes continuas, mientras que ahora estamos interesados en variables dependientes nominales. La segunda diJerencia es que en la mayor parte de los mtodos aplicables a las variables dependient~ nominales, no se utiliza el mtodo de los mnimos cuadrticos empleado en la regesin mltiple para encontrar el mejor ajuste de los datos. Casi siempre, los coeficiente) de regresin de las variables dependientes nominales se estiman utilizando el mtodc, de la mximat't'Tosimilitud (11IQXimum likeliJIood).ld La tercera diferencia es quiz la ms importante para los investigadores mdicos que interpretan los resultados del anlisis de regresin con variables dependientes nominales. Aunque este tipo de anlisis proporcionz estimaciones de los coeficientes de regresin y de sus errores estndares, el resto de la informacin que resulta del anlisis es distinto del de la regresin mltiple. La razn cJnsiste en que estos coeficientes de regresin no proporcionan estimaciones paralelas 1 los coeficientes de correlacin. Por eso, sin un coeficiente de determinacin, no es p,>sibledetenninar el porcentaje de la variacin de la variable dependiente que es explic Ido por el grupo de variables independientes. 19 Para los desenlacesdependientes del tiempo, el mtodo de regresin habitualmente empleado es el mOlfelo Co.\" de (Coxmodef}.20 este modelo, el grupo En de \-ariables independientes ;..,si se desea, sus interacciones, se enlplean para estimar la incidenciazl de la variable dependiente nominal,~ como la incidellcia de la muerte. Se puede utilizar una simple combinacin algebraica de los coeficient~s de ciertomod~lu de Cox para estimar la curva de supervivencia en una serie de vahlres de variables independientes. Cuando todas las variables independientes son nom I\ales, el modelo de Cox estima las curvas de supervivencia que son muy semejantes a las que resultan del anlisis de la tabla de vida de Kaplan-Meier. Por eso, cada vez se o)serva con ms frecuencia el uso de este modelo en la investigacin mdica, tanto para la construccin de cun-asde las tablasde vida como paraajustar los datos segn lasvariablesde confusin. Las variablesdependientes nominales que no d ~pendendel tiempo se analizan frecuentemente mediante uno o dos mtodos multivari 1ntes:el anlisisdiscrimi,lllllte (Jiscrimilumt aluliysis)y la regresi/llogstica (Iogisticregress~).

~ :s :c ~ ~ -< ../1 ::, ~ .~ :2: ~

,. El mtodo de 1.1m.ixima \'erosimilitud

~leccion.1

l.1s estim.1(iones

de los coeficiente,

de regresin para maxi-

rnuar 1.1probabilidad de que los datos observados hubieran resultado del muestreo d,! una poblacin con estos coefiCIentes. 10~ h.1 propuesto un sustituto para el (ueficiente de deterrnina(ln, pero los estadstico no est.in com'enl.;dos de su utllid.1d. "' Este m.;tudo t.1mbin ~ conoce (omo la rt'.\'r""lll J" CIJ., (CIJ.r rt'.\'rrs..iotl) o Inodl!/o J.. rie;gos pr~rrl1I/QI". (prt'/X'r-

1""",/ J/Q:arJs r,~r.'SsIOIl) 'I En .'1 m,Id.,lo de Cox, c.1si siempre se utiliZd elt.;rmino r"'s.l;o (htl:anl) como sinnimo Ile inddenCl.1 " En r".1i1d.1d, el mlldelo de C"x pn.-dice ello!\.1ntmo nel"-'riano de la r.1Ln de 1.1in(i..en..,.1 .1lust.1d.1segun IdS \'ilri.1bles independienles dividid.1 p',r 1.1 incid..'nCl.1 no .1lustad.1 sc.,!\un estas v.1riabll.'S.

229

Como se deduce de su nombre, el anlisis discriminalte est diseado para discriminar entre subgrupos definidos por una variable depeIldiente nominal. Aqu, nos hemos limitado al anlisis que abarca una variable depend ente y, por lo tanto, solo estamos interesados en discriminar entre dos subgrupos. No obstante, una de las ventajas del anlisis discriminante es la facilidad con que puede ~tenderse al anlisis de ms de dos subgrupos. De este modo, puede utilizarse Jara datos nominales con ms de dos categoras potenciales, como un mtodo estadistico multivariante. El anlisis discriminante es muy similar a la regresin rr l tiple por el mtodo de los mnimos cuadrticos,~ y permite estimar un coefiente de determinan y estadsticos relaonados. Los coeficientes de regresin estimados ,~nel anlisis discriminante se pueden utilizar para predeCir la probabilidad de pertenena a un subgrupo de individuos con un determinado grupo de valores en las v,riables independientes. Algunos estadsticos consideran que dos caracterstica~; anlidel sis discriminante imponen limitaciones. Ambas.estn relacionadas con el he.:ho de que el anlisis discriminante es prcticamente una regresin mltiple con una v3riable dependiente nominal. La primera es que el anlisis discriminante est basado I~nlos mismos supuestos que el anlisis de regresin mltiple. El problema estriba concretamente en el supuesto de que la \.ariable dependiente sigue un.1distribucin gausiar a. Esto no sucede con una variable nominal. Por suerte, el anlisis de regresin mltiple es un mtodo robusto que permite una violacin considerable de sus supuestos antes de que esta violacin influya en los resultados. La segunda limitadn del anlisis disoiminante es que slJponeque la probabilidad de pertenencia a un subgrupo sigue una lnea recta o una luncin lineal. Si esto es as, el anlisis discriminante es el mtodo apropiado. No obs "ante, una caracterstica de una funcin lineal es que, tericamente, est comprendida entre -x y + x. Dado que las probabilidades pueden tornar valores entre Oy 1, es posible predecir valores Jbsurdos de la variable dependiente para ciertos valores de las \'ilriables independientes. Algunos estadsticos consideran que esta capacidad para hacer :>redicciones imposibles es un inconveniente del ilnlisisdiscriminante. Como alternativa, a menudo las variables dependiente:; nominales que no dependen del tiempo se analizan mediante la regresin logstica. E:cistentres diferencias importantes entre la regresin logstica y el anlisis discriminan :e. La primera es que la regresin logstica no est tan estrechamente reladonada COl'la regresin mltiple como para compartir el supuesto de que una variable dependit'nte sigue una distribucin gausiana. La segunda es que IJ variable dependiente no se expresa directamente como la probabilidad de pertenencia a un gru po. La tercera es q ue las tcnicas de regresin logstica no se pueden ampliar fcilmente para considerar ms de una variable nominal. En la regresin logstica, la variable dependiente es el ogaritmo neperiano de la ventaja (Olitis)de pertenencia a un grupo.:1 Con esta presentacin de la variable dependiente, la transformacin resultante para estimar las probabilidades de pertenencia a un subgrupo se reduce al intervalo comprendido entre Oy 1.2.'Especifi-~
O) De h,'Ch". ~1"n.ilisis dis.:nmin"nte wl"m~nt~ 5e difl'renci" del ml't,ldll J~ llIs minimlls cuddrjtlc,'s ole regre,;l'in

~ ~
~ z ::J "' -c ~ :) "' ~ ;... :) ~ 2 -'I 'oJ z ::J ~ ~ :5 ::J ;... I./\ '.J :) < '8

de un" vilri"ble J~p"ndi~nt~ nllmin.tll'n un mult.plic"JlIr cllnst"nte. " Estll se C"nllCe l"llmlllrall';'.lrrfflIClll 1t'.\"1(1l\\"llrall';/ilrnlatu.I1). " Otro mlldelo de ",;resl.:'n qUl' tiene I" pnIpl,-J"d d~ l',;t.m"r I",; p..,b"bllld"d,',;

del interv"lo

compn ndldll ~ntre m.:'Jic". ~x-

O y l ..'5 el.JIltil,,;l; ",,'',1 (I'ro/lll "lIllly,;I"). Este t.po J,. .ln.ilisis n" ". ve con Irl'CU"ncl" cepto ~n los enS.l\us clin.l-os J~ m,-Ji..."mentos con .ln.m"k.'S J"I,Ib.lr"t"rl"

~n I" lit~r"tur"

FIGURA29-4. Ejemplo de una curva sigmoidea correspondienle a la probabilIdad de pertenencia a un subgrupo determinada a partir delln de la ventaja (lag adds)

lO

-8

-6

-4

-2

10

In venfaa

camente, estas transformaciones siguen una curva sigmoide!l dentrc) del intervalo comprendido entre Oy 1 (figura 29-4). Por consiguiente, la regresin I,Jgsticasatisface a los estadsticos que se preocupan porque el anlisis discriminante permite valores imposibles.26 Los coeficientes de regresin que se calculan con el anlisis de la regresin logstica se usan con frecuencia para estimar la razn de productos cruzados o de ~'entajas(oddsratio). Veamos, mediante un ejemplo, cmo se interpretan estas razones de productos cruzados calculadas con la regresin logstica Supongamos que hemos llevado a cabo un estudio transversal en un grupo de personas con arco senil y que las hemos comparado con otro grupo de personas en quienes el mismo oftalrnlogo ha practicado un examen de la refraccin. Hemos registrado 11 edad, el sexo y la concentracin de colesterol srico de cada sujeto. Supongamos que hemos obtenido los coeficientes de regresin logstica que aparecen en el cuadro 29-2, al analizar estos datos mediante una regresin logstica con la aparicin o no del arco senil como variable dependiente. Algo que podemos decir a partir de los datos del cuadro 29-2 es que la t.'dad, el sexo y la concentradn de colesterol srico son estimadores estadisticamente significativos de la aparidn de un arco senil. Sin embargo, nc'es fdl interpretar los coeficientesde regresin p.1radetenninar la fuerza de la asociacinde la ventaja (aitis) de tener arco senil con, por ejemplo, el sexo. Esto se fadlita si convertimos estos coefidentes a una razn de productos cruzados. Para el sexo, el coefidente de regresin logstica de 1,50equivale a una razn de productos cruzados de 4,5. Esto significa que, controlando segn los efectos de la edad y la concentradn de colesterol srico, las mujeres tienen 4,5 veces ms ventajas de tener un arco senil que los hombres. NorrnaIrnente no pensamos en las razones de productos cruzados en reladn con variables continuas. No obstante, la capaddad de incluir variables continuas independientes es una de las ventajas de la regresin logsti(:a sobre el anlisis estrati ficado. Tambin pueden interpretarse los coefidentes de regre!,in logstica de las

"2: " ~ " :..

~ '.I) ~ ~ "2: "(

"' Sin ,.mbar~,

no ~xist~ nin:una ~aranta de qu~ el modelo logstico sea ';oig".am",,/.' ,'propiado "ll\rado

para analiL.lr con que el an.i231

cualquier I\rupo determinad., de .,b,;ervaciones. l.J calidad de las pruebas detenninar li,;is dlscriminant" y ell"l\,;tico se aiustar.in a un grupo de obst!rvaciont.'S.

CUADRO29-2. Coeficientes de regresin de una regresin loglstlca en la cuallc presencia de arco senil es la variable dependiente

variables independientes continuas con las razones de productos cruzados. Para ello, debemos seleccionar un incremento de la variable continua para el que se )ueda calcular la razn de productos cruzados. Por ejemplo, podemos escoger el c culo de la ventaja del arco senil para un incremento de 10aos como el de las personas c )n 60 aos respecto de las de 50 aos. En este ejemplo, la razn de productos cruzado~;es de 2,7. Adems, el diseo concreto de la regresin logstica implica que podramos obtener la misma razn de productos cruzados para cualquierdiferencia de lO aos de t'dad.

RESUMEN
El anlisis multivariante nos permite analizar grupos d,~observaciones que incluyen ms de una variable independiente. Al proporcionar un mtodo para tomar en cuenta varias variables independientes a la vez, el anlisis mu ltivariante ofrece tres ventajas: I) poder controlar el efecto de las variables de confusirl, 2) evitar frecuentemente el problema de las comparaciones mltiples, y 3) poder comparar la capacidad de las variables independientes para estimar los valores de 1.1variable dependiente. Los mtodos multivariantes aplicbles a vriables dependientes continuas son, en su mayor parte, extensiones de los nlisis bivariantes que permiten considerar ms de una variable independiente. PJra las variables independ lentes nominales, la extensin de la tcnica bivariante de la t de Student es el anlisi; de la varianza (Ai\[OVA). En el ANOVA podemos examinar las variables independ ente...Ilomina les que indican diversas categorasde una caracterstica concreta o anali2ar grupos de variables independientes nominales conocidas como factores. En el Ai"O"A se pueden contrastar dos tipos de hiptesis nulas. La hiptesis nula general afirma que todas las medias son iguales, Las hiptesis nulas por pares afirman que las medias de una pareja concreta son iguales. Ambos tipos de hiptesis se contrastan con ulla tasa de error de tipo 1del experimento igual a alfa = 0,05 independientemente del nmero de medias comparadas. Un tipo cspeciul de A;'\JOVA muy til en la investigacin mdica es el ANOVA para medidas repetidas. Esta tcnica es una extensin de la pru(ba univariante de la t de Student aplicada a datos apareados. Mediante el ANOVA para medidas repetidas se pueden analizar grupos de observaciones en las cuales la variat le dependiente se mida ms de dos vecesen el mismo individuo o podemos emplearlo para controlar segn el efecto de las variables de confusin potenciales, o para ambos F ropsitos a la vez. La asociacin entre una variable dependiente continua y :ioso ms variables independientes continuas se investiga mediante el anlisis de regresin mltiple, una extensin de la regresin lineal bivariante. La capacidad de considerar ms de una variable independiente en el anlisis de la regresin mltiple permite controlar el efecto de las variables de confusin y comparar la capacidad de varias vaiiables in-

'.,.. z ::1 "1: ~ o ::1 ;... (,I) '.,.. ~ .~

~ ~ ~ z ::1 "1: ~ ~ ~ ;... o o 2 ~

232

dependientes para estimar los valores de la variable dependiente. LiS reladones entre la variable dependiente y las independientes deben interpretarse reconodendo que los coefidentes de regresin mltiple estn influidos por la capaddad dE las otras variables independientes para explicar la reladn. La fuerza de una asodadn entre una variable dependiente continua y un conjunto de variables independientes amtinuas se estima mediante el coefidente de correladn mltiple. Muchas veces tenemos una variable dependiente continua, una o ms variables independientes nominales y una o ms variables independientes continuas. Este grupo de observadones se analiza mediante el anlisi; de la covarianza (Ai.\JCOVA).El Ai.\JCOVAcomparte caractersticasde la regresin m~tiple y del anlisis de la varianza. De la m-ismaforma que en el anlisis bivariante, loSmtodos multivariantes para las variables dependientes ordinales se pueden considerar Comoparalelos no paramtricos de las pruebas para variables dependientes omtinuas. Sin embargo, en el anlisis multivariante los nicos mtodos usadoshabitualntente son ~los a loSdel ANOVA. Con las variables dependientes nominales, las p ;uebasque se emplean son tipos especiales del anlisis de la regresin o mtodos que ~xigenestratificar los datos. La estratificacin exige que todas las variables independierltes sean nominales o que hayan sido transfom1adas a una escala nominal. Las tcr icas de regresin pueden incluir variables dependientes nominales o continuas. Paraambos mtodos, existe una distincin adici Jnal en el anlisis de las variables dependientes nominales que consiste en determinar si las medidas de posicin son dependientes del tiempo o no. El anlisis de la tabla de v:da es una tcnica de estratificacin para las variables nominales que son dependiente~ del tiempo. Una tcnica de regresin paralela es la regresin de Cox. La regresin log ;tica es el mtodo ms empleado para analizar las variables dependientes que no dependen del tiempo. Los coeficientes de la regresin logstica se pueden convertir en razones de productos cruzados. Otra tcnica es el anlisis discriminante. Una ventaja del anlisis discriminante es que puede extenderse a ms de una variable dependiente rulminal.

., rz ~ ~ ~ ~ r-I :J ~ ..I\ ~ :3 ~ z ~

233

.
-'

CAPnJLO

30

REsUMEN ESQUEM~nco
En este captulo presentamos en su totalidad el esquema 1ecesario para seleccionar una prueba estadstica. El esquema resumido puede utilizarse de dos maneras. La primera consiste en empezar en la pgina 317y seguir el esquema hasta descubrir cules son los tipos de tcnicas estadsticas apropiados para una nvestigacin determinada. Para usar el esquema de esta manera, primero debe identlficar una variable dependiente y luego O,10 ms variables independientes. Seguidame1te, ha de decidir el tipo de la variable dependiente (esto es, nominal, ordinal o continua' .Una vez que haya tomado estas decisiones, usted encontrar un nmero que le concucir a la siguiente parte del esquema aplicable a sus datos. Todas las partes subsiguientes del esquema se han con~truido de la misma forma. Si sus datos contienen variables independientes, deber identificar el tipO.1 A continuacin, en algunos diagramas tendr que decidir cul es el Farmetro poblacional que le interesa, la posicin o la dispersin.! Si existen limitacicnes o supuestos especialesaplicables a las tcnicasestadsticasapropiadas para analizar sus datos, ser nt.'Cesario determinar si se cumplen. En el caso de que no se cumpln, puede transformar su variable o variables a una escala inferior y consultar el esquema para buscar la parte que corresponda a la variable transformada. Siguiendo el esquema, llegar a una medida de sntesis (I a una estimacin puntual til para sus datos, que muchas vecesva seguida de una clasificacin general de las pruebas estadsticas. Al final de los esquemas encontrar el nombre de las tcnicas que se emplean ms frecuentemente para las pruebas de signifi,:acin estadstica y para la construccin de los intervalos de confianza de datos como los suyos. Cuando utilice el esquema observe que: 1. 2. 3. 4. las medidas subrayadas con una sola lnea son estimaciones muestrales puntuales. las tcnicas subrayadas con una lnea doble se usan para realizar pruebas de significacin estadstica o para construir intervalos de confianz.1. El tipo de las pruebas se indica con lneas horizontales por encima y For debajo. La palabr.1"o" indica que cualquiera de las pruebas mencionadas es aceptable para responder a la misma pregunta; sin embargo, la prueba situada en primer lugar tiene ms potencia estadistica o se US.lms frecent('mente, o 1mbascosas a la vez. Otr.1Scondiciones que es necesario cumplir para utilizar una determinada tcnica estadstica aparecen sin lneas por encima o por debajo.

::; 9 ~ ~
~ z ~ ~ ~ ~ '""' -'

~ :.. ::) ~ 5 '.r,


;.. z ~ ~ ~

5.

~ ;.. ':) ~ q Rc.:uerde qu~. rolrol iines ..'SIi1dSlicll';. Unol volriolbl~ nl)mnoll ';1)1) r~iier..' old)s Ci1I~g)nol';d~ unol \ i1rol,t...ri,;tiCi1. ,;e Si lol ,olr}ct"rish,ol tien" k ,i1tegorii1s. ,;...n..'C~,;iti1rn k-1 vi1nolbl~,; nOminol"'s El t...rmlno nt~r,; ~n loll"";icin se u,;.) polrol ~I olnli,;s bivi1riolnt~ y multiv.lri.lnle, olsi CI)ffi11p.lri1 ~ univi1rii1nte. ~n ~I ,uoli d"h) t\.rmn) li~n~ un ,;ignl...old" m.i,; lntuitVt) En ...1 oln.i",;,. bi\.driolnt~ y multivolriolnt~ n,l'; intereSi1 di,;l"'nl.r d,. Unol ml.di,ld q"l. ,;tu~ lol iUl.r"i1 d~ Und r...ld'i,)11 " Id md~nitud d... Und dif~r~n,ioll.n IInol '...rl... d..' vi1lore,; pl),;ibl..",

2}-l

6.

Cuando aparece una coma en~ dos pruebas de significacin estadstica, la primera prueba se usa para evaluar una hiptesis nula general yla segunda, para evaluar las comparaciones por pares.

La primera forma de utilizar el esquema es aplic 3blea las personas que estn interesadas en seleccionar una prueba estadstica para an ilizar un conjunto de datos. Por otra parte, como lectores de la literatura mdica, lo qul? nos interesa ms a menudo es comprobar si la prueba seleccionadapor otros es apropada. En este caso, el esquema puede utilizarse como una ayuda para encontrar el nombre de la prueba seleccionada y, siguiendo el esquema hacia atrs, determinar si la prueba es una eleccin lgica para los datos analizados.

FIGURA30-1. Esquemaprincipal para determinar cul de los esquemasque si!uen son aplicables a un conjunto de datos determinados. Los nmeros de la parte inferior indican IJS esquemas que se deben utilizar.

icEnllfQr una vanable ~ndienle

.., ~

I
VariaDe ~.nle conrW1lJa
Variable OOpendiente oonllnua

I
Variable ~eme ordinal Variable OOpendiente nominal

~ 5 j :2; ~ :~ ~

Variable Variable Variable .ndieme o lpendienle ~deI1le oontW\ua ordinal nominal

I [Q

I 0

I 0

I 0

I m

I 0

I [!J

I [!]

I m

2:>5

f
FIGURA 30-2. Esquema para seleccionar una tcnica estadIstica unlvariante para un2 variable .dependiente continua.
Variable dependiente continua

[iJ
Inl8ls en la xJScl6n

Inters 8i1la dispe~

f ~

.r:-"-1 ~ yaanu
I

~ -1.. ~ I r de SI\JdeI1

r de saJ~!

~ :x: ;.. ::: ~

FIGURA30-3. Esquemapara seleccionar una tcnica estadistica univariante para un variable dependiente ordinal.
v 3Iiable ~nCienle oninal

~ z ::: ~ ~ ~ :) ~ ~ ;.. :) "5 2 ;J) '"'


"Z. ::: ~ ~

0
Inters en la ~cn
Inlers en la disoersl6n

II,

AaInud'

~ ~teI(;\Jaf11Cal

~ :'J1 '"' '"' :E


~ u

POJebo ranQo del :je Wdmlon 2 Prueba~ s~no 1 l.1.1mpliIUd ,;e incluye .1qu St)lo p')r ,;u l"I"ndido uS\,. Sin "mb.1r;o. es difcil inl"rpreti1rl.1. com,' , " (,)m"nl "n

,,1 (i1pilul,) 27 , L.1'; prul-bi1'; dl. ,;ignific

;,,>n l'Sli1di,;ti(i1 \" I.,,; inll.r,..1I.,,; dc ,.,mfi.1nLi1 no,;., .1pli.:.1n .11.1 .1mplilUd i,t"r.:u.1rllici1. J 1.1 Jl'Svii1Ci,,>n",;I,\nd.1r

236

"xceplo (u.1ndo l'Sl.1 ,;., "mpl"i1 (om" .1pr."lm.,.:I.:'n

AGURA 30-4. Esquema seleccionar tcnicaestadfstlca para una univariante paraunavariable dependiente nominal.
Vari.:t>le ~en,e nominal I 0
Intels enla posCn I ~ D~~~ I D~la~ I Im I

COfT\Jn I 6jIJgm2I -~ ~ I I AoroximacX\n ~ I

raIU I I AoroximacX\n ~ ~

I
AolUximacMJn ~ ~

FIGURA30-5. Esquemapara seleccionar una prueba estadIstica bivariante pa "3una variable dependiente continua.
Variab18 ~na.nt. =tlnua

I
Var13b. I1dependienll romWlal

0 I

I
Variab. in~dMtnll nominal

Interes en la poscn

Inl~~ en la I Variable ~ndien18 aleatOlia O W1t81Cilnada


Regres-.;n 81ea1 Anlss de ~ cOIreIaci6n

posi:MIcn I

-- VarIable .'.ndienle de una ntJ8SUa alealona

::; ~ ... ~ ~ -== 5 j "Z; :.J ~ ~ ~

D~e19nc1a ~

entre

~ v oonto de Intersecx~n

C~Ir;enle de c0{fela06n ~

I / de Slude!1t

t de Student ~ ~

[tW!s~t ~ I de F$cher

237

. ~

FIGURA 30-6. Esquema seleccionar tcnicaestadIstica para una bivariante paraunavlriable dependiente ordinal.
Variable ~ndienle ofdinal I 0 I
I Variable ~ndiente OIdinal

I Variable ~ent8 nomW1al


Intets en la posK:~

Inters en la posci6n I

Variablein<P8IIdiente de una ~8S1ra alealOfia o ~[enc~ada I ~ ~ I ~1111.W.!nev 9 ProJeba "ia med"lana ~

Variable ~dependiente de una mueSlra aeatona C~fM:en!@ de ~or.elaci6n <iI Soealman I P1Jeba de Soearr~n

FIGURA30-7. Esquemapara seleccionar una tcnica estadIstica bivariante para una variable dependiente nominal.
Var.ab~

:i:
-

dependiente r;om",al

~ ~ ~ ~ ~ ~ ~ ~ >::)
II

m I ValiabJe independienl8 nOITW1aJ I -;;;.,. ; ~nte onMaJ O con!KXJa

Intm enla~C.;n I Diseno para dak)S ~lenles I! a~erencia entre ora>OltK)nes ~ I .DIOXimacn ~ a la Otnomlal D/8t&ncia entre ~ ~ I AoroximaOOn ~ a la blnDmial ~ I ~ Z Mante!-Haenszel oaro aoare~ I ~ T ~ I Bil2!l de ~ct05

In1eIs Inla poSci)n

~ ~ '-J ~ ::: ~

D1S8nO para dar~ apareaOOs I Raz6n de OrtX1Jc:05 c~ dat~

~ .~ '-J 2 < ':J '..)

I ~ ~ ~! ~fe~OOn I ~ ~e~do ~~ra!endencia

% ~ 2 PnJebaela~a de Fisher

238

FIGURA30.8. Esquemapara seleccionar una tcnica estadistica multivariane para una variable dependiente continua.
Variable ~dient8 con!ilJJa I [U I Variables i1dependientes nolTinales I Variables ~ndienles continlJas --, VarIables i ~tes cattinuas o noninales

Inters en~~ I ,~o apareaOOs I I ApareaOOs I

Inters en la posiOOn I

Variables mdependiemes de una rnJeslra alealOria o W1lenc.'nada

Variables W1<Iependie11les de una n\Jestra alealoria

~ -1-L

~ ANOVA para ~ repelXjas


F. ~ ~ ~

I CoefK:~m~ de ~~~n I

~ de c!elerm!!'ac~n I

L ~ ~ ~

~
F:Jaitial =

FIGURA30.9. Esquemapara seleccionar una tcnica estadIstica multivariantf para una variable dependiente ordinal.
Variable oependiente orOOal I 0 I Variables indeI>endientes nomInales
Inle15 811la I DM~opara dalOS W1dependienles posc~ I 1 DM/opara dalOS alaf8a<*'s '"" ~ ~ ~ :J ao III '-J "2: '-J ~ :J :-'1 ~

~ KrJska.Wa~is

~~ ~~

239

FIGURA30-10. Esquema para seleccionar una tcnica estadstica multlvarlante para una variable dependiente nominal (. = vase la discusin de los mtodos para elegir estimaciones JUntuales en el captulo 29). ~~
Variab~ dependIente noITMnal

I Vwbles i~nles nomWlai!s I

[!J I

I Varia~ WlOOpeIIdienles nomWlai!s O con1i~as

lnlefs en laposcOn I

I Dependien18 dellie~ I ~ ~

Inlets en la x>son I

I No ~tf dellie~ I

De!)8ndienle elliempo

~ dep8ndente ei tiempo

I ~ ~
,""o"-"' ~

- ~ ~
"fYy,~M.

~ 9;DetVNencia ~

~ '3zn o diferencia ~ cmtiJ~ CnJI~005

I Anhs$de 1;jIas de ~

Regmin k)QigK;a I Raznde maxir:la olMab,'~d


-

I
AnISs
cecmWlante

Anlisis estrdtifr;aOO
IAan!e!-Haeosze! o j cuaC.-aOO

~az6n de m31lma grMab';dad

~!cJI :je !nQma


-."",..A A~"~U

~ ~ ;..

~ ~ " ~ ~ ~ ~ ~ >o ;.. '.1\ ;.. z :J ~ ~ 3 :J !(.II :J ~ ~ .o u

240