Está en la página 1de 34

~

Seccin

CAPTULO 26

RINOP[OS

BSICOS

La estadstica aplicada a la investigacin mdica persigue tres finalidades: 1) sintetizar numerosas mediciones en un nmero limitado de datos manejables, 2) realizar estimaciones e inferencias a partir de las muestras extradas de pobladones, teniendo en cuenta la irluenda de] azar, y 3) ajustar los datos segn la influencia de las variables de confusin en esasestimaciones e inferencias. Nul?Stroobjetivo en l seleccin UllO de prueba estadstim arrojar algo de luz sobre la forma en que la estadstica es puede ayudar a conseguir estos fines. No suponemos que la infom\acin brindada en estas pocas pginas pueda reemplazar la participacin de un estadstico en las fasesde planificacin, ejecucin e interpretacin de la mayor parte de los proyectos de in\'estigacin mdica; pero s esperamos proporcionar las herramientas necesarias para que los lectores de la literatura de investigacin sepan valorar la seccin de los "mtodos estadsticos" de tal forma que el Jnlisis, la interpretacin y la extrapolacin delos resultados de la investigacin se puedan comprender totalmente. Parautilizar la estadsticaen la investigacin mdica, en primer lugar es preciso escoger un mtodo estadstico apropiado. En segundo lugar, las mediciones de la investigacin deben ser manipuladas de acuerdo con el mtodo seleccionado. Por ltimo, los resultados de estas manipulaciones han de interpretarse correctamente. La primera y la ltima de estas tareasestn ntimamente relacionadascon el tema de la ~ccin .J,La Sl.'lecci1l tllla prllCmt'Stalistica. embargo, no trataremos de discutir a (ic Sin fondo las manipul,lcionl'S de los datos que son neceSclrias para producir los resultados est.1dsticos.Sin lug.1ra dud.1s, el estudio de estas mJnipulaciones requiere una comprensin ms profunda de los mtodos estadsticos, pero, en nuestra opinin, no es preciso tener ese nivel de cunocimientos par.1poder evaluar por que se selecciona un mtodo determinado y cmo podemos interpretar los resultados de su aplicacin. Empezaremos echando un vistazo a la fonna de enfocar las primeras dos finalidades de la estadstica. La tercera, ajustar los datos segn el efecto de las variables de confusin, se realizar mediante el anlisis multivariable, que se presentar en el captulo 29. SNTESIS DE LAS MEDIDAS

Como se ha afirmado anteriormente, una de las finalidades de los mtodos estadsticos consiste en resumir grandes cantidades de datos en un nmero reducido y manejable de ellos. Para cumplir con esta tarea debemos ,jamos cuenta, en primer lugar, de que las mediciones realizadas en los sujetos de una investigacin son una parte o una 1IIueslra un grupo ms numeroso de individuos que podran haber de sido incluidos en la misma. Este grupo ms numeroso se denomina ,voblacin.1

"J) '""

'..J :;. - VI " ~ O Z ~

I En ml-dicind,

hdbitu"lml.ntl.

p'-.n~mos

I!n ml-dicionl!';

rl!aliZ.lua,; I!n pl'rsonas,

I!n lu~ar de animall!';

u obil'!~

Esto pu..UI!Crl'dr I" f"l,;. imprl!silinuequl! 1!1 t~rmino I!';tddstico ,\I/4",.ij"I!';1!1 mismoque se utiliza pdr" dl.S..-nNr di,;tinto,; COn,unll"' JI! ~1l.r"""",; I!n ~",Itio:a u I!n ;l't';rafa. I\unllue un" pobl"o:i"n e,;t"uishca P'-"jri" ",r uno JI! ~s ;rup"'; dl! pl""""d';. "'} ,;c. limit" " elk,,; Und 1~'I.II..,lj" t'Sllld,;li..1l se uefinl! como 1!1conjunt,} J.. t0\!"" .l" ml-diC1on..s posibll'S (no nl't:e,;.riaml!nte rl"'lizauas en pl'rsonas) ue la,; cuales ,;e selecciona una mu"stra

173

~ I .-~' :t:

RGURA26-1. Una distribuclOn poblacional hipot~tica de las mediciones de la concentraciOnde billrrubina srica

FIGURA 26-2. Unadistribucing;Jusiana hipottica la concentracin bilimlbina "" de de srica conunamediade 0,9 mg/CII una y :~ desviacin eslndar 0,3 mg/dl las de Ifneasdiscontinuas indicanlos valores igualesa la media ;t: la desviacin estlMjar

~ ~ a .:

o.~

0.60

O.~

120

1~

o.~

o.ro

o!X)

120

1.50

90

8lllrut)na serca (mgi <I)

BItIrrubna~(mglljI)

~ ~ " ~ ~ ~ ~ >:J j ~ ~ ~ ;~ '-:. ~ .,... ,::;

Si marcamos en una grfica la frecuencia con que aparecen los distintos valores de una variable en la poblacin, obtendremos una representacic'n grfica de la distrilnlcill lJObljlCi07lill. distribucin poblacional describe la frecuencic con que La aparecen los valores en 1.1 pobla\.;n de la que se extraen las muestras para obser\.acin (figura 26-1). ~o obstante, es dificil asimilar o transmitir la informacin contenida en los datos representados en esa grfica. Los mtodos estadsticos ofrl'Cen und medida sinttica Ije la distribucin pobld\.;onal, en lugar de su descripdn grfica. CJda tipo de distribucin 90blacional tiene un nmero limitado de valores sintticos, denominados JKlrdnlt'tros, que se utilizan para describir completamente la distribucin concreta de lds mediciones. fur ejemplo, para describir ntegramente una distrilnlci6n gausia,Iil,2se necesitan dos parmetros: la mediaJ posicin de la distribucin en una escala continua o, m,) concre(la tamente. su "centro de gra\.edad") y la dest'iacilr t'Shilrdar'(la dispersinde la distribucin, dado que indica cu.in alejados de la media se encuentran los valores individuales). La figura 26-2 muestra una distribucin gausiana con la media, como medida de posicin de la distribucin, y la desviacin estndar, como medida de dispersin,

, l.1 dislribuci.:,n ;.Ju,;i.1n.1t.1mb,~n ,;e conlX~ como distribucin no"""I. Evitaremo,; la uhliL.Jcin del ll1mo termino. porqu~ norm.11 h~n~ l)tro senhdu IOnm..Jicln.1 L.1distribucin g.Jusi.Jn.1 ..os di,;tribucin pobl.K1on.Jl que la se ,upone la m.1\ur partlO d~ las veces IOnl'stad,;tica. \ Con frecuenci.J 101 t..'nruno I"'-MI., se utiliL1 comt) ,innimo de m..-dia. EI1 tenninoloF;ia ..'St.JdishCil110son ~ mJSrnO. l.1 m..Ji.J se calt.-ula suln.)l1do tod.u las m..Jicilll1..os y dividi~l1dolas por el I1mero d~ mediciol11!5 realizad,s. t:11 prl)medio. p<)r su l.1do. se calcula multiplical1d,) cad.1 UI1.1dlO l.1s medi..iol1es por UI1OSvalor"s Clll1cret~. del1ominados I~JS. al1t..'Sd~ ,;umarlos Esta ,umd ~ di\.,d..' ..'ntol1ces por la suma de I,)" Pt"")s. l.J m...Ji,l ~ UI1 :,po ..'Sp..'Ci.Jlde prom...Ji,) IOn,,1 cual 101 pt"" dlOcad.1 m...Jicil\n ..os i;ual a I. .l.J desviacion IOst.il1dar (lJ) ..'5 la raL cu.Jdrada dlOId vananL.J (lJ'). l.J varidnL.J lOS iKual a Id SUIn.) de la$ des\'aa.>nlO" de llIs dat", (~,) r..'spt.'Cto dl'l.1 m..-dI.J ( ..) .11 cu.1dradll. [\,r III tal1tll. I.. de"viacil1 l.'St.}l1dar pobl ,lIn.lll:S

17-l

~
N

Para demostrar lo que queremos decir con la posicin de una distribucin, supongamos que la media de la concentracin srica de b,ilirrubina en la poblacin es de 1,2 mVdl, en lugar de 0,9 mrJdl. La distribucin gausiana de la concentracin srica de la bilirrubina sera entonces como la que aparece en la figura 26-3. Observe que la forma general de la distribuci(,n de la figura 26-3 no se modifica al cambiar la media, pero la posicin de su centro de I~avedad se mueve 0,3 mrJdl hacia la derecha. No obstante, si hubisemos cambiado la dispersin de la distribucin de la figura 26-2, su forma se habra modificado sin cambiar su posicin. Por ejemplo, compare la distribucin de la figura 26-2 con la de la figura 26-4, en la cual se ha cambiado la distribucin estndar de 0,3 mg/dl a 0,4 mrJdl.

ESTIMAON

E INFERENOA

En muy pocas ocasiones podemos realizar todas las mediciones posibles en una poblacin. No obstante, podemos calcular valores numricos para esti,nar el valor de los parmetros de la poblacin mediante el empleo de las mediciones observadas en una muestra extrada de esa poblacin. Estas estimaciones muestrales de los parmetros poblacionales son el fin que persiguen los mtodos estadsticos. De hecho, jesasestimadones se denominan estadsticos! estadstico individual utilizado Un para estimar el valor de un parmetro pobladonal determinado se conoce como c.'Stillracinprmtual. Estas estimadones puntuales son los estadsticos que usamos para resumir grandes cantidades de mediciones en unas pocas manejables. Hasta el momento, solo hemos considerado la primera finalidad de los mtodos estadsticos: sintetizar las observadones. No obstante, es un paso importante para valorar la influencia del aL1r en esas observaciones. Como hemos afirmado anteriormente, una muestra es un subgrupo de todas las posibles mediciones de una poblacin. En tOlfos mtodos estadsticos se supone que la muestra es un sublos grupo alc.'atorio la poblacin de la que se ha extrado. Aunque los ;ubgrupos aleatode

FIGURA26-3. Una distribucin gausiana hipotatica de la concentracin de bilirrubina sarica con una media de 1,2 mg'dly una desviacin estndar de 0,3 mg/dl. la comparacin de esta distribucin con la de la figura 26-2 ilustra lo Quese pretende decir con posiciones diferentes de las distribuciones poblacionales

FIGURA26-4. Una distnbuciOn gauslana hipottica de la concentracin de bilirrubina srica con una media dl~0,9 mgdl. La comparacin de esta di~;tribuciOn la de con la figura 25-2 ejemplifica lo que se pretende decir con dispersiones cliferentes de las distribuciones poblacionales

~ ~ ~ .:

i &! ~

"" Q u ~ ~ '= "" ~ u "Z; ~

.30

060

O.!X!

120

150

so

O.:X>

0.60

090

120 sra

1.~ (mg/d)

80

~lIrubna sIx:a (mgl dI}

~Irut)na

175

,
rioS se pueden obtener por distintoS mtodos, en La selecci6nde Ulla prueOO estadstiCllsolo consideraremos el ms simple de todos ellos (y el ms habitual), denominado muestra ~, a~toria simple, En una muestra aleatoria simple, todas las mediciones de la poblacin7;;* tienen la misma probabilidad de ser incluidas en la muestra.5 Por consiguiente, el azar dicta cules de esas mediciones se incluyen realmente en la muestra. Cuando se estiman loS parmetros poblacionales utilizando estadisticos muestrales, la seleccin aleatoria de las mediciones realmente incluidas en la muestra determina cunto se aproxima el estadstico muestral al valor real del parmetro poblacional, Lamentablemente, nunca sabemos cun correctamente un estadstico refleja el valor del parmetro poblacional correspondiente, porque tendramos que efectuar mediciones en todos los integrantes de la poblacin para conocer los parmetros poblacionales reales, No obstante, lo que podemos saber es cunto se espera que vare el estadstico en relacin con el valor hipottico del parmetro poblacional sobre la base de la varabilidad del azar entre las muestras aleatorias. Este conocimiento constituye la base de la inftorenciaL'Stadsticao de las pruebas de significacin L'Stadstial, El marco de la inferencia estadstica ha sido descrito en la Seccin 1. En ese apartado se seal que las pruebas de significacin estadstica se realizan suponiendo que la hiptesis nula es cierta. La hiptesis nula nos proporciona el \'alor hipottico con el que podemos comparar nuestras estimaciones. Como se ha comentado en la Seccin 1, el "objeti\'0" en las pruebas de significacin estadstica es el clculo del \'alor p .b El valor p se calcula a partir de las observaciones de la in\'estigacin con\'irtindolas, en primer lugar, a una distribucin t.'$tndar, Utilizamos una distribucin estndar, porque los valores p se pueden obtener a partir de las tablas estadsticas en cualquier lugar de estas distribuciones, Buena parte de lo que se considera metodologia de la estadistica tiene que ver con la conversin de las observaciones a una distribucin estndar,;En la Seccin I tambin comentamos que una alternativa al uso de las pruebas de significacin estadstica para in\'estigar la influencia del azar en las estima~iones muestra les es el clculo del illtt.'r1.a/Jc ((Jllflan:ll o lat.'StilIlllt.-itn I\)r intt.r:,JJ.' Dentro de un intervalo de confianza, tenemos un nivel de confianza detenTlinado (con frecuencia de 95'70 de que est incluido 1.'1 ) parjmetro poblacional,.. Genl.'ralmente, los intervalos de confianza se calculan modificando mediante el lgebra los clculos realizados en las pruebas de significal.in est.Jdstic.J, Cuando realiz.Jmos una prueba de significacin estadstica o calculamos un intervalo de confianza, podemos usar tcnic.Js milatt.'ralt.'S bilatL'ralcs. Una o prueba de significacin estadstica bilatt.'rlll o estimacin por intervalo se emplea cu.mdo

'.

~ ~ :.: $ 3 ~ ;3 ~ ,.. ~ % ~ :(; "'

'J\ '-J ::I ~ ""

En un ",nti,jo ~,'n,'r"l. lin" mu,.,tr.1 .I1,..11l)ri.l imr"'..1,,",. ..u.l14l1i,.r in.jividu" ,'n 1.1 f"~I.1,.i,in ti"n" un.l rrob.lb,"d.l,1 ..."ru, dd d,. ",.r In,-Iuld" ,.n 1.1 mu,.,lr.l '\4"i "mlt.lm"' ..."', pr"b.lb,lid.ld", .."n,'Cld", .11.1 ",ndi,ln d" qu" "'Jn i~u.ll", Recu"rd" qu" ,,1vd")r l' ,'S 1.1 pr,1b.Ibiljddd J" obt"n,.r und mu"str.l qu" ...'.1 comt>minlmt> tan distinta J" 1.1 indi,add p')r 1.1 hipt,'Sls nul.l ,t>mt>Id mu,..tr.1 r,'alm"nt" "bt~rud.l SI IJ hip'it,'si~ nuld re"lm~nt~ Jes.:ri~ 1.1 p"blddn. ."' t'5. ,"mt> ~ sup')ne irc.:u~nt,.m~nt". Id pl\1bdblliddd ,'u" ,.1aZdr hdya inlluidt) ~rp I.ls t>~r"'.a,.iones mu~str.ll"s. Esa prt>bdbiliddd ~s igu.ll d I (,'S Jc.:ir. ,."t.lm"s "'~ur",, d~ qu~ ,.I.I.Ir hd Iniluid" ~n nu..stras t>~rvaCIt>n"s). EI"mplt>s de distribuCIt>nes,..t.ndan.'Sson la nt>rm..l. I.. J" I.. t J" Stud,-nt. Id Je jj ..1r:uadraJo y la de Id F. Estas djstnbudon"s se pr~...'nt..r.n ~n r:apitul,)s f")stcrit>r~s. AI~unds \~'t:"s. ,.~t" Int"rvalt> -"' J"n"mjn.l ..Iimit,',; J., r:"nti.lnLo1.. En 1" termjn"It>~a ~stadistlca. It>slimlt~ ,je .:,)niianL.1st>nII)Sv..l"re" num~ric", qu" m.'n:.In I"" lmlt,., J" un int,.rv.,", Je ..,)nii.lnLo1 En 1.1 ",tadi~ti.:a cl."i.:.I. una ..'.tl"""1ti"I"'r j/IhTr"h, "~njfi.:.14u,,. "i "xdmin.lm,)~ un nm,.ro jnfinitt>d~ mu,'StrJ~ d" un mi~m" t.l"",". un p"n:,-nt.ll'. d~termln.ld,) (~,t" ,... ~I 'J5," ) ,Ic 1.."""timddt>n,'S p')r intcrvalt> in.:lulr.n ,,1 parm,.tr,' p')blol.:i,)n.ll. L'nd vi,i,in m.i" m,1d,.rn.l,.ntl\.I.", ,.,td't,.tic", ,.. 4u,. ,..t,) "'luiv.lI,. .1,up')n"r qu" '.XI't" un.. d"t~rmin.ldd pI",ibIliddd (d,,'J~'-;) J,,'1u,.,.1v.,I"rJ,.1 pdr.lm,.tr" pl1bld'.")n..l"st~ incluid",.n,.1 int~r\.II.J E"td ltlmd Int"rpr,.td.:l'in ,." Id 4u" h.,bitu..lm"nt.. tI",,~ int"r.:., f'dra ,.1in\",ti~"dt>r "n m,-di.:in...

el investigador no est seguro en qu lado del valor del parmetro implicado en la hiptesis nula se encuentra realmente el parmetro poblacional. Esta es la situacin habitual, pero en algunas circunstanciasse pueden encontrar en la literatllra mdica pruebas de significacin estadstica o estimaciones por intervalo unilaterales. Una prueba o intervalo de confianza unilateral se aplica cuando el investigador est di~;puestoa suponer que conoce la direccin del efecto estudiado y el anlisis solo se centIa en el examen de la magnitud o de la fuerza de tal efecto. Para ilustrar la distincin entre las tcnicas Unillterales o bilaterales, imaginaremos un ensayo clnico en el que se mide la tensin arterial diastlica en un grupo de individuos antes y despus del tratamiento con un nue".o frmaco antihipertensivo. Antes de examinar los datos resultantes de este estudio, podramos suponer en nuestra hiptesis de estudio que la tensin arterial diastlica clisminuye cuando los pacientes toman el medicamento. En otras palabras, supondramos que es imposible que el medicamento aumente la tensin arteria! diastlica. Con este supuesto, la prueba de significacin estadstica o la estimacin por intervalo puede ser unilateral y la potencia estadstica de nuestro anlisis aumentar. Por otro lado, si nuestr'ahiptesis de estudio es que la tensin arterial diastlica cambiar cuando los pacientes tomen el medicamento, las pruebas de significacin o la estimacin por intervalo delJenser bilaterales. Esto se debe a que consideramos posible,aunque improbable, que el nuevo medicamento antihipertensivo aumente la presin arterial diastlica. .

LA SELECCIN

DE LOS MTODOS

ESTADSTlCOS

Centremos ahora nuestra atencin en la selecd()n de los mtodos estadsticos para analizar los datos de la investigacin mdica. Antes de seleccionar un mtodo, debemos tomar dos decisiones: I) cul es la \.ariable dependiente y cul la independi~nte, y 2) qu tipo de datos constituyen cada una de esasvaliables. En primer lugar, veamos qu queremos decir con variables dependientes e independientes. Una urbll.' una c.Jracteristicaque se mide el:\ un estudio. Por es ejemplo, si medimos la edad, podemos hablar de la edad como una de las variables de nuestro estudio. L1 ma}'or parte de los mtodos estadsticos distingu1~nentre variables ,iept'7ldi,'1lfesilutt'pt.'1IdiI.'1Ifl.'s. se indican las funciones o el propsito de una variable e As en un anlisis determinado. Por lo general, una serie de variables diseadas para investigar una hiptesis de estudio solo incluir una variable dependiente. Esta variable dependiente puede identificarse como la de inters principal o el desenlace principal del estudio. Queremos contrastar hiptesis o hacer estimaciones, o efect11ar ambos procedimientos, acercade la variable dependiente. Por otro lado, en la seriede variablespuede que no haya ninguna variable independiente o que se incluya una o ms. Las variables independientes determinan las carat:tersticas que es necesario tener en-cuenta o las condiciones en que se contrastan las hiptesis o se realizan las estim,ciones. Para ilustrar la distincin entre variables dependientes e independientes, considere un estudio de cohortes en el que se investiga la rela,jn entre el consumo de tabaco y la enfermedad coronaria. Suponga I.lue solo se miden dos variables en cada individuo: consumo de tabaco (frente a no consumo) y enfen:nedad coronaria (frente a no enfermedad). Para analizar estos datos, primero decidin:\os que estamos interesados principalmente en estimar o contrastar una hiptesis sobre el riesgo anual de enfermedad coronaria. Por consiguiente, la enfermedad coronaria es la variable dependiente. Adems, deseamos comparar el riesgo de enfermedad coronaria entre los fumadores y los no fumadores. Por este motivo, el consumo de tab;co la variable es independiente.

."" ~ :, :1) ~

B :: =J ~ ~

177

El nmero de variables independientes detennina el tipo de mtodo estadstico que es apropiado para analizar los datos, Por ejemplo, si nos interesara estimar el riesgo anual de enfermedad coronaria en una comunidad sin tener en cuenta el consumo de tabaco o cualquier otra caracterstica de los individuos, aplicaramos los mtodos estadsticosconocidos como alllisisunituriantes.Estas tcnicasse aplican a una serie de observaciones que contienen una variable dependiente y ninguna independiente. Para examinar el riesgo de enfermedad coronaria en relacin con el hecho de ser fumador, como en el ejemplo anterior, usaramos los mtodos de anlisisbi~lriante.Estos mtodos se aplican a grupos de observaciones con una variable dependiente y una independiente. Por ltimo, si nos interesara el riesgo de enfermedad coronaria en los individuos de diversasedades,sexoy hbito de fumar, aplicaramoslos mtodos de anlisis multimriante (multimriable en ingls). 10 Estos mtodos se utilizan para grupos de observaciones que consisten en una variable dependiente y ms de una independiente, como la edad, el sexo y el hbito tabquico. Los mtodos multivariantes se aplican con frecuencia para cumplir la tercera finalidad de los mtodos estadsticos: ajustar segn la influencia de las variables de confusin, Las investigaciones mdicas suelen incluir diversas series o grupos de variables, Por ejemplo, suponga que hemos realizado un ensayo clnico controlado en el cual los sujetos han recibido el frmaco X o un placebo para facilitar su recuperacin de una enfermedad detenninada. Dado que nos interesa conocer la influencia de la edad y el sexo en la recuperacin (porque la edad y el sexo pueden ser variables de confusin). las incluimos en los registros de datos de la investigacin. Por lo tanto. nuestro estudio contiene cuatro variables; tratamiento (frmaco X o placeb<,recuperacin (s o no), edad y sexo. En el grupo de datos que incluye las cuatro variables. la recuperacin sera la variable de inters, es decir. la variable dependiente. El tratamiento, la edad y el sexo seran las \'ariables independientes, que reflejan nuestro inters en analizar la recuperacin en relacion con el tratamiento especifico que ha recibido el sujeto. su edad y sexo. Sin embargo, incluso antes de contrastar hiptesis o de realizar estimaciones sobre la recup\?r.ll.in, probablemente nos interesara S.)bersi m\?diante la asignacin al azar de los participantes se obtuvieron distribuciones de edad desiguaies en los dos grupos de tratami\!nto. El grupu d~ 'w'ariabl~s nos pennitiria que comparar las distribuciones de edad indu!'e la edad como variable dependiente y el tratarrento como variable independiente. ya que la edad es la variable de inters y el grupo de tratamiento, la condicin en la que estamos valorando la edad. Por este motivo. la decisin sobre cul es la variable dependiente y cul la independiente dl.'pt.'1bJela prede gunta queseintL'1rta respondL'T .

'.

~ ~ ~

~ ~ r, ""1 ~ :: ~ ~ ~ == ;... II\ ""1 ':) ~ '"'

TIPOS OE OATOS
Adems de c)racteriz)r 1)funcin de 1)5v)riables en el anlisis, para seleccionar la prueba est)dstica debernos determinar el tipo de datos que constituyen las mediciones de cada variable. Con el fin de C)tegoriz)r los tipos de datos, realizaremos una primera distincin entre datos conti,lllOS y discretos.

" Un I!m)r h;btu;1 I!n 1!1uSt) dl. 1; Il!rmin,',,!:i;

,."t.,di"tic;

l'S refl!rirsl! ; 1;" tcnic;" dise;d.1,; p;r; un; v;riOIbll!

78

Jl!pendil!ntl! \. varia" inJepl.'1dil!nt"" c,'m,l an.ili"i" "",/t;"r;',,(J (1""llmlr;'II,. I!n in!:l,,). Sin I!mb;r~). I!"tl! t".r. min,) "I! rl!iil!r". I!n n!:,)r a 1;,.tcm,;" Ji",.a,I.I" par.1 trat;r ,,'n ""i,; d.. """ v;ri;bll! ,11!p"'ndientl! El u,;0 JI! tl"nlc;" multi\.;n;d;" I!' rar" ".n 1;In\"...tl~.I,.i"n m.:.,Ii,; N" h".m"" in,luiJ,) ,."t;" t, nica" ".n nul!"tro Ji;l:r;m; y ml!ncion;m"s 1!1 trminu I!n "u ;pli,.k:i"n m.i,; h.tbitu;1 (v;ri;bles dept.'ndientl!s n"min;I..'S multiv;ri;ntl!s)

Los datos continuos se definen como los que ofrecen la posibilidad de observar alguno de ellos entre un nmero infinito de valores regularmente espaciados entre dos puntos cualesquiera de su intervalo de medidas. Son ejemplos de datos continuos la tensin arteria!, la concentracin de colesterolsrico, la edad y el peso. Para cada una de estas variables podemos escoger dos valores cualesqlliera e imaginar mediciones intermedias que sera posible observar, al menos, tericamente, entre esos valores. Podemos considerar, por ejemplo, las edades de 35 y 36 aos. Podramos imaginar que las edadesentre los 35 y 36 aos se distinguen por el nmero de das transcunidos desde el 350. cumpleaos de la persona. Adems, podramos imaginar el nmero de horas y de minutos que han transcurrido desde el cumpleaos. Tericamente, no existe un lmite de la precisin con que podramos medir el tiempo. No obstante, observe que no es necesario que los datos continuos tengan un intervalo infinito de posibles valores, sino un nmero infinito de posibles valores dentro de su intervalo. I:ste intervalo puede tener, y de hecho lo tiene frecuentemente, un lrnite superior y uno inferior. La edad es un buen ejemplo. El lmite inferior es cero y es difcil imaginar individuos que tengan edades por encima de los 120aos. Los datos discretos, por otro lado, solo pueden tener un nmero finito de valores en su intervalo de medidas. Son ejemplos de datos discretos el nmero de hijos..el estadio de las enfermedades y el sexo. Paracada una de estas variables podemos seleccionar dos valores entre los cuales no es posible imaginar otros valores. Por ejemplo, no podemos imaginar que el nmero de hijos de una familia se encuentre entre 2 y 3. En la prctica, a vecesno se puede distinguir claramente entre datos continuos y discretos. Esto OCurreporque no existe ninguna variable en la que pod.1mosmedir realmente un nmero infinito de valores. 11 Este problema se soluciona al reconocer que, si se puede efectuar un elevado nmero de mediciones ~n el intervalo de medidas posibles y si 10$ intervalos entre las mediciones son uniformes, esasmediciones son ..'irtualmente continuas. Sin embargo, esto crea otra fuente de confusin, pues permite que se r~defin.1n como continuos datos que son, ifu-luso tericamente, discretos. Por ejemplo, el nmero de cabellos en la cabeza es con certeza un dato disl-retO:no ptJdl'nIO~imaginar un valor entre 99 999 y 100 00) cabellos. Con todo, el nmero de posibles valores dentro del int~r\'alo del nmero de cabellos es muy elevado. Podemosconsiderar esta variable como realmente continua? S; para casi todos los fin~s seria totalmente correcto. Los datos pueden definrse adems por su l.'S!.lla medida. Los de datos continuos se miden en escalas, denominadas t.'SCala ra=ll y t.'SCala i1ltt.'nulo,12 (II.' (te que se definen por ~star constituidas por un intervalo constante o uniforme entre mediciones consecutivas. Algunas mt.'rliciones discretas se realizan en una l.'SCala ordi,UlI. Los d.1tosen una esc.11a ordinal tien~n una ordenacin o posicin E'specfica, como en el caso de los da tO$continuos, pero no es preciso que el intervalo entre mediciones consecutivas sea constante. Un tipo de variable que se mide habitualm('nte con una escala ordinal es la clasificacin conocida como ell.'stadiode la t.'Irft'rI1l1.'d.ld. ~;abemosque el estadio 2 es ms avanzado que ell, pero no podemos afirmar que la (jiferencia entre los dos estadios sea la misma que la diferencia entre el estadio 2 y el 3.
11(\r "i~mplo. p'1driO)mos Im"Kin"r. "un'lu~ no ml-dir.IO) t~n,;in "rt~riO)ll.n. di;O)ml)5. ricm~tros de m~rcurio Asi 'lu~. en re"lid"d. itlld,)5Ios ddtO5SI}ndiscr~tl}S' " l.I di,tincin l.ntr~ I" ~,c"IO) r"Llin y I" lj~ intl.f\."ll) .:l}n,i,t~ l.n 'lu~ I" prim~r,) in.:luy" ~I vO)lorccrov~rd"J~r,) d~ ml~nlr,)s'lu" I" St!KundO) Cil.rto tip') d~J"t", Ji,;.:r"t",. .:om,) ,,"' rl'Cu"nt"". tl"n"n int"rv"llJS uniforml" "nn". tr" 1.1" m..Ji.:ll)n"S y. por Il) 100nto. t"mbi.:.n ,;" mld"n m"Ji,)ntl. l'SC"I"s Jl. r.IL'\n u J" inl"rv"lu Olr,), tip')' J" J"t", Jiscr"t,), "' mld"n "n ~scO)I"s ordin"I~, u "n l':;.:"IO)s nomi""I~,.

.", ""' ,..) ::; .~ '-'I ~ ;: "Z; ~

179

Cuando no se puede aplicar algn tipo de ordenamiento a los datos discretos, decimos que se midieron en una escala nominal. Son ejemplos de caractersticas medidas con datos discretos en escalasnominales el tratamiento, el sexo, la raza y el color de los ojos. Los datos que tratamos como nominales incluyen mediciones con dos categoras,aunque se pueda considerar que tienen un orden intrnseco, I)()rque uno es claramente mejor que el otro (por ejemplo, vivo y muerto). Es importante darse cuenta de que el trmino variable nominal puede causar confusin. En su uso comn, una variable nominal es una caracterstica como el sexo o la raza que tiene dos o ms categoras potenciales. Sin emb<lrgo, desde un punto de vista estadstico, una variable nominal se limita solamente a lios categoras. De este modo, debemos referimos a la raza o al color de los ojos como datos nominales que requieren ms de una variable nominal. El nmero de variables nominales es igual al nmero de categoras potenciales menos uno. Con el fin de seleccionar una tcnica estadstica o de interpretar el resultado de una tcnica, es importante distinguir entre tres categoras de variables: I. \..riablt'S continuas(comprenden datos continuos como la edad y datos discretos que contienen un nmero elevado de posibles valores como el nmero de cabellos). \..riablL's ordiltall.'S (comprenden los datos ordinales con un mnimo de tres valores posibles aunque con un nmero total limitado, como los estadios de los tipos de cncer). \..rialies IUJIni,tales (comprenden los datos nominales que no tienen un orden como la raza, y los datos que solo pueden tomar dos valores posibles, como vivo o muerto).

2.

3.

~ '-J ~ ~ ~ ~ ~ ~ ~ .a V1 '-J Z ~ ~ ~ 5 ~ ;.. V1 \,.J a ~ a '-J

1&J

El orden en el que se han enumerado estos tres tipoS de variables indica la cantidad relativa de infonnadn que cada una contiene. EStoes, las variables continuas contienen ms informadn que las ordinales yestas, ms que las nominales. Por esta razn, las variables continuas se sitan a un nivel ms elevado que las ordinales y estas, a un nivel ms elevado que las nominales. Las medidones de un nivel de informacin concreto pueden ser rt'escaladasun nivel inferior. Porejemplo, la edad (medida en aoS)es una vlriableCona tinua. Podramos reescalarla de forma legtima y transformarla en una variable ordinal i11 definir a las personas Comonios (0-18 i1oS),jvenes ( 19-30 aoS), adultos (31--!5 }oS),}dultoSmaduros (-!5-65i1os) y andanos (>65 aoS). Podramos reescalarlaotra vez para convertirla en un} varii1ble nominal. Por ejemplo, podramos dividir las personas en dos categoras; jvenes y viejas. Sin embargo, no podemoS reescalilr las variables } un ni,,"CI superior }1 que se midieron realmenteCu}ndo rl~sci1lamos una medida a un ni\'el inferior perdemos informadn. Es dedr, tenemoS menos detalles sobre una caracterstica si la medimos en una escala nominal que si la medimos en escalaordinal o continua. Por ejemplo, sabemos menoS acerca de una persona cuando la identificamos Como de edad madura que si dedmos que tiene 54 aoS. Si una persona tuviera 54 aoS de edad y midiramos su edad en una escala continua, podramos distinguir su edad de la de otra pt~rsonaque tuviera 64 aos. Sin embargo, si la edad se registrara en la esc}laordinal antes indicada, no podramos diferenciar la edad de estos individuoS. La prdida de informadn que se produce al utilizar medidones reescaladasen las tcnicas estadsticas tiene el efecto de aument}r el error de tipo II, si todo lo dems se mantiene igual. Es decir, reescalara un nivel inferior reduce la potenda estadstica, 10que hace ms difcil establecer el nivel de significadn estadstica y,

,..

~..". l..riJi. ~,'

en consecuenda, rechazar una hipt~sis nula falsa. Por otra parte, -eescalando un nia vel inferior se evita la necesidad de aceptar dertos supuestos, como la uniformidad de los intervalos, que puede ser un requisito para realizar determinadas pruebas estadsticas. En los siguientes captulos se describirn con mayor detalle varios ejemplos concretos de determinadas pruebas que requieren estos supuestos y de las que permiten evitarlos. Hasta aqu, hemos revisado los pasosinicialesque deben ~ para seleccionar una prueba estadstica. Estos pasos son: 1. 2. Identificar una variable dependiente y todas las variable~;independientes a partir de la pregunta que se intenta responder con el estudio. Determinar si cada variable es continua, ordinal o nominal.

Una vez completados estos pasos, estamos preparados para iniciar el proceso de selecdn de una prueba estadstica.

EL ESQUEMA
Los captulos restantes de este libro estn organizados como ramas de un esquema diseado para facilitar la seleccin e interpretacin de los mtodos estadsticos. Se han incluido la mayor parte de ellos, aunque no todos los que pueden encontrarse en la literatura mdica. Para usar este esquema (figura 26-5), primero :;e debe determinar cul es la variable dependiente entre el grupo de variables. Si hay ms de una variable dependiente que usted quiere considerar simultneamente en el mismo anlisis, quiz le interese un anlisis multivariante para el cual debe consultar a un estadstico. Si su grupo de variables parece contener ms de una variable dependiente, es muy probable que los datos planteen ms de una hiptesis de estudio. En ese caso, se deben considerar las variables relevantes para una hiptesis de estudio espedfica. Una vez identificada una sola variable dependiente, el nmero de variables independientes en la investigacin le orientar hacia el captulo que trata de ese nmero de variables independientes. Cada captulo mntiene !res grandes diyisiones. La primera hace referencia a los grupos de variables en los que la variable dependiente es continua. La segunda se centra en las variables dependientes ordinales y la tercera, en las variables dependientes nominales. Dentro de cada una de estas divisiones se describen las tcnicas para variables independientes continuas, ordinales y nO0 minales, cuando se dispone de eUas.El captulo 30 rene los esquemas presentados en los captulos 27, 28 y 29. RESUl\1EN En este capitulo hemos aprendido que los mtodos estadisticos utilizados para analizar los datos de una investigadn mdica tienen tres finalidades. La primera es la de resumir los datos. Las distribudones de los datos en grandes PObladones se resumen mediante valores numricos denominados parmetros. Los valores de estos parmetros pobladonales se estiman a partir de muestras aleatorias mediante estimadones puntuales denominadas estadsticos. La segunda finalidad de la estadstica es la de tener en cuenta la influenda del azar en las estimadones puntuales calculadas a partir de las observadones muestra les selecdonadas al azar de la poblacin. Hay dos enfoques generales pJra considerar ~I azar. Uno L'St constituido por las pruebas de significacin estadstica.BJjo este enfoque, las observaciones muestrales se comparan con lo que sera de esperar si
~ '"" '-.I =: ~ ~ ~ "' ~ ;;:; z ~

181

AGURA 26-5. Esquemapara identificar el capitulo y la secciOnen los que se tratan las pl'Uebas estadlsticas referentes a un grupo de variables en particular
ldent-ar una variable ~ndiente

I Ninguna variab. independilnte

I Una varIable ~ndilnte

I Ws cmuna vanab. Independiente

CapiRJk) 27 An~ univanante I I I Variable Variable Variable deoendiente ~te dependi~te contInUa oldinal nomnal
I Variable

Capituk28 Anl$is bivariante

Capiluk) 29 Anb~ mul1lvananle


I Variable

I Va/Jable

~OOi~e ~ef1e CX)ntInua ~nal

depen(jente nomrIal

I I I Varii)je Vanab~ VarOOle dependiente dependMInle depeIId,enre con!inua Ofdinal nomInal

no existiese una asociacin entre variables o una diferencia entre los grupos de la pobladn. Si las observaciones son lo suficientemente inesperadas o no existe una verdadera asociacin (o diferencia), rechazamos la hiptesis de que no existe una asociacin (o diferencia) en la poblacin. Un enfoque alternativo para considerar el a24r es el clculo de los intervalos de confianza de la estimacin puntual. En este caso, pcldemos suponer con un grado de confianza determinado que el parmetro poblacional se halla incluido en el intervalo de confianza. Aunque las pruebas de significacin cstadstica y la estimacin por intervalo son procesos que aparentemente se interpretan dt' forma distinta, consisten sendllamente en expresiones matemticas diferentes de un mismo
~ ooJ :J ~ ~ ? :J ~ ~ ~ '.:) ~ ... o '5 :J ./1 ~
~ ~ ~

principio. La tercera finalidad de la estadsticaes la de ajustar los datos segn el efecto de las variables de confusin en nuestras observaciones muestr;les. Este objetivo se alcanza mediante el anlisis multivariante, que ser el tema que nos ocupar en el captulo 29. Para cumplir con estas finalidades, debemos seleccionar una tcnica estadstica apropiada para responder a la cuestin en estudio. Para realu:ar esta selecdn, procederemos de la siguiente forma: I. Deddir cul es la variable dependiente. Esta ser la variable de inters plindpal en la hiptesis del estudio. las variables restantes son las variables independientes. 2. Determindr cu".intasvariables independientes contiene el conjunto de obscrvadones. Si no existe ninguna, debemos realizar un anlisis univariante. Con una variable independiente, el anlisis bivariante es el apropiado. Si, por otro lado, la serie contiene ms de una variable independiente, usaremos un mtodo multivariante. Rt~erde que para los datos nominales, el nmero de variables es igual al nmero de categoras potendales menos una. 3. Definir qu tipo de variable dependiente es la de inters. Si la variable dependiente tiene un nmero ilimitado de valores uniformemente espadados, se trata de una variable continua. Si la variable dependiente contiene un nmero de valores limitado que pueden seguir un orden, se trata de una variable ordinal. Una variable dependiente nominal simplemente identifica la presenda o la ausenda de una condidn.

2 'J'I '.J '.:) ,~ '.j

18~

CAPTULO 27

ANLISIS

UNIVARIANfES

Para analizar un conjunto de mediciones que contiene una variable dependiente y ninguna independiente, los mtodos estadsticos utilizados son un tipo de anlisisunitYlriante.En la literatura mdica, el anlisis univariante tiene tres usos comunes. El primero se encuentra en estudios descriptivos (por ejemplo, en las series de casos) en los que solo se ha examinado una muestra. Por ejemplo, un investigador puede presentar una serie de casosde una enfermedad determinada describiendo di\'ersas mediciones demogrficas y patofisiolgicas de los pacientE$. El propsito del anlisis en ese estudio sera el de explicar la influencia del azar en las mediciones de cada caracterstica. Dado que no existen grupos diferentes de personas para comparar, ni inters en comparar una caracterstica con otra, cada caracterstica de las personas enfermas se considera una variable dependiente en un anlisis univariante indi\idual. El anlisis univariante tambin se utiliza comlinmente cuando se extrae una muestra para incluirla en un estudio. Por ejemplo, antes de hacer la seleccin aleatoria en un ensayo clnico controlado, puede que seaconveniente realizar mediciones en toda la muestra objeto de estudio. Es decir, podramos deter::ninar el porcentaje y la media de edad de las mujeres en el grupo seleccionado para muestreo al azar antes de asignarlas al grupo de controlo al de estudio. Como en el estudio descripti\"Ocomentado antes, cada caracterstica examinada en la muestra es una variable dependiente en un anlisis univariante individual. Por lo general, en los estudios descriptivos o (1Jandose examina una sola muestra, el inters se centra en la estimacin puntual y por intervalo, en lugar de las pruebas de significacin estadstica. En el esquema univariante se pueden realizar pruebas de -hiptesis, pero en la hiptesis nula debe espedficarsc un valor para el parmetro poblacional. y luchas vecesesto no se puede hacer en el anlisis uni\-ariante. Por ejemplo, es difcil imaginar qu valor se tomar como hiptesis de la prevalencia de hipertensin entre los indi\;duos de una comunidad determinada.l Sin embargo, en la tercera aplicacin del anlisis univariante es fcil imaginar ese valor hipottico. Estees el caso en el que una medicin, como la tensin arterial diastlica, S~realiza dos \'eCes en el mismo individuo o en uno muy semejante y el inters se cencra en la diferencia entre las dos mediciones. En esta aplicacin, es lgico imaginar una hiptesis nula que afirme que la diferencia entre las dos mediciones es igual a cero. Df!;este modo, J.a diferencia entre las mediciones de la tensin arterial diastlica es la variable dependiente. Aunque la diferencia, por su misma naturaleza, es una comparacin entre grupos, las diferencias en s mismas 110 comparadas con ningn grupo. Por lo tanto, no existe son ninguna variable independiente. Cuando se comparan dos mediciones en un mismo individuo o en individuos muy semejantes, estamos tratando con un problema univariante. Por eso, en una investigacin que emplea datos apareados y en la que cada par

'.r ~ ~ ::c 5 ~ \I"; ~ ,~ z ~

1 A prim~ril

vistol pu~d~ pdrl.'C1..r qu~ lil hip'\tl..ss nul.1 'l..rid qu~ Id prevdl~ncid ~n Unol comunldi1d

d~termlnadol "s

igUdlol la prl!voli~ncid I!n l'tril comuniddd l' J lol prl!\"JIl!nciJ l0,;tim.tdol ~n l)tro l.'Studio. Sin I!mbargo, I!S import..nt" n.'Cordilrqul! ".1\".1I,,)rpropul!sto como f'-1r.iml!m) pl)bl.tcl,,)n.tl t".n~qul! ser(o"tXido"inmor. Esto no serio1CI"rtu ii no ~r qul! toJo" los mi"mbros d\! 1.1 comunidad qu~ ~ compilril ,,~ incluy"ran ~n el clC1Jio de la pre\-aI"nCIa

183

Jf
constituye una observacin, loS datoS se analizan usando mtodos univariantes. Los pares pueden consistir en datos de un individuo o de doS individuos que se aparean , . antes de analizar loS datos. ;j VARIABLE DEPENDIENTE CONTINUA

Comenzaremos a analizar la figura 27-1 preguntando cul es el aspecto de la distribucin poblacional que nos interesa, su posicin o su dispersin ?2A continuacin es preciso considerar la estimacin puntual que puede emplearse para representar ese aspecto de la distribucin poblacional. En el anlisis univariante de una variable dependiente continua se acostumbra suponer que los datos provienen de una poblacin con una distribucin gausiana. Por lo tanto, la media se usa habitualmente como medida de posicin. La dispersin de las distribuciones gausianas se mide mediante la desviacin estndar o, alternativamente, por el cuadrado de la desviacin estndar, denominado oorianzl.Para fines de anlisis, tanto la varianza como el coeficiente de variacin -descrito ms adelante- se usan para medir la dispersin de los datos de la distribucin poblacional. Por ltimo, cilda diagrama clasificar la categoril general de las pruebas estadsticas que se emplean ms frecuentemente para calcular los intervalos de confianza o para contrastar lils hiptesis estadsticas. En el captulo 26 aprendimos que los primeros pasos para escoger una tcnica estadstica son: 1. 2. 3.
, ~ ~ ~ s ~ ~ ~ ::. ;o J1 ~ ~
~ ~ ~ :5 ;... ~ .o :) ~ '::J u

Decidir cul es la variable dependiente. Detenninar cuntils vilriables independientes, si las hubiera, contiene el grupo de observaciones. Definir el tipo de variilble dependiente como continuil, ordinal o nominal. A estos pasos, ilhora aildimos el siguiente:

4.

Seleccionilr el parmetro de la distribul.in poblacional sobre el que desearamos contrilstar hiptesis o efectuilr estimaciones. En OtrilSpalabras, nos interesa la posicin o la dispersin?

RGURA 27-1. Esquemapara seleccionar un mtodo estadlstico univariante para variables dependientes continuas (continuacin de la figura 26-5)
VarIable depend~me con!I/1Ua

..~,es etI~ ~n I i ~
I

:nleres en la dlspers4n I

DesYlaCln eSIndar O vananza

C(>ehCIente de 1Ia,,~cl6n

rde SUJdent

Ji aadtado

ldi, Slude~

184

En los si~uientes captulos centraremos

nu~stro inters ~n la posi..i6n.

';4 ,~

Si seguimos estps pasos en la figura 27-1, observamos que nos conducen al nombre de un tipo general de pruebas estadsticas. l::Staspruebas suelen ser apropiadas tanto para determinar la significacin estadstica CI)mopara calcular los intervalos de confianza. Inters en la posicin

Como se ha afinnado anterionnente, la medil muestra! es una estimacin de la posicin de la media poblacional. A menudo, la media poblaaonaJ es el parmetro que intentamos estimar. Para calcular el intervalo de confianza de la media de una muestra, la distribucil/de la t de StUde1lt la ms frecuentemente empleada. La es distribucin de la t de student es una distribucin estndar en la cual se transfonnan las medias de variables dependientes continuas para facilitar el anlisis. Esta distribucines pareada a la gausiana, pero requiere de un parmetro adicional conoddo como gradosde libertad.El propsito de los grados de libertad en la distri~tucin de la t de student es reflejar el papel del azar en la estimacin de la desviaan estndar.3 La distribuan de la t de Student nos permite construir los intervalos de confianza a partir de la media observada y de su error estndar. En la Seccin 3 se seal que el error estndar de una media disminuye a medida que aumenta el tamao de la muestra. De forma ms preasa, el error estndar es igual a la desviacin estndar dividida por la raz cuadrada del tamao de la muestra. El error estndar se emplea en la distribucin de la t de student para calcular las estimaaones por intervalo de las medias de las variables continuas. El intervalo de confianza de una media es igual a la estimacin muestra! de la media + el valor de la t de student para el nivel de confianza deseado y multiplicado por el error estndar. Para una estimacin bilateral con un nivel de confianza de 95':'c el valor de la , t de Student es aproximadamente igual a 2 si las muestras contienen 20 casos o ms. Sumando y restando a la estimaan puntual de la media un valor igual al doble del error est.indar, se puede obtener un intervalo de confianza i11".0.\"imatto.deCir, la media poEs blaaonal se encuentra en el intervalo comprendido entre la media muestral :!: dos errores estndares, con un nivel de confianz.l de 95("'r' Por ejemplo, si leemos en un infom1e de investigaan que la media:!: el error estndar de la concentraan de colesterol srico en una muestra es igual a 150 :!: 30 mg/d!, podemos tener un ru.velde confianza de 95':'0de que la media poblaaonal se encuentra dentro del intervalo aproximado comprendido entre 120y 180mg/dl. Como se mencion anteriormente, en el anlisis univarianteexiste una situaan especial en la que se pueden aplicar las pruebas de significacin estadistica. El caso ms frecuente es el de un estudio en el que una variable dependiente continua se mide dos veces en el mismo individuo. Por ejemplo, podriamos medir la tensinarteriaJ antes y dt.'Spus que un pacientereciba un medicamento antihipertensi\'O. de Si lo que realmente nos interesa no son las mediaones antes y despus del tratamiento,

~ ~ ~ :;r; ~ ~

I Al utilizar la di,tnbucin de la I d~ student para realizar estimacjone, pl,r intcr\'alo d~ las m..-dias,se rpconoccel h~cho de qu\'la d~svjacjl;n est.indar 'e t'stima " p..rtir de I" mu\',tr" Es dt't:ir, no se ContXecon pr\'Clsin 1. des\';"""n \'Stnd"r. .~ ionna 'Im'l.1r, ,;e pu..-d\'ne,lim"r l'lros intervalos de coniidnzd ron"der"nJo mltiplos del error estnd"r '\proximdddmente do,; tercios de la, mt-dids muestrdles pl)sibl..'s,;eencuentran dentro ,le un ~m>r estnddr dt'!" mt-dia pl,bl"clOndl. Mj, de 99~ de I", pl"iblt.'. m..-di", muestr,,e, "', encuentr"n dentro d~1int~r\.alo de 1" me,!", f't,bl"ciondl "' Irt.'. ern'rt" t'St,\nd"res Sin emb..r,'t', e' impl'rtdnte rt'C"rd..r 'IUt'. ,u.njo "plicdmos estds int"rrret"'iunt'S d k" int"rvdl", d" "miidnZd u " 'u, "pro.imac;on",. "'tdmo",up'm,end., 'luC Id p'>bldt;nde tt>dd" I", medids posIble,; tiene una distribuci,m ;aU';idnd.

'II ~ ~

185

". sino la diferencia entre las mediciones, nos enconh'amos frente a un un diseo~r-Este es ~~ problema un;ivariante, d~do q.uela vari~ble depen~iente es la.dif~rel1ciaen~,,~ las medicones y no eXISteuna vanable mdependiente. MedIante un dISeno a]:>aread~ hemos tratado de eliminar la influencia de la variacin entre los sujetos en la [:tedicin inicial o debase.
De la misma manera que se emplea en otros anlisis univariantes , la distribucin t de student se emplea para contrastar hiptesis o para realizar estiIrladones por intervalo para los datos continuos a partir de un diseo apareado. AUnque las pruebas estadsticas utilizadas para analizar los datos de un diseo apareado no SOn distintas de otras pruebas univariantes, en los textos introductorios de estadstica frecuentemente se tratan por separado. En estos casos, la prueba utilizada para examinar la diferencia entre las medias de los datos de un diseo apareado se denomina ,vruebz de la t de StudentfXlradatosafXlreados. Ms que la media de la muestra :t el error estndar, con frecuenda vemos los datos univariantes presentados como la media de la muestra:!: la desviacin estndar. La media mestral :t el error estndar informa del nivel de confianza que podemos tener en nuestra estimacin de la media pobladonal. El error estndar es un indicador de la dispersi6nde las medias ml/t'Stralt'S podran obtenerse extrayendo que una muestra de la poblacin. Sin embargo, la media de la muestra :t la desviacin estndar plantea una cuestin distinta. La desviacin estndar de los datos de la :nuestra estima la dispersi6nde las mediciO1It'S la poblacin. Aproximadamente, el 95~7c los en de ..'aloresde una poblacin se encuentran dentro del intervalo de la media poblacional :t dos desviaciones estndares." Por lo tanto, cuando aplicamos una prueba estadstica univariante a una variable dependiente continua, podemos estar interesados tanto en la estimacin de la posicin de la media poblacional y, por ese motivo, en su {'rror estndar, como en la descripcin de la dispersin de los valores y, p<>r consiguiente, en la desviacin estndar. Para ilustrar cmo se escogeentre la presentacin de la media :t la desviacin estndar y la media = el error estndar, imaginemos un estudio en el que se describe una serie de casos de una enfermedad determinada. Supongamos que una de las variables medidas en esos pacientes es la conce-lltrdl'lndel colesterol srico. Si el objetivo del estudio es estimar los valores de la concentracin del colesterol srico que se podran observar en los padentes i,lltividualescon esaenfermedad, se debe presentar la desviacin estndar, dado que estamos interesados en la dispersin de los di.ltos poblacionales. Si, por otro lado, el propsito del estudio es estimar la media de la concentracin del colesterol srico de un gnlpo de pacientes con la enfermedad, se debe presentar el error estndar (o la estimacin por intervalo), pues estamos interesados en la dispersin de las medias muestrales obtenidas al azar de la poblacin. Es importi1nte entender la diferencia entre los supuestos que realizamos cuando int('rpretdmos lil medid = el error estnddr y la media = la desviacin estndar. Cuando utilizamos el error estndar,suponemos que las medias de las muestras obtenidas al azar de la pobladn siguen una distribudn gilusiana. En el ca5() de la media = la desviacin estndar, su~)nemos que los datos pobklcionalespor s n1Smos

~ :::

~ ~ Q ~ ~ :... o c :3 I"' "" ~ :3 ~ ~

~ ~ ~ ~

'"" '.J :) ~ '"'

1~6

Otr" di,;eo ..p..r"..do ,;eria ,,1")rr,.,p')ndi"nt,, .1Ul\.. v..n..bl...dcp"ndi"nt" l.')ntn".I m,.,jda ~n d"" indviduos apar~..dosqu" 5e..nslmlart!s ,.n I.., ,..r.1t:t"ristk.1S ,,)mp..rtdas llu~ "' (Onsid,.r.. p"slblt! qu~ ,"tluy..n ~" la mag. ntud d~ la variabl~ dep"ndl~ntl! AsImismo. apro\m.ld..menl" dos t"n:i"" d" I"s dal,)s p,)bl.1(i,.n.lJl'S "ncu~nlr.ln dentrt) d~1inlerv.llo il)rrn.ldl) ,;e p')r I.. m..-dia "' un.. ,1~Sl.'..cln~,tjnd..r v mjs d~ '/lJ'1.d...ntr" d~1inl~rval,) d...I.. m...,j,a "' trl!S d~S':I.1(I"n~, t!stjndar~s r.lr.. ..pli'..r ,.st..s Int"rrn.t.l'..';I\~' dt!bt.m"s sup')n~r 'lu~ los dal,)s p',l-I.I,,)n..I,.,. ,i;Ul.n UI1..di,tri. "u"n ;..usI.ln.l.

FIGURA27-2. Demostracin del teorema central del Ifmlte. Cuando medimos la tensin intraocular en muchos Individuos (A) observamos que la distribucin de las mediciones individuales no es gausiana. A pesar de ello, la distribucin de la media de la presin intraocular tiende a seguir una distribucin gausiana (B-D). Esta tendencia aumenta a la par que el tamano muestral

la ~ ., ~ ~ .:

.0 ~ ;:) !: .J:

Tamaomuesrral :O =
"' ~ "' "' ~

10

15

20

25 PIO

30

35

.:0

.:5

50

-, o 5 lO 15 20 25 PlO 30 35 40 -15 ~

siguen una distribudn gausiana. A menudo este supuesto serdern) p.1tala media:!: el em)r est.ind1r. como \'l'remos, si escogL'mos muL'Stras sufidentemente grandes. Sin embargo. ~I supuesto muchas \\.~es no ~r derto para la media :!: la des\iacin estndar. Si los datos poblacionales siguen una distribudn gausiana, las m~dias de las muestras de esa poblacin tambin seguirn una dislribudn gausiana. Incluso cuando los datos poblacional~sno siguen una distribucin gausiana, las medias de un elevado nmero de muestras obtenidas mediante muestreos aleatorios repetidos de la misma poblacin a la larga seguirn una distribucin gausiana (figura 27-2). La probabilidad de que las medias sigan una distribucin gausiana aumenta a la par que el nmero de observacionesen cada muestra. Este importante fenmt'no se conocecomo el tl'Orl'7'/il cl'1ltraldd /[mite y explica el inters de los estadsticos tanto t~nlas medias como en la distribucin gausiana. Tambin les permite a los investigadores mdicos emplear los mtodos estadsticos que suponen una distribucin gausiana para analizar los valores de las medias obtenidas de poblaciones en las que los datos no siguen una distribucin gausiana. Esto supone una gran ventaja, ya que muchas de las variables de inters ~n medicina provienen de poblaciones en las cuales las distribuciones de los datos no son gausianas.

~ 'z; ~ ~ ~ ~ ~ ~ ~ ~

Inters en la dispersin
Con mucho, la media es el parmetro poblacional que se estima con mayor frecuencia en el anlisis univariante de las variables continuas. Sin embargo, este no es el nico prmetro que podemos estimar con ese tipo de datos y no es siempre el que mejor refleja nuestro inters por una serie de observaciones. Quiz nos in-

18/

}~ '
.

'

"

"

terese la dispersin de las mediciones en la poblacin. En este caso, nuestro iJ1~ ~ centra en la varianza o, de forma equivalente, en su raz cuadrada; la deS'wiaci,n estlt-' dar de la poblacin. ~t Cuando queremos obtener una medida de posidn de la pobla:cin de la cual hemos extrado una serie de observaciones univariantes, geneI'almente estimamos esa posicin con la media de la muestra. El error estndar refleja 1&1 dispersin de las medias de la muestra. Empleamos la distribucin de la t de student para contrastar hiptesis estadsticas o para realizar estimadones por inten.'3lo de :lamedia poblacional. Por otro lado, cuando nos interesa la dispersin de los datos de la poblacin por s mismos, estimamos la desviacin estndar o la varianza de la f'(X)lacin a partir de nuestras observaciones muestrales. Si deseamos contrastar hiptesis esta~ ticas o construir intervalos de confianza de la varianza poblacional, empleam,:>sla dis;tribIICi6ndeji al cuadrado.Sin embargo, el uso de la varianza o de la des"iadn I~tndar puede inducir a error si deseamos comparar la dispersin entre grupos distintos. Examinaremos esta siruacin y una solucin habirual. Una de las propiedades tericas de los datos que siguen una distribucin gausiana es que la desviacin estndar y la media son independientes. Es deLir, para una media determinada, cualquier desviacin estndar es igualmente probable. En la prctica, esto no ocurre con frecuencia. Por ejemplo, considere los pesos corporales desde el nacimiento hasta los Saos de edad (cuadro 27-1). Qu~ claro que la variacin del peso aumenta con la edad, as como el propio peso. Sin embargo, la asociacin entre la media y la desviacin estndar hace difcil comparar medidas de dispersin correspondientes a diferentes pesos medios. Por ejemplo, las \ -ariaciones de un kilogramo entre lactantes representan una variabilidad mucho ma~-orpara su tamao que una variacin de un kilogramo en nios de 5 aos de edad. Una solucin sencilla para este problema consiste en di..idir Ladesviacin estndar por la media con el fin de "ajustar" los datos segn las diferencias entre las medias. Si multiplicamos esta razn por 100, obtenemos lo que St? conoce como el cVt'ficit'llte ttlriacill. En el cuadro 27-2 se presentan los coeficientes de \ -ariacin de Lit' los pesos corporales de nios varones.

~ ::: '.J :J ~

~ :J ~ "= ~ ::) ~ ~ >::) o :J :;; 'IJ :? :J ~ ~ a :J ... ~ 'IJ ::) ~ '9

CUADRO 27-1. Medias y desviaciones eslndares del peso corporal (ninos)


Peso (kg)

0.53 1.01

5
(FuenI8: 5mlth

2.17
~D5. Growt/1 ana its iJisoraBrs. Philadelphla 5aunders; 19" )

CUAORO27-2. Medias y coeficientes de variacin del peso corporal (ninos)


Peso (kg)

'5.1:0, 9.9, ",~,

188

(Fuenle: Smith DS. Growth lnd ,ts disorders

Phlladelphla Saunders. 19771

El examen de la$ variaciones absolutas de los pesos, estimadas mediante la desviacin estndar, sugiere que la menor variacin se observa entre los recin nacidos (cuadro 27-1). Sin embargo, esta variacin se da entre nios que, como promedio, pesan menos. La variacin del peso en relacinCO1lla me,(iadel peso en cada grupo, tal como muestran los coeficientes de variacin, sugiere precisamente lo contrario (cuadro 27-2). La variacin del peso al nacer en relacin con el peso total al nacer es mayor que en cualquier otra edad considerada. Por este motivo, el coeficiente de variacin es una medida til para examinar la dispersin relativa de las variables dependientes continuas cuando se cree que la media y la desviacin estndar no son independientes y queremos comparar estimaciones univariantes de dispersin. En los intervalos de confianza y las pruebas de hiptesis estadsticas del coeficiente de variacin se utiliza la distribucin de la t de student. VARIABLE OEPENDIENTE OROINAL

Los mtodos estadsticos univariantes para las variables dependientes ordinales se presentan en la figura 27-3. A diferencia de las variables continuas, con las variables ordinales no suponemos una distribucin concreta de los datos poblacionales, tal como la distribucin gausiana. Los mtodos utilizados para las variables ordinales se denominan por este motivo de ,iistribllcin libre o no paramtricos.Es importante darse cuenta de que estos mtodos no estn libres de supuestos. Por ejemplo, seguimos suponiendo que nuestra muestra es representativa de alguna poblacin de inters.
Inters en la posicin

Dado que no suponemos una distribucin detem1inada de los datos medidos en una escala ordinal, no podemos estimar parmetros poblacionales que sinteticen la distribucin. :'.'o obstante, es posible que nos interese describir la posi\.in de los d.ltos ordinales en un.l escala continua. Eso lo podemos hacer mediante la media,la. La mediana es el punto medio de una serie de datos, seleccionada de fom1a tal que la mitad de loS valores sean ms altos y la otra mitad ms bajos que la mediana. AGURA 27-3. Esquemapara seleccionar un mtodo estadlstico univariante para una variable dependiente ordinal (continuacin de la figura 26-5)
Vanable ~(e orinaJ

Inters enia poscM)n I I MedIana A~lCud

InroJls en ~ disporsn I I

=j :"2; " ~ ~ z == (.t) :;; ::i "' "2; "

Ampllnld K1lercuan:ca

Prul)adel rango de W;colon o Prul)adel sogno

189

La mediana no tiene una distribucin poblacional terica ('omo medida de su posicin, pero puede utilizarse como una estimacin robusta7 la media de de una distribucin gausiana. La mediana soslayaun supuesto que realizamos cuando calculamos la media: que los intervalos entre las mediciones de una distribucin son uniformes y conocidos, Como la mediana se calcula empleando solamente el ran~;orelati\'O u orden de las mediciones, la estimacin de la mediana seria la misma independientemente de que los intervalos sean conocidos y uniformes o no. Por lo tantc, podemos usar la mediana para estimar la media de una poblacin de datos continuos. Esto se lleva a cabo organizando las observaciones muestralesen orden relativo. De este mock>, los datos continuos se convierten a una escala ordinal mediante la sustitucin d.e los rangos por las observaciones reales. En sentido estricto, la mediana puede emplearse como una estimacin de la media poblacional solo cuando la distribucin de la poblacin es simtrica. Si esto es cierto, la media y la mediana poblacionales tienen el mismo valor (figw'a 274). No obstante, aunque la distribucin poblacional sea simtrica, es posible que la,sobservaciones obtenidas en una muestra de esa poblacin sean, sin lugar a dudas, asimtricas. Un motivo habitual de esaasimetra es la posibilidad de incluirtulores ext'"l'mOS o aislados(outliers)en la muestra. Estos valores extremos se producen en la poblilcin con muy poca frecuencia, En ocasiones, una muestra incluir uno o ms de estcls valores extremos. Cuando esto sucede, las observaciones muestra les sugieren que esos valores extremos han aparecido con una frecuencia mayor de la que realmente tienen en la poblacin. Debido a que la media es el "centro de gravedad" de una distribucin, su valor es influido ms por los valores extremos que por los cercanos al centro

t ,

, ~ ~ ~ ~ ~ :o ::) ~ ;.. ::) 3 ~ j ?;

FIGURA27-4. PosiciOnde la media en una distribuciOn simtrica (A) y en distribuciones asimtricas (B.C). Xindica la posiciOn de la mediana

"' ~ "' :J ~ .z
I I Media I I

x B
~ "' ~ Q) " ~ :

~
~

2 4) :) ~

Mec:a

Meala

~ .oJ ~ < ""' '-' '.)

1~

I:n Il'rmlnu, ",t-,di,tio:l'... un.ll-'.ti,n.l.:\i)n m'u,.t-1l"' -\'IUl-Il..'iu" n" M-"" ,u,I-,no:ialm"nl" inllulda por d",;VI.ll'onl"' m,'nur"" d" h" 'UrUl'..t"" ,1" la pru"ba

de la distribucin. Por consiguiente, en las muesh"asque incluyen valores extremos, la media muestra! puede ser bastante distinta de la poblacional. La mediana muestra!, por su lado, es resistente aquellos valores extremos. Es decir, los valores extremos tienen el a mismo impacto sobre la mediana que los valores que se encuenh"ancerca del centro de la distribucin muestral. Por lo tanto, paradjicamente, cuando una muesh"a de una distribucin poblacional simtrica incluye valores extremos, la mediana muesh"ales un estimador de la media pobladonal mejor que la media muestral. El uso de la mediana para estimar la media pc.blacionalconstituye, sin embargo, un inconveniente. Dado que la mediana se basa solamente en la clasificacin relativa de las observaciones, contiene menos informacin que la media. siempre que utilizamos menos informacin al aplicar mtodos estldstia>s corremos un riesgo ms elevado de cometer un error de tipo II. En oh"aspalabras, la probabilidad de no poder rechazar una hiptesis nula incorrecta es ms alta, Solo vale la pena correr ese riesgocuando hay razonespara sospecharque la informacin e.xcluida crearlaotros errores ms graves si se incluyera en el anlisis de los datos. Aunque la mediana se emplea como una estimacin robusta y resistente de la media poblacional, es importante recordar que tambin es por derecho propio una medida legtima de la posicin de una distribucin. Por ejemplo, si una distribucin poblacionales asimtrica, podria interesar menos su centro de gra\'edado media que su punto medio o mediana. Si nos interesa contrastar la hiptesis nula de que la mediana es igual a cero en un anlisis univariante, podemos emplear tanto 1.1 prlleOO rangocon del signo de Wilcoxoncomo la pnU?iX1 signo. Habida cuenta de que la mediana no es un dcl parmetro de ninguna distribucin determinada, en general no podemos construir un inter\'alo para ese parmetro. Sin embargo, cuando se emplea la mediana como estima(.in robusta y resistente de la media poblacional, es correcto realizar una estimacin por intervalo de esa media. Para esta estimacin se dispone de m(.todos basadosen la prueba del rango con signo de Wilcoxon yen la prueba del signo."

Inters en la dispersin
Como ocurre con la media muestral, el clculo de la des\;acin estndar supone que los intervalos entre los valores son conocidos y uniformes. El clculo de la desviacin estndar est influido en gran medida por los valores extremos. Como alternativa, en los artculos de in\-estigacin frecuentemente se presenta como medida de dispersin el recorrido(ral/ge)(diferencia entre el valor ms alto,! el ms bajo). Aunque el recorrido es til para describir la dispersin de un conjunto de observaciones muestrales, no es una buena estimacin de la dispersin de los datos poblacionales. Esto se de~ ,11 hecho de que los valores de los extremos de la mayor parte de las distribuliones poblacionales raramente se observan en las poblaciones y, por este motivo, tampoco en las muestras. El recorrido se calcula a partir de esos f'xtremos, as que el recorrido calculado en una muestra subestima el recorrido poblacional casi con toda seguridad. Por eso, segn se reduce el tamao muestral, la probabi!i,jad de observar valores extremos tambin decrece. El resultado es que las estimacionE'S muestrales del recorrido varan directamente con el tamao de la muestra.

~ i"Z; ~ ~ ~ ~ ::J 1/1 ;; ~ .: "Z; ~

Dt.1 mi"mo ml,.Jo, St! pl,.Jrd .:dl.:uldr und ""Iilndcin robustd y rt!si"tt!nt" d., lil dt!s'riacin "sl.1ndilr (d.!,;.:ntd mj" dJl.ldnt,,) ~'"mplt!dr Id Ji.'itnbu.:i.:m Je Id t Je Stud"nl pilril construir un intervillo Je confi.lnL.l J" I.JmloJid pl)bld..'ndl.

191

J
Como alternativa, se puede utilizar el recorridointerruartilico (inttr.. ,-.j quartile ~ange) par~ des~bir la dispersi~~ de una mu~stra ~e.observaci.ne~, as~CO~~ ~ para estimar la d1Sperslon en la poblaaon. Los cuartiles diVIden una distribuan en~'Y!~ cuatro partes que contienen el mismo nmero de observaciones, de la misma forma que la mediana divide una distribucin en dos partes iguales. El intervalo entre el valor de los da tos que se encuentran un cuartil por debajo de la mediana y un cuartil por ericiIna de la mediana se conoce como recorrido intercuarh1ico. Dentro de ese intervalo o re.. corrido se encuentran la mitad de los datos muestrales. Dado que el recorrido inter~ \.""Uartl1ico depende de los valores extremos de una distribucin, es mucho menos no dependiente del tamao de la muestra que el recorrido. En una distribucin gausiana, dos tercios de los valores poblacionales se encuentran en el intervalo comprendido por la media :t una desviacin estndar. Por lo tanto, en una distribucin gausiana, la media poblacional :t 7.3 recorrido del intercuarh1ico se puede considerar una estimacin robusta y resistente de la media :t una desviacin estndar. Si nos preocupa el supuesto de los intervalos conocidos y uniformes o si la muestra contiene valores extremos de validez cuestionable, podemos estimar la desviacin estndarpoblacional calculando los dos tercios del recorrido intercuartilico en lugar de usar la des,,;acinestndarcalculadaa partir de los datos muestraIes. No se realizan pruebas de significacin estadstica ni clculo de los intervalos de confianza del recorrido o del recorrido intercuartl1ico. Por otro lado, si el recorrido intercuartilico se emplea para estimar la desviacin estndar poblacional, podemos contrastar una hiptesis estadstica o calcular un intervalo de confianza. En ese caso, el mtodo sugerido para la medida de la dispersin podra utilizarse para las "4riables dependientes continuas.

VARIABLE

DEPENDIENTE

NOMINAL

... .,

~ ::: '::, ;.:

:t: ;? -

Como indica el trmino, una IYlriall/edept'1ldiL'1'te II011li,UlI consiste solamente en el nombre de una condicin determinada. Adems, recuerde que hemos limitado los datos nominales a indicadores de que la condicin existe o, por defecto, no existe. Ejemplos de las \'ariables Liependicntes nominales incluyen \'ivo o muerto, curado o no curado y enfermo o sano. La cantidad de informacin contenida en una ""ariable dependiente aislada es bastante limitada, en comparacin con la que contienen las variables dependientes continuas, como la edad, o las ordinales, como el estadio de la enfermedad. Cuando utilizamos variables dependientes nominales solo es necesario referimos a medidas de posicin. Esto puede sorprender, dado que, cuando considerbamos las variables dependientes continuas u ordinales, discutimos la importancia de las estimaciones de 1.1 dispersin y de la posicin: En las variables dependientes continuas, 1.1 dispersin constituye una cuestin importante, porque frecuentemente se supone que siguen una distribucin poblacional gausiana caracterizada, en parte, por la independencia entre la posicin y la dispersin. Esto equivale a decir que, para una distribucin gausiana, el conocimiento de la media no nos dice nada acerca de cul puede ser la varianza de la distribucin. Paraun.1media determinada, son posibles infinitas varianzas. Esto 110 verdad para las distribuciones aplicables a las variables es nominales. Antes bien, esas distribuciones tienen medidas de dispersin que dependen totalmente de 1015 m~-dili.1s posicin (lo cual significa que pueden calcularse a de partir de las medidas de posicin o son iguales a un valor constante). Por eso, una \'eZ que conocemos la medilia lie posicin, sabemos o podemos calcular la medida de dispersin.

El mtodo estadstico univariante espefico que utilizamos para analizar una variable dependiente nominal (figura 27-5) vara segn se trate de una proporcin como la prevalencia o de una tasa como la incidencia. Veamos en primer lugar, los mtodos aplicables a las proporciones.

Inters en las proporciones Para cada medicin u observacin de una variable compuesta por datos nominales, solo determinaremos la presencia o la ausencia de la condicin en estudio. Porejemplo, podemos determinar si un individuo de una muestra tiene o no una enfermedad concreta. En una muestra constituida por ms de una observacin podemos estimar la frl.'Cuerlcia el nmero de vecesque la condicin ocurre en la poblacin. o Por ejemplo, podemos estimar el nmero de personas que tienen una enfermedad en la poblacin. Ms a menudo esa frecuencia nos interesa en relacin con el nmero de observaciones en la muestra. Si dividimos el nmero de vecesque se observa una condicin en una muestra por el nmero de observaciones, estamos calculando la proporcil/ de observaciones en la muestra que tienen esacondicin. Una proporcin calculada a partir de las observaciones muestra les es una estimacin puntual de la proporcin de la poblacin con la condicin. Una forma equivalente de interpretar la proporcin de la muestra es estimar la pr1I~lbitilltlli la presencia de la condicin en la poblacin. Dos I.ie proporciones o probabilidades I.lue se calculan habitualmente en la investigacin mdica son la prevalencia y el riesgo. Estas medidas se comentan en la Seccin 1 y en la Seccin 3. Las probabilidades no siguen una distribucin gausiana. Se supone que siguen una distribucin billIJl11ial una de PoisSIJIl. puede aplicar una diso Se tribucin binomial a toda probabilidad c;lculada a partir de datos nominales que cumplan los siguientes criterios; I) la probabilidad de que cualquier observacin obtenida mediante un muestreo aleatorio pertenezca a una categora determinada. denominada llmdicill lIo111i,UII. la misma para cada observ;cin y 2) las observaciones son indees pendientes entre s. Indl'pl'1'dielltL' quiere decir que el resultado de una observacin no intlu~.e en ~lresulti1do deotril. Una distribucin de Poisson es un caso especial de la distribucin nominal en la cual el suceso nominal observado, como la muerte o la enfermedad, es
FIGURA 27-5. Esquemapara seleccionar un mtodo estadfstico univariante para una variable dependiente nominal (continuacin de la figura 26-5) Vani)le ~Mien18 nominal
Interes en ~ posK:ln

:.r: 'o?:; "' ~ ~


Tasa

P~ I Desenlace colTain I I I I I I Desenlace raro I I

~ ".I". ':2;
'"" "Z. "'

I
BWIOmIaI Aproximacin normal ala biIoInial PolSSOn Aproximacin normal a la Poisson

Aproxlmacm normal la a Poisson

193

muy infrecuente y el nmero de observaciones es elevado. de Poisson es ms sencillo que el de la binomial. En general, cons titu ye una buena a~ ximacin a la disbibucin binomial cuando el nmero de individuos observado cOnIa~ condicin es 5 o menos y, adems, el nmero de individuos en la muestra es 100o ms. Las pruebas de significacin estadstica y el clculo de los intervalos de confianza de las disbibuciones binomial y de Poisson resultan difciles si deseamos utilizar tcnicas exactas que realmente usen las disbibuciones de Poisson o binomial. Afortunadamente, muchas veces no nos vemos en la necesidad de usar esas tcnicas. Es mucho ms sencillo calcular los intervalos de confianza o realizar las pruebas de significacin estadstica para variables dependientes nominales cuando, en ciertas condiciones, se puede realizar una aproximacin a las distribuciones binomial o de Poisson mediante la distribucin gausiana. podemos utilizar una aproximacin gausiana, casi siempre denominada aprvrimacin 1Iomlal, a las distribuciones binomial o de Poisson cuando el nmero de indi~;duos con la condicin es mayor de 5 y el nmero de observaciones es mayor de 10.9 Inters en las tasas

"

;?: ~ ~ "t: "Z; ::J ~ '"0: :t '"' ,.J ~ ;... ',:) 3 ::J j ~ ~ ~ ;"' ;.. ,.., ~

En la terminologa estadstica se reserva el trmino tasapara hacer referencia a una razn que incluya una medida del tiempo en el dt?nominador. en contraposicin con el trmino proporcin, que solo incluye el nmero total de obSt?r\-aciones en el denominador. L.1medida de inters ms h.1bitual en la in\.estigacin mdica que cumple la definicin de tasa es la incidencia. rara ilustrar esta distincin, imagine que hemos obser\.ado 100 personas que, al inicio de nuestro perodo de observacin, no tenan cierta enfennedad. A los tres aos, 30 de las 100haban enfermado. Si estuviramos interesados en conocer la probabilidad de que una persona seleccionada al azar de la poblacin de la que se ha extrado la muestra desarrolle esa enfermed.1d en un perodo de tres aos, caIL-uI.1ramos proporcin trianu.11 el riesgo de padecer la t?nfermedad di\'djendo 30 la o por 100 = 0,30. Sin I!mb.1rgo, si estuviramos interesados en la tasacon la que aparecen nuevos casosde la enfennedad en la muestra de poblacin, calcularamos la incidencia de la enfermedad como 301(100 3) = 0,10por ao. Obser\"e que las probabilidades no x tienen unidades y que las tasas se expresan en unidades de 1itiempo o de sucesos por unidad de tiempo. Dado que las enfermedades por lo comn se producen de forma infrecuente por unidad de tiempo, en el anlisis univariante muchas \.eces ~ supone que las tasas siguen una distribucin de Poisson. Al igual que sucede con lds proporLiones. es posibll.' aplic.1r tL'cnic.1s ex.1ctas las tasas, pero habitualmente las pruebas de a jignific;cin I.'stadsticay la construccin del intervalo de confianZ.1 se basan ~n la aproximacin normal. De este modo, se emplean las mismas tcnicas para las tasas y las probabilidades, excepto cuando se realizan pruebas de significacin estadstica yestimaciones por intervalo, para las cuales se emplea la distribucin de Poisson o su aproximacin normal.

194

En I;J ..proxim;Jcin ",)rm;JI ;J I;J di,tribucl)n dl! I\)is,,)n .) ;J I.. b,n.)mi.)I. s.)I,) ne.:I!"t..m.'., ..,.llm;Jr I;J ;""".lb.1bilid;Jd de ob",rv;r un .UCI!s.'. d..do ,!UI! ,,1 "rror ",t.nd..r ,;e c;JlclIl.. .1 pdrtir .t,. "Sd prob;Jbllld.1d Eslo dlr.<':r de \.1 distnbuc.in l\.1u,.1n.. p.1r.1v.1ri..bl"s d,.~",ndi,.nt", c.,nlnu.1'. ,.n 1.1 clI.11 .t,.t m.), rl!.1l1L.1r l-:lm..,.'.'r~ ...'p.tradas p.tr;J 1.1posicin y p.lra Id disp'.r,;in. C.,m., r""ull.l,k,. n., l.' n,'C"",lri.' .,. d" h".:h.,. .'Fr.',I.1d.' ulh::..lr Id dl';lri. bucl'\n d" 1.1/ d... Studl.nt p.1r.1 tl!n,.r l.n CUl.nt.1. m,.d.1nll. 1", I\r.1d." d" l,t-o:rl.1d. 1.. pr' '.ll'n .:"n -1u" "" h..ya ~tm..do 1..di,;po:r,;ilin En su lul\ar. ~ "mp~.. 1..di,;lribu..i.)n n"rm.11 "st.nd..r

RESUMEN
En este captulo hemos presentado solamente las tcnicas univariantes. EStosmtodos se emplean cuando un grupo de observacionescontiene una variabte dependiente y ninguna independiente. En su mayor parte, el anlisis univariante se centra en el clculo de loSintervalos de confianza ms que en las pruebas de hiptesis estadsticas. Una excepcin a esta regla es la medicin de loS valores de una variable dependiente continua doS veces en loS mismos individuoS o en sujetos muy semejantes. En este caso, la variable dependiente es la diferencia entre doS mediciones. Para contrastar la hiptesis nula de que la diferencia es igual a cero, suele emplearse una prueba de significacin estadstica para datos apareadoS. Durante la presentacin del anlisis univariante de las variables dependientes continuas, hemos examinado diversos principios importantes del anlisis de datos continuoS. Uno de elloS, el teorema central del lmite, nos ayud a entender por qu las pruebas estadsticas para las medias se basan tan frecuentemente en la distribucin gausiana. Este teorema afirma que las medias tienden a seguir una distribucin gausiana, aunque no la sigan en la poblacin de la que proceden. Otro principio importante es la distincin entre doS medidas de dispersin: la desviacin estndar y el error estndar. La desviacin estndar es una medida de la dispersin de los datos en la poblacin. Utilizamos la media ms y menos la des\'iacin estndar cuando nos interesa comunicar la variabilidad estimada de las observaciones indi\'iduales. Por su lado, el error estndar es una medida de la dispersin de las medias de las muestras extradas de una poblacin. Utilizamos el error estndar cuando noSinteresa mostrar la diferencia esperada entre las medias muestrales. Paracontrastar hiptesis estadsticasy para construir los intervalos de confianza de las medias empleamos el error estndar. Al realizar las pruebas de significacin estadsticay al construir intervalos de confianza para el anlisis univariante de las variables dependientes continuas se supone que la poblacin de la que se extrae la muestra sigue una distribucin gausiana. Cuando dudamos que seaas, podemos transformar la variable dependiente continua a una escalaordinal.Con una variabie dependiente ordinal o con una variable dependiente continua transformada en una variable ordinal podemos realizar clculos estadsticos paralelos a los comentados cuando tra tamos el tema de las variables dependientes continuas, aunque no requieren SUponerque la poblacin siga una distribucin determinada de los datos. Estos mtodos estadsticos se denominan no paramtricoS. De forma alternativa, podemos efectuar estimaciones de los parmetros de la distribucin gausiana transformando los datos continuos a una escalaordinal y empleando la mediana como una estimacin robusta de la media y los dos tercios del intervalo intercuart11ico como estimacin robusta de la desviacin estndar. Esta aproximacin es til cuando la muestra contiene valores extremoS o aislados. El anlisis univariante de las variables dependientes nominales se distingue de otros porque en l no se realizan estimaciones independientes de la posicin y la dispersin. Lls estimaciones de la posicin de las variables dependientes nominales pueden ser tasaso propordones. Los tipos de distribuciones supuestasConms frecuencia para las variables dependientes nominales Son la distribucin de Poisson y la binomial. La distribucin de Poisson se usa siempre que la condicin estudiada sea muy poco frecuente. En el anlisis se pueden u tilizar estasdistribuciones directamente o, pura simplificar los clculos, emplear la aproximacin normal a las mismas.

2: -:: ~ ~ ~ \I". :;:; .~ :? ~

195

~
CAPTULO ~ 28"

ANLISIS

BIVARIANTES

~
~ ~ ~ ~

~ >::J \.I\
'-J z -.. ~ ~ ~ ~ ''.I\ '-J
'"' ~ ,~ '"' '.J

En el anlisis bivariante, nos interesa estudiar una variable dependiente y una independiente. Adems de determinar el tipo de variable dependiente, para escoger la tcnica estadstica adecuada es necesario identificar el tipo de \'ariable independiente. Los criterios para clasificar las variables independientes son los mismos que los mencionados anteriormente respecto a las variables dependientes. En el captulo 27 pusimos nfasis en la estimacin ms que en las pruebas de significacin estadstica. La razn consiste en que es difcil imaginar hiptesis nulas apropiadas para el anlisis univariante, excepto el de datos apareados. Esta limitacin no es aplicable a los anlisis bivariantes o multivariantes. En general, la hiptesis nula de no asociacin entre la variable dependiente y la independiente es importante en el anlisis bivariante. Sin embargo, una escuela de pensamiento otorga m.is importancia ,11 clculo de los intervalos de confianza que a las pruebas de significacin estadstica en todos los tipos de anlisis estadsticos. El argumento que esgrimen es que los investigadores mdicos deben interesarse por estimar la fuerza de las asociacionesy dejar la contrastacin de hiptesis a los que deciden la poltica sanitaria. Seacual fuere su opinin personal sobre la estimacin frente a las prueb,1sde significacin estadstica, la literatura mdica contiene una mezda de intervalos de confianza y de pruebas de hiptesis. Por lo tanto, los investigadores mL'dicos y los lectores de ,1literatura mdica deben estar preparados para interpretar apropiadamente ambos enfoques. Como hemos indicado anteriormente, las pruebas de significacin estadstica y la estimacin estn ntimamente relacionadas. Dado que, en la ma:- parte .or de los casa.s,los intervillos I.it' I.-onfiilozason -o;implt'n1entt' 11I1.1 reordenacin aJgebraica de la ecuacin utilizada para las pruebas de significacin estadstica, la informacin de un intervalo de confianza se puede utilizar para contrastar la hiptesis nula y, a la inversa, la informacin de las pruebas de significacin estadstica puede servir para construir un intervalo de confianzLl. CuLlndo trabajamos con el anlisis univariante, podemos basarnos en la siguiente relacin entre cl intervalo de confianza y la prueba de significacin estadstica. Una estimacin univariante por intervalo de una muestra que no contiene el \'alor sugerido por ILlhipt)tl'sis nula, dl'nomi nado m/(lr IfllhJ, indica que la prueba para contrastar la hiptesis nula scra t:stadisticamente significativa. Si la estimacin por intervalo contiene el valor nulo, entonces la prueba de significacin estadstica no sera estadsticamente significLltiva. Por ejemplo, suponga que el cambio medio de la tensin arteria} diastlica antes y despus de una intervencin en un ensayo clnico con obsef\-aciones apareadas es deo! :!: 1 mmHg, donde 4 mmHg es la media de la diferencia y 1 mmHg es el e1Tor estndar de la media de la diferencia. A partir de esta informacin, podemos calcular un interv,1lo de confianza bilateral de 95{70 aproximado igual a: o! :!: 2(1) = 2y6mmHg

1%

Una fonna de int.erpretar este intervalo de confianza consiste en afinnar que tenemos un nivel de confianza de 95% de que la media de la diferenda en la poblacin se encuenb'a en algn lugar entre 2 y 6 mm Hg. Si, en lugar de la estimacin del intervalo de confianza, nos interesa contrastar la hiptesis nula de que la diferencia de la media poblacional es igual a cero, observaremos que el valor nulo, cero, se encuenb'aJueradel intervalo de confianza de 95% .El hecho de que el intervalo de confianza de 95% no contiene el valor cero nos dice que sobre la base de una prueba de significacin estadstica (con una proporcin de error de tipo I de 100% -95% = 5%) rechazaramos la hiptesis nula. Lamentablemente, esta relacin no se mantiene en las pruebas de significacin estadstica bivariantes. Por ejemplo, suponga que extraemos muestras de 200 personas de dos comunidades y determinamos la proporcin que padece una enfennedad determinada en cada muestra. En este ejemplo, la prevalencia de la enfermedad es la variable dependiente y la comunidad es la variable independiente. Ahora, suponga que encontramos 19personas con la enfennedad en la primera muestra y 33 en la segunda. Nuestra estimacin puntual de la prevalencia de la enfennedad en las dos comunidades es de 19/200 = 0,095 y de 33/200 = 0,165.Mediante la aproximacin nonnal a la distribucin binomial encontramos que la estimacin por intervalo univariante y bilateral de la prevalencia de la enfennedad en la primera comunidad est comprendida entre 0,0543 y 0,1356. En la segunda comunidad, el intervalo estimado est comprendido entre 0,1136y 0,2164.Estos resultados se muestran en el cuadro 28-1. Aunque estos intervalos de confianza univariantes se solapan, sera incorrecto suponer que en una prueba de significacin estadstica biuriante no rechazaramos la hiptesis nula de que la prevalencia de la enfennedad es igual en las dos comunidades. De hecho, si empleamos una prueba bivariante apropiada para analizar los datos presentados en el cuadro 28-1con una probabilidad de 5';7c cometer un error de de tipo I, rechazaramos la hiptesis nula de que las prevalencias poblacionales son idnticas (P = 0,04).1 En lugJr de cJlculJr dos intervalos de confianza univariantes de las observaciones tales como la prevalenl;a de la enfennedad en las dos comunidades, podemos calcular un solo inter\'alo de confianza bivariant~para la diferencia u para la razn entre las dos prevalencias. En nuestro ejemplo anterior de dos estimaciones de la prevalencia, el intervalo de confianza bilateral de 95'7"para la diferencia entre las prevalencias de la comunidad I y la 2 est comprendido entre 0,0361y 0,2999. Alobservar
CUADRD28-1. Estimaciones puntuales y por intervalo de una enfermedad hipottica calculadas en muestras de dos comunidades

I No obst,)nte. p',.j"m"s hac~r .!Igun.!s afirmaciones sobre la relacin entre las estimaciones por intervalo uni\-ariant"s y las prul-b"" d" inf~renC.Ibivari"ntes" Primcro, si los inlt'rt"/os .k c0/lfian:a unit"rianles "O ,;t suxrpon(n, p',.jl'mos supon.'r qu~ un" prul-b" l'St"dstica bivariante do:la hipt~sis nula do:que los parrno:lrosson iguales ~n I"s muestras no" c"nduciria " rt'l"U/ZIlra" Segundo. si los inlm"lo" ,l.',olliian:a ullit"""ntes Sl',;upI!rpQlltn la ron .'SI""","inI"'nlulll ,I~ la "Ira mu~slra. podcmos supon~r que la prueba bi\"ariante de la hiptesis nula do:que los parjm~tros ",n i!:u"ll'S ~n I"s mu~slras p',bl"cionales nos conduciria .!1"' r.'("U/:ar hiptesis nul,," l.1menta"5;1 blcm~nle, las ,,;tua,"ionl'S"n I.!s qu~ los Inl"rvak,s dl' confianza "c "up"rpt'ncn "ntre s pero no I" hdCcncon "'s l'stim.lCi,,"es pu"tu"lc" ",m frccucntl'S y "" pr"p"rcio",," ink,rm"cil,n ii"bl~ ",br" los resultad<,sdo:las prul-bo1S do:las hiplesi" bivari.!"lcs"

~ z ~ ~ ~ - 'J', :.;q ~ z ~

19i

que el intervalo de confianza bivariante no se extiende ms all del cero, podramos concluir correctamente que la prueba de significacin estadstica correspondiente conducira a rechazar la hiptesis nula de que la prevalencia de la enfermedad es igual en las dos comunidades. En otras palabras, podemos rechazar la hiptesis nula de que la diferencia entre las prevalencias es igual a cero. Aunque hemos utilizado un ejemplo con una variable dependiente nominal para ilustrar la distincin entre intervalos de confianza bivariantes y univariantes y su relacin con las pruebasde significacinestadsticabivariantes,el mismo principio es aplicable a las variables dependientes continuas y ordinales. Por lo tanto, es necesario tener cuidado y no comparar los intervalos de confianza de las variables dependientes en cada grupo como forma de obtener una prueba de hiptesis estadstica bivariante sin tener en cuenta el tipo de variable dependiente en consideracin. Ahora examinemos ms de cerca ciertas cuestiones de inters y los mtodos que empleamos para abordarlas en el anlisis bivariante. VARIABLE DEPENDIENTE CONnNUA

Al examinar la figura 28-1 se pueden observar dos cosas. La primera es que no consideramos la asociacin entre una variable dependiente continua y una variable independiente ordinal. La razn de esta omisin es que no existen tcnicas estadsticas para comparar una variable dependiente continua asociada con una variable independiente ordinal sin transformar la variable continua a una escalaordinal. En segundo lugar, se puede observar que solo hemos considerado el inters en la posicin. Esto no significa que no existan tcnicas estadsticas para comparar las medidas de dispersin, sino que refleja un interes prcticamente exclusivo en la posicin en loSanli-

FIGURA28-1. Esquemapara seleccionar un mtodo estadlstico bivariante para una variable dependiente continua (continuaciOnde la figura 26-5)
:c

Valiable ~eI1l. roI1u~a


Vatiab'e f!dependentB rx>milal

~ =c ~ .~

Variable ~ndienle nominal


In!1Ws en la ~~:IIn

.r. ~ =c ~ ~ -

Inte19s 8I1ia posI:M


Variable ~te aleatOlia o WllOOCJ)nada

vailaOie~18 I una n1Je5lla a8aIOlia

Regl8SOn ~eal

WiSs de la CO(Ieladn

d
'"'

Medias

~ r c SIUdenl

Pendienl8 y ~nlO de.'tersecxMIn

Coebnle ~ corTelad6n ~ Pearson I r ~ S&Jdenl o l~ F&her

198

r de SIUOOnt o F

sis bivariantes y multivariantes de los datos de la investigacin mdica. Los mtodos para comparar medidas de dispersin se utilizan para examinar supuestos con objeto de ver si una prueba estadstica determinada es apropiada para aplicarla a los datos. No obstante, estas pruebas rara vez aparecen en la literatura mdica. Variable independiente nominal

Una variable independiente nominal divide las observaciones en dos grupos. Por ejemplo, suponga que medimos el tiempo de sangria de mujeres que toman pildoras anticonceptivas (PAC)en relacin con el de mujeres que no las toman. La variable dependiente, tiempo de sangra, es continua y la independiente, tomar pildoras/no tomar pildoras, nominal. La variable independiente nominal divide el tiempo de sangria en un grupo de mediciones para la usuarias de PAC y otro grupo de medidones para las no usuarias. Hemos extrado una muestra de medidones del tiempo de sangria de una pobladn que contiene un grupo de usuarias de PACy uno de no usuarias de PAC. Un supuesto universal en estadstica es que nuestras observaciones son el resultado de un muestreo aleatorio. Este supuesto se aplica en el caso de la variable dependiente, pero no en las pruebas estadsticas del muestreo de variables independientes. En general, hay dos mtodos de muestreo de \'ariables independientes que nos interesan en particular.~ El primer mtodo es el denominado muestreo alentorio (Ililturalistic .-;ampling). el ejemplo del tiempo de sangra, el muestreo aleatorio En significa que selecdonaramosal azar, por ejemplo, 200 mujeres de una pobladn y luego determinaramos cules son usuarias de PAC y cules no lo son. Entonces, si nuestro mtodo de muestreo no t.'Stu\iesesesgado, las frecuencias relativas de usuarias de PAC comparadas con las de las no usuarias en nuestra muestra seran representativas de la frecuenda del uso de PACen la poblacin. El segundo mtodo se denomina lllIlestreo intellcionado (ptlrposi!~ .-;alllpling). empleamos un muestreo intencionado para estudiar el tiempo de sangria, Si podramos seleccionar al azar a 100mujeres ~ue sean usuarias de P.-\Cy 100mujeres que no lo sean. Dado que el investigador determina el nmero de observaciones para cada valor de la variable independiente, la frecuencia relativa de los individuos en la muestra con la variable nominal no es representativa del tamao relativo de los grupos en la poblacin, aunque nuestro mtodo sea aleatorio y no sesgado. El hecho de que nuestra muestra contenga 100usuarias de PACy 100no usuarias 110 sugiere que la mitad de las mujeres de la poblacin tomen pl1dorasanticonceptivas. De este modo, la distincin entre el muestreo aleatorio y el intencionado consiste en si la variable independiente en la muestra es o no representativa de la distribucin de esa variable en la poblacil)n. El muestreo aleatorio es mucho ms frecuente en los estudios de cohortes concurrentes. El muestreo intencionado es comn en los estudios de casosy controles y en los estudios de cohortes no concurrentes. Como veremos ms adelante, el mtodo utilizado para obtener muestras de valores representativos de las variables independientes influir en nuestra eleccin de las tcnicas estadsticas apropiadas o en la potencia estadstica de la tcnica selecdonada.

, Existeun tercer m~tl..to d~ mul'Strl'Ode variabl"s ind"pendi"ntes, que es similar al muestreo int~ncion"do, pl'rt), "n lugar de s"l"cclon"r I"s l~s"rv"ciI)n~s qu" t~ngan valor"s "sp"cificos d~ las variables indepl'ndi"nt"s, ,,1inVl"'tiK"Llor asign" .ll~.ltoriam"nt" un valor, como la dosis, a cada suj"to. Estet~rcer m~todo d~ mu""tr"o s~ "mp!"" "n "studios "'pl'rim"nt.ll"s

~ = '.2:. --:: ~ ~ ~ ..I) ~ :J ---:: '.2:. --::

L~

En el anlisis bivariante, como en el caso de la asociadn entre el tiempo de sangra yla toma de pldoras anticonceptivas, nos interesa la forma de poder comparar el tiempo de sangria entre las usuarias de PAC y las no usuarias. En la comparadn de medias, nuestro inters reside en su diferenda.3 Por ejemplo, nos interesa la diferenda entre los tiempos medios de sangria de las usuarias de PAC y de las no usuarias. El error estndar de la diferenda entre las medias se calcula a partir de las estimadones de las varianzas de los dos grupos comparados.4 Para calcular el error estndar de la diferenda en la media de los tiempos de sangria, combinaramos nuestras estirnadones de la varianza del tiempo de sangra de las usuarias de PAC y la varianza de las no usuarias. las estimadones por intervalo y las pruebas de significadn estadstica aplicadas a inferendas entre medias siguen la distribudn de la t de student. El uso correcto de la distribudn de la t de student en las pruebas de significadn estadstica y el clculo de los intervalos de confianza no es influido por el mtodo de muestreo de la variable independiente. Sin embargo, en estas tcnicas se obtiene la mxima potencia estadstica cuando hay un nmero igual de observaciones para cada una de las categoras potenciales de la variable independiente. Esto equivale a decir que tendramos la posibilidad ms alta de demostrar la significacin estadstica de una verdadera diferenda en el tiempo medio de sangria en 200 mujeres si utilizramos un muestreo intencionado, seleccionando 100usuarias de PAC y 100no usuarias.

Variable independiente continua


Muchas veces nos interesa utilizar la medida de una variable independiente continua para estimar la medida de una variable dependiente. Por ejemplo, imaginemos que queremos analizar la relacin entre la dosis de un fnnaco hipottico para el tratamiento del glaucoma y la tensin intraocular. En concreto, deseamos estimar las tensiones intraoculares que esperamos que estn asociadasen la poblacin con diversas dosis del fnnaco. .-\1gunostipos de cuestiones que pueden plJnteJrse JcerCJde la estimacin de la variabledependienteestn relacionadas con la forma de extraerla muestra de valores de la \'ari;}ble independiente continua. Sin t~ner en l.'Uentasi el muestreo fue aleatorio o intencionado, podemos establecer una ecuacin lineal para estimar el valor medio de la variable dependiente (Y,) para cada valor de la variable independiente (XI). En nuestro ejemplo, la variable dependiente es la tensin intraocular media y la variable independiente, la dosis del medicamento. La ecuacin de una relacin lineal en una poblacin se describe mediante dos pdrmetros: una pendiente(~) y un punto de interseccin (a).
Y, = (t + ~x,

-c ~ ;. :: o:.:

~ z ~ ~ ~ ~ ';:) ~ o.. :...

:,:)

2 J'
;. z :: ~ ~ ~ ~ i~ o

El punto de interseccin estima la media de la variable dependiente cuando la vari1ble inde~ndiente es igual a cero. Por lo tanto, el punto de interseccin de 11 ecuacin lineal de la tensin intraocular y la dosis estimara la media de la tensin intr1ocularen los individuos que no han tomado el medicamento. La pendiente
I L.1razn d~ ~'I~ intcroi, ~,;qu~ LI';difer~nc.t'; l.nlre l.t,; m"lli.t,; ti"nden a 'l.;uir un.t dslribuci(;n ~.tu,;i.tn.t. mi"ntras que (,Ir.t,; .:,'mbin.t.:I('n"s .tntmoihca,;.a'm() LI r.tL"n dl.I.t, ml-di.ts. n() lo h.tc"n. .E,;te "rr,lr ~,;t.ind.tr l.'; I~u.tl .t l.t r.tiz .:u.tdrild.t d" l.t 'um.t J" L,;\,.tri.tnz.t,; dt. l.ts Ji,;lribu.:k,n", J" l.t m..-di.td~ l-.td.t ~rup" di\'tdd.t' p"r l.t ,;urn.tde 1",; l.trn.to,; d~ l.t, mu",;tr.ts C"noci"ndo eslo. podl.m()Senlend"r mu.:h() m"ior p"r quoi no ,;e rU"'ll.n u,;.)r 1", inl"r\'.tl",; d" .:"nii.tnL.t uni\,.tri.tnll.'; c()mo ,;u,;litu", fi.tbl" d" l.t,; prul.b.t,; d" int"r"ncl.t b,\..tn.tntl' 1..1 ,(,mr.lril.:i,;n J~ 1", nl"r\,.,I", d" .:,'nfi"nL.t univ"ri.tntl.'; l"I'lv.tll. " ,um.tr I(),;l.rrorl'S ""I.ind"r", \Il. J(), mul.'lr",;. Est" n" l'S "1~,,brilil..tm,.nl" "quiv"ll.nt" .tll.rr"r ",;I.ind.tr lt" l.t, df"rl.n".I' "ntr" ml-d,.t,;

< '"' ..; '.)

~oo

:I

de una ecuacin lineal indica cunto ~ambia la magnitud de la media de la variable dependiente por cada cambio de unidad en el valor numrico de la variable independiente. Por ejemplo, la pendiente de la ecuacin que describe la tensin intraocular en funcin de la dosis estima cunto desciende la tensin intraocular por cada unidad que aumenta la dosis. Si nos interesa este tipo de estimacin, necesitamos calcular dos estimaciones puntuales en nuestra muesta de observaciones: la pendiente muestral y el punto de interseccin muestral. Paraobtener estas estimaciones, utilizamos casi siempre el mtodo denominado regresin el mtodo los mnimoscuadrticos por de (leastsquares regression). Este mtodo selecciona los valores de la pendiente y del punto de interseccin que minimizan las distancias, o ms concretamente, la suma de las diferendas al cuadrado, entre los datos observados en la muestra y los estimados por la ecuacin de la recta.5 Una forma de presentar las observaciones de los estudios, como las de la dosis del frmaco y la tensin intraocular, consiste en examinar la relacin entre la tensin intraocular y la dosis en un diagra111a puntos(scatterplot) de (figura 28-2). Por convencin, la variable independiente se sita en la abscisa eje horizontal y la variable o dependiente, en la ordt'lladaO eje vertical. En este ejemplo, nuestro inters se centra principalmente en la tensin intraocular; por lo tanto, la tensin intraocular es la variable dependiente y la dosis del frmaco, la variable independiente. Con la regresin lineal por el mtodo de los mnimos cuadrticos, podemos estimar el punto de interseccin y la pendiente de la relacin entre la dosis (X) y la tensin intraocular (Y). Adems es posible representar las estimaciones de estos parmetros mediante una ecuacin de regresin: y. = 37,7 + 2,3 X Adems, podriamos representar la recta de regresin estimada mediante una grfica (figura :?8-3).
FIGURA 28.2. Diagrama de puntos de la lensiOn inlraocular (no) despus dellratamiento con un medicamento detenninado administrado a distintas dosis FIGURA28-3. Regresin de la tensin jntraocular (no) despus del tratamiento con un medicamento determinado en funcin de la dosis

~ ;z; ~ ~ ~ .01) ~ "2: ~ L.1s difl'rencids "ntr" los vdlores o~rvddos dt! IdS varidbl"s dt!pt.'ndit!ntt!s y los t!StiInddos por la ecuacin de re. ;resiM "' conocen como rl""tlual.",. Los residualt!s indiciln Id prlc'Cisilm con qut! la l'CUilcin lint!al t!Stilnd la vanable dt!pt.'ndientt!

201


En el anlisis de regresin se pueden aplicar numerosas pruebas de significacin estadstica y estimaciones por intervalo. Por ejemplo, podemos considerar la pendiente o el punto de interseccin por medio de hiptesis nulas por separado o calcular intervalos de confianza para cada uno de esos parmetros. En este caso se emplea casi siempre la distribucin de la t de Student.b Podemos considerar la ecuacin lineal como un todo, en lugar de considerar por separado la pendiente y el punto de interseccin. Para considerar la ecuacin como un todo, examinaremos el grado de variacin de la variable dependiente que somos caJXlCesexplicarmediante la ecuacin lineal dividido por el grado de variade cin que somos incaJXlCes explicarcon la ecuacin lineal. En el ejemplo del medicade mento para tratar la hipertensin intraocular, dividiriamos la variacin de la tensin intraocular que es explicada por el conocimiento de la dosis, por la variacin de la tensin intraocular que queda inexplicada. A continuacin, podemos contrastar la hiptesis nula segn la cual la ecuacin de regresin no nos permite explicar el valor de la variable dependiente, la tensin intraocular, dado un valor de la variable independiente, la dosis de medicacin. Para contrastar esta hiptesis nula se emplea la distribucin de F.7 la estimacin por intervalo de la ecuacin lineal en su totalidad se lleva a cabo habitualmente mediante la construccin de los intervalos de confianza de las medias esperadas de la variable dependiente, como la tensin intraocular, para distintos valores de la variable independiente, por ejemplo, la dosis del medicamento. Muchas vecesconstruimos estos intervalos de confianza para todoS los valores de la variable independiente dentro del recorrido de loSvalores de la muestra. Estos intervalos de confiaJ1Zase presentan como una OO,llia COllfitl11:11 rodea la recta de regresin de que (figura 18-4). En la extrapolacin de los resultados de estudios analizados con mtodos de regresin, algunas veces se espt'CUlasobre valores de la variable dependiente que corresponden a valores de la variable independiente que exceden el recorrido de los valores de la muestra. Por ejemplo, podramos vernos tentados de predecir la tensin intraocular de los pacientes que reciben dosis del medicamento ms altas o ms bajasque las empleadas en nuestro estudio. ~o obstante, es pcligroso nt~ntar predecir la media de la variabledependiente mas all del recorrido de los valoresde la muestra de la variable independiente. Una de las razones para ser precavidos -en cuanto a predicciones que exceden del recorrido de los valores muestrales de la variable independiente- se manifiesta en las bandas de confianza. La media de la variable dependiente se estima con mayor precisin por la media de la variable independiente. Esto se muestra en la figura 28-4 para la tensin intraocular. En esa figura, podemos observar que la precisin de la prediccin de la tensin intraocular desciende a medida que nos alejamos del

~ '-J :J ~ ~ "Z. :J ~ ~ ~ ::) ~ ~ >::) ~ '5 z :3 ~ "C Q :3 i~ ~

::) ~ 9

202

.Los errores "sl.1nd.1res de 1.1 p'-'ndi"nte \. d~1 punto de illt~r,..,.:CIn e't.1n "n iun..;n de 1.1 m"di.1 de los r..'Sidual..'S al..-uadrado y d" 1.1 dispt'rsln d~ los v.1lores d..' la variabl" ind..'p~ndi"nte. Cuanto menor sea ~I :rado de ajuste de la 1.'CU.1..;n lin~.11 r pt-.:to d" I..,s valor", obs~rvados d~ I.. v.ln..bl.., d~pt.'ndi~nte. m~nor ,~r 1.1precisin con que p\xi~mos ..'Stlffidr "sos p"rjm"tros. Por otro I..do, (u.1nt\) m.1\ur ,..'a la di,p"rsin de lo, valor mu~stral~s de la v..riabl~ indl'p'-'ndient~, m.Jyor ser la precisin d~ ~,t..s ~'timacion~s. Esta ltim.. r~J.1cin rei1~i.. ,,1 hecho qu~ un.. recta ,;e pu"d~ construir, como mnimo. con dos puntos. Cu..nto mayor sea la sep..r.1..;n entre l'SOSdos puntos, con m..~,)r precisin p\xir~mos d~finir 1.1r :ta. .En el.1nlisis d~ r~!;re,i\)n con una sol.. v..ri..bl" ind"p'-'ndi~nte, como la regresin bivariant~, la rai cu.1drad.. d~ll'Stadstico r u,;ado para contra,tar I.. r,,~r..',i\;n ;lobal..", ..'X.1ct..m"nte i;ual.11 "st.1distico I d~ Stud"nt \lu" ,;e ubtl"n~ CU.1nd\)(\Intrast..m..), 1.1 hip()t~si' nul.1 Jl' qu" \.1 pt'ndi"nt" "' i;u.11.1c~n).

valor de la media de la dosis del medicamento. Esto se evidencia en el incremento de la banda de confianza de la figura 28-1. Si consideramos valores de la variable independiente que rebasan el intervalo de la muestra, la precisin con que se pueda prededr la media de la variable dependiente es muy baja. El otro motivo para evitar este tipo de extrapolacin es que no podemos estar seguros de que la ecuacin lineal sea aplicable a valores de las variables independientes para los cuales no hayamos observado valores correspondientes de la variable dependiente. Es posible que las dosis bajas o altas del medicamento no sigan una relacin lineal o, incluso, que vayan en direccin contraria y eleven la tensin intraocular a dosis ms altas. Cuando efectuamos una regresin por el mtodo de los mnimos cuadrticos nos basamos en cuatro supuestos. El primero, comn a todas las tcnicas estadsticas,es que el muestreo de la variable dependiente se ha realizado al azar. En el anlisis de regresin suponemos que las muestras aleatorias de los valores de la variable dependiente se han extrado en relacin con cada valor muestral de la variable independiente. En otras palabras. suponemos que hemos extrado muestras al azar de la poblacin de tensiones intraoculares que corresponderan a cada dosis del medicamento estudiado. Para determinar las estimaciones puntuales de la pendiente y del punto de interseccin no estamos obligados a suponer que las muestras aleatorias proceden de una poblacin que sigue una detenninada distribucin. Sin embargo, cuando realizamos estimaciones por inter\.alo o aplicamos pruebas de significacin estadstica, suponemos que la poblaL;n de la que se extrajo la muestra aleatoria de la variable dependiente sigue una diStribucin gausiana para cada valor de la variable independiente. En nuestro ejemplo, para calcular la banda de confianza de la figura :?8-4,suponemos que. para cada dosis estudiada, la tensin intraocular sigue una distribucin gausiana en la poblacin de la que se ha extrado la muestra aleatoria. El segundo supuesto del anlisis de regresin por mnimos cuadrticos consiste en que la dispersi()n de la variable dependiente en la poblacin es la misma, seacual fuere el valor de la variable independiente. Es decir, suponemos que la dispersin ~e la tensin intraoculares la misma independientemente de la dosis del medicamento administrada. Esta igualdad de la dispersin se denomina Iwmoge1lL'idati de las .uriall:as (ho1/loge1leity turiallces) u hmnocedasticidad of (hIJmocedasticity). El tercer supuesto es el ms obvio y, quiz, el ms importante. Para ajustar una ecuacin lineal a las observaciones, debemos suponer que la relacin entre la variable dependiente y la independiente es de hecho lineal. Por ejemplo, hemos supuesto que una lnea recta describe la relacin entre la tensin intraocular y la dosis del medicamento en la muestra de la poblacin. La violacin de este supuesto reduce la utilidad de la regresin lineal. aunque se cumplan los otros supuestos.'. El cuarto supuesto es que la variable independiente se mide con una precisin perfecta. En nuestro ejemplo, suponemos que la dosis del medicamento se conoce exactamente. De hecho, este supuesto se viola con frecuencia. Como efecto de esta violacin, la estimacin de la pendiente a partir de las observaciones muestrales

~ :.. ~ ~ ~ $ E ~ ~ :: .~ z ~

H.1bitu.1lment~ ,;e utilizan t.."Cnicas grjficas p.1ra demostrar los supuestos de distribucin gausiana. homocedastiC1di1dy rel.1cin line.1l. Si unu " mjs de ..'Stas ,;upuestos no se cumplen. se pueden investigar posibles tra'!5forma(I""", de 1.1 v.1ri.1ble d..'pt.'ndient..' Esto d..,be r..'.1liLi1rsecon cuidado. para garantizar que la vanable dependiente tran5iorm.1d.1 no vi,l!e otro,; ,;upu..',to,; del .1njlisi,; d~ rt.'Krt.'Si,)n. Ademjs. se pueden emplear tcnicas de regresi,;n pond..'r.1d.1 (u"'XhtcJ)

2fJ3

"t: :x:; 5 ~ "t:


? =~ "t: ~ '::) ~ :'""' -'

~ ~ ? =~ ~ :5 ;.. ~ '""' -'


< "::) '..)

ser ms prxima a cero que la verdadera pendiente poblacional.9 La violacin del supuesto de una medicin precisa de la variable independiente dificulta el rechazo de la hiptesis nula de que la ecuacin de regresin no explica la variable dependiente. Por lo tanto, si con un anlisis de regresin no se logra demostrar una relacin estadsticamente significativa entre la variable dependiente y la independiente, uno debe preguntarse si la medicin de la variable independiente pudo haber sido lo suficientemente imprecisa para ocultar una verdadera relacin. En investigaciones como la mencionada, en la que se examina la tensin intraocular media y la dosis de un medicamento para tratar el glaucoma, se suelen asignar dosis que no son representativas de todas las que podran administrarse. En otras palabras, casi nunca se emplea el muestreo aleatorio para investigar una relacindosis-respuesta. Es apropiado usar mtodos de regresin lineal sin tener en cuenta si el mtodo de muestreo para obtener los valores de la variable independiente ha sido aleatorio o intencionado. Cuando se utiliza un mtodo de muestreo representativo, como el aleatorio, para obtener la muestra de una variable independiente, se puede emplear otra categora de tcnicas estadsticas conocida como el anlisisiL'la corrt'iacin. El anlisis de la correlacin puede emplearse, por ejemplo, si extrajramos una muestra aleatoria de los individuos de una poblacin y midiramos su ingesta de sal y tensin arteria! diastlica. En este caso, tanto la variable independiente, la ingesta de sal, como 1.1 dependiente, 1.1 tensin arterial diastlica, han sido extradas al azar de la poblacin. La distribucin de la ingesta de sal en nuestra muestra aleatoria es representativa de la distribucin poblacional de la ingesta de sal. L1 distincin entre la \.ariable dependiente y la independiente es menos importante en el anlisis de la correl.1cinque en los otros tipos de anlisis. En ~I anlisis de la correlacin se obtienen los mismos resultados si estas funciones se invierten. En nuestro ejemplo no importa, desde el punto de vista estadstico, si consideramos la tensin arteria! diastlica o la ingesta de sal como la variable dependiente cuando realizamos el anlisis de la correlacin. Sin embargo, los mismos cuatro supuestos se i1plicana aml1Vs tipos de an.1lisis. En el anlisis de la correlacin, medimos cmo cambian conjuntamente la variable dependiente y la ind~pendiente. En nuestro ejemplo, mediramos cun consistente es la asociacin ~ntre el aumento de la ingesta de sal y el aumento de la tensin arteria! diastlica. El estadstico calculado que refleja el grado de cambio conjunto de las dos variables se denomina c<nYlrian:il (COturiance). razn entre la CO\'aLl rianza yel producto de las varianzas de las variables se conoce como (oeficiellte correiL' lacitn(corrt'iationcOt'tficierIt) se representa con la letra r. El coeficiente de correlacin que y se emplea ms frecuentemente para dos variables continuas es el coefi(L'1lte kcorrt1acin k Pt'!lrson Pt'!lrs<m's ( (orrelationcoefficierlt). El coeficiente de correlacin es un.1estimacin puntual de laflt'r-.A de la asociacin (strt'1lgthof tht' assa.iation)entre dos variables continuas. Esta es una dis-

?004

L" razn por la cualll ml.-dicin.'rr.\n"a J" la vanabl" In.!"p"nJi"nl" 'i"mpr" har .lu" la p"nJI"nt" s" aproxIme ..c"ro no es "vid"nl" inm"Jialam"nle Paraapr,'Cl..r I.. c"rleL.l J" la afirmOlCln.imagin"mos ,,1casu,,~trerno de "ue la medicil'ln .1" la variable indepenJi"nle "s tan "rrl'ln"a qu" l'quivaje pr,icticanl"nl" a un numero al"alorio. [\Ir .'I"mplo, "n ,,1caso d" 1.1 dosl'; del m"Jicamento "mpl".IJo p.lrd pr"J,'CIr la I"n,;i.\n Intr.I.JCular.suponK.1"ue 1.1'; "llqu"las J" los rl'Clpl"nt"s ~ hdn .'\ui,"OCaJo k,rmil "U" n., ,;upleram.,. .:u.il ". Id .k,,;is realmenle admide m,;I rada d un indiviJuo. Si n., conoc~mosla do,;is. n.' poJ"m.,s explicar la t~nsk;n intraocular a partir de la J"SIS. E. Jl'Cir, p"r ttirrnino ml-dk). no ~ .,bs"rvarian consistentem"nte cambios de Id I"nsin intra.1CUlar cad.l un.p"r Jdd J" aum"nt" J" Id Jo.is En una ,..."u,l.:in rl'};rt.'Sin."sta situ.11.;n r"pr,,~nta com., una p"nJI"nte I~ual ,1" "' .1c"ro Em'r~. m,'n"s ~r.lv"s l'n 1.1 .I';i~n.lcln J" J.,SISru)S""\..Iran .1"stim.lr und t",",li"ni" p.1bi.1cion.l1 s" qu" ,iluara "nlre ,,1val"r r".11 Id ~",bldci.\n y ,,1valllr ,,~Ir"mo J" c"ro. J.'

FIGURA28-4. Lmites bilaterales de los intervalos de confianza de 95% para la prediccin de la media de la tensin intraocular (TIO) despus del tratamiento con un medicamento determinado a partir de la dosis administrada

FIGURA28-5. Regresin de la tensin intraocular (TIO) despus del tratamiento con un medicamento determinado en funcin de la dosis cuando se administra a los pacientes una dosis de 1 mg o de 10 mg

.\

6 DOSIs (mg)

10

tincin importante entre el anlisis de la correlacin y el de regresin. El anlisis de regresin se puede usar para estimar los valores de la variable dependiente a partir de la variable independiente, pero no estima la fuerza de la asociacin entre estas variables 1.'71poblacin.El anlisis de la correlacin estima la fuerza de la asociacin entre ambas la variables en la poblacin, pero no puede utilizarse para estimar los valores reales de la variable dependiente a partir de la variable independiente. El coeficiente de correlacin tiene un recorrido de valores posibles entre -I y + 1. Un coeficiente de correlacin igual a cero indica que no existe relacin (lineal) entre la variable liependiente y la independiente. Un coeficiente de correlacin positil') indica que el valor de la variable independiente aumentacuando el valor de la variable dependiente tlllmt')lta. Un coeficiente de correlacin lIegativ indica que el valor dela variable independiente I/U)'It')lta cuando el \'alor de la \'ariable dependientedescierlde. La interpretacin de la fuerza de la asociacin entre la variable dependiente y la independiente es ms fcil de entender si elevamos al cuadrado el coeficiente de correlacin para obtener el coeficil.'7lte dt'tenni,lacin coefficient detenni,latiorl de ( of ) (R2).Si multiplicamos el coeficiente de determinacin por 100%obtenemos el porcentaje de la variacin de la variable dependiente que es explicado porel valor de la variable independiente. El coeficiente de determinacin de las variables continuas se puede considerar como una medida paralela .11 porcentaje del riesgo atribuible, dado que se refiere a la variabilidad d\! 1.1 v.lriabl\! dependiente que puede atribuirse a la variable independiente. No obstante, recuerde que es apropiado usar el coeficiente de determinacin solamente cuando la muestra de la variable independiente, as como de la variable dependiente, se extrae empleando mtodos representativos o aleatorios. Uno de los errores ms habituales en la interpretacin del anlisis estadstico es usar el coeficiente de determinacin o el de correlacin para realizar estimaciones puntuales sobre una poblacin concreta aunque la muestra de la variable independiente no haya sido extrada mediante un mtodo que garantiza la representatividad de su distribuciOO en esa poblacin. Podemos crear un coeficiente de correlacin elevado de forma artificial obteniendo una muestra solamente de loSvalores extremos de la variable independiente.

~ z " ~ " :.; './1 :ji :3 ~ "

~5