Está en la página 1de 19

TTULO

EL MTODO ESTADSTICO APLICADO A INVESTIGACIN EN LAS CIENCIAS BIOMDICAS.


ALGUNAS REFLEXIONES PRCTICAS

LA

AUTOR M Rosario Lpez Gimnez Profesor contratado doctor Bioestadstica (Departamento de Medicina Preventiva y Salud Pblica) Facultad de Medicina de la Universidad Autnoma de Madrid e-mail: mrosario.lopez@uam.es

PRLOGO Despus de muchos aos de impartir la disciplina de Bioestadstica en el grado y postgrado de la Facultad de Medicina, de impartir cursos en otras instituciones y de participar en bastantes investigaciones, senta la necesidad profesional de intentar aportar alguna ayuda a los investigadores que tengan necesidad de utilizar el mtodo estadstico o simplemente curiosidad por conocerlo. Nos movemos en un campo de investigacin con equipos multidisciplinares y el nivel del conocimiento de un investigador biomdico respecto al mtodo estadstico tiene que estar en la lnea de poder establecer un dialogo fluido con otros investigadores, entender los resultados que se publican e identificar los procedimientos correctos para cada situacin experimental, pero no debera tener como objetivo el conocimiento profundo y exhaustivo de todos los procedimientos estadsticos. En base a ello, el objetivo de esta documento es dar los conceptos tericos bsicos que permitan utilizar con una visin crtica la gua de procedimientos expuestos. Pienso que si se puede hacer alguna aportacin en la metodologa estadstica no es exponiendo otra vez los mtodos con las formulas para su clculo sino guiando su utilizacin segn las situaciones experimentales, y proporcionando algunos conceptos tericos que ayuden a la toma de decisiones y a la interpretacin de resultados. Actualmente cualquier persona que utiliza el mtodo estadstico lo hace a travs de uno de los mltiples programas estadsticos comercializados donde a travs de un men se solicitan las pruebas deseadas y por lo tanto lo importante es saber que se pide e interpretar lo que se obtiene, as que si este documento sirve de ayuda para alguno de sus potenciales lectores, mi objetivo se ver cumplido. NDICE 1. INTRODUCCIN 2. LA ESTADSTICA COMO MTODO CIENTFICO EN LA INVESTIGACIN MDICA 3. CONTENIDOS DEL MTODO ESTADSTICO 4. GUA DE CONTENIDOS 5. REFERENCIAS BIBLIOGRAFICAS

1. INTRODUCCIN La metodologa estadstica constituye una herramienta y un lenguaje imprescindible en toda investigacin clnica. De ah que conocer los procedimientos que contiene y saber cuando y como aplicarlos supone un conocimiento ineludible por parte de cualquier investigador. La estadstica proporciona la metodologa para todas las fases del proceso de una investigacin cientfica. En el momento de planificar la investigacin proporciona los procedimientos para disear el tipo de estudio (observacional, ensayo clnico controlado, etc.), para seleccionar las unidades experimentales (procedimientos de muestreo) y para determinar el tamao muestral adecuado segn los objetivos del estudio (predeterminacin del tamao muestral). A la hora de explotar la informacin tiene los procedimientos descriptivos que permiten ordenar y resumir la informacin y los procedimientos analticos que permiten establecer relaciones entre grupos y entre diferentes caractersticas o variables consideradas. Finalmente desde el punto de vista de comunicacin de resultados permite extrapolar los resultados mas all de la muestra analizada (poblacin), controlando en la medida de lo posible el azar inherente al tipo de informacin utilizada mediante la cuantificacin de la probabilidad de error y llegando a conclusiones cientficamente vlidas.

2. LA ESTADSTICA COMO MTODO CIENTFICO EN LA INVESTIGACIN MDICA En la actualidad, el mtodo experimental se considera consustancial en las ciencias de la naturaleza, hasta el punto de que su utilizacin determina si un conocimiento es cientfico o no. La ciencia experimental slo acepta como verdadero lo que es comprobable empricamente, siendo necesario para ello recurrir a modelos aleatorios y a establecer leyes que los expliquen, para describir y predecir los fenmenos naturales, aplicando el razonamiento inductivo sobre los resultados experimentales. Es entonces cuando interviene la Estadstica como mtodo bsico que incide en el mtodo cientfico, para establecer conclusiones objetivas basadas en la evidencia. Podemos sealar cules son los puntos ms importantes que caracterizan al mtodo cientfico: El fenmeno objeto de estudio debe ser reproducible, es decir, haciendo rplicas de la experiencia en las mismas condiciones, debemos obtener los mismos resultados. Si es un fenmeno aleatorio, las variaciones deben estar dentro de unos mrgenes aceptables poco diferentes de una repeticin a otra de la experiencia ( cuantificacin del azar). Es necesario establecer la evidencia emprica, que consiste fundamentalmente en provocar u observar cambios en una variable independiente y ver cmo influyen en una variable dependiente, manteniendo constantes otros factores o variables extraas, que pudieran tener alguna influencia en las relaciones que se desean descubrir. Cuando se observa que los cambios de la variable independiente producen variaciones sistemticas de la variable dependiente, procede afirmar que existe una relacin funcional entre ellas. La induccin es el proceso lgico que permite establecer una ley a partir de la evidencia emprica. Establecidas unas leyes cientficas, es posible encontrar otras leyes o propiedades siguiendo un proceso lgico deductivo. Ello es claro cuando las leyes se han podido formular matemticamente, pero toda nueva proposicin debe superar con xito la comprobacin experimental. Segn todo lo anterior la Estadstica como mtodo til para la investigacin, interviene en todos y cada uno de los puntos anteriormente citados, en dos aspectos principalmente: Como una herramienta en el diseo de la investigacin, en el anlisis de datos y en la toma de conclusiones, y como un lenguaje matemtico capaz de precisar y clarificar conceptos que pudieran parecer ambiguos. Analizada la Estadstica como mtodo o herramienta de la investigacin, tiene su campo de influencia en los fenmenos aleatorios. Por lo tanto, las tcnicas estadsticas inciden en la investigacin estableciendo un paralelismo con los puntos que caracterizan: 1.- El muestreo o teora de muestras, define las unidades experimentales y el colectivo, y proporciona la metodologa para la recogida de datos, de manera que una muestra finita (una parte) sea representativa de la poblacin (el todo). Es fundamental la aplicacin correcta del muestreo, puesto que es sobre esta parte de la poblacin sobre la que se plantearn generalizaciones a fin de elaborar leyes cientficas. 2.- El diseo experimental que es en realidad previo al muestreo, es un conjunto de reglas o prescripciones que regulan la forma de aplicacin de las condiciones experimentales. El protocolo experimental (aspecto prctico) debe adecuarse a un modelo matemtico (aspecto terico) que tenga en cuenta la parte determinista y la parte aleatoria de la experiencia. La recogida de datos debe estar de acuerdo con el diseo para que sean vlidas las conclusiones que vayan a tomarse. Aunque cada

experimento requiere un tipo de diseo propio, en metodologa estadstica se han elaborado unos diseos estndar, de eficacia comprobada, tendindose a adaptar la recogida de datos a un diseo conocido que resuelva el problema planteado. 3.- As como el diseo experimental siguiendo unas reglas, forma parte de los llamados estudios experimentales, pues en ellos el investigador crea la experiencia y permite tener un suficiente control para adecuarla a un modelo, el procedimiento es distinto en las experiencias de campo o estudios observacionales. En ellas los fenmenos se presentan tal cual los encontramos sin posibilidad de controlar. Esta situacin es corriente en los estudios de salud-enfermedad. El procedimiento general es entonces establecer y probar la validez de las relaciones funcionales entre las variables, que no ser exactas, pero que debern verificar ciertos criterios de ajuste a la realidad. Una relacin funcional debe formularse con independencia de las observaciones numricas, siguiendo algn proceso deductivo intrnseco al fenmeno. El ajuste de las observaciones con la relacin o modelo planteado es la garanta experimental a posteriori. El planteamiento de una relacin funcional tomando como base solamente el criterio de que se adapta bien a las observaciones, puede resultar arbitrario. Las hiptesis deben plantearse antes y no despus de la experiencia. No obstante, forma parte de la dinmica cientfica y es un hecho que las observaciones sugieren otras hiptesis y planteamientos a medida que se van obteniendo. Ello es vlido siempre y cuando se cumpla con los fines de descripcin y prediccin de forma correcta, y que tales relaciones vuelvan a repetirse en otras experiencias en condiciones anlogas. 4.- Las conclusiones sobre los datos observados, que son en mayor o menor grado inciertos por la aleatoriedad intrnseca de la experiencia, deben adoptarse indicando el grado de probabilidad de error, como garanta del nivel de confianza del proceso inductivo, etapa ltima de la investigacin. La estadstica interviene en este proceso, en estrecha conexin con el muestreo y el diseo experimental, a travs de los mtodos de la Inferencia Estadstica, cuyo principio bsico es la lgica inductiva que se deriva de la ley nica del azar. 5.- El objeto descriptivo de una ciencia puede ser resuelto, en buena parte, con la ayuda de la Estadstica Descriptiva. Ahora bien, esta no se limita a los procedimientos convencionales (distribuciones de frecuencias, ndices, grficos, etc.), sino que sus tcnicas han llegado a un alto grado de desarrollo y sofisticacin, impulsadas por las enormes posibilidades de la informtica. La visin de la informacin de forma global permite describir geomtricamente las relaciones entre grupos o entre los elementos de un mismo grupo, por tcnicas basadas en un producto escalar o por tcnicas ordinales, resolviendo problemas de clasificacin y ordenacin (Anlisis factorial, Anlisis de correspondencias, Anlisis de cluster, etc.). 6.- Por otra parte la inferencia clsica proporciona soluciones desde una perspectiva univariante dando una visin parcial sobre algunas variables respuesta pero el objetivo final ser una visin cientfica lo ms cercana posible a la realidad experimental y esto pasa por un planteamiento multivariante igual que hemos sugerido con el aspecto descriptivo (modelo lineal de regresin mltiple, modelo de regresin logstica, modelo de Cox, etc.) El otro aspecto de la Estadstica que habamos sealado es el lenguaje matemtico en la explicacin de un fenmeno, que cumple un importante papel en la metodologa cientfica, ya que uno de los objetivos de toda ciencia es poder llegar a explicar, en

trminos cuantitativos, los fenmenos que estudia. La realidad experimental debe ser traducida a trminos medibles. Sin embargo, conviene sealar que las conclusiones que se adopten de la descripcin de unas relaciones cuantitativas, deben manejarse con cuidado. Estas propiedades son ciertas respecto a las cifras, pero su generalizacin debe estar sujeta al sentido comn. Con demasiada frecuencia, el lenguaje de la estadstica se utiliza para aparentar contenido a experiencias mal planteadas, sin perjuicio que se utilice para corroborar una teora que se desea demostrar a toda costa, manipulando la interpretacin de los clculos (caso del experimentador que modifica el nivel de significacin si se halla con una experiencia no significativa), o bien omitiendo aquellos resultados estadsticos que no concuerdan con la teora formulada. En otras ocasiones, la interpretacin puede ser errnea de forma no intencionada por no tener conocimiento del alcance de los resultados. Abundando an ms en el papel del mtodo estadstico, es en la faceta de la investigacin mdica donde sus procedimientos adquieren una dimensin ms general. Toda investigacin mdica, ya sea clnica, epidemiolgica o de laboratorio, supone la recoleccin de la informacin pertinente, que se traduce en un conjunto de datos u observaciones y consiste en el anlisis de dichos conjuntos para la obtencin de conclusiones vlidas. Como hemos dicho antes, esto no tiene sentido fuera del contexto de la Estadstica y por ello, es indispensable comprender bien los principios y mtodos estadsticos por parte de investigador para disear adecuadamente el experimento, extraer la informacin ms relevante de los resultados experimentales y tratarla de la forma adecuada para poder precisar cuantitativamente el grado de conocimiento de la realidad, expresando correctamente las probabilidades de acierto y error. As, por ejemplo, en el diseo y anlisis de ensayos clnicos, particularmente de estudios teraputicos, las razones ticas, econmicas, cientficas y legales obligan a planificar dichos ensayos sobre bases cientficas, es decir, mediante mtodos estadsticos apropiados, ya que es la nica posibilidad de una evaluacin correcta y precisa de los resultados del ensayo con medidas de riesgos de error. El clculo del tamao muestral necesario para demostrar no solo diferencias estadsticamente significativas sino clnicamente relevantes es un paso imprescindible en cualquiera de estos ensayos. Asimismo el planteamiento del tipo de diseo (paralelo, cruzado, secuencial, etc.), la probabilidad de realizar o no anlisis intermedios y otras muchas cuestiones planteadas hoy da con absoluto rigor, tienen una total dependencia del mtodo estadstico para ser llevadas a cabo. Finalmente cuando la investigacin mdica se realiza a travs de estudios observacionales, como es por ejemplo el caso de estudios transversales mediante encuestas, la Estadstica vuelve a ser instrumento imprescindible para que las conclusiones obtenidas sean tiles a la comunidad cientfica. El impresionante desarrollo experimentado por la Informtica en los ltimos aos ha influido de manera considerable en la utilizacin de los mtodos estadsticos e seguir influyendo y no podemos por ello, olvidarnos de este aspecto al tratar el papel de la Estadstica en la Investigacin Clnica. El software estadstico se ha ido desarrollando hasta llegar a un momento en que se han impuesto los grandes paquetes estadsticos, completamente interactivos, capaces de resolver los clculos matemticos ms complejos en un tiempo muy pequeo, con los que uno simplemente se crea un fichero de datos, con entradas de individuos y variables en estudio, y despus, a travs de elecciones dentro de un men, se seleccionan los anlisis deseados.

Existen hoy en da importantes paquetes como el SPSS, SAS, etc., instalados en entorno Windows que permiten analizar con prontitud cualquier banco de datos, siendo factible la comparacin de los resultados proporcionados por distintos mtodos alternativos. Sin embargo no quiero dejar pasar un comentario importante: la facilidad de acceso a estos paquetes estadsticos facilita el tratamiento de datos pero no suple el conocimiento de los procedimientos correctos a aplicar. Salvo problemas de imposibilidad matemtica de clculo, los paquetes estadsticos realizan lo que se les ordena a travs del men pero no deciden si esa peticin tiene o no sentido y el juicio crtico para pedir e interpretar la informacin no puede sustituirse por ningn procedimiento automtico. 3. CONTENIDOS DEL MTODO ESTADSTICO Es necesario partir de la base de que la "variabilidad" es algo inherente en los procesos biolgicos, pero que esa variabilidad puede ser analizada de forma cientfica y que la estadstica es algo a tener en cuenta en un trabajo de investigacin durante todas las fases de su desarrollo, desde su planteamiento hasta la elaboracin de los resultados. Por otra parte hay que entender desde un principio la separacin entre Estadstica Descriptiva como mtodo de descripcin de conjuntos de datos, y Estadstica Analtica, como mtodo cientfico de extrapolacin de los resultados de la investigacin. An conociendo el hecho que la Estadstica Descriptiva son una serie de procedimientos que tratan de describir y no de explicar el conjunto de datos resultado de cualquier investigacin, es necesario su conocimiento como un primer paso en la organizacin de la informacin obtenida con el experimento. Aparecen las nociones de caracteres y frecuencias y las de grficos e ndices de las distribuciones de frecuencias para permitir resumir la informacin. El concepto de poblacin y muestra es sustancial en esta metodologa dado que el objetivo final es obtener informacin vlida en la poblacin, pero utilizando como instrumento la muestra. Por ello la Estadstica Analtica tiene como propsito general obtener conocimiento o informacin a travs de una muestra, y es necesario conocer la forma adecuada de obtencin de la muestra, ya que la decisin ptima consiste en emplear los mnimos recursos para obtener una determinada informacin. Es necesario conocer los distintos modos de obtencin de la muestra, los problemas que pueden plantearse en la eleccin de las unidades muestrales y los que aparecen en la recogida de la informacin. Para entender los procedimientos de la Estadstica Analtica es necesario conocer las distribuciones tericas de probabilidad y los parmetros que las definen, que aparecen como una prolongacin natural de los grficos e ndices de las distribuciones de frecuencias. Es necesario conocer la existencia de las distribuciones de probabilidad aunque solo como concepto de referencia pero incidiendo en la Distribucin de Gauss o Distribucin Normal, dado que es la clave de la Estadstica Analtica. Adems, como es sobradamente conocido, gran parte de las determinaciones clnicas y medidas del cuerpo humano se distribuyen segn una ley normal, y en las que no ocurre as, se llega a ella a travs de alguna transformacin adecuada. La parte del Mtodo Estadstico que sin duda, es la que ms va a utilizar el investigador es esta Estadstica Analtica (o Inferencia Estadstica). Esta comienza introduciendo el concepto de estimacin, viendo de forma intuitiva las distribuciones hipotticas de parmetros en el muestreo y de como as se obtiene una medida del riesgo que supone toda inferencia, considera los intervalos de confianza de los ndices obtenidos en el caso de caracteres cuantitativos (media), como en el caso de caracteres cualitativos (proporcin) y establece las relaciones entre precisin y riesgo de una estimacin. Aparecen los conceptos de error estndar y de grados de libertad, bsicos en toda la inferencia estadstica.

Basndose precisamente en los intervalos de confianza obtenidos para la estimacin, se puede plantear uno de los problemas ms generales de aplicacin en la investigacin clnica: el contraste de hiptesis (es un medicamento mejor que otro?, est de acuerdo un experimento con una teora aceptada como verdadera?, etc.). Es preciso conocer los conceptos generales del contraste de hiptesis, que son fundamentales para comprender todas las comparaciones particulares que se harn posteriormente. Hay que conocer claramente qu es una hiptesis nula y una alternativa, lo que mide la probabilidad de error p, los tipos de errores que pueden cometerse y cmo elegir un contraste unilateral o bilateral. Es necesario conocer como analizar la homogeneidad entre dos muestras en todos los tipos de casos experimentales planteados: muestras grandes y pequeas, comparacin de medias o de proporciones y datos independientes o apareados. En estas situaciones surge el importante problema de la predeterminacin del tamao muestral: la primera pregunta que se hace (o debera hacerse un investigador) es: cuntos individuos debo tomar en mi muestra para demostrar lo que pretendo? y es necesario responder a esta difcil pregunta con un criterio cientfico que no puede establecerse hasta no conocer los procedimientos del contraste de hiptesis. La comprobacin de la hiptesis de normalidad de la distribucin de una variable es muy importante pues es el requisito exigible a los datos en la mayora de los test estadsticos utilizados en esta parte de estimacin y contrate de hiptesis. Bajo esta premisa de normalidad la comparacin de una variable cuantitativa entre dos grupos se realiza a travs de la distribucin t de Student. Para la comparacin de variables cualitativas y para establecer relacin entre estas caractersticas, se utiliza el test Chi-cuadrado basado en la construccin de una tabla de contingencia que refleja la distribucin experimental y midiendo el ajuste de sta con una distribucin terica construida en base a la no relacin entre las caractersticas estudiadas. Tiene especial inters la tabla de contingencia 2x2, y es preciso analizar las posibilidades de tamaos muestrales y frecuencias esperadas para usar la correccin de Yates o la Prueba de Fisher en los casos en que se precise. La solucin del problema de comparacin de varias muestras cuando se estudia un carcter cuantitativo, o bien la posibilidad de ver cmo influye un factor o varios en un grupo de medidas, as como ver la posible relacin entre los factores, es fundamental en la investigacin. La tcnica del anlisis de la varianza resuelve un problema general: descomponer la variabilidad de un grupo de datos en distintas fuentes de variacin, una de las cuales se puede explicar por azar (o "error" en el sentido de "variabilidad" de la propia medida), y evaluar si las otras fuentes de variacin tienen alguna explicacin diferente del azar. Comprendida esta tcnica general, se puede aplicar a los problemas experimentales planteados: anlisis de la varianza para un factor y para dos factores y realizar la comparacin global entre las medias de esos grupos indirectamente a travs de la descomposicin de las varianzas utilizando la distribucin F de Sndecord. En caso de obtener diferencias significativas globales, se resuelve el problema de la comparacin mltiple de medias mediante un test "a posteriori" (test de Student-Newman-Keuls) como contrapartida del test "a priori" de la t de Student. Hasta ahora habamos considerado una nica variable respuesta en nuestro experimento, ya fuera una variable cuantitativa o la frecuencia de aparicin de ciertas caractersticas. Si se considera ahora la posibilidad de que cada individuo de la muestra soporte la medida de dos o ms variables cuantitativas, aparecen los conceptos de correlacin y regresin. La obtencin de ecuaciones de regresin que nos permitan predecir los valores de una variable en funcin de otra u otras, son una inestimable ayuda en la solucin de muchsimos problemas (la obtencin de una cierta respuesta biolgica en un enfermo puede ser costosa o peligrosa de conseguir, pero mediante una ecuacin de regresin podemos predecir su valor a travs de otras variables biolgicas fciles de medir).

Si consideramos el caso ms sencillo de dos variables, necesitamos conocer como se calcula y se interpreta el coeficiente de correlacin lineal, y anlogamente para la recta de regresin (su significado y cmo y cundo se utiliza.), analizando la relacin entre correlacin y regresin y estableciendo la interpretacin del coeficiente de determinacin. Tambin es necesario plantearse el problema de la relacin no lineal y cmo obtener las ecuaciones de regresin en ese caso, y tambin de cmo eliminar la influencia de una tercera variable mediante el anlisis de la covarianza. La Estadstica Analtica descrita hasta ahora corresponde a la llamada "Estadstica paramtrica", en el sentido en que debemos hacer ciertas hiptesis sobre las distribuciones de las variables o sobre los tamaos muestrales para que puedan aplicarse todos los test o pruebas analizadas. Sin embargo, existen otro tipo de "tests no paramtricos" que pueden utilizarse sin hacer ninguna hiptesis terica respecto a la distribucin de las variables , o cuando hay escaso nmero de observaciones. Adems, tambin pueden utilizarse cuando la variable respuesta, an siendo numrica, no es cuantitativa, sino de tipo ordinal. Estos mtodos no paramtricos suelen ser menos precisos que los paramtricos, y es ms difcil obtener evidencias estadsticamente significativas con ellos, pero en algunas ocasiones son los nicos posibles a utilizar Existen los correspondientes tests no paramtricos alternativos a los tests paramtricos descritos, en funcin del problema experimental que deseemos resolver. La introduccin al anlisis multivariante es imprescindible en la investigacin actualmente. Una revisin de las publicaciones de los ltimos aos en revistas de reconocido prestigio cientfico llevan a la conclusin de que son escasos los artculos donde no se aplican tcnicas multivariantes, en las cuales se manejan gran cantidad de variables y responden a problemas ms complejos que los planteados hasta ahora. Solo es necesario tener una idea intuitiva de las tcnicas ms conocidas, indicando su utilidad y abriendo as el camino a su utilizacin por el investigador, dado que con el desarrollo de paquetes estadsticos potentes para ordenadores personales, pueden resolverse problemas, inaccesibles hasta hace poco tiempo para "no expertos y permite que aunque no se conozca su desarrollo preciso, se puedan interpretar los resultados. El estudio conjunto de un gran nmero de variables, impensable sin un clculo automtico, abre una gran puerta a la resolucin de problemas en las Ciencias Biomdicas , con la probabilidad de establecer modelos muy parecidos a la realidad y de poder analizar conjuntamente el gran nmero de caractersticas y factores que influyen generalmente en cualquier problema mdico. Es necesario conocer las tcnicas multivariantes que fundamentalmente se utilizan y como ellas proporcionan la forma de resolver un problema de forma multidimensional, que es como realmente aparece en las situaciones reales. Existen tanto las tcnicas descriptivas de anlisis de datos, como las relaciones a travs de los mtodos de regresin. En este caso la relacin entre ms de dos variables introduce los coeficientes de correlacin parcial y mltiple, y las ecuaciones de regresin mltiple. Los modelos de supervivencia se usan con mucha frecuencia en investigacin mdica en general, entendiendo la supervivencia en su sentido amplio (presentacin o no de un suceso), por tanto, es importante el conocimiento de la existencia de esta tcnica que el investigador puede utilizar y encontrar en la literatura cientfica que consulte. Es la forma de anlisis obligado en oncologa, trasplantes, etc. Dado que el investigador no realiza solamente la investigacin por la propia satisfaccin personal de la creacin de conocimiento sino con el fin de comunicarlo a la comunidad cientfica necesita tener el conocimiento de unos criterios para analizar, entender y valorar las

publicaciones cientficas que en mayor o menor grado segn su trayectoria profesional va a tener que leer o elaborar. En los apartados de material y mtodos, en la correcta exposicin de los resultados y en el alcance de las conclusiones , el conocimiento del mtodo estadstico es esencial. 4. GUA PRCTICA DE CONTENIDOS Se expone, de la forma ms escueta posible, una gua de los procedimientos de estadstica, con unos conceptos bsicos de su fundamento y con unas recomendaciones para utilizarlos. Estadstica Descriptiva: Su objetivo es organizar y resumir la informacin de la muestra. Hay que tener en cuenta que el procedimiento de anlisis estadstico depende del tipo de variable utilizada. Tipos de variables y ejemplos: Cualitativa: Nominal (Centro, tratamiento,) Ordinal (mejora de un sntoma: leve, moderada,) Dicotmica (sexo, curacin de una enfermedad,) Cuantitativa Discreta (nmero de episodios, nmero de frmacos recibidos,.) Continua (temperatura, colesterol,.) Semi-cuantitativa (puntuacin de un test, evaluacin en una escala visual,) La estadstica descriptiva proporciona frecuencias y porcentajes en el caso de variables cualitativas e ndices en el caso de variables cuantitativas. Adems se puede realizar representaciones grficas en ambos casos. Para las variables cuantitativas los principales ndices de referencia son la media y la desviacin tpica, si la variable sigue una distribucin normal (Distribucin de Gauss) en cuyo caso la media es el valor central de la distribucin. Si la variable no sigue una distribucin normal, los ndices de representacin son la mediana y los cuartiles primero y tercero (o bien el rango intercuartlico que es la distancia entre ellos y se utiliza en el mismo sentido que la desviacin estndar). Existen procedimientos estadsticos (criterios de bondad de ajuste) para conocer si una variable sigue o no la distribucin normal y debera ser un punto de partida del anlisis de datos el conocer la naturaleza de las variables que se utilizan. En resumen, la estadstica descriptiva es el primer paso para ordenar y revisar la informacin, dando la posibilidad de depurar los datos si se detectan valores no admisibles.

Inferencia estadstica: Procedimiento que permite que, a travs de la informacin obtenida en la muestra, se puedan extrapolar conclusiones respecto a la poblacin .La idea principal que hay que adquirir es que estas conclusiones nunca sern afirmaciones rotundas: son afirmaciones que siempre van acompaadas de una probabilidad de error. El azar inherente al tipo de datos que se utilizan en investigacin mdica no puede eliminarse: lo que consigue el procedimiento estadstico es controlarlo cuantificando el error.

El procedimiento a seguir en los diferentes planteamientos experimentales que vamos a encontrar depende del tipo de variable y de la distribucin de las variables utilizadas. Para las variables cualitativas no existe ningn planteamiento en cuanto a su distribucin, pero en el caso de variables cuantitativas es determinante el que sigan o no una distribucin normal y el tamao muestral utilizado. Consideremos en primer lugar el caso ms general que es aquel en que las variables objetivo de nuestro estudio siguen o se aproximan a una distribucin normal. Si una variable no se ajusta a la normal pero la muestra es suficientemente grande (mayor de 30 elementos) tambin se pueden aplicar las tcnicas que vamos a indicar a continuacin y que constituyen la llamada Estadstica paramtrica. Procedimientos de la inferencia estadstica paramtrica. a) Estimacin: Extrapolacin de los parmetros de la muestra a la poblacin. Dada la media de una variable en una muestra permite estimar su valor en la poblacin y para ello se calcula el intervalo de confianza. Se obtiene no una estimacin del valor puntual de la media en la poblacin sino un intervalo que comprendera a ese valor con una determinada probabilidad de error de no contenerlo. El procedimiento terico es estudiar la distribucin de esa media a travs de repeticiones en sucesivas muestras. La desviacin estndar de esa distribucin de medias muestrales se conoce como error estndar y aplicando las propiedades de la distribucin normal se pueden construir intervalos centrados en la media y con una amplitud funcin del error estndar que contengan determinada parte de la probabilidad total de la distribucin. Los lmites ms, clsicamente, utilizados son los que comprenden el 95% de la probabilidad total de la distribucin y se conocen como intervalos de confianza al 95% .No se puede conocer la media poblacional pero si se puede determinar un intervalo con una determinada probabilidad de contenerla. El error estndar depende de la propia dispersin de la variable (medida por la desviacin tpica ) y del tamao muestral (cuanto mayor sea la muestra menor es el error estndar). El objetivo de cualquier investigador ser obtener intervalos de confianza con una precisin adecuada para la variable que este utilizando, por lo que deber elegir el tamao de muestra necesario para que le asegure dicha precisin y que debera fijarse a priori (al disear la investigacin). Una cuestin importante en toda la inferencia estadstica es el concepto de grados de libertad. Aunque nuestras referencias en toda la investigacin son los tamaos muestrales cuando se construyen los errores estndar aparecen estos tamaos muestrales modificados. Por ejemplo, para calcular el error estndar de una media se toman como referencia los datos originales ( n valores de la muestra) y la propia media ( que esta calculada con esos mismos valores ) por lo que los n valores iniciales ya no estn libremente determinados ( podra eliminar uno de ellos porque estara fijado a travs de la ecuacin de la media) y la referencia para el calculo de las desviaciones que definen el error estndar no son los n valores sino los n-1 valores libres (grados de libertad) y en general y cualquier planteamiento de la inferencia estadstica aparecen los de grados de libertad en lugar de los tamaos muestrales.

10

b) Contraste de hiptesis: Este procedimiento permite comparar el comportamiento de una variable en dos o ms grupos El punto de partida es establecer la hiptesis a contrastar y esta hiptesis que es comn a todos los planteamientos se conoce como hiptesis nula. Se formula siempre como no existencia de diferencias significativas o no relacin significativa.: la aparente diferencia entre los valores a contrastar puede explicarse por azar. En caso contrario, hiptesis alternativa, se concluye que existe diferencia significativa con determinada probabilidad de error. El planteamiento es establecer una regla o criterio de decisin que permita definir una regin para aceptar la hiptesis nula y otra para rechazarla, y que en caso de llegar a esta conclusin nos mida la probabilidad de error. Para todos los casos se define un estadstico , funcin de los valores muestrales, que siga una determinada distribucin de probabilidad. Si se cumple la hiptesis nula el estadstico obtenido debe ser un valor pausible de esta distribucin, por lo que determinamos en que punto del recorrido de la distribucin est situado el estadstico y podemos determinar el valor de probabilidad que queda a su derecha. Si esa probabilidad es pequea, esto indicara que nuestro estadstico est muy al extremo de la distribucin y por lo tanto podemos aceptar que no pertenece a esa distribucin, teniendo como probabilidad de error al tomar esa decisin precisamente la porcin de rea (probabilidad) que queda a la derecha (toda distribucin de probabilidad comprende un rea de valor 1). Est universalmente consensuado que la probabilidad mxima de error aceptada es de 0.05. Por la forma de construir el procedimiento de contraste lo difcil es obtener diferencias significativas y la medida de error va asociada a ellas. El mantener la hiptesis nula no indica nada acerca de su veracidad dado que cuando ms pequeos sean los tamaos muestrales mayores sern los errores estndar y mayor ser la zona de aceptacin de la hiptesis nula. Dado que el tamao muestral es relevante a la hora de poder demostrar una diferencia significativa la determinacin del tamao necesario para cumplir ese objetivo es el la primera cuestin a plantearse al disear el experimento. Comparacin de una variable cuantitativa entre dos grupos. Si se desea comparar una variable cuantitativa entre dos grupos o muestras se calcula la media de la variable en cada uno de los grupos .La hiptesis nula en este caso es que la diferencia es cero (no hay diferencia) y la hiptesis alternativa es que existe diferencia. Construido el estadstico de contraste se mantendr la hiptesis nula (no se puede afirmar que sea cierta sino que solo se mantiene por no haber evidencias de lo contrario) o se rechaza la hiptesis nula y se afirma que hay diferencia significativa con cierta probabilidad de error. El procedimiento para realizar este anlisis de la comparacin de medias es construir un estadstico, a partir de la diferencia de medias y de los errores estndar de ellas, que sigue la distribucin t de Student. Esta distribucin de referencia nos permite determinar la probabilidad de error al rechazar la hiptesis nula. Puede darse la situacin de que en lugar de tener una variable medida en dos grupos la situacin sea tener la variable medida en dos situaciones diferentes como por ejemplo presin arterial antes y despus de un tratamiento hipertensivo. Estamos en una situacin de datos relacionados y se toma como referencia la media de todas las diferencias de la variable para los individuos considerados, utilizando para su contraste frente a cero el test de la t de Student pareada.

11

Comparacin de una variable cuantitativa entre varios grupos Si en lugar de dos grupos hubiese varios, la derivacin lgica del caso anterior sera comparar las medias combinndolas de dos utilizando el procedimiento de la t de Student. Este procedimiento no es metodolgicamente correcto porque pueden aparecer diferentes comparaciones que no son todas independientes entre s y aumenta la probabilidad de error. Sera necesario establecer una correccin sobre el estadstico construido y tener en cuenta el numero de comparaciones implicadas ( la mas clsica es la correccin de Bonferroni). Sin embargo existe un procedimiento alternativo que permite comparar globalmente las medias de forma indirecta a travs de las dispersiones o varianzas y que se conoce como anlisis de la varianza (ANOVA). El estadstico que se construye en este caso sigue una distribucin F de Sndecord y permite mantener la hiptesis nula de igualdad de medias o rechazarla (al menos hay una media distinta de las dems) con cierta probabilidad de error. Si se rechaza la hiptesis nula, puede interesar concretar entre que medias existe diferencia y esto se realiza a travs de un test de comparacin mltiple o test a posteriori. Se comparan todas las parejas de medias posibles estableciendo una ordenacin de menores a mayores diferencias. Existen diferentes posibilidades para realizar estos anlisis: test de Tukey, test de Student- Newman-Keuls, etc) Comparacin de una variable cualitativa entre dos o ms grupos. Si se desea comparar una variable cualitativa entre dos grupos (por ejemplo, eficacia de un frmaco medida como SI/NO) se determina la presentacin de las respuestas en cada grupo y a partir de ellas las proporciones, estableciendo como hiptesis nula que la proporcin de eficacia es igual para ambos frmacos y como hiptesis alternativa que no lo es (existen diferencias estadsticamente significativas entre las proporciones de eficacia con cierta probabilidad de error). El procedimiento para realizar este anlisis es considerar las frecuencias de presentacin de todas las situaciones y construir lo que se conoce como tabla de contingencia (distribucin experimental u observada). Bajo el supuesto de igualdad de proporciones se construye otra tabla de contingencia (distribucin terica o esperada) y se calcula la discrepancia entre ambas distribuciones a travs de un estadstico que sigue la distribucin Chi-cuadrado, y que sirve para determinar si las diferencias entre la tablas son o no significativas. De no ser significativas se concluye que la distribucin experimental se ajusta a la terica y como esta ltima se construye bajo la hiptesis de igualdad de las proporciones, la decisin es que no se detecta diferencia significativa en la eficacia de ambos frmacos. La conclusin es la contraria si las diferencias entre las distribuciones son significativas. Tambin poda plantearse aqu el caso de datos relacionados: un grupo de individuos se somete sucesivamente a dos tratamientos de los que se desea comparar su eficacia. En este caso la construccin de la tabla de contingencia es diferente, contando las coincidencias (mejora con ambos tratamientos o no mejora con ninguno) y las discordancias (mejoras con uno si y otro no) y construyendo un test que se basa en esas divergencias y que es el Test de Mac-Nemar. En el caso de mas de dos grupos el procedimiento se generaliza sin ningn cambio (aumentan las dimensiones de la tabla de contingencia). Como en el caso de variables cuantitativas aparece el concepto de grados de libertad. En esta situacin el elemento de referencia para calcularlos no es el tamao muestral sino las dimensiones de la tabla de contingencia que es necesario construir y que son las que definen el estadstico Chi-cuadrado.

12

La forma de enunciar los problemas y las conclusiones da lugar a errores en algunas ocasiones: en el ltimo ejemplo utilizado el problema de detectar diferencias entre las dos proporciones de eficacia se podra enunciar como existe relacin entre el frmaco y la eficacia?, y la conclusin equivalente a la de diferencia significativas entre las proporciones es decir que, existe relacin estadsticamente significativa entre el frmaco y la eficacia ( precisamente porque estn relacionados no son iguales las proporciones). Es importante tener en cuenta que no son problemas distintos el determinar si existe diferencias en una variable entre dos o mas grupos o si se relacionan las variables consideradas, sino formas diferentes de enunciar el mismo concepto. Anlisis de la relacin o asociacin entre pares de variables. Si estamos en el caso de dos variables cualitativas observadas en el mismo sujeto (por ejemplo, clase social y grado de control del embarazo) la forma de analizar la relacin es a travs de la tabla de contingencia de la distribucin conjunta aplicando el test de Chicuadrado, de forma similar al caso anteriormente descrito para comparar dos proporciones. Hiptesis nula: no relacin (distribucin similar de las proporciones de una variable en las categoras de la otra) Hiptesis alternativa: relacin entre ambas variables (por ejemplo, la proporcin de buen control del embarazo es mayor en la clase social alta). La aplicacin del test de Chi-cuadrado tiene algunas exigencias respecto a los tamaos muestrales considerados y a las frecuencias de la tabla terica considerada, lo que hace que en algunos casos su aplicacin necesite alguna correccin u otro test alternativo y que solo puede realizarse en tablas de dimensin 2x2. Si el tamao muestral utilizado es inferior a 200, sea cual sea el tamao de la tabla, deben reagruparse categoras hasta llegar a una tabla de dimensin 2x2 y aplicar una correccin a la Chi-cuadrado llamado correccin de Yates o correccin por continuidad. Si adems hay alguna frecuencia terica inferior a 5 la correccin de Yates no bastara y se aplicara el test exacto de Fisher. Cuando se realiza este anlisis a travs de un software estadstico se calculan automticamente los tres procedimientos (Chi-cuadrado simple, Chi-cuadrado con correccin de Yates y prueba exacta de Fisher). Es misin del investigador saber a travs de cual debe establecer la conclusin segn los criterios enunciados. Supongamos ahora el caso de dos variables cuantitativas medidas en el mismo sujeto (por ejemplo colesterol y presin arterial) y nos interesa saber si estn relacionadas. Si nos planteamos una relacin proporcional entre ellas, ya sea en sentido directo o inverso (aumento de una arrastra aumento de la otra o aumento de una arrastra disminucin de la otra) esta relacin se determina a travs del coeficiente de correlacin lineal de Pearson. Este ndice tiene como limites de variacin los valores 0 (no correlacin) y 1 (mxima correlacin). Hiptesis nula: No relacin entre las variables (o sea un coeficiente cero o prcticamente cero desde el punto de vista estadstico) Hiptesis alternativa: Relacin estadsticamente significativa entre las variables con cierta probabilidad de error. En este ltimo caso se abre una nueva posibilidad, dado que si existe una relacin lineal entre las dos variables, se puede calcular la ecuacin que las relaciona y mediante ella estimar los valores de una variable a travs de la otra. Para que esto tenga sentido debe haber un orden de prioridad entre las variables de modo que una sea la variable explicativa y otra la explicada, o sea, una relacin causa efecto, pues de no ser as no tendra sentido (una covariacin entre dos variables no siempre debe conducir a un modelo lineal).

13

Por otra parte la condicin de que el coeficiente de correlacin lineal sea significativo no es suficiente garanta para poder calcular esa ecuacin ( llamada modelo de regresin lineal) sino que debe tener un valor elevado para garantizar la calidad predictiva del modelo , o sea, tiene que ser un buen coeficiente de correlacin ( se considera como criterio general r > 0.7) y que el diagrama de dispersin que podra obtenerse representando por un punto en el plano cada par de medidas del individuo diese una aproximacin a una lnea recta sin excesiva dispersin de los datos. En general no se utiliza como medida de la calidad del modelo el coeficiente de correlacin lineal sino el coeficiente de determinacin (que coincide en este caso de la regresin lineal con el cuadrado del coeficiente de correlacin), y que determina la parte de dispersin de los datos que explica el modelo .Cuanto ms prximo a 1 sea este coeficiente, mejor ser el modelo y se considera aceptable a partir de 0.5. La recta de regresin se puede notar como Y= a +bX donde Y es la variable efecto (variable dependiente) y X es la variable causa (variable independiente). El coeficiente b tiene una interpretacin muy til: indica la tasa de cambio en la variable Y por cada unidad de cambio en la variable X y el poder conocer esto justifica a veces el clculo de la regresin, an sin la finalidad de estimar Y en funcin de X. Una vez determinados los valores de a y b la ecuacin permite predecir valores de Y para cualquier valor de X. Es preciso tener en cuenta que aunque matemticamente el modelo puede utilizarse as, solo tiene sentido en un rango de valores de las variables X e Y similares a las medidas experimentales (fuera de ese rango el modelo puede no predecir la realidad y por otra parte no todos los valores pueden ser viables). El procedimiento de regresin no queda limitado a la regresin lineal sino que se podran plantear otro tipo de relaciones representadas por una funcin matemtica no lineal (exponencial, logartmica, etc.) que permite resolver un amplio campo de situaciones experimentales. El concepto es similar y solo cambiara el modelo matemtico y la interpretacin de los coeficientes. Procedimientos de la inferencia estadstica no paramtrica. Existen situaciones experimentales donde pese a ser la variable respuesta cuantitativa, pueden darse algunas particularidades que no permiten aplicar los test descritos hasta ahora para este tipo de variables. Las situaciones que hacen necesario el uso de esta estadstica no paramtrica son las siguientes: -Variables cuantitativas que no siguen una distribucin normal y estn analizadas en muestras pequeas (si la variable no sigue la normal pero las muestras son grandes, entendiendo como tal mayores de 30, se pueden aplicar los test paramtricos). - Variables numricas que no son medidas (no respetan la relacin de proporcionalidad entre sus valores), o dicho de otra forma, son ordinales o semi-cuantitativas. En caso de duda siempre se pueden utilizar pruebas no paramtricas, lo que sucede es que son menos potentes que las paramtricas (es ms difcil detectar diferencias significativas) y por ello no se suele recurrir a ellas sin ser necesario. Estas pruebas no exigen ningn tipo de distribucin a las variables y por ello no utilizan los valores obtenidos ni por supuesto ningn parmetro calculado con ellos (como media, desviacin, etc.), sino los rangos u ordenes que se pueden establecen con estos valores. Existen test no paramtricos alternativos a los paramtricos descritos anteriormente: - Comparacin de una variable cuantitativa entre dos grupos o muestras:

14

Si las muestras son independientes en lugar de test de la T de Student el test de Mann Whitney. Si las muestras son relacionadas en lugar de la T de Student para datos pareados el test de Wilcoxon. - Comparacin de una variable cuantitativa entre varios grupos muestras En lugar del anlisis de la varianza el test de Kruskal-Wallis - Relacin entre dos variables cuantitativas En lugar del coeficiente de correlacin de Pearson el coeficiente de correlacin de Spearman. Anlisis de datos dependientes del tiempo. La informacin que hemos utilizado hasta ahora es la informacin sobre un conjunto de individuos en un instante determinado, o sea, de una forma transversal, pero existen situaciones donde el objetivo es observar la presentacin de un suceso a lo largo del tiempo. El objetivo es poder establecer un procedimiento que permita conocer la probabilidad de que este suceso ocurra a lo largo del periodo de observacin. Ejemplos de estos periodos de observacin son: tiempo desde una intervencin hasta recada, tiempo desde una intervencin hasta que se produce la muerte, tiempo desde un trasplante hasta rechazo, etc. Para unificar el procedimiento se le conoce como anlisis de supervivencia, considerando tiempo hasta que se produce la muerte, aunque el suceso en cuestin no sea necesariamente la muerte en sentido biolgico. Se plantea el seguimiento del suceso durante un periodo de tiempo y se observa para cada uno de los individuos lo que ha sucedido y en que momento. El punto final de la observacin de un individuo puede deberse a diferentes razones: muerte, prdida de seguimiento (vivo hasta ese momento) o permanecer vivo en el momento final del estudio. Al comienzo del periodo, todos los individuos estn en observacin (vivos), luego la probabilidad de supervivencia general es 1. A medida que transcurre el tiempo, los individuos que van abandonando el estudio por muerte van haciendo disminuir la probabilidad de supervivencia y se puede calcular la supervivencia acumulada a lo largo del tiempo. El procedimiento mas generalizado para el clculo de estas probabilidades es el de Kaplan-Meier. Este procedimiento permite construir un grfico a travs del cual se puede estimar la probabilidad de supervivencia en cada uno de los momentos, siendo un punto relevante la mediana de supervivencia (tiempo en el cual permanecen vivos el 50% de los individuos) y lgicamente el intervalo de confianza de ella. Si se desean obtener diferentes grficos de supervivencia para grupos establecidos ( por ejemplo diferentes estadios de gravedad de un cncer ), se pueden comparar las diferentes curvas de supervivencia a travs del test de Log-Rank y detectar si existen diferencias estadsticamente significativas entre ellas. Procedimientos multivariantes La informacin de todas las variables para cada unidad muestral constituye un todo y la estadstica univariante va dando aspectos parciales y resultados sesgados. Con todo el proceso descrito hasta ahora se puede analizar la informacin de un conjunto de individuos de forma parcial, como si cada una de las caractersticas consideradas no tuviese relacin con el resto. Esto dista bastante de la realidad experimental dado que existe en

15

general relacin entre las diferentes caractersticas que configuran un todo. Por citar un ejemplo, supongamos que se desea comparar la eficacia de dos frmacos que se suele medir a travs de una variable principal (end point), pero por muy homogneos que sean los pacientes o por muy bien realizado que este el proceso de randomizacin, puede haber una serie de caractersticas de los pacientes que puedan influir sobre la variable seleccionada adems del frmaco (edad, tiempo con la enfermedad, etc.) y sera deseable analizar conjuntamente toda la informacin. En este sentido, los procedimientos multivariantes son un conjunto de tcnicas estadsticas que permiten realizar un anlisis global de los datos de un conjunto de variables observadas o medidas en una o varias muestras de individuos. De esta forma, cada individuo tiene un perfil de informacin mltiple que se analiza a la vez. Esto no quiere decir que la estadstica univariante no sea aplicable y til: sera poco coherente hacer el abordaje multivariante de una investigacin sin haber hecho previamente los correpondientes anlisis univariantes. Un inconveniente que poseen la tcnicas multivariantes es la poca transparencia de los clculos y la complejidad en la interpretacin de los resultados que hacen posible en muchas ocasiones llegar a conclusiones errneas y ms an si no se han interpretado los resultados mas sencillos. Los procedimientos multivariantes responden a la misma estructura que el mtodo estadstico descrito presentndose por tanto Tcnicas descriptivas y Tcnicas analticas. Las Tcnicas descriptivas tienen como objetivo resumir la informacin y son el anlisis factorial o de componentes principales y el anlisis de correspondencias. El Anlisis Factorial pretende, partiendo de un determinado nmero de variables cuantitativas, resumirlas en un nmero inferior (llamadas factores o componentes principales) que explique la mayora de la informacin de las variables originales. Es por lo tanto una tcnica de reduccin de datos e intenta encontrar factores que tengan cierta interpretacin (sera por ejemplo el caso de un test psicolgico compuesto por diferentes tems y que a travs de ellos se pudieran crear factores que se interpretaran como sntomas de estrs, ansiedad, etc.) El Anlisis de Correspondencias responde al mismo concepto que el anterior pero en el caso de variables cualitativas (no se tienen valores numricos de las variables sino frecuencias de aparicin de diferentes categoras). Su objetivo es obtener variables sintticas que sean funcin de las categoras de las diferentes variables estudiadas. Este mtodo tiene la ventaja de que en el caso de obtener dos variables sintticas, se puede obtener una representacin grfica considerndolas como ejes de coordenadas y estableciendo las coordenadas de cada categora respecto a esos ejes. Al considerar los dos ejes, se obtiene una divisin del plano en cuatro cuadrantes donde se dibujan con un punto las categoras de todas las variables. Esto permite obtener patrones de asociacin en las categoras de las variables y obtener diferentes perfiles (por ejemplo una encuesta de salud en el embarazo contiene datos de nivel socio-econmico, hbitos de vida, etc. y esto permirtira ver en un cuadrante se asocian clase social alta, con buen control del embarazo, control de peso, etc constituyendo un perfil diferente a otros que se agrupan en otros cuadrantes). En cualquiera de los anlisis descritos todas las variables son igualmente relevantes en el estudio, sin establecerse ninguna prioridad entre ellas, y la eleccin de los factores o variables sintticas no tienen una probabilidad de error de ser una buena o mala decisin: son resultados descriptivos.

16

Las Tcnicas analticas van mas all estableciendo relacin entre variables y un orden de prioridad entre ellas. Adems son pruebas de significacin con las probabilidades de error para cada una de las conclusiones que se obtengan. En estos casos hay una variable principal o variable respuesta y otra serie de variables que se pretenden relacionar con ella y en este sentido el planteamiento responde a modelos de regresin. El concepto de relacin es comn a todos los casos pero aparecen distintos modelos en funcin del tipo de informacin. Modelos de regresin multivariantes: Regresin Lineal:

El objetivo de este procedimiento, como ya se ha indicado antes, es explicar el comportamiento de una variable a travs de otras. A la hora de predecir los valores de una variable, es casi imposible obtener una buena prediccin utilizando solo los valores de otra variable, pero sin embargo existen ms posibilidades de conseguirlo utilizando diferentes variables predictivas a la vez. El modelo de regresin lineal simple se extiende a un modelo, que sigue teniendo solo una variable respuesta, pero puede tener diferentes variables independientes o explicativas. El modelo permite predecir el valor de la respuesta en funcin de las variables y estimar el peso de cada una de ellas en la respuesta, ajustado por el resto de variables, que viene dado por los coeficientes de regresin. Los procedimientos automticos permiten llegar a elegir el modelo ptimo de entre una serie de posibles combinaciones de variables independientes manteniendo solo aquellas que aportan informacin relevante. Todas las variables que se consideren para establecer la regresin lineal deben ser cuantitativas y seguir una distribucin normal. Anlogamente al caso univariante, es importante a la hora de considerar el modelo tener en cuenta no solo que sea estadsticamente significativo, sino que tenga una buena calidad de ajuste (poca dispersin de los datos experimentales respecto a las predicciones que proporciona el modelo) y que viene medida por el mismo coeficiente de determinacin. Adems es preciso hacer un anlisis de los residuos (diferencias de los valores experimentales a las predicciones del modelo) y ver que no son significativos. Toda esta informacin es proporcionada por cualquiera de los paquetes estadsticos que se puedan utilizar y lo nico importante es saber que hay que tenerla en cuenta a la hora de decidirse por un modelo. Regresin logstica: Cuando la variable dependiente es de tipo cualitativo y dicotmica (presencia o ausencia de determinada circunstancia) la forma de obtener el modelo es distinta a la anterior. No hay una funcin matemtica directa que relacione las variables dado que realmente la respuesta puede tomar solo dos valores (Si o No que se podran traducir a 1 y 0) y esto no podra ser una variable respuesta. Para resolver el problema lo que se modeliza es la probabilidad de presentacin de ese resultado que ya si tiene una escala de valores continuos entre 0 y 1 (variable dependiente del modelo de regresin), estimndose la forma en como influyen las variables independientes en la respuesta a travs de un modelo exponencial y dando lugar a lo que se conoce como modelo logstico. El modelo logstico es una funcin creciente, que crece ms que proporcionalmente (a medida que aumenta el riesgo aumenta la probabilidad de la enfermedad), hasta llegar un momento en que la probabilidad no crece ms. El

17

procedimiento de ajuste en este caso es diferente al modelo lineal y ya no aparece el concepto de coeficiente de determinacin para analizar la calidad del modelo. Un caso prctico donde se utiliza con mucha frecuencia es para ver como influyen determinados factores de riesgo (variables independientes) en la presentacin de una enfermedad (variable dependiente). Este modelo logstico tiene la ventaja de que en el caso univariante (un solo factor de riesgo) la estimacin que da el modelo para el peso del factor en la enfermedad coincide con el calculo del odds ratio que podra obtenerse a travs de una tabla de contingencia, y esto hace que en el caso multivariante obtengamos los odds ratio para cada factor ajustado por los dems. Adems permite obtener los odds ratio en el caso de variables cuantitativas (aumento de la probabilidad de presentacin de la enfermedad por cada unidad de cambio en la variable riesgo), situacin que no es posible analizar con tablas de contingencia. Los odds ratio se obtienen como la exponencial de los coeficientes de regresin del modelo y por tanto se pueden obtener adems sus intervalos de confianza. Desde otro punto de vista, ante una situacin experimental con los factores de riesgo en un individuo (variables independientes, que pueden ser cualitativas o cuantitativas) el modelo hace una prediccin de la probabilidad de presentar la enfermedad. Esta probabilidad permite establecer la concordancia entre lo que el modelo predice y lo que realmente ha sucedido y a travs del porcentaje de concordancias se puede conocer la calidad predictiva del modelo.

Regresin de COX Cuando se analizan datos de supervivencia, puede haber diferentes circunstancias que influyan en la probabilidad de supervivencia, y el procedimiento de regresin puede ser una herramienta para incluir esas variables o circunstancias en el modelo. La variable dependiente en este caso es la probabilidad de supervivencia (que tiene la particularidad que depende del tiempo) y que es funcin de las variables independientes consideradas. La forma del modelo debe responder a una funcin matemtica conocida y dado que la variable dependiente tambin es una probabilidad debera guardar cierta similitud con la regresin logstica y utilizarse tambin una funcin exponencial. Ahora bien, la probabilidad en el modelo logstico es una funcin creciente y la probabilidad de supervivencia es una funcin decreciente (al comienzo del periodo de observacin todos los individuos estn vivos y se van perdiendo a lo largo del tiempo) por lo que a la hora de obtener el modelo se usa la funcin inversa a la supervivencia (funcin de riesgo). De esta forma los coeficientes que se obtienen para cada una de las variables independientes incluidas en el modelo determinan el aumento en la probabilidad de muerte (o presentacin del suceso en general) por cada unidad de cambio en esa variable (para las variables cuantitativas) o en el paso de una a otra categora en el caso de variables cualitativas, de modo similar a como se obtiene el odds ratio en regresin logstica (exponencial del coeficiente). Adems como en todo modelo multivariante estos riesgos estn ajustados por el resto de variables incluidas en el modelo. Como en cualquier modelo de regresin se analizar la significacin de cada una de las variables incluidas en l y la significacin global del modelo. La utilizacin del modelo implica que se estn haciendo ciertas hiptesis sobre la realidad experimental que son las siguientes:

18

Un cambio de D unidades en una variable se traduce en un cambio de exp (bD) en la probabilidad de no supervivencia, o sea , el aumento del riesgo de no sobrevivir crece ms que proporcionalmente. La medida del efecto de una variable o factor de riesgo (exp b) es constante a lo largo del tiempo e independiente del resto de variables. La relacin de los riesgos entre las diferentes variables es multiplicativa, o sea, la presencia de dos factores de riesgo no da lugar a una suma de efectos en la supervivencia sino a un producto de efectos. Para dos individuos diferentes la razn entre sus supervivencias es constante a lo largo del tiempo y por ello este modelo recibe tambin el nombre de modelo de riesgos proporcionales. Finalmente la funcin de supervivencia que proporciona el modelo, S(t, x), coincide con la estimacin de la probabilidad de supervivencia de KaplanMeier si se suprime la informacin de las variables o factores de riesgo (caso univariante) 5. REFERENCIAS BIBLIOGRFICAS En la misma lnea del resto de los contenidos no se va a exponer una relacin completa de textos sobre Metodologa Estadstica dado el gran panorama de libros y autores existentes, sino solo se indican algunos de los que introducen esta metodologa en la misma lnea de enfoque prctico en que estn redactados estos contenidos y algn otro de nivel mas elevado para temas mas especficos (6 y 7). Los aos de publicacin de los libros no corresponden necesariamente a la ltima edicin 1. Armitage, P. and Berry, G. Estadstica para la Investigacin Biomdica. Barcelona. Harcourt Brace, 1997. 2. Carrasco, JL. El Mtodo Estadstico en la Investigacin Mdica. Madrid, Ed. Ciencia 3, 1995. 3. Carrasco, JL, Hernn, MA. Estadstica Multivariante en las Ciencias de la Vida. Madrid, Ed Ciencia 3, 1993. 4. Colton, T. Estadstica en Medicina, Ed.Masson-Little Brown and Company, SA, 1995. 5. Hosmer, DW, Lemeshow, S. Appplied Logistic Regresion. J. Wiley and Sons, 1989. 6. Hosmer, DW, Lemeshow, S. Applied survival analysis: regression modelling of time to event data. J. Wiley and Sons, 1999. 7. Fleiss, JL. The Design and Analysis of Clinical Experiments. J. Wiley and Sons, 1999. 8. Martn, A. y Luna, JD. 50 +- 10 horas de Bioestadstica. Madrid, Ed. Norma 1994 9. Martn, A. y Luna, JD. Bioestadstica para las Ciencias de la Salud, Madrid, Ed. Norma, 1999 10. Silva, LC. Cultura estadstica e investigacin cientfica en el campo de la salud: una mirada crtica. Ed. Diaz de Santos, 1997

19