Está en la página 1de 10

Coeficiente de correlacin lineal de Pearson El coeficiente de correlacin de Pearson, pensado para variables cuantitativas (escala mnima de intervalo), es un ndice

que mide el grado de covariacin entre distintas variables relacionadas linealmente. Advirtase quedecimos "variables relacionadas linealmente". Esto significa que puede haber variables fuertemente relacionadas, pero no de forma lineal, en cuyo caso no proceder a aplicarse la correlacin de Pearson. Por ejemplo, la relacin entre la ansiedad y el rendimiento tiene forma de U invertida; igualmente, si relacionamos poblacin y tiempo la relacin ser de forma exponencial. En estos casos (y en otros muchos) no es conveniente utilizar la correlacin de Pearson. Insistimos en este punto, que parece olvidarse con cierta frecuencia. El coeficiente de correlacin de Pearson es un ndice de fcil ejecucin e, igualmente, de fcil interpretacin. Digamos, en primera instancia, que sus valores absolutos oscilan entre 0 y 1. Esto es, si tenemos dos variables X e Y, y definimos el coeficiente de correlacin de Pearson entre estas dos variables como xyr entonces: Hemos especificado los trminos "valores absolutos"ya que en realidad si se contempla el signo el coeficiente de correlacin de Pearson oscila entre 1 y +1. No obstante ha de indicarse que la magnitud de la relacin vienen especificada por el valor numrico del coeficiente, reflejando el signo la direccin de tal valor. En este sentido, tan fuerte es una relacin de +1 como de -1. En el primer casola relacin es perfecta positivay en el segundo perfecta negativa . Pasamos a continuacin a desarrollar algo ms estos conceptos. Decimos que la correlacin entre dos variables X e Y es perfecta positiva cuando exactamente en la medida que aumenta una de ellas aumenta la otra. Esto sucede cuando la relacin entre ambas variables es funcionalmente exacta. Difcilmente ocurrir en psicologa, pero es frecuente en los ciencias fsicas donde los fenmenos se ajustan a leyes conocidas, Por ejemplo, la relacin entre espacio y tiempo para un mvil que se desplaza a velocidad constante. Grficamente la rel acin ser del tipo: 10xyr3 0,00 5,00 10,00 15,00 20,00 Tiempo 0,00 500,00 1000,00 1500,00 Espacio Se dice que la relacin es perfecta negativa cuandoexactamente en la medida que aumenta una variable disminuye la otra. Igual que en el caso anterior esto sucede para relaciones funcionales exactas, propio de las ciencias fsicas. Por ejemplo, la relacin entre presin y volumen se ajusta a este caso. El grfico que muestra la relacin sera del tipo: En los fenmenos humanos, fuertemente cargados de componentes aleatorios, no suelen ser posible establecer relaciones funcionales exactas. Dado un cierto valor en la variable X no encontraremos uno y solo un nico valor en la variable Y. Matriz de correlacin Una matriz de correlacin es una tabla de doble entrada para A B y C, que muestra una lista multivariable horizontalmente y la misma lista verticalmente y con el correspondiente coeficiente de correlacin llamado r'. El anlisis factorial se puede utilizar para estudiar series numricas o de valores cuantitativos para un determinado nmero de variables cuantitativas y mayor de dos. Por ejemplo, tres caractersticas o ms para series numricas con igual nmero de datos. Definicin Estas variables independientes o explicativas estn dispuestas ya en una matriz de correlacin, que es una tabla de doble entrada para A B y C, que muestra una lista multivariable horizontalmente y la misma lista verticalmente y con el correspondiente

coeficiente de correlacin llamado r o la relacin entre cada pareja en cada celda, expresada con un nmero que va desde 0 a 1. El modelo mide y muestra la interdependencia en relaciones asociadas o entre cada pareja de variables y todas al mismo tiempo. Ejemplo Se han aplicado los resultados de una correlacin de datos entre tres variables

Variables A B C

0,3 0,75 0,95

La mejor relacin es B C o C B y desde .95 ya es alta. La diagonal de | -unos- no tiene obviamente significado, nicamente forma una lnea divisoria entre valores que se repiten a ambos lados como en un espejo. Los coeficientes lineales, tal como se encuentran las parejas de datos en las series, forman un cuadrado en la tabla o matriz de correlacin, los calculamos con un programa de estadstica para ordenador, que tenga una capacidad de utilizar 8 o ms variables para series de 500 o ms datos cada una y que empleara esta frmula. r es igual a la suma de los productos de cada pareja de datos y dividido por el producto del nmero de datos por la desviacin estndar de cada variable o serie de datos. CORRELACION PARCIAL Aunque el trmino de correlacin parcial guarda cierta similitud con el de correlacin semiparcial, y de hecho presentan clculos parecidos, sus propsitos son bien diferentes. La correlacin semiparcial hay que situarla en el contexto de la regresin mltiple, en el proceso de inclusin de variables, para ver la contribucin delos distintos regresores en la explicacin de la variable dependiente. Normalmente las variables independientes comparten cierta informacin -estn solapadas-, y hay que comprobar si al incluirla en el modelo aportan nueva informacin o su aportacin es pura redundancia, si aaden variabilidad explicada o si la misma se encuentra en las variables incluidas anteriormente. En trminos estadsticos, se trata de averiguar el incremento ocurrido en R2 cuando se aade una (o varias) variables. Por ejemplo, si en un determinado modelo de regresin hemos incluido la variable X1, la variable X2y deseamos saber cuanto aporta la variable X3, simplemente calcularemos la diferencia entre la R2de estas tres variables y la R2 de las dos primeras variables. As, el incremento de R2, debido a la inclusin de X3 ser:

En la correlacin parcial interesa no tanto la contribucin de una determinada variable en el modelo de regresin, como la eliminacin de ciertasvariables que resultan perturbadoras para la cabal comprensin de la relacin entre las variables de inters. Tiene que ver con las

denominadas correlaciones espreas donde ser observan relaciones entre variables que parecen indicar que unas afectan otras, cuando en realidad la concomitancia que presentan es debida a que su variabilidad va pareja debido al efecto de terceras variables. Estas terceras variables son precisamente las que hay que detectar (no siempre cosa fcil) y eliminar su influjo para comprobar si realmente las variables consideradas siguen manteniendo la supuesta relacin. Un ejemplo tpico de correlacin esprea es aquel en el que se relacionan, para sujetos en periodos evolutivos, variables cognitivas y variables biolgicas, como la inteligencia y la estatura. Una alternativa al mtodo experimental de control de variables nos la ofrece el procedimiento de la correlacin parcial. Bsicamente consiste en eliminar la influencia de una variable restando su variabilidad del conjunto de variables a las que suponemos que afecta y operando con el resto de variabilidad de dichas variables.

Correlacin cruzada En estadstica, el trmino correlacin cruzada a veces es usado para referirse a la covarianza cov(X, Y) entre dos vectores aleatorios X e Y. En procesamiento de seales, la correlacin cruzada (o a veces denominada "covarianza cruzada") es una medida de la similitud entre dos seales, frecuentemente usada para encontrar caractersticas relevantes en una seal desconocida por medio de la comparacin con otra que s se conoce. Es funcin del tiempo relativo entre las seales, a veces tambin se la llama producto escalar desplazado, y tiene aplicaciones en el reconocimiento de patrones y en criptoanlisis. Dadas dos funciones discretas fi y gi la correlacin cruzada se define como:

donde la sumatoria se realiza sobre valores enteros de j apropiados; y el asterisco est indicando el conjugado. Para el caso de dos funciones continuas f(x) y g(x) la correlacin cruzada se define como:

donde la integral se realiza para valores apropiados de t. La correlacin cruzada tiene una naturaleza similar a la convolucin de dos funciones. Difiere en que la correlacin no involucra una inversin de seal como ocurre en la convolucin. Si e son variables aleatorias independientes con distribuciones de probabilidad f y g, respectivamente, entonces la distribucin de probabilidad de la diferencia est dada por la correlacin cruzada f g. En contraste, la convolucin f g da la distribucin de probabilidad de la suma Propiedades La correlacin cruzada se relaciona con la convolucin de la siguiente manera: entonces si f o g es una funcin par

Tambin:

CORRELACION CANONICA Las correlaciones cannicas constituyen una generalizacin de las correlaciones simples y mltiples. Las correlaciones simples estiman la relacin existente entre dos variables, la variable independiente X y la dependiente Y. Las correlaciones mltiples estiman la relacin entre un conjunto de variables independientes y una sola variable dependiente Y. Las correlaciones cannicas estiman la correlacin

existente entre un conjunto de variables independientes y otro conjunto de variables dependientes . Desde el punto de vista metodolgico el uso de las correlaciones cannicas exige varias reflexiones: la primera acerca del nmero de variables que componen el grupo X y el grupo Y. Si son muchas, posiblemente en casa grupo puede suceder que haya altas incorrelaciones, lo cual es igual a decir que se estn incluyendo 2 o ms variables que miden lo mismo. Si son muy pocas, es posible que no se acierte a incluir aquellas variables que realmente tienen mayor fuerza explicativa,......Se puede tomar como norma orientativa que el nmero mximo de variables sean 5 o 6. La segunda reflexin hace referencia a que el comportamiento ideal de las variables es aquel que presenta muy baja incorrelacin dentro de cada grupo, tanto en el de las X como en el de las Y, y mxima entre los dos grupos. Esto implica una eleccin afinada de aquellas variables, por una parte, ms relevantes y significativas tanto en el grupo de las X como en el grupo de las Y, a la vez que independientes entre s dentro de cada grupo, es decir, aquellas que midan cuestiones distintas y aparentemente desconexas aunque naturalmente referidas al tema que se est investigando. Una vez realizado el primer clculo de las correlaciones cannicas pueden eliminarse aquellas variables tanto del grupo de las X como del grupo de las Y que menos influencia explicativa presenten. As se realiza un segundo calculo y se comprueban los resultados obtenidos que naturalmente sern distintos al primero. Si se sigue ensayando y comparando resultados se llega a conclusiones importantes no slo sobre la ms alta correlacin cannica obtenida sino de aquellos conjuntos de variables que intervienen en tal correlacin as como de aquellas otras variables que hayan sido eliminadas por su escasa aportacin. Las observaciones o datos de los grupos de variables pueden operarse de forma matricial

Correlacin estadstica La correlacin estadstica determina la relacin o dependencia que existe entre las dos variables que intervienen en una distribucin bidimensional. Es decir, determinar si los cambios en una de las variables influyen en los cambios de la otra. En caso de que suceda, diremos que las variables estn correlacionadas o que hay correlacin entre ellas. Coeficiente de correlacin El coeficiente de correlacin lineal se expresa mediante la letra r.

Propiedades 1. El coeficiente de correlacin no vara al hacerlo la escala de medicin. Es decir, si expresamos la altura en metros o en centmetros el coeficiente de correlacin no vara. 2. El signo del coeficiente de correlacin es el mismo que el de la covarianza. Si la covarianza es positiva, la correlacin es directa. Si la covarianza es negativa, la correlacin es inversa. Si la covarianza es nula, no existe correlacin. 3. El coeficiente de correlacin lineal es un nmero real comprendido entre menos 1 y 1. 1 r 1 4. Si el coeficiente de correlacin lineal toma valores cercanos a 1 la correlacin es fuerte e inversa, y ser tanto ms fuerte cuanto ms se aproxime r a 1. 5. Si el coeficiente de correlacin lineal toma valores cercanos a 1 la correlacin es fuerte y directa, y ser tanto ms fuerte cuanto ms se aproxime r a 1. 6. Si el coeficiente de correlacin lineal toma valores cercanos a 0, la correlacin es dbil. 7. Si r = 1 1, los puntos de la nube estn sobre la recta creciente o decreciente. Entre ambas variables hay dependencia funcional. Coeficiente de Correlacion de Spearman En estadstica, el coeficiente de correlacin de Spearman, (ro) es una medida de la correlacin (la asociacin o interdependencia) entre dos variables aleatorias continuas. Para calcular , los datos son ordenados y reemplazados por su respectivo orden. El estadstico viene dado por la expresin:

donde D es la diferencia entre los correspondientes estadsticos de orden de x - y. N es el nmero de parejas. Se tiene que considerar la existencia de datos idnticos a la hora de ordenarlos, aunque si stos son pocos, se puede ignorar tal circunstancia Para muestras mayores de 20 observaciones, podemos utilizar la siguiente aproximacin a la distribucin t de Student

La interpretacin de coeficiente de Spearman es igual que la del coeficiente de correlacin de Pearson. Oscila entre -1 y +1, indicndonos asociaciones negativas o positivas respectivamente, 0 cero, significa no correlacin pero no independencia. La tau de Kendall es un coeficiente de correlacin por rangos, inversiones entre dos ordenaciones de una distribucin normal bivariante. Autocorrelacion La autocorrelacin es una herramienta matemtica utilizada frecuentemente en el procesado de seales. La funcin de autocorrelacin se define como la correlacin cruzada de la seal consigo misma. La funcin de autocorrelacin resulta de gran utilidad para encontrar patrones repetitivos dentro de una seal, como por ejemplo, la periodicidad de una seal enmascarada bajo el ruido o para identificar la frecuencia fundamental de una seal que no contiene dicha componente, pero aparecen numerosas frecuencias armnicas de esta. En estadstica, la autocorrelacin de una serie temporal discreta de un proceso Xt no es mas que simplemente la correlacin de dicho proceso con una versin desplazada en el tiempo de la propia serie temporal. Si Xt representa un proceso estacionario de segundo orden con un valor principal de se define entonces:

donde E es el valor esperado y k el desplazamiento temporal considerado (normalmente denominado desfase). Esta funcin vara dentro del rango [1, 1], donde 1 indica una correlacin perfecta (la seal se superpone perfectamente tras un desplazamiento temporal de k) y 1 indica una anticorrelacin perfecta. Es una prctica comn en muchas disciplinas el 3 abandonar la normalizacin por y utilizar los trminos autocorrelacin y autocovarianza de manera intercambiable. y ya Tipos de Muestreo En ocasiones en que no es posible o conveniente realizar un censo (analizar a todos los

elementos de una poblacin), se selecciona una muestra, entendiendo por tal una parte representativa de la poblacin.

Al elegir una muestra se espera conseguir que sus propiedades sean extrapolables a la poblacin. Este proceso permite ahorrar recursos, y a la vez obtener resultados parecidos a los que se alcanzaran si se realizase un estudio de toda la poblacin. Cabe mencionar que para que el muestreo sea vlido y se pueda realizar un estudio adecuado (que consienta no solo hacer estimaciones de la poblacin sino estimar tambin los mrgenes de error correspondientes a dichas estimaciones), debe cumplir ciertos requisitos. Nunca podremos estar enteramente seguros de que el resultado sea una muestra representativa, pero s podemos actuar de manera que esta condicin se alcance con una probabilidad alta. En el muestreo, si el tamao de la muestra es ms pequeo que el tamao de la poblacin, se puede extraer dos o ms muestras de la misma poblacin. Al conjunto de muestras que se pueden obtener de la poblacin se denomina espacio muestral. La variable que asocia a cada muestra su probabilidad de extraccin, sigue la llamada distribucin muestral. Existen diferentes criterios de clasificacin de los diferentes tipos de muestreo, aunque en general pueden dividirse en dos grandes grupos: mtodos de muestreo probabilsticos y mtodos de muestre o no probabilsticos. I. Muestreo probabilstico

Los mtodos de muestreo probabilsticos son aquellos que se basan en el principio de equiprobabilidad. Es decir, aquellos en los que todos los individuos tienen la misma probabilidad de ser elegidos para formar parte de una muestra y, consiguientemente, todas las posibles muestras de tamao n tienen la misma probabilidad de ser seleccionadas. Slo estos mtodos de muestreo probabilsticos nos aseguran la representatividad de la muestra extrada y son, por tanto, los ms recomendables. Dentro de los mtodos de muestreo probabilsticos encontramos los siguientes tipos: 1. Muestreo aleatorio simple: El procedimiento empleado es el siguiente: 1) se asigna un nmero a cada individuo de la poblacin y 2) a travs de algn medio mecnico (bolas dentro de una bolsa, tablas de nmeros aleatorios, nmeros aleatorios generados con una calculadora u ordenador, etc.) se eligen tantos sujetos como sea necesario para completar el tamao de muestra requerido. Este procedimiento, atractivo por su simpleza, tiene poca o nula utilidad prctica cuando la poblacin que estamos manejando es muy grande. 2. Muestreo aleatorio sistemtico: Este procedimiento exige, como el anterior, numerar todos los elementos de la poblacin, pero en lugar de extraer n nmeros aleatorios slo se extrae uno. Se parte de ese nmero aleatorio i, que es un nmero elegido al azar, y los elementos que integran la muestra son los que ocupa los lugares i, i+k, i+2k, i+3k,...,i+(n-1)k, es decir se toman los individuos de k en k, siendo k el resultado de dividir el tamao de la poblacin entre el tamao de la muestra: k= N/n. El nmero i que empleamos como punto de partida ser un nmero al azar entre 1 y k. El riesgo este tipo de muestreo est en los casos en que se dan periodicidades en la poblacin ya que al elegir a los miembros de la muestra con una periodicidad constante (k) podemos introducir una homogeneidad que no se da en la poblacin. Imaginemos que estamos seleccionando una muestra sobre listas de 10 individuos en los que los 5 primeros son varones y los 5 ltimos mujeres, si empleamos un muestreo aleatorio sistemtico con k=10 siempre

seleccionaramos o slo hombres o slo mujeres, no podra haber una representacin de los dos sexos. 3. Muestreo aleatorio estratificado: Trata de obviar las dificultades que presentan los anteriores ya que simplifican los procesos y suelen reducir el error muestral para un tamao dado de la muestra. Consiste en considerar categoras tpicas diferentes entre s (estratos) que poseen gran homogeneidad respecto a alguna caracterstica (se puede estratificar, por ejemplo, segn la profesin, el municipio de residencia, el sexo, el estado civil, etc.). Lo que se pretende con este tipo de muestreo es asegurarse de que todos los estratos de inters estarn representados adecuadamente en la muestra. Cada estrato funciona independientemente, pudiendo aplicarse dentro de ellos el muestreo aleatorio simple o el estratificado para elegir los elementos concretos que formarn parte de la muestra. En ocasiones las dificultades que plantean son demasiado grandes, pues exige un conocimiento detallado de la poblacin. (Tamao geogrfico, sexos, edades,...). La distribucin de la muestra en funcin de los diferentes estratos se denomina afijacin, y puede ser de diferentes tipos: Afijacin Simple: A cada estrato le corresponde igual nmero de elementos mustrales. Afijacin Proporcional: La distribucin se hace de acuerdo con el peso (tamao) de la poblacin en cada estrato. Afijacin Optima: Se tiene en cuenta la previsible dispersin de los resultados, de modo que se considera la proporcin y la desviacin tpica. Tiene poca aplicacin ya que no se suele conocer la desviacin. 4.-Muestreo aleatorio por conglomerados: Los mtodos presentados hasta ahora estn pensados para seleccionar directamente los elementos de la poblacin, es decir, que las unidades mustrales son los elementos de la poblacin. En el muestreo por conglomerados la unidad muestral es un grupo de elementos de la poblacin que forman una unidad, a la que llamamos conglomerado. Las unidades hospitalarias, los departamentos universitarios, una caja de determinado producto, etc., son conglomerados naturales. En otras ocasiones se pueden utilizar conglomerados no naturales como, por ejemplo, las urnas electorales. Cuando los conglomerados son reas geogrficas suele hablarse de "muestreo por reas". El muestreo por conglomerados consiste en seleccionar aleatoriamente uncierto numero de conglomerados (el necesario para alcanzar el tamao muestral establecido) y en investigar despus todos los elementos pertenecientes a los conglomerados elegidos.

II.

Mtodos de muestreo no probabilsticos

A veces, para estudios exploratorios, el muestreo probabilstico resulta excesivamente costoso y se acude a mtodos no probabilsticos, aun siendo conscientes de que no sirven para realizar generalizaciones (estimaciones inferenciales sobre la poblacin), pues no se tiene certeza de que la muestra extrada sea representativa, ya que no todos los sujetos de la poblacin tienen la misma probabilidad de se elegidos. En general se seleccionan a los sujetos siguiendo determinados criterios procurando, en la medida de lo posible, que la muestra sea representativa. En algunas circunstancias los mtodos estadsticos y epidemiolgicos permiten resolver los problemas de representatividad aun en situaciones de muestreo no probabilstico, por ejemplo

los estudios de caso-control, donde los casos no son seleccionados aleatoriamente de la poblacin. Entre los mtodos de muestreo no probabilsticos ms utilizados en investigacin encontramos: 1. Muestreo por cuotas: Tambin denominado en ocasiones "accidental". Se asienta generalmente sobre la base de un buen conocimiento de los estratos de la poblacin y/o de los individuos ms "representativos" o "adecuados" para los fines de la investigacin. Mantiene, por tanto, semejanzas con el muestreo aleatorio estratificado, pero no tiene el carcter de aleatoriedad de aqul. En este tipo de muestreo se fijan unas "cuotas" que consisten en un nmero de individuos que renen unas determinadas condiciones, por ejemplo: 20 individuos de 25 a 40 aos, de sexo femenino y residentes en Gijn. Una vez determinada la cuota se eligen los primeros que se encuentren que cumplan esas caractersticas. Este mtodo se utiliza mucho en las encuestas de opinin. 2.-Muestreo intencional o de conveniencia : Este tipo de muestreo se caracteriza por un esfuerzo deliberado de obtener muestras "representativas" mediante la inclusin en la muestra de grupos supuestamente tpicos. Es muy frecuente su utilizacin en sondeos preelectorales de zonas que en anteriores votaciones han marcado tendencias de voto. Tambin puede ser que el investigador seleccione directa e intencionadamente los individuos de la poblacin. El caso ms frecuente de este procedimiento el utilizar como muestra los individuos a los que se tiene fcil acceso (los profesores de universidad emplean con mucha frecuencia a sus propios alumnos). 3.- Bola de nieve: Se localiza a algunos individuos, los cuales conducen a otros, y estos a otros, y as hasta conseguir una muestra suficiente. Este tipo se emplea muy frecuentemente cuando se hacen estudios conpoblaciones "marginales", delincuentes, sectas, determinados tipos de enfermos, etc. 4.- Muestreo Discrecional A criterio del investigador los elementos son elegidos sobre lo que l cree que pueden aportar al estudio

También podría gustarte