Está en la página 1de 24

INTRODUCCIN.

La Correlacin y la Regresin son de suma importancia ya que la correlacin entre dos variables tan solo significa que ambas variables comparten informacin, que comparten variabilidad y Los modelos de regresin se usan cuando tenemos dos o ms variables relacionadas en un conjunto de datos y queremos explorar como el comportamiento de una de ellas (que se denominan la variable respuesta o dependiente) se ve influenciada por las otras variables (que se denominan variables explicativas o independientes). Por todo lo anteriormente mencionado esta investigacin tiene como objetivo general indagar y conocer todo lo relacionado con Correlacin y Regresin a fin de lograr un anlisis de lo entendido; por ello la investigacin se estructura de la siguiente manera: -Correlacin: Diagrama de Dispersin, Coeficiente de Correlacin lineal de Pearson, Multiple. -Regresin: Ecuacin de la Funcin Lineal, Ecuacin de Regresin, Mtodos Mnimos Cuadrados, Error de Estimacin e Intervalo de Confianza de una Estimacin. Por ltimo se deja en conocimiento las conclusiones donde se explica en forma clara y precisa los objetivos alcanzados y lo entendido de la investigacin con sus respectivas referencias. Causalidad y Correlacin, Coeficiente de Correlacin por Rangos de Spearman, Coeficiente Biseral Puntual y Correlacin Parcial y

CORRELACION Y REGRESIN. CORRELACIN. El concepto de correlacin es particularmente valioso. Anlisis estadsticos de un conjunto de datos puede revelar que dos variables (esto es, dos propiedades de la poblacin bajo consideracin) tienden a variar conjuntamente, como si hubiera una conexin entre ellas. Por ejemplo, un estudio del ingreso anual y la edad de muerte podra resultar en que personas pobres tienden a tener vidas ms cortas que personas de mayor ingreso. Las dos variables se dicen que estn correlacionadas. Diagrama de Dispersin. Un diagrama de dispersin es un tipo de diagrama matemtico que utiliza las coordenadas cartesianas para mostrar los valores de dos variables para un conjunto de datos. Los datos se muestran como un conjunto de puntos, cada uno con el valor de una variable que determina la posicin en el eje horizontal y el valor de la otra variable determinado por la posicin en el eje vertical. Un diagrama de dispersin se llama tambin grfico de dispersin; donde, se representa grficamente la relacin entre dos variables, muy utilizada en las fases de Comprobacin de teoras e identificacin de causas raz y en el Diseo de soluciones y mantenimiento de los resultados obtenidos. Coeficiente de Correlacin lineal de Pearson. En estadstica, el coeficiente de correlacin de Pearson es un ndice que mide la relacin lineal entre dos variables aleatorias cuantitativas (escala

mnima de intervalo). A diferencia de la covarianza, la correlacin de Pearson es independiente de la escala de medida de las variables. De manera menos formal, se puede definir el coeficiente de correlacin de Pearson como un ndice que puede utilizarse para medir el grado de relacin de dos variables siempre y cuando ambas sean cuantitativas. Causalidad y Correlacin. La correlacin entre dos variables tan solo significa que ambas variables comparten informacin, que comparten variabilidad. Determinar el origen de la informacin, la fuente de la variabilidad -la causa- es una cuestin que no puede resolverse mediante recursos exclusivamente matemticos. La correlacin (relacin lineal entre dos variables) y la causalidad (el hecho de que todo evento tenga una causa) no tienen por qu venir juntas, es decir, que una cause la otra; por lo que la correlacin no demuestra causalidad. -Causalidad. En estadstica, la causalidad se refiere a una relacin de necesidad de concurrencia de dos variables estadsticas correlacionadas, probar causalidad entre dos variables implica adems de que guarden una correlacin positiva, estudiar en casos donde una pueda aparecer sin la otra, etc. -Correlacin. La correlacin indica la fuerza y la direccin de una relacin lineal y proporcionalidad entre dos variables estadsticas. Se considera que dos variables cuantitativas estn correlacionadas cuando los valores de una de ellas varan sistemticamente con respecto a los valores homnimos de la 5

otra: si tenemos dos variables (A y B) existe correlacin si al aumentar los valores de A lo hacen tambin los de B y viceversa. La correlacin entre dos variables no implica, por s misma, ninguna relacin de causalidad. Coeficiente de Correlacin por Rangos de Spearman. En estadstica, el coeficiente de Spearman, es una medida de la correlacin entre dos variables aleatorias continuas. Para calcularlo, los datos son ordenados y reemplazados por su respecto orden. Su expresin :

Donde D es la diferencia entre los correspondientes estadsticos de orden de x y. N es el nmero de parejas. Se tiene que considerar la existencia de datos idnticos a la hora de ordenarlos, aunque si stos son pocos, se puede ignorar tal circunstancia. Para muestras mayores de 20 observaciones, se puede utilizar la siguiente aproximacin a la distribucin t de estudiante.

-Coeficiente Biserial Puntual. El coeficiente de correlacin biserial puntual se utiliza cuando queremos conocer la correlacin existente entre dos variables, de las cuales una ha sido medida en escala de intervalos y la otra resulta ser una variable dicotmica. Generalmente, el coeficiente de correlacin biserial puntual se denota mediante la expresin rbp. 6

En general, la correlacin biserial puntual se establece como una correlacin de Pearson entre dos variables, con la particularidad de que una de esas Variables es de tipo continuo y la otra es una variable dicotmica (no dicotomizada, como ocurre en el caso de la correlacin biserial). En el caso concreto que se expone, en el que la discriminacin va a ser calculada mediante un coeficiente de correlacin tem-test, se considera a cada uno de los tems i como una variable dicotmica, puesto que lo que se tiene en cuenta es si el sujeto contesta o no correctamente al tem. A la respuesta correcta se le puede asignar el valor uno y a la respuesta incorrecta el valor cero, de manera que cualquier sujeto obtendr, como vector de respuesta a la prueba un conjunto de unos y de ceros. Las puntuaciones globales de los sujetos en la prueba, si las hay en nmero suficiente, pueden considerarse como valores de una variable continua. (En tems no acertados incluimos tems no alcanzados y omisiones). Correlacin Parcial y Mltiple. -Correlacin Parcial. El coeficiente de correlacin parcial de primer orden, anotado aqu , permite conocer el valor de la correlacin entre dos variables A y B, si la variable C haba permanecido constante para la serie de observaciones consideradas. La correlacin parcial se define como la correlacin entre dos variables si las dems variable no varan, es decir, el valor de las dems variables son fijos. Por ejemplo, el coeficiente de correlacin parcial 12.3, es la correlacin entre la variable 1 y 2 siendo constante el valor de la variable 3; o el coeficiente de correlacin parcial 23.1 es la correlacin entre la variable 2 y 3 siendo constante el valor de la variable 1. La correlacin parcial r12.3, 7

sera la correlacin lineal entre la variable 1 y 2 dejando como constante la variable 3. Esto quiere decir que hay que medir la correlacin entre la variable 1 y 2 que no sea un reflejo de sus relaciones con la variable 3. Por tanto, se puede obtener una estima muestral r12.3 calculando la desviacin o residuo e13, de la regresin de la variable 1 sobre la variable 3, y la desviacin o residuo e23, de la regresin de la variable 2 sobre la variable 3. Y r12.3 es el coeficiente de correlacin simple entre e13 y e23. -Correlacin Mltiple. Una correlacin mltiple (R) es el coeficiente de correlacin entre una variable criterio (Y) y la combinacin linear de las variables llamadas predictoras (X) que tambin se pueden denominar, y es ms claro, variables independientes. El trmino predictor es habitual aunque segn la finalidad que se busque puede resultar ambiguo (podemos estar explicando ms que prediciendo). La combinacin lineal es la suma algebraica de las variables predictoras o independientes ponderadas por sus coeficientes beta; estos coeficientes son anlogos a los coeficientes b y se calculan utilizando puntuaciones tpicas. La correlacin mltiple se simboliza como R e incluye el clculo de los coeficientes beta de cada variable.

REGRESIN.
La regresin estadstica o regresin a la media es la tendencia de una medicin extrema a presentarse ms cercana a la media en una segunda medicin.

Ecuacin de la Funcin Lineal. El modelo de regresin lineal esta dado por y i=01 x ii donde y es la variable respuesta, x es la variable explicativa y son independientes y se distribuyen N 0, 2 . Con referencia a este modelo los objetivos de la regresin son: -Estimar los valores de los parmetros -Estimar sus errores estndares -Establecer la significacin estadstica de los parmetros -Determinar que fraccin de la variacin en y es explicada por el modelo y que fraccin permanece sin explicacin Para escribir la ecuacin de una funcin lineal y = mx + n, es necesario conocer los valores numricos de m y n. Para hallarlos basta tener una de las siguientes condiciones: un punto de la recta y la pendiente o dos puntos de la recta. En el primer caso debemos hallar el valor de n, para ellos sustituimos el valor de my las coordenadas del punto en la ecuacin y despejamos la n. Ejemplo: Escribe la ecuacin de la funcin lineal f, conociendo que m = 5 y el punto ( 3 ; 1) pertenece af. 0 , 1 0 y 1 son los parmetros del modelo, el intercepto y la pendiente, respectivamente. Los i

En el segundo caso debemos hallar la m y la n, por lo que debemos comenzar calculando la m por la frmula como se muestra en ejemplo, y luego procedemos como en el primer caso, utilizando cualquiera de los dos puntos. A la derecha se muestra el procedimiento que se utiliza para escribir la ecuacin de la funcin lineal g, conociendo las coordenadas de dos de sus puntos ( 1 ; 1) y (4 ; 11). En la frmula de la pendiente, en el numerador se escribe la diferencia de las ordenadas y en el denominador, la de las abscisas. Si el valor de la coordenada que se coloca despus del signo de menos es negativo, se puede escribir un signo ms directamente. Si la diferencia de las ordenadas es igual a cero, la pendiente es igual a cero y la ecuacin es y = n. Si la diferencia de las abscisas es igual a cero, se indefine la fraccin y no existe la pendiente; por lo que se obtiene una recta paralela al eje y la cual no representa una funcin. Ecuacin de Regresin. Es el conjunto de tcnicas estadsticas empleado para medir la intensidad de la asociacin entre dos variables. El valor del coeficiente de correlacin 10

puede tomar valores desde menos uno hasta uno, indicando que mientras ms cercano a uno sea el valor del coeficiente de correlacin, en cualquier direccin; y sirve para hallar la prediccin de cierto numero. Y SU FORMULA ES: Yn=a0+a1(n) Mtodos Mnimos Cuadrados. El procedimiento mas objetivo para ajustar una recta a un conjunto de datos presentados en un diagrama de dispersin se conoce como "el mtodo de los mnimos cuadrados". La recta resultante presenta dos caractersticas importantes: 1. Es nula la suma de las desviaciones verticales de los puntos a partir de la recta de ajuste (Y - Y) = 0. 2. Es mnima la suma de los cuadrados de dichas desviaciones. Ninguna otra recta dara una suma menor de las desviaciones elevadas al cuadrado (Y - Y) 0 (mnima). El procedimiento consiste entonces en minimizar los residuos al cuadrado Ci

Re emplazando

nos queda

La obtencin de los valores de a y b que minimizan esta funcin es un problema que se puede resolver recurriendo a la derivacin parcial de la funcin en trminos de a y b: llamemos G a la funcin que se va a minimizar: 11

Tomemos las derivadas parciales de G respecto de a y b que son las incgnitas y las igualamos a cero; de esta forma se obtienen dos ecuaciones llamadas ecuaciones normales del modelo que pueden ser resueltas por cualquier mtodo ya sea igualacin o matrices para obtener los valores de a y b.

Derivamos parcialmente la ecuacin respecto de a

Primera ecuacin normal Derivamos parcialmente la ecuacin respecto de b

12

Segunda ecuacin normal Los valores de a y b se obtienen resolviendo el sistema de ecuaciones resultante. Veamos el siguiente ejemplo: En un estudio econmico se desea saber la relacin entre el nivel de instruccin de las personas y el ingreso. EJEMPLO. Se toma una muestra aleatoria de 8 ciudades de una regin geogrfica de 13 departamentos y se determina por los datos del censo el porcentaje de graduados en educacin superior y la mediana del ingreso de cada ciudad, los resultados son los siguientes: CIUDAD : 1 2 3 4 5 6 7 8 % de (X) Graduados : 7.2 6.7 17.0 12.5 6.3 23.9 6.0 10.2 Ingreso (Y) Mediana : 4.2 4.9 7.0 6.2 3.8 7.6 4.4 5.4 (0000) Tenemos las ecuaciones normales y = na + bx xy = ax + bx 13

Debemos encontrar los trminos de las ecuaciones y, x, xy, x Por tanto procedemos de la siguiente forma:

Y 4.2

XY

7.2 30.2 51.84 4 6.7 32.8 44.89 3

4.9

7.0 17.0 119.0 289.0 0 0 6.2 12.5 77.50 156.25 3.8 6.3 23.9 39.69 4

7.6 23.9 181.6 571.21 4 4.4 6.0 26.4 36.00 0

5.4 10.2 55.0 104.04 8 43.5 89. 546. 1292.9 8 63 2

Sustituyendo en las ecuaciones los resultados obtenidos tenemos: 43.50 = 8a + 89.8b 546.63 = 89.8a + 1292.92b multiplicamos la primera ecuacin por (-89.8) y la segunda por (8) as: 14

43.50 = 8a + 89.8b (-89.8) 546.63 = 89.8a + 1292.92b (8) -3906.30 = -718.4a - 8064.04b 4373.04 = 718.4a + 10343.36b 466.74 = -0- 2279.32b

Este valor de b lo reemplazamos en cualquiera de las ecuaciones para obtener a as: Reemplazando b = 0.20477 en la primera ecuacin normal 43.5 = 8a + 89.8 (0.20477) 43.5 = 8a + 18.3880 43.5 - 18.3880 = 8a 25.1120 = 8a

Tenemos entonces que los coeficientes de regresin son : a = 3.139 y b = 0.20477. Por tanto la ecuacin de regresin nos queda:

Significa entonces que por cada incremento en una unidad en X el valor de se aumenta en 0.20477 Esta ecuacin permite estimar el valor de para cualquier valor de X, por

ejemplo: Una ciudad que tiene un porcentaje de graduados a nivel superior del 28% la mediana de ingreso para la ciudad ser:

15

Los valores a y b tambin se pueden obtener de la siguiente forma: partiendo de las ecuaciones normales tenemos:

Si dividimos todos los trminos de la ecuacin (1) entre n nos queda:

Tenemos entonces que el primer termino es el segundo termino es incgnita a y el tercer termino es la incgnita b multiplicada por nos queda: entonces

la

por tanto

Reemplazando a en la ecuacin (2) tenemos

16

a = 5.4375 0.20477 (11.2250) = 5.4375 2.2985 = 3.139 Se debe tener presente la diferencia entre el valor de obtenido con la es una

ecuacin de regresin y el valor de Y observado. Mientras

estimacin y su bondad en la estimacin depende de lo estrecha que sea la relacin entre las dos variables que se estudian; Y es el valor efectivo, verdadero obtenido mediante la observacin del investigador. En el ejemplo Y es el valor mediano del ingreso que obtuvo el investigador utilizando todos los ingresos observados en cada ciudad y es el valor estimado con

base en el modelo lineal utilizado para obtener la ecuacin de regresin. Los valores estimados y observados pueden no ser iguales por ejemplo la primera ciudad tiene un ingreso mediano observado de Y = 4.2 al reemplazar en la ecuacin el porcentaje de graduados obtenemos un 17 estimado de

Grficamente lo anterior se puede mostrar as:

Claramente se observa en la grfica que hay una diferencia entre el valor efectivo de Y y el valor estimado; esta diferencia se conoce como error en la estimacin, este error se puede medir. A continuacin se ver el procedimiento. Error de Estimacin. -Error estndar en la estimacin El error estndar de la estimacin designado por sYX mide la disparidad "promedio" entre los valores observados y los valores estimados de utiliza la siguiente formula. . Se

Debemos entonces calcular los valores de cada ciudad estudiada. 18

para cada ciudad

sustituyendo en la ecuacin los valores de los porcentajes de graduados de

4.2 4.9 7.0 6.2 3.8 7.6 4.4 5.4

7.2 6.7 17.0 12.5 6.3 23.9 6.0 10.2

4.6 4.5 6.6 5.7 4.4 8.0 4.4 5.2

-0.4 0.4 0.4 0.5 -0.6 -0.4 0.0 0.2

0.16 0.16 0.16 0.25 0.36 0.16 0.00 0.04 1.29

Syx = 0.46 (decenas de miles $) Como esta medida trata de resumir la disparidad entre lo observado y lo estimado, es decir, trata de medir la diferencia promedio entre lo observado y lo estimado esperado de acuerdo al modelo, puede considerarse como un indicador del grado de precisin con que la ecuacin de regresin, describe la relacin entre las dos variables. Este error estndar se ve afectado por las unidades y sus cambios ya que es una medida absoluta, pues, se da en la 19

misma unidad de medida que esta dada la variable Y; en el ejemplo 0.46 sern decenas de miles de pesos, razn por la cual no es posible comparar con las relaciones de variables dadas en distinta unidad de medida. Es necesario entonces calcular una medida que interprete o mida mejor el grado de relacin entre las variables. El error d estimacin es el valor absoluto de la diferencia entre una estimacin particular y el valor del parmetro. En realidad por cada valor estimado del parmetro se tiene un error de estimacin por lo general diferente. Sin embargo, es posible fijar un intervalo dentro del cual se encontrarn la mayora de los valores de error de estimacin para un estimador y parmetro dados. En la tabla siguiente se dan las frmulas de los errores de estimacin para algunos estimadores y los estimadores para tales errores. Los estimadores se usan cuando los parmetros que se incluyen en las frmulas de los errores de estimacin son desconocidos.
PARMETRO ESTIMADOR ERROR ESTNDAR ESTIMADOR DEL ERROR

N =

20

-Intervalo de Confianza de una Estimacin. Estimar, es decir pronosticar, un parmetro de la poblacin, generalmente la media, la varianza (en consecuencia la desviacin tpica) y la proporcin, a partir de una muestra de tamao n. Pero a diferencia de la estimacin puntual donde tal estimacin se efecta dando un valor concreto. Se dar un intervalo donde se afirmara pronosticar que en su interior se encontrar el parmetro a estimar, con una probabilidad de acertar previamente fijada y que trataremos que sea la mayor posible, es decir prxima a 1. Para ello vamos a establecer la notacin a utilizar: Parmetro Media Varianza Desviacin Tpica Cuasivarianza En la Muestra X S2n Sn Sn-1 En la Poblacin 2 n-1

El proceso para obtener el intervalo es dar una variable aleatoria donde intervenga el parmetro a estimar y el correspondiente de la muestra. A esta variable se le llama estadstico pivote y debe seguir una distribucin de probabilidad conocida. Por ejemplo para el clculo de un intervalo de confianza de la media se utiliza el siguiente estadstico pivote: X S n 1/ n

21

Pues bien, esa expresin donde interviene la media muestral, la media poblacional, la cuasi desviacin tpica y el tamao muestral, sigue una distribucin de probabilidad conocida que se encuentra tabulada, llamada tStudent con n-1 grados de libertad. Se trata pues de dar un intervalo (a, b) de modo que P (a < g < b) = 1 , siendo g el estadstico pivote correspondiente. Una vez establecida esa desigualdad, despejamos el parmetro poblacional que es el que queremos centrar en el intervalo.

22

CONCLUSIONES. Al finalizar la investigacin se concluye que: La correlacin es el anlisis estadstico de un conjunto de datos, puede revelar que dos variables tienden a variar conjuntamente, como si hubiera una conexin entre ellas. A travs de los diagramas de dispersin se descubren las verdaderas

relaciones de causa-efecto, es la clave de la resolucin eficaz de un problema, que las relaciones de causa-efecto casi siempre muestran variaciones, y que es ms fcil ver la relacin en un diagrama de dispersin que en una simple tabla de nmeros. Al encontrar una correlacin entre dos mediadas no significa automticamente que una cause la otra, es decir correlacin no demuestra causalidad (el hecho de que todo evento tenga una causa). La interpretacin de coeficiente de Spearman es igual que la del coeficiente de Pearson. no independencia. La correlacin biserial puntual tambin se asemeja a la correlacin de Pearson entre dos variables, con la particularidad de que una de esas Variables es de tipo continuo y la otra es una variable dicotmica (no dicotomizada, como ocurre en el caso de la correlacin biserial). La correlacin parcial no involucra la nocin de variables independientes y dependientes sino que es una medida de interdependencia. El coeficiente de correlacin mltiple se aplica a la situacin en que una variable, a la que Oscila entre -1 y +1, indicndonos asociaciones negativas o positivas respectivamente, 0 cero, significa no correlacin pero

23

se puede seguir llamando Y, ha sido aislada para examinar su relacin con el conjunto de las otras variables. Los objetivos de los modelos de regresin son estimar los parmetros del modelo y estimar la bondad o el ajuste del modelo a los datos, es decir, la calidad del modelo para describir los datos. Para escribir la ecuacin de una funcin lineal, es necesario conocer los valores numricos. Para hallarlos basta tener un punto de la recta y la pendiente dos puntos de la recta. La ecuacin de regresin sirve para medir la intensidad de la asociacin entre dos variables y para hallar la prediccin de cierto nmero. Los mtodos mnimos cuadrados consiste en despus de realizar los procedimientos de cierta ecuacin ajustar una recta a un conjunto de datos presentados en un diagrama de dispersin. El error de estimacin es el valor absoluto de la diferencia entre una estimacin particular y el valor del parmetro. Se utiliza el promedio para su estimacin. El proceso para obtener el intervalo es dar una variable aleatoria donde intervenga el parmetro a estimar y el correspondiente de la muestra. De manera general, se puede afirmar que le correlacin y regresin se asemejan en que ambos tienen en comn las variables; la primera para determinar si se relacionan entre si y la segunda para explorar el comportamiento; por otra parte, ambas se representan grficamente a travs de diagramas de dispersin luego de hallar ecuaciones y resolverla a travs de diferentes modelos.

24

REFERENCIAS.

Wikipedia Enciclopedia Libre. [Pgina Web]. Disponible en Lnea: http://es.wikipedia.org/wiki/Diagrama_de_dispersi%C3%B3n [Consulta: 2012, Agosto 23].

Monografas.com. [Pgina Web]. Disponible en Lnea: http://www.monografias.com/trabajos14/estadistica/estadistica.shtml [Consulta: 2012, Agosto 23].

Wikipedia Enciclopedia Libre. [Pgina Web]. 2012, Agosto 23].

Disponible en Lnea:

http://es.wikipedia.org/wiki/Causalidad_(estad%C3%ADstica) [Consulta:

Wikipedia Enciclopedia Libre. [Pgina Web]. Disponible en Lnea: http://es.wikipedia.org/wiki/Correlaci%C3%B3n [Consulta: 2012, Agosto 23]. Wikipedia Enciclopedia Libre. [Pgina Web]. Disponible en Lnea: http://es.wikipedia.org/wiki/Correlaci%C3%B3n_parcial [Consulta: 2012, Agosto 23]. [Pgina [Consulta: 2012, Agosto 18]. Web]. Disponible en Lnea:

http://www.eiesxunqueira1.com/Download/pdf/teointervalos.pdf

25

[Pgina Agosto 18]

Web].

Disponible

en

Lnea:

http://personal.us.es/vararey/adatos2/correlacion.pdf [Consulta: 2012,

Wikipedia Enciclopedia Libre. [Pagina Web]. Disponible en Lnea: http://es.wikipedia.org/wiki/Regresi%C3%B3n [Consulta: 2012, Agosto 18]. UNIVERSIDAD DE LOS ANDES. [Documento en Lnea: REGRESIN LINEAL. ESTADISTICA Y SIMULACIN]. Disponible en: http://cesimo.ing.ula.ve/~mablan/estadistica/uploads/regresion.pdf [Consulta: 2012, Agosto 18]. Blog de MARISNENA. (2009). [Pgina Web]. Disponible en Lnea: http://marisnena2009.blogspot.com/2009/05/ecuacion-de-regresion.html [Consulta: 2012, Agosto 18]. Monografas.com. [Pgina Web]. Disponible en Lnea:

http://www.monografias.com/trabajos16/metodos-lineales/metodoslineales.shtml#d [Consulta: 2012, Agosto 18].


Ramos J. Estimacin por intervalos de confianza. I.E.S. A Xunqueira I. [Libro en Linea: Mtodos Estadsticos y numricos]. Disponible en: http://www.iesxunqueira1.com/Download/pdf/teointervalos.pdf

26

También podría gustarte