Está en la página 1de 11

Regresin y correlacin INTRODUCCIN: Parte de la Estadstica corresponde a la Estadstica Inferencial y dentro de ella los captulos de correlacin y regresin son

muy usados en la Investigacin Cientfica, una herramienta muy til cuando se trata de relacionar 2 o ms varia les, relacionadas entre si, como por e!em" nivel de hemoglo ina y em ara#o en el m ito de las Ciencias de la $alud, la Correlacin implica el grado de dependencia de una varia le respecto a otra y la %egresin es otra t&cnica 'ue ayuda en la investigacin de la salud Psicologa costos de una Empresa etc" MARCO TEORICO: (a regresin como una t&cnica estadstica, una de ellas la regresin lineal simple y la regresin multifactorial, anali#a la relacin de dos o mas varia les continuas, cuando anali#a las dos varia les a esta se el conoce como varia le ivariantes 'ue pueden corresponder a varia les cualitativas, la regresin nos permite el cam io en una de las varia les llamadas respuesta y 'ue corresponde a otra conocida como varia le e)plicativa, la regresin es una t&cnica utili#ada para inferir datos a partir de otros y hallar una respuesta de lo 'ue puede suceder" $iendo as la regresin una t&cnica estadstica, por lo tanto para interpretar situaciones reales, pero a veces se manipula de mala manera por lo 'ue es necesario reali#ar una seleccin adecuada de las varia les 'ue van a construir las formulas matemtica, 'ue representen a la regresin, por eso hay 'ue tomar en cuenta varia les 'ue tiene relacin, de lo contraria se estara matemati#ando un galimatas" $e pueden encontrar varios tipos de regresin, por e!emplo: *" %egresin lineal simple 2" %egresin mltiple + varias varia les, -" %egresin logstica a" $imple , .ltiple, etc" (a regresin lineal t&cnica 'ue usa varia les aleatorias, continuas se diferencia del otro m&todo analtica 'ue es la correlacin, por 'ue esta ltima no distingue entre las varia les respuesta y la varia le e)plicativa por 'ue las trata en forma sim&trica"

(a matemati#acin nos da ecuaciones para manipular los datos, como por e!emplo medir la circunferencia de los ni/os y ni/as y 'ue parece incrementarse entre las edades de 2 meses y *0 a/os, a'u podemos inferir o predecir 'ue las circunferencias del crneo cam iara con la edad, en este e!ercicio la circunferencia de la ca e#a es la respuesta y la edad la varia le e)plicativa" En la regresin tenemos ecuaciones 'ue nos representan las diferentes clases de regresin: %egresin (ineal: y 1 2 3 4) %egresin (ogartmica: y 1 2 3 4(n+), %egresin E)ponencial: y 1 2c+
),

%egresin Cuadrtica: y 1 2 3 4) 3C)2

Para o tener un modelo de regresin es suficiente esta lecer la regresin para eso se hace uso del coeficiente de correlacin: %" % 1 Coeficiente de correlacin, este m&todo mide el grado de relacin e)istente entre dos varia les, el valor de % vara de 5* a *, pero en la prctica se tra a con un valor a soluto de %" El valor del coeficiente de relacin se interpreta de modo 'ue a media 'ue % se apro)ima a *, es ms grande la relacin entre los datos, por lo tanto % +coeficiente de correlacin, mide la apro)imacin entre las varia les" El coeficiente de correlacin se puede clasificar de la siguiente manera:

CORRELACIN VALOR O RANGO *, Perfecta *, % 1 * 2, E)celente 2, % 1 6"7 8 1 % 8 * -, 4uena -, % 1 6"0 8 1 % 8 6"7 9, %egular 9, % 1 6": 8 1 % 8 6"0 :, .ala :, % 8 6": DISTRIBUCIN DIVARIANTE DE INICIN : (a distri ucin divriate es cuando se estudia en una po lacin dos varia les, 'ue forman pares correspondientes a cada individuo, como por E!m: (as notas de *6 alumnos en iologa y lengua!e 4I;(;<I2 2 (E?<@2AE 2 9 2 : : : : = : = > > : > 0 0 > 7 *6

(os pares de valores son: + 2, 2, +9,2, +:,:,BB"+0,>, +7,*6, forman una distri ucin divriate" (a correlacin, m&todo por el cual se relacionan dos varia les se pude graficar con un diagrama de dispersin de puntos, a la cual muchos autores le llaman nu es de puntos, encuadrado dentro de un grfico de coordenadas C D en la

cual se pude tra#ar una recta y cuyos puntos mas cercanos de una recta ha laran de una correlacin mas fuerte, ha esta recta se le denomina rec!a "e regresin# 'ue puede ser positiva o negativa, la primera contundencia a aumentar y la segunda en descenso o decreciente" Eam i&n se puede descri ir un diagrama de dispersin en coordenadas cartesianas valores como en la distri ucin divriate, en donde la nu e de puntos representa los pares de valores"

GRA ICOS DE RECTA DE REGRESIN

Por ltimo se pueden graficar las l$neas "e !en"encia# herramienta muy til para el mercadeo por 'ue es utili#ada para evaluar la resistencia 'ue proyectan los precios" Cuando una lnea de tendencia central se rompe ya sea con tendencia al al#a o en la a!a es por'ue ocurre un cam io en los precios, por lo tanto las lneas de tendencia pueden ser alcista cuando se unen los puntos sucesivos y a!ista cuando se unen los puntos m)imos" Eam i&n e)isten grficos 'ue representan la dispersin de datos dentro de las coordenadas cartesianas, sea las nu es de puntos y 'ue pueden darse segn la relaciFn 'ue representa, 'ue puede ser lineal, e)ponencial y sin relacin, esta ltima cuando los puntos estn dispersos en todo el cuadro sin agruparse lo cual sugiere 'ue no hay relacin" (os grficos siguientes nos muestran esta relacin:

.atemticamente las ecuaciones seran: 2!uste (ineal: D 1 4) 3 2 2!uste (ogartmico: D 14(nC 3 2

2!uste E)ponencial: D 1 2C 4C En el modelo de regresin lineal simple se utili#a la t&cnica de estimacin de los mnimos cuadrados, este modelo tiene solo una varia le de prediccin y se supone una ecuacin de regresin lineal" En el siguiente e!emplo la relacin entre la calificacin y salario la varia le repuesta es el salario inicial y la varia le predictiva o de prediccin es la calificacin promedia, si se desea determinar una ecuacin de regresin para el salario inicial promedio como una funcin de la calificacin promedio se podr graficar y procesar los datos en una computadora, estos datos son: CP 1 Calificacin Promedio $I 1 $alario Inicial Ge este grupo de datos se o tiene el siguiente grfico de dispersin CP $I

2"7: *0":6 -"26 26"66 -"96 2*"*6 -"=6 22"96 -"26 2*"26 2"0: *:"66 -"*6 *0"66 2"0: *0"06 -"6: *:">6 2">6 *9"96

2">: *:":6 -"*6 *>"26 -"*: *7"66 2"7: *>"26 2">: *="06 COE ICIENTE DE CORRELACIN DE %EARSON El coe&icien!e "e correlacin "e %earson es un ndice estadstico 'ue mide la relacin lineal entre dos varia les cuantitativas" 2 diferencia de la covarian#a, la correlacin de Pearson es independiente de la escala de medida de las varia les" El clculo del coeficiente de correlacin lineal se reali#a dividiendo la covarian#a por el producto de las desviaciones estndar de am as varia les:

$iendo: HXY la covarian#a de +X,Y, HX y HY las desviaciones tpicas de las distri uciones marginales" El valor del ndice de correlacin vara en el intervalo I5* , 3*J:

$i r 1 6, no e)iste ninguna correlacin" El ndice indica, por tanto, una independencia total entre las dos varia les, es decir, 'ue la variacin de una de ellas no influye en a soluto en el valor 'ue pueda tomar la otra" $i r 1 *, e)iste una correlacin positiva perfecta" El ndice indica una dependencia total entre las dos varia les denominada relacin directa: cuando una de ellas aumenta, la otra tam i&n lo hace en id&ntica proporcin" $i 6 8 r 8 *, e)iste una correlacin positiva" $i r 1 5*, e)iste una correlacin negativa perfecta" El ndice indica una dependencia total entre las dos varia les llamada relacin inversa: cuando una de ellas aumenta, la otra disminuye en id&ntica proporcin" $i 5* 8 r 8 6, e)iste una correlacin negativa"

$e dice 'ue una correlacin es significativa si la misma se encuentra entre I5* K 56,>J o I* K 6,>J A'(s!e )or c(a"ra"os *$ni*os @no de los tipos ms comunes e interesantes de e)perimento involucra la medicin de varios valores de dos diferentes varia les fsicas a fines de investigar la relacin matemtica entre las dos varia les" @d" mismo ha reali#ado e)perimentos de esta clase en este curso" $in em argo, en dichos e)perimentos el a!uste de los datos a una funcin propuesta, tal como una lnea recta, fue reali#ada en forma cualitativa, es decir, a o!o" E)isten formas cuantitativas de encontrar el valor de los parmetros 'ue me!or representan a un con!unto de datos, y es precisamente este tema el 'ue trataremos en esta $eccin" (e recomendamos nuevamente 'ue, adems del reve desarrollo includo en este apunte, consulte la i liografa recomendada por la Ctedra" Pro a lemente, los e)perimentos ms comunes del tipo descripto ms arri a son a'uellos para los cuales la relacin esperada entre las varia les es lineal" Por e!emplo, si creemos 'ue un cuerpo est cayendo con aceleracin constante g, entonces su velocidad v de era ser una funcin lineal del tiempo t, v 1 v6 3 gt" En forma ms general, consideraremos un par cual'uiera de varia les fsicas x e y de las cuales sospechemos 'ue estn relacionadas por una relacin lineal de la forma y 1 A 3 Bx, donde A y B son constantes" $i las dos varia les y y x estn relacionadas de esta manera, entonces un grfico de y versus x de iera resultar en una lnea recta de pendiente B, 'ue intersecta al e!e y en y 1 A" $i medimos N diferentes valores de x y los correspondientes valores de y, y si nuestras mediciones no estn su!etas a incerte#a alguna, entonces cada uno de los puntos + xi, yi, caera e)actamente so re la lnea y 1 A 3 Bx" En la prctica, existen incerte#as, y lo me!or 'ue podemos esperar es 'ue la distancia entre cada punto y la recta sea ra#ona le comparada con las incerte#as, tal como en el caso de la siguiente figura:

(as inevita les incerte#as e)perimentales se muestran a trav&s de las arras de error, y slo podemos esperar 'ue los puntos est&n ra#ona lemente cerca de la recta" En este caso, slo la varia le y est su!eta a incerte#as aprecia les" Cuando reali#amos una serie de mediciones de este tipo, podemos hacernos dos preguntas" En primer lugar, si tomamos por garantido 'ue y y x estn relacionadas linealmente, entonces el pro lema es encontrar la recta y 1 A 3 Bx 'ue me!or se a!usta a las mediciones, es decir, las me!ores estimaciones para los valores de A y B" Este pro lema puede tratarse grfica o analticamente" El m&todo analtico de encontrar la me!or recta 'ue se a!usta a una serie de datos e)perimentales es llamado regresin lineal, o ajuste de mnimos cuadrados para una recta" (a segunda pregunta 'ue surge es si los valores medidos realmente llenan nuestras e)pectativas acerca de la linealidad entre y y x" Para contestar a esta pregunta, de eramos primero encontrar la recta 'ue me!or se a!usta a los datos, y adems encontrar alguna forma de medir 'u& tan ien esta lnea se a!usta a los datos" $i conocemos las incerte#as asociadas a los datos, como en el caso de la figura :, podemos evaluar el a!uste visualmente" $i no tenemos una estimacin confia le de las incerte#as, entonces tenemos 'ue anali#ar la ondad del a!uste e)aminando la distri ucin de los puntos mismos" Este pro lema, relacionado con los conceptos de covarianza y correlacin, no ser tratado en esta $eccin" Layamos a la cuestin de encontrar la recta y 1 A 3 Bx 'ue me!or se a!usta a un con!unto de puntos +x*, y*,,""", +xN, yN," Para simplificar nuestra discusin, supondremos 'ue slo las incerte#as de la varia le y son aprecia les" Esta suposicin es frecuentemente muy ra#ona le, por'ue es comn el caso en 'ue

las incerte#as en una varia le son muchos ms grandes 'ue en la otra" $upondremos adems 'ue todas las incerte#as en y tiene la misma magnitud" +Esta suposicin es tam i&n ra#ona le en muchos e)perimentos" $i las incerte#as fueran diferentes, e)isten formas de generali#ar el anlisis dndole un peso adecuado a las distintas mediciones," $i conoci&ramos las constantes A y B, entonces, para cual'uier valor xi podramos calcular el verdadero valor yi 'ue le corresponde: +verdadero valor de yi, 1 A 3 B xi" (a desviacin de esta magnitud respecto al valor medido se puede escri ir entonces como: dyi 1 yi M +A 3 B xi," Intuitivamente, vemos 'ue un criterio ra#ona le para elegir la recta 'ue me!or se a!usta a los puntos e)perimentales es elegir a'uella 'ue minimice la suma de los cuadrados de las desviaciones individuales d yi" Esto significa 'ue el valor de los parmetros A y B estar dado por las siguientes dos condiciones: +NONA,I$+dyi,2J 1 52 $ +yi 5 A 5 B xi,2 1 6 +NONB,I$+dyi,2J 1 52 $xi +yi 5 A 5 B xi,2 1 6" (a resolucin simultnea de estas ecuaciones resulta en las e)presiones siguientes +demu&streloP,: A 1 + $xi2 $yi 5 $xi $xi yi ,OG , B 1 + N $xi yi 5 $xi $yi ,OG , donde G 1 N $xi2 5 +$xi ,2 " Como vemos, la aplicacin del criterio de minimi#acin de la suma de los cuadrados de las desviaciones resulta en la o tencin de resultados o !etivos para los parmetros A y B" 2dems de 'ue este criterio es intuitivamente ra#ona le, se puede demostrar 'ue si la medicin de cada yi est go ernada por una distri ucin <aussiana, entonces la me!or estimacin de los parmetros A y B es a'uella 'ue minimi#a la suma $+dyi,2" (a desviacin estndard de la pendiente y la ordenada al origen se calculan en t&rminos de la desviacin estndard s y de la distri ucin de valores de dyi alrededor de la me!or recta +en el sentido de los cuadrados mnimos," Esta desviacin estndard est dada por sy 1 I$+dyi,2 O +N M 2,J*O2"

El factor +N M 2, o edece a ra#ones 'ue no demostraremos a'u, y 'ue estn ligadas al nmero de grados de li ertad disponi les" +Para una !ustificacin estadstica ms profunda refi&rase a la i liografa sugerida," @sando esta e)presin para la incerte#a de los valores medidos yi , podemos usar propagacin de errores para escri ir las incerte#as en las cantidades A y B: sA 1 sy +$xi2 OG ,*O2 sB 1 sy +N OG ,*O2" Ge esta forma, la aplicacin del criterio de cuadrados mnimos nos ha permitido encontrar la me!or estimacin de los parmetros A y B, as como tam i&n su incerte#a" Es fcil demostrar 'ue si por alguna ra#n tenemos motivos para suponer 'ue la me!or recta debe pasar por el origen de coordenadas, o sea 'ue es de la forma y 1 Bx, entonces la me!or estimacin para la constante B es: B 1 $xi yi O $xi2" (a incerte#a en B est dada en este caso por:

sB 1 sy O +$xi2 ,*O2 1 I$+yi 5 Bxi,2 O +N M *,J*O2 O +$xi2,*O2"