Está en la página 1de 13
REGRESION Y CORRELACION simple {Claro que me acuerdo...! a ganar dinero. Aprendimos que la muestra se Recuerdas.. de la regresi la teoria yde Fue aquel verano que empezamos utiliza para inferir en la poblacion Regresemos a aquel verano ... Era un dia de verano, Javi y Carlitos se encontraban en la playa jugando a la pelota. Savi: Estoy harto de hacer siempre lo Jo mismo. Carlitos: ¥ yo. Podiamos pensar algo qué hacer esta noche. En ese momento, Don José, padre de Javi, que tenia “ puesta la oreja” a lo que los chiquillos estaban hablando, pensé que le podrian ayudar en su trabajo. Don José, ademas de otros negocios, tiene un parque de atracciones y todos los veranos se preocupa mucho para que el negocio funcione bien. ‘Cuando los chiquillos se acercaron, les llamo. Don José: Tal vez podlriais echarmre una mano. Asi no tendrlais tiempo de aburriros y ademas os ganariais un dinerillo. Javiz {Fn qué te pademos ayudar papa? Don José: Hv ane: sencilla, veréis: todos los afios en verano, runt estudio sobre el mimero de nifios que anisten al parque de atracciones durante el mes de Agosto, en relacién con la temperatura que hace ctl cfc Carlitos: ¢¥ qué ex lo que quiere que hagamos? Don José: F £1 trabajo trata ele lo siguiente: contareis ef niimero de nifios que la temperatura de cada dia. lacionadas. Una elevada temperatura, es decir, que hace un dia muy caluroso, indica que {a asistencia de nifios es alta, En cambio, si la temperatura es baja, o el dia ¢s Hluvioso, el mimero de nifios que asiste es mucho menor. A Javi y a Carlitos les pareci muy buena idea, y a la maftana siguiente se pusieron a trat ij. Javi, me parece muy imereseante, En una semana, tenfan recogidos los siguientes datos: Numero nijios Doras 20) eens 54 Lunes Martes Miércoles Jueves Viernes Sabado Muy bien muchachos, ahora tengo que ponerme a trabajar. Comenzaré por ordenar los datos. Dz José... ¢Ordenarios?, pero icimo?. Tenemos dos caracteristicas distimas de un mismo dia. Cada caracteristica recibe el nombre de “variable”. En este caso, hay dos caracteristicc [temperatura, nifios}, se trata de una “variable estadistica bidimensional”. Para ordenar los datos, se construye una tabla de “doble entrada”, de la siguiente forma: ° de nifios sc __ts 5 45 TOTAGS, lef 1-4 6 Esta tabla, ademds de indicarme el nimero de observaciones que he realizado, me indica que, por ejemplo, he obtenido una vez el resultado de 32 nitfos y 27°C, y nunca 38 niffos y 25°C. En otras palabras, sea: Y = “numero de nifios” ‘grados de temperatura” Papa, Claro Javi, para reflejar esas valores wlilizo subindices. Tranquilos muchachos, tenemos dos variables: # Cada x, indica “grados de temperatura”, toma los valores: xyS15 x, =25 x,=27 x,=32 xs=33 x,=33 Cada y; indica “mimero de nifios”, toma los valores: ¥1=20 y,= 45 yy=32 yy=10 ys= 54 y,= 38 Ademés, la observacién simultanea de los caracteres (x, y) se Tepresenta por un punto. r= Elconjunto de puntos se conoce como “diagrama de jispersion”. Y # Numero de nifios 34] ~ e | 45f———— Diagrama dispersién 38) ——---- me -h ~@ 32 oe ee 20 ° 1 | temperatura, Is 25 27 32 33 x Si observamos dos caracteres, tendremos que determinar si existe no dependencia entre ellos D, José: Muy buena observactén, Javi. Mirad, pueden ocurrir dos cosas: ™ Que muestros puntos estén alineados, todos sobre la misma recta. Si es ast, la relacién esté clara. No entiencdo nada... ¢Qué tiene que ver una recta en todo ..? Lo que mi padre quiere decir, es que los valores x, ey, se relacionan mediante la ecuacién dle una recta Y Pero bueno, jqué tienen que ver las ecuaciones con lo que estamos haciendo? ty Carlitos, no has comprendido nada, Lo que intento decir es que una ecuacién es una relacion. 4 p La ecuacién de una recta es y = A + Bux Observa que a cada valor de x, corresponde un valor de py, que resulta dle sustituir en la ecuact¢ Ah, ya entiendo, pero jy si los valores no estan alineados?. Entonces, lo que tenemos que hacer, es encontrar una recta que se aproxime a esos puntos. Y 4 numero de nifios . DIAGRAMA DISPERSION 54 e ig | a has | 38 | | 1 | 7 32 error: d, =10-37 20 10 7 = i f 4 tS, temperatura 15s S372 3 xX <= Observamos que el valor x, 2. tiene un valor observado ¥4=10 y otro valor tedrico j,=37 > error: d, =10-37 Javi: Pero, entonces estamos cometiendo un error, D. José: Claro, intentamas ajustarnos lo maximo posible y sdlo podemos “predecir”. Carlitos: Pero bueno, de esa fora podria haber més rectas. Jay' Si, pero al haber distintas rectas, se cometen distintos errores, y lo que nos interesa es que el error sea minimo gverdad papd?. D. José: Muy bien hijo. Como veo ya vais comprendiendo, os diré que todo esto ttene nombres. isa recta que construimos s¢ llama “recta de regresién”, y el proceso por el que Hegamos a ella se conace como “regresién”, que equivale a predecir, generalizar, pronosticar o estimar, ‘Ademés para calcular esa recta existe un método generalizado que se conoce como “ajuste por Ay, ay, ay... creo que voy a liarme otra vez con éste ajuste de los minimos cuadrados. Si estdis atentos, lo entenderéis, Se tiene: X= 15° + y= 20 nifios, X=27° > y =32 nifios, x=33° + y= 38 niffos. Gréficamente: SS rae 15 25 27 «32 «33 En consecuencia: Cada valor x, tiene un valor observado y, Los valores de la muestra recogidaen ef parque, no se coniportan siempre igual con la recta. los valores que teniamos son: ) x=33° + y=54 nitios | x= 25° + y=45 nifios x=32° > y=10 nifios Analicemos la situacién con detalles > Een la gréfica anterior, se observa que con x= 33° grados de temperatura asistian al parque y =38 niftos. Los valores observados (x = 33, y =38) se enctentran en la recta. =» Javi, presenta un caso diferente: en Ja muestra recogida, observamos que con X= 33" gradas de temperatura asisten al parque y= 54 nifios. Los valores observacas (¢=33, y= 54) NO se encuentran en la recta. Qué ocurre en este caso? : al valor observaddo x= 33 corresponde un valor observudo y = 54 y un valor tedrico 8 en la recta, Veamas esto con deralle en la grafica: 15 25 27 32 33 x En consecuencia: A cada valor observado x; corresponde un valor observado y, y otro valor teérico #, [en la recta]. El error que se comete en el ajuste de la recta [d, =y,-9,] se llama error de prediceién [diferencia entre los valores observados y tedricos], Observemos: d= y,-§, = 20-200 enlarecia. 45-30=15 positivo 32-3220 — enlarecta 27 negative = 54-38=16 positivo = 38-38=0 en la recia Javi: Ya entiendo...., cuanto mas pequefio sea este valor, mejor serd la recta que tomamos, Entonces, si la suma de esas distancias es minima, la recta seré mejor: d, +d, +d, +d, +d, +d, =minima. Carlitos: D, José: No Carlitos, Piensa que con sumamos errores positives y negativos pueden conducimos a un error: d, +d, +d) +d, +d, +d, =04+1540-274+16+0=5 (error). Carlitos: ¢ Y eso qué quiere decir ?. D, José: Que los valores positivas y negativos se pueden reducir o amular, y la suma no representa la suma real de las distancias. Carlitos: ¢ Y entonces, qué podemos hacer ?. D. José: Pues tomar esas dlistancias al cuadrado: « 2a ia Siendo cada d, =(y,-J,), la expresion que hay minimizar : d?+dj+dj+dj+dz+d2 +> ‘ ‘ M = Yd? =), -4,)? : esto es, minimizamos M: mt M=0+15' +0+(-27)' +16 +0 = 1210 “El método de los minimos cuadrados” dice que la ecuacién optima viene dada por la expresion: y - 7 = =4-(x — x) Para calcular el resto de los simbolos, qué hacemos? .. Iré explicando cade cosa: @X e ¥ represeman los valores medias de las variables x, ey, respectivamente, © & se caletila: sumando todos los valores de x; y dividiendo por el nimere oral de datos. OAndélogameme, se hace para ¥ He oidla que los simbolos se conocen como coeficientes extadisticos 0 pardmetros. D. José: Muy bien, Carlitos, ya vas comprendiendo. Ahora, para caleular el resto de coeficiemtes que aparecen en la ecuacién, necesitaré realizar una serie de céleulos que ordenaré en una tabla, won 15 130 25 | 45 2 | 32s 32/10 : ~ 33 94 "T 792 [1089 T2916 33 | 38 | 1254 | 1089 | 1444 SUMA 165 | 199 | 5645 | 4781 | 7909 Utilizando la tabla, calcularemos: t MOMENTOS RESPECTO AL ORIGEN * ay),a5,,a, ‘ 7 a 15 #2542 252433453 165 ons =33,16 20+454+32410+54+38 _ 199 “6 am = ¥ = 3 re COVARIANZA % om, = 5045 _ 540,33 6 940,83 — (27.5)(33,16) = 940,83 - 911,9 = 28,93 o2 = 796,83 - (27,5)7 = 796,83 — 756,25 = 40,58 D. José: Una vez sustituido todo esto, la ecuacién de la recta de regresién es: y - 33,16 =| 28:93 | (x~27,5) iz 40,58 y = 13.68 + 0,70x < y= A+Bx Gaalioa El-cocieme |m,,/o2] es ta pendiente de la recta de Y sobre X. my , ib j sedenota: b,. =—* , recibe el nombre de "coeficiente de regresién" de X sobre Y. este caso, se tiene: yg Ahora, que ya lo habéis entendidlo, poxléis recoger més sobre el resto de los dias, y predecir si el buen tiempo influ enla asistencia de los nities al parque de atracciones. clsios Don José... {Podemos conocer el error gue se comete al considerar la recta de regresion y= 13,68 + 0,70.x de una forma abstracta?. St Carlitos, se puede conocer el "grado de ajuste" entre la "nube de puntos" y la recta de regresin considerada. A esta medida estadistica se Nama "eneficiente de correlacién" y se denota: m, p=— talque -1< ps1 o,0, De forma que: © Si $0 lacorrelacién es inversa. © Si p=O las variables Xe ¥ son incorreladas. © Si pO lacorrelacién es directa —Lre Otra vez me estoy liando con tanta correlacién, directa, inversa, .. Tranquilo Carlitos, Te lo voy a explicar: © Correlucién inversa: I's cuando se tiene una recta de regresiOn decreciente. A medida que aumentan los valores de la variable X disminuyen los valores de la variable ¥. © Correlactén directa: Ex cuando se tiene una recta de regresion creciente, A medida que aumentan tos valores de la variable X aumentan los valores de la variable Y. © Variables incorreladas: Lay dos recias son perpendiculares. J.as variables X ¢ ¥ son independient variables incorreladas Javi: Enionces , es muy sencilla calcular el "coeficiente de correla Caleuludora eS o, = Xo, o, =o, rig= Day aF* og Covarianca: m,, =28,93 Varianca dex: 6% =40,38 por uno 6, = {4058 = 6.37 Varianza dey: 67 = ag, = a3) 29 _ 131816 6 1318,16 = (33,16)? = 1318,16-1099,58 = 218,58 por tanto, o, = ¥ 218.58 = 14,78. En consecuencia: 28,93 8 = 03055 30.55%] | -1

ta, ,q—2 existe relacién significativa entre las variables, con un nivel de confianza (1-a) sd

También podría gustarte