Está en la página 1de 17
Capitulo 2 Estadistica de dos variables. Regresién y correlacién Cuando de un colectivo se observan conjuntamente dos caracteres cuantitativos, surgen las estadisticas de dos variables. Entonces, los resultados de las observaciones vienen dados siempre por parejas, es decir, de forma conjunta e inseparable. El objetivo del tema sera estudiar las variables, establecer la posible relacién entre ellas, determinar un modelo matemético que represente dicha relacién y poder cuantificar la bondad de dicho modelo. 2.1 Distribuciones bidimensionales Eno que sigue, consideraremos la variable X que toma los valores 21, 72,...,.04 ¥ la variable Y que toma los valores y:, ya,...,Yp- Ahora, la distribucién de frecuencias viene determinada por las parejas (;,y;) de valores y sus correspondientes frecuencias absolutas o ntimero de veces que se repiten dichas parejas. @njdwetaeaég al caso unidimensional podemos definir las, frecuencias relativas y acumuladas. Cuando el mimero de observaciones es pequefio, las variables se pueden presentar en forma de tabla simple con dos filas 0 columnas conteniendo las parejas de valores. variable Y [a Ejemplo: Se prueban cinco trozos experimentales de un material aislante bajo diferentes pre~ siones. A continuacién se presentan los valores (P) de presidn (en Kg/cm®) y las magnitudes (C) de compresién resultantes (en mm): (1,1), (2.1). (3,2), (4.2) y (5,4). Representar la distribucién de frecuencias. Cuando el ntimero de observaciones es grande, pero corresponden a pocas parejas distintas, éstas se pueden presentar en forma de tabla simple con tres filas 0 columnas conteniendo las parejas de valores y sus frecuencias correspondientes. variable X | variable Y | frecuencia Ty vw mm cay a na Tk Ye Mk Ejemplo: Representar la distribucién de frecuencias del niimero de hijos (X_) e hijas (Y) de 20 familias encuestadas: (0,0), (0,1), (1,1), (0,1), (1,1), (0,1), (0,1), (1,1), (1,0), (1,0), (1,1), (1,1), (1,1), (0,0), (1,0), (1,0), (2,0), (1,4), (1,1), (2,0). Cuando hay un gran ntimero de observaciones con valores distintos, los datos se disponen en una tabla de doble entrada, en la que los valores de cruce de cada fila y columna representan, Ia frecuencia de la correspondiente pareja de valores. Yes yy ss wp LV Mr M2 vee Maj vee Map [ML Nay No» Nay ny na Nia ni Mer Mag see May ny Ma Mg 0 Ny NV donde jj es la frecuencia absoluta del par (i, ys) es la frecuencia relativa correspondiente. ke YY ny es el mimero total de pares observados. = Ejemplo: Una empresa de informatica realiza un estudio durante 100 dias observando el niimero de empleados (X/) y el niimero de ordenadores vendidos (Y ) cada dia. La siguiente tabla recoge Ia informacién obtenida: 0 1 2 Yy 5 25 «10 7 40 oO 15 15] 30 20-10 0 | 30 25 50 25 | 100 Interpretar los valores numéricos que aparecen en Ia tabla y obtener la distribucién de frecuen- cias relativas. da]eo 02 | Este tipo de representacién también se utiliza si estamos interesados en agrupar los datos en intervalos, recuperando los conceptos de clase, amplitud y marca, introducidos en el tema anterior. Ejemplo: Las alturas (X}) y los pesos (Y) de 20 hombres son: (1°72,63), (170,75), (1'70,68), (168,70), (1°75,74), (1°69, 72), (1°71,67), (1'69,69), (1'67, 70), (1°14,84), (176,71), (1'70,70), (169,66), (1’66,60), (178,74), (114,69), (1°70,65), (1°69, 71), (1°71, 73), (1°78,69). Establecer la distribucién correspondiente separando en intervalos de amplitud Sem. y 5kg. para las alturas y pesos respectivamente. 2.1.1 Representaciones graficas. Las representaciones gréficas mas importantes para las distribuciones bidimensionales de caracteres cuantitativos son el diagrama de dispersién, el diagrama de frecuencias y el estereo- grama, Diagrama de Dispersién. Consiste en la representacién de los distintos pares de valores sobre unos ejes cartesianos. De esta forma, cada par viene representado por un punto del plano XY que forman una nube de puntos. La frecuencia de cada par de puntos puede representarse utilizando distintos tamafios de puntos. Diagrama de frecuencia. Este tipo de representacién est indicado para el caso discreto y consiste en una representacién en. tres dimensiones, dos para las variables y una tercera para las frecuencias. Bl resultado son una serie de puntos o barras apoyados en el punto del plano XY correspondiente al par de valores y cuya altura representa la frecuencia absoluta 0 relativa Estereograma. Se utiliza para representar variables continnas distribuidas en intervalos. Se realiza andlogamente al diagrama de frecuencias utilizando paralepipedos, en vez de barras 0 puntos, cuyo volumen representa la frecuencia absoluta o relativa correspondiente. Ejemplo: Representar las distribuciones de frecuencia de los ejemplos de la seccién anterior, haciendo uso del tipo de gréfica mds adecuado. 2.2 Distribuciones Marginales. Las distribuciones marginales son unidimensional uno de los caracteres sin considerar el otro. correspondiendo a la distribucién de En el caso de tablas de doble entrada, la distribucién marginal de la variable X cnenta con las modalidades 71, 2,..., 7, Cas frecuencias absolutas S00 ny.,n2.,..., My. que se definen ast: nm P } nj es la frecuencia absoluta marginal del valor «; de la variable X. y la frecuencia relativa correspondiente se define: Ni . . . Ji = "4 es la frecuencia relativa marginal del valor 2; de la variable X. Andlogamente definimos la marginal dela variable ¥ que toma los valores 1, 2, ~~; Yp CUyas frecuencias absolutas SON n.1,.2,..., Mp que se definen asi k ny = Sony es la freenencia absoluta marginal del valor y; de la variable Y. y la frecuencia relativa correspondiente se define: f= 52 esa frecuencia relativa marginal del valor y de la variable Y. Ejemplo: Obtener las distribuciones de frecuencias marginales en los ejemplos de la seccién “Distribuciones bidimensionales” Observaciones: 1. Nétese que las distribuciones marginales aparecen “al margen” en la tabla de doble en- trada. 2. Las distribuciones marginales se utilizan para estudiar aisladamente cada una de las variables. 2.3 Distribuciones Condicionadas. Llamamos distribucién condicionada del cardcter X, respecto a la clase j del caracter Y,y se denota X/y;, a la distribucién unidimensional de la variable X, cuando s6lo se consideran los individuos de la clase j de Y. En la tablas de doble entrada, esta distribucién cuenta con las modalidades #1, 2)... cuyas frecuencias absolutas son 1j), 9, ....nxj. Las frecuencias relativas corespondientes son fi, f}, 4 ff. En general decimos que presenta la modalidad 2; con frecuencia f? que se define ast: poate atu ng Andlogamente podremos definir la distribucién condicionada del caracter Y, respecto ala modalidad ide X. Esta distribucién considera los valores y; con frecuencia f; para i= 1,2. jo Mi Sy Gn Ejemplo: Obtener algunas distribuciones de frecuencias condicionadas en los ejemplos de la seccién “Distribuciones bidimensionales” Observacione: 1. Nétese que las frecuencias condicionadas aparecen en la fila o columna de la clase corre- spondiente. 2. La distribucién condicionada se utilizan para estudiar aisladamente una de las variables, pero restrigiéndo los datos de acuerdo a alguna condicién de la otra variable. 3. Relacién entre las distribuciones de frecuencias conjunta, condicionada y marginal: ri ni a) fis Fifi ) fay fof Ni _ Maj Me ni ny Ra ny N 2.4 Momentos. Se define el momento de orden (1,8) respecto al punto (a,b) como: ES (ayy —1) Sy et M,«(a,0) En particular, resultan de especial interés, dos casos: kp entonces mps= > >) 27 = YF fig aia Sia Momentos ordinario: kD Momentos centrales: Si a= y b=g entonces fips => 0 («i— 2)" = (yj 9)" fis aia Destacamos las siguientes propiedades: 1) mo =1 2) mo = 3) ma =9 4) Hoo=1 5) M0 =0 6) 40 =0 7) pn =Mu— Moma 8) 20 = M9 — mig 9) Hor =Mo2— m5, 4 Las propiedades anteriores dan lugar a las siguientes definiciones: Medias marginales: Las medias marginales de las variables X e Y se definen asf: k p afi gama = Duy fy El punto (2,9) es el punto medio o centro de gravedad de la distribucién. Varianzas marginale: jas varianzas de las variables X e Y son: 02 =V(X) = 420 = (xi - 3)" fi o2 =V(Y) = poo = Sw 0) o inversa (r < 0). 3. Sdlo se puede utilizar cuando tenemos una regresidn lineal y resulta un valor entre -1 y 1. 4.Sir=-lo 1, la correlacién es perfecta: Dependencia funcional. Los puntos de la nube de puntos estan situados sobre la recta. 5. Sir =0 las rectas son paralelas a los ejes y se dice que las variables estén linealmente incorreladas. 6. Cuanto el valor de r esté cerca de 1 6 -1 la correlacién sera fuerte, mientras que valores préximos a 0 indican una correlacién débil. Ejemplo: Representar grdficamente, caleular la recta de regresién y determinar el grado de correlacién lineal de la variable X con cada una de las variables Y que se presentan en la siguiente tabla: XY | | ¥5 |i] ¥% | ¥e | TP4];if/6yij7pe6fi 272/3])5]1])5}4a]a 3)3)5])4/3]/4]3)2 4] 2)7]}3]}5}2]}1ya Sy 4/9] 2/6] 2,5 ]5 2.6.4 Ajustes que se reducen al caso lineal Algunos de los modelos utilizados pueden reducirse al caso lineal que hemos estudiado sin mas que tranformar las variables originales aplicdndoles alguna funcién. ¢ Modelo: y =ab™ Aplicamos logaritmos neperianos para obtener: In(y) = In(a) + In(b) +2. Consideramos la nueva variable bidimensional (X’, ¥’) = (X,In(Y)).. Ajustamos la recta Y"= A+ BX" donde A=In(a) y B= In(b) Finalmente concluimos que a=e4 y Ejemplo: Ajustar este modelo a los siguientes datos: Variable X_ Variable Y 100 150 © Modelo: y =ae™* Aplicamos logaritmos neperianos para obtener: In(y) = In(a) + b+. Consideramos la nueva variable bidimensional (X', ¥') = (X,In(¥)). Ajustamos la recta Y'= A +BX' donde A=In(a) y B=b. Finalmente concluimos que a=e4 y b= B. Ejemplo: Ajustar este modelo a los siguientes datos: Variable X 1 2 3 4 5 VariableY | £5 65 100 150 220 ¢ Modelo: y=az" Aplicamos logaritmos neperianos para obtener: In(y) = Consideramos la nueva variable bidimensional (X', Y’ Ajustamos la recta Y= A+BX' donde A=In(a) y B= Finalmente concluimos que a=e4 y b=B. 10 Ejemplo: Ajustar este modelo a los siguientes datos: Variable X_ Variable Y 05 20 45 80 125 1 at be 1 Invertimos el cociente para obtener: = =a+r+b. © Modelo: y Consideramos la nueva variable bidimensional (X,Y) = (X, Ajustamos la recta Y'= A+BX' donde A=ay B=b, Finalmente concluimos que a= A y b=B Ejemplo: Ajustar este modelo a los siguientes datos: Variable xX | 1 2 3 4 5 Variabley | 100 050 033025 020 2.6.5 Ajuste parabélico Ahora se pretende ajustar una funcidn del tipo y = a+ br + ce”, por lo que aplicando el método de los minimos cuadrados, consideramos la funcién: F(a,b,c) =) = be; —ex?)? (yi La solucién del problema que es determinar el valor dea, b y ¢ pasa por minimizar la funcién F(a, b,c) para lo cual resolvemos el siguiente sistema: x x OF Su = +b ay Te ai ai N x or ao el Say

También podría gustarte