Manual Bioestadistica

a 2 BIOESTADISTICA Exte capitulo contiene una breve descripcién de algunos métodos estadisticos de uso comin en Ta biologia pesquera tropical e introduce el sistema de notacién estadistica adoptado en el manual Puede servir para repasar nociones y para consulta, pero no pretende ser en si mismo un texto de estudio, tidad de literatura que existe sobre métodos estadisticos es asombrosa; por lo tanto, ran aprender mas sobre bioestadistica no tendran ningiin problema, Aqui sefialamos sélo dos referencias: el libro “Biometry” de Sokal y Rohif (1981), que explica la teorfa de un modo licado, 21 MEDIA Y VARIANZA Considérese una muestra de n peces, todos de la misma especie, capturados en un lance de arrastre ysea x(i) Ia talla del i-ésimo pez, i= 1,2, ..,n. La “talla media” (en general la “media’), de ka muestra se define como: +E xi aay isl ¥ = (x(t) + x Hor xcmp)/n =} Las dos primeras columnas de Ia Tabla 2.1.1 muestran un ejemplo con n= 27, La varianza, que es una medida de la variabilidad en torno a la media, se define de la siguiente: forma: * [Os()-RE + (x(Q)-H}? +. + (xEm)-¥)] = +E XO 1) Asi, la varianza, s*, es la suma de los cuadrados de las desviaciones respecto de la media, dividida por el nimero n-1. La tercera y cuarta columna de la Tabla 2.1.1 ilustran el caleulo de la varianza Obsérvese que si todos los peces de la muestra tuviesen La misma calla igualarian la talla media y la vvarianza seria cero. La suma de las desviaciones (no al cuadrado) es siempre cero. Mientras mayor sea la desviaci6n respecto de la media, mayor serd la varianza. En la Tabla 2.1.1, los dos valores mas. grandes de los cuadrados de las desviaciones respecto de Ia media se registran en las observaciones mas pequeiia y mas grande. La raiz cuadrada de Ia varianza, s, se denomina “deswiaciin estindar”. A menudo interest ddeterminar la varianza selativa al tamaiio de Ia talla media; para ello, s es la cantidad apropiada, ya que tiene la misma unidad que la media. Esto conduce a la desviaci6n estindar relativa s/x, también llamada "coficiente de wariacion’. Cuando los calculos se hacen manualmente, es més facil trabajar con una forma reordenada de la Ecuacidn 2.1.2, que es equivalente a: ‘;: xi? i bar| 13) ial il22 TABLA 2.1.1 Media, varianza y desviacién estindar de una muestra de frecuencias de tallas pez tala desviacién cuadrado de la (nt) fem) respectoa ——-desviacion lamedia ——_respectoa lamedia i x(i) x()-X 1 142 0.87 2 163 1.33 3 148, 027 4 13.2 187 5 169 1.83 6 124 2.67 7 143 077 8 15.7 0.68 9 163 0.23 0 M2 (min) 8.87 i 129 217 12 135, “187 3 182 313 4 6 3A7 15 185 343 6 163) 193 v7 155 043 18 168 073 19 132 “187 20 19.0 (max.) 21 120 2 11 3 154 4 146 25 140 26 181 Qian 168 Total 4068 Exti) talla media, 406.8/27 = 15.07 varianza,s? 121,48/(27-1 desviacion estindar, s VE67 = 2.16 desviacin estindar relativa,/E—:2.16/15.07 « 0.14 error estindar, s/n 216/127 = 041 (El concepto de error estindar se introduce en la Sec in 2.8) ‘Sin embargo, como la mayoria de las calculadoras cientificas de bolsillo tienen la posibilidad de calcular automiticamente la media y la varianza, los cileulos se ilustran aqui con la Ec. 2.1.2 que conceptualmente es mas facil de entender. Para muchos propésitos, por ejemplo para representaciones grficas, es conveniente disponer23 la muestra en forma de una “tabla de frecuencias’, dividiendo el recorrido de las tallas en varios intervalos de longitud, En la muestra de la Tabla 2.1.1 el recorrido de las tallas va desde 11.2a 19.0 cm, Con grupos de tallas de I cm se necesitan nueve geupos para cubrir el recorrido, Tomando 10.5, como limite inferior del primer intervalo, los intervalos y las frecuencias de tallas serian los que aparecen en las primeras cuatro columnas de la Tabla 2.1.2, que es la llamada tabla de frecuencias de tallas TABLA 2.1.2 Media y varianza de una muestra de frecuencias de tallas, (La muestra se obtuvo de la Tabla 2.1.1, con un intervalo de talla, dL, de 1 em) dice intervalo punto frecuencia (cm) medio (em) i LOLA TA) FG) FOYE @ TH) FO*TE@=) 1 105-115, an 1 uw 4.074 16.60 2 115-125, 12 3 36 “3.074 28.35 3 12. 13 5 39 2074 1291 4 13. 4 4 56 “1.074 461 5 145 15 4 60 0.074 0.02 6 15. 16 5 80 0.926 429 7 16. 7 3 5I 1,926 113. 8 17. 18 2 36 2.926 17.12 9 185 19 2 38 3.926 30.83 total 27 407 125.86 talla media, X 407/27 = 15.074, es decit 15.07 varianza, $ 125,86/26 = 4, desviacién estindar, s VEST = 2.20 desviacién estandar relativa, s/ X : 2.20/15.07 = 0.15 Sea jel indice de un grupo de tallasy dendtense los limites inferior y superior del grupo de tallas j respectivamente por: LG) = LQ) + (-I)*dLy LGH1) = LA) + jtal, L(t) = L@ + aL donde dl es la “amplitud del intervalo”. Entonces, un per de talla x(j) pertenecera al grupo de tallas j cuando LG) <= x) < LG +a Sea F(j la frecuencia del grupo de tallasj, es decir, el mtimero de peces que se observan en ese grupo. Sea. () = 1{j) + dL./2 el punto medio del grupo de tallas j, que es Hamad la “marca de clas”. El calculo de la media y de la varianza a partir de una tabla de frecuencias se realiza del modo habitual Utilizando los puntos medios para representar los intervalos:24 n= 2FQ) es el nfimero total de observaciones, jel donde m es el niimero de grupos de longitu. esla media, y [* ERMTMRE— eslavarianza ma El procediimiento de caleulo se presenta en: la Tabla 2.12 El punto medio de ta clase TG) y el Cudrado de las desviaciones respecto de la media estan ponderados por el niimero de peces de cada Clase, es decir la frecuencia, FG) Los resultados de la Tabla 2.1.2 x desvian levemente respecto de Josd ln Tabla 21.1 porqute una representacion en grupos de centimetros produce resultados menos precios que una representacion en grupos de ilimetros, ST FW) hy 3 33 3 a2 + 3 2 % 2s FPS vat mt de te clase 12 19 OW Ie I; 19 20 LG 7 2 35 4 5 6 ig. 21.1 — Grafico de frecuencias de tallas. Representacién grfica de la muestra de frecuencias de tallas de la Tabla 2.1.2 En la Figura 2.1.1 aparece una representacion grifica de la muestra de frecuencias. Notese que todas las observaciones se hallan en el intervalo de Ws a K+ Ms ‘A efectos de la Hamada distribucién normal (que se estudia en la proxima seceion), se supone que cerca del 95% de las observaciones estan contenidas en ese intervalo, (Veanse los Ejercicios en la Parte 2) 2.2 DISTRIBUCION NORMAL La Tabla 2.1.2 y la Fig. 2.1.1 muestran como ejemplo un pequeito conjunto de datos de frecuenciasde tallas que se ajustan aproximadamente a la llamada “distribucin norma” La expresion matematica de una distribucién normal es: Fe(s) = SSE * expl(8)/(28)] 22.1) donde Fe = “frecuencia calcula” 0 “frecuencia teériea’, n = niimero de observaciones, dl. = tamaiio del intervalo, desviacién estandar, x = talla media yx = 3.14159, Utilizando los valores n = 27,dL = Lem,s = 2.209% = 5.07 cm, de la Tabla 2.1.2, se * expl-(x-15.07)?/(2°4.84)] = = 4.896%exp[-(x-15.07)2/9.68] Los valores de Fe para una serie de valores de x se listan en la Tabla 2.2.1. Obsérvese que la notacién se ha modificado algo ya que ahora se usa el punto medio del intervalo, x, como el argumento en Fe, cn lugar del indice del intervalo, j, que se us6 como argumento en F en la Tabla 2.1.2, La Fig, 2.2.1 muestra las frecuencias teéricas junto con el grifico de barras para FG) de la Fig, 2.1.1, Como puede verse, Fc(x) da un ajuste aceptable con respecto a las frecuencias de tallas observadas, Este cuadro se observa a menudo cuando se registran frecuencias de tallas de peces que provienen de una cohiorte, es decir, peces de aproximadamente fa misma edad, 9 fo 1 12 13 WIS to 17 18 19 20 3 LG) 7234 567899 a Fig 22.1 Frecuencia teérica, Fe, (la curva de distribucién normal) y las frecuencias observadas, F (barras) TABLA 2.2.1 Frecuencias tedricas correspondientes a la Tabla 2.1.2, en donde x representa la marca de clase (punto medio del intervalo) x u 12 13 4 5 16 7 Is 19 Fe(x) 0.88 «185314485489 4483.33.02 0.9926 La distrib gran variedad de casos diferentes y de ahi su nombre. Hay otros tipos de distribuciones de probabilidad que se observan en la ciencia pesquera. Entre elas estan la “distribucién log-normal’, la “distribucion binomial negativa” y la “distribucin delta”. Una diferencia notoria entre éstas y la distribucion normal es que son asimétricas, en tanto que la distribucién normal es simétrica La distribucion delta, por ejemplo, se utiliza para describir la distribucién de probabilidad de la captura por hora de atrastre. Se compone de una distribucién log-normal, que describe la distribucién de las capturas al arrastre distintas de cero, y una probabil dad especial para la captura cero (véase en la Seccion 13.7 la Fig. 13.7.2) én normal se observa en n Quizis la caracteristica ms importante de la distribu asm 1, por ejemplo, 50 muestra aleatorias ce una determinada poblacion, cada una de ellas de 25 observaciones, los cincuenta valores medios se distribuisan (aproximadamente) de forma normal, La media (de cualquier conjunto de observaciones), tiene una distribueion (aproximadamente) normal, Este resultado es también valido para las medias de distibuciones log-normales, distribuciones delta 6 cualquier otro tipo de distibucién. Esto significa que las medias de todas las, distribuciones observadas en biologia pesquera se distribuyen aproximadamente de forma normal. 1 normal sea la que Gene que ver con ee ee AL + exp) Cis 222) sev 2r 2s on je 2an9 ydbel Los nuevos valores encontrados, Fe(X) /n, sumaran casi 1.0. Gada valor indica la probabilidad de que tun pez extraido aleatoriamente pertenezca al intervalo de tallas correspondiente. Es decir, se puede interpretar como la probabilidad de que un pez extraido al azar pertenezca al intervalo de tallas de x-dL/2 axtdl/2 Para los nueve intervalos de tallas de la Tabla 2.2.1 se obtiene: Fe(LG))/n = J imervalo _probabilidad 1 105-115 0.038 2 3-125 0.069 Asi, por ejemplo, hay 181 posibilidades sobre 1000 de 3 125-135 0.116 {que un pez exuaido al azar tenga una alla entre 145 4 195-145 0.161 15.5 em, Sise hubiesen ineluido todos los intervals 5 145-185 0.181 de tallas (y no sélo los nueve para los que se disponta 6 155-165 0.166 de observaciones), las probabilidades habrian suma- 7 165-175 0.138 do 1.000. 8 175-185 0.075 9 185-195 0.037 Total: 0.961 10s capitulos en los anilisis de frecuencias de tallas, na distrib La distribucién normal se usar en los prd porque la distribucion por tallas de una cohorte de peces se puede describir mediante Gi6n normal. A modo de introduccién, estudiaremos algunos de sus aspectos. Los procedimientos para caleular la media y la desviacion estindar (Tabla 2.1.2) pueden aplicarse a cualquier conjunto de datos de frecuencias de tallas Sin embango, si por alguna razén el sgifico de las frecuencias observadas no representa la distsibuci6n total, ls valores obtenidas (de las Ecs. 21.1 y 2.1.2) para la media y varianza muestrales estaran sesgados, es decir, pueden no guardar relacion con la media y varianza poblacionales. El concepto de “seigo” se tratara con mas detalle en la Seccién 7.1 Si, por ejemplo, slo se dispone de las frecuencias en el intervalo de rallas cle 10/2 15 em, (0 sea, silo los datos del lado izquierdo), se esta en una situacién en que la Ee, 2.1.1 (media) y la27 Fc, 2.1.2 (varianza) no representan a la poblacién. Como se verd en el Capitulo 3, esto ocurre a menudo cuando se analizan las frecuencias de tallas, Sin embargo, hay varios métodos para resolver el problema. (Veanse los Ejereicios en la Parte 2) 23 LIMITES DE CONFIANZA En esta seccién también utilizaremos el ejemplo de una muestra de composicién por tallas de Tos peees de una cohorte, La talla media de la cohorte, x, se ha estimado a partir de la muestra, Esta estimacidn suele ser diferente de la media vereadera de la poblacion, que es Ia que se obtendria sise mmidiesen todos los peces de esa cohorte en el mar. Generalmente la talla media verdadera se desconoce. $i se tratara de una poblacién de peces cultivados en un estanque, se podria medir la talla media verdadera de esa poblacién, pero en el caso de los peces en libertad es imposible determinar lvalor real de cualquier parimetro. En la practica esto es aplicable también a la poblacion de peces capturados en una pesqueria, puesto que no se pueden medir todos los peces capturados. Nos ocuparemos, pues, del grado de precision de la estimacién de la talla media, en otras palabras, de la probable magnitud de la desviacion entre la estimacién y la media verdadera, Esta incertidumbre acerca de la media verdadera se expresa por medio de los “Unites de confianza”. En el caso de wna distribucién normal, tales limites de confianza estin dados por: toatsVn y+ tuats/V (23.1) 10 de la muestra, sla desviacion esténdar y t(n-1) son los Thamados percentiles en istibucién ¢ de Student’ (Tabla 2.3.1). El argumento “fen la distribucién t (Tabla 2.3.1) se de- nnomina “ntimero de gradas de libertad’. En general el ntimero de grados de libertad es el nitmero de observaciones menos el mimero de parémetros, En este caso es el finico parimetro, por lo que f= neby ty = tos (véase la Tabla 23.1) Los ites de confianza pueden ser calculados con diferentes niveles de precisién, usualmente 0%, 95% y 99%, como se indica en la Tabla 2.3.1, Mientras mas alto sea el nivel (porcentaje), serén mayores los cuantiles y por lo tanto os intervalos sersin mas anchos entre los limites superiores © inferiores, ‘Volviendo al ejemplo de la Seccién 2.1 (Tabla 2.1.2), si se quieren calcular, por ejemplo, los limites de confianza del 95% para la talla media de los peces de la poblaci6n de la que se extrajo la muestra, se utiliza el percentil 95% de la distribucion t (Tabla 2.9.1), con n-1 = 26 grados de libertad, yse inserta en la Ec. 2.3.1 toats/Vn = 2.06*2.20/\27 = 0.87, mientras X = 15.07 los limites de confianza al 95% sern: ite inferior: X ~ 0.87 ite superior: x + 0.87 5.07 - 0.87 5.07 + O87 14.20 15.94 ti Asi,se tiene un "95% de confianza” de que la verdadera talla media se sitta en algtin lugar entre 14.20 y 15.94; en otras palabras, si el muestreo se repitiese 100 veces bajo las mismas condiciones, cabe rever que 95 de las medias se situarian entre 14.20 y 15.94. E1 intervalo entre el limite inferior y el limite superior se llama “intervalo de confianza” Para el ejemplo utilizado anteriormente, los intervalos de confiana en losniveles de 90% y 99% son respectivamente [14.95, 15.79] y [13.89, 16.25], de los cuales el primero es mis angosto y el segundo més ancho que el intervalo del 95%.28 TABLA 2.3.1 ‘Valores de los cuantiles de la distribucion ¢ (Distribucion t de Student)* ‘grados enanles grades ‘cuantiles ae de libertad 95% libertad 0% 9B ONT t \ 1 t hoo 6311271 63.66 6 213-295 2 292 4.30 9.93 16 212 292 8 235 818 534 7 21 290 4 213 278 4.60) 18 210 288 5 202257 4.03, 19 209 2.86 6 1st 245 371 0 209 2.85 7 190237 350 25 206 2.79 8 186-231 3.36 30 204 275 9 Tas 226 3.25 40 270 10 ral 228 3.7 50 n 180-220 31 12 L728 3.06, 1B LT 216 3.01 La cantidad s/n es la dewiaci6n estandar de la estimacién de la talla media (también llamado 1 “eror estindar”), de modo que x tiene la yasianza (compare con la Tabla 2.1.1: VAR(X) = s/n (2.3.2) Asi, cudnto més grande sea la muestra, mis preé mas detenidamente en la Secci6n 7.2). serd la estimacin de X (este tema se tratari Lae. 2.8.2 deriva de dos reglas generales para variables aleatorias que se aplican repetidamente en este manual, a saber: VAR (Gx) = CBVAR(X) 233) a VAR (2 x) = n*VAR(x) (234) donde C es una constante, Por ejemplo, sila varianza de x es s®, entonces la varianza de 8x sera © bien, si las observaciones originales se suman de tres en tres, la varianza de x) + x2 + xs Sera 3°, Las afirmaciones anteriores sobre los limites de confianza se aplican s6lo a estimaciones se muestreen y se midan, si media verdadera, mnpre se obtendriin esti iaciones de la media que seran diferentes del Sngase que se desea estimar la talla media de cierta especie de peces capturados en una comercial (téngase presente que los peces capturados son los que se desembarcan mis los que se descartan en el mar). Si se muestrean slo ejemplares de los desembarques, y no de los peces que se descartan en el mar, nornalmente inferiores a cierta tall, se obtiene una estimacién sesgada de la talla media de los peces capturados, La talla media de la captura estara sobreestimada, sea cual29 sea el tamaio de las muestras que se tomen en el lugar de desembarque, Sélo se obtendra una estimacién insexgada de la talla media de los pescados desembareados, (Véanse los Ejercicios en la Parte 2) 24. ANALISIS DE REGRESION LINEAL SIMPLE Este método se utiliza para describir la variacién de una cantidad, por ejemplo, Ia altura corporal de tun pez, como funcién lineal de otra cantidad, por ejemplo, la talla. La teoria exige que la cantidad que aparece en el eje horizontal (Ia variable independiente), se mida con absoluta precision. Sin embargo, el método se emplea a menudo sin cumplir este requisito, El efecto de la inexactitud de los valores de Ia variable independiente es que la pendiente de la linea se hace mas plana (inas cercana acero) Altura del cuerpo Talla total ‘Supdngase que se ha medido la talla total y la altura corporal de una muestra de 7 pescados. foes La Tabla 24.1 muestra las tallas totales, x(i), y las alturas corporales, y(i), tar cuando Ta talla aumenta, Si las Como es de suponer, la altura del cuerpo tiende a aum proporciones corporales de un pez permaneciesen constantes para todos los tamaiios, la altura seria proporcional ala talla, y podria describirse por medio del modelo: ya) = bexci) (4a) donde b es una constante, también llamada “pardmetro”. El razo en este modelo siempre pasa por el origen, el punto donde el eje horizontal x, y el ¢) na posible desviacién de la proporcionalidad entre x ¢ y introduciendo un segundo pardmetro, a, y utilizar, en lugar de la Ec, 24.1, el siguiente modelo: vertical y, se encuentran, Se puede incl y) = a + b*xGi) (2.4.2) TABLA 2.4.1 Ejemplo de mediciones de las tallas totales, x, y las respectivas alturas del cuerpo, y i 1 2 3 4 6 730 = Pendiente = b Altura del cuerpo N 5 10 5 Intercepto Talla total Fig. 24.1 Diagrama de dispersion de la altura del cuerpo (y) contra la tala total (x), también denominado “grafico de y sobre x". donde a indica el intercepto con el eje y de la linea que corresponde a los puntos. La Fig. 2.4.1 muestra el "grdfico” (0 “diagrama de dispersién”) de y(i) respecto de x(i) La Ee. 2.4.2 implica que un pez de talla cero tiene altura *a”, Jo cual no tiene sentido excepto si “a” es igual a cero. Sin embargo, si se consideran s6lo las tallas de un cietto rango (por ejemplo, las superiores a 5 cm), el modelo de dos parametros puede dar un mejor ajuste a las observaciones que el modelo de un parametro, porque el supuesto de proporcionalidad entre talla yaltura no se cumple estrictamente. E] modelo matematico de la Ee. 24.2 se llama “modrlo lineal” porque los pares (xy) que lo forman estin en linea recta. Con a = -0,32 y b = 0.30 se obtiene Ia Tinea recta que se muestra en la Fig. 24.1, Con estos valores de a y b, la linea de la Fig, 2.4.1 representa un buen ajuste para los pares observados (x,y) Pasemos ahora al problema de determinar la linea, es decir, de cémo estimar los parémetros a yb. Tal como se hizo para la media (vea la Seccién 2.3), se mostrar también la forma de calcula los limites de confianza de las estimaciones a y b. Este procedimiento se denomina “andlisis de regresion lineal simplé. Es probablemente Ia técnica estadistica que mas se usa en biologfa pesquera. Los parimetros tienen nombres especiales: a se denomina “intercept” y b “pendient”. El intercepto es la distancia desde el punto (0,0) en el grafico (x,y) hasta el punto donde la “linea de regresién’ sabes intercepta al eje y (véase la Fig. 24.1),Lapendiente “b” indica el grado de inclinacion de la linea, $i b=0, la linea es paralela al eje x Sib es positivo, la pendiente es ascendente. Si bes negativo, la pendiente es descendente, La variable del eje horizontal, x, se denomina “variable independent, yl del eje vertical, y, “variable dependient®’. La Vinea de regresion se determina como la linea que reduce al minimo la shma de los cuaclrados de las desviaciones entre la linea y =a + b*x respecto a los pares de observaciones, (x(i), y()) Se dice que ay bse estiman por el "metodo de las minimas cuadrados’ es decir, se buscan aquellos valores de yb que reduzean al minimo E [yap]? (243) il donde n es el mimero de pares de observaciones (n = 7 en el ejemplo). Las desviaciones entee ka linea y las observaciones se ilustran en la Fig. 24.2. El supuesto en el que se basa el anilisis de regresiOn es que cada y(i) se distribuye normalmente con media a+ b*x(i) y con varianza constante, cesdecir, una varianza que no depende del valor de x(i). La formula para la estimaci6n de esta varianza comiin difiere s6lo ligeramente de la que se present6 en la Seccién 2.1. La llamada "variansa respecto de ia linea de regresién’ es: yea ‘ =o bx) \ “8)-a- bx Yis)-a- bx«s) ‘YtH)-@- bxiv) Aitura del cuerpo {fie (2 pee (3 lures 1 pee cme wee eee v0 meeee, exec) Talla total Fig 24.2 Iustracidn de los supuestos tras el analisis de regresion lineal simple, Cada y(i), para tun x(i) dado, se distribuye normalmente con varianza comin,82 0 © Ly) = a = biG)? aay Hay n-2grados de libertad (elit ayb. ero por el que se divide la su 1a) porque se tienen dos parimetros, Las estimaciones de los pariimetros a (intercepto) yb (pendiente) se obtienen de la siguiente manera: (24s) TABLA 2.4.2 Procedimiento de cilculo para el analisis de regresion lineal simple. Los resultados marcados con #) no se utilizan en el calculo de a y b, pero se seiialan aqui para su uso posterior tala altura coxa del cuerpo xi) xt Po) xy 1 12 138.44 30 35.60 2 14 32 30.68 3 135 182.25 40 54.00 4 157 216.40 as 75.36 5 m1 ani 4x S208 ‘ 185 31235 ‘9 0.65 ten 190 351.00 56 106.40 = 107 1705.60 308 $81.7 ax(i) ax? ai wy ss i agin)? = 16inse re su? = Lees? = 5578 yoy? «5a 4396 4) 0.922 # 5019 #) 6960 4 descayetya «46489 Eecieyld) — PEGE = 1688 sy = 2814 A pp t= aEaBE ae xg 5 ExiDy hy = 4.329 15.3430.908 = 0.315,38 a-F- (2.46) donde jy son las medias de y y x, definidas por la Ee. 2.1.1 En la Tabla 2.4.2 los procedimientos de caleulo para estimar ay bse demuestran utilizando los datos de la Tabla 2.4.1. Asi, la linea de regresion estimada pasa a ser: y= 0815 + 0.303% (24.7) Para calcular los limites de confianza de ay b se requiere la suma de los cuadrados de las desviaciones de x ¢ y. Las varianzas de x e y esti definidas por la Ec. 2.1.3: 1 1 per “Ex? - 5 XFL (248) Para su uso en la siguiente seccidn se introduce us cen la siguiente seeci6n se introduce aqui la “covarianz: L *Exti) desg(iyn . sy = Gap “EGG ~ FexG"a9(9)) (249) lar para sy? Para ser utilizada que esta definida por la ecuacion: EI procedimiento para el calculo de la varianza respecto de la linea de regresién que conduce alaEc. 24.4 se demuestra en la Tabla 2.4.3. Sin embargo, la varianza respecto de la linea se puede ‘obtener mas facilmente a partir de sy y $x (24.10) (24.1) (2.4.12) Con los resultados de la Tabla 2.4.2 se tiene: 1 0.922 _ 9 sos sbe 297 0.00147, 0.038, o.oo147e(te9.207 + 15.3439) = 0.3578, sa = 0.598 TABLA 2.4.3 Cilcuto de la varianza respecto de la linea, a partir de la Ee. 2.4.4 i x a) aib*x) [a-Gibxo 1 ne 30 8.079 0.0062 2 ia 32 42 0.0587 3 185 40 3776 0.0508 4487 48 0.1281 BIT 48, o.on44 5 8S 49 0.1525 7 0.0250 190 5.6 5 ‘sua 0 234 Los limites de confianza para el intercepto a y la pendiente b son. a [a= sayy, a + sa%ta2] (24.13) be [b = sbitya, b+ sb¥tial (24.14) Los limites de confianza del 95% de ay b para el ejemplo con son: = 7 peces y tia) = 2.57 (Tabla 23.1) a: [0.315 ~ 0.598%2.57, 0315 + 0.598257] = [-1.85, 1.22] b: [0.308 ~ 0.038"2.57, 0.303 + 0.38*2.57] = [ 0.21, 0.40) Obsérvese que el intervalo de confianza para el intercepto comprende el cero. Esto significa que 1a hipstesis de que la altura corporal es directamente proporcional a la talla (por lo tanto que “a= 0) no puede ser rechazada por los limites de confianza del 95%. Se dice entonces que "a" no es significativamente diferente de cero al nivel del 95% Sihay buenas razones para suponer que a=0, entonces el valor estimado deberfa sustituirse por 0 si la estimacion no es sigaificativamente diferente de 0. Sin embargo, después hay que volver a caleular b como sigue Extiyy@ 2.4.15 El Can) Laestimacién actual se basa s6lo en 7 peces. Sise hubiesen medido 200, la estimacion de la desviacion estandar, sa, serfa menor (véanse las Ecs. 2.4.11 y 2.4.12). Supongase, por ejemplo, que X,Y. 5%, 5.8 y b sean los mismos para una muestra de tamaio n = 200 que los estimadios para una muestra de tamafio n = 7 (lo que es perfectamente posible). Aun cuando las estimaciones de a yb resulten ren «el mismo valor, sus desviaciones estandar, sa y sb, seran diferentes Con n= 200, la Ee. 2.4.11 da sb = 0,006098, mientras que la Ee. 24.12 da sa = 0.0091 y tins = 1.97 (Tabla 2.3.1). Ast pues, say sb se vuelven mas pequeas y, en consecuencia, el intervalo de confianza de aes menor: a: [-0.815 ~ 0.0091"1.97 , 0.315 + 0,0091*1.97] = [-0.33,0.30] Laestimacion de a sera ahora significativamente diferent de 0, En este caso se puede concluir que las posibilidades de que el valor verdadero de a sea mayor que 0.30 0 menor que -0.33 son inferiores@ un 5%. (Véanse los Ejercicios en la Parte 2) 2.5 EL COEFICIENTE DE CORRELACION Y LA REGRESION FUNCIONAL, EL “cogficientede comelacién’,r, es una medida de la asociaci6n lineal entre dos cantidades, ambas sujetas una variacion aleatoria, La muestra de tallas estindar y alturas corporales de Ia Seccidn 24 es un cjemplo de tales cantidades. En ese caso se extrajeron siete pescados al azar. Por casualidad, estos podrian haber sido todos aproximadamente de la misma talla. En tal caso, la muestra no seria adecuada para estimar la relacién talla/altura, ya que los limites de confianza a y b se volverian muy amplios. El coeficiente de correlacién slo se puede usar cuando se permite que ambas medidas varien aleatoriamente. Si se hubiese elegido siete pescados con tallas predeterminadas en ver. de extraerlos alazar (por ejemplo, sise hubiesen seleccionado las tallasde 4, 6,8, 10, 12, 14, y 16.cm para la muestra de talla/altura), el céleulo de un coeficiente de correlacién para esta muestra seria incorrecto.El coeficiente de correlacién se define como: es (5.1) ay donde sxy esti definida por la Ee. 2.4.9 y sx y sy por la Ec. 248. Si se introduce la pendiente (b = say/sx), la Ec, 2.5.1 se transforma en: F = bK(sx/sy) (25.2) El recorrido de r es: 1.0 aimee y L / ' x= 1) \ * | ° 1 B a oth £02 z=x+ au/2 qj i Be 26 -00 Fig. 2.640 Fstimacidn de la media ylavarianza mediante el método de Bhattachanya. A: Parabola x. B: Grifico de Bhattacharya con y diferencias entre puntos equidistantes sobre el ¢j las diferencias entre marcas de clases consecutivas. Datos de la Tabla 2.6.2.43. Ahora hay que insertar la Ec. 2.6.3 en la Ee. 2.6.4 como signe: Aln Fe(xtdL/2) = Aln Fe(2) = (xd =x)" nedL Re | - [m (ae Una vex resueltos los cuadrados y las sumas, esta ecucién se convierte en una relativamente mas sencilla = BEE (wate) (263) y thez con azdheX/sbadl/s! y= xvdb/2 A partir de la pendiente, b, y del intercepto, a, se obtiene la varianza’ -dL/b (266) yla media X= a/b (267) Esa regresién es uno de los elementos principales del nétodo desevito por Bhattacharya (1967) para separar dos © nis distri cs (Scceién 34.1). Se le Mama el “rficn de Bhattacharya”, La ‘Tabla 2.6.2 y la Fig. 2.6.44 nnuestran un ejemplo sobre este particular. En este caso, los valores te6ricos de la Tabla 2.2.1 se han utilizado como “obscrvaciones” y corresponden a frecuencias de tallas, Fe, y alas marcas de clase, x. Estas se ajustan exactamente al modelo. Bn este caso, ka media y varianza es timada a través del grifico de Bhattacharya deberian ser iguales a kis obtenidas por cl método trad cional (Tabla 2.1.2). No obstante, pequeiias diferencias son posibles debido al ajuste de los valores & través de la regresi6n lineal. En la parte Bde la Fig. 2.6.4a se encuentran geaficadas his diferencias entre los logaritmos de dos frecuencias consecutivas respecto a la marca de clase de los valores de x. Asi también, el grafico de Bhattacharya entrega una respuesta acerca del miimero de observa- iones que contiene una distribucion normal para la cual s6lo se dispone de informacién para ciertas clases de tallas. Reescribiendo la Ee. 2.2.1 se tiene que FL@) (2.68) De esta manera, n se puede estimar inclusive para una simple clise ce tall j, una vez que se han estimado xy, Sin embargo, problemas en las mucstras casa inexactitud debido-a que ifluencian el niimero de peces en cada intervalo de longitud, como se puede ver en la Fig. 2.2.1. Cuando se conoce el nimero de individios en varias clases de longitu, las frecuencias se pueden sumar para suavizar las desviaciones de cada una de ellasrespecto a fas correspondientes frecuencias esperadas. AAI sumar los valores caleulados para las clases i en ambos lados del signo igual y rearreglando los términos se legal siguiente expresién: = FILO! (2.69)44 TABLA 2.6.2 Estimacion del valor medio y la varianza de una distribucién normal determinado a través del ‘grafico de Bhattacharya, utilizando las frecuencias tedricas, Fe(x), de la Tabla 2.1.2, presentados en ln Tabla 2.2.1. Loe valores ee encuentran istrados en las respecivas Figs. 2.658 y 2.6.4 imerale indice Cw x dL /2.x4dL/2 Fe(x) In Feds) Ain Fe(z) xtdL/2 i oo) wo og) cy 1 wv 10.5115 0.88 0.128 | O78 Ts 2 @ nT rT sto ies y @ massa 036 185 4 4 ios aa ATO one 15 3 rc Tasi35 a8 “0088 65 6 16 a a oar 165 7 7 165175 08 “0500 5 8 8 Vsies R070 078 185 9 io Taa15 09 emo | a= aia aL boangors Es a/b = 1507 st = dL /b = 482 s= 220 TABLA 26.28 Estimacién del ntimero total de observaciones mediante el metodo de Bhattacharya, - - = ce ex [ Mat | 1 n oe 1608 2 ® 185 ore 3 8 an uss + M4 435 ssa 5 ts 49 09996 m= an 3.0007 n= a. + 3.0007 2193 BeTABLA 2.6.3 Grafico de Bhattacharya con las distribuciones de frecuencias de tallas de las muestras presentadas en la Tabla 2.1.2 indice x dL /2xHdL/2 FR) MFR) AINF2) dL /2 ©) o ®) @ 12 15 105125 4 1.386 _ _ —_ 0.560 125 a4 125145 7 14s _— = __ — | 45 36 145 9 . ~ — = — — 0.588 165 78 175 165-185 5 1.609 = aes : 0.916 185 9 185205 0.693 |_ — - — a : a= 3.909 (aL = 2) b= 0.263 X= a= 48 = dL /b = 7.605 s = 2.76 x + aL/2 Fig. 2 Grifico de Bhattacharya correspondiente a la Tabla 2.6.3,46 Las observaciones para los peces con longitudes mayores de ® en la Fig. 2.6.4a pede que no sean del todo reales, dado que en esas tallas existe sobreposicidn con los peces mas pequerios de la edad superior: Este es ef caso que se muestra en la Fig. 14.1, por ejemplo entre las edades 1 y 2. De alli que se deberia utilizar Gnicamente el lado iquierdo de las observaciones de la Fig. 2.6.4a (x= 11,12, 13, 14, 15 em) para efectuar el grifico de Bhattacharya, ya que éstos permiten utilizar cuatro puntos para Ja linea recta que conduce a la estimacién de & y's. Asi, con los datos de la Tabla 2.6.2 se obtiene que a=3.134 b=0.2081; X = 15.06; 4.805: El resultado es pricticamente ef mismo que el obtenido para la distribucién normal completa, debido a que la linea recta que ajusta los valores es casi perfecta (véase la Fig. 2.6.2). Una aplicacién prictica de la Ec, 2.69 se incluye en la Tabla 2.6.2a. En esta se obtiene como resultado quee n = 26.88 cuando el verdadero valor (determinado en Ia Tabla 2.1.2) es 27. 193, Una ver que se ha determinado n, se pueden estimar las frecuencias de cacta clase de tallas mediante la Ec. 2.6.8. Estos calculos no se encuentran en la Tabla 2.6.2a, debido a que en este ejerci- cio las “observaciones” son ahora las frecuencias tedricas. Tabla 2.6.3 se puede ver la estimaci6n de la media y la varianza establecida del grfico de pero ahora utilizando los valores incluidos en la Tabla 2.1.2. En este caso, debido al ‘amar ce fa muestra, las frecuencias fueron agrupadas en intervalos de dos eentimettos. « 1a graficaciGn de estos valores se puede ver en la Fig. 2.6.5. Ahora, tanto la media como la varia que se indican en la Tabla 2.6.8 son diferentes alos caleulados a tavés del método tradicional (abla 2.1.2), debido a lo pequeito de la muestra, al error causado por los intervalos de tallas grandes y debido a diferencias relativas al método estadistico utlizaco (anilisis de regresi6n lineal) (Véanse los Ejercicios en la Parte 2).

Manual Bioestadistica

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Manual Bioestadistica

Cargado por

Copyright:

Formatos disponibles

También podría gustarte