Está en la página 1de 48

BIOLOGÍA PESQUERA Aplicación R

UNIDAD 2: Revisión de técnicas estadísticas


aplicables en Biología Pesquera
BIOLOGÍA PESQUERA Unidad 2R
Aplicación

Estadística Descriptiva

Medidas de Medidas de
localización Dispersión

 Media  Varianza
 Moda  Desviación estándar
 Mediana  Error estándar
 Cuartiles  Coefic. de variación
 Percentiles  Rango o amplitud
 Deciles  Rango o recorrido
intercuartílico
1
BIOLOGÍA PESQUERA Unidad 2R
Aplicación

Estadística Inferencial

Pruebas de
Estimación
hipótesis

Intervalos de
confianza
Pruebas Pruebas no
(95% generalmente)
paramétricas paramétricas

Prueba de una Prueba de una mediana


media Comparación de dos
Comparación de medianas
dos medias Comparación de tres o
Comparación de más medianas
1
tres o más medias
BIOLOGÍA PESQUERA Unidad 2R
Aplicación

Análisis exploratorio de una muestra de tallas (cm) de una especie íctica (n=27)

14,2 16,3 14,8 13,2 16,9 12,4 14,3 15,7 15,3 11,2 12,9 13,5 18,2 16,8

11,6 18,5 16,3 15,5 15,8 13,2 19,0 12,0 17,1 15,4 14,6 14,0 18,1

X i
406,8
X  i 1
Media
  15,1 cm
n 27
n

Varianza
 i
 X  X 2

121,48
S 2  i 1   4,6723 cm cuadrados
n 1 26

Desviación estándar S  S 2  4,6723  2,16 cm


BIOLOGÍA PESQUERA Unidad 2R
Aplicación

S 2,16
Error estándar Sx    0,42
n 27

Coeficiente de variación o S
desviación estándar relativa
CV  *100  14,3%
X
Rango R  máximo - mínimo  19,0  11,2  7,8 cm

Cuartil inferior Q1  13,2 cm Cuartil superior Q3  16,8 cm

Cuartil 2 = Mediana Q 2  Me  15,3 cm

Rango intercuartílico RI  Q3  Q1  16,8  13,2  3,6 cm


BIOLOGÍA PESQUERA Unidad 2R
Aplicación

Tabla de frecuencia de los datos de tallas (archivo


datos_tallas1_unidad2.xlsx exportado a Statgraphics)
Tabla de Frecuencias para tallas_decimal_comas
Límite Límite Frecuencia Frecuencia Frecuencia
Clase Inferior Superior Punto Medio Frecuencia Relativa Acumulada Rel. Acum.
menor o igual 10.5 0 0.0000 0 0.0000
1 10.5 11.5 11.0 1 0.0370 1 0.0370
2 11.5 12.5 12.0 3 0.1111 4 0.1481
3 12.5 13.5 13.0 4 0.1481 8 0.2963
4 13.5 14.5 14.0 3 0.1111 11 0.4074
5 14.5 15.5 15.0 5 0.1852 16 0.5926
6 15.5 16.5 16.0 4 0.1481 20 0.7407
7 16.5 17.5 17.0 3 0.1111 23 0.8519
8 17.5 18.5 18.0 3 0.1111 26 0.9630
9 18.5 19.5 19.0 1 0.0370 27 1.0000
mayor de 19.5 0 0.0000 27 1.0000
M edia = 15.0667 Desviación Estándar = 2.16155

El S tatAdvisor
Esta opción ejecuta una tabulación de frecuencias dividiendo el rango de tallas_decimal_comas en intervalos del mismo an
datos en cada intervalo. Las frecuencias muestran el número de datos en cada intervalo, mientras que las frecuencias relat
BIOLOGÍA PESQUERA Unidad 2R
Aplicación

Histograma de frecuencias
Histograma

4
frecuencia

0
10 12 14 16 18 20
Tallas
BIOLOGÍA PESQUERA Unidad 2R
Aplicación

Gráfico de caja y bigotes

11 13 15 17 19
Talla (cm)
BIOLOGÍA PESQUERA Asimetría o Sesgo (Skewness)
Aplicación R

40
Asimetría Positiva

 n 3
30

n  ( X i  X ) 
frequency

20

10 Asimetria   i 1 
0
(n  1)( n  2) 3
0 2 4 6 8
120
Distribución Simétrica
100

Asimetría Positiva
80 s
Sesgo > 0
frequency

60

40

Sesgo ≈ 0 Distribución Simétrica


20 s
0
-3.7

-1.7

0.3

2.3

4.3

Histogram

Asimetría Negativa
s
Sesgo < 0
15
Asimetría Negativa
12
frequency

Distrib. Normal
s
3 -2 ≤ Sesgo ≤ 2
0
estandarizado
0 3 6 9 12 15
BIOLOGÍA PESQUERA Apuntamiento o Curtosis (Kurtosis)
Aplicación R

Leptocúrtica
Mesocurtica
Platicurtica

Leptocúrtica
s
Curtosis > 0

Curtosis ≈ 0 Mesocúrtica
s

Platicúrtica
s
Curtosis < 0

-2 ≤ Curtosis ≤ 2 s
Distribución Normal
estandarizada
BIOLOGÍA PESQUERA Aplicación R

DISTRIBUCIONES PARA DISTRIBUCIONES PARA


VARIABLES CONTINUAS VARIABLES DISCRETAS

Normal Binomial

t de Student Hipergeométrica

Ji- cuadrado (χ2) Poisson

F de Fisher -
Snedecor

VARIABLES CONTINUAS VARIABLES DISCRETAS

Funciones de densidad de
probabilidad Funciones de Probabilidad
1.5
BIOLOGÍA PESQUERA Aplicación R

Distribución Normal 1  x 


2

1  
2   
f (X ) 
Normal Distribution Normal Distribution

e
 2
1 1
Mean,Std. Dev. Mean,Std. Dev.
5,1 15,0.5
0.8 0.8

Frecuencia
Frecuencia

0.6 0.6

0.4 0.4

0.2 0.2 Parámetros de la distribución


0 0 normal
0 2 4 6 8 10 12 13 14 15 16 17 18
x x

f(X) = densidad de probabilidad de la variable X

μ = media poblacional

σ = desviación típica o estándar


BIOLOGÍA PESQUERA Aplicación R
Cálculo de las frecuencias teóricas de la Distribución Normal

2
1  x x 
 
nL 2  s 
Fc  e
s 2
Fc = frecuencia teórica

= media muestral (talla media)

s = desviación típica o estándar muestral

n = número de observaciones

ΔL = tamaño del intervalo de clase


BIOLOGÍA PESQUERA Unidad 2R
Aplicación

Por ejemplo, para la tabla de frecuencias mostrada en la diapositiva No. 6,


tenemos los siguientes valores:
2
1  x x 
n  27 L  1 cm  
nL 2  s 
Fc  e
S  2,16 cm X  15,1 cm s 2
Por lo tanto, reemplazando estos valores en la ecuación que define las
frecuencias teóricas de una distribución normal, tenemos:

2
1  x 15,1 
  
27 *1 2  2,16 
Fc( x)  e
2,16 2 * 3,14159


 x 15,12
Fc( x)  4,9868 * e 9,33
BIOLOGÍA PESQUERA DISTRIBUCIÓN NORMAL ESTÁNDAR
Aplicación R

μ=0 y σ=1
s
Distribución normal (0,1) = Distrib. Normal Estándar
X 
Z = Unidades de desviación estándar respecto a la
 media
BIOLOGÍA PESQUERA Aplicación R
Ejemplo: Los datos colectados por un investigador sobre una
variable determinada (tallas, pesos, resistencia, tiempos,
rendimientos de un proceso, etc.) presentan una distribución normal,
cuyos parámetros son μ=10.8 y σ=3.7.

Calcular la probabilidadNormal
de Distribution
registrar datos mayores de 8.9.
Probability = 0.696205
0.12 Mean,Std. Dev.
10.8,3.7
0.1

0.08
Densidad

0.06

0.04

0.02

0
-8 2 12 22 32
x

X  8.9  10.8
Paso 1: Cálculo del valor de Z Z   0.51
 3.7
BIOLOGÍA PESQUERA Aplicación R
Paso 2:
Consultar la
tabla de la
distribución
normal
estándar

P (X > 8.9) = P (Z > - 0.51) = 1 - 0.305 = 0.695


BIOLOGÍA PESQUERA Aplicación R
Cálculo de la probabilidad en Statgraphics
 Graficar
 Distribuciones de probabilidad

 Normal Aceptar Aceptar

Se digitan los valores de la media y la desviación estándar

 Se chequea “Distribuciones acumuladas” Aceptar

 Botón derecho del ratón sobre el panel “Distribuciones


acumuladas”

 Seleccionar “Opciones de ventana” digitar el valor de


Z en “Variable aleatoria”) Aceptar
BIOLOGÍA PESQUERA Aplicación R
Distribución t de Student
Muestras grandes, σ s
Uso de Z (Distribución Normal)
conocido

Muestras
grandes o s
pequeñas, σ Uso de t (Distribución t de Student)
desconocido

Uso de la Cuasidesviación Típica S


Student's t Distribution

0.4
D. F.
10

X  X 
0.3 90

t 
170
density

0.2
s/ n sx
0.1

0
-6 -4 -2 0 2 4 6
x
BIOLOGÍA PESQUERA Aplicación R
BIOLOGÍA PESQUERA Aplicación R

LIMITES DE CONFIANZA DE LA MEDIA POBLACIONAL

En el caso de una distribución normal, los límites de confianza están


dados por:

X  t0.05( 2),v S x X  t0.05( 2),v S x

Limite de Limite de
Confianza Confianza
Inferior Superior

Intervalo de
X  t0.05( 2),v S x    X  t0.05( 2),v S x Confianza de μ

Donde v = n -1= número de grados de libertad

t0.05( 2),v  Percentil de la distribución t de Student con v grados


de libertad y nivel de confianza del 95% (α = 0,05).
BIOLOGÍA PESQUERA Aplicación R

Límites de Student's
confianza t Distributiondel 95%
Probability = 0.0500921
0.4
D. F.
24
X  15,1 cm
0.3
s x  0,42 cm
density

0.2
0.025 0.025
t0,05( 2),26  2,06
0.1 95%

0
-6 -4 -2 0 2 4 6
x

Límite inferior L1: 15,1  2,06 * 0,42  14,2 cm


Límite superior L2: 15,1  2,06 * 0,42  16,0 cm

Esto significa que se tiene un 95% de confianza de que la talla media


se sitúa en algún lugar entre 14,2 y 16,0 cm o, en otras palabras, que
si el muestreo se repitiese 100 veces bajo las mismas condiciones, es
de prever que 95 de las 100 medias se situarían entre 14,2 y 16,0 cm.
BIOLOGÍA PESQUERA Aplicación R
ANÁLISIS DE REGRESIÓN

Objetivo Establecer la forma de la relación entre las variables


inicial

Objetivo Predecir o estimar el valor de una variable dependiente


final para un determinado valor de una variable
independiente.

Regresión
Lineal Regresión Lineal Simple
Simple

Indica que el La ecuación de Involucra una sola


propósito del predicción tiene la variable
experimento es forma de una línea independiente X
la predicción recta

y = a + bX
BIOLOGÍA PESQUERA Aplicación R

Ejemplo Supóngase que deseamos describir la variación de una


cantidad, por ejemplo, la altura corporal de un pez, como
función lineal de otra cantidad, por ejemplo, la talla. La teoría
recomienda que la cantidad que aparece en el eje horizontal
(la variable independiente) se mida con absoluta precisión.

En este Y = altura del cuerpo


caso:
Y|x = Valor de Y dado que X=x Valor medio = μY|x

Si la altura del cuerpo es directamente


proporcional a la talla:
yi  bxi
Si incluimos una posible desviación de
la proporcionalidad entre la altura del
cuerpo y la talla:
a y b son los
yi  a  bxi parámetros de la
regresión lineal
BIOLOGÍA PESQUERA Aplicación R

Ejemplo Supongamos que se ha medido la longitud total y la altura


del cuerpo de siete ejemplares de la especie.

Diagrama de dispersión y modelo de


Longitud Altura del regresión lineal de la relación entre la altura
total (cm) cuerpo (cm) del cuerpo y la longitud total de la especie
11,2 3,0
6
12,4 3,2
5.5

13,5 4,0 Altura del cuerpo (cm)


5

15,7 4,8 4.5

17,1 4,8 4

3.5
18,5 4,9
3

19,0 5,6 11 13 15
Longitud total (cm)
17 19
BIOLOGÍA PESQUERA Aplicación R
DIFERENTES CURVAS TEÓRICAS DE REGRESION:
LINEALES Y NO LINEALES
BIOLOGÍA PESQUERA Aplicación R
ECUACIÓN MODELO DE LA REGRESIÓN LINEAL
Se dice que una curva de regresión de Y y X es una regresión lineal
si y solo si:

números reales  0
Y !X    x  y 
Coeficientes de regresión

Y!X = Media de la subpoblación de valores de Y para un valor


específico de X.

 = ordenada al origen o punto de intersección con y (intercepto).

>0 recta hacía arriba (pendiente positiva)


 = pendiente de la
recta <0 recta hacía abajo (pendiente negativa)

=0 recta horizontal (pendiente nula)


BIOLOGÍA PESQUERA Aplicación R

PASOS PARA LA ELABORACIÓN DEL ANÁLISIS DE REGRESIÓN

1. Obtener el diagrama de dispersión (nube de puntos o diagrama


XY). Gráfico de Niveles_contaminacion vs Numero_industrias

119
Niveles_contaminacion

109

99

89

79

69

59
50 60 70 80 90 100
Remoción Tendencia a
la linealidad
BIOLOGÍA PESQUERA Aplicación R
2. Establecer el modelo (lineal) que mejor se ajusta a los datos.
Método a
utilizar Método de los mínimos cuadrados

Recta
obtenida Recta de los mínimos cuadrados

Ecuación general de la recta: y = a + bx

Ecuaciones para obtener los valores numéricos de a y b:


n n n n n
n xy   x y  y  b x
b i 1
n
i 1
n
i 1
a i 1 i 1 o a  y  bx
n x 2  ( x) 2
n
i 1 i 1

Por tanto (ver cuadro siguiente diapositiva):

11(71790 )  (825)(916 ) 916  1.1236 (825)


b  1.1236 a  0.9973
11(64625 )  (825) 2
11
BIOLOGÍA PESQUERA Aplicación R
Cálculos intermedios para la obtención de los
coeficientes de regresión (contaminación en peces
producida por dragado del fondo marino)
Remoción Nivel_Contami

(t) (X) nación (Y) X2 Y2 XY


50 61 2500 3721 3050
55 61 3025 3721 3355
60 59 3600 3481 3540
65 71 4225 5041 4615
70 80 4900 6400 5600
75 76 5625 5776 5700
80 90 6400 8100 7200
85 106 7225 11236 9010
90 98 8100 9604 8820
95 100 9025 10000 9500
100 114 10000 12996 11400
∑= 825 916 64625 80076 71790
BIOLOGÍA PESQUERA Aplicación R
Concepto de los Mínimos cuadrados: La suma de las desviaciones
verticales al cuadrado de los datos observados respecto a la recta es
menor que la suma de las desviaciones verticales al cuadrado de
cualquier otra recta.
Ecuación de regresión lineal

Y X
Gráfico del Modelo Ajustado
Niveles_contaminacion = -1 + 1.12364*Remoción
119
Niveles_contaminacion

109 Distancias que se minimizan por el


método de los mínimos cuadrados
99

89

79

69

59
50 60 70 80 90 100
BIOLOGÍA PESQUERA Aplicación R

EVALUACIÓN DE LA ECUACIÓN DE REGRESIÓN

Objetivo Determinar si la ecuación de regresión describe


de la adecuadamente la relación entre las dos
evaluación variables y puede usarse para predicción y
estimación.

Métodos de  Evaluación de la Ho: β = 0, contra la Ha: β ≠


evaluación 0 mediante Análisis de Varianza (estadístico
F)

 Coeficiente de Determinación R2

 Evaluación de la Ho: β = 0, contra la Ha: β ≠


0 mediante prueba t.
BIOLOGÍA PESQUERA Aplicación R
TABLA DE ANÁLISIS DE VARIANZA PARA PROBAR LA Ho: β = 0, contra Ha: β ≠ 0
Se rechaza Ho si Fcalculado > Fα(1),1,n-2 o si P< α (generalmente α=0.05).

Cálculo del coeficiente de determinación R2


  n
 
2

 n   xi  
b 2  xi2   i 1   Interpretación de R2:
 i 1 n 
  Proporción de variabilidad en
  SSR la variable dependiente que es
R 
2
2
 explicada por la regresión
 n
 SST
  yi  lineal, es decir, por la relación
con la variable independiente
 i 1 
n

 i 1
y 2
i 
n
BIOLOGÍA PESQUERA Aplicación R
EVALUACIÓN DE LA Ho: β = 0, CONTRA LA Ha: β ≠ 0
MEDIANTE PRUEBA t
(estimado.del. parámetro)  (valor.hipotetiza do.del. parámetro)
t
error .estándar.del. parámetro
b  0
t
Sb
Sb= error estándar del coeficiente de regresión

La varianza de b se calcula mediante


MSE SY2. X 36.2384 36.2384
S 
2
b 2
 2
 2
  0.0131776
 n   n  (825) 2750
  xi    xi  64625 
n
 i 1 
n
 i 1  13

i 1
xi
2

n

i 1
xi
2

n

Sb  Sb2  0.0131776  0.11479


BIOLOGÍA PESQUERA Aplicación R

b   0 1.12364  0
t   9.7887
Sb 0.11479

t0.05(2), 9=2.26216

Por lo tanto se rechaza Ho.

De esta forma se confirma entonces la validez del modelo


lineal para relacionar las dos variables estudiadas.

En Statgraphics esta prueba se obtiene automáticamente


en la salida de la misma regresión líneal que proporciona
el análisis de varianza que prueba la misma hipótesis,
como se muestra a continuación.
BIOLOGÍA PESQUERA Aplicación R

Pasos en Statgraphics para efectuar el análisis de regresión

1. Se llevan a la hoja de trabajo de Statgraphics los datos del archivo.

2. Relacionar

3. Un Factor

4. Regresión Simple

5. Introducir los datos en las casillas correspondientes


(“Niveles_contaminacion” en la casilla “Y” y “Remoción” en la casilla
“X”.

6. Aceptar
BIOLOGÍA PESQUERA Aplicación R

ANÁLISIS DE CORRELACIÓN

Objetivo Establecer la intensidad de la relación entre dos variables,


es decir, la fuerza de la asociación lineal entre las dos
variables.

Aplicación Situaciones donde X e Y son variables aleatorias y tienen el


prioritaria mismo interés.

ρ = Coeficiente de correlación poblacional

r = Coeficiente de correlación muestral

Rango del coeficiente: -1 ≤ρ ≤ 1

=1 correlación positiva perfecta entre X e Y.

 = -1 correlación negativa perfecta entre X e Y.

=0 X e Y no están correlacionados
BIOLOGÍA PESQUERA Aplicación R

CÁLCULO DEL COEFICIENTE DE CORRELACIÓN R

n n n
n xy   x  y
ˆ  R  i 1 i 1 i 1

 n 2  n 2   n 2  n 2 
n  x    x    y    y  
 i 1  i 1    i 1  i 1  

ˆ  R  R 2
BIOLOGÍA PESQUERA Aplicación R

RESULTADOS

a Coeficientes
de Regresión
b

Prueba t

Anova

R2
BIOLOGÍA PESQUERA Aplicación R
RESULTADOS
Intervalos de confianza de la var. dependiente para
los valores dados de remoción
Gráfico del Modelo Ajustado
Niveles_contaminacion = -1 + 1.12364*Remoción
119
Niveles_contaminacion

109

99

89

79

69

59
50 60 70 80 90 100
Remoción
Intervalos de confianza de la var. dependiente para nuevas
observaciones (predicciones o pronósticos
BIOLOGÍA PESQUERA Aplicación R
Ejemplo Se realiza un estudio de fotoperíodo (número de horas luz por día)
en aves acuáticas. Se pretende establecer una ecuación para
predecir el tiempo de reproducción Y con base en el conocimiento del
fotoperíodo bajo el que se inició la reproducción, X. Se obtuvieron
los siguientes datos, observando el comportamiento de once (11)
Aythia (patos buceadores). Determinar la ecuación de regresión y
establecer si el modelo lineal es válido (mediante ANOVA, R 2 y
prueba t.
X (fotoperíodo) Y (tiempo de
reproducción)
12.8 110
13.9 54
14.1 98
14.7 50
15.0 67
15.1 58
16.0 52
16.5 50
16.6 43
17.2 15
17.9 28
BIOLOGÍA PESQUERA Aplicación R
Ejemplo de aplicación de la prueba de hipótesis
(bilateral) de la diferencia de medias
Ejemplo de Probar, por ejemplo, si hay diferencias significativas entre
aplicación las alturas del cuerpo de dos muestras de peces
capturados con dos tamaños de malla diferentes (3.0” y
3.5”).

Datos colectados

Malla 3.0” Malla 3.5”


8.8 9.9
8.4 9.0
7.9 11.1
8.7 9.6
9.1 8.7
9.6 10.4
9.5
BIOLOGÍA PESQUERA Aplicación R

DESARROLLO DE LA PRUEBA DE HIPÓTESIS DE DOS MEDIAS

Hipótesis

Ho: μ1 = μ2
Ha: μ1 ≠ μ2

Nivel de significación

α = 0.05
Cálculos

n1 = 6 n2 = 7

v1 = 5 v2 = 6

x1  8.75% x2  9.74%
SS1= 1.6950(%)2 SS2= 4.0171(%)2
Aplicación R
Continuación Cálculos

ss1  ss2 1.6950  4.0171 5.7121


s 
2
   0.5193(%)2
v1  v2 56
p
11

s 2p s 2p
0.5193 0.5193
s x1  x2      0.0866  0.0742 
n1 n2 6 7

 0.1608  0.40%

X 1  X 2 8.75  9.74  0.99


t    2.475  tcalculado
s x1  x 2 0.40 0.40
Aplicación R
Criterio de rechazo

t0.05( 2),v  t0.05( 2),11  2.201

Se rechazará Ho si | t | > t0.05(2),11, es decir, si | t | > 2.201

Decisión

Dado que | t | =2.475 > 2.201, se rechaza la Ho.

0.02 < P(| t | ≥ 2.475) < 0.05 [P=0.030]

Conclusión

Hay diferencias significativas entre los niveles medios de pérdida


de los dos procesos industriales.
BIOLOGÍA PESQUERA Aplicación R
PROCEDIMIENTO PARA ESTABLECER EL P-VALUE A PARTIR DE LA TABLA DE LA
DISTRIBUCIÓN t
BIOLOGÍA PESQUERA Aplicación R
DISTRIBUCIÓN t Distribution BAJO LA HIPÓTESIS NULA, PARA v=11
Student'sTEÓRICA
Probability = 0.0500921
0.4
D. F.
1124
0.3
Posición de valores críticos de
0.2 t para α= 0.05 y v=11
0.025 0.025 (hipótesis bilateral)
0.1

0
-6 -4 -2 0 2 4 6 Student's t Distribution
x Probability = 0.0123925
0.4
t= -2.201 t= 2.201 D. F.
1124
0.3

Posición de valores calculados de t y


density

0.2
el correspondiente valor de la 0.015 0.015
probabilidad (P-value) en una
distribución t con v=11 0.1

0
-6 -4 -2 0 2 4 6
t= -2.475 x t= 2.475
BIOLOGÍA PESQUERA Aplicación R
Pasos en Statgraphics para evaluar las hipótesis concernientes a dos
medias (hipótesis bilateral)
 Digitar los datos de las columnas “Malla 3.0” y “Malla 3.5”
 Comparar
 Dos Muestras
 Muestras independientes
 Introducir los datos en las casillas correspondientes (“Malla 3.0” y
“Malla 3.5”)
 Aceptar
 Seleccionar “Comparación de Medias” (ampliar el panel de estos
resultados)
 Con botón alterno del ratón sobre este panel de resultados, hacer click
en “opciones de ventana”
 Verificar que esté activa la opción “Diferente”
 Chequear resultados y comparar con cálculos manuales.

También podría gustarte