Está en la página 1de 20

Boletín 2 (1)

Haremos la tabla de contingencia de las variables ‘porosidad’ (X) y ‘permeabilidad’ (Y).


X\Y Baja/nula Moderada Alta ni•
Baja/nula 1 0 0 1
Moderada 1 4 0 5
Alta 1 1 2 4
n•j 3 5 2 10

Si suponemos que las variables son ordinales, el grado de asociación vendrá dado por el
parámetro tau de Kendall. Viene definido, para tablas cuadradas, como es el caso, por la

−
expresión
 =
−1 −1
 −    −  
2 2
Siendo P el número de parejas concordantes, Q las parejas discordantes, Tx el número de

 =    
empates en X, Ty el número de empates en Y y N el número de datos totales.

   

 =    
   

1


 =  ∎ ∎ − 1
2


1


 =  ∎ ∎ − 1
2

Asignamos rangos a la variable X (porosidad)
Posición Cantidad Suma p Rango
Nivel t(t-1)
(p) (t)=ni• (S) (S/t)
Bajo 8 1 8 8 0
Moderado 3,4,5,6,9 5 27 5’4 20
Alto 1,2,7,10 4 20 5 12
Suma 32
Tx=suma/
16
2
Y a la Y (permeabilidad)
Posición Cantidad Suma p Rango
Nivel t(t-1)
(p) (t)= n•j (S) (S/t)
Bajo 4,7,8 3 19 6’33 6
Moderado 2,5,6,9,10 5 32 6’4 20
Alto 1,2 2 3 1’5 2
Suma 28
Ty=suma/
14
2

Sustituimos los valores de las variables con las de los rangos que hemos obtenido
X Rango X Y Rango Y
Alta 5 Alta 1’5
Alta 5 Alta 1’5
Moderada 5’4 Moderada 6’4
Moderada 5’4 Baja 6’333
Moderada 5’4 Moderada 6’4
Moderada 5’4 Moderada 6’4
Alta 5 Baja 6’333
Baja 8 Baja 6’333
Moderada 5’4 Moderada 6’4
Alta 5 Moderada 6’4

Ordenamos los pares en orden ascendente de la variable X y, a igual valor de X, en


ascendente de Y.
Posición 1 2 3 4 5 6 7 8 9 10
Rango X 5 5 5 5 5’4 5’4 5’4 5’4 5’4 8
Rango Y 1’5 1’5 6’333 6’4 6’333 6’333 6’4 6’4 6’4 6’333
Veamos cómo encontrar los valores de las ‘parejas concordantes (P)’.
Para cada valor de la columna ‘Posición’ contamos el número de columnas que contienen
valores del rango X y rango Y mayores (AMBOS) a los valores que corresponden al
‘rangoX’ y ‘rangoY’ de esa columna de posición, y anotamos ese número como el número
de ‘parejas concordantes’.
Es decir, en la columna de posición 1, el valor de rangoX es 5 y el de rangoY es 1’5.
Contamos las posiciones que tengan un valor de ‘rangoX’ mayor a 5 y ‘rangoY’ mayor que
1’5. Resultan ser 6. En la columna de ‘parejas concordantes’ de la posición 6, sería
‘rangoX’>5’4 y ‘rangoY’>6’333. Sería 0.
Y, ahora, las ‘parejas no concordantes (Q)’.
Igual que antes, contamos las posiciones, pero ahora ha de ser el conteo tal que ‘rangoX’ sea
mayor que el de la posición a calcular, pero ‘rangoY’ será menor que el de la posición a
calcular.
Así, para la posición 1, ‘rangoX’ es 5 y ‘rangoY’ es 1’5. Buscamos las que tengan un
‘rangoX’ mayor que 5 y un ‘rangoY’ menor que 1’5. No los hay, por lo que las ‘parejas no
concordantes’ para esta posición son 0.
La tabla queda, operando con todas las posiciones, como
Posición 1 2 3 4 5 6 7 8 9 10
Rango X 5 5 5 5 5’4 5’4 5’4 5’4 5’4 8
Rango Y 1’5 1’5 6’333 6’4 6’333 6’333 6’4 6’4 6’4 6’333
P.Conc 6 6 4 0 0 0 0 0 0 0
P.No.Co 0 0 0 2 0 0 0 0 0 0
La suma de la fila de ‘parejas concordantes’ es 16, que será el valor de P, y la suma de la fila
de ‘parejas no concordantes’ es de 2, que será el valor de Q.
Así, P=16, Q=2, Tx=16, Ty=14 y N=10.
Ahora ya sabemos todos los valores de los parámetros, con lo que calcularemos el valor de

16 − 2
tau de Kendall.
 = = 0,466926142
10 10 − 1 10 10 − 1
 − 16  − 14
2 2
Como es positivo, la asociación es igualmente positiva. Y al ser un número entre 0 y 1,
podemos decir que será una asociación positiva mediana.

$%&
El conocido como coeficiente de entropía o coeficiente de incertidumbre se define como
$ = 2 1 − 
$% + $&
Con
∎ ∎ ∎ ∎  
   

$% = −  ( ) * ; $& = −  ( ) * ; $%& = −   ln ) *
   
Toma valores entre [0,1] y cuanto más próximo a 1 esté, menos entropía habrá.
De esta forma, tomando los valores de la tabla de contingencia
X\Y Baja/nula Moderada Alta ni•
Baja/nula 1 0 0 1
Moderada 1 4 0 5
Alta 1 1 2 4
n•j 3 5 2 10

∎ ∎ 1 1 5 5 4 4

Tendremos que

$% = −  ( ) * = − ∙ ln   −  ∙ ln   −  ∙ ln  
10 10 10 10 10 10

= 0,943348392
∎ ∎ 3 3 5 5 2 2


$% = −  ( ) * = − ∙ ln   −  ∙ ln   −  ∙ ln  
10 10 10 10 10 10

= 1,029653014
 
 

$%& = −   ln ) *=
 
1 1 0 0 0 0 1 1 4 4
= − ln   −  ln   −  ln   −  ln   −  ln  
10 10 10 10 10 10 10 10 10 10
0 0 1 1 1 1 2 2
−  ln   −  ln   −  ln   −  ln  
10 10 10 10 10 10 10 10
= 1,609437912

$%& 1,609437912
Y, así
$ = 2 1 −  = 2 1 −  = 0,368538422
$% + $& 0,943348392 + 1,029653014
Lo que nos indica que es una serie de datos con una alta entropía o desorden.
Boletín 2- (9)

En primer lugar se ordenan los valores de las variables A y C, anotando tantas veces el valor
como veces aparezcan en la tabla de resultados. Luego se calcula la ‘posición media’ de cada
valor, es decir, se hace la media de los ordinales de la posición de los valores ordenados y se
asigna ese número a cada uno de los valores de la tabla. Esos valores son las nuevas
variables ‘rx’ y ‘ry’.
Hemos de calcular el coeficiente de correlación de Spearman, que nos da la relación

655
34, = 355 =
monótona creciente o decreciente de un grupo de datos, y que se define como

65 65
Donde srxry es la covarianza de los datos retabulados, srx la varianza de rx y sry la de ry.
Calculamos la nueva tabla de contingencia

Esp.A x 1 2 2 2 2 3 3 4 4 5
Ordinal 1 2 3 4 5 6 7 8 9 10
media 1 (2+3+4+5)/4=3’5 (6+7)/2=6’5 (8+9)/2=8’5 10
rx 1 3’5 3’5 3’5 3’5 6’5 6’5 8’5 8’5 10

Esp.C y 1 1 1 1 2 2 2 3 3 3
Ordinal 1 2 3 4 5 6 7 8 9 10
media (1+2+3+4)/4=2’5 (5+6+7)/3=6 (8+9+10)/3=8
ry 2’5 2’5 2’5 2’5 6 6 6 9 9 9

Ahora tomamos los datos originales y los sustituimos por sus nuevos valores de rx o ry.
Esp.A x 2 3 2 4 5 1 3 4 2 2
rx 3’5 6’5 3’5 8’5 10 1 6’5 8’5 3’5 3’5
Esp.C y 3 1 1 3 2 2 3 2 1 1
ry 9 2’5 2’5 9 6 6 9 6 2’5 2’5

Y esta es la nueva tabla de contingencia.


Esp.A rx 3’5 6’5 3’5 8’5 10 1 6’5 8’5 3’5 3’5
Esp.C ry 9 2’5 2’5 9 6 6 9 6 2’5 2’5

Ahora pasamos a calcular los valores de las medias, varianzas, covarianza…


1
Las medias de rx y ry son:
37 = 1 + 4 ∙ 38 5 + 2 ∙ 68 5 + 2 ∙ 88 5 + 10 = 5′5
10
1
37 = 4 ∙ 28 5 + 3 ∙ 6 + 3 ∙ 9 = 5′5
10

1
<
La varianza, como sabemos es

6: =  ;:  − ;̅ :

Por lo que, y teniendo en cuenta que para rx hay 5 grupos de datos (m=5 para rx) y para ry

1 :
hay 3 grupos de datos (m=3 para ry)
65
:
= 1 ∙ 1 + 38 5: ∙ 4 + 68 5: ∙ 2 + 88 5: ∙ 2 + 10: ∙ 1 − 5′5: = 7′65
10
1 8 :
65
:
= 2 5 ∙ 4 + 6: ∙ 3 + 9: ∙ 3 − 5′5: = 7′35
10

: = >7′65 = 2′766
65 = >65
La desviación típica es

6 = >6: → @ A
>
65 = 65 = 7′35 = 2′711
:

1
 
La covarianza (para dos variables) viene dada por la expresión

6 =    ; B − ;̅ ∙ BC
 
En nuestro caso, podemos tomar todos y cada una de las parejas de datos, multiplicarlas y

1
D
sumarlas, con lo que obviaremos el uso de la frecuencia nij. Así quedará

655 =  3, 3, − 37 ∙ 37


10

1 8
655 = 3 5 ∙ 9 + 68 5 ∙ 28 5 + 38 5 ∙ 28 5 + 88 5 ∙ 9 + 10 ∙ 6 + 1 ∙ 6 + 68 5 ∙ 9 + 88 5 ∙ 6
10
+ 38 5 ∙ 28 5 + 38 5 ∙ 28 5 − 58 5 ∙ 58 5 = 2′35

2′35
Ya podemos calcular el coeficiente de Spearman

3E, = = 0′3133960188
√7′65√7′35
Esto nos indica una relación monótona creciente baja.

6
3 =
Para ello hemos de calcular el coeficiente de relación lineal de Pearson, que se define como

6 6
siendo sxy la covarianza de los datos y sx y sy las desviaciones típicas de las variables x e y.
Así habremos de calcular las desviaciones típicas de los datos y su covarianza.

1
<

6 = >6: = G  ;:  − ;̅ :


1
 

6 =    ; B − ;̅ ∙ BC
 
También podemos tomar todos y cada una de las parejas de datos, multiplicarlas y sumarlas,

1
H
con lo que obviaremos el uso de la frecuencia nij. Así quedará

6 =  ; B − ;̅ ∙ BC

Previamente habrá que calcular la media de las poblaciones.
La tabla de datos será
Esp.A x 2 3 2 4 5 1 3 4 2 2
Esp.B y 3 5 4 1 1 3 4 2 4 5

1
Por tanto, tendremos que
;̅ = 2 + 3 + 2 + 4 + 5 + 1 + 3 + 4 + 2 + 2 = 28 8
10
1
BC = 3 + 5 + 4 + 1 + 1 + 3 + 4 + 2 + 4 + 5 = 3′2
10
1 :
6: = 1 ∙ 1 + 2: ∙ 4 + 3: ∙ 2 + 4: ∙ 2 + 5: ∙ 1 − 28 8: = 18 36
10
1 :
6: = 1 ∙ 2 + 2: ∙ 1 + 3: ∙ 2 + 4: ∙ 3 + 5: ∙ 2 − 3′2: = 1′96
10
1
6 = 2∙3+3∙5+2∙4+4∙1+5∙1+1∙3+3∙4+4∙2+2∙4+2∙5 −
10
−28 8 ∙ 38 2 = −1′06

−18 06
Por lo que

3 = = −0,64924464
√18 36 ∙ √18 96

Esto nos indica dos cosas. Una es que la


relación entre las variables x e y presenta una
dependencia inversa, es decir, que a grandes
valores de x, corresponden bajos valores de y.
La otra es que esa relación es media-alta, según
se aprecia en la tabla adjunta.
La tabla de contingencia recogerá las frecuencias absolutas conjuntas para cada especie y
clase. La especie será la variable x, mientras que la clase será la variable y. Así, el subíndice
j tomará los valores 1,2 para las clases, y el subíndice i tomará los valores 1,2,3 para las
especies. La tabla quedará como
Especie\ Clase [1,3] (3,5] ni•
Especie A 7 3 n1•=10
Especie B 5 5 n2•=10
Especie C 10 0 n3•=10
n•j n•1=22 n•2=8 30

Los valores de n•j y ni• son las llamadas frecuencias marginales, que no vamos a utilizar en
este ejercicio.

Dado que una de las variables es no numérica, como es la especie involucrada, no se pueden
calcular coeficientes basados en los datos y, por lo tanto, usaremos coeficientes de
asociación, que en este caso serán de interdependencia (aunque podrían ser de predicción,
pero no es el caso pedido).
Tenemos una variable cualitativa nominal (la especie) y una cuantitativa discreta (la clase).
Por tanto, sólo podríamos calcular medidas nominales.

∎ ∎
I =
Vamos a calcular las frecuencias esperadas, que se definen como

∎ ∎J 22 ∙ 10
Por ejemplo,
IJ = = = 7′3333333333
30
Así,
Frec.Absolu. Frec.Esperada
Especie\ Clase [1,3] (3,5] [1,3] (3.5] ni•
Especie A 7 3 7’33 2’67 n1•=10
Especie B 5 5 7’33 2’67 n2•=10
Especie C 10 0 7’33 2’67 n3•=10
n•j n•1=22 n•2=8 30
Como ya se vio en la teoría, si las frecuencias absolutas son iguales a las esperadas EN
TODOS LOS VALORES DE LA TABLA, las variables x e y son independientes, con lo que
no existe ningún grado de asociación entre ellas. Si no son iguales, las variables x e y son
dependientes, por lo que existe asociación entre ellas.

 :
 
Podemos calcular el coeficiente Chi-cuadrado de Pearson, que se define como

K = 
:

I
 

 : : : : : :: : J : J: :


Por tanto, con l=2 y k=3

K =L
:
+ + + + + M− =
I I: I: I:: IJ IJ:
7: 3: 5: 5: 10: 0:
= L 8 + 8 + 8 + 8 + 8 + 8 M − 30 = 68 47727272
7 33 2 67 7 33 2 67 7 33 2 67

En base a este dato, podemos afirmar que hay relación entre las variables ‘Especie’ y clase,
pero no sabemos si es alta, baja, moderada. Para ello podemos acudir al coeficiente de
Cramer, que normaliza el valor de chi cuadrado, independizándolo del tamaño de la tabla y
de la cantidad de datos. Se define como

K:
N=O siendo T = mínXk − 1, l − 1Z = mínX3 − 1,2 − 1Z = 1
∙
Así,
68 47727
N=O = 0′46466
30 ∙ 1
Lo que nos indica que la relación es más bien débil. Valores próximos a 0 indican muy poca
o nula relación de variables, mientras que valores próximos a 1 indican una muy fuerte
relación.
Boletín 2. Ejercicio 15.

B = [ + \; + ]
Para calcular un modelo de regresión lineal mediante el método matricial, tenemos que

siendo x la variable independiente, y la dependiente, a y b los coeficientes de la regresión y ε


el error de la regresión. Llamando β1 y β2 a los parámetros a y b, podemos poner, en forma

^ = _∙`+]
de matrices la expresión anterior

_ = ` 8 ` a `′^
De aquí hemos de despejar la matriz de coeficientes β, quedando

Se forma la matriz X con una columna de ‘1’ y otra columna con los datos del río que actúa

1 5′7
como variable independiente, en este caso el ‘D’.

1 6′8
d g
`=c 1 7′3
c1 9′5f f
1 3′9
b1 4′1e

174
La matriz Y se forma como una matriz columna con los datos del río dependiente, el ‘B’.

142
d189g
^=c c135f f
100
b 76 e

1 1 1 1 1 1
`8 = ) *
Formamos la matriz X’ como la traspuesta de X, es decir, cambiando filas por columnas.

5′7 6′8 7′3 9′5 3′9 4′1


Hacemos la multiplicación matricial X’X. Se hacía multiplicando cada elemento de la fila i
de X’ por la columna j de X y sumando todos esos resultados para obtener el elemento ij de

`′` =  ;′ ;


la nueva matriz. Es decir,
1 5′7
1 6′8
1 1 1 1 1 1 d g
6 37′3
`8` = ) * c1 7′3f = ) *
5′7 6′8 7′3 9′5 3′9 4′1 1 9′5 c f 37′3 254′29
1 3′9
b1 4′1e
Hacemos la inversa de la nueva matriz X’X, dando (X’X)-1.

6 378 3
h=i 8 i = 1348 45
a) Calcular la determinante

37 3 2548 29

254′29 −37′3
) *
b) Hallar la matriz adjunta de la dada

−37′3 6

254′29 −37′3
) *
c) Hallar la matriz traspuesta de la adjunta que coincide con la adjunta

−37′3 6

1 254′29 −37′3
d) Dividir cada elemento de la traspuesta por el valor del determinante
` 8 ` a = ) *
134′45 −37′3 6

174
Hacemos la multiplicación X’Y

142
1 1 1 1 1 1 d 189 g 816
`^=)
8
*c
c f
f =) *
5′7 6′8 7′3 9′5 3′9 4′1 135 5321′2
100
b 76 e

1
Multiplicamos (X’X)-1.(X’Y)
2548 29 −378 3 816
`8` a
`8^ = ) *) *=
134 45 −37 3
8 8
6 53218 2
1 9019,88 67′087 = [
= ) *=) * ) *
134′45 1490,4 11′085 \
Ese resultado es β.

B = 67′087 + 11′085 ∙ ; + ]
Y el ajuste será

B = [ + \; + jk + ]
En este caso, el modelo será

^ = _∙`+]
Y

Incluyendo la matriz X a los datos de los dos ríos independientes A y C


1 2′46 12′8 174
1 1′33 11′6 142
d g d189g
` = c1 3′72 17′4
f ^=c
c135ff
c1 5′05 19′0f
1 2′03 60′2 100
b1 0′75 60′4e b 76 e

1 1 1 1 1 1
Y se opera igual que antes.

` 8 = l28 46 18 33 38 72 58 05 28 03 08 75m
128 8 118 6 178 4 19′0 60′2 60′4
1 28 46 128 8
1 18 33 118 6
1 1 1 1 1 1 d g
` 8 ` = l28 46 18 33 38 72 58 05 28 03 08 75m c1 38 72 178 4 =
8
c1 5 05 198 0f
f
128 8 118 6 178 4 198 0 608 2 608 4
1 28 03 60 2
8
b1 08 75 608 4e
6 15′34 181′4
= l15′34 51′845 375′1 m
181′4 375′1 8234′36

Los elementos de la matriz adjunta se calculan hallando el determinante de la matriz que


queda tras eliminar la fila y la columna del elemento para el que queremos calcular el menor
complementario. Luego se suman los índices del elemento y si da par no se cambia el signo,

286210,3842 −58271,9424 −3650,649


mientras que si da impar, se cambia el signo del determinante.

1
`` 8 a
= l−58271,9424 16500,2 532,076 m
161142,980184 −3650,649 532,076 75,7544
174
142
1 1 1 1 1 1 d g 816
` ^ = l2 46 1 33 3 72 5 05 2 03 0 75m c 189 = l22618 73m
f
8 8 8 8 8 8 8
c135 f
128 8 118 6 178 4 198 0 608 2 608 4 203388 4
100
b 76 e
`8` a
`8^
1 286210,3842 −58271,9424 −3650,649 816
= l−58271,9424 16500,2 532,076 m l22618 73m =
161142,980184 −3650,649 532,076 75,7544 203388 4

1 27503913,601248 170,6801846
= l 590666,866 m = l 3,6654831 m
161142,980184 −231006,32356 −1,4335488

B = 170,68 + 3,666 ∙ ; − 1,433 ∙ k + ]


Y el resultado es
Boletín 3-1

Debemos realizar un test de bondad de ajuste chi cuadrado. Sirve para comprobar si un
conjunto de datos se ajusta a una distribución conocida (como es el caso, en el cual debemos
confirmarlo frente a una distribución binomial b(6,0’4)) o desconocida que calcularemos
convenientemente.

nD ∶ p[qr6 6s ~\ 6,08 4
Las dos hipótesis que confrontaremos son la pertenencia o no a esa distribución conocida:

n ∶ p[qr6 r ~\ 6,08 4
Según el enunciado, sabemos que la media de la distribución toma el valor de ‘n=6’ y la
desviación es p=0’4, con lo que q=1-p=0’6.

6 = X0,1,2,3,4,5,6Z
El espacio muestral de la distribución es

Con todo ello, hemos de realizar una tabla de contingencia, pero previamente hemos de
calcular, según la distribución binomial, las probabilidades para cada uno de los valores del


u` = vw = ) v * x  y za
espacio muestral, sabiendo que la fórmula para su cálculo es

6 6!
Siendo ‘j’ el valor de la variable (0,1,2,3,4,5,6). Así tenemos que
x = u` = 0w = ) * 0′4D 0′6{aD = ∙ 0′4D 0′6{aD = 0,046656
0 0! 6!
6 6!
x: = u` = 1w = ) * 0′ 4 0′ 6{a = ∙ 0′ 4 0′ 6{a = 0,186624
1 1! 5!
6 6!
xJ = u` = 2w = ) * 0′ 4: 0′ 6{a: = ∙ 0′ 4: 0′ 6{a: = 0,31104
2 2! 4!
6 6!
x} = u` = 3w = ) * 0′ 4J 0′ 6{aJ = ∙ 0′ 4J 0′ 6{aJ = 0,27648
3 3! 3!
6 6!
x~ = u` = 4w = ) * 0′ 4} 0′ 6{a} = ∙ 0′ 4} 0′ 6{a} = 0,13824
4 4! 2!
6 6!
x{ = u` = 5w = ) * 0′ 4~ 0′ 6{a~ = ∙ 0′ 4~ 0′ 6{a~ = 0,036864
5 5! 1!
6 6!
x = u` = 6w = ) * 0′4{ 0′6{a{ = ∙ 0′4{ 0′6{a{ = 0,004096
6 6! 0!
La tabla consta de los valores de X (o j, como lo hemos definido), de las frecuencias
observadas (ni) y de los valores esperados según la probabilidad obtenida para la distribución
binomial a comprobar (Ei). Este valor de Ei se obtiene multiplicando la probabilidad pi por la
población total N (en este caso N=30, según los datos del enunciado).
Incluiremos una columna adicional para expresar la categoría de datos, ya que este tipo de
test no es válido para frecuencias esperadas inferiores a 5, pero permite agrupar datos
consecutivos hasta alcanzar ese valor. Como se apreciará, el valor de frecuencia esperada
para i=1 (X=0) es inferior a 5, por lo que lo incluiremos con el valor obtenido para X=1 en
una única categoría.
Tendremos, pues
i X ni pi Ei Categoría ni cat. pi cat.
1 0 0 0’046656 1’399
I 0 0,23328
2 1 0 0,186624 5’599
3 2 4 0’311040 9’331 II 4 0’31104
4 3 10 0’276480 8’294 III 10 0’27648
5 4 9 0’138240 4’147
6 5 7 0’036864 1’106 IV 16 0,1792
7 6 0 0’004096 0’123
Como vemos se han obtenido 4 categorías, con lo que el valor de k será de 4.

1 :

Una vez hecho esto, el estadístico experimental Texp es

€ =  −  ~ K: ‚ − 6 − 1
 x

Con ‘s’ igual al número de variables desconocidas. En nuestro caso s=0, ya que conocemos
los valores de X. Est expresión se utiliza con las categorías refusionadas.
Para aceptar la hipótesis, la región de aceptación debe hallarse en C(0,χ2). Ese valor de χ2 lo
conseguimos de las tablas estadísticas para n=3 y α=0’1. Ese valor de α se obtiene del
enunciado, que nos indica que
debe comprobarse al 90% de

1 − ƒ = 90% = 08 9 → ƒ
confianza, con lo que

= 0′1
2
El valor de χ para esos datos es de
6’251.

Por tanto, el resultado de Texp debe estar incluído en el rango (0,6’251)

1 : 1 : :: J: }:


}
Así, usando los valores de n y p de las categorías acumuladas

€ =  − 30 = L + + + M − 30 = 31′39
30 x 30 x x: xJ x}

Que no se haya en ese intervalo, por lo que debemos rechazar la hipótesis de que estos datos
se ajustan a una distribución binomial del tipo b(6,0’4).
Boletín 3-2

n : ps6qs\‡jsó r3‰[( [( 95% pŠ jr‹s[k[


Las hipótesis son

n : ps6q3s\‡jsó r r3‰[( [( 95% pŠ jr‹s[k[


Al ser una confianza del 95%, tendremos que α toma el valor de 0’05, y el tamaño muestral
es n=15.
Calculamos primero la función de distribución empírica. Ordenamos los datos de menor a
mayor.
48, 48, 48, 49, 49, 50, 51, 51, 51, 51, 52, 53, 54, 54, 55
Ahora establecemos los intervalos, las frecuencias y las probabilidades de cada intervalo
Probabilidad
Intervalo Frecuencia Probabilidad
acumulada
x<48 0 0 0
48≤x<49 3 3/15 3/15
49≤x<50 2 2/15 5/15
50≤x<51 1 1/15 6/15
51≤x<52 4 4/15 10/15
52≤x<53 1 1/15 11/15
53≤x<54 1 1/15 12/15
54≤x<55 2 2/15 14/15
55≤x 1 1/15 15/15

48 ∙ 3 + 49 ∙ 2 + 50 ∙ 1 + 51 ∙ 4 + 52 ∙ 1 + 53 ∙ 1 + 54 ∙ 2 + 55 ∙ 1
Calculamos la media aritmética de las observaciones

;̅ = = 50′93
15
Calculamos la desviación estándar de la muestra
∑z ; − ;̅ : 74,9335
6 = O =O = 2′3135
−1 14

; − ;̅
A continuación tipificamos los datos
k =
6
xi 48 49 50 51 52 53 54 55
zi -1’266 -0’834 -0’402 0’030 0’463 0’895 1’327 1’759
Hallamos la función de distribución estándar. Para ello se calcula la probabilidad acumulada
bajo la distribución normal estándar para cada valor de z≤zi, tomando los valores de la tabla
para una distribución normal. Como es N(0,1), los valores de la probabilidad para ‘z’
positivos y negativos se calculan complementando a 1. NO OLVIDAR QUE LA TABLA
QUE TENEMOS ES PARA Z>, por lo que si queremos obtener de esa tabla un valor para
z<, hemos de usar el dato que da directamente cambiado de signo.
xi 48 49 50 51 52 53 54 55
zi -1’266 -0’834 -0’402 0’030 0’463 0’895 1’327 1’759
Φ(x) 0’1029 0’2019 0’3372 0’512 0’679 0’8144 0’9072 0’9608

h ; = |6 ; − Ž ; | B  ; = |6 ;a − Ž ; |
Calculamos dos nuevas columnas para las siguientes expresiones

El valor que tomamos para s(x0) será 0.


Hacemos la siguiente tabla
xi 48 49 50 51 52 53 54 55
zi -1’266 -0’834 -0’402 0’030 0’463 0’895 1’327 1’759
S(x) 3/15 5/15 6/15 10/15 11/15 12/15 14/15 15/15
Φ(x) 0’1029 0’2019 0’3372 0’512 0’679 0’8144 0’9072 0’9608
A(x) 0’0971 0’1314 0’0628 0’1547 0’0543 0’0144 0’0261 0’0392
B(x) 0’1029 0’0019 0’0039 0’112 0’0123 0’0811 0’1072 0’0275

 = ‰á;u|6 ;a − Ž ; |w →  = 0′112


El valor estadístico de prueba es

Que corresponde al valor de 51, es decir 51≤x<52.


Buscamos ahora en la tabla D (de
Lilliefors) el valor para un valor de (1-
α)=0’95 y un tamaño de muestra de
N=15.

’ = ~,D8D~ = 0′220
Nos indica un valor de 0’220.

Una vez hecho esto, pasamos a tomar la decisión.


Comparamos el valor obtenido de Do con el tabulado de Dt. Si el valor de Do es menor que
el de Dt, no rechazamos la hipótesis de que la distribución es normal a 5% de significancia.
Por lo tanto, aceptamos la normalidad de los datos al 95%.
Boletín 3 (5)

Hemos de realizar un test de proporción poblacional. Pare ello tenemos dos opciones, el test
z, para el que necesitamos una población superior a los 30 datos (que no es el caso), o bien
un test binomial, que es válido para cualquier población.
Dado que el problema nos indica que la proporción ha de ser menor que 0’4 (valor de po),
nos hallamos en el tipo de test unilateral a izquierda.
También sabemos que el valor de α es de 0’05 (95% de confianza).

€ =  1 ~ \ , x
El estadístico experimental en este caso es, para una distribución binomial b(n,po)

“ 
Esto quiere decir (ese tipo de sumatorio) que hemos de contar cuantas veces se da el dato que
nos piden, en este caso, hemos de contar cuantos individuos de la especie A se dan en la
población. Por tanto, sabemos que Texp tomará el valor de 10, que es número de individuos
de esa especie en los datos que aporta el enunciado.
Para tomar la decisión, al seguir Texp una distribución discreta, no podemos construir una

x = ”\ , x ≥ € – ‡s([qŠ3[( [ pŠ3Šjℎ[


región de aceptación, por lo que se calculará el p-valor, según la fórmula

x = ”\ , x ≤ € – ™s([qŠ3[( [ sky‡sŠ3p[


x = ”\ , x ≤ € – + u\ , x ≥  − € w \s([qŠ3[( B € ≤ /2
x = ”\ , x ≤  − € – + u\ , x ≥ € w \s([qŠ3[( B € ≥ /2
Si α≤p, se acepta H0, y en caso contrario, se acepta H1.

x = ”\ , x ≤ € – = u\ 21,0′4 ≤ 10w


Por tanto, el p-valor a calcular es

 D
 21
La fórmula para la probabilidad es

 =  ) v * x  y za =    0′4 0′6:a = 0′8256221336


v
 D
Por tanto, dado que la probabilidad es superior al valor de α se acepta la hipótesis Ho, que
era que la probabilidad era mayor o igual a 0’4, por lo que no puede afirmarse que la
probabilidad de encontrar a un individuo de la especie A sea inferior a 0’4, que era la
hipótesis H1.
Boletín 3 (7)

Debemos realizar un análisis sobre la proporción de suelos especialmente ácidos. Usaremos


el test z sobre una proporción.
Tomamos el valor de ^p como la proporción pura de los datos presentados en el enunciado,

175
es decir, los 175 casos ácidos sobre los 400 suelos totales

x̂ = = 0′4375
400

n : x= ≤ x
Las hipótesis serán

n : x > x
Que se enmarcan en una hipótesis unilateral a la derecha.
EL valor de α será de 0’1.

x̂ − x
El estadístico experimental será, para este caso

€ = ~ 0,1
 x 1 − x


08 4375 − 08 2
Por tanto,

€ = = 118 875


0 2 1 − 0 2
8 8
400
Para tomar la decisión, la región de aceptación Co tiene la siguiente forma, siendo este test

 ž−∞, k /: ¡
unilateral a la derecha

Por tanto, hemos de proceder a hallar ese valor de zα/2, es decir, z0’05. Según las tablas, ese
valor es 1’645 (tenemos el valor de 0’05 en la tabla, y vemos el valor de Z en los márgenes).
Por lo tanto, el intervalo de aceptación es (-∞,1’645).
El estadístico experimental no se incluye en ese intervalo, por lo que rechazaremos la
hipótesis Ho y aceptaremos la H1, que afirma que la proporción de suelos especialmente
ácidos es superior a 0’2.
Boletín 3 (9)

Dado que tenemos 40 datos, podríamos pensar en un test de Shapiro-Wilk, que es válido para
distribuciones de datos en número inferior a 50. Pero, dado que nos indican la distribución a
la que hemos de ajustar los datos, en este caso una P(2) de Poisson, podemos usar el test de
χ2 que es válido para cualquier número de datos de la muestra.

nD ∶ p[qr6 6s ~ 2
Las dos hipótesis que confrontaremos son la perpetencia o no a esa distribución conocida:

n ∶ p[qr6 r ~ 2
La ajustaremos a una distribución de Poisson de media 2 (γ).

Š a¢ £ 
Las probabilidades en esta distribución se calculan según la fórmula

u` = vw =
v!
El espacio muestral será, en este tipo de distribuciones, desde 0 a infinito.
La tabla consta de los valores de X (o j, como lo hemos definido), de las frecuencias
observadas (ni) y de los valores esperados según la probabilidad obtenida para la distribución
de Poisson a comprobar (Ei). Este valor de Ei se obtiene multiplicando la probabilidad pi por
la población total N (en este caso N=40, según los datos del enunciado).
Incluiremos una columna adicional para expresar la categoría de datos, ya que este tipo de
test no es válido para frecuencias esperadas inferiores a 5, pero permite agrupar datos
consecutivos hasta alcanzar ese valor.
Primeramente ordenamos los datos
I 1 2 3 4 5 6 7
X 0 1 2 3 4 5 ≥6
ni 13 8 8 7 3 1 0

Sabidas ya las frecuencias de los datos, calculamos las probabilidades, pues conocemos los
valores de j a estudiar. ‘Paramos’ en j≥6, ya que no hay valores de la variable superiores a

Š a: 2D
ese número.

u` = 0w = = 0,13533528
0!
Š a: 2
u` = 1w = = 0,27067056
1!
Š a: 2:
u` = 2w = = 0,27067056
2!
Š a: 2J
u` = 3w = = 0,18044704
3!
Š a: 2}
u` = 4w = = 0,09022352
4!
Š a: 2~
u` = 5w = = 0,03608941
5!
Š a¢ £  Š a¢ £ 
¤ ~

u` ≥ 6w =  =1− = 0,01656327


v! v!
{ 
Completamos la tabla
i X ni pi Ei Categoría
1 0 13 0’13533528 5,4134112 I
2 1 8 0’27067056 10,8268224 II
3 2 8 0’27067056 10,8268224 III
4 3 7 0’18044704 7,2178816 IV
5 4 3 0’09022352 3,6089416
6 5 1 0’03608941 1,4435764 V
7 ≥6 0 0’01656327 0

Como vemos se han obtenido 5 categorías, con lo que el valor de k será de 5.

1 :

Una vez hecho esto, el estadístico experimental Texp es

€ =  −  ~ K: ‚ − 6 − 1
 x

Con ‘s’ igual al número de variables desconocidas. En nuestro caso s=0, ya que conocemos
los valores de X.
Para aceptar la hipótesis, la región de aceptación debe hallarse en C(0,χ2). Ese valor de χ2 lo
conseguimos de las tablas
estadísticas para n=4 y
α=0’01 (99% de confianza).
Como vemos el valor es de
13’277.

1 : 1 ¥: ¥¥ ¥¥¥ ¥¦ ¦:


~
El valor de Texp será
: : :
€ =  − 40 = L + + + + M − 40 = 128 62956695
40 x 40 x¥ x¥¥ x¥¥¥ x¥¦ x¦

Lo cual entra en el intervalo (0,13’277) delimitado por el estadístico χ2. Por tanto la hipótesis
planteada es válida, y los datos se ajustan a una distribución del tipo Poisson P(2) al 99% de
confianza.

También podría gustarte