Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Si suponemos que las variables son ordinales, el grado de asociación vendrá dado por el
parámetro tau de Kendall. Viene definido, para tablas cuadradas, como es el caso, por la
−
expresión
=
−1 −1
− −
2 2
Siendo P el número de parejas concordantes, Q las parejas discordantes, Tx el número de
=
empates en X, Ty el número de empates en Y y N el número de datos totales.
=
1
= ∎ ∎ − 1
2
1
= ∎ ∎ − 1
2
Asignamos rangos a la variable X (porosidad)
Posición Cantidad Suma p Rango
Nivel t(t-1)
(p) (t)=ni• (S) (S/t)
Bajo 8 1 8 8 0
Moderado 3,4,5,6,9 5 27 5’4 20
Alto 1,2,7,10 4 20 5 12
Suma 32
Tx=suma/
16
2
Y a la Y (permeabilidad)
Posición Cantidad Suma p Rango
Nivel t(t-1)
(p) (t)= n•j (S) (S/t)
Bajo 4,7,8 3 19 6’33 6
Moderado 2,5,6,9,10 5 32 6’4 20
Alto 1,2 2 3 1’5 2
Suma 28
Ty=suma/
14
2
Sustituimos los valores de las variables con las de los rangos que hemos obtenido
X Rango X Y Rango Y
Alta 5 Alta 1’5
Alta 5 Alta 1’5
Moderada 5’4 Moderada 6’4
Moderada 5’4 Baja 6’333
Moderada 5’4 Moderada 6’4
Moderada 5’4 Moderada 6’4
Alta 5 Baja 6’333
Baja 8 Baja 6’333
Moderada 5’4 Moderada 6’4
Alta 5 Moderada 6’4
16 − 2
tau de Kendall.
= = 0,466926142
10 10 − 1 10 10 − 1
− 16 − 14
2 2
Como es positivo, la asociación es igualmente positiva. Y al ser un número entre 0 y 1,
podemos decir que será una asociación positiva mediana.
$%&
El conocido como coeficiente de entropía o coeficiente de incertidumbre se define como
$ = 2 1 −
$% + $&
Con
∎ ∎ ∎ ∎
$% = − ( ) * ; $& = − ( ) * ; $%& = − ln ) *
Toma valores entre [0,1] y cuanto más próximo a 1 esté, menos entropía habrá.
De esta forma, tomando los valores de la tabla de contingencia
X\Y Baja/nula Moderada Alta ni•
Baja/nula 1 0 0 1
Moderada 1 4 0 5
Alta 1 1 2 4
n•j 3 5 2 10
∎ ∎ 1 1 5 5 4 4
Tendremos que
$% = − ( ) * = − ∙ ln − ∙ ln − ∙ ln
10 10 10 10 10 10
= 0,943348392
∎ ∎ 3 3 5 5 2 2
$% = − ( ) * = − ∙ ln − ∙ ln − ∙ ln
10 10 10 10 10 10
= 1,029653014
$%& = − ln ) *=
1 1 0 0 0 0 1 1 4 4
= − ln − ln − ln − ln − ln
10 10 10 10 10 10 10 10 10 10
0 0 1 1 1 1 2 2
− ln − ln − ln − ln
10 10 10 10 10 10 10 10
= 1,609437912
$%& 1,609437912
Y, así
$ = 2 1 − = 2 1 − = 0,368538422
$% + $& 0,943348392 + 1,029653014
Lo que nos indica que es una serie de datos con una alta entropía o desorden.
Boletín 2- (9)
En primer lugar se ordenan los valores de las variables A y C, anotando tantas veces el valor
como veces aparezcan en la tabla de resultados. Luego se calcula la ‘posición media’ de cada
valor, es decir, se hace la media de los ordinales de la posición de los valores ordenados y se
asigna ese número a cada uno de los valores de la tabla. Esos valores son las nuevas
variables ‘rx’ y ‘ry’.
Hemos de calcular el coeficiente de correlación de Spearman, que nos da la relación
655
34, = 355 =
monótona creciente o decreciente de un grupo de datos, y que se define como
65 65
Donde srxry es la covarianza de los datos retabulados, srx la varianza de rx y sry la de ry.
Calculamos la nueva tabla de contingencia
Esp.A x 1 2 2 2 2 3 3 4 4 5
Ordinal 1 2 3 4 5 6 7 8 9 10
media 1 (2+3+4+5)/4=3’5 (6+7)/2=6’5 (8+9)/2=8’5 10
rx 1 3’5 3’5 3’5 3’5 6’5 6’5 8’5 8’5 10
Esp.C y 1 1 1 1 2 2 2 3 3 3
Ordinal 1 2 3 4 5 6 7 8 9 10
media (1+2+3+4)/4=2’5 (5+6+7)/3=6 (8+9+10)/3=8
ry 2’5 2’5 2’5 2’5 6 6 6 9 9 9
Ahora tomamos los datos originales y los sustituimos por sus nuevos valores de rx o ry.
Esp.A x 2 3 2 4 5 1 3 4 2 2
rx 3’5 6’5 3’5 8’5 10 1 6’5 8’5 3’5 3’5
Esp.C y 3 1 1 3 2 2 3 2 1 1
ry 9 2’5 2’5 9 6 6 9 6 2’5 2’5
1
<
La varianza, como sabemos es
6: = ;: − ;̅ :
Por lo que, y teniendo en cuenta que para rx hay 5 grupos de datos (m=5 para rx) y para ry
1 :
hay 3 grupos de datos (m=3 para ry)
65
:
= 1 ∙ 1 + 38 5: ∙ 4 + 68 5: ∙ 2 + 88 5: ∙ 2 + 10: ∙ 1 − 5′5: = 7′65
10
1 8 :
65
:
= 2 5 ∙ 4 + 6: ∙ 3 + 9: ∙ 3 − 5′5: = 7′35
10
: = >7′65 = 2′766
65 = >65
La desviación típica es
6 = >6: → @ A
>
65 = 65 = 7′35 = 2′711
:
1
La covarianza (para dos variables) viene dada por la expresión
6 = ; B − ;̅ ∙ BC
En nuestro caso, podemos tomar todos y cada una de las parejas de datos, multiplicarlas y
1
D
sumarlas, con lo que obviaremos el uso de la frecuencia nij. Así quedará
2′35
Ya podemos calcular el coeficiente de Spearman
3E, = = 0′3133960188
√7′65√7′35
Esto nos indica una relación monótona creciente baja.
6
3 =
Para ello hemos de calcular el coeficiente de relación lineal de Pearson, que se define como
6 6
siendo sxy la covarianza de los datos y sx y sy las desviaciones típicas de las variables x e y.
Así habremos de calcular las desviaciones típicas de los datos y su covarianza.
1
<
6 = >6: = G ;: − ;̅ :
1
6 = ; B − ;̅ ∙ BC
También podemos tomar todos y cada una de las parejas de datos, multiplicarlas y sumarlas,
1
H
con lo que obviaremos el uso de la frecuencia nij. Así quedará
6 = ; B − ;̅ ∙ BC
Previamente habrá que calcular la media de las poblaciones.
La tabla de datos será
Esp.A x 2 3 2 4 5 1 3 4 2 2
Esp.B y 3 5 4 1 1 3 4 2 4 5
1
Por tanto, tendremos que
;̅ = 2 + 3 + 2 + 4 + 5 + 1 + 3 + 4 + 2 + 2 = 28 8
10
1
BC = 3 + 5 + 4 + 1 + 1 + 3 + 4 + 2 + 4 + 5 = 3′2
10
1 :
6: = 1 ∙ 1 + 2: ∙ 4 + 3: ∙ 2 + 4: ∙ 2 + 5: ∙ 1 − 28 8: = 18 36
10
1 :
6: = 1 ∙ 2 + 2: ∙ 1 + 3: ∙ 2 + 4: ∙ 3 + 5: ∙ 2 − 3′2: = 1′96
10
1
6 = 2∙3+3∙5+2∙4+4∙1+5∙1+1∙3+3∙4+4∙2+2∙4+2∙5 −
10
−28 8 ∙ 38 2 = −1′06
−18 06
Por lo que
3 = = −0,64924464
√18 36 ∙ √18 96
Los valores de n•j y ni• son las llamadas frecuencias marginales, que no vamos a utilizar en
este ejercicio.
Dado que una de las variables es no numérica, como es la especie involucrada, no se pueden
calcular coeficientes basados en los datos y, por lo tanto, usaremos coeficientes de
asociación, que en este caso serán de interdependencia (aunque podrían ser de predicción,
pero no es el caso pedido).
Tenemos una variable cualitativa nominal (la especie) y una cuantitativa discreta (la clase).
Por tanto, sólo podríamos calcular medidas nominales.
∎ ∎
I =
Vamos a calcular las frecuencias esperadas, que se definen como
∎ ∎J 22 ∙ 10
Por ejemplo,
IJ = = = 7′3333333333
30
Así,
Frec.Absolu. Frec.Esperada
Especie\ Clase [1,3] (3,5] [1,3] (3.5] ni•
Especie A 7 3 7’33 2’67 n1•=10
Especie B 5 5 7’33 2’67 n2•=10
Especie C 10 0 7’33 2’67 n3•=10
n•j n•1=22 n•2=8 30
Como ya se vio en la teoría, si las frecuencias absolutas son iguales a las esperadas EN
TODOS LOS VALORES DE LA TABLA, las variables x e y son independientes, con lo que
no existe ningún grado de asociación entre ellas. Si no son iguales, las variables x e y son
dependientes, por lo que existe asociación entre ellas.
:
Podemos calcular el coeficiente Chi-cuadrado de Pearson, que se define como
K =
:
−
I
K =L
:
+ + + + + M− =
I I: I: I:: IJ IJ:
7: 3: 5: 5: 10: 0:
= L 8 + 8 + 8 + 8 + 8 + 8 M − 30 = 68 47727272
7 33 2 67 7 33 2 67 7 33 2 67
En base a este dato, podemos afirmar que hay relación entre las variables ‘Especie’ y clase,
pero no sabemos si es alta, baja, moderada. Para ello podemos acudir al coeficiente de
Cramer, que normaliza el valor de chi cuadrado, independizándolo del tamaño de la tabla y
de la cantidad de datos. Se define como
K:
N=O siendo T = mínXk − 1, l − 1Z = mínX3 − 1,2 − 1Z = 1
∙
Así,
68 47727
N=O = 0′46466
30 ∙ 1
Lo que nos indica que la relación es más bien débil. Valores próximos a 0 indican muy poca
o nula relación de variables, mientras que valores próximos a 1 indican una muy fuerte
relación.
Boletín 2. Ejercicio 15.
B = [ + \; + ]
Para calcular un modelo de regresión lineal mediante el método matricial, tenemos que
^ = _∙`+]
de matrices la expresión anterior
_ = ` 8 ` a `′^
De aquí hemos de despejar la matriz de coeficientes β, quedando
Se forma la matriz X con una columna de ‘1’ y otra columna con los datos del río que actúa
1 5′7
como variable independiente, en este caso el ‘D’.
1 6′8
d g
`=c 1 7′3
c1 9′5f f
1 3′9
b1 4′1e
174
La matriz Y se forma como una matriz columna con los datos del río dependiente, el ‘B’.
142
d189g
^=c c135f f
100
b 76 e
1 1 1 1 1 1
`8 = ) *
Formamos la matriz X’ como la traspuesta de X, es decir, cambiando filas por columnas.
6 378 3
h=i 8 i = 1348 45
a) Calcular la determinante
37 3 2548 29
254′29 −37′3
) *
b) Hallar la matriz adjunta de la dada
−37′3 6
254′29 −37′3
) *
c) Hallar la matriz traspuesta de la adjunta que coincide con la adjunta
−37′3 6
1 254′29 −37′3
d) Dividir cada elemento de la traspuesta por el valor del determinante
` 8 ` a = ) *
134′45 −37′3 6
174
Hacemos la multiplicación X’Y
142
1 1 1 1 1 1 d 189 g 816
`^=)
8
*c
c f
f =) *
5′7 6′8 7′3 9′5 3′9 4′1 135 5321′2
100
b 76 e
1
Multiplicamos (X’X)-1.(X’Y)
2548 29 −378 3 816
`8` a
`8^ = ) *) *=
134 45 −37 3
8 8
6 53218 2
1 9019,88 67′087 = [
= ) *=) * ) *
134′45 1490,4 11′085 \
Ese resultado es β.
B = 67′087 + 11′085 ∙ ; + ]
Y el ajuste será
B = [ + \; + jk + ]
En este caso, el modelo será
^ = _∙`+]
Y
1 1 1 1 1 1
Y se opera igual que antes.
` 8 = l28 46 18 33 38 72 58 05 28 03 08 75m
128 8 118 6 178 4 19′0 60′2 60′4
1 28 46 128 8
1 18 33 118 6
1 1 1 1 1 1 d g
` 8 ` = l28 46 18 33 38 72 58 05 28 03 08 75m c1 38 72 178 4 =
8
c1 5 05 198 0f
f
128 8 118 6 178 4 198 0 608 2 608 4
1 28 03 60 2
8
b1 08 75 608 4e
6 15′34 181′4
= l15′34 51′845 375′1 m
181′4 375′1 8234′36
1
`` 8 a
= l−58271,9424 16500,2 532,076 m
161142,980184 −3650,649 532,076 75,7544
174
142
1 1 1 1 1 1 d g 816
` ^ = l2 46 1 33 3 72 5 05 2 03 0 75m c 189 = l22618 73m
f
8 8 8 8 8 8 8
c135 f
128 8 118 6 178 4 198 0 608 2 608 4 203388 4
100
b 76 e
`8` a
`8^
1 286210,3842 −58271,9424 −3650,649 816
= l−58271,9424 16500,2 532,076 m l22618 73m =
161142,980184 −3650,649 532,076 75,7544 203388 4
1 27503913,601248 170,6801846
= l 590666,866 m = l 3,6654831 m
161142,980184 −231006,32356 −1,4335488
Debemos realizar un test de bondad de ajuste chi cuadrado. Sirve para comprobar si un
conjunto de datos se ajusta a una distribución conocida (como es el caso, en el cual debemos
confirmarlo frente a una distribución binomial b(6,0’4)) o desconocida que calcularemos
convenientemente.
nD ∶ p[qr6 6s ~\ 6,08 4
Las dos hipótesis que confrontaremos son la pertenencia o no a esa distribución conocida:
n ∶ p[qr6 r ~\ 6,08 4
Según el enunciado, sabemos que la media de la distribución toma el valor de ‘n=6’ y la
desviación es p=0’4, con lo que q=1-p=0’6.
6 = X0,1,2,3,4,5,6Z
El espacio muestral de la distribución es
Con todo ello, hemos de realizar una tabla de contingencia, pero previamente hemos de
calcular, según la distribución binomial, las probabilidades para cada uno de los valores del
u` = vw = ) v * x y za
espacio muestral, sabiendo que la fórmula para su cálculo es
6 6!
Siendo ‘j’ el valor de la variable (0,1,2,3,4,5,6). Así tenemos que
x = u` = 0w = ) * 0′4D 0′6{aD = ∙ 0′4D 0′6{aD = 0,046656
0 0! 6!
6 6!
x: = u` = 1w = ) * 0′ 4 0′ 6{a = ∙ 0′ 4 0′ 6{a = 0,186624
1 1! 5!
6 6!
xJ = u` = 2w = ) * 0′ 4: 0′ 6{a: = ∙ 0′ 4: 0′ 6{a: = 0,31104
2 2! 4!
6 6!
x} = u` = 3w = ) * 0′ 4J 0′ 6{aJ = ∙ 0′ 4J 0′ 6{aJ = 0,27648
3 3! 3!
6 6!
x~ = u` = 4w = ) * 0′ 4} 0′ 6{a} = ∙ 0′ 4} 0′ 6{a} = 0,13824
4 4! 2!
6 6!
x{ = u` = 5w = ) * 0′ 4~ 0′ 6{a~ = ∙ 0′ 4~ 0′ 6{a~ = 0,036864
5 5! 1!
6 6!
x = u` = 6w = ) * 0′4{ 0′6{a{ = ∙ 0′4{ 0′6{a{ = 0,004096
6 6! 0!
La tabla consta de los valores de X (o j, como lo hemos definido), de las frecuencias
observadas (ni) y de los valores esperados según la probabilidad obtenida para la distribución
binomial a comprobar (Ei). Este valor de Ei se obtiene multiplicando la probabilidad pi por la
población total N (en este caso N=30, según los datos del enunciado).
Incluiremos una columna adicional para expresar la categoría de datos, ya que este tipo de
test no es válido para frecuencias esperadas inferiores a 5, pero permite agrupar datos
consecutivos hasta alcanzar ese valor. Como se apreciará, el valor de frecuencia esperada
para i=1 (X=0) es inferior a 5, por lo que lo incluiremos con el valor obtenido para X=1 en
una única categoría.
Tendremos, pues
i X ni pi Ei Categoría ni cat. pi cat.
1 0 0 0’046656 1’399
I 0 0,23328
2 1 0 0,186624 5’599
3 2 4 0’311040 9’331 II 4 0’31104
4 3 10 0’276480 8’294 III 10 0’27648
5 4 9 0’138240 4’147
6 5 7 0’036864 1’106 IV 16 0,1792
7 6 0 0’004096 0’123
Como vemos se han obtenido 4 categorías, con lo que el valor de k será de 4.
1 :
Una vez hecho esto, el estadístico experimental Texp es
= − ~ K: − 6 − 1
x
Con ‘s’ igual al número de variables desconocidas. En nuestro caso s=0, ya que conocemos
los valores de X. Est expresión se utiliza con las categorías refusionadas.
Para aceptar la hipótesis, la región de aceptación debe hallarse en C(0,χ2). Ese valor de χ2 lo
conseguimos de las tablas estadísticas para n=3 y α=0’1. Ese valor de α se obtiene del
enunciado, que nos indica que
debe comprobarse al 90% de
1 − = 90% = 08 9 →
confianza, con lo que
= 0′1
2
El valor de χ para esos datos es de
6’251.
= − 30 = L + + + M − 30 = 31′39
30 x 30 x x: xJ x}
Que no se haya en ese intervalo, por lo que debemos rechazar la hipótesis de que estos datos
se ajustan a una distribución binomial del tipo b(6,0’4).
Boletín 3-2
48 ∙ 3 + 49 ∙ 2 + 50 ∙ 1 + 51 ∙ 4 + 52 ∙ 1 + 53 ∙ 1 + 54 ∙ 2 + 55 ∙ 1
Calculamos la media aritmética de las observaciones
;̅ = = 50′93
15
Calculamos la desviación estándar de la muestra
∑z ; − ;̅ : 74,9335
6 = O =O = 2′3135
−1 14
; − ;̅
A continuación tipificamos los datos
k =
6
xi 48 49 50 51 52 53 54 55
zi -1’266 -0’834 -0’402 0’030 0’463 0’895 1’327 1’759
Hallamos la función de distribución estándar. Para ello se calcula la probabilidad acumulada
bajo la distribución normal estándar para cada valor de z≤zi, tomando los valores de la tabla
para una distribución normal. Como es N(0,1), los valores de la probabilidad para ‘z’
positivos y negativos se calculan complementando a 1. NO OLVIDAR QUE LA TABLA
QUE TENEMOS ES PARA Z>, por lo que si queremos obtener de esa tabla un valor para
z<, hemos de usar el dato que da directamente cambiado de signo.
xi 48 49 50 51 52 53 54 55
zi -1’266 -0’834 -0’402 0’030 0’463 0’895 1’327 1’759
Φ(x) 0’1029 0’2019 0’3372 0’512 0’679 0’8144 0’9072 0’9608
h ; = |6 ; − ; | B ; = |6 ;a − ; |
Calculamos dos nuevas columnas para las siguientes expresiones
= ~,D8D~ = 0′220
Nos indica un valor de 0’220.
Hemos de realizar un test de proporción poblacional. Pare ello tenemos dos opciones, el test
z, para el que necesitamos una población superior a los 30 datos (que no es el caso), o bien
un test binomial, que es válido para cualquier población.
Dado que el problema nos indica que la proporción ha de ser menor que 0’4 (valor de po),
nos hallamos en el tipo de test unilateral a izquierda.
También sabemos que el valor de α es de 0’05 (95% de confianza).
= 1 ~ \ , x
El estadístico experimental en este caso es, para una distribución binomial b(n,po)
Esto quiere decir (ese tipo de sumatorio) que hemos de contar cuantas veces se da el dato que
nos piden, en este caso, hemos de contar cuantos individuos de la especie A se dan en la
población. Por tanto, sabemos que Texp tomará el valor de 10, que es número de individuos
de esa especie en los datos que aporta el enunciado.
Para tomar la decisión, al seguir Texp una distribución discreta, no podemos construir una
D
21
La fórmula para la probabilidad es
175
es decir, los 175 casos ácidos sobre los 400 suelos totales
x̂ = = 0′4375
400
n : x= ≤ x
Las hipótesis serán
n : x > x
Que se enmarcan en una hipótesis unilateral a la derecha.
EL valor de α será de 0’1.
x̂ − x
El estadístico experimental será, para este caso
= ~ 0,1
x 1 − x
08 4375 − 08 2
Por tanto,
−∞, k /: ¡
unilateral a la derecha
Por tanto, hemos de proceder a hallar ese valor de zα/2, es decir, z0’05. Según las tablas, ese
valor es 1’645 (tenemos el valor de 0’05 en la tabla, y vemos el valor de Z en los márgenes).
Por lo tanto, el intervalo de aceptación es (-∞,1’645).
El estadístico experimental no se incluye en ese intervalo, por lo que rechazaremos la
hipótesis Ho y aceptaremos la H1, que afirma que la proporción de suelos especialmente
ácidos es superior a 0’2.
Boletín 3 (9)
Dado que tenemos 40 datos, podríamos pensar en un test de Shapiro-Wilk, que es válido para
distribuciones de datos en número inferior a 50. Pero, dado que nos indican la distribución a
la que hemos de ajustar los datos, en este caso una P(2) de Poisson, podemos usar el test de
χ2 que es válido para cualquier número de datos de la muestra.
nD ∶ p[qr6 6s ~ 2
Las dos hipótesis que confrontaremos son la perpetencia o no a esa distribución conocida:
n ∶ p[qr6 r ~ 2
La ajustaremos a una distribución de Poisson de media 2 (γ).
a¢ £
Las probabilidades en esta distribución se calculan según la fórmula
u` = vw =
v!
El espacio muestral será, en este tipo de distribuciones, desde 0 a infinito.
La tabla consta de los valores de X (o j, como lo hemos definido), de las frecuencias
observadas (ni) y de los valores esperados según la probabilidad obtenida para la distribución
de Poisson a comprobar (Ei). Este valor de Ei se obtiene multiplicando la probabilidad pi por
la población total N (en este caso N=40, según los datos del enunciado).
Incluiremos una columna adicional para expresar la categoría de datos, ya que este tipo de
test no es válido para frecuencias esperadas inferiores a 5, pero permite agrupar datos
consecutivos hasta alcanzar ese valor.
Primeramente ordenamos los datos
I 1 2 3 4 5 6 7
X 0 1 2 3 4 5 ≥6
ni 13 8 8 7 3 1 0
Sabidas ya las frecuencias de los datos, calculamos las probabilidades, pues conocemos los
valores de j a estudiar. ‘Paramos’ en j≥6, ya que no hay valores de la variable superiores a
a: 2D
ese número.
u` = 0w = = 0,13533528
0!
a: 2
u` = 1w = = 0,27067056
1!
a: 2:
u` = 2w = = 0,27067056
2!
a: 2J
u` = 3w = = 0,18044704
3!
a: 2}
u` = 4w = = 0,09022352
4!
a: 2~
u` = 5w = = 0,03608941
5!
a¢ £ a¢ £
¤ ~
1 :
Una vez hecho esto, el estadístico experimental Texp es
= − ~ K: − 6 − 1
x
Con ‘s’ igual al número de variables desconocidas. En nuestro caso s=0, ya que conocemos
los valores de X.
Para aceptar la hipótesis, la región de aceptación debe hallarse en C(0,χ2). Ese valor de χ2 lo
conseguimos de las tablas
estadísticas para n=4 y
α=0’01 (99% de confianza).
Como vemos el valor es de
13’277.