Documentos de Académico
Documentos de Profesional
Documentos de Cultura
1. La distribución χ2
Prácticamente todas las pruebas estadísticas se basan en la distribución de probabilidad
de ciertas variables aleatorias. La razón para que esto sea así tiene que ver con el hecho
de que muchas variables y experimentospresentan
experimentospresenta un histograma que tiende a
parecerse a alguna distribución conocida cuando se realizan de forma repetida un
número suficientemente grande de veces.veces Veamos un ejemplo:sii disponemos de una
población
ón de 100.000 individuos donde una determinada variable aleatoria xsiguiese
una distribución normal (N(µ=100,σ=15)con
(N( media 100 y desviación típica 15)¿cuál
15
sería la forma que adoptaría el histograma realizado con todos los valores de la
población? Crearemos con rnorm( ) dicha población ficticia.
> poblacion=rnorm(100000,100,15)
(100000,100,15) # mu=100 sigma=15
> head(poblacion) # veamos los 6 primeros valores
[1] 89.37865 98.44241 111.18166 110.39095 121.08057 91.67609
> summary(poblacion)
Min. 1st Qu. Median Mean 3rd Qu. Max.
29.10 89.84 99.98 99.96 110.10 163.30
El comando summary( )como como ya sabes nos permite conocer de forma rápida las
características de una variable.Si ésta
sta es cuantitativa la función nos entrega los índices
ín
mínimo, máximo así como la media y los tres cuartiles de la variable.Podemos ver que
los valores de la población de 100000 individuos generadas mediante rnorm se
encuentran entre 29.1 y 163.3. La media es prácticamente 100 y, y por tanto,
tanto coherente
con los argumentos entregados (100 y 15 para la media y la desviación típica, típica
respectivamente).Recuerda
Recuerda que si replicas estas instrucciones tus valores serán
algo diferentes.
> library(MASS) #Multivariate Analysis in Social Sciences
> truehist(poblacion)
27
ANALISIS DE DATOS EN PSICOLOGIA. El Análisis de la Varianza. Háztelo EN R. La distribución χ2
1 x−µ
2
1 −
f ( x) =
2 σ
e
2πσ 2
Es decir, para todo valor de x cuando le aplicamos esta función f(x), obtenemos un
nuevo valor que es posible proyectar en una gráfica de infinitos puntos entre el mínimo
y el máximo de los valores de x. A pesar de que R dispone de una función que nos da
precisamente f(x) para cualquier valor (dnorm( )), podemos programar una a la que
llamaremos dist.normal.fncque tenga x, mu y sigmacomo argumentos y f(x)
como resultado.
> dist.normal.fnc=function(x,mu,sigma) {
fx=(1/sqrt(2*pi*sigma^2)) * exp(-0.5 * ( (x-mu)/sigma)^2)
return(fx)
}
> dist.normal.fnc(x=100,mu=100,sigma=15)
st.normal.fnc(x=100,mu=100,sigma=15)
[1] 0.02659615
Compara este valor con la altura de la gráfica anterior parala media 100.
100
> dist.normal.fnc(x=40,mu=100,sigma=15)
[1] 8.922015e-06 # 0.00000892es
0.00000892 practicamente 0
> dist.normal.fnc(x=160,mu=100,sigma=15)
[1] 8.922015e-06 # 0.00000892
En este punto es de gran importancia entender que los valores de f(x) obtenidos
mediante la aplicación de la función exponencial descrita no son probabilidades sino
simplemente el valor de la función exponencial para el valor de x introducido. O la
altura en el eje y que adopta el valor xcuando se le aplica f(x). f(x) Vamos a aplicar
nuestra función dist.normal.fnc a los 100000 valores de nuestra población de
forma simultánea y, posterio riormente, proyectaremos una gráfica con estos valores en el
eje x y el resultado de la función para cada x en el eje y (f(x)).
>fx=dist.normal.fnc(poblacion,100,15)
fx=dist.normal.fnc(poblacion,100,15)
> plot(poblacion,fx) # valores de poblacion en eje x y fx en y
Rdispone de un juego de funciones que permite conocer tanto los valores de la función
de probabilidad normal de x como su función de densidad (acumulados). Así como el
valor x que verifica una probabilidad acumulada dada.
dnorm(x,mu,sigma) función de probabilidad normal de x (altura en el eje y)
pnorm(x,mu,sigma) función de densidad normal de x(acumulado
x(acumulado desde x a -∞)
qnorm(p,mu,sigma) valor de x que verifica una probabilidad acumuladap
acumulada
rnorm(n,mu,sigma) Genera una distribución normal de tamaño n con medias y
desviación poblacional mu y sigma respectivamente
Si no incluimos como argumento mu y sigma, entonces R entiende que se trata de la
distribución normal unitaria N(0,1).. Vamos a utilizar las funciones anteriores de tal
manera que comprendamos
prendamos su funcionamiento.
Si queremos saber el valor de la función de probabilidad normal para el valor 100 que
en nuestro ejemplo es la media usaremos dnorm.
> dnorm(100,100,15)
[1] 0.02659615
Será el valor máss alto de la función de probabilidad normal porquecoincide con la media
(100).
Si deseamos conocer la proporción de valores que quedan por debajo del valor 100 en
una normal N(100,15) utilizaremos pnorm.
> pnorm(100,100,15)
[1] 0.5 # 50% de los valores quedan por debajo de la media 100
Si lo que deseamos saber es ¿qué valor de x en la normal N(100,15) deja por debajo de si
el50% de la distribución utilizaremos qnorm,, que es en realidad el inverso de pnorm.
> qnorm(0.5,100,15)
[1] 100
30
ANALISIS DE DATOS EN PSICOLOGIA. El Análisis de la Varianza. Háztelo EN R. La distribución χ2
Si observamos línea a línea cada una de los 75 valores de z1 y z2,veremos que es muy
poco probable que en la misma línea se den simultáneamente dos valores grandes de
z1y z2. De hecho, podemos preguntarle a R cuántos de los 75 valen en la misma línea
más de 1.96 en valor absoluto para ambas variables. Esto lo haremos mediante el
comando subset( ) que tiene la siguiente sintaxis: subset(objeto,condición
a satisfacer). Veamos cómo se aplicaría a nuestro ejemplo.
> subset(abs(dos_variables),(z1 >= 1.96 & z2 >= 1.96))
[1] z1 z2
<0 rows> (or 0-length row.names)
R responde que ninguna línea de dos_variables supera nuestro criterio. Veamos qué
ocurre si en vez de 75 valores lo hacemos sobre 1000. Volvemos a crear el objeto
dos_variables pero esta vez con 1000 observaciones.
31
ANALISIS DE DATOS EN PSICOLOGIA.
PSICOLOGIA El Análisis de la Varianza. Háztelo EN R. La distribución χ2
Sólo un 2/1000 de los registros presentan valores simultáneos tan grandes para z1 y
z2.Es decir, que cuando agrupamos dos variables normales e independientes es muy
poco probable verificar valores elevados (en valor absoluto) para ambas
simultáneamente.
rriría si para cada sujeto (fila de dos variables) generamos una nueva variable
Qué ocurriría
de nombre sumaque sea de hecho la suma del cuadrado de z1 y z2.
>dos_variables$suma=apply
apply(dos_variables,1,function(x)sum(x^2)
function(x)sum(x^2))
# como queremos que sea la suma del cuadrado de cada valor, lo
# hemos definido como función “al vuelo”. De haber puesto
# solamente sum,
, R obviamente nos daría el sumatorio de cada
# fila pero no la suma de cuadrado de cada elemento de fila.
.
32
ANALISIS DE DATOS EN PSICOLOGIA.
PSICOLOGIA El Análisis de la Varianza. Háztelo EN R. La distribución χ2
> dos_variables$suma=apply
apply(dos_variables,1,function(x)sum(x^2))
function(x)sum(x^2))
33
ANALISIS DE DATOS EN PSICOLOGIA.
PSICOLOGIA El Análisis de la Varianza. Háztelo EN R. La distribución χ2
La función seq(inicio,hasta.
(inicio,hasta.donde,que.incremento)nos permite p crear una
secuencia automatizada de números. Si solicitamos el valor de la variable x creada con
seq( ) obtenemos:
> x
[1] 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
,col='red',lwd=2)
> lines(x,dchisq(x,2),col='red',lwd=2
# Superponemos al histograma la distribución
dist teórica χ2 con 2 grados de
libertad
34
ANALISIS DE DATOS EN PSICOLOGIA. El Análisis de la Varianza. Háztelo EN R. La distribución χ2
Ya podemos probar que: si z1, z2, z3,…, zk son valores de la distribución normal unitaria
independientes entre sí y formamos la variable:
Siguiendo este proceso vamos a crear una gráfica con la distribución χ2 con 5 grados de
libertad. Daremos en primer lugar valores al eje x entre 0 y 35 mediante seq( ) con
incrementos de 0.001.
>x1=seq(0,35,0.001)
>gl=5
>plot(x1,dchisq(x1,gl),
lwd='2',type='l',col='brown')
>text(15, 0.15, col='black',font=2,'La distribución ')
>text(20.5, 0.153, col='black',font=2, cex=1.5,expression(chi^2))
>abline(v=gl) # Añade una línea vertical en el valor 5 (gl)
La gráfica de la derecha expresa un patrón claro: a medida que vamos aumentando los
grados de libertad, la curva tiene menos altura en la media (línea vertical) a cambio de
incrementar en la cola. Siχ2 crece en grados de libertad también lo hace la probabilidad
de verificar valores mayores.Si nos situamos en el valor 20 podemos ver que es
prácticamente un suceso imposible para 5 grados de libertad (línea marrón) pero muy
frecuente para la línea magenta de 14 gl (observa las flechas en la gráfica derecha).
> arrows(24,0.040,20,0,length = 0.15,lwd=2)
> arrows(24,0.055,20,0.031,length = 0.15,lwd=2)
35
ANALISIS DE DATOS EN PSICOLOGIA. El Análisis de la Varianza. Háztelo EN R. La distribución χ2
> points(20,0,col='brown',pch=19)
> points(20,0.031,col='magenta',pch=19)
En la página 30 veíamos las funciones para la distribución normal que nos permitían
conocer la función de probabilidad dnorm, de densidad pnorm, etc. Para χ2, R sigue el
mismo paralelismo sólo que al prefijo d,p,q y r le sigue chisq.
36
ANALISIS DE DATOS EN PSICOLOGIA. El Análisis de la Varianza. Háztelo EN R. La distribución χ2
> Sigma
[,1] [,2] [,3] [,4] [,5]
[1,] 1 0 0 0 0
[2,] 0 1 0 0 0
[3,] 0 0 1 0 0
[4,] 0 0 0 1 0
[5,] 0 0 0 0 1
> summary(xi_5)
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.1566 2.7310 4.2110 4.9950 6.6000 35.1800
# la media es casi exactamente 5 (las variables sumadas)
Con el comando lines anterior dibujamos la χ2 teórica con 5 grados de libertad sobre
el histograma previamente graficado con truehist.
> points(12.7,0.005,pch=19,col='red',cex=2)
El código anterior puede parecer complicado, pero es el que nos permite situar las 3
barras verticales rojas hasta la altura definida por la función en cada valor de x (11, 15 y
20.5). Con el comando points(x,y), situamos un punto en la coordenada deseada de
la gráfica. Es importante resaltar que no podemos ver la línea vertical relativa al
percentil 99.9 porque aunque presente en la gráfica su altura es muy pequeña como
revela el código que presentamos a continuación.
> dchisq(qchisq(0.999,5),5)
[1] 0.0004336301
38
ANALISIS DE DATOS EN PSICOLOGIA. El Análisis de la Varianza. Háztelo EN R. La distribución χ2
El punto rojo con valor de 12.7 se sitúa entre 11 y 15. Es decir, si consideramos como
anormalmente grande a todo valor que supere el percentil 95 (11),el punto rojo debería
ser considerado como una distancia conjunta anormalmente grande (alejada de cero).
Sin embargo, si nuestro criterio de excepcionalidad estuviese en el percentil 99 (15)
entonces deberíamos considerarlo como distancia común.
La distribución χ2 es de gran utilidad para valorar cuándo una distancia entre dos
objetos es lo suficientemente grande como para considerar que ambos son diferentes.En
realidad, cuando decidimos con este procedimiento si una distancia cuadrática es
grande (distinta de cero) o pequeña (igual a cero), estamos en realidad llevando a cabo
un contraste de hipótesis acerca de la probabilidad de ocurrencia de una distancia
cuando las variables implicadas son absolutamente independientes. Si la distancia es
menor que aquella que acumula un percentil determinado, diremos que nos
decantaremos por considerar el no rechazo de Ho y, si por el contrario, supera ese
percentil, decidiremos el rechazo de Ho. En el siguiente capítulo trataremos en
profundidad este concepto y la naturaleza y características del proceso de decisión más
común en ciencia: el contraste de hipótesis.
> poblacion=data.frame(ocupa=rep(c('clinica','educativa','laboral',
'otras'),np))
> gl=nlevels(poblacion$ocupa)-1
A partir de una muestra aleatoria de 500 psicólogos extraída en el año 2004 hemos
obtenido la siguiente tabla de frecuencias absolutas por especialidades.
> observada=c(172,136,130,62);
> names(observada)=c('clinica','educativa','laboral','otras')
> observada
clinica educativa laboral otras
172 136 130 62
¿Desde estos resultados podemos concluir que los psicólogos han cambiado sus
preferencias vocacionales entre el año 2000 y 2004? Otra forma de plantear la misma
pregunta sería: ¿podemos considerar que la muestra de 500 psicólogos del año 2004
pertenece a la población del año 2000?
Si realmente nuestra muestra de 500 psicólogos del año 2004 perteneciese a una
población de idénticas características que la población del año 2000 (diremos
“pertenecen a la misma población”), los 500 deberían distribuirse por especialidades
siguiendo las probabilidades del año 2000.Veamos:
> p # probabilidad del año 2000
[1] 0.306 0.289 0.264 0.141
Por lo tanto, 500 multiplicado por la probabilidad de cada especialidad nos dará el
número esperado de psicólogos en el año 2004,si las preferencias de ese año siguen
siendo las mismas que las del 2000.
> esperada=p*500;
> esperada;
clinica educativa laboral otras
153.000 144.500 132.000 70.475
40
ANALISIS DE DATOS EN PSICOLOGIA. El Análisis de la Varianza. Háztelo EN R. La distribución χ2
( Observada − Esperada ) 2
χˆ 2 = ∑
Esperada
Para comprender el significado de estealgoritmo de cómputo de distancia observada-
esperada (en adelante obs-esp) debemos preguntarnos qué resultado obtendríamos
para cada especialidad si la frecuencia observada fuese en realidad exactamente la
esperada. En ese caso el numerador del sumatorio anterior sería cero para cada
especialidad, como también lo sería el cociente resultante. Por ello, el sumatorio a través
de todas las especialidades sería también cero. En nuestro ejemplo, es obvio que dicha
distancia no será cero. Sin embargo, sí que podemos plantearnos si es lo suficientemente
distante de cero como para considerar que los psicólogos han cambiado realmente sus
preferencias vocacionales entre los años 2000 y 2004.
> xi=sum((observada-esperada)^2/esperada)
> xi
[1] 3.908945
Hemos obtenido una distancia cuadrática de 3.9 puntos. Para valorar si es una distancia
a cero grande o pequeña, debemos compararla con la mayor distancia que cabe esperar
en una distribución χ2 con grados de libertad igual al número de categorías-1. En
nuestro ejemplo, son cuatro especialidades y,por tanto, 3 grados de libertad (4 - 1).¿Por
qué 3 grados de libertad? Debemos plantearnos las cuatro categorías desde el siguiente
punto de vista. ¿Cuántas de las cuatro podemos modificar su valor garantizando que el
valor total sean 500 observaciones? Obviamente tres, porque si asignamos cualquier
valor arbitrario a cada una de esas categorías, la cuarta deberá ajustarse a un valor fijo
que garantice el sumatorio final de 500 observaciones. Luego nuestro vector de
categorías profesionales tiene tres grados de libertad. Por ese motivo acudimos a una
distribución χ2 con 3 grados de libertad para valorar si 3.9 es una distancia frecuente o
infrecuente cuando 4 categorías fluctúan libremente (en realidad 4 menos 1)
41
ANALISIS DE DATOS EN PSICOLOGIA. El Análisis de la Varianza. Háztelo EN R. La distribución χ2
Vemos que esta distancia es un valor muy común para esta distribución χ2 (está próximo
al valor más probable que es la media 3). De hecho, podemos plantearnos
algunaspreguntas importantes:¿cuán probable es una distancia menor o igual a 3.9
puntos en esa distribución? ¿ y mayor o igual a 3.9 puntos?¿cuál sería la distancia que
comenzaría a ser indicativo de distancia anormalmente grande o poco común?
> pchisq(xi,3) # probabilidad de χ2 ≤ 3.9 en χ2(3)
[1] 0.7285342
> 1-pchisq(xi,3) # probabilidad de χ2 ≥ 3.9 en χ2(3)
[1] 0.2714658
> qchisq(0.95,3) # Valor de χ2 con [p(x) ≥ 7.81] ≤ 0.05
[1] 7.814728
Nuestro valor de 3.9 puntos deja por debajo de si el 72.9% (0,7285342) de todos los
valores, lo cual nos indica que la probabilidad de verificar un valor mayor o igual a ese es
del 0.271 (27,2%). Si definimos el criterio de distancia “anormalmente grande” como
aquel valor que supere al 95% de todos los valores, tenemos que 7.8 sería aquelcon una
probabilidad de ser verificado menor o igual al 5%. Luego nuestra decisión de si los
psicólogos han cambiado sus preferencias vocacionales sería: dado que una distancia
obs-esp mayor o igual a 3.9 puntos es muy frecuente (más frecuente que el criterio de
excepcionalidad prefijado del 5%) cuando en la población la frecuencia observada es
igual a la frecuencia esperada,diremos que los psicólogos no han cambiado sus
preferencias vocacionales (p > 0.05).
42
ANALISIS DE DATOS EN PSICOLOGIA. El Análisis de la Varianza. Háztelo EN R. La distribución χ2
Una de las fortalezas de R es que permite llevar a cabo simulaciones de datos mediante
extracciones muestrales de poblaciones simuladas de forma muy sencilla y rápida. En
estadística es muy común este tipo de trabajos de investigación donde se pretende
estudiar mediante métodos intensivos de replicación los efectos que tiene la violación de
los supuestos sobre las distintas pruebas estadísticas. En general, este tipo de estrategia
recibe el nombre de Simulación de Monte Carlo. A lo largo de este manual haremos
muchas porque es una herramienta excelente para aprender la estadística de modelos.
En los siguientes párrafos vamos a explicar el proceso para extraer muestras aleatorias
de una población de la que conocemos los parámetros a estudiar en las distintas
muestras.
Con esta instrucción estaremos declarando que queremos los casos completos (todas las
columnas) de pobla cuyos números de filas coincidan con los guardados en indice.
Cada vez que ejecuto sample( ) se extrae una tabla de índices diferente.En el ejemplo
anterior de los 20 elementos de un objeto cualquiera,habrían sido seleccionados los
valores de las filas6, 8, 9, 19 y 20.
Ya podemos aplicar esta función para seleccionar una muestra de 500 psicólogos de
nuestra población.
> indice=sort(sample(20000,500)) # Extrae 500 de 20000 y los pone en indice
> esperada=500*p;
43
ANALISIS DE DATOS EN PSICOLOGIA. El Análisis de la Varianza. Háztelo EN R. La distribución χ2
> esperada;
[1] 153.0 144.5 132.0 70.5
> distancia=bondad_ajuste_xi(observada,p)
> distancia
xi p
4.9967688 0.1720339
El análisis de esta muestra, extraída de la población del año 2000, nos invita a concluir
que la distribución de especialidades es precisamente la de la población. Es decir, esa
muestra pertenece a la población (no rechazo de Ho). Es una respuesta obvia dado que
ha sido extraída de ella, pero lo interesante es que el criterio de distancia obtenido nos
indica precisamente eso. Observa que el valor de probabilidad asociada al estadístico
4.99 es 0.17. ¿Qué significa esa probabilidad asociada? Diremos que cuando extraemos
muestras de la misma población (Ho es cierta) una distancia cuadrática mayor o igual a
la encontrada sucede como máximo un 17% de las ocasiones. Dado que esa ocurrencia
es mayor que el criterio de excepcionalidad mínimo exigido (5%) concluiremos que esa
muestra pertenece a la misma población (p > 0.05).
Repitamos este experimento 1.000 veces, lo que nos permitirá responder a una
pregunta muy importante. Si extraigo “infinitas”muestras de una misma población (Ho
es cierta) y utilizo la bondad de ajuste a χ2 para decidir si cada una pertenece o no a esa
población ¿qué proporción de las decisiones me inclinarán incorrectamente a decidir
que no pertenece a esa misma población?
> almacen_xi=c( ) # almacen donde poner χ2 de cada replicación
> esperada=500*p # Se calcula el vector de esperadas como n x p
45
ANALISIS DE DATOS EN PSICOLOGIA. El Análisis de la Varianza. Háztelo EN R. La distribución χ2
data: observada
X-squared = 3.9146, df = 3, p-value = 0.2708
Vemos que efectivamente obtenemos exactamente el mismo resultado que con nuestra
función bondad_ajuste_xi.
Recordemos cuales eran los datos con los que iniciamos la búsqueda de la respuesta de
si nuestra muestra de 500 psicólogos del año 2004 habían cambiado o no sus
preferencias vocacionales desde el año 2000.
> observada=c(172,136,130,62)
> esperada=p.pobla * 500
> esperada
clinica educativa laboral otras
153.000 144.500 132.000 70.475
Ahora vamos a hacer un nuevo experimento. Vamos a solicitar la distancia obs-esp para
esta muestra, tal y como hicimos anteriormente.
> # Muestra de 500 psicólogos
>dist=bondad_ajuste_xi(observada,p.pobla); dist
xi p
3.9089448 0.2714658
Si multiplicamos ambos vectores por 1.5, las distancias entre las especialidades seguirán
siendo proporcionalmente iguales pero ahora tendremos una muestra de 750 psicólogos
(500 * 1.5 =750)
> # 750 psicólogos
46
ANALISIS DE DATOS EN PSICOLOGIA. El Análisis de la Varianza. Háztelo EN R. La distribución χ2
Ha ocurrido algo sorprendente y es que con la muestra de 500 la distancia obs-esp era
común (pequeña, frecuente) ya que la probabilidad de la misma era mayor o igual que el
criterio de excepcionalidad prefijado del 5%. En el segundo experimento con
750,nuestra conclusión es idéntica a pesar de que ahora la probabilidad es menor. Sin
embargo, con 1000 psicólogos, y proporcionalmente la misma distancia obs-esp,
concluimos que sí han cambiado sus preferencias vocacionales (p < 0.05). ¿Cómo es
posible que la misma distancia nos conduzca a cambiar la decisión dependiendo del
tamaño de la muestra de la que surge el estadístico? En el próximocapítulo veremos que
a partir de un cierto tamaño de muestra, si éste es suficientemente grande, nuestra
decisión mediante el contraste de hipótesis tenderá a ser que es una distancia grande a
0, lo cual hace inservible el instrumento de bondad de ajuste para tomar dicha decisión.
Comprenderemos además que para que esta herramienta sea realmente útil, debemos
contar con un número adecuado de sujetos muestrales. Si tenemos demasiados, siempre
diremos “distancia grande y rara”, pero si tenemos menos de los necesario, diremos
justo lo contrario “distancia pequeña y, por tanto, frecuente”.
47
ANALISIS DE DATOS EN PSICOLOGIA. El Análisis de la Varianza. Háztelo EN R. La distribución χ2
> head(smoke)
sexo fuma
1 mujer si
2 mujer si
3 mujer si
4 mujer si
5 mujer si
6 mujer si
Vamos a completar esta tabla calculando sus marginales de fila y de columna. Es decir,
cuántos hombres y mujeres y cuántas personas fuman y no fuman.Cada celdilla de
intersección género x conducta de fumar ha sido dividida en 2 partes. La izquierda está
formada por el valor real del número de hombres y mujeres que fuman o no en esa
población. En la parte derecha vamos a situar el valor que le correspondería a esa
celdilla si las 20.000 personas se repartieran en la intersección (4 celdillas) de forma
azarosa (género y conducta de fumar son absolutamente independientes). La
probabilidad de caer en cada celdilla deberá entonces estar exclusivamentecondicionada
por el peso de sus marginales (número de hombres o mujeres, y cuantas personas fuman
y no fuman) en relación al total de observaciones de la tabla. ¿Cuántos hombres de las
20.000 personas esperamos que fumen? Esta pregunta incluye a los 10.000 hombres y a
las 10.000 personas que fuman (marginales de fila y de columna de la celdilla ser
hombre y fumar). Si multiplicamos ambos marginales 10.000 x 10.000 y al resultado lo
dividimos por el total de observaciones de la tabla (20.000) obtenemos un valor de
5.000 hombres esperados en la conducta de fumar si ambas variables son
absolutamente independientes entre sí. Dado que los marginales de fila y de columna
son idénticos para el resto de las celdillas, concluiremos que el número de personas
esperadas por azar en cada una de ellas es el mismo (5.000).
48
ANALISIS DE DATOS EN PSICOLOGIA. El Análisis de la Varianza. Háztelo EN R. La distribución χ2
Ya podemos formalizar el cálculo de los valores esperados para cada celdilla de la fila i
en la columna j: E(i,j) como:
E
( i, j )
= (∑ Col ⋅ ∑ Fil )
j i
Al igual que en la bondad de ajuste a χ2, tratamos de calcular una distancia entre los
datos obtenidos en una muestra y lo que cabría esperar en cada condición. Por lo tanto,
para la prueba de independencia también utilizaremos la distancia cuadrática con
distribución esperada de χ2 aunque con grados de libertad diferentes: gl=(filas -1) *
(columnas -1). En nuestro ejemplo para esta tabla de 2 x 2 contamos con 1 grado de
libertad. El estadístico empírico se calcula igualmente mediante el algoritmo ya expuesto
anteriormente.
(O − E )
2
χ2 = ∑
E
La función chisq.test( ) que ya utilizamos en el apartado anterior de bondad de
ajuste nos permite también poner a prueba la hipótesis nula de que las variables
de fila y de columna de una tabla de doble entrada con I x J celdillas son
independientes entre sí en la población de la que ha sido extraída la muestra que
analizamos. La llamada a esta función para realizar una prueba de independencia de χ2
requiere solamente de la tabla de doble entrada. Apliquemos este análisis a nuestro
ejemplo de distribución de la conducta de fumar en función del género que tenemos
almacenado en la tabla de nombre tabla.
> contraste=chisq.test(tabla); contraste
R nos responde que el estadístico de contraste vale 0 (obviamente dado que para cada
una de las 4 celdillas obs-espe es cero) y que la probabilidad de obtener un valor
mayor o igual a él es exactamente 1. Es decir,desde nuestros datos de población
simulada las variables género y conducta de fumar son absolutamente independientes
(p > 0.05).
49
ANALISIS DE DATOS EN PSICOLOGIA. El Análisis de la Varianza. Háztelo EN R. La distribución χ2
Hemos pedido que el resultado del contraste se ponga en el objeto contraste. Ahora
veremos una de las características más interesantes del concepto programa orientado
a objetos con el que hemos definido a R.
Segundo supuesto: Como mínimo el 20% de las frecuencias esperadas deben ser
iguales o superiores al valor 5.
50
ANALISIS DE DATOS EN PSICOLOGIA. El Análisis de la Varianza. Háztelo EN R. La distribución χ2
El promedio de los 1000 valores está próximo a 1. Los valores mayoritarios de distancia
están en la vecindad del 0 y por puro azar ha habido algunos valores de distancia muy
grandes en concreto 1 de casi 15 y algunos un poco superiores a 10. Este histograma es
absolutamente coherente con lo esperado dado que hemos extraído muestras de la
misma población.
> qchisq(0.95,1) # P95 para una χ2 de 1 grado de libertad
[1] 3.841459
Cuántas distancias de las 1000 han sido superiores a este criterio del p95?
> sum(alma_xi >= 3.84)/10000
[1] 0.039
Sólo un 3.9% de las distancias nos invitarían a concluir que ambas variables son
interdependientes a pesar de que esas muestras también han sido extraídas de la misma
población donde el género y la conducta de fumar son realmente independientes.
> heroina
no_recaida recaida
No_trabajo 76 335
Si_trabajo 105 302
data: heroina
X-squared = 5.9196, df = 1, p-value = 0.01497
> contraste$expected
no_recaida recaida
No_trabajo 90.94 320.1
Si_trabajo 90.06 316.9
A partir de este resultado dado que se cumplen los supuestos tenemos que concluir que
la distancia observada-esperada es distinta de cero. Es decir, los valores observados por
celdilla son diferentes a los que cabría esperar si recaer en la heroína y tener trabajo
estable fuesen dos variables independientes entre sí. Luego hemos de concluir que
ambas variables son interdependientes (p < 0.05).Para comprender el razonamiento que
nos conduce a esta decisión tenemos nuevamente que valorarlo desde el punto de vista
de la decisión en el contraste por probabilidad asociada al estadístico. Hemos obtenido
una distancia cuadrática de 5.9196 puntos. La probabilidad de verificar un valor mayor
o igual a este en una distribución χ2 con 1 grado de libertad cuando las variables de fila y
de columna son independientes entre si es de 0.0149. Como esa probabilidad es inferior
al criterio α menos exigente (5%) diremos que recaer en la heroína y tener o no trabajo
estable son dos sucesos interdependientes (p < 0.05).
porcentaje.tabla.fnc(tabla)
#EJECUTA LA FUNCION HASTA AQUI
> porcentaje.tabla.fnc(tabla)
$tabla.original
no_recaida recaida
No_trabajo 76 335 411
Si_trabajo 105 302 407
181 637 818
$por.fila
no_recaida recaida
No_trabajo 0.1849148 0.8150852
Si_trabajo 0.2579853 0.7420147
$por.columna
no_recaida recaida
No_trabajo 0.4198895 0.5259027
Si_trabajo 0.5801105 0.4740973
$por.tabla
no_recaida recaida
No_trabajo 0.09290954 0.4095355
Si_trabajo 0.12836186 0.3691932
Los porcentajes marginales de fila nos indican que hay igualdad de proporción entre los
que tienen trabajo estable y los que no. Sin embargo, vemos que en lo que a la recaída se
refiere, recae casi un 78% de los toxicómanos frente al 22% que permanecen
“limpios”.En los porcentajes de fila para la intersección (interior de la tabla) vemos que
de los que no trabajan recaen el 81% frente al 74% de los que si tienen trabajo
estable.La siguiente tabla de porcentajes de columna para la intersección nos informa de
que del total de los que recaen el 52% no tiene trabajo estable frente al 47% de los que
si tienen. Podemos concluir, por tanto, que el tener trabajo establetiene un efecto
protector sobre el riesgo de recaer en la heroína después de haber asistido a un
programa de desintoxicación.
53
ANALISIS DE DATOS EN PSICOLOGIA. El Análisis de la Varianza. Háztelo EN R. La distribución χ2
54
ANALISIS DE DATOS EN PSICOLOGIA. El Análisis de la Varianza. Háztelo EN R. La distribución χ2
Vamos a simular con una distribución con 8 grados de libertad y 0.95 de confianza.
Observa que el valor de contraste es NA (no disponible). La primera vez que ejecutamos
para un valor dado de grados de libertad, no conocemos los valores que puede adoptar
esa distribución y sus probabilidades asociadas. Por ese motivo indicamos NA como
valor(valor=NA)y la rutina adoptará los grados de libertad como distancia de
contraste (es en realidad el valor esperado para esa distribución). Veamos el resultado
de ejecutarla con esos argumentos.
> simula.p.asociada(gl=8,valor=NA,0.95)
$puntos.criticos
0.95 0.99 0.999
15.50731 20.09024 26.12448
$probabilidades
p de 8
(p Chi <= x) 0.5665299
(p Chi >= x) 0.4334701
$Confianza
[1] 0.95
$Decisión
[1] "NO Rechazo (p > 0.05)"
Lo primero que obtenemos en consola son los puntos críticos correspondientes a los
percentiles 95, 99 y 99.9 de la distribución simulada. Asimismo obtenemos la
proporción de acumulados del valor de contraste así como la probabilidad de verificar
un valor igual o superior al contrastado (8 en el ejemplo). Por último la rutina nos
informa de la decisión a adoptar dada la confianza seleccionada y la probabilidad
asociada al estadístico. Dado que dicha probabilidad es 0.433 y ésta es claramente
mayor que el nivel α correspondiente a la confianza (0.05) se decide no rechazar Hocon
probabilidad p > 0.05 y considerar por tanto una distancia cuadrática pequeña o común
para la distribución simulada. Asimismo se genera un gráfico con la distribución teórica
en color azul y tres líneas verticales correspondientes a los puntos críticos de las tres
confianzas existentes. Por último, podemos ver en color rojo el punto equivalente al
valor que queremos contrastar.
55
ANALISIS DE DATOS EN PSICOLOGIA. El Análisis de la Varianza. Háztelo EN R. La distribución χ2
Intenta después de algunos ensayos creados por ti adivinar la decisión que tomará el
simulador a partir del valor, la confianza y los grados de libertad simulados.
56
ANALISIS DE DATOS EN PSICOLOGIA. El Análisis de la Varianza. Háztelo EN R. La distribución χ2
Ejercicios
1.- En la página 40 de este capítulo nos planteábamos si los psicólogos habían cambiado sus preferencias
vocacionales entre los años 2000 y 2004 a partir de una muestra obtenida en este último año de 500
psicólogos. Otra pregunta que puede ser respondida con la misma técnica podría ser: ¿Es igual la
probabilidad para las cuatro especialidades? Obviamente solo debemos modificar el vector de
probabilidades poblacionales (probabilidad esperada) dividiendo la probabilidad total por el número de
especialidades (0.25 para cada especialidad) .
> observada.año.2004=c(172,136,130,62)
> p.pobla=rep(0.25,4)
> p.pobla
[1] 0.25 0.25 0.25 0.25
data: observada.año.2004
2.- Loftus y Palmer (1974). Journal of Verbal and Learning & Verbal Behaviour, 13, 585-589.Se presentó a
150 personas una secuencia de 20 segundos de duración de un accidente leve de tráfico. Una semana más
tarde a 50 individuos se les preguntó si habían visto cristales rotos en el suelo después de que los
vehículos se “estrellaran”. A los siguientes 50 se les realizó la misma pregunta cambiando el verbo por
“golpearan”. A los últimos 50 simplemente se les preguntaba si recordaban haber visto cristales rotos en
el suelo. Evidentemente no había cristales en el suelo en la película que se les presentaba.
Condición verbal
Respuesta
Estrellarse Golpearse Control
Si 16 7 6
No 34 43 44
> accidente
Estrellarse Golpearse Control
Si 16 7 6
No 34 43 44
57
ANALISIS DE DATOS EN PSICOLOGIA. El Análisis de la Varianza. Háztelo EN R. La distribución χ2
data: accidente
X-squared = 7.78, df = 2, p-value = 0.02045
> chi_accidente$expected
Estrellarse Golpearse Control
Si 9.667 9.667 9.667
No 40.333 40.333 40.333 #Se cumplen los supuestos
Hemos obtenido para esta tabla una distancia cuadrática observada-esperada
de 7.78 puntos que para dos grados de libertad tiene una probabilidad
asociada de 0.02. Es decir, que esa distancia ocurre como máximo un 2% de
las veces que Ho es correcta y por lo tanto independientes entre sí. Dado
lo escaso de su ocurrencia, concluiremos que ambas variables son
interdependientes y que la respuesta no es independiente de la forma en que
se pregunta (p < 0.05).Si solicitamos las tablas de porcentajes de fila y
de columna, podremos dimensionar adecuadamente el alcance de dicha
interdependencia.
> porcentaje.tabla.fnc(accidente)
$tabla.original
Estrellarse Golpearse Control
Si 16 7 6 29
No 34 43 44 121
50 50 50 150
$por.fila
Estrellarse Golpearse Control
Si 0.5517241 0.2413793 0.2068966
No 0.2809917 0.3553719 0.3636364
$por.columna
Estrellarse Golpearse Control
Si 0.32 0.14 0.12
No 0.68 0.86 0.88
$por.tabla
Estrellarse Golpearse Control
Si 0.1066667 0.04666667 0.0400000
No 0.2266667 0.28666667 0.2933333
En la tabla de porcentajes de fila podemos ver que del total que han
respondido SI el 55.1 % pertenece a la condición Golpearse y Control que es
menos de la mitad (24 y 20% respectivamente. En la tabla de porcentajes de
columna, vemos que los sujetos de la condición Estrellarse han declarado
haber visto cristales rotos en un 32% porcentaje que duplica el observado
para las condiciones Golpearse y Control (4.6 y 4% respectivamente).
Resulta claro desde estos datos que la interdependencia encontrada entre la
respuesta a la pregunta y la condición experimental de pertenencia tiene
que ver con que estar en la condición Estrellarse duplica la probabilidad
de falso recuerdo frente a las otras dos condiciones experimentales.
58
ANALISIS DE DATOS EN PSICOLOGIA. El Análisis de la Varianza. Háztelo EN R. La distribución χ2
3.- Baron-Cohen, Leslie & Frith(1985) estudiaron y compararon el constructo “teoría de la mente” en
niños autistas, niños que padecen síndrome de Down y niños normales. En la tabla adjunta tenemos la
distribución de esos tres tipos de niños en cuanto a si poseían o no “teoría de la mente” a partir de las
respuestas dadas al experimentador. Podemos concluir que la presencia de creencia adecuada (teoría de
la mente) es independiente del tipo de niño analizado?
Creencia adecuada
Tipo de niño Si No
Autista 4 16
Down 12 2
Normal 23 4
> teomente=data.frame(Si=c(4,12,23),No=c(16,2,4))
> row.names(teomente)=c('Autista','Down','Normal')
> teomente
Si No
Autista 4 16
Down 12 2
Normal 23 4
>chi_teomente=chisq.test(teomente); chi_teomente
Pearson's Chi-squared test
data: teomente
X-squared = 24.9102, df = 2, p-value = 3.898e-06
> chi_teomente$expected
Si No
Autista 12.79 7.213
Down 8.95 5.049
Normal 17.26 9.738 #Se cumplen los supuestos
Tal y como podemos ver, hay una distancia observada-esperada de casi 25
puntos, la cual tiene una probabilidad de 4/100000 de ocurrir por puro azar
cuando ambas variables son independientes entre sí. Por ello debemos
concluir quela respuesta que evidencia la presencia de teoría de la mente
es interdependiente del tipo de niño (p < 0.001). Si solicitamos la tabla
de porcentajes de fila y columna veremos que mientras sólo el 20% de los
niños autistas presentan esa habilidad, en el resto de los grupos estos
ascienden al 85%.
> porcentaje.tabla.fnc(teomente)
$tabla.original
Si No
Autista 4 16 20
Down 12 2 14
Normal 23 4 27
39 22 61
$por.fila
Si No
Autista 0.2000000 0.8000000
Down 0.8571429 0.1428571
Normal 0.8518519 0.1481481
59
ANALISIS DE DATOS EN PSICOLOGIA. El Análisis de la Varianza. Háztelo EN R. La distribución χ2
$por.columna
Si No
Autista 0.1025641 0.7272727
Down 0.3076923 0.0909091
Normal 0.5897436 0.1818182
$por.tabla
Si No
Autista 0.06557377 0.26229508
Down 0.19672131 0.03278689
Normal 0.37704918 0.06557377
Desde los porcentajes de la fila se deduce que el 80% de los niños autistas
carecen de teoría de la mente frete al 14% para los niños down y normales.
En la tabla de porcentajes de columna vemos que del total de los que su
respuesta implica ausencia de teoría de la mente el 72.7% son niños
autistas frente al 9 y 18% para los niños down y normales respectivamente.
60
ANALISIS DE DATOS EN PSICOLOGIA. El Análisis de la Varianza. Háztelo EN R. La distribución χ2
***************************************************************************
Objetivos específicos.
***************************************************************************
***************************************************************************
CONSEJO: Cada vez que veas un comando o función nueva. Escríbela en consola
con una interrogación delante. Por ejemplo ?head. Eso producirá que R te
presente la ayuda para que veas los argumentos y características de la
función. Por otra parte al final de la ayuda vienen ejemplos de uso de esa
función que al copiarlos y pegarlos en consola te permite comprender y
mejorar tu dominio de las funciones de R. Al principio puede parecer
complicado pero poco a poco te será más fácil entenderlo. Sobre todo con
las funciones que mas utilizas.
61
ANALISIS DE DATOS EN PSICOLOGIA. El Análisis de la Varianza. Háztelo EN R. La distribución χ2
> library(MASS)
> data=data.frame(mvrnorm(n=5000,mu=c(0,0),sigma))
> names(data)=c('z1','z2')
> head(data)
> cor(data)
# Ahora vamos a crear nuestra variable chi cuadrado empírica con dos grados
de libertad, sumando para cada fila de data el cuadrado de z1 y z2. Esto lo
haremos mediante apply( ), que como ya sabes tiene como argumentos:
62
ANALISIS DE DATOS EN PSICOLOGIA. El Análisis de la Varianza. Háztelo EN R. La distribución χ2
# Con lines(que en eje x?, que en eje y?) dibujamos el valor de la función
teórica chi cuadrado con dos grados de libertad en el eje y para todo
valordel vector x creado anteriormente. Esto nos permitirá valorar
gráficamente si el histograma de nuestra variable chi2 empírica sigue en
realidad la distribución teórica chi cuadrado con dos grados de libertad
(gl=2) esperada.
> lines(x,dchisq(x,2))
# Ahora solicitamos los valores de una chi cuadrado gl=2 (teórica) que
dejan por debajo de si al 95,99 y 99.9% de todos los valores. Los
llamaremos teoricos.
# Hay una conclusión evidente que podremos ver mejor si unimos ambos
resultados en una misma tabla. Lo haremos mediante la función rbind( ). Que
significa conecta filas (r de row, que es fila en ingles). Lo que hace
63
ANALISIS DE DATOS EN PSICOLOGIA. El Análisis de la Varianza. Háztelo EN R. La distribución χ2
rbind es unir fila a fila, los objetos que le vamos entregando. Obviamente
todas las filas deben tener el mismo número de columnas o nos daría error.
# 5.99 es el p95 de una chi teórica con 2 gl, y así para cada uno de los
criterios. Definámoslos utilizando para ello los teóricos definidos
anteriormente y guardados en el objeto teóricos.
***************************************************************************
EJERCICIO PROPUESTO
***************************************************************************
Demuestra que si z1, z2 y z3 son tres variables con distribución normal,
tipificadas e independientes entonces la variable generada a partir de la
suma del cuadrado de las tres sigue una distribución chi 2 teórica con 3
grados de libertad. Asimismo demuestra que los errores máximos cometidos se
encuentran dentro de los márgenes esperados del 0.05, 0.01 y 0.001.
***************************************************************************
# Pista:
64
ANALISIS DE DATOS EN PSICOLOGIA. El Análisis de la Varianza. Háztelo EN R. La distribución χ2
***************************************************************************
> summary(cars)
65
ANALISIS DE DATOS EN PSICOLOGIA. El Análisis de la Varianza. Háztelo EN R. La distribución χ2
# Con los comandos combinados cut( ) y quantile( ) (Pag. 13) pedimos ver la
variable velocidad recodificada en cuatro niveles percentílicos. Si deseas
ver los puntos de corte que utilizará cut para recodificar la variable
ejecuta:
>quantile(cars$velocidad)
>with(cars, cut(velocidad,quantile(velocidad)))
# Observa que las dos primeras observaciones son NA (no disponibles). Esto
ocurre porque por defecto la instrucción cut no incluye los valores
mínimos. Dado que queremos que los incluya debemos modificar el subcomando
que actúa por defecto (include.lowest = F).
>cars$velocidad.r=
with(cars, cut(velocidad,quantile(velocidad),include.lowest = T))
>cars$distancia.r=
with(cars, cut(distancia,quantile(distancia),include.lowest = T))
> summary(cars)
>contraste=chisq.test(tabla); contraste
66
ANALISIS DE DATOS EN PSICOLOGIA. El Análisis de la Varianza. Háztelo EN R. La distribución χ2
> names(contraste)
>contraste$expected
# Vemos que se incumple claramente el supuesto que declara que como máximo
el 20% de las celdillas serán inferior a 5 (lo son el 100%). Esto hace que
no podamos utilizar esta prueba de independencia con las variables así
recodificadas. Vamos a ejecutar de nuevo la recodificación y el contraste
pero esta vez lo haremos creando sólo dos niveles (inferior o superior al
percentil 50) para ambas variables.
# Como la instrucción quedará más grande y por tanto más confusa crearemos
en primer lugar los objetos cortes.velocidad y cortes.distancia.
>cortes.velocidad= quantile(cars$velocidad,c(0,0.50,0.999))
>cortes.distancia= quantile(cars$distancia,c(0,0.50,0.999))
> cars$velocidad.r=
with(cars, cut(velocidad,cortes.velocidad,include.lowest = T))
> cars$distancia.r=
with(cars, cut(distancia,cortes.distancia,include.lowest = T))
>qchisq(c(0.95,0.99,0.999), 2)
> porcentaje.tabla.fnc(tabla)
67
ANALISIS DE DATOS EN PSICOLOGIA. El Análisis de la Varianza. Háztelo EN R. La distribución χ2
> cor(cars[,c(1,2)])
***************************************************************************
# EJERCICIO PROPUESTO 1.B
***************************************************************************
En las pasadas elecciones de un determinado ayuntamiento de Canarias los
distintos grupos políticos (CC,PP,PSOE,AFV,IUC,OTROS) obtuvieron los
siguientes porcentajes de los votos 51.09,27.28,6.75,5.93,2.72,6.23
respectivamente. Ahora nos han encargado una encuesta de tendencia de voto
en ese municipio y hemos preguntado a 509 encuestados no sólo por qué
partido o sigla votaría en las próximas elecciones sino que también lo
hemos hecho por el recuerdo de voto de las pasadas. Las frecuencias
absolutas de recuerdo de voto obtenidas para cada partido fueron las
siguientes: 248,145,36,20,20,40.
¿Podemos considerar que la proporción de recuerdo de voto de los
encuestados es igual al voto realmente emitido en las pasadas elecciones?.
En realidad podemos formular la pregunta de otra manera: ¿se ajusta la
distribución de voto por partido registrada en la muestra de 509 sujetos a
el voto realmente observado en las pasadas elecciones en esa misma
población de la que se extrajo dicha muestra?
Si esto es así la variable tendencia de voto investigada tendría
credibilidad y por tanto fiabilidad demoscópica. Si por el contrario
demostramos que el recuerdo y el voto real ocurrido difieren, habría que
modificar la tendencia de voto observada mediante métodos de ponderaciones
de la prospección de tendencia por recuerdo, como única alternativa
razonable a la evidencia de que voto ocurrido y su recuerdo difieren. Luego
la muestra no parecería ser fiable.
68