Cuadernos Ejercicios Diseños Bueno

lOMoARcPSD|1944486
Ejercicios Y Problemas Resueltos
Diseños de Investigación y Análisis de Datos (UNED)
Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)

lOMoARcPSD|1944486
Ejercicios y Problemas Resueltos y Comentados
Diseños de Investigación
y Análisis de Datos
Ángel Villarino Vivas

Pedro Rodríguez-Miñón Cifuentes
José Manuel Reales Avilés
María Araceli Maciá Antón
11 sanz y torres

lOMoARcPSD|1944486
índice
Presentación........................................................................................................ IX
BLOQUE 1
Estimación de parámetros y contraste de hipótesis
en los diseños de una muestra
l. Soluciones a los ejercicios de los capítulos 1 y 2............................................ 3
BLOQUE 11
Análisis de datos en los diseños de
dos muestras independientes o relacionadas
2. Soluciones a los ejercicios de los capítulos 3 y 4............................................ 61
BLOQUE 111
Análisis de datos en los diseños de
tres o más muestras: el análisis de varianza
3. Soluciones a los ejercicios de los capítulos 5, 6 y 7 ....................................... 113
BLOQUE IV
Análisis de regresión
4. Soluciones a los ejercicios del capítulo 8 ...................................................... 165
VII

lOMoARcPSD|1944486
Presentación
Como todo estudiante debe conocer, la Psicología es una disciplina académica,

una profesión y una ciencia que estudia la conducta y los procesos mentales de los
individuos. Como ciencia utiliza el Método Científico en la investigación para cons
truir modelos explicativos y teorías de la conducta susceptibles de comprobación
experimental. Como disciplina académica debe enseñar a los estudiantes y futuros
profesionales a utilizar las herramientas de la investigación científica (conceptuales,
de reflexión crítica, etc.) que les permitan avanzar en el conocimiento de su objeto
de estudio y comprender la investigación que se realiza actualmente. Y como pro
fesión sirve traer aquí las ideas expuestas en la introducción del texto de FUNDA
MENTOS DE INVESTIGACIÓN EN PSICOLOGÍA por sus autoras:«(...) los profesionales
de la Psicología, aunque no se propongan ser investigadores, deben adquirir ciertas
destrezas para enfrentarse a diferentes tareas como analizar problemas, leer docu
mentos de carácter científico de forma comprensiva, aprendiendo a diferenciarlos
de los no científicos, afrontar problemas que pueden ser resueltos con algunos pro
cedimientos y técnicas científicas, etc».
Esta es la razón por la que en los programas de las disciplinas encuadradas en
el área de Ciencias Sociales y de la Salud, en la que se encuentra la Psicología, la
Estadística Descriptiva e Inferencia! es materia esencial de estudio ya que su uso es
general en cualquier estudio científico en Psicología. El estudio de la Estadística en
Psicología no debe contemplarse como un objetivo en sí misma sino como herra
mienta que se debe conocer, comprender y utilizar en las tareas de investigación
científica o para interpretar correctamente sus conclusiones. Por esta razón se cur
só en el primer curso del Grado, la asignatura de INTRODUCCIÓN AL ANÁLISIS DE
DATOS, que se dedica a la Estadística Descriptiva como una herramienta básica en la
primera etapa de observación. Esta disciplina nos permite organizar los datos mues
trales en tablas y gráficos y analizarlos, con los índices descriptivos, para obtener
IX

lOMoARcPSD|1944486
• Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de datos
información que nos permita, en un segundo paso, formular hipótesis sustentadas

en aquellos resultados.
En segundo curso se cursa la asignatura de DISEÑOS DE INVESTIGACIÓN Y ANÁ
LISIS DE DATOS que dedica sus contenidos a la Estadística Inferencia! como herra
mienta aplicada en la que, dependiendo de la naturaleza de los datos muestrales
recogidos en la investigación y, por supuesto, del diseño utilizado, tendrá que se
leccionar la técnica estadística más apropiada que se aplicará para la contrastación
empírica de la hipótesis formulada sobre la población.
Con este motivo, en este texto se presenta una colección de situaciones, muchas
de ellas inspiradas o extraídas de artículos publicados en revistas profesionales y
científicas, para que el estudiante lea la situación, la comprenda y vea los pasos que
se siguen para contrastar la hipótesis que se formula. Para ello, se propone seguir
los siguientes pasos.
l. CONDICIONES Y SUPUESTOS
En todo análisis inferencia! el estudiante debe identificar la hipótesis de la in
vestigación (resultado de la derivación de una teoría) así como, las variables (in
dependientes y dependientes) implicadas en estas hipótesis y su naturaleza. Un
aspecto esencial de este apartado son los supuestos que deben verificarse para
que podamos confiar en los resultados obtenidos. Estos supuestos son condiciones
que deben cumplirse para que el análisis tenga sentido. Además, cada análisis tiene
sus propios supuestos. En la medida de lo posible estos también debe ponerse a
prueba. Si no es posible hacerlo, deben hacerse explícitos. De alguna forma, son
como los cimientos de un edificio. El edificio puede estar bien construido pero si los
cimientos son de arena, el edificio no podrá sostenerse.
Las condiciones hacen referencia a diversos aspectos del diseño. Por ejemplo, si
los datos objeto de análisis provienen de una, dos o más de dos muestras, las cuales
a su vez pueden ser independientes o relacionadas, de la escala de las variables, etc.
Los contrastes a utilizar dependerán de estos factores.
2. FORMULACIS)'N DE LAS HIPÓTESIS NULA Y ALTERNATIVA

Una hipótesis es una conjetura que se formula sobre uno o más parámetros de la
población (dependiendo del diseño) y que puede someterse a contrastación empíri
ca a partir de los datos proporcionados por la o las muestras utilizadas en la investi
gación. Como se indica en el manual de la asignatura (Pág. 33): «En general, siempre
se parte de algún interrogante que se plantea en el ámbito de una investigación, a la
luz de un determinado marco teórico, y debería formularse de una manera sencilla
X

lOMoARcPSD|1944486
Presentación •
y clara: Notan las mujeres en mayor proporción a partidos de centro izquierda que
a los de centro derecha?; En el proceso de trabajo manual ¿es más eficaz verba/izar
las acciones durante la tarea que hacerlas en silencio?; ¿Es más eficaz una terapia
A que otra B para el tratamiento de la fobia de los niños a montar en ascensores?;
¿Los salarios de hombres y mujeres son iguales por un mismo trabajo?».
Una vez planteada la pregunta se formulan las hipótesis nula, Ha , y su comple�
mentaría, la hipótesis alternativa o H 1 que son exhaustivas y mutuamente excluyen-
tes lo que significa que el rechazo de una implica la aceptación de la otra.
La hipótesis nula es la hipótesis que provisionalmente se acepta como verdadera
y, por tanto, la que se somete a contrastación empírica con los datos obtenidos en
la investigación (similar a la presunción de inocencia en un estado de derecho). To
dos los cálculos estadísticos se realizan asumiendo que Ha es correcta de tal forma
que si la rechazamos, lo estaremos haciendo con un alto nivel de confianza. «En
general, la hipótesis nula afirma que no existe diferencia entre el valor del estadís
tico obtenido en la muestra y el que formulamos como parámetro pob/acional o, en
otras palabras, que la diferencia observada entre estos dos valores es nula. Como la
realidad es que estos valores casi nunca van a coincidir, lo que estamos afirmando
es que la diferencia observada puede explicarse como resultado del azar» (Pág. 34).
Dependiendo de cómo se formulen la hipótesis nula y alternativa tendremos un
contraste unilateral o bilateral pero, en todo caso, la hipótesis nula añadirá a la dife
rencia nula el sentido de la diferencia y la hipótesis alternativa el sentido contrario,
excluyendo la diferencia nula. Por ejemplo, ante la pregunta ¿Votan las mujeres en
mayor proporción a partidos de centro izquierda que a los de centro derecha?, las
hipótesis serían:
Ha : Las mujeres votan en la misma o menor proporción a partidos de centro
izquierda que de centro derecha.
H 1 : Las mujeres votan en mayor proporción a partidos de centro izquierda que
de centro derecha.
«Por lo general la hipótesis científica, dirigida a encontrar resultados significati
vos, es la hipótesis alternativa que se aceptará como verdadera si la investigación
aporta evidencias contra la hipótesis nula que es la que se somete a contrastación
empírica» (Pag. 37). Por lo general, pero no siempre, porque como se puede com
probar en varios de los ejemplos desarrollados en el libro de la asignatura y en los
que aquí se presentan es perfectamente legítimo, dependiendo del contexto y de
la situación, defender que hombres y mujeres tienen el mismo salario, que niños
payos y gitanos tienen el mismo rendimiento en tareas de compresión lectora, que
no existen diferencias en la reacción de celos de hombres y mujeres ante la infide-
x1

lOMoARcPSD|1944486
lidad sexual, que no hay diferencias entre la nota media obtenida en las pruebas
de selectividad de los estudiantes de la enseñanza pública y privada, etc. Pero la
que se acepta inicialmente como verdadera y sobre cuya asunción se realizan los
cálculos es la Ha. Y la evidencia de los datos obtenidos en la investigación dirá si se
mantiene o se rechaza esta afirmación de igualdad (la hipótesis nula) que puede ser
el objetivo para el que se ha desarrollado la investigación.
3. ESTADÍSTICO DE CONTRASTE
«Representa una medida de la discrepancia entre la información proporcionada
por los datos empíricos recogidos en la muestra y la proposición teórica planteada
en la hipótesis nula. Esta medida es una variable aleatoria con una determinada
distribución de probabilidad (normal, t, chi-cuadrado, etc.) que va a aportar infor
mación empírica sobre la afirmación formulada en la Ha» (Pág. 37 y que se puede
ampliar en el epígrafe 1.4.3}. Un estadístico no es más que una función numérica
dependiente de los valores muestrales, de la hipótesis nula supuesta verdadera y de
los supuestos. Es por ello que el cálculo que se realiza para computar el estadístico
de contraste se ha elegido para que nos proporcione una distribución estadística
conocida que nos permite calcular las probabilidades de sus valores.
El estadístico de contraste se reduce, pues, a una fórmula que se recoge en el
formulario y que el estudiante no debe memorizar pero sí aplicarla correctamente
para, una vez obtenido su valor, interpretarlo de cara a tomar una decisión respecto
a la_ Ha: su rechazo o no con una determinada probabilidad. En definitiva, el con
traste de hipótesis no es más que la combinación de la teoría de la probabilidad y
la teoría de la decisión.
4. REGLA DE DECISIÓN
Para tomar una decisión hay que calcular el nivel crítico p o los valores críticos
de la distribución de probabilidad del estadístico de contraste aplicado (distribución
normal, t, F, chi-cuadrado, etc). «Según Fisher, el nivel de significación a, repre
senta el máximo riesgo que el investigador está dispuesto a cometer al tomar la
decisión errónea de rechazar una hipótesis nula verdadera. Por tanto, a la luz de sus
resultados y del estadístico de contraste, el investigador calcula la probabilidad de
obtener unos resultados como los observados en la muestra o más extremos. Esta
probabilidad recibe el nombre de nivel crítico p. Si el nivel crítico p es muy pequeño
en comparación con el nivel de significación //alfa'� rechazamos la Ha y en caso con
trario la mantenemos» (Pág. 38}.
«Otra alternativa a la hora de tomar la decisión de rechazar o no la hipótesis
XII

lOMoARcPSD|1944486
Presentación •
nula consiste en fijar el nivel de significación a, por lo que automáticamente se fija

el valor o valores críticos de la distribución muestra/ que marcarán la máxima dife
rencia que podemos admitir, por simple azar, entre el valor teórico planteado en Ha
y el valor obtenido en la muestra. Este valor, o valores críticos, definen -en la distri
bución muestra/ del estadístico de contraste- /os límites entre la zona de rechazo o
no de la H a » (Pág. 38).
Se rechaza la H a cuando el nivel crítico p (la probabilidad de obtener un valor del
estadístico igual o más extremo al obtenido con la muestra asumiendo que H a es
cierta) es menor que el nivel de significación (los más utilizados en la investigación
en Psicología son 0,05 o 0,01) o cuando el estadístico de contraste supera el o los
valores críticos de la distribución muestra! del estadístico para el nivel de significa
ción utilizado.
S. CONCLUSIÓN
La aplicación de la regla de decisión nos permite tomar una decisión probabilísti
ca sobre Ha: aceptarla o rechazarla. Esta es la conclusión para la que se ha diseñado
y realizado el experimento. El objetivo es que esta decisión tendrá consecuencias
teóricas o prácticas importantes.
6. INTERPRETACIÓN
La conclusión de rechazar o no la H a, se debe interpretar en el contexto teórico
de la investigación que se está realizando de tal forma que permita confirmar o
rechazar la hipótesis científica que dio lugar a la hipótesis estadística. Esta interpre
tación debe servir para formular nuevos avances o desarrollos tanto teóricos como
prácticos en el área concreta que se esté investigando.
Madrid, septiembre de 2015
XIII

lOMoARcPSD|1944486
BLOQUE 1
Estimación de parámetros
y contraste de hipótesis
en los diseños de una muestra

lOMoARcPSD|1944486
Soluciones a los ejercicios

de los capítulos 1 y 2
SITUACIÓN l. Un sociólogo conoce, por investigaciones anteriores, que el suel

do medio de la población de hombres para un determinado trabajo T, se distribuye
normalmente con media igual a 1500 euros mensuales y una desviación típica de
180 euros. Extrae una muestra aleatoria de 81 mujeres que desempeñan el mismo
trabajo T, observando que el sueldo medio en dicha muestra es igual a 1400 euros
mensuales con una desviación tipica de 210 euros. Establece un nivel de confianza
del 99% y quiere comprobar:
1.1. Si la variabilidad del sueldo de las mujeres es mayor que el que presentan
los hombres para el mismo trabajo.
1.2. Si el sueldo medio de las mujeres es inferior al de los hombres y la potencia
estadística de este contraste.
SOLUCIÓN:
1.1. Para el primer contraste de hipótesis, seguiremos los siguientes pasos:
CONDICIONES Y SUPUESTOS: El diseño de este trabajo utiliza una muestra alea

toria de 81 mujeres en el que la variable de análisis, el sueldo, es de naturaleza
cuantitativa que se distribuye normalmente.
HIPÓTESIS: El investigador quiere comprobar si la variabilidad del sueldo de las
mujeres es mayor que el que presentan los hombres para el mismo trabajo para lo
que plantea un contraste unilateral derecho con las siguientes hipótesis:
H0: cr2 :s; 180 H1.. cr 2 > 180
ESTADÍSTICO DE CONTRASTE: El estadístico chi-cuadrado toma el siguiente valor:

3

lOMoARcPSD|1944486
2 2
n·;n = 81·210 =
x2 = 110,25
ªº 180 2
REGLA DE DECISIÓN: En una distribución chi-cuadrado hay que buscar el valor

crítico correspondiente a un contraste unilateral derecho con nivel de confianza del
99% y con 80 grados de libertad. El valor que deja por debajo una probabilidad de
0,99 es 112,328.
Probabilidad
g.l.
0,005 0,010 0,025 0,050 0,100 0,900 0,950 0,975 0,995
1 0,0000 0,0002 0,0010 0,0039 0,0158 2,7055 3,8415 5,0239 6,6349 7,8794
2 0,0100 0,0201 0,0506 0,1026 0,2107 4,6052 5,9915 7,3778 9,2103 10,5966
3 0,0717 0,1148 0,2158 0,3518 0,5844 6,2514 7,8147 9,3484 11,3449 12,8382
4 0,2070 0,2971 0,4844 0,7107 1,0636 7,7794 9,4877 11,1433 13,2767 14,8603
50 27,9907 29,7067 32,3574 34,7643 37,6886 63,1671 67,5048 71,4202 76,1539 79,4900
60 35,5345 37,4849 40,4817 43,1880 46,4589 74,3970 79,0819 83,2977 88,3794 91,9517
70 43,2752 45,4417 48,7576 51,7393 55,3289 85,5270 90,5312 95,0232 00,4252 104,2149
80 51,1719 53,5401 57,1532 60,3915 64,2778 96,5782 101,8795 106,6286 116,3211
90 59,1963 61,7541 65,6466 69,1260 73,2911 107,5650 113,1453 118,1359 124,1163 128,2989
100 67,3276 70,0649 74,2219 77,9295 82,3581 118,4980 124,3421 129,5612 135,8067 140,1695
Tabla 1: Representación parcial de la tabla de la distribución chi-cuadrado.
CONCLUSIÓN: Como el valor del estadístico de contraste obtenido no supera el

valor crítico {110,25 < 112,3288), con un nivel de confianza del 99% no podemos
rechazar la hipótesis nula.
A la misma conclusión llegaríamos calculando el nivel crítico p correspondiente
al estadístico de contraste obtenido de 110,25, que en una distribución chi-cuadra
do con 80 gl es un valor comprendido entre 106,63 y 112,33. Estos valores dejan
por encima una probabilidad de 0,025 y 0,01, respectivamente, por lo que el nivel
crítico es mayor de 0,01 (p > 0,01).

lOMoARcPSD|1944486
Soluciones a los ejercicios de los capítulos 1 y 2 •
106,6 2 11 2,3 2
1
!x 2 = 110, 2sl
Figura 1: Representación gráfica del nivel crítico del esta

dístico chi-cuadrado =110,5.
INTERPRETACIÓN: La variabilidad del sueldo de las mujeres no es significativa

mente mayor que el de los hombres (x 2 = 110,25; p > 0,01) con un nivel de confian
za del 99%.
1.2. Para el segundo contraste de hipótesis, sobre el sueldo medio, seguiremos los
mismos pasos:
CONDICIONES Y SUPUESTOS. El diseño de este trabajo utiliza una muestra alea

toria de 81 mujeres en el que la variable de análisis, el sueldo en la muestra de mu
jeres, es de naturaleza cuantitativa que se distribuye normalmente en la población
con varianza conocida e igual a la de los hombres, como hemos contrastado en el
paso anterior.
HIPÓTESIS: El investigador quiere comprobar si el sueldo medio que perciben las
mujeres es inferior a 1.500 euros mensuales que, por investigaciones anteriores,
corresponde al que reciben los hombres. Formula, por tanto, un contraste unilateral
izquierdo.
H0 : µ21.500 H1 :µ<1.500
ESTADÍSTICO DE CONTRASTE: La distribución muestra! de la media de muestras

extraídas de una población normal con varianza conocida es normal, por lo que el
estadístico de contraste es la Z:

lOMoARcPSD|1944486
z----
- Y-µo -
1400-1500
=-5
CT 180
Fn Fsi
REGLA DE DECISIÓN: En la tabla de la distribución normal tipificada de puntua-
dones Z buscamos el valor crítico para un nivel de confianza del 99% para un con-
traste unilateral izquierdo, es decir, el valor de Z que deja por debajo una probabili-
dad de 0,01, y es -2,33.
z o 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
-3,50 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002
-3,40 0,0003 0,0003 0,0003 0,0003 0,0003 0,0003 0,0003 0,0003 0,0003 0,0002
-3,30 0,0005 0,0005 0,0005 0,0004 0,0004 0,0004 0,0004 0,0004 0,0004 0,0003
-3,20 0,0007 0,0007 0,0006 0,0006 0,0006 0,0006 0,0006 0,0005 0,0005 0,0005
-3,10 0,0010 0,0009 0,0009 0,0009 0,0008 0,0008 0,0008 0,0008 0,0007 0,0007
-3,00 0,0013 0,0013 0,0013 0,0012 0,0012 0,0011 0,0011 0,0011 0,0010 0,0010
-2,90 0,0019 0,0018 0,0018 0,0017 0,0016 0,0016 0,0015 0,0015 0,0014 0,0014
-2,80 0,0026 0,0025 0,0024 0,0023 0,0023 0,0022 0,0021 0,0021 0,0020 0,0019
-2,70 0,0035 0,0034 0,0033 0,0032 0,0031 0,0030 0,0029 0,0028 0,0027 0,0026
-2,60 0,0047 0,0045 0,0044 0,0043 0,0041 0,0040 0,0039 0,0038 0,0037 0,0036
-2,50 0,0062 0,0060 0,0059 0,0057 0,0055 0,0054 0,0052 0,0051 0,0049 0,0048
™
-2,40 0,0082 0,0080 0,0078 0,0075 0,0073 0,0071 0,0069 0,0068 0,0066 0,0064
(i§) 0,0107 0,0104 0,0102 0,0096 0,0094 0,0091 0,0089 0,0087 0,0084
-2,20 0,0139 0,0136 0,0132 0,0129 0,0125 0,0122 0,0119 0,0116 0,0113 0,0110
-2,10 0,0179 0,0174 0,0170 0,0166 0,0162 0,0158 0,0154 0,0150 0,0146 0,0143
-2,00 0,0228 0,0222 0,0217 0,0212 0,0207 0,0202 0,0197 0,0192 0,0188 0,0183
-1,90 0,0287 0,0281 0,0274 0,0268 0,0262 0,0256 0,0250 0,0244 0,0239 0,0233
-1,80 0,0359 0,0351 0,0344 0,0336 0,0329 0,0322 0,0314 0,0307 0,0301 0,0294
-1,70 0,0446 0,0436 0,0427 0,0418 0,0409 0,0401 0,0392 0,0384 0,0375 0,0367
-1,60 0,0548 0,0537 0,0526 0,0516 0,0505 0,0495 0,0485 0,0475 0,0465 0,0455
-1,50 0,0668 0,0655 0,0643 0,0630 0,0618 0,0606 0,0594 0,0582 0,0571 0,0559
-1,40 0,0808 0,0793 0,0778 0,0764 0,0749 0,0735 0,0721 0,0708 0,0694 0,0681
-1,30 0,0968 0,0951 0,0934 0,0918 0,0901 0,0885 0,0869 0,0853 0,0838 0,0823
Tabla 2: Reproducción parcial de la tabla de la distribución normal tipificada.
CONCLUSIÓN: Como el estadístico de contraste (Z = -5) supera la máxima di

ferencia que cabe esperar por simple azar (el valor crítico -2,33 para un nivel de
confianza del 99%), rechazamos la hipótesis nula. A la misma conclusión llegamos
comparando el nivel crítico p con el nivel de significación «alfa». Obsérvese que en
la distribución normal tipificada el valor más extremo que podemos ver es -3,59
que deja por debajo una probabilidad de 0,0002. Como el estadístico de contraste
Z = -5 es aún más extremo, el nivel crítico p es menor de 0,0002 que a su vez es
menor que el nivel de significación «alfa» de 0,01.

lOMoARcPSD|1944486
/
0,0002
Z=-5
p < 0,0002
Figura 2: Nivel crítico p del estadístico Z = -5
INTERPRETACIÓN: Con un nivel de confianza del 99% se puede afirmar que el

sueldo medio de las mujeres es menor de 1.500 euros mensuales que es el que
tienen los hombres (Z = -5; p < 0,01).
POTENCIA DEL CONTRASTE: Se calcula para la Ha: µ = 1.500 frente a la hipótesis
alternativa H 1: µ = 1.400.
Fijamos un nivel de confianza del Distribución muestra! de la media
para H0
99% por lo que, suponiendo que la Ha cr-=�=20
X Fn
es verdadera, cualquier muestra con
una media cuya puntuación típica sea
menor o igual que Z = -2,33 nos lle
varía a rechazar la Ha . El valor de esta
media es:
= Y-µa � = Y-1500 Distribución muestra! de la media

Z -2, 33 para H 1
CT 20
.¡¡,
Y� -2, 33 · 20 + 1500 = 1453, 4 euros
En la distribución correspondiente
Figura 3: Representación gráfica de la potencia
a la H 1 , a la puntuación 1453 le corres del contraste.
ponde una puntuación típica de:
= Y-µ1 = 1453, 4 -1400 = 53, 4 =

Z 2 67
CT 180
1
20
.¡¡, JBi

lOMoARcPSD|1944486
La potencia del contraste es la probabilidad de rechazar una Ha que es falsa. Y

esto ocurrirá cuando el estadístico de contraste se sitúe en la zona representada por
1-«beta» que corresponde a la probabilidad de obtener puntuaciones menores o
iguales a Z = 2,67. Buscamos esta probabilidad en la tabla de la distribución normal
y es 0,9962. Su complementario «beta» es la probabilidad de cometer un error
de tipo 11 o probabilidad de rechazar una Ha que es verdadera y vale 1 - 0,9962 =
0,0038.
SITUACIÓN 2. Un investigador social tiene la hipótesis de que la edad media

de inicio en el consumo de alcohol de los jóvenes de una determinada Comunidad
es más tardía que la media de la población general, establecida en 13 años. Para
contrastar su hipótesis selecciona una muestra de 25 jóvenes de su Comunidad, en
contrando que la edad media es de 14 años con una desviación típica insesgada de
2,8. Sabemos que la variable, edad de inicio en el consumo de alcohol, se distribuye
normalmente en la población.
SOLUCIÓN:
CONDICIONES Y SUPUESTOS: Se utiliza una muestra extraída de una población
con distribución normal y varianza desconocida. Se analiza la variable «edad de ini
cio del consumo de alcohol» en los jóvenes que es una variable medida con escala
de razón. Aunque la muestra es pequeña como la variable tiene distribución normal
en la población podremos utilizar un contraste paramétrico.
HIPÓTESIS: El investigador quiere comprobar que la edad media de inicio en su
Comunidad es más tardía (por tanto, mayor) que la media de la población gene
ral establecida en 13 años. Para ello, formulará un contraste unilateral derecho en
el que la hipótesis nula que establece que no hay diferencia significativas entre la
edad media en su Comunidad y la media de la población general
Ha : µ edad :s; 13 años H1 : µ edad > 13 años
ESTADÍSTICO DE CONTRASTE: Siendo los datos provenientes de una población

con distribución normal y varianza desconocida, la distribución muestra! de la me
dia es la distribución t de Student con n-1 = 24 grados de libertad.
Conocemos la desviación típica insesgada que utilizaremos como estimador de
la desviación típica poblacional en la siguiente expresión:

lOMoARcPSD|1944486
14 1
T = y - µo = - 3 = 1' 786
sn-1/ 2,8/
/Fn !E
Y-µ o
T=
sn/
/)n-1
REGLA DE DECISIÓN: En la distribución t de Student con 24 gl y para un contraste

unilateral derecho, buscamos el nivel crítico p asociado al estadístico T = 1,786. Los
valores más próximos a este valor del estadístico de contraste son 1,711 y 2,064 a los
que corresponden unos niveles críticos p de 0,05 y 0,025 respectivamente. Al ser el
estadístico de contraste 1,786 un valor comprendido entre 1,711 y 2,065 su nivel crí
tico p es un valor comprendido entre 0,025 y 0,05 (p < 0,05 y p > 0,025). Por otra par
te, los valores críticos de la distribución muestra! que delimitan la zona de rechazo y
de mantenimiento de la H0 son 1,711 y 2,492 para niveles de confianza de 0,95 y 0,99
respectivamente, que son los utilizados habitualmente en el campo de la psicología.
p = 0,025
1,711 2,064
T= 1,786
Probabilidad
g.l.
0,550 0,600 0,650 0,700 0,750 0,800 0,850 0,900
e@]) 0,975 <@E) 0,995
1 0,158 0,325 0,510 0,727 1,000 1,376 1,963 3,078 6,314 2,706 31,821 63,657
2 0,142 0,289 0,445 0,617 0,816 1,061 1,386 1,886 2,920 4,303 6,965 9,925
3 0,137 0,277 0,424 0,584 0,765 0,978 1,250 1,638 2,353 3,182 4,541 5,841
4 0,134 0,271 0,414 0,569 0,741 0,941 1,190 1,533 2,132 2,776 3,747 4,604
22 0,127 0,256 0,390 0,532 0,686 0,858 1,061 1,321 1,717 2,074 2,508 2,819
23 0,127 0,256 0,390 0,532 0,685 0,858 1,060 1,319 1,714 2,069 2,500 2,807
24 0,127 0,256 0,390 0,531 0,685 0,857 1,059 1,318 1,711 2,064
@ 2,797
25 0,127 0,256 0,390 0,531 0,684 0,856 1,058 1,316 1,708 2,060 2,485 2,787
26 0,127 0,256 0,390 0,531 0,684 0,856 1,058 1,315 1,706 2,056 2,479 2,779
27 0,127 0,256 0,389 0,531 0,684 0,855 1,057 1,314 1,703 2,052 2,473 2,771
28 0,127 0,256 0,389 0,530 0,683 0,855 1,056 1,313 1,701 2,048 2,467 2,763
Tabla 3: Representación gráfica del nivel crítico del estadístico t = 1, 786y su localización en la tabla
de la distribución t.

lOMoARcPSD|1944486
CONCLUSIÓN: Se rechazaría la Ho con un nivel de confianza del 95% pero no se

podría rechazar con un nivel de confianza del 99%. Con otras palabras, el resultado
obtenido es significativo con a= 0,05 pero no con a= 0,01
INTERPRETACIÓN: A partir de los resultados de esta investigación, la edad media
de inicio de alcohol de los jóvenes de esta Comunidad es más tardía que la media
general con un nivel de confianza del 95%.
SITUACIÓN 3. La empresa SND's de sondeos electorales ha pronosticado que el

nivel de apoyo que recibirá el partido X en las próximas elecciones será del 40%. Des
de el propio partido X se promueve un nuevo sondeo con el fin de contrastar la veraci
dad de esta afirmación. Para ello, selecciona una muestra aleatoria de 400 personas,
con derecho a voto, de los cuales 128 manifiestan su intención de votar al partido X.
SOLUCIÓN:
CONDICIONES Y SUPUESTOS: Se utiliza una muestra de 400 personas y la varia
ble dependiente es el «apoyo que recibirá el partido X en las próximas elecciones».
Es una variable dicotómica con distribución binomial. La muestra es grande por lo
que esta distribución se aproximará a la normal.
HIPÓTESIS: En la muestra utilizada en el sondeo encargado por el partido X, la
proporción de personas que les votarían es del 32% (128/400 = 0,32). A partir de
esta evidencia mostrada en los datos, se quiere contrastar si «el nivel de apoyos
será del 40%». Como no se marca si la diferencia será mayor o menor que ese valor
se plantea un contraste bilateral, con las siguientes hipótesis:
H0: n = 0,40
ESTADÍSTICO DE CONTRASTE: Por aproximación de la distribución binomial a la

normal, utilizaremos el estadístico Z
Siendo el error típico de la proporción:
(j
P
-) "o ( 1 - ,c0 ) _ O, 40 ( 1- O, 40)
_ -----=0,0245
n 400
10

lOMoARcPSD|1944486
Y el estadístico:
P-n 0 = 0, 32 - 0 , 40 =
Z= -3,266
CT P 0,0245
REGLA DE DECISIÓN: En la distribución normal y para un contraste bilateral, bus

camos el nivel crítico p asociado al estadístico Z = - 3, 2 66. En la tabla el valor más
próximo es Z = -3, 2 7, que deja por debajo una probabilidad de 0, 0005 en uno de
los extremos de la distribución. Como se trata de un contraste de bilateral (de dos
lados) tendremos que sumar también la probabilidad de P(Z > 3,279) = 0,0005 y el
nivel crítico p es la suma de las probabilidades de los dos extremos de la distribu
ción: p = 0, 00 1 0 .
Z=-3,27 Z = 3,27
z o 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
-3,50 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002
-3,40 0,0003 0,0003 0,0003 0,0003 0,0003 0,0003 0,0003 0,0003 0,0003 0,0002
-3,30 0,0005 0,0005 0,0005 0,0004 0,0004 0,0004 0,0004 0,0004 0,0004 0,0003
-3,20 0,0007 0,0007 0,0006 0,0006 0,0006 0,0006 0,0006 0,0005 0,0005
-3,10 0,0010 0,0009 0,0009 0,0009 0,0008 0,0008 0,0008 0,0007 0,0007
-3,00 0,0013 0,0013 0,0013 0,0012 0,0012 0,0011 0,0011 0,0011 0,0010 0,0010
-2,90 0,0019 0,0018 0,0018 0,0017 0,0016 0,0016 0,0015 0,0015 0,0014 0,0014
-2,80 0,0026 0,0025 0,0024 0,0023 0,0023 0,0022 0,0021 0,0021 0,0020 0,0019
-2,70 0,0035 0,0034 0,0033 0,0032 0,0031 0,0030 0,0029 0,0028 0,0027 0,0026
Tabla 4: Reproducción parcial de la tabla de la distribución normal N{0;1} para encontrar el nivel
crítico p, P(Z < = -3,27) representado en la figura superior.
CONCLUSIÓN: Aunque el enunciado de este ejercicio no establece el nivel de

confianza, recurriremos a los utilizados habitualmente, que son el 95% o el 99%. Al
ser el nivel crítico p = 0,00 1 0 ( 0, 0005 + 0,0005) menor que el nivel de significación
0, 0 1 y menor que 0, 05, rechazamos la H con un nivel de confianza tanto del 95%
0
como del 99%. A la misma conclusión llegamos comparando el valor del estadístico
11

lOMoARcPSD|1944486
de contraste con los valores críticos que son ±1,96 y ±2,58 correspondientes a los
niveles de confianza del 95% o del 99%, respectivamente, para un contraste bilate-
ral.
INTERPRETACIÓN: El nivel de apoyo que recibirá el partido X en las próximas
elecciones será significativamente distinto del 40% (Z = -3,266; p < 0,001).
INTERVALO DE CONFIANZA: A esta misma conclusión se llega utilizando el inter
valo de confianza para estimar, a partir de la proporción observada en la muestra,
la proporción poblacional de votantes que tendrá el partido.
Con un nivel de confianza del 95%, el error máximo de estimación es:
Emax =Z1 _cy;_��

� =1, 96 ·
0,32·(1-0,32)
400
= 0 , 0457
Y el intervalo de confianza es:
Línf =
p-Emax = 0,32-0, 0457 = 0,274
Lsup = P + Emax = 0,32 + O, 0457 = 0,366
De acuerdo con esta estimación, la proporción poblacional de votos para el par

tido es un valor comprendido entre el 27,4% y el 36,6%. Como este intervalo no
contiene el valor planteado en la Ha de 0,40 no podemos asumir este valor y se
rechaza Ha . Compruebe ahora que con un nivel de confianza del 99% también se
rechazaría Ha, ya que el intervalo de confianza estima como proporción apoyos al
partido X un valor comprendida entre 0,26 y 0,38 que no incluye el valor 0,40 plan
teado en Ha .
TAMAÑO DE LA MUESTRA: En el punto anterior se ha visto que el error máximo
de estimación, con un nivel de confianza del 95%, era de 0,0457. Si quisiéramos fijar
este error máximo de estimación en dos puntos porcentuales {0,02) ¿cuál debería
ser el tamaño de la muestra?
Para determinar el tamaño de la muestra con esas condiciones, debemos despe
jar el valor den de la expresión:
� 0,32·(1-0,32)
Emax =Z _ � 0, 02=l , 96·
1 cy;_�� n
Y la expresión que resulta es:
12

lOMoARcPSD|1944486
2
zl-'Ji2 1 962
n=p(l-p)-2 - =0,32·(1-0,32)--- =2089,83�2090 personas
Emax 0,022
SITUACIÓN 4. «La formación alcanzada por la población adulta española ha

mejorado, de forma continua, en los últimos 10 años. Desde 1998 el porcentaje
de españoles de 25 a 64 años que poseen estudios superiores a los obligatorios ha
pasado de 33% al 51% en 2008 En la misma proporción ha disminuido, por tanto,
.
el porcentaje de españoles que sólo poseen estudios obligatorios, que ha pasado
del 67% en 1998 al 49% en 2008» (Panorama de la Educación. Informe OCDE 2010).
Ante esta situación, imagine que usted quiere confirmar que la proporción de adul
tos de su Comunidad que solo tienen los estudios obligatorios es significativamente
inferior que el indicador de España en 2008. Establece un nivel de confianza del 95%
y utiliza una muestra aleatoria de 900 adultos con edades comprendidas entre 25 y
64 años, encontrando que 378 de ellos tienen solo los estudios obligatorios.
SOLUCIÓN:
CONDICIONES Y SUPUESTOS: Utilizamos una muestra de sujetos en los que la
variable de estudio «estar en posesión de estudios superiores» es de naturaleza
dicotómica (se tienen o no se tienen estos estudios) sobre la que se determina la
proporción de personas que poseen dicha cualidad.
Los datos de los que partimos son:
Estudios superiores Muestra

Estudios obligatorios
a los obligato!ios
111 33% 67%

n = 900
111 51% 49% 378 con estudios obligatorios
378
Proporc10n
. , de personas en Ia muestra con estud.tos o bl.1gatonos:
. p=- =O,42
900
HIPÓTESIS: El investigador quiere comprobar que la proporción de adultos de su
Comunidad que solo tienen los estudios obligatorios es significativamente inferior
que el indicador de España en 2008 establecido en el 49%. Las hipótesis nula y al
ternativa son:
H0: re 2 0,49; H1: re< 0,49;
13

lOMoARcPSD|1944486
ESTADÍSTICO DE CONTRASTE: La variable de estudio «estar en posesión de es

tudios obligatorias» es de naturaleza dicotómica (se tienen o no se tienen estos
estudios} con distribución binomial. Al tratarse de una muestra grande (n = 900} la
distribución binomial se aproxima a la normal, de forma que el estadístico de con
traste es una puntuación típica, Z:
Z= p - n0 =
O, 42 -O, 49
= _4 20
/re 0 ·( -re 0 ) 0,49 ·0,51
�
� 900
REGLA DE DECISIÓN: En la distribución normal el valor crítico, que representa la

máxima discrepancia que puede observarse por simple azar entre el valor obtenido
en la muestra (p = 0,42} y el formulado en H0 como parámetro poblacional (H0 =
0,49} correspondiente a un nivel de confianza del 95% para un contraste unilateral
izquierdo es Z = -1,64. Como el estadístico de contraste obtenido Z = -4,20 repre
senta una discrepancia mayor, rechazamos H0.
«alfa»= 0,05
nivel de confianza= 0,95
Z=-4,20
Figura 4: Representación del valor crítico para un NC del 95% en un

contraste unilateral izquierdo.
De otra forma: buscamos el nivel crítico p asociado al estadístico Z = -4,20. En

la tabla el valor más próximo es Z = -3,59, que deja por debajo una probabilidad de
0,0002. Como el estadístico de contraste Z = -4,20 es menor que este valor crítico
deducimos que la probabilidad de encontrar valores menores de Z = -4,20 es menor
de 0,0002.
14

lOMoARcPSD|1944486
/
p < 0,0002
0,42 0,49
Z= -4,20
Figura 5: Nivel crítico p del estadístico z = -41 20
CONCLUSIÓN: Con un nivel de confianza, previamente establecido en el 95%,

rechazamos Ha ya que el estadístico de contraste (Z = -4,20} representa una dis
crepancia «mayor» que el valor crítico correspondiente a ese nivel de confianza del
95%. Por otra parte, el nivel crítico p (p < 0,0002} correspondiente al estadístico de
contraste (Z = 4,20} nos permite concluir que la diferencia es significativa tanto con
un nivel de significación de 0,05 como del 0,01.
INTERPRETACIÓN: Se confirma la hipótesis del investigador de que la proporción
de adultos de su Comunidad que solo tienen los estudios obligatorios es significa
tivamente inferior que el indicador de España en 2008 con un nivel de significación
menor de 0,01.
INTERVALO DE CONFIANZA: Con un nivel de confianza del 95% el intervalo de
confianza nos permite inferir, a partir de los datos obtenidos en la muestra, la pro
porción de adultos con estudios superiores. Este intervalo es:
0,388
p(l-p) 0,42·0,58
p±Z1_al � --+0,42±1,96 --+ ¡
72�� 900
0,452
Por tanto, la proporción de adultos de esa Comunidad con estudios superiores

es un valor comprendido entre 0,388 (38,8%} y 0,452 (45,2%} que no cubre el valor
formulado en Ha de 0,49.
15

lOMoARcPSD|1944486
p < 0,0002
0,42 0,49
Z= -4,20
0,388 p = 0,42 0,452
Figura 6: Representación gráfica del intervalo de confianza de una proporción.
SITUACIÓN S. «En Educación Primaria, la media de alumnos por clase en los

centros públicos de España (19J) es más baja que en la OCDE (21,6) y que en la
Unión Europea (20,3). En los centros privados ocurre lo contrario, pues la media en
España es de 24,4 frente a 20,8 de media de la OCDE y 19,1 de la UE». {Panorama
de la Educación. Informe OCDE 2010). Imagine que:
5.1. Usted sospecha que la media de los centros públicos de su Comunidad es
significativamente mayor que la media de España.
5.2. Y también que la media de los centros públicos de su Comunidad es signifi
cativamente menor que la media de la OCDE.
Para contrastar estas hipótesis, selecciona una muestra aleatoria de 100 aulas
de educación primaria en centros públicos, encontrando que la media de alumnos
por clase es de 20,9 con una desviación típica poblacional de 5,8. Se asume que la
variable número de alumnos por clase se distribuye normalmente y se fija el nivel
de confianza del 95%.
SOLUCIÓN:
De forma resumida, los datos facilitados en el enunciado son:
16

lOMoARcPSD|1944486
Media de alumnos por clase

España OCDE UE
Públicos 19,7 21,6 20,3
, Privados 24,4 20,8 19,1
Y para la muestra: n = 100/ Y= 20,9/ cr = 5,8. Para contrastar ambas hipótesis

seguimos los siguientes pasos.
CONDICIONES Y SU PUESTOS: Se utiliza una muestra en la que la variable de es
tudio «número de estudiantes por clase» es de naturaleza continua que se mide
con escala de razón, cuya distribución poblacional asumimos que es normal con
varianza conocida, según nos indica el enunciado.
HIPÓTESIS: Se plantean dos contrastes de hipótesis sobre dos medias poblacio
nales. Los dos son unilaterales ya que el investigador está marcando el sentido (ma
yor o menor) de la diferencia:
5.1. El primero es un contraste unilateral derecho ya que el investigador quiere

comprobar si la media de los centros públicos de su Comunidad es significati
vamente mayor que la media de España establecida en 19,7 alumnos por aula.
H1: µ> 19, 7
5.2. El segundo contraste es unilateral izquierdo, ya que el investigador está mar

cando el sentido de la diferencia al querer comprobar si la media de los centros
públicos de su Comunidad es significativamente menor que de la media de la
OCDE, establecida en 21,6 alumnos por aula.
H0: µ�21,6 H1 :µ<21,6
ESTADÍSTICO DE CONTRASTE: Tratándose de una variable que se distribuye nor

malmente en la población con varianza poblacional conocida, la distribución mues
tra! de la media es normal y el estadístico de contraste que utilizaremos es la Z.
5.1. Para la primera hipótesis el estadístico de contraste es:
17

lOMoARcPSD|1944486
• Ejercicios y problemas resueltos y coméntados. Diseños de investigación y análisis de datos
y -µo 20' 9 - l9' 7 =

Z= = 2' 069 ;:::; 2' 07
cr/
/ Fn
5,8/
j.Jwo
5.2. Y para la segunda hipótesis el estadístico de contraste es:
Y-µ0 20, 9 -21, 6 = l l

Z= =
1Fn
- 2
5
'Yio
REGLA DE DECISIÓN: Con un nivel de confianza del 95%, la máxima diferencia
que puede encontrarse por simple azar (el valor crítico) es +1, 64 para un contraste
unilateral derecho y-1, 6 4 para un contraste unilateral izquierdo:
Valor crítico: -1,64 µ = 21,6

Y= 20,9 Z=-1,21
Z = 2,07
Figura 7: Representación gráfica de los valores críticos para la regla de decisión dos contrastes
unilaterales.
CONCLUSIÓN: Para el primer contraste, se rechazaría la H0 ya que el estadístico

de contraste obtenido (Z = 2,07} supera la máxima diferencia que cabe esperar por
simple azar (el valor crítico: 1, 6 4). Por el contrario, para el segundo contrastes no
hay evidencia suficiente para contrastar la H0 ya que el estadístico de contraste ob
tenido (Z = -1,21} no supera la máxima diferencia que cabe esperar por simple azar
(-1, 6 4} con un nivel de confianza del 95% en ambas situaciones.
De otra forma, los niveles críticos p de ambos estadísticos son: p = 0,0192 ·y
0,1131 respectivamente, tal y como se representan en las siguientes figuras.
18

lOMoARcPSD|1944486
Soluciones a los ejercicios de Íos capítulos 1 y Z •
p = 0,1131
µ = 19,7 Valor crítico: -1,64 µ = 21,6

Y= 20,9 Z=-1,21
Z= 2,07
Figura 8: Representación gráfica de los niveles críticos p para la toma de decisión en dos contrastes
unilaterales.
Por tanto, para el primer contraste y partiendo de que la hipótesis nula (que es
tablece que la media de alumnos por clase de los alumnos de los colegios públicos
de esa comunidad es igual o menor de 19,7) es verdadera, la probabilidad de obte
ner una muestra de 100 aulas de colegios públicos con una media de alumnos por
clase de 20,9 es de 0,0192 (el nivel crítico p). Esta es una probabilidad pequeña en
comparación al nivel de significación de 0,05 pero grande en comparación al nivel
de significación de 0,01 por lo que rechazaríamos la H0 con un nivel de confianza del
95% pero no podríamos tomar la misma decisión con un nivel de confianza del 99%.
Para el segundo contraste, la probabilidad de que siendo cierta la Ho se obtenga

una muestra de 100 aulas con una media de estudiantes de 20,9 es de 0,1131. Esta
probabilidad es grande en comparación con los niveles de significación del 0,01 y
0,05 por lo que no hay evidencia suficiente para rechazar la H0 con un nivel de con
fianza del 95% ni tampoco al 99%.
INTERPRETACIÓN: La media de alumnos por aula en los colegios públicos de la
Comunidad del investigador es significativamente mayor que la media general de
España con un nivel de confianza del 95% pero no del 99%, (Z = -2,07; p = 0,0192),
pero no difiere significativamente de la media de los países de la OCDE con un nivel
de confianza del 95% y del 99% (Z = -1,21; p = 0,1131).
Por otra parte y de forma adicional el investigador podría calcular, a partir de los
datos de su estudio, el intervalo de confianza de la media de alumnos por clase en
los colegios públicos de su Comunidad. Para ello, establece un nivel de confianza del
9 5%. En estas circunstancias el error máximo de estimación es:
cr 5, 8
Emax =Z1 _a,/ r =1, 96 � =1,1368
12 '\,/n '\,/100
19

lOMoARcPSD|1944486
Y el intervalo de confianza se obtiene sumando y restando a la media de la mues

tra, este error máximo de estimación:
IC=Y±Emax =20,9±1,1368---*(19,76;22,04)
El intervalo de confianza de alumnos por clase de los colegios públicos de su

Comunidad es un valor comprendido entre 19,76 y 22,04 alumnos, que incluye la
media de la OCDE {21,6) y la media de la UE {20,3) de los que NO difiere significa
tivamente, con un nivel de confianza del 95%, pero no incluye la media global de
España {19,7) de la que SÍ difiere significativamente.
Si, por otra parte, y una vez realizado este análisis el investigador decide estable
cer el error máximo de estimación en 1 punto y un nivel de confianza del 95%, ¿Qué
tamaño de muestra debería haber utilizado?
El error máximo es igual a:
Si hacemos E= l, entonces:
1=1 96�
I
Fn
Despejando «n»:
(z
J
2
1- ª 1 96 2
n= cr 2 7i_ = 5 82 -'-
1
= 129 / 23 � 129
I
E2 2
Debería utilizar una muestra de 129 aulas de colegios públicos de su Comunidad.
SITUACIÓN 6. Según el último estudio del Observatorio Español sobre Drogas

{2009}, realizado en estudiantes de Secundaria de 14 a 18 años, el 5,1% ha consumi
do cocaína alguna vez en la vida y el 2, 7% éxtasis. Además, el inicio en el consumo
de cocaína y éxtasis tiene lugar cada vez a edades más tempranas. Asl mientras
que en el año 2004 la edad media de inicio para la cocaína era de 15,9 años en los
hombres y 15, 7 en las mujeres, en el año 2008 disminuyó a 15,3 años y 15,2, respec-
20

lOMoARcPSD|1944486
Hvamente (Encuesta estatal sobre uso de drogas en enseñanzas secundaria, 2009}.

Imagine que usted forma parte de un equipo de atención primaria que cubre a un
determinado sector de su municipio y desea estimar, con un nivel de confianza del
95%:
6.1. La proporción de jóvenes de enseñanzas secundarias de su municipio que
han consumido cocaína al menos una vez
6.2. La edad media del consumo de cocaína de las mujeres de su municipio.
6.3. Además sospecha que la edad media del inicio en el consumo de cocaína
en los hombres de su municipio ha disminuido respecto a los datos genera
les del 2004.
6.4. Finalmente desea contrastar la hipótesis de que la varianza poblacional en
la edad de inicio del consumo de cocaína en los hombres de su municipio
es significativamente mayor que 1,1 establecido para las mujeres.
Para ello, dispone de los datos de una muestra de 37 jóvenes varones y 41 muje
res atendidos el pasado año en los que el 8% habían consumido cocaína, al menos
un vez, siendo la edad media de inicio en el consumo de cocaína de 15,4 años en
los hombres y de 15,2 años en las mujeres con una desviación típica de 1,3 para los
hombres y 1,1 en las mujeres.
SOLUCIÓN:
De forma resumida, los datos proporcionados en esta situación vienen recogidos
en las siguientes tablas:
Datos de encuestas estatales: Datos de la muestra de su municipio:
2009 5,1% Cocaína 2,7% Éxtasis

•••t+i,ti'i::H
Edad media consumo cocaína Hombres 37 15,4 1,3
8%
Hombres Mujeres Mujeres 41 15,2 1,1 Cocaína
2004 15,9 15,7
2008 15,3 15,2
6.1. A partir del 8% de jóvenes (hombres y mujeres) que han consumido cocaína, el
intervalo de confianza de la proporción poblacional de jóvenes consumidores
con un nivel de confianza del 95%, es:
IC=p±Emax
21

lOMoARcPSD|1944486
Siendo el error máximo de estimación de la proporción poblacional:
-
Emax =Z1-� �p-(l-p) =1'96· ·(l-O , OS ) =196·0 0307=0 06
O , OS
n 37 + 41 ' ' '
Y, finalmente, el intervalo de confianza para la media poblacional de la propor

ción de jóvenes que han consumido cocaína, es:
IC=p±Emax =0,08±0,06=(0,02;0,14)
Es decir, entre un 14% y un 2% de los jóvenes de su municipio han consumido

cocaína al menos una vez.
6.2. A partir de la información obtenida en la muestra respecto a la edad media de

consumo de cocaína en las mujeres que ha sido de 1 5 , 2 años, obtenemos el
intervalo de confianza para la media poblacional. Para ello, consideramos que
la edad es una variable continua medida con escala de razón pero de la que
desconocemos la forma de su distribución en la población y su varianza. Bajo
estas condiciones y al tratarse de una muestra grande, la distribución muestra!
de la edad media es la t de Student con n-1 grados de libertad.
sn-1 sn 1, 1
Emax =t n -u-al C =tn -1·1-a/
' � = 2, 021 � = 0, 35
, /2 -vn 12 -vn-l -v41 -1
El valor de t = 2, 021 se busca en las tablas con n - l = 4 1 - 1 = 4 0 grados de

libertad:
22

lOMoARcPSD|1944486
975 t = 2, 021
0,
Probabilidad
g.l.
0,550 0,600 0,650 0,700 0,750 0,800 0,850 0,900 0,950 0,975 0,990 0,995
1 0,158 0,325 0,510 0,727 1,000 1,376 1,963 3,078 6,314 2,706 31,821 63,657
2 0,142 0,289 0,445 0,617 0,816 1,061 1,386 1,886 2,920 4,303 6,965 9,925
3 0,137 0,277 0,424 0,584 0,765 0,978 1,250 1,638 2,353 3,182 4,541 5,841
4 0,134 0,271 0,414 0,569 0,741 0,941 1,190 1,533 2,132 2,776 3,747 4,604
28 0,127 0,256 0,389 0,530 0,683 0,855 1,056 1,313 1,701 2,048 2,467 2,763
29 0,127 0,256 0,389 0,530 0,683 0,854 1,055 1,311 1,699 2,045 2,462 2,756
30 0,127 0,256 0,389 0,530 0,683 0,854 1,055 1,310 1,697 2,042 2,457 2,750
40 0,126 0,255 0,388 0,529 0,681 0,851 1,050 1,303 1,684 2,021 2,423 2,704
so 0,126 0,255 0,388 0,528 0,679 0,849 1,047 1,299 1,676 2,009 2,403 2,678
60 0,126 0,254 0,387 0,527 0,679 0,848 1,045 1,296 1,671 2,000 2,390 2,660
Tabla 5: Reproducción parcial de la tabla de la distribución t y su representación gráfica con los va/o-
res críticos para el cálculo del intervalo de confianza.
Y el intervalo de confianza, es:
14,84
Y±Emax --+15,2±0,35--+¡
15,55
6.3. Para comprobar si la edad media del inicio en el consumo de cocaína en los
hombres de su municipio ha disminuido respecto a los datos generales del
2004, formularemos un contraste de hipótesis, siguiendo los siguientes pa
sos:
CONDICIONES Y SUPUESTOS: Partimos de la información proporcionada por una

muestra de 37 hombres con una edad media de 15,4 años. Desconocemos la forma
de la distribución poblacional de la edad de inicio en el consumo y su varianza. Por
23

lOMoARcPSD|1944486
tanto, la distribución muestra! de la media es una distribución t de Student con n -1

= 36 grados de libertad.
HIPÓTESIS: El investigador sospecha que la edad media del inicio en el consumo
de cocaína en los hombres de su municipio ha disminuido respecto a los datos ge
nerales del 2004 que era de 15,9 para los hombres, por lo que plantea un contraste
unilateral izquierdo
H1 :µ<15, 9
ESTADÍSTICO DE CONTRASTE: Al tratarse de un diseño de una muestra extraída

de una población con varianza desconocida, el estadístico de contraste es la t de
Student con n - 1 gl.
15, 4 -15, 9 =-
T= Y-µ 0 = 2,31
sn 1,3
.Jn-1 ../37-1
REGLA DE DECISIÓN: Como en la tabla de la distribución t no figura la distribu

ción t con 36 gl el valor crítico correspondiente a esta distribución deberemos bus
carlo por aproximación con el valor de una distribución con 40gl. Para ello, el valor
crítico t que deja por debajo una probabilidad de 0,05 es el mismo, pero de signo
contrario, al que deja por encima una probabilidad de 0,05 (y por debajo 0, 9 5) que
corresponde a un nivel de confianza del 9 5% para un contraste unilateral derecho.
Este valor es -1,68 4 que es el que encontramos en las tablas con 40 gl como valor
más aproximado a los 36 gl de este ejemplo.
Probabilidad
g.l.
0,550 0,600 0,650 0,700 0,750 0,800 0,850 0,900 0,950 0,975 0,990 0,995
1 0,158 0,325 0,510 0,727 1,000 1,376 1,963 3,078 6,314 12,706 31,821 63,657
2 0,142 0,289 0,445 0,617 0,816 1,061 1,386 1,886 2,920 4,303 6,965 9,925
3 0,137 0,277 0,424 0,584 0,765 0,978 1,250 1,638 2,353 3,182 4,541 5,841
4 0,134 0,271 0,414 0,569 0,741 0,941 1,190 1,533 2,132 2,776 3,747 4,604
28 0,127 0,256 0,389 0,530 0,683 0,855 1,056 1,313 1,701 2,048 2,467 2,763
29 0,127 0,256 0,389 0,530 0,683 0,854 1,055 1,311 1,699 2,045 2,462 2,756
30 0,127 0,256 0,389 0,530 0,683 0,854 1,055 1,310 1,697 2,042 2,457 2,750
40 0,126 0,255 0,388 0,529 0,681 0,851 1,050 1,303 1,684 2,021 2,423 2,704
50 0,126 0,255 0,388 0,528 0,679 0,849 1,047 1,299 1,676 2,009 2,403 2,678
60 0,126 0,254 0,387 0,527 0,679 0,848 1,045 1,296 1,671 2,000 2,390 2,660
Tabla 6: Reproducción parcial de la tabla de la distribución t.
24

lOMoARcPSD|1944486
CONCLUSIÓN: El valor crítico representa la máxima diferencia que puede darse por
simple azar. Como el estadístico de contraste (T=-2,31; p < 0,025} supera esta máxima
diferencia (-1,684), rechazamos la hipótesis nula con un nivel de confianza del 95%.
p < 0,025
T = -2,31
Figura 9: Nivel crítico del estadístico T = -2,31 en la distribución t

con 30 gl.
INTERPRETACIÓN: La edad media de inicio en el consumo de cocaína en los hom

bres es significativamente menor de 15,9 años (T = -2,31; p < 0,025).
6.4. Para analizar si la varianza poblacional en la edad de inicio del consumo de

cocaína en los hombres de su municipio es significativamente mayor que 1,1
establecido para las mujeres seguiremos los mismos pasos:
CONDICIONES Y SUPUESTOS: Partimos de la información proporcionada por una

muestra de 37 hombres con una desviación típica de 1,3 (Varianza de 1,3 2 = 1,69}.
La distribución muestra! de la varianza es una distribución chi-cuadrado con n - l gl.
HIPÓTESIS: El investigador quiere comprobar que la varianza poblacional de la
edad de inicio en el consumo de cocaína de los hombres es mayor de 1,12 = 1,21
para lo que formula las siguientes hipótesis:
H1 : a2 > 1, 21
ESTADÍSTICO DE CONTRASTE: Utilizamos el estadístico chi-cuadrado, que vale:

25

lOMoARcPSD|1944486
2 2
= n-5 = 37·1,3 =51 67
2
X 2
'
ªº 1,12
REGLA DE DECISIÓN: Con un nivel de confianza del 95%, la máxima diferencia

que cabe esperar por simple azar entre el valor de la varianza obtenido en la mues
tra respecto al valor establecido en la hipótesis nula, viene determinada por el valor
crítico de la distribución chi-cuadrado con 36 gl. El valor más aproximado lo busca
mos en las tablas con 40 gl y es 55,7585. Como el estadístico de contraste (51,67)
no supera el valor crítico 55,7585, no podemos rechazar la hipótesis nula con ese
nivel de confianza.
Probabilidad
g.1.
0,005 0,010 0,025 0,050 0,100 0,900 0,975 0,990 0,995
1 0,0000 0,0002 0,0010 0,0039 0,0158 2,7055 3,8415 5,0239 6,6349 7,8794
2 0,0100 0,0201 0,0506 0,1026 0,2107 4,6052 5,9915 7,3778 9,2103 10,5966
3 0,0717 0,1148 0,2158 0,3518 0,5844 6,2514 7,8147 9,3484 11,3449 12,8382
4 0,2070 0,2971 0,4844 0,7107 1,0636 7,7794 9,4877 11,1433 13,2767 14,8603
29 13,1211 14,2565 16,0471 17,7084 19,7677 39,0875 42,5570 45,7223 49,5879 52,3356
30 13,7867 14,9535 16,7908 18,4927 20,5992 40,2560 46,9792 50,8922 53,6720
40 20,7065 22,1643 24,4330 26,5093 29,0505 51,8051 59,3417 63,6907 66,7660
so 27,9907 29,7067 32,3574 34,7643 37,6886 63,1671 67,5048 71,4202 76,1539 79,4900
60 35,5345 37,4849 40,4817 43,1880 46,4589 74,3970 79,0819 83,2977 88,3794 91,9517
Tabla 7: Tabla de la distribución chi-cuadrado.
INTERPRETACIÓN: La varianza poblacional de la edad de inicio del consumo de

cocaína en los hombres es igual que el de las mujeres (x 2 = 51,67; p > 0,05).
51,67 55,758
Figura 10: Representación gráfica de la distribución chi-cuadrado, el

estadístico de contraste y el nivel crítico.
26

lOMoARcPSD|1944486
SITUACIÓN 7. El Centro de Investigaciones Sociológicas {CIS} realiza constantes

estudios sobre la ideología e intención de voto de los españoles. Uno de los ítems
que incluye en sus cuestionarios es el de la «identificación ideológica»/ para lo que
se le pide al entrevistado que se ubique ideológicamente en una escala de 1 a 10
(donde 1 significa extrema izquierda y 10 extrema derecha). En su última encuesta
a la población española la media aritmética obtenida para la variable identificación
ideológica fue de un 4/86. Un psicólogo social interesado en estudiar esta temática,
sospecha que en su localidad la intención de voto es significativamente «más con
servadora», para lo que diseña una encuesta dirigida a confirmar su hipótesis. Para
ello, selecciona una muestra de 31 personas a las que aplica el ítem de identifica
ción ideológica, obteniendo una media de 5,40 y una cuasi-desviación típica de 1,2.
Quiere además saber cuál sería el tamaño de la muestra que debería utilizar para
estimar la media poblacional fijando un error máximo de estimación de 0,2 puntos.
SOLUCIÓN:
CONDICIONES Y SUPUESTOS: El estudio corresponde a un diseño de una mues
tra en la que la variable de estudio «Identificación ideológica» es una variable cuan
titativa medida con escala de intervalo en la que se obtiene la media y la varianza
de la muestra de 31 personas que han respondido a la encuesta. Se desconoce la
distribución poblacional de esta variable y su varianza por lo que la distribución
muestra! de la media es la t de Student.
HIPÓTESIS: El investigador sospecha que en su localidad la intención de voto es
significativamente «más conservadora», por lo que plantea un contraste unilateral
en el que la media en su locaclidad debe ser mayor de 4, 86 que es la media de la
población española:
H0 :µ::; 4, 86 ; H1 :µ> 4, 86
ESTADÍSTICO DE CONTRASTE: Al desconocer la forma de la distribución poblacio

nal y su varianza el estadístico de contraste es:
µ 5, 40 - 4, 86 =
T= Y- 0 = 2/ 51
sn -1 1,2
J;, F3i
REGLA DE DECISIÓN: Para los niveles de confianza utilizados habitualmente (95%
y 99%), localizamos en la tabla de la distribución t de Student con 30 grados de
libertad estos valores críticos y son 2,4 57 para un nivel de confianza del 99% en
27

lOMoARcPSD|1944486
un contraste unilateral derecho y 1,697 para un nivel de confianza del 95% de un

contraste unilateral derecho.
Probabilidad
g.l.
0,550 0,600 0,650 0,700 0,750 0,800 0,850 0,900 0,975 0,995
1 0,158 0,325 0,510 0,727 1,000 1,376 1,963 3,078 6,314 12,706 31,821 63,657
2 0,142 0,289 0,445 0,617 0,816 1,061 1,386 1,886 2,920 4,303 6,965 9,925
3 0,137 0,277 0,424 0,584 0,765 0,978 1,250 1,638 2,353 3,182 4,541 5,841
4 0,134 0,271 0,414 0,569 0,741 0,941 1,190 1,533 2,132 2,776 3,747 4,604
28 0,127 0,256 0,389 0,530 0,683 0,855 1,056 1,313 1,701 2,048 2,467 2,763
29 0,127 0,256 0,389 0,530 0,683 0,854 1,055 1,311 1,699 2,045 2,462 2,756
30 0,127 0,256 0,389 0,530 0,683 0,854 1,055 1,310 1,697 2,042 2,750
40 0,126 0,255 0,388 0,529 0,681 0,851 1,050 1,303 1,684 2,021 2,704
so 0,126 0,255 0,388 0,528 0,679 0,849 1,047 1,299 1,676 2,009 2,403 2,678
60 0,126 0,254 0,387 0,527 0,679 0,848 1,045 1,296 1,671 2,000 2,390 2,660
Tabla 8: Reproducción parcial de la tabla de la distribución t.
CONCLUSIÓN: El estadístico T = 2,51 supera ambos valores los que nos conduce
a rechazar la H0 con un nivel de confianza del 99%.
p < 0,01
Figura 11: Distribución t de Student.
INTERPRETACIÓN: Se confirma la sospecha del investigador de que la identifi

cación ideológica en su localidad la es «más conservadora» que en la población
general (T = 2,51; 0,005 < p < 0,01).
28

lOMoARcPSD|1944486
Si el investigador ha fijado un error máximo de 0,2 puntos para estimar la media

poblacional, con un NC del 95%, el tamaño de la muestra utilizada sería:
sn-1
2
Emax = tn-1;1-'Ji Fn = 0, 2
Y despejando el valor den:
2
2
tn-1;1-'Ji 2 2,042
2
n=Sn -l 2 =1, 2 · =150,11�150
Emax 0, 2 2
SITUACIÓN 8. El «Síndrome Jubilación» es la situación que experimentan cier

tas personas ante esta nueva etapa vital con manifestaciones somáticas, psíquicas
y sociales negativas que afectan la calidad de vida del jubilado. Un estudio publica
do por el GIE (Grupo de Investigación del Envejecimiento) mediante una encuesta
realizada en el 2006 utilizando una muestra de jubilados con edad media de 77, 6
años y desviación típica de 8, 79 años encuentra que las manifestaciones psíquicas
más frecuentes eran la ansiedad (82%}, el pesimismo {13,3%} y la depresión (4, 7%}
y que para el 32% de los expertos consultados el apoyo psicológico constituye la
estrategia de intervención más adecuada para superar estos estados. Imagine que
usted quiere estudiar la situación de los jubilados de su localidad respecto a este
«síndrome», para lo que utiliza una muestra aleatoria de 362 jubilados, con una
edad media de 71,2 años y una desviación típica de 12,5 y de los cuales, el 59,8%
presenta signos de ansiedad, el 35% pesimismo y el 5,2% depresión. Adicionalmen
te le indican que, con los datos del estudio anterior, el intervalo de confianza de la
proporción de jubilados con manifestaciones de depresión, es un valor comprendi
do entre 0,0387 (3,87%) y 0,0553 (5,53%) con un nivel de confianza del 95%. Con
esta información se propone realizar los siguientes análisis:
8.1. Conocer el tamaño aproximado de la muestra que se ha utilizado en el es
tudio anterior.
8.2. Con los datos de su estudio, calcular el intervalo de confianza de la edad
media de los jubilados de su localidad con un nivel de confianza del 95%.
8.3. Calcular el intervalo de confianza para la proporción de jubilados con mani
festaciones psíquicas de ansiedad, con un nivel de confianza del 99%.
29

lOMoARcPSD|1944486
8.4. Contrastar la hipótesis de que la proporción de jubilados de su localidad

con manifestaciones psíquicas de pesimismo es significativamente mayor
que el valor 0,133 facilitado por el GIE en el 200 6.
SOLUCIÓN:
8.1. Para responder a la primera pregunta conocemos los límites superior e inferior
del intervalo de confianza. La diferencia entre ambos límites corresponde a la am
plitud del intervalo y el error máximo de estimación es la mitad de esta diferencia:
f¡ =p-Emax �0 ,0 387 =0 ,047 -fmax

}
/5 =p+Emax �0,0553=0,047+fmax �
/ -I; 0,0 553-0 ,0 387 =
E= 5 = 0 ,00 83
2 2
El error máximo de estimación para obtener el intervalo de confianza de una

proporción, es:
Y despejando el valor de n, obtenemos el tamaño de la muestra con un nivel de

confianza del 95% (Z = 1,96) siendo p = 0,047 la proporción de jubilados con síndro
me de depresión en el estudio anterior que se ha utilizado para obtener el intervalo:
2
z� 1 962
n=p(l-p) T =0,047(1-0,047) ' 2 =24 97 ,7 3�2500 jubilados
Emax 0 ,00 83
8.2. La edad media de los jubilados es una variable cuantitativa medida con escala
de razón y de la que desconocemos su distribución poblacional y su varianza.
En estas condiciones la distribución muestra! de la media es la distribución t
de Student con n - l grados de libertad. Con un nivel de confianza del 95%, el
intervalo de confianza de la edad media de los jubilados de su localidad se ob
tiene sumando y restando a la media de la muestra el error máximo de estima
ción. Al tratarse de una muestra grande (n = 362) la distribución t se aproxima a
la normal por lo que el valor de t se busca en la tabla de la distribución normal
tipificada de puntuaciones Z:
30

lOMoARcPSD|1944486
sn 12,5
fmax=t1_a/· r--;;=1,96· =1,289
/2 -vn-1 -J362-1
69,91
IC =Y±Emax=71,2± 1,289 � ¡
72,49
8.3. La proporción de jubilados con manifestaciones psíquicas de ansiedad es una

variable con distribución binomial. Al tratarse de una muestra grande la distri
bución binomial se aproxima a la normal, por lo que utilizaremos esta distri
bución para determinar el intervalo de confianza que se obtendrá sumando y
restando a la proporción obtenida en la muestra {0,598} el error máximo de
estimación. Con un nivel de confianza del 99% el valor de Z es 2,58:
_ �p(1-p) 0,598(1-0,598) _
fmax _zl a/ -2,58 -0,0665
-12 n 362
0,5315
IC=p±Emax = 0,598±0,0665 � {
0,6645
8.4. Para contrastar la hipótesis de que la proporción de jubilados de su localidad

con manifestaciones psíquicas de pesimismo es significativamente mayor que
el valor 0,133 facilitado por el GIE en el 2006 seguimos los siguientes pasos:
CONDICIONES Y SUPUESTOS: El estudio corresponde a un diseño de una mues

tra de 362 jubilados en la que la variable de estudio «manifestaciones psíquicas de
pesimismo» de los jubilados de su localidad es una variable dicotómica con distri
bución binomial. Como la muestra es grande la distribución binomial se aproxima
a la normal.
HIPÓTESIS: El investigador quiere contrastar que la proporción de jubilados con
manifestaciones psíquicas de pesimismo es mayor de 0,133 que es el valor encon
trado por el GIE para la población general. Plantea, por tanto un contraste unilateral.
H 0 :rc�0,133; H1:n:>0,133
ESTADÍSTICO DE CONTRASTE: Aunque la distribución muestra! de la proporción

es una distribución binomial, al tratarse de una muestra grande, la distribución bi-
31

lOMoARcPSD|1944486
nomial se aproxima a la normal, por lo que utilizaremos el estadístico Z, siendo la

proporción de jubilados con manifestaciones psíquicas de pesimismo encontrado
en la muestra de estudio ha sido p = 0,35.
z- p-no - 0, 35-0, 133

= 12 158
- �"o (ln rro) 0,133 (1-0, 133 )
-
362
REGLA DE DECISIÓN: El estadístico de contraste es un valor muy extremo (Z =

12,158). El valor máximo que podemos consultar en las tablas de curva normal es z
= 3,59, que deja por encima de sí una proporción: p = 0,0002.
3,59
Z = 12,158
Figura 12: Representación gráfica del nivel crítico p en la dis

tribución t de Student.
Por tanto, el valor crítico asociado a este estadístico de contraste es un valor

menor de 0,0002
CONCLUSION: Se rechaza la hipótesis nula y se acepta la hipótesis alternativa.
INTERPRETACIÓN: Se confirma la hipótesis del investigador de que la proporción
de jubilados de su localidad con manifestaciones psíquicas de pesimismo es signi
ficativamente mayor de 0, 133 formulada para la población general en el estudio
anterior (Z = 12, 158; p < 0,0002).
SITUACIÓN 9. El barómetro del CIS de marzo de 2012 realizado en 240 munici

pios de 48 provincias señalaba que el 23,4% estaba en situación de paro y de éstos,
a la pregunta ¿y cree Ud. que es muy probable, bastante, poco o nada probable que
durante los próximos doce meses encuentre Ud. trabajo?, el 22,6% manifestaba que
«bastante probable», frente al 43, 1% que creía que «poco probable» y el 19,2%
32

lOMoARcPSD|1944486
que «nada probable» y el resto «NS/NC». Imagine que usted quiere estudiar si es
tos resultados se reproducen actualmente en su localidad, para lo que realiza una
encuesta sobre una muestra de 100 personas en situación de paro con una edad
media de 39 años y desviación típica de 8,6 años de los cuales 25 le responden
que «bastante probable», 35 responden que «poco probable» y 20 que «nada pro
bable» mientras que el resto «no saben o no contestan». Con esa información se
propone realizar los siguientes análisis:
9.1. Calcular el intervalo de confianza de la varianza de la edad de las personas
en situación de paro de su localidad con un nivel de confianza del 95%.
9.2. Con los datos obtenidos en su muestra y fijando un nivel de confianza del
95%, calcular el intervalo de confianza para la proporción de personas en
situación de paro que considera «poco o nada probable» encontrar trabajo
en los próximos doce meses.
9.3. Contrastar si la proporción de personas en paro que consideran «poco pro
bable» encontrar trabajo en los próximos doce meses en su localidad es
significativamente menor que el valor 0,431 (43,1%) proporcionados en el
estudio del CIS.
9.4. Contrastar si la desviación típica de la edad media de las personas en situa
ción de paro es significativamente mayor de 7,6 años.
SOLUCIÓN:
Los datos de la encuesta del CIS, aparecen resumidos en la siguiente tabla:
Bastante Poco Nada NS/NC

0,226 0,431 0,192 1- (0,226 + 0,431 + 0,192) = 0,151
En la muestra con n = 100, media 39 y desviación típica 8,6, los resultados que
obtiene son:
Bastante Poco Nada NS/NC

0,25 0,35 0,20 0,20
9.1. La distribución muestra! de la varianza es una distribución chi-cuadrado con

n - 1 grados de libertad. Los límites del intervalo de confianza de la varianza
poblacional son:
33

lOMoARcPSD|1944486
n5 2n__
___ n5 2
< e/ < --------'-'n-
X�_ a/ n-l X�¡ n-l
/2, /2,
Con un nivel de confianza del 95% buscamos en la tabla de chi-cuadrado con

100 - 1 = 99 grados de libertad los valores que delimitan una probabilidad central
de 0,95. Al no figurar en la tabla los valores correspondientes a una distribución con
99 gl, utilizamos, por aproximación los que figuran en la fila de 100 gl.
74,22 129,56
Probabilidad
g.l.
0,005 0,010 0,025 1 0,050 0,100 · 0,900 0,950 0,975 1 0,990 0,995
1 0,0000 0,0002 0,0010 0,0039 0,0158 2,7055 3,8415 5,0239 6,6349 7,8794
2 0,0100 0,0201 0,0506 0,1026 0,2107 4,6052 5,9915 7,3778 9,2103 10,5966
3 0,0717 0,1148 0,2158 0,3518 0,5844 6,2514 7,8147 9,3484 11,3449 12,8382
4 0,2070 0,2971 0,4844 0,7107 1,0636 7,7794 9,4877 11,1433 13,2767 14,8603
5 0,4117 0,5543 0,8312 1,1455 1,6103 9,2364 11,0705 12,8325 15,0863 16,7496
6 0,6757 0,8721 1,2373 1,6354 2,2041 10,6446 12,5916 14,4494 16,8119 18,5476
70 43,2752 45,4417 48,7576 51,7393 55,3289 85,5270 90,5312 95,0232 100,4252 104,2149
80 51,1719 53,5401 57,1532 60,3915 64,2778 96,5782 101,8795 106,6286 112,3288 116,3211
90 59,1963 61,7541 65,6466 69,1260 73,2911 107,5650 113,1453 118,1359 124,1163 128,2989
¡ 100 67,3276 70,0649 74,2219 77,9295 82,3581 118,4980 124,3421 129,5612 135,8067 140,1695
Figura 13: Representación de la distribución chi-cuadrado con 100 g/ y los valores críticos para un ni-
ve/ de confianza del 95% y reproducción parcial de la tabla con la localización de estos valores críticos.
Y los límites que se obtienen son:
. 100·8, 62 100·8, 62
/inf = =57 085 /sup = =99,65
129 5 612I 74,2219
Y la varianza poblacional es un valor comprendido entre: 57,085 <a< 99, 6 5

34

lOMoARcPSD|1944486
9.2. La distribución muestra! de la proporción es una distribución binomial que se

aproxima a la normal cuando la muestra es grande. Para calcular el intervalo
de confianza de la proporción de personas en situación de paro que considera
«poco o nada probable» encontrar trabajo en los próximos doce meses a partir
de la información obtenida en una muestra de 100 personas, utilizaremos la
aproximación a la normal.
En la muestra de 100 personas utilizada por el investigador, la proporción de per
sonas que consideran «poco o nada probable» encontrar trabajo es: p = 0,35 + 0,20
= 0,55. El intervalo de confianza, con un nivel de confianza del 95%, es:
IC=p±Emax
0,4525
IC=p±Emax =0,55±0, 0975= ¡
0,6475
9.3. Para contrastar si la proporción de personas en paro que consideran «poco

probable» encontrar trabajo en los próximos doce meses en su localidad es
significativamente menor que el valor 0,431 (43,1%) proporcionados en el es
tudio del CIS, seguiremos los siguientes pasos:
CONDICIONES Y SUPUESTOS. El diseño de investigación de este trabajo utiliza

una muestra en el que la variable de análisis es de naturaleza dicotómica con dis
tribución binomial. Como la muestra es grande (n = 100 personas) la distribución
muestra! de la proporción de persona que consideran «poco probable» encontrar
trabajo se aproxima a la normal.
HIPÓTESIS: El objetivo del investigador es demostrar que la proporción de per
sonas en paro que consideran «poco probable» encontrar trabajo en los próximos
doce meses en su localidad es significativamente menor que el valor 43,1%. Por lo
que plantea un contraste unilateral con las siguientes hipótesis.
H0 :n?:0,431; H1 :n<0,431
ESTADÍSTICO DE CONTRASTE: Por aproximación de la distribución binomial a la

normal, aplicamos el estadístico Z:
35

lOMoARcPSD|1944486
p-no - 0,35-0,431
=-1,636;::::-l,64
- "o ( 1 "o ) - 0,431(1- 0,431)
z-
�
n- 100
REGLA DE DECISIÓN: Como a priori no se establece un nivel de confianza, re

currimos a determinar el nivel crítico p asociado al estadístico de contraste. En la
distribución normal, el nivel crítico p asociado al estadístico de contraste Z = -1,64
es 0,0505.
Z=-1,64
z o 0,01 0,02 0,03 0,05 0,06 0,07 0,08 0,09
-3,50 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002
-3,40 0,0003 0,0003 0,0003 0,0003 0,0003 0,0003 0,0003 0,0003 0,0003 0,0002
-3,30 0,0005 0,0005 0,0005 0,0004 0,0004 0,0004 0,0004 0,0004 0,0004 0,0003
-3,20 0,0007 0,0007 0,0006 0,0006 0,0006 0,0006 0,0006 0,0005 0,0005 0,0005
-1,80 0,0359 0,0351 0,0344 0,0336 0,0329 0,0322 0,0314 0,0307 0,0301 0,0294
-1,70 0,0446 0,0436 0,0427 0,0418 0,0409 0,0401 0,0392 0,0384 0,0375 0,0367
0,0495 0,0485 0,0475 0,0465 0,0455
0,0668 0,0655 0,0643 0,0630 0,0618 0,0606 0,0594 0,0582 0,0571 0,0559
0,0808 0,0793 0,0778 0,0764 0,0749 0,0735 0,0721 0,0708 0,0694 0,0681
-1,30 0,0968 0,0951 0,0934 0,0918 0,0901 0,0885 0,0869 0,0853 0,0838 0,0823
Figura 14: Representación del nivel crítico p para el estadístico Z =-1,64 y reproducción parcial de la
taba/ de la distribución N(O;l} con la localización del nivel crítico para un nivel de significación de 0,05
CONCLUSIÓN. Para este contraste no se ha establecido a priori un nivel de con

fianza, pero como el valor crítico p = 0,0505 es mayor que los niveles de significa
ción de 0,05 y del 0,01 utilizado habitualmente en este tipo de investigaciones, no
tenemos evidencia suficiente para rechazar la hipótesis nula. Por otra parte, en un
contraste unilateral izquierdo el valor crítico que deja por debajo una probabilidad
de 0,05 es -1,64 que representa la máxima diferencia que cabe esperar por simple
36

lOMoARcPSD|1944486
azar entre el valor encontrado en la muestra y el valor formulado en la Ha . Como el

estadístico de contraste, Z = -1,636 no supera este valor, no podemos rechazar la
Ha .
INTERPRETACIÓN: No hay evidencia para demostrar la hipótesis del investigador
(la hipótesis alternativa) de que la proporción de personas en paro que consideran
«poco probable» encontrar trabajo en los próximos doce meses en su localidad es
significativamente menor que el valor 0,431 (43,1%) (Z = -1,64; p > 0,05).
9.4. Para contrastar si la desviación típica de la edad media de las personas en si
tuación de paro es significativamente mayor de 7,6 años, seguimos los mismos
pasos que en los anteriores contrastes.
CONDICIONES Y SUPUESTOS: El diseño de investigación de este trabajo utiliza

una muestra de 100 personas en el que la variable objeto de estudio es la edad de
las personas en situación paro que es una variable cuantitativa que se mide con
escala de razón.
HIPÓTESIS: El investigador quiere contrastar si la desviación típica de la edad me
dia de las personas en situación de paro es significativamente mayor de 7,6 años, o
lo que es lo mismo, si la varianza es significativamente mayor de 57,76 = 7,62, para
lo que formula las siguientes hipótesis:
HIPÓTESIS: Se formula un contraste unilateral ya que el investigador está mar
cando el sentido de la diferencia.
Ha : CT 2 � 57, 76; H1 : a 2 > 57, 76
ESTADÍSTICO DE CONTRASTE:
100 · 8, 62 7396
---=--=128 05
57, 76 57, 76
REGLA DE DECISIÓN: Consultamos en la distribución chi-cuadrado con n - l gra

dos de libertad (100 - 1 = 99 gl) el valor más próximo al estadístico de contraste
obtenido. En la tabla y para 100 gl, los valores más próximos son 124, 34 y 129,56
que dejan por encima probabilidades de 0,05 y 0,025 respectivamente y entre los
cuales se encuentra el estadístico de contraste obtenido 128,05. Por tanto el nivel
crítico pes un valor menor de 0,05 y mayor de 0,025.
37

lOMoARcPSD|1944486
Probabilidad
g.l.
0,005 0,010 0,025 0,050 0,100 0,900 0,950 1 0,975 1 0,990 0,995
1 0,0000 0,0002 0,0010 0,0039 0,0158 2,7055 3,8415 5,0239 6,6349 7,8794
2 0,0100 0,0201 0,0506 0,1026 0,2107 4,6052 5,9915 7,3778 9,2103 10,5966
3 0,0717 0,1148 0,2158 0,3518 0,5844 6,2514 7,8147 9,3484 11,3449 12,8382
4 0,2070 0,2971 0,4844 0,7107 1,0636 7,7794 9,4877 11,1433 13,2767 14,8603
5 0,4117 0,5543 0,8312 1,1455 1,6103 9,2364 11,0705 12,8325 15,0863 16,7496
6 0,6757 0,8721 1,2373 1,6354 2,2041 10,6446 12,5916 14,4494 16,8119 18,5476
70 43,2752 45,4417 48,7576 51,7393 55,3289 85,5270 90,5312 95,0232 100,4252 104,2149
80 51,1719 53,5401 57,1532 60,3915 64,2778 96,5782 101,8795 106,6286 112,3288 116,3211
90 59,1963 61,7541 65,6466 69,1260 73,2911 107,5650 113,1453 118,1359 124,1163 128,2989
100 67,3276 70,0649 74,2219 77,9295 82,3581 118,4980 I
124,3421 129,5612 I 135,8067 140,1695
Figura 15: Representación gráfica del niveJ crítico p en una distribución t con 100 gl reproducción
parcial de la tabla con la localización de los valores más próximos al estadístico de contraste.
CONCLUSIÓN: Para este contraste no se ha establecido un nivel de confianza

previo, pero al ser el nivel crítico p menor de 0,05 podremos rechazar la hipótesis
nula con un nivel de confianza del 95%, pero al ser mayor de 0,025 no podríamos
tomar la misma decisión con un nivel de confianza del 99% ni tampoco del 98%.
INTERPRETACIÓN: Se comprueba la hipótesis del investigador de que la desvia
ción típica de la edad de las personas en situación de paro es mayor de 7,6 años
(o su varianza mayor de 57,76) con un nivel de confianza del 95% (X2 = 128,05; p <
0,05).
SITUACIÓN 10. Un psicólogo que investiga la percepción del tiempo, considera

que dicha habilidad se encuentra deteriorada en los fumadores durante la retirada
38

lOMoARcPSD|1944486
, Soluciones a los ejercicios de los capítulos 1 y 2 •
de nicotina. Para comprobarlo selecci/na una muestra aleatoria de 41 fumadores a

los que somete a una abstinencia de tabaco con una duración de 24 horas, pidién
doles que estimen el tiempo en segundos que había transcurrido en un periodo
que, objetivamente, fue de 45 segundos. La media aritmética de la muestra fue
igual a 51 segundos con una cuasivarianza igual a 164. El psicólogo desea deter
minar si la abstinencia tiene un impacto negativo sobre la percepción temporal,
provocando que el tiempo se sobre-estime y establece un nivel de significación de
0,05 como regla de decisión para su hipótesis.
SOLUCIÓN:
CONDICIONES Y SUPUESTOS. El estudio corresponde a un diseño de una muestra
en el que la variable de estudio «la estimación del tiempo» es una variable conti
nua, medida con escala de razón, de la que se desconoce la forma de su distribución
poblacional y la varianza.
HIPÓTESIS:Dado que el psicólogo desea comprobar si el tiempo se sobre-esti
ma, hemos de plantear un contraste unilateral derecho, cuyas hipótesis son:
H 0 :µ�A5
H1:µ>45
ESTADÍSTICO DE CONTRASTE:Dado que se desconoce la varianza poblacional, el

estadístico de contraste es:
-
T=Y µ 0 =51-45=3
sn-1 2
Fn
m-
sn-l � -2
a------
- Fn -
REGLA DE DECISIÓN:Buscando en las tablas Tde Student con 40 grados de liber
tad y un nivel de confianza del 95%, el valor critico es 1,684 que deja por debajo una
probabilidad de 0,95 correspondiente a un contraste unilateral derecho.
39

lOMoARcPSD|1944486
Probabilidad
g.l.
0,550 0,600 0,650 0,700 0,750 0,800 0,850 0,900 0,975 0,990 0,995
1 0,158 0,325 0,510 0,727 1,000 1,376 1,963 3,078 6,314 12,706 31,821 63,657
2 0,142 0,289 0,445 0,617 0,816 1,061 1,386 1,886 2,920 4,303 6,965 9,925
3 0,137 0,277 0,424 0,584 0,765 0,978 1,250 1,638 2,353 3,182 4,541 5,841
4 0,134 0,271 0,414 0,569 0,741 0,941 1,190 1,533 2,132 2,776 3,747 4,604
28 0,127 0,256 0,389 0,530 0,683 0,855 1,056 1,313 1,701 2,048 2,467 2,763
29 0,127 0,256 0,389 0,530 0,683 0,854 1,055 1,311 1,699 2,045 2,462 2,756
30 0,127 0,256 0,389 0,530 0,683 0,854 1,055 1,310 1,697 2,042 2,457 2,750
40 0,126 0,255 0,388 0,529 0,681 0,851 1,050 1,303 1,684 2,021 2,423 2,704
so 0,126 0,255 0,388 0,528 0,679 0,849 1,047 1,299 1,676 2,009 2,403 2,678
Tabla 9: Reproducción parcial de la tabla de la distribución t de Student.
Por otra parte, en la distribución t de Studente con 40 gl, el valor más alto que
podemos ver en la tabla es 2,704 que deja por encima una probabilidad de 0,005.
CONCLUSIÓN: El estadístico de contraste (T = 3) supera el valor crítico con un
nivel de confianza del 95% (3 > 1,684), pero también el nivel crítico p < 0,005 es
menor que el nivel de significación a= 0,05. Por tanto, rechazamos H0.
Figura 16: Representación gráfica del nivel crítico p para el

estadístico T = 3.
INTERPRETACIÓN: Se confirma la hipótesis del investigador de que la percepción

del tiempo se encuentra deteriorada en los fumadores durante la retirada de nico
tina (T= 3; p < 0,005).
SITUACIÓN 11. Un sociólogo sabe, por investigaciones anteriores, que el suel

do medio de la población de hombres en el trabajo Tes igual a 1500 euros men
suales. Extrae una muestra aleatoria de 160 mujeres que desempeñan el trabajo T,
40

lOMoARcPSD|1944486
observando que el sueldo medio en dicha muestra es igual a 1400 euros mensuales
con una cuasivarianza igual a 64000. Quiere comprobar si el sueldo medio de las
mujeres es inferior al de los hombres. Nivel de confianza 95%.
SOLUCIÓN:
CONDICIONES Y SUPUESTOS: En este trabajo el investigador utiliza una muestra
de 160 mujeres en el que la variable de estudio, el salario mensual, es una variable
cuantitativa que se mide con escala de razón de la que se desconoce la forma de
su distribución poblacional y su varianza. (Observe el estudiante que siendo esta
situación muy similar a la presentada en la situación 1, las condiciones y supuestos
son diferentes, lo que afecta a la elección del estadístico de contraste que hay que
aplicar)
HIPÓTESIS: Como el investigador quiere comprobar si el sueldo medio de las
mujeres es inferior a 1500 euros, plantea un contraste unilateral izquierdo
Ha: µ2:: 1.500 H 1 : µ< 1.500
ESTADÍSTICO DE CONTRASTE: Bajo las condiciones y supuestos expuestos, la dis

tribución muestra! de la media es una distribución t de Student con n - l grados de
libertad y el estadístico de contraste es:
Y- µa 1400-1500 --5
T----
- )s;_ 1 -
)64000
160
n
La distribución t de Student se aproxima a la normal a medida que el tamaño de

la muestra aumenta. En la tabla de la distribución t disponemos de información has
ta 100 gl. Para valores mayores, las puntuaciones t y Z son prácticamente idénticas
por lo que buscaríamos tanto el valor crítico como el nivel crítico p en la distribución
normal tipificada de puntuaciones Z. (Ver el ejemplo de la situación 1).
CONCLUSIÓN: Al estadístico, Z = -5, le corresponde un nivel crítico p < 0,0002
por lo que se rechazaría la H a . Por otra parte, el estadístico Z = -5, supera los valores
críticos correspondientes tanto a un nivel de confianza del 95% como del 99% que
nos lleva a la misma conclusión.
41

lOMoARcPSD|1944486
Figura 17:: Representación del nivel crítico p en una distribución t con

159 gl para el estadístico t = -5.
INTERPRETACIÓN: Con un nivel de confianza mayor del 99,98% se confirma que

el sueldo medio de las mujeres en el trabajo Tes significativamente menor de 1.500
euros, (T = -5; p < 0,0002) que es el que corresponde a la población de hombres
para el mismo trabajo.
SITUACIÓN 12. Una preocupación creciente de los empresarios es el tiempo

que los empleados dedican a actividades como navegar por Internet o enviar e-mai
ls a los amigos durante las horas de trabajo. Para disponer de esta información,
selecciona una muestra aleatoria de 26 empleados, observando que el promedio
de tiempo dedicado a estas actividades durante una jornada laboral semanal fue de
126 minutos y una desviación típica de 15 minutos. Asumiendo que esta variable
se distribuye normalmente en la población y con un nivel de confianza 95% desea
conocer el intervalo de confianza del tiempo medio que dedican los empleados
a estas actividades. Además desea comprobar si la cantidad promedio de tiempo
perdido por sus empleados durante una jornada semanal de 40 horas es mayor de
120 minutos que es el valor obtenido el año anterior.
SOLUCIÓN:
El intervalo se obtiene sumando y restando a la media de la muestra el error
máximo de estimación:
IC=Y±Emax
42

lOMoARcPSD|1944486
El error máximo de estimación se obtiene bien a partir de la cuasi-desviación

típica de la muestra, Sn - l, o de la desviación típica, Sn:
-s n - 1 =t sn
Emax =t a- =t n-1·1-ª e n-1,. 0 , 975 --ü r--;-
n-l·l_ a/ y
, /2 ,� 2 .....;n .....;n-11
Como conocemos la desviación típica de la muestra, utilizamos la segunda ex

presión para obtener el error máximo de estimación:
15
sn =2,060 r.:::;:::--:;
Emax =t 1·1 a/CT-y =tn-1·0 975 e---;; =6,18
n-, - 12 ' ' .....;n-l .....;26-1
El intervalo de confianza con un nivel de confianza del 95% es:
- 1 32,18
IC=Y±Emax =126±6,18 � {
119, 8 2
Que indica que el tiempo medio que los empleados dedican a otras actividades
es un valor comprendido entre 119,82 y 132,18 minutos de su jornada laboral se
manal con un nivel de confianza del 95%.
2,060
Linf = 119,82 --------- Lsup = 132,18
Figura 18: Representación gráfica del intervalo de confianza de la media.
Para el contraste de hipótesis seguiremos los siguientes pasos:

CONDICIONES Y SUPUESTOS: El investigador diseña una investigación en la que
utiliza una muestra pequeña (n < 30). La variable de estudio «tiempo» dedicado a
otras actividades es de naturaleza cuantitativa y medida con escala de razón. Aun
que la muestra es pequeña se aplicará un contraste paramétrico ya que variable se
distribuye normalmente en la población lo que asegura que la distribución muestra!
de la media sea una distribución t de Student.
43

lOMoARcPSD|1944486
HIPÓTESIS: Se formula un contraste unilateral en la que el investigador quiere

comprobar que el tiempo medio de dedicado a otras actividades es mayor de 120
minutos.
H1 : µ > 120
ESTADÍSTICO DE CONTRASTE: Aunque la muestra es pequeña, la distribución

muestra! de la media es la distribución t de Student porque proviene de una pobla
ción con distribución normal.
Y - µ 0 126-120 =-=
T=--= 6 2
sn 15 3
�n-1 �26-1
CONCLUSIÓN: Con un nivel de confianza del 95% en un contraste unilateral dere

cho, el valor crítico (l, 708} hay que buscarlo en la distribución t de Student con gra
dos de libertad. Como el estadístico de contraste supera esta máxima diferencia que
cabe esperar por simple azar, rechazamos la H0 con un nivel de confianza del 95%.
0,05
0,025
0,025 < p < 0,05
Probabilidad
g.l.
0,550 0,600 0,650 0,700 0,750 0,800 0,850 0,900 0,975 0,990 0,995
1 0,158 0,325 0,510 0,727 1,000 1,376 1,963 3,078 6,314 12,706 31,821 63,657
2 0,142 0,289 0,445 0,617 0,816 1,061 1,386 1,886 2,920 4,303 6,965 9,925
3 0,137 0,277 0,424 0,584 0,765 0,978 1,250 1,638 2,353 3,182 4,541 5,841
4 0,134 0,271 0,414 0,569 0,741 0,941 1,190 1,533 2,132 2,776 3,747 4,604
23 0,127 0,256 0,390 0,532 0,685 0,858 1,060 1,319 1,714 2,069 2,500 2,807
24 0,127 0,256 0,390 0,531 0,685 0,857 1,059 1,318 1,711 2,064 2,492 2,797
25 0,127 0,256 0,390 0,531 0,684 0,856 1,058 1,316 1,708 2,060 2,485 2,787
26 0,127 0,256 0,390 0,531 0,684 0,856 1,058 1,315 1,706 2,056 2,479 2,779
27 0,127 0,256 0,389 0,531 0,684 0,855 1,057 1,314 1,703 2,052 2,473 2,771
Tabla 10: Reproducción parcial de la tabla de la distribución t y representación del valor crítico y el
nivel crítico p para el estadístico de contraste T = 2.
44

lOMoARcPSD|1944486
Por otra parte, el estadístico de contraste T = 2 se encuentra entre los valores

1,708 y 2,060 que dejan por encima probabilidades de 0,05 y 0,025, respectivamen
te. Por tanto, el valor crítico asociado al estadístico de contraste T = 2 es p < 0,05
pero p > 0,025. De forma que no podríamos rechazar la Ho con un nivel de confianza
del 99%
INTERPRETACIÓN. El investigador ha podido comprobar que, con un nivel de
confianza del 95% el tiempo que dedican los empleados a actividades como nave
gar por internet o enviar e-mail privados es superior a los 120 minutos durante una
jornada laboral semanal. Además el tiempo medio que dedican los empleados a
esta actividad es un valor comprendido entre 119,82 y 132,18 minutos a la semana.
SITUACIÓN 13. Chaves y Noguera (2008) estudiaron la inserción laboral de

los titulados en Psicología de cinco promociones consecutivas (desde 2002 hasta
2006). Entre aquellos sujetos que estaban trabajando 6 meses después de finalizar
sus estudios, el 81% son mujeres, el 31% accedieron al trabajo mediante contactos
personales y el 54% trabajaban a jornada completa. Si el número de titulados que
trabajaban 6 meses después de finalizar sus estudios es igual a 400, determine:
13.1. El intervalo de confianza para la proporción de mujeres tituladas en psico
logía que estaban trabajando 6 meses después de finalizar sus estudios,
con un nivel de confianza del 99%.
13.2. Con un nivel de confianza del 99%, ¿cuál debería ser el tamaño de la mues
tra para estimar con un error máximo de estimación del 2% la proporción
de titulados que accedieron al trabajo mediante contactos personales?
13.3. Si sospecha que la proporción de titulados que trabajan a jornada comple
ta es distinta de los que trabajan a media jornada, ¿cuál sería su conclu
sión?
SOLUCIÓN:
13.1. A partir de una muestra de 400 titulados en psicología, el intervalo de confian
za de la proporción de mujeres tituladas en Psicología que estaban trabajando
6 meses después de finalizar sus estudios, es:
L¡ nf =p-Emax =0,81-0,05061=0,759
Ls up =p+Emax =0,81-0,05061=0,861
45

lOMoARcPSD|1944486
13.2. Si el error máxima de estimación es del 2% (fmax = 0,02)
1 0, 31 ·(1 -0, 31)

Emax =Z1- a/ �p-( -p) -tO ' 02=2 ' 58
/2 n n
Entonces, despejando el valor den, el tamaño de la muestra debería ser:
2
z� 2 ' 58 2
n=p(l-p)--+= 0,31(1- 0 ,31)-- =3560 titulados
0, 02
2
E
13.3. Para el contraste de hipótesis de que la proporción de titulados que trabajan

a jornada completa es distinta de los que trabajan a media jornada, seguimos
los siguientes pasos:
CONDICIONES Y SUPUESTOS: Se utiliza la información proporcionada por una

muestra. La variable de estudio es la «proporción de titulados que trabajan a jorna
da completa» que es de naturaleza dicotómica y con distribución binomial que se
aproxima a la normal cuando la muestra es grande (n > 25).
HIPÓTESIS: La hipótesis nula establece que no existen diferencias significativas
entre la proporción de titulados que trabajan a jornada completa respecto a los que
trabajan a media jornada. Si no existen diferencias, entonces estas proporciones
son iguales a 0,50 (50 %).
H0:n= 0 , 50 ;
ESTADÍSTICO DE CONTRASTE: Se utiliza el estadístico Z por aproximación de la

distribución binomial a la normal.
0 , 54- 0 , 50
Z-
- P-n 0 _
=1 ' 6
0 , 50 (1- 0 , 50 )
-
400
REGLA DE DECISIÓN: Los valores críticos para un contraste bilateral con un nivel
de confianza del 95% son -1,96 y +1,96 y con un nivel de confianza del 99% son
-2,58 y +2,5 8. Por otra parte, en la distribución normal la puntuación típica Z = 1,6
deja por debajo una probabilidad de 0,9452 y por encima 1- 0,95 42 = 0,0548, con
lo que el nivel crítico p para un contraste bilateral es 0,05 48 + 0,0548 = 0,1096.
46

lOMoARcPSD|1944486
95%
-1,96 1,96
-2,58 99% 2,58
z 0,01 0,02 0,03 0,04 0,05 0,09
0,00 0,5000 0,5040 0,5080 0,5120 0,5160 0,5199 0,5239 0,5279 0,5319 0,5359
0,10 0,5398 0,5438 0,5478 0,5517 0,5557 0,5596 0,5636 0,5675 0,5714 0,5753
1,40 0,9192 0,9207 0,9222 0,9236 0,9251 0,9265 0,9279 0,9292 0,9306 0,9319
1,50 0,9332 0,9345 0,9357 0,9370 0,9382 0,9394 0,9406 0,9418 0,9429 0,9441
0,9463 0,9474 0,9484 0,9495 0,9505 0,9515 0,9525 0,9535 0,9545
0,9554 0,9564 0,9573 0,9582 0,9591 0,9599 0,9608 0,9616 0,9625 0,9633
1,80 0,9641 0,9649 0,9656 0,9664 0,9671 0,9678 0,9686 0,9693 0,9699 0,9706
1,90 0,9713 0,9719 0,9726 0,9732 0,9738 0,9744 0,9756 0,9761 0,9767
2,00 0,9772 0,9778 0,9783 0,9788 0,9793 0,9798 0,9808 0,9812 0,9817
2,10 0,9821 0,9826 0,9830 0,9834 0,9838 0,9842 0,9846 0,9850 0,9854 0,9857
2,20 0,9861 0,9864 0,9868 0,9871 0,9875 0,9878 0,9881 0,9884 0,9887 0,9890
2,30 0,9893 0,9896 0,9898 0,9901 0,9904 0,9906 0,9909 0,9911 0,9913 0,9916
2,40 0,9918 0,9920 0,9922 0,9925 0,9927 0,9929 0,9931 0,9932 0,9934 0,9936
2,50 0,9938 0,9940 0,9941 0,9943 0,9945 0,9946 0,9948 0,9949 0,9951 0,9952
2,60 0,9953 0,9955 0,9956 0,9957 0,9959 0,9960 0,9961 0,9962 0,9963 0,9964
Tabla 11: Tabla de la distribución normal para localizar los valores críticos y nivel crítico p para un
estadístico Z = 1,6 en un contraste bilateral y representación gráfica de estos valores.
CONCLUSIÓN: Como el nivel critíco pes mayor que los niveles de significación
del 0,05 y del 0,01, no tenemos evidencia suficiente para rechazar la hipótesis nula.
A la misma conclusión se llegaría comparando el estadístico de contraste con los va
lores críticos ya que el estadístico de contraste no supera ninguno de esos valores.
INTERPRETACIÓN: No hay evidencia suficiente para afirmar que la proporción de
titulados que trabajan a jornada completa es distinta de los que trabajan a media
jornada.
SITUACIÓN 14. «PIAAC {Programme far lnternational Assessment of Adult

Ski/Is) es un estudio internacional que mide las destrezas cognitivas básicas que per-
47

lOMoARcPSD|1944486
mite a las personas adultas participar en la vida social y económica del siglo XXI
y también las habilidades laborales básicas que exige su puesto de trabajo. En su
último estudio realizado en el año 2013 comparando los resultados de 23 países de
la OCDE muestra que los adultos españoles de entre 16 y 65 obtuvieron en matemá
ticas el último puesto, con una media de 246 puntos, 23 por debajo de la media de
la OCOE y 22 por debajo de la media de la UE. Entre sus conclusiones destaca que
los jóvenes españoles puntúan mucho más alto que los mayores y están más cerca
de la media de la OCDE y que la tasa de paro de los españoles con competencias
matemáticas en los niveles inferiores es tres veces superior de la que están en los
niveles superiores». Imagine que usted aplica la misma prueba a una muestra re
presentativa de 121 jóvenes de su localidad con edades comprendidas entre 16 y
34 años obteniendo una media de 252 puntos con una desviación típica insesgada
de 77 puntos, siendo la proporción de jóvenes desempleados del 28,5%. Y estable
ciendo un nivel de confianza del 95%, desea conocer:
14.1. El intervalo de confianza de la media de la población de los jóvenes espa
ñoles en competencias matemáticas.
14.2. A partir de los datos de su estudio, y con un nivel de confianza del 95%,
¿entre que valores estimaría la proporción jóvenes desempleados en su
localidad?
14.3. El intervalo de confianza de la varianza de las puntuaciones en competen
cias matemáticas de la población de jóvenes españoles de su localidad es
14.4. Si hubiéramos querido estimar la varianza poblacional con un error máxi
mo de estimación que no supere los 200 puntos, ¿cuál debería haber sido,
aproximadamente, el tamaño de la muestra seleccionada?
14.5. Si su interés es comprobar que la media en la prueba de competencias ma
temáticas de los jóvenes españoles de su localidad es significativamente
inferior que la media general de los adultos de la UE, ¿cuál sería su conclu
sión?
SOLUCIÓN:
De los datos del enunciado extraemos la siguiente tabla resumen de los datos:
48

lOMoARcPSD|1944486
España OCDE Sus datos

Media 246 269 268 252
Cuasi-desvTipica 77
Tamaño muestra 121
14.1. Nos encontramos ante un diseño de una muestra en la que la variable de es
tudio: «las competencias matemáticas» es de tipo cuantitativo y medida con
escala de intervalo. Se desconoce la forma de su distribución en la población y
su varianza por lo que la distribución muestra! de la media es la t de Student.
Para obtener el intervalo de confianza de la media de la prueba en la población
de los jóvenes españoles en competencias matemáticas con un nivel de confianza
del 95%, calculamos primero el error máximo de estimación.
sn -l 1,96 �77
=
= = 1,96·7 = 13,72
Emax ti-al 1
12 -vn -v121
Y los límites del intervalo son:
L¡ nf =Y-Emax =252-13,72=238,28
Lsup =Y+ Emax =252+ 13,72=26 5,72
14.2. La proporción es una variable dicotómica con distribución binomial. Como la

muestra es grande esta distribución se aproxima a la normal. Para obtener el
intervalo de confianza de la proporción, calculamos primero el error máximo
de estimación:
O 285(1-0 285)
Emaz =Z1 _5'i�� =1, 96 '
� ' = 1, 96 ·0,041=0,08
121
Y los límites del intervalo son:
L¡ nf =p-Em ax =0,285-0,08=0,205
Ls u p = P + Emax = 0,285 + 0,08=0,36 5
49

lOMoARcPSD|1944486
14.3. La varianza de una variable cuantitativa se distribuye según chi-cuadrado con

n - 1 grados de libertad. Cuando la muestra es grande, como en este caso, la
distribución chi-cuadrado se aproxima a la normal. Para obtener el intervalo de
confianza de la varianza calculamos primero el error máximo de estimación:
2�
fmax =zl_a/5 - = 1, 96 · 772�
- =1494,03
12 n 121
Y el intervalo es:
4434,97
IC=S 2 ±Emax =772 ±1494,03= {
7423,03
14.4. Si queremos estimar la varianza poblacional con un error máximo de estima

ción que no supere los 200 puntos, el tamaño de la muestra, con un nivel de
confianza del 95%, debería ser:
2
21-�
1 962
n=25 4 --2 =2·774 ·-'--�6752
2
fmax 2002
14.5. Para contrastar su hipótesis de que la media de los jóvenes españoles es signi
ficativamente inferior que la media general de los adultos de la UE, partimos
de las mismas condiciones ya expuestos en el punto 14.1.
CONDICIONES Y SUPUESTOS: Nos encontramos ante un diseño de una muestra en

la que la variable de estudio: «las competencias matemáticas» es de tipo cuantitativo
y medida con escala de intervalo. Se desconoce la forma de su distribución en la po
blación y su varianza por lo que la distribución muestra! de la media es la t de Student.
HIPÓTESIS: Se plantea un contraste unilateral con su hipótesis dirigida a encon
trar diferencias significativas entre el valor teórico formulado como parámetro po
blacional (268} y el valor obtenido en su investigación:
H1 : µ<268
ESTADÍSTICO DE CONTRASTE: Se aplica el estadístico Tporque se trabaja con una

muestra grande que proviene de una población de la que se desconoce la forma de
la distribución y su varianza.
50

lOMoARcPSD|1944486
REGLA DE DECISIÓN: En una distribución t con 121- 1 = 120 gl, el valor de tes
prácticamente igual al de Z de la distribución N(O;l). Y para un contraste unilateral
izquierdo esta probabilidad el nivel crítico p asociado al estadístico de contraste
obter,ido es p = 0,0113.
1 p = 0,01131
"'-
Z = -2,28
Figura 19: Representación gráfica de la distribución t, el esta

dístico de contraste y su nivel crítico p.
CONCLUSION: Como esta probabilidad es menor que el nivel de significación

establecido en el 0,05 (nivel de confianza del 95%) rechazamos la H0 .
INTERPRETACIÓN: Con un nivel de confianza del 95%, las competencias mate
máticas de los jóvenes españoles de su localidad significativamente inferior que la
media general de los adultos de la UE.
SITUACIÓN 15. Uno de los mejores indicadores de la salud psicológica es el au

to-concepto (Esnaola, Goñi y Madariaga 2008) que hace referencia a la idea u opi
nión que cada persona tiene de sí misma. En una investigación realizada por Esnaola
y Revuelta (2009) con una muestra jóvenes de entre 12 y 24 años de la Comunidad
Autónoma Cántabra y País Vasco se analiza la relación entre la actividad física y el
auto-concepto. Por sus respuestas a un cuestionario sobre prácticas físico-deporti
vas el 31% fueron clasificados como inactivos y el resto como activos. En la escala
de auto-concepto físico, la media y desviación típica insesgada de los inactivos fue
de 22,41 y 4,1 respectivamente y en el grupo de activos, de 23,7 y 4,83.
51

lOMoARcPSD|1944486
15.1. Si con un nivel de confianza del 95% el error máximo para estimar la pro
porción poblacional de jóvenes activos vale 0,0523 ¿Cuál era el tamaño de
la muestra utilizada en el trabajo de Esnaola y Revuelta?:
Suponiendo que el tamaño de la muestra fuera de 132 jóvenes, determine:
15.2. El intervalo de confianza de la varianza poblacional en la escala de au
to-concepto físico para los jóvenes activos con edades comprendidas entre
12 y 24 años, con un nivel de confianza del 95%.
15.3. Si el investigador quisiera comprobar que la varianza poblacional de la es
cala de auto-concepto físico para los sujetos inactivos es significativamen
te distinta de 25 puntos, ¿Cuál sería su conclusión?
SOLUCIÓN:
Partimos de los siguientes datos resumidos proporcionados en el enunciado:
Escala autoconcepto
Media = 23,7
ACTIVOS (69%)
Desv. Tip. lnses = 4,83
Media= 22,41
INACTIVOS (31%)
Desv. Tip. lnses = 4,1
15.1. El tamaño de la muestra necesario con un error máximo de estimación fijado

en 0,0523 es:
0,69·0,31
0,0523 = 1,96
Y despejando el valor den:
2 0,69·0,31
n=l,96 =300,41�300 jovenes
0,05232
15.2. Los jóvenes activos son el 69% de la muestra compuesta por 132 jóvenes. Por
tanto, el grupo de jóvenes activos está formado por n = 0,69 x 132 = 91,08 =
91 jóvenes que obtienen en la escala una desviación típica insesgada de 4,83.
Los límites del intervalo de confianza son:
52

lOMoARcPSD|1944486
(n-1)5;_ 1 (n-1)5;_ 1 (91-1)·4,8i (91-1)·4,832

2 -----� 0 2 � -----
2 �0 � 2
118,1359 65,6466
Xl--;n-l
a. Xa.-;n-l
2 2
La varianza poblacional es un valor comprendido entre: 11,77 � 0 2 � 31,98 con

un nivel de confianza del 95%.
15.3. Para el contraste de esta hipótesis seguiremos los siguientes pasos:
CONDICIONES Y SUPUESTOS: La escala de autoconcepto es una variable medida

con escala de intervalo aplicada a UNA muestra de jóvenes inactivos que provienen
de una población con distribución desconocida. Como la muestra es grande (n > 30)
podemos aplicar un contraste parámetrico.
HIPÓTESIS: En la muestra se obtiene una varianza de 4,12 = 16,81. El investigador
quiere comprobar que la varianza poblacional de la escala de auto-concepto físico
para los sujetos inactivos es significativamente distinta de 25 puntos. Como no se
marca la dirección (mayor o menor) de la diferencia se formula un contraste bilate
ral con las siguientes hipótesis:
H0: 0 2 =25;
ESTADÍSTICO DE CONTRASTE: Los sujetos activos son 41 que corresponden al

31% de la muestra de 132 jóvenes. Para estos 41 jóvenes inactivos la desviación
típica insesgada en la escala es de 4,1 y el estadístico de contraste es:
2 (n-1)5;_ 1 (41-1)4,12
X = = =26,9
CT� 25
REGLA DE DECISIÓN: La tabla de la distribución chi-cuadrado proporciona pro

babilidades por debajo de un valor concreto de la distribución chi-cuadrado. En la
tabla de la distribución chi-cuadrado con 40 gl figuran los siguientes valores: 24,433
que deja por debajo una probabilidad de 0,025 y 59,3417 que deja por debajo una
probabilidad de 0,975. Estos dos valores corresponden a los valores críticos de una
distribución chi-cuadrado con 40 gl para un contraste bilateral con un nivel de con
fianza del 95%.
Con un nivel de confianza del 99% los valores críticos son 20,7 que deja por
debajo una probabilidad de 0,005 y 66,766 que deja por debajo una probabilidad
53

lOMoARcPSD|1944486
de 0,995. Por tanto, ambos valores representan los valores críticos con un nivel de
confianza del 99%.
Probabilidad
g.l.
0,010 0,025 0,050 0,100 0,900 0,950 0,975 0,990
1 0,0000 0,0002 0,0010 0,0039 0,0158 2,7055 3,8415 5,0239 6,6349 7,8794
2 0,0100 0,0201 0,0506 0,1026 0,2107 4,6052 5,9915 7,3778 9,2103 10,5966
3 0,0717 0,1148 0,2158 0,3518 0,5844 6,2514 7,8147 9,3484 11,3449 12,8382
29 13,1211 14,2565 16,0471 17,7084 19,7677 39,0875 42,5570 45,7223 49,5879 52,3356
30 14,9535 16,7908 18,4927 20,5992 40,2560 43,7730 46,9792 50,8922
40 22,1643 24,4330 26,5093 29,0505 51,8051 55,7585 59,3417 63,6907
50 27,9907 29,7067 32,3574 34,7643 37,6886 63,1671 67,5048 71,4202 76,1539 79,4900
60 35,5345 37,4849 40,4817 43,1880 46,4589 74,3970 79,0819 83,2977 88,3794 91,9517
Tabla 12: Reproducción parcial de la tabla de la distribución chi-cuadrado.
Por otra parte, para una distribución con 40 gl el valor que aparece en la tabla
más próximo al estadístico de contraste obtenido es 26,5093 que deja por debajo
una probabilidad de 0,05. Por tanto, el nivel crítico p para un contraste bilateral es
p > 0,05.
CONCLUSIÓN: Como el estadístico de contraste no supera los valores críticos (ni
por la derecha ni por la izquierda), no hay evidencia suficiente para rechazar la H0
con un nivel de confianza del 95% ni del 99%. A la misma conclusión llegamos al
comparar el nivel crítico p con el nivel de significación.
Figura 20: Representación gráfica de la distribución chi-cuadrado con el

estadístico de contraste y los valores críticos para los niveles de confianza
del 95% y 99%.
54

lOMoARcPSD|1944486
INTERPRETACIÓN: La varianza poblacional de la escala de auto-concepto físico

para los sujetos inactivos no difiere de forma significativa de los 25 puntos, con un
nivel de confianza del 95%.
SITUACIÓN 16 (amor de grillo). El artículo « We/1-Fed crickets bow/ maidens

oven> (Nature Science Update, 1999} informó que los grillos de campo hembras
son atraídos por machos que tienen una frecuencia de canto (chirridos) elevada e
hipotetizaron que la tasa a la que los grillos macho cantan está relacionada con su
estado nutricional. La tasa usual del canto del grillo de campo macho es de 60 chi
rridos por segundo. Para investigar si la tasa de canto está relacionada con el estado
nutricional, los investigadores alimentaron a grillos machos con una dieta alta en
proteínas durante 8 días, después de lo cual se midió la tasa del canto. Esta tasa de
canto en grillos macho con dieta alta en proteínas fue de 109. El tamaño muestra! y
la desviación típica fueron den = 32 y Sn = 40. Utilice un a= 0,01.
SOLUCIÓN:
Se trata de un estudio con un único grupo de 32 grillos cuya tasa o frecuencia de
canto se mide Antes y Después de implementar una dieta alta en proteínas, aunque
solo nos proporcionan los datos del post-test {109 Hz} indicándonos indirectamente
que la tasa base de grillos no tratados (pre-test) es de 60 Hz. Cada grillo se mide
dos veces: antes de alimentarlo con una dieta alta en proteínas y otra después de
alimentarlo con esta dieta. Luego la tasa de canto de todos y cada uno de los grillos
se ha medido dos veces. Esto significa que las puntuaciones de antes y de después
están relacionadas. Es un diseño de dos grupos con medidas dependientes (diseño
pre-post). No obstante, no podemos utilizar el contraste de dos muestras relaciona
das para la media porque no se proporcionan los datos suficientes (no tenemos la
media de las diferencias y su varianza). Pero podemos observar que tenemos datos
suficientes para realizar un contraste de una media con varianza poblacional desco
nocida asumiendo como hipótesis nula que la media es 60 Hz.
Los datos de que disponemos en el enunciado son:
• Tratamiento: dieta alta en proteínas durante 8 días.
• Número de grillos= 32; Desviación típica muestra! pos-tratamiento= Sn = 40.
Tasa de canto después del tratamiento 109 chirridos por segundo (es decir,
109 Hz}.
• Tasa usual de canto = 60. Podemos considerar que esta es la tasa de canto
previa al tratamiento. Es decir, observamos que el estudio nos indica que se
55

lOMoARcPSD|1944486
ha pasado de 60 Hz (línea base supuesta a priori) a 109 Hz por efecto del

tratamiento. ¿Será significativo este cambio debido al tratamiento o puede
considerarse un efecto del azar?
• Variable dependiente: chirridos por segundo (Hz). Debido a que esta variable
admite un valor de O como ausencia absoluta de canto (silencio}, es una va
riable de razón.
CONDICIONES Y SUPUESTOS:
• La variable dependiente se encuentra medida en una escala de razón.
• No nos indican en el enunciado que la distribución de la variable dependiente
sea normal en la población pero se cumple el supuesto de que n > 30.
• No conocemos la varianza poblacional.
HIPÓTESIS: Debemos plantear una hipótesis unilateral derecha ya que no resulta
lógico en el marco del estudio plantear que incrementar el suplementos de proteí
nas pueda disminuir la tasa de canto.
H0 :µ�60
H1 :µ>60
ESTADÍSTICO DE CONTRASTE: Aplicaremos la prueba t de Student.
µ 109-60 =�=
T = Y- 0 = 6 82
sn 40 7,18 '
-Jn-1 -)32-1
REGLA DE DECISIÓN: Al ser un-contraste unilateral derecho, solo existe un valor

crítico. Debemos buscar en la Tabla de la T con 32 -1 = 31 grados de libertad al 99%
de confianza. Utilizamos 30 grados de libertad porque es el más cercano a 31. El
valor obtenido es t = 2,457.
56

lOMoARcPSD|1944486
Probabilidad
g.l.
0,550 0,600 0,650 0,700 0,750 0,800 0,850 0,900 0,950 0,975 0,990 0,995
1 0,158 0,325 0,510 0,727 1,000 1,376 1,963 3,078 6,314 12,706 31, 21 63,657
2 0,142 0,289 0,445 0,617 0,816 1,061 1,386 1,886 2,920 4,303 6, 65 9,925
3 0,137 0,277 0,424 0,584 0,765 0,978 1,250 1,638 2,353 3,182 5,841
4 0,134 0,271 0,414 0,569 0,741 0,941 1,190 1,533 2,132 2,776 4,604
28 0,127 0,256 0,389 0,530 0,683 0,855 1,056 1,313 1,701 2,048 2, 67 2,763
29 0,127 0,256 0,389 0,530 0,683 0,854 1,055 1,311 1,699 2,045 2, 62 2,756
30 9,liD 9,256 9,389 9,539 9,683 9,851 1,955 1,319 1,697 2,912�� 2,750
40 0,126 0,255 0,388 0,529 0,681 0,851 1,050 1,303 1,684 2,021 2,423 2,704
50 0,126 0,255 0,388 0,528 0,679 0,849 1,047 1,299 1,676 2,009 2,403 2,678
60 0,126 0,254 0,387 0,527 0,679 0,848 1,045 1,296 1,671 2,000 2,390 2,660
70 0,126 0,254 0,387 0,527 0,678 0,847 1,044 1,294 1,667 1,994 2,381 2,648
80 0,126 0,254 0,387 0,526 0,678 0,846 1,043 1,292 1,664 1,990 2,374 2,639
CONCLUSIÓN: Como el estadístico de contraste obtenido (T= 6,82) es mayor que

el valor crítico (t = 2,457), es decir, 6,82 se encuentra en la región de rechazo de Ha .
Por consiguiente, rechazamos Ha .
1 NTERPRETACIÓN: Debemos concluir que el tratamiento alimentario ha sido
efectivo en el incremento de la frecuencia del chirrido de los grillos macho (T =
6,82; p < 0,005).
57

lOMoARcPSD|1944486
Soluciones a los ejercicios

de los capítulos 3 y 4
SITUACIÓN l. Un investigador pretende comprobar si los trabajadores que lle

van menos de cinco años en una empresa concreta (Grupo 1) poseen mayores as
piraciones profesionales que las personas que llevan cinco o más años (Grupo 2).
Para ello se entrevista a 32 personas que llevan menos de cinco años y a otras 32
personas que llevan cinco o más años, todas ellas elegidas al azar. Los resultados
mostraron que dentro del primer grupo se identificó a 18 personas con altas aspira
ciones, mientras que en el segundo grupo se identificaron a 14 personas con altas
aspiraciones. Nivel de confianza 95%.
SOLUCIÓN:
CONDICIONES Y SUPUESTOS: El investigador diseña una investigación con dos
muestras independientes seleccionadas al azar. La variable independiente es el
tiempo que unos profesionales llevan trabajando y que toma dos valores: menos de
cinco años trabajando-en la empresa y cinco o más años trabajando en la empresa.
La variable dependiente es el nivel de aspiraciones profesionales que toma también
dos valores: alto o bajo, por lo que se hará un análisis de diferencias de proporcio
nes para dos muestras independientes.
HIPÓTESIS: El investigador quiere comprobar si los profesionales que llevan me
nos de cinco años en una empresa (Grupo 1) poseen mayores aspiraciones que las
personas que llevan cinco o más años (Grupo 2). Como el investigador está mar
cando la dirección de la diferencia (el grupo 1 tiene mayores aspiraciones que el
grupo 2) formula un contraste unilateral derecho con las siguientes hipótesis nula
y alternativa:
61

lOMoARcPSD|1944486
Ho : n1 :s; n2
H1 : TC1 > TC2
O bien:
H o : TC1 -TC2 :S 0
H1 : TC1 - TC2 > 0
ESTADÍSTICO DE CONTRASTE: La distribución muestra! de la diferencia de pro

porciones de dos muestras independientes es una distribución binomial. Como las
muestras son grandes, la distribución binomial se aproxima a la normal y el estadís
tico de contraste es una puntuación Z.
siendo p = _n1_P_1 _+_n_2_P_2

n1 +n2
Primero calculamos P
18 14
32-+32-
p = 32 32 = 18 + 14 =o 5
32+32 32+32 '
Finalmente:
18 14
===3=2=3=2==== 0,5625-0,4375 =
--,= 1
1 1 0,125
o,50(1-0,50) ( -+- J
32 32
REGLA DE DECISIÓN: En la tabla de la distribución normal tipificada de puntua

ciones Z buscamos el valor crítico para un nivel de confianza del 95% para un con
traste unilateral derecho y es 1,64.
CONCLUSIÓN: Como el estadístico de contraste (Z = 1) no alcanza la máxima
diferencia que cabe esperar por simple azar (el valor crítico 1,64 para un nivel de
confianza del 95%), concluimos que no hay evidencia suficiente para rechazar la
hipótesis nula.
62

lOMoARcPSD|1944486
Por otra parte, la puntuación Z = 1 deja por encima de sí una probabilidad de

0,1587 (el nivel crítico p) que es mayor que el nivel de significación «alfa» de 0,05
correspondiente al nivel de confianza del 95% establecido por el investigador (o lo
que es lo mismo( el área correspondiente al valor crítico 1,64). Por tanto, no hay
evidencias suficientes para rechazar la hipótesis nula.
0,8413 1 p = 0, 1587 1
Z=l
1,64
INTERPRETACIÓN: Con un nivel de confianza del 95% no se puede afirmar que

existan diferencias significativas entre los dos grupos de trabajadores. En otras pa
labras, no existen diferencias significativas en las aspiraciones profesionales de los
que llevan trabajando menos de cinco años y aquellos que lo llevan haciendo cinco
o más años (Z = 1; p = 0,1587).
SITUACIÓN 2. En un estudio cuyo objeto es evaluar el efecto de la música clási

ca sobre la capacidad de concentración, disponemos de 62 sujetos con los que for
mamos de manera aleatoria dos grupos de 31 sujetos cada uno. Al primero de ellos
(Grupo 1) se le sometió a una prueba de concentración escuchando música clásica
y al segundo (Grupo 2) se le sometió a la misma prueba en condiciones normales
de silencio. La puntuación media en una prueba de atención sostenida para el Gru
po 1 fue de 86 puntos, con una cuasivarianza igual a 150. El Grupo 2 obtuvo una
media aritmética igual a 80 puntos en esa misma prueba y una cuasivarianza igual a
129. Sabiendo que la variable dependiente está medida en una escala de intervalo
y asumiendo varianzas poblacionales iguales y con un nivel de confianza del 95%,
responda a las siguientes preguntas:
2.1. ¿Podemos afirmar que la media en concentración es superior para el grupo

que escuchó música clásica en relación al grupo que no escuchó nada?
63

lOMoARcPSD|1944486
2.2. ¿Cuánto vale el tamaño del efecto?
2.1. Para la primera pregunta seguiremos los siguientes pasos:

SOLUCIÓN:

muestras independientes de igual tamaño (n 1 = n2 = 31 sujetos) seleccionadas al azar.
La variable independiente es la condición bajo las que se realiza la prueba de concen
tración: condición de silencio o escuchando música clásica. La variable dependiente
es la capacidad de concentración, que es una variable de tipo cuantitativo medida
con escala de intervalo. Se asume que las varianzas poblacionales son iguales.
HIPÓTESIS: El investigador quiere comprobar si la media en concentración es
superior para el grupo que escuchó música clásica respecto a la condición de silen
cio. Como el investigador está marcando la dirección de la diferencia formula un
contraste unilateral derecho con las siguientes hipótesis nula y alternativa:
Ha: µ 1 :::; µ2
H 1 : µ 1 > µ2
O bien:
H a : µ 1 -µ2 :::; O
H 1 : µ 1 -µ2 > O
ESTADÍSTICO DE CONTRASTE: La distribución muestra! de la diferencia de medias

para dos muestras independientes que provienen de poblaciones con varianzas
desconocidas pero supuestas iguales es la distribución t de Student con n 1 + n 2 - 2
gl y el estadístico de contraste es:
(Yi -y2) -(µ 1 -µ2) (86-80)-0

�J
- -
"2 "2 30 · 150 +30 · 129 �

(n1 -1)51 +(n2 -1)52
T=--;==================
( +
-;:::===============2
+ 31+31-2 31 31
n 1 + n2 -2 n1 �J
(� n2
REGLA DE DECISIÓN: En la tabla de la distribución t con n 1 + n2 - 2 = 31 + 31 =

60 gl buscamos el valor crítico para un nivel de confianza del 95% en un contraste
unilateral derecho y es 1,671. Por otra parte, al valor del estadístico t = 2 con 60 gl
le corresponde un nivel crítico de p = 0,025.
64

lOMoARcPSD|1944486
1,671 2,39
Ir= 21
CONCLUSIÓN: Con un nivel de confianza del 95%, el estadístico de contraste (T

= 2) supera el valor crítico 1,671 por lo que la diferencia entre las medias de los dos
grupos es significativa con un nivel de confianza del 95%. Con un nivel de confianza
del 99%, la diferencia entre las dos medias no es significativa ya que el estadístico
de contraste (T = 2) no supera el valor crítico, que en este caso sería de 2,39. A la
misma conclusión se llegaría interpretando el nivel crítico p = 0,025 que es mayor
que el nivel de significación «alfa» de 0,01 pero menor que 0,05.
INTERPRETACIÓN: Con un nivel de confianza del 95%, la capacidad de concen
tración cuando se está escuchando música clásica es significativamente mayor que
bajo la condición de silencio (t = 2; p = 0,025).
2.2. EL TAMAÑO DEL EFECTO se cuantifica con el índice d de Cohen y su valor es:
IY1 -Y2I 186- 801

d = --;:::======== ----;::::====== = O, 508
"2 "2 30 · 150 + 30 · 129
(n1 -1)51 +(n2 -1)52
31+31-2
n1 +n2 -2
El valor de la d de Cohen señala que la distancia de la media 86 del grupo 1

que hace la prueba escuchando música a la media 80 del grupo 2, en condición de
silencio, expresada en unidades de puntuación típica Z, es, en valor absoluto, de
0,508. Si buscamos en la Tabla la Z = 0,51 (obsérvese que es una aproximación de
dos decimales al valor 0,508) obtendremos que deja por debajo una proporción de
0,6950, lo que indica por encima deja una proporción de un 1 - 0,6950 = 0,305, es
decir, que la media del nivel de concentración del grupo que escucha música supera
en un 69,5% a la media del grupo que se concentra en condición de silencio.
65

lOMoARcPSD|1944486
Media bajo la 80 86 Media bajo la

condición de condición de
silencio Z = 0,51 música
SITUACIÓN 3. En una tarea sobre decisión léxica (indicar lo más rápidamente

posible si la palabra presentada es realmente una palabra o una pseudo-palabra)
con estímulos presentados en la modalidad visual y en la que se miden tiempos de
reacción, un investigador dispone de una muestra aleatoria de 26 sujetos. Utiliza
dos grupos de palabras y parte de la hipótesis de que los tiempos de reacción serán
más cortos ante palabras de alta frecuencia léxica (aquellas que utilizamos más fre
cuentemente en el lenguaje, Grupo 1) que ante palabras de baja frecuencia léxica
(Grupo 2). Tras realizar el experimento observa que el tiempo de reacción medio
para el Grupo 1 fue igual a 612,04 ms, mientras que para el Grupo 2 fue igual a 645
ms, siendo la cuasivarianza de las diferencias igual a 6656 ms 2 .
SOLUCIÓN:
CONDICIONES Y SUPUESTOS: El investigador diseña una investigación para ana
lizar si el tiempo de reacción (la variable dependiente) es mayor cuando las pala
bras son de alta frecuencia léxica que cuando son de baja frecuencia (la variable
independiente). Utiliza un diseño de medidas repetidas (o muestra relacionadas)
en la que la misma muestra de sujetos pasa por las dos condiciones experimentales
definidas por las dos condiciones que toma la variable independiente: palabras con
alta y baja frecuencia léxica. La variable dependiente, el tiempo de reacción, es una
variable medida con escala de razón de la que se desconoce su distribución pobla
cional y su varianza. Para poder aplicar un contraste paramétrico debemos asumir
que la forma de la distribución poblacional, aunque desconocida, no se separa en
exceso de la normalidad por lo que la distribución muestra! de la diferencia de me
dias es una distribución t de Student.
HIPÓTESIS: El investigador quiere comprobar que el tiempo de reacción es más
corto ante palabras de alta frecuencia léxica que ante palabras de baja frecuencia
66

lOMoARcPSD|1944486
léxica. Como el investigador está marcando la dirección de la diferencia de medias,

formula un contraste unilateral izquierdo con las siguientes hipótesis nula y alter
nativa:
Ha : µ 1 �µ 2
H1 : µ 1 < µ 2
O bien:
Ha :µ 1 -µ 2 �o
H 1 :µ 1 -µ 2 < O

para dos muestras relacionadas con varianza poblacional desconocida es la distri
bución t de Student y el estadístico de contraste es:
y
( 1 - y 2 )- (µ 1 -µ 2 ) ( 612,04- 645)-o
T= � =-2,06
6
d
6
n
REGLA DE DECISIÓN: El investigador no ha establecido el nivel de confianza, por

lo que en la tabla de la distribución t con n - 1 gl = 26 - 1 = 25 gl buscamos el valor
crítico para un nivel de confianza del 95% o del 99% para un contraste unilateral
izquierdo y son:-1,708 y-2,485 respectivamente. Por otra parte, al valor del esta
dístico T =- 2,06 con 25 gl le corresponde un valor crítico comprendido entre 0,01
y 0,05 y muy próximo a 0,025.
CONCLUSIÓN: Con un nivel de confianza del 95%, el estadístico de contraste (t
= -2,06} supera el valor crítico -1,708 pero no supera el valor crítico -2,485 por lo
que la diferencia entre las medias de los dos grupos es significativa con un nivel de
confianza del 95% pero no con un nivel de confianza del 99%. A la misma conclusión
se llegaría interpretando el nivel crítico p = 0,025 que es mayor que el nivel de sig
nificación «alfa» de 0,01 pero menor que 0,05.
INTERPRETACIÓN: El tiempo de reacción ante palabras léxicas de alta frecuencia
es significativamente menor que ante palabras de baja frecuencia (T = -2,06; p =
0,025} con un nivel de confianza del 95%.
67

lOMoARcPSD|1944486
SITUACIÓN 4. Para comparar la eficacia de dos terapias («A» y «B») utilizadas

para tratar el trastorno de personalidad «X», se toma una muestra aleatoria de 400
personas que sufren el trastorno «X», formándose dos grupos al azar de 200 perso
nas cada uno. Al primer grupo se le aplica la terapia «A», siendo 172 personas las
que se recuperan, mientras que al aplicar la terapia «B» se recuperan 148 personas.
Con un nivel de confianza del 95%, ¿son las dos terapias igualmente eficaces?.
SOLUCIÓN:
CONDICIONES Y SUPUESTOS: El investigador diseña una investigación para com
parar la eficacia de dos terapias. Utiliza un diseño de dos grupos independientes
seleccionados al azar. La variable independiente es el tipo de terapia, A o B y la
variable dependiente es la recuperación que es una variable dicotómica {Si/No) con
distribución binomial. Realizará un contraste de diferencias de proporciones con
muestras independientes. La distribución muestra! de la diferencia de proporciones
es una distribución binomial pero como el investigador utiliza muestras grandes, la
distribución binomial se aproxima a la normal.
HIPÓTESIS: El investigador quiere comprobar si las dos terapias tienen la misma
eficacia, es decir, la misma proporción de recuperaciones. Como el investigador no
está marcando la dirección de la diferencia, formula un contraste bilateral con las
siguientes hipótesis nula y alternativa:
Ho:nA =
na
H1: nA * na
O bien:
Ha : nA - na = O
H1 : nA -na =1:- O

porciones para dos muestras independientes utilizando muestras grandes es la dis
tribución normal y el estadístico de contraste es:
68

lOMoARcPSD|1944486
Calculamos en primer las proporciones pA' P a y P.
PA =-=0, 8 6, =0, 80
172 148 172+148
200 200 400
Pa = - = 0,74, P=
El estadístico de contraste es:
Z= ' =6 =-=º'7
(PA - Pa)-(nA -na)=--;:=(= 0=8 = =4)=-= º==3
1 1
P(l-P)(�+ 2_ J 0, 8 ·0, 2 ·(- -+- -)
200 2 00
nA n a
REGLA DE DECISIÓN: En la tabla de la distribución normal buscamos los valores

críticos para un contraste bilateral con un nivel de confianza del 95 y son: -1,96 y
+ 1,96. Como el estadístico de contraste obtenido, Z = 3, se encuentra fuera de estos
valores críticos, rechazamos la H 0 con un nivel de confianza del 95%
Z = -1,96 Z = +l,96
Por otra parte, al valor del estadístico Z = 3 le corresponde un nivel crítico p =

0,0013. Como el contraste es bilateral, el nivel crítico pes 0,0013 + 0,0013 = 0,00 2 6,
menor que 0,01, por lo que la diferencia encontrada es significativa.
69

lOMoARcPSD|1944486
BLOQUE 11
Análisis de datos en los diseños

de dos muestras independientes
o relacionadas

lOMoARcPSD|1944486
Z=-3 Z=3
INTERPRETACIÓN: El investigador tiene evidencia suficiente para concluir que las

dos terapias proporcionan resultados distintos en cuanto a su proporción de recu
peraciones {Z = 3; p = 0,0026).
SITUACIÓN S. En una tarea de reconocimiento de palabras, un investigador

mantiene la hipótesis de que los estudiantes de carreras de «letras» tardarán me
nos que los estudiantes de «ciencias» en reconocer los estímulos presentados. Tras
seleccionar dos muestras aleatorias de 31 observaciones cada una, y registrar el
tiempo de reacción, obtiene una media aritmética igual a 653,2 ms para el grupo
de estudiantes de ciencias {Grupo 1) y de 600 ms para el grupo de estudiantes de
letras {Grupo 2), siendo la cuasivarianza igual en ambas muestras, con un valor de
6200 ms2. Contraste la hipótesis del investigador con un nivel de confianza del 95%
y calcule el tamaño del efecto.
SOLUCIÓN:
muestras independientes de igual tamaño {sujetos) seleccionadas al azar. La varia
ble independiente es el tipo de estudios, con dos valores «ciencias» o «letras» y la
variable dependiente es el tiempo de reacción en el reconocimiento de palabras,
que es una variable medida en una escala de razón. El análisis de datos que aplicará
es un contraste de hipótesis sobre diferencia de medias entre dos muestras inde
pendientes, con varianzas poblacionales desconocidas pero iguales.
HIPÓTESIS: El investigador quiere comprobar que los estudiantes de carreras de
«letras» tardarán menos que los estudiantes de «ciencias» en reconocer los estí
mulos presentados, es decir, su hipótesis es que el tiempo de reacción es menor
para los estudiantes de letras que para los de ciencias. Como el investigador está
70

lOMoARcPSD|1944486
marcando la dirección de la diferencia, formula un contraste unilateral derecho con

las siguientes hipótesis nula y alternativa:
Ha:µce�µLL
H1:µce> µLL
O bien:
Ha:µcc-µLL�o
H1:µce -µLL> O

para dos muestras independientes que provienen de poblaciones con varianzas
desconocidas pero supuestas iguales es la distribución t de Student con n 1 + n2 - 2
gl y el estadístico de contraste es:
(Ycc -YLL)-(µce -µu)

T=-;===============
"' 2 "' 2
(ncc -1)51+(nu-1)5 2 -1-+_!_
( J
ncc+nu -2 ncc nu
(653,2-600)-0
30 · 6200 +30 · 6200 . +
31+31-2 31 31
=2 66
(_!_ _!_J
REGLA DE DECISIÓN: En la tabla de la distribución t con n 1 + n2- 2 gl = 31 + 31- 2
= 60 gl buscamos el valor crítico para un nivel de confianza del 95% de un contraste
unilateral derecho y es 1,671. Por otra parte, al estadístico de contraste t = 2,66 le
corresponde un nivel crítico p = 0,005.
CONCLUSIÓN: Con un nivel de confianza del 95%, el estadístico de contraste
(T = 2,66) supera el valor crítico por lo que la diferencia entre las medias de los dos
grupos es significativa con un nivel de confianza del 95%. A la misma conclusión se
llegaría interpretando el nivel crítico p = 0,005 que es menor que el nivel de signifi
cación «alfa» de 0,05 establecido a priori por el investigador.
INTERPRETACIÓN: Los estudiantes de carreras de «letras» tardan menos tiempo
que los estudiantes de «ciencias» en tareas de reconocimiento de palabras (T =
2,66; p = 0,005).
71

lOMoARcPSD|1944486
TAMAÑO DEL EFECTO: se cuantifica con el índice d de Cohen y su valor es:
1653, 2-600¡
d=----;:::====== = 0,6756
30 · 6200 + 30 · 6200
31+31-2
El valor de la «d» de Cohen señala que la distancia de la media 653,2 del gru
po de Ciencias a la media 600 del grupo de Letras es, expresada en unidades de
puntuación típica Z y en valor absoluto, de 0,6756. Si buscamos en la Tabla la Z =
0,67 obtendremos que deja por debajo una proporción de O,7486, lo que indica por
encima deja una proporción de un 1 - 0,748 = 0,2514, es decir, que hay un 74,86%
de estudiantes de Ciencias con un tiempo de reacción superior a la media de lo que
tardan los estudiantes de letras. O de otra forma, un 25,14% de estudiantes de Cien
cias tienen un tiempo de reacción inferior a la media de los estudiantes de Ciencias.
Tiempo medio de 600 653,2 Tiempo medio de

reacción de los reacción de los
estudiantes de Letras d = 0,67 estudiantes de Ciencias
SITUACIÓN 6. En un estudio piloto para un nuevo tratamiento contra el SIDA

(Thompson, 1991}, se midieron diversas variables en 27 pacientes con SIDA. Entre
las variables medidas se incluyó el número de células T-4 -
sanguíneas -al inicio del tra-
tamiento y 90 días más tarde. Los resultados fueron: Yo días = 324; Ygo días = 334,4.
Por estudios anteriores se sabe que la varianza poblacional de las diferencias en el
contaje de células T-4 vale 150. El investigador fija un nivel de confianza del 95%.
SOLUCIÓN:
CONDICIONES Y SUPUESTOS: El investigador diseña una investigación para eva
luar el efecto del tratamiento (la variable independiente) sobre el número de célu
las T-4 sanguíneas (la variable dependiente) medida en la misma muestra de sujetos
72

lOMoARcPSD|1944486
pero en dos momentos distintos: al inicio del tratamiento y 90 días después. La

variable dependiente es de tipo cuantitativo medida mediante una escala de razón.
Se trata, por tanto, de un diseño de dos muestras relacionadas para comparar sus
medias y se conoce, por investigaciones previas, la varianza poblacional de las dife
rencias. En estas condiciones la distribución muestra! de la diferencia de medias es
una distribución normal.
HIPÓTESIS: El investigador quiere comprobar cómo afecta el tratamiento al nú
mero de células T-4 sanguíneas pero sin marcar el sentido de su influencia por lo
que formula un contraste bilateral con las siguientes hipótesis nula y alternativa:
Ho: µo= µgo

H1: µo* µgo
O bien:
Ho: µo - µgo= O
H1: µo - µgo * O

para dos muestras relacionadas con varianza poblacional conocida es la distribución
normal y el estadístico de contraste es:
REGLA DE DECISIÓN: En la tabla de la distribución normal buscamos los valores

críticos para un nivel de confianza del 95% que son -1,96 y +1,96. Por otra parte,
el valor más extremo que podemos encontrar en la tabla de la distribución normal
tipificada es 3,59 que deja por encima una probabilidad de 0,0002. Esto significa que
no podemos conocer la probabilidad para una Z de -4,41. No obstante, a efectos del
contraste, no se resentirá si utilizamos el nivel crítico de la Z = 3,59 como sustituto del
nivel crítico de la Z = -4,41. Como se trata de un contraste bilateral, el nivel crítico, p,
correspondiente al estadístico de contraste T = 4,41 (utilizando la aproximación indi
cada) será menor de 0,0002 + 0,0002 = 0,0004. Por tanto, el nivel crítico es p < 0,0004.
CONCLUSIÓN: Con un nivel de confianza del 95%, estadístico de contraste (Z =
-4,41) es más extremo que los valores críticos, que representan la máxima diferen
cia que cabe esperar por simple azar. Por tanto, hay evidencia suficiente para recha-
73

lOMoARcPSD|1944486
zar la H0. A la misma conclusión se llegaría interpretando el nivel crítico p < 0,0004
que es menor que el nivel de significación «alfa» de 0,01 establecido previamente
por el investigador.
INTERPRETACIÓN: La nueva terapia del tratamiento del SIDA produce una varia
ción significativa (Z = -4,41: p < 0,0004) en el aumento de células T-4 sanguíneas.
SITUACIÓN 7. Un psicólogo sospecha que los alumnos de cuarto de grado (Gru

po 1) presentan una media superior y más variabilidad en la variable «Autoestima»
que los alumnos de primer curso de grado (Grupo 2). Para comprobar estas hipóte
sis selecciona dos muestras aleatorias de igual tamaño (n 1 = n 2 = 31} a las que aplica
- "2
un test de autoestima. Los resultados fueron: Y1 = 22,16, 51 = 76,42 para el Grupo
- "2
1 y h = 20, 07, 52 = 47, 58 para el Grupo 2. Asumiendo un nivel de confianza del
95% ponga a prueba las hipótesis del investigador.
SOLUCIÓN:
parar los niveles de autoestima y su variabilidad en dos grupos distintos de alum
nos. La variable dependiente, la autoestima, es de tipo cuantitativo medida en una
escala de intervalo de la que se desconoce la forma de su distribución poblacional
y su varianzas. Se trata, por tanto, de un diseño de dos muestras independientes
y hay que realizar dos contrastes de hipótesis: uno para las varianzas y el segundo
para las medias.
74

lOMoARcPSD|1944486
HIPÓTESIS: El investigador quiere comprobar si el nivel de autoestima de los es

tudiantes del Grupo 1 es mayor que la del Grupo 2, para lo que plantea un contraste
de hipótesis unilateral de diferencias de medias para dos muestras independien
tes. Previamente debe comprobar si las muestras provienen de poblaciones con
la misma varianza. Se plantea la hipótesis sobre la variabilidad de manera previa a
la hipótesis de la media porque esto nos permitirá tener información sobre un su
puesto (igualdad de las varianzas poblacionales) necesario para realizar el contraste
de la media. La hipótesis del investigador es que la varianza de los estudiantes del
Grupo 1 es superior a la del Grupo dos, para lo que formula un contraste unilateral
derecho con las siguientes hipótesis
O bien:
ESTADÍSTICO DE CONTRASTE: La distribución muestra! del cociente entre dos

varianzas es una distribución F de Snedecor y el estadístico de contraste es:
,,...2
6,42
F= 5G1 =7 =l 606
"2 47' 58 '
SG2
REGLA DE DECISIÓN: En la tabla de la distribución F con los grados de libertad del

numerador (n - 1 = 31- 1 = 30) y los del denominador O buscamos el valor crítico
con un nivel de confianza del 95% en un contraste unilateral derecho y es 1,841. De
la misma forma, y consultado las tablas de la F, observamos que con 30 grados de
libertad en el numerador y 30 grados de libertad en el denominador, el valor de F
= 1,606 deja por debajo de sí un área de 0,90. Luego el nivel crítico asociado a este
estadístico de contraste es 1- 0,90 = 0,10.
75

lOMoARcPSD|1944486
F = 1,606 1,841
CONCLUSIÓN: Como el estadístico de contraste no supera el valor crítico (1,841)

no hay evidencias suficientes para rechazar la hipótesis nula de igualdad de varian
zas.
INTERPRETACIÓN: No hay diferencias en la variabilidad del nivel de autoestima
entre estos dos grupos de estudiantes (F30; 30 = 1,606; p = 0,10).
En estas condiciones el contraste sobre la diferencia de medias se realiza asu
miendo que las dos muestras provienen de poblaciones con las mismas varianzas:
HIPÓTESIS: El investigador quiere comprobar si el nivel de autoestima del Grupo
1 es mayor que la del Grupo 2 por lo que formula un contraste unilateral con las
siguientes hipótesis nula y alternativa:
Ha : µG l � µG 2
H1 : µ G l > µ G 2
O bien:
Ha : µ G l - µG2 � O
H1 : µ G l - µ G 2 > 0

entre dos muestras independientes que provienen de poblaciones con varianzas
desconocidas pero iguales (contrastado en el punto anterior) es la distribución t de
Student con n 1 + n 2 - 2 gl:
76

lOMoARcPSD|1944486
( 22,16-20, 0 1)-0
---;:::============ = 1, 045
30 · 76, 42+30 · 4 7, 58 � �
( + )
3 1+ 31- 2 31 31
REGLA DE DECISIÓN: En la tabla de la distribución t de Student y con n 1 + n 2 - 2

gl = 31 + 31 - 2 = 60 gl buscamos el valor crítico con un nivel de confianza del 95 %
en un contraste unilateral derecho y es 1,671. Por otra parte, en la distribución t con
60 gl, el estadístico de contraste T= 1,045 deja por debajo una probabilidad de 0,85
por lo que su nivel crítico es p = 0,15 .
CONCLUSIÓN: Como el estadístico de contraste (1,045} no supera el valor crítico
(1,671} no hay evidencias suficientes para rechazar la hipótesis nula de igualdad de
igualdad de medias. A la misma conclusión se llega comparando el nivel crítico p =
0,15 con el nivel de significación a= 0,05.
INTERPRETACIÓN: No existen diferencias significativas (T= 1,405 ; p = 0,15} entre

las medias del nivel de autoestima de los estudiantes de primer curso y cuarto curso
de grado.
TAMAÑO DEL EFECTO: El índice d de Cohen es un índice del tamaño del efecto
y su valor es:
IY1 -Y2I ¡22, 16-20 , 0 71

d = ----;:::======== ---;:::=========0, 2654
A2 A2 30 · 76, 42 + 30 · 4 7, 58
(n 1 -1)51 +(n2 -1)52
3 1+ 3 1-2
n1 +n2 -2
El valor de la «d» de Cohen señala que la diferencia entre las medias 22,16
y 20,0 7 expresada en unidades de puntuación típica Z, es, en valor absoluto, de
0 ,2 654 . Si buscamos en la Tabla la Z = 0 ,26 obtendremos que deja por debajo una
proporción de 0,6026, lo que indica un 1 - 0,6026 = 0,3974, es decir, que el nivel
60,26% de los sujetos del grupo 1 tienen un nivel de autoestima superior a la media
del grupo 2. O también que el 3 9, 74 % de los sujetos del grupo 1 tienen un nivel de
autoestima por debajo de la media del grupo 2 .
77

lOMoARcPSD|1944486
Media del G2 20,07 22,16 Media del Gl
d = 0,26 Diferencia en unidades Z
SITUACIÓN B. El equipo docente de una determinada asignatura quiere com

probar la eficacia de un material docente nuevo respecto al utilizado en convocato
rias anteriores. Selecciona una muestra aleatoria de 64 alumnos, con los que forma
dos grupos de igual tamaño también al azar. A los sujetos del Grupo 1 les proporcio
na el nuevo material, mientras que los del Grupo 2 trabajan con el material antiguo.
El equipo docente tiene la hipótesis de que con el nuevo material las notas serán
más elevadas. Tras el examen de fin de curso los alumnos del Grupo 1 obtienen una
nota media igual a 7, con una cuasivarianza igual a 15, mientras que para el Grupo
2 la media es igual a 5,2 y la cuasivarianza igual a 17. Con un nivel de confianza del
95%, responda a las siguientes preguntas:
8.1. Contraste la hipótesis del investigador y determine el tamaño del efecto.
8.2. Calcule el intervalo de confianza de la diferencia de medias, interpretando
el resultado.
SOLUCIÓN:
Partimos de dos muestras independientes con los siguientes datos:
- A2
Grupo l. Material Nuevo: Y Nuevo = 7 S Nuevo = 15 nNuevo = 32
- A2
Grupo 2. Material Antiguo: Y Antiguo = 5,2 5 Antiguo = 17 nAntiguo = 32
8.1. Para someter a contrastación la hipótesis del investigador, seguimos los si
guientes pasos:

probar la eficacia de un material docente nuevo respecto al utilizado en convoca-
78

lOMoARcPSD|1944486
torias anteriores. La variable independiente es el material docente con dos valores:

el nuevo y el antiguo y la variable dependiente es el rendimiento de los estudiantes
manifestado por la calificación obtenida en el examen final, que es una variable
cuantitativa medida en una escala de intervalo. Se trata, por tanto, de un diseño de
dos muestras independientes que provienen de dos poblaciones con varianzas des
conocidas en las que habrá que contrastar previamente si son iguales o distintas.
HIPÓTESIS: El investigador quiere comprobar si el nuevo material docente es
más eficaz que el anterior para lo que plantea un contraste unilateral. Previamente
debe comprobar si las muestras provienen de poblaciones con la misma varianza,
para lo que formula las siguientes hipótesis.
2 2
Ha : CTNuevo = CTAntiguo
2
H1 : CTNuevo * CT2Antiguo
"2
SNuevo 15 =
F = "2 = O 88
1
5Antiguo
17
REGLA DE DECISIÓN: Para un contraste bilateral y con un nivel de confianza del

95%, debemos buscar los valores de F que dejan por debajo una probabilidad de
0, 025 y de 0,97 5. El valor que nos ofrece la tabla F para 30 grados de libertad en el
numerador y 30 grados de libertad en el denominador (los más próximos a 31) es
igual a 1,841, luego los valores críticos son:
1
Fo 02s·3ü·3o = -- =O, 482 Fo,975;30;30 = 2, 074
I I I
2,074
CONCLUSIÓN: Como el estadístico F = 0,88 se encuentra comprendido entre los

valores críticos, no podemos rechazar la hipótesis nula, por lo que podemos supo
ner que las varianzas son iguales.
En estas condiciones realizamos el contraste de hipótesis sobre las medias con
las siguientes:
CONDICIONES Y SUPUESTOS: Es un diseño de dos muestras independientes y
grandes (n > 30) que provienen de poblaciones con distribución desconocida, va-
79

lOMoARcPSD|1944486
rianzas desconocidas pero iguales. En estas condiciones, la distribución muestra! de

la media es la distribución t de Student.
HIPÓTESIS: El investigador quiere demostrar que el nuevo material es más eficaz
que el antiguo por lo que formula un contrate unilateral derecho con las siguientes
hipótesis:
Ha: µNuevo � µAnt

Hl : µNuevo > µAnt
O bien:
Ha: µNuevo - µAnt � O

H1 : µNuevo - µAnt > O
(7-5' 2)-0
=18
31·15+31·17 _!_ _!._
( + J
62 32 32
p < 0,025
o 1 , 671 ( 7-5,2)
T= 1,8
REGLA DE DECISIÓN: En la tabla de la distribución t de Student buscamos el valor

crítico t para un contraste unilateral derecho con n1 + n 2 - 2 = 32 + 32 - 2 = 62 g.l. y
con 60 gl (que es el valor más aproximado que aparece en las tablas) el valor de t que
deja por debajo una probabilidad de 0,95 es 1,671 para un nivel de confianza del 95%.
80

lOMoARcPSD|1944486
CONCLUSIÓN: Como el estadístico de contraste (1,8) supera el valor crítico 1,671

rechazamos la H0 con un nivel de confianza del 95%. El nivel crítico del estadístico
de contraste es, en todo caso, p < 0,025 lo que nos permite concluir que la diferen
cia observada es significativa con un nivel de confianza del 95%.
INTERPRETACIÓN: Con el nuevo material docente los estudiantes obtienen re
sultados significativamente mejores que con el antiguo (T = 1,8; p < 0,025).
TAMAÑO DEL EFECTO: Calculamos el índice d de Cohen:
Y I N- A
Y I 7= = 5,= 21= = =o 4
d=--;:::================= --;===1 - ' 5
�2 �2 31·15+31·17
(nN -l)SN+(nA-l)SA
62
nN+nA-2
Este índice representa la distancia entre las medias de los dos grupos en unida
des de puntuación típica Z.
Material 2 7 Material
Antiguo Nuevo
d = 0,45
El valor del estadístico de Cohen nos indica que el 67,36% de los estudiantes que
han utilizado el nuevo material docente han obtenido un rendimiento que supera a
la media del grupo que ha utilizado el material antiguo.
8.2. INTERVALO DE CONFIANZA DE LA DIFERENCIA DE MEDIAS: Tomando de las ta

blas el valor más próximo para los grados de libertad, el intervalo de confianza
para la diferencia de medias con un nivel de confianza del 95% viene definido
por los límites:
81

lOMoARcPSD|1944486
(nN -1)5N +(nA -1)5A

A2 A2
(-+-
1 1
J=
(-YN-YA
- ) ±tl-ª�; N 2
n +nA-2 n N +n A -2 nN nA
-O 2
=(7-s,2)±2·1-H
+3,8
El intervalo de confianza puede utilizarse también para el contraste de hipótesis

bilaterales. Obsérvese que el intervalo de confianza obtenido nos indica que la dife
rencia entre las dos medias poblacionales es un valor comprendido entre -0,2 y 3,8.
Como en este intervalo está comprendida la diferencia nula que formularía la Ha de
un contraste bilateral, no podríamos rechazar la Ha que establece una diferencia de
cero entre las dos medias poblacionales de este mismo contraste, si fuera bilateral.
1,8 + 2 = 3,8
-2 o +2
1,8-2 =-0,2
(7 - 5,2) = 1,8
SITUACIÓN 9. Un psicólogo imparte una conferencia a una muestra de 200 fu

madores en la que les expone un tratamiento para abandonar este hábito. También
pregunta a los sujetos, antes y después de la conferencia, que cuantifiquen en una
escala de O a 10 si se sienten capaces de dejar de fumar tras recibir el tratamiento,
donde el cero indicaría que no se sienten capaces de ninguna forma y 10 que lo
lograrán con absoluta certeza. Antes de la conferencia, la mitad de los sujetos de
la muestra están dispuestos a seguir el tratamiento. Tras la conferencia, encuentra
que 80 personas que estaban dispuestas a seguir la terapia mantienen la idea de
hacerlo, y que otras 80 personas que no estaban dispuestas a seguir la terapia han
cambiado de opinión. El psicólogo pretende lograr que el número de sujetos que
deciden someterse a la terapia sea mayor tras la conferencia. Respecto a la pre
gunta que plantea el psicólogo a los sujetos, se encuentra que aquellos que no se
82

lOMoARcPSD|1944486
Solucione� a los ejercicios de los capítulos 3 y 4 •
sentían capaces de dejar de fumar antes de la conferencia obtienen una media su
perior después de la conferencia, siendo dicha media un punto superior a la media
antes de la conferencia y la cuasidesviación típica de las diferencias es igual a 5. Se
establece un nivel de confianza del 95%.
SOLUCIÓN:
CONDICIONES Y SUPUESTOS: El investigador utiliza una muestra de sujetos de
los que obtiene información en dos momentos distintos. La información obtenida
es la variable independiente: ANTES de asistir una conferencia y DESPUÉS de salir
de la misma. Utiliza, por tanto, un diseño de muestras relacionadas. Como variable
dependiente obtiene, por un lado, las medias obtenidas en una escala que cuan
tifica su capacidad estimada para abandonar el hábito de fumar, antes y después
de asistir a la conferencia. Se trata de una variable cuantitativa medida con escala
de intervalo. Y por otra parte, también obtiene la proporción de sujetos dispues
tos a someterse a la terapia antes y después de asistir a la conferencia. En estas
circunstancias tendrá que realizar dos contrastes de hipótesis dentro de un diseño
de muestras relacionadas: uno para la diferencia de proporciones y otro para la
diferencia de medias.
HIPÓTESIS: Para el contraste de la diferencia entre las proporciones el psicólogo
pretende lograr que el número de sujetos que deciden someterse a la terapia sea
mayor tras la conferencia por lo que plantea un contraste unilateral izquierdo con
Ha: nAntes � noespués
H1 : nAntes < noespués

porciones es la distribución binomial que tiende a la normal cuando las muestras
son grandes. El estadístico de contraste es, por tanto, una puntuación Z con la si
guiente expresión:
b-c
Z=--
�b+c
Para su cálculo construimos la siguiente tabla con los datos aportados en el

enunciado y marcados en negrita:
83

lOMoARcPSD|1944486
Después de la conferencia
SI NO
Antes de la SI a= 80 b= 20 100
conferencia NO e= 80 d= 20 100
160 40 200
Para calcular el estadístico de contraste «Z» nos fijamos en los sujetos que apor
tan información, es decir, aquellos que han cambiado de opinión ANTES y DESPUÉS
de asistir a la conferencia (casillas by e de la tabla):
z----
-
b-c
-
20- 80
--6
)b+c )20+80
REGLA DE DECISIÓN: En la tabla de la distribución normal y con un nivel de con

fianza del 95% para un contraste unilateral izquierdo buscamos el valor crítico con
un nivel de confianza del 95% y es Zc = -1,64. Por otra parte, el estadístico de con
traste es muy extremo, superior al valor mayor que podemos consultar en las tablas
(Z = -3,59), que deja por debajo de sí una proporción igual a 0,0002 que correspon
de al nivel crítico p < 0,0002.
CONCLUSIÓN: Como el estadístico de contraste (Z = -6) supera el valor crítico
{-1,64) a un nivel de confianza del 95%, se rechaza la H0 . A la misma conclusión se
llega interpretando el nivel crítico que es menor que el nivel de significación «alfa»
de 0,05.
INTERPRETACIÓN: La proporción de sujetos dispuestos a someterse a terapia
aumenta significativamente después de asistir a la conferencia (Z = -6; p <.0,0002).
Para el contraste de la diferencia de medias el psicólogo pretende demostrar
que el número de sujetos que deciden someterse a la terapia será mayor tras la
conferencia evaluada a través del cuestionario. En base a esta información previa
proporcionada en el enunciado formula las siguientes hipótesis.
HIPÓTESIS: El investigador quiere comprobar que la media de los sujetos que ini
cialmente no están dispuestos a seguir el tratamiento (n = 100) es superior después
de la conferencia por lo que formula las siguientes hipótesis
84

lOMoARcPSD|1944486
Ha : µAntes ::; µDespués

H1 : µAntes > µDespués
O bien:
H a : µAntes - µDespués ::; O

H1 : µAntes -µDespués > O

para muestras relacionadas es la distribución t de Student con n - l gl. Al pasar la
escala, el investigador encuentra que dicha media es un punto superior a la media
antes de la conferencia por lo que el estadístico de contraste es:
T= fil = 1/52
0 -µd -0
=2
�� 100
REGLA DE DECISIÓN: En la distribución t de Student con n - l = 100 - 1 = 99 gl y
para un contraste unilateral derecho buscamos el valor crítico que deja por debajo
de sí una probabilidad de 0,95. Según las tablas este valor es 1,66. Por otra parte,
para una distribución t con 100 gl (el valor más próximo a nuestra situación que tie
ne 99 gl) el valor del estadístico de contraste t = 2 se encuentra comprendido entre
1,984 y 2,364 que dejan por debajo las probabilidades de 0,975 y 0,99, respectiva
mente, y por encima de 0,025 y 0,01 respectivamente (los valores 0,025 y 0,01 son
los complementarios de 0,975 y 0,99 respectivamente). Por tanto el nivel crítico
asociado al estadístico de contraste t = 2 es un valor comprendido entre 0,025 < p <
0,01 como se representa en la siguiente gráfica,
85

lOMoARcPSD|1944486
CONCLUSIÓN: Como el estadístico de contraste {Z = 2) supera el valor crítico de

1,66 podemos rechazar la hipótesis nula con un nivel de confianza del 95%. Por otra
parte, el nivel crítico p < 0,025 {correspondiente a una t = 1,984) nos indica que el
resultado es significativo con un nivel de confianza del 97,5% ya que 2 > 1,984 pero
no lo es con un nivel de confianza del 99%.
INTERPRETACIÓN: La media de los sujetos que inicialmente no están dispuestos
a seguir el tratamiento es superior después de asistir a la conferencia {t99 = 2; p <
0,025).
SITUACIÓN 10. El partido político X elabora un vídeo pre-electoral con la inten

ción de incrementar el número de votos en las siguientes elecciones. Extrae una
muestra aleatoria de 200 personas a las que muestra el vídeo. Antes de verlo 120
personas declararon que no votarían al partido X, 60 de las cuales cambiaron de
opinión tras ver el vídeo, siendo 136 sujetos en total los que manifestaron su in
tención de votar al partido X después de ver el vídeo. Con un nivel de confianza del
95%.
SOLUCIÓN:
CONDICIONES Y SUPUESTOS: En este trabajo la variable independiente. es el vi
deo y se quiere analizar su influencia sobre la variable dependiente que es la inten
ción de voto. Esta variable tomará dos valores, SÍ o NO, que constituye una variable
dicotómica. En el diseño de este estudio la fuente de información es la opinión
manifestada por una muestra de 200 personas en dos momentos distintos: ANTES y
DESPUÉS de ver el video. Se trata, por tanto, de un diseño de muestras relacionadas
en el que se analizará la influencia del video sobre la intención de voto.
86

lOMoARcPSD|1944486
HIPÓTESIS: El trabajo se diseña con la intención de comprobar que el video in

crementará la intención del voto por lo que se formula un contraste unilateral con
Ha : n:Antes 2:: n:Después

H1 : n:Antes < n:Después
O bien:
Ha : n:Antes - n:oespués 2:: O

H 1 : n:Antes - n:Después < O

son grandes. El estadístico de contraste es, por tanto, una puntuación Z que pode
mos calcular mediante la siguiente expresión:
b-c
Z =--
.Jb+c
Para su cálculo, completamos la siguiente tabla que recoge en negrita los datos
proporcionados en el enunciado mientras que el resto de datos han sido calculados
por simple álgebra:
Después
SI NO
a= 76 b=4 80
Antes
e= 60 d= 60 120
136 64 200
La construcción de esta matriz nos permite calcular el valor del estadístico de

contraste:
z----
b-c
-- 4-60
- 7
.Jb+ e .J4 + 60 - -
87

lOMoARcPSD|1944486
• Ejercicios y p roblemas resueltos y comentados. Diseños de investigación y análisis de datos
También se podría aplicar el estadístico chi-cuadrado de McNemar cuyo valor es:
2 2
2 ( b-c ) ( 60- 4 )
X = ---=49
b+c 60+4
REGLA DE DECISIÓN: En la tabla de la distribución normal y con un nivel de con

fianza del 95% para un contraste unilateral izquierdo buscamos el valor crítico con
un nivel de confianza del 95% y resulta ser Zc = -1,64. Por otra parte, consultando
la tabla de la distribución normal observamos que la puntuación más extrema que
podemos encontrar es igual a -3,59, que deja por debajo de sí una proporción igual
a 0,0002. Como el estadístico de contraste Z = -7 es un valor aún más extremo su
nivel crítico es p < 0,0002.
Para el estadístico de McNemar utilizamos la distribución chi-cuadrado con 1 gl
y un nivel de confianza del 95% y observamos que el estadístico de contraste (49)
supera el valor crítico de 5,0239. Por otra parte, el valor más alto que figura en la
tabla de la distribución chi-cuadrado con 1 gl es 7,8794 que deja por encima de sí
una probabilidad de 0,005. Como el valor del estadístico de contraste (49) es aún
más extremo su nivel crítico es p < 0,005.
CONCLUSIÓN: Tanto el estadístico Z como el chi-cuadrado de McNemar superan
sus respectivos valores críticos con un nivel de confianza del 95%. Se rechaza la H0
porque la probabilidad de encontrar un valor como el estadístico de contraste o
más extremo es muy pequeña (p < 0,0002).
INTERPRETACIÓN: Podemos inferir que el vídeo resulta efectivo porque incre
menta el número de votantes del partido (Z = 7; p < 0,0002; x 2 = 49; p < 0,005).
SITUACIÓN 11. El Barómetro del CIS de septiembre de 2011 señala que a la

pregunta: ¿Cuál es el principal problema que existe actualmente en España?, res
pondieron 468 jóvenes con edades comprendidas entre 25 y 34 años, de los cuales
el 57,3% señalaban «el paro», el 19,2% indicaban «los problemas de índole eco
nómica» y para el 9,4% el principal problema era «la clase política y los partidos
políticos». En el mismo mes del 2012 se volvió a pasar la misma encuesta a otros
480 jóvenes del mismo rango de edad. De estos jóvenes, y ante la misma pregunta,
216 señalaban «el paro», 114 se pronunciaban por «los problemas de índole econó
mico» y 63 señalaban a «la clase política y los partidos políticos» como el principal
problema. Con estos datos, el investigador desea analizar si la consideración de «la
clase política y los partidos políticos» como principal problema ha aumentado signi
ficativamente en el 2012 respecto al año anterior.
88

lOMoARcPSD|1944486
SOLUCIÓN:
De los datos del enunciado extraemos la siguiente información:
Problemas
Paro Clase política
económicos
2011 0,573 0,192 0,094

216 114 63
2012 =0 45 =0 2375 =0 13125
480 ' 480 ' 480
CONDICIONES Y SUPUESTOS: En este trabajo se quiere analizar si la opinión de

los jóvenes respecto al «principal problema que existe actualmente en España» (la
variable dependiente de naturaleza cualitativa) ha variado con el transcurso del
tiempo (la variable independiente es el momento de aplicación de la encuesta con
dos valores: septiembre de 2011 y septiembre de 2012}. El investigador utiliza dos
muestras independientes, una en septiembre de 2011 formada por 468 jóvenes y
otra un año después formada por 480 jóvenes. Aplicará, por tanto, un contraste de
diferencia de proporciones para dos muestras independientes.
HIPÓTESIS: El investigador quiere analizar si la consideración de «la clase política
y los partidos políticos» como principal problema ha aumentado significativamente
en el 2012 respecto al año anterior. Como está marcando el sentido de la diferencia
formula un contraste unilateral con las siguientes hipótesis nula y alternativa:
Ha: n2011 � n2a12
H1: n2a11 < n2a12
O bien:
H a: n2a11 - n2a12 � O
H1: n2a11 - n2a12 < O

son grandes como sucede en este caso. El estadístico de contraste es, por tanto, una
puntuación Z con la siguiente expresión:
89

lOMoARcPSD|1944486
n +n 2 01 2 P2 01 2
siendo: P = 2 01 1 P2 01 1
n 2 011 + n 2 01 2
Y su valor, es:
63
468 · O , 094 +480-
p= 480 = 0,113
468+480
Z=
( o,094 -0,13125)-o
1
O , 113 ( 1 -0,113)(- - + -
468 480
1 -J =-1,81
REGLA DE DECISIÓN: En la tabla de la distribución normal el estadístico de con

traste Z = -1,81 deja por debajo una probabilidad de 0,0351 que corresponde a su
nivel crítico p.
Z = -1,81
CONCLUSIÓN: Como el nivel crítico p = 0,0351 es menor que el nivel de signifi

cación «alfa» de 0,05 pero mayor que el nivel de significación de 0,01 rechazamos
la hipótesis nula con un nivel de significación de 0,05 (o con un nivel de confianza
del 95%).
INTERPRETACIÓN: La consideración de «la clase política y los partidos políticos»
como principal problema ha aumentado significativamente en el 2012 respecto al
año anterior (Z = -1,81; p = 0,0351).
90

lOMoARcPSD|1944486
SITUACIÓN 12. Con los mismos datos del ejemplo anterior desea comprobar
si la consideración del paro como principal problema de los jóvenes no ha variado
significativamente en el 2 012 respecto al 2 011.
CONDICIONES Y SUPUESTOS: las mismas de la situación anterior siendo ahora la
variable dependiente la consideración del paro como principal problema.
HIPÓTESIS: El investigador quiere analizar si la consideración del paro no ha
variado de un año a otro. Formula un contraste bilateral ya que no marca el sentido
de la diferencia, siendo las hipótesis nula y alternativa las siguientes:
H a : n2 011 = n2 a1 2
H1 : TC2 a11 -=;t:. TC2 a1 2
O bien:
H a : n2 a1 1 - n2 01 2 = O
H1 : TC2 a 1 1 - TC2 a1 2 -=;t:. 0

son grandes. El estadístico de contraste es, por tanto, una puntuación Z con la si
guiente expresión:
siendo: p = n 2 011 P2 a11 + n 2 01 2 P2 a1 2

n 2 a11 + n 2 a1 2
46 8·0, 573+216
P= =O 5107
46 8+4 80
( o, 573 -0, 45 )-o

z= =3 79
1 1
0, 5 107 ( 1 -0, 5107 )( - - + - -)
46 8 4 80
REGLA DE DECISIÓN: Consultando las tablas de curva normal, observamos que

la mayor puntuación que podemos consultar es z = 3,59, que deja por encima de
sí una proporción igual a 0,0002. Como el contraste es bilateral, multiplicamos por
dos esta probabilidad, por lo que el nivel crítico es p < 0,0004 y rechazamos la hi
pótesis nula.
91

lOMoARcPSD|1944486
INTERPRETACIÓN: La consideración del paro como principal problema de los

jóvenes ha variado significativamente en el 2012 respecto al 2011 (Z = 3,79; p <
0,0004), en concreto, ha disminuido del 57,3% al 45% siendo esta diferencia signi
ficativa.
SITUACIÓN 13. Siguiendo con los mismos datos del CIS, imagine por un mo
mento que tuviera usted acceso a la muestra de los 480 jóvenes encuestados en
septiembre del 2012 para volverles a realizar la misma pregunta y analizar los cam
bios de opinión sobre la consideración del paro como principal problema. Encuen
tra que ahora son 233 los que siguen considerando el paro como el problema prin
cipal y que de los 216 que en septiembre lo señalaban como el problema principal
ahora son 193 los que siguen manteniendo la misma opinión.
SOLUCIÓN:
CONDICIONES Y SUPUESTOS: Ahora está utilizando la misma muestra de 480
jóvenes a los que hace la misma pregunta en dos momentos temporales distintos:
ANTES (en el 2012) y DESPÚÉS (en este momento). Utilizará un diseño de muestras
relacionadas para comparar dos proporciones.
HIPÓTESIS: El investigador quiere analizar los cambios de opinión sobre la con
sideración del paro como principal problema pero sin marcar el sentido de este
cambio, por lo que formula un contraste bilateral con las siguientes hipótesis nula
y alternativa:
Ha : n2012 = nAHORA
H1 : n2012 i:- nAHORA
O bien:
Ha: 'TC2012 = nAHORA = 0

H1 : n2012 i:- nAHORA i:- 0
ESTADÍSTICO DE CONTRASTE: Para realizar el contraste sobre dos proporciones

con muestras relacionadas, construimos, en primer lugar, la siguiente tabla con los
datos del enunciado (en negrita) deduciendo fácilmente el resto.
92

lOMoARcPSD|1944486
2012
Paro Otros problemas
Paro 193 b=40 233
Otros problemas e = 23 224 247
216 264 480
Y el estadístico de contraste es:
40 -23
Z = �= =2 14
.Jb+c .,/40+23
REGLA DE DECISIÓN: Consultando las tablas de curva normal, observamos que la

probabi l idad de obtener puntuaciones más extremas que Z = 2,14 es igual a 0,0162.
Dado que el contraste es bilateral, el nivel crítico es igual a p = 0,0162 · 2 =0,0324.
CONCLUSIÓN: Dado que el nivel crítico 0,0324 es menor que el nivel de significa
ción «alfa» de 0,05, rechazamos la H0 con un nivel de confianza del 95%.
INTREPRETACIÓN: A partir del resultado obtenido, podemos afirmar que «La va
loración de paro como principal problema que existe actualmente en España ha
variado en estos meses con una seguridad del 96,8% (Z = 2,14; p = 0,0324)».
SITUACIÓN 14. Retomando los mismos datos del Barómetro del CIS de sep
tiembre de 2011 (véase siguiente tabla), el investigador desea ahora comprobar si
la percepción del paro como principal problema ha disminuido en 2012 respecto de
2011 en un porcentaje superior al 5%.
Problemas
Paro Clase política
económicos
2011 0,573 0, 192 0,094 n 1 = 468
216 = 1 14
2012 0 45 =0,2375 � =0, 13125 n 2 = 480
480 480 480
93

lOMoARcPSD|1944486
SOLUCIÓN:
CONDICIONES Y SUPUESTOS. Son los mismos, pero considerando ahora que la
variable dependiente son los datos del paro.
HIPÓTESIS. El investigador quiere comprobar si la percepción del paro como
principal problema ha disminuido en 2012 respecto de 2011 en un porcentaje su
perior al 5%. Como está marcando el sentido de la diferencia, formula las siguientes
hipótesis nula y alternativa:
Ha : n2 a 1 1 - n2 a1 2 :s; O , 05
H1 : n2 01 1 - n2 a 1 2 > O , 05
ESTADÍSTICO DE CONTRASTE: Bajo la condición en la que la hipótesis nula marca

un valor O para la diferencia de proporciones, la distribución muestra! de la diferen
cia de proporciones es la distribución normal, con media igual a O y el estadístico
de contraste es:
( P1 - P2 )- D ( O , 573 -0,45 )- 0,05

Z = ------;::::======== -----;:::============ = 2,265
P1 ( 1 - P1-)+--P2 ( 1--P2-) 0,573(1-0,573) 0,45 (1- 0,45 )
--- - -------'------ -
- - + ------
nl n2 468 480
REGLA DE DECISIÓN: Consultando la tabla de la distribución normal, la probabi

lidad de obtener un resultado como el observado (Z = 2,265), o más extremos (el
nivel crítico p) es 0,0119.
CONCLUSIÓN: Comparando el nivel crítico p obtenido con los niveles de signifi
cación habituales de 0,05 y 0,01 observamos que p = 0,0119 es menor de 0,05 pero
mayor de 0,01, por lo que rechazamos la Ha con un nivel de significación de 0,05.
INTERPRETACIÓN: La percepción del paro como principal problema ha disminui
do significativamente en 2012 en un porcentaje superior al 5% respecto de 2011
(Z = 2,265; p = 0,0119).
SITUACIÓN 15. Uno de los factores comunes en diferentes estudios sobre la

predicción del riesgo de violencia grave en la pareja, es el consumo de drogas por
parte de alguno o ambos miembros de la pareja {Campbell, 2007). En una investi
gación publicada bajo el título: «Variables psicosociales y riesgo de violencia grave
en parejas con abuso de sustancias tóxicas y maltrato previo» (Amor y cols., 2012),
94

lOMoARcPSD|1944486
se aplicaba la Escala de Predicción del Riesgo de Violencia Grave contra la Pare

ja-Revisada {EPV-R) para evaluar el grado de riesgo de violencia grave en función
del consumo de sustancias tóxicas dentro de la pareja. Para ello, se seleccionaron
dos grupos: a) parejas en los que ambos miembros consumían sustancias tóxicas,
y b) parejas en los que solo consumía sustancias tóxicas la persona agresora. Los
resultados mostraron que hay una probabilidad diferente de violencia grave (t =
2,30; p = 0,024) en aquellas parejas en las que ambos consumen sustancias tóxicas
(N = 44; Y = 20,86; Sn-l = 9,41) en comparación con aquellos casos en los que qu�n
consume sustancias tóxicas es exclusivamente la persona que agrede (N = 36; Y =
16,19; sn-l = 8,51).
Con los datos de este estudio:
15.1. Indique cuáles son la variable dependiente e independiente de este estu
dio.
15.2. El tipo de contraste que se ha aplicado.
15.3. Calcule el estadístico de contraste para comprobar si las muestras provie
nen de poblaciones con varianzas iguales.
15.4. Indique el tipo de contraste que se aplicaría para analizar «el grado de ries
g o de violencia g rave en función del consumo de sustancias tóxicas dentro
de la pareja».
15.5. Interprete la significación de los resultados mostrados por Amor y colabo
radores.
15.6. A partir de los resultados de Amor y cols. (2012) calcule e interprete los
límites del intervalo de confianza para la diferencia de medias, con un nivel
de confianza del 95%.
15.7. Con los datos de la investigación. de Amor y cols., calcule e interprete el
índice «d» de Cohen para cuantificar el tamaño del efecto.
SOLUCIÓN:
15.1. Lo que se ha medido en ambos grupos de parejas (aquellas en las que ambos
miembros consumen sustancias tóxicas y aquellas en donde sólo las consume
el agresor) ha sido el EPV-R, que es la escala aplicada y constituye la variable
dependiente. Consideramos esta escala como cuantitativa y medida en una
escala de intervalo. Esta variable «depende» del consumo de sustancias tó
xicas (la variable independiente, en este caso de tipo cualitativo) que nos ha
permitido clasificar las parejas en dos grupos.
95

lOMoARcPSD|1944486
15.2. Para comparar los resultados obtenidos por los dos grupos de parejas en los
resultados obtenidos en la Escala de Predicción del Riesgo de Violencia Gra
ve contra la Pareja-Revisada (EPV-R} se aplica un contraste paramétrico para
muestras independientes (si en una pareja consumen ambos miembros sus
tancias tóxicas se clasifica en un grupo y si consume solamente el agresor se
clasifican en el otro grupo, es decir, nunca pueden coincidir) y el contraste es
paramétrico ya que se trata de una «t».
15.3. Para contrastar la hipótesis de si las muestras provienen de dos poblaciones

con la misma varianza aplicamos el estadístico F de Snedecor que se distribu
ye con n 1 - 1 y n 2 - l gl, siendo n 1 y n 2 los tamaños muestrales de los que se
obtienen las varianzas del numerador y denominador:
"2
9 412
F = �2 = ' 2 = 1 223
"
52 8 ' 51 '
Como clasificar a un grupo como «primero» (subíndice 1) o como «segundo»

(subíndice 2} es arbitrario, se recomienda colocar el de menor varianza en el deno
minador de la razón F para que este valor sea superior a la unidad. En las tablas de la
distribución F con 43 y 35 gl, el nivel crítico p asociado a este estadístico de contras
te es superior a 0,10 (obsérvese que la F para 0,90 con 40 y 30 grados de libertad,
los más cercanos a 43 y 35, vale 1,573 que resulta superior a 1,223}.
15.4. Para analizar «e/ grado de riesgo de violencia g rave en fun ció n del con sumo
de sustan cias tóxicas den tro de la pareja» se aplica un contraste bilateral de
diferencia de medias, ya que el investigador no marca «a priori» el sentido de
la diferencia que espera encontrar.
15.5. Los resultados encontrados por Amor y cols. (2012} son t = 2,30 con una p =
0,024 luego 1 - 0,024 = 0,976 que en términos porcentuales es 97,6%, lo que
significa que hay una seguridad del 97,6% de que las diferencias encontradas
sean significativas.
15.6. A partir de los resultados de Amor y cols. (2012}, los límites del intervalo de
confianza para la diferencia de medias, con un nivel de confianza del 95% son:
96

lOMoARcPSD|1944486
2 2 O , 637
( 44-1 )9, 41 +( 36 -1)8, 51 1 1
= ( 20,86 -16,19 ) ± 1,99 · (- +-J -H
44+36-2 44 36 8,703
Por tanto, a partir de la información obtenida inferimos que la diferencia de

medias poblacional es un valor comprendido entre 0,6373 y 8,703. Este resultado
indica que si quisiéramos contrastar la hipótesis de si existen diferencias significati
vas entre las medias formulando las hipótesis:
Ha : µ1 -µ1 = O
H1 : µ1 -µ2 ::;t O
La conclusión sería rechazar la Ha ya que el intervalo de confianza no incluye el

valor O de «diferencia nula» entre las medias poblacionales.
15.7. El índice «d» de Cohen es un índice de tamaño del efecto y su cálculo es:
I Y N -Y A l ¡20,86 -16,191
d = ----;:::========= ----;:::========== = 0,52
A2 A2 2 2
( nN -1)5 N +( nA -1)5 A ( 44-1 )9, 41 · ( 36-1)8, 51
n +n -2
A
44 +36 -2
N
El valor de la «d» de Cohen es un índice estandarizado que señala que l_ a diferen

cia entre 16,19 y 20,86 en la variable dependiente es 0,52 expresada en unidades
de puntuaciones típicas. Si buscamos en la Tabla la probabilidad asociada a una Z =
0,52 obtendremos que deja por debajo una proporción de 0,6985, lo que indica una
probabilidad superior de 1 - 0,6985 = 0,3015, es decir, que el nivel de riesgo de vio
lencia grave es aproximadamente un 30,15% superior en parejas en los que ambos
miembros consumen sustancias tóxicas respecto a la media del grupo de parejas en
los que solo consume el agresor.
97

lOMoARcPSD|1944486
16,19 20,86
Media d e l grupo e n el
/ "" Media del grupo en el
que solo consume u n z = 0,5 178 "" q u e consu m e n los dos
m i e m b ro d e la pareja . m i e m b ros de la p a reja .
SITUACIÓN 16. «Uno de los mejores indicadores de la salud psicoló gica es el

auto-concepto (Esnao/a, Gañí y Madariaga, 2008} que hace referencia a la idea u
opinión que cada persona tiene de sí misma». En una investigación realizada por
Esnaola y Revuelta (2009) con una muestra de 300 jóvenes de la Comunidad Autó
noma Cántabra y País Vasco se analizan las relaciones entre la actividad ñsica y el
auto-concepto. La edad media fue de 18,64 años y la desviación típica igual a 3,51
años. Por sus respuestas a un cuestionario sobre prácticas físico-deportivas el 69%
fueron clasificados como activos frente al resto que fueron clasificados como inac
tivos. En la escala de auto-concepto físico, la media y desviación típica insesgada de
los inactivos fue de 22,41 y 4,1 respectivamente y en el grupo de activos, de 23,7
y 4,83. El investigador quiere comprobar si existen diferencias significativas en la
escala de auto-concepto físico entre los sujetos activos e inactivos y el tamaño del
efecto de la actividad física sobre el auto concepto.
SOLUCIÓN:
Del enunciado extraemos la siguiente información:
-
Muestra total: n =300, Y edad =18,64; sedad =3,51; PActivos =0,69 � P¡nactivos = 0,31
Escalas de auto concepto:
98

lOMoARcPSD|1944486
69% 0,69 X 300 = 207 23,7 4,83
31% 0,3 1 X 300 = 93 22,41 4,1
CONDICIONES Y SUPUESTOS: En este estudio, la variable independiente es la

actividad física que se evalúa mediante un cuestionario y que se utiliza para dividir
a los sujetos en dos grupos: activos e inactivos. La variable dependiente es el auto
concepto que se mide con un cuestionario y es una variable medida en una escala
de intervalo. Se trata de un diseño de dos muestras independientes que provie
nen de poblaciones con varianzas desconocidas y habrá que comprobar si estas
muestras provienen de dos poblaciones con varianzas iguales o distintas, por lo que
formulamos las siguientes hipótesis previas al contraste principal sobre las medias.
HIPÓTESIS: Como paso previo al contraste de medias, hay que comprobar si las
muestras provienen de poblaciones con la misma varianza, para lo que formulamos
las siguientes hipótesis (A significa «Activo» e I significa «Inactivo»):
H0 : cr A = cr,
H1 : ª A * ª1
O bien:

99

lOMoARcPSD|1944486
REGLA DE DECISIÓN: Como el investigador no fija un nivel de confianza, buscare

mos el nivel crítico p que corresponde al estadístico de contraste obtenido, F = 1,38.
En la tabla de la distribución F no figuran de forma expresa, los grados de libertad
del numerador (n - 1 = 207 - 1 = 206) y los del denominador (n - 1 = 93 - 1 = 92), por
lo que lo buscaremos por aproximación a los grados de libertad más aproximados
que son 120, para el numerador y 120 para el denominador. En un contraste bilate
ral, para un nivel de confianza del 99%, el valor que aparece en la tabla es 1,606 y
para un nivel de confianza del 95% es 1,433. Como el estadístico de contraste (F =
1,38) no alcanza estos valores críticos, el nivel crítico p del estadístico de contraste
obtenido es p > 0,05.
1,433 1,606
F = l,38; p > 0,05
CONCLUSIÓN: No se puede rechazar la Ha ya que el nivel crítico p del estadístico

de contraste F = 1,38 es p > 0,05.
INTERPRETACIÓN: Las dos muestras provienen de poblaciones con la misma
varianza (F = 1,38; p > 0,05).
Para realizar el contraste de hipótesis sobre las medias se añade, a las CONDI
CIONES Y SUPUESTOS anteriores, el hecho de que las dos muestras provienen de
poblaciones con la misma varianza.
HIPÓTESIS: El investigador quiere comprobar si existen diferencias significativas
en la escala de auto-concepto físico entre los sujetos activos e inactivos. Como no
indica el sentido positivo o negativo de la diferencia, se formula un contraste bilate
ral con las siguientes hipótesis nula y alternativa:
Ha : µ A = µ¡
H1 : µA :;t: µ,
100

lOMoARcPSD|1944486
O bien:
Ha : µA -µ/ = 0
H 1 : µA -µ , :;t: 0

desconocidas pero iguales (contrastado en el punto anterior) es la distribución t de
Student con gl n 1 + n 2 - 2 gl:
(Y A -Y , ) -(µA -µ, ) ( 23,7-22,41 )- 0

T = -;:::=======================
"2 "2
( nA -l)SA +( n, -1 )5 , 206 · 4,832 +92 ·4,1 2 -1 -
( +_!_ J
+ _!_ 207 +93- 2 207 93
nA +n1 -2 n1 n2 J
(_!_
=2,238 � 2,24
REGLA DE DECISIÓN: En la tabla de la distribución t de Student y con n 1 + n 2 - 2 gl

buscamos el nivel crítico para el estadístico de contraste T = 2,24. A partir de 100 gl
la distribución t se aproxima a la normal, por lo que deberemos recurrir a la tabla de
la distribución normal tipificada de puntuaciones Z para determinar la probabilidad
de encontrar valores más extremos de 2,24 de un contraste bilateral. Esta probabi
lidad es de 0,0125 a cada lado.
-2,24 +2, 24
CONCLUSIÓN: Como el nivel crítico p es mayor de 0,01 rechazamos la Ha con un

nivel de confianza del 95%.
TAMAÑO DEL EFECTO: El índice d de Cohen estima la magnitud del efecto o rela
ción entre la actividad física y el auto concepto y vale:
101

lOMoARcPSD|1944486
IYA - Y1 I 123, 7 -22,411

d = -----;::::==:::::::::======= ----======== = 0,279 � 0,28
--- 2 --- 2
( nA -1)5 A +( n1 -1)5, 206·4,832 + 92 · 4,1 2
n +n -2 207+93 -2
A 1
Esto indica que el 61,03% de los sujetos activos tienen un auto concepto que su
pera la media de los sujetos inactivos. Un 38,97% de los sujetos activos no alcanzan
la media del nivel de auto concepto de los sujetos inactivos.
M edia de los 2 2,41 23, 7 Media de los

sujetos i n a ctivos --- sujetos activos
d = 0,28
INTERPRETACIÓN: La actividad física influye sobre al auto concepto que los suje
tos tienen sobre sí mismos, de forma que los sujetos activos tienen un auto concep
to superior que las personas inactivas (T = 2,24; p < 0,025; d = 0,2794).
SITUACIÓN 17. « El Prog rama Internacional para la Evaluación de la Competen

cia de los Adultos del 2013 {PIAA C, por su sigla en Inglés) sitúa a España en los últi
mos puestos entre los países de la OCD E, solo por encima de Italia en comprensión
lectora. Los españoles examinados de entre 15 y 65 años obtuvieron en compren
sión lectora una media igual a 252 puntos, 21 por debajo de la media de la OCD E
y 19 por debajo de la media de la UE. Entre sus conclusiones destaca la estrecha
relación entre los niveles de comprensión lectora de los adultos y sus posibilidades
de encontrar trabajo». Imagine que, ante estos resultados, usted diseña un trabajo
con una muestra de jóvenes de su localidad con el fin de comprobar:
17.1. Si el nivel de comprensión lectora de los jóvenes con empleo es significati
vamente mayor que la de los jóvenes desempleados.
17.2. Si la proporción de empleados entre los jóvenes de su localidad supera en
más de quince puntos porcentuales a la proporción de desempleados.
102

lOMoARcPSD|1944486
Para ello, selecciona una muestra de 182 jóvenes de su localidad con edades
comprendidas entre 25 y 34 años, de los que el 33,5% están en situación de des
empleo, y les aplica la misma prueba. La media y desviación típica insesgada de
los desempleados es de 251 y 115, respectivamente, frente a 289 y 92 de los que
tienen empleo.
A partir de los datos del enunciado, tenemos la siguiente información: Número
de sujetos 182 jóvenes, de los cuales:
Desempleados 33,5% 61 251 115
Empleados 66,5% 121 289 92
17.1. Para el primer contraste seguiremos los siguientes pasos:
CONDICIONES Y SUPUESTOS: La variable independiente es la situación laboral,

de naturaleza dicotómica, con los que forma dos grupos, empleados y desemplea
dos, a los que pasa una prueba de comprensión lectora (la variable dependiente)
que es de naturaleza cuantitativa y medida en una escala de intervalo. Se desco
noce la forma de la distribución de esta variable en la población y sus varianzas. Se
trata, por tanto, de un diseño de dos muestras independientes y antes de realizar
un contraste sobre las medias, debemos comprobar si las muestras provienen de
poblaciones con la misma varianza para lo que formulamos las siguientes hipótesis
previas:
HIPÓTESIS:
=
Ha : cr f cro
H1 : cr f *- ªo
O bien:
103

lOMoARcPSD|1944486

"2
S o 1152
F=- = -- = 1 562
s!
922
REGLA DE DECISIÓN: En la distribución F con 61 - 1 = 60 y 121 - 1 = 120 grados

de libertad figuran los valores 1,53 que deja por debajo una probabilidad de 0,975
(y por encima de 0,025) y el valor 1,656 que deja por debajo una probabilidad de
0,99 y por encima de 0,01. Puesto que el estadístico de contraste se encuentra en
tre estos dos, el nivel crítico p es menor que 0,025 x 2 = 0,050 y mayor de 0,01 x 2
= 0,02 por ser un contraste bilateral:
------- p = 0,025
------ p = 0,01
F = 1, 5 6 2
0 , 0 1 < p < 0,025
CONCLUSIÓN: Se rechaza la H0 con un nivel de confianza del 95%.

INTERPRETACIÓN: Podemos admitir que las dos muestras provienen de pobla
ciones con distintas varianzas (F = 1,562; p < 0,025)
Para realizar el contraste de hipótesis sobre las medias se añade, a las CONDI
CIONES Y SUPUESTOS anteriores, la condición de que las dos muestras provienen de
poblaciones con distinta varianza.
HIPÓTESIS: El investigador quiere comprobar si el nivel de comprensión lectora
de los jóvenes con empleo es significativamente mayor que la de los jóvenes des
empleados para lo que formula un contraste unilateral derecho con las siguientes
Ho : µ E � µo
H1 : µ E > µ o
104

lOMoARcPSD|1944486
O bien:
Ha : µ E - µo � o
H1 : µ E - µo > 0

desconocidas pero distintas (contrastado en el punto anterior) es la distribución t
de Student y el estadístico de contraste es:
Siendo el error típico de la distribución muestra! de la diferencia de medias:
"2 "2
5 1 52 115 2 922
- +- = - - +- =16 94
n1 n2 61 121
Con lo que el valor del estadístico de contraste es:
( 2_
__;_ s__2_
9- 1)_
s_______:c o
-_
= 2 24
16,94
Que se distribuye según la distribución t de Student con los grados de libertad

ajustados mediante la corrección de Welch:
g. /.
l! �r+
=
(� + *r =99, 77 = 10º
92fi
( mXS ( 21 J
r
_;___ r + ( sx
( sK-'---- +
n1 - 1 n2 - 1
61 - 1 121 - 1
105

lOMoARcPSD|1944486
REGLA DE DECISIÓN: En la distribución t con 100 gl, el estadístico t = 2,24 se

encuentra entre los valores 1,984 y 2,364 que dejan por encima una probabilidad
de 0,025 y 0,01 respectivamente. Por tanto, al valor t = 2,24 le corresponde un nivel
crítico mayor que 0,01 y menor que 0,025.
t = 2,24
CONCLUSIÓN: Se rechaza la Ha con un nivel de confianza del 95%, pero no se

puede rechazar con un nivel de confianza del 99%.
INTERPRETACIÓN: El nivel de comprensión lectora de los jóvenes con empleo es
significativamente mayor que la de los jóvenes desempleados (T = 2,24; p < 0,025).
17.2. Para el segundo contraste seguiremos los siguientes pasos:
CONDICIONES Y SUPUESTOS: Se trata de un diseño de dos muestras indepen

dientes en las que la variable la variable dependiente es de naturaleza dicotómica
con distribución binomial. Como se utiliza muestras grandes, la distribución bino
mial se aproxima a la normal.
HIPÓTESIS: Si quiere contrastar la hipótesis de que la proporción de empleados
entre los jóvenes de su localidad supera en más de quince puntos porcentuales a la
proporción de desempleados para lo que se formulan las siguientes hipótesis nula
y alternativa:
H a : nE - n0 :S 0,15
H1 : nE - n0 > O , 15
ESTADÍSTICO DE CONTRASTE: Al tratarse de muestras grandes, la distribución

muestra! de la diferencia de proporciones se aproxima a la distribución normal,
siendo el estadístico de contraste:
106

lOMoARcPSD|1944486
P1 ( 1 - P1 )+ P2 ( 1 - P2 ) 0,335 ( 1 -0,335) 0,665 ( 1 -0,665)

---- = ------ + =0,074
n1 n2 61 121
REGLA DE DECISIÓN: Como el investigador no ha establecido un nivel de con

fianza previo, buscamos el nivel crítico p correspondiente al estadístico de contraste
obtenido. En la tabla de la distribución normal, el valor de Z = 2,43 deja por debajo
una probabilidad de 0,9925 y por encima de 1 - 0,9925 = 0,0075.
CONCLUSIÓN: El nivel crítico obtenido es menor que los niveles de significación
habitualmente utilizados en psicología (p = 0,0075 < 0,01}, por lo que rechazamos
la hipótesis nula.
INTERPRETACIÓN: la proporción de empleados entre los jóvenes de la localidad
supera en más de un 15% a la proporción de desempleados (Z = 2,43; p = 0,0075}.
SITUACIÓN 18. Chaves y Noguera (2008} estudiaron la inserción laboral de los

titulados en Psicología de cinco promociones consecutivas (desde 2002 hasta 2006}
en una muestra de 531 titulados. Para las tres primeras promociones (Grupo l}, el
74% de los sujetos estaban trabajando 6 meses después de haber finalizado sus
estudios (n 1 = 319}, mientras que para las dos últimas promociones (Grupo 2}, el
índice de inserción laboral fue igual al 80% (n 2 = 212}. Se pretende contrastar si la
inserción laboral difiere entre las tres primeras y las dos últimas promociones.
SOLUCIÓN:
parar si la inserción laboral difiere entre dos grupos diferentes de promociones de
estudiantes de Psicología. La variable independiente es el año de promoción y la
variable dependiente es la inserción laboral que es una variable dicotómica con
distribución binomial. Realizará un contraste de diferencias de proporciones con
muestras independientes. La distribución muestra! de la diferencia de proporciones
es una distribución binomial pero como el investigador utiliza muestras grandes, la
distribución binomial se aproxima a la normal.
HIPÓTESIS: El investigador quiere comprobar si la inserción laboral difiere entre
las tres primeras y las dos últimas promociones. Como el investigador no está mar-
107

lOMoARcPSD|1944486
cando la dirección de la diferencia formula un contraste bilateral con las siguientes

Ha : n: G1 = n: G 2
H1 : n: G l 1:- n: G 2
O bien:
Ha : n: G1 - n: G 2 =0
H1 : n: G l - n: G 2 *- 0

porciones para dos muestras independientes utilizando muestras grandes es la dis
tribución normal y el estadístico de contraste es:
n n
siendo: p= G1 PG1 + G1 PG 2
n1 +n2
Y su valor, es:
-J
319 · 0,74+212·0,80 ( O , 74- O , 80 )- O
P= =0 764 Z= = -1 59
319+212 1 1
0, 764 ( 1- 0, 764 )( - - + -
319 212
REGLA DE DECISIÓN: En la tabla de la distribución normal buscamos la proba

bilidad de encontrar valores tan extremos o más que el valor Z = -1,59, es decir, la
probabilidad de P (Z < -1,59) = 0,0559. Como se trata de un contraste bilateral el
nivel crítico es p = 0,0559 x 2 = 0,1118.
108

lOMoARcPSD|1944486
Z = -1,59 Z = +1,59
CONCLUSIÓN: Como el nivel crítico p = 0,1 1 18 es mayor que el nivel de significa

ción a de 0,05 no hay evidencia suficiente para rechazar la hipótesis nula.
INTERPRETACIÓN: La inserción laboral no difiere significativamente entre los dos
grupos de promociones de estudiantes de Psicología (Z = -1,59; p = 0,1 118).
109

lOMoARcPSD|1944486

lOMoARcPSD|1944486
BLOQU E 1 1 1
Aná l isis de datos en los d iseños

de tres o más m uestras:
el anál isis de varia nza

lOMoARcPSD|1944486

lOMoARcPSD|1944486
Sol uciones a l os ejercicios

de los ca pítu l os 5, 6 y 7
-
SITUACIÓN l. Las puntuaciones obtenidas por dos grupos de diez alumnos cada
-
grupo, en el test de inteligencia Y, son las siguientes:
40 46 35 17 11 22 20 31 18 22
20 10 20 15 18 6 12 12 6 11
l. Calcule el estadístico F del análisis de varianza entre los grupos

2. Calcule el estadístico de contraste t para dos medias independientes y com
pare el resultado con el obtenido en el apartado anterior.
SOLUCIÓN:
1.1. Tal como se pide en el enunciado del problema, vamos a calcular el estadístico
F. Para ello, previamente, elevamos al cuadrado cada una de las puntuaciones
de los grupos A y B y sumamos, por columnas, todas las puntuaciones.
113

lOMoARcPSD|1944486
----
40 1600 20 400
46 2116 10 100
35 1225 20 400
17 289 15 225
11 121 18 324
22 484 6 36
20 400 12 144
31 961 12 144
18 324 6 36
22 484 11 121
262 8004 130 1930
Con los resultados de esta tabla, tenemos que:
¿¿\ =262+130 = 392

¿¿Y;J = 8004 +1930 =9934
Y calculamos las sumas de cuadrado total, intergrupos e intragrupos:
2
Y
- ( í: L )
1 3922
SCTotal= LLYí 1 = 9934- -- =9934 -7683,2=2250,8
] N 20
2 2
SC/nter = L ( IYíj ) J - (I í:Yíj ) = [ -
262 --
-+
130 392
J - -- =871,2
2 2 2
[ n N 10 10 20
¡
SC/ntra = SC Total -SC/nter =2250,8 -871,2 = 1379,6
Con estos datos, construimos la tabla resumen del ANOVA unifactorial para ob
tener el estadístico F.
114

lOMoARcPSD|1944486
Soluciones a los ejercicios de los capítulos 5, 6 y 7 •
F.V. s.c. g.l. M.C.

lnterG rupos 871,2 1 871,2 11,36
lnt ra G ru pos 1379,6 18 76,64
Tota l 2250,8 19
Y el valor del estadístico es F = 11,36

a) Calculamos, ahora, el estadístico t para dos muestras independientes:
e A - Ya ) - (µ A - µa )
T = --;=================----
Para lo que obtenemos las medias, varianzas y cuasi-varianzas de cada grupo:

-
YA =262 / 10 = 26,2
"y.? - 2 8004
Si = -
�-'l -YA = -- -26, 22 =113,96
nA 10
A2 n 10
Cuasi-varianza: S A = -- SA2 = -- 113,96=126,62
n -1 10 - 1
-
Ya =130 / 10 = 13
Y¡
5� = ¿ J - Y� = 1930 _ 132 =24
na 10
A2 n 10
Cuasi-varianza: Sa = -- 582 = -- 24=26,67
n -1 10 - 1
Y el valor del estadístico T, es:
( 26,2 -13)-o
T= =3 37
( 9 )( 126 , 6 2) + ( 9 )( 26 , 67 ) 1 1
� +
18 10 10
115

lOMoARcPSD|1944486
Comparando ambos resultados, tal como nos pedía el enunciado del problema,
comprobamos que t2 = F. :
(3,37) 2 = 11,36
Y recordamos que, siempre que tengamos dos grupos independientes, se cum

ple la igualdad de t2 = F entre el resultado del análisis de varianza y del estadístico t.
SITUACIÓN 2. Aplicando tres métodos de educación compensatoria a tres

muestras aleatorias de una determinada población se obtuvieron los siguientes re
sultados:
l�RIII 2 4 3 8 6 7 3 5 7 5
l�1Rl:I 5 6 5 9 7 10 5 7 9 7
l�rarn;,. 2 3 4 1 4 6 2 3 5 o
Sabemos que las observaciones son independientes, las varianzas homogéneas

y la variable se distribuye normalmente. El investigador quiere probar que los tres
métodos producen resultados distintos pero, sobre todo, considera que le interesa
ver la diferencia entre el método B y los demás, dado que está especialmente inte
resado en ese método.
SOLUCIÓN:
CONDICIONES Y SUPUESTOS: Dado que tenemos tres muestras independientes,
vamos a aplicar un análisis de varianza de un solo factor. El enunciado dice que se
cumplen los supuestos de independencia de las observaciones, normalidad de las
distribuciones y homogeneidad de las varianzas que son los que exige el ANOVA
unifactorial.
HIPÓTESIS ESTADÍSTICAS: Como solo hay un factor, solo podemos formular una
hipótesis para comprobar si la variable independiente, el método de educación, con
sus tres niveles (A, B y C), influye sobre los resultados. Si los métodos son igual de
eficaces, entonces las medias serán iguales, por lo que las hipótesis nula y alterna
tiva son:
116

lOMoARcPSD|1944486
Ha : µA = µa = µe
H1 : µA * µ8 * µe al menos para una µ¡
F =_
M_C_
in_
te_
r
MCintra
------
Para el cálculo de las sumas de cuadrados, sumamos todas las puntuaciones y
sus cuadrados, que figuran en la siguiente tabla:
2 4 5 25 2 4
4 16 6 36 3 9
3 9 5 25 4 16
8 64 9 81 1 1
6 36 7 49 4 16
7 49 10 100 6 36
3 9 5 25 2 4
5 25 7 49 3 9
7 49 9 81 5 25
5 25 7 49 o o
50 286 70 520 30 120
¿¿Y;] (¿¿\ )- 2 2
1 ( s o+70 + 3 o)
SC Tota/ = ---
' = ( 286+520+120)- = 926 -750 = 176
N 30
( ¿Y;j )2 - ( ¿¿Y;j )2 ( so + 70 +3 0 -
SC!nter = ¿ [ =¿
2 2 2
J J 750 = 80
n ¡ N 10
SC!ntra = SC Total -SC!nter =176- 80=96
Con estos datos, completamos la tabla y obtenemos el estadístico F
117

lOMoARcPSD|1944486
F.V. s.c. g.l. M.C.

lnter 80 2 40 11,26
lntra 96 27 3,55
Tota l 176 29
REGLA DE DECISIÓN: El valor crítico que obtenemos en

2
las tablas de la distribución F para 2 y 27 grados de libertad
1 161,448
con un nivel de confianza del 95%, no figura expresamente
2 18,513 en la tabla. Sólo podemos conocer dos valores entre los
3 10,128
que se encuentra el valor buscado:
4 7,709
6,608 5, 86
6 5,987 5, 43
F 2 , 2 0 = 3,493
7 5,591 4, 37
8 5,318 4, 59 F 2 , 3 0 = 3,316
17 4,451
18 4,414 Si tuviéramos que optar por un valor elegiríamos el más
19 4,381
20 4,351 cercano a los grados de libertad nominales. En este caso,
30 4,171 27 grados de libertad están más cerca de 30 que de 20 por
60 4,001 3,150
120 3,920 3,072
lo que aceptaremos 3,316. El estadístico de contraste ob
tenido, 11,26 supera ampliamente ambos valores.
CONCLUSIÓN: Rechazamos la hipótesis nula porque el valor del estadístico de
contraste (11,26) supera el valor crítico que representa la máxima diferencia que
cabe esperar por simple azar entre los dos grupos.
INTERPRETACIÓN: Con un nivel de confianza del 95% debemos considerar que
al menos dos de los tres métodos de educación compensatoria influyen de forma
distinta en los resultados obtenidos.
COMPARACIONES MÚLTIPLES: Dado que hemos rechazado la hipótesis nula,
realizaremos las comparaciones múltiples, primero entre las tres medias, para ver
entre qué métodos se encuentra la diferencia y para poder contestar a la pregunta
del investigador a quien le interesa ver la diferencia entre el método B y los demás,
dado que está especialmente interesado en ese método realizaremos la compara
ción del método B contra los métodos A y C juntos.
CRsch effé �( k - 1) Í( k-l)glerror MCerror [ z:[� JJ
118

lOMoARcPSD|1944486
Donde, n = 10 (modelo equilibrado) k = 3 YA = 5 Y 8 = 7 Y e = 3 MCe rror = 3,55

y el F crítico obtenido en las tablas ha sido !2 , 3 0 = 3,316 (aunque el valor exacto que
se puede obtener con un programa informático es: f2 , 2 7 = 3,35)
Coeficientes para las comparaciones:
Comparaciones Coeficientes
Ay B 1 -1 o
AyC 1 o -1
ByC o 1 -1
B y ( A+ C ) -1 2 -1
1
CRs,h etté �( 3 -1){ 3, 316 ) ( 3, 55)( (� + J J = ( 2, 575)( 0, 843) = 2, 17
1 10
Este valor, 2,171, es la mínima diferencia que puede producirse entre dos me
dias para que no sea significativa. Cualquier diferencia mayor, sería significativa al
nivel de significación establecido.
IA -BI=1 5 -71 =2 < 2,17

IA -C I =1 5 -31 = 2 < 2,17
la - el=17 -31=4 > 2,17
Vemos, pues, que sólo la diferencia entre el método B y el C es significativa pero
no entre A y B o A y C que no superan la máxima diferencia de Scheffé.
Si comparamos, como quiere el investigador, el método B con los otros dos jun
tos, el contraste tendrá que combinar los grupos A y C y compararlos de manera
conjunta, como si fueran un único grupo, con el grupo B, de tal forma que la hipó
tesis nula tendrá la siguiente expresión:
Que también se podría reescribir de la siguiente forma:
119

lOMoARcPSD|1944486
• Ejercicios y p roblemas resueltos y comentados. Diseños de investigación y análisis de datos
O de esta otra, si utilizamos números enteros:
De la formulación de la hipótesis y respetando este orden, los coeficientes a utili

zar pueden ser : (1; -0,5:-0,5) o bien (2, -1; -1), o bien (-1; 0,5; 0;5) o cualquier otra
combinación que respete las condiciones de que los grupos A y C tengan coeficien
tes con el mismo signo, el grupo B tendrá el signo contrario e igual a la suma de los
coeficientes de los otros grupos, de forma que la suma de todos ellos sea «nula», es
JJ
decir, valga O , para finalmente aplicar la expresión de la prueba de Scheffé:
2 2
2 2 ( -1 ) ( -1 )
CRscheffé �( 3 -1)(3 , 3 16 ) ( 3 ,55)[[ - +-- +-- = ( 2, 575)( 1,46 ) = 3 ,76
10 10 10
/ ( 2 )Y a +(-l)Y A + (-l)Yc / = l ( 2 )( 7 )+(-1)( 5)+(-1)(3)j =6 > 3 , 76
Por lo tanto vemos que el Método B produce resultados significativamente dis

tintos que los métodos A y C tomados conjuntamente.
SITUACIÓN 3. Se realizó un estudio para evaluar el efecto de la falta de sincro

nía entre las claves visuales y auditivas en la retención de palabras habladas. Para
ello se asignaron aleatoriamente 3 0 sujetos a tres grupos distintos (10 sujetos en
cada grupo). A cada grupo se le mostró una película de una persona recitando una
lista de 50 palabras. Las condiciones que se manipularon fueron:
Grupo 1 (rápido): el sonido precedía a los movimientos de los labios.

Grupo 2 (normal): el sonido y el movimiento de los labios estaban en sincronía.
Grupo 3 (lento): Los movimientos de los labios precedían al sonido.
Asumiendo que se cumplen los supuestos del Anova, el investigador se planteó

si existían diferencias en la tasa de recuerdo promedio de palabras entre estos tres
grupos. Los resultados obtenidos fueron:
120

lOMoARcPSD|1944486
SSA = SSEntre_niveles = 233, 867 ; 555/ A = SSoentro_ nive/es = 535, 6 0
3.1. Contraste la hipótesis del investigador con un nivel de confianza del 95%.
3.2. Analice nuevamente los datos con un nivel de confianza del 99%.
SOLUCIÓN:
3.1. CONDICIONES Y SUPUESTOS: Se trata de un diseño experimental en el que
se ha manipulado una variable independiente (un único factor) que, en este
caso, es la sincronía entre el movimiento de los labios y el sonido cuando se
pronuncian palabras. En la vida real vemos a las personas hablando al mismo
tiempo que las oímos. No hay asincronía entre la voz y la imagen excepto en
condiciones anómalas de mal funcionamiento de los equipos informáticos. Sin
embargo también podemos introducir estas anomalías mediante técnicas in
formáticas para estudios como este. lnformáticamente es posible adelantar o
atrasar el sonido en relación al vídeo. La pregunta que se planteaban los inves
tigadores es en qué medida esta asincronía afecta a la memoria de las palabras
pronunciadas. Por consiguiente, la variable dependiente es una medida de la
memoria.
Finalmente, y según el enunciado, se asume el cumplimiento de los tres supues
tos: independencia, normalidad y homocedasticidad.
HIPÓTESIS: Las medias de recuerdo en las tres condiciones son idénticas.
Ha : µGrupal = µGrupa2 = µ Grupa 3

H1 : µ Grupal * µGrupa2 * µ Grupa 3 , para algún µ¡ * µj
En la hipótesis alternativa hemos introducido los subíndices i y j para indicar un
valor cualquiera de los que pueden adoptar las medias {Grupa l, Grupo2 y Grupo3).
Esta hipótesis puede leerse indicando que para algún valor de i y j distintos entre
sí (obviamente no tiene sentido comparar un grupo consigo mismo), sus medias
difieren. Como tenemos tres grupos, las comparaciones uno-a-uno sólo pueden ser
tres: Grupa l vs. Grupo2, Grupal vs. Grupo3 y Grupo2 vs. Grupo3.
ESTADÍSTICO DE CONTRASTE: El estadístico de contraste es la razón F entre la
variabilidad debida al factor manipulado y la variabilidad debida al error.
En el enunciado nos proporcionan dos sumas de cuadrados (SC), las cuales, jun
to con los grados de libertad que podemos deducir del diseño experimental y del
número de sujetos, nos permitirán construir la Tabla del Anova, que es la base de
121

lOMoARcPSD|1944486
• Ejercicios y problemas resueltos y comentados. Diseños de i nvestigación y análisis de datos
este análisis. Pero las SC nos las presentan como SS, lo cual no es problemático ya
que son los términos que se utilizan en inglés (SC = Sumas de Cuadrados, SS = Sum
of Squares). Es muy habitual la utilización de la terminología SS en los módulos
informáticos al uso. De la misma forma, a veces podremos ver el resto de términos
con sus iniciales inglesas. Así, MC = Medias Cuadráticas es idéntico a MS = Mean
Squares, mientras que gl = grados de libertad es idéntico a dof = degrees of free
dom.
- --
El diseño nos indica que tenemos un análisis factorial de un factor con tres nive
les. La tabla del anova será:
Fuentes de variación
lnter (factor manipulado) 233,867 1-1=3-1=2 116,934 5,895
lntra (error) 535,60 N - 1 = 30 - 3 = 27 19,837
__....:====:::=====::=::::
Total 769,467 N - 1 = 30 - 1 = 29
Hemos puesto en negrita y subrayado los datos proporcionados por el enuncia

do y el resto han sido extraídos según los siguientes cálculos:
SC 233, 867 =
.
MCmter = ;n te r = 116 , 934
g /in te r 2
SC 535,6 0
.
MCmtr a
= ;n tra = = 19 , 837
g /intra 27
MCin ter = 116 , 934
F= =5 89 5
MCintra 19 , 837
Por tanto, el estadístico de contraste F, vale aproximadamente 5,8 9.

REGLA DE DECISIÓN: Para determinar si esta variabilidad es superior a la que se
esperaría por azar debemos buscar en las tablas de la razón F con los mismos grados
de libertad del Anova (2 y 27 ) y con un nivel de confianza del 9 5%. Podemos obser
var que no se encuentra exactamente el valor con 2 y 27 grados de libertad. Sólo
podemos conocer dos valores entre los que se encuentra el valor buscado:
F2 , 2 0 = 3, 493
F2 , 30 = 3,316
122

lOMoARcPSD|1944486
Y ambos se encuentran por debajo del valor del estadístico de contraste calcula
do (5,895) por lo que no hay incertidumbre en la decisión a tomar.
CONCLUSIÓN: Debido a que la F empírica obtenida en la tabla del Anova (5,895)
es superior a las F críticas que hemos obtenido de las tablas, podemos rechazar H0
con un nivel de confianza del 95%.
INTERPRETACIÓN: Existen, al menos, dos grupos en el experimento cuyas medias
son diferentes (F = 5,895; p < 0,05). La razón F obtenida se dice que es un estadístico
global u ómnibus ya que sólo nos indica que existen diferencias significativas pero
no nos permite determinar entre qué par de grupos se producen estas diferencias.
Sería interesante realizar comparaciones a posteriori pero en este caso descono
cemos las medias de las muestras a comparar. No obstante, sí es interesante referir
los valores de los pesos, o coeficientes, para poner a prueba la hipótesis a poste
riori más interesante: que el recuerdo se muestra afectado por la asincronía de los
índices auditivos y visuales, sin importar su dirección. Es por ello que en este caso,
deberíamos comparar las condiciones «asincrónicas» versus las «no sincrónicas».
Vemos que los grupos 1 y 3 son condiciones asincrónicas y el grupo 2 es sincrónica.
Por ello, el contraste tendrá que combinar los grupos 1 y 3 y compararlos de manera
conjunta, como si fueran un único grupo, con el grupo 2. Para ello, y respetando
el orden (CoeficienteG rupo l ' CoeficienteG rupo 2 , CoeficienteG rupo 3 ), se pueden utilizar
-� ,1,- �) o cualquier otro

los coeficientes (-1, 2, -1 ) o bien ( f -1, �) o bien (
que respete las condiciones de que los grupos 1 y 3 tengan pesos con el mismo sig
no, el grupo 2 tenga el signo contrario y la suma de los coeficientes valga O.
3.2. Con un nivel de confianza del 99%, tanto los supuestos como la Tabla del Anova
son idénticas ya que el nivel de confianza sólo afecta al criterio de decisión.
CRITERIO DE DECISIÓN: Debemos consultar el valor de la F crítica en la Tabla de

la F con un Nivel de Confianza del 0,99.
123

lOMoARcPSD|1944486
P ( Fn n 5c fn n ) = 0, 9 9
Tenemos el mismo problema que hemos
discutido previamente cuando intentamos
l' 2 1' 2
2 3 4
encontrar el valor de la F crítica con 2 y 30
1 4052,181 5624,583
2 98,503 99,166 99,249 grados de libertad para un nivel de confian-
3 34, 1 16 29,457 28,710 za del 95%. Por consiguiente, tomaremos la
2 1, 198 16,694 15,977
5 16,258 12,060 11,392 misma decisión: aproximar al valor más cer-
cano según los grados de libertad. En este
11 9,646 6,217 5,668
n2 12 9,330 5,953 5,412 caso elegiremos F (2, 30} = 5,390. Sabemos
13 9,074 5,739 5,205 que el verdadero valor es un poco superior
14 8,862 5,564 5,035
15 8,683 5,417 4,893
a 5,390 pero sin llegar a 5,849 (se encuentra
16 8,53 1 5,292 4,773 en un punto entre ambos).
17 8,400 5,185 4,669
18 8,285 5,092 4,579 Observamos que incluso en esta situa-
19 8,185 5,010 4,500
ción, con un nivel de confianza tan elevado,
20 8,096 4,938 4,43 1
30 7,562 4,510 4,018 seguimos rechazando H0 ya que el estadísti-
60 7,077 4,977 4,126 3,649 co de contraste, 5,895 supera el valor crítico
120 6,851 4,787 3,949 3,480
5,390 que representa la máxima diferencia
que cabe esperar por simple azar.
SITUACIÓN 4. En la Tabla se presentan los datos referidos a las tasas de crimi

nalidad de distintas ciudades americanas. Las ciudades están clasificadas según su
especialización funcional: ciudades industriales, de servicio o administrativas. Nivel
de confianza: 95%.
Tipo de ciudad
Industrial Servicios Administrativa
4,3 5,1 12,5
2,8 6,2 3,1
12,3 1,8 1,6
16,3 9,5 6,2
5,9 4,1 3,8
7,8 3,6 7,1
9,1 11,2 11,4
10,2 3,3 1,9
¿Y 68,7 44,8 47,6

2
¿Y 725,81 324,04 405,28
124

lOMoARcPSD|1944486
Analice y extraiga las conclusiones de estos datos según el diseño apropiado.

¿Existen diferencias en la tasa de criminalidad entre las ciudades industriales y
las de servicios?
SOLUCIÓN:
Observamos que nos han proporcionado los datos directos de la variable depen
diente: Tasa de criminalidad. La unidad de observación es la ciudad (cada ciudad
tiene su propia tasa de criminalidad) y cada ciudad solo puede tener una única tasa
de criminalidad en un momento determinado. Además, considerando que las ciu
dades se han clasificado en tres categorías exhaustivas (industriales, de servicios o
administrativas) en función de su actividad comercial principal, cada valor numérico
proporcionado en la tabla solo puede pertenecer a una ciudad. Esto significa que te
nemos un factor de medidas o muestras independientes con tres niveles. Debemos
aplicar un Anova de medidas independientes con tres niveles.
CONDICIONES Y SUPUESTOS: Asumimos que el modelo es de efectos fijos ya
que sólo nos interesan los niveles concretos de ciudades expuestos en la Tabla. Los
supuestos son los propios del Anova (independencia de las observaciones, norma
lidad y homocedasticidad). La variable dependiente es de razón ya que es una tasa
cuyo valor O es significativo e indica ausencia de criminalidad.
HIPÓTESIS: La hipótesis nula afirma que no existen diferencias en las tasas de
criminalidad entre los tres tipos de ciudades, es decir:
Ho : µindus trial = µs ervicios = µadminis tra tiva
Frente a la alternativa que formula que existen diferencias significativas entre, al

menos, dos de ellas:
H 1 : µindus trial * µse rvicio s * µadm inistra tiva ; para al menos dos de ellas
ESTADÍSTICO DE CONTRASTE: Además, nos han facilitado los cálculos dándolos

los sumatorios de Y y de Y2 . A partir de los mismos debemos calcular las Sumas de
Cuadrados de la Tabla del ANOVA. En este ejercicio utilizaremos las razones básicas.
2
( 68, 7 +44, 8 +47, 6 ) 2 5.953,2
= 1081 38
8+8 +8 24
125

lOMoARcPSD|1944486
2
3
68,72 44 1 82 471 62
[A ] = ¿ ( l J = + + =589,961 + 250,88+283,22=1124,06
i= l n; 8 8 8
[ Y ] = ¿ ¿Y;J = 725,81+324,04 +405,28 = 1455,13
A partir de estos valores podemos calcular las sumas de cuadrados:
SCrota t = [ Y ] -[ T]=1455, 13-1081, 38 = 373, 75
SC1nter = [ A ] -[T] = 1 124, 06 - 1081, 38 = 42, 68
SCtntra = [ Y ] -[ A ] = 1455, 13- 1124, 06 = 331, 07
Verificamos que la SCtotat es la suma de las SCinte r y la SCintra · Y con estos valores
podemos construir la tabla del Anova (recordando que tenemos un diseño equili
brado con 3 x 8 = 24 unidades de observación en total y 3 niveles del factor).
Hemos obtenido en la Solución una razón F empírica de 1,35. El valor crítico de
la F al 95% de confianza con 2 y 21 grados de libertad no aparece exactamente en
la tabla del formulario, pero tenemos un valor muy aproximado (F2 , 20) cuyo valor
es 3,493.
REGLA DE DECISIÓN: Rechazaremos H0 si el valor de la F empírica obtenida con
nuestros datos y que aparece en la Tabla del Anova es superior a la F crítica obteni
da en las tablas de la F de Snedecor-Fisher para un nivel de confianza del 95%.
CONCLUSIÓN: Como el valor de la F empírica (el estadístico de contraste) es in
ferior al valor de la F crítica (1,35 < 3,493) no hay evidencia suficiente para rechazar
la H0.
Una consecuencia derivada de este resultado es que no es posible contestar
positivamente a la pregunta acerca de si existen diferencias entre las ciudades in
dustriales y las de servicios. Solamente en el caso en que hubiésemos rechazado H0
tendría sentido plantearse esta pregunta realizando la prueba de Scheffé.
INTERPRETACIÓN: No existe evidencia empírica para afirmar que la tasa de cri
minalidad depende del tipo de ciudad en que viven las personas.
SITUACIÓN S. Diversos estudios ponen de manifiesto que las enfermedades de

tipo alérgico se ven agravadas por la presencia de fuerte estrés. Además, la época
126

lOMoARcPSD|1944486
del año parece afectar de forma decisiva a la gravedad de los trastornos alérgicos.
En un estudio se ha utilizado una muestra aleatoria de 5 pacientes alérgicos (todos
con el mismo tipo de alergia) sometidos todos ellos a condiciones de alto estrés. Un
grupo de especialistas ha evaluado la gravedad de la alergia de cada paciente (en
una escala de O a 10) en los cuatro periodos estacionales: primavera, verano, otoño
e invierno. Para analizar estos datos, el investigador utilizó un ANOVA cuyas razones
básicas aparecen a continuación (utilice un a= 0,05):
[A X S]
910 852,5 940 845
Analice y extraiga las conclusiones de estos datos según el diseño apropiado.
SOLUCIÓN:
CONDICIONES Y SUPUESTOS: El estudio ha utilizado solo 5 participantes proce
dentes de una misma población caracterizada porque padecen alergia y alto estrés,
y ha medido la gravedad de la alergia (variable dependiente) en cuatro periodos
estacionales. Esto significa que para cada participante disponemos de 4 puntuacio
nes, una en cada periodo. Por consiguiente, se trata de muestras relacionadas o de
pendientes ya que las observaciones de cada estación pertenecen al mismo sujeto.
La variable manipulada ha sido el periodo estacional. Es un diseño de un factor de
medidas dependientes con 4 niveles: primavera, verano, otoño y verano.
Las condiciones que deben cumplir los datos son los propios correspondientes
a un diseño intra-sujetos:
1. La variable dependiente se encuentra medida a un nivel mínimo de intervalo.
Debido a que los especialistas han medido la alergia en una escala (asumimos
que continua) del O al 10, podemos afirmar se cumple el supuesto. Aunque
no podemos afirmar que si un especialista ha puntuado la alergia de un suje
to en una estación como cero significa ausencia absoluta de alergia ya que la
medición es subjetiva, al menos podemos confirmar el nivel de intervalo en
la medida de la variable dependiente.
2. Las puntuaciones de alergia en cada estación son independientes entre sí.
3. Las puntuaciones de alergia en cada estación deben distribuirse según la cur
va normal.
4. Las varianzas de las puntuaciones en alergia deben ser iguales entre sí.
S. Las covarianzas entre cada par de niveles del factor deben ser iguales entre sí.
127

lOMoARcPSD|1944486
HIPÓTESIS: La hipótesis nula que se pone a prueba es que no existen diferencias

en la alergia en función de los periodos estacionales.
Ha : µprim avera = µverano = µotoño = µinvierno
Mientras que la hipótesis alternativa afirma que, al menos para un par de esta
ciones, sí existen diferencias. Como existen 4 estaciones, se plantea que alguna de
las 6 comparaciones posibles es significativa, es decir, que en alguna de ellas (o en
varias) existen diferencias en la magnitud de la alergia.
H1 : µprim avera *µverano *µotoño * µinvierno al menos para un par de medias
ESTADÍSTICO DE CONTRASTE: Para el cálculo del estadístico de contraste, F, parti

mos de los datos que nos proporcionan en el enunciado. Estos son las razones básicas
del factor (A), de los sujetos (5), de la interacción entre ambos (AS) y del total (T). Con
ellas se pueden construir las Sumas de Cuadrados necesarias para construir la tabla
del Anova de grupos relacionados o dependientes. En la primera tabla hemos amplia
do las razones básicas con el cálculo de las Sumas de Cuadrados correspondientes.
Razón básica Fórmula de las se Cálculo de las se

[A]=910 SeA= [A] - [T] SeA = 910- 845 = 65
[S] = 852,5 ses = [S] - [T] ses = 852,5-845 = 7,5
[AxS] =940 SeAxS = [AxS] - [A] - [S] + [T] SeA xS = 940- 910- 852,5+845 = 22,5
[T] = 845 SeT = [AS] - [T] SeT = 940-845 = 95
Estos resultados nos permiten construir la tabla del Anova considerando que
-·
tenemos 4 niveles del factor (a = 4) y tenemos 5 sujetos (s = 5).
g.d.l.
•
Factor (A) 65 a-1=4-1=3 21,667 21,67 / 1,875=11,56
Sujetos {S) 7,5 s-1 = 5-1 = 4 1,875
7,5 1,875
(a.s) -a -s+l=
(4x5)-4-5+1=12
Error (AxS)
95 N-1 = 20-1= 19 5
128

lOMoARcPSD|1944486
El estadístico de contraste es la razón F con 3 y 12 grados de libertad a un nivel

de confianza del 95%. Según las tablas este valor es F3 ,12,95% = 3,490.
REGLA DE DECISIÓN: El valor crítico de la distribución muestra! es F = 3,490 y
observamos que el estadístico de contraste supera el valor crítico {11,56 > 3,490).
CONCLUSIÓN: Rechazamos H0 con un nivel de confianza del 95%
INTERPRETACIÓN: Existen, al menos, dos estaciones en las que los síntomas de
alergia de las personas difieren entre si (F = 11,56; p < 0,05).
SITUACIÓN 6. El director de la Escuela de Ajedrez estaba interesado en identifi

car la mejor estrategia de control de la atención (durante las partidas) para entrenar
a los alumnos en la utilización de la más adecuada. Se han estudiado tres estra
tegias: centrarse en estímulos internos (A), centrarse en estímulos externos (B) y
hacer una parada de pensamiento (C). El control de la atención se ha operativizado
mediante una variable fisiológica (variaciones en la actividad eléctrica de la piel). Se
seleccionó una muestra aleatoria compuesta por 45 jugadores de ajedrez, que se
asignaron al azar, y por igual, a cada una de las tres condiciones experimentales. Se
obtuvieron los siguientes resultados:
Media suma Y:LY
A 15 37 555 22350
B 15 34 510 18300
e 15 47 705 35295
Tras realizar todas las comprobaciones necesarias se concluyó que las observa
ciones eran independientes, las distribuciones normales y las varianzas homogé
neas y el investigador quiere comprobar si las estrategias de control de la atención
influyen sobre el rendimiento de los jugadores.
SOLUCIÓN:
CONDICIONES Y SUPUESTOS: Disponemos de una variable independiente (la
estrategia de control ) con tres niveles o valores y se quiere estudiar su influen
cia sobre la atención en los jugadores de ajedrez. Se forman al azar tres muestras
indpendientes de 15 sujetos cada una. Se trata, por tanto, de un diseño factorial
equilibrado en la que se cumplen los supuestos del ANOVA.
129

lOMoARcPSD|1944486
·
HIPÓTESIS ESTADÍSTICAS: Se trata de un contraste bilateral ya que el investigador
no ha establecido previamente que alguna estrategia produzca mejores resultados
que otra. La hipótesis nula establece que no existen diferencias entre los tres tipos
de estrategia, frente a la hipótesis alternativa de que, al menos, para un para de
estrategia sí existen diferencias significativas.
Ha : µA = µB = µe
H1 : µA *-µ8 *-µe¡, para algún par
ESTADÍSTICO DE CONTRASTE: Además, nos han facilitado los cálculos dándolos

los sumatorios de Y y de Y2 . A partir de los mismos debemos calcular las Sumas de
Cuadrados de la Tabla del ANOVA. En este ejercicio utilizaremos las razones básicas.
3. 1A¡ )2
(555+ 510+ 705)
[rJ= :2 = ( I,; ------= 25953,2 =69620
2
. 15+15+15 45
�i=ln1
'"'
3
[ At 5552 5102 7052
[A]=¿ - J =-+-+-=71010
i=l n¡ 15 15 15
[Y]=¿¿Y;J = 22350+18300+ 35295=75945
A partir de estos valores podemos calcular las sumas de cuadrados:
SCrotal = [Y]-[T] = 75945-69620= 6325

SC 1nter =[A]-[T] =71010-6962 0 = 1390
SC 1ntra =[Y]-[A]=75945-71010=4935
Verificamos que la SCtotal es la suma de las SC inter y la SC intra · Y con estos valores
podemos construir la tabla del Anova (recordando que tenemos un diseño equili
brado con 3 x 15 = 45 jugadores de ajedrez en total repartidos a 3 niveles del factor).
Fuentes de Sumas de Grados de Medias

variación Cuadrados libertad Cuadráticas
lnter 1390 3- 1=2 695 5,91
lntra 4935 45- 3= 42 117,5
Total 6325 45-1 = 44
130

lOMoARcPSD|1944486
REGLA DE DECISIÓN: Hemos obtenido en la solución una razón F empírica de

0,28. El valor crítico de la F al 95% de confianza con 2 y 42 grados de libertad no
aparece exactamente en la tabla del formulario por lo que buscamos los más apro
ximados que son (F2, 30) cuyo valor es 3,316 y (F2, 60) = 3,15.
CONCLUSIÓN: Como el valor obtenido del estadístico de contraste, F, supera el
valor crítico, y se rechaza la H0 .
1 NTERPRETACIÓN: No existen diferencias significativas entre las distintas estra
tegia para la mejora de la atención de los jugadores de ajedrez (F = 5,91; p < 0,05).
SITUACIÓN 7. Para estudiar el efecto del paso del tiempo sobre la calidad del
recuerdo, se realiza un estudio en el que a un grupo de 9 personas seleccionadas de
forma aleatoria se les presenta una historia escrita que deben memorizar durante
20 minutos. Terminado el tiempo de memorización, se dejó transcurrir una hora y
se pidió a los 8 sujetos que escribieran la historia que habían intentado memorizar.
Un grupo de expertos evaluó la calidad del recuerdo de cada sujeto. Transcurrido
un día se volvió a pedir a los sujetos que realizasen la misma tarea, y lo mismo se
hizo al cabo de una semana y al cabo de un mes, obteniendo los resultados de la
siguiente tabla:
7 7 4
6 7 5
8 6 5
9 5 3
7 7 4
8 7 4
7 6 2
8 7 3
Con estos datos, compruebe el efecto del paso del tiempo sobre la calidad del
recuerdo.
SOLUCIÓN:
CONDICIONES Y SUPUESTOS: El experimento se realiza sobre una muestra de
ocho sujetos a los que se les evalúa la calidad del recuerdo (la variable dependiente)
en tres momentos distintos (pasado 1 día, 1 semana y 1 mes) que es la variable in-
131

lOMoARcPSD|1944486
dependiente seleccionada por el experimentador. Se trata de un diseño intrasujetos

o de muestras relacionadas y la técnica a aplicar sería un ANOVA unifactorial intra
sujetos de efectos fijos. Para ello, la variable dependiente (la calidad del recuerdo)
debe ser una variable cuantitativa, con distribución normal y varianza constante en
cada una de las condiciones. Las observaciones son independientes entre sí.
HIPÓTESIS ESTADÍSTICA: La hipótesis nula dirá que el paso del tiempo no influye
sobre la calidad del recuerdo, es decir:
Y la hipótesis alternativa, niega la anterior, para indicar que el paso del tiempo sí
influye sobre la calidad del recuerdo:
H1 : µ10 * µ15 * µ1 M, para al menos dos de ellas
ESTADISTICO DE CONTRASTE: A partir de los datos de la tabla, obtenemos los

cuadrados de cada puntuación, sus sumas y sumas de los cuadrados, por columnas
para cada nivel de tratamiento y por filas para cada sujeto:
DATOS O RIGINALES CUADRADOS

ld ls lm ld ls lm 5 52
Suj1 7 7 4 49 49 16 18 324
Suj2 6 7 5 36 49 25 18 324
Suj3 8 6 5 64 36 25 19 361
Suj4 9 5 3 81 25 9 17 289
Suj5 7 7 4 49 49 16 18 324
Suj6 8 7 4 64 49 16 19 361
Suj7 7 6 2 49 36 4 15 225
Suj8 8 7 3 64 49 9 18 324
A¡ 60 52 30 456 342 120 142 2532
A�I 3600 2704 900
A partir de estas puntuaciones y sus cuadrados, obtenemos las razones básicas:
132

lOMoARcPSD|1944486
L.J_l = 60 +52 +30 = 900 5

[A] = -
2 2 2 2
"'A
1
s 8
[AS] =¿Al = 49+49+16 + 36+49+25+64 . . . = 456 + 342+120 = 918
[s] =
¿s¡ = 324+324+361+289+... = 2s32 = 844
a 3 3
AS;¡ J (60+52+30)2
2
(L
[r]= = = 840,17
as 3·8
Y las sumas de cuadrados son:
ser= [ AS]-[r] = 918-840, 17 = 77,83

SeA = [A]-[T] = 900, 5-840,17= 60, 33
ses = [s] - [r]=844-840, 17 = 3, 83
se( AxS) = [AS]-[ A]-[SA]+[r]=918-900, 5-844+840,17=13, 67
-- --
Para finalmente construir la tabla del ANOVA intrasujetos:
g.l.
[A]-[T] = Factor A 60,33 a-l = 2 30,167 30,9
[S]-[T] = Sujetos 3,83 s-1 = 7 0,547 0,561
[AS]-[A]-[S]+[T] = AxS 13,67 (a-l) (s-1} = 14 0,976
[AS]-[T] = Total 77,83 N-l= 23
REGLA DE DECISIÓN: Con 2 y 14 gl y un nivel de confianza del 95%, el valor crí

tico para tomar una decisión respecto a la hipótesis nula es 3, 74 y con un nivel de
confianza del 99% es 5,564.
CONCLUSIÓN: Como el estadístico de contraste supera el valor crítico tanto al
95% como al 99%, rechazamos la hipótesis nula.
INTERPRETACIÓN: El paso del tiempo afecta a la memoria (F = 30,9; p < 0,01)
133

lOMoARcPSD|1944486
SITUACIÓN B. En un trabajo publicado por García Leiva, P; Gómez Jacinto, L y

Canto Ortiz, JM (2001} se analiza las diferencias de género ante situaciones desen
cadenantes de celos, encontrando que las mujeres presentan mayor malestar que
los hombres ante la infidelidad emocional (pérdida de atención cuidado y protec
ción que la pareja dirige hacia otra persona}, no existiendo diferencias significativas
ante la infidelidad sexual, que es la que más celos e ira genera tanto en hombres
como en mujeres.
Imagine que está usted interesado en comprobar si las diferencias entre hom
bres y mujeres ante la infidelidad emocional es la misma para diferentes grupos
de edad. Para ello, selecciona una muestra de 30 personas con relación de pareja
estable y con la misma proporción de hombres que de mujeres con los que forma
tres grupos de edad: jóvenes (entre 18 y 35 años}, medianos (entre 36 y 55 años)
y mayores (más de 56 años). Todos ellos contemplan un escenario de infidelidad
y posteriormente responden al cuestionario de reacciones emocionales de Shac
kelford, T y Col {2000). Se asume que los datos cumplen los supuestos necesarios
para realizar el análisis estadístico correspondiente con un diseño equilibrado. El
investigador quiere contrastar si ante la infidelidad emocional, existen diferencias
tanto por razón de sexo como por la edad y si la reacción de la mujer como la del
hombre varía con la edad.
Representando por A la variable sexo y por B la variable grupo de edad se obtie
nen los resultados de la siguiente tabla, que representa la suma de las puntuaciones
de cada grupo, y las razones básicas que se indican:
A
B if1"ifoJ!iUM&f:j¡)H
-
[Y]=717 [T]=662,7
- 18 18
29 21
ÍAl=674,73 ÍBl=682,1 ÍAB1=700,6
33 22
SOLUCIÓN:
CONDICIONES Y SUPUESTOS: Contamos con dos factores, el sexo y la edad. El
primero con dos niveles, hombre y mujer y el segundo, siendo una variable cuanti
tativa, se ha categorizado en tres grupos: jóvenes, medianos y mayores. Por tanto,
se trata de un diseño de dos factores (2x3}. El número de sujetos de cada una de
134

lOMoARcPSD|1944486
estas seis condiciones experimentales es de S. La variable dependiente es la medida

obtenida a través del cuestionario de reacciones emocionales de Shackelford, T y
Col {2000). Aplicaremos un ANOVA bifactorial intersujetos de efectos fijos ya que en
el enunciado nos indican que se cumplen los supuestos necesarios, a saber, norma
lidad, independencia de las observaciones y homocedasticidad.
HIPÓTESIS: Para el factor sexo, establecemos que no existen diferencias en la re
acción emocional de hombres y mujeres ante una situación de infidelidad emocio
nal, es decir, que las puntuaciones medias de hombres y mujeres en el cuestionario
son iguales:
Ho: µHombres = µM ujeres

H1 : µHombres * µM ujeres
Para el factor edad, la hipótesis nula establece que la edad no afecta a la reac
ción emocional, o dicho con otras palabras, que las medias en el cuestionario de los
tres grupos de edad son iguales. Por su parte, la hipótesis alternativa indicará que sí
afecta, al menos para un par de niveles del factor iluminación.
Ho: µJOV = µMEO = µMAY

H1 : µJov *µM EO *µMAY al menos para un par de grupos de edad
Para la interacción la hipótesis nula afirma que los efectos de la edad y del sexo
son aditivos, de tal forma que la reacción emocional entre hombres y mujeres es la
misma con independencia de la edad, o viceversa, que la reacción para los distintos
grupos de edad es la misma con independencia del sexo. En términos gráficos se
vería reflejado en que las medias de la reacción emocional entre hombres y mujeres
se situarían sobre líneas paralelas en los tres grupos de edad, por un lado, y que la
media para los distintos grupos de edad para hombres y mujeres se situarían sobre
líneas paralelas. Y veremos estas gráficas en la resolución de esta situación.
H0 : No existe interacción
H1 : Existe interacción
ESTADÍSTICO DE CONTRASTE: Para las hipótesis sobre los efectos principales de

los factores sexo, edad e interacción, obtenemos las sumas de cuadrados a partir de
las razones básicas proporcionadas en el enunciado.
135

lOMoARcPSD|1944486
SCT =[Y] - [T] = 717 - 662, 7= 54 , 3
SCA = [A]-[T]=6 74 , 7 3-66 2, 7=12, 03
sea = [ a] - [ r] = 6 82,1 - 662, 7=19 , 4

SCAB=[AB] - [ A]-[a] + [ r]=700, 6-674 , 73-682,1 + 662, 7=6, 47
SCError = [Y] - [ AB]=717-700, 6 =16, 4
------
Con lo que la tabla resumen del ANOVA es:
A 12,03 1 12,03 17,61 < 0,01

B 19,40 2 9,70 14,20 < 0,01
AxS 6,47 2 3,23 4,73 < 0,05
INTRA 16,40 24 0,68
TOTAL 54,30 29
REGLA DE DECISIÓN: Con 1 y 24 gl, para el factor A, o con 2 y 24 gl, para el factor
B y la interacción, y para los niveles de confianza del 9 5% o del 9 9 %, los valores crí
ticos que podemos encontrar en la tabla, son:
Í2;20 ; 0 ,95 =3, 49 F =1;20 ; 0 ,9s=4, 35
Í2;20 ; 0 ,99 = 5, 849 F =1;20 ;O ,99 = 8 ' 096
CONCLUSIÓN: Se rechaza la hipótesis nula si el valor del estadístico F de cada

contraste supera el valor crítico.
1 NTERPRETACIÓN: Existen diferencias significativas en la reacción emocional de
hombres y mujeres ante la infidelidad emocional de su pareja (F = 17,61; p < 0,01).
También se observan diferencias significativas en la reacción emocional para los
distintos grupos de edad (F = 14,20; p < 0,01). Existe interacción entre la reacción
emocional de hombres y mujeres con la edad, es decir, las diferencias en la reacción
emocional entre hombres y mujeres no es la misma para los diferentes grupos de
edad (F = 4,73; p < 0,05). Las siguientes gráficas muestran esta situación:
136

lOMoARcPSD|1944486
35 35
30 30
25 25
20 20 -+- J OV
-+- M UJ ERES
MED
15 H O M B R ES 15
.........._ MAY
10 10
5 5
o o
JOV MED MAY M UJ ER ES H O M B RES
Observando la figura de la izquierda se o bserva que no hay diferencias entre

hombres y mujeres del grupo de los jóvenes (entre 18 y 35 años) pero sí pueden
producirse diferencias para los medianos (de 36 a 55 años) y mayores (con más de
56 años). Observando ahora la figura de la derecha, puede que no existan diferen
cias entre los distintos grupos de edad de los hombres pero sí entre los distintos
grupos de edad de las m ujeres, siendo éstas más acusadas entra las mujeres de más
de 56 años y medianas (de 36 a 55 años) respecto a las más jóvenes.
El análisis de los efectos simples nos permite analizar el factor A (sexo) en cada
una de los niveles del fator B (grupos de edad). Comenzando con el factor A en la
condición b 1 de B -que en el contexto de esta situación, se refiere a la diferencia
entre hombres y mujeres jóvenes (de 18 a 35 años)-. Para ello, se calculan las razo
nes básicas:
A en b1 = -- - -
2
[ ] ¿(AB; 1 )
Siendo la suma de cuadrados:
[ SC A e n b J = [ A en bi ) - [ Bi ) con a-1 grados de libertad
Utilizando los datos de la siguiente tabla en la que figuran las sumas de los suje
tos de cada uno de los grupos y las sumas marginales de los niveles de cada factor:
137

lOMoARcPSD|1944486
B al: MUJ ERES a2: HOMBRES
INIMM 18 18 36
l&IM+M 29 21 50
l#&Mll 33 22 55
80 61 141
¿ ( A8; 1 )2 =-
182 182
+-=129, 6
[A en bi ) =
n 5 5
Bf 36 2
[ 81 ] = -=- = 129, 9
an 2·5
Resultado bastante obvio, considerando que la suma de las puntuaciones para

los hombres y mujeres del grupo de los jóvenes son iguales.
Continuamos calculando la suma de cuadrados para los otros niveles del factor
8, grupos de edad medianos, b 2 , y mayores, b 3 .
502
[ 82 ] = _1__ = - = 250
2
8
an 2·5
[ 5C A en b J = [A en b2 ]-[82 ]=2 5 6, 4 - 250 = 6, 4

2
Y para el grupo de mayores, b3 :
8� 552
[ 83 ]=-=-=302, 50
an 2·5
138

lOMoARcPSD|1944486
También se analizara el factor B en cada una de las condiciones a¡ de A, es decir,

las diferencias en la reacción emocional entre los distintos grupos de edad de las
mujeres y las diferencias entre los distintos grupos de edad de los hombres.
[seB en ª1 ] =[B en a ]-[A ] =

¿ ( AB1j ) --=
A i 18 2
2
33 8
-+-+--- =2 ,13
2
9
2 2
0
2
n b. n 5 5 5 3. 5
1 1 4
A22 182 212 22 2 612

- =-+-+--- = 1' 73
b·n 5 5 5 3·5
Con estas sumas de cuadrados completamos la siguiente tabla, las medias cua
------
dráticas (SC/gl} y los estadísticos F, como cociente entre la media cuadrática de cada
nivel y la media cuadrática del error o intra del ANOVA realizado anteriormente:
[A en b 1 ]= 0,00 1 0,00 0,00 > 0,5

[A en b 2 ]= 6,40 1 6,40 9,37 < 0,05
[A en b 3]= 12,10 1 12,10 17,71 < 0,01
[B en a 1]= 24,13 2 12,07 17,66 < 0,01
[B en a 2 ]= 1,73 2 0,87 1,27 > 0,05
INTRA 16,40 24 0,68
REGLA DE DECISIÓN: Buscamos en las tablas los valores críticos de F con 1 y 2 4

gl y con 2 y 2 4 gl para los niveles de confianza del 9 5 y 9 9 %. El valor más próximo en
las tablas es con 1 y 2 0gl o con 2 y 2 0gl.
Í2;20;0,95 = 3, 49 F = 1; 20;0,95 = 4 , 35
Í2 ;20;0,99 = 5, 849 F =1; 2 0;0,99 =8, 096
CONCLUSIÓN: Las diferencias significativas se producen en los niveles b2 y b 3 de

A y en el nivel a 1 de B.
139

lOMoARcPSD|1944486
INTERPRETACIÓN: Existen diferencias significativas en la reacción de los hom

bres y mujeres ante la infidelidad emocional dentro del grupo de los de edad me
diana (F = 9,37; p < 0,05) y también dentro del grupo de mayores (F = 17,71; p <
0,01). Pero no existen diferencias entre la reacción de hombres y mujeres dentro
del grupo de los jóvenes.
Existen diferencias entre la reacción ante la infidelidad emocional de las mujeres
mayores, medianas y jóvenes, siendo más alta para las mujeres de mayor edad y
más baja para las de menor edad. No existen diferencias entre los hombres debidas
a la edad.
-+- a l : MUJ ERES a 2 : HOM B RES -+- b l : JOV b 2 : M E O -.1,- b3: MAY
35 ,----------� 35 � -- � ------- -
30 +------f-:_�"'----f--t-� 30 +----+--l-��------
25 +---- ---/--1---+----l--f-� 25 +----1---1---� �---c,----�
20 +-----7'--� -'+-+-----f>-.L--� 20 +--- --+--+-----�---
15 i;::=======::,c'.:::::=====:::;----¡---� 15 +-----+-=----------
10 t-============;::::::��======::::;- 10 i-;===.t.============,------�
F = 17,66; p < 0,01
5 4--------================= 5 -i--'======='--------
o -+----�--�--� 0 -+------�-----�
b l : J OV b2: MEO b 3 : MAY a l : M UJ ERES a2 : H O M B RES
SITUACIÓN 9. El laboratorio de aprendizaje animal dispone de doce ratas de

la raza Wistar, con las que realiza un experimento. Posteriormente adquieren otro
grupo de doce ratas Long Evans y, tras la realización del mismo experimento en las
mismas condiciones, sospechan que los resultados son diferentes según con qué
grupo de ratas se realice la experiencia. La prueba consistía en tomar los tiempos
que tardaban en recorrer un corredor con recompensa final, después de 1, 2 ó 3
días de privación de comida. La variable dependiente (tiempos) se distribuye nor
malmente, además las observaciones son independientes y las varianzas homogé
neas. Los tiempos, en segundos, fueron los siguientes:
A: Wistar B: Long Evans

1 día 2 días 3 días 1 día 2 días 3 días
6 5 9 7 6 13
5 4 10 8 7 15
4 3 11 9 8 16
3 2 12 4 5 18
140

lOMoARcPSD|1944486
a) Averigüe si es cierto que existen diferencias entre las dos razas de ratas en los
tiempos que tardan en atravesar el corredor.
b) ¿Cómo influyen esos días de privación de comida en los tiempos que tardan
las ratas en atravesar el corredor?
e) ¿5e obtiene algún efecto cuando se combinan los dos factores?
SOLUCION:
CONDICIONES Y SUPUESTOS: En este experimento se trabaja con dos variables
independientes o factores. La raza, con dos niveles, y el tiempo de privación de
alimento, con tres niveles. La variable dependiente es el tiempo que, según el enun
ciado del problema, cumple los supuestos de independencia de las observaciones,
normalidad de las distribuciones y homogeneidad de las varianzas. Se trata, por
tanto, de un diseño (2x3) que se resolverá analizando los datos con un ANOVA bi
factorial con interacción de efectos fijos.
HIPÓTESIS ESTADÍSTICAS: Hipótesis para el factor A, raza: La hipótesis nula esta
blece que no hay diferencias significativas en el tiempo que tardan en recorrer el
laberinto las dos razas de ratas, frente a la hipótesis alternativa que afirmaría que sí
existen esas diferencias. Se trata, por tanto, de un contraste bilateral.
Ha : µw = µLE
H1 : µw * µLE
Hipótesis para el factor B: La hipótesis nula establece que no hay diferencias
significativas en el tiempo que �ardan las ratas en recorrer el laberinto por causa
del tiempo de privación de comida. La hipótesis alternativa indicaría que el tiempo
de privación produce diferencias significativas en el tiempo que tardan las ratas en
recorrer el laberinto.
Ho: µ1 =µ2 =µ3

H1 : µ1 =J:. µ2 =J:. µ3 al menos para una µ¡
Hipótesis para la interacción: La hipótesis nula establece que el tiempo que tar
dan las ratas en recorrer el laberinto es el mismo con independencia de la raza y
del tiempo de privación. Es decir, no existe interacción entre la raza y el tiempo de
privación sobre la ejecución de la rata para recorrer el laberinto. La hipótesis alter
nativa indicaría que sí existe interacción.
141

lOMoARcPSD|1944486
H0 : No existe interación
ESTADÍSTICOS DE CONTRASTE: Al tener tres hipótesis a contrastar, debemos cal

cular tres estadísticos de contraste:
El estadístico de contraste para el factor A « raza» es:
= M Cfactor raza rata

F
M Cerror
El estadístico de contraste para el factor B «tiempo de privación»:
F
= M Cfactor tiempo privación
M Cerror
El estadístico de contraste para la interacción (AxB):
MCinte racción
F=
M Cerror
Y utilizando los siguientes datos:
Factor A: raza rata A1 : Wistar

Fact or B: ti e m p o B2 B1 B2 B3
: : : :
2 días 1 día 2 días 3 días
6 5 9 7 6 13
5 4 10 8 7 15
4 3 11 9 8 16
3 2 12 4 5 18
Sumas: ¿)u 18 14 42 28 26 62 190
Sumas cuadrados: Í: Y;J 86 54 446 210 174 974 1994
En la siguiente tabla aparecen las sumas de las puntuaciones para cada una de
las 3x2 condiciones que nos facilitan las operaciones para obtener las sumas de
cuadrados.
142

lOMoARcPSD|1944486
B 1 : 1 día B 2 : 2 día B3 : 3 día

18 14 42 Z:I Y¡ = 74
A2 : Long Evans 28 26 62 Z:I Y¡ = 1 1 6
¿ ¿ y = 46 ¿¿ y = 40 ¿¿ y = 104 ¿¿¿ytí = 190

j j j j
Calcularemos las razones básicas para obtener las sumas de cuadrados corres
pondientes:
[Y] = ¿Y;J =1944
T2 1902
[ r]=-=--=1504, 17
abn 2 · 3 · 4
A +116 2
"' ,� = 74
2
L.J_
[A] = - =1577, 67
bn 3·4
¿a? 46 2 +402 +1042

[B]=- ' =1816, 5
an 2·4
182 +14 2 +42 2 +282 +26 2 + 62 2

1897
4
Y con estos valores, las sumas de cuadrados, son:
SCT = [Y]-[r]=1944-1504, 17=439, 83
SCA =[ A]-[T] = 1577, 67-1504,17 = 73, 5
SCB = [B]-[ r]=1816, 5 -1504,17=312, 33
SCAB =[ AB]-[A]-[B]+ [ r]=1897 -1577, 67-1816, 5+1504,17=7
SCError =[Y] - [ AB]=1944-1897 =47
Con estos resultados, completamos la tabla del ANOVA para calcular los estadís
ticos de contraste:
143

lOMoARcPSD|1944486
Factor A raza rata 73,50 a-1 = 1 73,50 28, 15
Factor B tiempo 3 12,33 b-1 = 2 156,17 59,81
Interacción (AxB) 7,00 (a-l)(b-1) = 2 3,50 1,34
Residual 47,00 a b(n-1) = 18 2,61
Total 439,83 N-1 = 23
REGLA DE DECISIÓN: Lo primero que probamos es la H 0 de la interacción

porque de no ser significativa habría que recalcular los estadísticos F de cada
factor.
Con un nivel de confianza del 95% el valor crítico de la tabla de la distribución de
F para 2 grados de libertad en el numerador y 18 grados de libertad en el denomi
nador es de 6,013. Dado que el estadístico de contraste de la interacción: 1, 79 no
supera el valor crítico, no podemos rechazar la H0, por lo tanto la interacción no es
significativa e indica que el modelo se considera aditivo.
Bajo estas circunstancias, procedemos a acumular la suma de cuadrados y los
grados de libertad de la interacción al error, recalculándolo los estadísticos F para
cada uno de los factores, que ahora son:
Factor A raza rata 73,5 1 73,5 27,22
Factor B tiempo 3 12,33 2 156, 165 57,83
h1te1acción (AxB)
Residual 54 20 2,70
Total 439,83 23
Para el factor «raza de rata», el valor crítico de F con 1 y 20 grados de libertad,

con un nivel de confianza del 95%, vale 4,351.; y para el factor tiempo de privación,
con 2 y 30 grados de libertad el valor crítico es 3,493.
Comparándolos con nuestros resultados, tenemos que 27,22 > 4,351 por lo que
rechazamos la H0 del factor raza de rata; y para el factor tiempo de privación, el
144

lOMoARcPSD|1944486
estadístico de contraste 57,83 es mayor que el valor crítico 3,493 por lo tanto, tam
bién rechazamos la H0 del factor tiempo de privación.
1 NTERPRETACIÓN:
a) Dado que hemos rechazado la hipótesis nula del factor tipo de rata, podemos
contestar a la primera de las preguntas diciendo que, con un nivel de confian
za del 95%, afirmamos que existen diferencias entre las dos razas de ratas en
su tarea de recorrer el laberinto (F = 27,22; p<0,05).
b) Dado que hemos rechazado la hipótesis nula del factor tiempo de privación,
podemos afirmar, con un nivel de confianza del 95%, que estar privadas de
comida 1,2 ó 3 días influye de forma distinta en el tiempo que tardan en re
correr el laberinto (F = 57,83; p < 0,05). Debemos realizar las comparaciones
múltiples para comprobar exactamente entre quienes está la diferencia.
c) Respecto a la tercera de las preguntas, vimos que el modelo era aditivo al
no poder rechazar la hipótesis nula de la interacción, por lo tanto, no se da
ningún efecto significativo cuando se combinan los dos factores (F = 1,34; p >
0,05).
La siguientes gráficas representan la situación donde se aprecia que no existe in
teracción al no producirse un cruce o « no paralelismo» significativo entre las líneas.
70 70
60 60
50 50
40 40 -+- Bl
-+- Al
30 30 B2
A2
........._ B3
20 20
10 10
o o
Bl B2 B3 Al A2
SITUACIÓN 10. Un estudio publicado por García, M.C. , Navas, M.S., Cuadra
do, l., Y Molero, F. {2003} con el título: «Inmigración y prejuicio: A ctitudes de una
muestra de adolescentes almerienses» tiene como objetivo conocer la imagen que
los adolescentes de una zona, con alta recepción de trabajadores extranjeros, tie
nen acerca de los inmigrantes. Entre sus resultados se indica que existen diferencias
significativas en la imagen de los inmigrantes en función del sexo y de la edad de los
adolescentes, siendo más bajas para las chicas y para los de mayor edad. Imagine
que desea comprobar si estas diferencias existen también en otras zonas donde la
145

lOMoARcPSD|1944486
recepción de inmigrantes es menor. Para ello, selecciona una muestra de 20 adoles

centes con edades comprendidas entre 14 y 16 años de los que el 50% son chicas.
La mitad son de 2º de la ESO y el resto de 4º de la ESO. Todos ellos responden a la
Escala de Racismo Moderno de McConahay y cols. (1981). Se asume que los datos
cumplen los supuestos necesarios para realizar el análisis estadístico correspon
diente. Representando por A la variable sexo y por 8 la variable edad se obtienen
los siguientes resultados parciales: SCT = 70,55; MC/ntra = 1,525; [ Y] = 1303; [A] =
1240; [B] = 1243,7.
SOLUCIÓN:
CONDICIONES Y SUPUESTOS: En esta situación el investigador quiere comprobar
si en la población de adolescentes de su localidad existen diferencias significativas
en la imagen de los inmigrantes en función del sexo y de la edad. Las variables inde
pendientes son el sexo y la edad y la variable dependiente la imagen que los adoles
centes tienen de los inmigrantes medida a través de la Escala de Racismo Moderno
de McConahay y colaboradores. Cada variable independiente tiene dos valores o
categorías y la variable dependiente es de naturaleza cuantitativa medida con esca
la de intervalo. Se trata, por tanto, de un diseño 2x2 para muestras independientes
que se analiza con un ANOVA de dos factores con interacción. En el enunciado se
indica que se asume que se cumplen los supuestos necesarios para realizar este
análisis: independencia de las observaciones, normalidad y homocedasticidad. El
modelo del ANOVA de dos factores indica que cada puntuación es la suma de varios
componentes:
Donde «alfa» representa la influencia del factor A: sexo; «Beta» la influencia del
factor 8: edad y «alfa x beta» el efecto de la interacción entre estas dos variables
sobre la imagen de los inmigrantes.
HIPÓTESIS: Trabajando con dos factores, se plantean tres hipótesis nulas. La pri
mera para analizar la influencia del sexo sobre la variable dependiente. La segunda
para analizar la infl uencia de la edad y la tercera para la interacción. Todas ellas se
pueden escribir de diferentes formas:
Para analizar si existen diferencias entre chicos y chicas, formulamos las hipótesis:
H0: No existen diferencias significativas entre las medias obtenidas en la Escala
de Racismo Moderno obtenidas por los chicos y las chicas. O lo que es lo mismo:
todos los a; = O que conlleva a la igualdad de las medias poblacionales.
146

lOMoARcPSD|1944486
Ha : µchi co s
= µchicas
H 1 : Existe diferencias significativas entre las medias obtenidas en la Escala de

Racismo Moderno por los chicos y las chicas. Es decir, no todos los a i = O por lo que:
Para analizar si existen diferencias entre los dos grupos de edad de 2º y 4º de la

ESO, formulamos las hipótesis:
Ha: No existen diferencias significativas entre las medias obtenidas en la Escala
de Racismo Moderno por los adolescentes de 2º y 4º de la ESO. Es decir, no todos
los 0j = O lo que implica la igualdad de las medias para cada nivel del factor edad:
H 1 : Existe diferencias significativas entre las medias obtenidas en la Escala de

Racismo Moderno por los adolescentes de 2º y 4º de la ESO. No todos los 0j = O.
Para analizar si existe interacción del sexo con la edad, formulamos las hipótesis:
Ha : No existe interacción. Todos los a0 u = O

H 1 : Existe interacción. No todos los a0 u = O
ESTADÍSTICO D E CONTRAST E: Para completar la tabla del ANOVA a partir de los

resultados parciales proporcionados en el enunciado, procedemos de la siguiente
forma.
Se trata de una ANOVA de dos factores (sexo y edad) con dos niveles en cada
factor. Hay 10 chicas, 5 de 2º y otras 5 de 4º de la ESO. Y los mismo para los chicos,
por lo que se trata de un diseño equilibrado con 5 sujetos en cada nivel del factor.
Con los datos del enunciado vamos completando la siguiente tabla del ANOVA, co
menzando por los grados de libertad:
147

lOMoARcPSD|1944486
• ••••
A (SEXO) a-l= 1
B (EDAD) b-l= 1
AB (a-l}(b-1) = 1
ERROR 16 x 1,525 = 24,40 ab(n-l) = 16 1,525
TOTAL 70,55 n-1= 19
Serotal = [Y]-[ T] � 70, 55 = 1303-[T] � [r] =1303-70, 55=1232, 45
seintra seintra
Me,ntra = � 1, 525 =-- � se,ntra =1, 52 5 · 16 =24, 40
ab ( n-l ) 16
SeA = [A]-[T]=1240-1232, 45 = 7, 55
sea = [B]-[r]=1243, 7-1232, 45=11,25
Teniendo en cuenta la descomposición de la variabilidad total de las puntuacio

nes:
Serotal =Se (A )+ se (B)+ se (AB)+SeError
y despejando la SC(AB), tenemos que:
SeAB = SeT -(SeA + SCB+ SeError ) =70, 55-8, 45-11,25-24, 49 = 26, 45
Y situamos todos estos resultados sobre la tabla, para obtener las Me dividiendo
su respectiva se entre sus grados de libertad. Finalmente, calculamos los valores del
estadístico F, dividiendo la Me de cada fuente de variación entre la MeError.
148

lOMoARcPSD|1944486
---- --
A (SEXO) 7,55 1 7,55 4,95 4,494 8,531

B (EDAD) 11,25 1 11,25 7,377 4,494 8,531
AB 26,45 1 26,45 17,3442 4,494 8,531
ERROR 24,40 16 1,525
TOTAL 70,55 19
REGLA DE DECISIÓN: En este ejemplo concreto, los valores críticos para los nive
les de confianza del 95% y del 99% se localizan en la tabla con 1 gl en el numerador
y 16 gl en el denominador y son 4,494 y 8,531, respectivamente.
CONCLUSIÓN: Con un nivel de confianza del 95%, todos los estadísticos de con
traste obtenidos superan sus respectivos valores críticos, rechazaríamos las tres
hipótesis nulas formuladas. La hipótesis de no existencia de interacción se puede
rechazar, incluso con un nivel de confianza del 99%.
1 NTERPRETACIÓN:
• Existen diferencias significativas en la imagen que los chicos y chicas adoles

centes tienen de los inmigrantes (F = 5,5409; p < 0,05).
• Existen diferencias significativas en la imagen que los adolescentes de 2Q y 4Q

de la ESO tienen de los inmigrantes (F = 7,377; p < 0,05).
• Existe interacción del sexo con la edad de los adolescentes respecto a la ima
gen que tienen de los inmigrantes (F = 17,34; p < 0,01).
SITUACIÓN 11. Para estudiar el efecto de ciertas variables motivacionales so

bre el rendimiento en tareas de logro, se diseñaron dos programas de entrenamien
to motivacion a l (A 1 =instrumenta l y A 2 = atribuciona l ) y se les apl ico a dos grupos de
15 sujetos cada uno seleccionados al azar. Un tercer grupo, también de 15 sujetos,
no recibió entrenamiento pero realizó la misma tarea que los sujetos entrenados
(A 3 = grupo control). Un tercio de los sujetos de cada grupo recibió el entrena
miento bajo un clima de clase 8 1 = cooperativo, 8 2 = competitivo y 8 3 = individual.
La evaluación del rendimiento de los sujetos, tras el entrenamiento, arrojó los re-
149

lOMoARcPSD|1944486
sultados cuyo resumen aparece en la tabla (en las celdillas está el sumatorio de las
puntuaciones de los sujetos de cada una de las condiciones del experimento; en las
marginales los sumatorios correspondientes a cada factor A o B, respectivamente y
también conocemos que I I 2Y;}k =1456; además SCA = 70 y SC8 = 40
Factor B: Clima de la clase

Factor A: entrenamiento
35 45 105
30 20 25 75
25 15 20 60
90 60 90 240
Utilizando a = 0,05 comprobar si el tipo de entrenamiento y el clima afecta al

rendimiento en tareas de logro.
SOLUCIÓN:
CONDICIONES Y SUPUESTOS: Se trata de un modelo bifactorial (entrenamiento y
clima) con tres muestras independientes. Se asume que se cumplen los supuestos
de independencia de las observaciones, normalidad y homocedasticidad que re
quiere este tipo de análisis.
HIPÓTESIS ESTADÍSTICAS: Para el factor A, tipo de entrenamiento, la hipótesis
nula y alternativa, son:
Ha : µAl = µA 2 = µA3
H1 : µAl *µA 2 * µA3 , para algún µ¡ * µj
Para el factor B:
Ha : µBl =µa2 =µ8 3

H1 : µ8 1 * µ8 2 * µ8 3 , para algún µ¡ * µj
Para la interacción entre el tipo de entrenamiento con el clima:
Ha : No existe interacción entre los dos factores

H1 : Existe interacción entre los factores
150

lOMoARcPSD|1944486
ESTADÍSTICO DE CONTRASTE: Un estadístico para cada una de las tres hipótesis

formuladas:
Los tipos de entrenamiento son A 1 , A 2 y A 3 por lo tanto no están pidiendo el
efecto correspondiente a este factor y sabemos que la suma de las puntuaciones de
los 5 sujetos de cada condición son:
Factor B: Clima de la clase

Factor A: entrenamiento Sumas
35 25 45 105
30 20 25 75
25 15 20 60
90 60 90 240
Conocemos también la suma de los cuadrados de todas las puntuaciones

(¿ ¿ I rí]k = 1456), y SCA = 40 y SCB = 70. Nos falta, por tanto, calcular las sumas de
cuadrados total, SCT, de la interacción, SC(AxB), y del error, SCError, cuyas expresio
nes, a partir de las razones básicas, son:
SCT = [Y]-[T]
SCA 8 = [ A 8] - [A] -[8] + [ T]
SCError = [Y]-[ AB]
Calculamos algunas de estas razones básicas.
T2 2402
[r] =- = -- =1280
abn 3 . 3 . 5
Y, por el enunciado, sabemos que [Y]=¿ ¿ ¿rí]k =1456. Por lo que la SCT es:
SCT =[Y]-[T] = 1456-1280 = 176
Como SCError = [ Y]-[AB], debemos calcular la razón básica [AB]
151

lOMoARcPSD|1944486
[ AB] = L ( AB )'. 352 +252 + 452 + 30 +20 +25 +25 +15 +20
��
2 2 2 2
= 1410
2 2
n 15
Y continuamos con la SCError = [ Y] - [AB] = 1456 - 1410 = 46

Para la SC (AxB) = [AB]-[A] - [B]+[T] podemos optar por calcular las razones bási
cas de [A] y [B]:
1052 + 752 +652

[A] = -
�A 2
¿ _ i = =l320
bn 3· 5
¿a; 902 + 602 +902

[B]=- = =1350
an 3 · 15
se ( A x B)=[AB]-[ a] +[r] = 1410-1320-1350+1280=20
O bien despejar su valor de: SCT = SCA + SCB + SC(AxB) + SCError, para llegar al
mismo resultado.
SC (A x B)=SCT -SCA-SCB-SCError =176-40-70-46 = 20
-----
Finalmente, la tabla del ANOVA queda:
B 40 2 20 15,65 3,26
A 70 2 35 27,39 3,26
20 4 5 3,91 2,63
46 36 1,28
176 44
REGLA DE DECISIÓN: Con un nivel de confianza del 95%, los valores críticos para
cada una de las hipótesis aparecen en la columna derecha de la tabla anterior.
CONCLUSIÓN: Como todos los valores de F obtenidos, superan los valores críti
cos, se rechazarían las tres la hipótesis nula formuladas con un nivel de confianza
del 95%.
152

lOMoARcPSD|1944486
INTERPRETACIÓN: Con un nivel de confianza del 95%, el tipo de entrenamiento

influye en el rendimiento en tareas de logro. También influye el clima de clase sobre
el rendimiento y existe interacción entre estas dos variables independientes, como
puede observarse en la gráfica siguiente.
5 0 �------------- 5 0 �-------------
-+- Al: INSTRUMENTAL A2: ATRl8UCIONAL ........ A3: CONTROL -+- 81: COOPERATIVO 82: COMPETITIVO ........ 83: INDIVIDUAL
45 +------------ �-- 45 +---�-----------

40 -+------------------ 40 -+----__...,__________
3 5 +--- ----...:---------,,c----- 3 5 +----+.-=::-----""c----------
30 30 +-------�-...===------
2 5 +----il,;;;;:-----:-'--- =-----'�----'��---,.< 2 5 +-----a· -c;:---:,------""l,..=::::::----====--.--
2 0 +------=----=--� ��---::=;;;.a....-�� 2 0 +-------�
15 +--- - ---____:::,,,'*"""'==-------- 15 +-------------"-"""fi--
10 -+------------ ---- 1 0 +---------------
5 +--------------- 5 +---------------
0 -+-----�----�---� 0 -+-----�----�---�
Bl: COOPERATIVO B2: COMPETITIVO B3: I N DIVIDUAL Al: INSTRU MENTAL A2: ATRIBUCIONAL A3: CONTROL
El análisis de los efectos simples nos permite analizar el factor A, tipo de en
trenamiento, en cada una de las tres condiciones del factor B, clima de clase. Para
ello, a partir de la suma de las puntuaciones de cada condición que aparecen en la
siguiente tabla, se calculan las sumas de cuadrados en cada uno de los niveles del
otro factor:
Bl:COOPERATIVO B2:COMPETITIVO B3:INDIVIDUAL Sumas
Al: INSTRU M ENTAL 35 25 45 105
A2: ATRIBUCIONAL 30 20 25 75
A3: CONTROL 25 15 20 60
Sumas 90 60 90
aJ 352 302 252 902

�=�+ �+�-�=10
an 5 5 5 3·5
a; 252 202 152 602
�=�+ �+ �-�=10
an 5 5 5 3· 5
8� 452 252 202 90
�=� +�+ �-�=70
an 5 5 5 3·5
También se analizara el factor B en cada una de las condiciones a I. de A, es decir, las

diferencias entre los distintos climas de clase para cada uno de los entrenamientos.
153

lOMoARcPSD|1944486
A12 35 2 25 2 45 2 105 2
� =�+� + �-�- = 40
b·n 5 5 5 3. 5
¿( AB2j )2 A� 302 202 25 2 75 2

[s cB en aJ=[B en a2 ]-[A2 ] = n - b · n = 5 + 5 + 5- 3 . 5 =10
¿ ( AB2j )2 A� 25 2 15 2 202 602

[ s cB en aJ = [B en a2 ] - [A2 ] = - · n =-- + 5+ 5- =10
n b 5 3. 5
-----
Con estas sumas de cuadrados completamos la siguiente tabla:
[A en b 1 1= 10 2 5 3,91 <0,05
[A en b2 1= 10 2 5 3,91 <0,05
[A en b3 1= 70 2 35 27,39 <0,01
[B en a 1 1= 40 2 20 15,65 <0,01
[B en a 21= 10 2 5 3,91 <0,0:5
[B en a 31= 10 2 5 3,91 <0,05
46 36 1,278
REGLA DE DECISIÓN: Buscamos en las tablas los valores críticos de F con 2 y 36

gl para los niveles de confianza del 95 y 99%. En la tabla el valor más próximo que
figura es con 2 y 30 gl y su valor es: f 2 ;3o; 01 95 = 3,316 y f 2 ;3o; 0 , 99 = 5,39. Todos los esta
dísticos superan el valor crítico con un nivel de confianza del 95% y alguno también
con un nivel de confianza del 99%
CONCLUSIÓN: Con un nivel de confianza del 95%m se producen diferencias sig
nificativas en todos los niveles b 1 , b 2 y b3 de A y en todos los niveles a 1 , a2 y a 3 de B.
INTERPRETACIÓN: El entrenamiento motivacional produce diferencias significa
tivas en el rendimiento tanto si la clase se desarrolla con un clima cooperativo, com
petitivo (F = 3,95; p < 0,05} como en el individual {F = 27,39; p < 0,01}. Igualmente, el
clima de la clase genera diferencias en el rendimiento tanto bajo un entrenamiento
instrumental (F = 15,65; p < 0,01} como con un entrenamiento atribucional o en el
grupo control, que no recibía entrenamiento (F = 3,91; p < 0,05}.
154

lOMoARcPSD|1944486
-+- Al: INSTRUMENTAL A2: ATRIBUCIONAL ...,._ A3: CONTROL -+- Bl: COOPERATIVO B2: COMPETITIVO ...,._ 83: INDIVIDUAL
50 -,---------,../ -
,../ --� 50 -,--- ,../ ----------�
45 +------------ --blto-\--� 45 +--�.--------------�
40 -+---------------t---+--� 40 -+---+--+-3',,�--------�
35 +---�=--------,'-----t---t-� 35 -t----�..¡.._;=------"�-------�
30 +---t-r�1:---=-..:::----?'-------t---t-� 30 -t---+---t--------=�'7'+,,l>;.;;;:::::----�
2 5 -t----\--..i::-------"'-.,,...--'='1'�------.::=t-l •t-t-� 25
20 +------F=---=-...,..-� n=------=--�-� 20 +----,..._---=-, �----=.........-+--
1 5 -+----I'------�._,.,,=--------'-�� 15 -+------''<-------"-sc----=+-
10 --1--,-__¡_-�-==----,.._::::'....._----,----.:.....____, 10 +-r---�,../ ""1----.......��----:--,
5 -t-'---'--'-'--____:___J------L-�-'-'--'---' 5 +-'---'--______:__:.____.:___,__--L.._.___:________:__:.__
O -+-------,------.--------, O -+-------,-----�------,
_;____J
Bl: COOPERATIVO B2: COM PETITIVO B3: I N DIVIDUAL Al: INSTRUM ENTAL A2: ATRI BUCIONAL A3: CONTROL
SITUACIÓN 12. En una investigación sobre el efecto que tiene el fumar sobre el
rendimiento laboral en diferentes condiciones de iluminación en una gran empresa,
se seleccionaron al azar 9 trabajadores de tres grupos (27 trabajadores en total): no
fumadores, fumadores moderados y fumadores extremos (factor Grupo). Tres suje
tos de cada grupo anterior se asignaron a un ambiente de trabajo con tres niveles
de iluminación distintos (factor Iluminación). Se registró el tiempo en completar
una tarea de ensamblado en minutos. Conocemos las sumas de cuadrados que se
muestran a continuación (nivel de significación: 0,05).
SCG r u p o = 84, 90; 5Cl l u m i n ac ión = 298, 07; SCError = 59, 25; SCTota l = 445, 03
Analice el estudio según el diseño apropiado. ¿Qué podemos decir de los efectos
simples?
SOLUCIÓN:
CONDICIONES Y SUPUESTOS: Nos indican claramente que han manipulado expe
rimentalmente dos factores o variables independientes: Grupo e Iluminación para
ver su efecto sobre el rendimiento laboral (la variable dependiente). Cada factor
tiene 3 niveles. Por consiguiente, se trata de un diseño de dos factores intersujetos
o de muestras independientes 3x3. El número de sujetos en cada combinación de
los factores es de 3. Para aplicar un ANOVA bifactorial la variable dependiente tiene
que estar medida, al menos, con escala de intervalo (variable cuantitativa), con dis
tribución normal y varianza constante para cada grupo (homocedasticidad).
HIPÓTESIS: Para el factor Grupo, establecemos que el fumar no afecta al rendi
miento laboral de los trabajadores, o lo que es lo mismo, que las medias del ren
dimiento laboral de los tres grupos son iguales. La hipótesis alternativa indica que
las medias sí afectan al rendimiento laboral, o lo que es lo mismo, que al menos las
medias de dos grupos son distintas:
155

lOMoARcPSD|1944486
Ha : µno_fumadores =µfumadores_m o d erados =µfumadores_extremos

Hl : µno_}fuma d ores * µJfuma doresmoderodos * µ¡uma d oresextremos al menos para un par de
tratamientos
Para el factor Iluminación sólo sabemos que hay tres niveles pero no nos han
indicado sus valores, así que los representaremos con los subíndices 1, 2 y 3. E igual
mente, la hipótesis nula establece que las condiciones de iluminación no afecta al
rendimiento laboral, frente a la hipótesis alternativa que sí afecta, al menos para un
par de niveles del factor iluminación.
Ha : µ1 =µ2 =µ3
H1 : µ1 * µ2 * µ3 al menos para un par de tratamientos
Para la interacción la hipótesis nula afirma que los efectos del Grupo y de la Ilu
minación son aditivos, de tal forma que el patrón de resultados que se observa para
el tabaquismo (Grupo) es el mismo en los tres diferentes niveles de iluminación. En
términos gráficos se vería reflejado en que las medias de rendimiento en función
del nivel de tabaquismo serían paralelas en los tres grupos de Iluminación y la hipó
tesis nula y alternativa son:
Ha: No existe interacción entre el tabaquismo y los niveles de iluminación sobre

el rendimiento laboral.
H 1 : Existe interacción entre el tabaquismo y los niveles de iluminación sobre el
rendimiento laboral.
ESTADÍSTICO DE CONTRASTE: Nos proporcionan las Sumas de Cuadrados de la

Tabla del Anova que figuran en la tabla siguiente en cursiva, negrita y subrayado.
Conociendo el número de sujetos total (N = 27} y el número de niveles de cada
factor (3), y que el diseño es (3x3} con nueve condiciones experimentales con n = 3
sujetos en cada una, podemos completar las celdas correspondientes a los grados
de libertad de cada fuente de variación y las restantes celdas de la tabla.
156

lOMoARcPSD|1944486
---
Soluciones a los ejercicios de los cap ítulos 5, 6 y 7 •
Grupo (A) 84.90 a-1 = 2 42,45 12,895 3,555
Iluminación (B) 298.07 b-1 = 2 149,035 45,272 3,555
Grupo x Iluminación 2,81 ( a-l ) (b-1) = 4 0,7025 0,213 2,928
lntra (S/AB) 59.25 a b(n-1) = 18 3,292
445.03 N- l = 26 17, 1 1 6
Como sabemos que la se total es la suma de las se Grupo más la se Iluminación

más la se Grupo x Iluminación más se error (intra) podemos calcular las se que nos
falta y, a partir de ella, realizar el resto de cálculos.
seAx B = Ser -( seA + Sea + se5 / AB )=445, 03-(84, 90 + 298, 07+59, 25) = 2, 81
En la tabla del Anova hemos incluido una nueva columna que indica el valor de
la F crítica para cada factor o interacción al 95%. Estos valores de la F crítica sólo de
pende de los grados de libertad correspondientes a cada comparación y, por tanto,
coincide en el caso de los factores A y 8 (ambos con 2 y 18 grados de libertad) pero
difiere para el contraste de la interacción (con 4 y 18 grados de libertad).
REGLA DE DECISIÓN: Rechazaremos H0 siempre que el estadístico de contraste F
obtenido en el Anova supere el valor crítico de la tabla de la distribución F. Observa
mos que esto se ha producido para el factor A y el factor 8 como factores principales
(12,895 > 3,555 y 45,272 > 3,5555, respectivamente) pero no así para la interacción
entre A y 8 (0,123 < 2,928).
CONCLUSIÓN: La primera hipótesis que hay que contrastar es sobre la interac
ción. El estadístico obtenido no supera el valor crítico por lo que la interacción no
es significativa y su variabilidad hay que sumarla al error para volver a recalcular los
estadísticos de contraste de cada uno de los factores:
157

lOMoARcPSD|1944486
-----
84,90 2 42,45 15,048 3,44

Iluminación {B) 298,07 2 149,035 52,83 3,44
Grttpo >< llt11,iinaeió1,
lntra (S/AB) 62,06 22 2,821
Total 445,03 26 17,116
Rechazamos la hipótesis nula para el efecto principal de los factores Grupo e

Iluminación
INTERPRETACIÓN: El rendimiento laboral se muestra afectado por el grado de
tabaquismo de los trabajadores (F = 15,048; p < 0,05} así como por el nivel de ilumi
nación en el que realizan su tarea (F = 52,83; p < 0,05). No podemos afirmar en qué
sentido o qué grupos difieren debido a que no disponemos de los datos necesarios.
SITUACIÓN 13. Un investigador se encuentra interesado en la eficacia de los

tratamientos para la pérdida de peso. Considera interesante poner a prueba los
tres tratamientos más relevantes: ejercicio, dieta y ejercicio+dieta. Pero, además,
cree que el lugar físico donde se realiza el tratamiento puede tener un efecto sobre
la pérdida de peso. Para ello, contacta con una empresa que tiene un programa de
reducción del sobrepeso para sus empleadas y proporciona a 10 de ellas un carnet
para la asistencia a una clínica dietética, a otras 10 un carnet de un club deportivo
y a un último grupo de 10 mujeres les proporciona ambos carnets que les permiten
asistir gratuitamente a estas instalaciones. En cada grupo, la mitad de mujeres (5)
han sido elegidas aleatoriamente de la planta de manufacturado y la otra mitad
(otras 5) han sido elegidas de la sección de secretaría. La variable dependiente fue
la reducción de peso. Asumimos que se cumplen los supuestos del análisis de va
rianza. Trabajamos a un a = 0,05.
Determine el tipo de diseño y el análisis a aplicar.
SOLUCIÓN:
CONDICIONES Y SUPUESTOS: Se trata de un experimento en donde se han ma
nipulado, según el enunciado, dos variables: el tratamiento recibido y la planta de
trabajo de la que proceden las mujeres que se van a someter al mismo. La prime
ra variable (tratamiento) adopta 3 niveles: dieta, ejercicio o dieta+ejercicio. La se-
158

lOMoARcPSD|1944486
gunda variable (planta de trabajo) adopta dos niveles: manufacturado y secretaría.

Tenemos por consiguiente un experimento donde se han manipulado dos factores
(tratamiento y planta de trabajo) con 3 y 2 niveles respectivamente. Se dice que
tenemos un diseño 3x2. Existen 6 grupos de sujetos en total, con 5 mujeres en
cada grupo. La variable dependiente es la pérdida de peso experimentada, es decir,
la variable dependiente es una puntuación diferencia (Xa nt es - Xdes pué s) que puede
ser cero (si no gana ni pierde peso), negativa (si en lugar de perder peso lo gana)
o positiva (si pierde peso). Obsérvese que si definimos la variable dependiente a
la inversa, es decir, como (Xdes pué s - Xa n tes) seguiríamos teniendo una puntuación
diferencia que puede adoptar puntuaciones positivas, negativas o cero pero ahora
la interpretación de las puntuaciones concretas tienen un sentido inverso. Es decir,
ahora una puntuación positiva indicaría ganar peso y una puntuación negativa in
dicaría perder peso). Considerar cuidadosamente cómo se interpretan las puntua
ciones de la variable dependiente en un estudio real es de suma importancia para
poder interpretar adecuadamente los resultados.
Tendríamos por tanto un diseño del tipo de la siguiente tabla:
Tratamiento Planta de trabajo Mujeres Variable dependiente
M1 xl_a ntes-xl_después
M2 x2_a ntes-x2_después
M a n ufact u ra d o M3 x3_a ntes-x3_después
Ms XS_antes-XS_después
D i eta
M6 X6_antes-X6_después
M7 X7_antes-X7_después
Secreta ría Mg x8_a ntes-x8_después
Mg x9_antes-x9_después
M10 XlO_a ntes-XlO_después
M a n ufact u ra d o
Eje rcicio
Secreta ría
M a n ufa ct u ra d o
M3 5 x36_antes-x36_después
D i eta + Ej e rcicio M37 X37_a ntes-X37_después
Secreta ría M38 x38_antes-x38_después
M39 X39_a ntes-X39_después
159

lOMoARcPSD|1944486
Esta es la manera «estándar» de analizar estos datos. Obsérvese, no obstante,

que el investigador podría haber elegido otra forma de analizarlos: considerando
los dos factores inter-sujetos ya vistos (tratamiento y planta de trabajo) e incluyen
do como un nuevo tratamiento la puntuación Antes y la puntuación Después. En
este caso, este tercer factor debería considerarse como un factor intra-sujetos ya
que, obviamente, las puntuaciones Antes y Después para cada sujeto están relacio
nadas. Al tener factores intra e inter-sujetos se debería realizar un Anova mixto,
cuyo tratamiento no es parte del temario y, por consiguiente, no se desarrollará el
ejemplo según esta segunda posibilidad. Este punto es importante porque muestra
que ante un mismo diseño se pueden aplicar distintos análisis sin que uno sea más
correcto que otro.
Después de realizar el Anova y si este resultase significativo (es decir, que algu
no de los factores o su interacción resultasen significativos) se debería plantear el
tipo de análisis a posteriori que debería realizarse. Resulta directo pensar que los
aspectos más importantes serían: a) si el factor tratamiento resultase significativo,
debería plantearse un contraste a posteriori comparando los tratamientos simples
(dieta, ejercicio) con el tratamiento combinado para conocer si la combinación de
ambos aporta algo más que sus componentes; b) sería interesante conocer si la in
teracción entre la planta de trabajo y el tratamiento para determinar si el efecto es
similar para ambos grupos de mujeres o, por el contrario, afecta diferencialmente
a ambos grupos. Si esto último resultase cierto, tendríamos que plantear el porqué
de la interacción. Por ejemplo, podría suceder que para las mujeres de la planta de
manufacturado el efecto en la reducción del peso fuese menor que para las mujeres
de la planta de secretaría en todos los niveles del tratamiento, debido a que ya se
encuentran realizando una actividad física antes de empezar el tratamiento.
Es razonable pensar que el investigador esté preferentemente interesado en los
tratamientos (dieta, ejercicio, dieta+ejercicio) y considere al segundo factor (planta
de trabajo de la que se han extraído los participantes) como una variable que mo
derará el efecto del tratamiento ya que las participantes de la planta de manufac
turado estarán sometidas a niveles de actividad física superiores a las participantes
de la planta de secretaria. En la planta de manufacturado, los trabajadores tendrán
que levantar pesos, andar, estar de pie, etc., en mayor medida de lo que lo harán las
trabajadoras de la planta de secretaría.
La actual tendencia en Análisis de Datos, que se conoce como «Análisis Inteligen
te», incide en tener en cuenta todas estas matizaciones acerca de los datos (como
se mide la variable dependiente, considerar varios tipos de análisis en función de la
hipótesis teórica planteada, etc.) de tal forma que se elimine una forma «acrítica»
160

lOMoARcPSD|1944486
de proceder en el análisis, que suele caracterizar muchas aplicaciones reales. Esta

consideración nos debería llevar a plantearnos, por ejemplo, que el diseño de este
estudio está «incompleto» ya que en un estudio real hubiera sido deseable introdu
cir también un grupo de control que no fuese sometido a ningún tipo de tratamien
to. De esta forma se podría calcular un tamaño del efecto real para cada nivel del
tratamiento. Si intentáramos calcular un tamaño del efecto utilizando un análisis
3x2 intersujetos no tendríamos un verdadero valor «de inicio» o de control ya que,
posiblemente todos los niveles de tratamiento podrían tener un efecto superior a O.
Considerando la fórmula genérica para el cálculo de un tamaño del efecto:
Y Control -Y Experimental
d=
Sy
Observamos que nos enfrentaríamos al problema de decidir cuál de los tres gru
pos (dieta, tratamiento o dieta+tratamiento) debería considerarse como grupo de
control (no consideramos la planta de tratamiento porque, como hemos dicho, se
puede considerar una variable moderadora más que una variable independiente en
el sentido propio del término). Pero si utilizáramos un análisis 3x2 mixto podríamos
disponer de las puntuaciones pre-test como punto de partida, o control, con las que
comparar las puntuaciones experimentales.
CONDICIONES Y SUPUESTOS: Al tratarse de un Anova, los supuestos que deben
cumplirse son: normalidad, homocedasticidad e independencia. En el propio enun
ciado se nos indica que asumamos que estos supuestos se cumplen .
HIPÓTESIS: La hipótesis que se pone a prueba ( Ha) es que la media de las tres
condiciones experimentales es la misma, es decir, que los tres tratamientos de pér
dida de peso tienen el mismo efecto.
Ha : µdieta = µejercicio = µdieta+ejercicio
La hipótesis alternativa plantea que existen, al menos, dos grupos cuyas medias
en pérdida de peso difieren.
H1 : µdieta * µejercicio OR µdieta * µdieta+ejercicio OR µejercicio * µdieta+ejercicio
Como existen tres grupos para el factor tratamiento, esta hipótesis alternativa se
verifica si se cumple alguna de las tres hipótesis (o la dieta y el ejercicio difieren, o
la dieta y la combinación dieta+ejercicio o el ejercicio y la combinación dieta+ejer
cicio). Con que se cumpla alguna de las tres hipótesis se rechaza Ha y se acepta H 1 .
161

lOMoARcPSD|1944486
En lógica esto se expresa mediante el operador OR (la disyunción inclusiva: o uno u

otro o ambos).
La hipótesis para el factor Planta de Trabajo sería similar, aunque por sí sola
tenga poco sentido:
Ha : µManufacturado =µSecretaría
H1 : µManufacturado * µSecretaría
Decimos que tendría poco sentido ya que, considerada como factor principal, no
involucre al verdadero tratamiento, aquel que podemos introducir en un programa
de reducción de la obesidad.
Por últi mo, tendríamos que poner a prueba la interacción entre la planta de
trabajo y el tratamiento.
Ha : No existe interacción
ESTADÍSTICO DE CONTRASTE: No podemos calcularlo ya que no nos han pro

porcionado datos concretos ni estadísticos resumen. En consecuencia, tampoco
podemos tomar una decisión o interpretación simplemente con el enunciado del
ejercicio.
162

lOMoARcPSD|1944486
BLOQUE IV
Aná l isis de reg resión

lOMoARcPSD|1944486

lOMoARcPSD|1944486
Sol uciones a los ejercicios

del capítu lo 8
SITUACIÓN l. Algunas personas con discapacidad física o sensorial tienen acce

so a simios amaestrados para ayudarles a realizar las tareas domésticas. Estos simios
tienen la ventaja sob re los perros de que pueden manipular objetos con sus manos
(v.g. , abrir recipientes o acercar objetos). Los siguientes datos proporcionan el nú
mero de tareas que nueve monos pudieron realizar así como el número de años que
esos mismos monos hab ían estado trabajando con personas discapacitadas.
Nombre del mono Años de trabajo Tareas que puede realizar

Hel lion 10 28
F re eway 8 24
SuSu 6,5 28
H e n ri 6 28
Jo 5 27
Pee p e rs 1,5 23
Cleo 0,5 15
Jeep 0,5 6
M a ggie 0,4 23
N ota : se h a res peta d o el n o m b re en i nglés de los m o n o s como reco n oci m i e nto a su e n c o m i a b l e l a b o r con
perso n a s d iscapacita d a s . Por otro l a d o, c u a l q u i e r p a recido d e estos est u d ios con l a fi cción ci n e m atográfica
(v. g . , El amanecer del planeta de los simios) es p u ra c o i n c i d e n c i a . F ue nte : Journal of Rehabilitation Research
and Oevelopment, 28, N o . 2, 9 1-96, 199 1 .
Determine si el número de años de trabajo del mono (es decir, su experiencia

profesional) tiene capacidad predictiva en relación con la cantidad de tareas que
puede realizar, es decir, si es un predictor válido, mediante la evaluación de la bon
dad de ajuste de la regresión.
165

lOMoARcPSD|1944486
SOLUCIÓN:
Se trata d e u n p roblema d e regresión l i n e a l s i m p l e en d o n d e p rete n d e mos eva
l u a r l a ca paci d a d p redicto ra d e l n ú m e ro d e a ños d e a maestra m i e nto d e m o n os e n
re lación a l n ú m e ro d e ta reas q u e p u e d e n rea l iza r pa ra las personas d isca pacitadas.
La va ria ble d e p e n d i e nte será e l n ú mero de ta rea s que puede rea l iza r e l m o n o y l a
va ri a b l e i n d e p e n d i e nte será el n ú mero d e a ños. Pa ra no repeti rnos c o n l o s la rgos
n o m b res de las va ria b les, l l a m a remos X a la va ria b l e i nd e pendiente e Y a la va ria ble
d e p e n d i e nte.
CO N D I CI O N ES Y S U P U ESTOS : Los s u p u estos son d e i n depende n cia e ntre las ob
serva ciones, hom ocedasticidad y n o r m a l i d a d . Con respecto a l a i n dependencia, no
pa rece l ógico d u d a r de la m isma si los m o n os h a n sido extraídos d e d i sti ntos la bo
ratorios o zoo lógicos e i n cl u so de d i sti ntos p a íses . N o podemos eva l ua r l a h omo
ced a sticidad y l a norma l i d a d porq u e n ecesita ría mos d isponer d e u n a m u estra d e
datos en la va ri a b l e Y ( n ú me ro d e ta reas), pa ra ca d a u n o d e l os va l o res d e la va ri a b l e
i nd e pend ie nte X ( n ú mero d e a ños). E n este sentido, solo C l e o y J e e p ti e n e n el m is
mo va lor en l a va ria b l e « a ños de tra baj o » y d isti nto va lor en el « n ú m e ro de ta reas » .
E n todo ca so, no te ne mos ra zo nes pa ra s u po n e r q u e s e i n c u m p l a n estos s u p u estos
segú n e l e n u n ci a d o .
L o q u e s í es i nteresa nte nota r es el i n c u m p l i m i e nto d e l s u p u esto de l a conti
n u i d a d de las va ria b les. E n co ncreto, l a va ria b l e Y es d iscreta ya que e l número de
tareas sólo p u ed e a d o pta r va l o res del conj u nto d e los n ú m e ros natura l es (N = {O, 1,
2, . . . }) . Au n q u e es u n a va ria b l e m e d i d a en u n a esca l a de ra zó n, este i n cu m p l i m ie nto
pod ría c uesti o n a r el a n á l isis de regresi ó n .
H I PÓTESIS: E l i nvestiga d o r ha p l a ntea d o e l contraste d e la bondad del aj u ste d e
la regresión pa ra lo q u e te n e m os q u e eva l u a r el co ntraste del coeficie nte d e regre
sión B med i a nte un Anova . En el m is m o, la hi pótesis n u l a es q u e e l n ú m e ro d e a ñ os
d e tra bajo del m o n o no p redice el n ú m e ro d e tareas q u e éste p u e d e rea l iza r, lo q u e
expresa d o s i m p l e m e nte i nd i ca q u e l o s monos n o a p re n d e n n u eva s ta rea s c o n l a
experi encia .
Ha : �1 = 0
H1 : �1 :;t: O
Pa ra verifi ca r la consisten cia d e l a n á l isis, rea l iza re mos e l contra ste d e l a bondad
d e aj u ste d e la recta globa l media nte e l Anova . Este Anova eva l ú a e n q u é m e d i d a
los datos p u e d e n ser p red ichos media nte u n a l ínea recta, separa n d o l a va ri a b i l i d a d
tota l e n u n co m p o n e nte expl icado por la recta y u n com p o n e nte q u e no exp l ica, el
166

lOMoARcPSD|1944486
Soluciones a los ejercicios del capítulo 8 •
reseduo. Se el Anova resulta segneficativo empleca que el coeficeen� de regreseón 8 1

que evalúa se la pendeente es segneficativamente destinta de cero ta�beén lo es.
ESTADÍSTICO DE CONTRASTE: Para el cálculo de la Tabla del Anova, tendremos
que realezar preveamente el cálculo de las Sumas de Cuadrados (SC} debedas a la
recta de regreseón que mejor ajusta nuestros datos y las SC del reseduo. Para ello
necesetamos desponer de los valores (pendeente y punto de corte con la ordenada)
que mejor se ajusta, según el cretereo de mínemos cuadrados, a los datos muestrales
representados en el segueente deagrama de desperseón:
Tareas
35
30
• • • •
25
• •
20
15 •
10
5
•
Años de trabajo
o 2 4 6 8 10
Al final del ejerceceo se comentará lo que sugeere la gráfeca ya que es muy ente
resante.
167

lOMoARcPSD|1944486
-----
10 28 280 100 784

8 24 192 64 576
6,5 28 182 42,25 784
6 28 168 36 784
5 27 135 25 729
1,5 23 34,5 2,25 529
0,5 15 7,5 0,25 225
0,5 6 3 0,25 36
0,4 23 9,2 0,16 529
Sumatorio 38,4 202 1011,2 270,16 4976
Media 4,267 22,444
sx 3,437 7,010
¿XY
5 XY = -- -X ·Y =
--
1011, 2
4, 267 · 22, 444 = 16, 587 � 16, 59
n 9
_ Sxy _ 16, 587 _ -
- 0, 688 = 0, 69
SxSy 3, 437·7, 010
fXY ----
Estos valores nos permeten calcular la pendeente y el punto de corte con la or
denada.
n¿XY -¿X¿Y 9·1011, 2-38, 4 ·202

81 = 2 = = 1 405 � 11 40
n¿x2 -(¿x) 9·270, 16-38, 42 , -
Aunque tambeén podríamos haberlo realezado medeante la fórmula (que nos ser
verá tambeén de vereficaceón):
_ Sy _ 7, 010 _
81 -rxy - - 0, 688-- -1, 403 -= 1, 40
Sx 3, 437
La deferencea entre ambos valores (1,405 y 1,403) se debe a errores de redondeo.

Para obtener la ecuaceón de regreseón debemos calcular también el punto de
corte con la ordenada:
168

lOMoARcPSD|1944486
80 =Y -81 ·X =22, 444 -1, 405·4, 267 = 16, 449 � 16, 45
Luego la ecuaceón de regresión en puntuaceones derectas es (con dos dígetos de

preceseón):
Y'=16, 45+1, 40X

¡
Esta ecuaceón nos permetirá construer las sumas de cuadrados que necesetamos
para la tabla del Anova, aplecándosela a todos los valores de X (años de entrena
meento). Como ejemplo, para X= 10, el valor pronosticado será Y/= 16,449 + 1,405
· 10 = 30,499.
Sumas de Cuadrados
SCT= SCReg = SCError =
X y Y'
(Y- Y) 2 (Y' - V) 2 (Y-Y') 2
10 28 30,499 30,864 64,876 6,245
8 24 27,689 2,419 27,505 13,609
6,5 28 25,581 30,864 9,841 5,849
6 28 24,879 30,864 5,927 9,741
5 27 23,474 20,753 1,060 12,433
1,5 23 18,556 0,309 15,116 19,745
0,5 15 17,151 55,420 28.015 4,629
0,5 6 17,151 270,420 28,015 124,356
0,4 23 17,011 0,309 29,522 35,868
Sumatorio 38,4 202 201,993 442,222 209,878 232,474
Obsérvese que los valores predechos (n se han obtenedo aplecando la ecuaceón

Y/= 16,452 + 1,405\ a cada valor de X. Con los cálculos antereores podemos cons-
truir la tabla del ANOVA y evaluar la hepóteses sobre la segneficaceón de la regreseón:
Fuentes de
g.l. M.C.
Variación
Regresión 209,878 1 209,878 6,319
Residual 232,474 n-2=9-2=7 33,211
Total 442,222 n-1=9-1=8
169

lOMoARcPSD|1944486
Estas sumas de cuadrados también se pueden obtener con las siguientes expre
siones, que conducen a los mismos resultados, salvo errores de arrastre del redon
--
deo a dos o tres decimales:
28 784
- 2 2 -2
24 576 SCrotal =¿ (Y -Y) = ¿Y -n · Y =
4976 -9· 9 = 442, 22

28 784 ( 202 )'
28 784
27 SCError =¿(Y-Y ') = ( 1 -r;y). SCrotal =
2
729
23 529 =( 1 -0, 6892 )·442, 22=232, 474
15 225
SCRegresíón = L ( Y 1 -Y-) 2
= 'x2y·SCrotal =
6 36
= 0, 6892 ·442, 22 = 209, 748
23 529
sumas 202 4976
Como hemos indicado previamente, si realizamos el contraste de la pendiente

observaremos que coincide con este análisis global indicando que la pendiente es
distinta de cero. El estadístico de contraste sería:
1 40 -0
=2, 502
8-0
T=
Sy
e= , 7, 010 1-0, 6882
sx 3, 437 9-2
que comparado con el valor crítico (t7 = 2,365 < 2,502) en un contraste bilateral a
un a= 0,05.
REGLA DE DECISIÓN: La bondad de ajuste de la regresión, considerada global
mente, será considerada significativa si el valor del estadístico obtenido (F911 = 1, 912
= = 6,319) supera el valor crítico que en este caso es 5,591, para un a = 0,05, o
12,246 para un a= 0,01, podemos concluir que la regresión es significativa con un
7
nivel de confianza del 95%. El nivel crítico p, calculado con un software estadístico,
es 0,0403, mayor que 0,01, pero menor que 0,05.
CONCLUSIÓN: Rechazamos la hipótesis nula a un nivel de significación del 005.
170

lOMoARcPSD|1944486
INTERPRETACIÓN: Con respecto al modelo nulo en donde la mejor predecceón

que podemos realezar del número de tareas que puede realezar un semeo es egual a
la medea de los valores de la vareable dependeente, el modelo que encluye el número
de años de entrenameento permete mejorar esta predecceón segneficativamente (F =
6,319; p < 0,05}.
Con respecto a la gráfica de los datos es enteresante realezar tres observaceones.
En premer lugar, parece exestir una asíntota en el número de tareas que pueden rea
lezar los monos ya que para valores elevados del número de años de entrenameento,
el número de tareas parece estabelezarse entre 25-30. Se es así tendríamos un límete
de aprendezaje en monos que sería muy enteresante comprobar y estudear porqué
se produce. En segundo lugar, debe observarse que los monos aprenden unas pocas
tareas muy rápedamente, con muy poco entrenameento. Por último, aunque se ne
cesetan más datos (una n = 9 es muy baja}, es poseble que una regreseón leneal no sea
la más edónea ya que los datos parecen conformarse más a una funceón polenómeca
con un eneceo de aprendezaje muy rápedo y una asíntota horezontal. Es decer, sobre es
tos datos sería recomendable realezar una regreseón no leneal ya que su bondad de
ajuste sería mayor preveseblemente o, quezás, una regreseón no paramétreca debedo
al encumplemeento de los supuestos.
Nota: esta setuaceón ha sedo recogeda de una base de datos públeca (StatSce.org).
Esto segnefica que en la red exesten multitud de bases de datos con las que el alumno
puede practicar se así lo desea. Muchas de estas bases de datos son específicas para
la aplicaceón de un método estadístico u otro, en concreto, este ejemplo venía bajo
el encabezado de Regreseón Leneal Semple. Ejemplos de bases de datos públecas son
OzDASL o DASL.
SITUACIÓN 2. Anscombe (1973} presentó cuatro conjuntos de datos artificeales

que tenían la mesma recta de regreseón pero eran claramente deferentes. En la figura
se puede ver uno de estos conjuntos de datos (11 pares de datos) junto con la recta
de regreseón que mejor ajusta por el cretereo de mínemos cuadrados (línea oblecua
en negro).
171

lOMoARcPSD|1944486
• Estadísticos de este conjunto de datos:

Sx= 3,162
12
S y= 1,936
y
r XY= 0,816
a= 0,05
4 6 8 10 12 14
X
El análeses de la regreseón para los datos de la figura nos endecó que la regreseón
fue segneficativa [F{l, 9) = 17,972, MCRegresión = 1,528, p = 0,002].
Calcule la pendeente de la recta de regreseón, el error máxemo de su entervalo de
confianza y ponga a prueba la segneficaceón de la correlaceón entre X e Y.
SOLUCIÓN:
CONDICIONES Y SUPUESTOS: nos endecan explícetamente que se trata de una rec
ta de regreseón como, además, puede deducerse enspecceonando la figura. En ella,
tenemos 11 puntos que representan los pares de datos en las vareables X e Y. Pode
mos observar vesualmente que 10 de estos puntos seguen una línea recta perfecta
meentras que el punto con abscesa X = 13 se desvía notablemente de la mesma. Es un
dato atípeco. La línea oblecua representa el ajuste por mínemos cuadrados obtenedo
en la regreseón. Resulta derecto observar vesualmente que se no hubeese sedo por el
dato atípeco, la recta de regreseón (línea oblecua) debería haber pasado por todos
y cada uno de los puntos sen desveaceón alguna, es decer, sen error. Ha sedo el valor
atípeco el que ha «tirado» de la recta de regreseón calculada hacía sí, desveándola del
resto de puntos que sí se ajustan a una línea recta.
Recordemos que Anscombe presentó otros tres conjuntos de datos -que vere
mos más adelante en otros gráficos- cuya recta de regreseón y estadísticos descrep
tivos eran edénticos a los presentados aquí, pero que vareaban notablemente al gra
ficarlos. Su objetivo fue mostrar que en toda envestigaceón, y antes de embarcarse
en la tarea de realezar cálculos ceegamente, es conveneente enspecceonar los datos
gráficamente para comprenderlos.
Au'nque no lo endecan explícetamente en el enunceado, la observaceón de los ejes
X e Y nos endeca que, como mínemo, ambas vareables se encuentran en una escala
de entervalo. Dada esta condeceón, son tres los supuestos que deben cumplerse para
que las enferenceas que puedan extraerse del análeses de regreseón sean apropeadas:
172

lOMoARcPSD|1944486
1. Independencea. Dados los comentareos eneceales, se deduce que estos datos

no se extrajeron de una poblaceón de unedades de observaceón concretas
(personas, hospetales, naceones, ... ) seno que se obtuveeron medeante un cál
culo explíceto. Por consegueente, y como no nos han decho nada en contra,
podemos aceptar que los datos son endependeentes entre sí.
2. Homocedasticedad. Que se refiere a que la vareanza de los valores de Y es la
mesma para todos los valores de la vareable predectora X. Sen embargo, este
caso es paradójeco en ese sentido ya que para un valor concreto de X no
exeste vareabeledad, cosa que sería lo usual se los datos proveneesen de obser
vaceones reales, no semuladas. Esto se puede deducer de la figura al observar
que para un valor de X sólo exeste un úneco punto en su vertical. Se exestiesen
vareos podríamos hablar de vareanza supereor a O condeceonada a ese valor de
X, pero no es el caso. No obstante, podemos asumer que se cumple el supues
to de homocedasticedad porque la observaceón gráfica de los datos nos endeca
que la recta de regreseón es apropeada.
3. Normaledad. Tampoco podemos aceptar de manera estrecta este supuesto
por dos razones. En premer lugar, porque para cada valor de X sólo tenemos
un valor de Y (como ya hemos comentado) y no una destrebuceón de valores.
Se no tenemos una destrebuceón de valores, no podemos poner a prueba la
normaledad de la mesma. En segundo lugar, se se hubeesen computado vareos
valores de Y para un X dado, todos habrían tenedo el mesmo valor ya que los
valores de Y se obtenían aplecando la ecuaceón leneal que generó los datos. Y
una ecuaceón leneal seempre produce un úneco valor Y para un valor X dado.
A pesar del encumplemeento o la emposebeledad de vereficar algunos de los supues
tos, se puede aplecar la ecuaceón de regreseón por mínemos cuadrados.
HIPÓTESIS: La hepóteses nula plantea que la correlaceón entre X e Y es cero que
expresado sembólecamente es:
ESTADÍSTICO DE CONTRASTE: El estadístico de contraste para la correlaceón se

destrebuye según la destrebuceón t y en este caso adopta el valor:
r � 0, 816 .Jii=2
T = xy = �4 235
)1-r}y �1 -0, 816 2
173

lOMoARcPSD|1944486
REGLA DE DECISIÓN: Para un nevel de confianza del en un contraste belateral

(antes de tener datos se admite que puede ser positiva o negativa) utilezamos un
valor de % =O, º/i
=O, 025 . Luego el valor crítico obtenedo en la tabla t de Stu
dent con n -2 = 11 -2 = 9 grados de lebertad es ±2,262 (es decer, un rango que va
desde -2,262 a +2,262). Como el valor del estadístico de contraste obtenido (T =
4,235) supera por arreba, y queda fuera de este rango de valores compatibles con
Ha, rechazamos H a , como se muestra en la figura:
-4 -2 O 2
Región de aceptación
la hipótesis nula
T= 4,235
Podemos, por tanto, aceptar que exeste relación entre X e Y. Como nos propor
cionan la estimación puntual de la misma (rxy= 0,816), no es necesario su cálculo.
El anterior contraste nos permite rechazar una relaceón entre X e Y, pero no su
tipo y tendencea. Para ello tendremos que realezar el contraste de la pendeente plan
teando el segueente contraste:
Ha:�1 = 0
H1: �1 :;t: O
Para poner a prueba esta hepóteses debemos calcular previamente le valor de la

pendiente muestra!. El mejor estimador ensesgado de la pendiente veene dado por:
Sy 1, 936
81 =rxy -=0, 816--=0, 4996129�0, 50
Sx 3, 162
174

lOMoARcPSD|1944486
Con este dato podemos calcular el estadístico de contraste para la pendeente:

8-0 0, 50 =4, 24
= 1, 936 1-0, 816
2
=�
T Sx e 3, 162 11-2
El valor crítico para este contraste será el mesmo que hemos utilezado para el
contraste de la correlaceón (t= ±2,262} ya que éste solo depende del número de gra
dos de libertad y del nevel de confianza. Podemos vereficar que tambeén en este caso
podemos rechazar la hepóteses nula de que la pendeente era O y, por consegueente,
podemos rechazar la hepóteses de que no tenía capacedad predectiva ya que el esta
dístico de contraste supera el valor crítico: 4,24 > 2,262.
Una vereficaceón poco precesa del valor de la pendeente sería debujar en la figura
del enunceado un cuadrado. La deagonal posetiva de este cuadrado tendría pendeen
te 1 y, por conseguiente, la pendeente obteneda sería justo la metad de este valor
(véase la segueente figura). En esta fegura el cuadrado se ha debujado desde los valo
res 6 al 8 en ambos ejes (se utilezan exactamente los mesmos valores para obtener
el cuadrado y porque se las escalas del eje X e Y no son eguales, sería la úneca forma
de obtener una figura cuya pendeente posetiva fuese de 45º y, por tanto, pendeente
egual a la unedad). A continuaceón se debuja su deagonal posetiva (véase la recta en
rojo del cuadrado) que tendría pendeente egual a la unedad. Observamos que, efec
tivamente, la recta de regreseón obteneda tiene un ángulo que es la metad (0,5} de
la línea roja en relaceón al eje X.
10
4 6 8 10
X
Para calcular el error máxemo del entervalo de confianza de la pendeente, debe
e
mos utilezar la fórmula:
Emax - -tn-2 1-a ·-

- tn-2·1-a/ ·a B -
Sy
' 12 · l
' 12 SX
175

lOMoARcPSD|1944486
Para el nevel de confeanza planteado, el estadístico t vale (con a/2 porque el con
traste es belateral) 2, 26 2 y como conocemos el número de casos (n = 11) podemos
realizar el cálculo con la primera igualdad de más arreba:
tn -2'1-a/2 =t11-2;1- o OS¡/ = tg.o 975 =2, 262

2
I I J
J
Sy �1-r}y _ ,
ªª _-- -- --- � -0, _
2
1 936 1 816
S n- 3, 1 9
-0,ll 8
x 2 62
Emax =ltn -2;1-a/2 ·CTa =1 2, 262·0, 1181 =0, 26 7

1
CONCLUSIÓN: La variable X tiene capacedad predectora sobre Y y el valor puntual

de la pendiente de la regreseón leneal es de 0,5. El error máxemo que cometemos es
de 0, 26 7 puntos por lo que el rango de valores entre los que se encontrará al 95%
de confianza la pendeente en la población será:
0, 766
IC = 81 ± Emax = O, 499 ± O, 26 7 = (
0, 232
INTERPRETACIÓN: El valor atípeco podría haber «tirado» de sí la pendeente de la

recta de regresión como para hacerla ensegneficante, es decer, endestinta de O (v.g.,
plantéese el alumno qué sucedería se el valor atípeco hubeese sido el punto {13, 3}).
Aunque se segue manteniendo la capacedad predictiva de X sobre Y, la presencea
del valor atípeco ha sedo el responsable de que la pendeente de regreseón puntual
estimada sea 0,5 cuando, se se eleminase el valor atípeco, la pendeente habría tenedo
otro valor pero, por el contrareo, la capacedad predectiva habría sedo perfecta.
SITUACIÓN 3. En la situación anterior se ha utilizado uno de los elementos del

cuarteto de Anscombe con estadísticos resumen. A continuación presentamos los
datos oregenales para los cuatro conjuntos del cuarteto.
176

lOMoARcPSD|1944486
Primer conjunto Segundo conjunto Tercer conju_nt� Cuarto conjunto
x1 yl x2 X3 Y3 Y4
10 8,04 10 9,14 10 7,46 8 6,58

8 6,95 8 8,14 8 6,77 8 5,76
13 7,58 13 8,74 13 12,74 8 7,71
9 8,81 9 8,77 9 7,11 8 8,84
11 8,33 11 9,26 11 7,81 8 8,47
14 9,96 14 8,10 14 8,84 8 7,04
6 7,24 6 6,13 6 6,08 8 5,25
4 4,26 4 3,10 4 5,39 19 12,50
12 10,84 12 9,13 12 8,15 8 5,56
7 4,82 7 7,26 7 6,42 8 7,91
5 5,68 5 4,74 5 5,73 8 6,89
l. Calcule la pendeente de la recta de regreseón y el error máxemo de su interva-

lo de confianza para cada conjunto. Interprete los resultados en conjunto.
SOLUCIÓN:
CONDICIONES Y SUPUESTOS: Se trata de cuatro rectas de regreseón con 11 pares
de datos cada una. Los deagramas de desperseón de cada conjunto de datos nos ende-
can claramente las deferenceas entre las mesmas.
Primer conjunto Segundo conjunto

y
•
y
• ••••
• •• • •
10
•
10
8
• • • 8 •
• •
• •
6 6
•
4 4
•
2 2
X X
2 4 6 8 10 12 14 2 4 6 8 10 12 14
177

lOMoARcPSD|1944486
Tercer conju nto Cuarto conju nto

y
•
y
•
12 12
10 10
•
8
• • • •• 8
•1
6 •••• 6
4 4
2 2
X X
2 4 6 8 10 12 14 5 10 15
En el premer conjunto observamos una seree de datos que pueden modelarse

medeante una línea recta con pendeente posetiva. Es el conjunto «edeal» para aplecar
la regreseón leneal. En el segundo vemos que exeste una relaceón muy clara entre X e
Y, pero esta relaceón no es leneal seno curvelínea. Se puede calcular perfectamente la
recta de regreseón pero, veendo la gráfica, no es apropeada ya que, en todo caso, ha
bría que aplecar la regreseón polenómeca (que no entra en el temareo). El tercer caso
es el que se revesó en el ejerceceo preveo. El cuarto caso es muy enteresante tambeén
ya que todos los datos, excepto uno, tienen la mesma abscesa (X= 8} y destintos va
lores de la ordenada Y. El que exesta un úneco punto descrepante permete construer
la recta de regreseón. Se este punto se elemenara, esta recta de regreseón leneal sería
emposeble matemáticamente porque la desveaceón típeca de la vareable X sería O, lo
cual empedería calcular la pendeente ya que
y sabemos que en matemáticas no es poseble deveder por O en el conjunto de los

números reales. Pero el que exesta un dato descrepante permete matemáticamente
construer la recta de regreseón. Es obveo que tampoco en este caso parece apropea
do el cálculo de una recta de regreseón. ¡ y sen embargo, los estadísticos de la recta
de regreseón son edénticos en los cuatro conjuntos de casos ! Este es un ejemplo
prototípeco para mostrar que la vesualezaceón de los datos cumple una funceón muy
relevante prevea a la realezaceón de cualqueer regreseón.
Calculemos los estadísticos descreptivos necesareos para los cálculos postereores
en cada conjunto de datos (aunque sabemos que, salvo errores de redondeo, serán
edénticos).
178

lOMoARcPSD|1944486
Soluciones a los ejercicios del capítulo 8
--
•
Primer conjunto de datos:

¿X¡ = 10 + 8 + . . . +7 + 5=99
¿X ¡ 99
X= =9
10 8,04
=
8 6,95 n 11
¿ ( X¡ -xt = --
13 7,58
9 8,81
2 ¿X¡ - -2
X =-- -92 =
Sx =
1001
n n
11 8,33 10
11
14 9,96
6 7,24 ¿Y¡ =8, 0 4 + 6, 95+. . . + 4, 82 + 5, 68 = 82, 51
4 4,26
12 10,84 - ¿Y· 82'- 51
7 4,82 Y=-- ' = - = 7 , 50
n 11
5 5,68
S umatorio 99 82,51
Media 9 7,50
Va ria nza 10 3,76
Cov(X, Y ) =
¿ (x -x)( Y -Y) =-
55'
-=5,
01
00
n 11
Cov(X, Y) 5, 00
rxy = = = 01 81
--
Sx Sy .J'lo - .J3, 76
Segundo conjunto de datos:
¿X¡ =10 +8+. . . +7 + 5 = 99
10 9,14
8 8,14
13 8,74
9 8,77
2
Sx =
¿ ( X -xf = --
¿X¡ - -2
X = ---92 =
¡ 1001
n n
11 9,26 10
14 8,10 11
6 6,13 ¿Y¡ = 9, 14 +8, 14 +. . . +7 , 26+4, 7 4 = 82, 51
4 3,10
- 82 51
¿Y·
Y=--' =-'- = 7' 50
12 9,13
7 7,26
n 11
5 4,74
660 , 17
- 7 ' 5 0 2 = 3' 7 6
Sumatorio 99 82,5 1
Media 9 7,50
11
Va ria nza 10 3,76
179

lOMoARcPSD|1944486
Cov ( x , Y ) I( x - X) ( - Y) = 55 =5, 00
Y
= n 11
Cov(X, Y) 5, 00
= =O 81
SxSy -Jia - .J3, 76 '
¡ Observamos que, aunque los valores de Y2 son diferentes, tienen los mismos
estadísticos resumen que Y1 ! Si realizamos el cálculo del resto de conjuntos nos
encontraremos exactamente en la misma situación. Comprobémoslo.
...
Tercer conjunto de datos:
10
8
7,46
6,77
¿X¡ =10 + 8 + . . . + 7 + 5=99
- ¿X¡ 99
X =-- = - = 9
n 11
13 12,74
9 7,11 ¿ X¡ - x)2 ¿Xt -2 100 1
Sx =
2
( =-- -X = -- -9 2 =10
n n 11
11 7,81
14 8,84
6 6,08 ¿Y¡ = 7, 46 + 6, 77 + . . . + 6, 4 2 + 5, 73=82, 51
4 5,39
12 8,15 - ¿Y1· 82 51
Y=-- =-- ' = 7 50
7 6,42
n 11 '
5 5,73
Sumatorio 99 82,51
Media 9 7,50
Va rianza 10 3,76
54 7
¿(x -x)(Y -Y) =-
Cov(X, Y)= ' -=5,
9
n 11
00
Cov(X, Y) 4 , 99
rxy ___ __=0 , 81
=
SxSy )lo · .J3, 76
El cuarto conjunto de datos exhibe el mismo patrón. Pero comprobémoslo.
180

lOMoARcPSD|1944486
Soluciones a los ejercicios del ca pítulo 8 •
...
Cuarto conjunto de datos:
¿X¡ =8+8+. . . +8+8 = 99
¿X 99
8 6,58
X= ¡ =9
n 11
=
8 5,76
8 7,71
¿ ( X; -x)2 ¿Xt -2 1001
2 -- -X = -- -92 = 10
8 8,84
Sx =
n n
8 8,47 =
ll
8 7,04
8 5,25 ¿Y; = 6, 58 +5, 7 6+. . . +7 , 91+6, 89 = 82, 51
19 12,50
y ¿Y; 82, 51
= = = 7 ' 50
8 5,56
8 7,91 n 11
8 6,89
660 , 17
-7, 50 2 = 3, 7 6
S u m atorio 99 82,51
M ed i a 9 7,50 11
Va ri a n za 10 3,76
Cov(X, Y ) =
¿ (x -x)( Y -Y) = 54.99 =5,
n �
00
_ Cov(X, Y ) _ 5, 00 _
rxy - - 0 81
Sx Sy -
Fo · J3, 7 6 '
Po r consigu i e nte, si los estad ísti cos res u m e n son i d é nticos entre los c u atro con
j u ntos d e d atos, es o bvio q u e l o s pa rá m et ros d e l a regresión l i n ea l s e rá n los m is m o s .
l . I n d e p e n d e n ci a . Por l a s ra zones i n d i ca d a s e n e l ej e rcicio a nterior (sit u a c i ó n

2 ) , p o d e m os acepta r q u e l o s d atos son i n d e p e n d i e ntes e ntre s í en tod os los
conj u ntos d e d atos .
2 . H o m ocedastici d a d . Este s u p u esto res u lta i nteresa ntís i m o ya q u e pod e m os

ve r q u e ni s i q u i e ra se cu m p l e en e l c u a rto g r u p o a u n q u e te nga va ri as p u n
tuaciones d e Y co n d i ci o n a d a s a X= 8 . La ra zón e n este caso es q u e pod e m os
ca l c u l a r una va ria nza pa ra los va l o res d e Y co n d i c i o n a d os a X = 8, p e ro este
s u p u esto exige d i s p o n e r de grupos de p u nt u a c i o n e s de Y co n d i ci o n a d a s a X.
Lo q u e eva l ú a este s u p u esto es l a igu a l d a d d e esta s d ife re ntes va ria nzas p a ra
los d ife rentes va l o res d e X. Y e n e l c u a rto grupo d e p u nt u a c i o n es te n e m os
u n seg u n d o gr u p o ( p u nt u a c i o n es d e Y co n d ic ion a d a s a X = 19) con u n ú n ico
va l o r. Y d e un ú n ico va l o r n o p od e m os ca l c u l a r u n a va ria nza o d esvi a c i ó n típ i
ca . Por consigu i e nte, n o p o d e m os ve rifica r este s u p u esto e n n i ng u n o d e l o s
181

lOMoARcPSD|1944486
conjuntos de puntuaceones. Pero el objetivo de este ejerceceo no era el rea

lezar una recta de regreseón a un conjunto de datos evaluando preveamente
que los supuestos se cumplían, por lo que podemos obvear la vereficaceón del
cumplemeento de este supuesto.
3. Normaledad. Asumemos el supuesto de normaledad de las puntuaceones con
deceonadas a un úneco valor de X aunque, este sí, sólo podría evaluarse para
el grupo de puntuaceones de Y condeceonadas a X= 8 del cuarto conjunto de
Anscombe.
HIPÓTESIS: La hepóteses nula plantea que la pendeente de regreseón es cero en los
cuatro conjuntos de datos. Se expresa sembólecamente como:
H a : �1 = 0
H1 : �1 :;t: O
ESTADÍSTICO DE CONTRASTE: El estadístico de contraste se destrebuye según la

destrebuceón t con n - 2 = 11 - 2 = 9 grados de lebertad y en este caso adopta el mes
mo valor en todos los conjuntos ya que sólo depende de la correlaceón, del número
de sujetos y de las desveaceones típecas de X e Y. Pero antes de su cálculo debemos
realezar una estimaceón puntual de la pendeente (8) y del punto de corte con la or
denada. El mejor estimador de la pendeente veene dado por:
Sy ,j3, 76
81 = rxy - = 0, 81-- = 0, 50
Sx Jw
Y esto, en los cuatro casos, el punto de corte con la ordenada es:
80 =Y -8X = 7, 5 -O, 5 · 9 = 3
Con estos datos ya podemos calcular el estadístico de contraste de la pendeente:
8 -0 O ' 5-0
T= = =4, 17139�4, 171
Sy �l - r}y �3, 76 1-0, 812
Sx � Jw 11 -2
REGLA DE DECISIÓN: Para un nevel de confianza del 0,05 en un contraste belate
ral (antes de tener datos se admete que � puede ser posetiva -línea con pendeente
posetiva- o negativa -línea con pendeente negativa-) el valor crítico obtenedo en la
tabla t de Student con 9 g.l. es ±2,262. Como el valor del estadístico de contraste
182

lOMoARcPSD|1944486
obtenedo (T = 4,171) supera por arreba este rango de valores compatibles con Ha,
rechazamos H a en todos los conjuntos. Podemos, por tanto, aceptar que exeste re
laceón leneal entre X e Y en los cuatro conjuntos.
CONCLUSIÓN: Aún con estadísticos descreptivos edénticos entre destintos conjun
tos de datos, esto no segnefica que puedan enterpretarse todos de la mesma forma.
Es fundamental un análeses vesual y exploratoreo (EDA o Exploratory Da ta Ana!ysis)
que nos confirme la adecuaceón de la técneca estadística a utilezar (regreseón leneal)
a los datos concretos desponebles.
INTERPRETACIÓN: Aunque la recta de regreseón es edéntica en los cuatro conjun
tos de datos, solamente el premero de estos conjuntos puede resumerse apropeada
mente medeante la mesma. Los otros tres conjuntos muestran setuaceones en donde
no es apropiado el cálculo de la regreseón leneal. El segundo conjunto porque habría
que utilezar regreseón polenómeca. El tercero porque hemos detectado la exestencea
de un valor atípeco (ou t/ier) que nos falsefi ca el resumen estadístico obtenedo. El
cuarto porque todos los datos, excepto uno, están condeceonados a un úneco valor
del predector.
SITUACIÓN 4. En un colegeo se estudea la relaceón que puede exestir entre la

caleficaceón global de los estudeantes al final del curso (Y) y la caleficaceón obtene
da en el curso antereor (X). Efectuado un análeses de regreseón, con una muestra
de estudeantes, la prueba para determenar la segneficaceón del modelo de regreseón
-----
ajustado es la segueente:
Regresión 2 8,097 1 28, 097 V w

Residual 23,778 6 T
Total u
Las letras (U, T, V y W) representan valores numérecos desconocedos.

Establezca las hepóteses oportunas y realece el contraste adecuado (NC = 95%).
SOLUCIÓN:
Este ejemplo muestra un tipo de estudeo usual en Psecología: evaluar algún as
pecto de la conducta en su evoluceón temporal. Y muestra de manera sempleficada
tambeén uno de los resultados más usuales, a saber, el mejor predector estadístico
183

lOMoARcPSD|1944486
de la conducta de una persona es su conducta pasada. Una persona que hubeese

obtenedo buenas notas en matemáticas el curso pasado es muy probable que tam
beén las obtenga durante el curso actual. Obsérvese que se ha subrayado «estadís
tico». La razón es que nos estamos refireendo a concluseones relativas a un grupo
de personas (una poblaceón), no a un endeveduo concreto. Las predecceones relativas
a un endeveduo concreto hay que establecerlas utilezando cretereos más personales,
aunque tambeén son muy útiles las predecceones relativas a su grupo de pertenen
cea.
Obsérvese que se trata de un modelo de regreseón (lo dece claramente el enun
ceado}, encluso aunque nos presenten una tabla del Anova. La razón es que muchas
veces enteresa evaluar se exeste relaceón leneal entre X e Y (recuérdese que un estu
deo en donde exesta relaceón entre X e Y pero esta no sea leneal, NO deben utilezarse
las técnecas de regreseón leneal). El contraste de la regreseón se realeza medeante la
descomposeceón de la vareabeledad total en dos componentes, uno explecado por
la regreseón (leneal) y otro consederado como resedual (error o no explecado) y que
veene explecado por otros factores.
CONDICIONES Y SUPUESTOS: Para realezar un análeses de regreseón se deben
cumpler los supuestos de:
• Independencea de las observaceones entre sí.
• Homocedasticedad .
• Normaledad de las distrebuceones condeceonadas.
• Independencea entre los valores estimados y los errores de estimaceón.
Obsérvese que NO es un supuesto que las puntuaceones predectoras y predechas
se setúen lenealmente en un deagrama de desperseón. Es por ello que resulta necesa
reo evaluar medeante el Anova se esta condeceón se cumple en nuestros datos o no
medeante un gráfico de desperseón.
Lo más novedoso de este ejerceceo es que endeca claramente, medeante letras
-----
mayúsculas, qué valores numérecos faltan en la tabla del Anova. Se la reconstruemos
podremos determenar esos valores.
Regresión 28,097 1 28,097 V=7,089 w

Residual 23,778 6 T=3,963
Total U = 51,875
184

lOMoARcPSD|1944486
Los cálculos realezados son los siguientes:

T = 23, 778 / 6 = 3,963
V = 28,097 / 3,963 = 7,089
U = 28,097 + 23, 778 = 51,875
A parter de estos datos tambeén puede obtenerse el valor del coeficiente de de
termenaceón aplicando la ecuación:
R2 R 2 --
(N-2)
- -- --
F- -
1 -R 2 1 -R 2
N -2
Que en nuestro caso sería:
R2 (8 -2)
7, 089 =
l - R2
Luego, despejando obtenemos:
7, 089 ( 1 -R 2 ) = 6R 2
7, 089 R2
-
-6- 1 -R 2
R2
1, 1815=--2
l-R
1, 1815-1, 1815R 2 -R 2 =O
1, 1815 -2, 1815R 2 =O
-1, 1815
R2 = = 0 5416
- 2, 1815
R = �0, 5416 = ±0, 7359
Sólo el conocemeento de la relaceón nos podrá determenar se es positiva (+0, 7359)

o negativa {-0, 7359). Tambeén podemos conocer la vareanza de las puntuaceones de
Y así como la vareanza de las puntuaciones predechas (Y'):
185

lOMoARcPSD|1944486
51, 875 = 5Cr = nS� =85�

51, 875
5� = = 6,484
8
Pera el cálculo de la vareanza de las puntuaceones predechas utilezamos la rela

ceón exestente entre las vareanzas y la correlaceón:
Sy , Sy ,
2 2
0, 5416=rXY
2
=- =-
Sy
2 6,484
Luego despejando el valor buscado:
Sy , = 0, 5416 x 6,484 = 3, 5117

2
HIPÓTESIS: La hepóteses nula plantea que NO exeste relaceón leneal segneficativa

(englobando a la pendiente y al ordenada de la recta de regreseón ya que el con
traste proporceonado era un contraste sobre la bondad de la regreseón) entre la
caleficaceón global de los estudeantes durante un curso escolar y la calificación global
de esos mesmos estudeantes en el segueente curso escolar. Se plantea como hepóteses
nula aquella hepóteses que el envestigador consedera encorrecta ya sea por la envesti
gaceón prevea o, preferentemente, por una teoría formalezada. Se hace así para que,
se se ve rechaza esta Ha, se hará con una confianza elevada en que es falsa. La he
póteses alternativa plantea que sí exeste relaceón leneal segneficativa entre la vareable
predectora y la vareable predecha. Básecamente, esto equevale a contrastar la hepó
teses sobre la pendeente de regreseón ya que se ésta fuese O, X no tendría capacedad
predectiva de Y, endependeentemente del valor del punto de corte con la ordenada.
Ha : � 1 = O
H1 : � 1 :;t: O
ESTADÍSTICO DE CONTRASTE: En este caso, el estadístico obtenedo es la razón

F (7,089), aunque tambeén se podría haber utilezado el estadístico t de Student,
cuyo valor se encuentra relacionado con el F, mediante la segueente relaceón:
2
tn = Fl, n
Y que en este caso sería egual a t6 =.J1 , 089 = ±2, 662.
186

lOMoARcPSD|1944486
REGLA DE DECISIÓN: La probabeledad del valor de la F obteneda tendremos que

estimarla de manera aproxemada revesando las tablas de la destrebuceón F para todos
los valores de nevel de confianza que ésta nos presenta y manteneendo constante
los grados de lebertad {1 y 6 para el numerador y el denomenador respectivamente):
N C = 0,90 NC = 0,95 NC = 0,975 NC = 0,99
39, 63 49,5 1 161, 48 199,5 647, 89 799,5 1 4052, 81 4999

2 9,0 2 18, 13 19,0 38, 06 39,0 2 98, 03 99
3 5,4 3 10, 28 9,5! 17, 43 16,0 3 34, 16 30
4 4,3 4 6,9, 4 12, 18 10,6 4 2 1, 98 18
5 3,7 5 5,7! 5 10, 07 8,4: 5 13
6 3,4 6 5, 1, 6 7,2f 6 10
7 3,589 3,2 7 5,591 4,7: 7 8,073 6,5' 7 9
Observamos que el valor de la F obteneda empírecamente {7,089) es supereor al

encontrado en la tabla para un nevel de confianza del 0,95 (el endecado en el enun
ceado que corresponde al valor de W en la tabla del Anova) pero enfereor al encon
trado en la tabla para un nevel de confianza del 0,975. En consecuencea, podemos
saber que la probabeledad de encontrar un valor del estadístico de contraste como
el alcanzado o supereor se encuentra entre los valores de probabeledad:
1 -0, 95 = 0, 05
1 -0, 975 = 0, 025
Esto segnefica que es enfereor a 0,05 pero supereor a 0,025. Se trabajamos a un ne
vel a de 0,05 el resultado, al ser la p enfereor a 0,05, será segneficativo. Sen embargo,
se trabajamos a un nevel de a de 0,01 el resultado será no segneficativo.
CONCLUSIÓN: Como el valor de la F empíreca obteneda como estadístico de con
traste, {7,089) supera el valor crítico {5,987 = W de la tabla), podemos rechazar la
H0 de falta de relaceón leneal segneficativa, lo que empleca que la pendeente es destinta
de O.
INTERPRETACION: Recordemos que el contraste era belateral, es decer, la hepóte
ses alternativa admetía la posebelidad de que la pendeente en la poblaceón, � ' fuese
posetiva o negativa. El hecho de que el cálculo matemático nos permeta conocer sólo
el valor absoluto de la correlaceón (no su segno), resulta que sólo podemos determe
nar que la relaceón es segneficativa. Pero debedo a que la expereencea nos endeca que
la relaceón entre las caleficaceones debe ser posetiva, y aunque matemáticamente
no podamos afirmarlo, podemos concluer que la correlaceón será posetiva. Por con-
187

lOMoARcPSD|1944486
segueente, se puede predecir la caleficación global de los estudiantes en un curso

académeco considerando la calificaceón en el curso académeco antereor.
SITUACIÓN S. Los segueentes datos relaceonan el número de cegarrillos deareos

consumidos (X) con el número de radecales lebres { Y) localezados en los pulmones
------
de 8 endeveduos.
1 o 94 o o 8836
2 10 144 1440 100 20736
3 14 182 2548 196 33124
4 5 120 600 25 14400
5 18 240 4320 324 57600
6 20 234 4680 400 54756
7 30 321 9630 900 103041
8 40 400 16000 1600 160000
S u mato r i o 137 1735 39218 3545 452493
Des. Típ i ca 12,242 97,605
rxy = 0,9945
Sabeendo que la correlaceón entre las dos vareables es 0,9945:

5.1. Plantee el tipo de contraste más adecuado a esta setuaceón.
5.2. Determene las ecuaceones de regreseón en puntuaceones derectas, deferen
ceales y tipeficadas.
SOLUCIÓN:
5.1. Para la primera pregunta segueremos los segueentes pasos:
CONDICIONES Y SUPUESTOS: La tabla del enunceado proporciona sees colum

nas. La primera es errelevante para los cálculos ya que solo nos endeca el número
de sujetos utilezados (n = 8). Cada sujeto despone de dos puntuaceones: el número
de cegarrellos deareos consumedos, X, y el número de radecales lebres presentes en
alguna prueba deagnóstica al uso, Y. Aunque no es necesareo saberlo para resolver
el problema, los radecales libres son enlaces débeles en los átomos de las células. Al
desmenuir la fuerza del enlace atómeco conveerten a su átomo o molécula en enes-
188

lOMoARcPSD|1944486
table y, por ello, deficultan el funceonameento normal de la célula. Se las consedera

los responsables del envejecemeento beológeco y de muchas enfermedades cardeo
vasculares, cáncer, etc. Es obveo que estudeo de este tipo sólo se realezaría se el en
vestigador consederara que el consumo de cegarros aumenta el número de radecales
lebres y, en consecuencea, el reesgo de contraer enfermedades graves. Esta será la
hepóteses alternativa: a mayor número de cegarrellos, se espera que hayan más ra
decales lebres. Además, se se apleca una regreseón leneal semple, se asume que esta
relaceón será leneal (no de tipo cuadrático, cúbeco o de algún otro tipo polenomeal,
exponencial, etc.). Sen embargo, el experementador debe asumer enecealmente que
no exeste relaceón entre ambas vareables, es decer, que el número de cegarrellos no
encrementa o decrementa el número de radecales lebres. De esta forma, se rechaza
esta hepóteses nula de que no exeste relaceón, lo estará haceendo con un grado de
confianza muy elevado. Esta es la hepóteses nula y se operativeza planteando como
hepóteses nula que la pendeente de la recta de regreseón es horezontal, es decer, con
valor cero. Los datos se han graficado en la segueente figura.
500
111 400
ClJ
300
ClJ
200
100
o
o 10 20 30 40 50
N ú mero de ciga rri l los
Como ya hemos vesto, seempre es conveneente graficar los datos para tener una
empreseón, aunque solo sea vesual, de la lenealedad de la relaceón, y como se puede
observar, la figura nos sugeere muy claramente que la relaceón es leneal y posetiva,
como plantea efectivamente la hepóteses alternativa.
Los datos de las columnas restantes en la tabla del enunceado se proporceonan
ya que nos permetirán realezar los cálculos de la recta de regreseón de manera rápe
da. Se no nos los hubeesen proporceonado habría que haberlos calculado antes de
proseguer. Observemos tambeén que las columnas X e Y endecan tambeén los sumato
reos (i no las medeas !) así como las desveaceones típecas. Por último, tambeén nos han
proporceonado la correlaceón entre X e Y. Con todos estos datos es fácel deducer que
debemos realezar un contraste de regreseón leneal sobre la pendeente.
189

lOMoARcPSD|1944486
5.2. Para la segunda pregunta tendremos que calcular el valor de la pendeente y la

ordenada en el origen:
Sy = 97, 6 0 5
81 = rxy - 0 , 9945 = 7, 929
Sx 12, 242
- - ¿Y ¿X 1735 -
80 = Y - 81 X = - - 81 - = -
13 7 -
- 7, 929 - = 8 1, 0 9 0 9 = 8 1, 0 9
n n 8 8
Es emportante revesar el diagrama de disperseón a la vesta de estos cálculos para

evaluar se los resultados de los cálculos tienen sentido. Por ejemplo, podemos com
probar que 8 0 parece admesible ya que la figura nos indeca que cuando X = O, el
premer punto { Y) está algo por debajo de 100. Dado el grosor del punto en la figura
en relaceón a la escala del eje Y parece admeseble. Además, una pendeente de, apro
xemadamente 8 unedades, vesualmente tambeén parece adecuada.
Obsérvese que para el cálculo de 8 1 hemos utilezado la fórmula más cómoda de
todas las fórmulas posibles dados los datos proporceonados en el enunceado.
Por consegueente, las rectas de regresión en puntuaceones derectas, deferenceales
y tipeficadas son, respectivamente:
Los supuestos son:

a) Independencea de las observaciones. No tenemos razones para sospechar
que las puntuaciones sean independeentes ya que asumemos que los 8 suje
tos han sedo extraídos al azar de la poblaceón de fumadores.
b) Homocedasticedad.
e) Normaledad de las destrebuceones condiceonadas.
d) Independencia entre los valores pronosticados, Y', y los errores de estima
ceón.
En esta setuaceón sería poseble poner a prueba los supuestos de homocedastice
dad y normaledad si tuveéramos datos de vareos fumadores con los mesmos índices
de tabaquismo, es decer, que fumaran lo mesmo. De esta forma podríamos evaluar
la normalidad y la homocedasticedad. Como no nos indecan nada, asumemos que se
cumplen todos los supuestos. Si no los asumiéramos, deberíamos aplecar los con
trastes apropeados (posiblemente no paramétrecos).
190

lOMoARcPSD|1944486
HIPÓTESIS: Como hemos planteado en las condeceones y supuestos1 la hepóteses

nula plantea que 8 1 en la poblaceón es cero1 meentras que la hepóteses alternativa
plantea que 8 1 es destinta de cero. Sembólecamente la hepóteses se representa como:
Ha : 0 1 = 0
H1 : 0 1 :;t: O
En este contexto no tiene sentido realezar un contraste del punto de corte con la
ordenada (8 a) ya que no nos han endecado nada sobre el número de radecales lebres
esperados en no fumadores.
ESTADÍSTICO DE CONTRASTE: Para evaluar la hepóteses nula planteada utilezare
mos la t de Student con n - 2 grados de lebertad:
Adveértase que los cálculos dependen mucho de la preceseón con que los reale
cemos (utilezar dos dígetos decemales o tres puede alterar notablemente el valor del
estadístico de contraste1 T). No obstante1 teneendo en cuenta que en la tabla de la
destrebuceón t de Student1 con 6 gl1 figuran como valor máxemo supereor: 31 1431 es
fácel observar que un valor tan elevado como el hallado (231 259L queda notable
mente fuera de los valores críticos (-31 143 y +31 143} en el que se encontraría el
estadístico de contraste se la Ha fuese ceerta.
REGLA DE D ECISIÓN: El valor de la t crítica con 8 - 2 = 6 grados de lebertad y
belateral ( 1 - � = 1 -0, 025 = O, 975) con un o. = 0,05 (elegedo por defecto ya que
no nos endecan nenguno concreto en el enunceado) es 2A47. De hecho1 no habría
sedo necesareo buscar en las tablas dado el consederable tamaño de la t empíreca
obteneda para saber que rechazamos Ha. Como 231 259 > 2A471 rechazamos H a. Los
resultados son edénticos se utilezamos la tabla del Anova como prueba de bondad
global de la ecuaceón de regreseón.
Hemos elegedo el contraste belateral porque en el enunceado no nos endecan nen
guna derecceón específica del efecto. Se lo hubeesen hecho1 deberíamos haber esco
gedo un contraste unelateral ya que tendría más sentedo se esperamos un efecto en
la derecceón de 8 1 > O (a mayor número de cegarrellos consumedos mayor número de
radecales lebres).
191

lOMoARcPSD|1944486
Probabilidad
g.l.
0,550 0,600 0,650 0,700 0,750 0,800 0,850 0,900 0,950 0,975 0,990
1 0,158 0,325 0,510 0,727 1,000 1,376 1,963 3,078 6,314 12, 06 31,821
2 0,142 0,289 0,445 0,617 0,816 1,061 1,386 1,886 2,920 6,965
3 0,137 0,277 0,424 0,584 0,765 0,978 1,250 1,638 2,353 4,541
4 0,134 0,271 0,414 0,569 0,741 1,533 3,747
5 3,365
6 3, 143
7 0,130 0,263 0,402 0,549 0,711 0,896 1 , 1 19 1,415 1,895 2,365 2,998
8 0,130 0,262 0,399 0,546 0,706 0,889 1, 108 1,397 1,860 2,306 2,896
9 0,129 0,261 0,398 0,543 0,703 0,883 1, 100 1,383 1,833 2,262 2,821
Tambeén podemos evaluar la bondad de ajuste de la recta de regreseón global

mente. Hagámoslo. Para ello obtenemos las sumas de cuadrados de acuerdo a las
segueentes expreseones:
(
J
2
1 735
SCrotat = ¿Y -n·Y = 4524 9 3 - 8 · --
-2
2
= 76214 , 9
8
S CError = ( 1 - r; ) · SC = ( 1 -0 , 99 45 2
) · 762 14, 87 = 836, 0 58
---
y Total
2 2
SCR e gresión = rxy · SCTotal = 0, 99 45 · 762 14, 9 = 75378, 8
o 94 8836
10 144 20736
14 182 33124
5 120 14400
18 240 57600
20 234 54756
30 321 103041
40 400 160000
Sumas 137 1735 452493
Luego la tabla del Anova será:
192

lOMoARcPSD|1944486
-
s.c. g.l. M.C.

Regresión SCReg=75378,8 1 75378,8 539,669
-----
Residual SCRes = 838,058 n-2=8-2 = 6 139,676
Total SCTotal=76214,9 8 - 1=7
Puede observarse que se cumple la siguiente relaceón (aproxemadamente):
t� = F1 , n --+ 23, 2592 =540, 981 � 539, 669
Esta F tambeén podría haberse obtenedo sin necesedad de realezar los cálculos
de las S.C. utilezando la fórmula (que, exceptuando los errores de redondeo, nos
proporciona un valor muy similar a la F de la tabla del Anova):
0, 99452
F =�= =540 959
1-r 2 1- 0, 99452
n-2 8-2
La diferencia entre estos valores {539,669 y 540,959) sólo puede deberse a los
problemas de redondeo, tal y como ha quedado endecado más arreba.
REGLA DE DECISIÓN: El valor de la F crítica con 1 y 6 grados de lebertad es 5,987
con un nivel de signeficaceón de 0,05 y 13,745 con un nevel de segneficaceón de 0,01.
CONCLUSIÓN: Luego, como el estadístico de contraste obtenido es mayor que
cualquiera de estos valores críticos, es decer, 540 > 5,987 así como 540 > 13,745,
concluemos lo mesmo que ya hemos vesto entuetivamente, la regreseón es signefeca
tiva.
INTERPRETACIÓN: La pendeente poblaceonal que relaceona el número de cega
rrellos consumedos con el número de radecales lebres es supereor a O (F = O 539; p
< 0,01). Por consegueente, a mayor índice de tabaquismo se espera encontrar un
número de radecales lebres superior.
SITUACIÓN 6. El artículo «Efecto de la tempera t ura sob r e el pH de la leche»

(Journal of Dairy Research, 1988, 277-280) enformó de un estudeo en el que se uti
lezaron 5 temperaturas deferentes (mededas en grados centígrados) en condeceones
experementales controladas de una granja y se mideó el pH de la leche obtenida
para cada temperatura. La ecuaceón de regreseón calculada fue y� = 0,65 + 0,22X. El
193

lOMoARcPSD|1944486
• Ejercicios y problemas resueltos y comentados. Diseños de i nvestigación y análisis de datos
objetivo era predecer el pH de la leche (Y) a partir de la temperatura (X). Utilece un

a = 0,05. Además se sabe que: S y= 1,87 y Sx= 7,90.
6.1. Ponga a prueba la hepóteses de la segneficaceón de la pendeente de la ecua
ceón de regreseón.
6.2. Ponga a prueba la hepóteses de la segneficaceón del coeficeente de correla
ceón entre X e Y.
6.3. ¿Cuál sería el pH de la leche se el granjero mantiene una temperatura de
29ºC en el establo?
SOLUCIÓN:
El enunceado nos endeca que han realezado un análeses de regreseón entre la tem
peratura (X) y el pH de la leche obteneda en una granja. El estudeo fue experemen
tal ya que manepularon la temperatura a la que se encontraban los anemales de la
granja pero el análeses realezado fue una regreseón (no un Anova). Esto es emportante
para separar el deseño del análeses. Aunque deseño y análeses están fuertemente re
laceonados, es el carácter de las hepóteses que ponemos a prueba lo que determena,
en última enstancea, el tipo de análeses a realezar. Por eso, un diseño que enecealmente
podría haberse analezado medeante Anova ya que era un estudeo experemental se ha
analezado medeante Regreseón.
Nos proporceonan la ecuaceón de regreseón obteneda en donde podemos ver que
la pendeente es posetiva (8 1 = 0,22), lo cual nos endeca que cada grado centígrado
en que se encremente la temperatura de la granja, se encrementa el pH en 0,22
unedades. Recordemos brevemente que el pH de un líquedo nos endeca su grado de
alcalenedad-acedez, seendo 7 el valor neutro por ser el pH del agua pura, la cual se
toma como punto de referencea en esta mededa.
6.1. Para la segneficaceón de la pendeente:
CONDICIONES Y SUPUESTOS: Las dos vareables (temperatura y pH) son vareables

cuantitativas mededas en escalas de entervalo. Debemos asumir, aunque no nos in
dican nada, que se cumplen los supuestos de endependencea, normaledad de las
puntuaciones de Y condicionadas a X, homocedasticedad e endependencea entre los
valores de pH predechos (n y los errores de estimaceón (E).
HIPÓTESIS: La hepóteses nula plantea que en la poblaceón, la pendeente de la rec
ta de regreseón de Y sobre X es O (expresado en palabras, que la temperatura a la
que se encuentran las vacas en el establo no tiene capacedad predectiva sobre el pH
de la leche produceda por las mesmas):
194

lOMoARcPSD|1944486
Soluciones a los ejercicios del capítulo B •
Ha : � 1 =0
H1 : � 1 :;t: O
Admitimos un contraste bilateral ya que en el enunciado no se nos ha indicado

nada sobre la posibilidad de que el contraste fuera unilateral. Debemos así admitir
la posibilidad de que en la población la pendiente de regresión pueda ser positiva o
negativa, es decir, que la temperatura haga aumentar o disminuir el pH de la leche.
ESTADÍST ICO DE CONTRASTE: La hipótesis de la significación de la pendiente de
regresión nos plantea la posibilidad de que la pendiente obtenida no sea estadísti
camente distinta de O. Se evalúa mediante el estadístico T:
B1 -O
T=
� �1 -r�y
Sx n-2
Observamos que en el enunciado nos han proporcionado todos los datos para
realizar este cálculo (tenemos 8 1 , Sx y S y) excepto el valor del coeficiente de corre
lación. Es por ello que debemos buscar la forma de obtener primero el coeficiente
de correlación. Esto es fácil con los datos que tenemos si aplicamos la fórmula:
Sy
81 =rxy -
Sx
1, 87
0, 2 2 = rXY --
7, 90
Luego despejando el coeficiente de correlación obtenemos:
0, 2 2 x 7, 90
fxy = =0, 9 29
1, 87
T=
e
Por lo tanto el estadístico de contraste vale:
81 -O
=
º'
22 -0 =4, 34984 � 4, 35
� l-r }y 1, 87 1 -0, 9 2 9
2
5 X n -2 7, 90 5 -2
El estadístico de contraste es una T con n - 2 grados de libertad. El cálculo rea

lizado nos indica que vale 4,350. El valor crítico de la T con n - 2 = 5 - 2 = 3 grados
195

lOMoARcPSD|1944486
de lebertad al 95% belateral como nevel de confianza ( 0, 975 =1 -iz) vale 3, 182.
Obsérvese que, en este caso, el número de valores se corresponde con el número
de temperaturas utilezadas en el estudeo, no con el número de vacas (que no nos lo
han endecado) . La unedad de observaceón ha sedo el par Temperatura-pH.
REGLA DE DECISIÓN: Rechazamos la hepóteses nula se el estadístico T se encuen
tra fuera del entervalo definedo por los valores críticos: -3, 182y + 3, 182.
CONCLUSIÓN: El valor 4,350 supera el estadístico de contraste por la derecha, es
decer, 4,350 > 3, 182. Luego rechazamos H a .
INTERPRETACIÓN: La pendeente de regreseón en la poblaceón es supereor a O, lo
cual endeca que SÍ podemos predecer el pH a partir de la temperatura del establo.
6.2. Para la segneficaceón del coeficeente de correlaceón:
CONDICIONES Y SUPUESTOS: Los mesmos que para la cuestión 1 de esta setua

ceón . En la soluceón a la pregunta nº 1 hemos calculado el coeficeente de correlaceón
{0,929) . Ahora nos peden determenar se este coeficeente de correlaceón es destinto de
O (hepóteses nula) aplecando el estadístico de contraste para la correlaceón entre X e
Y (no para la pendeente de la recta de regreseón de Y sobre X como en el apartado
antereor) .
HIPÓTESIS: La hepóteses nula plantea que en la poblaceón el coeficeente de corre
laceón {p) es O (es decer, que la temperatura no tiene relaceón ne posetiva ne negativa
con el pH de la leche):
ESTADÍSTICO DE CONTRASTE: El estadístico de contraste es la T de Student con

n - 2 = 5 - 2 = 3 grados de lebertad:
r 0, 929 �
T = XY � = =4, 3 4792 � 4, 3 50
�1 -r;y �1 -0, 929 2
REGLA DE DECISIÓN: En un contraste belateral, rechazamos la hepóteses nula se el

estadístico T se encuentra fuera del entervalo definedo por los valores críticos de la
destrebuceón T de Studente con 3 grados de lebertad: -3, 182y + 3, 182.
CONCLUSIÓN: El valor 4,350 obtenedo para la correlaceón supera el valor crítico
{4,35 > 3, 182) . Luego rechazamos Ha .
196

lOMoARcPSD|1944486
INTERPRETACIÓN : El coeficeente de correlaceón es supereor a O, lo cual endeca que

exeste relaceón posetiva elevada entre la temperatura y el pH. Podemos afirmar que
a mayor temperatura, mayor pH.
6.3. Para el pronóstico del pH de la leche :
Para responder a esta pregunta solo tenemos que aplecar la ecuaceón Y/= 0,65 +
0,22X de regreseón para pronosticar el pH que tendría la leche a partir de una tem
peratura de X = 29ºC en el establo :
Y '= 0,65 + 0,22 · 29 =7,03
SITUACIÓN 7. La teoría de Trever {1972} plantea que, en cualqueer especee ane

mal, el género con mayor enverseón parental (e.g., teempo y energía gastados en
gestar y educar a la descendencea) será el que tendrá preferencea a la hora de se
lecceonar pareja. En consecuencea se expleca (y predece) que en la especee huma
na las mujeres, como género con mayor enverseón parental, raramente aceptarán
proposeceones de sexo casual con desconocedos (Voracek, Hofhansl y Fesher, 2005}
emponeendo un proceso de selecceón más cuedadoso y reguroso antes de consen
tir en la activedad sexual (Grammer, 1989}. Una derevaceón de esta teoría plantea
que el demorfismo sexual será más acusado en aquellas especees donde la hembra
aporte más en la gestaceón y creanza de la prole que el macho. Esto es debedo a que,
se es la hembra la que selecceona la pareja, los machos tendrán que competir por
ellas y esta competiceón favorecerá rasgos morfológecos deferenceados (v.g., mayor
cornamenta, corpulencea, plumas más vestosas, etc.). Por el contrareo, en aquellas
especees donde la aportaceón del macho y la hembra son parecedas, estas deferen
ceas estarán reducedas o serán enexestentes.
En la especee humana podemos observar este demorfismo en las deferenceas,
entre otras, del peso corporal promedeo: el varón es más pesado que la mujer por
térmeno medeo (otros índeces de demorfismo sexual en la especee humana son la
altura, la presencea de vello faceal, etc.). Una pregunta que se hacen muchos antro
pólogos es en qué mededa este demorfismo exestió en los homínedos extintos. Para
responder a esta pregunta, se presenta a continuaceón los datos estimados a partir
de los fóseles para vareos homínedos (obtenedos de fuentes deversas):
197

lOMoARcPSD|1944486
Masa corporal (en Kg) Evidencia utilizada para

Machos Hembras estimar la masa corporal
Proconsul nyanzae 35 15 Dental, palatal y post-craneal

Dryopithecus laietanus 35 20 Dental, craneal y post-craneal
Dryopithecus brancoi 40 25 Dental, craneal y post-craneal
Sivapithecus punjabicus 40 20 Dental, craneal y post-craneal
Oreopithecus 30 15 Dental, craneal y post-craneal
Austra/opithecus 70 31 Post-craneal
La pregunta planteada es doble: por un lado queremos conocer con estos da
tos si en estos homínidos existe una diferencia de peso corporal entre el macho y
la hembra significativa que indique un dimorfismo sexual acusado. Por otro lado,
disponemos de especímenes para los que solo tenemos estimaciones del peso para
los machos o para las hembras, pero no para ambos. En concreto, para el Proconsul
hese/oni solo tenemos estimaciones del peso corporal para las hembras {10 Kg)
pero no para el macho. Por el contrario, en el Afropithecus tenemos estimaciones
del peso corporal en el macho {35 Kg) pero no en la hembra. Determine con estos
datos si es factible admitir que nuestros antepasados homínidos eran dimórficos en
el peso corporal. Determine, además, la estimación del peso corporal del macho en
el Proconsul hese/oni y de la hembra en el Afr opithecus.
SOLUCIÓN:
No existe una solución única al primer problema ya que podemos abordarlo,
como mínimo, de dos formas complementarias. En primer lugar, podríamos com
parar las medias del peso en un diseño de medidas repetidas siendo la especie la
unidad de observación. Si no hay dimorfismo sexual en nuestros antecesores, las
medias de peso no deberían diferir estadísticamente. No obstante, a la vista de los
datos obtenidos parece lógico concluir que este análisis resultará significativo ya
que las diferencias «saltan a la vista» (revise de nuevo los valores del peso estimado
para machos y hembras). Otra forma de abordar este problema consiste en realizar
una regresión lineal con la hipótesis nula de que la pendiente es 1, lo que resulta
idéntico a plantear que el peso es, en promedio, idéntico para machos y hembras.
Es la estrategia que vamos a seguir en este ejercicio.
Veamos en primer lugar la gráfica de los datos proporcionados:
198

lOMoARcPSD|1944486
60
50
40
30
20
10
10 20 30 40 50 60 70
En el eje de abscesas (eje X u horezontal de esta figura) se localeza el peso de los ma
chos y en el de ordenadas (eje Y o vertical) el de las hembras. Podemos vesualezar los 7
pares de valores numérecos de que desponemos y la línea que representa la hepóteses
nula (pendeente egual a la unedad que endecaría egual peso para machos y hembras).
El segundo problema planteado en el enunceado hace referencea a la predecceón
del peso del macho a partir del peso de la hembra (regreseón de X sobre Y) para el
Proconsul heseloni y la predecceón del peso de la hembra a partir del peso del ma
cho (regreseón de Y sobre X) para el Afropithecus. Esto segnefica que tendremos que
calcular ambas ecuaceones de regreseón, la de Y sobre X así como la de X sobre Y.
CONDICIONES Y SUPUESTOS: Tenemos muy pocos datos para poder poner a
prueba los supuestos de endependencea, homocedasticedad y normaledad. Pero en
vesta del deagrama de desperseón, la regreseón leneal parece factible por lo que asu
meremos que estos supuestos se cumplen.
HIPÓTESIS: Se no hubeese demorfismo sexual en los homínedos antereores al ser
humano, se deduce que el peso debería ser el mesmo entre machos y hembras. Esto
segnefica que la pendeente debería ser egual a la unedad. Admetimos la falta de demor
fismo sexual como hepóteses nula por vareas razones. En premer lugar, es un punto de
referencea muy claro, del que se dereva una hepóteses nula específica. Se trabajára
mos con la hepóteses nula de que en los homínedos antereores SÍ EXIST ÍA demorfismo
sexual, tendríamos que establecer en qué grado exestía para poder establecer un
valor específico de la pendeente en la hepóteses nula. Pero esto plantea un problema
ya que no sabríamos como escoger ese valor específico con los datos de que des
ponemos. Por otro lado, la hepóteses nula de que la pendeente es egual a la unedad
parece la hepóteses más apropeada o que recoge con mayor exactitud el concepto de
«hepóteses nula»: enexestencea de deferenceas entre los pesos de hombres y mujeres.
199

lOMoARcPSD|1944486
La determenaceón del tipo de contraste, unelateral o belateral, es más problemáti

ca. Observando a los homínedos actuales, en donde el macho es más pesado por re
gla general que la hembra, podríamos plantear que la pendeente debería ser enfereor
a la unedad ya que evolutivamente es un rasgo heredado. Se los homínedos actuales
muestran este demorfismo y este es heredado, parece lógeco concluer que en los
homínedos extintos tambeén debeó darse. Por consegueente, en un deagrama donde
el peso del macho se encuentre en las abscesas y el de la hembra en las ordenadas,
la pendeente favorable a la hepóteses alternativa debería ser enfereor a la unedad (se se
entercambean los ejes, la pendeente sería supereor a la unedad, reseñando que la de
recceón de la pendeente, supereor o enfereor a la unedad, es arbetrarea ya que depende
de la convenceón que utilecemos acerca de donde ponemos el peso de machos y
hembras en la gráfica). Luego admetimos un contraste unelateral ezqueerdo (porque
la hepóteses alternativa se encuentra a la ezqueerda del valor de referencea, la unedad
en este caso) en donde la hepóteses nula será:
Ha : �1 ¿: l
H1 : �1 < 1
Para calcular el estadístico de contraste tendremos que realezar los cálculos pre
--···
veos que nos faceletarán la tarea: la extracceón de los estadísticos descreptivos.
Homínido
Proconsul nyanzae 35 15 525 1225 225_

Dryopithecus laietanus 35 20 700 1225 400
Dryopithecus brancoi 40 25 1000 1600 625
Sivapithecus punjabicus 40 20 - 800 1600 400
Oreopithecus 30 15 450 900 225
A ustralopithecus 70 31 2170 4900 961
Sumatorio 250 126 5645 11450 2836
Media -4 1,67 21
Varianzas 172,22 31,67
Cuasi-varianza 206,67 38
Covarianza 65,83
Correlación 0,89
200

lOMoARcPSD|1944486
Estos valores nos permiten calcular la recta de regresión. En primer lugar, la pen
diente de Y sobre X:
Sy J31, 67
81 = rXY -= O, 89 = O, 38
Sx J1n, 22
Y el punto de corte con la ordenada es:
80 = Y -81 X =21 -O, 38·41, 67=5, 16

-
Luego la ecuación para predecir el peso de la hembra a partir del peso del macho
en esta muestra de homínidos extintos es:
Y '=0, 38X + 5, 16
Para responder a la primera pregunta planteada, debemos poner a prueba que

la pendiente sea distinta de la unidad. Luego el estadístico de contraste de la pen
diente es:
81 -� Ha
T= = =-6, 34
0, 3 8 - 1
� Jl - r}y JnJ;i Jl -0, 892

Sx n -2 J1n, 22 6 -2
REGLA DE DECISIÓN: El valor crítico será la t con n - 2 = 4 grados de libertad

(a = 0,05 ya que no nos han dicho nada en el enunciado). En las tablas comproba
mos que este valor es -2,132.
CONCLUSIÓN: Como el estadístico de contraste es más extremo que el valor crí
tico (-6,34 < -2,13) podemos rechazar la hipótesis nula.
INTERPRETACIÓN: En los homínidos precursores de la especie humana existía
dimorfismo sexual en el peso corporal.
SITUACIÓN 8. El rendimiento en tests objetivos viene determinado por diversos

factores, algunos de ellos favorables (v.g. , el número de horas dedicado al estudio)
y otros desfavorables (v.g. , la ansiedad sufrida en el momento del examen). Para
evaluar el efecto de ambos factores sobre las puntuaciones escolares, se realizó un
estudio cuyos resultados pueden verse a continuación:
201

lOMoARcPSD|1944486
Puntuación en el test Horas de estudio Ansiedad

62 40 40
58 31 65
52 35 34
55 26 91
75 51 46
82 48 52
38 25 48
55 37 61
48 30 34
68 44 74
Determene la recta de regreseón múltiple para predecer la puntuaceón en el test a

partir de las horas de estudeo y la anseedad. Determene tambeén el grado de ajuste
global de la mesma así como los ajustes parcealezados.
SOLUCIÓN:
Se trata de un estudeo en donde se trata de evaluar la capacedad predectiva de las
vareables «Horas de estudeo» y «Anseedad» sobre el rendemeento en un test objetivo
que será la vareable dependeente. Para la semplecedad de la exposeceón, hablaremos
de X1 y X2 (horas de estudeo y anseedad, respectivamente} para las vareables predec
toras y de Y para la vareable predecha. Se asume la normaledad de las puntuaceones
de la vareable dependeente, la endependencea de las puntuaceones y la homocedas
ticedad.
Se plantea que tanto las horas de estudeo como la anseedad enfluyen sobre el
rendemeento en el test, la premera con pendeente posetiva (a mayor horas de estudeo,
mejor rendemeento en el test} y la segunda con pendeente negativa (a mayor ansee
dad, peor rendemeento en el test}.
Calcularemos el coeficeente de correlaceón múltiple y el coeficeente de determe
naceón, ajustados y sen ajustar, para tener una mededa del porcentaje de vareanza
explecado.
202

lOMoARcPSD|1944486
Puntuación en el test Horas de estudio

( Y) (X¡)
62 40 40
58 31 65
52 35 34
55 26 91
75 51 46
82 48 52
38 25 48
55 37 61
48 30 34
68 44 74
Sumatorio 593 367 545
Media 59,3 36,7 54,5
D. típica 12,32 8,53 17,426
Covareanzas:
�X1 Y - - 22706
Syx1 = -- - X i Y = -- -2176, 31=94, 29
n 10
�X2 Y - - 32 5 80
Syx2 = -- -X 2 Y = -- -3231, 85 =26, 15
n 10
�X 1 X2 - - 19746
Sx1 x2 = - X 1 X 2 =-- -2000,15=-2 5 , 5 5
n 10
Correlaceones simples:
Syx 94, 29
ryx1 =-- = =0, 897
1
Sy Sx1 12, 32·8, 5 3
S 26, 15
r, _ __yx2_ ---- =0, 122
12, 32·17, 42
YX2
- Y
5 5 x2
-25 , 5 5
=-0, 172
8, 53 · 17, 42
203

lOMoARcPSD|1944486
Estos valores nos permetirán calcular los coeficeentes de regreseón estandareza

dos, es decer, las pendeentes expresadas en puntuaceones tipecas, para X1 y X2 :
ryx Jyxi rx xi 0, 897 -[ 0, 122 · (-0, 172)]

Rl =
1-'
i
2
i
= = 0' 946
1 -rX/2 1 - (-0 ' 172) 2 .
ryxi Jyx rnX' Xi 0, 1 2 -[ 0, 90·(-0, 17)] =

R2 =
1-'
i i
= 0' 284
1 -rx21 x2 1 -(-0, 17) 2
Y los coeficeentes sen estandarezar, en puntuaciones directas y diferenceales:
Sy 12, 32
81 =� 1 -= 0,94 -- =1,365
Sx 8,53
l
Sy 12,32
82 = � 2 -=0,28 -- =0,201
Sx2 17,42
La constante para la ecuaceón de regreseón múltiple será:
En consecuencea, la ecuaceón de regreseón, en puntuaceones derectas, será:
Y '=l, 365X1 +0,201X2 - 1, 77
Para determenar se el conjunto de las vareables X1 y X2 estiman been la vareable Y,

tendremos que calcular el coeficeente de correlación múltiple:
ryx
2
+ryx
2
-2 · ryx ·ryx ·rx x
Ry . x1 x2 = ----------'------'-
2
=
l-rx x
1 2 l 2 l 2
1 2
0,897 + 0, 122 -2 · 0,897 · 0,122 · (-0,172)

2 2
=0, 939
1 - (-0, 172) 2
Y su cuadrado, el coeficeente de determenaceón, será:
204

lOMoARcPSD|1944486
2
Ry.x1x2 = 0,883
No obstante, el estimador insesgado del coeficiente de determinación vendrá

dado por:
"2 2 n -l 10-1
R y.x1 x2 =1- (l-Ry.x1x2 ) =1-(1-0,883) =0,849
n-p-l 10-2-1
Por último, los coeficientes de correlación parcial y semiparcial serán:
Para X1
Semiparcial 0,897-[ 0,122 ·(-0,172)]
0,93
)1-(-0,17)
2
Parcial
0,86
2
sr1
pr1 =--2-= 0,88
2
l-ryx2 1- 0,122
2
Semiparcial 0,122-[ 0,897(-0,172)]

0,27
�1-(-0,172)
2
Parcial
ryx1 -rYrK/x1 x2 _ 0,897-[0,122·(-0,172)]
0,63
( l-rJx2 )( l-r} x
1 2
) - )(1- 0,122 )(1-(-0,172) )
2 2
2
sr O, 07
pr2 --- 0 , 40
2 _ 2 -- _
2 2
l-ryx1 1- 0,897
205

lOMoARcPSD|1944486
Si disponemos los datos finales en una tabla resumen tendremos una idea más
clara de lo sucedido:
Y'=l, 36X1 +0, 20X2 - 1, 77

2
Ry.x1 x2 = 0, 883
Correlaciones X1: Horas estudio

Semiparcial sr1 = 0,93 5(2 = 0,27
sr21 = O/ 86 sr� = 0,07
Parcial pr1 = 0,94 pr2 = 0,63
prf = 0,88 pr� = 0,40
La ecuación de regresión indica que tanto el número de horas de estudio como

la ansiedad afectan positivamente al rendimiento aunque la primera tiene mayor
efecto ya que su pendiente es mayor: un cambio de una hora de estudio produce un
cambio de 1,36 unidades en la ejecución mientras que un cambio de ansiedad de
1 punto (en la escala que se haya utilizado) sólo incrementa el rendimiento en 0, 20
unidades. Por otro lado, una persona que no haya estudiado nada y que no tenga
ansiedad ante el examen obtendrá en el mismo una puntuación de unidades. Esto
último es interesante ya que la ejecución en el test suele tener como valor mínimo
el O, no -1, 77. Según estos resultados, una persona con Y= O no tiene un conoci
miento nulo de la materia.
El conjunto de las dos variables independientes explican un 84,9% de la variabi
lidad de las puntuaciones obtenidas en el rendimiento ( R�.x,x, = 0, 849) y deja sin
explicar un 15,1%. Esto significa que el nivel de predicción es muy alto.
Por otro lado, la variable «horas de estudio» explica un 86% de la variabilidad de
las calificaciones en el examen después de haber eliminado el influjo de la ansiedad
(srf = 0,86) mientras que la explicación de la ansiedad eliminando el influjo de las
horas de estudio es tan solo del 7% (sr� = 0,07).
La proporción de la varianza de las calificaciones no asociada con la ansiedad
pero que sí está asociada con las horas de estudio es del 88% (prf = 0,88). La pro-
206

lOMoARcPSD|1944486
porción de varianza de las calificaciones no asociada a las horas de estudio pero sí

asociada con la ansiedad es del 0,40 (pr� = 0,40) obsérvese cómo, en este caso, la
correlación parcial de la ansiedad se ha incrementado notablemente en relación a
la semiparcial, desde el 7% al 40%, mientras que con las horas de estudio esto no ha
sucedido ya que ha pasado del 86% al 88%).
La capacidad predictiva de las horas de estudio y de la ansiedad como variables

predictoras de las calificaciones en un examen es muy alta con un peso positivo en
ambos casos. La principal variación con respecto a la hipótesis planteada consiste
en el signo de la relación entre ansiedad y calificaciones ya que en el planteamiento
inicial se formulaba una relación negativa entre ambas cuando los resultados indi
can que es positiva. Esto podría ser un efecto de la ley de Yerkes-Dodson sobre la
relación entre el rendimiento y la ansiedad.
SITUACIÓN 9. Los estados de depresión en personas mayores son muy frecuen

tes y pueden dar lugar a conductas derivadas dañinas (v.g., falta de autocuidado,
aseo o incluso suicidio). En el estudio de los factores relacionados con la depresión
en mayores se han postulado diversas variables como predictoras del mismo, entre
ellas, el número de Sucesos Vitales Estresantes {SVE) acaecidos el año previo al
diagnóstico de depresión. Como SVE se pueden citar la pérdida de relaciones de
amistad o familiares por fallecimiento, enfermedades graves, pérdida del trabajo
por jubilación, etc. Otra variable predictora importante es el Número de Amigos que
pueden proporcionar Apoyo {NAA) durante momentos estresantes. En uno de es
tos estudios se midió el grado de depresión mediante e/ Beck Depression lnventory
(BDI) cuyas puntuaciones varían entre 1 y 40 (este último valor indicaría depresión
severa), el SVE mediante una escala de O a 10 (donde O sería ningún suceso estre
sante y 10 el máximo) y el NAA mediante una escala de O a 5 amigos. El objetivo del
estudio es comprobar la capacidad predictiva de ambas variables con el objetivo de
poder utilizarlas como indicadores de riesgo y actuar lo más rápidamente posible.
Los datos obtenidos en una muestra de mayores de 75 años aparecen a conti

nuación:
207

lOMoARcPSD|1944486
Iniciales del mayor

JMR 35 8 2
AVV 10 1 5
PRM 25 5 3
JMM 32 7 1
EJM 23 6 3
PGP 5 2 5
GGP 8 2 4
MAF 17 3 3
Aplique el análisis apropiado para predecir BDI a partir de SVE y NAA. Interprete
los resultados.
SOLUCIÓN:
Se espera que un incremento en los sucesos vitales estresantes incremente la
depresión (Wheaton, 1985). Por el contrario, se espera que el apoyo de los amigos
haga disminuir la depresión. Aunque esta teoría pueda parecer que ha sido deriva
da, no tanto de una teoría científica sino de la intuición, no obstante es importante
evaluar estas predicciones (intuitivas u obvias) ya que este análisis nos permitirá,
además de verificar las hipótesis «intuitivas», cuantificar el grado de relación entre
la depresión y las variables SVE y NAA, aspecto esencial en cualquier ciencia y pos
terior al descubrimiento del sentido de la relación.
El análisis apropiado en esta situación es el análisis de regresión lineal múltiple
ya que disponemos de dos variables predictoras (SVE y NAA) y una variable predi
cha (BDI). Por consiguiente, tendremos que evaluar si las variables SVE y NAA tienen
capacidad predictiva del BDI calculando el plano de regresión múltiple.
CONDICIONES Y SUPUESTOS:
1. Independencia. Podemos asumir que los sujetos se han escogido indepen
dientemente unos de otros por lo que las puntuaciones deben ser indepen
dientes. Este supuesto se pondría en cuestionamiento si, por ejemplo, los
mayores se hubiesen elegido del mismo centro de mayores o estuviesen re
lacionados familiarmente.
2. Homocedasticidad. No tenemos suficientes puntuaciones para realizar un
análisis de homocedasticidad. Asumimos que este supuesto se cumple.
3. Normalidad. Asumimos el cumplimiento de este supuesto.
208

lOMoARcPSD|1944486
HI PÓT ESIS: La hipótesis nula plantea que la pendiente de regresión para SVE y
NAA es cero, es decir, que el plano de regresión es horizontal. Esto se concreta en:
Para el número de eventos vitales estresantes:
Ha:�SVE =0
H 1 :�SVE :;t 0
Para el número de amigos:
Ha:�NAA =0
H 1 : �NAA :;t 0
En esta situación sí tendría sentido plantearse el valor del BOi cuando SVE y NAA
valen O (no tiene amigos pero tampoco ha tenido ningún evento estresante durante
el año anterior) pero no lo han planteado en el ejercicio.
ESTADÍSTICO D E CONTRAST E: Para el cálculo de los estadísticos de contraste es
conveniente disponer previamente de los estadísticos descriptivos de las tres varia
bles, BOi, SVE y NAA, que calculamos a continuación:
Estadísticos
Media 19,37 4,25 3,25
Varianza 109,73 5,94 1,69
Desv. tipica 10,47 2,44 1,30
Cuasivarianza 125,41 6,78 1,93
Estos valores nos permitirán el cálculo de las tres correlaciones necesarias para
la resolución del problema:
Sao,, svE 24 , 41
-
rao1, svE ----- =0 95
5BOi. 5 SVE 10, 47 ·2, 44
Sao,, NAA -1 2, 47
rBDl, NAA -
----- =-0 92
S80/ ·SNAA 1 0, 47 ·1 , 30
SsvE, NAA -2, 81

-
rao,, svE ----- ---=-0, 88
5 SVE ·SNAA 2, 44 · 1 , 30
209

lOMoARcPSD|1944486
En un esquema de vías (path) esa situación se reflejaría mediante la siguiente

figura (en un esquema de vías, las variables observables se representan mediante
rectángulos, las relaciones causales mediante flechas unidireccionales y las relacio
nes correlacionales entre dos variables mediante una línea bidireccional):
SVE
BDI
NAA
Los coeficientes de regresión estandarizados, paso previo para el cálculo de los

coeficientes no estandarizados y la recta de regresión, vienen dados por:
raot,SVE -(raot,NAA · rsvE,NAA) O, 95 -[( -0, 88 )(-o, 92)]

0aot,SVE = 2 = 2 = 0,62
l-rsvE,NAA 1 -(-0, 88)
Obsérvese como el esquema para el cálculo del coeficiente de regresión estan

darizada es siempre el mismo: se elimina de la correlación relacionada con el coefi
ciente a calcular aquella parte de la misma que podría deberse a una vía indirecta.
Y esta diferencia se divide entre un factor constante: la unidad menos la correlación
al cuadrado de las variables predictoras. En este caso, la correlación entre BDI y SVE
es 0,95 (vía directa entre SVE y BDI). A este valor se le resta el producto de los coe
ficientes de correlación que se encuentran en la vía «indirecta» (véase la siguiente
figura). Y la diferencia se divide por la unidad menos el cuadrado de la correlación
entre los predictores:
0,95
�ecta
---------
BDI
El segundo coeficiente estandarizado obedece a la misma lógica:
210

lOMoARcPSD|1944486
r ao1,NAA -lr ao,,svE ·r svE,NAAI -0, 95 -[(0, 95)(-0, 88 )]

�BOi,NAA =
1 - (-0, 88)2 =-0, 37
=
l-r}vE,NAA
A continuación presentamos el cálculo de los coeficientes sin estandarizar que

se utilizan para la ecuación de regresión en puntuaciones directas y diferenciales:
10, 47
S801 0, 62-
880/' SVE = �BOiSVE -- = - = 2, 66
' SsvE 2, 44
S801 10, 47
B ao/,NAA = �BOi, NAA -- = -0, 37-- = -2, 98
SNAA l, 30
Por último solo nos queda el cálculo de la constante en puntuaciones directas:
ªº = 801- Bao,,svESVE -880/,NNANNA = 10, 47 - 2, 66 ·4, 2 5 -[(-2, 98 ) ·3, 25 ] = 8. 85
Este cálculo nos permite disponer directamente de la ecuación de regresión en

puntuaciones directas:
80/ 1
= 8, 85 + 2, 66SVE - 2, 98NAA
Y en puntuaciones diferenciales:
Zao,· =0, 62ZsvE - 0, 37ZNAA
En el programa de estudio de la asignatura de Diseños de Investigación y Análisis

de Datos no se ha incluido el contraste estadístico para evaluar la significatividad de
la recta de regresión múltiple por lo que no se va a desarrollar. No obstante, tenemos
dos índices (no inferenciales sino puramente descriptivos) que nos permiten conocer
el grado en el que las variables SVE y NAA permiten estimar BDI. Son los coeficientes
de correlación múltiple (R) y su derivado, el coeficiente de determinación (R2 ).
Rao-SVE,NAA = ��80/,SVErBO/,SVE +�80/,NAArBDl,NAA =

= .JO, 62 ·O, 95 + (-O, 37) ·(-O, 92) = O, 96
Y el coeficiente de determinación será: Ri DI -SVE,N AA = 0, 962 = 0, 92.

211

lOMoARcPSD|1944486
REGLA DE DECISIÓN Y CONCLUSIÓN: Un coeficiente de determinación tan eleva

do debe considerarse significativo aunque no hayamos realizado el cálculo analítico
necesario. También es cierto que, como ejercicio de libro que es, el número de su
jetos es muy pequeño y por lo tanto, padecemos una falta de potencia estadística
grave que sería inexcusable en un estudio empírico real.
I NTERPRETACIÓN: Mediante la ecuación
80/' =8, 85 + 2, 665Vf - 2, 98NAA
podemos predecir la puntuación en depresión de personas mayores en el BDI a par

tir del número de eventos vitales estresantes y del número de amigos que pueden
proporcionar apoyo. A mayor número de eventos vitales estresantes la depresión
aumenta, medida mediante el BDI, mientras que a mayor número de amigos que
proporcionan apoyo, la depresión disminuye. La fuerza de la relación es mayor con
el índice NAA que con el índice SVE (en valores absolutos) aunque no sabemos si
esta diferencia de peso de los coeficientes es significativa.
SITUACIÓN 10. Un mecánico ha dispuesto una barra alargada de metal, aguje

reada y de peso despreciable, suspendida en el aire por 5 muelles idénticos sobre
una placa agujereada colocada verticalmente. Cada uno de los agujeros de la placa
se sitúa en un punto de la cuadrícula cartesiana con índices enteros (esto es, los
puntos {1, 1), {1, 2), {1,3}, ... , {2, 1}, {2,1}, ... ). Cada muelle dispone de dos enganches
en sus extremos. Cada uno de los muelles se dispone de tal forma que uno de los
enganches se inserta en uno de los puntos de la placa de coordenadas (X, Y) iguales
a {2, 3}, (5, 2), (7, 8),(8, 6) y {10, 10} mientras que el otro enganche se sitúa sobre
el agujero de la barra que se sitúa en su vertical. Los elementos del problema se
pueden ver en la siguiente figura.
y
X
Nota: elementos que utilizará el mecánico: a) 5 muelles, b) una barra de metal
con agujeros y de peso despreciable y una placa de metal cuadrada agujerea
da. Los elementos no están dibujados a escala (la superficie agujereada es muy
grande, la barra de metal de un tamaño intermedio y los muelles son pequeños).
212

lOMoARcPSD|1944486
Encuentre la posición que ocupará la barra (pendiente y punto de corte con la

ordenada) cuando se la deje libre.
En un principio podría parecer que este ejercicio no tiene relación con la esta
dística. En último término se trata de un problema mecánico. Pero podemos fá
cilmente intuir que la situación problema del ejercicio no es más que la analogía
física más sencilla de la regresión lineal: la barra de metal es la línea recta, la placa
de metal sería el plano de ejes de coordenadas cartesianas y los muelles realizarán
físicamente la tarea de ajustar la posición de la barra de tal forma que se equilibren
las fuerzas de los mismos en una posición de máximo equilibrio. Precisamente este
máximo equilibrio es lo que se calcula mediante el método de mínimos cuadrados.
i Los muelles están realizando el mismo cálculo que nosotros sin saber matemá
ticas! Efectivamente, los muelles están siguiendo un principio físico, no calculan
nada (de la misma forma que la luna en su movimiento alrededor de la tierra no
realiza ningún cálculo pero su movimiento puede calcularse u obedece a la fórmula
d
diferencial de Newton: F =m v ), pero su posición final obedece al principio de
, .
m1n1mos cuadrados. dt
Este ejemplo es una muestra de las analogías físicas que hacen más compren
sible los conceptos de la estadística. Otro ejemplo muy utilizado en estadística es
la media que puede representarse físicamente como el punto o fulcro de la recta
real en donde las diversas medidas realizadas se equilibrarían para mantener en
equilibrio esta recta.
En este ejemplo no tiene sentido la verificación de los supuestos, el cálculo de un
estadístico de contraste o la aplicación de una regla de decisión porque los «datos»
no son tales como tampoco la hipótesis en el sentido de que no estamos trabajando
con un conjunto de valores muestrales extraídos de una población. Este ejemplo
muestra también las diferencias entre la Física y la Psicología. En Física las predic
ciones se realizan utilizando ecuaciones fundamentales por lo que muchas veces no
tiene sentido preguntarse por cuestiones de representatividad muestra! o población
(aunque a veces sí, por ejemplo, en el estudio de las partículas atómicas). En Psico
logía, no tenemos (todavía) estas ecuaciones fundamentales y por tanto tenemos
que muestrear una población y realizar procedimientos inferenciales sobre la mis
ma. Esto no significa que la Física no utilice la estadística. Ejemplos muy claros de su
utilización están en la Mecánica Estadística, la Termodinámica, la Física Cuántica o
en el simple análisis de datos experimentales ya que toda medición contiene error.
En relación a los supuestos, obsérvese como los físicos también utilizan supues
tos (aunque no estadísticos) para facilitar su labor: en este caso, asumimos que la
barra no tiene peso o es despreciable. Si no fuese así (y nunca lo es en realidad) la
213

lOMoARcPSD|1944486
predicción no se corresponderá con la realidad ya que el peso sería otra fuerza a

considerar. Otro supuesto importante es que todos los muelles tengan la misma
constante de elasticidad ya que en caso contrario unos «tirarían» más o menos de
la barra que otros, no debido a su posición en el tablero sino a las diferencias en la
constante.
-----
Realizaremos los cálculos oportunos para calcular la pendiente y el punto de
corte con la ordenada.
2 3 6 4 9
5 2 10 25 4
7 8 56 49 64
8 6 48 64 36
10 10 100 100 100
Sumas 32 29 220 242 213
Medias 6,4 5,8 44 48,4 42,6
Varianzas 7,44 8,96 1179,2 1085,04 1283,04
Cuasi-var 9,3 11,2 1474 1356,3 1603,8
Luego:
Cov (X, Y) 6, 88
rx y= = =0, 84
' Sx Sy �7, 44 -�8. 96
Sy �8, 96
81 =rxy -=0, 84--=0, 92
Sx �7, 44
Y el punto de corte con la ordenada es:
ªº =5, 8+ 0, 9 2 · 6 , 4 =11, 69
La ecuación de regresión será:
Y'= 11, 69 +0, 92X
214

lOMoARcPSD|1944486
Podemos predecir el grado de inclinación (pendiente) en que quedará la barra

sobre el tablero vertical independientemente del tipo de muelle que utilicemos (a
condición de que todos tengan la misma constante en la ley de Hooke) así como el
punto en que cortaría al tablero si la barra tuviese mayor longitud.
SITUACIÓN 11. En el texto Principies of H uman Ev olution (Lewin y Foley, 2004)

aparece la siguiente figura (la hemos adaptado al castellano):
Outlier: indica organismos que

se alejan de las reglas Distancia (por encima o debajo) de la línea
genera les de regresión que proporciona el grado en que
.
cualquier dato particular es mayor o inferior
.. .,
. �··.
a lo esperado
.. .
/
....
./
Línea de mejor ajuste:
.,,
° 76
Lag (tamaño del rango) = 1.2 + Lag (tamaño corporal) '
Lag (tamaño corporal)
En la explicación de la misma, los autores exponen el método comparativo en

la evolución humana. El punto esencial de este método es graficar dos variables en
un gráfico y comprobar si existe correlación. Por ejemplo, el tamaño corporal está
fuertemente correlacionado con el tamaño del área que el animal necesita para
subsistir (que ellos denominan «tamaño del rango»}, como se puede comprobar
en la figura: cuanto más grande es el animal, mayor es el tamaño que necesita para
forrajear o cazar. Sin embargo, este método fue criticado en la década de 1980 debi
do a que (cito textualmente): «la base de cualquier test estadístico es que los datos
deberían ser indepen dientes unos d e otros ... en las comparaciones que se estaban
realiza d o no había tal in depend encia ya que los animales que se comparaban es
taban relaciona d os unos con otros me diante ancestros comunes» (Harvey y Pagel).
1. En el esquema usual que seguimos para analizar los datos de regresión lineal
(condiciones, hipótesis, estadístico de contraste, regla de decisión, conclu
sión e interpretación) determine dónde se encuentra la cuestión planteada
por Harvey y Pagel.
215

lOMoARcPSD|1944486
2. ¿ La relación que se muestra en la figura es realmente una relación lineal?

¿Cuál es la pendiente?
3. ¿Cuál es la escala de los ejes X e Y utilizada en la figura?
1. Claramente Harvey y Pagel han cuestionado el método comparativo en el estu

dio de la evolución humana basándose en el incumplimiento del supuesto de
independencia para aquellos casos que se habían presentado previamente en la
investigación. Si dos especies distintas de mamíferos compartían la relación que
se muestra en la figura, esto no tenía por qué deberse necesariamente a que es
tuviesen sujetos a las mismas leyes adaptativas sino porque ambos compartían
un ancestro común que los hacía semejantes en tamaño corporal y en área de
forrajeo.
2. La relación que se visualiza en la figura es la siguiente (para simplificar, X = tama
ño corporal e Y = tamaño del rango):
Lag Y =1, 2 +LogX º ' 78
La relación no parece l ineal por dos razones: en primer lugar están utilizando
no los valores originales del tamaño corporal y del área de forrajeo (X e Y, respec
tivamente) sino sus logaritmos. En segundo lugar, han elevado a la potencia 0, 78
el valor de X. Tanto el logaritmo como la potencia introducen aspectos no lineales.
A pesar de estas diferencias, la relación es lineal en coordenadas loga rítmicas
(véase la siguiente cuestión de este mismo ejercicio). La razón es que si aplicamos
una de las reglas algebraicas básicas para trabajar con logaritmos, sabemos que:
LogX ª = a Lag X
Luego la fórmula que plantean en la figura se puede representar como:
Log Y =1, 2 +O, 78LogX
Que, claramente, es una relación lineal con pendiente 0, 78 y punto de corte con
la ordenada de 1, 2 (pero en coordenadas logarítmicas).
3. La única diferencia de la ecuación Log Y = 1, 2 + 0, 78 LogX con respecto a la fór

mula usual Y = 1, 2 + 0, 78X a la que estaríamos «acostumbrados» es la utilización,
no de los valores X e Y, sino de sus logaritmos en las escalas de medida. Recorde
mos que X es el «tamaño corporal» que podría medirse en metros cúbicos (m 3 )
216

lOMoARcPSD|1944486
Soluciones a los ejercicios del capítulo B •
mientras que el «tamaño del rango», al ser un área, se mediría inicialmente en

metros cuadrados (m2 ) . Pero no es inusual que una relación no sea linea i' en las
escalas «originales» pero que sí lo sea cuando transformamos estos valores (v.g. ,
a logaritmos). Además, l a utilización de los logaritmos suele ser muy usual cuan
do el rango de valores de X o de Y es extraordinariamente grande (v.g. , tiempos
cosmológicos).
No hay nada «natural» en considerar las escalas en m3 o m 2 como más apropia
das que las escalas en términos del Logaritmo de los metros cúbicos o del logaritmo
de los metros cuadrados. Si la relación lineal se cumple en escalas logarítmicas (u
otras) pero no en las escalas origina les, siguiendo un principio de simplicidad, es
preferible realizar todo el proceso de ajuste de regresión lineal transformando pri
meramente las escalas X e Y a Log (X) y Log(Y) para realizar este ajuste sobre estas
puntuaciones transformadas.
HI PÓT ESIS: La situación planteada no nos permite plantear ninguna hipótesis so
bre el valor de la pendiente excepto que ésta es distinta de cero. Como, además, el
ejemplo no nos ha proporcionado directamente los valores numéricos ni nos permi
te estimarlos a partir de la gráfica (obsérvese que ni X ni Y tienen valores concretos
en sus ejes}, no podemos realizar los cálculos apropiados que, por otra parte, no
son necesarios ya que nos proporcionan la ecuación de regresión.
Por último, hay dos aspectos de la figura interesantes. En primer lugar, la presen
cia de outliers (valores atipicos o extremos) es atribuida a especies que no siguen
la regla general. En segundo lugar, parecen señalar que la distancia de cada dato a
la recta de regresión no se realiza verticalmente sino con un ángulo de 90º con res
pecto a esta recta (compárese la línea de puntos, no la de guiones, de la figura con
las líneas verticales de la Figura 8. 2 del texto de Diseños de Investigación y Análisis
de Datos).
Chiste
(gracias a Gary Ramseyer por su estupenda colección de chistes estadísticos que

nos distraen de vez en cuando de la belleza y la complejidad de las matemáticas, de
esa forma no sufrimos el síndrome de Stendhal)
E n un a cl ase de est adístic a, el profeso r h abía term in ado de dar un a presentac ió n que
él pens ab a soberbia sob re l a reg res ió n b i-variad a cuan do levantó l a vista po r enc im a
de l a luz cegado ra del proyecto r y o bservó a u n estud iante al fo n do de l a cl ase que es
t ab a c as i do rm ido. Esto resultó exces ivo para el ego del profes o r y co n el ceño frunc ido
217

lOMoARcPSD|1944486
• Ejercicios y prob lema s resueltos y comentados. D iseños de i nvestiga ción y a ná l i si s de datos
se d irig ió a l estud ia nte: « Usted, joven, quiero que responda a una pregunta sobre este
problema. Para una persona con un valor en X de 45, ¿ está el valor de Y por encima o
por debajo de la media de su subgrupo en Y?»
El joven estudia nte, a ú n aturdi do, m iró al techo dura nte d iez segun do s y respo n d ió
«Sí».
E l profeso r no po día creer lo que esta ba oyen do y rápida mente d ij o «Joven, i Esta no es
una cuestión de Si/No! Diga simplemente arriba o debajo» .
El estud ia nte respo n dió « iArriba o abajo !».
El profeso r rema rca «óí?» .
El estud ia nte, a h o ra y a completa mente despierto, respo n dió « Pero señor, esa fue mi
respuesta original»
218

Cuadernos Ejercicios Diseños Bueno

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Cuadernos Ejercicios Diseños Bueno

Cargado por

Copyright:

Formatos disponibles

lOMoARcPSD|1944486

Ejercicios Y Problemas Resueltos

Diseños de Investigación y Análisis de Datos (UNED)

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)

Ejercicios y Problemas Resueltos y Comentados

Ángel Villarino Vivas

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)

l. Soluciones a los ejercicios de los capítulos 1 y 2............................................ 3

2. Soluciones a los ejercicios de los capítulos 3 y 4............................................ 61

3. Soluciones a los ejercicios de los capítulos 5, 6 y 7 ....................................... 113

4. Soluciones a los ejercicios del capítulo 8 ...................................................... 165

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)

Como todo estudiante debe conocer, la Psicología es una disciplina académica,

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)

• Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de datos

información que nos permita, en un segundo paso, formular hipótesis sustentadas

2. FORMULACIS)'N DE LAS HIPÓTESIS NULA Y ALTERNATIVA

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)

• Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de datos

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)

nula consiste en fijar el nivel de significación a, por lo que automáticamente se fija

Madrid, septiembre de 2015

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)

Soluciones a los ejercicios

SITUACIÓN l. Un sociólogo conoce, por investigaciones anteriores, que el suel­

CONDICIONES Y SUPUESTOS: El diseño de este trabajo utiliza una muestra alea­

H0: cr2 :s; 180 H1.. cr 2 > 180

ESTADÍSTICO DE CONTRASTE: El estadístico chi-cuadrado toma el siguiente valor:

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)

• Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de datos

REGLA DE DECISIÓN: En una distribución chi-cuadrado hay que buscar el valor

Tabla 1: Representación parcial de la tabla de la distribución chi-cuadrado.

CONCLUSIÓN: Como el valor del estadístico de contraste obtenido no supera el

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)

Soluciones a los ejercicios de los capítulos 1 y 2 •

Figura 1: Representación gráfica del nivel crítico del esta­

INTERPRETACIÓN: La variabilidad del sueldo de las mujeres no es significativa­

CONDICIONES Y SUPUESTOS. El diseño de este trabajo utiliza una muestra alea­

ESTADÍSTICO DE CONTRASTE: La distribución muestra! de la media de muestras

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)

• Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de datos

z o 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09

Tabla 2: Reproducción parcial de la tabla de la distribución normal tipificada.

CONCLUSIÓN: Como el estadístico de contraste (Z = -5) supera la máxima di­

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)

Figura 2: Nivel crítico p del estadístico Z = -5

INTERPRETACIÓN: Con un nivel de confianza del 99% se puede afirmar que el

= Y-µa � = Y-1500 Distribución muestra! de la media

= Y-µ1 = 1453, 4 -1400 = 53, 4 =

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)

• Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de datos

La potencia del contraste es la probabilidad de rechazar una Ha que es falsa. Y

SITUACIÓN 2. Un investigador social tiene la hipótesis de que la edad media

Ha : µ edad :s; 13 años H1 : µ edad > 13 años

ESTADÍSTICO DE CONTRASTE: Siendo los datos provenientes de una población

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)

Soluciones a los ejercicios de los capítulos 1 y 2 •

REGLA DE DECISIÓN: En la distribución t de Student con 24 gl y para un contraste

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)

• Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de datos

CONCLUSIÓN: Se rechazaría la Ho con un nivel de confianza del 95% pero no se

SITUACIÓN l. Un sociólogo conoce, por investigaciones anteriores, que el suel

CONDICIONES Y SUPUESTOS: El diseño de este trabajo utiliza una muestra alea

Figura 1: Representación gráfica del nivel crítico del esta

INTERPRETACIÓN: La variabilidad del sueldo de las mujeres no es significativa

CONDICIONES Y SUPUESTOS. El diseño de este trabajo utiliza una muestra alea

CONCLUSIÓN: Como el estadístico de contraste (Z = -5) supera la máxima di

REGLA DE DECISIÓN: En la distribución normal y para un contraste bilateral, bus

De acuerdo con esta estimación, la proporción poblacional de votos para el par

ESTADÍSTICO DE CONTRASTE: La variable de estudio «estar en posesión de es

5.2. El segundo contraste es unilateral izquierdo, ya que el investigador está mar

ESTADÍSTICO DE CONTRASTE: Tratándose de una variable que se distribuye nor

Y el intervalo de confianza se obtiene sumando y restando a la media de la mues